关键词:
矩阵分解
本地化差分隐私
目标扰动
推荐算法
隐私保护
摘要:
推荐系统作为有效应对信息过载的工具被广泛应用在电子商务、社交媒体和新闻资讯等领域中。矩阵分解具有泛化能力强和计算效率高的优点,是构建推荐系统的主流算法之一。为提高推荐质量,推荐服务器需要收集大量用户数据用于推荐模型的训练。由于推荐服务器不是完全可信的,向服务器共享用户数据会对用户隐私构成极大的威胁。如何构建一个在保护用户隐私的同时,还能确保推荐质量和准确性的系统,成为了一个热门的研究话题。本地化差分隐私是一种分布式的隐私保护机制,它从中心化差分隐私中发展而来,旨在解决服务器不可信场景下的数据的安全收集和分析。这种框架通过精确的数学证明来确保隐私保护的强度。目前,已经有研究工作将本地化差分隐私引入推荐系统,目的是在推荐效果可接受的情况下,确保用户隐私数据的安全。然而,这些研究还面临一些挑战。首先,隐私保护的范围有限。目前的方法大多只关注显式数据的具体数值,认为这是用户的隐私信息。事实上,攻击者可以通过检查数据是否包含在数据集中,来推测用户的隐私信息。其次,推荐质量较低。本地化差分隐私通过引入扰动来保护用户隐私,但这种方法会导致扰动幅度过大和误差累积,进而影响推荐质量。在推荐服务器不可信场景下,本文提出一种基于本地化差分隐私的矩阵分解推荐算法。首先,该算法将评分数值和评分存在性同时作为隐私保护的对象,为用户提供全面的隐私保护。其次,本算法采用目标扰动方法,添加的噪声量不会随着迭代次数增加而增加,有效避免模型训练过程中噪声累积的问题,保证模型训练的有效性。最后,针对分布式场景下多轮迭代导致的中间参数泄露问题,以无放回方式将采样的模型梯度元素发送给推荐服务器,用于模型训练。本文从理论上证明了所提算法满足本地化差分隐私。对所提算法的效用分析证明本文算法在保证有效的推荐质量的同时,能够实现对用户隐私数据的保护。实验结果表明本文算法极大地提高了隐私保护推荐算法的性能,本文算法在公开数据集上的误差下降幅度平均可达18%,在推荐领域数据隐私保护中展现出良好的应用价值。