当我们在网上购物时,算法会推荐产品,或者当我们在流媒体应用程序上听音乐时,算法会推荐我们可能喜欢的歌曲。
这些算法通过使用我们过去的购买和浏览历史等个人信息来生成量身定制的推荐。这些数据的敏感性使得保护隐私变得极其重要,但是解决这个问题的现有方法依赖于需要大量计算和带宽的重型加密工具。
麻省理工学院的研究人员可能有一个更好的解决方案。他们开发了一种高效的隐私保护协议,可以在非常慢的网络上运行在智能手机上。他们的技术在确保推荐结果准确的同时保护了个人数据。
除了用户隐私之外,他们的协议最大限度地减少了数据库中未经授权的信息传输,即所谓的泄漏,即使恶意代理试图欺骗数据库以泄露秘密信息。
在数据泄露可能违反用户隐私法的情况下,新协议可能特别有用,比如当医疗保健提供者使用患者的病史在数据库中搜索有类似症状的其他患者时,或者当一家公司根据欧洲隐私法规向用户提供定向广告时。
“这是一个非常困难的问题。我们依靠一整套密码学和算法技巧来达成我们的协议,”Sacha Servan-Schreiber说,他是计算机科学与人工智能实验室(CSAIL)的研究生,也是介绍这个新协议的论文的主要作者。爱博网投官方网站
Servan-Schreiber与CSAIL的研究生Simon Langowski以及他们的导师和资深作者Srinivas Devadas (Edwin Sibley Webster电气工程教授)共同撰写了这篇论文。这项研究将在IEEE安全与隐私研讨会上发表。
隔壁的数据
算法推荐引擎的核心技术被称为最近邻搜索,它涉及在数据库中找到最接近查询点的数据点。在附近映射的数据点具有相似的属性,称为邻居。
这些搜索涉及到与包含数据点属性的简明表示的在线数据库链接的服务器。在音乐流媒体服务的情况下,这些被称为特征向量的属性可以是不同歌曲的类型或流行程度。
为了找到歌曲推荐,客户端(用户)向服务器发送一个包含特定特征向量的查询,比如用户喜欢的音乐类型或他们收听习惯的压缩历史记录。然后,服务器提供数据库中最接近客户端查询的特征向量的ID,而不显示实际向量。在音乐流媒体的情况下,这个ID可能是一首歌的标题。客户端学习推荐的歌名,而不学习与之相关的特征向量。
“服务器必须能够在没有看到正在进行计算的数字的情况下进行计算。它实际上不能看到特征,但仍然需要给你数据库中最接近的东西,”Langowski说。
为了实现这一目标,研究人员创建了一个协议,该协议依赖于访问同一数据库的两个独立服务器。使用两台服务器使该过程更高效,并允许使用称为私有信息检索的加密技术。Servan-Schreiber解释说,这种技术允许客户端查询数据库而不显示它正在搜索的内容。
克服安全挑战
但是,尽管私有信息检索在客户端是安全的,但它本身并不提供数据库隐私。数据库为客户机提供了一组候选向量(可能是最近的邻居),客户机随后通常会使用蛮力对其进行筛选。但是,这样做可能会向客户机透露数据库的很多信息。额外的隐私挑战是防止客户端学习这些额外的向量。
研究人员采用了一种调整技术,首先消除了许多额外的向量,然后使用了一种不同的技巧,他们称之为遗忘掩蔽,以隐藏除实际最近邻居之外的任何额外的数据点。这有效地保护了数据库的隐私,因此客户端不会了解数据库中的特征向量。
一旦他们设计了这个协议,他们就在四个真实世界的数据集上用一个非私有的实现来测试它,以确定如何调整算法以最大限度地提高准确性。然后,他们使用他们的协议对这些数据集进行私人最近邻搜索查询。
他们的技术要求每个查询只需要几秒钟的服务器处理时间,客户机和服务器之间的通信不到10兆字节,即使数据库包含超过1000万个条目。相比之下,其他安全方法可能需要千兆字节的通信或数小时的计算时间。对于每个查询,他们的方法都达到了95%以上的准确率(这意味着几乎每次都能找到与查询点最接近的实际邻居)。
他们用于启用数据库隐私的技术将阻止恶意客户端,即使它发送错误的查询来试图欺骗服务器泄露信息。
恶意客户端不会比遵循协议的诚实客户端了解更多信息。它还可以防止恶意服务器。如果一个人偏离了协议,你可能不会得到正确的结果,但他们永远不会知道客户的查询是什么,”Langowski说。
未来,研究人员计划调整协议,使其仅使用一台服务器就能保护隐私。这可以使它应用于更多的实际情况,因为它不需要使用两个不串通的实体(彼此不共享信息)来管理数据库。
引用此页: