广告
科学新闻
来自研究机构

保护基因组研究的机密性

密码系统可以使“众包”基因组学成为可能,志愿者可以向受隐私保护的数据库提供信息

日期:
2018年5月7日
来源:
麻省理工学院
简介:
研究人员开发了一个系统,用于保护为生物医学研究提供基因组数据的人的隐私。这种密码系统可以使涉及多达一百万个基因组的“众包”基因组学研究成为可能。
分享:
广告

完整的故事

全基因组关联研究寻找特定遗传变异与疾病发病率之间的联系,是许多现代生物医学研究的基础。

但是基因组信息数据库会带来隐私风险。从人们的原始基因组数据中,有可能推断出他们的姓氏,甚至是他们的脸型。许多人不愿意将他们的基因组数据贡献给生物医学研究项目,而拥有大量基因组数据存储库的组织在决定是否批准研究人员的访问请求之前,可能会进行长达数月的审查。

在今天发表的一篇论文中自然生物技术来自麻省理工学院和斯坦福大学的研究人员提出了一种新的系统,用于保护那些为大规模生物医学研究提供基因组数据的人的隐私。早期的加密方法是如此的计算密集,以至于对于超过几千个基因组来说,它们变得非常耗时,而新系统承诺对多达100万个基因组进行的研究进行有效的隐私保护。

“作为生物医学研究人员,我们对缺乏数据和访问控制的存储库感到沮丧,”麻省理工学院西蒙斯数学教授、该论文的通讯作者邦妮·伯杰说。“我们预计未来会出现大规模分布的基因组数据,个人拥有自己的个人基因组,研究所和医院建立自己的私人基因组数据库。我们的工作为汇集大量基因组数据以促进科学进步提供了路线图。”

该论文的第一作者是麻省理工学院电子工程与计算机科学研究生Hyunghoon Cho;加入他和伯杰的还有斯坦福大学计算机科学研究生David Wu。

该系统的核心是一种被称为秘密共享的技术,它将敏感数据分配给多个服务器。例如,为了存储数字x,秘密共享系统可能会将随机数r发送到一个服务器,而将x-r发送到另一个服务器。

两个服务器都不能独立地推断x。但是,它们仍然可以执行有用的操作。如果一台服务器存储了一堆r并将它们加在一起,另一台服务器将所有相应的(x-r)加在一起,那么共享结果并将它们加在一起将产生所有x的总和。但是,两个服务器都不会观察到任何一个x的值。

当然,如果两个服务器都被黑了,攻击者可以重建所有的x。但只要有一个服务器是值得信赖的,整个系统就是安全的。此外,该原则适用于多台服务器。如果数据被分成四台服务器,那么攻击者就必须渗入四台服务器;黑进任何三个都不足以提取任何数据。

然而,在这种情况下,乘法比加法更复杂。将两个x相乘,除了r之外,还需要生成另外三个随机数——以密码学家唐纳德·比弗(Donald Beaver)的名字命名,被称为“Beaver triple”。反过来,这三个数字必须在使用秘密共享的服务器之间进行分配。在乘法之前,将这些数字的秘密共享分量加到x和r上,得到一个代数表达式,在这个表达式中,所有添加的随机性都可以被过滤掉,只留下两个x的乘积。

全基因组关联研究涉及一个庞大的表格或矩阵,该表格将数据库中的基因组与单核苷酸多态性(SNPs)的遗传变异位置相对应。单核苷酸多态性通常大约有一百万个,所以如果数据库包含一百万个基因组,结果将是一个百万乘百万的矩阵。

发现有用的疾病相关性需要过滤掉误导性的相关性,这一过程被称为人口分层校正。例如,东亚人经常有乳糖不耐症,但他们也往往比北欧人矮。一项关于乳糖不耐症基因相关性的naïve调查可能最终会找出与身高相关的基因。

群体分层校正通常依赖于一种称为主成分分析的算法,该算法需要涉及整个snp与基因组矩阵的重复乘法。如果矩阵中的每个条目在每次乘法中都需要自己的Beaver三元组,那么分析一百万个基因组将是非常耗时的。

但Cho、Berger和Wu找到了一种方法来构建乘法序列,这样许多Beaver三元组可以只计算一次并重复使用,从而大大降低了计算的复杂性。

他们还使用其他一些技术来加速他们的系统。因为Beaver三元组必须秘密共享,所以Beaver三元组中的每个数字都有一个关联的随机数:在双服务器场景中,一台服务器将获得随机数,而另一台服务器将获得海狸数减去随机数。

在Cho, Berger和Wu的系统中,有一个服务器专门用于生成Beaver三元组并秘密共享它们。但是,虽然它需要将Beaver数字减去相关随机数传输到适当的服务器,但它不需要传输随机数本身。相反,它只是共享它用来“播种”一种被称为伪随机数生成器的算法的数字。接收服务器可以自己生成随机数,从而节省了大量的通信带宽。

最后,在执行所有乘法运算时,系统实际上并不使用整个百万乘百万矩阵。相反,它使用一种称为随机投影的近似技术来筛选矩阵,同时保持最终计算结果的准确性。

基于这些技术,Cho、Berger和Wu的系统准确地复制了三个已发表的全基因组关联研究,涉及23000个个体基因组。这些分析的结果表明,该系统应该有效地扩展到一百万个基因组。

广告

故事来源:

材料所提供的麻省理工学院注:内容可能会根据风格和长度进行编辑。


期刊引用

  1. 赵亨勋,David J Wu, Bonnie Berger。使用多方计算的安全全基因组关联分析自然生物技术, 2018;DOI:10.1038 / nbt.4108

引用此页

麻省理工学院。“保护基因组研究的机密性:密码系统可以实现‘众包’基因组学,志愿者将信息提供给隐私保护的数据库。”《科学日报》。科学日报,2018年5月7日。< www.koonmotors.com/releases/2018/05/180507111906.htm >。
麻省理工学院。(2018年5月7日).保护基因组研究的机密性:密码系统可以实现“众包”基因组学,志愿者向隐私保护数据库提供信息。《科学日报》。2023年6月17日检索自www.koonmotors.com/releases/2018/05/180507111906.htm
麻省理工学院。“保护基因组研究的机密性:密码系统可以实现‘众包’基因组学,志愿者将信息提供给隐私保护的数据库。”《科学日报》。www.koonmotors.com/releases/2018/05/180507111906.htm(2023年6月17日访问)。

探索更多的
从科学日报

有关的故事

广告