来自新泽西理工学院(NJIT)和费城儿童医院(CHOP)的一组研究人员通过机器学习开发了一种算法,该算法有助于预测DNA甲基化的位点——这一过程可以改变DNA的活性而不改变其整体结构——并且可以识别出传统筛查方法无法识别的致病机制。
这篇论文本周由该杂志在线发表自然-机器智能爱博网投官方网站。
DNA甲基化参与了许多关键的细胞过程,是基因表达的重要组成部分。同样,甲基化错误可能与多种人类疾病有关。虽然基因组测序工具在精确定位可能导致疾病的多态性方面是有效的,但这些相同的方法无法捕获甲基化的影响,因为单个基因看起来仍然是相同的。具体来说,已经有相当多的努力来研究真核细胞(包括人类细胞)中n6 -腺嘌呤(6mA)的DNA甲基化,但是尽管基因组数据可用,甲基化在这些细胞中的作用仍然难以捉摸。
CHOP应用基因组学中心(CAG)主任、该研究的资深合著者之一、医学博士Hakon Hakonarson说:“以前,已经开发的用于识别基因组中这些甲基化位点的方法非常保守,只能在给定时间内查看某些核苷酸长度,因此遗漏了大量的甲基化位点。”“我们需要开发一种更好的方法,用一种工具来识别和预测甲基化位点,这种工具可以识别整个基因组中可能具有强大功能影响并可能导致疾病的基序。”
为了解决这个困扰研究界的问题,CAG及其在新泽西理工大学的合作伙伴转向了深度学习。该校计算机科学教授、该研究的资深合著者zhiwei博士与Hakonarson及其团队合作开发了一种深度学习算法,该算法可以预测这些甲基化位点发生的位置,从而帮助研究人员确定它们可能对某些附近基因产生的影响。
魏称他的软件为Deep6mA。为了预测这些甲基化位点的位置,Wei领导了一种神经网络的开发,这是一种机器学习模型,试图以类似于大脑的方式学习。神经网络以前曾被用于细胞研究,但这是它第一次应用于研究天然多细胞生物的dna甲基化位点。
Wei列举了新方法的四个优点:自动表示不同层次细节的序列特征;整合广泛的甲基化序列的侧翼感兴趣的基因;使固有序列基序的潜在可视化能够用于解释;促进大规模基因组数据的模型开发和预测。
研究小组将该算法应用于三种不同类型的代表性生物:拟南芥、黑腹菌和大肠杆菌,前两种是真核生物。Deep6mA能够识别6mA甲基化位点,精确到单个核苷酸或DNA基本单位的分辨率。即使在这个初步的确认研究中,研究人员也能够可视化地观察到他们用以前的方法无法观察到的调节模式。
“一个限制是我们提出的预测纯粹基于序列信息,”魏在他的研究讨论声明中说。“候选人是否为6mA网站还取决于许多其他因素。甲基化,包括6mA,是一个动态的过程,它会随着细胞环境的变化而变化。未来,我们会考虑其他因素,比如基因表达。我们希望通过整合其他数据来预测蜂窝环境下的6mA。”
“我们已经知道,许多基因具有由甲基化引起的致病机制,虽然这项研究没有在人类细胞中进行,但真核细胞模型非常相似,”Hakonarson说。“基因组科学家希望将他们的发现转化为临床应用,他们会发现这个工具非常有用,这种精度水平最终可能会导致发现特定的细胞或靶点,这些细胞或靶点是治疗干预的候选者。”
期刊引用:
引用此页: