DeepMind再次放大招数,AI新工具可以分析人类基因组中的“暗物质”

06-28 07:28

根据GoogleDeepMind新开发的人工智能报告AI)AlphaGenome模型可以帮助科学家分析基因组序列中的“暗物质”-非编码区域,了解它们是如何影响细胞内部运行并引起癌症等疾病的。现在,从事非商业工作的研究者可以通过DeepMind服务器通过编程接口浏览这个模型。这是一个AI模型 6 月 25 在日本的预印本中进行了描述。


2001年,《自然》发布了由美国、英国、日本、德国、法国、中国科学家共同完成的人类基因组序列草图。然而,直到现在,大约31亿碱基对中的许多仍然是一个谜。


在人类基因组的长序列中,98%的基因不是直接参与蛋白质代码生成的,即非代码区,但它们可以影响蛋白质的活性,并且包含大量与疾病相关的变异点。这部分特别让科学家头疼。


很难找出DNA序列的作用,因为没有现成的答案,就像AlphaFold预测蛋白质3D结构一样。单个DNA片段具有许多相互关联的功能,从吸引一组细胞机粘在染色体的特定部位,将附近的基因转录为RNA分子,到吸引影响基因表达的地方、时间和程度的转录因子。例如,许多DNA序列通过改变染色体的3D形状来影响基因活性,从而限制或简化转录机的浏览。


在过去的几十年里,科学家们开发了几十种AI模型来理解基因组。他们中的许多人专注于单一的任务,例如预测基因表达水平或确定显子是如何被切割并拼接到不同的蛋白质中。AlphaGenome是一种“一体化”的工具来解释DNA序列。


AlphaGenome可以处理多达100万个DNA碱基,它可以包括一个基因和无数的调节元件,并且可以对多种生物特性进行数千次预测。而且,AlphaGenome在预测时对单个DNA碱基的变化非常敏感,这意味着科学家可以预测突变的影响。


DeepMind研究者利用AlphaGenome对之前研究中发现的一种白血病患者的突变进行了分析。该模型准确地预测了非编码区域的突变间接激活了附近的一个基因,后者是这种癌症的常见驱动因素。


然而,研究人员表示,AlphaGenome只是基于人类和小鼠的基因组,以及其它相关的测试数据来练习,还没有检测到它在其它生物中的有效性。另外,AlphaGenome预测的准确性还有提高的空间。例如,这个模型很难识别超过100,000个碱基对的目标基因序列。


Peterr,美国冷泉港实验室的计算生物学家。 Koo说,AlphaGenome和类似的模型还没有捕捉到细胞特性对DNA序列功能的影响。由于这些模型只能在一个固定的环境中预测,细胞是动态的:蛋白质水平、DNA上的化学标签等条件会随着时间或细胞类型的不同而变化,这可能会改变同一序列的行为模式。


(最初的标题是DeepMind再放大,AI新工具可以分析人类基因组中的“暗物质”)


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com