AI“显微镜”观察人类DNA:Genome,谷歌Alpha
今天,谷歌DeepMind推出了智东西6月25日的报道。AlphaGenome,一个AI模型可以帮助我们快速预测基因变化的影响。
AlphaGenome就像一个“观察人类DNA的AI显微镜”,它接近100万个体碱基输入长DNA序列,预测数千种在20多个广泛的基因组预测标准中,表征其调节活性的分子特征,实现了最先进的性能。
AlphaGenome与现有的DNA序列模型相比,有几个独特的特点:支持长序列前后高分辨率文本,综合多模态预测,高效变异评分和新颖的剪切连接模型。
目前,谷歌通过AlphaGenome API为非商业研究提供AlphaGenome预览版,并计划在未来发布该模型。
Calebebeb博士纪念斯隆·凯特琳癌症中心 Lareau说:“这是这个领域的里程碑。我们首次拥有一个单一的模型,可以统一远程前后文本、基础精度和各种基因组任务的尖端性能。”

论文地址:https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf
01.输入百万DNA序列,预测数千种分子特征
AlphaGenome模型输入了近100万个碱基对长DNA序列,预测了数千个分子特征来表示其调节活性。遗传变异或突变的影响也可以通过比较突变序列和非突变序列的预测结果来评价。
预测属性包括基因在不同细胞类型和组织中的起止位置、基因切割位置、RNA数量以及哪些DNA碱基可以相互接近、相互接近或与某些蛋白质结合。培训数据来源于大型公共联盟,包括ENCODE、GTEx、4D 这些联盟通过实验测量了Nucleome和FANTOM5的这些特性,包括数百种人类和小鼠细胞类型以及组织中基因调节的重要方法。
下面的动画显示AlphaGenome输入了100万个DNA字母,并且预测了不同组织和细胞类型的不同分子特征。
AlphaGenome架构利用卷积层初步检测基因组序列中的短方法,利用转化器将信息传递到序列的所有位置,最后利用一系列层将检测到的方法转换成不同模式的预测。在训练过程中,该计算分布在单个序列中的多个互连张量控制部件(TPU)上。
基于谷歌之前的基因组学模型Enformer,该模型与AlphaMissense紧密相连,后者专门对蛋白质编码区域变异的影响进行分类。基因组的2%被覆盖在这些区域。其它98%的区域称为非编码区,对于调节基因活动尤为重要,并且包含了许多与疾病有关的变异。AlphaGenome为解读这些广泛的序列及其内部变异提供了一个新的视角。
02.高分辨率的长序列前后文本,综合预测多模式
AlphaGenome与现有的DNA序列模型相比,有几个独特的特点:
1、高分辨率长序列前后文章
谷歌的模型分析高达100万个DNA碱基,预测单个碱基的分辨率。长序列前后对于覆盖远程控制基因的区域尤为重要,碱基分辨率对于捕捉详细的生物细节尤为重要。
之前的模型必须在序列长度和分辨率之间进行测量,这限制了它们可以联合建模和准确预测的模型范围。谷歌的技术进步解决了这个限制,不需要显著增加训练资源——训练单个AlphaGenome模型(未蒸馏数据)需要4个小时,所需的计算预算只有训练原始Enformer模型的一半。
2、多模态综合预测
AlphaGenome可以通过解锁长输入序列的高分辨率预测来预测最多样化的模式。因此,AlphaGenome为科学家提供了更全面的信息来调节复杂的基因步骤。
3、高效率变异评分
AlphaGenome除了预测各种分子特征外,还可以在一秒钟内有效地评估基因突变对所有这些特征的影响。通过比较突变序列和非突变序列的预测,可以通过用不同的方法有效总结这种比较来实现。
4、剪接连接模型新颖
许多罕见的遗传性疾病,如脊髓性肌萎缩症和其他形式的囊性纤维化,都可能是由于RNA剪切错误造成的。RNA剪切是指RNA分子的部分被移除或“剪切”,然后剩余的尾端再次连接在一起的过程。第一次,AlphaGenome可以直接从序列中模拟这些连接位置和表达水平,从而对RNA剪切对遗传变异的影响有更深入的了解。
在超过20项基准测试中,表现最佳。
在广泛的基因组预测标准中,AlphaGenome已经完成了最先进的性能,例如预测DNA分子的哪些部分会接近,遗传变异是否会增加或减少基因的表达,或者它是否会改变基因的切割方式。
下面的条形图显示了AlphaGenome在选定的DNA序列和变异效应任务上的相对改进,并且比较了每个类别中当前最佳方法的结果。

AlphaGenome在预测单个DNA序列时,在24项评估中,有22项的表现优于市场上现有的最佳模式。在预测变异调控效应时,其26项评估中,有24项的表现与最佳外部模型相当,甚至超过了最佳外部模型。
这个比较包括针对特定任务模型的比较。AlphaGenome是唯一一个可以共同预测所有评估模型的模型,显示出它的实用性。
04.统一模型,更快地生成和检测假设
AlphaGenome的实用性使科学家能够同时调用单个API来探索一种变异对多种模式的影响。在不使用多种模式来研究不同的模式的情况下,这意味着科学家可以更快地生成和检测假设。
另外,AlphaGenome的出色表现表明,在基因调节的背景下,已经学会了相对通用的DNA序列表征。它为更广泛的社区研究奠定了坚实的基础。为了更好地解决自己独特的研究问题,科学家们将能够在自己的数据集中进行优化和微调。
最后,这种方法为未来提供了一个灵活且可扩展的结构。AlphaGenome的功能可以通过扩展训练数据来扩展,从而获得更好的性能,覆盖更多的物种,或者包括更多的模式,使模型更加全面。
帮助理解疾病,基础研究等等
AlphaGenome的预测能力可以帮助多种研究方法:
1、疾病理解:AlphaGenome通过更准确地预测基因变异,可以帮助研究人员更准确地找出疾病的潜在原因,更好地解释与某些特征相关的变异的功能影响,从而找到新的治疗目标。我们认为这种模式特别适合研究可能产生巨大影响的罕见变异,例如引起罕见孟德尔遗传病的变异。
2、合成生物学:它的预测可以用来指导合成DNA的设计,具有特定的调节功能——例如,它只激活神经细胞中的基因,而不是肌肉细胞中的基因。
3、基础研究:它可以识别和调整特定细胞类型功能最重要的DNA指令,帮助绘制基因组的关键功能元素并定义其功能,从而加速我们对基因组的认知。
例如,谷歌利用AlphaGenome研究了一种潜在的癌症突变机制。对于T细胞急性淋巴细胞白血病,(T-ALL)在患者目前的研究中,研究人员观察到了基因组特定位置的突变。使用AlphaGenome,他们预测这些突变将通过引入MYB进行。 DNA结合基序激活附近的TAL1基因,复制了已知的疾病机制,突出了AlphaGenome将特定的非编码变异与疾病基因联系起来的能力。
伦敦大学学院Marc学院 “AlphaGenome将成为该领域的一个强大工具,”Mansour教授说。特别是在大规模研究的情况下,确定不同非编码变异之间的相关性是非常具有挑战性的。这个工具将为我们提供一些关键的线索,帮助我们更好地了解癌症等疾病。
06.结论:AI基因预测的重要步骤
AlphaGenome意味着AI基因预测已经迈出了一个重要的一步,但是仍然存在其局限性。
和其它基于序列的模型一样,精确地捕捉到了长距离控制设备的影响(例如,那些相距超过10万 DNA 碱性调节元件)仍然是一个尚未解决的考验。
与此同时,谷歌还没有为个人基因组预测设计或验证AlphaGenome。虽然AlphaGenome可以预测分子结果,但它并不能充分展示基因突变是如何引起复杂的特性或疾病的。
本文来自微信微信官方账号的“智东西”(ID:zhidxcom),作家:李水青,编辑:心缘,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




