美籍华人学者Nature发表了一篇文章:多模态AI模型将开启生物学分析新时期

图|Bo Wang,多伦多大学医学生物理学助理教授
随着 AlphaFold 突破蛋白折叠, AI for Science 不断创新的领域,人工智能(AI)正势不可阻挡地重构生命科学的研究范式。
随着高通量组学技术的不断发展,生物信息量呈指数级增长,远远超出了我们从中提取分子信息的能力。大语言模型(LLM)通过整合海量数据,实现多任务应用,为解决海量数据处理问题提供了思路。
受此启发,中国学者、多伦多大学医学生物理学助理教授 Bo Wang 该团队及其合作伙伴提出“开发多模态基础模型,面向分子细胞生物学”(MFM)“概念,这种模式在基因组学、转录组学、表观基因组学、蛋白质组学、代谢组学和空间分析等方面进行预训练,它能表征细胞分子状态,构建细胞、基因和组织的整体图谱。
有关观点文章以“Towards multimodal foundation models in molecular cell biology“问题,已经在Nature上发表了国际权威科学期刊。

文章链接:https://www.nature.com/articles/s41586-025-08710-y
研究小组表示,通过迁移学习,MFM 可用于新型细胞类型识别、生物标志物发现、基因调节推断、虚拟扰动等多种下游任务,有望打开 AI 生物分析新时期赋能,揭示了分子细胞生物学的复杂机制,支持实验设计,扩大了我们对生命科学的认识。

图|多模态分析技术及其应用。A. 多种分析技术可以为单细胞分辨率和空间分析提供丰富多样的数据;B. 来自分析方法的数据可以揭示多个跨越中心规则的步骤;C. 重建细胞动力学的重要潜在应用机会。箭头表示,这些应用的基本机制是相互关联的。 MFM 处理一项任务可以促进其它任务的完成。
MFM 和分子细胞生物学:Lab-in-the-loop
基本模型是深度神经网络计算模型,通过对海量数据集的自我监督学习和训练,在广泛的下游任务中通过迁移学习表现出强大的能力。
基于自然语言理解的领域 Transformer 基本模型,如 GPT 和 Llama 系列,在庞大的文字词库中练习,可以通过微调或前后文学习快速适应各种下游任务。基本模型已经扩展到自然图像和视频,并且具有跨模式生成语言和图像的能力。
在分子细胞生物学领域,基础模型为整合多种生物过程的认知提供了一种方法。生物基础模型的核心优点是可以学习和表征细胞系统复杂的相互关联特征。通过在多组数据上练习,这些模型可以揭示独立试验或单个模式分析中不易察觉的微小模式和关联。在较小的研究中,可能会揭示普遍的生物学原理。

图|传统的机器学习模型和分子细胞生物学MFM 的比较
MFM 生物分子之间的秘密互动模式可以通过自我监督学习在海量多组学数据上进行预训练来捕捉。比如,基于 Transformer 架构的 MFM 模拟使用注意力机制 DNA 从序列到基因表达的动态过程,其核心优势在于打破单一模态分析的局限性,揭示跨组学数据的深层联系。这一能力得到了促进 MFM 在下游任务中表现出惊人的潜力:从重建细胞发育轨迹,到预测基因扰动反应,再到发现新的生物标志,可以提供超越传统方法的准确洞察。
研究小组特别强调 Lab-in-the-loop 创新工作流程。试验设计和计算模拟在此模式下形成闭环反馈:MFM 实验结论通过预测未知细胞系的药物敏感性来指导实验方向,反馈模型训练,形成知识迭代。这种数据驱动的跨领域知识迁移,突破了传统假设驱动研究的局限性,为复杂生物系统的建模提供了全新的思路。

图|预训练和不同数据环境下的 Lab-in-the-loop 迭代改善。a. MFM 练习来自丰富背景的生物数据。预训期间,可对具体前后条件的多样化数据进行总结,丰富已知和未知条件下的生物知识表达。在不同细胞状态下,面板中的示例场景反映了归纳基因功能的想法,这有助于推断出在应用中没有看到的功能;b. 模型 - 数据 - 实验,形成自主学习的循环。Lab-in-the-loop 为了不断提高多模态基础模型能力和产生生物学假设的质量,方法产生迭代反馈。
机遇
整合多模态数据,MFM 它在表征细胞状态、预测基因功能、重建基因调节网络等方面具有独特的优势。
就表征细胞状态而言,MFM 通过整合不同的组学数据,可以对细胞状态的可持续性有更全面的了解,然后对不同的细胞状态进行更准确的比较,补齐缺失的组学数据,比如在治疗样本中预测代谢组学数据。
对基因功能和调节进行预测,MFM 我们可以学习多组数据中的统一方法,然后预测基因功能,在特定环境下重建基因调节网络,例如结合转录组和染色质的通用数据,揭示重要的调节因素。
就虚拟扰动而言,MFM 可预测遗传或化学干扰对细胞状态的影响,从而加速对基因调节的理解和新的治疗方案的发现,如预测药物在未知细胞系统中的疗效,并协助实验验证。
研究小组指出,分子细胞生物学是为了实现这些潜在的应用。 MFM 应该具备的一些核心技术特征。
首先,MFM 多组学数据需要大规模、多样化的练习。,包括单细胞测序、空间转录组学和纵向样本等。这些信息可以从全球细胞地图等资源中获得,但需要进一步整合和规范。研究小组表示,为了解决信息量不足的问题,可以选择使用生成数据作为补充。
第二,研究小组提出了这一点。 MFM 的计算部件,包含统一的多模态数据表示,混合多层注意机制,提醒驱动训练任务与人类知识的整合。
为应对不同尺度的生物分子相互作用,MFM 建立统一是必要的 token,采用混合多层注意机制,实现初期结合,区分局部(单模态)和全局(跨模态)注意力。为实现多种下游任务,MFM 需设计提醒 token 控制的统一框架包括单模态和跨模态的自我监督学习任务,如掩码语言模型、对比学习、跨模态预测和条件生成等。
另外,研究小组认为,融入人类知识 MFM 预训过程非常重要,例如,在模型中添加通道、基因本身、蛋白质相互作用的网络和文献等知识,以嵌入或向量嵌入,从而提供有用的归纳误差,增强模型预测能力。
挑战和展望
但是,在推广应用中 MFM 在这个过程中,仍然存在技术和监督方面的挑战和限制。尽管分子细胞生物学正在建立 MFM 这些挑战与一般领域的基本模型有一些相似之处,但研究团队发现,这一领域的具体要求和潜在解决方案通常是独一无二的。他们强调以下问题:
资料和计算资源:多原子数据需要多样化和大量化;并行加速计算资源;努力扩大基本模型的实践和部署。
开放性科学与伦理考虑:应向公众开放生物基础模型;明确传递能力、局限性和使用案例;确保数据隐私。
严格评估:标准化数据集中的各种标准;评估能力,包括预测、生成、扰动和其它生物洞察;公开排名和比赛。
可解释性和幻觉风险:对大型深度学习网络的解读具有挑战性;预测需要基于训练数据,并提供生物背景;模型应该能够接受不确定的输出结果。
将 MFM 应用于整合各种组学数据,有望推动前所未有的规模和精度的生物学变革。为了实现这一假设,生物学家、数据科学家、人工智能研究人员和伦理学家需要共同努力,以生成高质量的数据和完善的模型,以确保可访问性。
展望未来,将 MFM 融入医学领域,可以促进个性化治疗、疾病建模、药物发现等领域的创新。这个和细胞图谱(例如 HCA)医学研究中发挥的变革作用完全一样。本质上,分子发现的未来将由一个充满活力和共同愿景的合作生态系统孕育,使科学界有实力应对生物学和医学中最迫切的考验。
本文来自微信微信官方账号 “学术头条”(ID:SciTouTiao),作者:锦鲤,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




