让不会编程的生物科学家使用AI平台-100个创新产品(9/100)


投资笔记是纪源资本对投资、商业、科技的所见所闻所想,探讨世界上的一切。
你可以在这里收获:
全球优秀科技公司管理经验,一线研究;
顶级风险投资者&企业家经验分享;
世界人文历史,大航海时代的商业知识…
#100个革新产品这是一个全新的“投资笔记”子频道,在这里,我们将为您展示优秀的科技产品,深入分析它们在创新上的独特性。
本文是#100个革新产品 第9/100篇。
百图生科成立近四年来,正试图通过跨模态大模型系统xTrimo和AI生成蛋白设计平台AIGP继续创新药物研发,拥有两个平台。如果你想通过AI技术开发药物,AI建模编程能力和生物医学背景往往是不可兼得的。
在生物计算引擎驱动突破新药研究的前提下,xTrimo更像是一个包含预训练模型的关键基础平台,而AIGP更像是一个更实用、更方便的前端平台,让即使是不懂编程的生物学家也能用自己的数据训练模型参与蛋白质设计,比过去获得更快、更准确的药物机会。
平台布局观:
不是模型,而是开发一个系统
xTrimo问世后,曾在杂志上发表研发成果,一时惊讶四次:从来没有一家公司在预训练模型中拥有如此多的数据模式,达到如此大的参数量级。
若将生命科学制药行业积累的数据比作自然语言中的文本和图像,则更容易理解xTrimo的原理。这类未经精细处理的数据极其复杂,不仅包括大家熟悉的蛋白质序列数据,还包括单细胞测序数据等。当高达100 Billion参数预训练模型在平台上不断训练各种模式的生物数据。形成的预训练模型不仅可以积极推导和链接不同的模式,还可以从序列预测结构的反过来预测序列。
作为基本模型或通用模型,这些预训练模型可以构建许多下游应用。例如,当科学家试图设计抗体时,他们非常希望能够高效准确地预测抗体的结构、表达和稳定性,然后获得结合抗体和抗原的表位或复合物结构,这些模型可以根据xTrimo的预训练进行深度设计或改进。
此外,通过预训练模型,可以指导酶的活性预测突变,将酶的活性提高数倍。例如,病毒载体是一种常见的生物工具,遗传信息可以通过病毒载体带入细胞和腺相关病毒(AAV)它是目前体内最广泛使用的基因治疗病毒载体。预训练模型后,腺相关病毒(AAV)可以更准确地预测存活率和装配率。
目前,xTrimo可以明确协助抗体、酶、AAV等方面的研究。在此基础上,百图生科建立了自己的平台商业模式,从诞生之初就倡导合作,希望通过数据合作,与各种新药研究人员、大学等科研机构甚至个人、CRO企业一起长期旅行。
合作的直接效果是摒弃传统的实验方法,在数据层面更快地找到规律,获得更准确的模型,这些模型可以指导后续产品的生成、设计和选择。由于xTrimo本身也是一个不断更新的平台,就像ChatGPT从最初的版本演变到现在的4.0一样,它的预训练模型正在加速演变,推理速度会更快,建立的模型效果也会提高,就像ChatGPT每六个月到一年的迭代更新一样。
以百图生科和赛诺菲的商业合作为例。基于xTrimo的预训练模型开发的特定任务模型将被赛诺菲整合到其分子优化和设计过程中,以便更好地设计前沿药物。JP于2024年1月 在Morgan会议上,百图生科展示了一个分子升级的案例:第二轮快速闭环迭代后,内部PoC抗体分子的亲和力增加了10倍,每轮迭代时间只有14天。
对于已发现的目标,公司还可以在xTrimo中生成模型,通过大模型“跑”出更精确的新药模型。
就AAV而言,百图生科和博腾生物,一个头部AAV。 CRO企业也达成了合作。百图生科基于博腾生物积累的腺相关病毒(AAV)研究数据开发的目的性预测模型,双方将共同提供AAV图书馆的一站式设计和验证服务,共同加快基因治疗的发展。xTrimo在这里的价值在于提高图书馆设计的命中率,降低验证所需的成本和时间。
到目前为止,百图生科已经有10多个商业客户和200多个平台用户。客户可以将模型算法集成到自己的工作流程中,也可以直接用xTrimo的模型算法优化蛋白质。
在百图生科CTO宋乐看来,百图生科绝对可以称得上是行业的领头羊。100被训练在各种模式的生物数据下。 目前,世界上最大的生命科学通用平台是Billion参数预训练模型。通过在专业期刊上发布R&D成果并参加国际学术会议,百图生科的平台目前在世界各地都很有名,这也吸引了许多跨国制药公司在2024年BIO国际会议上的青睐。
此外,他认为xTrimo的单细胞训练模型也处于行业前沿。毕竟在布局之初,百图生科就规划了整个系统,以拓展生命科学生物的模型和模式为最重要的标准,希望覆盖的行业越多越好。
AIGPP与xTrimo相辅相成。
基于xTrimo的AIGP平台更像是一种“前端”商品。AIGC生成型人工智能(Artificial Intelligence Generated Content)AIGP出现后,一个“字”之差。(Artificial Intelligence Generated Protein)它代表了各种蛋白质的AI设计和生成。
作为一个平台,百图生科的AIGP实际上汇集了一些好的、准确的下游模型,科学家或单位可以直接使用。此外,第二个重要功能是fine tuning(微调),科学家可以通过上传自己的数据来构建模型,提高蛋白质。第三个功能是优化蛋白质的多参数和多目标。
AIGP的出现直接指向产品的便利性。用宋乐的话来形容,更像是“在xTrimo外面包裹‘网络层’,让用户可以使用”。其产品理念涉及如何降低用户使用门槛、如何结合用户当前的工作流程、如何维护客户等细节。
假设用户在xTrimo进行模型开发时仍然需要具备一些编程代码的能力,那么在AIGP平台上只需点击鼠标,复制粘贴等基本工作。在其模型设计入口处,会给出各种模型对应的图标进行选择,通过对话框可以提交许多功能。提交原始数据的内容,选择自己想要的蛋白质,按下按钮,就会返回一种以图片形式显示的蛋白质三维结构。
AIGP的产品设计似乎证明了ChatGPT对话框的人性化。“毕竟很多生物学家,甚至是生物信息学专业人士,编程能力都不强。”宋乐说。当然,一些有互联网行业经验的专业人士也可以通过命令行进行输入,命令行和对话框会指向同一个平台,为对方提供相同的数据服务。

革命性蛋白设计
基于xTrimo和AIGP两个平台的工作,很大一部分是关于蛋白质的设计、生成和优化。具体来说,AIGP集成了几十种不同的蛋白质预测模型,包括蛋白质结构预测、抗体抗原亲和力预测、酶功能预测、蛋白质产量预测等。它可以在序列的基础上独立生成和预测蛋白质的序列。AIGP于2023年上线,以邀请试用开始,今年的新版本更加开放和社会化,期待用户的自助使用。
如果说人类的DNA就像汽车的操作指南,那么蛋白质就构成了汽车启动的各种部件。另一方面,一旦科研机构能够改造蛋白质或设计新的蛋白质结构,就能在医药和生物制造中发挥更多的作用。
宋乐把蛋白质比作珠链,有20种氨基酸在有机体中形成蛋白质,就像珠链上有20种不同的珠子一样。然而,20种组合是不够的。形成链条后会折叠,呈现出不同的三维形状,会影响珠链的具体功能,使蛋白质具有超乎想象的组合数量。
但是,如果把20种氨基酸和26个英文字母联系起来,很容易想到AIGP和AIGC的相似之处:每个人都可以用26个字母来组合不同的语义,百图生科的平台也可以通过预训练使用不同的氨基酸,让科学家学习新的规律,然后利用大模型的形成能力来形成新的蛋白质组合。

但是对于百图生科来说,构建这个理想的AIGP平台,充满了各种挑战。
第一,数据本身,许多与蛋白质相关的数据没有计划好。如果你想把它们作为AI可以使用的数据,你会花更多的时间。这些信息需要由一群既了解AI又了解新药研究的专业人士来解读。因此,“数据标记”甚至成为一些Biotech公司的主营业务。在百图生科平台上,仅仅“AI化”数据就花了两年时间。
另外一个难点是信息量,目前,百图生产科的平台可以支持每月生成2000种抗体的高通量,已经处于行业领先地位。“行业领先CRO一个月可能会收到几万个蛋白质生产订单”。企业与百图生产科合作,运行的数据可以用来继续赋能整个平台,支持更多的数据计算,让一个大空间平台正向循环。
建立模型也很困难。建立模型的难度不像穿一条简单的珠链,而更像是对语义的理解。深入学习后,机器需要理解复杂段落的不同语义,不仅是熟悉的部分,还有完全不熟悉的蛋白质结构或单细胞结构。因此,百图生科募集了大量具有计算生物学背景的人才,更好地引导机器处理数据,理解语言场景。
另外,为完成100 Billion参数的多模态预训练模型需要的计算率不容小觑,相当于用接近1000卡路里的GPU连续训练3-4个月。还必须配备优秀的工程师和高性能计算专业人员,将代码转换成预训练代码,并维护集群,以确保训练后的结果能够收敛到用户可以使用的效果。
对于百图生科来说,平台的建设需要大量的资金,也需要大量的人才。在公司内部,一方面有大厂或AI公司的大数据处理经验人才,另一方面有生物科学专业人员,这就带来了对百图生科管理的更高要求。最让宋乐记忆犹新的是创业第一年的“矛盾”。AI出身的同事习惯于相信数据。然而,由于生命科学中的许多实验结论与一系列条件有关,如实验手段和操作人员,他们很难接受两次实验来获得不同的结果。为考虑到这方面的影响,需要建立“批次效应”的概念,反复修改,以获得更强的鲁棒模型。
有生物学背景的同事经常认为AI应该一次性解决一个模型,对需要日复一日反复训练的AI模型的事实没有做好充分的准备。“过去,生命科学的实验就像一次又一次的高考,考试结束后收集数据。然而,AI的本质更像是日常学习或模拟测试。经过一次又一次的训练,总会有新的改进方法。”宋乐说。
生态系统的意义
百图生科一直关注新的医疗方法。在最新的研究实验中,新的RNA可以植入患者的体内,与自身细胞相匹配的蛋白质可以并行作用,从而治愈一些复杂的疾病。取出人体免疫细胞进行编码,更好地识别癌细胞的“细胞疗法”逐渐为人所知。还有就是通过调节干细胞的繁殖或分化来形成器官再生的治疗。
百图生科平台有机会帮助基因编辑效率和单细胞预训模型。每次看到相关信息的发布,宋乐都会认为百图生科在模型设计和高通量试验方面的优势足以帮助大多数R&D人。
与更多专项研究企业合作是百图生科最重要的策略。因为每个公司都有自己独特的产品、独特的切入方式和实验方式,所以对整个行业最有利的方式就是与具有不同实验能力的企业和实验室合作。
此外,这些实验返回的数据也非常重要。百图生科可以从不同的合作伙伴那里获得一定程度的数据和数据浏览权,继续训练和完善预训练模型,从而进入新的场景。一旦模型更加成熟,百图生科本身需要投入的用户介入的人工成本也会降低,客户和自己的合作模式也会逐渐变得更加规范。
目前,百图生科的工作人员正率先使用自己的平台,同时可以更好地了解客户的需求,感受客户公司的AI专家和科学家的结合,将平台嵌入到对方的工作流程中。
在宋乐看来,生命科学行业的研究本身就是实验性的。再加上AI本身的实验性和双重加持,很多业内人士很容易保持观望状态。因此,百图生科只能脚踏实地,成功建设每一个项目,让更多人相信AI的力量。正如ChatGPT也在慢慢完善一样,医学领域与AI的融合从零开始,但也在努力奔跑,自我完善。
*文章头图和封面图来源于unsplash
本文来自微信微信官方账号“纪源资本”,作者:投资笔记,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




