AI 驱动研究开发,如何解决缺乏优质数据的困境?
传统药物研发模式存在效率低、时间长、失败率高等诸多挑战。目前,AI正在深度重塑生物医学的研发模式,但缺乏结构化、高质量、可重用的科研数据资源,严重制约了AI算法在新药研究中的价值。
研讨会“模式生物学、表型数据和AI驱动的生物医学源头创新合作” 主办方 供图
广州国家实验室特聘研究员、博士生导师李亦学在6月15日举行的“模式生物、表型数据、AI驱动的生物医学源头创新合作”研讨会上直言,目前,中国生物医学在数据科学领域面临着“数据密集型研究起步较晚、数据资源优质可用、算法创新与工具整合门槛高”等诸多问题。在AI的推动下,不符合快速建模、准确预测和目标识别的研究要求。
在AI与生命科学相结合的过程中,人类表型组数据与模型生物表型数据(包括小鼠、斑马鱼等模型形态学、行为学、生理指标和器官功能变化)不仅是连接“基因-表型-疾病”的关键节点,也为AI算法实现机制建模和目标预测的真实生物基础提供了基础。
虽然上海在人类表型组研究和基因装饰模式下的生物品种资源方面具有国际领先优势,但人类的正向遗传数据与模式生物的反向遗传研究长期脱节,使得这些研究资源无法转化,得不到充分发挥。
南模生物(688265)董事长费俭表示,“如今,随着AI的快速发展,如何高效地将AI与上海的优势结合起来,形成 ‘基因 - 表型 - 病症 - 药物’ 研究开发新范式,是上海生物医药的破局之路。
南模生物副总经理孙瑞林表示,南模生物围绕基因修饰建立了7个基础平台,目前有14万只老鼠和70万只老鼠。基因修饰动物系统的资源与美国相当。然而,他指出,目前模型的核心种子资源仍然依赖于海外。此外,由于缺乏表格数据库,模型的销售价格难以提高。目前,由于中美竞争的影响,数据获取可能受到限制。
为了弥补基础资源的不足,复旦大学特聘教授、实验动物科学部主任丁玉强表示,复旦大学近日正在建设实验小鼠数据库,整合所有动物设施,目前已配置5万多个笼式动物设施,并计划建立网上搜索数据库,方便大家使用。
就表型数据而言,复旦大学石乐明团队搭建了全球人类表型组数据协同平台(PhenoBank )已经具备了70多个机构的服务能力。
李亦学指出,在AI的加持下,基础设施,如建立表型数据平台和模式生物平台,将在未来发挥越来越重要的核心作用。这种平台可以高质量地输出模型训练的数据,随着需求的增加,平台产生数据的能力会越来越受到重视。
为了解决数据孤岛问题,李亦学表示,广州国家实验室团队开发了生物学分析智能体Bio-OS,能够有效地解决科研人员数据分析面临的诸多难题。比如,开发门槛高,执行复杂,复用性低。
在研讨会上,上海实验动物研究中心主任范春提出建立。 统一模型遗传背景和表型数据采集规范的“上海基因工程小鼠实验标准”。
费节表示,南模生物将与上海国际人类表型组研究所石乐明合作,深入探讨表型数据的标准化分析和标准化建设,确保提供高质量的表型数据。
本次研讨会汇集了许多权威专家和工业代表,他们来自基因编辑、表型组学和AI计算。复旦大学生命科学学院教授和人类表型组研究平台也参加了研讨会。 PhenoBank 负责人石乐明;复旦大学生命科学学院教授、教育部重点实验室负责人卢大儒;黄芳,复旦大学基础医学院教授,博士生导师,孙瑞林,南模生物副总经理,研究员等。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




