Nature重大突破：医疗AI新进展，放射科医生短缺问题迎来解决方案

03-06 06:33

为医生减轻负担。

试想一下，一位放射科医生平均要花20分钟，仔细查看数百张切片，才能完成一次腹部CT的解读。

在全球范围内，这样的情况每年会发生3亿次，仅腹部CT的数量就占总量的四分之一。但和海量的影像需求形成鲜明对比的是严重的人力危机：预计到2036年，全球放射科医生的缺口将超过19000人。

AI能成为帮手吗？可惜的是，现有的医学AI大多还处于平面阶段。它们多基于2D图像构建，很难真正理解CT扫描复杂的3D体积特性，而且极度依赖昂贵的人工标注，泛化能力也很有限。

如今，斯坦福大学的研究团队在Nature期刊上发表了一项重大成果：一个名为Merlin的3D视觉-语言模型（VLM），不仅能原生处理3D体积数据，还在不需要额外人工标注的情况下，展现出超过传统模型的出色临床能力，为医学影像分析带来了全新的模式。

论文链接：https://www.nature.com/articles/s41586-026-10181-8

研究结果显示，Merlin不仅能辅助腹部CT扫描的判读，减轻放射科医生的工作负担，还能为未来生物标志物的发现和疾病风险分层创造价值。

Merlin是什么？能做什么？

Merlin是一个原生3D视觉语言模型（3D VLM）。它的核心能力是直接理解和处理完整的腹部CT容积数据。它可以同时融合三种不同维度的临床信息，也就是体积CT扫描、电子健康记录（EHR）里的诊断代码，以及放射科医生写的自由文本报告。

在训练策略方面，Merlin采用了高效的弱监督学习框架，完全避免了对昂贵人工标注数据的依赖。这种方法直接挖掘并利用医院在常规诊疗过程中自然产生的大量现有数据，即结构化的EHR诊断代码和非结构化的放射科报告，把它们作为监督信号来推动模型学习。具体的训练数据规模非常大，包含来自15331次CT扫描的超过600万张图像、180万个诊断代码和600万个文本标记。通过对这些现有数据的挖掘，Merlin实现了自我学习，大大降低了数据获取的门槛和成本。

图 | Merlin训练与评估概述。

Merlin的核心优势

研究团队在涵盖六大类任务、共752个具体子任务的基准测试中，对Merlin进行了全面评估，结果证明它具有超过传统方法的综合性能。

零样本分类测试表明，Merlin能直接识别30种常见的腹部影像表现，内部验证集的F1分数高达0.741，在包含椎体骨折检测的外部验证中也达到了0.767。在跨模态检索任务中，不管是“从图像检索发现”还是“从发现检索图像”，Merlin的准确率都明显优于OpenCLIP等现有的2D视觉-语言模型。另外，Merlin还能利用CT图像直接预测692种临床表型，平均AUROC达到0.81，其中15%的表型预测准确率甚至超过了0.9。

在经过微调的模型适应任务中，Merlin同样表现突出。在疾病预测方面，即使只使用少量标签，Merlin也能准确预测患者未来5年内患慢性病的风险。在放射科报告生成任务上，Merlin生成的报告在结构完整性和质量上都比现有的RadFM等基线模型好。值得一提的是，在3D语义分割任务中，当只使用10%的训练数据时，Merlin的分割效果已经超过了专业分割模型nnU-Net，显示出它在低数据资源环境下的巨大优势。

图 | 零样本分类的实现过程，通过对比疾病存在提示和疾病不存在提示的文本嵌入与图像嵌入。

除了在内部测试集上的优秀表现，Merlin在严格的验证环节中也显示出强大的鲁棒性和泛化潜力。

在外部泛化能力测试中，研究团队在3个外部医疗机构的44098次CT扫描上对模型进行了验证。结果显示，即使面对来自不同设备制造商、不同患者人群分布以及不同医生报告风格的数据分布差异挑战，Merlin仍然保持了高性能，没有出现明显的性能下降，证明了它应对真实世界复杂环境的稳定性。

更让人关注的是，Merlin表现出了惊人的跨解剖部位泛化能力。虽然这个模型只在腹部CT数据上进行训练，但在胸部CT的测试评估中，它的表现击败了专门针对胸部CT训练的基础模型。这一结果有力地证明了Merlin所学到的3D特征表征具有很强的通用性和迁移能力，让它有潜力解决多种医学影像问题。

图 | 腹部与胸部CT扫描的外部验证。这些结果证明了Merlin在来自外部站点的44098例腹部和胸部CT扫描中的出色性能。

这种全面的优越性在严格的横向对比中得到了进一步证实。通过与最先进的微调2D VLM、2D到3D升维VLM以及仅3D视觉模型进行系统比较，结果清楚地表明：Merlin的视觉-语言预训练策略明显优于仅视觉预训练。不管是在数据稀缺还是全监督的设置下，Merlin的性能都全面超过其他基线模型。

图 | 替代架构实验。a–c，基线模型包括五个二维视觉语言模型（2D VLMs）(a)、三个二维到三维提升的视觉语言模型（2D-to-3D lifted VLMs）(b)以及两个纯三维视觉模型（3D vision-only models）(c)，用于评估Merlin数据集的不同训练策略。基线模型作为与Merlin数据集的对比基准。基线模型的训练流程也进行了说明。

意义与展望

Merlin的出现不只是一次技术上的成功，更预示着临床工作流程的深刻变革。

在实际应用方面，这个模型有望成为放射科医生的得力助手，通过自动化生成结构化报告、辅助进行准确的诊断编码（ICD编码）以及快速检索相似历史病例，大大减少因重复性劳动带来的工作负荷，并有效降低人为计费错误。更重要的是，Merlin表现出了超过人类视觉局限的潜力。它能从复杂的3D体积数据中深入挖掘出那些在常规阅片过程中容易被忽视的早期疾病生物标志物。

从行业发展的宏观角度来看，Merlin的研究成果为医学人工智能的训练模式提供了重要启示。对比实验结果有力地证明了，和单纯的“图像自监督学习”相比，利用自然语言进行“视觉-语言对齐”能提供更丰富、更高效的监督信号，从而学习到更具泛化性的特征表征。

另外，为了推动整个医学AI社区的共同进步，研究团队秉持开放科学的精神，不仅公开了Merlin的模型代码，还发布了一个包含25494对腹部CT扫描与放射科报告的高质量数据集。这一举措将为全球研究人员提供宝贵的资源，加快3D医学视觉-语言模型及其下游应用的研发和创新。

本文来自微信公众号“学术头条”（ID：SciTouTiao），作者：王跃然，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

深圳南山区官宣：中国首个万亿GDP地市辖区诞生

新AI模型为何刚推出就优势不再？

企业AI工具落地指南：OpenClaw应用的四大核心困惑与破解策略

超200亿！龙湖、万达、荟聚等知名商场易主保险资金成主力核心城市大额交易稳市场