Nature:AI击败人类医学专家?哈佛队:这个领域仍然需要处理四大难题

04-02 20:18

对于患者的护理,在医学研究和临床治疗中,对医学图像的准确解读和生成有洞察力的报告是不可或缺的,但却给人类临床专家带来了沉重的负担。


人工智能AI),特别是多模态生成医学图像解释(GenMI)该领域的快速发展为复杂的自动化过程创造了机会。尽管如此。 GenMI 预计跨学科报告的生成将达到人类专家的水平,但是仍然存在,面对准确性、透明度等方面的障碍


对于帮助临床医生提高护理质量、加强医学教育、减少工作量、扩大专业准入、提供实时专业知识,明确这些障碍并提出目的性解决方案尤为重要。


今天,来自哈佛医学院权威科学期刊研究小组 Nature 上发文,对从图像中生成医学报告的开发进行了全面总结。 AI 系统方面的进步和挑战



论文链接:https://www.nature.com/articles/s41586-024-07618-3


除分析医疗报告产生的新模式的优势和应用外,他们还提倡一种新的模式,通过授权临床医生及其患者的方式进行部署 GenMI。


发挥临床作用 GenMI 的优势


大多数现有的 AI 在放射学和临床显像中,解决方案都侧重于自动执行医学影像中的单一任务,而不考虑更全面的综合分析。


因此,AI 在医学成像和报告中有很大的潜力可以实现更广泛的应用,比如快速编写涉及多个部门的权威报告,摄入多种模式和临床数据,生成更准确、更流畅、更可解释的报告。



图|一键式生成医疗报告的应用


当前,医疗报告生成框架主要由视觉编码器和表达解码器构成。其中,编码器将图像中的视觉信息提取为向量表示,而解码器接收向量并产生特定的输出。


近年来,研究人员在编码器-解码器方法的基础上不断创新,从而更好地编码图像数据,考虑外部知识,选择异常。包括大语言模型(LLM)包括大规模预训练通用 AI 通过推动系统开发新的系统 GenMI 解决方案,彻底改变医学图像解释。


这些 GenMI 该方法可以生成更精确的医疗报告,并使用相同的基本模型来执行其它几个下游任务并处理多模态数据。


大多数算法都是基于这些算法视觉语言模型(VLM)的基础上,VLM 将单一的视觉和语言模型融入到一个统一的框架中,可以联合编码图像和文本输入。



图|GenMI 的能力


运用 GenMI 通过两种情况,可以帮助临床医生和病人,充分发挥他们在治疗环境中的优势。


第一个是布署 AI 住院实习医生。AI 作为住院实习医师或医生撰写报告的开始,住院实习医师首先会制定临床准确的报告。在开发过程中,模型可以在治疗环境中进行前瞻性测试。然后,AI 在主治医师的监督下,住院实习医师可以进行微调或校正,并从所需的调整和补充中学习。



图|布署 AI 住院实习医生


第二个是符合人的喜好。基于人类反馈的强化学习(RLHF)并且直接喜好提升(DPO)这是两种应用于这类任务的技术。


对话医学报告生成模型,让临床医生可以根据需要提供反馈和后续问题,也可以通过生成与临床医生合作。 AI 改变输入图像的属性,观察模型预测中的相关差异,将这些差异与临床医生识别的突出特征进行比较,然后对比。 AI 视频工具的审查,也可以对病人产生的报告进行调整,使其更加直白,包括较少的医学术语,病人的情况比较多。


总的来说,可通过临床医师 3 种方式与 AI 系统合作


  • 运用 AI 模型的诊断能力可以获得错误的诊断反馈。模型可以结合多模式导出,其中的解释和原始图像上的边界框可以突出图像中之前可能被忽略的相关区域;
  • 快速分析图像和报告模型的能力,有利于临床医师对类似病例和图像的快速查询;
  • 该模型可以帮助临床医生做出决策,其探究性问题可以使临床医生对特定疾病的诊断方法有更深入的了解。

仍需克服 4 大挑战


但是,研究小组表示,如果想要发挥作用, GenMI 等 AI 在处理标准、人类过度依赖、数据和模型误差、新模型、新部门等挑战方面,系统的优势。


首先,是标准及评估指标。医疗报告生成模型的安全实施,AI 在住院治疗中发挥更重要作用之前,住院实习医师必须对下游临床效果进行评估,明确评估指标。


流行的 LLM 随着时间的推移,性能会发生显著变化,这可能会导致严重的后果。例如,疾病预测模型可能会被操纵以导出特定的诊断和结果测量,从而导致处方过多、保险欺诈和临床试验的伪造。


因此,在将 LLM 部署人工智能住院实习医师时,必须确保采取一致的安全措施和监督措施。


其次,是过分依赖临床医师和病人。临床医生可能不愿意根据各种原因改变错误问责的抽象性、误差确定和自动偏差、过度依赖机器自动化指导等。 AI 生成报告中的文字,忽略了模型无法识别的罕见发现。


虽然AI住院实习医生可以让患者直接与真正的临床专家沟通,但是这些沟通需要在可控的情况下进行,这样患者就不会依靠AI住院实习医生来引导他们的医疗护理。与此同时,临床医生应该向病人传授正确的查询方法,并让他们了解AI工具,以便自己探索。在安排AI住院实习医生的整个过程中,我们必须承认AI系统的局限性,尤其是在更广泛的情况、同理心和理解领域,只有人类才能处理和提供直接护理。


随后,是不同的数据集和模型。深度学习模型,尤其是 LLM,训练数据的固有偏差很容易受到影响。在AI住院实习医生的情况下,这种缺陷特别容易引起问题,因为模型不仅会在报告中产生,还会在医学教育和临床医生的理解上继续存在这种误差。


此外,人类的主观反馈是改善AI住院医生的重要因素,这本身可能会导致一个有偏见的反馈循环。训练数据的质量、规模和平衡也是决定模型误差的关键因素,因此迫切需要更广泛、更具代表性的数据集。


现在,大多数进展都是由于 MIMIC-CXR 等待数据推动,这些数据仅限于单模态胸部。 X 除了匹配图像和相关报告外,其他数据也不均衡。与正常扫描相比,异常扫描要少得多,通常会捕捉到更常见的疾病,而罕见的疾病很少发生。异常一般仅限于图像的一小部分,模型很难筛选出来。


最终,是新的模式和新的部门。目前,将 GenMI 应用于三维成像(包括 MRI 和 CT 扫描)工作非常有限。部分原因是该领域缺乏大规模的标记数据集,只有少数未发布、稀缺或难以获得的数据集。


除三维放射图像外,GenMI 它也以有限的方式应用于其他部门。眼科和皮肤科报告的生成在一定程度上取得了成功,并将外部知识和疾病分类等标准技术纳入其考虑。虽然纳入新部门和图像类型将扩展AI工具的能力,但获取大规模多模态数据集的成本非常高,资源充足的企业可能有能力收集或授权使用这些专有数据。


在缓解临床负担、扩大专家级临床医疗服务覆盖面方面,一键生成医疗报告具有广阔的前景。GenMI 通过提供互动的临床专业知识,可以生成更高质量的报告,授权临床医生和患者,并通过拓展教育功能来改善未来的临床护理。


研究小组表示,在不同方式和部门的临床环境中,制定公开标准来衡量其效果,进行持续的临床合作和谨慎的模型验证。这一点尤为重要,有利于学术界对报告的进展进行更加透明的衡量,并为临床监管部门未来的工作提供指导,使其安全可靠。


本文来自微信微信官方账号“学术头条”(ID:SciTouTiao),作者:与可,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com