研究:AI 医学诊断的平均准确性 与非专家医生相当,52.1%。

04-22 08:18

IT 世家 4 月 21 大阪都会大学医学研究生院日新闻 Hirotaka Takita 博士和 Daiju Ueda 副教授领导的研究小组最近发布了一项系统的回顾和聚集分析,对生成人工智能进行了深入评估(AI)诊断医疗状况的表现,并将其与医生进行比较。


研究小组对总计进行了筛选 18371 项目研究,最终确定 83 项目进行详细分析。这些研究涉及多种生成形式 AI 模型,包含 GPT-4、Llama3 70B、Gemini 1.5 Pro 和 Claude 3 Sonnet 等等,涵盖多个医疗领域。在这些领域中,GPT-4 这是研究最多的模型。数据显示,这些 AI 模型平均确诊准确率为: 52.1%(95% 信任区间:47.0% - 57.1%)。一些模型的诊断精度与非专家医师相当,两者之间没有明显的统计差异(精度差别:0.6% [ 95% 信任区间:-14.5% 至 15.7% ] ,p=0.93)。但是,专家医师的表现仍然优于专家医师。 AI,它的精确度差距是 15.8%(95% 信任区间:4.4% - 27.1%,p=即便如此,随着技术的不断发展,这种差距也会逐渐缩小。


研究还发现,AI 大多数医学专业的表现都比较一致,但是有两个例外:皮肤科和泌尿科。在皮肤科,AI 这可能是因为这个领域涉及到模式识别,而且这是因为它的表现更好, AI 的强项。但是皮肤科也需要对病人进行复杂的推理和决策, AI 这一优势并不能完全体现其在该领域的实际应用价值。对泌尿科而言,研究结果仅基于一项大型研究,因此其结论的普遍性受到限制。


"这项研究表明,生成式 AI 诊断能力等于非专家医生。可用于医学教育,支持非专家医师,并在医疗资源有限的地区帮助诊断。" Hirotaka Takita 医生说,“未来的研究需要在更复杂的临床场景中进行评估,并利用实际病历进行性能评估,以提高。 AI 为了进一步确认决策的透明度,并在不同的病人群中进行验证 AI 的能力。"


IT 世家人注意到,除了诊断领域,这项研究还强调生成式 AI 医学教育中的潜力。研究人员指出:“目前的生成式 AI 在非专家环境下,模型的表现与医生相当,这将是 AI 整合到医学培训中提供了机会。 AI 可用于模拟真实病例,帮助医学生和受训者学习和评估他们的技能。


但是,研究也担心这些模型的透明度和偏见。许多 AI 该系统没有披露其训练数据的详细信息,这引发了关于其结果是否适合所有群体的问题。研究人员强调,“透明度保证了对模型知识、背景和局限性的理解”,并指出需要清晰、伦理、充分的开发。 AI 应用。


现在,尽管生成式 AI 潜力巨大,但在涉及详细患者信息的复杂病例中仍面临挑战。医生需要担心失业吗?目前很难确定,但这种情况可能发生在诊断领域。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com