王小川直言医疗AI“虚假过多”,新模型幻觉率仅2.6%且推两周免费政策
1月22日,百川智能推出了Baichuan-M3-Plus询证增强医疗大模型,该模型沿用了M2-Plus同款的“六源询证”方法,再次刷新行业最佳水平,幻觉率低至2.6%。
不仅如此,Baichuan-M3-Plus还创新应用了“证据锚定”技术,让AI回答里的每个结论都能精准对应到原文献的具体位置,据称匹配率高达95%,远超行业40%-50%的平均水平。
该模型以API模式对外服务,价格较前代下降70%,发布后两周内免费,为医务工作者提供服务的机构可通过“海纳百川计划”长期免费使用。
Baichuan-M3-Plus发布之时,智东西等媒体走进百川总部,与百川智能创始人兼CEO王小川、模型技术负责人鞠强深入交流,他们分享了M3 Plus的技术细节及对行业热点的看法。

交流中,王小川多次强调,医疗AI的核心目标必须聚焦患者利益。他主动回应张文宏“拒绝AI入病历系统、担心影响年轻医生成长”的观点,直言若因担忧AI影响医生训练而限制应用,本质是让当下患者成为医生成长的成本。
在他看来,“AI+医生”在多场景已展现出优于单纯依赖医生的潜力,且医生也存在判断偏差与“幻觉”,从客观数据看,当前医疗AI的幻觉率并不比人类医生高。
同时,王小川提到中国医生对AI工具接纳度低,并非模型能力不足,而是医疗系统高强度运转与行业风气所致。
一方面,国内医生单日接诊量远高于海外,几乎没时间真正使用和验证AI工具;另一方面,医疗AI领域缺乏求真氛围,“虚假东西太多”,真正有技术突破的产品反而难快速建立信任。
他呼吁国内行业应良性竞争,让医疗行业更真实,这样发展速度才会加快,否则会出现很多“皇帝的新衣”。
当被问及百川API客户群体画像时,王小川回应,M3发布前已有一批机构用户,包括医院和为医院提供科研辅助的中小企业。M3发布后,随着近期价格调整和合作推进,客户结构预计会有较大变化。
体验链接:https://www.baichuan-ai.com
01.从六源询证到证据锚定,让医疗AI实现“白盒化”
上周,百川智能开源了当前业界医学能力领先的开源模型Baichuan-M3,该模型在权威医疗AI基准测试HealthBench中位居全球第一,表现超过OpenAI最强模型。
Baichuan-M3-Plus以M3为基础,结合首创的“六元循证系统”,在M3原有抗幻觉能力上进一步降低了幻觉发生率。

百川对“降低幻觉率”的坚持,源于当前医疗AI领域的突出问题。现场演示中,鞠强指出部分医疗AI产品存在幻觉现象:AI生成的答案看似专业,引用了论文、指南等来源,但实际错误率可能高达90%。这种“看似专业”的幻觉,对经验不足的医生或普通用户风险更大。
这类幻觉常因AI引用内容与支持表述缺乏实质关联。
对医生和用户而言,核验这些引用的正确性过程繁琐,需耗费大量时间逐条核对,反而可能增加工作负担。
为此,百川创新引入“证据锚定技术”,确保模型引用段落与表述严格对应,可精确定位至原文位置,使证据具备可核验、可追溯性,最终实现诊疗辅助过程的“白盒化”。

Baichuan-M3-Plus采用低成本API模式服务,通过模型架构、Infra等工程优化,API价格较前代下降70%。
发布后两周内,Baichuan-M3-Plus完全免费。此外,王小川宣布“海纳百川计划”,面向所有为医务工作者服务的机构免费提供M3-Plus API服务,以促进行业协作发展,这项免费服务成本最高或达1亿元左右。
新模型API价格大幅下调有多重原因。鞠强介绍,上一代M2是稠密模型,M3架构切换为MoE,本身带来不少成本收益。
同时,百川升级了投机采样技术Eagle3,加入门控机制,进一步提升推理效率。
02.王小川回应“AI影响医生成长”:患者不应为医生成长买单
日前,张文宏拒绝AI入医院病历系统、认为会影响年轻医生成长的言论引发热议。
王小川在采访中主动提及该讨论并全面回应。
他认为患者利益应放在首位,“AI+医生”模式已显示出优于单纯依赖医生的潜力,符合医学发展规律。若因担忧AI影响医生成长而限制应用,实则阻碍对患者有益的技术进步——“医生成长不能以当下患者为成本”。医生也有幻觉,目前AI幻觉率其实比医生更低。
在应用方式上,王小川认为可探索调整,若担心医生能力退化,可让AI辅助年轻医生,在诊疗中提供实时提醒与校验。
王小川还谈到医院做大模型的现象,他认为“医生是用模型的,不是造模型的,就像AlphaGo不是围棋选手造的”,双方应做好专业分工。
百川与医生群体合作密切,鞠强提到,百川有一支专业专职医生团队,成员有丰富一线医疗经验,部分来自三甲医院全职加入,还与合作医院深度协作,有医生长期驻场提供医学指导。
此外,百川还有一个覆盖主要临床学科的兼职医学专家团,规模达数百人,为模型研发提供专业知识和数据支持。
03.察言观色的医疗AGI三年可期,国内采用率低非模型之过
王小川预判,具身智能领域能做手术的AI还较远,但具备表达、察言观色能力的AGI级别AI医生有望三年内实现。
采访中提到,美国医疗AI工具OpenEvidence在医生中的渗透率达45%,但中国医生接纳度、使用率仍不高。
王小川认为这并非模型能力问题,而是国内医疗系统现状和行业风气所致。
一方面,中国医生工作压力大,美国医生一天看10个病人,中国医生可能看50-100人,平均每个患者仅3-5分钟,没时间好好使用AI产品。
另一方面,国内医疗AI产品未真实展现技术进展,虚假产品过多,真产品难快速获信任。他呼吁行业真诚评价技术进展,推动良性竞争,让医疗行业更真实,否则会有很多“皇帝的新衣”。
关于AI医疗的责任边界,王小川认为现行法规下AI不能直接做最终诊断,权力责任仍由医生承担,AI是辅助工具;美国部分地区已允许AI直接开处方,为中国未来制度探索提供参考。
商业模式上,百川不会复制美国OpenEvidence通过药企营销变现的路径,而是坚持符合中国国情,在合规前提下通过学术体系参与医疗生态建设,需寻找不同于美国的价值回报方式。
AI制药领域,百川重点不在早期分子发现或患者招募,而是通过药效评价、药物伴随和数字化伴随体系,提高真实世界药物疗效,属于精准医疗方向。
针对医疗AI“幻觉”可接受阈值,王小川指出由医院和医疗体系决定,而非企业单方面设定;百川定位先辅助医生,再服务患者。未来两到三年,随着医生对AI工具的适应,医疗行业对AI接受度有望显著提升,需政策、行业伙伴与技术共同推动。
04.结语:医疗AI热度高涨,落地与信任是关键
近几周,AI医疗健康领域新玩家增多,国外OpenAI、Anthropic,国内京东等大厂及多家创企相继发布新品,赛道热度攀升。
但正如采访中反复提到的,影响医疗AI落地的不只是模型能力,获取用户和专业医生的信赖、结合真实场景解决具体问题,或许比发布模型和产品更关键,也更考验企业长期投入。
本文来自微信公众号“智东西”(ID:zhidxcom),作者:陈骏达,编辑:李水青,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com



