《Nature》与《Science》聚焦:小模型OpenScholar如何破解AI幻觉难题

1天前

《Nature》重磅发布:仅80亿参数的OpenScholar模型打破「参数越大越好」的固有认知!它跳出死记硬背的局限,凭借「检索+自我核查」机制根治AI幻觉问题,在科学综述任务中的表现超越了行业顶尖的大模型。


近日,一篇登上《Nature》正刊的论文开源了OpenScholar模型,该成果同时也被《Science》关注报道。



这个只有80亿参数的小模型,在科学文献综述任务上,战胜了参数规模远超它的旗舰模型。


这无疑释放出范式转变的信号:在严谨的科学研究领域,依赖模型内部模糊记忆的「黑盒」模式已成过去,能精准调用外部知识库的「外挂」模式才是未来趋势。


终结幻觉困扰


此前,科研人员对通用大模型的态度十分复杂,既依赖其能力又对其缺陷感到无奈。


不满主要源于大模型一个致命的问题——幻觉。


当时的相关数据令人震惊:当要求大模型回答生物医学等专业领域问题时,其伪造引用的比例最高达到90%。


它会自信地编造出不存在的论文标题、作者甚至具体页码。对于需要精准严谨的科学研究而言,这种不可靠性是极具破坏性的。


OpenScholar的诞生,正是为了修正这一关键偏差。


由华盛顿大学和艾伦人工智能研究所(Ai2)联合开发的这套系统,核心思路不再是让模型「记住」所有知识,而是教会模型像人类学者一样去「查阅资料」。


OpenScholar不依赖模型参数中存储的模糊记忆,而是外接了一个包含4500万篇开放获取论文的大型数据库。


当用户提出问题时,它不会直接生成答案,而是遵循一套严谨的流程:


检索:首先在4500万篇文献中快速筛选出最相关的内容片段。


重排序:利用交叉编码器对筛选出的片段进行精细甄别,去除无效信息保留真实可靠的内容。


生成与反馈:这是最为关键的一步。模型生成答案草稿后,会进行自我检查——「这句话是否有足够的证据支持?」如果发现证据不足,它会启动第二轮、第三轮检索,直到每一条论述都有确凿的文献作为依据。


最终结果呈现出压倒性优势。在覆盖计算机科学、物理学等领域的ScholarQABench基准测试中,OpenScholar-8B的正确率不仅超过了当时的旗舰模型,还将推理成本降低了两个数量级(每次约0.003美元)。



这一结果证明,在特定专业领域,一个配备了「知识库」的小模型,比一个没有外部支持却容易产生幻觉的大模型更可靠。


DR Tulu:从「回答问题」到「深度研究」的跨越


如果说OpenScholar解决的是AI回答的「准确性」问题,那么其后续迭代版本DR Tulu(Deep Research Tulu)则向「深度研究」方向迈进。


科学研究往往不是简单的一问一答,而是漫长的探索与信息综合过程。


2025年11月发布的DR Tulu,针对的是长篇幅、多维度的「深度研究」任务。


它的核心突破在于引入了「演化评分规则的强化学习」(RLER, Reinforcement Learning with Evolving Rubrics)。


在以往的训练模式中,AI很难判断一篇数千字的文献综述质量高低。


DR Tulu不依赖固定的评分标准,而是让模型在搜索和研究过程中,动态生成针对当前问题的评分细则。


它既学习「什么是有效的研究策略」(比如挖掘冷门数据源),也学习「什么是不良行为」(比如为了凑字数而堆砌引用)。


这种训练方式让DR Tulu具备了更强的规划能力。


面对复杂的科学命题,它能像资深研究员一样,先制定研究大纲,再分主题检索资料,最后整合多来源信息撰写长篇研究报告


在最新测试中,DR Tulu-8B的表现已能与当时的旗舰专有模型比肩甚至超越,且其代码和权重完全开源。



核心推动者:Akari Asai


这一系列具有颠覆性的研究工作,核心人物是即将于2026年秋季加入卡内基梅隆大学(CMU)的Akari Asai(浅井明里)。



这位毕业于东京大学本科、在华盛顿大学取得博士学位的年轻学者,是近年来「检索增强生成」(RAG)领域最活跃的研究者之一。


早在Meta AI实习期间,她就专注于解决大模型的知识瓶颈问题。


Akari Asai的研究理念十分明确:不要试图让模型容纳整个世界的知识,而要让模型学会利用外部世界的知识。


她主导的OpenScholar和DR Tulu项目,不仅是技术层面的进步,还带有强烈的「民主化」色彩。


通过开源高性能的小模型和检索架构,她正在打破科技巨头对顶级科研AI工具的垄断,让全球资源相对匮乏地区的科学家也能拥有一位不知疲倦的「超级科研助理」。


未来展望


科学的本质并非记忆,而是探索与发现。


当我们把AI从死记硬背的参数竞赛中解放出来,赋予它查阅资料、验证信息和自我反思的能力时,我们创造的不再是一个只会聊天的机器,而是一把能帮助人类在浩瀚知识海洋中开拓前行的有力工具。


未来的科研工作,或许不再取决于个人读过多少论文,而在于如何有效驾驭那个能「查阅所有论文」的AI助手。


参考资料:


https://www.nature.com/articles/s41586-025-10072-4


https://www.science.org/content/article/open-source-ai-program-can-answer-science-questions-better-humans


本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com