OpenAI推出前沿科学基准:AI虽获奥赛金牌,距顶尖科学家仍有差距

2025-12-18
模型思考时间越长,准确率通常越高。

OpenAI最新发布的FrontierScience基准,旨在通过真实的博士级难题,从物理、化学、生物三个维度检验AI。残酷的现实是:在没有唯一标准答案的科研实战中,作为「顶级做题家」的AI,与真正的科学家相比,还有很大差距。


2025年12月16日,OpenAI发布了一套新基准FrontierScience,用于衡量AI在物理、化学、生物三门学科中能否实现接近专家水平的科学推理,而非仅仅是背诵知识点。




OpenAI在文中将科学工作描述为一套更接近「持续试错」的流程。


提出假设,设计验证,推翻后重新开始,还要将不同领域的线索整合到一起。



模型越强大,问题就越尖锐:AI能否将这种深度推理应用到真正的科研推进中。


OpenAI提到,过去一年,他们的系统在国际数学奥林匹克和国际信息学奥林匹克中取得了金牌级表现,同时更重要的变化发生在实验室和办公室里。


研究者开始利用这些模型进行跨学科文献检索、跨语言阅读论文,也用它们推导复杂证明。


有些原本需要几天甚至几周的工作,现在几小时就能完成一轮。


为何需要FrontierScience?OpenAI给出了一组对比数据。


2023年11月,由博士专家撰写、强调「谷歌搜不到」的科学题库GPQA发布时,GPT-4仅获得39%的分数,低于专家基线的74%。


两年后,GPT-5.2在同一基准上拿到了92%的分数。


当旧题库逐渐被模型「刷穿」,就必须有更长的「尺子」,否则无法看出模型的发展空间。


FrontierScience的设计更像是给模型设置了两种不同的「科学难关」。


一类偏向竞赛风格,考查在约束条件下能否清晰利落完成推理。



物理竞赛题示例


另一类更贴近研究现场,要求在开放问题中梳理清晰思路,即便没有标准答案那般工整。



物理科研问题示例


这套评测共有超过700道文本型题目,其中160道属于「黄金组」(Gold Set)题目。


竞赛赛道包含100道题,强调短答案形式,便于核验对错。


研究赛道有60个原创研究子任务,由博士阶段或更资深的研究者设计,采用10分制评分,至少拿到7分才算通过。



题目质量有充分保障:


竞赛赛道与42位前国际奖牌得主或国家队教练合作,这些合作者总计获得109枚奥赛奖牌;


研究赛道由45位合格科学家与领域专家参与,覆盖从量子电动力学到合成有机化学,再到进化生物学等细分方向。


OpenAI还承认了一个并非完全「中立」的细节。


两套题在制作过程中会刻意剔除OpenAI自家内部模型已能答对的题目,因此这套评测对OpenAI自家模型可能更为苛刻。


同时,他们开源了两套赛道的「黄金组」题目,其余题目则保留,用于追踪数据污染情况。


OpenAI表示,短答案适合机器判定,但研究型任务需要更细致的评分标准,于是他们让GPT-5充当模型判卷员,对照短答案逐项打分。


理想状态是请专家逐题批改,但现实中规模不允许,因此规则被设计得尽量客观且可被模型检查,并配备了验证流程来校准难度与正确性。


在成绩单上,OpenAI给出了一轮初步测试的对比结果。


他们评测了GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、GPT-4o、OpenAI o4-mini、OpenAI o3等模型。OpenAI称,GPT-5.2在竞赛题上得分77%,在研究题上得分25%,目前处于领先;Gemini 3 Pro在竞赛题上拿到76%,紧随其后。



更值得关注的是失败原因。


OpenAI从答题记录中总结发现,前沿模型仍会出现推理、逻辑和计算错误,会在冷门概念上卡壳,也会存在事实性偏差。


另一个简单的观察结果也被写入正文:模型思考时间越长,准确率通常越高。



OpenAI也直言不讳地指出了FrontierScience的局限性。


它将科研拆解为可控的题目,这让评测更标准化,但也意味着它更像一张高清截图,而非科研的全景纪录片。


尤其是它不评估模型能否提出真正新颖的假设,也不涵盖模型与多模态数据及现实实验系统交互的能力。


接下来,OpenAI计划迭代题库、扩展领域,并配套更多真实世界评估,以观察这些系统究竟能帮助科学家完成多少工作。


奥赛金牌不等于一流科学家,AI要成为真正能独当一面的一流科学家,还有很长的路要走。


参考资料:


https://openai.com/index/frontierscience/


本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com