OpenAI o3 碾压式 AI 数学成绩受到质疑：既是选手又是裁判

2025-01-21

IT 世家 1 月 20 科技媒体日新闻 TechCrunch 昨日（1 月 19 日本)发布博文，报道称 Epoch AI 因为没有及时披露 OpenAI 资助引起争议，它开发的数学基准测试 FrontierMath 客观性受到质疑。

IT 简单介绍一下世家 Epoch AI 主要原因是组织 Open Philanthropy 非营利组织的资助。这个组织推出了 FrontierMath 基准测试，通过整合专家级数学题，对测试进行衡量和测试。 AI 模型数学能力。

OpenAI 的 o3 模型在 EpochAI 的 FrontierMath 在基准测试中，其他模型以碾压优势为荣，准确率高达其它模型的评分为25%， 2% 上下。

Epoch AI 一位承包商" Meemi "在 LessWrong 在论坛上发帖说，有很多 FrontierMath 推动者直到公开宣布才知道。 OpenAI 参与这一标准建设。

Meemi 写道：“交流完全不透明。我感到 Epoch AI 应当披露 OpenAI 承包商在选择是否参加基准测试时，应获得透明的信息，这些信息可能用于技能提升。"

六位参加 FrontierMath 数学家说，基准测试设计，他们不知道。 OpenAI 有独家访问限制。假如事先知道，他们可能不会参加。

一些社交媒体客户担心这种保密行为可能会损害他们。 FrontierMath 声誉是客观标准。除资助外 FrontierMath 以外，OpenAI 也可以浏览基准测试中的许多问题及解决方案 —— Epoch AI 在 12 月 20 日 o3 这个事实在发布前并没有透露。

Epoch AI 一位副主任和创始人 Tamay Besiroglu 在回复 Meemi 帖子被称为它，FrontierMath 不会损害完整性，但也承认 Epoch AI “犯了一个错误”，在没有更透明的方面。

AI 专家 Gary Marcus 质疑 OpenAI 声明，将此事件与 Theranos 丑闻相比较而言。IT 家庭注:这个丑闻是伊丽莎白的。・由霍尔姆斯创立的血液检测公司 Theranos 在欺诈事件中，企业声称自己的技术只需要少量的血液就可以进行数百次测试，但最终谎言被揭穿，企业最终倒闭，霍尔姆斯也被判犯有欺诈罪。

Besiroglu 承认 OpenAI 可以访问 FrontierMath 大部分问题和答案，但有一个“ OpenAI 未见过的保留数据“用于验证模型能力。

Besiroglu 写道

我们受到限制 o3 合作关系只有在发布前后才能披露。后来，我们应该更加努力，尽快保持基准测试推动者的透明度。我们的数学家应该知道谁能访问他们的工作。即使我们在合同中受到限制，我们也应该把与推动者的透明度变成我们和我们。 OpenAI 协议中不能协商的部分。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

今天4点00分，迎来

这些快递在早安新区，春节不放假。

遇见青浦二十四诗，大寒已至，年味渐浓。

只有30万级才有的功能，终于要下放到10万出头

A级车顶流，8万多裸车又来了。

项目推荐

AI云印侠

幸福绩效

企业数字化人才孵化系统