OpenAI o3 碾压式 AI 数学成绩受到质疑:既是选手又是裁判
IT 世家 1 月 20 科技媒体日新闻 TechCrunch 昨日(1 月 19 日本)发布博文,报道称 Epoch AI 因为没有及时披露 OpenAI 资助引起争议,它开发的数学基准测试 FrontierMath 客观性受到质疑。
IT 简单介绍一下世家 Epoch AI 主要原因是组织 Open Philanthropy 非营利组织的资助。这个组织推出了 FrontierMath 基准测试,通过整合专家级数学题,对测试进行衡量和测试。 AI 模型数学能力。
OpenAI 的 o3 模型在 EpochAI 的 FrontierMath 在基准测试中,其他模型以碾压优势为荣,准确率高达 其它模型的评分为25%, 2% 上下。
Epoch AI 一位承包商" Meemi "在 LessWrong 在论坛上发帖说,有很多 FrontierMath 推动者直到公开宣布才知道。 OpenAI 参与这一标准建设。
Meemi 写道:“交流完全不透明。我感到 Epoch AI 应当披露 OpenAI 承包商在选择是否参加基准测试时,应获得透明的信息,这些信息可能用于技能提升。"
六位参加 FrontierMath 数学家说,基准测试设计,他们不知道。 OpenAI 有独家访问限制。假如事先知道,他们可能不会参加。
一些社交媒体客户担心这种保密行为可能会损害他们。 FrontierMath 声誉是客观标准。除资助外 FrontierMath 以外,OpenAI 也可以浏览基准测试中的许多问题及解决方案 —— Epoch AI 在 12 月 20 日 o3 这个事实在发布前并没有透露。
Epoch AI 一位副主任和创始人 Tamay Besiroglu 在回复 Meemi 帖子被称为它,FrontierMath 不会损害完整性,但也承认 Epoch AI “犯了一个错误”,在没有更透明的方面。
AI 专家 Gary Marcus 质疑 OpenAI 声明,将此事件与 Theranos 丑闻相比较而言。IT 家庭注:这个丑闻是伊丽莎白的。・由霍尔姆斯创立的血液检测公司 Theranos 在欺诈事件中,企业声称自己的技术只需要少量的血液就可以进行数百次测试,但最终谎言被揭穿,企业最终倒闭,霍尔姆斯也被判犯有欺诈罪。
Besiroglu 承认 OpenAI 可以访问 FrontierMath 大部分问题和答案,但有一个“ OpenAI 未见过的保留数据“用于验证模型能力。
Besiroglu 写道
我们受到限制 o3 合作关系只有在发布前后才能披露。后来,我们应该更加努力,尽快保持基准测试推动者的透明度。我们的数学家应该知道谁能访问他们的工作。即使我们在合同中受到限制,我们也应该把与推动者的透明度变成我们和我们。 OpenAI 协议中不能协商的部分。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




