o3曝光智商高达157，与爱因斯坦相比，99%的人类，陶哲轩水准AI或出现

2024-12-25

【导读】OpenAI o3的智商已经达到了157，99%的人类被压垮了？这个OpenAI模型的智力正在全网疯狂转变。甚至有人大胆预测，达到陶哲轩智力(225-230)的大模型应该很快就会出现。

o3智力竟然有157，堪比爱因斯坦？

今日，一张OpenAI模型智力图，在全网传播。

Codeforces排名评分基于编程竞赛。

从图中可以清楚地看到，能够达到o3智商水平的人类占比只有0.0075%。

在1333人中，只有一个人的IQ是o3级别的。对GPT-4o来说，6个人中有一个能达到IQ水平。 115的水准。

从GPT-4o、到了o1系，到了o3系，模型Q逐渐增加，只用了一年时间就完成了质的飞跃。即使是最强的o1。 pro(IQ是139)o3完全领先近20分。

有网友说，用不了多久，我们口袋里就会有个IQ。 157的智能。

也有人说，陶哲轩的智力大约在225-230之间，未来模型很快就会达到这个水平。

超高智商背后的o3

在o3发布之后，许多人认为AGI已经完成。

OpenAI从o1到o3只用了3个月；从o1到o3 从pro到o3，只用了一个月。各种迹象表明，Scaling Law还没有结束。

在过去的五年里，OpenAI模型在ARC-AGI上的评分也说明了一切。

NattOpenAI研究员在o3发布当天，McAleese分享了一些关于模型的介绍。

o3表示，通过加强学习在一般领域取得了巨大的进步。

o1是第一个大规模推理模型，也只是一个通过RL训练的大模型。o3是在o1的基础上开发的，通过进一步强化scaling学习。

在全球最具竞争力的编程标准CodeForces中，o3得分超过2700，完全达到了国际大师的水平。

同时，o3在FrontierMath的数学标准中的惊人表现令人生畏，甚至突破了陶哲轩的预言。

FranFran在Keras鼻祖çois 在Chollet转写的报告中，o3与旧模型的区别也得到了解释：

o3的关键创新是在token空间内完成自研语言程序的搜索和执行。在测试过程中，它会搜索可能的CoT空间，并找到描述处理任务所需的步骤，并通过评估模型引导搜索过程。

而且，他指出，这种方法和AlphaZero的蒙特卡洛树搜索没有太大区别。

本质上，o3是一种深度学习引导程序搜索的方法。

然而，即使o3的进化速度如此疯狂，OpnenAI研究员Willlll也是如此。 depue说，这还不是AGI，我们还有很长的路要走。

o3 ARC-AGI检测被曝光「作弊」？

而且最近，o3的ARC-AGI检测结果，在圈内引起了不小的争议。

要知道，开设这一标准的初衷，就是要找出那些对人来说容易、对AI来说难的话题。

据OpenAI称，在基准测试ARC-AGI中，o3在低计算模式下的半私有评估得分为75.7%。；得分为87.5%的高计算模式。

而且人类在这项任务中的表现通常是85%，换句话说，o3在高计算模式下已经超越了人类。

这一结果，引起了很多人的质疑：OpenAI不会专门针对这一任务进行训练吧？

要知道，在直播的第12天，奥特曼特别强调，「没有对模型进行特殊处理。」。

对于这一点，许多细心的网友进行了调查。

比如这个名字叫Knight。 Lee网友表示，o3在ARC-AGI上的分数是微调的，而之前的AI分数并未被微调。

o3的一个主要优点就是受过例子测试问题的明确训练。

他引用ARC-AGI设计师Frann的原因是他引用了这种观点。çois Chollet的说法——

OpenAI分享说，他们测试的o3是在公共训练集75%的数据中进行的。它们还没有透露更多的细节。目前还没有对ARC数据训练模型进行检测，因此还不清楚ARC-AGI数据中有多少性能。

这一说法是真的，那么o3所取得的成绩，显然占了很大的便宜。

ZachOpenAI研究员 Stein-Perlman反驳说，他们没有对ARC的o3进行微调。

但今天发布的o3智力157结果，至少可以为其性能稍微正名。

Orion是Orion？

而且，在o3之后，也许还会有更强的IQ模型出现。

据Information独家报道，o3不是Orion模型的代号。相反，Orion可能是o4的基本模型。

但是华尔街日报在之前的报道中说，Orion是GPT-5……

JasonOpenAI研究员 Wei表示，从o1到o3只用了3个月的时间，这表明在新范式下，每1-2年更新一次模型的速度比预训练范式要快得多。

推理模型的优点是，在运用更多的计算资源思考之后，可以弥补预训练的放缓速度。

所以，o3推理的代价也很高。ARC-AGI基准测试报告显示，o3在每一个高计算任务中的成本将超过1000美元。

OpenAI博士级AI助手之所以能达到每月2000美元，这也充分说明了这一点。

另一位OpenAI研究员John Hallman告诉我们，当Sam告诉我们的研究人员AGI即将到来时，我们不是为了给你画蛋糕，不是为了推2000美元的订阅，也不是为了欺骗你投资我们的下一轮融资。它真的来了。

现在，不明白的是，o3能给普通ChatGPT客户带来多少帮助。

o3可能在编程、数学和科学领域发挥作用，最大限度地帮助编程、数学和科学领域的人员，包括研究极其困难的研究人员(如核聚变能源)。

而且对一般用户来说，新模型也许有点儿「大材小用」。

虽然o3表现出色，但其它科技巨头也不甘示弱。

Geminini在谷歌的强势推出 2.0 Flash、Veo视频模型第二，AI研究员Noam由30亿美元雇佣。 Shazeer开发的推理模型。

一些对价格敏感的开发者，纷纷转向谷歌Flash模型。

可见，推理模式将继续超级进化迭代，2025年也将像今年一样令人兴奋。

参考资料：

https://x.com/i_dg23/status/1871135348069482993

https://x.com/kimmonismus/status/1871162085675253977

https://x.com/SmokeAwayyy/status/1871273888191221922

https://www.theinformation.com/articles/openai-wows-the-crowd-as-new-scaling-law-passes-its-first-test?rc=epv9gi

本文来自微信微信官方账号“新智元”，编辑：编辑部 HYZ，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

下一个城市江苏！泰州第一家盒马鲜生开业

在特朗普的就职典礼上，福特捐赠了100万美元

在供应链竞争的后半段，AI数字化、绿色和韧性是三个关键词。｜最前线

a股很少见！新高，又来了

一些城市出租车开始自发降价？传统出租车的未来在哪里？

项目推荐