o3曝光智商高达157,与爱因斯坦相比,99%的人类,陶哲轩水准AI或出现

【导读】OpenAI o3的智商已经达到了157,99%的人类被压垮了?这个OpenAI模型的智力正在全网疯狂转变。甚至有人大胆预测,达到陶哲轩智力(225-230)的大模型应该很快就会出现。
o3智力竟然有157,堪比爱因斯坦?
今日,一张OpenAI模型智力图,在全网传播。

Codeforces排名评分基于编程竞赛。
从图中可以清楚地看到,能够达到o3智商水平的人类占比只有0.0075%。
在1333人中,只有一个人的IQ是o3级别的。对GPT-4o来说,6个人中有一个能达到IQ水平。 115的水准。

从GPT-4o、到了o1系,到了o3系,模型Q逐渐增加,只用了一年时间就完成了质的飞跃。即使是最强的o1。 pro(IQ是139)o3完全领先近20分。

有网友说,用不了多久,我们口袋里就会有个IQ。 157的智能。

也有人说,陶哲轩的智力大约在225-230之间,未来模型很快就会达到这个水平。

超高智商背后的o3
在o3发布之后,许多人认为AGI已经完成。
OpenAI从o1到o3只用了3个月;从o1到o3 从pro到o3,只用了一个月。各种迹象表明,Scaling Law还没有结束。
在过去的五年里,OpenAI模型在ARC-AGI上的评分也说明了一切。

NattOpenAI研究员 在o3发布当天,McAleese分享了一些关于模型的介绍。
o3表示,通过加强学习在一般领域取得了巨大的进步。
o1是第一个大规模推理模型,也只是一个通过RL训练的大模型。o3是在o1的基础上开发的,通过进一步强化scaling学习。

在全球最具竞争力的编程标准CodeForces中,o3得分超过2700,完全达到了国际大师的水平。

同时,o3在FrontierMath的数学标准中的惊人表现令人生畏,甚至突破了陶哲轩的预言。

FranFran在Keras鼻祖çois 在Chollet转写的报告中,o3与旧模型的区别也得到了解释:
o3的关键创新是在token空间内完成自研语言程序的搜索和执行。在测试过程中,它会搜索可能的CoT空间,并找到描述处理任务所需的步骤,并通过评估模型引导搜索过程。

而且,他指出,这种方法和AlphaZero的蒙特卡洛树搜索没有太大区别。
本质上,o3是一种深度学习引导程序搜索的方法。
然而,即使o3的进化速度如此疯狂,OpnenAI研究员Willlll也是如此。 depue说,这还不是AGI,我们还有很长的路要走。

o3 ARC-AGI检测被曝光「作弊」?
而且最近,o3的ARC-AGI检测结果,在圈内引起了不小的争议。
要知道,开设这一标准的初衷,就是要找出那些对人来说容易、对AI来说难的话题。
据OpenAI称,在基准测试ARC-AGI中,o3在低计算模式下的半私有评估得分为75.7%。;得分为87.5%的高计算模式。
而且人类在这项任务中的表现通常是85%,换句话说,o3在高计算模式下已经超越了人类。

这一结果,引起了很多人的质疑:OpenAI不会专门针对这一任务进行训练吧?
要知道,在直播的第12天,奥特曼特别强调,「没有对模型进行特殊处理。」。

对于这一点,许多细心的网友进行了调查。
比如这个名字叫Knight。 Lee网友表示,o3在ARC-AGI上的分数是微调的,而之前的AI分数并未被微调。
o3的一个主要优点就是受过例子测试问题的明确训练。
他引用ARC-AGI设计师Frann的原因是他引用了这种观点。çois Chollet的说法——
OpenAI分享说,他们测试的o3是在公共训练集75%的数据中进行的。它们还没有透露更多的细节。目前还没有对ARC数据训练模型进行检测,因此还不清楚ARC-AGI数据中有多少性能。


这一说法是真的,那么o3所取得的成绩,显然占了很大的便宜。
ZachOpenAI研究员 Stein-Perlman反驳说,他们没有对ARC的o3进行微调。
但今天发布的o3智力157结果,至少可以为其性能稍微正名。

Orion是Orion?
而且,在o3之后,也许还会有更强的IQ模型出现。
据Information独家报道,o3不是Orion模型的代号。相反,Orion可能是o4的基本模型。
但是华尔街日报在之前的报道中说,Orion是GPT-5……

JasonOpenAI研究员 Wei表示,从o1到o3只用了3个月的时间,这表明在新范式下,每1-2年更新一次模型的速度比预训练范式要快得多。

推理模型的优点是,在运用更多的计算资源思考之后,可以弥补预训练的放缓速度。
所以,o3推理的代价也很高。ARC-AGI基准测试报告显示,o3在每一个高计算任务中的成本将超过1000美元。
OpenAI博士级AI助手之所以能达到每月2000美元,这也充分说明了这一点。
另一位OpenAI研究员John Hallman告诉我们,当Sam告诉我们的研究人员AGI即将到来时,我们不是为了给你画蛋糕,不是为了推2000美元的订阅,也不是为了欺骗你投资我们的下一轮融资。它真的来了。

现在,不明白的是,o3能给普通ChatGPT客户带来多少帮助。
o3可能在编程、数学和科学领域发挥作用,最大限度地帮助编程、数学和科学领域的人员,包括研究极其困难的研究人员(如核聚变能源)。
而且对一般用户来说,新模型也许有点儿「大材小用」。
虽然o3表现出色,但其它科技巨头也不甘示弱。
Geminini在谷歌的强势推出 2.0 Flash、Veo视频模型 第二,AI研究员Noam由30亿美元雇佣。 Shazeer开发的推理模型。
一些对价格敏感的开发者,纷纷转向谷歌Flash模型。
可见,推理模式将继续超级进化迭代,2025年也将像今年一样令人兴奋。
参考资料:
https://x.com/i_dg23/status/1871135348069482993
https://x.com/kimmonismus/status/1871162085675253977
https://x.com/SmokeAwayyy/status/1871273888191221922
https://www.theinformation.com/articles/openai-wows-the-crowd-as-new-scaling-law-passes-its-first-test?rc=epv9gi
本文来自微信微信官方账号“新智元”,编辑:编辑部 HYZ,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




