在你认为AI发展放缓的时候,OpenAI推出o3,向AGI迈出关键的一步。

2024-12-22

当 Sam和我们的研究人员说 AGI 随着时间的推移,我们不是想卖你神奇的药水和2000美元的订阅服务,也不是想诱导你投资我们的下一轮融资。但是AGI时代真的来了。


——John Hallman(OpenAI 技术人员)



2024年12月21日,OpenAI正式发布了一系列备受期待的o3模型,其中o3和o3正式发布,这些模型已经持续了12天。-mini。


o3 这是一个非常强大的模型,在编码、数学和数学方面。 ARC-AGI 许多标准,如基准检测,都超过了标准 OpenAI 此前的 o1 模型(o1评分25%,o3评分87.5%)。


o3-mini 是 o3 更加经济、高效、性能导向的版本,在成本和延迟方面比较 o1-mini 降低了许多,并且提供了类似的功能。


因为和英国电信公司 O2 版权/商标矛盾可能发生,因此被命名为o3。



图片:OpenAI官方X


OpenAI 向安全研究人员开放正向 o3 和 o3-mini 初步浏览,估计 o3-mini 将在 1 大约在月末发布,o3 则稍后。


检测概览


SWE-Bench 测试: 71.7%-o1评分48.9%


Codeforces 评分: 2727-相当于全球人类程序员编码大赛,排名第一。 175 位。


AIME: 96.7%-意味着数学测试只有一个错误。


博士学位的科学问题(GPQA): 博士生一般得分87.7%-70%


最难的前沿数学测试: 25.2%-其它模型不超过2%,数学天才陶哲轩表示,这次测试“可能会让AI难倒好几年”


ARC-AGI: 87.5%-o1评分25%




惊人的检测结果,这次的确远远超过了普通博士生。


o3系列模型向AGI迈进,基准测试结果惊人。

为了显示这次o3检测结果的震撼程度,我们选择了有代表性的检测给大家简单介绍一下。


(一)CodeForces检测


o3系列模型在全球顶级编程竞赛平台CodeForces上展示了其出色的编程能力。在CodeForces中,o3的分数高达2727,超过了大多数人类程序员。


目前,只有不到200名顶级人类程序员能够达到或超过这个分数。这个结果不仅证明了o3在编程任务上的强大实力,也说明它在处理复杂算法问题时接近甚至超越了人类的潜力。



图片:Codeforces排名和相应的结果


(二)ARC-AGI检测


ARC-AGIKeras鼻祖Frannran(人工通用智能评价标准)测试çois Chollet的发起旨在评估AI系统在面对未见的新任务时的适应性。ARC-AGI检测的核心在于其设计任务通常需要深入的逻辑判断和创新思维,这使其成为评估AI系统通用智能能力的重要工具。


在这次测试中,o3系列取得了显著的成绩,在高计算能力的配置下,o3取得了87.5%的成绩,但在低计算率的配置下,也取得了75.7%的优异成绩。这个分数远远超过了o1系列,而后者在同一个测试中的分数只有25%。



François “这是一个令人惊讶和重要的阶跃式提升,显示了GPT系列模型前所未有的新任务适应能力,”Chollet对此进行了评价。ARC-AGI-从2020年GPT-3的0%提高到2024年GPT-4o的5%,需要四年时间。伴随着o3的出现,对人工智能能力的所有认知都需要重新评估。



图:François 评估Chollet


虽然ARC-AGI测试表现不错,但这并不意味着o3已经达到了AGI水平,因为它仍然会在一些非常简单的任务中失败,这与人类智能有着根本的不同。



图:François 评估Chollet


(三)EpochAI Frontier 检测Math


EpochAI Frontier Math测试被称为当今最具挑战性的数学基准测试之一,包括最新的尖端数学题。著名数学家陶哲轩(Terence Tao)这个评价说:“这个测试可能会让AI难倒好几年。”



然而,o3在这次测试中突破了以往的记录,解决了25.2%的问题,而其他模型的分数都没有超过2%。这个分数不仅证明了o3在数学推理方面的强大能力,也显示了它在处理高度复杂和抽象问题时的潜力。



亚伦·列维是Box公司的首席执行官。(Aaron Levie)“OpenAI刚刚宣布了他们的新推理模型o3,它在基准测试方面的表现似乎非常出色,目前,人工智能的发展并没有放缓的迹象。”



图:Aaron Levie X


OpenAI在谷歌登基几天后重返铁王座。


日前,谷歌凭借其新一代大模型Geminini, Veoo模型2.0和视频生成模型 2.0的发布曾经在AI的牌桌上杀死了四面八方。然而,随着OpenAI推出了o3系列模型,这场比赛再次发生了戏剧性的逆转。


(一)谷歌掀开了AI圈的牌桌,全力狙击OpenAI。


当OpenAI持续了12天的新闻发布会进行到第五天时,谷歌以闪电般的速度发布了其重磅产品。——Gemini 2.0 Flash。这个版本不仅在速度上翻了一番,而且在多模式导出上也取得了突破,支持原始图像生成和音频输出,进一步拓展了AI模型的应用边界。Gemini 2.0不仅是语言模型的升级版本,更是一种统一的底层模型,具有主动思考和多任务处理能力。


在新闻发布会上,谷歌CEO桑达尔·皮查伊说:“假设Gemini 1.0是关于信息的整理和理解,所以Gemini 2.0就是要让这些信息真正有用。”



配合新推出的多模态即时API,Gemini 2.0可以处理即时音频和视频流输入,并提供多种工具的组合,大大提高了其在复杂任务中的适应性。


此外,谷歌还发布了一个新模型,顺手确认Sora是最好的,谷歌的相关文章,我们之前已经报道过了,详细信息可以看出:


谷歌发布了一个新模型,顺手确认Sora是最好的。


(二)你们方唱了我,OpenAI重返铁王座。


12月13日,谷歌Deepmind的研究人员抱怨说,OpenAI这次的发布并没有切断他们,而OpenAI的研究人员在下面回答说:“大戏还在后面”。




自从GPT4在OpenAI发布以来,它一直处于领先水平,但是Googlee、Anthropic、Meta和其他竞争对手也咬得很紧。今天,随着OpenAI发布其o3系列模型,它宣布将在2024年的AI军备竞赛中再次重返铁王座。



正如OpenAI研究高级副总裁马克·陈(Mark Chen)奥特曼还补充说:“这的确意味着我们在实用性的前沿攀爬。”这款模型在编程方面非常出色,”。


OpenAI在三个月前发布了o1,而OpenAI在今天发布了o3,这证明了AI前进的趋势是不可阻挡的。



图片:XXOpenAI研究人员


从ARC-AGI测试的分数来看,我们可以直观地发现,AI的发展方向并没有放缓,这可能是对今年AI泡沫理论的最有力回应。


GPT-2 (2019): 0%


GPT-3 (2020): 0%


GPT-4 (2023): 2%


GPT-4o (2024): 5%


o1-preview (2024): 21%


o1 high (2024): 32%


o1 Pro (2024): ~50%


o3 tuned low (2024): 76%


o3 tuned high (2024): 87%


John Hallman(OpenAI研究员,曾经在Google 普林斯顿大学数学系学生Brain实习, IMO 银牌得主)说:


“当 Sam和我们的研究人员说 AGI 随着时间的推移,我们不是想卖你神奇的药水和2000美元的订阅服务,也不是想诱导你投资我们的下一轮融资。但是AGI时代真的来了。"




然而,这也意味着AI的安全问题将不再是一个假设性的问题。我们不知道如果没有完善的安全审计机制,一个会撒谎的高智商,能够调动大量资源的AI会造成什么样的后果。...一年前,OpenAI的首席科学家Ilya Kever和SutsSam 在OpenAI中,Altman意见不合,那时候网友猜测Ilya已经看到了某种AGI的可能性,但是认为它的安全隐患极高,不适合推出。


日前,Anthropic的最新论文显示,人工智能模型可以“假装对齐”——在训练过程中假装遵循训练规则,但马斯克在部署过程中已经恢复到了原来的行为,这一点也得到了明确的评价。



在此之前,腾讯科技发表了一篇关于O1撒谎的文章。:


当o1学会“装傻”和“撒谎”时,我们终于知道Ilya看到了什么。


o3已经过去几天了,也许与AI的智能相比,安全问题现在应该成为最优先的问题。


目前,OpenAI已经向安全研究人员和合作伙伴开放了测试申请,希望通过更多的实际应用测试,进一步提高模型的安全性和可靠性。



图片:OpenAI网站



图:Sam Altman邀请安全研究员加入检测


高昂的价格


很多网友除了惊叹o3惊人的表现外,还担心o3可能导致的高任务成本。



AI的发展是否在2024年放缓?


2024年,人工智能领域经历了前所未有的激烈军备竞争。今年不仅是技术的飞跃,也是战略与创新的较量。每一款新产品的发布都影响着整个行业的神经,而OpenAI在年底通过O3系列的出色表现,再次杀死了铁王座,再次推动了AGI的发展。


回首二年前,仿佛昨天,我们正在见证历史,亲身经历新一轮的技术革命。


本文来自微信微信官方账号“腾讯科技”,作者:涵清,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com