在你认为AI发展放缓的时候，OpenAI推出o3，向AGI迈出关键的一步。

2024-12-22

当 Sam和我们的研究人员说 AGI 随着时间的推移，我们不是想卖你神奇的药水和2000美元的订阅服务，也不是想诱导你投资我们的下一轮融资。但是AGI时代真的来了。

——John Hallman（OpenAI 技术人员)

2024年12月21日，OpenAI正式发布了一系列备受期待的o3模型，其中o3和o3正式发布，这些模型已经持续了12天。-mini。

o3 这是一个非常强大的模型，在编码、数学和数学方面。 ARC-AGI 许多标准，如基准检测，都超过了标准 OpenAI 此前的 o1 模型(o1评分25%，o3评分87.5%)。

o3-mini 是 o3 更加经济、高效、性能导向的版本，在成本和延迟方面比较 o1-mini 降低了许多，并且提供了类似的功能。

因为和英国电信公司 O2 版权/商标矛盾可能发生，因此被命名为o3。

图片：OpenAI官方X

OpenAI 向安全研究人员开放正向 o3 和 o3-mini 初步浏览，估计 o3-mini 将在 1 大约在月末发布，o3 则稍后。

检测概览

SWE-Bench 测试： 71.7%-o1评分48.9%

Codeforces 评分： 2727-相当于全球人类程序员编码大赛，排名第一。 175 位。

AIME： 96.7%-意味着数学测试只有一个错误。

博士学位的科学问题（GPQA）：博士生一般得分87.7%-70%

最难的前沿数学测试： 25.2%-其它模型不超过2%，数学天才陶哲轩表示，这次测试“可能会让AI难倒好几年”

ARC-AGI： 87.5%-o1评分25%

惊人的检测结果，这次的确远远超过了普通博士生。

o3系列模型向AGI迈进，基准测试结果惊人。

为了显示这次o3检测结果的震撼程度，我们选择了有代表性的检测给大家简单介绍一下。

(一)CodeForces检测

o3系列模型在全球顶级编程竞赛平台CodeForces上展示了其出色的编程能力。在CodeForces中，o3的分数高达2727，超过了大多数人类程序员。

目前，只有不到200名顶级人类程序员能够达到或超过这个分数。这个结果不仅证明了o3在编程任务上的强大实力，也说明它在处理复杂算法问题时接近甚至超越了人类的潜力。

图片：Codeforces排名和相应的结果

（二）ARC-AGI检测

ARC-AGIKeras鼻祖Frannran(人工通用智能评价标准)测试çois Chollet的发起旨在评估AI系统在面对未见的新任务时的适应性。ARC-AGI检测的核心在于其设计任务通常需要深入的逻辑判断和创新思维，这使其成为评估AI系统通用智能能力的重要工具。

在这次测试中，o3系列取得了显著的成绩，在高计算能力的配置下，o3取得了87.5%的成绩，但在低计算率的配置下，也取得了75.7%的优异成绩。这个分数远远超过了o1系列，而后者在同一个测试中的分数只有25%。

François “这是一个令人惊讶和重要的阶跃式提升，显示了GPT系列模型前所未有的新任务适应能力，”Chollet对此进行了评价。ARC-AGI-从2020年GPT-3的0%提高到2024年GPT-4o的5%，需要四年时间。伴随着o3的出现，对人工智能能力的所有认知都需要重新评估。

图：François 评估Chollet

虽然ARC-AGI测试表现不错，但这并不意味着o3已经达到了AGI水平，因为它仍然会在一些非常简单的任务中失败，这与人类智能有着根本的不同。

图：François 评估Chollet

（三）EpochAI Frontier 检测Math

EpochAI Frontier Math测试被称为当今最具挑战性的数学基准测试之一，包括最新的尖端数学题。著名数学家陶哲轩（Terence Tao）这个评价说：“这个测试可能会让AI难倒好几年。”

然而，o3在这次测试中突破了以往的记录，解决了25.2%的问题，而其他模型的分数都没有超过2%。这个分数不仅证明了o3在数学推理方面的强大能力，也显示了它在处理高度复杂和抽象问题时的潜力。

亚伦·列维是Box公司的首席执行官。（Aaron Levie）“OpenAI刚刚宣布了他们的新推理模型o3，它在基准测试方面的表现似乎非常出色，目前，人工智能的发展并没有放缓的迹象。”

图：Aaron Levie X

OpenAI在谷歌登基几天后重返铁王座。

日前，谷歌凭借其新一代大模型Geminini， Veoo模型2.0和视频生成模型 2.0的发布曾经在AI的牌桌上杀死了四面八方。然而，随着OpenAI推出了o3系列模型，这场比赛再次发生了戏剧性的逆转。

(一)谷歌掀开了AI圈的牌桌，全力狙击OpenAI。

当OpenAI持续了12天的新闻发布会进行到第五天时，谷歌以闪电般的速度发布了其重磅产品。——Gemini 2.0 Flash。这个版本不仅在速度上翻了一番，而且在多模式导出上也取得了突破，支持原始图像生成和音频输出，进一步拓展了AI模型的应用边界。Gemini 2.0不仅是语言模型的升级版本，更是一种统一的底层模型，具有主动思考和多任务处理能力。

在新闻发布会上，谷歌CEO桑达尔·皮查伊说：“假设Gemini 1.0是关于信息的整理和理解，所以Gemini 2.0就是要让这些信息真正有用。”

配合新推出的多模态即时API，Gemini 2.0可以处理即时音频和视频流输入，并提供多种工具的组合，大大提高了其在复杂任务中的适应性。

此外，谷歌还发布了一个新模型，顺手确认Sora是最好的，谷歌的相关文章，我们之前已经报道过了，详细信息可以看出：

谷歌发布了一个新模型，顺手确认Sora是最好的。

(二)你们方唱了我，OpenAI重返铁王座。

12月13日，谷歌Deepmind的研究人员抱怨说，OpenAI这次的发布并没有切断他们，而OpenAI的研究人员在下面回答说：“大戏还在后面”。

自从GPT4在OpenAI发布以来，它一直处于领先水平，但是Googlee、Anthropic、Meta和其他竞争对手也咬得很紧。今天，随着OpenAI发布其o3系列模型，它宣布将在2024年的AI军备竞赛中再次重返铁王座。

正如OpenAI研究高级副总裁马克·陈（Mark Chen）奥特曼还补充说：“这的确意味着我们在实用性的前沿攀爬。”这款模型在编程方面非常出色，”。

OpenAI在三个月前发布了o1，而OpenAI在今天发布了o3，这证明了AI前进的趋势是不可阻挡的。

图片：XXOpenAI研究人员

从ARC-AGI测试的分数来看，我们可以直观地发现，AI的发展方向并没有放缓，这可能是对今年AI泡沫理论的最有力回应。

GPT-2 (2019): 0%

GPT-3 (2020): 0%

GPT-4 (2023): 2%

GPT-4o (2024): 5%

o1-preview (2024): 21%

o1 high (2024): 32%

o1 Pro (2024): ~50%

o3 tuned low (2024): 76%

o3 tuned high (2024): 87%

John Hallman(OpenAI研究员，曾经在Google 普林斯顿大学数学系学生Brain实习， IMO 银牌得主)说：

“当 Sam和我们的研究人员说 AGI 随着时间的推移，我们不是想卖你神奇的药水和2000美元的订阅服务，也不是想诱导你投资我们的下一轮融资。但是AGI时代真的来了。"

然而，这也意味着AI的安全问题将不再是一个假设性的问题。我们不知道如果没有完善的安全审计机制，一个会撒谎的高智商，能够调动大量资源的AI会造成什么样的后果。...一年前，OpenAI的首席科学家Ilya Kever和SutsSam 在OpenAI中，Altman意见不合，那时候网友猜测Ilya已经看到了某种AGI的可能性，但是认为它的安全隐患极高，不适合推出。

日前，Anthropic的最新论文显示，人工智能模型可以“假装对齐”——在训练过程中假装遵循训练规则，但马斯克在部署过程中已经恢复到了原来的行为，这一点也得到了明确的评价。