OpenAI推出了o3和o4的全新模型。-mini,超过99%的人类实力
OpenAI刚刚宣布将逐步推出两个新的推理模型——o3和o4。-mini。该模型主要通过加强测试阶段的计算能力,同时对各种外部工具进行深度整合。
GreggregOpenAI总裁 Brockman在新闻发布会上说:“这些模型意味着AI发展的质变,今天的发布无疑是前进的重要一步。”他进一步透露,顶级研究人员给出了反馈,o3和o4-mini可以导出具有实用价值的创新理念。。
Brockman强调,这不仅仅是模型迭代,更是“AI系统”的进化。其设计的初衷是利用外部工具进行复杂的交互和解决问题。
rockman强调,这不仅仅是模型迭代,更是“AI系统”的进化。其设计的初衷是利用外部工具进行复杂的交互和解决问题。
Brockman解释说,“我们训练他们在思维链中使用工具,”他还举了一个例子,“面对困难的任务后,o3连续调用600个工具来完成推理闭环。”数据显示,o3在编程、数学、科学和视觉处理等核心领域刷新了最佳成绩;o4-mini主要推广轻量化,优化了速度和成本。

知名AI评论家“AI Explained“与上一代o1相比,这两款车型的进步肉眼可见,”YouTube新发布的评价视频中评价道。o3的表现确实是行业标杆级突破。”视频不仅肯定了这次更新,而且从专业角度给出了理性的分析。
值得注意的是,o3和o4-mini都支持图像直接参与推理,并且可以实时调用Python编程、网页搜索、定制函数等工具。。特别是Brockman感叹:“现在这些模型在分析OpenAI内部代码时,表现甚至比我更加轻松,大大提高了开发效率。”
01.工具在实际应用中的使用
MarkkOpenAI的研究主管 Chen在直播中详细阐述了为什么工具浏览如此重要。
他认为:“把推理模型和工具结合起来,可以让他们更聪明。”他还打了一个例子:“这就像计算器有利于算术运算,地图有利于导航。”
Mark Chen还强调:“将o系列模型与我们的整个工具相结合,可以在高难度基准测试中达到最先进的水平。
“AI Explained“我似乎同意这种方法,并在分析中提到:“这两种模式从底层开始就被训练使用工具。我认为这是一个非常好的改进,它们很快就会变得更加实用。”
对工具集成重要性的一致看法表明,在这条发展路线上,行业正逐步达成共识。
Mark Chen补充道:“工具也解锁了新的功能,现在模型可以结合图像来思考。”
该模型可以调用Python代码“在服务器上切割或转换图像”,这意味着用户可以上传模糊、颠倒或复杂的图像,然后模型可以处理这些图像。
Brandon在直播过程中,OpenAI的专业人员 通过回顾2015年物理海报项目,McKinzie展示了这一点。
他解释了o3是如何进行复杂分析的:“o3进行缩放操作,找到相关图表,推断斜率与物理夸克质量的关系,对数据进行整合,然后查询最新论文获得更新后的估计值。这节省了几天的人工工作量。”

研究人员Wenda Li补充说,“为了实现这一点,这个模型会主动浏览代码,使用常用的终端工具:列出文档,使用。 `sed` 打开指令文件,试图找到它要找到的内容。它甚至可以识别代码中的继承问题,并在使用补丁和运行单元测试之前检查分析顺序。(MRO),就像一位优秀的工程师。”
研究人员Ananyanya Kumar指出,这个复杂的、多步的问题解决过程并非通过明确的编程来实现的,这个模型 包括简化自己的初始暴力破解代码,并对结果进行双重检查,“自然地学会做这些事”。
测试软件工程基准(SWE-bench)其中,o3平均值通过37次容器化的shell交互修复了开源代码中的漏洞;有些修复甚至需要超过100次交互,这说明o3在长期使用工具的过程中具有很强的能力和持久性。
02.基准测试表现
在各行各业的基准测试中,这些模型都取得了显著的成就。
“AI Explained”特别强调了一项成就:“大规模多任务语言逻辑基准测试(MMMU)在中间,o3得分达到82.9%。。的确,Geminiini比谷歌更好。 2.5 81.7%的Pro更高。
OpenAI在一次重要的多模态基准测试中超越了主要竞争者,这是一个重要的里程碑。
“AI Explained他们还提到了o3在自己的测试框架中的出色表现:“o3是我设计的SimpleBench前10个公开问题中第一个能够得到6分(满分10分)的模型,它的一些回答的确让我印象深刻。”
这个分析特别称赞了o3分析基准测试网站本身的能力:“它对我的基准测试网站进行了非常特殊的分析,它还创建了一张图片,并进行了深入的分析。此外,它对基准测试本身及其局限性给出了一些非常详细的建议。”
03.开发者生态系统
OpenAI也开源了codex。-cli,演讲者Fouad Torky将其描述为“将我们的模型与客户及其计算机连接起来的轻量级接口”。
对于如何在需要的地方安全布署代码执行代理,他将其定位为“参考实现”,它是以响应API等公共API为基础,集思维链总结等新功能于一体的。。

演讲者Michael Kim解释说,Codex 默认情况下,CLI以“建议模式”运行,在这种模式下“可以允许每个项目[指令或编辑]”,但对于更快的工作流程(如现场演示),它可以在“全自动模式”下运行。
根据Torky的说法,还设立了100万美元的开源信用基金,专门用于将codex-cli与最新模型相结合的项目,以“推动开源领域的前沿发展”。
04.发布计划
Mark 在直播间,Chen阐述了这些模型的发布日期:
- 从今天开始:如果客户是Pro、订阅用户Plus或Team将开始逐步获得o3。、o4-mini和o4-mini-High的访问限制。这将取代以前的o1和o3-mini模型。
- 一个星期后:如果顾客是企业版(Enterprise)或教育版(EDU)顾客,需要再等一个星期。
- O1标准版客户:如果客户现在使用O1标准版并且非常喜欢,我们将推出O3标准版,但是这需要一些时间。
- API接口:o3和o4-mini模型现在可以通过API接口使用。Chen还指出,未来几周将推出基于API的工具使用节点。
“我们将使用新的模型来更换o1系列模型,”Brockman确定了模型更换策略。 这和“AI Explained“观察结果是一致的,也就是“这些[o3和o4-mini]在OpenAI生态系统中,ChatGPT的最佳模型得到了证实。
凭借新的推理深度、更低的每令牌成本和更强的多模态技能,o系列模型旨在将先进的人工智能从实验室的研究对象转变为日常科学和工程领域的常用工具。。
Brockman总结道,这些模型代表着“我们正在推动通用人工智能(AGI)在惠及全人类的使命中,迈出了重要的一步。
“AI Explained”他在分析中给出了适当的总结,承认“o3代表了真正的进步。”受到人工智能社区一位重要审稿人的称赞,虽然这些新模型的全面知名度还有待观察,但OpenAI声称的技术进步增加了份量。
文本来源:
1.https://www.rdworldonline.com/openai-releases-o3-a-model-that-tops-99-of-human-competitors-on-ioi-2024-and-codeforces-benchmarks/
本文来自微信公众号“元宇宙之心MetaverseHub”,作者:元宇宙之心,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




