选择AI比选择目标更难,命名黑洞OpenAI的新型号,到底如何选择?
假如你最近关注AI新闻,可能会被各种层出不穷的新模式弄得眼花缭乱。
特别是堪称「起名黑洞」OpenAI,命名可谓毫无章法。
即便是AI圈的资深团队,面对同时发布的o3,、o4-mini、GPT-4.1、GPT-4.1 mini和GPT-4.1 当nano的时候,也是蒙圈。

为了解决这个问题,Every和DataCamp团队通过反复测试和来回切换模型,得出了以下结论:
o3:最新的OpenAI旗舰模型,也是最好的「深度思考」选手——专为自主复杂的推理和工具调用而设计。
o4‑mini:高效发动机——速度快、价格低,对数学、视觉推理和成本敏感开发任务表现惊人。它既不是明星旗舰,也不是标准霸主,但凭借效率优势,完全可以承担一般任务。
GPT‑4.1:API专业主力干将-指令严谨,长前后文记忆力极佳。

下一步,看看这三个模型的新特性,各自擅长什么,以及它们在Every团队的工作流程中的实际表现。
OpenAI最强推理模型OpenAI
OpenAI是OpenAI的最新前沿模型,旨在提高其在编码、数学、科学和视觉感知等复杂任务中的推理能力。
它还是第一个具有独立工具调用能力的推理模型,可以使用搜索,Python、为了实现目标,图像生成和图像解读等工具。
凭借这种能力,它在高级基准测试中表现出色,以解决现实世界问题,而以前的模型通常很难胜任。
OpenAI 尤其强调o3与o1相比有了显著的改进,并将其定位为迄今为止功能最强、适用范围最广的模型。
o3不仅仅是GPT‑4o这样可以使用工具,可以看到图片-它也可以将这些工具和图像融入到自己的推理过程中。
o3的优势
• 工具调用
o3不仅知道如何使用单一工具,还知道如何将多种工具连接起来,并在关键时刻转换方案。
假设你上传一张月度销售图表,它可以先用OCR提取数据,然后写Python代码计算同比增长,然后检索行业标准为结果提供背景——一气呵成。
在单个回复中,最多可以调用600个工具,在执行的同时提升自己;一旦出现问题,可以快速调整方向。就像一个自动驾驶的分析师,随身携带瑞士军刀,知道什么时候用哪把刀。
• 视觉推理
o3将用真实的语境对图像进行深度分析。其它模型也许只会说。「这个画是一幅描绘女性的画。」,而且o3会放大画角,读取画家的签名,找出画中悬挂的博物馆,并为您讲述其所属艺术流派的历史。
技术创新o3
性能大幅提升绝非偶然。OpenAI团队通过多次突破,才拿出了如此美丽的成绩单:
• 扩大强化学习
OpenAI发现,只要在强化学习阶段增加算率投入,模型效果就可以显著提高,这与监管预训练中的GPT系列有关。「越算越强」这条规则完全一样。不同的是,这个时候的o3并没有升级。「下一词预测」,而是通过最大限度地加强学习奖励来学习,并且经常在工具增强的环境中进行训练。
本质上,OpenAI将强化学习视为「预训练放大版本」:训练时间更长,计算率更高,效果更好。从而解锁竞技编程、多步数学证书等长期规划和序列推理的能力。再加上工具调用,性能增益更加明显。
• 动态视觉推理
o3在视觉推理上也有了很大的飞跃。它不仅可以理解图片,还可以将图像直接纳入推理循环-解释、操作和反复查看。因此,它在科学图表、数学示意图甚至照片安排时间表等任务中表现突出。
核心做法是:在整个推理过程中始终保留原图。
和传统「生成文本描述后,丢失图片」不同的做法是,o3可以利用工具随时放大、旋转和重视图像的随机区域,使推理更加灵活,处理模糊白板、手绘草图或会议日程照片等更加凌乱的视觉输入。
例如,OpenAI允许o3读取一张低清晰度的表演时间表照片,并计划在每个活动之间留出10分钟的休息时间表——不仅要分析视觉布局,还要立即应用约束。

举例来说,给o1看一个粗糙的草图,「这样会画出什么样的分形?」——o1答错了;而且o3直接命中「龙形曲线」。
虽然是小测验,但是结果令人惊讶,因为我们没有提供太多的线索。


• 更好的成本效率
更加令人惊讶的是,o3 性价比也更高:在同样的推理成本下,交出了更好的成绩。这可能是由于架构水平的提高,提高了 Token 吞咽量和延迟减少。
自 Deepseek‑自从R1以ChatGPT只有几分之一的成本获得高性能以来,成本一直是一个热门话题, o3 显然,业界的预期再次被推高。

o4‑mini,体积小,敏锐,但实力惊人。
o4‑mini是OpenAI o系列推理模型的最新成员。
它优化了速度、低成本和工具的推理能力,提供了200。 000 Token的前后文窗口,最多可以导出10000个Token,性能和o3、o1相当。
就工具而言,o4‑适合Python执行、网页浏览和图像输入的mini,可以访问OpenAI的标准界面(包括 Chat Completions 和 Responses)。支持流式导出、函数调用和结构化导出,但暂时不支持微调和嵌入(Embeddings)。
o4‑兼顾mini「量」和「质」:普通用户每天有150条消息上限,而o3每周有50条消息上限;在数学、编程和高视觉负荷任务方面,它以更快的速度和极低的成本实现了接近o3的性能。
虽然o4仍然是OpenAI最强的推理模式,但是o4仍然是OpenAI。‑mini可以以不到十分之一的成本获得o3的大部分性能。
o4‑mini的优点
• 体积虽小,但威力十足
要分析大量数据,还是总结凌乱的研究表格?o4‑轻松应对——选择洞察力,编写结构化查询语言。(SQL)、搜索数据,并将结果绘制成可交互的图表。
也许o3需要十几步推理,付出丰厚的token费用,而o4‑mini是直接的,给你一个简洁合理的答案。


• 工具齐全,节省计算率
o4‑mini提供与o3相同级别的完整工具箱,包括Pythoni、页面浏览,图像分析和生成等。
在生成分析报告时,它可以一次完成:获取CSV,用Python清洗和绘制,在网上搜索行业宏观数据进行比较,最后导出Markdown报告;整个过程不需要承担o3的计算费用。
o4‑mini和o4‑mini‑high
打开ChatGPT应用程序,你会发现有o4‑mini和o4‑mini‑high有两种选择。
o4,顾名思义‑mini‑high就是通过投入更多的推理算力来换取更好的表现。
这意味着o4‑mini‑与o4相比,high‑mini:
- 会花更多的时间在内部处理每一个提示;
- 通常可以产生更高质量的导出,尤其是多步任务;
- 但是响应速度更慢,而且可能会消耗更多的Token。
如果你更看重速度,o4‑可能更适合mini。如果任务需要复杂的推理(特别是代码或视觉输入)、前后文字较长,或者对精度要求较高,那么o4‑mini‑high更有可能给出更好的结果。
实测表现
下一步,对o4‑在数学和编码场景中,mini分别进行测试。
• 数学
第一,给它一个看似简单,却常常难倒语言模型的计算问题。
目的不是测量它的基本算术,而是看它会如何回答问题:循序渐进地推理,或者使用像计算器这样的工具。

第一个答案是错误的。所以,直接提示它使用计算器。
虽然第二次算对了,但还是有两个问题:
这就把答案称为「约等于」,但是这个减法题根本不需要任何估计。
从推理过程中可以看出,它并没有真正调用计算器,尽管导出中写着「计算器显示」,这种计算方法与实际计算方法不符。更加离谱的是,它还去搜索网页,而且这个基本问题根本不需要在网上查询。

接着又给了它一个更具挑战性的数学题,这次表现稳定多了。
模型反应灵敏,答案是用一小段Python脚本解决的,代码可以直接在思维链中看到。把代码公开作为推理过程的一部分真的很实用。

• 生成p5.js游戏
本测试选择算率较高的o4。‑mini‑high。
提示:为我制作一款引人入胜的无尽跑酷手游。屏幕上显示了关键操作指南。p5.不要HTML,js场景。我喜欢像素风恐龙和有趣的背景。
首次产生的结果:

有些地方我想调整一下,所以再一次提示:
画一只更像样的恐龙——它一点也不像恐龙。
在进入游戏之前,让玩家按下任意键——不要一开始就自动开始;同时确保屏幕上仍然显示所有的操作指南。
让玩家在游戏结束后再次尝试。
产生的第二个结果:

这次好多了,但是这个「恐龙」看上去仍然像一个老式的电影摄像机。
GPT‑4.1,为准确而生,不为准确。「氛围」服务
目前GPT‑4.1只通过API向开发者开放,目标是以不妥协的准确性执行细致入微的指令。
不像4.5这样的前辈那样。「梦幻」气质,但更加结构化,可靠性和一致性。它可以被视为OpenAI,面向特定的开发任务。「劳模」,而不是传播创造力的灵感来源。
GPT‑4.1的优势
• 遵循复杂的指令
GPT‑4.1处理任务就像一个经验丰富的领航员。
比如你在写一个食谱生成器,把所有的要求都写在一个提示词里——导出Markdown,绕过特定的话题,按照指定的顺序列出烹饪步骤,并附上钠含量等关键指标。
旧模型可能会漏掉步骤或者乱了顺序,而4.1会严格遵循你的路线,即使很长,也会全是弯曲。
这样做有两个好处:写提示词的时间更短,处理模型的导出时间更短。
• 记忆力惊人
与GPTToken相比,前后文窗口从128000个token扩展到10000个token,‑整整4o增加了8倍。
在多轮对话中,你只需要一次性设定语气或结构,它就可以继续遵循,不需要每次都从头开始。
也让很多实际场景可行:一次性处理完整日志,为代码仓库建立索引,顺利运行多文档法律流程,或者分析长篇内容,整个过程不需要分层或摘要。
• 结构化导出
GPT‑4.1就像公路旅行中的那个。「只要路线清晰,就特别容易相处。」朋友们。给它一个清晰的时间表,它就可以准确快速地执行。
可以把它扔掉「氛围」类型的提示,比如「这个食谱App能不能像走进一个温馨的地下酒吧?」,也许马上就想回家了。
GPT‑4.1、GPT-4.1 mini和GPT-4.1 nano
如果您想在编码、指令遵循和长期前后任务中获得最佳综合性能,请选择GPT。‑4.1。它可以胜任复杂的编码工作流,还可以在单个提示词中处理大量的文档。
GPT‑4.1 mini是一个中端选项,延迟和成本低,但几乎和完整版一样。在许多标准(包括指令遵循和图像推理)中,它可以追平甚至超越GPT‑4o。
GPT‑4.1 nano是系列中体积最小、速度最快、成本最低的模型(0.1美元/百万Token),面向自动完成、分类和从长文档中提取信息。虽然它的推理和规划能力不如更多的模型,但对于一些任务来说已经足够了。
GPT的完整版本‑就像4.1一样,mini和nano都支持前后文窗口100万Token。
对比竞争产品的表现
• GPT-4.1 vs Claude 3.7 Sonnet
在代码的优雅和结构性方面,根据测试,Claude 3.7 Sonnet仍然是首选,特别是在整体设计的一致性和操作界面的表现上。
但是,只要提示词范围清晰具体,4.1在执行指令能力上已经大大缩小了差距。
• o4‑mini vs GPT‑3.5
现在的观察,o4‑在有限的预算下,mini逐渐成为开发者追求速度、可靠性和视觉处理能力的开发者。「平价首选」。GPT于2022年11月发布。‑现在看起来有点3.5了。「过气」了。
参考资料:
https://every.to/context-window/vibe-check-openai-s-o3-gpt-4-1-and-o4-mini
https://www.datacamp.com/blog/o4-mini
https://www.datacamp.com/blog/o3-openai
https://www.datacamp.com/blog/gpt-4-1
本文来自微信微信官方账号“新智元”,编辑:犀牛 好困,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




