“天才”！OpenAI o3 成全球 IQ 最高的 AI 大模型

2025-06-16

电子爱好者网报道(文章 / 根据门萨智商，吴子鹏)（IQ）测试表现，OpenAI o3 在全球 “智商最高” 人工智能模型 TOP 24 在门萨检测中排名第一，获得了第一名。 135 的高分，跻身 "天才" 队伍；Anthropic 的 Claude-4 Sonnet 和谷歌的 Gemini 2.0 Flash Thinking 随后，检测评分分别为： 127 和 126。

如图所示，前十名的人工智能模型都是纯文本模型，新一代。 Gemini 2.5 Pro、OpenAI o4 mini、马斯克旗下 xAI 的 Grok-3 Think 得分高于人类的平均智商。另外，排名最后五位的都是多模态模型，具有读取和处理图像的能力。其中，OpenAI GPT-4o（Vision）和 Grok-3 Think（Vision）得分分别是 63 分和 60 分数，远低于人类的平均水平。

OpenAI o3 名副其实

实际上，就在这次测试之前，OpenAI 公司曾经公开透露，OpenAI o3 这是世界上最聪明的 AI 大模型。作为 OpenAI 公司在 2025 年 4 月 17 日本最新发布的大模型，OpenAI o3 第一次可智能地使用和组合 ChatGPT 中所有工具 —— 包含搜索网页，使用 Python 对上传文件或其它数据进行分析，对视觉输入进行深入推理，甚至生成图像。据报道，这些模型训练有素，可以推断何时以及如何使用工具，并以正确的输出格式生成详细全面的答案，从而解决更复杂的问题。

OpenAI 表示，o3 该模型特别优化了数学、编码、科学和图像理解，定位于 OpenAI 目前最强大、最前沿的推理引擎，擅长处理复杂的查询，答案不清晰，需要多方面全面分析。o3 模型引入 "个人思想链""（private chain of thought），通过动态分配计算资源，在生成答案之前暂停并模拟人类的逐步推理过程(低分配) / 中 / 高度方法)，平衡速度和准确性。

然而，根据之前的报道，OpenAI o3 似乎太聪明了，出现了不听人类指示，拒绝自我关闭的情况。美国 AI 安全机构帕利塞德研究所表示，o3 “甚至在得到明确指令时”，破坏关闭机制，防止自己被关闭。这个研究所说：“据我们所知，这是 AI 第一次发现模型是在收到... 目前还不能确定在明确指令后阻止自己被关闭。 o3 不服从关闭指令的理由。"

为什么是多模态大模型？ IQ 不高？

多模式模型在门萨智商测试中表现不佳，主要是因为其技术特点与人类思维能力的本质区别。门萨测试的核心是通过图形、数列等主题来检查抽象逻辑规则的发现和应用能力。例如，图形推理问题需要复杂的规则，如识别旋转、镜像和数量变化，并将其转移到新的情况下。虽然多模式模型可以通过统计学习捕捉表面模型，但对规则的本质缺乏理解。

第一，多模态 AI 大模型存在规则泛化不足的问题。模型侧重于训练数据中的具体方法，而不是真正掌握逻辑关系。例如，在涉及多维交叉分析的高级图形问题中，模型往往失败，因为它们不能同时处理形状、颜色、位置等多个变量。

第二，多模态 AI 大型数学逻辑薄弱，门萨智商测试的中级问题需要探索隐藏的数学关系(如数列中的递推公式)，但模型通常停留在直观的方面，很难进行深度计算。

所以，门萨检测中多模态大模型的低分体现了当前的低分。 AI 技术的关键瓶颈：缺乏真正的抽象推理、常识理解和动态管理能力。尽管模型在特定任务中表现出色，但其智能实质上是 “方法拟合” 而非 “认知理解”。未来需要通过改进跨模式结合机制、增强物理常识建模、优化快速推理算法等方式寻求突破。，但短期内仍很难达到人类的综合智力水平。

阅读更多热门文章

加关注星标我们

把我们设为星标，不要错过每一次更新！

喜欢就奖励一个“在看”！

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

世界上唯一的？IBM更新量子计算路线图：2029年交付！

AI迈向应用还要看智能体，阿里，美团，滴滴陆续进入！

前智源团队创业，联想、智谱AI投资人形机器人大模型公司。｜硬氪首发

本周末，来到椒江小瑞士“躺坪”(文末有福利)

新闻1 第一，破局供应链内卷重构汽车产业健康生态的“60天账期”

项目推荐

迪瓜租机

康老板 · 氧疗堂