AI 推理能力之争:专家挑战苹果结论
IT 世家 6 月 14 科技媒体日新闻 9to5Mac 昨日(6 月 13 日本)发布博文,报道称苹果公司 6 月 6 日发布的 AI 研究论文《The Illusion of Thinking》引发争议,专家对评价方法提出质疑。
在文章中,苹果指出,即使是目前最先进的大规模推理模式(LRMs),同时,复杂的任务也会崩溃。但 Open Philanthropy 的研究员 Alex Lawsen 对此提出了详细的反驳,认为苹果的结论源于试验设计缺陷,而不是模型推理能力的根本局限性。
争论的焦点是苹果论文指出,即使是目前最先进的大规模推理模式也在处理汉诺塔问题。(Tower of Hanoi)等待复杂的任务之后,也会出现完全失败的情况。
IT 世家注:汉诺塔问题是一个经典的递归算法问题:上帝创造了三根柱子,并按顺序设置在第一根柱子上。 N 一个大小不一的圆盘(自下而上,圆盘由大到小,呈金字形)。
规定每次只能移动一个顶端的圆盘,并保证大圆盘在整个过程中不能放在小圆盘上。如果你想把所有的圆盘从第一根柱子移动到第三根柱子,试着给出解决方案。
Open Philanthropy 的研究员 Alex Lawsen 最近发表了反驳文章《The Illusion of the Illusion of Thinking》,认为苹果的研究结果更多地反映了实验设计的不足,而不是模型推理能力的真正局限性。在这篇文章中,他直言苹果的研究混淆了导出限制和评估设置问题,与实际推理失败无关。
Lawsen 对苹果的挑战提出了三个核心问题。第一,他指出苹果忽视了模型 Token 预算限定。在处理 8 上述河内塔问题时,如 Anthropic 的 Claude Opus 等待模型接近导出上限,甚至明确表示“为了节约 Token 而停止"。
第二,苹果 River Crossing(渡河)检测包括无解谜题,例如 6 上述角色组合无法满足的船舶容量限制,由于拒绝回答,模型被扣分。。
最终,苹果的自动评估脚本只基于完整的步骤目录。,未能区分推理失败和输出截断,导致部分战略导出被误判为失败。Lawsen 感觉,这种僵硬的评价方法是不公平的。
为了支持观点,Lawsen 河内塔检测重新设计,要求模型生成递归 Lua 用函数打印解法,而不是一一列出所有步骤。
结果令人吃惊:Claude、Gemini 和 OpenAI 的 o3 模型均能正确生成 15 解决问题的算法,远远超过苹果报告的“零成功”复杂界限。
Lawsen 得出结论:在清除人为导出限制之后,LRMs 至少在算法生成层面,表现出处理高复杂任务的推理能力。这说明问题可能不在于模型本身,而在于评价方法。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




