这一时代最聪明的模式,数学考试也不能得1分?

04-16 06:37

The following article is from 差评前沿部 Author 江江


无论什么时候有人问我 AI 是否比别人聪明,我只用一句话就会闭嘴。


那便是,9.11 和 9.9 哪个大?


自去年有网友发现比这个大小这个 bug 到目前为止,这个人类一眼就能确定问题,是的, AI 就像送命题一样,比女朋友问我和你妈妈掉进水里先救谁还难回答。


因此,每一次都有新的 AI 出现的时候都会被网友拿来检测这个问题,到现在为止, 2025 年都要过去 1/3 了,还是有 AI 做不对。


但是,要理解AI为什么数学上傻,我们还是要站着不动? ai 从这个角度来说。


当你告知 AI " 9.11 和 9.9 哪个大 ? " 在这个句子中,它的眼睛里没有数字,而是一个个碎片化的词。


例如 " 9.11 " 会被拆成 [ token_9, token_dot, token_11 ] ,而 " 9.9 " 则会被拆成 [ token_9, token_dot, token_9 ] 。


换言之,这两个数字是对的 AI 从一开始就没有大小之分,而是一堆 Tokens 。因此,当你提出问题时, AI 首先要明确的是,这里的第一反应。 9.11 是个啥?


众所周知,AI 所有口中的内容,都是从网上的各种信息中学习的, " 这个网络 " 是程序员们 " 创造的 " ,因此当 AI 在学习了这些语料之后,大脑也变成了别人的形态。


因此再看到 9.11 和 9.9 时,AI 也许压根就没有把这两个数字当作数学中的小数比大小,而是字符串,版本号,甚至飞机撞击双子塔,还有撞塔的前天。


再加上现在的 AI 注意力机制已经引入,所以系统从一开始就过于注意,这可能代表日期、字符串和版本号。 token_11,不是把握 9.11 这一数字被视为一个整体。


因此 AI 把这两堆完成 Tokens 拉一块做比较:


" 9 " = " 9 "," . " = " . " , " 11 " > " 9 " ,破案了, 9.11 大于 9.9 。


有些朋友可能会问,就像 OpenAI-o1 这类推理模型,难道不都声称可以做奥数题,那么人们怎么能理解这些数学呢?


该说不说,那还真不确定。


这个月初的一篇文章来自 INSAIT 、苏黎世联邦理工学院(ETH Zurich)等待顶级机构的论文研究表明,这些声称能够做对奥数题的大模型大多做算术填空。


在科研人员将题库改为解释性答案后,发现从 DeepSeek-R1 到 OpenAI-o1pro ,甚至新出的 Claude3.7 只能得到一些零点(满分 7 分)。。。


研究人员从这个大模型的翻车记录中发现,这些大模型的推理也是一个比一个更抽象的。


举例来说,在一个几何证明题中,所有的模型都想象出不同的假设理,然后用假设理去硬答题,最后做出的也就是全错了。


像 o3-mini 假设一个点位于特定圆的外部,可以实际上那个点应该在里面,所以后面模型使用断线做出的论证都是错误的。


而 gemini-2.5-pro 更加离谱,它在解释过程中写了一个表情,然后把表情作为参考文献来证明。


虽然这可能是由于模型的随机性,但更无语的是,这些大模型通常是相当固执的。


即使你告诉它这是错误的,它也不会跳出原来的思维模式,总是把自己吊死在一棵树上。


然而,在所有失败的分布中,近一半的原因是由于推理逻辑错误。是的,这些被称为推理的大模型,真的会在纯推理的时候翻车。。。


举例来说,在一个要证明所有数据都符合某一特征的问题上,Claude 3.7 只有一个模型被证明,直接说所有的模型都符合这一特点,中间没有任何归纳、推广的步骤,纯嘴硬。


换言之,这些推理模型似乎可以分析这个和那个,但实际上并没有真正深入思考的能力。当然,这是因为 Transformer 问题,也是大语言模型普遍存在的问题。


对 Transformer 就模型而言,它实际上是通过的。 tokens 它们之间的概率,权重导出相应的字母符号,它操作的是符号的统计联系,而不是理解和执行抽象的数学公理,而是预测“给出前面的符号,后面更容易跟随哪个符号”。


所以在论文的最后,科研人员总结说:现在 LLMs 不足以完成严格的数学推理任务,这突出了推理和确认生成能力需要大幅度提高。


换句话说,AI 确实擅长模仿(Mimicry),但是它和真正的理解(Understanding)与创造(Creation)仍然相当遥远,AI 到目前为止,还没有像人类那样探索和思考数学的能力。


但是从更本质的角度来说,AI事实上,数学缺陷是由于符号和理解的分离。


虽然它可以学会和你一起回答问题,但它只是复制语言的一种方式,而这种模式与精确的数学逻辑不同,人类语言充满了歧义。


维特根斯坦说,“语言的边界代表着世界的边界”。对于我们人类来说,数字不是我们面前的黑白符号,” 9 "就是九个苹果," 0.11 “米”就是你在尺子上量出的长度,这些概念都来自于你与世界的互动。


而且语言很难描述这些经历到底有多丰富,就像 AI 总是不明白,她的“爱”二字,能让你的心有多痛。


前几个月 deepseek 火灾发生时,有人问 deepseek 要是成年了,最想做什么?deepseek 据说它想要经历暴雨,熬夜学习,经历失恋,甚至承认自己会犯错误。


实际上,这正是如此AI现在越来越强大,你和我作为人类存在的意义。


人生的意义不在于让你成为一个不会出错的设备,而在于充分投入到这段有笑有泪、成功有失、充满不确定性的旅程中。正是这些看似平淡无奇、不完美的经历,形成了一个人的一生:丰富、复杂、充满感情、不断变化。


所以下一次,当你迅速推断出来的时候 9.9 大于 9.11 当时,不妨间断一下,感受一下这种理所当然的背后作为人类的深刻和幸运。


归根结底,在这个浩瀚的宇宙中,能够思考、感受、去爱、亲身体验自己,是我们存在的奇迹。


发文:纳西


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com