每当有人问我AI是不是比人聪明的时候,我只用一句话他就会闭嘴。
那就是,9.11 和 9.9 哪个大?
自打去年有网友发现比大小这个 bug 以来,这一个人类可以一眼定真的问题,对 AI 来说那就跟送命题一样,比女朋友问我跟你妈掉水里先救谁还难回答。
所以每次有新 AI 出现都会被网友们拿这个问题测试一遍,到现在2025年都要过去 1/3 了,还是有 AI 做不对。
不过,要理解AI为啥数学上犯傻,咱还是得站到ai的角度上来聊。
当你告诉 AI “ 9.11 和 9.9 哪个大 ? ” 这句话的时候,它的眼中并没有数字,而是一个个碎片化的词。
比如 “ 9.11 ” 会被拆成 [token_9, token_dot, token_11],而 “ 9.9 ” 则会被拆成[token_9, token_dot, token_9]。
也就是说,这俩数对 AI 而言一开始就没有大小之分,而是一堆 Tokens 。所以当你提问以后, AI 的第一反应是要明白,这里的 9.11 是个啥?
众所周知,AI嘴里的所有内容,全都靠从网上的各种信息里学,而 “ 这个网络 ” 是程序员们 “ 创造的 ” ,所以当AI学多了这些语料后,脑子也就变成人家的形状了。
所以再看到9.11 和 9.9 时,AI可能就压根没把这俩数当成数学里的小数比大小,而是字符串、版本号,甚至可能是飞机撞双子塔,和撞塔的前天。
再加上现在的AI都引入了注意力机制,所以系统一开始就过度注意了可能象征着日期、字符串、版本号的 token_11,而不是把9.11这个数字当成整体。
于是AI完事儿把这两堆Tokens拉一块儿做比较:
“ 9 ” = “ 9 ”,“ . ” =“ . ” , “ 11 ” “ 9 ” ,破案了, 9.11 大于 9.9 。
有差友可能就要问了,像OpenAI-o1这些推理大模型,不是都号称能做奥数题吗,那人家怎么就能搞明白这些数学?
该说不说,那还真不一定。
本月初的一篇来自 INSAIT 、苏黎世联邦理工学院(ETH Zurich)等顶尖机构的论文研究显示,这些号称能做对奥数题的大模型绝大部分做的都是算术填空题。
当研究人员把题库换成论述解答题以后,发现从 DeepSeek-R1 到 OpenAI-o1pro ,甚至新出的 Claude3.7 都只能拿到零点几分(满分7分)。。。
从这帮大模型的翻车记录中,研究人员发现目前这些推理大模型也是一个比一个抽象。
比如在一道几何证明题里,所有模型都幻想出了不同的假定理,然后用假定理去硬解题,最后做出来的也就是全错的。
像o3-mini就直接假设一个点位于特定圆外部,但实际上那个点应该在里面,于是后面模型利用切线做的论证就全错了。
而gemini-2.5-pro更离谱,它在论述过程里写了个表情,然后把表情当成参考文献去证明了。。。
虽然这可能是因为模型的随机性,但更无语的是这些大模型往往相当固执。
即使你告诉它这里是错的,它还是不会跳出原先的思维定式,老是在一棵树上吊死。
而在所有失败分布中,有将近一半的原因都是因为推理逻辑错误。没错,这些号称推理的大模型,真到了纯推理的时候就会翻车。。。
比如在一个要证明所有数据都满足某个性质的问题中,Claude 3.7模型只证明了一个,就直接说所有的都符合这个性质,中间没有任何归纳、推广的步骤,就纯嘴硬。
也就是说,这些推理大模型看上去能分析这那的,但实际上不具备真正深度思考的能力,当然这是因为Transformer的问题,也是大语言模型的通病。
对Transformer模型来说,它实际上是通过tokens之间的概率,权重来输出对应的文字符号,它操作的是符号的统计关联,是在预测“给定前面的符号,后面跟哪个符号的可能性更大”,而不是在理解和执行抽象的数学公理。
所以在论文最后,研究人员总结说:当前的LLMs不足以完成严格的数学推理任务,这凸显了推理和证明生成能力需要大幅改进。
也就是说,AI确实擅长模仿(Mimicry),但它和真正的理解(Understanding)与创造(Creation)还相当遥远,AI到目前也还不具备像人类一样,对数学的思考和认知能力。
但要从更本质上讲,AI的数学缺陷其实是因为符号与理解的割裂。
虽然它能学会跟你对答如流,但这只是照搬语言的模式,而这种模式跟精确的数学逻辑不是一回事儿,人类语言本身就充满歧义。
维特根斯坦说,“语言的边界意味着世界的边界”。对我们人类而言,数字并不是是眼前的黑白符号,“9”就是九个苹果,“0.11米”就是尺子上那段你量出的长度,这些概念全部来自你和世界的互动。
而语言却无法描述这些经历到底有多丰富,就像AI永远弄不明白,她的“爱过”两个字,会让你的心有多痛。
前几个月deepseek大火的时候,有人问deepseek如果变成人,最想做什么?deepseek说它想去经历暴雨、去熬夜读书、去经历失恋,甚至承认自己会犯错。
实际上,这恰恰就是AI越来越强的现在,你和我作为人类存在的价值。
生命的意义不是要你成为一台不会出错的机器,而是全然地投入这场有笑有泪、有成有败、充满不确定的旅程。正是这些看似平平无奇还不完美的经历,构成了人的一生:丰富、复杂、充满体验而不断变化。
所以下一次,当你轻松地判断出9.9大于9.11时,不妨停顿一下,感受这中理所当然背后作为人类的深刻与幸运。
毕竟在这浩瀚宇宙中,能够思考、能够感受、能去爱,去体验生活本身,就是我们存在的奇迹。
图片、资料来源:
PROOF OR BLUFF? EVALUATING LLMS ON 2025 USA MATH OLYMPIAD
REASONING LIMITATIONS OF MULTIMODAL LARGE LANGUAGE MODELS. A CASE STUDY OF BONGARD PROBLEMS
涌现据点:数学之谜,揭秘AI在奥数证明中的惊人失败
OpenAI Platfor、小红书、知乎等,部分图源网络