当前位置：首页 > news >正文

南京大学揭秘：大模型做加法为何频频算错？

news 2026/6/12 3:18:29

这项由南京大学软件新技术国家重点实验室主导的研究，发表于2026年第43届国际机器学习大会（ICML 2026），论文编号为arXiv:2606.03645，有兴趣深入了解的读者可通过该编号查询完整论文。

你有没有遇到过这样的场景：用某个大名鼎鼎的AI助手帮你算一道简单的加法，结果它洋洋洒洒地分析了一大通，最后给出了一个差一位的错误答案？这件事既让人哭笑不得，又让人困惑不已——一个能通过复杂数学推理题的AI，怎么可能在小学算术上栽跟头？

南京大学的研究团队也被这个问题深深困扰，于是他们决定干一件前人没干过的事：打开AI的"脑壳"，看看它在做加法时，脑子里究竟在想什么。研究结论出人意料，甚至有些令人震撼——AI在输出错误答案的那一刻，它的内部表示其实已经知道正确答案了。错误的根源，不是"不会算"，而是一种类似于"笔误"的内部机制失误。

这个发现不仅回答了"AI为什么算错"，还顺带解开了另一个谜团：为什么用轻量级的"探针"工具，能从一个正在犯错的AI内部读出正确答案？研究团队为此建立了一套完整的几何模型，并据此发明了一种在推理时帮AI自我纠错的方法，效果相当不错。

一、为什么AI算加法会出错，这件事值得认真对待？

在正式讲研究内容之前，有必要先解释清楚这件事为什么重要。大型语言模型（简称LLM，就是ChatGPT、Qwen这类AI）在一些高难度数学竞赛题上表现亮眼，但在做"三个十位数相加"这种题目时，却频繁出现差一位的错误。这种错误有个特点：几乎都是差一，而不是差二差三或者差十。

这背后有一个具体的算术原因。做多位数加法，最难的部分不是把每一列的数字加起来，而是处理"进位"——当某列的和超过9，就需要向前进一位。进位本身依赖于更低位（更右边的列）的计算结果，这就意味着AI需要在处理某一列数字时，同时考虑来自右边若干列的"累积压力"。这个过程要求AI在整个计算过程中维持一种连续的、全局的状态感知，而这恰恰是当前语言模型的弱项。

研究团队把这个研究对象设定为：三个十位整数相加的加法任务。这个设定既足够复杂（进位最多可达2），又有明确的数学结构可以分析。他们用的是阿里云的Qwen3-4B模型，搭建了一个包含一万道题的数据集，然后逐位逐层地提取AI内部的"神经激活向量"——也就是AI在做运算过程中，每一层神经网络产生的数字信号。

二、AI内心的"地图"长什么样？

研究团队用一种叫做UMAP的工具，把AI内部高维度的激活向量压缩成肉眼可见的二维图像。你可以把这个过程理解为：AI的"内心状态"是一个生活在几千维空间里的点云，UMAP相当于一台特殊的相机，把这个高维点云拍成一张二维照片。虽然压缩过程会损失一些细节，但主要的结构会被保留下来。

拍出来的照片令研究团队大为惊奇。整张图呈现出一种高度有序的几何结构，就像一幅精心设计的地图，而不是随机散落的噪点。

首先，图上有十个明显的"核心聚集区"，分别对应数字0到9。每当AI准备输出某个数字时，对应那个数字的激活向量就会聚集在该数字的核心区附近。这十个区域清晰分隔，就像城市里的十个不同区域，各有各的地盘。

然而更精妙的是核心区内部的结构。以数字"1"所在的区域为例，放大来看，里面的点并非杂乱堆叠，而是被进一步分成了三簇清晰的子群，对应进位数为0、1、2三种情况。换句话说，AI在内部区分了"这个1是因为当前列的数字本身就是1（没有进位进来）"和"这个1是因为当前列数字加上进位后等于1"这两种截然不同的情形。AI对数字的来源有清晰的内部认知。

正确答案的激活点，密集地聚集在这些子群的核心地带；而错误答案的激活点，则主要出现在不同子群或不同核心区之间的"边界地带"和"过渡地带"。这个空间分布规律，是后续所有理论的视觉化起点。

三、贯穿整张地图的"轨道"：等原始和轨迹

研究团队在深入观察这张地图之后，发现了一个关键的隐藏结构，他们将其命名为"等原始和轨迹"（Iso-Raw-Sum Trajectory，简称IRST）。这个名字听起来复杂，背后的道理其实很直觉。

在做加法时，每一列的计算涉及两个独立的量：一是这一列本身各个加数的数字之和（原始和），二是从右边低位传来的进位数。最终这一列的输出数字，等于原始和加进位数，再取个位数。举个例子，如果三个数字在某一列分别是3、5、4，原始和就是12，如果进位是1，那么这一列输出的数字是（12+1）取个位数，也就是3，并且向更高位进位1。

所谓"等原始和轨迹"，指的是所有原始和相同的计算状态，在AI内部空间中形成的一条连续"轨道"。由于原始和固定，输出的数字完全由进位数决定——进位是0输出某个数字，进位是1输出下一个数字，进位是2输出再下一个数字。因此，一条IRST轨道会像一根线，穿越多个不同的数字核心区。

具体来看一条典型轨道：原始和等于1的那条轨道（记为T?）。当进位为0时，1+0=1，输出数字1，激活点落在数字1的区域；当进位为1时，1+1=2，输出数字2，激活点落在数字2的区域；当进位为2时，1+2=3，激活点落在数字3的区域。这三个激活点，由一条连续的轨道串联起来，就像三颗珠子被一根线穿起来。

这个发现的意义在于：AI的计算"轨迹"是有章可循的，不是随机漫步，而是沿着固定的轨道滑动。每条轨道代表一种固定的"原始和"，在轨道上的位置由进位数决定。

四、错误是怎么发生的：在轨道上"滑脚"

有了IRST轨道这个框架，研究团队终于能够精确描述错误是如何产生的了。他们把这种错误称为"几何滑移"——激活向量在轨道上没有停稳，从一个数字区域滑到了相邻数字区域。

具体有两种滑移方向。第一种叫做"幻觉进位"（Hallucination）：实际进位只有0，但AI内部表示却误以为进位是1，导致激活点从正确位置沿轨道向上滑了一格，输出的数字比正确答案多1。第二种叫做"进位泄漏"（Leakage）：实际进位是1，但AI内部表示没能捕捉到这个进位，激活点沿轨道向下滑了一格，输出的数字比正确答案少1。

这两种错误都只差一，而且都沿着同一条IRST轨道发生，这就解释了为什么AI的加法错误几乎清一色是"差一位"的错误，而不是差两位或者更多——因为轨道是连续的，相邻节点之间的滑移是最容易发生的，跨越两个节点的大幅滑移需要更多的噪声扰动，概率极低。

从几何图上看，错误样本（用红色标注）主要聚集在两个数字核心区之间的狭长过渡地带，而正确样本（用蓝色标注）则密集地分布在每个核心区的中央稳定区域。这种空间分布完美地验证了"滑移"的几何解释。

五、进位是个连续的数，不是非0即1的开关

研究团队进一步追问：为什么激活向量会在轨道上滑动，而不是牢牢停在正确位置？这引出了他们对进位机制的全新理解。

他们提出，AI内部表示的不是一个离散的进位数（0、1或2），而是一个连续的"进位潜力"（Carry Potential，用符号Φ表示）。这个进位潜力是从当前列右边的所有列"汇聚"过来的数值压力，其计算方式是把右边第一列的原始和除以10，第二列的原始和除以100，依此类推，然后全部加起来。

举个例子，如果右边第一列的原始和是14，第二列的原始和是11，那么进位潜力就是14/10 + 11/100 = 1.4 + 0.11 = 1.51。这个1.51，取整数部分就是1，这就是离散的进位数。

这个连续值具有直观的物理意义：它代表了"进位压力的大小"。当进位潜力是0.1时，进位压力很小，远离整数边界，AI很容易判断进位为0；当进位潜力是0.9时，它非常接近整数边界1，这时判断就变得模糊了；当进位潜力是1.5时，压力处于中间地带，判断进位为1是稳妥的。

在UMAP可视化图上，研究团队把每个样本的进位潜力数值标注出来，发现沿着IRST轨道从一端到另一端，进位潜力的数值呈现出平滑的渐变——从低到高连续过渡，没有任何突兀的跳跃。这个直接的视觉证据，证明IRST轨道确实是由连续的进位潜力组织起来的。

六、噪声量化模型：错误是"手抖"的结果

基于上述发现，研究团队提出了一个正式的数学模型来解释为什么错误会发生，他们称之为"噪声量化模型"。

这个模型的核心思想是：AI在估算进位潜力时，会受到内部噪声的干扰。真实的进位潜力是Φ，但AI感知到的进位潜力是Φ加上一个随机的噪声扰动ε，这个噪声服从均值为0的正态分布（也就是钟形曲线分布）。然后AI对这个受干扰的感知值取整，得到最终的进位判断。

关键在于，噪声什么时候最危险？当真实的进位潜力恰好接近一个整数时。比如Φ=0.95，只要噪声稍微往上推一点，超过1.0，AI就会误判进位为1；比如Φ=1.05，只要噪声稍微往下拉一点，低于1.0，AI就会误判进位为0。在这种"临界状态"下，即使很小的噪声也会导致错误。相反，当Φ=1.5时，离两边的整数边界都有0.5的距离，需要相当大的噪声才能引发误判，这时AI的计算是稳健的。

根据这个模型，错误率应该呈现"浴盆形"分布：当进位潜力接近整数时，错误率急剧攀升；当进位潜力处于两个整数的中间时，错误率几乎为零。

研究团队对一万道题的数据进行了统计，实际的错误率分布与这个理论预测高度吻合，拟合优度R?达到0.80。当Φ接近1.0或2.0时，错误率确实出现了明显的尖峰；当Φ在0.5、1.5、2.5附近时，错误率跌至接近零的水平。通过拟合，他们还估算出这个模型中的噪声水平σ约为0.05——这个数字量化了AI在处理这道题时的"手抖程度"。

随着加法的加数个数增加（从3个加数变成4个、5个），同样的浴盆形分布仍然存在，但σ值急剧增大：三个加数时σ≈0.05，四个加数时σ≈0.12，五个加数时σ≈0.25。加数越多，进位信号越复杂，AI的"手"就抖得越厉害，误判的概率也就越高。这为"加数越多AI越容易算错"这一现象给出了量化解释。

七、探针能读出正确答案，背后的几何原因

在解释完错误机制之后，研究团队还回答了另一个令人困惑的现象：为什么可以用"探针"（一种轻量级的分类器，比如简单的逻辑回归或小型神经网络）从AI内部读出各种信息？

他们做了一系列探针实验，从最终层的激活向量中尝试读出六种不同的信息：正确答案、AI实际输出的答案、本次计算是否正确、输入进位数、原始和、进位潜力。结果显示，这六种信息都可以被探针以相当高的精度读出，精度在82%到99%之间。

更有趣的是各个探针的精度差异。AI实际输出答案的探针精度最高（98.81%），因为探针本质上只需要识别激活向量落在哪个数字核心区，这与AI自身的输出逻辑高度一致。正确答案的探针精度略低（94.85%），差距来自于那些发生了几何滑移的错误案例——激活向量已经落入了错误的数字区，但探针需要"逆流而上"，把它映射回正确答案所在的区域，这需要克服局部的几何结构。

"是否正确"的探针精度最低（82.41%），这个结果非常重要。它说明，正确与错误的样本在几何上并没有泾渭分明的边界——错误样本只是落在了轨道上的过渡地带，而不是形成了一个独立的"错误区域"。这从几何角度证实了"错误是连续滑移，不是离散跳变"的核心论断。

原始和探针的精度（98.60%）也很高，这支持了IRST轨道的存在——因为错误主要是沿轨道方向（进位方向）的滑移，而非跨越轨道（换成不同原始和）的跳变，所以原始和的线性可分性得以保留。

八、可以用方向"推着"AI改变答案吗？

为了进一步验证IRST轨道确实对应AI内部的真实计算维度，研究团队做了一个更直接的实验：沿着轨道方向，人为地向AI的激活向量施加一个扰动，看看AI输出的答案是否会发生预期的变化。

他们选取了轨道T?中两个相邻稳定状态的中心点，计算从一个中心点指向另一个中心点的方向向量，然后用不同强度的扰动沿这个方向"推"激活向量，观察AI输出的数字如何随着扰动强度变化。

结果符合预期：稳定状态深处的样本（即激活向量远离边界、进位潜力值远离整数的样本）需要较大的扰动才会改变输出；而处于过渡地带的误差样本（激活向量靠近边界）只需要很小的扰动就会翻转。这种"临界区容易翻转、稳定区不易翻转"的阶梯式响应，与物理学中的相变现象类似，直接证明了AI的数字判断是由沿IRST轨道方向的连续坐标所决定的。

九、把发现变成实用工具：推理时的双流一致性校验

所有这些发现最终指向一个实际应用：既然AI内部有正确的信息，只是在"最后一公里"的量化输出时出了差错，能不能在AI输出答案的瞬间，拦截并纠正这个错误？

研究团队设计了一套"双流一致性校验"方法。所谓双流，指的是同时从AI内部读取两种相互独立的信息：一是"局部计算流"，用一个小型分类探针读出AI对当前列原始和的判断；二是"全局上下文流"，用一个小型回归探针读出AI估算的连续进位潜力值。

一个正确的输出，应当满足简单的一致性：输出数字 = （原始和 + 进位）取个位数，其中进位由进位潜力取整得到。如果AI输出的数字无法用"合理的进位"来解释，说明发生了几何滑移，程序随即用公式重新计算正确答案并替换输出。

为了应对进位潜力本身的估算噪声（毕竟接近整数边界时，进位潜力的估算也不精确），研究团队引入了一个容差参数δ：不是只考虑进位潜力的整数部分，而是考虑进位潜力在±δ范围内所有可能的进位值。只要AI的输出能被其中任一合理进位解释，就认为一致，不予干预。

实验表明，取δ=0.1时，这个方法将原始正确率从86.26%提升到89.56%，在此过程中成功纠正了30.46%的原本错误答案，同时仅有1.87%的正确答案被错误地干预。与其他几种对比方法相比（包括重新提示、激活向量引导、直接替换），这套方法在综合表现上最为均衡。

从更高的视角来看，这个实验本身也是对IRST理论的一次间接验证：纠错能够成功，恰恰说明AI内部确实保留了正确的数学信息，只是在量化输出环节出了差错。

十、这套理论对别的模型也成立吗？

研究团队没有止步于Qwen3-4B，他们还在Qwen3-8B（在12位数加法上测试）和Gemma-3-4B-IT（另一个不同架构的模型）上验证了相同的几何结构和噪声量化模型。两个模型都呈现出清晰的IRST轨道结构，错误率也都表现出浴盆形分布，拟合优度分别达到R?=0.70。噪声水平估算为Qwen3-8B约0.05，Gemma-3-4B-IT约0.07。特别值得关注的是，Qwen3-8B是在更难的12位数加法上测试的，仍然保持了与4B模型相近的低噪声水平，说明更大的模型确实有更强的进位信号处理能力。

他们还观察了专门训练加法任务的小型Transformer模型（来自另一项相关研究的数据），发现在模型训练尚未收敛时，同样存在连续的IRST轨道结构和浴盆形错误分布；随着训练完全收敛，轨道结构才逐渐消解，各数字区域变得相互独立。这提示IRST是一种在训练过程中出现的中间态表示策略，并非某个特定模型的独有特征。

最后，研究团队也观察了随层数加深，AI内部表示结构的演化过程。在第0到第23层，激活向量呈现出与前一个生成位相关的聚类结构；到了第24层，整个结构突然崩塌重组，形成一个椭圆形的流形；在第25到第36层，这个流形逐渐分化为清晰的IRST轨道。这一层间演化过程表明，算术计算的核心推理集中在第24层附近完成，与探针精度在该层附近急剧跃升的现象高度吻合。

归根结底，南京大学的这项研究做的事情，是把一台AI的"计算内心"用几何语言描述了出来。他们发现，AI在做加法时，内心维持着一幅清晰的几何地图，地图上有代表数字身份的"城区"，有连接城区的"轨道"，有沿轨道流动的"进位压力"。当压力值恰好落在轨道的临界点附近，噪声就可能把AI的判断推向错误的城区，导致输出差一位的错误答案。而此时，正确答案的信息仍然隐含在激活向量的深层结构中，等待着被"读出"。

这项研究的意义不只是解释了一个让人头疼的算术bug。它提示了一个更广泛的可能性：AI在很多看似错误的输出背后，内部其实存在正确的计算过程，只是在最终的"量化输出"这一步发生了信息失真。如果这个规律在其他类型的任务上也成立，那么未来改善AI可靠性的方法，可能不是简单地让AI"更努力地想"，而是在输出环节加入更好的几何一致性检验，帮AI把已经正确的内部思考，更准确地转化为外部可见的答案。

这件事对普通用户的启示也许是：下次AI给你算错了加法，不要以为它完全不懂数学。它的内心，可能已经算对了。

Q&A

Q1：大语言模型做加法时内部的几何结构是什么样的？

A：研究发现，大语言模型内部存在一种叫做"等原始和轨迹"（IRST）的几何结构。简单来说，做加法时AI的内部表示会在一张高维"地图"上运动，地图上有十个对应数字0到9的聚集区，每个区内部又按进位数分成更细的子群。所有进位不同但原始和相同的计算状态，会沿着同一条轨道分布，进位数决定了在轨道上的位置。

Q2：大模型加法只差一位的错误为什么几乎都是差1？

A：这是由"等原始和轨迹"的结构决定的。AI的进位判断是沿固定轨道滑动的，相邻节点才是最近的邻居。当内部噪声把激活向量从正确位置推向轨道上相邻的节点时，输出就差1。要差2甚至更多，需要跨越更长的轨道距离，概率极低。所以差1是几何上最"省力"的错误方式。

Q3：双流一致性校验方法在纠错时是如何工作的？

A：这个方法同时用两个轻量级探针读取AI内部信息：一个探针读取当前列的原始和（局部计算），另一个探针读取连续的进位潜力估算值（全局上下文）。如果AI输出的数字无法用合理的进位值加原始和来解释，就判定发生了几何滑移，程序立即用两个探针读取的值重新计算正确答案并替换输出，从而在不改变模型本身的情况下完成推理时纠错。

查看全文

http://www.jsqmd.com/news/996198/