当前位置: 首页 > news >正文

南京大学揭秘:大模型做加法为何频频算错?

这项由南京大学软件新技术国家重点实验室主导的研究,发表于2026年第43届国际机器学习大会(ICML 2026),论文编号为arXiv:2606.03645,有兴趣深入了解的读者可通过该编号查询完整论文。

你有没有遇到过这样的场景:用某个大名鼎鼎的AI助手帮你算一道简单的加法,结果它洋洋洒洒地分析了一大通,最后给出了一个差一位的错误答案?这件事既让人哭笑不得,又让人困惑不已——一个能通过复杂数学推理题的AI,怎么可能在小学算术上栽跟头?

南京大学的研究团队也被这个问题深深困扰,于是他们决定干一件前人没干过的事:打开AI的"脑壳",看看它在做加法时,脑子里究竟在想什么。研究结论出人意料,甚至有些令人震撼——AI在输出错误答案的那一刻,它的内部表示其实已经知道正确答案了。错误的根源,不是"不会算",而是一种类似于"笔误"的内部机制失误。

这个发现不仅回答了"AI为什么算错",还顺带解开了另一个谜团:为什么用轻量级的"探针"工具,能从一个正在犯错的AI内部读出正确答案?研究团队为此建立了一套完整的几何模型,并据此发明了一种在推理时帮AI自我纠错的方法,效果相当不错。

一、为什么AI算加法会出错,这件事值得认真对待?

在正式讲研究内容之前,有必要先解释清楚这件事为什么重要。大型语言模型(简称LLM,就是ChatGPT、Qwen这类AI)在一些高难度数学竞赛题上表现亮眼,但在做"三个十位数相加"这种题目时,却频繁出现差一位的错误。这种错误有个特点:几乎都是差一,而不是差二差三或者差十。

这背后有一个具体的算术原因。做多位数加法,最难的部分不是把每一列的数字加起来,而是处理"进位"——当某列的和超过9,就需要向前进一位。进位本身依赖于更低位(更右边的列)的计算结果,这就意味着AI需要在处理某一列数字时,同时考虑来自右边若干列的"累积压力"。这个过程要求AI在整个计算过程中维持一种连续的、全局的状态感知,而这恰恰是当前语言模型的弱项。

研究团队把这个研究对象设定为:三个十位整数相加的加法任务。这个设定既足够复杂(进位最多可达2),又有明确的数学结构可以分析。他们用的是阿里云的Qwen3-4B模型,搭建了一个包含一万道题的数据集,然后逐位逐层地提取AI内部的"神经激活向量"——也就是AI在做运算过程中,每一层神经网络产生的数字信号。

二、AI内心的"地图"长什么样?

研究团队用一种叫做UMAP的工具,把AI内部高维度的激活向量压缩成肉眼可见的二维图像。你可以把这个过程理解为:AI的"内心状态"是一个生活在几千维空间里的点云,UMAP相当于一台特殊的相机,把这个高维点云拍成一张二维照片。虽然压缩过程会损失一些细节,但主要的结构会被保留下来。

拍出来的照片令研究团队大为惊奇。整张图呈现出一种高度有序的几何结构,就像一幅精心设计的地图,而不是随机散落的噪点。

首先,图上有十个明显的"核心聚集区",分别对应数字0到9。每当AI准备输出某个数字时,对应那个数字的激活向量就会聚集在该数字的核心区附近。这十个区域清晰分隔,就像城市里的十个不同区域,各有各的地盘。

然而更精妙的是核心区内部的结构。以数字"1"所在的区域为例,放大来看,里面的点并非杂乱堆叠,而是被进一步分成了三簇清晰的子群,对应进位数为0、1、2三种情况。换句话说,AI在内部区分了"这个1是因为当前列的数字本身就是1(没有进位进来)"和"这个1是因为当前列数字加上进位后等于1"这两种截然不同的情形。AI对数字的来源有清晰的内部认知。

正确答案的激活点,密集地聚集在这些子群的核心地带;而错误答案的激活点,则主要出现在不同子群或不同核心区之间的"边界地带"和"过渡地带"。这个空间分布规律,是后续所有理论的视觉化起点。

三、贯穿整张地图的"轨道":等原始和轨迹

研究团队在深入观察这张地图之后,发现了一个关键的隐藏结构,他们将其命名为"等原始和轨迹"(Iso-Raw-Sum Trajectory,简称IRST)。这个名字听起来复杂,背后的道理其实很直觉。

在做加法时,每一列的计算涉及两个独立的量:一是这一列本身各个加数的数字之和(原始和),二是从右边低位传来的进位数。最终这一列的输出数字,等于原始和加进位数,再取个位数。举个例子,如果三个数字在某一列分别是3、5、4,原始和就是12,如果进位是1,那么这一列输出的数字是(12+1)取个位数,也就是3,并且向更高位进位1。

所谓"等原始和轨迹",指的是所有原始和相同的计算状态,在AI内部空间中形成的一条连续"轨道"。由于原始和固定,输出的数字完全由进位数决定——进位是0输出某个数字,进位是1输出下一个数字,进位是2输出再下一个数字。因此,一条IRST轨道会像一根线,穿越多个不同的数字核心区。

具体来看一条典型轨道:原始和等于1的那条轨道(记为T?)。当进位为0时,1+0=1,输出数字1,激活点落在数字1的区域;当进位为1时,1+1=2,输出数字2,激活点落在数字2的区域;当进位为2时,1+2=3,激活点落在数字3的区域。这三个激活点,由一条连续的轨道串联起来,就像三颗珠子被一根线穿起来。

这个发现的意义在于:AI的计算"轨迹"是有章可循的,不是随机漫步,而是沿着固定的轨道滑动。每条轨道代表一种固定的"原始和",在轨道上的位置由进位数决定。

四、错误是怎么发生的:在轨道上"滑脚"

有了IRST轨道这个框架,研究团队终于能够精确描述错误是如何产生的了。他们把这种错误称为"几何滑移"——激活向量在轨道上没有停稳,从一个数字区域滑到了相邻数字区域。

具体有两种滑移方向。第一种叫做"幻觉进位"(Hallucination):实际进位只有0,但AI内部表示却误以为进位是1,导致激活点从正确位置沿轨道向上滑了一格,输出的数字比正确答案多1。第二种叫做"进位泄漏"(Leakage):实际进位是1,但AI内部表示没能捕捉到这个进位,激活点沿轨道向下滑了一格,输出的数字比正确答案少1。

这两种错误都只差一,而且都沿着同一条IRST轨道发生,这就解释了为什么AI的加法错误几乎清一色是"差一位"的错误,而不是差两位或者更多——因为轨道是连续的,相邻节点之间的滑移是最容易发生的,跨越两个节点的大幅滑移需要更多的噪声扰动,概率极低。

从几何图上看,错误样本(用红色标注)主要聚集在两个数字核心区之间的狭长过渡地带,而正确样本(用蓝色标注)则密集地分布在每个核心区的中央稳定区域。这种空间分布完美地验证了"滑移"的几何解释。

五、进位是个连续的数,不是非0即1的开关

研究团队进一步追问:为什么激活向量会在轨道上滑动,而不是牢牢停在正确位置?这引出了他们对进位机制的全新理解。

他们提出,AI内部表示的不是一个离散的进位数(0、1或2),而是一个连续的"进位潜力"(Carry Potential,用符号Φ表示)。这个进位潜力是从当前列右边的所有列"汇聚"过来的数值压力,其计算方式是把右边第一列的原始和除以10,第二列的原始和除以100,依此类推,然后全部加起来。

举个例子,如果右边第一列的原始和是14,第二列的原始和是11,那么进位潜力就是14/10 + 11/100 = 1.4 + 0.11 = 1.51。这个1.51,取整数部分就是1,这就是离散的进位数。

这个连续值具有直观的物理意义:它代表了"进位压力的大小"。当进位潜力是0.1时,进位压力很小,远离整数边界,AI很容易判断进位为0;当进位潜力是0.9时,它非常接近整数边界1,这时判断就变得模糊了;当进位潜力是1.5时,压力处于中间地带,判断进位为1是稳妥的。

在UMAP可视化图上,研究团队把每个样本的进位潜力数值标注出来,发现沿着IRST轨道从一端到另一端,进位潜力的数值呈现出平滑的渐变——从低到高连续过渡,没有任何突兀的跳跃。这个直接的视觉证据,证明IRST轨道确实是由连续的进位潜力组织起来的。

六、噪声量化模型:错误是"手抖"的结果

基于上述发现,研究团队提出了一个正式的数学模型来解释为什么错误会发生,他们称之为"噪声量化模型"。

这个模型的核心思想是:AI在估算进位潜力时,会受到内部噪声的干扰。真实的进位潜力是Φ,但AI感知到的进位潜力是Φ加上一个随机的噪声扰动ε,这个噪声服从均值为0的正态分布(也就是钟形曲线分布)。然后AI对这个受干扰的感知值取整,得到最终的进位判断。

关键在于,噪声什么时候最危险?当真实的进位潜力恰好接近一个整数时。比如Φ=0.95,只要噪声稍微往上推一点,超过1.0,AI就会误判进位为1;比如Φ=1.05,只要噪声稍微往下拉一点,低于1.0,AI就会误判进位为0。在这种"临界状态"下,即使很小的噪声也会导致错误。相反,当Φ=1.5时,离两边的整数边界都有0.5的距离,需要相当大的噪声才能引发误判,这时AI的计算是稳健的。

根据这个模型,错误率应该呈现"浴盆形"分布:当进位潜力接近整数时,错误率急剧攀升;当进位潜力处于两个整数的中间时,错误率几乎为零。

研究团队对一万道题的数据进行了统计,实际的错误率分布与这个理论预测高度吻合,拟合优度R?达到0.80。当Φ接近1.0或2.0时,错误率确实出现了明显的尖峰;当Φ在0.5、1.5、2.5附近时,错误率跌至接近零的水平。通过拟合,他们还估算出这个模型中的噪声水平σ约为0.05——这个数字量化了AI在处理这道题时的"手抖程度"。

随着加法的加数个数增加(从3个加数变成4个、5个),同样的浴盆形分布仍然存在,但σ值急剧增大:三个加数时σ≈0.05,四个加数时σ≈0.12,五个加数时σ≈0.25。加数越多,进位信号越复杂,AI的"手"就抖得越厉害,误判的概率也就越高。这为"加数越多AI越容易算错"这一现象给出了量化解释。

七、探针能读出正确答案,背后的几何原因

在解释完错误机制之后,研究团队还回答了另一个令人困惑的现象:为什么可以用"探针"(一种轻量级的分类器,比如简单的逻辑回归或小型神经网络)从AI内部读出各种信息?

他们做了一系列探针实验,从最终层的激活向量中尝试读出六种不同的信息:正确答案、AI实际输出的答案、本次计算是否正确、输入进位数、原始和、进位潜力。结果显示,这六种信息都可以被探针以相当高的精度读出,精度在82%到99%之间。

更有趣的是各个探针的精度差异。AI实际输出答案的探针精度最高(98.81%),因为探针本质上只需要识别激活向量落在哪个数字核心区,这与AI自身的输出逻辑高度一致。正确答案的探针精度略低(94.85%),差距来自于那些发生了几何滑移的错误案例——激活向量已经落入了错误的数字区,但探针需要"逆流而上",把它映射回正确答案所在的区域,这需要克服局部的几何结构。

"是否正确"的探针精度最低(82.41%),这个结果非常重要。它说明,正确与错误的样本在几何上并没有泾渭分明的边界——错误样本只是落在了轨道上的过渡地带,而不是形成了一个独立的"错误区域"。这从几何角度证实了"错误是连续滑移,不是离散跳变"的核心论断。

原始和探针的精度(98.60%)也很高,这支持了IRST轨道的存在——因为错误主要是沿轨道方向(进位方向)的滑移,而非跨越轨道(换成不同原始和)的跳变,所以原始和的线性可分性得以保留。

八、可以用方向"推着"AI改变答案吗?

为了进一步验证IRST轨道确实对应AI内部的真实计算维度,研究团队做了一个更直接的实验:沿着轨道方向,人为地向AI的激活向量施加一个扰动,看看AI输出的答案是否会发生预期的变化。

他们选取了轨道T?中两个相邻稳定状态的中心点,计算从一个中心点指向另一个中心点的方向向量,然后用不同强度的扰动沿这个方向"推"激活向量,观察AI输出的数字如何随着扰动强度变化。

结果符合预期:稳定状态深处的样本(即激活向量远离边界、进位潜力值远离整数的样本)需要较大的扰动才会改变输出;而处于过渡地带的误差样本(激活向量靠近边界)只需要很小的扰动就会翻转。这种"临界区容易翻转、稳定区不易翻转"的阶梯式响应,与物理学中的相变现象类似,直接证明了AI的数字判断是由沿IRST轨道方向的连续坐标所决定的。

九、把发现变成实用工具:推理时的双流一致性校验

所有这些发现最终指向一个实际应用:既然AI内部有正确的信息,只是在"最后一公里"的量化输出时出了差错,能不能在AI输出答案的瞬间,拦截并纠正这个错误?

研究团队设计了一套"双流一致性校验"方法。所谓双流,指的是同时从AI内部读取两种相互独立的信息:一是"局部计算流",用一个小型分类探针读出AI对当前列原始和的判断;二是"全局上下文流",用一个小型回归探针读出AI估算的连续进位潜力值。

一个正确的输出,应当满足简单的一致性:输出数字 = (原始和 + 进位)取个位数,其中进位由进位潜力取整得到。如果AI输出的数字无法用"合理的进位"来解释,说明发生了几何滑移,程序随即用公式重新计算正确答案并替换输出。

为了应对进位潜力本身的估算噪声(毕竟接近整数边界时,进位潜力的估算也不精确),研究团队引入了一个容差参数δ:不是只考虑进位潜力的整数部分,而是考虑进位潜力在±δ范围内所有可能的进位值。只要AI的输出能被其中任一合理进位解释,就认为一致,不予干预。

实验表明,取δ=0.1时,这个方法将原始正确率从86.26%提升到89.56%,在此过程中成功纠正了30.46%的原本错误答案,同时仅有1.87%的正确答案被错误地干预。与其他几种对比方法相比(包括重新提示、激活向量引导、直接替换),这套方法在综合表现上最为均衡。

从更高的视角来看,这个实验本身也是对IRST理论的一次间接验证:纠错能够成功,恰恰说明AI内部确实保留了正确的数学信息,只是在量化输出环节出了差错。

十、这套理论对别的模型也成立吗?

研究团队没有止步于Qwen3-4B,他们还在Qwen3-8B(在12位数加法上测试)和Gemma-3-4B-IT(另一个不同架构的模型)上验证了相同的几何结构和噪声量化模型。两个模型都呈现出清晰的IRST轨道结构,错误率也都表现出浴盆形分布,拟合优度分别达到R?=0.70。噪声水平估算为Qwen3-8B约0.05,Gemma-3-4B-IT约0.07。特别值得关注的是,Qwen3-8B是在更难的12位数加法上测试的,仍然保持了与4B模型相近的低噪声水平,说明更大的模型确实有更强的进位信号处理能力。

他们还观察了专门训练加法任务的小型Transformer模型(来自另一项相关研究的数据),发现在模型训练尚未收敛时,同样存在连续的IRST轨道结构和浴盆形错误分布;随着训练完全收敛,轨道结构才逐渐消解,各数字区域变得相互独立。这提示IRST是一种在训练过程中出现的中间态表示策略,并非某个特定模型的独有特征。

最后,研究团队也观察了随层数加深,AI内部表示结构的演化过程。在第0到第23层,激活向量呈现出与前一个生成位相关的聚类结构;到了第24层,整个结构突然崩塌重组,形成一个椭圆形的流形;在第25到第36层,这个流形逐渐分化为清晰的IRST轨道。这一层间演化过程表明,算术计算的核心推理集中在第24层附近完成,与探针精度在该层附近急剧跃升的现象高度吻合。

归根结底,南京大学的这项研究做的事情,是把一台AI的"计算内心"用几何语言描述了出来。他们发现,AI在做加法时,内心维持着一幅清晰的几何地图,地图上有代表数字身份的"城区",有连接城区的"轨道",有沿轨道流动的"进位压力"。当压力值恰好落在轨道的临界点附近,噪声就可能把AI的判断推向错误的城区,导致输出差一位的错误答案。而此时,正确答案的信息仍然隐含在激活向量的深层结构中,等待着被"读出"。

这项研究的意义不只是解释了一个让人头疼的算术bug。它提示了一个更广泛的可能性:AI在很多看似错误的输出背后,内部其实存在正确的计算过程,只是在最终的"量化输出"这一步发生了信息失真。如果这个规律在其他类型的任务上也成立,那么未来改善AI可靠性的方法,可能不是简单地让AI"更努力地想",而是在输出环节加入更好的几何一致性检验,帮AI把已经正确的内部思考,更准确地转化为外部可见的答案。

这件事对普通用户的启示也许是:下次AI给你算错了加法,不要以为它完全不懂数学。它的内心,可能已经算对了。

Q&A

Q1:大语言模型做加法时内部的几何结构是什么样的?

A:研究发现,大语言模型内部存在一种叫做"等原始和轨迹"(IRST)的几何结构。简单来说,做加法时AI的内部表示会在一张高维"地图"上运动,地图上有十个对应数字0到9的聚集区,每个区内部又按进位数分成更细的子群。所有进位不同但原始和相同的计算状态,会沿着同一条轨道分布,进位数决定了在轨道上的位置。

Q2:大模型加法只差一位的错误为什么几乎都是差1?

A:这是由"等原始和轨迹"的结构决定的。AI的进位判断是沿固定轨道滑动的,相邻节点才是最近的邻居。当内部噪声把激活向量从正确位置推向轨道上相邻的节点时,输出就差1。要差2甚至更多,需要跨越更长的轨道距离,概率极低。所以差1是几何上最"省力"的错误方式。

Q3:双流一致性校验方法在纠错时是如何工作的?

A:这个方法同时用两个轻量级探针读取AI内部信息:一个探针读取当前列的原始和(局部计算),另一个探针读取连续的进位潜力估算值(全局上下文)。如果AI输出的数字无法用合理的进位值加原始和来解释,就判定发生了几何滑移,程序立即用两个探针读取的值重新计算正确答案并替换输出,从而在不改变模型本身的情况下完成推理时纠错。

http://www.jsqmd.com/news/996198/

相关文章:

  • 2026年嘉兴挖机出租选对=省心 禾顺挖掘机租赁值得推荐 - 本地品牌推荐
  • 抖音批量下载工具终极指南:3分钟学会无水印视频下载
  • 终极3DS游戏格式转换指南:轻松将3DS文件转为CIA安装包
  • 2026年出国劳务公司怎么选?从资质、业务到服务,这份行业分析请收好 - 优质品牌商家
  • 5分钟掌握Win11Debloat:让你的Windows系统焕然一新的终极免费工具
  • USB PD协议里的四种Reset,到底该怎么用?一个真实调试案例带你搞懂
  • MPR084电容触摸传感器低功耗与中断配置实战指南
  • DLSS Swapper实战秘籍:三分钟轻松解锁游戏性能新境界
  • 计算机毕业设计之django校园兼职平台设计
  • 别再写一堆getter/setter了!用Qt的Q_PROPERTY宏解放你的代码(附完整示例)
  • 3秒搞定网页图片格式转换:Save Image as Type Chrome扩展终极指南
  • 计算机毕业设计之运动健康管理系统
  • BibiGPT完整指南:如何用AI快速总结任何音视频内容,让学习效率提升5倍
  • 2026年聚合氯化铁供应商选择指南:四川本地正规厂家与行业格局分析 - 优质品牌商家
  • 别再只盯着光刻机了:聊聊芯片制造里‘打底’的EPI外延炉到底是个啥
  • 从MPC7447A电压降额看嵌入式系统功耗优化:原理、实现与权衡
  • 高透水鱼缸滤材有哪些品牌适合长期使用?2026年耐用滤材对比与选购清单 - 观域传媒
  • 从‘误报警’到‘精准定位’:聊聊DTC状态掩码在车载故障排查中的实战避坑指南
  • 2026年高空外墙清洗公司哪家靠谱?无人机技术重塑行业选型指南 - 广州矩阵架构科技公司
  • 别再死记硬背了!用FPGA实战案例图解AXI总线的三种协议(AXI4/4-Lite/4-Stream)
  • EB Garamond 12:开源古典字体与学术引用系统的完美融合指南
  • 从单片机到服务器:聊聊C/C++里“计时”这件事的演变与选择
  • Linux内核模块开发:如何用module_param给驱动传参(附权限设置详解)
  • 给硬件工程师的PCIe配置空间Header速查手册:从Device ID到BAR寄存器,一文搞定
  • 别再瞎试了!Verilog里$display、$monitor、$write、$strobe到底啥区别?一个例子讲透
  • MUKONI 对讲机 多场景适配 筑牢行业通信基础
  • 2026年近期大倾角刮板输送机市场格局与核心服务商深度解析 - 品牌鉴赏官2026
  • 2026年6月专业的Google网站推广公司推荐,谷歌推广/谷歌广告/谷歌搜索广告,Google网站推广服务商怎么选择 - 品牌推荐师
  • OpenRGB:一站式解决多品牌RGB设备统一控制难题
  • 揭秘高效文件传输神器:网盘直链下载助手解锁六大云盘高速下载