西北大学、亚马逊、高通联手攻克AI自我纠错难题
这项由西北大学、亚马逊AGI、高通AI研究院和明尼苏达大学联合开展的研究,发表于2026年6月,论文编号为arXiv:2606.18910,有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。
你有没有见过那种特别厉害的象棋高手,即便走错了一步,也能在几步之内把局势扭转回来?他们之所以厉害,不仅仅是因为走出了好棋,更是因为在走错之后,能够迅速识别失误、从错误中恢复。现在,这个能力正在被研究者们系统地"教"给人工智能——具体来说,是那些我们每天都在使用的大语言模型,比如ChatGPT这类能够对话的AI系统。
这项研究提出了一套名为REVES(REvision and VErification-Augmented Training)的训练框架,核心思路是:不仅让AI学会答对题目,更要让它学会在答错之后如何聪明地纠正自己。研究成果相当亮眼——在代码生成基准测试LiveCodeBench上,REVES比普通强化学习方法高出6.5分,比多轮对话训练方法高出4.0分;在数学推理和复杂谜题上也有稳定提升;甚至用一个只有40亿参数的小模型,就达到了其他团队用百亿级大模型才能达到的圆形填充最优解。
一、AI回答问题时究竟面临什么挑战
要理解这项研究解决了什么问题,先得明白AI在回答问题时是怎么工作的。
通常情况下,当你向AI提问,它会给出一个答案,然后就结束了。这就像一个学生做完试卷直接交卷,没有机会检查和修改。研究人员把这种方式叫做"单次推理"——一次性把答案给出来,能不能答对全看这一发。
然而现实情况是,人类在处理困难问题时,很少依赖第一次的判断。我们会回过头检查、反复推敲、在发现错误后修正思路。于是研究者们想到,能不能让AI也拥有这种"反复修正"的能力?这就是所谓的"测试时扩展"——在AI回答问题的过程中,给它更多思考和修正的机会,看看能不能得到更好的结果。
现有的一些做法已经在探索这个方向。"序列修正"让AI多次尝试,每次根据上一次的结果和反馈来调整答案;"树状搜索"让AI像下棋一样探索多种可能的答案路径;"进化式优化"则模拟自然选择,让好答案不断演化改进。这些方法都有一个共同点:AI不只是给出一个答案,而是经历多轮推敲。
但问题来了——这些方法在使用AI的时候,AI本身并没有被特别训练过去适应这种"多轮修正"的场景。就好比你买了一本教做蛋糕的书,但书里所有食谱都是按照单炉一次烤好设计的,没有任何"如果这炉烤糊了怎么补救"的内容。现有的AI训练方式,本质上都在优化"第一次答对",而不是"答错了之后如何优雅地纠正"。
这种不匹配就是REVES要解决的核心问题。
二、旧方法为何走入了死胡同
在深入理解REVES的创新之前,有必要搞清楚研究者们之前尝试过什么,以及为什么不够好。
最直接的想法是"多轮强化学习"——让AI进行多次尝试,把整个答题过程当作一个游戏来训练,最终答对了就给奖励。这听起来合情合理,但里面藏着一个微妙的陷阱。
设想这样一个场景:AI在尝试解决一道难题时,第一次答错了,第二次还是答错,第三次终于答对了。在这种"错错对"的训练模式下,系统会认为整个过程是成功的,于是把奖励分配给了这三次尝试中的每一次——包括那两次答错的尝试。也就是说,AI学到的是"这种答错方式是好的",因为它曾经出现在成功的轨迹上。
这就好像一个学生每次考试前都猜题,有一次恰好猜对了,老师于是把这次考前猜题的所有行为都表扬了一遍,包括那些猜错的题。从长远来看,这样的反馈是混乱的,学生并不会因此真正学会如何判断题目。
研究人员把这个问题称为"路径依赖的信用分配偏差"——奖励是根据整条路径的终点来分配的,而不是根据每一步的真实价值。这种偏差在单次看来不明显,但积累下来,会导致AI对"如何从错误中真正恢复"的理解非常模糊。
另一个问题是效率。多轮强化学习需要AI每一步都实时生成下一步的内容,这个过程是串行的,无法并行加速,计算成本极高,速度极慢。
REVES的出发点,正是要从根本上绕开这两个问题。
三、REVES的核心逻辑:把错误变成宝贵的练习素材
REVES背后有一个非常优雅的数学发现,研究团队将其称为"危险分解引理"(Lemma 4.1)。用通俗的话来说,这个发现揭示了一件事:AI在多轮修正过程中的整体成功概率,可以被拆解成每一个"错误状态"上的单步恢复概率之和。
换句话说,如果AI在某个错误答案的基础上,有更高的概率在下一步给出正确答案,那么整体的多轮修正成功率就会提升。这意味着,不需要关注整条复杂的答题路径,只需要专注于每一个具体的错误节点,让AI在那个节点上练习"如何纠正"就够了。
这个发现的意义在于,它把一个复杂的多轮问题,分解成了很多个简单的单步问题。就像一个复杂的乐曲,与其让学生从头到尾反复练习整首曲子,不如把每一个难点小节单独拿出来,让学生专门练习那些出错的地方。这样的练习效率更高,反馈也更准确。
基于这个洞察,REVES设计了一个两阶段循环框架。
第一阶段是"数据增强"。在每一轮训练开始前,研究团队会让当前的AI模型去尝试解决一批问题,采用序列修正的方式——一次次地尝试,直到答对或者达到最大尝试次数。然后,系统只保留那些"最终答对了"的路径,但重点关注路径中间那些答错的步骤。那些中间的错误答案,就是最宝贵的训练素材——它们是真实的"失误",而且已经被证明是可以从中恢复的失误(因为后来答对了)。系统把这些中间错误答案转化成两类训练样本:一类是"修正提示",让AI练习如何把一个错误答案改成正确答案;另一类是"验证提示",让AI练习如何判断一个答案是对还是错。
第二阶段是"单步强化学习"。把第一阶段产生的这些修正提示和验证提示,混合进原始的训练数据中,用普通的单步强化学习来训练AI。每次训练都只处理一个(提示,回答)对,而不是整个多轮对话序列,这样信用分配就变得清晰——答对了就是好,答错了就是差,不存在路径混乱的问题。训练完成后,新的模型进入下一轮循环,重新生成数据,继续迭代。
这个框架有一个非常重要的细节:数据增强必须在每一轮训练后重新进行,而不能只做一次然后一直用。道理很直观——随着AI模型不断改进,它犯的错误也会发生变化。上一轮训练时产生的错误案例,在这一轮可能已经不再是AI的弱点了,那些样本对训练的帮助就会变得很有限。只有持续刷新训练数据,才能让每一轮的练习都聚焦在当前AI最需要提升的地方。实验结果清晰地证明了这一点:只做一次数据增强与每轮都刷新相比,性能差距非常显著。
四、理论保障:为什么训练序列修正能让所有修正策略都变好
研究团队不仅给出了方法,还给出了严谨的理论证明,说明为什么专门针对"序列修正"进行训练,能够让其他各种多轮推理策略也受益。
核心定理(Theorem 3.1)大意是:如果一个AI在序列修正场景下的"单步恢复能力"提升了,那么任何依赖修正操作的测试时策略(包括树状搜索、进化式优化等)的整体表现也会相应提升——前提是这些策略在运作时会访问和序列修正相似的"状态"。
这个道理并不难理解。无论是树状搜索还是进化式优化,它们在运作的某一刻,都需要AI在一个已有的错误答案基础上,产生一个更好的修正版本。如果AI本身的"看到一个错误答案然后给出更好答案"的能力变强了,那么所有调用这个能力的策略,自然都会变得更有效。
研究团队还证明了另一件事(Theorem 3.2):优化单次答题的成功率,和优化序列修正的成功率,是两个本质不同的目标。理论上完全可以存在两个AI,它们在单次回答时的成功率完全一样,但在多轮修正场景下的表现却差距很大。这说明,如果想让AI在实际应用中表现更好(而实际应用往往允许多次尝试),就必须专门针对多轮修正场景来训练,仅仅优化单次答题是不够的。
五、实验结果:从写代码到装圆形,REVES表现如何
研究团队在多个截然不同的任务上验证了REVES的效果,涵盖代码生成、数学推理、益智谜题和一个颇为特别的几何优化任务。
在代码生成方面,研究团队使用了LiveCodeBench(一个持续更新的代码挑战平台,包含2024年8月到2025年5月的题目)和CodeContest(竞赛级别的编程题库)。测试时,AI会生成代码,通过公开的测试用例来验证代码是否正确,如果不通过就会收到报错信息,然后根据这些信息修正代码,最多尝试32次。
在这个场景下,REVES训练出的模型表现持续领先。以Qwen3-4B这个模型为例,经过REVES训练后,在LiveCodeBench的多轮修正场景(32次尝试上限)下,得分达到50.9,比普通强化学习的41.7高出9.2分,比多轮对话训练的49.5也略有提升,比PAG方法的43.6高出更多。在另一个测试集(2025年1月到5月)上,REVES达到42.0,依然是所有对比方法中最高的。
在数学推理方面,使用了MATH500(500道各种难度数学题)和AIME 24/25(美国数学邀请赛题目,相当有挑战性)。有两种测试模式:一种是"理想停止"——只要AI给出了正确答案就立刻停止,用于测量AI的修正潜力上限;另一种是"自信心停止"——AI根据自己对答案的置信度来决定什么时候停止修正,这更接近实际使用场景。
在理想停止模式下,REVES的优势非常突出。以Qwen-2.5-7B模型在AIME24上的表现为例,经过REVES训练后,32次尝试的成功率达到45.7%,而普通强化学习只有33.5%,多轮对话训练是30.3%,PAG是31.1%。差距相当显著。在MATH500上,32次尝试的成功率达到94.7%,比普通强化学习的85.9%高出将近9个百分点。
在验证提示的作用方面,研究团队做了一个细致的拆解实验。他们分别只使用修正提示(不加验证训练)和只使用验证提示(不加修正训练)来训练模型,发现修正提示是提升修正能力的核心,验证提示的主要贡献在于提升AI对自己答案的置信度估计准确性——即AI能更好地判断自己到底答对没有。当两者结合(也就是REVES的完整版本),AI的置信度校准(AUROC从72.1%提升到74.1%)和修正能力同时提升,在实际使用场景下(需要AI自己决定何时停止)效果最好。
圆形填充挑战是这篇论文中最令人印象深刻的实验之一。这个任务是:在一个正方形里,尽可能多地塞入不重叠的圆形,让所有圆的半径之和最大。看起来是个几何题,实际上是一个极其困难的优化问题,研究人员通常用进化算法和大型AI系统来探索最优解。
研究团队用谷歌DeepMind的AlphaEvolve(基于Gemini-2.0 Pro + Flash)和其他多个系统作为对比。这些系统用了远比REVES更大的模型、更多的计算资源,在n=26(26个圆)的实例上达到的最优解是2.635983。而REVES使用Qwen3-4B这个只有40亿参数的小模型,同样达到了2.635983的最优解,与那些动用百亿参数大模型的系统打成平手。这个结果说明,REVES的训练方式带来的能力提升,在某些场景下可以弥补模型规模上的巨大差距。
六、泛化能力:训练数学和代码,却能解决从未见过的谜题
研究团队还测试了一件特别有意思的事:REVES训练出的模型,能不能解决从来没有在训练中见过的新类型问题?
他们选取了两个益智谜题作为测试:n皇后问题(在棋盘上放置若干个皇后,使得它们互相不攻击)和迷你数独(小版本的数独游戏)。这两类问题的训练数据里一条都没有,模型只用数学题和代码题训练过。
测试结果令人宽慰。使用REVES训练的Qwen-2.5-7B模型,在n皇后问题上的准确率达到59%,在迷你数独上达到73.3%,大幅领先未经REVES训练的版本(分别是42.5%和35%)。这说明REVES训练的不是"如何解特定类型的题",而是一种通用的"发现错误并纠正"的能力,这种能力可以迁移到从未接触过的任务上。
七、效率优势:比多轮训练快,还能并行运行
除了效果,REVES在计算效率上也有明显优势。研究团队在8张英伟达H200 GPU上进行了对比测试,REVES完成三轮完整迭代只需要约30小时,而同等设置下的多轮强化学习方法需要超过48小时。
效率提升来自两个方面。其一,REVES的第二阶段训练(Stage II)是纯单步的,每次只处理一个提示和一个回答,不需要在训练过程中串行生成多步内容。其二,第一阶段的数据生成(Stage I)和第二阶段的训练(Stage II)理论上可以并行运行——Stage II在用上一轮的数据训练时,Stage I可以同时用新模型生成下一轮的数据,两个阶段不需要完全串行等待。研究团队指出,在更精心设计的基础设施下,这种并行化可以带来更大的加速。
同时,研究团队还发现,增加数据增强的预算(也就是每个问题允许AI尝试多少轮来生成训练样本)会稳定地提升模型性能,说明这个方向存在良好的规模化潜力——愿意投入更多计算资源,就能得到更好的模型。
说到底,REVES做的事情,本质上是一种教育学上很朴素的道理:与其让学生不断重复做完整套题,不如把他们答错的题单独拿出来,有针对性地练习纠错。研究团队把这个朴素的想法,严格地建立在数学理论之上,用实验证明了它在AI训练中同样管用。
这项研究对普通人的意义在于,未来我们使用的AI助手在回答错误之后,将更有能力认识到自己的错误并给出更好的修正,而不是固执地坚持原来的错误答案,或者给出看上去"很自信"实则依然错误的修正。对于需要精确答案的场景——比如写代码、做数学题、解决规划问题——这种能力的提升是实实在在的。
值得思考的是,这项研究还揭示了一个更深层的问题:我们现在训练AI的方式,和我们实际使用AI的方式,之间往往存在错位。REVES是弥合这种错位的一次尝试,但更广泛的问题依然开放——当AI被用于更复杂、更长期的任务时,如何设计训练目标才能真正与实际使用场景对齐?这个问题留给研究界,也留给每一个关注AI发展的人去思考。有兴趣深入了解这项研究完整细节的读者,可以通过arXiv:2606.18910查阅原论文。
Q&A
Q1:REVES是什么,它与普通的强化学习训练有什么区别?
A:REVES是一套专门针对AI多轮修正能力设计的训练框架。普通强化学习只训练AI"第一次答对",而REVES通过将AI答错的中间步骤提取出来,转化为专门的修正和验证练习样本,让AI学会如何在答错之后聪明地纠正自己,从而在需要多次尝试的实际使用场景中表现更好。
Q2:REVES训练出的AI模型在解决数学和代码问题时具体提升了多少?
A:在代码生成基准LiveCodeBench上,REVES比普通强化学习方法高出约6.5分,比多轮对话训练高出约4.0分。在数学推理方面,Qwen-2.5-7B经过REVES训练后,在AIME24的多轮修正场景下成功率从33.5%提升至45.7%,在MATH500上从85.9%提升至94.7%,提升幅度相当显著。
Q3:为什么REVES训练数据增强必须每轮都重新生成,而不能一次生成后反复使用?
A:因为随着AI模型不断改进,它犯的错误类型也会发生变化。上一轮产生的错误案例,在当前模型中可能已经不再是弱点,继续用这些过时样本训练等于在重复练习已经掌握的内容,效果很差。每轮重新生成确保训练数据始终聚焦在当前模型最需要提升的薄弱环节。实验结果也清晰显示,持续更新数据的效果显著优于只做一次数据增强。
