韩国KAIST破解机器人学习不稳定难题:让AI既勇于探索又不忘本
这项由韩国科学技术院(KAIST)与首尔国立大学联合完成的研究,于2026年5月发表在arXiv预印本平台,论文编号为arXiv:2605.27079。感兴趣的读者可以通过该编号查询完整论文。
机器人要学会一项新技能,就像一个从小学钢琴的孩子要改学爵士乐一样。孩子已经打下了扎实的古典乐基础,弹奏姿势和乐理知识都很不错,但爵士乐有自己的风格和即兴发挥的要求。关键问题在于:如何让孩子把古典功底用上,同时又真正学会爵士乐,而不是弹出一堆不伦不类的东西?更糟糕的情况是,孩子太激进地改变弹法,把原来的古典底子也毁了,反而连基本曲子都弹不好了。
AI机器人训练领域面临的,正是这个几乎一模一样的困境。研究团队通过一种被他们命名为"信赖域Q伴随匹配"(Trust Region Q-Adjoint Matching,简称TRQAM)的方法,为这个问题给出了一个精妙的解答。
一、先搞清楚问题的根源
要理解这项研究的价值,得先明白机器人是怎么学动作的。近年来,一种叫做"流匹配策略"的方法越来越流行。这种方法可以理解为:机器人不是直接输出一个动作指令,而是经过十几个小步骤,像雕刻家一样从一团随机的"泥巴"(噪声信号)出发,一步步雕刻出最终的动作。这种多步骤的生成过程让机器人能够表达非常丰富、多样化的动作,就像雕刻比直接用模具压制能产生更精细的作品一样。
在机器人学会了一些基础动作(比如通过大量示范数据训练出的预训练策略)之后,下一步就是通过强化学习让它进一步优化,学会完成具体任务。这个过程叫做"离线强化学习微调"。这里用一个"评委打分"的框架来理解:机器人执行动作,一个叫做"评论家"(critic)的模块给动作打分,机器人据此调整,争取获得更高的分数。
然而,这个过程有个要命的弱点。评论家不是完美的裁判,它的打分本身也有误差。更糟糕的是,在强化学习中,评论家是靠着自己上一轮的打分来训练下一轮打分的,错误会像滚雪球一样越来越大。当这个打分误差驱动机器人调整动作时,可能会把机器人推向一个极端、错误的方向,远远偏离原来学到的好的基础动作,最终整个策略崩溃,任务完成率从80%以上直接掉到接近零。
在这项研究出现之前,一个叫做QAM(Q-learning with Adjoint Matching,Q学习伴随匹配)的方法尝试解决多步骤采样的不稳定问题,但它并没有解决评论家误差放大的问题。QAM的开发者们也承认,需要一个更有原则性的方法,而不是靠简单的"梯度裁剪"(一种粗暴的手段,相当于强制规定每一步不许走太大,但并不能从根本上保证方向是对的)来凑合。
研究团队在Robomimic(一个机械臂操纵基准测试平台)上验证了这个崩溃现象的严重性:无论把QAM的超参数调成什么样,在大多数设置下,训练损失都会爆炸式增长到10的20次方以上,任务成功率随之崩溃。这不是偶尔出现的小问题,而是一个系统性的结构性缺陷。
二、评论家误差为什么会被指数级放大
研究团队用严格的数学推导解释了崩溃的机制,但这里可以用生活化的语言来理解。
回到钢琴孩子的比喻。假设有一位不太靠谱的评委,他对某首曲子的判断有一定误差,可能把实际得8分的曲子打成了10分,或者把实际得6分的打成了4分。这时候,孩子有多努力地按照这位评委的反馈来调整,就有多大风险走偏。如果孩子对评委的反馈极其敏感(学术上叫做"高逆温度β"),哪怕评委的误差只有一点点,孩子的弹法也可能发生翻天覆地的变化,因为他在用指数级的力度回应这个误差信号。
研究团队将这个现象正式证明为"定理",其核心结论是:当评论家打分有误差ε时,机器人策略偏离原来策略的程度,在总变差距离这个指标上,会以e的2βε次方这种指数级的幅度增长。β越大,意味着机器人越听评论家的话,误差的放大效果也就越恐怖。而在QAM这样的方法中,β是一个固定值,不能随着评论家质量的变化而自适应调整,这正是其脆弱性的根源。
三、核心创新:把"安全绳"编进动作生成的DNA
TRQAM的核心思路是:与其在最终的优化目标上加一个惩罚项来约束机器人"别走太远",不如把这个约束直接编织进机器人生成动作的每一个步骤之中。
这是一个非常本质的区别。用烹饪来类比的话,两种方法的区别就像这样:一种方法是先让厨师随意发挥,最后尝一口如果太咸就扣分;另一种方法是在厨师每次加盐的时候,直接控制盐罐子的开口大小。前者(外部惩罚)只能事后追责,如果厨师加盐的手太重,菜已经毁了,扣分也晚了。后者(内部控制)从源头上就限制了盐的用量,菜根本没有机会被放坏。
具体来说,研究团队在机器人生成动作的随机微分方程(可以理解为描述"泥巴如何一步步被雕刻成动作"的数学方程)中,引入了一个参数λ(希腊字母lambda,读作"拉姆达")。通过将扩散系数乘以√λ(λ的平方根),他们证明了一个极其精妙的性质:机器人当前策略与原始预训练策略之间的偏离程度,可以被表达为λ的一个精确数学函数。换句话说,调节λ就能精确控制机器人走了多远。
支撑这一结论的数学工具是一个叫做"吉尔萨诺夫定理"的概率论定理。这个定理可以通俗地理解为:如果你改变了一个随机过程的"漂移方向"(就像在河里加一个电机,改变水流方向),那么新的漂流路径和原来自然漂流路径之间的差异,可以用一个精确的公式来计算。研究团队利用这个定理,推导出了路径空间KL散度(一种衡量两条随机路径有多不同的指标)与控制代价之间的等式关系,其中λ作为倒数系数明确出现。
这意味着:λ越大,路径空间KL散度越小,机器人生成的动作路径就越接近预训练策略;λ越小,机器人越可以大胆探索,生成与原来差异更大的动作。此外,研究团队还证明了终端动作分布的KL散度不超过路径空间的KL散度,因此控制路径就能同时控制最终动作的偏离范围。三个结论串联起来,形成了一条从λ到评论家误差放大程度的完整控制链。
四、如何让λ自动调节:对偶下降法
既然λ控制着安全距离,那么如何设定一个合适的λ?如果λ太大,机器人永远不敢迈步,学不到新东西;如果λ太小,机器人又可能因为跑得太野而摔跤。
研究团队的答案是:不需要手动设定一个固定的λ,而是给定一个KL预算εKL(这是唯一需要用户设定的关键超参数,代表允许机器人与原始策略偏离多远),然后让λ通过一种叫做"投影对偶下降"的自动优化方法持续调整自己。
这个调整逻辑非常直观,就像一个智能空调系统:测量一下当前室温,如果比设定温度高,就加大制冷力度;如果比设定温度低,就减小制冷力度。在TRQAM中,每一轮训练都会估算当前策略与预训练策略之间的实际KL散度,然后与目标上限εKL比较。如果实际偏离超出了预算,就增大λ,让动作生成过程更保守;如果实际偏离低于预算,就减小λ,让机器人大胆一点。
实际估算KL散度的方法也很聪明:每次生成动作时,对比在每一步上"当前策略想走的方向"和"预训练策略想走的方向"之间的差异,把所有步骤的差异加总起来,就得到了路径空间KL散度的一个可靠估算值。为了减少随机波动带来的干扰,还对这个估算值做了指数移动平均处理(相当于不看单次测量,而是看近期的平均趋势)。
五、内部控制与外部惩罚的本质区别
研究团队特别花了一节内容对比两种看起来相似但实际上截然不同的方案:把KL散度约束加进优化目标(外部惩罚),对比把λ编进动作生成过程(内部控制,即TRQAM)。
表面上看,两种方案都用了对偶下降法来调节λ,区别好像只是技术细节。但实际上,外部惩罚方案中的λ只是一个损失函数里的权重系数,评论家的梯度信号和KL惩罚信号在同一个优化步骤中竞争,当评论家信号很强时,KL惩罚就会被"淹没",实际偏离程度仍然可以远超预算上限。这就回到了前面那道"事后咸了再扣分"的困境。
而TRQAM的内部控制方案中,√λ·σ(τ)这个扩散系数被OT调度(一种固定的数学函数)锁定,调整λ意味着同时改变σ(τ),这会重塑整个随机微分方程,包括其漂移项。增大λ就是物理地缩小了每一步采样时的随机扰动幅度,从而物理地拉近了受控过程与原始过程之间的距离。由吉尔萨诺夫定理保证,路径空间KL散度是λ的精确函数,对偶更新会直接通过采样动态来执行信赖域约束,而不是和评论家梯度在损失层面打架。
实验结果非常清晰地展示了这种区别。在Robomimic平台的三个任务(lift、can、square)上,跨越六个不同的εKL目标值(0.01到1.5),TRQAM在整个离线到在线训练过程中始终将实际KL散度紧贴在目标附近,而外部KL惩罚方案在每一个目标值下都让实际偏离大幅超出预算,伴随着任务成功率的相应下滑。
六、实验结果:在50个任务上全面领跑
研究团队在OGBench平台的50个任务上进行了主实验对比。OGBench是一个覆盖了长距离导航、多物体操控和组合规划等多种难度类型的标准测试集,包括antmaze-large(蚂蚁迷宫大型)、antmaze-giant(蚂蚁迷宫巨型)、humanoidmaze-medium和humanoidmaze-large(人形机器人迷宫中型和大型)、scene(场景操控)、puzzle-3×3和puzzle-4×4(拼图类组合规划)、cube-double、cube-triple、cube-quadruple(2到4个方块的多步操控)这10个任务类型,每类5个子任务。
对比方法涵盖了当前主流的几种流策略强化学习方向:FQL(直接蒸馏为一步策略)、CGQL-Linex(分类器引导采样)、DSRL(在噪声空间做强化学习)、IFQL(隐式Q学习加拒绝采样)以及同系列的QAM和QAM-E。
TRQAM在离线强化学习阶段(训练100万步时)的整体成功率达到了68%,而次优方法DSRL和QAM-E分别只有46%和45%,差距超过22个百分点。相比QAM本身,TRQAM高出了33个百分点。在具体任务类型上,TRQAM在puzzle-4x4上达到99%、puzzle-3x3上达到100%、antmaze-large上达到89%、humanoidmaze-medium上达到84%,在几乎所有任务上都优于所有对比方法,在长距离规划和组合难度高的任务上优势尤为显著。
一个特别有意思的对比实验揭示了预训练的重要性。研究团队把TRQAM、QAM和QAM-E分别从预训练策略出发和从零开始训练,在humanoidmaze-medium任务上进行对比。结果是:QAM和QAM-E无论从哪里出发,学习曲线几乎重合,预训练完全没有带来任何好处,仿佛预训练的知识被后续的不稳定优化彻底抹掉了。而TRQAM从预训练策略出发的版本比从零出发的版本快得多,而且最终成功率也更高,这说明TRQAM真正做到了在提升性能的同时保留预训练知识。
在离线到在线的过渡阶段(之后追加50万步在线交互训练),TRQAM同样保持了领先优势,所有任务类型的学习曲线都在其他方法之上持续改善。
七、εKL这个旋钮该怎么拨
由于TRQAM精确执行KL预算,εKL成为了唯一需要用户调节的关键超参数,而且它的含义非常直观:它就是机器人被允许偏离预训练策略多远。实验显示,εKL对任务成功率的影响是平滑且可预测的,不会出现"突然崩溃"这种让调参者抓狂的现象,而是随着εKL的变化,成功率曲线平缓地上移或下移。
研究团队在humanoidmaze-medium、humanoidmaze-large、cube-double和cube-triple四个代表性任务上,扫描了εKL从0.5到4.0的8个取值,发现紧一些的预算(较小的εKL)在这四个任务上普遍更好,而对于状态空间更大的puzzle-4x4任务,更大的εKL反而单调地带来更好的效果,因为这类任务需要机器人大范围探索新状态。这种规律与任务的结构特征完全吻合,给了用户一个非常可操作的调参指导原则:状态空间大、探索需求高的任务,放大εKL;需要精细操控、应该紧贴示范的任务,收紧εKL。
在antmaze-giant这种状态空间特别巨大的任务上,研究团队还展示了一个额外技巧:在离线阶段用较小的εKL(0.5)稳定训练,切换到在线阶段时将εKL提升到3.0,让机器人有更大的探索自由度。TRQAM对这种动态预算完全支持,切换后实际KL散度几乎立即跟上新目标,不会引发任何不稳定。这相当于给了用户一个"变速器",可以在训练的不同阶段灵活切换策略的激进程度。
归根结底,TRQAM做的事情用一句话来总结就是:把信赖域约束从"嘴上说说的规矩"变成了"物理上无法逾越的围栏"。传统方法说"不要偏离太多",但当评论家给出强烈的错误信号时,这句话形同虚设。TRQAM则通过改变动作生成过程本身的物理参数,从根本上确保偏离的幅度可以被精确控制。
这项研究对于实际部署机器人系统有着直接的意义。当你有一个已经学会基本操作的机器人,想让它通过与真实环境的交互来进一步优化,现在终于有了一种方法可以在保留其已有能力的前提下进行稳定的改进,而不用担心它在某一天突然忘记怎么做最简单的事情。对于追求既能适应新任务又不会退步的通用机器人这个长期目标,这是一块相当扎实的基石。
当然,正如研究团队自己指出的,TRQAM也有局限性:计算伴随匹配损失需要在反向传播过程中对速度场做向量-雅可比乘积,计算量随模型规模线性增长,对于非常大的策略模型可能带来较高的计算开销。这也为未来的改进指出了一个明确方向。
如果对这些技术细节感兴趣,可以通过arXiv编号2605.27079查阅完整论文。
Q&A
Q1:TRQAM和QAM有什么区别?
A:QAM在生成动作时没有自动控制偏离程度的机制,评论家打分误差可能被指数级放大,导致策略崩溃。TRQAM在动作生成的随机微分方程中引入了参数λ,通过数学证明将路径空间KL散度表达为λ的精确函数,再用对偶下降法自动调节λ,使实际偏离始终贴近用户设定的预算上限εKL,从根本上避免了崩溃。
Q2:εKL这个参数应该怎么设置?
A:εKL代表允许机器人策略与预训练策略偏离多远。研究发现,操控类任务和需要精细示范的任务适合较小的εKL(如0.5),而状态空间很大、需要大范围探索的任务(如puzzle-4x4)适合较大的εKL(如4.0)。可以在离线训练阶段用小值保持稳定,切换在线阶段时再适当放大。
Q3:TRQAM在实际任务上的表现如何?
A:在OGBench的50个标准任务上,TRQAM的整体成功率为68%,而次优方法DSRL和QAM-E分别只有46%和45%。在puzzle-4x4任务上达到99%,puzzle-3x3上达到100%,antmaze-large上达到89%。在Robomimic机械臂操控任务上,QAM和QAM-E在大多数超参数设置下都会崩溃,而TRQAM在所有测试设置中保持稳定。
