当前位置：首页 > news >正文

让机器人边干活边学习：LWD框架到底解决了什么问题，又留下了什么取舍？

news 2026/7/15 6:34:33

先说结论

LWD框架的核心创新在于不依赖“先收集、再训练、后部署”的离线迭代，而是尝试让模型在部署期间持续学习，形成数据飞轮。
DIVL通过预测动作回报的概率分布，而不仅仅是一个均值，能更好地保留那些罕见但可复现的高回报行为信号，对异质数据更鲁棒。
解决流模型策略的梯度优化难题是实用化的关键，QAM方法通过伴随匹配将全局梯度转化为局部回归目标，牺牲了一部分理论上的端到端最优，换来了训练稳定性。

从工程选型角度看，当我们需要在部署后持续提升机器人策略时，是应该像RECAP那样用RL的眼光挑数据、再走模仿学习的稳妥路线，还是像LWD这样直接攻克端到端RL梯度的难题？本文拆解两种思路的成本、适用边界与潜在风险。

如果你以为把机器人的通用策略模型部署到产线上就万事大吉，那这行怕是干不长。

真实世界不是测试集。物体换了位置，光线变了角度，用户的手势带点随机，更别提那些系统从未见过的长尾失效。离线演示数据再大，也覆盖不了“生产时的混乱”。于是问题来了：模型上了线，后续怎么进化？

最直接的做法是“派人去修”：把新出现的问题场景录下来，整理成数据集，然后拿回实验室重新训练。但这太慢了，成本也高。所以这几年，学术界和工业界都在琢磨如何在模型部署的过程中，让它自己学习、自己迭代。

一个叫 LWD（Learning While Deploying）的新框架就冲着这个方向去的。我消化完它的技术报告，最大的感受是：它不是简单地给机器人加一个“在线学习”开关，而是在权衡两个非常本质的问题——到底是用RL的眼光去精选数据，还是让RL梯度直接去修正模型的输出？

下面，我们从两个方案的思路差异说起。

方案一（RECAP）：用RL的眼光“挑”数据，在模仿学习的舒适区里微调

LWD 论文里反复对标的一个工作是 RECAP。RECAP 的思路很聪明，但本质上有点“借力打力”。

它的流程大概是这样的：让机器人先去跑一圈，收集一大堆 raw data —— 有成有败。然后，训练一个价值模型来评估这次跑的结果“有多好”。接着，设定一个阈值，只保留那些“优势值”比较高的轨迹，比如排名前 30%。最后，把筛选出的好数据，当作专家的演示来重新训练（模仿学习）。

这个路线的优点非常明显：稳。

把强化学习降级为“自动挑好数据的过滤器”，最终的更新过程还是走回了模仿学习的老路。这避免了端到端强化学习的梯度在大型生成式模型里乱串，能很好地控制训练不崩盘。做项目，特别是真机项目，稳定是第一位。

但代价也很直接：上限受限于你能挑出来的最好数据。

如果机器人的成功尝试本身就存在天花板（比如受限于当前策略的探索能力），那么 RECAP 本质上只是在“冠军数据”里反复细调，很难自主发掘出从未见过的、更优的行为模式。

方案二（LWD）：正面硬刚，把RL梯度直接灌入生成式策略

LWD 的选择更硬核——它不打算退回到模仿学习。相反，它想直接把强化学习学到的“价值提升”，通过梯度反向传播，注入到 VLA 模型的动作生成过程中。

这意味着：模型在训练时，不再只是看着“某个动作是对的”去模仿，而是被明确告知“当前动作向右微调 0.5 度，能让你离成功更近 3%”。这个“微调”的指令，就来自 Critic 网络计算出的梯度。

但这在工程上是个巨大的麻烦。

VLA 模型，特别是 π0.5 那种，用的是流匹配（Flow Matching）来生成动作。这种模型的动作生成过程是个多步的去噪迭代，类似于扩散模型。如果你要把 Critic 的梯度沿着这个多步过程反向传播回去，计算量巨大不说，数值稳定性简直是灾难。

所以，LWD 做了两件事来技术解耦：DIVL 让价值评估“看得见分布”；QAM 让策略更新变得“按部就班”。

两个核心引擎：DIVL 和 QAM，到底在解决什么？

DIVL：别再给“成功”和“失败”算平均分了

想象今天机器人执行同一个动作：90% 的情况下，它撞到了杯子，得了 0.3 分；但有 10% 的情况，它恰好绕过了障碍，得了 0.95 分。一个传统的标量 Critic 会告诉你：这个动作平均价值 0.43 分。这个数字不假，但它把那个 10% 的成功信号完全稀释了，模型学不到“偶尔能成功”的珍贵经验。

DIVL 不干这事。它不再输出一个干巴巴的分数，而是输出一个概率分布，告诉你“在 90% 的时候得 0.3 分，在 10% 的时候得 0.95 分”。然后，它从这个分布里提取一个更高的分位数（比如要求取前 10% 对应的分数），作为训练的优化目标。这就避免了成功信号被大量的失败样本“平均掉”，能更准确地识别出哪些动作是值得“复现”的。

QAM：把长线作战，拆解成各站点的局部任务

解决了价值评估的问题，接下来是如何让生成式策略（流模型）来吸收这个“好坏”信号。直接端到端反向传播，前面说了，不稳定。

QAM 的解法非常巧妙。它构建了一个“参考流”（用之前行为克隆预训练的策略做底），然后在参考流生成的轨迹上，计算终点处的 Critic 梯度。这个梯度再反向求解一个“伴随动力学”，从而计算出在流模型的每一步，它的向量场应该往哪个方向调整。

通俗点讲，QAM 相当于是给流水线上的每一站（每一步去噪过程）发了一个“工头”。这个工头不关心整条生产线最终怎么改，它只告诉当前这个工位：“你这里的活儿，应该往左边偏 1 个毫米。” 这样一来，每一站的学习任务都变成了一个局部回归问题，完全避免了长链梯度反传的剧烈抖动。

代价呢？QAM 的理论最优性和端到端更新并不完全等价。它通过正则化，把最优策略约束在“参考流策略附近”。你很难期待它训练出一个和之前策略天差地别的全新行为。但对于在通用策略上进行后训练这个场景，保持模型基础能力不退化的前提下完成微调，这恰恰是最务实的权衡。

适用边界与取舍：这条路更适合谁？代价是什么？

聊到这个份上，你会发现，LWD 虽然看起来优雅，但它不是万能药。

谁需要它？你已经有一个部署量大、数据回流充足的机器人集群。它和单机、单任务的 RL 微调完全不是一回事。你能承受搭建异步数据流系统的工程成本。包括上层的云学习器、边缘侧的机器人执行进程、数据缓冲区和模型分发机制。这套东西的初始投入不小，绝不是一个脚本能搞定的。
代价在哪？
- 工程复杂度：如论文所述，在线阶段，机器人的执行和环境状态是异步的，数据异构性强，需要设计精细的重放采样策略（论文里强调要维持线上线下数据 1:1 混合），不然训练容易偏移。
- 对底层算法的依赖：QAM 和 DIVL 都不是免费午餐。DIVL 多了一个预测分布的头，训练成本和收敛性需要调试。QAM 的伴随匹配在计算上也不是零开销，需要平衡训练步数和采样效率。
- 适用边界：它目前更适合训练一个“通才”策略，而不是把一个策略极致地“特化”到某一项任务上。如果你只是想教会机械臂绑鞋带这种特异性极强的长时任务，用一个专门的算法做特化微观调，可能路径更短。LWD 的价值在于让模型在多任务、多场景的复杂部署中不掉队。

最后回到最开始的权衡：LWD 的路子，是在用工程成本换算法表现的上限。它期望的是一个正向的数据飞轮循环，而不是一次性的数据收集。如果你只是想解决几个临时遇到的问题，RECAP 这条“稳中求进”的路线或许是更划算的选择。但如果你真正想落地一段长期服务，LWD 提出的这套框架，至少为这个构想画出了一条可行且有据可循的工程路径。