当前位置：首页 > news >正文

AnchorRefine框架：两阶段残差优化提升机器人操作精度

news 2026/7/22 16:00:32

1. 项目概述与核心思路拆解

在机器人操作领域，我们常常面临一个看似简单实则棘手的矛盾：如何让机器人既能规划出从A点到B点的“大方向”正确，又能确保在最后几厘米的接触、抓取、放置等关键环节做到“分毫不差”？传统基于视觉语言动作（VLA）模型的策略，无论是回归式还是扩散式，通常将整个动作序列的预测视为一个端到端的黑箱任务。模型需要同时学习宏观的运动轨迹和微观的执行细节，这就像要求一个学生既要构思一篇论文的宏大框架，又要一次性写出每个句子的完美措辞，难度极大。尤其是在接触敏感、对终端位姿精度要求极高的任务中，如将笔插入笔筒、将积木精准堆叠，全局轨迹上微小的局部偏差就足以导致整个任务失败。

AnchorRefine框架的提出，正是为了解决这一核心矛盾。它的核心思想借鉴了人类完成精细动作时的认知过程：我们通常会先规划一个大致的手臂移动路径（“轨迹锚定”），然后在接近目标时，根据视觉反馈进行微调，确保手指能准确捏起细小的物体（“残差优化”）。这种“先粗后细”的两阶段分解，将复杂的动作生成问题结构化，让模型的学习目标更加清晰和专注。

从技术实现上看，AnchorRefine的价值在于它创造了一个更稳定的学习空间。想象一下，如果直接学习一个高维、连续的动作序列，模型的优化目标方差会很大，因为它要同时为轨迹的起点、中途和终点负责。而AnchorRefine将问题转化为：先让一个“锚定网络”学习生成一个全局合理、但可能局部粗糙的轨迹骨架；然后，让一个轻量级的“精炼网络”只专注于学习这个骨架与完美执行之间的“差值”（即残差）。这个残差空间通常维度更低、变化更平滑，因此更容易被模型学习和优化。实验数据也证实了这一点：在LIBERO-Long基准测试中，完整的AnchorRefine取得了82.3%的成功率，而仅使用锚定阶段或直接预测最终动作的变体，成功率分别下降了5.9%和8.7%。这明确说明，性能提升并非简单地来自模型容量的增加，而是源于这种结构化的、残差式的学习范式本身的有效性。

2. 框架核心设计：两阶段分解的工程实现

AnchorRefine框架的优雅之处在于其清晰的模块化设计，它不依赖于特定的VLA模型骨架，可以灵活地适配在回归式（如GR-1）或扩散式（如X-VLA）的骨干网络上。理解其实现细节，是复现和应用该框架的关键。

2.1 轨迹锚定阶段：构建全局运动先验

锚定阶段的目标是生成一个“可用”的粗粒度动作轨迹。所谓“可用”，是指这条轨迹在宏观上符合任务逻辑，能将机械臂或夹爪引导至目标物体附近，但可能缺乏执行终端操作所需的毫米级精度。

1. 骨干网络适配：

在GR-1上的实例化：GR-1是一种基于Transformer的回归式VLA模型。在AnchorRefine中，我们完全保留GR-1原有的视觉编码器、状态编码器和动作预测Transformer，将其整体作为“锚定分支”。它的输出不再是一个单一的下一个动作，而是一个短时域的动作块（Action Chunk），这能提供更好的时间一致性，作为后续精炼的稳定基础。
在X-VLA上的实例化：X-VLA是基于扩散模型的VLA模型。其去噪过程本身就是一个从噪声到清晰动作序列的迭代生成过程。在AnchorRefine中，我们将完整的X-VLA去噪过程视为“粗轨迹生成器”。即，让X-VLA先生成一个完整的、但可能包含噪声（不精确）的动作序列，以此作为锚定轨迹。

2. 训练策略与目标：锚定分支通常从一个预训练好的骨干模型（如GR-1或X-VLA的公开检查点）初始化。在训练时，我们冻结精炼网络，仅训练锚定分支。其损失函数是标准的动作预测损失，例如对于回归模型是平滑L1损失，对于扩散模型是噪声预测损失。这个阶段的目标是让模型学会捕捉任务的“主体运动模式”，例如“移动到杯子附近”、“伸出手臂去够抽屉把手”。

注意：锚定阶段不需要追求极致的终端精度。事实上，允许它存在一些合理的、系统性的偏差（例如，抓取时总是离物体中心偏左几毫米），反而能为精炼阶段提供明确、稳定的学习目标。强行让锚定网络学习所有细节，可能会破坏其学习全局结构的能力。

2.2 残差优化阶段：学习局部执行修正

这是框架的灵魂所在。精炼阶段接收两个输入：一是原始的观测上下文（图像、语言指令、机器人状态），二是锚定阶段生成的粗粒度动作轨迹。它的任务是输出一个残差修正量，将这个粗轨迹“打磨”成精确的可执行动作。

1. 精炼网络设计：精炼网络是一个轻量级的模块。在GR-1架构中，它可以是一个小型的多层感知机（MLP）或一个浅层的Transformer解码器。在X-VLA架构中，它可以是在扩散去噪流程末端添加的几层修正网络。其参数量远小于锚定网络，体现了“大模型定方向，小模型做微调”的思想。

2. 分离式锚点目标构建：这是实现有效残差学习的关键技术细节。在训练精炼网络时，我们不是直接用锚定网络的输出来计算残差目标。具体流程如下：

前向传播：将观测输入锚定网络，得到粗动作预测 (A_{anchor})。
构建目标：计算残差目标为 (R_{target} = A_{gt} - \text{detach}(A_{anchor}))。其中，(A_{gt}) 是专家演示的真实动作，detach()是一个停止梯度操作。
训练精炼网络：精炼网络以观测和 (A_{anchor}) 为条件，预测残差 (R_{pred})。其损失函数为 (L = ||R_{pred} - R_{target}||)。

这里的detach()操作至关重要。它切断了从精炼损失到锚定网络的梯度回传路径。这意味着，锚定网络不会因为要适应精炼网络而改变自己生成粗轨迹的方式，它始终专注于学习全局运动先验。反之，精炼网络则专注于学习如何修正这个固定的、稳定的“锚”。消融实验表明，移除这个分离操作（即直接使用 (A_{gt} - A_{anchor}) 且不停止梯度），成功率会从82.3%显著下降至75.7%，因为这破坏了两个阶段的功能分离，导致优化目标混乱。

3. 决策感知的夹爪优化：对于机器人操作，夹爪（末端执行器）的开合控制是二元的（打开/关闭），但其时机和状态切换的精度往往决定任务成败。AnchorRefine没有简单地将夹爪状态视为一个需要回归的连续值，而是为其设计了专门的、决策感知的优化头。

问题：如果对夹爪状态使用简单的均方误差（MSE）损失，模型可能会预测出介于0和1之间的模糊值，这没有物理意义。
解决方案：精炼网络中的夹爪优化头使用交叉熵损失，将夹爪状态预测作为一个分类问题（打开/关闭）来处理。同时，这个头的输入不仅包含当前的观测和动作，还隐式地包含了由锚定网络提供的“当前是否接近抓取点”的上下文信息，使其能做出更智能的开关决策。消融实验显示，使用决策感知优化相比简单的MSE处理，成功率提升了9.7%。

2.3 两阶段训练流程

训练分为两个清晰的阶段，这在工程实现上非常简洁：

阶段一：训练锚定网络。使用全部训练数据，以标准动作预测目标训练锚定分支（即骨干模型）。此时精炼模块未被激活或随机初始化。
阶段二：冻结并精炼。冻结锚定分支的所有参数。然后，在同样的数据上，以分离式残差为目标，单独训练精炼网络。此时，锚定网络作为一个固定的“轨迹生成器”工作，为精炼网络提供稳定的学习环境。

这种解耦训练的方式，使得整个系统非常稳定，也便于调试。如果精炼效果不好，我们可以单独检查是锚定轨迹质量太差，还是精炼网络没有学好修正。

3. 实验部署与关键参数解析

要将AnchorRefine从论文落地到真实的机器人或仿真环境中，需要关注一系列工程实现细节和超参数选择。以下配置基于原文附录和常见实践进行了补充和细化。

3.1 仿真环境与基准测试搭建

1. 基准选择：

CALVIN：用于评估长视野、语言条件化的任务组合能力。采用A/B/C训练，D测试的零样本泛化协议。你需要从官方仓库下载数据集和仿真环境，确保任务链的评估脚本正确。
LIBERO-Long：用于评估在复杂、长视野操作任务上的性能。这是AnchorRefine的重点测试基准，因为它包含了大量对终端精度敏感的任务。需要按照LIBERO的说明安装环境，并重点关注那些涉及“放置”、“插入”、“堆叠”的任务套件。

2. 仿真环境配置要点：

观测空间：通常包含固定的第三人称RGB相机和腕部相机图像。需要统一图像的预处理（如缩放至224x224，归一化）。
动作空间：采用7维向量表示：末端执行器的3维位置增量、3维姿态增量（或四元数增量）、1维夹爪开合度。确保你的机器人控制器可以执行这种动作格式。
数据加载：专家演示数据通常以.hdf5或.npz格式存储。需要编写高效的数据加载器，能同时提供观测序列和对应的动作序列，并支持语言指令的嵌入。

3.2 模型训练超参数与实操

下表综合了原文附录信息及实际训练中的经验，提供了更详细的指导：

超参数	GR-1 骨干 (回归式)	X-VLA 骨干 (扩散式)	补充说明与实操心得
硬件配置	4 x NVIDIA A6000 (或等效显存≥48GB的GPU)	同左	显存是关键。AnchorRefine两阶段训练虽解耦，但推理时需串联运行，确保单卡能放下锚定模型+精炼模型。
锚定阶段
批量大小	256	16	回归模型对批量大小更不敏感，可以较大；扩散模型需兼顾噪声采样，批量较小。
初始学习率	1e-3	1e-4	心得：对于从预训练模型初始化的锚定网络，学习率不宜过大，否则会破坏预训练知识。1e-4是一个安全的起点。
优化器	AdamW (β1=0.9, β2=0.95)	AdamW (β1=0.9, β2=0.95)	使用AdamW而非原始Adam，配合权重衰减（如0.05），能有效防止过拟合。
学习率调度	Cosine衰减至1e-5	恒定 (Constant)	回归模型训练轮次多，使用Cosine衰减有助于后期收敛。扩散模型训练步数多，恒定学习率更稳定。
训练时长	40个epoch	200,000步	关键检查点：每5个epoch/25,000步保存一次检查点，并评估其在验证集上的“粗轨迹成功率”（即不考虑精炼，只看锚定输出是否大致正确）。
精炼阶段
批量大小	512	24	精炼网络参数量小，可以承受更大的批量大小，有助于稳定梯度。
初始学习率	1e-3	1e-4	精炼网络从头训练，学习率可与锚定阶段末期的学习率相当或略高。
优化器	AdamW (β1=0.9, β2=0.95)	AdamW (β1=0.9, β2=0.95)	同锚定阶段。
学习率调度	Cosine衰减至1e-5	恒定 (Constant)	同锚定阶段。
训练时长	10个epoch	80,000步	心得：精炼阶段收敛通常很快。如果训练损失在2-3个epoch后不再下降，可能意味着锚定轨迹提供的残差信号太弱或噪声太大，需要回顾锚定阶段的质量。
通用参数
梯度裁剪	范数阈值 1.0	范数阈值 1.0	防止训练不稳定，尤其是扩散模型。
混合精度训练	启用 (AMP)	启用 (AMP)	大幅节省显存并加速训练，几乎不影响精度。
检查点保存	最佳验证集性能	最佳验证集性能	根据验证集上的最终任务成功率（锚定+精炼）来选择最佳模型。

3. 训练脚本核心片段示意（PyTorch风格）：

# 锚定阶段训练循环 (以GR-1为例) anchor_model.train() for epoch in range(num_anchor_epochs): for obs, language, action_gt in dataloader: # 1. 前向计算锚定轨迹 action_anchor = anchor_model(obs, language) # 2. 计算锚定损失 (例如 SmoothL1Loss) loss_anchor = criterion_anchor(action_anchor, action_gt) # 3. 反向传播，仅更新锚定网络参数 optimizer_anchor.zero_grad() loss_anchor.backward() torch.nn.utils.clip_grad_norm_(anchor_model.parameters(), 1.0) optimizer_anchor.step() # 精炼阶段训练循环 anchor_model.eval() # 冻结锚定网络 refine_model.train() for epoch in range(num_refine_epochs): for obs, language, action_gt in dataloader: with torch.no_grad(): # 关键：不计算锚定网络的梯度 action_anchor = anchor_model(obs, language) # 构建分离的残差目标 residual_target = action_gt - action_anchor.detach() # 精炼网络预测残差 residual_pred = refine_model(obs, language, action_anchor) # 计算精炼损失 loss_refine = criterion_refine(residual_pred, residual_target) # 反向传播，仅更新精炼网络参数 optimizer_refine.zero_grad() loss_refine.backward() torch.nn.utils.clip_grad_norm_(refine_model.parameters(), 1.0) optimizer_refine.step()

3.3 真实世界部署：LeRobot平台实践

在LeRobot SO101机械臂平台上的部署，是验证框架有效性的最终环节。

1. 系统集成：

感知：同步读取固定顶置相机和腕部相机的图像，进行相同的预处理后送入模型。
控制：模型以一定频率（如10Hz）输出7维动作。你需要一个底层控制器（如阻抗控制器或位置控制器）来跟踪这个动作序列。重要提示：直接将模型输出的笛卡尔空间增量发送给机器人可能不稳定，建议加入滤波（如低通滤波）和速度/加速度限制。
语言指令：使用一个轻量级的句子编码器（如Sentence-BERT）将自然语言指令编码成向量，作为模型输入。

2. 部署优化技巧：

延迟处理：模型推理需要时间。为了保持控制的实时性，可以采用“预测-执行”流水线：在执行当前动作时，并行计算下一时刻的动作。
安全监控：必须设置关节限位、碰撞检测和紧急停止回路。精炼网络虽然提升了精度，但无法完全避免不可行的动作预测。
领域随机化：在仿真中训练时，对物体颜色、纹理、光照、桌面摩擦系数等进行随机化，能显著提升模型到真实世界的迁移能力。AnchorRefine的残差学习对这种随机化带来的“噪声”有更好的鲁棒性。

4. 效果评估、问题排查与深度思考

4.1 量化结果分析与解读

在LIBERO-Long基准和真实世界四项任务上的提升是显著的。我们需要深入理解这些数字背后的含义：

1. 消融实验的启示：原文表2的消融实验是理解每个组件贡献的钥匙。

决策感知夹爪优化 (+9.7%)：这可能是最大的单点提升。它告诉我们，对于离散或混合离散-连续的控制问题，为不同部分设计专用的损失函数和网络头，比用一个统一的回归损失处理所有维度更有效。
分离式锚点目标构建 (+6.6%)：这验证了理论设计。没有梯度分离，两个网络会相互干扰，锚定网络会“偷懒”，试图生成更容易被精炼的网络修正的轨迹，从而损害其全局规划能力。
隐式引导 vs 显式拼接 (+2.7%)：将锚定轨迹作为精炼网络的额外输入（显式拼接）也有帮助，但不如让精炼网络直接学习以当前锚定为基准的残差（隐式引导）效果好。后者提供了一个更干净、更直接的优化目标。

2. 任务层面的成功模式：从图4的真实世界结果可以看出，AnchorRefine在“堆叠积木”和“打开抽屉”任务上提升最为明显。这两类任务的共同点是对终端交互的时空精度要求极高。

堆叠：要求积木在放下时，中心对准误差在毫米级，且姿态水平。
开抽屉：需要准确勾住把手或抽屉面，并在拉动过程中保持合适的力接触。在这些“关键时刻”，锚定网络提供的轨迹可能偏差了几个毫米或几度，而精炼网络正是针对这些局部偏差进行修正，从而将成功率从“接近成功”提升到“稳定成功”。

4.2 常见问题与排查指南

在实际复现和应用AnchorRefine时，你可能会遇到以下典型问题：

问题现象	可能原因	排查步骤与解决方案
精炼阶段损失不下降或震荡	1. 锚定轨迹质量太差，残差信号噪声过大。 2. 精炼网络学习率过高。 3. 未正确使用`detach()`，导致梯度在锚定与精炼间循环。	1.可视化锚定轨迹：在验证集上运行锚定网络，将预测轨迹与真实轨迹叠加显示。如果偏差过大，需回退加强锚定阶段训练。 2.检查数据流：确认在精炼训练时，`action_anchor.requires_grad`为`False`，且计算图已从该节点断开。 3.降低精炼网络LR，并尝试更小的批量大小。
仿真成功，真实世界失败	1. 仿真与现实间的“域鸿沟”。 2. 真实世界传感器噪声（相机抖动、延时）。 3. 机器人动力学与仿真模型不符。	1.加强仿真随机化：不仅是视觉，还包括动作执行噪声、延迟模拟等。 2.在精炼阶段引入噪声：在输入精炼网络的锚定轨迹上添加少量高斯噪声，模拟真实世界的不确定性，提升鲁棒性。 3.校准相机与手眼标定：确保感知系统精度。
夹爪操作时机错误	决策感知夹爪头训练不充分，或未接收到有效的上下文信息。	1.单独检查夹爪头：屏蔽其他维度损失，只看夹爪分类准确率。 2.为夹爪头提供更丰富的特征：除了当前观测，可以拼接上前几步的历史动作或锚定网络中间层的特征。
训练后期性能饱和	1. 模型容量瓶颈。 2. 任务本身存在不可约误差（如演示数据噪声）。 3. 精炼网络过度拟合了训练集中的特定偏差模式。	1.适度增加精炼网络容量（如层数、隐藏层维度），但需谨慎，避免过拟合。 2.检查演示数据质量，必要时进行滤波或平滑处理。 3.使用更强的正则化，如对精炼网络输出施加L2惩罚，防止其修正过度。
推理速度慢	两阶段模型串联，计算量增加。	1.模型轻量化：对精炼网络进行知识蒸馏，或用更小的架构。 2.缓存锚定特征：对于一段固定的观测序列，锚定网络的中间特征可以预先计算并缓存，精炼网络直接调用，节省大量计算。 3.考虑异步执行：在机器人执行当前动作块时，并行计算下一个动作块的锚定和精炼。

4.3 框架的局限与未来扩展思考

尽管AnchorRefine取得了显著效果，但任何方法都有其边界。理解这些局限，能帮助我们在合适的场景应用它，并思考改进方向。

1. 当前局限：

非自适应的精炼：目前的精炼网络对所有时间步、所有任务都“一视同仁”地进行修正。但在长视野任务中，可能只有少数关键步骤需要精细修正，其余步骤的精炼计算是一种浪费。
对未见任务的泛化：框架在LIBERO和CALVIN的零样本泛化上表现良好，但这仍是在相对封闭的任务分布内。对于完全开放世界、全新物体的泛化能力，仍有待更广泛的评估。
多模态融合的深度：当前主要依赖视觉和语言。对于需要力觉、触觉反馈的极度精细的操作（如插线、拧螺丝），如何将多模态信息有效地融入残差学习过程，是一个挑战。

2. 可能的扩展方向：

自适应精炼机制：可以让精炼网络输出一个“置信度”或“重要性权重”，动态决定在哪些时间步需要进行修正，以及修正的强度，从而实现计算资源的按需分配。
分层精炼：不止一层精炼。可以设想“锚定 -> 粗精炼 -> 细精炼”的多级架构，每一级关注不同尺度的误差。
与模型预测控制（MPC）结合：精炼网络可以看作是一个学习到的、基于模型的局部控制器。可以探索将其与基于物理模型的MPC结合，用学习到的残差来修正MPC的跟踪误差，结合两者的优点。
从演示中自动识别关键帧：利用无监督或自监督学习，从专家演示数据中自动识别出那些对任务成功至关重要的“关键时刻”，然后让精炼网络重点优化这些时刻附近的轨迹。

AnchorRefine框架为我们提供了一种强大而直观的范式，将人类“先瞄准，后微调”的智慧编码进了机器人学习系统中。它的价值不仅在于提升了几个百分点的成功率，更在于为构建更可靠、更精确的机器人技能开辟了一条结构清晰、可解释性强的技术路径。在实际项目中，当你面对那些对“最后一厘米”精度有严苛要求的自动化场景时，这种两阶段、残差优化的思想，或许就是你破解难题的那把钥匙。

查看全文

http://www.jsqmd.com/news/927602/