当前位置：首页 > news >正文

JALA框架：机器人学习中的潜在动作表示新范式

news 2026/6/14 4:06:11

1. JALA框架概述：重新思考潜在动作表示

在机器人学习领域，如何从高维感知输入中提取有效的动作表示一直是个核心挑战。传统方法通常采用端到端的强化学习或模仿学习，直接将视觉输入映射到动作空间。这种范式虽然简单直接，但面临着样本效率低下、泛化能力有限等问题。JALA框架的创新之处在于，它提出了一种全新的"联合对齐潜在动作"范式，通过显式建模视觉语言上下文与动作语义之间的关系，构建了一个可迁移的潜在动作空间。

1.1 潜在动作表示的核心价值

潜在动作表示的本质是将高维、复杂的原始感知数据（如图像、视频）压缩到一个低维、语义丰富的动作空间中。这种表示具有几个关键优势：

维度灾难的缓解：原始视觉输入的维度可能高达数百万（如224x224 RGB图像约有150K维度），而潜在动作空间通常只需几十到几百个维度，大大降低了策略学习的复杂度。
语义解耦：良好的潜在动作表示能够将环境背景等无关信息与动作语义解耦，使学习到的策略更加专注于动作本身，而非环境中的干扰因素。
跨域迁移：通过自监督或弱监督方式学习的潜在动作表示，往往能捕捉到跨任务、跨场景共享的动作基元（primitive），这对于真实世界中的机器人应用至关重要。

提示：在实际应用中，潜在动作空间的维度选择需要权衡信息保留与压缩效率。根据我们的经验，对于大多数灵巧操作任务，64-128维的潜在空间通常能在保持足够表达能力的同时避免过度冗余。

1.2 传统方法的局限性

在JALA之前，主流的潜在动作学习方法大致可分为两类：

重构式方法（如LAPA）：通过像素级重构损失来学习潜在表示。这类方法虽然能保留丰富的视觉细节，但也容易受到背景变化、光照条件等无关因素的干扰。我们的实验表明，在Ego4D等真实场景数据上，纯重构方法会浪费大量计算资源在无关背景的学习上。

预测式方法（如Being-H0）：通过预测未来帧或动作来学习表示。这类方法虽然更关注动态信息，但往往缺乏明确的动作语义约束，导致学到的表示不够精确。

JALA的创新在于跳出了这种非此即彼的范式，通过联合对齐机制将两者的优势结合起来。具体来说，它同时利用了：

视觉语言模型（VLA）的预测嵌入（提供丰富的上下文理解）
从人类视频中提取的潜在动作（提供精确的动作语义）

2. JALA技术架构详解

2.1 整体框架设计

JALA的核心是一个双分支架构，分别处理视觉语言上下文和潜在动作学习：

视觉语言分支：基于Transformer的编码器，处理多模态输入（RGB帧+文本指令），输出预测嵌入h。我们对比了DINOv3和V-JEPA两种视觉主干网络，发现其对最终性能影响有限，说明JALA对具体实现具有鲁棒性。
潜在动作分支：通过逆动力学模型（IDM）从人类视频中提取潜在动作z。这里的关键创新是使用了HaWoR标注系统，它能从非约束场景视频中恢复精确的3D手部动作。
联合对齐模块：通过可学习的流匹配（flow matching）将预测嵌入h与潜在动作z对齐。这个过程不是简单的映射，而是保持了各自空间的拓扑结构，确保对齐后的表示既保留语义又具备泛化性。

2.2 关键算法实现

联合对齐的数学形式可以表示为：

min_θ E_(x,y)~D [ || FM_θ(h(x)) - z(y) ||^2 + λ·R(θ) ]

其中：

FM_θ是参数化的流匹配网络
h(x)是视觉语言模型对输入x的预测嵌入
z(y)是从动作y提取的潜在表示
R(θ)是正则化项，防止过拟合

在实际实现中，我们采用了EMA（指数移动平均）更新策略来稳定训练过程。消融实验表明，移除EMA会导致性能下降超过30%，这验证了稳定对齐过程的重要性。

2.3 数据流水线设计

JALA使用了创新的UniHand-Mix数据集，它包含：

实验室精确标注数据（Lab Split）：约500小时，提供可靠的物理基准
真实场景视频（Wild Split）：从Ego4D等来源收集的1500+小时数据，提供多样性

这种混合设计解决了纯合成数据缺乏多样性和纯真实数据标注不足的两难问题。我们的实验显示，随着Wild数据比例增加（0%→100%），下游任务性能持续提升（图6左），证明了非约束数据的价值。

3. 实验验证与性能分析

3.1 基准测试设置

我们设计了全面的评估协议来验证JALA的有效性：

动作生成质量：
- Lab Split：衡量在受控环境下的精确度
- Wild Split：测试对真实场景的泛化能力
下游机器人任务：
- LIBERO：测试长时程任务规划能力
- RoboCasa：评估厨房场景下的操作技能
- GR1桌面任务：验证对灵巧手的迁移效果
真实机器人部署：
- Franka机械臂+Inspire灵巧手平台
- 三项多步骤操作任务（放置物体、擦拭白板、给植物浇水）

3.2 量化结果分析

在LIBERO基准上，JALA-dino达到了96.9%的平均成功率（两视角设置），比最好的基线（UniVLA）高出1.4个百分点。更值得注意的是在更具挑战性的单视角设置下，JALA仍保持92.3%的成功率，显示出对视角变化的鲁棒性。

表4中的RoboCasa结果尤其引人注目：在使用合成数据训练时，JALA比GR00T N1.5高出6.75个百分点（27.58% vs 20.83%）。这表明联合对齐能有效缓解sim-to-real的领域差距。

3.3 定性分析

图5展示了JALA生成的手部动作示例。在真实场景（Wild）方面，模型能处理：

弹吉他弦等精细动作
双手协调编织等复杂协作
用筷子搅拌等工具使用

在实验室场景（Lab）中，则表现出：

精确的插拔动作（如拔耳机线）
稳定的物体转移（如碗内容物倒置）
准确的空间定位（如碗的放置）

这些结果验证了JALA学到的潜在动作空间确实同时具备精确性和泛化性。

4. 实战经验与调优建议

4.1 实现中的关键技巧

流匹配层的选择：如图6右所示，使用骨干网络第19层的特征进行对齐效果最佳。太浅的层（如14）缺乏语义信息，太深的层（如24+）则可能过拟合。
数据混合比例：虽然增加Wild数据总是有帮助，但我们发现25-50%的比例在计算成本和性能间取得了良好平衡。对于计算资源有限的团队，可以优先保证Lab数据的质量。
训练稳定性：联合对齐容易因两个分支的学习速度不同而发散。我们采用了两阶段训练策略：
- 第一阶段：固定视觉语言分支，只训练对齐模块
- 第二阶段：联合微调所有参数