SkillVLA:通过技能复用应对双-臂操纵中的组合多样性
26年3月来自新加坡国立、北京中关村学院、上海创新研究院、上海AI实验室、上海交大和复旦的论文“SkillVLA: Tackling Combinatorial Diversity in Dual-Arm Manipulation via Skill Reuse”。
视觉-语言-动作(VLA)模型近期取得的进展,已充分展示了其在双臂操作任务中的巨大潜力,不仅能够实现复杂的行为,还能泛化至未曾见过的环境。然而,当前主流的双臂 VLA 建模范式大多忽略了一个关键挑战:即“组合多样性”问题。单臂行为的不同配对方式往往会产生本质上截然不同的任务行为,但现有模型并未显式地对这种结构特性进行建模。高效的双臂 VLA 模型应当具备“技能复用”能力——即能够将此前习得的单臂技能,通过全新的左右臂配对方式进行重新组合——从而避免针对每一种可能的组合都进行单独学习。目前的 VLA 设计往往将双臂技能耦合纠缠在一起,从而阻碍了这种技能的重新组合,并限制了模型的可扩展性。为了克服这一局限,提出了 SkillVLA 框架;该框架经过专门设计,旨在赋能双臂操作任务中的技能复用能力。大量的实验结果表明,SkillVLA 显著提升技能组合的有效性,将整体任务成功率从 0% 大幅提升至 51%,并在双臂协同任务及长时序任务中展现出了卓越的性能。
如图1所示,许多双臂任务可被视为单臂行为的组合;左右臂技能的不同搭配将衍生出各异的双臂任务。随着底层技能集的扩充,可能的搭配数量呈平方级增长,从而产生了海量且对应于不同任务的组合。当前的视觉语言动作(VLA)范式在很大程度上忽视了这种组合多样性。若采用动作拼接的方式来预测双臂动作,模型便需学习左右臂动作分布的联合分布。尽管这种设计简单且能捕捉紧密的双臂协调性,但它将模型的输出局限于演示数据中已出现的动作搭配。其结果是,该策略在组合泛化能力上表现乏力,无法通过重新组合单臂技能来生成全新的双臂行为,从而使其难以应对任务中的组合多样性挑战。
若要实现技能复用,模型必须满足两项条件:(i) 针对任意给定场景 x,选取合适的技能;(ii) 针对所选技能(或技能对),生成正确的动作。后一条件促使在训练与执行阶段明确区分单臂技能与双臂技能,而当前基于 VLA 的方法尚不支持这一功能。
若要实现双臂技能所需的臂间协调,必须建立一条能够促成左臂动作 a_L 与右臂动作 a_R 之间相互依赖的信息通路。在概念上,将这一通路表示为一种“臂间信息”m,由此产生的动作生成形式可表述为 π_L(a_L | x, Y_L, m_L) 和 π_R(a_R | x, Y_R, m_R).。在实际应用中,臂间信息的实现方式多种多样,既可以是显式的信息传递,也可以像常见的整体式策略那样,通过共享参数的方式隐式实现。
在实践中,许多双臂技能本质上接近于两个单臂技能的简单组合——具体而言,在同一情境 x 下,每只手臂大体上遵循各自独立的动作模式。其中的挑战在于双臂之间的协调:由于双臂间的耦合作用,其联合动作分布会偏离独立的乘积分布(参见 I(a_L; a_R | x) > 0)。因此,如果模型能够灵活地调用可复用的单臂技能,那么在习得新的双臂技能时,往往只需在现有单臂技能的基础上主要学习关于双臂耦合的补充信息,通过极少量的微调即可完成,而无需从头开始重新学习双臂的动作。由此可见,有效的技能复用能够显著提升持续学习或大规模学习的效率。
给定一个技能库,动作生成可被视为:首先针对给定的场景 x 选择要使用的技能(或技能对),随后从相应的技能分布中进行动作采样。
“技能选择器”这个概念机制,无需预设特定的模块或架构。理想而言,该技能选择器不仅应当能为演示中曾出现的场景选取恰当的技能,还应能针对从未见识过正确技能配置的新输入,选出相应的技能。
VLA 通常构建在预训练的 VLM 之上,后者为视觉场景和自然语言指令提供了强大的泛化能力。通常,VLA 包含一个额外的动作模块(或称“动作专家”)用于生成动作。在双臂操作任务中,动作通常通过拼接左右臂的动作表示,从而被统一为一个单一向量。
VLM 是实现可泛化技能选择器的天然候选方案——即,将场景 x 映射至恰当的技能索引 Y(或等效的决策变量),且该映射能力能够泛化至演示场景之外的未知场景。然而,即使上游的技能决策模块能够充分区分需要不同技能的各类场景,下游的动作生成机制是否也能按照所定义的内涵,实现对技能的复用呢?
常见的 VLA 设计表现出两种形式的“技能纠缠”,从而阻碍技能的有效复用:
动作纠缠(Action Entanglement)。许多双臂 VLA 策略在训练时,被设定为预测一个单一的、拼接而成的关节动作向量 (a_L, a_R)。这种“一体化”的监督方式在输出层面上将双臂动作耦合在一起,并促使模型去拟合由成对演示数据所诱导的经验性联合分布。其结果是,习得的策略可能会将数据集中特有的“跨臂关联”内化吸收,而非从中剥离出可复用的单臂动作结构。这对技能的复用与重组构成了障碍。即便上游的视觉-语言推理模块能够识别出需要不同技能的场景,下游的动作生成器仍可能无法做到:(i) 将单臂技能从双臂协调模式中解耦出来;以及 (ii) 支持对单臂技能进行重组——特别是那些超越训练期间所见到的“左右臂配对”模式的重组。换言之,这种“联合动作学习”的范式可能会使模型产生偏差,使其倾向于单纯复现演示数据中的双臂动作模式,从而限制其泛化至未曾见过的单臂行为组合的能力。
基于动作专家的 VLA 中的潜纠缠(Latent entanglement in action-expert VLAs)。正如前文所述,近期的 VLA 方法通常通过增设一个专用的动作生成模块,来对预训练的视觉-语言模型(VLM)进行功能增强(例如:π0/π0.5 [7, 23]、RDT2 [40]、DexVLA [42])。从抽象层面来看,VLM 负责将上下文信息 x编码为一种表征 z,而动作模块则基于该表征 z 来预测双臂动作。
尽管这种架构在实践中可能行之有效,但它引入一条额外的技能纠缠途径。在双手模仿任务中,从成对演示数据中学习到的共享隐变量 z,可能会隐式地编码双臂之间的相互依赖关系。当策略在未曾见过的左右臂配对情境下进行评估时,这种隐性的纠缠现象可能会导致技能重组效果下降;其原因在于,动作专家(Action Expert)在控制双臂动作时,所依据的表征中已然混杂了来自双臂的信息。
SkillVLA 是一种旨在实现高效技能复用的方法,旨在应对组合多样性挑战并加速新技能的习得。
A 方法流水线
方法(概览见图 2)沿袭通用的 VLA(视觉语言动作)范式,其核心包含一个顶层 视觉-语言模型,且动作是通过迭代式的流匹配(flow-matching)过程 [28, 30] 生成的。在具体的实现中,采用随 π0.5 [23] 版本一同发布的预训练 PaliGemma [6] 作为骨干网络,以此初始化 VLM。方法主要由以下两个功能组件构成:
两级推理(技能选择与动作生成)。鉴于在实际应用中通常无法获取显式的技能库,目标是让模型能够自主发现并实例化那些既支持学习又支持复用的技能表征。技能可以采取多种形式进行表征;在 SkillVLA 中,选用自然语言作为技能描述符,这一选择与 VLM 骨干网络天然契合。通过构建一套“两级推理流水线”来实现这一设计。
如图2所示,高层模块显式生成针对各机械臂的子提示,作为技能描述符。这种表征方式旨在捕捉任务意图,并显式地解耦单臂技能的选择过程,从而实现灵活的单臂重组:通过在新的场景中将预先生成(或习得)的 u_L 和 u_R 进行配对,即可构建出全新的技能组合。在低层技能学习阶段,冻结高层 VLM的参数,以在训练动作组件的同时,保留其视觉-语言的泛化能力。
在低层层面,左右臂的动作分别由两条独立的流生成。每条流均使用其专属的低层 VLM(经过独立微调,例如利用 LoRA [20] 技术)来处理视觉输入及对应的单臂提示词,进而生成单臂的潜表征 z_i = f_i(x, u_i),其中 i = {L, R}。随后,动作专家模块依据相应的潜表征及当前机械臂的状态,预测出具体的动作指令。为了在必要时支持双臂的协同操作,在动作专家模块之间引入一种自适应的交叉注意机制,旨在捕捉双臂之间的相互依赖关系,其中合作水平信号 α 对该信息进行门控,以实现技能自适应的动作生成。
协作估计器(行为模式识别)。尽管臂间通信有助于捕捉低层级的依赖关系,但应有选择地启用;对于单臂技能而言,无论是在训练还是评估阶段,双臂之间应在很大程度上保持解耦状态。为此,引入一种“协作估计器”,该估计器聚焦于高层级的 VLM 表征,并预测一个标量 α ∈ [0,1],以此表征双臂间的协作程度(α 值越大,意味着耦合越强)。该信号充当模式标识符,用于指明当前行为究竟更适合被解释为 (i) 单臂技能的组合,还是 (ii) 协作式的双臂技能。通过参数 α 对双臂间的消息传递进行门控,从而使策略能够在“单臂独立生成”与“双臂耦合生成”这两种模式之间进行插值。
为了训练 α_t,采用一种源自行为克隆(BC)的简单“通信有效性(CU)”目标函数。
B 额外的协作层级学习
由于 α 直接调控着机械臂间的交互,因此准确推断协作层级至关重要。引入额外的机制以促进对协作水平的可靠估计,并在具体实现中默认启用这些机制。
用于协作学习的先验与正则项。视觉-语言模型(VLM)经过大规模数据集的预训练,因此能够编码广泛的任务语义及常识性规律(例如,在何种情境下通常需要两臂协同工作)。这使得它们成为估算“依赖于具体任务的协作水平”的天然先验知识来源。为了将这些信息提炼并整合至一个轻量级的估计器中,利用一个现成的 VLM,针对当前场景与任务生成一个先验协作强度值 αvlm∈ [0, 1](若采用离散式门控机制,则生成 αvlm∈ {0, 1})。
协作层级离散化。在实践中,连续型门控变量αt\alpha_tαt可能会呈现出微小但持续的波动,从而导致动作生成过程不稳定。为了提升稳定性,我们(作为可选方案)通过将 α_t 限制在集合 {0, 1} 中,对该门控变量进行离散化处理。具体而言,模型会预测一个介于 (0, 1) 之间的数值 yˆ_t,该数值代表开启跨臂通信的概率;利用二元交叉熵损失函数对模型进行训练。
将相同的先验和正则化项应用于 yˆ_t 作为一种软松弛处理,从而对所得的离散门进行塑形。这种token化的表述简化门的预测过程,且在初步实验中,经验性地提升系统的稳定性。
方法实现。目标是识别现有 VLA系统的结构性局限,并在受控环境下评估提出的改进方案。为避免引入混杂因素,未采用全新的骨干网络架构或大规模的预训练策略。相反,仅对核心基线模型 π0.5 [23] 进行了极少量的结构性修改,以确保整个流程既符合所提出的“解耦”设计理念,又能保持各组件之间的可比性。
利用随 π0.5 [23] 发布、已预训练的 PaliGemma 模型权重来初始化各组件,并对低层级 VLM及动作专家模块进行复制,以支持解耦式的执行流程。尽管可以直接使用现成的 VLM 模型,但在正式进行策略学习之前,会利用子任务生成数据对高层级 VLM 进行一次轻量级的视觉-语言微调,以确保提示(prompting)的稳定性;随后,在整个主训练阶段中,该模块将保持冻结状态,仅通过独立的 LoRA 适配器 [20] 对低层级 VLM 进行微调。
负责协调两个动作专家之间受控交互的“交叉注意”模块,采用了独立且从零开始训练的查询/键/值(QKV)投影层。在动作采样环节,沿用与原始 π0.5 实现完全一致的流匹配(flow-matching)时间表。最后,用于估算“协作水平”的模块被实现为一个 Transformer 解码器,它通过交叉注意机制,对高层级 VLM 的 KV 缓存进行关注(attend)。
协作先验。为了获取作为学习先验知识的“协作水平”标签,利用一个参数已冻结的 Qwen3-VL-32B 模型 [3] 对训练数据集进行预处理。具体而言,通过提示语引导该模型对任务所需的“双臂协作程度”进行标注;随后,将这些标注数值作为“真值监督”的一部分,补充至数据集中,以此来增强协作水平估算器的训练数据。
