当前位置：首页 > news >正文

Qwen-VLA：跨任务、环境与机器人形态的视觉-语言-动作统一建模

news 2026/6/3 7:07:47

26年5月来自qwen团队的论文“Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments”。

具身智能的研究往往依赖于各类专用模型，每个模型仅针对特定的场景或任务（例如机械臂操作与导航）进行设计；这种模式导致智体能力呈现碎片化，且在跨越不同任务、环境及机器人实体形态时的泛化能力十分有限。本文旨在探究：这些异质化的具身决策问题是否能够被统一整合进单一的“视觉-语言-动作（VLA）”模型框架之中。为此，提出 Qwen-VLA——一个统一的具身基础模型。该模型通过引入基于 DiT 架构的动作解码器，将 Qwen 系列模型的“视觉-语言”建模能力栈从原有的感知、理解与推理层面，进一步拓展至连续动作生成与轨迹规划层面。其方法采用一种大规模的联合预训练范式，融合多元化的数据源，涵盖机器人操作轨迹数据、人类第一视角演示数据、合成仿真数据、视觉-语言导航数据、以轨迹为中心的监督数据，以及辅助性的视觉-语言数据。

为了使单一模型能够同时支持多种机器人平台，其引入“具身-觉察提示条件化”（embodiment-aware prompt conditioning）机制：即在输入序列前置拼接针对特定机器人的文本描述，以此明确当前所使用的机器人实体形态及其对应的控制规范。此外，将机械臂操作、导航以及轨迹预测这三类任务统一建模于一个通用的“动作与轨迹预测”框架之下；这一设计使得模型能够在跨越不同的机器人形态、任务类别及环境场景时，依然能够实现可迁移的视觉基准定位、空间推理以及连续动作生成能力。在机械臂操作、导航以及以轨迹为中心的各类基准测试集上进行的实验结果表明：Qwen-VLA 能够实现跨任务类别与跨机器人实体形态的具身控制；无论场景布局、背景环境、光照条件、物体配置乃至机器人实体形态发生何种变化，该模型均能保持稳健的多任务处理性能，并展现出卓越的“分布外”（out-of-distribution）泛化能力。

如图1 Qwen-VLA 概述：

1 问题形式化

研究一类广泛的具身决策任务，包括机器人操纵、视觉-语言导航、轨迹预测以及以人为中心视角的动作建模。受这些任务所共有的计算结构的启发，提出在一个统一的具身模型框架下解决这些任务：尽管这些任务在输出格式和评估协议上存在差异，但它们都要求智体将语言指令与视觉观测进行关联（grounding），基于时空上下文进行推理，并预测未来的动作或轨迹。

将所有任务统一形式化为一个条件预测框架。在时间步 t，模型接收到视觉上下文 o_t、语言指令 x、具身描述 e 以及可选的任务标识符 z。其中，o_t 可以由单帧或多帧图像、视频观测序列或历史观测窗口组成；x明确了具体的任务指令；e是一段描述当前机器人平台及控制约定的文本提示；而 z 则在必要时用于标识任务所属的类别。模型的训练目标是，在长度为 H 的预测视窗内，预测出目标序列 y_t:t+H−1：

p_θ(y_t:t+H−1 | o_t, x, e, z)

目标序列 y_t:t+H−1 虽然具有任务依赖性，但统一表示在一个动作与轨迹的共享空间中。

对于操作任务，该序列对应于未来的机器人动作（例如末端执行器的位置）；对于导航任务，它代表导航决策或路径点；对于以轨迹为核心的任务（如自动驾驶或运动预测），它表示智能体或周围实体在连续坐标空间中的精确未来空间轨迹；而对于以第一人称视角采集的具身数据，它捕捉的是人体或手部的运动轨迹，这些轨迹表示在结构化的姿态空间中（例如 MANO [Romero et al., 2017]）或以骨骼关节序列的形式呈现。这种统一的建模范式使得在单一模型内部能够对异构的具身数据集进行联合优化，从而促进跨任务族群的视觉基准定位、空间推理以及动作生成能力的迁移。此外，该范式在输入端和输出端均具备良好的可扩展性：在输入端，通过引入情景记忆或持久状态来扩充条件上下文 o_t，将有助于实现长时程规划与故障恢复功能；在输出端，若在预测动作的同时联合预测未来的视觉状态，便能将动作生成与世界建模相融合，从而使智体能够预判其动作所带来的后果。

2 模型架构

模型由两部分组成：一个用于高级理解与推理的视觉-语言主干网络，以及一个用于细粒度动作生成的流匹配动作专家模块。

视觉-语言主干网络。用 Qwen3.5 (Team, 2026) 作为模型的主干网络。Qwen3.5 是一款原生多模态模型，采用“早期视觉-语言融合”策略进行训练：由具备空间合并功能的 ViT 模块生成的视觉 Token 被直接交错嵌入到文本 Token 流中，从而实现在单个 Transformer 架构内对图像、视频及语言进行统一处理。其混合注意机制设计巧妙，在绝大多数层中采用门控线性注意（Gated Linear Attention），并以固定间隔穿插分组查询 Softmax 注意（Grouped-query Softmax Attention）；这一设计既确保对长多模态序列的高效编码，又在必要时保留全精度全局推理的能力。

动作专家模块。引入一个单流的 DiT 风格 (Esser et al., 2024) 流匹配策略模块，将其作为“动作专家”来预测精确的动作；该模块能够同时处理来自机器人和人类的具身数据 (Janner et al., 2022; Chi et al., 2023; Liang et al., 2023; Black et al., 2024)。该动作专家模块将视觉-语言模型（VLM）的隐状态与一段带噪声的动作片段拼接成一个序列，随后通过联合自注意机制对其进行处理；处理过程中结合 AdaLN 时间步条件调节技术 (Peebles & Xie, 2023) 以及与主干网络对齐的多段式 RoPE 嵌入。这种解耦式设计使得动作专家能够专注于细粒度的动作生成任务，并能自然地应对具身动作分布所特有的多模态特性及高频动态变化，同时完整保留主干网络所具备的预训练能力。该专家模块采用流匹配目标函数 (Lipman et al., 2023) 进行训练；在推理阶段，它仅需通过少量欧拉积分步数即可生成动作序列，从而实现低延迟的实时控制能力。总体而言，动作专家模块包含约 11.5 亿个参数：其中 16 个 DiT 块占据绝大部分（每个 7080 万，合计 11.3 亿），剩余参数则分布于负责在原始动作维度与 DiT 潜空间之间进行映射的动作投影 MLP（490 万）、将 VLM 隐状态转换为 DiT 通道维度的线性层（390 万）、时间步嵌入（280 万）以及输出 AdaLN 调制模块（470 万）之中。

3 具身感知提示条件化

为了在单个共享模型中支持多种机器人具身形态，在每个训练样本前预置一段特定于机器人的文本提示（prompt），用于描述当前的机器人平台、机械臂配置以及控制约定。该提示遵循如下模板：

该机器人为 {robot_tag}，配备 {单臂 / 双臂}[、腰部][、以及移动基座]。控制频率为 {FPS} Hz。请预测接下来的 {chunk_size} 个控制动作，以执行以下任务：{ori_instruction}。

机器人标签（robot tag）及可选修饰符（腰部、移动基座）根据具体的具身形态进行设定；FPS（帧率）和 chunk_size（块大小）则反映数据集原始的控制频率和预测时间窗。如表 2 总结预训练语料库所涵盖的代表性机器人平台，并列出其对应的机械臂配置和动作类型。

4 统一的动作与轨迹表示

统一张量接口和掩码机制，但并未强行将所有具身形态归入单一的物理动作语义空间。每个数据集均保留其原生的控制约定，这一约定通过具身提示和针对该数据集的特定归一化处理进行指定。具体而言，每个训练样本均提供一个目标张量 Y，其中 H 表示固定的预测时间窗长度，K 表示所有控制模式共享的固定通道维度大小。

控制信号类型。涵盖两大类连续控制信号。操作信号（Manipulation signals）包括末端执行器的位置增量 (∆x, ∆y, ∆z)、以欧拉角或四元数表示的末端执行器旋转姿态、绝对关节位置、夹爪开度，以及灵巧手的关节角度。导航轨迹信号（Navigation trajectory signals）遵循 VLN（视觉-语言-导航）域的约定，以 (∆x, ∆y, ∆θ) 为单位表示每个航点，编码在地面平面上的相对位移和朝向变化。尽管这两类信号具有不同的物理语义，但它们本质上都是在特定时间窗内预测的一系列实数值向量，因此在动作专家模块（action expert）中受到同等对待。

通道布局。特定的控制模式将占用 c ≤ K 个通道。这 c 个与任务相关的值被置于张量 Y 的前 c 个维度中，而剩余的 K − c 个维度则通过补零进行填充。一个逐通道的二值掩码 M ∈ {0, 1} 用于记录哪些通道承载着有效信号：当且仅当通道索引 k < c 且时间步 h 落在任务的块长度 H_task ≤ H 范围内时，M_h,k 的取值为 1。这种机制无需针对特定具身形态（embodiment）设计专用的输出头；仅需一套 DiT 参数集即可处理所有的控制模式，而该掩码的作用在于防止填充项对梯度计算产生干扰。

任务-觉察条件化。每个训练样本均预置“具身-觉察提示”（embodiment-aware prompt），该提示明确指定机器人平台、机械臂配置、控制频率以及预测视窗。对于 VLN（视觉-语言-导航）样本，该提示则以类比的方式指明了导航约定与路点视窗。这些提示tokens经由 VLM 主干网络进行处理，其产生的隐状态随后与带噪声的动作块拼接在一起，共同作为 DiT 模型的输入；借此，动作专家模型便能始终基于当前样本精确的控制规范进行条件化推理，且无需对模型架构做任何改动。

5 训练目标

采用一种由两个目标加权求和构成的综合目标，对整个模型进行端到端的训练；这两个目标分别涵盖了连续动作生成与视觉-语言理解任务。
流匹配动作损失（Flow-matching action loss）。对于所有包含连续控制目标的数据样本（包括机械臂操作、VLN 轨迹路点，以及经过动作对齐处理的人类第一视角数据），利用一种条件流匹配目标（Lipman et al., 2023）来对动作专家模块进行监督训练。具体而言，给定一个纯净的目标样本 Y_0 和一个噪声样本 Y_1 ∼ N (0, I)，构建其线性插值 Y_τ = (1 − τ)Y_0 + τY_1 （其中 τ ∈ [0, 1],），并训练动作专家 v_θ 以预测相应的条件速度场。

视觉-语言损失。为了保留并增强骨干网络的跨模态能力，在辅助视觉-语言数据（包括细粒度的具身动作描述、自动驾驶 VQA 以及通用的视觉-语言预训练语料库）上，保留标准的下一token预测损失。

1 训练方案

一个可用的 VLA（视觉-语言-动作）模型需要协同训练一个认知主干网络和一个运动解码器；这种分工类比于生物运动控制中大脑皮层和小脑所扮演的互补角色。然而在实践中，这两个模块在进入训练时处于高度不对称的状态：VLM（视觉-语言-模型）主干网络已经经过了充分的预训练，而 DiT 动作解码器则是随机初始化的。若从这一起点直接进行朴素的联合训练，将显得既低效又不稳定。解码器必须同时学习多项内容：动作分布的形态、如何基于语言和具身信息进行条件化处理、其自身参数化的流匹配（flow-matching）动态特性，以及如何将动作与视觉信息进行关联（grounding）。与此同时，每一步训练都需承担图像编码所带来的计算开销。此外，来自尚未充分学习到有效动作结构的“新手”解码器的带有噪声的梯度，可能会对已预训练好的主干网络造成干扰。

提出的分阶段训练方案，其灵感源自一种基于“压缩”视角的动作学习理念。原始的动作轨迹往往具有高密度、高频率且依赖于具身形态的特性：单次操作任务（episode）中可能包含数千个关节位置数值，分布在数十个自由度之上。然而，其底层的任务意图却可以通过一条语言指令（例如“拿起那个红杯子”）以及一条指定机器人平台与控制规范的具身提示（embodiment prompt）被紧凑地概括出来。这一描述仅需寥寥数个tokens即可承载。在这段高度压缩的任务描述与完整的动作信号之间，存在着巨大的维度鸿沟；弥合这一鸿沟，本质上是一个结构化的“解压缩”问题。

将 T2A（文本-到-动作）任务建模为学习这一“解压缩映射”的过程。通过暂时屏蔽图像输入，仅基于语言条件进行动作预测来训练 DiT 解码器，迫使解码器在动作空间中构建出一种结构化的先验知识——这种先验知识完全由语言信息所索引。这不仅仅是一种简单的“热启动”（warm-start）策略：解码器在此阶段能够学会不同的语言描述如何对应并激活动作分布中的特定区域；学会具身提示如何将同一任务意图转化为针对特定机器人平台的具体运动程序；并学会如何在序列层面上把握完整动作轨迹的时序连贯性与组合结构——而完成这一切，仅需依赖那段高度压缩的任务描述。一旦建立这种由语言索引的动作先验知识，后续的多模态联合训练便可将计算资源与学习能力集中于核心任务之上——即如何将这些先验知识与具体的视觉观测信息进行有效关联（grounding），而非从零开始去学习动作生成的基本原理。基于这一原则，在预训练的 Qwen3.5 VLM 主干网络之上，采用一套四阶段的训练方案：(I) 文本-到-动作（Text-to-Action）的 DiT 预训练（T2A）；(II) 持续预训练（CPT）；(III) 分为两个并行分支的监督微调（SFT）；以及 (IV) 强化学习（RL）。每个阶段的定义，均在于其弥合前一阶段所遗留的鸿沟。

如图 2 所示Qwen-VLA 的训练配方如下：第一阶段（T2A）训练 DiT 动作解码器，使其仅凭文本输入即可重构动作，从而在无视觉输入的情况下构建结构化的动作先验。第二阶段（CPT）解冻上述两个模块，将该动作先验与视觉观测进行关联。第三阶段（SFT）分化为多任务和真实机器人两条训练路径；第四阶段（RL）则通过环境奖励，优化闭环任务的成功率。

2 预训练数据

预训练语料库的质量与多样性，直接决定认知主干网络与运动解码器在跨具身形态及跨任务族情境下的协同适应能力。本文构建一个庞大且异质的混合预训练数据集，旨在赋予模型广泛的具身感知、空间推理及动作生成能力。该混合数据集涵盖五大数据族：机器人操纵轨迹、人类第一视角演示、合成仿真数据、导航与轨迹中心数据，以及辅助视觉-语言数据。表1总结各数据源的构成及其采样权重。

机器人操纵轨迹

真实与仿真机器人操纵轨迹构成预训练语料库的核心，约占整个预训练混合数据的 74.2%。这些数据涵盖桌面操纵、移动操纵、双臂任务以及灵巧手控制，且涉及多种多样的机器人实体形态。

第一人称视角人类数据

与远程操控的机器人轨迹相比，第一人称视角的人类演示数据提供一种更为丰富且具有良好可扩展性的真实世界操作经验来源。人类在开放世界环境中日复一日地与各类物体进行交互，自然而然地产生灵巧的操作行为；这些行为所涵盖的场景、物体及任务语义范围，远比机器人远程操控所能触及的范围更为广泛。

近期研究表明，利用大规模的第一人称视角人类视频进行训练，能够赋予“视觉-语言-动作”模型更为丰富多样的操作先验知识，并显著提升其在下游机器人任务中的泛化能力（Kareer et al., 2025; Luo et al., 2025; Li et al., 2026b; Luo et al., 2026; Zheng et al., 2026; Hu et al., 2026）。受上述研究成果的启发，在数据集中整合一系列丰富多样的第一人称视角人类操作数据集（占预训练数据总量的6.0%），旨在为模型提供广泛的操作先验知识，从而对机器人轨迹数据形成有效的补充。

合成仿真数据

为了提升具身监督（embodied supervision）的覆盖范围、可控性及鲁棒性，构建一套大规模的合成仿真数据生成管线，该管线包含两个相互补充的组件：(1) 视觉-语言-动作数据，在此类数据中，模型需综合任务指令与图像观测来预测动作；(2) 语言-动作数据，在此类数据中，模型仅凭语言信息即可预测动作。这两类监督数据虽作用各异，却能发挥协同增效的作用。纯文本组件旨在促使模型在不依赖视觉外观的前提下，习得高层级的任务抽象能力及语言与动作之间的内在规律；而受视觉信息制约的组件，则负责将上述抽象概念具象化，使其扎根于逼真的感知观测、多变的场景环境以及具身交互的动态过程之中。

基于 IsaacLab (Mittal et al., 2025) 搭建仿真环境，并利用 cuRobo (Sundaralingam et al., 2023) 实现避碰运动规划功能，从而构建这套数据生成管线。

导航数据

引入导航数据（占比 7.5%），其显著特征在于包含长跨度的运动轨迹以及丰富的视觉信息。假设移动机器人具备 3 个自由度：即在平面内的平移运动以及绕垂直轴的旋转运动（航向角）。导航数据由导航视频（以 2 FPS 的帧率采样）、指令信息及轨迹信息共同构成；这些数据协同作用，赋予模型诸如指令跟随、物体搜索及目标追踪等移动操作能力。

视觉-语言数据

进一步引入辅助视觉-语言监督（合计占比 8.5%），以强化语义锚定、细粒度指令遵循以及通用视觉推理能力。

通过 T2A 和 CPT 的大规模预训练，得到 Qwen-VLA-Base——一个通用的视觉-语言-动作模型，该模型展现出广泛的跨任务和跨具身泛化能力。尽管这种广泛的覆盖范围赋予了模型多样的知识，但尚未达到在特定下游任务上实现可靠闭环控制所需的精度。为了弥合这一鸿沟，引入一种两阶段的后训练流程，旨在将基础模型专精化，以实现精准的任务执行：

(i) 多任务监督微调（SFT）阶段：在具身平衡和任务平衡的采样策略下，针对视觉问答、空间定位、物体操纵和导航等异质任务，联合微调 VLM 主干网络和动作专家模块。

(ii) 强化学习（RL）阶段：以 SFT 阶段的检查点为起点进行初始化，通过直接优化基于仿真环境中“同策略采样”（on-policy rollouts）所获得的、以任务成功为导向的奖励信号，进一步精炼策略，最终生成模型 Qwen-VLA-Instruct。

在这两个阶段中，均采用余弦衰减的学习率调度策略，并为视觉-语言主干网络和动作解码器分别设定独立的组别调度方案；此外，还沿用与预训练阶段保持一致的梯度裁剪设置。

查看全文

http://www.jsqmd.com/news/940701/