当前位置：首页 > news >正文

AutoMoT：一种基于异步 Transformer 混合模型的端到端自动驾驶统一VLA模型

news 2026/7/1 10:12:15

26年3月来自新加坡南阳理工、哈弗大学和小米电动汽车的论文“AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving”。

将视觉语言模型（VLM）集成到端到端（E2E）自动驾驶（AD）系统中，在提升场景理解能力方面展现出巨大潜力。然而，现有的集成策略存在诸多局限性：它们要么难以解决推理空间和动作空间之间的分布错位问题，要么未能充分利用预训练VLM的通用推理能力，要么在动作策略生成过程中产生显著的推理延迟，从而降低驾驶性能。为了应对这些挑战，本文提出AutoMoT，一个将推理和动作生成统一于单一视觉-语言-动作（VLA）模型中的端到端AD框架。该方法利用混合Transformer（MoT）架构和联合注意共享机制，既保留预训练VLM的通用推理能力，又通过在不同任务频率下进行异步执行，实现高效的快慢推理。在多个基准测试数据集上，无论采用开环还是闭环设置，大量实验都表明，AutoMoT 与现有最佳方法相比，性能具有竞争力。我们进一步研究预训练VLM)在自动驾驶 (AD) 中的功能边界，并探讨了何时需要针对 AD 进行微调。结果表明，预训练 VLM 仅通过语义提示即可实现具有竞争力的多任务场景理解性能，但对于决策和轨迹规划等动作级任务，微调仍然至关重要。

视觉语言模型（VLM）与端到端（E2E）自动驾驶系统的集成正经历快速发展，并催生出多种新兴设计范式。E2E框架的一个自然延伸是将VLM集成到流水线的上游阶段（Fu et al., 2025a; Li et al., 2025b），其中预训练模型提供丰富的场景理解以支持下游规划，如图(a)所示。另一种研究方向采用双系统架构（图(b)），其中VLM作为辅助模块，通过提供高级条件信号来辅助传统的E2E流水线（Jiang et al., 2024; 2025; Tian et al., 2025）。然而，这些方法都存在VLM推理空间与规划器动作空间之间固有的分布不匹配问题。此外，对视觉语言模型（VLM）进行微调以生成中间条件信号，不可避免地会将其限制在特定任务中，从而降低预训练模型的通用能力。

最近，如图 c 所示，新兴的视觉-语言-动作（VLA）架构通过自回归建模将推理和规划集成到单个预训练的 VLM 主干网络中（Wang，2025；Zhou，2025c；b）。虽然这种统一的设计结构紧凑，并有效地利用了 VLM 强大的推理能力，但对于现实世界的自动驾驶而言，以同步的时间频率将动作策略执行与高级推理紧密耦合是不切实际的。在复杂的交互环境中，这种限制尤为严重，因为低延迟控制和快速重新规划至关重要。先前以文本形式生成动作的视觉语言模型（Zhang et al., 2024; 2025; Hwang et al., 2024）也可被视为此范式的实例。除了上述局限性之外，这些方法依赖于文本token监督，这本质上弱于对数值动作表示的直接监督。考虑到所有这些局限性，提出以下关键问题：VLA模型如何才能有效利用预训练VLM的通用智能，同时获得特定领域的技能并满足实时推理的要求？

本文提出AutoMoT，一个端到端的自动驾驶框架，它将异步推理和动作无缝地统一到一个视觉语言动作（VLA）模型中，同时避免了VLM能力的退化以及跨任务空间分布的差异。如图 d 所示，AutoMoT 采用混合 Transformer (MoT) 架构，通过共享潜空间中的联合注意机制，将高层推理（场景理解）和低层动作策略（决策和轨迹规划）连接起来。这种设计使得文本推理和动作生成能够以不同的时间频率异步执行，从而实现快慢推理。

网络架构

AutoMoT 的整体框架如图所示。AutoMoT 由两个核心组件构成：场景理解专家和动作专家，两者均采用基于 Transformer 的架构实现。
场景理解专家 AutoMoT 中场景理解专家 (UE) 的主要作用是理解场景，并针对复杂场景（尤其是长尾和罕见情况）生成思维链 (CoT) 推理，同时将其通用知识迁移到动作策略学习中。UE 采用 Qwen3-VL-4B 密集模型作为其视觉语言骨干网络，该模型以车载摄像头捕获的多视角多帧 RGB 图像 I^RGB以及包含系统提示和用户指令的文本提示 l 作为输入，并输出语义推理结果。为了充分利用预训练的 Qwen3-VL 模型的通用知识并避免推理性能的灾难性下降，在整个训练过程中冻结了理解专家。

动作专家 AutoMoT 中的动作专家 (AE) 负责在统一的 VLA 框架内进行决策和轨迹规划。在每个时间步 t，AE 以当前观测值 o_t = {I^RGB_t , I^BEV_t, Q(t)} 作为输入，并生成动作侧的潜表示。其中，I^BEV_t 表示 LiDAR BEV 特征，Q(t) 表示动作查询。由此可以导出 {Q^l(t), K^l(t), V^l(t)}，其中 l 表示第 l 个注意层。基于这些潜表示，AE 为接下来的三个连续帧生成语义决策，并在同一时间范围内生成时间和空间轨迹建议。更具体地说，给定当前观测值 o_t 和一组动作查询 Q(t)，AE 联合生成用于决策和轨迹规划的潜表示。这些表示被解码为三个输出：(i) 具体元动作 Zˆ_t = {zˆ_t+h}，(ii) 未来时间路径点 Yˆ_t = {yˆ_t+m} 和 (iii) 空间路径点 Y-_t = {y-_t+n}。其中，H = 3 表示元动作的预测时间范围为 3 秒，采样间隔为 1 秒；M = 6 表示在同一时间范围内，时间路径点的采样间隔为 0.5 秒；N 表示用于参数化参考路径的空间路径节点数。值得注意的是，语言、跨模态和跨任务交互均遵循因果注意力机制，而任务内和自模态交互则采用双向注意力机制。

通过与用户设备 (UE) 在共享的注意力空间中运行，自动执行器 (AE) 将 UE 生成的潜推理融入动作生成过程，从而将决策和规划建立在高层次的场景理解之上，并实现从预训练VLM到策略学习的知识迁移。注意模式如图所示。

如上图所示，理解、决策和规划均通过跨任务因果注意机制进行调控，其中决策表征以理解为条件，而规划则进一步以潜空间中的理解和决策为条件。在每个任务中，潜特征遵循跨模态的双向注意机制，而跨任务交互则由因果注意力机制控制。AE 被实现为一个具有约 16 亿个参数的任务专用 Transformer 模型，并从头开始训练，以捕获自动驾驶领域的特定知识。值得注意的是，AE 的运行频率高于 UE，从而能够进行高效推理，并支持在复杂环境中进行实时自动驾驶。

规划头讨论

近年来，诸如扩散策略（Chi et al., 2025）等生成式规划器在自动驾驶领域展现出巨大的潜力。在框架中，将策略模块实现为基于DiT的扩散策略。与从聚类轨迹（Zou et al., 2025）或纯白噪声（Chi et al., 2025）开始逆向过程不同，其用自编码器（AE）预测的粗略轨迹作为信息先验，并执行截断逆向去噪来生成最终的策略轨迹。这种设计提供更可靠的初始化，并显著加快推理速度。

为了在去噪过程中有效利用异构信息，扩散策略利用两个互补的信息源：来自自编码器（AE）的潜决策状态 h_de 用于生成决策感知轨迹，以及来自视觉编码器的BEV特征 F_bev 用于空间引导。现有的扩散规划器，例如编码器-解码器架构（Li，2025b）和级联交叉注意解码器（Liao，2025），通常依赖于非结构化的初始化和跨异构模态的隐注意平衡，这可能会削弱轨迹先验所携带的结构性引导。为了解决这个问题，引入一种混合注意（MoA）机制，如图所示，以实现更有效的多源融合，同时保留锚点轨迹提供的有效信息。

具体而言，MoA 采用一种主旁路融合设计。在主路径中，联合注意基于三个来源进行计算：时间查询和空间查询之间的自注意、对BEV特征的交叉注意以及对潜决策状态的交叉注意。此外，潜决策状态的贡献由一个可学习因子g = tanh(γ)进行调节，从而实现对多帧元动作的自适应控制。

训练策略

决策制定。将决策制定问题建模为基于元动作的token级序列建模问题，并以多帧驱动观测为条件。为了进行真实世界评估，构建一个基于 nuScenes 的多帧决策数据集，称为 NuSync。

具体来说，NuSync 以四个连续的历史 RGB 观测值以及一个额外的 RGB-BEV 对作为输入。在同步设置下，RGB-BEV 对与最后一个历史帧共享相同的时间戳，即 I^sync_t = {I^RGB_t, I^RGB_t+1, I^RGB_t+2, I^RGB_t+3, I^RGB_t+3, I^BEV_t+3}。此外，还构建时间异步样本，其中四个历史帧保持连续，而 RGB-BEV 对则随机选择在前 1 到 2 帧（对应于 2 Hz 下的 0.5–1 秒）之后。例如，I^async_t = {I^RGB_t, I^RGB_t+1, I^RGB_t+2, I^RGB_t+3, I^RGB_t+k, I^BEV_t+k}，其中 k ∈ {4,5}。在输出空间中，NuSync 对 3 秒时间范围内的元动作进行标注，在 1 秒、2 秒和 3 秒时分别提供多达 20 种纵向和横向动作的组合。经过整理后，NuSync 总共包含 80.1K 个样本。

类似地，对于 CARLA 模拟，遵循相同的协议，基于 PDM-Lite 构建 PDM-Meta 数据集。由于模拟中横向元动作之间的边界模糊，仅标注纵向决策。NuSync 和 PDM-Meta 是首批支持异步多帧元动作推理的开源决策数据集。

基于构建的元动作数据集，给定观测序列 o_t，AE 预测元动作token序列 zˆ_t = {zˆ^j_t}，其中 j 表示第 j 个token，M 表示编码为一个元动作所需的token数量。与 UE 使用的下一token预测不同，AE 采用逐token预测范式，并通过最小化目标决策token的负对数似然来优化策略：L_DM。

轨迹规划 AutoMoT 遵循 nuScenes 和 PDM-Lite 的原始设置，适用于 AE 和 AR，每个样本包含四个历史帧，并在 3 秒的时间范围内预测和优化时空轨迹。对于 AE，用 l1 损失函数优化轨迹规划：L^temp_traj和L^spatial_traj。

值得注意的是，决策和轨迹规划在AE内部进行联合优化，使得AutoMoT能够学习基于UE语义表示的连贯动作策略。

基于联合注意机制的异步推理

将异步推理建模为一个多速率过程，其中推理和动作推理以不同的时间分辨率演化，但两者都基于实时视觉观测。这两个过程之间的交互由共享的KV缓存介导。在任意时间步t，给定当前观测值o_t，AE为每个注意层导出逐层查询、键和值{Q^l_act(t), K^l_act(t), V^l_act(t)}。相应地，τ(t) 表示动作步骤 t 时可获得的最新场景表征更新时间索引，满足 τ(t) ≤ t。在更新时间 τ(t)，UE 生成一组逐层 KV 表征，并将其存储在持久 KV 缓存中：C^τ(t)。

因此，最终注意计算中涉及的K和 V由 UE 在时间 τ(t) 的 KV 缓存与 AE 在时间 t 导出的 KV 表征组合而成：K^l(t) 和 Ṽ^l(t)。然后计算联合注意 Attn^l(t)。

联合注意和异步推理构成 AutoMoT 的核心特征。通过允许动作推理重用以不同时间频率更新的场景表征，所提出的框架使得决策和轨迹规划能够以比场景理解更高的执行频率运行，同时仍然基于实时感知输入。该设计符合现实世界自动驾驶的实时性要求。

实验设置

数据集。对于推理任务，评估所有模型在自动驾驶基准数据集和通用领域数据集上的总体性能，包括 OmniDrive (Wang et al., 2024)、ScienceQA 和 FigureQA。对于动作级任务，AutoMoT 主要在三个数据集上进行训练：nuSync（本文已对其进行标注和整理，用于决策）、nuScenes (Caesar et al., 2020) 和 CARLA-Garage 数据集 (Jaeger et al., 2023a)（用于轨迹规划）。遵循轨迹规划基准测试提供的原始训练和评估协议。此外，专门针对两个自动驾驶VQA数据集LingoQA（Marcu，2024）和CODA-LM（Chen，2025）对AutoMoT的理解专家进行了微调。

基准测试和指标。用LingoQA（Marcu，2024）基准测试的原生指标Lingo-Judge评估场景理解性能，并使用基于GPT的评分在其他自动驾驶专用和通用VQA数据集上进行评估。还使用nuScenes（Caesar，2020）基准测试评估AutoMoT的开环性能，其中决策采用平均准确率（AA），轨迹规划采用L2距离和碰撞率。闭环性能评估基于 Bench2Drive (Jia et al., 2024) 基准测试，并遵循官方提供的评估指标。
实现细节：每个动作token对应 0.5 秒的运动预测。自编码器 (AE) 预测一系列动作token以解码粗略的未来轨迹，这些轨迹随后由基于扩散的规划器进一步细化。对于动作策略学习，采用 1 × 10⁻⁴ 到 2 × 10⁻⁵ 的学习率，并采用完全分片数据并行 (FSDP) 训练策略。动作专家预测 6 个轨迹点和 20 个路径点，其中 λ = 0.5。该模型使用 8 个 NVIDIA A100 GPU 进行训练。

查看全文

http://www.jsqmd.com/news/661289/