当前位置：首页 > news >正文

上交一篇VLA结合世界模型的工作VLA-World：利用短程场景生成做反思推理

news 2026/6/4 0:44:42

点击下方卡片，关注“自动驾驶之心”公众号

戳我->领取自动驾驶近30个方向学习路线

作者 | Guoqing Wang等
编辑 | 自动驾驶之心
本文只做学术分享，如有侵权，联系删文

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

过去一年，具身和自动驾驶都在谈两件事：VLA和世界模型。这两个词放在两个行业里的落点，其实并不一样。

在具身领域，未来图像和未来状态，很多时候可以更直接地反馈到末端操作上。世界模型生成的未来操作画面，本身已经很接近动作决策。可自动驾驶不是这样，无法直接复用具身领域的 Inverse Dynamics Model (IDM)。车辆行驶过程中交互的环境是不确定的，未来场景生成的再逼真，也无法直接决定自车行驶的真实状态。

VLA 强在推理和场景理解，缺少显式的时空建模能力；世界模型强在预测世界变化，能想象但无法反思。所以将两者结合的思路，在自动驾驶领域是更合理的。上交MoE实验室最新的VLA-World就是在做这件事。

整体看下来，VLA-World 不完全属于「将世界模型的 latent 表征嵌入到 VLA 的学习中」的这类范式。它的做法是，先显式生成一个由短程轨迹条件出来的未来图像，再将这个「未来场景」当做证据，反过来做反思推理。即如果车辆沿着这个场景走下去，可能会发生什么事情。最后用于修正长程轨迹。

论文标题：Learning Vision-Language-Action World Models for Autonomous Driving
论文链接：https://arxiv.org/abs/2604.09059

一、为什么自动驾驶里的世界模型，比具身更难落到动作上

这个问题的本质，是动作约束不一样。

具身操作里，动作影响、交互对象、操作环境和目标函数都相对清晰。可在自动驾驶场景，一个场景可能对应对条控制轨迹，不确定性是自动驾驶最大的挑战。

随着研究的深入，VLA和世界模型的弊端也逐渐被发现。一个没办法做Reasoning，一个没办法做显式时空推演。VLA-World 的出发点，就是补齐这两个短板。

论文形式化成一个联合建模问题。传统 VLA 主要学的是策略项，传统 world model 主要学的是世界转移项，VLA-World 同时做两件事：

这里前一项是决策，后一项是想象。VLA-World 的核心判断是：如果你不显式建模未来，策略就容易短视；如果你只生成未来却不把奖励反传回想象过程，世界模型就容易沦为高保真但低决策价值的“播放器”。

二、VLA-World 的做法

这篇工作的 pipeline，其实非常像一个经验丰富但不鲁莽的司机，大体的做法是：

1）先看路况；
2）然后输出 0.5 秒的直觉性短时轨迹；
3）按这条短时轨迹生成未来帧；
4）判断有没有风险；
5）再决定最终的动作和未来 3 秒轨迹。

公式化为：

也就是：先基于过去观测和短时预测轨迹，生成 0.5 秒后的未来图像。然后再做反思修正：

这个范式算是比较新颖的，一部分工作只当做先验，一部分工作只生成未来。VLA-World做了下平衡。

三、算法里的三个核心点

1）先把 0.5 秒内做好

为了让这个短时轨迹尽可能准，VLA-World 先从历史轨迹估计当前速度和惯性加速度：

再把历史惯性和任务意图对应的目标加速度融合起来：

最后得到 0.5 秒后的预测位置：

这个方法在解决了一个现实问题：先给世界模型一个“相对可靠的草图”，后面的想象和反思才有意义。

2）多视角一致性

和 FSDrive 相比，VLA-World 一个很明确的升级，是显式学习多视角一致性，这对自动驾驶场景理解还是很重要的。其生成形式是自回归地预测各视角的 visual token：

$$P(Q_{t+1}^{k})=\prod_{i=1}^{N} P_\theta(q_i^k\mid q_{<i}^k,h_t,l) $$=""编码了多视角观测和 ego state，则可以指定“生成哪一个 camera 在 0.5 秒后的图”。这其实是在给 planner 加约束，并且跟随指令。