上交一篇VLA结合世界模型的工作VLA-World:利用短程场景生成做反思推理
点击下方卡片,关注“自动驾驶之心”公众号
戳我->领取自动驾驶近30个方向学习路线
作者 | Guoqing Wang等
编辑 | 自动驾驶之心
本文只做学术分享,如有侵权,联系删文
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
过去一年,具身和自动驾驶都在谈两件事:VLA和世界模型。这两个词放在两个行业里的落点,其实并不一样。
在具身领域,未来图像和未来状态,很多时候可以更直接地反馈到末端操作上。世界模型生成的未来操作画面,本身已经很接近动作决策。可自动驾驶不是这样,无法直接复用具身领域的 Inverse Dynamics Model (IDM)。车辆行驶过程中交互的环境是不确定的,未来场景生成的再逼真,也无法直接决定自车行驶的真实状态。
VLA 强在推理和场景理解,缺少显式的时空建模能力;世界模型强在预测世界变化,能想象但无法反思。所以将两者结合的思路,在自动驾驶领域是更合理的。上交MoE实验室最新的VLA-World就是在做这件事。
整体看下来,VLA-World 不完全属于「将世界模型的 latent 表征嵌入到 VLA 的学习中」的这类范式。它的做法是,先显式生成一个由短程轨迹条件出来的未来图像,再将这个「未来场景」当做证据,反过来做反思推理。即如果车辆沿着这个场景走下去,可能会发生什么事情。最后用于修正长程轨迹。
论文标题:Learning Vision-Language-Action World Models for Autonomous Driving
论文链接:https://arxiv.org/abs/2604.09059
一、为什么自动驾驶里的世界模型,比具身更难落到动作上
这个问题的本质,是动作约束不一样。
具身操作里,动作影响、交互对象、操作环境和目标函数都相对清晰。可在自动驾驶场景,一个场景可能对应对条控制轨迹,不确定性是自动驾驶最大的挑战。
随着研究的深入,VLA和世界模型的弊端也逐渐被发现。一个没办法做Reasoning,一个没办法做显式时空推演。VLA-World 的出发点,就是补齐这两个短板。
论文形式化成一个联合建模问题。传统 VLA 主要学的是策略项,传统 world model 主要学的是世界转移项,VLA-World 同时做两件事:
这里前一项是决策,后一项是想象。VLA-World 的核心判断是:如果你不显式建模未来,策略就容易短视;如果你只生成未来却不把奖励反传回想象过程,世界模型就容易沦为高保真但低决策价值的“播放器”。
二、VLA-World 的做法
这篇工作的 pipeline,其实非常像一个经验丰富但不鲁莽的司机,大体的做法是:
1)先看路况;
2)然后输出 0.5 秒的直觉性短时轨迹;
3)按这条短时轨迹生成未来帧;
4)判断有没有风险;
5)再决定最终的动作和未来 3 秒轨迹。
公式化为:
也就是:先基于过去观测和短时预测轨迹,生成 0.5 秒后的未来图像。然后再做反思修正:
这个范式算是比较新颖的,一部分工作只当做先验,一部分工作只生成未来。VLA-World做了下平衡。
三、算法里的三个核心点
1)先把 0.5 秒内做好
为了让这个短时轨迹尽可能准,VLA-World 先从历史轨迹估计当前速度和惯性加速度:
再把历史惯性和任务意图对应的目标加速度融合起来:
最后得到 0.5 秒后的预测位置:
这个方法在解决了一个现实问题:先给世界模型一个“相对可靠的草图”,后面的想象和反思才有意义。
2)多视角一致性
和 FSDrive 相比,VLA-World 一个很明确的升级,是显式学习多视角一致性,这对自动驾驶场景理解还是很重要的。其生成形式是自回归地预测各视角的 visual token:
$$P(Q_{t+1}^{k})=\prod_{i=1}^{N} P_\theta(q_i^k\mid q_{<i}^k,h_t,l) $$=""编码了多视角观测和 ego state,则可以指定“生成哪一个 camera 在 0.5 秒后的图”。这其实是在给 planner 加约束,并且跟随指令。3)强化学习阶段
VLA-World 的第三阶段用了 GRPO,总奖励写成:
GRPO 的组内优势归一化则是:
不得不说,GRPO确实好用。
四、实验结果
五、结论
整体看,VLA-World的做法还是挺聪明的,但可能离上车还有一段距离,目前主要还是在 nuScenes 上做开环评测。另一方面,利用短程 0.5s 的未来场景推理修正最终轨迹,方法上虽然说得通,但可能车端模型没办法接受。多视角一致性和预训练,这个点是值得肯定的。
如果放在云端,应该值得尝试一下。
自动驾驶之心
求点赞
求分享
求喜欢
