当前位置: 首页 > news >正文

上交一篇VLA结合世界模型的工作VLA-World:利用短程场景生成做反思推理

点击下方卡片,关注“自动驾驶之心”公众号

戳我->领取自动驾驶近30个方向学习路线

作者 | Guoqing Wang等

编辑 | 自动驾驶之心

本文只做学术分享,如有侵权,联系删文

>>自动驾驶前沿信息获取自动驾驶之心知识星球

过去一年,具身和自动驾驶都在谈两件事:VLA和世界模型。这两个词放在两个行业里的落点,其实并不一样。

在具身领域,未来图像和未来状态,很多时候可以更直接地反馈到末端操作上。世界模型生成的未来操作画面,本身已经很接近动作决策。可自动驾驶不是这样,无法直接复用具身领域的 Inverse Dynamics Model (IDM)。车辆行驶过程中交互的环境是不确定的,未来场景生成的再逼真,也无法直接决定自车行驶的真实状态。

VLA 强在推理和场景理解,缺少显式的时空建模能力;世界模型强在预测世界变化,能想象但无法反思。所以将两者结合的思路,在自动驾驶领域是更合理的。上交MoE实验室最新的VLA-World就是在做这件事。

整体看下来,VLA-World 不完全属于「将世界模型的 latent 表征嵌入到 VLA 的学习中」的这类范式。它的做法是,先显式生成一个由短程轨迹条件出来的未来图像,再将这个「未来场景」当做证据,反过来做反思推理。即如果车辆沿着这个场景走下去,可能会发生什么事情。最后用于修正长程轨迹。

  • 论文标题:Learning Vision-Language-Action World Models for Autonomous Driving

  • 论文链接:https://arxiv.org/abs/2604.09059

一、为什么自动驾驶里的世界模型,比具身更难落到动作上

这个问题的本质,是动作约束不一样

具身操作里,动作影响、交互对象、操作环境和目标函数都相对清晰。可在自动驾驶场景,一个场景可能对应对条控制轨迹,不确定性是自动驾驶最大的挑战。

随着研究的深入,VLA和世界模型的弊端也逐渐被发现。一个没办法做Reasoning,一个没办法做显式时空推演。VLA-World 的出发点,就是补齐这两个短板。

论文形式化成一个联合建模问题。传统 VLA 主要学的是策略项,传统 world model 主要学的是世界转移项,VLA-World 同时做两件事:

这里前一项是决策,后一项是想象。VLA-World 的核心判断是:如果你不显式建模未来,策略就容易短视;如果你只生成未来却不把奖励反传回想象过程,世界模型就容易沦为高保真但低决策价值的“播放器”。

二、VLA-World 的做法

这篇工作的 pipeline,其实非常像一个经验丰富但不鲁莽的司机,大体的做法是:

1)先看路况;
2)然后输出 0.5 秒的直觉性短时轨迹;
3)按这条短时轨迹生成未来帧;
4)判断有没有风险;
5)再决定最终的动作和未来 3 秒轨迹。

公式化为:

也就是:先基于过去观测和短时预测轨迹,生成 0.5 秒后的未来图像。然后再做反思修正:

这个范式算是比较新颖的,一部分工作只当做先验,一部分工作只生成未来。VLA-World做了下平衡。

三、算法里的三个核心点

1)先把 0.5 秒内做好

为了让这个短时轨迹尽可能准,VLA-World 先从历史轨迹估计当前速度和惯性加速度:

再把历史惯性和任务意图对应的目标加速度融合起来:

最后得到 0.5 秒后的预测位置:

这个方法在解决了一个现实问题:先给世界模型一个“相对可靠的草图”,后面的想象和反思才有意义。

2)多视角一致性

和 FSDrive 相比,VLA-World 一个很明确的升级,是显式学习多视角一致性,这对自动驾驶场景理解还是很重要的。其生成形式是自回归地预测各视角的 visual token:

$$P(Q_{t+1}^{k})=\prod_{i=1}^{N} P_\theta(q_i^k\mid q_{<i}^k,h_t,l) $$=""编码了多视角观测和 ego state,则可以指定“生成哪一个 camera 在 0.5 秒后的图”。这其实是在给 planner 加约束,并且跟随指令。

3)强化学习阶段

VLA-World 的第三阶段用了 GRPO,总奖励写成:

GRPO 的组内优势归一化则是:

不得不说,GRPO确实好用。

四、实验结果

五、结论

整体看,VLA-World的做法还是挺聪明的,但可能离上车还有一段距离,目前主要还是在 nuScenes 上做开环评测。另一方面,利用短程 0.5s 的未来场景推理修正最终轨迹,方法上虽然说得通,但可能车端模型没办法接受。多视角一致性和预训练,这个点是值得肯定的。

如果放在云端,应该值得尝试一下。

自动驾驶之心

求点赞

求分享

求喜欢

http://www.jsqmd.com/news/660405/

相关文章:

  • 终极指南:Zotero OCR插件为PDF文献添加可搜索文本层
  • 实测5家锂电池模组倍速链输送线厂家,避坑指南来了 - 丁华林智能制造
  • ZYNQ7Z035 TCP上传速度上不去?手把手教你排查LWIP协议栈配置与内存瓶颈
  • 别再只懂管道和消息队列了!用C++在Linux上玩转共享内存(shmget/shmdt/shmctl实战)
  • 5个核心技术解析:Draw.io Mermaid插件如何重塑图表工作流
  • 共话HART协议电动执行器国产品牌,推荐哪家 - 工业推荐榜
  • 如何完整安装ComfyUI-Impact-Pack:解锁AI图像增强的终极指南
  • 知识星球内容采集与PDF生成终极指南:快速免费构建个人知识库
  • 2026性价比高的弹花机生产厂推荐,聊聊售后好的厂家哪家比较靠谱 - mypinpai
  • 3分钟掌握深蓝词库转换:让你的输入习惯跨越所有设备
  • 华南师大家教网:广州家教市场的本土“学霸标杆” - 资讯焦点
  • 保姆级教程:为PX4 1.14.0添加纳雷NRA12激光雷达驱动(附完整源码)
  • 如何快速掌握分子动力学自由能计算:gmx_MMPBSA终极指南
  • 实验3 C语言函数应用编程
  • 告别字幕烦恼:Jellyfin智能中文字幕插件终极指南
  • 不换设备、不改线路!旧摄像头接入国标GB28181视频平台EasyGBS,把AI成本打到了原来的⅒!
  • 用STM32F103C8T6和NRF24L01做个无线遥控小车:硬件连接与代码详解
  • 别再只测电流了!用INA226模块同时搞定电压、电流、功率的完整配置流程(附STM32代码)
  • 分子动力学模拟结合自由能计算:gmx_MMPBSA技术架构与实战指南
  • 性价比高的公司注册咨询机构怎么选,为你提供实用选购指南 - 工业品网
  • 透视2026年4月六家geo服务商排行榜交付效能与选型逻辑 - 资讯焦点
  • 服务管理化技术服务目录与请求管理流程
  • NVIDIA Profile Inspector:解锁NVIDIA显卡200+隐藏设置的专业工具指南
  • 告别QML资源路径噩梦:手把手教你用Prefix和别名管理图片资源(附避坑指南)
  • 从Lambert到Half-Lambert:漫反射光照模型的演进与Shader实战
  • 2026湖州建工索赔纠纷律师:王学志的专业服务解析 - 律界观察
  • 杰理之主机在没有数据输出时需保持CLK【篇】
  • OpenIPC:3大技术突破实现网络摄像头固件的完全掌控
  • 别再只调参了!用Python从CWRU轴承数据里手动提取这9类特征,喂给XGBoost效果有多炸?
  • Windows驱动空间清理终极指南:Driver Store Explorer 5步高效释放系统资源