当前位置：首页 > news >正文

【论文阅读】World-Value-Action Model: Implicit Planning for Vision-Language-Action Systems

news 2026/7/31 10:50:56

快速了解部分

题目: World-Value-Action Model: Implicit Planning for Vision-Language-Action Systems
时间: 2026.04
机构: Westlake University, Nanjing University
3个英文关键词: Vision-Language-Action (VLA), Implicit Planning, Latent Space Inference

本文提出了一个名为WAV的模型，它让机器人不再“走一步看一步”，而是先在脑海里“想象”未来的多种可能，评估哪个更好，再决定怎么动，从而解决了长程任务中容易失败的问题。

现有的 VLA 模型大多是“条件反射式”的（直接根据当前画面预测动作），缺乏对未来的预判能力。在长程任务中，这种直接预测会导致错误累积，且随着规划步数增加，可行的动作路径在数学上呈指数级减少，导致机器人很难完成复杂任务。

提出WAV (World-Value-Action)框架，包含三个模块：

World Model: 预测未来的视觉变化。
Value Model: 评估未来轨迹的好坏。
Action Model: 基于上述预测生成动作。
通过隐式规划（Implicit Planning），在潜在空间（Latent Space）中迭代优化，筛选出高分值的可行轨迹。

作者认为，机器人要想像人一样处理复杂任务，不能只靠直觉（Reactive Policy），必须具备“想象力”（Planning）。但这种规划不需要像传统算法那样进行显式的搜索，而应该作为一种推理过程内化在模型中。

理论突破：证明了在动作空间直接规划，随着时间变长，找到可行路径的概率会指数级下降；而在潜在空间（Latent Space）规划可以规避这个问题。
架构创新：不同于以往只做视频预测的 World Model，WAV 将“预测（World）”、“评估（Value）”和“行动（Action）”统一在一个端到端的生成式框架中。
推理机制：引入了迭代式的隐式规划，在推理阶段通过多次采样和评估来优化动作，而不是单次前向传播。

想象你要在迷雾森林里找路：

传统 VLA：只看脚下，觉得哪边像路就往哪迈一步，容易走进死胡同。
WAV：先在脑海里生成多条未来的“幻觉”路径（World），给每条路径打分（Value），挑出分最高的那条，然后迈出第一步（Action）。如果第一步走得不顺，就重新“脑补”并调整。

架构设计：
- Video Generation Module: 基于 DiT (Diffusion Transformer)，输入当前画面和指令，预测未来的视频帧。
- Trajectory Value Module: 输入预测的视频特征，预测这条路径的累积奖励（Value）。
- Action Decoding Module: 结合视频特征和价值特征，解码出具体的机器人动作。
训练策略：使用 Flow Matching 技术，分三阶段训练（先训视频，冻结后训价值，最后联合训动作）。
推理过程（Iterative Inference）：
- 在推理时，模型不是只生成一次，而是进行K KK次迭代。
- 每次采样多组潜在变量（Latent Noise），生成多组未来视频和价值。
- 根据价值分数（SNR），保留表现最好的“精英”样本，更新噪声分布的均值和方差，让下一次采样更集中在高分区域。

VLA Models: 如 OpenVLA, RT-2（作为基础感知与动作映射）。
World Models: 如 Dreamer, MuZero（利用模型预测未来）。
Model-Based RL: 如 MPPI (Model Predictive Path Integral control)，借鉴了其通过采样和加权来优化的思想。
Generative Models: 使用了 Diffusion 和 Flow Matching 技术。

仿真环境: LIBERO 基准测试（包含空间、物体、目标、长程四个维度的泛化测试）。
真机实验: 使用 Piper 双臂机器人，执行整理碗、铺毛巾、开关抽屉等长程任务。
对比基线: Diffusion Policy, OpenVLA, GE-ACT 等 SOTA 方法。
结论:
- WAV 在 LIBERO 上平均成功率达到98.1%，显著优于其他方法。
- 在真机长程任务中，成功率从基线的 35.6% 提升至75.6%。
- 消融实验证明，去除“隐式规划”模块，性能会大幅下降，特别是在长程任务中。

GE-ACT (Liao et al., 2025): 本文在真机实验中主要的对比基线，架构相似但缺乏规划能力。
TD-MPC2 (Hansen et al., 2023): 本文理论分析部分的重要参考，关于 Latent Planning 和 Value Learning 的结合。
DreamVLA (Zhang et al., 2025c): 同样是利用 World Model 增强 VLA 的代表性工作，本文在 Related Work 中进行了详细对比。