从VLA到WAM.具身世界模型简单梳理
2026年具身智能的核心不是场景落地快慢,而是底层模型的代际更替。VLA走到尽头,世界模型+动作联合建模(WAM)成为必然解,这不是趋势,是原理决定的必然。
一、VLA的原理与原生缺陷
VLA(视觉-语言-动作)核心逻辑:
图像→语义解析→LLM推理→动作映射
原生缺陷:
- 无物理常识:只懂语义,不懂重力、碰撞、运动轨迹,长尾场景必崩
- 泛化能力弱:学的是“画面-动作”配对,换背景、换物体就失效
- 黑盒不可控:动作来自LLM概率输出,无法预判风险
- 数据成本高:需海量标注样本,规模化落地无经济性
VLA的瓶颈是原理级缺陷,不是优化能解决的,这是行业共识。
二、WAM的原理:从模仿到推演
WAM(World-Action Model)核心逻辑:
图像→世界建模→未来推演→动作生成→执行
本质是物理级理解:AI先构建虚拟物理世界,预演动作后果,再输出最优解。
技术实现(联合建模): - 世界模型:学习环境动力学,预测未来1-3秒状态
- 动作模型:从未来状态反推可执行动作
- 联合训练:世界与动作共享参数、互相约束,保证物理一致性
一句话:VLA是“照猫画虎”,WAM是“先思考再行动”。
三、代表性论文+公司+技术路线 - DreamZero(英伟达NVIDIA,2026)
- 路线:扩散联合生成(视频+动作同步去噪)
- 核心:140亿参数,零样本泛化最强,物理一致性极高
- 投资关键词:高保真、零样本、巨头技术底座
- WorldVLA(阿里达摩院,2025)
- 路线:自回归统一Token
- 核心:VLA与世界模型大一统,双向增强泛化
- 投资关键词:多模态融合、端侧适配
- GAIA-1(谷歌DeepMind,2026)
