World Action Model的本质:视频动作统一建模
思考现有的World Action Model的本质:
- 上图的attention中:Query 从 Key/Value 读取信息。信息流方向:Key/Value → Query
- attention四宫格中,video->video的attention block也就是视频生成,是目前学得最好的,具身的终极目标是学好action->action也就是action的建模。剩余两条路线就是world models和inverse dynamics models。
- 核心问题是如何让视频生成的先验“流”到action上。
- 此前大家VLA直接去做action的建模,想直接完成目标,也就是右下角attention block。但action数据严重不足,缺乏world knowledge、物理先验。
- 现在视频生成模型成熟以后(特别是2026是个拐点),action终于能从视频生成的重要先验中极大受益。
- callback到之前Motus提到的点,这种四宫格的视角,最本质的点在于能吸收所有各类多模态异构数据:
- 纯视频:视频生成
- 纯dynamics无任务: World Models, IDM
- 含action的任务轨迹数据:Policy
- video那里可以扩展成observation,未来包括力反馈、触觉、音频等所有环境反馈(POMDP对世界的统一建模),真就变成世界模型
- 关于先验如何从video流向action,梳理出几条路线:
- Video Generation->IDM(->Policy)(左下路线,Video Generation+IDM), 可以显式可以隐式。类似于google 23年的UniPi
