当前位置: 首页 > news >正文

WAM-202512:Motus架构分析【MoT、UniDiffuser 风格的调度器支持在多种建模模式之间灵活、利用光流(Optical Flow) 学习潜在动作(Latent Actions)】

Motus 模型架构详细分析

基于论文 Motus: A Unified Latent Action World Model 与项目源码的综合分析


目录

  • Motus 模型架构详细分析
    • 目录
    • 1. 总体概述
    • 2. 整体架构总览
    • 3. 三大专家模块详解
      • 3.1 视频生成专家 (Video Generation Expert / VGM)
      • 3.2 理解专家 (Understanding Expert)
      • 3.3 动作专家 (Action Expert)
    • 4. Mixture-of-Transformers (MoT) 三模态联合注意力
      • 每层计算流程
      • 技术实现细节
    • 5. 训练与推理机制
      • 5.1 Flow Matching 训练
      • 5.2 ODE 推理去噪
    • 6. 数据金字塔与三阶段训练流水线
      • 六层数据金字塔
      • 三阶段训练流水线
    • 7. 五种建模模式切换
    • 8. 关键设计细节与创新点
      • 8.1 架构层面
      • 8.2 训练层面
      • 8.3 数据层面
      • 8.4 推理层面
    • 9. 参数统计
    • 总结
    • 附录 A: WAN 自注意力 MoT 修改详解
      • A.1 原生 WAN 自注意力
      • A.2 MoT 修改后的自注意力
    • 附录 B: 项目代码结构
    • 附录 C: 完整数据流示例 (训练步)
    • 附录 D: 关键超参数汇总

1. 总体概述

Motus 是一个统一的潜在动作世界模型(Unified Latent Action World Model),由清华大学机器学习研究组(thu-ml)提出。其核心理念是:通用具身智能体应当作为一个统一系统运行,而非由理解、世界建模和控制等孤立模型拼凑而成。Motus 通过以下关键创新解决了当前方法的碎片化问题:

  • Mixture-of-Transformers (MoT)架构,将三个专家模块整合到统一的自注意力框架中
  • UniDiffuser 风格的调度器,支持在多种建模模式之间灵活切换
  • 利用光流(Optical Flow)学习潜在动作(Latent Actions),提取像素级 “delta action”
  • 三阶段训练流水线+六层数据金字塔,实现大规模动作预训练

实验结果表明,Motus 在仿真环境中比 X-VLA 提升 15%,比 π₀.₅ 提升 45%,在真实场景中提升 11%~48%。


2. 整体架构总览

Motus 由三个核心专家模块组成,通过30 层统一的 MoT 联合自注意力层进行深度融合:

输出层

输出头

MoT 三模态联合层 ×30

编码器层

输入层

[B, 48, T', H', W']

首帧图像
First Frame
[B, C, H, W]

目标视频帧
Video Frames
[B, T, C, H, W]

机器人状态
State
[B, 14]

动作序列
Actions
[B, T×4, 14]

语言指令
Language

VLM图像
VLM Images

WAN VAE
(Wan2.2-VAE)

Patch Embedding
48 → 3072D

状态编码器
StateEncoder

动作编码器
ActionEncoder

T5 文本嵌入
(预编码)

Qwen3-VL 嵌入
(冻结)

三模态联合自注意力
WAN Self-Attn
Video + Action + Understanding

WAN 交叉注意力
Video ← T5 Text

Video FFN
(AdaLN调制)

Action FFN
(AdaLN调制)

Understanding FFN
(LayerNorm)

Video Head
+ Unpatchify

Action Decoder
(含Register令牌)

预测视频帧
Predicted Frames
[B, T, C, H, W]

预测动作
Predicted Actions
[B, T×4, 14]

Action Tokens
[B, seq, 1024D]

Understanding Tokens
[B, seq, 512D]

下一层


3. 三大专家模块详解

3.1 视频生成专家 (Video Generation Expert / VGM)

基础模型: Wan2.2-TI2V-5B(约 50 亿参数)

核心组件:

http://www.jsqmd.com/news/749748/

相关文章:

  • AI提示词与模型仓库:系统化提升人机对话效率的开源实践
  • 【Java 25 ZGC 2.0生产调优黄金清单】:23个必配参数+7大避坑指南,上线前不看=埋雷
  • 5分钟掌握网易云音乐NCM文件解密:ncmdumpGUI完整使用指南
  • 【MySql】安装与使用实战(MySQL Community Server 9.7.0 LTS)
  • 选电容别再只看容量了!工程师必懂的5个关键参数:从ESR、自谐振频率到直流偏压特性
  • 从随机数到命运裁决:构建可编程随机事件引擎的实践指南
  • NVIDIA Nemotron Nano V2 VL:轻量级视觉语言模型边缘计算实践
  • Skill Forge v2:基于自主实验循环的AI技能与代码自动化优化引擎
  • 3步搞定NCM加密音乐格式转换:释放你的音乐收藏自由
  • 深度学习权重衰减优化与AdamW迁移实践
  • 别再被C++ Build Tools卡住了!Python包安装报错的3种轻量级解决方案(附实测对比)
  • 怎样快速解密微信聊天记录:面向普通用户的完整教程
  • 如何在3分钟内为PotPlayer添加智能字幕翻译:让外语视频轻松看懂
  • STM32与NRF24L01无线通信避坑指南:从SPI配置到稳定收发(附工程源码)
  • 从无人机扫描到3D打印:用CloudCompare完成点云缩放与变换的完整实战流程
  • 终极免费GTA5线上助手:提升游戏体验的完整解决方案
  • 终极指南:如何使用Universal x86 Tuning Utility解锁硬件性能潜力
  • 从神圣到世俗:互联网技术民主化与Web开发演进全解析
  • 如何通过三步配置实现Windows系统权限管理工具的终极控制?
  • 解锁动物森友会无限可能:NHSE存档编辑工具完全指南
  • 免费词典API架构深度解析:多语言词典查询服务的5大核心技术实现
  • 3步解锁PS手柄在Windows的完整潜力:从零到精通的游戏控制器革命
  • 基础模型可靠性保障:技术实现与工程实践
  • AI 到底是如何夺走工作的
  • AI助力科研绘图:PaperBanana自动化图表生成技术解析
  • 基于WebSocket与CDP协议实现本地IDE与云端浏览器自动化交互
  • 如何高效备份微信聊天记录:WeChatMsg完整导出指南
  • OmniRetarget技术:机器人运动控制与场景交互的革命
  • 如何快速构建多语言词典应用:免费Dictionary API完全指南
  • Windows驱动存储管理终极指南:DriverStore Explorer深度解析与实战应用