当前位置: 首页 > news >正文

【论文阅读】ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training

快速了解部分

基础信息(英文):

1.题目: ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training
2.时间: 2025.09
3.机构: University of Washington, UC San Diego, Nvidia, Allen Institute for AI
4.3个关键词: Flow Matching, Consistency Training, Visuomotor Imitation

1句话通俗总结本文干了什么事情

本文提出了一种名为ManiFlow的机器人控制策略,通过结合流匹配和一致性训练,能根据图像、语言等输入快速生成精准的高维动作,解决了灵巧操作中推理慢和泛化差的问题。

研究痛点:现有研究不足 / 要解决的具体问题

现有的Diffusion和Flow Matching策略在复杂灵巧操作中推理步数多(慢)、难以捕捉多指交互的细微差别、且在面对新物体和环境时泛化能力不足。

核心方法:关键技术、模型或研究设计(简要)

提出了ManiFlow,核心是引入连续时间一致性训练目标(Consistency Training)来加速推理并提升动作质量,并设计了DiT-X网络架构来更高效地处理视觉、语言等多模态输入。

深入了解部分

作者想要表达什么

作者旨在证明,通过改进生成模型的训练目标(加入一致性)和网络架构(DiT-X),可以让机器人策略在极少的推理步数下(1-2步)就能完成高精度的灵巧操作,并且能很好地泛化到从未见过的物体和双臂/人形机器人任务中。

相比前人创新在哪里

  1. 训练目标创新:不同于以往仅用Flow Matching,引入了连续时间的一致性训练(Consistency Training),无需预训练教师模型即可实现少步数推理。
  2. 架构创新:提出了DiT-X,改进了DiT和MDT架构,通过AdaLN-Zero机制将缩放和平移参数应用到交叉注意力层的输入输出,实现了更细粒度的多模态条件控制。
  3. 性能突破:在真实世界的双臂和人形机器人上实现了极高的成功率,且推理速度极快。

解决方法/算法的通俗解释

ManiFlow就像是一个“预判力”极强的机器人教练。传统的Diffusion模型像是一步步“去噪”还原动作,很慢;ManiFlow利用“一致性”原理,让模型学会无论从哪个噪声阶段开始,都能直接“跳跃”到正确的动作路径上(一步到位)。同时,它用一个更聪明的“大脑”(DiT-X)来综合分析眼睛(图像)、耳朵(语言)和身体感觉(姿态),从而做出精准的动作。

解决方法的具体做法

  1. 一致性训练:在训练时,不仅预测当前时刻的速度,还强制要求模型预测的路径在时间上保持一致(即从A点到B点的路径是直的),这使得推理时只需1-2步就能得到准确动作。
  2. DiT-X架构
    • 使用Transformer架构。
    • 对于低维信号(如时间步)使用AdaLN-Zero进行调节。
    • 关键改进:将AdaLN-Zero的调节参数应用到交叉注意力层的输入和输出特征上,让模型能更有选择性地筛选视觉和语言信息。
  3. 3D感知:使用轻量级PointNet编码器,保留点云的几何细节,且不使用最大池化操作以防止信息丢失。

基于前人的哪些方法

  1. Flow Matching:基于标准的流匹配损失函数作为基础。
  2. DiT (Diffusion Transformer):DiT-X块的设计灵感来源于图像生成领域的DiT。
  3. MDT (Multimodal Diffusion Transformer):借鉴了其交叉注意力机制,但进行了改进。
  4. Consistency Models:借用了无需教师模型的一致性蒸馏思想,但将其扩展到了连续时间域。

实验设置、数据、评估方式、结论

  1. 实验设置:涵盖64个模拟任务和8个真实机器人任务。
  2. 数据
    • 模拟:RoboTwin, Adroit, DexArt, MetaWorld(48个语言条件任务)。
    • 真实世界:Unitree H1人形机器人、双臂xArm 7、单臂Franka Panda。
  3. 评估方式:任务成功率(Success Rate),对比了Diffusion Policy、Flow Matching Policy等基线。
  4. 结论
    • 在模拟中,图像输入提升45.6%,点云输入提升11.0%。
    • 在真实世界中,相比SOTA的3D Diffusion Policy(DP3),平均成功率翻倍(37.6% -> 71.0%)。
    • 具有极强的泛化能力,能处理未见过的物体和背景干扰。

提到的同类工作

  1. Diffusion Policy:主要的对比基线,代表了主流的扩散策略方法。
  2. 3D Diffusion Policy (DP3):在3D点云策略中表现最好的工作,ManiFlow在真实世界实验中主要超越了它。
  3. MDT:在多模态条件控制方面的工作,ManiFlow的架构与其进行了对比和改进。

和本文相关性最高的3个文献

  1. C. Chi et al. Diffusion policy: Visuomotor policy learning via action diffusion. IJRR, 2023. (Diffusion Policy原论文)
  2. Y. Ze et al. 3d diffusion policy. RSS, 2024. (DP3,3D扩散策略SOTA)
  3. E. Chisari et al. Learning robotic manipulation policies from point clouds with conditional flow matching. CoRL, 2im24. (3D Flow Matching Policy)

我的

  1. 期望让模型只需要去噪1-2步就能得到结果,所以引入Consistency Training,让模型预测的路径在时间上保持一致。
  2. DiT-X架构,主要是一个AdaLN-Zero,全称是Adaptive Layer-Norm Zero,实际上就是对张量进行scale和shift,与传统Layer Norm不同的点在于,他不是一视同仁的,而是有选择的。Zero指的是一开始Scale=1, Shift=0,就是不对数据进行处理。
http://www.jsqmd.com/news/867310/

相关文章:

  • 2026年5月最新牡丹江西安黄金回收白银回收铂金回收权威排行榜TOP5:纯金+金条+银条+钯金 门店地址联系方式推荐 - 诚信金利回收
  • 9大网盘直链解析:免费高效的完整下载解决方案
  • 3分钟快速上手:Windows上Hadoop开发环境的终极解决方案指南
  • 实测:JD匹配度从50%到90%,面试邀约直接翻倍,我才发现简历写错了10年!
  • 别再盯着大厂了,这3类“隐形冠军”公司才是技术人的归宿
  • Anthropic CEO最新专访:Claude新功能几乎完全由AI自主开发,软件将步入免费时代
  • 【成都信息工程大学、澳门城市大学、四川工商学院和新加坡城市科学出版社《国际化教育科学与理论》期刊联合主办| 最快刊后1个月内上知网谷歌】第十届教育管理与社会科学国际学术会议(ISEMSS 2026)
  • 2026年5月最新葫芦岛南票黄金回收白银回收铂金回收权威排行榜TOP5:纯金+金条+银条+钯金 门店地址联系方式推荐 - 五金回收
  • 神作《盲视》,最硬核的反人类科幻,二十年前预言了AI的冰冷本质
  • 实力入选丨全知科技荣登嘶吼2026网络安全产业图谱
  • 软件测试职业天花板真相:不是岗位不行,是你没找对方向
  • 10分钟快速搭建微信小程序商城:海风小店完整开源方案指南
  • 网盘直链解析工具:多平台文件下载的实用解决方案
  • 打卡信奥刷题(3293)用C++实现信奥题 P9002 [RC-07] 心跳
  • Reset Windows Update Tool:彻底解决Windows更新卡顿与失败的终极修复指南
  • 我见过最聪明的技术人,都在偷偷培养这3种“非技术能力”
  • 2026年5月最新葫芦岛绥中黄金回收白银回收铂金回收权威排行榜TOP5:纯金+金条+银条+钯金 门店地址联系方式推荐 - 五金回收
  • 6G通信中STAR-RIS与RSMA的鲁棒波束成形设计
  • CANN HCCL-COMM 通信拓扑感知:16卡训练时为什么 rank3 总是最慢的那张
  • 三步解锁全网盘极速下载:免登录直链解析完整教程
  • 2026年5月最新葫芦岛兴城黄金回收白银回收铂金回收权威排行榜TOP5:纯金+金条+银条+钯金 门店地址联系方式推荐 - 五金回收
  • 网络安全课程笔记-5-Linux-下
  • 2026年5月最新保定徐水黄金回收白银回收铂金回收权威排行榜TOP5:纯金+金条+银条+钯金 门店地址联系方式推荐 - 金诚回收
  • Agent Loop 源码导读:一次 Hermes 任务的完整生命周期
  • 2026年5月最新杭州临安黄金回收白银回收铂金回收权威排行榜TOP5:纯金+金条+银条+钯金 门店地址联系方式推荐 - 五金回收
  • 跨越天际:从智能汽车到 eVTOL 的适航与系统级开发1——什么是适航
  • 2026年5月最新杭州上城黄金回收白银回收铂金回收权威排行榜TOP5:纯金+金条+银条+钯金 门店地址联系方式推荐 - 五金回收
  • Flink 2.2集成Flink CDC 3.6
  • 2026年5月最新保定易县黄金回收白银回收铂金回收权威排行榜TOP5:纯金+金条+银条+钯金 门店地址联系方式推荐 - 金诚回收
  • 如何3分钟让通达信自动画缠论中枢:告别手动画线的终极解决方案