【论文阅读】ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training
快速了解部分
基础信息(英文):
1.题目: ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training
2.时间: 2025.09
3.机构: University of Washington, UC San Diego, Nvidia, Allen Institute for AI
4.3个关键词: Flow Matching, Consistency Training, Visuomotor Imitation
1句话通俗总结本文干了什么事情
本文提出了一种名为ManiFlow的机器人控制策略,通过结合流匹配和一致性训练,能根据图像、语言等输入快速生成精准的高维动作,解决了灵巧操作中推理慢和泛化差的问题。
研究痛点:现有研究不足 / 要解决的具体问题
现有的Diffusion和Flow Matching策略在复杂灵巧操作中推理步数多(慢)、难以捕捉多指交互的细微差别、且在面对新物体和环境时泛化能力不足。
核心方法:关键技术、模型或研究设计(简要)
提出了ManiFlow,核心是引入连续时间一致性训练目标(Consistency Training)来加速推理并提升动作质量,并设计了DiT-X网络架构来更高效地处理视觉、语言等多模态输入。
深入了解部分
作者想要表达什么
作者旨在证明,通过改进生成模型的训练目标(加入一致性)和网络架构(DiT-X),可以让机器人策略在极少的推理步数下(1-2步)就能完成高精度的灵巧操作,并且能很好地泛化到从未见过的物体和双臂/人形机器人任务中。
相比前人创新在哪里
- 训练目标创新:不同于以往仅用Flow Matching,引入了连续时间的一致性训练(Consistency Training),无需预训练教师模型即可实现少步数推理。
- 架构创新:提出了DiT-X,改进了DiT和MDT架构,通过AdaLN-Zero机制将缩放和平移参数应用到交叉注意力层的输入输出,实现了更细粒度的多模态条件控制。
- 性能突破:在真实世界的双臂和人形机器人上实现了极高的成功率,且推理速度极快。
解决方法/算法的通俗解释
ManiFlow就像是一个“预判力”极强的机器人教练。传统的Diffusion模型像是一步步“去噪”还原动作,很慢;ManiFlow利用“一致性”原理,让模型学会无论从哪个噪声阶段开始,都能直接“跳跃”到正确的动作路径上(一步到位)。同时,它用一个更聪明的“大脑”(DiT-X)来综合分析眼睛(图像)、耳朵(语言)和身体感觉(姿态),从而做出精准的动作。
解决方法的具体做法
- 一致性训练:在训练时,不仅预测当前时刻的速度,还强制要求模型预测的路径在时间上保持一致(即从A点到B点的路径是直的),这使得推理时只需1-2步就能得到准确动作。
- DiT-X架构:
- 使用Transformer架构。
- 对于低维信号(如时间步)使用AdaLN-Zero进行调节。
- 关键改进:将AdaLN-Zero的调节参数应用到交叉注意力层的输入和输出特征上,让模型能更有选择性地筛选视觉和语言信息。
- 3D感知:使用轻量级PointNet编码器,保留点云的几何细节,且不使用最大池化操作以防止信息丢失。
基于前人的哪些方法
- Flow Matching:基于标准的流匹配损失函数作为基础。
- DiT (Diffusion Transformer):DiT-X块的设计灵感来源于图像生成领域的DiT。
- MDT (Multimodal Diffusion Transformer):借鉴了其交叉注意力机制,但进行了改进。
- Consistency Models:借用了无需教师模型的一致性蒸馏思想,但将其扩展到了连续时间域。
实验设置、数据、评估方式、结论
- 实验设置:涵盖64个模拟任务和8个真实机器人任务。
- 数据:
- 模拟:RoboTwin, Adroit, DexArt, MetaWorld(48个语言条件任务)。
- 真实世界:Unitree H1人形机器人、双臂xArm 7、单臂Franka Panda。
- 评估方式:任务成功率(Success Rate),对比了Diffusion Policy、Flow Matching Policy等基线。
- 结论:
- 在模拟中,图像输入提升45.6%,点云输入提升11.0%。
- 在真实世界中,相比SOTA的3D Diffusion Policy(DP3),平均成功率翻倍(37.6% -> 71.0%)。
- 具有极强的泛化能力,能处理未见过的物体和背景干扰。
提到的同类工作
- Diffusion Policy:主要的对比基线,代表了主流的扩散策略方法。
- 3D Diffusion Policy (DP3):在3D点云策略中表现最好的工作,ManiFlow在真实世界实验中主要超越了它。
- MDT:在多模态条件控制方面的工作,ManiFlow的架构与其进行了对比和改进。
和本文相关性最高的3个文献
- C. Chi et al. Diffusion policy: Visuomotor policy learning via action diffusion. IJRR, 2023. (Diffusion Policy原论文)
- Y. Ze et al. 3d diffusion policy. RSS, 2024. (DP3,3D扩散策略SOTA)
- E. Chisari et al. Learning robotic manipulation policies from point clouds with conditional flow matching. CoRL, 2im24. (3D Flow Matching Policy)
我的
- 期望让模型只需要去噪1-2步就能得到结果,所以引入Consistency Training,让模型预测的路径在时间上保持一致。
- DiT-X架构,主要是一个AdaLN-Zero,全称是Adaptive Layer-Norm Zero,实际上就是对张量进行scale和shift,与传统Layer Norm不同的点在于,他不是一视同仁的,而是有选择的。Zero指的是一开始Scale=1, Shift=0,就是不对数据进行处理。
