当前位置：首页 > news >正文

【论文阅读】ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training

news 2026/7/10 2:06:06

快速了解部分

基础信息（英文）：

1.题目: ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training
2.时间: 2025.09
3.机构: University of Washington, UC San Diego, Nvidia, Allen Institute for AI
4.3个关键词: Flow Matching, Consistency Training, Visuomotor Imitation

1句话通俗总结本文干了什么事情

本文提出了一种名为ManiFlow的机器人控制策略，通过结合流匹配和一致性训练，能根据图像、语言等输入快速生成精准的高维动作，解决了灵巧操作中推理慢和泛化差的问题。

研究痛点：现有研究不足 / 要解决的具体问题

现有的Diffusion和Flow Matching策略在复杂灵巧操作中推理步数多（慢）、难以捕捉多指交互的细微差别、且在面对新物体和环境时泛化能力不足。

核心方法：关键技术、模型或研究设计（简要）

提出了ManiFlow，核心是引入连续时间一致性训练目标（Consistency Training）来加速推理并提升动作质量，并设计了DiT-X网络架构来更高效地处理视觉、语言等多模态输入。

深入了解部分

作者想要表达什么

作者旨在证明，通过改进生成模型的训练目标（加入一致性）和网络架构（DiT-X），可以让机器人策略在极少的推理步数下（1-2步）就能完成高精度的灵巧操作，并且能很好地泛化到从未见过的物体和双臂/人形机器人任务中。

相比前人创新在哪里

训练目标创新：不同于以往仅用Flow Matching，引入了连续时间的一致性训练（Consistency Training），无需预训练教师模型即可实现少步数推理。
架构创新：提出了DiT-X，改进了DiT和MDT架构，通过AdaLN-Zero机制将缩放和平移参数应用到交叉注意力层的输入输出，实现了更细粒度的多模态条件控制。
性能突破：在真实世界的双臂和人形机器人上实现了极高的成功率，且推理速度极快。

解决方法/算法的通俗解释

ManiFlow就像是一个“预判力”极强的机器人教练。传统的Diffusion模型像是一步步“去噪”还原动作，很慢；ManiFlow利用“一致性”原理，让模型学会无论从哪个噪声阶段开始，都能直接“跳跃”到正确的动作路径上（一步到位）。同时，它用一个更聪明的“大脑”（DiT-X）来综合分析眼睛（图像）、耳朵（语言）和身体感觉（姿态），从而做出精准的动作。

解决方法的具体做法

一致性训练：在训练时，不仅预测当前时刻的速度，还强制要求模型预测的路径在时间上保持一致（即从A点到B点的路径是直的），这使得推理时只需1-2步就能得到准确动作。
DiT-X架构：
- 使用Transformer架构。
- 对于低维信号（如时间步）使用AdaLN-Zero进行调节。
- 关键改进：将AdaLN-Zero的调节参数应用到交叉注意力层的输入和输出特征上，让模型能更有选择性地筛选视觉和语言信息。
3D感知：使用轻量级PointNet编码器，保留点云的几何细节，且不使用最大池化操作以防止信息丢失。

基于前人的哪些方法

Flow Matching：基于标准的流匹配损失函数作为基础。
DiT (Diffusion Transformer)：DiT-X块的设计灵感来源于图像生成领域的DiT。
MDT (Multimodal Diffusion Transformer)：借鉴了其交叉注意力机制，但进行了改进。
Consistency Models：借用了无需教师模型的一致性蒸馏思想，但将其扩展到了连续时间域。

实验设置、数据、评估方式、结论

实验设置：涵盖64个模拟任务和8个真实机器人任务。
数据：
- 模拟：RoboTwin, Adroit, DexArt, MetaWorld（48个语言条件任务）。
- 真实世界：Unitree H1人形机器人、双臂xArm 7、单臂Franka Panda。
评估方式：任务成功率（Success Rate），对比了Diffusion Policy、Flow Matching Policy等基线。
结论：
- 在模拟中，图像输入提升45.6%，点云输入提升11.0%。
- 在真实世界中，相比SOTA的3D Diffusion Policy（DP3），平均成功率翻倍（37.6% -> 71.0%）。
- 具有极强的泛化能力，能处理未见过的物体和背景干扰。

提到的同类工作

Diffusion Policy：主要的对比基线，代表了主流的扩散策略方法。
3D Diffusion Policy (DP3)：在3D点云策略中表现最好的工作，ManiFlow在真实世界实验中主要超越了它。
MDT：在多模态条件控制方面的工作，ManiFlow的架构与其进行了对比和改进。

和本文相关性最高的3个文献

C. Chi et al. Diffusion policy: Visuomotor policy learning via action diffusion. IJRR, 2023. (Diffusion Policy原论文)
Y. Ze et al. 3d diffusion policy. RSS, 2024. (DP3，3D扩散策略SOTA)
E. Chisari et al. Learning robotic manipulation policies from point clouds with conditional flow matching. CoRL, 2im24. (3D Flow Matching Policy)

我的

期望让模型只需要去噪1-2步就能得到结果，所以引入Consistency Training，让模型预测的路径在时间上保持一致。
DiT-X架构，主要是一个AdaLN-Zero，全称是Adaptive Layer-Norm Zero，实际上就是对张量进行scale和shift，与传统Layer Norm不同的点在于，他不是一视同仁的，而是有选择的。Zero指的是一开始Scale=1, Shift=0，就是不对数据进行处理。

查看全文

http://www.jsqmd.com/news/867310/