当前位置：首页 > news >正文

【论文阅读】3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

news 2026/7/18 2:47:44

快速了解部分

基础信息（英文）：

1.题目: 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
2.时间: 2024.03
3.机构: Shanghai Qi Zhi Institute, Shanghai Jiao Tong University, Tsinghua University, Shanghai AI Lab
4.3个英文关键词: Imitation Learning, Diffusion Policy, 3D Representation

1句话通俗总结本文干了什么事情

本文提出了一种名为3D Diffusion Policy (DP3) 的算法，通过使用简单的3D点云表示来增强机器人的模仿学习能力，使其仅需少量演示就能学会复杂技能，并具备强大的泛化能力。

研究痛点：现有研究不足 / 要解决的具体问题

现有的视觉模仿学习（Visual Imitation Learning）主要依赖2D图像，虽然降低了状态估计的难度，但为了学习鲁棒且通用的技能，通常需要海量的人类演示数据（例如Diffusion Policy需要100-200条）。收集如此大量的真实世界数据极其耗时且昂贵。此外，2D方法在空间、视角和外观上的泛化能力有限，且在实际部署中容易出现不安全的异常行为。

核心方法：关键技术、模型或设计（简要）

核心方法是将稀疏点云（Sparse Point Clouds）作为3D视觉表示，并通过一个极其轻量的MLP编码器（DP3 Encoder）将其转化为紧凑的特征向量，再输入到Diffusion Policy的动作生成模型中进行训练。

深入了解部分

作者想要表达什么

作者旨在证明，将简单的3D表示（点云）与Diffusion Policy结合，可以极大地提升机器人模仿学习的效率和泛化性。作者想表达的观点是：相比于复杂的2D图像处理或繁琐的3D体素/NeRF方法，直接利用从单目相机深度图转化来的点云，配合轻量级编码器，是实现少样本（Few-shot）、高泛化、安全部署的机器人技能学习的关键。

相比前人创新在哪里

3D与Diffusion的结合：首次将3D条件（点云）引入Diffusion Policies框架，区别于之前主要基于2D图像或状态的方法。
极简且高效的架构：使用稀疏点云和简单的MLP编码器（仅3层），而非复杂的Transformer或预训练的大模型。实验证明这种“简单”的设计比复杂的PointNet++、PointNeXt等效果更好且更快。
强大的泛化能力：仅需极少量的演示（仿真中10条，真实世界中40条）就能让机器人学会复杂技能，并能很好地泛化到未见过的空间位置、物体外观、物体实例甚至轻微变化的相机视角。

解决方法/算法的通俗解释

DP3的工作原理可以理解为：机器人先通过“眼睛”（摄像头）获取环境的深度信息，并将其转化为空间中的“点”（点云）。然后，机器人用一个高效的“大脑模块”（MLP编码器）快速理解这些点构成的3D场景。最后，利用一个“动作生成器”（Diffusion Model），根据这个3D场景理解和当前机器人的姿态，一步步去噪并预测出接下来的一系列动作。它不是直接预测动作，而是通过消除噪声来“生成”合理的动作序列。

解决方法的具体做法

感知（Perception）：使用单目相机获取84x84分辨率的深度图，利用相机内参外参将其反投影为3D点云。
点云处理：去除地面和冗余点，使用最远点采样（FPS）保留512或1024个关键点。
编码（Encoding）：使用一个包含3层Linear和LayerNorm的轻量MLP网络（DP3 Encoder）将点云编码为64维的紧凑特征向量。
决策（Decision）：将视觉特征向量与机器人姿态（Joint Pose）拼接，输入到基于CNN的Diffusion Policy模型中。模型在训练时学习预测噪声，在推理时通过反向扩散过程生成动作序列（预测未来4步动作，执行最后3步）。

基于前人的哪些方法

Diffusion Policy：本文的基础模型架构，沿用了其基于CNN的去噪网络和动作生成逻辑。
PointNet系列：虽然本文提出了更简单的MLP编码器，但其点云处理流程（如FPS采样）和部分对比实验是基于PointNet、PointNet++等经典点云处理方法的。
Visual Imitation Learning：继承了通过模仿学习让机器人获取技能的研究范式。

实验设置、数据、评估方式、结论

实验设置：包含72个仿真任务（涵盖Adroit机械手、双臂、铰接物体等）和4个真实机器人任务（包括捏橡皮泥、钻孔等）。
数据：仿真任务中每条任务仅使用10条演示；真实任务中每条任务仅使用40条演示。
评估方式：仿真中采用成功率（Success Rate）；真实世界中评估成功率及安全性（是否出现危险动作）。
结论：DP3在仿真中比2D Diffusion Policy相对提升了24.2%；在真实世界中实现了85%的平均成功率。相比2D方法，DP3在空间、视角、外观和实例上均有极强的泛化能力，且极少出现违反安全限制的异常动作。

提到的同类工作

Diffusion Policy：主要的对比基线，基于2D图像的扩散策略。
PerAct：基于3D的多模态动作记忆Transformer模型。
IBC：基于对比学习的模仿学习方法。

和本文相关性最高的3个文献

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion(Cheng Chi et al., RSS 2023) <2023_RSS>
Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation(Mohit Shridhar et al., CoRL 2023) <2023_CoRL>
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation(Charles R Qi et al., CVPR 2017) <2017_CVPR>