【论文阅读】3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
快速了解部分
基础信息(英文):
1.题目: 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
2.时间: 2024.03
3.机构: Shanghai Qi Zhi Institute, Shanghai Jiao Tong University, Tsinghua University, Shanghai AI Lab
4.3个英文关键词: Imitation Learning, Diffusion Policy, 3D Representation
1句话通俗总结本文干了什么事情
本文提出了一种名为3D Diffusion Policy (DP3) 的算法,通过使用简单的3D点云表示来增强机器人的模仿学习能力,使其仅需少量演示就能学会复杂技能,并具备强大的泛化能力。
研究痛点:现有研究不足 / 要解决的具体问题
现有的视觉模仿学习(Visual Imitation Learning)主要依赖2D图像,虽然降低了状态估计的难度,但为了学习鲁棒且通用的技能,通常需要海量的人类演示数据(例如Diffusion Policy需要100-200条)。收集如此大量的真实世界数据极其耗时且昂贵。此外,2D方法在空间、视角和外观上的泛化能力有限,且在实际部署中容易出现不安全的异常行为。
核心方法:关键技术、模型或设计(简要)
核心方法是将稀疏点云(Sparse Point Clouds)作为3D视觉表示,并通过一个极其轻量的MLP编码器(DP3 Encoder)将其转化为紧凑的特征向量,再输入到Diffusion Policy的动作生成模型中进行训练。
深入了解部分
作者想要表达什么
作者旨在证明,将简单的3D表示(点云)与Diffusion Policy结合,可以极大地提升机器人模仿学习的效率和泛化性。作者想表达的观点是:相比于复杂的2D图像处理或繁琐的3D体素/NeRF方法,直接利用从单目相机深度图转化来的点云,配合轻量级编码器,是实现少样本(Few-shot)、高泛化、安全部署的机器人技能学习的关键。
相比前人创新在哪里
- 3D与Diffusion的结合:首次将3D条件(点云)引入Diffusion Policies框架,区别于之前主要基于2D图像或状态的方法。
- 极简且高效的架构:使用稀疏点云和简单的MLP编码器(仅3层),而非复杂的Transformer或预训练的大模型。实验证明这种“简单”的设计比复杂的PointNet++、PointNeXt等效果更好且更快。
- 强大的泛化能力:仅需极少量的演示(仿真中10条,真实世界中40条)就能让机器人学会复杂技能,并能很好地泛化到未见过的空间位置、物体外观、物体实例甚至轻微变化的相机视角。
解决方法/算法的通俗解释
DP3的工作原理可以理解为:机器人先通过“眼睛”(摄像头)获取环境的深度信息,并将其转化为空间中的“点”(点云)。然后,机器人用一个高效的“大脑模块”(MLP编码器)快速理解这些点构成的3D场景。最后,利用一个“动作生成器”(Diffusion Model),根据这个3D场景理解和当前机器人的姿态,一步步去噪并预测出接下来的一系列动作。它不是直接预测动作,而是通过消除噪声来“生成”合理的动作序列。
解决方法的具体做法
- 感知(Perception):使用单目相机获取84x84分辨率的深度图,利用相机内参外参将其反投影为3D点云。
- 点云处理:去除地面和冗余点,使用最远点采样(FPS)保留512或1024个关键点。
- 编码(Encoding):使用一个包含3层Linear和LayerNorm的轻量MLP网络(DP3 Encoder)将点云编码为64维的紧凑特征向量。
- 决策(Decision):将视觉特征向量与机器人姿态(Joint Pose)拼接,输入到基于CNN的Diffusion Policy模型中。模型在训练时学习预测噪声,在推理时通过反向扩散过程生成动作序列(预测未来4步动作,执行最后3步)。
基于前人的哪些方法
- Diffusion Policy:本文的基础模型架构,沿用了其基于CNN的去噪网络和动作生成逻辑。
- PointNet系列:虽然本文提出了更简单的MLP编码器,但其点云处理流程(如FPS采样)和部分对比实验是基于PointNet、PointNet++等经典点云处理方法的。
- Visual Imitation Learning:继承了通过模仿学习让机器人获取技能的研究范式。
实验设置、数据、评估方式、结论
- 实验设置:包含72个仿真任务(涵盖Adroit机械手、双臂、铰接物体等)和4个真实机器人任务(包括捏橡皮泥、钻孔等)。
- 数据:仿真任务中每条任务仅使用10条演示;真实任务中每条任务仅使用40条演示。
- 评估方式:仿真中采用成功率(Success Rate);真实世界中评估成功率及安全性(是否出现危险动作)。
- 结论:DP3在仿真中比2D Diffusion Policy相对提升了24.2%;在真实世界中实现了85%的平均成功率。相比2D方法,DP3在空间、视角、外观和实例上均有极强的泛化能力,且极少出现违反安全限制的异常动作。
提到的同类工作
- Diffusion Policy:主要的对比基线,基于2D图像的扩散策略。
- PerAct:基于3D的多模态动作记忆Transformer模型。
- IBC:基于对比学习的模仿学习方法。
和本文相关性最高的3个文献
- Diffusion Policy: Visuomotor Policy Learning via Action Diffusion(Cheng Chi et al., RSS 2023) <2023_RSS>
- Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation(Mohit Shridhar et al., CoRL 2023) <2023_CoRL>
- PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation(Charles R Qi et al., CVPR 2017) <2017_CVPR>
我的
- 引入3D信息的Diffusion Policy。方法是深度图转化为点云,再采样,再编码。
- 速度上,反而比2D的DP要快,因为他深度图分辨率小,而且编码器也就是用个轻量的MLP
