当前位置: 首页 > news >正文

【论文阅读】3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

快速了解部分

基础信息(英文):

1.题目: 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
2.时间: 2024.03
3.机构: Shanghai Qi Zhi Institute, Shanghai Jiao Tong University, Tsinghua University, Shanghai AI Lab
4.3个英文关键词: Imitation Learning, Diffusion Policy, 3D Representation

1句话通俗总结本文干了什么事情

本文提出了一种名为3D Diffusion Policy (DP3) 的算法,通过使用简单的3D点云表示来增强机器人的模仿学习能力,使其仅需少量演示就能学会复杂技能,并具备强大的泛化能力。

研究痛点:现有研究不足 / 要解决的具体问题

现有的视觉模仿学习(Visual Imitation Learning)主要依赖2D图像,虽然降低了状态估计的难度,但为了学习鲁棒且通用的技能,通常需要海量的人类演示数据(例如Diffusion Policy需要100-200条)。收集如此大量的真实世界数据极其耗时且昂贵。此外,2D方法在空间、视角和外观上的泛化能力有限,且在实际部署中容易出现不安全的异常行为。

核心方法:关键技术、模型或设计(简要)

核心方法是将稀疏点云(Sparse Point Clouds)作为3D视觉表示,并通过一个极其轻量的MLP编码器(DP3 Encoder)将其转化为紧凑的特征向量,再输入到Diffusion Policy的动作生成模型中进行训练。

深入了解部分

作者想要表达什么

作者旨在证明,将简单的3D表示(点云)与Diffusion Policy结合,可以极大地提升机器人模仿学习的效率和泛化性。作者想表达的观点是:相比于复杂的2D图像处理或繁琐的3D体素/NeRF方法,直接利用从单目相机深度图转化来的点云,配合轻量级编码器,是实现少样本(Few-shot)、高泛化、安全部署的机器人技能学习的关键。

相比前人创新在哪里

  1. 3D与Diffusion的结合:首次将3D条件(点云)引入Diffusion Policies框架,区别于之前主要基于2D图像或状态的方法。
  2. 极简且高效的架构:使用稀疏点云和简单的MLP编码器(仅3层),而非复杂的Transformer或预训练的大模型。实验证明这种“简单”的设计比复杂的PointNet++、PointNeXt等效果更好且更快。
  3. 强大的泛化能力:仅需极少量的演示(仿真中10条,真实世界中40条)就能让机器人学会复杂技能,并能很好地泛化到未见过的空间位置、物体外观、物体实例甚至轻微变化的相机视角。

解决方法/算法的通俗解释

DP3的工作原理可以理解为:机器人先通过“眼睛”(摄像头)获取环境的深度信息,并将其转化为空间中的“点”(点云)。然后,机器人用一个高效的“大脑模块”(MLP编码器)快速理解这些点构成的3D场景。最后,利用一个“动作生成器”(Diffusion Model),根据这个3D场景理解和当前机器人的姿态,一步步去噪并预测出接下来的一系列动作。它不是直接预测动作,而是通过消除噪声来“生成”合理的动作序列。

解决方法的具体做法

  1. 感知(Perception):使用单目相机获取84x84分辨率的深度图,利用相机内参外参将其反投影为3D点云。
  2. 点云处理:去除地面和冗余点,使用最远点采样(FPS)保留512或1024个关键点。
  3. 编码(Encoding):使用一个包含3层Linear和LayerNorm的轻量MLP网络(DP3 Encoder)将点云编码为64维的紧凑特征向量。
  4. 决策(Decision):将视觉特征向量与机器人姿态(Joint Pose)拼接,输入到基于CNN的Diffusion Policy模型中。模型在训练时学习预测噪声,在推理时通过反向扩散过程生成动作序列(预测未来4步动作,执行最后3步)。

基于前人的哪些方法

  1. Diffusion Policy:本文的基础模型架构,沿用了其基于CNN的去噪网络和动作生成逻辑。
  2. PointNet系列:虽然本文提出了更简单的MLP编码器,但其点云处理流程(如FPS采样)和部分对比实验是基于PointNet、PointNet++等经典点云处理方法的。
  3. Visual Imitation Learning:继承了通过模仿学习让机器人获取技能的研究范式。

实验设置、数据、评估方式、结论

  1. 实验设置:包含72个仿真任务(涵盖Adroit机械手、双臂、铰接物体等)和4个真实机器人任务(包括捏橡皮泥、钻孔等)。
  2. 数据:仿真任务中每条任务仅使用10条演示;真实任务中每条任务仅使用40条演示。
  3. 评估方式:仿真中采用成功率(Success Rate);真实世界中评估成功率及安全性(是否出现危险动作)。
  4. 结论:DP3在仿真中比2D Diffusion Policy相对提升了24.2%;在真实世界中实现了85%的平均成功率。相比2D方法,DP3在空间、视角、外观和实例上均有极强的泛化能力,且极少出现违反安全限制的异常动作。

提到的同类工作

  1. Diffusion Policy:主要的对比基线,基于2D图像的扩散策略。
  2. PerAct:基于3D的多模态动作记忆Transformer模型。
  3. IBC:基于对比学习的模仿学习方法。

和本文相关性最高的3个文献

  1. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion(Cheng Chi et al., RSS 2023) <2023_RSS>
  2. Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation(Mohit Shridhar et al., CoRL 2023) <2023_CoRL>
  3. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation(Charles R Qi et al., CVPR 2017) <2017_CVPR>

我的

  1. 引入3D信息的Diffusion Policy。方法是深度图转化为点云,再采样,再编码。
  2. 速度上,反而比2D的DP要快,因为他深度图分辨率小,而且编码器也就是用个轻量的MLP
http://www.jsqmd.com/news/862889/

相关文章:

  • 【行业首发】Midjourney单色调风格私有Prompt架构(含12个已验证灰阶锚点词+3类禁用语义雷区)
  • 亲戚关系怎么叫?用 NAS 搭一个亲戚关系计算器,春节拜年不再尴尬
  • 解决Claude Code访问不稳定问题并配置Taotoken接入
  • 1分钟带你认识分辨率 帧率, 码率 HDR 的作用
  • go 语言中的context 解读和用法
  • (二) LLM探索能力-1. 大语言模型能够进行上下文探索吗?
  • 仅剩最后47个印尼语专属Voice ID配额!ElevenLabs企业版印尼语音定制通道即将关闭——附2024Q3合规接入白皮书
  • 【校企合作】陕科大镐京学院电信学院领导一行莅临华清远见西安中心参观交流
  • 一种三菱MXF100-8 走CC LINK IE TSN 网络控制单轴伺服的功能块(可控30+轴)
  • 2026 年 5 款热门配音 APP 深度对比:个人 / 商用 / 专属声线,哪款最适合你?
  • Adams 多体动力学:工业仿真的黄金标准与未来引擎
  • 工业 CAN 通信利器!六通道隔离集线器,中继滤波稳组网
  • 2026最新诚信优选 汉中市汉台区黄金回收白银回收铂金回收彩金回收门店TOP5排行榜+联系方式推荐_转自TXT - 盛世金银回收
  • 零基础学 Web 安全 20256最全系统入门攻略
  • qwen3.6-35b-a3b关闭思考-AI问答效果比对(文心)
  • 鸿蒙PC:鸿蒙版本 Electron 框架环境搭建并且实现 XH 笔记应用
  • (二) LLM探索能力-2. 决策预训练和增加测试时
  • CANN-Ascend-C流水线编程-昇腾NPU上Cube和Vector怎么协作
  • 2026最新诚信优选 汉中市南郑区黄金回收白银回收铂金回收彩金回收门店TOP5排行榜+联系方式推荐_转自TXT - 盛世金银回收
  • 2026最新测评:4款海外降英文文本AIGC工具实测
  • Codeforces Round 1098 (Div. 2)
  • 记录人生第一个Linux内核Patch被采纳的经历
  • 2026最新诚信优选 贵阳市白云区黄金回收白银回收铂金回收彩金回收门店TOP5排行榜+联系方式推荐_转自TXT - 盛世金银回收
  • 【tomcat部署前台war包报错】
  • 网安从业者必学 100 个核心知识点,自查进阶必备
  • HOW - AI 时代 Figma 出码提效
  • 2026最新诚信优选 合肥市包河区黄金回收白银回收铂金回收彩金回收门店TOP5排行榜+联系方式推荐_转自TXT - 盛世金银回收
  • 2026公考机构推荐:作为程序员,我建了个SQL查询帮你对比8家机构的真实数据
  • Linux 的 wc 命令
  • 2026最新诚信优选 贵阳市观山湖区黄金回收白银回收铂金回收彩金回收门店TOP5排行榜+联系方式推荐_转自TXT - 盛世金银回收