当前位置: 首页 > news >正文

论文复现8: 3D-Diffusion-Policy

这篇工作指出虽然模仿学习为教授机器人灵巧技能提供了一种高效的方法,然而,要稳健且可泛化地学习复杂技能通常需要大量的人类演示。为了解决这一难题,DP3提出了一种新颖的视觉模仿学习方法——三维扩散策略(DP3)。该方法将三维视觉表征的优势融入扩散策略(一类条件动作生成模型)中。DP3 的核心设计在于利用从稀疏点云中提取的紧凑型三维视觉表征,该表征由高效的点编码器生成。在包含 72 个仿真任务的实验中,DP3 仅需 10 次演示即可成功完成大多数任务,并且相比基线方法提升了 24.2%。在 4 个真实机器人任务中,DP3 仅需 40 次演示即可实现 85% 的高成功率,并展现出卓越的泛化能力,涵盖空间、视角、外观和实例等多个方面。有趣的是,在实际机器人实验中,DP3 很少违反安全要求,这与经常违反安全要求、需要人工干预的基线方法形成鲜明对比。我们广泛的评估凸显了 3D 表征在真实世界机器人学习中的关键作用。
项目地址:https://3d-diffusion-policy.github.io/
代码地址(含数据集):https://github.com/YanjieZe/3D-Diffusion-Policy

复现过程并不麻烦,麻烦的是我是5090的显卡,所以这里要用python3.10+cu128,不能用作者提出的3.8+cu121,架构不兼容。RTX 5090 需要 CUDA 12.8+ 且专门支持 Blackwell 的 PyTorch。

因此针对5090可以参考:

git clone https://github.com/YanjieZe/3D-Diffusion-Policy.git 563 conda create -n dp3 python=3.10 -y 564 cond
http://www.jsqmd.com/news/597616/

相关文章:

  • Qwen3.5-9B玩转YOLOv5:智能标注建议与模型训练参数调优
  • 洛雪音乐音源终极配置指南:快速获取全网免费高品质音乐资源
  • Arduino Syslog客户端:轻量级UDP日志接入企业运维体系
  • GLM-5 Coding Pro:一场昂贵的BUG修复之旅
  • 从74LS138到八选一选择器:全加器设计的双路径实践
  • 大模型时代:TranslateGemma在AI翻译领域的突破
  • 深度解析notion-enhancer的微内核架构设计哲学与组件系统演进
  • 禁止 Python 可变参数(-args 和 kwargs)的静态检查实践指南
  • Flutter TextField自动读取剪切板的隐患与解决方案
  • 告别重复操作:用快马AI设计自动化脚本,提升xshell使用效率
  • 告别PWM!用STM32串口轻松驱动幻尔16路舵机控制板(附完整代码)
  • 如何快速配置暗黑破坏神3智能按键助手:新手终极实战指南
  • 企业级AnyLink性能调优实战:从内核参数到Redis会话管理的完整配置
  • KUKA机器人自动模式3.2:从手动示教到高效运行的完整指南
  • golang如何保证断电数据的保存_golang断电数据保存方案
  • 告别命令行!在树莓派4B的Ubuntu 22.04上,用Windows远程桌面流畅操作图形界面
  • CGCNN晶体图卷积神经网络:AI加速新材料发现的终极指南
  • 3大核心优势:TabNine如何用AI代码补全重塑你的开发体验
  • Thread.sleep(0)并不是写错了,而是有妙用!
  • Python EasyGUI模块实战:快速构建用户友好的GUI应用
  • Linux用户如何挑选HTML函数工具_开源工具适配汇总【汇总】
  • 深入解析Gem5模拟器的4种CPU模型:从Simple到O3的演进与应用
  • 基于Matlab/Simulink的直流电机双闭环调速系统参数优化与动态响应分析
  • 三大难题困扰游戏资源处理?解密工具让效率提升80%的实战方案
  • 3分钟掌握B站视频AI总结:BiliTools让你的学习效率飙升
  • granite-4.0-h-350m效果实测:Ollama本地部署后日语技术问答+韩语代码解释生成
  • 软件驱动与应用开发
  • RT-Thread Finsh移植中IMPRECISERR总线错误的诊断与修复
  • 猫抓扩展完整配置指南:从零开始掌握浏览器资源嗅探
  • 手把手复现经典:用Multisim仿真一阶/二阶有源滤波器,并对比巴特沃斯与切比雪夫的差异