当前位置: 首页 > news >正文

【论文阅读】RISE: Self-Improving Robot Policy with Compositional World Model

快速了解部分

基础信息(英文):

  1. 题目: RISE: Self-Improving Robot Policy with Compositional World Model
  2. 时间:2026.02
  3. 机构: The Chinese University of Hong Kong, Kinetix AI, Tsinghua University, Horizon Robotics 等
  4. 3个英文关键词: Compositional World Model, Reinforcement Learning, Self-improving Robot

1句话通俗总结本文干了什么事情

让机器人在"想象空间"里通过世界模型做梦练习,用预测未来+评估好坏的组合方式自我提升策略,避免真实世界中昂贵的试错成本。

研究痛点:现有研究不足 / 要解决的具体问题

  • VLA模型在contact-rich、动态操作任务中脆弱,小偏差会累积成失败
  • 物理世界做on-policy RL成本高:硬件贵、交互串行、手动reset费时
  • 现有世界模型要么视觉真实但动作不可控,要么奖励信号稀疏,无法支撑长时序策略优化

核心方法:关键技术、模型或研究设计(简要)

  • Compositional World Model:解耦dynamics prediction(预测未来观测)和value estimation(评估想象状态),各自用最适合的架构优化
  • Dynamics Model:基于Genie Envisioner视频Diffusion,Task-Centric Batching策略提升动作可控性
  • Value Model:从预训练VLA初始化,progress regression + TD learning联合训练,输出密集且对失败敏感的advantage信号
  • Self-Improving Loop:在想象空间迭代rollout生成→advantage计算→策略更新,零真实交互成本

深入了解部分

作者想要表达什么

世界模型可以成为真实世界操作任务的有效"学习环境",通过想象空间中的on-policy RL,能高效bootstrapping策略在high-dynamics、dexterous任务上的表现,实现scalable的self-improving。

相比前人创新在哪里

  1. 首次将learned world model作为真实世界manipulation的interactive training environment,而非仅用于planning或数据增强
  2. Compositional设计:dynamics和value解耦,避免单一架构兼顾多目标的妥协,dynamics专注可控生成,value专注密集评估
  3. 直接为action chunk输出advantage,无需模拟到终端状态获取稀疏reward,降低对长时序生成准确性的依赖
  4. Task-Centric Batching策略:预训练时优先同场景下的动作多样性,显著提升fine-tuning效率和动作可控性

解决方法/算法的通俗解释

机器人先学会"做梦":给定当前画面和动作,预测接下来会看到什么(dynamics);再学会"打分":看这个预测画面离成功还有多远(value);然后用"预测画面+打分"算出这个动作好不好(advantage);最后用这些想象出来的经验更新策略。全程在脑子里练,不用真动手。

解决方法的具体做法

  1. Dynamics Model训练:Genie Envisioner初始化→Agibot World+Galaxea大规模预训练(Task-Centric Batching)→任务数据fine-tune,Flow Matching损失,50步Euler采样
  2. Value Model训练:π0.5 VLA backbone初始化→前10k步progress regression学习时序单调性→后40k步加入TD learning区分成功/失败,输出标量value
  3. Advantage计算:对action chunk预测的H帧未来,取value均值减当前value,离散化为10个bin作为策略训练条件
  4. Policy Warm-up:offline数据(expert+rollout+correction)上训练advantage-conditioned策略,expert数据强制标最高advantage
  5. Self-Improving Loop:采样offline状态→策略+最优advantage提示生成动作→dynamics生成未来→value评估得实际advantage→混合offline数据训练策略→EMA更新rollout策略,迭代10k步

基于前人的哪些方法

  • Genie Envisioner视频Diffusion架构
  • π0.5预训练VLA backbone
  • Progress estimate(VLM as in-context value learner)
  • TD learning经典RL方法
  • Advantage-conditioned policy optimization(RECAP)
  • Flow matching策略训练(π系列)

实验设置、数据、评估方式、结论

  • 硬件:dual 7-DoF AgileX robot,30Hz控制,3视角观测(top+双wrist)
  • 任务:Dynamic Brick Sorting(移动传送带分拣)、Backpack Packing(柔性物体操作)、Box Closing(双手精密协调)
  • 数据:每任务2-3k expert演示 + 500-600 policy rollout,Box Closing额外540 DAgger修正
  • 评估:20次自主执行,Success Rate + 分阶段Score(满分10)
  • 结论:RISE成功率85%/85%/95%,相比RECAP等baseline绝对提升+35%/+45%/+35%;ablation验证Task-Centric Batching、progress+TD联合训练、online state+action整合的必要性

提到的同类工作

  • World Model方向:Dreamer系列、Genie、Cosmos、Ctrl-world、AdaWorld
  • VLA+RL方向:RECAP(π*0.6)、DSRL、VLA-RL、SimpleVLA-RL、GR-RL
  • 数据/仿真方向:LIBERO、RoboCasa、BridgeData、Agibot World、Galaxea

和本文相关性最高的3个文献

  1. RECAP (π*0.6): advantage-conditioned offline RL for VLA post-training,本文warm-up阶段直接借鉴
  2. Genie Envisioner: 视频Diffusion world model,本文dynamics model的初始化基础
  3. π0.5: 开源VLA backbone,本文policy和value model的共同初始化来源

我的

  1. 将world model作为simulator,支持on policy强化学习训练。
  2. 所谓Compositional world model 就是分2个,一个是视频生成模型作为simulator,一个是Value model用来打分。
  3. 所谓Task-Centric Batching 就是训视频生成的时候拿同一个场景下的训,别加其他场景的,过拟合在这个任务之下,然后对这个任务做RL。
http://www.jsqmd.com/news/725986/

相关文章:

  • qwen3-asr模型推理逻辑
  • Postman测试EasyExcel导入功能:从本地文件路径到HTTP上传的完整避坑指南
  • 上海实木定制公司排行:5家高端品牌实力实测对比 - 奔跑123
  • 暗黑破坏神2存档修改器终极指南:3步打造完美角色
  • 2026物业服务推荐排行榜:住宅/政务/公建物业招标专用实力企业深度解析 - 深度智识库
  • 2026年3月激光切割厂家推荐分析,金属切割/二手锯床/锯切设备/二手圆锯机/圆锯机/锯床/锯条,激光切割源头厂家哪家好 - 品牌推荐师
  • SRWE终极指南:免费窗口编辑器让你的Windows窗口管理更高效
  • 雄县邦讯商贸:昌平浴袍回收有哪些 - LYL仔仔
  • 客户端接入实战:在 LangChain 中集成 MCP 工具调用
  • 基金
  • 【Matllab代码】不确定风功率接入下电-气互联系统的分布鲁棒机会约束经济分布式优化调度
  • macOS菜单栏终极管理指南:用Ice打造高效整洁的工作空间
  • 云手机 高振畅玩不踩坑
  • 2026年住宅小区物业公司TOP5权威榜单 - 深度智识库
  • 上海万国自动上链失灵:从“啄木鸟”罢工到动力衰减,你的机芯需要一次精准复位 - 时光修表匠
  • 深度解析KKManager:3大架构设计与5个实战应用方案
  • 北京门窗品牌排行:5家市场认可度高的实力品牌盘点 - 奔跑123
  • 如何用嘎嘎降AI处理含大量数据表格的论文:保留格式的降AI操作完整教程
  • 望言OCR:5分钟学会的终极视频字幕提取解决方案
  • AutoDock Vina非标准原子力场扩展机制深度解析:从硅硼原子支持看计算化学软件架构设计
  • 突破性技术:Windows原生APK安装架构深度解析
  • 2026年新疆票据印刷、不干胶标签及办公用纸采购指南:金阳印务与行业竞品深度对标 - 企业名录优选推荐
  • 2026年|凌晨三点改论文?收藏4招教你彻底去AI痕迹! - 降AI实验室
  • 从SOC到VSOC:手把手教你规划车企网络安全运营中心的“车规级”技术栈
  • 群晖百度网盘套件终极安装指南:5步轻松实现NAS云存储同步
  • 终极抖音批量下载方案:douyin-downloader架构解析与高效部署指南
  • 涂改液质地好推开防晒霜,懒人本命谁用谁爱的5款防晒霜在这里 - 全网最美
  • 告别网盘限速烦恼!八大主流网盘直链下载助手终极指南
  • 【优化布置】基于粒子群算法求解分布式发电机布置的优化问题附Matlab代码
  • InfluxDB Studio终极指南:高效管理时序数据库的桌面利器