当前位置: 首页 > news >正文

【论文自动阅读】ReWorld:具身世界模型的多维度奖励建模

快速了解部分

基础信息(英文):

1.题目: ReWorld: Multi-Dimensional Reward Modeling for Embodied World Models
2.时间: 2025.xx (arXiv预印本)
3.机构: Eastern Institute of Technology, Ningbo; Georgia Institute of Technology; Shanghai Jiao Tong University; Tsinghua University; University of Science and Technology of China; Peking University
4.3个英文关键词: Embodied World Models, Multi-Dimensional Reward, Reinforcement Learning

1句话通俗总结本文干了什么事情

本文提出了一种名为ReWorld的框架,利用分层奖励模型和强化学习,解决了视频生成模型在物理真实性、动作合理性和任务逻辑上与视觉效果脱节的问题。

研究痛点:现有研究不足 / 要解决的具体问题

当前基于视频的世界模型主要关注视觉生成质量,忽略了物理保真度、动态一致性和任务逻辑(即“物理恐怖谷”问题)。现有的单维度奖励模型无法同时评估低级物理(如碰撞)和高级语义(如任务完成),且基于流匹配(Flow Matching)的模型难以直接应用标准的强化学习算法(如PPO)进行优化。

核心方法:关键技术、模型或研究设计(简要)

提出了ReWorld框架,包含两部分核心创新:一是HERO(分层奖励模型),通过多头架构分别评估物理真实性、具身合理性、任务完成度和视觉质量;二是HERO-FPO(HERO引导的流策略优化),提出了一种CFM-似然代理方法,使流模型能通过PPO算法进行高效强化学习。

深入了解部分

相比前人创新在哪里

  1. 多维奖励解耦:不同于以往单一的美学或整体评分,ReWorld将奖励分解为四个正交维度(物理、具身、任务、视觉),并映射到视觉主干网络的不同特征层级。
  2. 流模型RLHF算法:首次解决了流匹配(Flow Matching)类生成模型无法直接计算对数似然(log-likelihood)从而难以应用PPO的难题,提出了CFM-Likelihood Proxy,将PPO更新的复杂度从O(d²)降低到O(d)。

解决方法/算法的通俗解释

想象你在教一个只会画画的AI学会“物理常识”。以前的方法是给画打一个总分,AI不知道是画得不像(视觉),还是东西飘在天上(物理)。

  1. HERO模型:相当于给AI配了四个专家评委,一个专门看东西有没有穿模(物理),一个看机器人动作顺不顺(具身),一个看有没有做对事(任务),一个看画得细不细(视觉)。这四个评委打分互不干扰。
  2. HERO-FPO算法:相当于找到了一种捷径,不用去算极其复杂的数学公式,就能用简单的计算告诉AI:“根据你刚才生成视频的‘去噪难度’,这次生成的好坏程度大概是这样”,从而让AI能快速学习改进。

解决方法的具体做法

  1. 构建数据集:利用GPT-4o作为标注员,构建了一个包含约23.5万个样本的4D具身偏好数据集,每个样本都有四个维度的评分。
  2. 训练HERO:基于InternVideo2,设计四个解耦的奖励头,通过特定的损失函数(维度特异性损失+整体偏好正则化)训练模型。
  3. 微调策略:使用Cosmos作为基础世界模型,通过HERO-FPO算法,利用HERO提供的多维奖励信号,通过PPO算法对模型进行后训练优化。

基于前人的哪些方法

  1. 基础生成模型采用了Cosmos(基于流匹配的视频生成模型)。
  2. 奖励模型构建参考了Bradley-Terry偏好学习模型。
  3. 强化学习框架基于PPO(近端策略优化),但对其进行了针对流模型的理论改造。

实验设置、数据、评估方式、结论

  1. 数据:使用RH20T数据集进行偏好数据生成和评估,Bridge V2数据集进行模型微调。
  2. 评估:提出了ReWorldBench基准,包含物理推理、逻辑规划、运动学执行和生成保真度四个维度。同时使用FVD、SSIM等视觉指标。
  3. 结论:ReWorld在ReWorldBench的四个维度上比基线模型(Cosmos-SFT)提升了15-25%,人类偏好评级超过85%。证明了该方法能有效解决“物理恐怖谷”问题,且不牺牲视觉质量。

提到的同类工作

  1. Cosmos:大规模视频生成模型,ReWorld的基础模型和主要对比对象。
  2. CogVideoX / Wan2.1:其他SOTA的文本到视频生成模型,用于对比评估。
  3. RLHF (InstructGPT等):在大语言模型中应用人类反馈强化学习的先驱工作,ReWorld将其思想迁移至视频生成领域。
  4. Direct Preference Optimization (DPO):用于对比说明流模型与扩散模型在优化目标上的不同。

和本文相关性最高的3个文献

  1. **Cosmos **:本文直接基于该模型进行改进,是本文的基础架构。
  2. **InternVideo2 **:本文提出的HERO奖励模型的视觉主干网络,是实现多维特征提取的关键。
  3. **Flow Matching / CFM理论工作 **:本文算法理论推导的基础,特别是HERO-FPO中的CFM-Likelihood Proxy建立在这些工作的数学定义之上。

我的

视频生成工作,用的cosmos-transfer1,flow-based模型。提出了RL算法,可以训这类模型。

http://www.jsqmd.com/news/333947/

相关文章:

  • <span class=“js_title_inner“>AI交警已上线,3分钟通行五个路口!</span>
  • 【论文自动阅读】未来光流预测提升机器人控制与视频生成
  • SSM银行管理系统275d1(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面
  • <span class=“js_title_inner“>限时免费!快来百度智能云一键部署OpenClaw</span>
  • 2026最新BI工具服务商top3推荐!国内优质智能分析企业权威榜单发布,数智赋能助力企业高效决策 - 品牌推荐2026
  • 图吧工具箱最新绿色版,内置上百种硬件检测工具
  • fastapi异步处理模板
  • 【深度学习实战】基于YOLO11的水稻病虫害智能检测系统_1
  • <span class=“js_title_inner“>忽如一夜春风来丨2024年总结</span>
  • 【网络安全】ip获取伪造与隐藏挖掘_ip伪造
  • 企业需要这位AI生产力总监而非首席AI官
  • 依据安卓包名查应用名称
  • 在EntryAbility中使用preferences存储变量,在具体page中怎么获取?
  • <span class=“js_title_inner“>不负春日不负卿,24年Q1总结</span>
  • <span class=“js_title_inner“>AI那些趣事系列114:DeepSeekMath-V2 解锁 AI 数学推理新范式:让模型自己 “检查作业”</span>
  • 2026年全国空运物流权威推荐榜 全域时效空运与定制服务 场景全覆盖解析 - 深度智识库
  • <span class=“js_title_inner“>生活中有趣好玩的产品设计</span>
  • 数字员工与AI销冠系统是什么?对企业意味着哪些转型机遇?
  • SmarterMail修复CVSS 9.3分关键远程代码执行漏洞
  • <span class=“js_title_inner“>AI那些趣事系列115:一文读懂 AI Agents 与 Agentic AI:从 “单兵作战” 到 “团队协作” 的智能进化</span>
  • 深度测评 8个AI论文平台:本科生毕业论文写作全攻略
  • <span class=“js_title_inner“>欲穷千里目丨25年Q3总结</span>
  • 2026年值得关注的家用照明品牌推荐 - 品牌排行榜
  • <span class=“js_title_inner“>AI那些趣事系列113:DeepSeek-OCR深度解读——用“光学压缩”给 LLM 长文本处理 “瘦身”,从原理到落地一篇吃透</span>
  • <span class=“js_title_inner“>git 使用遇到的小坑,你踩了吗?</span>
  • 线上剧本杀APP前端功能解析:沉浸剧情与互动体验的双重落地
  • 2026最新液体钙品牌推荐:精准满足不同生命阶段的补钙需求 - 速递信息
  • <span class=“js_title_inner“>实测 Zephyr 以太网性能 - 94.5Mb/s</span>
  • 支付宝消费券兑换成现金的要点与操作攻略 - 淘淘收小程序
  • 禽类疫病检测仪 动物疫病检测仪 鱼虾病毒检测仪