当前位置: 首页 > news >正文

2025_NIPS_Task-aware world model learning with meta weighting via bi-level optimization

文章主要内容总结

该研究聚焦于模型基强化学习(MBRL)中“世界模型与智能体特定任务的环境对齐”问题,提出了一种基于双层优化的任务感知环境建模框架(TEMPO)。

现有模型存在两类局限:最大似然估计(MLE)模型虽能保留丰富语义信息,但平等对待所有观测信息,忽视任务相关信息,导致模型回报与环境回报存在差距;价值等价模型虽能聚焦任务价值相关特征,但丢弃大量语义信息,且面临实现和扩展性难题。

TEMPO以DreamerV2的循环状态空间模型(RSSM)为基础,核心设计包括:1)提出变分价值感知损失(V-VAML),适配 latent 状态空间,通过后验状态与先验状态的价值差异评估模型任务感知能力;2)引入元加权网络(meta weighter),为MLE目标中的每个训练样本分配任务相关的重要性权重;3)构建双层优化结构:下层通过加权MLE目标训练世界模型,保留语义信息并聚焦重要样本;上层通过最小化V-VAML损失优化元加权网络,实现任务感知。

实验在DeepMind Control Suite的9个连续控制任务和Atari的6个离散控制任务中验证,TEMPO在渐近性能、训练稳定性和收敛速度上均达到当前最优,显著优于DreamerV2及D4PG、Rainbow等模型无关RL算法,消融实验验证了元加权机制和输入设计的有效性。

创新点

  1. 双层优化融合两类模型优势:首次将元学习思想引入世界模型训练,通过上层元加权网络优化任务感知损失、下层训练加权MLE模型,既保留了MLE模型的语义信息丰富性,又具备价值等价模型的任务针对性,解决了两类模型的固有矛盾。
http://www.jsqmd.com/news/1015798/

相关文章:

  • 使用cuda编写并运行你的第一个程序(基于WSL2+vscode)
  • HFSS仿真报错别慌!手把手教你搞定‘Acis error’、‘Optimization failed’等5个高频坑
  • 避坑指南:解决URDF添加摄像头后Gazebo不显示图像或Topic无法发布的常见问题
  • UniApp微信小程序选点踩坑记:从requiredPrivateInfos报错到manifest.json正确配置
  • Linux fat_add_cluster FAT32簇链与shortname生成
  • DeepLab_v3评估指标详解:mIoU、像素准确率等关键指标计算
  • MTK平台DWS配置GPIO,这10个选项别再乱勾了(附EintMode中断避坑指南)
  • Flask部署PyTorch模型时,我踩过的5个坑和解决办法(附打包exe避雷指南)
  • 在飞腾FT2000+上编译openEuler内核,卡在exiting boot services?手把手教你用系统自带config避坑
  • ArcMap地图导出AI格式后,在Illustrator里编辑总失败?试试这个保姆级避坑流程
  • 哪个豆包可以生成 word 文档?AI 导出鸭助力文档一键生成,高效便捷超实用
  • iOS 15+ WebView/Safari 下 WebSocket 神秘断连?手把手教你定位并关闭‘permessage-deflate’压缩头
  • uaal-example完全指南:如何将Unity无缝集成到iOS和Android原生应用中
  • GPR数据切片(Slice)实战:从3D数据到清晰成像,关键参数设置与避坑指南
  • 从热失控到封装熔断:一张SOA图背后的5个MOSFET“死亡陷阱”与实测避坑
  • STC8G1K08A-8PIN开发踩坑记:为什么P54引脚不能当普通IO用?一个实习生的血泪教训
  • Prometheus日志里总报‘无序时间戳’?别慌,这5个配置坑你肯定踩过
  • 别再乱改文件夹权限了!一次搞懂SFTP的chroot目录所有权和权限设置(附CentOS 7.3实战)
  • 哪个 ChatGPT 和 Gemini 可以生成 word 文档,AI 导出鸭一键导出更省心
  • 为什么团队氛围越来越差?答案藏在“烂苹果效应”里
  • Outlook邮件变‘隐形’?可能是你的显卡驱动或字体颜色在捣鬼
  • PyTorch DataLoader报错‘stack expects each tensor to be equal size’?别慌,手把手教你排查图片数据集里的‘通道数刺客’
  • 2025_NIPS_Ensemble-based Deep Reinforcement Learning for Vehicle Routing Problems under Distribut...
  • 2026成都高端名酒回收市场深度观察:哪里更靠谱? - 优质品牌商家
  • VASP能带计算踩坑实录:为什么我的能带图总是断开的?(附vaspkit 303避坑指南)
  • 别再为`code been used`和字段名抓狂了!微信米大师2.0接入的这两个坑,我帮你填平了
  • Fable5做代码分析实测
  • SH9认知曲率的严格定义与Ω_c阈值猜想的几何推导(世毫九实验室学术研究版)
  • deepseek 怎么复制表格?AI 导出鸭助力表格搬运
  • Silvaco TCAD电极定义报错?手把手教你排查‘Cannot find the electrode’问题(附完整PIN二极管仿真流程)