当前位置: 首页 > news >正文

《Mastering Atari with Discrete World Models》随记

博客地址:https://www.cnblogs.com/zylyehuo/

参考链接:从DreamerV1到DreamerV3|Model-based RL的学习之路

DreamerV2 的主要贡献

image

DreamerV2 在 DreamerV1 上的改动

encode 方式

image

在将一张图像 encode 为一个随机变量的时候,DreamerV1 和 PlaNet 都是 encode 成一个 30 维度的随机变量,这个随机变量可能是从高斯分布中 sample 出来的。

DreamerV2 中就不是使用高斯分布,它生成了 32 个类,每个类 one-hot 成一个向量,把图像离散成了网格。【DreamerV3 也延续了这个 trick】

原因是,在 VAE 中使用高斯分布去采用随机变量,不能直接梯度反向传播,要使用重参数化,会导致性能变差。
用这种分类的方式去反向传播更加直接。

image

假设当前的模型是一个高斯分布,要预测的下一个状态可能会有很多种分布(很多随机性),可能不是单峰的,可能是多峰的,这时用高斯分布很难去拟合这种分布。

但是当使用分类的方式,就能更好地去捕捉这种随机性。

image

在 DreamerV1 的基础上,就改动了一处地方。【将原本可能是一个向量的输出,变成了一个矩阵的输出】

具体可以参考链接:《Learning Latent Dynamics for Planning from Pixels》随记

RSSM

KL 散度中使用了 trick

到底想用先验逼近后验,还是后验逼近先验

image

Loss 的选择

image

在 DreamerV3 提到:当 action space 是离散的情况下,使用 reinforce 这种方式训练效果比较好;当 action space 是连续的控制情况下,使用直接梯度反向传播(dynamics backprop)的方式训练效果比较好。

其他尝试

image

http://www.jsqmd.com/news/482315/

相关文章:

  • 11 张图总结下,微服务增量拉取
  • STM32入门(10)
  • 打开网站显示图片上传失败?错误怎么办|已解决
  • 校园网线是否可以通过两个路由器进行中转?
  • PHP 网站完整搬家避坑指南(新手必看,杜绝报错、断站)
  • Java 后端实现 token自动续期,这方案有点优雅!
  • AI 批量图片去水印工具 v1.0.0 - 豆包专属去水印
  • 分发:AI的终极护城河
  • LLM可观测性:AI系统缺失的环节
  • 面试官问:订单30分钟未支付,自动取消,该怎么实现?
  • 香河婚介所里的无数次擦肩,终在免费缘分中寻得 IT 人的安稳归宿
  • MySQL 1045 登录失败,账号密码错误处理 常见错误与避坑指南
  • 应该使用AI构建内部工具吗?
  • 缓存和数据库一致性问题,看这篇就够了
  • 5 个正在爆火的开源AI工具
  • 狗东面试,起手就问 MVCC 原理
  • Anthropic报告:AI对就业的影响
  • OpenFeign 夺命连环 9问,又挂这上了
  • 68个适合个人GPU部署的LLM
  • C++ vector、unordered_set和稀疏集的增删遍历性能对比 - 码客
  • 啪!啪!@Transactional 注解的12种失效场景,这坑我踩个遍
  • 第8篇:PI控制器设计实战演练
  • Day10 | 用栈实现队列、用队列实现栈、有效的括号、删除字符串中的所有相邻重复项
  • 3.12笔记
  • 华为CE6800交换机堆叠配置案例
  • 【AI总结博客】编码者卢布 技术博客深度分析 ---- 借助腾讯WorkBuddy得出的分析结果
  • 调试线程应用程序
  • 5. 最长回文子串
  • L2-025 分而治之
  • 1143. 最长公共子序列