当前位置：首页 > news >正文

《Mastering Atari with Discrete World Models》随记

news 2026/7/9 1:29:27

博客地址：https://www.cnblogs.com/zylyehuo/

参考链接：从DreamerV1到DreamerV3｜Model-based RL的学习之路

DreamerV2 的主要贡献

DreamerV2 在 DreamerV1 上的改动

encode 方式

在将一张图像 encode 为一个随机变量的时候，DreamerV1 和 PlaNet 都是 encode 成一个 30 维度的随机变量，这个随机变量可能是从高斯分布中 sample 出来的。

DreamerV2 中就不是使用高斯分布，它生成了 32 个类，每个类 one-hot 成一个向量，把图像离散成了网格。【DreamerV3 也延续了这个 trick】

原因是，在 VAE 中使用高斯分布去采用随机变量，不能直接梯度反向传播，要使用重参数化，会导致性能变差。
用这种分类的方式去反向传播更加直接。

假设当前的模型是一个高斯分布，要预测的下一个状态可能会有很多种分布（很多随机性），可能不是单峰的，可能是多峰的，这时用高斯分布很难去拟合这种分布。

但是当使用分类的方式，就能更好地去捕捉这种随机性。

在 DreamerV1 的基础上，就改动了一处地方。【将原本可能是一个向量的输出，变成了一个矩阵的输出】

具体可以参考链接：《Learning Latent Dynamics for Planning from Pixels》随记

RSSM

KL 散度中使用了 trick

到底想用先验逼近后验，还是后验逼近先验

Loss 的选择

在 DreamerV3 提到：当 action space 是离散的情况下，使用 reinforce 这种方式训练效果比较好；当 action space 是连续的控制情况下，使用直接梯度反向传播（dynamics backprop）的方式训练效果比较好。

其他尝试

查看全文

http://www.jsqmd.com/news/482315/

11 张图总结下，微服务增量拉取

STM32入门（10）

打开网站显示图片上传失败？错误怎么办|已解决

校园网线是否可以通过两个路由器进行中转?

PHP 网站完整搬家避坑指南（新手必看，杜绝报错、断站）

Java 后端实现 token自动续期，这方案有点优雅！

AI 批量图片去水印工具 v1.0.0 - 豆包专属去水印

分发：AI的终极护城河

LLM可观测性：AI系统缺失的环节

面试官问：订单30分钟未支付，自动取消，该怎么实现？

香河婚介所里的无数次擦肩，终在免费缘分中寻得 IT 人的安稳归宿

MySQL 1045 登录失败，账号密码错误处理常见错误与避坑指南

OpenFeign 夺命连环 9问，又挂这上了

68个适合个人GPU部署的LLM

C++ vector、unordered_set和稀疏集的增删遍历性能对比 - 码客

啪！啪！@Transactional 注解的12种失效场景，这坑我踩个遍

第8篇：PI控制器设计实战演练

Day10 | 用栈实现队列、用队列实现栈、有效的括号、删除字符串中的所有相邻重复项

3.12笔记

华为CE6800交换机堆叠配置案例

【AI总结博客】编码者卢布技术博客深度分析 ---- 借助腾讯WorkBuddy得出的分析结果

DreamerV2 的主要贡献

DreamerV2 在 DreamerV1 上的改动

encode 方式

KL 散度中使用了 trick

Loss 的选择

其他尝试

相关文章：