当前位置: 首页 > news >正文

[学习笔记]trpo——对策略进行显式约束

再继续,actor-critic之后就是著名的trpo

这个东西熬,算是强化学习入门之后的第一个boss了

第一遍看完,只觉得它是策略梯度的pro plus版本,后续看来,它是能作为接下来好几年开山之作的存在

0.Actor-Critic算法的优劣分析

首先,还是分析一下之前Actor-Critic算法的优劣吧

有一个从机器学习入门就困扰大家的问题:步长

步子太大,容易扯着蛋,步子太小,又难以收敛

在之前的reinforce之中,就是因为步长可能会太大,会导致收敛不稳定,两次训练的结果可能一次收敛一次不收敛

而Actor-Critic其实也没有解决这个问题,只是Actor-Critic只是解决了“判标”问题

实际上,这牵扯到一个更加关键的问题:我们并没有把策略真正地量化表达出来

回想一下,从reinforce开始,我们只是借助了神经网络的超强拟合能力,强行表达策略

但是我们真的不知道策略,到底是什么,不是么?

而trpo,就在尝试解决这个问题,让训练变得稳定可靠,用数学的办法。

1.trpo解决问题的办法

首先,需要解决的问题,就是训练的稳定性。

在强化学习中,步长代表了什么呢?

通俗来说,步长就是两种策略之间的差别。

比如,上上下下左左右右BABA和上上下下左左右右ABAB,就是间隔步长比较小的策略,而ABAB右右左左下下上上,就和第一种策略不一样。

那么,如何“量化”策略之间的差别呢?

直接遍历?那时间复杂度会指数级增长,显然不可能。

一个直观的想法,就是对每个策略都进行单位向量化,然后通过内积等方法来进行判断

不过呢,这个方法显然太初级了,还得是大佬的方法直截了当

尽管我尽全力在避免数学,但是这里还是不得不插入一条公式:

{D_{KL}(\pi_{\theta_{\text{old}}}(\cdot|s) \| \pi_{\theta}(\cdot|s))}

说实话,第一次看到这条公式,我就立马想到了另外一个东西:信息熵

{H(\pi(\cdot|s)) = -\sum_{a} \pi(a|s) \log \pi(a|s)}

怎么样,是不是很像很像?

反正我是没有找到网上任何一个对于kl散度和信息熵的联系的讲解,我觉得从这方面来讲就非常非常非常的直观

信息熵,如果系统学习过机器学习,那就会了解到,它是计算loss的一个过程。

信息熵衡量了一个过程的“平均惊奇程度”,不了解的话可以去看一下,还是挺简单的

那么,kl散度,不就是两个状态信息熵的差值吗??!!

那kl散度是不是就是两个策略的“平均惊奇程度”的差值?

也就是两个策略的“相对惊奇程度”?

这个工具,就可以用来衡量两种策略的差别了,只要不超过阈值,就可以

放 心 大 胆 地 放 大 步 长 !

 

 

http://www.jsqmd.com/news/440829/

相关文章:

  • 谷歌NanoBanana 2太强了,一文看懂如何使用!
  • 20260305 - 个人小作品更新
  • 数据库领域 ETL 工具大比拼,谁是王者?
  • 大数据领域数据服务的医疗数据服务
  • 【计算机毕业设计】基于Springboot的民宿预订小程序+LW
  • 复习总结
  • 价值投资中的智能城市地下空间规划系统分析
  • 概率论与数理统计学习笔记(大一第二学期)
  • 作为一个十年老痛风,我尝试了无数方法,在2026年总算找到了终极降尿酸正解 - 品牌企业推荐师(官方)
  • 从一只龙虾到一支团队:OpenClaw 单 Bot 多 Agent 配置实践
  • 2026年美国空派双清包税专线推荐-权威测评综合实力榜单 - 品牌企业推荐师(官方)
  • 早晚代餐怎么选才不踩坑?2026年减脂代餐实测报告,上班族轻松瘦身指南 - 品牌企业推荐师(官方)
  • 2026年房产中介管理系统采购避坑指南:这五个功能必须有 - 品牌企业推荐师(官方)
  • 聚焦同城老板资源对接,助品会打造高效创业生态圈 - 品牌企业推荐师(官方)
  • FPGA篇---LUT(查找表):FPGA 的“万能逻辑引擎”
  • 杭州猎头公司怎么选?推荐南方新华猎头公司2026年3月更新 - 品牌企业推荐师(官方)
  • 测试测试07测试测试07测试测试07测试测试07测试测试07
  • 当您需要被更多客户“看见”:联系福州睿象科技完整指引 - 品牌企业推荐师(官方)
  • 营养早餐不将就!2026早晚代餐实测封神:上班族不挨饿、不费脑,轻松瘦出好体态 - 品牌企业推荐师(官方)
  • 测试测试08测试测试08测试测试08测试测试08测试测试08
  • 某大厂提示工程架构师分享:提示系统集成测试的秘诀
  • 海丰县附城镇志胜首饰商行:以国标为基、匠心为魂,重塑钻石珠宝消费信任新生态 - 品牌企业推荐师(官方)
  • 随机算法
  • FPGA篇---CLB(可配置逻辑块):FPGA的“原子”与基石
  • C++11 Lambda函数与闭包的深入探讨
  • ArchLinux快速安装与配置指南:从基础到优化
  • 本地部署中文OpenClaw 教程
  • C语言与C、Java中的数据类型转换及操作指南
  • 从基础到进阶:深入计算机硬件与软件设计的核心概念
  • 2026/3/5总结