当前位置: 首页 > news >正文

强化学习·Actor-Critic

文章目录

  • Actor-Critic
    • 学习流程
    • 更新actor和critic
    • Advantage Actor Critic (A2C)

Actor-Critic

结合了价值函数学习和策略学习的方法

  • 我们有一个Actor,主要对应策略学习,表示为参数化的π θ \pi_\thetaπθ
  • Critic对应价值学习,表示为类似DQN那样的估计其Q w ( s , a ) Q_w(s,a)Qw(s,a)

学习流程

  • actor负责采样动作
  • 然后得到下一个时刻的状态和即可奖励
  • critic负责估计下一个时刻Q w ( s t + 1 , a t + 1 ) Q_w(s_{t+1},a_{t+1})Qw(st+1,at+1),其中a t + 1 a_{t+1}at+1是通过随机采样得到的,我们只是处理当前时刻t,对于下一时刻使用什么策略采样a t + 1 a_{t+1}at+1不关心。


更新actor和critic

  • actor类似策略梯度的方法,目标函数为最大化某一个step的期望累积奖励R ( s , a ) R(s,a)R(s,a)替换为Q w ( s , a ) Q_w(s,a)Qw(s,a)
  • 我们只有一个step,因此不需要累加l o g π log\pilogπ
  • actor采用的是TD的算法,TD target是即刻奖励+下一时刻的估计,使用TD error来更新。

Advantage Actor Critic (A2C)

  • 对于actor来说,使用Advantage函数替代Q w ( s , a ) Q_w(s,a)Qw(s,a)
  • Advantage函数表示相对于平均来说,这个动作好多少?
  • 这个设计可以减少actor的方差(注意:策略梯度类的方法方差一般较高)。

http://www.jsqmd.com/news/412799/

相关文章:

  • 如何突破网页限制?猫抓Cat-Catch资源嗅探工具让媒体保存不再难
  • 高效右键菜单管理:从杂乱到有序的Windows操作体验转变
  • 机器学习工程化:TranslateGemma模型服务监控体系构建
  • Lychee模型在网络安全领域的创新应用:多模态恶意内容检测
  • 编程间隙高效阅读:Thief-Book-Idea插件如何实现工作与阅读的无缝平衡
  • 智能健康数据同步工具:Zepp Life步数管理解决方案
  • 设计师必备:Z-Image i2L商业级图像生成实战教学
  • 告别卡顿:Qwen3-0.6B-FP8轻量化对话工具在老旧电脑上的惊艳表现
  • Nano-Banana实战:电商产品平铺展示图一键生成
  • 甜度超标的拆解图:Nano-Banana创意应用案例
  • Greasy Fork:用户脚本生态的开源治理实践
  • Degrees of Lewdity本地化解决方案:从入门到精通的实践指南
  • GTE模型在Matlab环境中的调用与可视化分析
  • 人脸识别OOD模型优化技巧:如何提升特征提取精度
  • 猫抓:资源获取、媒体解析与高效下载的全能解决方案
  • Qwen2.5-Coder-1.5B在Visual Studio中的集成:C#开发效率提升
  • GLM-4-9B-Chat开箱即用:企业级AI助手搭建指南
  • SenseVoice Small多语言识别原理:共享编码器+语言适配头结构解析
  • 3个核心突破:JetBrains IDE试用期管理的系统化解决方案
  • Fish-Speech-1.5在嵌入式Linux系统上的移植与优化
  • BERT文本分割-中文-通用领域实战教程:结合Prompt工程优化分段逻辑
  • 零成本突破网盘限速:本地解析技术的效率革命
  • UI-TARS-desktop实战:打造个性化智能工作流
  • ESP32-S3开发板保姆级Micropython烧录指南(附Thonny配置技巧)
  • LiuJuan20260223Zimage实战教程:如何用该镜像替代Stable Diffusion做轻量人像生成
  • Fish Speech 1.5实战:如何制作个性化的语音助手
  • Qwen3-ASR在客服场景中的应用:智能语音助手搭建全攻略
  • Llava-v1.6-7b法律应用:合同文档智能分析与摘要生成
  • Qwen3-ASR-0.6B开箱即用:WebUI+API双接口,零代码接入业务系统
  • OFA-VE与Vue3结合:构建智能视觉分析仪表盘