当前位置：首页 > news >正文

强化学习·Actor-Critic

news 2026/4/2 12:20:34

文章目录

Actor-Critic
- 学习流程
- 更新actor和critic
- Advantage Actor Critic (A2C)

Actor-Critic

结合了价值函数学习和策略学习的方法

我们有一个Actor，主要对应策略学习，表示为参数化的π θ \pi_\thetaπθ
Critic对应价值学习，表示为类似DQN那样的估计其Q w ( s , a ) Q_w(s,a)Qw(s,a)

学习流程

actor负责采样动作
然后得到下一个时刻的状态和即可奖励
critic负责估计下一个时刻Q w ( s t + 1 , a t + 1 ) Q_w(s_{t+1},a_{t+1})Qw(st+1,at+1)，其中a t + 1 a_{t+1}at+1是通过随机采样得到的，我们只是处理当前时刻t，对于下一时刻使用什么策略采样a t + 1 a_{t+1}at+1不关心。

更新actor和critic

actor类似策略梯度的方法，目标函数为最大化某一个step的期望累积奖励，R ( s , a ) R(s,a)R(s,a)替换为Q w ( s , a ) Q_w(s,a)Qw(s,a)
我们只有一个step，因此不需要累加l o g π log\pilogπ
actor采用的是TD的算法，TD target是即刻奖励+下一时刻的估计，使用TD error来更新。

Advantage Actor Critic (A2C)

对于actor来说，使用Advantage函数替代Q w ( s , a ) Q_w(s,a)Qw(s,a)
Advantage函数表示相对于平均来说，这个动作好多少？
这个设计可以减少actor的方差(注意：策略梯度类的方法方差一般较高)。

http://www.jsqmd.com/news/412799/

相关文章：

如何突破网页限制？猫抓Cat-Catch资源嗅探工具让媒体保存不再难

高效右键菜单管理：从杂乱到有序的Windows操作体验转变

机器学习工程化：TranslateGemma模型服务监控体系构建

Lychee模型在网络安全领域的创新应用：多模态恶意内容检测

编程间隙高效阅读：Thief-Book-Idea插件如何实现工作与阅读的无缝平衡

智能健康数据同步工具：Zepp Life步数管理解决方案

设计师必备：Z-Image i2L商业级图像生成实战教学

告别卡顿：Qwen3-0.6B-FP8轻量化对话工具在老旧电脑上的惊艳表现

Nano-Banana实战：电商产品平铺展示图一键生成

甜度超标的拆解图：Nano-Banana创意应用案例

Greasy Fork：用户脚本生态的开源治理实践

Degrees of Lewdity本地化解决方案：从入门到精通的实践指南

GTE模型在Matlab环境中的调用与可视化分析

人脸识别OOD模型优化技巧：如何提升特征提取精度

猫抓：资源获取、媒体解析与高效下载的全能解决方案

Qwen2.5-Coder-1.5B在Visual Studio中的集成：C#开发效率提升

GLM-4-9B-Chat开箱即用：企业级AI助手搭建指南

SenseVoice Small多语言识别原理：共享编码器+语言适配头结构解析

3个核心突破：JetBrains IDE试用期管理的系统化解决方案

Fish-Speech-1.5在嵌入式Linux系统上的移植与优化

BERT文本分割-中文-通用领域实战教程：结合Prompt工程优化分段逻辑

零成本突破网盘限速：本地解析技术的效率革命

UI-TARS-desktop实战：打造个性化智能工作流

ESP32-S3开发板保姆级Micropython烧录指南（附Thonny配置技巧）

LiuJuan20260223Zimage实战教程：如何用该镜像替代Stable Diffusion做轻量人像生成

Fish Speech 1.5实战：如何制作个性化的语音助手

Qwen3-ASR在客服场景中的应用：智能语音助手搭建全攻略

Llava-v1.6-7b法律应用：合同文档智能分析与摘要生成

Qwen3-ASR-0.6B开箱即用：WebUI+API双接口，零代码接入业务系统

OFA-VE与Vue3结合：构建智能视觉分析仪表盘