【信息科学与工程学】计算机科学与自动化/控制——第九十二篇 自动化控制01
自动化控制(续)
一、强化学习控制
类别 | 模型名称 | 核心方程 | 变量/参数说明 | 特征/性质 |
|---|---|---|---|---|
策略梯度 | REINFORCE算法 | 目标:最大化期望回报 | s_t)] | 基于整条轨迹的回报,方差大 |
优势执行器-评论家(A2C) | 用优势函数A(s,a)=Q(s,a)-V(s)代替TD误差 |
类别 | 模型名称 | 核心方程 | 变量/参数说明 | 特征/性质 |
|---|---|---|---|---|
策略梯度 | REINFORCE算法 | 目标:最大化期望回报 | s_t)] | 基于整条轨迹的回报,方差大 |
优势执行器-评论家(A2C) | 用优势函数A(s,a)=Q(s,a)-V(s)代替TD误差 |