当前位置：首页 > news >正文

Actor-Critic 强化学习中的两大核心损失函数：PG Loss 与 VF Loss 详解

news 2026/3/27 5:43:34

Actor-Critic 强化学习中的两大核心损失函数：PG Loss 与 VF Loss 详解

今天，我们来聊聊强化学习（Reinforcement Learning, RL）领域的一个经典框架——Actor-Critic。Actor-Critic 结合了策略梯度（Policy Gradient）和价值函数（Value Function）的优点，是许多现代 RL 算法（如 PPO、A2C）的基石。在训练过程中，我们常常会看到两个关键的损失函数：Actor/PG Loss（政策梯度损失）和Critic/VF Loss（价值函数损失）。它们分别负责优化“决策者”（Actor）和“评估者”（Critic），共同推动智能体从“菜鸟”变成“高手”。

如果你是 RL 新手，别担心，我会用通俗的语言解释清楚，还会配上数学公式和训练图表的解读。准备好了吗？让我们一探究竟！

Actor-Critic 框架简介：双人舞的精妙配合

在强化学习中，智能体（Agent）需要在环境中通过试错学习最优策略。Actor-Critic 就像一个“演员+评论家”的组合：

Actor：负责生成动作策略π(a∣s)\pi(a|s)π(a∣s)，即在状态sss下选择动作aaa的概率分布。它决定“下一步该怎么走”。
Critic：负责评估状态的价值V(s)V(s)V(s)，即从当前状态出发，预期能获得的长期回报。它提供反馈，帮助 Actor 改进。

训练时，我们最小化两个损失函数：PG Loss 优化 Actor，VF Loss 优化 Critic。它们不是孤立的——Critic 的输出会影响 Actor 的更新，形成闭环学习。下面，我们逐一拆解。

PG Loss：策略梯度损失，Actor 的“动力源泉”

PG Loss，全称 Policy Gradient Loss（政策梯度损失），也常被称为策略梯度。它的核心思想是：通过梯度下降，强化“好动作”的概率，惩罚“坏动作”。

想象一下，智能体在玩游戏（如 CartPole 平衡杆）。如果它选择了正确的动作（杆子没倒），就该多学学这个动作；如果错了，就少碰它。PG Loss 正是计算这种“奖励/惩罚”的量化指标。

数学原理

PG Loss 的计算公式基于优势函数A(s,a)A(s, a)A(s,a)（Advantage），它衡量动作相对于平均水平的优劣（正值=好，负值=坏）。标准公式为：

LPG=−E[log⁡π(a∣s)⋅A(s,a)] L_{PG} = -\mathbb{E} \left[ \log \pi(a|s) \cdot A(s, a) \right]LPG=−E[logπ(a∣s)⋅A(s,a)]

π(a∣s)\pi(a|s)π(a∣s)：Actor 输出的动作概率（对数形式log⁡π\log \pilogπ确保梯度稳定）。
A(s,a)=Q(s,a)−V(s)A(s, a) = Q(s, a) - V(s)A(s,a)=Q(s,a)−V(s)：优势值，通常用 Critic 计算QQQ（动作价值）和VVV（状态价值）的差。
负号（-）是关键：最小化LPGL_{PG}LPG相当于最大化预期回报。

在实践中，A(s,a)A(s, a)A(s,a)往往来自 Critic 的估计，这让 Actor 和 Critic 紧密协作。

训练图表解读

来看一张典型的 PG Loss 训练曲线（基于 Wandb 日志）：

X 轴是训练步数（Step，从 10 到 60），Y 轴是损失值。从 -0.05 开始，曲线波动上升向 0 收敛。这很正常！为什么是负值？因为当优势A>0A > 0A>0时，log⁡π⋅A\log \pi \cdot Alogπ⋅A为负，最小化负损失就是在“拉高”好策略的概率。整体下降趋势表示 Actor 在逐步优化，策略越来越聪明。如果曲线剧烈震荡，可能需要调学习率。

VF Loss：价值函数损失，Critic 的“校准器”

VF Loss，全称 Value Function Loss（价值函数损失），是 Critic 的专属损失。它让 Critic 学会准确预测状态的“长远价值”，为 Actor 提供可靠的指导信号。

Critic 就像一个资深教练：不只看眼前一招，还评估整个“比赛走势”。VF Loss 确保它的预测贴近真实回报，避免 Actor 被误导。

数学原理

VF Loss 通常用均方误差（MSE）衡量预测价值与目标价值的差距。公式简洁有力：

LVF=E[(Vθ(s)−R^)2] L_{VF} = \mathbb{E} \left[ \left( V_\theta(s) - \hat{R} \right)^2 \right]LVF=E[(Vθ(s)−R^)2]

Vθ(s)V_\theta(s)Vθ(s)：Critic 参数θ\thetaθ下的状态价值预测。
R^\hat{R}R^：目标回报（Target Return），常通过 TD（Temporal Difference）估计：R^=r+γV(s′)\hat{R} = r + \gamma V(s')R^=r+γV(s′)，其中rrr是即时奖励，γ\gammaγ是折扣因子，s′s's′是下一状态。
平方项确保损失非负，优化时最小化它，让Vθ(s)≈R^V_\theta(s) \approx \hat{R}Vθ(s)≈R^。