当前位置：首页 > news >正文

深度强化学习（6）Actor-Critic与DDPG：从理论到实践

news 2026/6/14 6:56:01

1. Actor-Critic算法：当策略梯度遇上价值函数

我第一次接触Actor-Critic算法时，感觉它就像是一个精妙的双人舞——Actor负责选择动作，Critic负责评价动作的好坏。这种分工协作的模式，让它在连续动作空间任务中表现尤为出色。你可能已经知道，DQN擅长价值估计但只能处理离散动作，而策略梯度方法直接优化策略却面临高方差问题。Actor-Critic的聪明之处就在于把两者优势结合了起来。

让我们用自动驾驶来打个比方。Actor就像驾驶员，根据当前路况决定方向盘转多少度（连续动作）；Critic则像坐在副驾驶的教练，实时评价这个转向幅度是否合适。这种即时反馈机制，比单纯靠最终是否到达目的地来评判驾驶行为（如REINFORCE算法）要高效得多。

数学上，Actor-Critic的核心是优势函数A(s,a)=Q(s,a)-V(s)。这个公式看似简单，却解决了两个关键问题：一是用V(s)作为基线降低了方差，二是通过Q(s,a)保持了策略更新的方向性。我在实现时发现，如果直接用原始策略梯度，训练曲线就像过山车一样波动剧烈；而引入Critic后，学习过程明显稳定多了。

class ActorCritic: def update(self, transition_dict): # 计算时序差分目标 td_target = rewards + self.gamma * self.critic(next_states) * (1 - dones) td_delta = td_target - self.critic(states) # 优势函数估计 # Actor损失（策略梯度） log_probs = torch.log(self.actor(states).gather(1, actions)) actor_loss = -torch.mean(log_probs * td_delta.detach()) # Critic损失（值函数拟合） critic_loss = torch.mean(F.mse_loss(self.critic(states), td_target.detach()))

实际训练CartPole环境时，有几个参数特别敏感。首先是折扣因子gamma，我试过设为0.9时智能体只关注短期平衡，设为0.99后才学会长期稳定。其次是学习率，Critic的网络通常需要比Actor更大的学习率（比如1e-2 vs 1e-3），因为价值估计是策略优化的基础。下面是训练200轮后的典型学习曲线：

训练轮次	平均回报	关键观察
0-50	<50	随机探索阶段
50-100	50-150	开始掌握基本平衡
100-150	150-190	出现稳定控制策略
150-200	>195	接近完美表现

2. 从A2C到A3C：并行化带来的突破

在基础Actor-Critic之上，研究者们提出了异步优势Actor-Critic（A3C）算法。这个"异步"二字可大有玄机。记得我第一次在8核CPU上跑A3C时，训练速度比单线程快了近6倍！它的妙处在于创建多个worker线程并行与环境交互，就像组团开黑打游戏——每个worker积累的经验都会定期汇总到主网络。

A2C则是A3C的同步版本，虽然少了异步的复杂度，但实现起来更简单。我建议新手可以从A2C入手，它的核心是在同一批轨迹数据上计算所有时间步的优势估计，然后用这些估计同时更新策略和价值函数。对比实验显示，在CartPole环境中，A2C通常能在100轮内达到最大回报，而原始AC需要150轮左右。

实现时有个细节容易踩坑：优势归一化。我曾在HalfCheetah环境中忘记对优势做归一化，结果策略更新直接崩盘。正确做法是在每批数据中减去均值、除以标准差：

advantages = (advantages - advantages.mean()) / (advantages.std() + 1e-5)

3. DDPG：当Actor-Critic遇见DQN

Deep Deterministic Policy Gradient（DDPG）堪称是强化学习中的"混血王子"。它继承了Actor-Critic的双网络结构，又吸收了DQN的经验回放和目标网络，特别适合像机械臂控制这类连续动作空间任务。第一次看到DDPG的四大网络结构（Actor、Critic及其目标网络）时，我也觉得头大，但拆解后就会发现它的精妙设计。

经验回放是DDPG的"记忆宫殿"。在我的机械臂抓取实验中，设置100万容量的回放缓冲区后，样本效率提升了3倍。目标网络则是稳定训练的"定海神针"，通过软更新（通常τ=0.005）平滑跟踪主网络的变化。下面是DDPG与原始AC在Pendulum环境中的对比：

算法	收敛速度	最终表现	样本效率
AC	慢	中等	低
DDPG	快	优	高

噪声策略是DDPG探索环境的"探路杖"。早期我执着于使用复杂的OU噪声，后来发现简单的高斯噪声配合线性衰减同样有效：

def take_action(self, state): action = self.actor(state) # 训练阶段添加噪声，测试阶段去掉 if self.training: noise = self.sigma * np.random.randn(self.action_dim) action = np.clip(action + noise, -self.action_bound, self.action_bound) return action

4. 实战技巧与避坑指南

调试强化学习算法就像中医把脉，需要观察多个信号。我总结了几条实用经验：

值函数膨胀：当Critic输出持续大于真实回报时，说明出现了过估计。这时可以尝试减小Critic的学习率，或者像TD3那样引入双重Critic。
探索不足：如果Actor的动作品种单一，可以尝试在训练初期增大噪声强度，如设置sigma从0.2线性衰减到0.01。
训练波动大：这通常是目标网络更新太频繁导致的。除了调小τ值，还可以增加批次大小（如从64调到256）。

在机械臂控制项目中，我发现DDPG对超参数特别敏感。下面这组参数经过多次调优，适合大多数连续控制任务：

{ 'actor_lr': 1e-4, # 策略网络学习率 'critic_lr': 1e-3, # 价值网络学习率 'gamma': 0.99, # 折扣因子 'tau': 0.005, # 软更新系数 'buffer_size': 1e6, # 回放缓冲区大小 'sigma': 0.1, # 初始噪声强度 'batch_size': 128 # 训练批次大小 }

对于更复杂的任务如四足机器人行走，可以考虑进阶技巧：