当前位置：首页 > news >正文

PPO算法演化历程（1992-2025）

news 2026/3/27 6:10:17

文章目录

根据搜索结果，我来为您详细讲解PPO算法的演化历程。这是一个从简单到复杂、再从复杂到简洁的精彩技术演进故事。

📊 PPO算法演化历程全景图

一、起点：策略梯度的朴素思想（1992年）

REINFORCE算法（Williams, 1992）

最原始的策略梯度思想确实如您所说——最大化期望回报：

J(theta) = mathbb{E{tau sim pitheta}[R(tau)] = mathbb{E{tau sim pitheta}left[sum_{t=0}^{T} gamma^t r_tright]

核心公式：
nabla_theta J(theta) = mathbb{E{tau sim pitheta}left[sum_{t=0}^{T} nabla_theta log pi_theta(a_t|s_t) cdot G_tright]

其中 G_t 是从时刻t开始的累积回报。

存在的问题：
问题描述
🔴 高方差使用完整轨迹的回报，方差极大

🔴 样本效率低需要大量采样才能收敛

🔴 训练不稳定步长难以控制，容易发散

二、第一次优化：降低方差（2000年代）

Actor-Critic架构

引入价值函数作为baseline，将回报替换为优势函数：

A(s_t, a_t) = Q(s_t, a_t) - V(s_t)

改进后的梯度：
nabla_theta J(theta) = mathbb{E}left[sum_{t=0}^{T} nabla_theta log pi_theta(a_t|s_t) cdot A(s_t, a_t)right]

GAE（Generalized Advantage Estimation）进一步改进优势估计，平衡偏差与方差。

三、第二次优化：解决训练不稳定（2015年）

TRPO（Trust Region Policy Optimization）

由John Schulman等人提出，核心思想是限制策略更新幅度，确保每次更新都在"信赖域"内。

优化问题：
max_theta mathbb{E}left[frac{pi_theta(a|s)}{pi_{theta_{old}}(a|s)} cdot A(s,a)right]

text{s.t.} quad mathbb{E}[D_{KL}(pi_{theta_{old}} || pi_theta)] leq delta

核心创新：
✅ 使用KL散度约束策略更新幅度
✅ 理论上保证单调改进
✅ 训练稳定性大幅提升（4-7倍）

存在的问题：
问题描述
🔴 计算复杂需要计算Fisher信息矩阵

🔴 实现困难需要共轭梯度法求解

🔴 样本利用率低难以并行化

四、第三次优化：简化实现（2017年）

PPO（Proximal Policy Optimization）

OpenAI在2017年提出，用更简单的方式实现TRPO的效果。

PPO-Clip（最常用版本）

核心目标函数：
L^{CLIP}(theta) = mathbb{E}_tleft[min(r_t(theta) cdot hat{A}_t, text{clip}(r_t(theta), 1-epsilon, 1+epsilon) cdot hat{A}_t)right]

其中：
r_t(theta) = frac{pi_theta(a_t|s_t)}{pi_{theta_{old}}(a_t|s_t)} 是概率比
epsilon 是裁剪参数（通常0.2）
hat{A}_t 是优势函数估计

完整损失函数：
L(theta) = L^{CLIP}(theta) - c_1 L^{VF}(theta) + c_2 H(s_t, pi_theta(cdot))
组件作用
L^{CLIP} 策略损失（带裁剪）

L^{VF} 价值函数损失

H 熵正则化（鼓励探索）

PPO vs TRPO对比：
特性 TRPO PPO
约束方式 KL散度硬约束概率比裁剪

优化方法二阶优化（共轭梯度）一阶优化（SGD）

实现难度复杂简单

并行化困难容易

性能相当相当或更好

五、最新演进：大模型时代（2024-2025年）

GRPO（Group Relative Policy Optimization）

由DeepSeek提出，用于大语言模型训练（如DeepSeek-R1）。

核心创新：
🎯 去掉Critic网络：不再需要单独的价值函数近似
🎯 组内相对比较：对同一问题采样多个输出，组内标准化计算优势
🎯 降低训练成本：相比PPO降低近50%

优势计算：
hat{A}_{i,t} = frac{r_i - text{mean}®}{text{std}®}

其中 r_i 是第i个输出的奖励，在组内进行标准化。

六、演化总结图

┌─────────────────────────────────────────────────────────────────────────┐
│ PPO算法演化历程（1992-2025） │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ 1992 2000s 2015 2017 2024 │
│ │ │ │ │ │ │
│ ▼ ▼ ▼ ▼ ▼ │
│ ┌─────┐ ┌─────────┐ ┌─────┐ ┌─────┐ ┌─────┐ │
│ │REIN │ ───→ │ A-C/GAE │ ──→ │ TRPO│ ────→ │ PPO │ ────→ │ GRPO│ │
│ │FORCE│ │ │ │ │ │ │ │ │ │
│ └─────┘ └─────────┘ └─────┘ └─────┘ └─────┘ │
│ │ │ │ │ │ │
│ ▼ ▼ ▼ ▼ ▼ │
│ 高方差降低方差稳定更新简化实现大模型优化 │
│ 采样效率低引入Baseline KL约束概率比裁剪去掉Critic │
│ │
└─────────────────────────────────────────────────────────────────────────┘

七、核心演化逻辑
阶段核心问题解决方案关键创新
REINFORCE 如何优化策略？策略梯度定理直接优化策略

Actor-Critic 方差太大引入价值baseline 优势函数估计

TRPO 更新不稳定信赖域约束 KL散度限制

PPO 实现太复杂裁剪替代约束一阶优化

GRPO 大模型成本高组内相对比较去掉Critic网络

八、当前应用

PPO及其变体已成为多个领域的事实标准：
领域应用
🎮 游戏AI AlphaGo、Dota2、StarCraft2

🤖 机器人控制连续动作控制、具身智能

💬 大语言模型 RLHF（人类反馈强化学习）

🚗 自动驾驶决策规划

PPO的演化历程体现了强化学习算法设计的核心哲学：在理论保证、实现复杂度、计算效率之间寻找最佳平衡点。

查看全文