当前位置：首页 > news >正文

【强化学习】一文带你了解PPO之前的强化学习：从试错理论到深度决策，半个世纪的思想传承

news 2026/6/26 3:49:12

上一篇我们详细拆解了强化学习的「国民算法」PPO，它以极简的实现与极强的稳定性，成为了从机器人控制到大模型 RLHF 的通用基线。但 PPO 并非横空出世，它的每一个核心设计 ——Actor-Critic 架构、广义优势估计、策略更新约束 —— 都能在强化学习半个多世纪的发展史上找到思想源头。

今天我们就顺着时间线，复盘 PPO 诞生之前的强化学习发展路线，看看那些经典算法留下了哪些延续至今的核心遗产。

一、思想萌芽与数学奠基（1950s-1970s）：从心理学到 MDP 框架

强化学习的思想源头并非计算机科学，而是心理学中的「试错学习」；而它能成为一门严谨的学科，核心是找到了马尔可夫决策过程这一数学底座。

1. 思想起源：动物的试错学习

1898 年，心理学家桑代克通过「迷笼实验」提出了效果律（Law of Effect）：带来满意结果的行为会被重复，带来痛苦结果的行为会被削弱。这是强化学习「奖惩驱动行为优化」最底层的逻辑源头，直到今天的 RLHF 依然遵循这套逻辑 —— 回答符合人类偏好就给正向奖励，反之则给负向奖励。

1950 年，图灵在《计算机器与智能》中首次提出了「奖惩 - 惩罚」式的机器训练思路，首次将试错学习与人工智能关联起来。但此时还没有形成完整的算法框架。

2. 数学底座：贝尔曼动态规划与 MDP

1957 年，理查德・贝尔曼提出了动态规划（Dynamic Programming）与马尔可夫决策过程（Markov Decision Process, MDP），为强化学习奠定了严格的数学基础。

MDP 用「状态 S、动作 A、奖励 R、转移概率 P、折扣因子 γ」五元组完整描述了一个序列决策问题；
贝尔曼方程给出了状态价值的递归关系：V(s)=E[r+γV(s′)]V(s) = \mathbb{E}[r + \gamma V(s')]V(s)=E[r+γV(s′)]，即当前状态的价值等于即时奖励加上下一状态的折扣价值。

延续至今的核心遗产：
直到今天，所有强化学习算法（包括 PPO、SAC、GRPO）都默认基于 MDP 框架建模。贝尔曼方程的「自举（Bootstrapping）」思想 —— 用后续状态的价值估计更新当前状态价值 —— 贯穿了从 Q-learning 到 DQN 再到 PPO 的所有主流算法。

3. 早期求解方法：策略迭代与价值迭代

1960 年，霍华德提出策略迭代（策略评估 + 策略改进循环）和价值迭代算法，完美解决了已知环境模型的 MDP 求解问题。但这类方法需要完整知道环境的转移概率，只能解决棋盘、迷宫等规则完全透明的简单问题，无法应用于真实世界的未知环境。

这一阶段的局限也很明显：所有方法都依赖环境模型，只能处理极小的离散状态空间，距离真正的「从交互中学习」还有很远的距离。

二、表格型强化学习黄金时代（1980s-1990s）：真正的「从交互中学习」

1980 年代，强化学习正式摆脱了「已知环境模型」的限制，走向了纯靠交互采样的无模型强化学习。这一阶段的算法都基于表格存储价值，因此也被称为表格型 RL。

1. 时序差分学习：TD (λ)

1988 年，强化学习泰斗 Sutton 提出了时序差分学习（Temporal Difference, TD），这是强化学习历史上里程碑式的突破。

核心思想：结合蒙特卡洛的采样思想和动态规划的自举思想，不需要等整个回合结束，每走一步就用「当前奖励 + 下一步价值估计」来更新当前价值；
经典算法：TD (λ)，通过 λ 参数平衡单步 TD 与蒙特卡洛的偏差 - 方差 trade-off。

经典应用：1992 年 Tesauro 基于 TD (λ) 和神经网络开发的TD-Gammon，在双陆棋上达到了人类冠军水平，这是神经网络 + 强化学习的第一次惊艳亮相，只是受限于当时的算力，没有形成规模化爆发。

2. Q-learning：异策略的王者

1989 年，Watkins 提出了Q-learning，彻底奠定了无模型强化学习的范式。

核心原理：直接学习动作价值函数 Q (s,a)，更新公式为：
Q(s,a)←Q(s,a)+α[r+γmax⁡a′Q(s′,a′)−Q(s,a)]Q(s,a) \leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s',a') - Q(s,a)]Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)−Q(s,a)]
核心特点：异策略（Off-policy）—— 学习时用贪婪策略选最优动作，而交互时可以用探索策略（如 ε-greedy），行为策略和学习策略可以分离。

Q-learning 的出现，让智能体可以在完全未知的环境中，仅通过交互试错就学到最优策略，是强化学习真正走向实用的标志。

3. SARSA：同策略的稳健派

1994 年，Rummery 和 Niranjan 提出了SARSA（State-Action-Reward-State-Action）。

与 Q-learning 的核心区别：同策略（On-policy），更新时使用下一步实际执行的动作，而不是最优动作；
特点：学习更保守、更稳健，在有风险的环境中更安全，但收敛速度慢于 Q-learning。

本阶段的核心遗产

无模型学习范式：不需要知道环境动力学，纯靠交互采样就能学习，这是所有现代深度强化学习的基本模式；
探索与利用的平衡：ε-greedy、玻尔兹曼探索等策略，直到今天仍是 RL 算法的标配；
异策略与同策略的分野：这一分类延续至今 ——DQN、SAC 属于异策略路线，PPO、A2C 属于同策略路线。

局限也很明显：表格存储 Q 值，只能处理离散、有限的状态空间，面对图像、连续控制等高维状态完全无能为力。

三、函数逼近时代（1990s-2013 年）：走出表格，走向策略梯度

随着状态空间变大，表格法彻底失效，研究者开始用函数（线性函数、神经网络）来拟合价值函数或策略函数，强化学习进入了函数逼近时代。

1. 策略梯度方法的诞生：REINFORCE

1992 年，Williams 提出了REINFORCE 算法，首次将策略梯度引入强化学习，开创了「直接优化策略」的全新路线，和之前的「先估价值再选动作」的价值类方法形成了两大分支。

核心思想：参数化策略 π_θ(a|s)，直接沿着「让累计奖励期望变大」的方向更新策略参数；
核心公式：策略梯度定理∇θJ(θ)=E[∇θlog⁡πθ(a∣s)⋅Gt]\nabla_\theta J(\theta) = \mathbb{E}[\nabla_\theta \log \pi_\theta(a|s) \cdot G_t]∇θJ(θ)=E[∇θlogπθ(a∣s)⋅Gt]，其中 G_t 是从当前步到回合结束的累计回报。

REINFORCE 是所有策略梯度算法的祖宗 ——PPO、TRPO、A2C，本质上都是在 REINFORCE 的基础上做方差缩减与稳定性改进。

但原生 REINFORCE 的问题非常突出：

方差极大，训练极不稳定，学习率很难调；
必须等整个回合结束才能更新，样本效率极低。

2. Actor-Critic 框架：策略与价值的结合

为了解决 REINFORCE 方差大的问题，研究者将价值函数引入策略梯度，形成了 \\Actor-Critic（演员 - 评论家）\\架构：

Actor（演员）：负责学习策略，输出动作；
Critic（评论家）：负责学习价值函数，评估动作的好坏，用优势函数替代累计回报 G_t，大幅降低梯度方差。

Actor-Critic 的出现，实现了单步更新，提升了样本效率，同时大幅稳定了训练。这一架构也成为了现代深度强化学习的绝对主流 ——PPO、SAC、TD3、DDPG 全部基于 Actor-Critic 框架。

3. 自然策略梯度与 TRPO 的前奏

策略梯度的一个核心痛点是：参数空间的梯度步长，不等于策略空间的实际变化幅度，很容易出现「一步更新、策略崩掉」的情况。
2002 年，Kakade 提出自然策略梯度，用 Fisher 信息矩阵对梯度做缩放，让策略更新在分布空间中保持稳定步长。这一思想直接催生了后来的 TRPO，也为 PPO 的裁剪机制提供了核心动机 —— 用更简单的方式达到同样的「限制策略更新幅度」的目标。

四、深度强化学习爆发期（2013-2017）：深度学习与 RL 的强强联合

2012 年 AlexNet 引爆深度学习革命后，研究者迅速将 CNN、DNN 与强化学习结合，深度强化学习（DRL）时代正式到来。在 PPO 出现之前的四年里，多个里程碑式的算法接连诞生，直接铺垫了 PPO 的成功。

1. DQN：深度强化学习的开山之作

2013 年 DeepMind 提出 DQN，2015 年登上 Nature，直接让深度强化学习走入大众视野。

核心做法：用卷积神经网络替代 Q 表，直接输入游戏像素画面，输出每个动作的 Q 值；
两大稳定技巧：
1. 经验回放（Experience Replay）：把交互数据存进回放池，训练时随机采样，打破数据时序相关性，稳定训练；
2. 目标网络（Target Network）：单独冻结一个目标网络计算目标 Q 值，避免「追逐移动目标」的不稳定问题。

成就：在 49 款 Atari 游戏上达到了人类水平，部分游戏远超人类。
局限：只能处理离散动作，无法适配机器人控制等连续动作场景；训练依然不稳定，容易出现 Q 值过估计。