当前位置: 首页 > news >正文

【强化学习】一文带你了解PPO之前的强化学习:从试错理论到深度决策,半个世纪的思想传承

上一篇我们详细拆解了强化学习的「国民算法」PPO,它以极简的实现与极强的稳定性,成为了从机器人控制到大模型 RLHF 的通用基线。但 PPO 并非横空出世,它的每一个核心设计 ——Actor-Critic 架构、广义优势估计、策略更新约束 —— 都能在强化学习半个多世纪的发展史上找到思想源头。

今天我们就顺着时间线,复盘 PPO 诞生之前的强化学习发展路线,看看那些经典算法留下了哪些延续至今的核心遗产。


一、思想萌芽与数学奠基(1950s-1970s):从心理学到 MDP 框架

强化学习的思想源头并非计算机科学,而是心理学中的「试错学习」;而它能成为一门严谨的学科,核心是找到了马尔可夫决策过程这一数学底座。

1. 思想起源:动物的试错学习

1898 年,心理学家桑代克通过「迷笼实验」提出了效果律(Law of Effect):带来满意结果的行为会被重复,带来痛苦结果的行为会被削弱。这是强化学习「奖惩驱动行为优化」最底层的逻辑源头,直到今天的 RLHF 依然遵循这套逻辑 —— 回答符合人类偏好就给正向奖励,反之则给负向奖励。

1950 年,图灵在《计算机器与智能》中首次提出了「奖惩 - 惩罚」式的机器训练思路,首次将试错学习与人工智能关联起来。但此时还没有形成完整的算法框架。

2. 数学底座:贝尔曼动态规划与 MDP

1957 年,理查德・贝尔曼提出了动态规划(Dynamic Programming)与马尔可夫决策过程(Markov Decision Process, MDP),为强化学习奠定了严格的数学基础。

  • MDP 用「状态 S、动作 A、奖励 R、转移概率 P、折扣因子 γ」五元组完整描述了一个序列决策问题;

  • 贝尔曼方程给出了状态价值的递归关系:V(s)=E[r+γV(s′)]V(s) = \mathbb{E}[r + \gamma V(s')]V(s)=E[r+γV(s)],即当前状态的价值等于即时奖励加上下一状态的折扣价值。

延续至今的核心遗产
直到今天,所有强化学习算法(包括 PPO、SAC、GRPO)都默认基于 MDP 框架建模。贝尔曼方程的「自举(Bootstrapping)」思想 —— 用后续状态的价值估计更新当前状态价值 —— 贯穿了从 Q-learning 到 DQN 再到 PPO 的所有主流算法。

3. 早期求解方法:策略迭代与价值迭代

1960 年,霍华德提出策略迭代(策略评估 + 策略改进循环)和价值迭代算法,完美解决了已知环境模型的 MDP 求解问题。但这类方法需要完整知道环境的转移概率,只能解决棋盘、迷宫等规则完全透明的简单问题,无法应用于真实世界的未知环境。

这一阶段的局限也很明显:所有方法都依赖环境模型,只能处理极小的离散状态空间,距离真正的「从交互中学习」还有很远的距离。


二、表格型强化学习黄金时代(1980s-1990s):真正的「从交互中学习」

1980 年代,强化学习正式摆脱了「已知环境模型」的限制,走向了纯靠交互采样的无模型强化学习。这一阶段的算法都基于表格存储价值,因此也被称为表格型 RL。

1. 时序差分学习:TD (λ)

1988 年,强化学习泰斗 Sutton 提出了时序差分学习(Temporal Difference, TD),这是强化学习历史上里程碑式的突破。

  • 核心思想:结合蒙特卡洛的采样思想和动态规划的自举思想,不需要等整个回合结束,每走一步就用「当前奖励 + 下一步价值估计」来更新当前价值;

  • 经典算法:TD (λ),通过 λ 参数平衡单步 TD 与蒙特卡洛的偏差 - 方差 trade-off。

经典应用:1992 年 Tesauro 基于 TD (λ) 和神经网络开发的TD-Gammon,在双陆棋上达到了人类冠军水平,这是神经网络 + 强化学习的第一次惊艳亮相,只是受限于当时的算力,没有形成规模化爆发。

2. Q-learning:异策略的王者

1989 年,Watkins 提出了Q-learning,彻底奠定了无模型强化学习的范式。

  • 核心原理:直接学习动作价值函数 Q (s,a),更新公式为:
    Q(s,a)←Q(s,a)+α[r+γmax⁡a′Q(s′,a′)−Q(s,a)]Q(s,a) \leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s',a') - Q(s,a)]Q(s,a)Q(s,a)+α[r+γmaxaQ(s,a)Q(s,a)]

  • 核心特点:异策略(Off-policy)—— 学习时用贪婪策略选最优动作,而交互时可以用探索策略(如 ε-greedy),行为策略和学习策略可以分离。

Q-learning 的出现,让智能体可以在完全未知的环境中,仅通过交互试错就学到最优策略,是强化学习真正走向实用的标志。

3. SARSA:同策略的稳健派

1994 年,Rummery 和 Niranjan 提出了SARSA(State-Action-Reward-State-Action)。

  • 与 Q-learning 的核心区别:同策略(On-policy),更新时使用下一步实际执行的动作,而不是最优动作;

  • 特点:学习更保守、更稳健,在有风险的环境中更安全,但收敛速度慢于 Q-learning。

本阶段的核心遗产

  1. 无模型学习范式:不需要知道环境动力学,纯靠交互采样就能学习,这是所有现代深度强化学习的基本模式;

  2. 探索与利用的平衡:ε-greedy、玻尔兹曼探索等策略,直到今天仍是 RL 算法的标配;

  3. 异策略与同策略的分野:这一分类延续至今 ——DQN、SAC 属于异策略路线,PPO、A2C 属于同策略路线。

局限也很明显:表格存储 Q 值,只能处理离散、有限的状态空间,面对图像、连续控制等高维状态完全无能为力。


三、函数逼近时代(1990s-2013 年):走出表格,走向策略梯度

随着状态空间变大,表格法彻底失效,研究者开始用函数(线性函数、神经网络)来拟合价值函数或策略函数,强化学习进入了函数逼近时代。

1. 策略梯度方法的诞生:REINFORCE

1992 年,Williams 提出了REINFORCE 算法,首次将策略梯度引入强化学习,开创了「直接优化策略」的全新路线,和之前的「先估价值再选动作」的价值类方法形成了两大分支。

  • 核心思想:参数化策略 π_θ(a|s),直接沿着「让累计奖励期望变大」的方向更新策略参数;

  • 核心公式:策略梯度定理∇θJ(θ)=E[∇θlog⁡πθ(a∣s)⋅Gt]\nabla_\theta J(\theta) = \mathbb{E}[\nabla_\theta \log \pi_\theta(a|s) \cdot G_t]θJ(θ)=E[θlogπθ(as)Gt],其中 G_t 是从当前步到回合结束的累计回报。

REINFORCE 是所有策略梯度算法的祖宗 ——PPO、TRPO、A2C,本质上都是在 REINFORCE 的基础上做方差缩减与稳定性改进。

但原生 REINFORCE 的问题非常突出:

  • 方差极大,训练极不稳定,学习率很难调;

  • 必须等整个回合结束才能更新,样本效率极低。

2. Actor-Critic 框架:策略与价值的结合

为了解决 REINFORCE 方差大的问题,研究者将价值函数引入策略梯度,形成了 \\Actor-Critic(演员 - 评论家)\\架构:

  • Actor(演员):负责学习策略,输出动作;

  • Critic(评论家):负责学习价值函数,评估动作的好坏,用优势函数替代累计回报 G_t,大幅降低梯度方差。

Actor-Critic 的出现,实现了单步更新,提升了样本效率,同时大幅稳定了训练。这一架构也成为了现代深度强化学习的绝对主流 ——PPO、SAC、TD3、DDPG 全部基于 Actor-Critic 框架

3. 自然策略梯度与 TRPO 的前奏

策略梯度的一个核心痛点是:参数空间的梯度步长,不等于策略空间的实际变化幅度,很容易出现「一步更新、策略崩掉」的情况。
2002 年,Kakade 提出自然策略梯度,用 Fisher 信息矩阵对梯度做缩放,让策略更新在分布空间中保持稳定步长。这一思想直接催生了后来的 TRPO,也为 PPO 的裁剪机制提供了核心动机 —— 用更简单的方式达到同样的「限制策略更新幅度」的目标。


四、深度强化学习爆发期(2013-2017):深度学习与 RL 的强强联合

2012 年 AlexNet 引爆深度学习革命后,研究者迅速将 CNN、DNN 与强化学习结合,深度强化学习(DRL)时代正式到来。在 PPO 出现之前的四年里,多个里程碑式的算法接连诞生,直接铺垫了 PPO 的成功。

1. DQN:深度强化学习的开山之作

2013 年 DeepMind 提出 DQN,2015 年登上 Nature,直接让深度强化学习走入大众视野。

  • 核心做法:用卷积神经网络替代 Q 表,直接输入游戏像素画面,输出每个动作的 Q 值;

  • 两大稳定技巧:

    1. 经验回放(Experience Replay):把交互数据存进回放池,训练时随机采样,打破数据时序相关性,稳定训练;

    2. 目标网络(Target Network):单独冻结一个目标网络计算目标 Q 值,避免「追逐移动目标」的不稳定问题。

成就:在 49 款 Atari 游戏上达到了人类水平,部分游戏远超人类。
局限:只能处理离散动作,无法适配机器人控制等连续动作场景;训练依然不稳定,容易出现 Q 值过估计。

2. DDPG:连续控制的深度方案

2015 年,Lillicrap 等人提出DDPG(深度确定性策略梯度),将 DQN 的思路扩展到了连续动作空间。

  • 核心设计:确定性 Actor 网络直接输出连续动作值,Critic 网络评估动作价值;同时沿用了 DQN 的经验回放和目标网络,还加入了软更新机制。

  • 意义:首次让深度强化学习能稳定处理高维连续控制任务,成为机器人控制领域的早期基线。

  • 局限:训练依然很脆弱,超参稍微不对就不收敛,容易陷入局部最优。

3. A3C / A2C:并行化的 Actor-Critic

2016 年 DeepMind 提出A3C(异步优势 Actor-Critic),用多线程并行采样的方式替代了经验回放。

  • 核心思路:多个线程的智能体同时和环境交互,异步更新全局网络,天然打破数据相关性;

  • 优势:训练速度极快,不需要回放池,内存占用低;

  • 后续演进:同步版本 A2C 实现更简单,效果和 A3C 相当,成为了后续 PPO 的基础采样框架。

PPO 的「多环境并行采样、固定步长 T 更新」的模式,正是直接继承自 A2C。

4. TRPO:理论最优雅的策略优化

2015 年 Schulman 等人提出TRPO(信任域策略优化),是策略梯度领域的理论巅峰。

  • 核心思想:在策略更新时,加入 KL 散度约束(信任域),保证新旧策略的差异不超过阈值,从而实现策略性能的单调提升;

  • 成就:首次让策略梯度算法实现了极其稳定的训练,在复杂连续控制任务上远超之前的所有算法。

  • 致命局限:实现极其复杂,需要共轭梯度法求解约束优化,不兼容 Dropout、参数共享等深度学习常用技巧,工程落地门槛极高。

而 PPO 的核心目标,就是用最简单的一阶优化,达到接近 TRPO 的稳定性 —— 这也正是 PPO 诞生的直接背景。


五、跨越半个世纪的思想传承:哪些核心设计沿用至今

从 1950 年代的 MDP 到今天的 GRPO、RLHF,强化学习的算法迭代了很多代,但底层的核心思想几乎全部来自 PPO 之前的时代。PPO 之所以成功,本质是把前人的优秀思想做了一次极致的工程化整合。

1. MDP 与贝尔曼方程:永恒的数学底座

从 Q-learning 到 PPO,再到今天大模型的 GRPO,所有强化学习算法都没有跳出「状态 - 动作 - 奖励 - 转移」的 MDP 框架,贝尔曼方程的递归价值思想依然是所有价值估计的基础。哪怕是大模型 RLHF,本质也可以建模成一个序列决策的 MDP 问题。

2. Actor-Critic 架构:深度 RL 的主流范式

Actor 做决策、Critic 做评估的分工模式,从 1990 年代提出后,就成为了深度强化学习的绝对主流架构。PPO、SAC、TD3、DDPG 全部基于这一框架,甚至最新的 GRPO 虽然去掉了独立 Critic,但依然用组内奖励基线做优势估计,本质还是 Actor-Critic 的思想延续。

3. 「限制更新幅度」的稳定性追求

从自然策略梯度到 TRPO,再到 PPO 的裁剪机制,核心目标从来没变:防止策略更新过大导致训练崩溃
TRPO 用硬约束实现,PPO 用裁剪损失实现,GRPO 用相对优势隐式约束 —— 不同的实现方式,同一个底层思想。这条路线也一直延续到了今天的大模型 RL 对齐中。

4. 时序差分与自举:样本效率的核心

TD 学习的「用下一步价值估计更新当前状态」的自举思想,从表格时代延续到了深度时代。PPO 中使用的广义优势估计(GAE),正是 TD (λ) 在 Actor-Critic 框架下的直接扩展,用来平衡偏差与方差,提升优势估计的质量。

5. 探索与利用的平衡

从 ε-greedy 到熵正则化,鼓励探索、避免过早收敛的设计贯穿始终。PPO 损失函数中的熵奖励项,就是这一思想在策略梯度中的经典实现;而 SAC 的最大熵框架,更是把探索融入了优化目标本身。

6. 样本复用的工程优化

从 DQN 的经验回放,到 PPO「采样一次、更新多轮」的设计,本质都是在提升样本利用效率。这条路线也一直延续到了离线强化学习、大模型 RLHF 等场景中。


结语

回看强化学习的发展史,没有哪个算法是凭空出现的奇迹。PPO 不是颠覆式的创新,它更像一位优秀的集大成者:

  • 它继承了 A2C 的并行采样框架;

  • 沿用了 Actor-Critic 的双网络架构与 GAE 优势估计;

  • 用极简的裁剪机制,实现了 TRPO 级别的训练稳定性;

  • 同时兼容离散与连续动作,适配几乎所有决策场景。

正是站在半个世纪的思想积累之上,PPO 才能成为强化学习领域的「通用首选」。而今天我们看到的 GRPO、多智能体强化学习、大模型 RL 对齐,也依然在延续着从桑代克、贝尔曼、Sutton 一路传承下来的核心逻辑 ——通过试错与奖惩,学习最优的序列决策

技术的进步从来不是单点突破,而是代代相传的迭代与沉淀。理解了 PPO 之前的发展史,才能真正看懂 PPO 为什么伟大,也才能更清晰地判断强化学习未来的演进方向。

http://www.jsqmd.com/news/1078964/

相关文章:

  • CTF竞赛实战指南:从Web安全到逆向工程的技能体系构建
  • Unsloth微调Gemma 2 4B实战:显存优化与稳定训练指南
  • 2026 语音识别软件怎么选?实用不踩雷的语音识别软件评测
  • vue 甘特图 vxe-gantt 实现 table 表格与甘特图拖拽双向联动、拖拽添加,拖拽移除
  • Abaqus 2026下载安装教程(附安装包)Abaqus有限元分析保姆级安装教程
  • AI DAO:自治组织的智能决策引擎——从链上治理到 AI 辅助提案分析的全栈实践
  • 100 03黄大年茶思屋榜文第100期 第3题 行业场景视觉理解生成数据增强技术
  • 个人数字身份管理实践:从密码管理到数据资产的系统化构建
  • 复值McDiarmid不等式与随机矩阵算子范数集中性证明
  • RCC 时钟树完全笔记 —— STM32F103 标准库实现
  • 淘宝SKU颜色图自动分类功能实现原理深度解析
  • 【强化学习】为什么PPO成了强化学习领域的通用首选算法?
  • 金仓数据库备份与恢复实操:物理+逻辑+故障恢复全方案
  • IntelliJ IDEA Mac安装终极手册(附官方未公开的JDK 17+兼容性校验脚本)
  • (九)「JVS-Rules规则引擎 V2.5」— 决策流的管理
  • Spring Boot Starter 自动装配逻辑解析
  • 装修预算超支怎么办?2026控制成本的6个有效方法
  • 交叉扩散模型中的图灵斑图与全局稳定性:从反应扩散到生态格局
  • 蓝速科技 AI 数字人选购避坑与实测指南
  • 2026年业务数据报表工具推荐:中国式报表与Excel融合能力全对比
  • 告别本地局限!ToDesk AI远程操控多设备,QClaw还在单机打转?深度对比来了
  • 第25期 | AI生成UI:v0/Figma AI/截图转代码
  • 百亿级流水分类准确率 99.7%:见知数据分类标签引擎的技术架构与实战验证
  • AI科技热点日报 | 2026年6月25日
  • Strichartz估计:非线性波动方程全局解存在性的核心分析工具
  • 一个接口调用三个模型,我只用了一个反向代理
  • 想找靠谱花槽工厂?这几家实力过硬口碑佳值得你关注
  • 【会员专享数据】2001—2025年我国省市县三级的逐年植被净初级生产力(NPP)数据(Shp/Excel格式)
  • Coding 真有质的飞跃?实测下豆包seed 2.1 pro
  • 高维流形标量曲率C0收敛的定量估计与Ricci流方法