当前位置：首页 > news >正文

从“动态规划”到“强化学习”：贝尔曼方程的前世今生与核心思想

news 2026/7/19 1:07:19

从“动态规划”到“强化学习”：贝尔曼方程的前世今生与核心思想

1953年，美国数学家理查德·贝尔曼在兰德公司研究导弹防御系统时，面对复杂的多阶段决策问题，提出了一个革命性的数学工具——动态规划。这个诞生于冷战背景下的理论，如今已成为人工智能领域最重要的基础之一。贝尔曼方程作为动态规划的核心，不仅在传统优化问题中展现出强大威力，更在强化学习的兴起中焕发出新的生命力。

1. 动态规划：贝尔曼方程的诞生土壤

1.1 最短路径问题的启示

想象你站在一个迷宫的入口处，面前有若干条分叉路径。如何找到通往出口的最短路线？这个看似简单的问题，正是动态规划思想的典型应用场景。贝尔曼敏锐地发现，最优路径的子路径也必然是最优的——这就是著名的"最优子结构"特性。

以城市导航为例：

# 动态规划求解最短路径的伪代码 def shortest_path(graph, start, end): # 初始化距离字典 distances = {node: float('inf') for node in graph} distances[start] = 0 # 贝尔曼-福特算法核心 for _ in range(len(graph)-1): for u in graph: for v, w in graph[u].items(): if distances[u] + w < distances[v]: distances[v] = distances[u] + w return distances[end]

1.2 重叠子问题与记忆化

动态规划第二个关键特性是"重叠子问题"。在计算斐波那契数列时，传统递归会产生大量重复计算：

计算方法	时间复杂度	空间复杂度
纯递归	O(2^n)	O(n)
动态规划	O(n)	O(n)

贝尔曼的创新在于提出用表格存储中间结果，将指数级问题转化为多项式时间可解问题。这种思想后来发展成计算机科学中重要的"记忆化"技术。

2. 马尔可夫决策过程：动态规划的进化

2.1 从确定性到随机性

传统动态规划处理的是确定性环境，而现实世界充满不确定性。马尔可夫决策过程(MDP)通过引入：

状态转移概率：P(s'|s,a)
即时奖励函数：R(s,a,s')

将贝尔曼方程扩展到了随机环境。这种扩展不是简单的数学变形，而是决策理论的重要飞跃。

注意：马尔可夫性质要求"未来只依赖于当前状态"，这与人类直觉不同，却成为建模复杂系统的有效简化

2.2 价值函数的递归本质

在MDP框架下，状态价值函数V(s)的定义体现了深刻的递归思想：

V(s) = 即时奖励 + γ * 期望未来奖励 = R(s) + γ * Σ[P(s'|s) * V(s')]

这个看似简单的等式，却蕴含着解决序列决策问题的全部智慧。γ折扣因子(0≤γ<1)的引入，确保了无限时间跨度下的收敛性。

3. 强化学习：贝尔曼方程的新舞台

3.1 从已知模型到未知环境

传统动态规划假设完全知晓环境模型(P和R已知)，而强化学习面临的是：

环境动态特性未知
只能通过交互获得样本
需要在线学习与决策

贝尔曼方程在这种情况下演变为：

时序差分学习：TD(λ)算法
Q-learning：离策略学习
深度Q网络：函数逼近

3.2 贝尔曼最优性方程

当策略追求最优时，贝尔曼方程转化为：

Q*(s,a) = E[R + γ * max Q*(s',a')]

这个形式启发了：

值迭代算法
策略迭代算法
现代深度强化学习架构

4. 实践中的挑战与突破

4.1 维数诅咒的应对

在高维状态空间中，传统表格法面临存储和计算瓶颈。解决方案包括：

函数逼近：用神经网络参数化价值函数
经验回放：打破样本相关性
分层强化学习：分而治之

4.2 算法演进时间线

重要里程碑及其与贝尔曼方程的关系：

年份	算法	关键创新	贝尔曼方程角色
1989	Q-learning	离策略学习	最优贝尔曼方程
1992	TD(λ)	资格迹	多步贝尔曼方程
2015	DQN	深度函数逼近	固定目标网络稳定训练
2017	Rainbow	集成改进	多种贝尔曼变体组合