当前位置：首页 > news >正文

策略迭代vs值迭代：从贝尔曼方程看强化学习两大算法的本质区别

news 2026/7/3 7:41:56

策略迭代与值迭代：从数学本质到工程实践的深度解析

在强化学习的核心算法体系中，策略迭代(Policy Iteration)和值迭代(Value Iteration)犹如一对双生子，它们都源于贝尔曼最优方程，却演化出截然不同的求解路径。这两种算法不仅是理论研究的经典范例，更是实际工程中解决马尔可夫决策过程(MDP)问题的利器。本文将深入剖析二者的数学本质差异，揭示它们在收敛特性、计算效率和应用场景上的微妙平衡，并探讨截断策略迭代这一折中方案的实际价值。

1. 算法框架的哲学分野

策略迭代和值迭代虽然最终目标相同——寻找最优策略，但它们的求解哲学却大相径庭。理解这种差异，需要从贝尔曼方程的两种表达形式入手。

策略迭代采用"评估-改进"的双阶段框架：

策略评估(Policy Evaluation)：固定当前策略π，精确计算其状态价值函数v_π，直到收敛
策略改进(Policy Improvement)：基于当前价值函数，通过贪婪策略生成更优的新策略

# 策略迭代伪代码示例 def policy_iteration(): π = initialize_policy() # 随机初始化策略 while not converged: v = policy_evaluation(π) # 精确评估当前策略价值 π = greedy_policy(v) # 生成贪婪策略 return π

值迭代则采用"一步更新"的简约框架：

价值更新(Value Update)：直接应用贝尔曼最优算子更新价值函数
隐式策略：最优策略通过价值函数的argmax隐式获得

# 值迭代伪代码示例 def value_iteration(): v = initialize_values() # 随机初始化价值函数 while not converged: v = bellman_optimal_operator(v) # 应用最优贝尔曼算子 return greedy_policy(v) # 从最终价值函数导出策略

二者的关键区别可总结为下表：

特性	策略迭代	值迭代
更新对象	显式维护策略π	仅维护价值函数v
评估步骤	完全收敛的策略评估	单步贝尔曼最优更新
策略显式性	显式策略更新	隐式通过价值函数导出
中间结果意义	每个πk都是合法策略	中间v_k不对应任何具体策略

2. 数学本质的深层解析

从泛函分析视角看，这两种算法都是求解贝尔曼最优方程的不同迭代方案，但它们在数学性质上展现出有趣的对比。

2.1 策略迭代的完全评估特性

策略迭代要求每次策略改进前都进行完全策略评估，这源于其数学基础：

策略评估阶段求解的是贝尔曼期望方程：
```
v_π = r_π + γP_πv_π
```
该方程具有唯一解，需要通过迭代求解（或直接矩阵求逆）
策略改进定理保证：
```
v_{π_{k+1}} ≥ v_{π_k}
```
这种单调递增性质确保算法必然收敛

注意：完全策略评估虽然计算成本高，但能确保每次改进都基于准确的策略价值评估，这是策略迭代收敛速度快的理论基础。

2.2 值迭代的伪状态值现象

值迭代中的中间价值函数v_k具有特殊数学含义：

它们不满足任何具体策略的贝尔曼方程：
```
v_{k+1} = max_a (r_a + γP_av_k)
```
这个更新直接应用贝尔曼最优算子
v_k实质上是最优价值函数的估计序列：
- 在k→∞时收敛到v*
- 但在有限步时，不代表任何具体策略的价值

这种现象解释了为何值迭代的中间结果难以直接用于策略决策，也体现了其"重价值轻策略"的特点。

3. 计算效率的实践权衡

在实际应用中，算法选择往往需要在计算精度和效率之间寻找平衡点。下面我们通过具体指标对比两种算法的性能特征。

3.1 时间复杂度分析

考虑一个具有|S|个状态和|A|个动作的MDP：

操作	策略迭代	值迭代
单次迭代复杂度	O(	S
迭代次数	通常较少(策略空间维度低)	通常较多(需价值收敛)
内存占用	需存储策略和价值函数	仅需存储价值函数

注：策略迭代的立方项来自策略评估阶段的矩阵求逆或迭代求解

3.2 收敛速度对比

两种算法在收敛特性上展现出有趣的互补优势：

策略迭代：
- 策略空间通常比价值空间"小"
- 每次迭代带来显著的策略改进
- 适合策略变化敏感的环境
值迭代：
- 无需等待完全策略评估
- 每次迭代计算量小
- 适合大规模状态空间

实验数据显示，在相同精度要求下，策略迭代通常需要更少的外层迭代，但每次迭代耗时更长；而值迭代则需要更多次迭代，但单次迭代更快。

4. 截断策略迭代：平衡的艺术

截断策略迭代(Truncated Policy Iteration)巧妙地在两个极端之间找到了平衡点。其核心思想是在策略评估阶段只进行有限次(j次)迭代，而非完全收敛。

4.1 算法框架

截断策略迭代的伪代码实现：

def truncated_policy_iteration(j): π = initialize_policy() v = initialize_values() while not converged: # 截断策略评估(j次迭代) for _ in range(j): v = bellman_expectation(v, π) # 策略改进 π = greedy_policy(v) return π