当前位置：首页 > news >正文

《强化学习数学原理》学习笔记7——从贝尔曼最优方程得到最优策略 - 教程

news 2026/3/26 17:35:50

下面求解贝尔曼最优方程，从而得到最优状态价值 $v^*$ 和最优策略 $\pi^*$ 。

一、求解最优状态价值 $v^*$

若 $v^*$ 是贝尔曼最优方程的解，那么它满足：
$v^* = \max_{\pi \in \Pi} (r_{\pi} + \gamma P_{\pi} v^*) \tag{1}$
显然， $v^*$ 是一个不动点，源于 $v^* = f(v^*)$ （这里 $\max_{\pi \in \Pi} (r_{\pi} + \gamma P_{\pi} v)$ ）。结合压缩映射定理，大家有以下结论。

存在性、唯一性与算法：对于贝尔曼最优方程 $\max_{\pi \in \Pi} (r_{\pi} + \gamma P_{\pi} v)$ ，始终存在唯一的解 $v^*$ ，可以通过迭代法求解：
$v_{k + 1} = f(v_k) = \max_{\pi \in \Pi} (r_{\pi} + \gamma P_{\pi} v_k), \quad k = 0, 1, 2, \dots \tag{2}$
对于任意初始给定的 $v_0$ ，当 $\to \infty$ 时， $v_k$ 会以指数速度快速收敛到 $v^*$ 。

由于 $f (v)$ 是压缩映射，该定理的证明可直接由压缩映射定理得到。这个定理很核心，因为它回答了一些基本问题：

二、求解最优策略 $\pi^*$

一旦得到 $v^*$ 的值，我们可以通过求解下式轻松得到 $\pi^*$ ：
$\pi^* = \arg\max_{\pi \in \Pi} (r_{\pi} + \gamma P_{\pi} v^*) \tag{3}$
将式（3）代入贝尔曼最优方程可得：
$v^* = r_{\pi^*} + \gamma P_{\pi^*} v^* \tag{4}$
因此， $v^* = v_{\pi^*}$ 是 $\pi^*$ 的状态价值，且贝尔曼最优方程是一个特殊的贝尔曼方程，其对应的策略是 $\pi^*$ 。

此时，尽管我们可以求解 $v^*$ 和 $\pi^*$ ，但仍不清楚这个解是否是最优的。下面的定理揭示了解的最优性。

$v^*$ 和 $\pi^*$ 的最优性：解 $v^*$ 是最优状态价值， $\pi^*$ 是最优策略。即，对于任意策略 $\pi$ ，有
$v^* = v_{\pi^*} \geq v_{\pi} \tag{5}$
其中 $v_{\pi}$ 是 $\pi$ 的状态价值， $\geq$ 是按元素比较。上述定理的证明如下：

对于任意策略 $\pi$ ，有
$v_{\pi} = r_{\pi} + \gamma P_{\pi} v_{\pi} \tag{6}$
因为
$v^* = \max_{\pi} (r_{\pi} + \gamma P_{\pi} v^*) = r_{\pi^*} + \gamma P_{\pi^*} v^* \geq r_{\pi} + \gamma P_{\pi} v^* \tag{7}$
所以我们有
$v^* - v_{\pi} \geq (r_{\pi} + \gamma P_{\pi} v^*) - (r_{\pi} + \gamma P_{\pi} v_{\pi}) = \gamma P_{\pi} (v^* - v_{\pi}) \tag{8}$
重复应用上述不等式可得 $v^* - v_{\pi} \geq \gamma P_{\pi} (v^* - v_{\pi}) \geq \gamma^2 P_{\pi}^2 (v^* - v_{\pi}) \geq \dots \geq \gamma^n P_{\pi}^n (v^* - v_{\pi})$ 。由此可得
$v^* - v_{\pi} \geq \lim_{n \to \infty} \gamma^n P_{\pi}^n (v^* - v_{\pi}) = 0 \tag{9}$
因为就是最后一个等式成立 $\gamma < 1$ ，且 $P_{\pi}^n$ 是一个非负矩阵，其所有元素都小于或等于 1（因为 $P_{\pi}^n \mathbf{1} = \mathbf{1}$ ）。因此，对于任意 $\pi$ ，有 $v^* \geq v_{\pi}$ 。