当前位置: 首页 > news >正文

《强化学习数学原理》学习笔记7——从贝尔曼最优方程得到最优策略 - 教程

下面求解贝尔曼最优方程,从而得到最优状态价值v ∗ v^*v 和最优策略 π ∗ \pi^*π

一、求解最优状态价值v ∗ v^*v

v ∗ v^*v是贝尔曼最优方程的解,那么它满足:
v ∗ = max ⁡ π ∈ Π ( r π + γ P π v ∗ ) (1) v^* = \max_{\pi \in \Pi} (r_{\pi} + \gamma P_{\pi} v^*) \tag{1}v=πΠmax(rπ+γPπv)(1)
显然,v ∗ v^*v是一个不动点,源于v ∗ = f ( v ∗ ) v^* = f(v^*)v=f(v)(这里 f ( v ) = max ⁡ π ∈ Π ( r π + γ P π v ) f(v) = \max_{\pi \in \Pi} (r_{\pi} + \gamma P_{\pi} v)f(v)=maxπΠ(rπ+γPπv))。结合压缩映射定理,大家有以下结论。

存在性、唯一性与算法:对于贝尔曼最优方程v = f ( v ) = max ⁡ π ∈ Π ( r π + γ P π v ) v = f(v) = \max_{\pi \in \Pi} (r_{\pi} + \gamma P_{\pi} v)v=f(v)=maxπΠ(rπ+γPπv),始终存在唯一的解v ∗ v^*v,可以通过迭代法求解:
v k + 1 = f ( v k ) = max ⁡ π ∈ Π ( r π + γ P π v k ) , k = 0 , 1 , 2 , … (2) v_{k + 1} = f(v_k) = \max_{\pi \in \Pi} (r_{\pi} + \gamma P_{\pi} v_k), \quad k = 0, 1, 2, \dots \tag{2}vk+1=f(vk)=πΠmax(rπ+γPπvk),k=0,1,2,(2)
对于任意初始给定的v 0 v_0v0,当 k → ∞ k \to \inftyk 时,v k v_kvk会以指数速度快速收敛到v ∗ v^*v

由于 f ( v ) f(v)f(v)是压缩映射,该定理的证明可直接由压缩映射定理得到。这个定理很核心,因为它回答了一些基本问题:

二、求解最优策略π ∗ \pi^*π

一旦得到 v ∗ v^*v的值,我们可以通过求解下式轻松得到π ∗ \pi^*π
π ∗ = arg ⁡ max ⁡ π ∈ Π ( r π + γ P π v ∗ ) (3) \pi^* = \arg\max_{\pi \in \Pi} (r_{\pi} + \gamma P_{\pi} v^*) \tag{3}π=argπΠmax(rπ+γPπv)(3)
将式(3)代入贝尔曼最优方程可得:
v ∗ = r π ∗ + γ P π ∗ v ∗ (4) v^* = r_{\pi^*} + \gamma P_{\pi^*} v^* \tag{4}v=rπ+γPπv(4)
因此,v ∗ = v π ∗ v^* = v_{\pi^*}v=vππ ∗ \pi^*π的状态价值,且贝尔曼最优方程是一个特殊的贝尔曼方程,其对应的策略是π ∗ \pi^*π

此时,尽管我们可以求解v ∗ v^*vπ ∗ \pi^*π,但仍不清楚这个解是否是最优的。下面的定理揭示了解的最优性。

v ∗ v^*vπ ∗ \pi^*π 的最优性:解 v ∗ v^*v是最优状态价值,π ∗ \pi^*π是最优策略。即,对于任意策略π \piπ,有
v ∗ = v π ∗ ≥ v π (5) v^* = v_{\pi^*} \geq v_{\pi} \tag{5}v=vπvπ(5)
其中 v π v_{\pi}vππ \piπ的状态价值,≥ \geq是按元素比较。上述定理的证明如下:

对于任意策略π \piπ,有
v π = r π + γ P π v π (6) v_{\pi} = r_{\pi} + \gamma P_{\pi} v_{\pi} \tag{6}vπ=rπ+γPπvπ(6)
因为
v ∗ = max ⁡ π ( r π + γ P π v ∗ ) = r π ∗ + γ P π ∗ v ∗ ≥ r π + γ P π v ∗ (7) v^* = \max_{\pi} (r_{\pi} + \gamma P_{\pi} v^*) = r_{\pi^*} + \gamma P_{\pi^*} v^* \geq r_{\pi} + \gamma P_{\pi} v^* \tag{7}v=πmax(rπ+γPπv)=rπ+γPπvrπ+γPπv(7)
所以我们有
v ∗ − v π ≥ ( r π + γ P π v ∗ ) − ( r π + γ P π v π ) = γ P π ( v ∗ − v π ) (8) v^* - v_{\pi} \geq (r_{\pi} + \gamma P_{\pi} v^*) - (r_{\pi} + \gamma P_{\pi} v_{\pi}) = \gamma P_{\pi} (v^* - v_{\pi}) \tag{8}vvπ(rπ+γPπv)(rπ+γPπvπ)=γPπ(vvπ)(8)
重复应用上述不等式可得v ∗ − v π ≥ γ P π ( v ∗ − v π ) ≥ γ 2 P π 2 ( v ∗ − v π ) ≥ ⋯ ≥ γ n P π n ( v ∗ − v π ) v^* - v_{\pi} \geq \gamma P_{\pi} (v^* - v_{\pi}) \geq \gamma^2 P_{\pi}^2 (v^* - v_{\pi}) \geq \dots \geq \gamma^n P_{\pi}^n (v^* - v_{\pi})vvπγPπ(vvπ)γ2Pπ2(vvπ)γnPπn(vvπ)。由此可得
v ∗ − v π ≥ lim ⁡ n → ∞ γ n P π n ( v ∗ − v π ) = 0 (9) v^* - v_{\pi} \geq \lim_{n \to \infty} \gamma^n P_{\pi}^n (v^* - v_{\pi}) = 0 \tag{9}vvπnlimγnPπn(vvπ)=0(9)
因为就是最后一个等式成立γ < 1 \gamma < 1γ<1,且 P π n P_{\pi}^nPπn是一个非负矩阵,其所有元素都小于或等于 1(因为P π n 1 = 1 P_{\pi}^n \mathbf{1} = \mathbf{1}Pπn1=1)。因此,对于任意π \piπ,有 v ∗ ≥ v π v^* \geq v_{\pi}vvπ

接下来,我们更仔细地研究式(3)中的π ∗ \pi^*π。具体来说,下面的定理表明,始终存在一个确定性的贪婪策略是最优的。

贪婪最优策略证明

贪婪最优策略:假设 v ∗ v^*v是贝尔曼最优方程的最优状态值解。对于任意s ∈ S s \in \mathcal{S}sS,确定性贪婪策略
π ∗ ( a ∣ s ) = { 1 , a = a ∗ ( s ) 0 , a ≠ a ∗ ( s ) (10) \pi^*(a|s) = \begin{cases} 1, & a = a^*(s) \\ 0, & a \neq a^*(s) \end{cases} \tag{10}π(as)={1,0,a=a(s)a=a(s)(10)
是求解贝尔曼最优方程的最优策略。这里,
a ∗ ( s ) = arg ⁡ max ⁡ a q ∗ ( a , s ) (11) a^*(s) = \arg\max_{a} q^*(a, s) \tag{11}a(s)=argamaxq(a,s)(11)
其中
q ∗ ( s , a ) ≜ ∑ r ∈ R p ( r ∣ s , a ) r + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) v ∗ ( s ′ ) (12) q^*(s, a) \triangleq \sum_{r \in \mathcal{R}} p(r|s, a)r + \gamma \sum_{s' \in \mathcal{S}} p(s'|s, a)v^*(s') \tag{12}q(s,a)rRp(rs,a)r+γsSp(ss,a)v(s)(12)
证明如下:
最优策略的矩阵 - 向量形式是π ∗ = arg ⁡ max ⁡ π ( r π + γ P π v ∗ ) \pi^* = \arg\max_{\pi} (r_{\pi} + \gamma P_{\pi} v^*)π=argmaxπ(rπ+γPπv),其元素展开形式为
π ∗ ( s ) = arg ⁡ max ⁡ π ∈ Π ∑ a ∈ A π ( a ∣ s ) ( ∑ r ∈ R p ( r ∣ s , a ) r + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) v ∗ ( s ′ ) ) ⏟ q ∗ ( s , a ) , s ∈ S (13) \pi^*(s) = \arg\max_{\pi \in \Pi} \sum_{a \in \mathcal{A}} \pi(a|s) \underbrace{\left( \sum_{r \in \mathcal{R}} p(r|s, a)r + \gamma \sum_{s' \in \mathcal{S}} p(s'|s, a)v^*(s') \right)}_{q^*(s, a)}, \quad s \in \mathcal{S} \tag{13}π(s)=argπΠmaxaAπ(as)q(s,a)(rRp(rs,a)r+γsSp(ss,a)v(s)),sS(13)
显然,如果 π ( s ) \pi(s)π(s)选择具有最大q ∗ ( s , a ) q^*(s, a)q(s,a)的动作,那么∑ a ∈ A π ( a ∣ s ) q ∗ ( s , a ) \sum_{a \in \mathcal{A}} \pi(a|s) q^*(s, a)aAπ(as)q(s,a)会被最大化。

式(10)中的策略被称为贪婪策略,缘于它选择具有最大q ∗ ( s , a ) q^*(s, a)q(s,a)的动作,它指出总是存在一个确定性的贪婪策略是最优的。最终,大家讨论π ∗ \pi^*π的两个要紧性质:

http://www.jsqmd.com/news/25980/

相关文章:

  • 白忙活这么多年!早知道有这9款软件,我少熬好几个通宵!
  • P4427 [BJOI2018] 求和
  • C++ string底层完成逻辑(与类知识点结合)string——下
  • Python电力负荷预测:LSTM、GRU、DeepAR、XGBoost、Stacking、ARIMA结合多源数据融合与SHAP可解释性的研究
  • 第二十九篇
  • Paper Reading: Symbolic Regression Enhanced Decision Trees for Classification Tasks
  • 堆,对顶堆
  • 专题:2025年医疗健康行业状况报告:投融资、脑机接口、AI担忧|附130+份报告PDF合集、图表下载
  • SQL Server创建指定数据库的账号且看不到其他任何用户创建的数据库
  • 专题:2025年制造业数智化发展白皮书:数字化转型与智能制造|附130+份报告PDF、数据、绘图模板汇总下载
  • 大家好,我个人爱好开通了一个公众号!!!
  • 思源笔记多端同步方案:Docker MinIO + Siyuan-unlock
  • AI辅助渗透测试小试牛刀
  • python设置永久的国内镜像源
  • 完整教程:FFmpeg 全面教程:从安装到高级应用
  • 程序员修炼之道:从小工到专家读后感(2025_10_29)
  • VisionPro学习笔记- CogCreateGraphicLabelTool
  • Linux内核6.15.4性能调优、网络优化与稳定性增强详解
  • 深入解析:爬虫访问第三方 HTTPS 网站时遇到的 SSL 异常处理
  • 团队博客 1plus:团队项目NABCD方案
  • P11453 [USACO24DEC] Deforestation S
  • [SKILL] 常用语句
  • 团队博客 1:团队项目核心信息
  • CF2156 Codeforces Round 1061 (Div. 2) 游记(VP)
  • 2025年10月市场上板式家具厂家前十榜单
  • 2025年市场上板式家具制造厂综合排名与选购指南
  • 项目构建优化:git
  • lower_bound upper_bound - Slayer
  • 软件工程学习日志2025.10.29
  • 2025年三聚氰胺饰面板源头厂家推荐榜前十强分析