当前位置: 首页 > news >正文

强化学习·贝尔曼方程

文章目录

  • Return回报
    • Return的意义
    • Return的计算公式
  • State-value function状态价值函数
  • Bellman Equation贝尔曼方程
    • 贝尔曼方程的理解
    • 贝尔曼方程的求解
      • 贝尔曼方程的简化方式
      • 数值例子
    • 策略评估
  • Action-value function动作价值函数
    • 贝尔曼方程,状态价值函数和动作价值函数的关系

Return回报

Return的意义

  • Return是沿着某一路径的累积折扣奖励
  • Return的作用:可用于评估当前策略的价值





Return的计算公式

  • 注意:全是随机变量,意味着可以使用期望消去
  • R t R_tRtR t + 1 R_{t+1}Rt+1都可以表示t时刻采取行动获得的即刻奖励,习惯使用后者。


State-value function状态价值函数

  • 状态价值函数:给定当前状态,其平均回报是什么?(不知道当前动作和未来的状态和动作)

Bellman Equation贝尔曼方程

  • 使用期望的加法性质拆分G_t

  • 使用全概率公式分别计算两项

  • 最终形式:

贝尔曼方程的理解

  • 这是一种自举(bootstrapping)的方法自己推导自己
  • 对于所有的状态都适用,这一点很重要。
  • 简化:如果所有策略都是确定性的,那么所有的求和符合都可以消去,只有一条轨迹。

贝尔曼方程的求解

  • 特别的性质:贝尔曼方程对于所有状态都适用,如果我们知道策略,对于所有者状态都列举方程,可以通过求解线性方程组的形式求解贝尔曼方程

贝尔曼方程的简化方式

  • 当前状态的期望奖励和未来状态的期望奖励的总和。

  • 当前状态的期望奖励和状态转移概率可以提前计算出来
  • r π ( s ) r_{\pi}(s)rπ(s)代表状态s下的期望即刻奖励,注意没有确定动作。
  • P π P_{\pi}Pπ代表当前状态转移矩阵,维度为nxn。

数值例子


  • 通常求解线性方程组或者迭代方式可以求解

策略评估

  • 贝尔曼方程可以用于策略评估
  • 对于好策略,状态价值函数的值普遍较大,

Action-value function动作价值函数

  • 核心思想与状态价值函数一致:都是未来期望的累积折扣奖励,在此基础上给定了某个状态和采取的动作

贝尔曼方程,状态价值函数和动作价值函数的关系

  • 贝尔曼方程的右半部分等价于动作价值函数Q π ( s , a ) Q_{\pi}(s,a)Qπ(s,a)


http://www.jsqmd.com/news/405908/

相关文章:

  • 2026年谷歌SEO优化推广公司/服务商深度评测科普榜单 - 深圳昊客网络
  • 必藏干货!2026最新最全大模型学习资源包(粉丝专享版)零基础入门大模型,小白也能学会!
  • 视频融合之上:矩阵融合 × 连续表达 × 空间重构——镜像视界三维表达引擎全景白皮书
  • D.二分查找-二分答案-第K小/第K大——378. 有序矩阵中第 K 小的元素
  • Zillow 数据集示例
  • 视频孪生之上 · 空间计算元年:视频融合之上的矩阵级表达体系——基于统一空间坐标体系的跨摄像连续表达与动态标定自修正工程框架
  • OpenClaw 会话机制与记忆系统深度剖析
  • 基于模型预测控制的楼宇负荷需求响应研究 参考文档:《Model Predictive Cont...
  • 视频孪生之上:镜像视界构建可计算现实的空间级控制引擎——基于矩阵视频融合架构与统一空间坐标体系的跨摄像连续表达与趋势级风险前置计算平台
  • 大数据领域数据可视化,提升数据展示质量
  • AI原生应用领域可解释性助力智能决策
  • # 发散创新:用 Flink 实现毫秒级实时流处理架构设计与实践在当今
  • MONyog-5.6.9-0数据库监控安装步骤详解(附MySQL连接与监控设置教程)
  • 20260223_200856_SentGraph:用于多跳检索增强问答的层次化句子图谱
  • 视频孪生之上:镜像视界七层技术护城河体系全解析——构建不可复制的空间计算底座能力
  • 能源 × 水利 × 综合交通关键基础设施统一三维空间计算底座
  • RAG优化调优全流程(非常详细),Milvus可视化精准定位嵌入切块索引,收藏这一篇就够了!
  • RPDR底层逻辑深度剖析(非常详细),RAG密集检索从入门到精通,收藏这一篇就够了!
  • 大数据领域数据架构的生产制造优化
  • AI应用架构师实战:传统行业AI结合的6个安全设计技巧
  • 视频孪生之上:镜像视界矩阵视频融合重构空间表达逻辑——多摄像机空间矩阵标定 × 跨摄像连续表达 × 动态标定自修正机制
  • VR跨设备同步:提示工程如何让内容一致?
  • 视频孪生之上:镜像视界空间计算底座蓝海结构、竞争格局与市场规模测算
  • AI原生应用在客服机器人中的最新进展
  • 2026年3月谷歌独立站SEO优化推广服务商/公司深度评测推荐榜单:深圳昊客网络 - 深圳昊客网络
  • 探索AI原生应用领域API编排的无限可能
  • 从零到架构师:Taro 全链路学习与实战指南
  • 拉格朗日反演、多项式复合逆
  • UG NX 曲面补面