当前位置: 首页 > news >正文

时序差分算法(一)

时序差分算法是解决BOE问题的又一大工具,它的英文是Temporal Difference Learning,通常简写为TD Learning。我们开始学习这个算法。这节课需要做一些预备。

1

Robbins-Monro算法

RM算法是随机近似(Stochastic Approximation)领域的开创性算法,由 Herbert Robbins 和 Sutton Monro 于1951年提出。它是一种迭代方法,用于在‌无法直接观测目标函数或其梯度‌的情况下,仅通过带有噪声的观测值,逐步逼近某个目标参数(如方程的根或函数的极值点)。

其算法表达如下:

如果g(w)能知道梯度的话,RM算法退化为梯度下降法:

上一节的MC ε-greedy算法里面,更新动作价值函数其实就是RM算法的一种特例:

为什么?逻辑如下:

2

引出TD算法

对上面随机变量求期望利用RM算法的思想进行拓展,可以得到求v(X)期望的RM算法:

我们加上奖励函数和状态价值函数,可以得到:

现在,我们可以给出TD learning算法的形式:

我们对红色部分进行拆分理解:

为什么绿色部分称为时序差分TD的目标,我们能推导:

蓝色部分是误差:

这里要说明的是求条件概率期望下是怎么转换的(就是上图红色到蓝色的转换):

在第一步的表达式 δπ,t中,st+1是单次采样得到的一个具体“观测值”或“实现值”。而当我们求它的条件期望 E[⋅∣St=st]时,我们是在对“给定当前状态 st”这一条件下,所有可能出现的 st+1(及其对应的奖励)进行加权平均。因此,在期望符号内,必须将下一个状态视为一个随机变量 St+1,而不是它的某个具体取值。

综上,我们知道了在给定策略下,时序差分TD估计状态价值函数的方法。它的核心思想是利用连续时间步长(Temporal)上预测值之间的差异(Difference)来进行学习

3

理解TD公式

上面我们回答了TD算法是什么,现在我们还要回答为什么。一句话说清楚:TD算法本质在求解贝尔曼公式。

注:这一节我们介绍是某个策略下求解状态价值函数,所以说是求解贝尔曼公式(而不是贝尔曼最优公式)。也就是策略评估这一步,下一节会介绍策略改进!

回顾贝尔曼公式:

我们对贝尔曼公式使用RM算法:

黄色部分就是DT算法公式。它通过“利用序列经验”“使用自身估计进行自举”这两种方式,摆脱了对预先知识或重置环境的依赖,从而能够在在线、增量的环境中,直接从原始经验流中学习状态价值。

4

TD VS MC

最后比较一下TD算法与MC算法的差异:

简单来说,TD(时序差分)就像“走一步看一步”,MC(蒙特卡洛)就像“走完全程再算总账”。

http://www.jsqmd.com/news/471059/

相关文章:

  • 深圳龙岗少儿体能训练机构怎么选?靠谱机构名单整理(2026参考) - 前沿公社
  • 中山性价比高的湘菜有哪些,口碑好的店该怎么选? - 工业品牌热点
  • SeqGPT-560M在Web开发中的应用:动态内容生成与优化
  • 效率提升秘籍:用快马AI自动生成数据库代码,专注核心业务逻辑设计
  • 2026年天津驾培性价比排行,解读晚上练车好处,盛康驾校值得选吗 - 工业推荐榜
  • cmake编译32位程序
  • 探讨口碑好的高纯高温煅烧α氧化铝粉企业排名,前十名有哪些? - myqiye
  • 【读书笔记】Introduction to Linear Algebra | 第 8 章:线性变换
  • 突破百度网盘限速壁垒:PDown高速下载工具深度评测
  • 鹰眼YOLOv8实战:智能会议室人数统计,AI帮你自动分析空间利用率
  • Youtu-2B响应截断?max_tokens参数调整实战
  • VSCode编写Markdown
  • 北京丰宝斋:回收名家字画无套路,免费上门,当场结算,藏家变现超安心 - 品牌排行榜单
  • Flux Sea Studio 效果展示:Transformer架构下的超写实海景作品集
  • 科学驭时,智赴前程——职大教育破解兴安盟高中生时间管理困局 - 企业推荐官【官方】
  • Linux容器基石:LXC核心概念与实践指南
  • ChatGPT从入门到精通PDF:AI辅助开发实战指南
  • 救命神器AI论文写作软件 千笔ai写作 VS WPS AI 研究生必备
  • “Missing CLIPVision model“错误解析:从根源修复到预防策略
  • ai赋能边缘设备,快马平台辅助生成stm32语音识别项目代码
  • STM32H7 ADC共用寄存器原理与多ADC同步工程实践
  • Tao-8k模型与ComfyUI可视化工作流结合:复杂任务编排实践
  • LDO环路稳定性:从极点分布到ESR补偿的实战解析
  • AIGlasses_for_navigation环境部署:Ubuntu+Python3.10+Supervisor服务配置全解析
  • 闭眼入!继续教育专属AI论文工具 —— 千笔·专业论文写作工具
  • Qwen3-Reranker-0.6B效果展示:汽车维修手册故障码-解决方案精准排序案例
  • FireRedASR-AED-L案例展示:多格式音频一键转文字,识别效果超预期
  • 显卡风扇智能控制:突破转速限制的完整指南
  • [Java] this()的调用机制
  • 基于果汁氧化特性,计算榨汁后保鲜时间,推荐抗氧化处理与饮用时机。