当前位置：首页 > news >正文

强化学习中的单个回合的回报估计动作值和所有回合的回报估计动作值的理解及exploring starts条件

news 2026/7/3 0:25:11

你的核心困惑就一个：“单个回合到底是多长的路径？是不是走一步就是一个回合？”
答案直接给你：不是走一步！单个回合是“从任意起始状态出发，一直走到终止状态（比如目标/失败）的完整路径”——和“所有回合”的“回合”是同一个定义！

两者的区别根本不在“回合的长度/定义”，而在“用多少个回合的回报来算动作值Q(s,a)”——我用最极端的对比（只看一个动作值Q(S1,A右)），让你秒懂：

前提设定（极简版，避免复杂）

环境：1×5网格（S1→S2→S3→S4→S5），S5是目标（r=10），其他状态无即时奖励（r=0），γ=1（无折扣）；
只关注一个动作值：Q(S1,A右)（从S1走“右”动作的动作值）；
回合定义：从任意状态出发，走到S5（终止），就是一个完整回合。

一、所有回合的回报平均值（MC Basic）

核心逻辑：用「多个回合」中S1→A右的回报，求平均算Q(S1,A右)

先跑3个完整回合（每个回合都是走到S5才结束）：
- 回合1：S1→A右→S2→A右→S3→A右→S4→A右→S5（终止），回报G1=10（因为只有S5给10）；
- 回合2：S1→A右→S2→A右→S3→A右→S4→A右→S5（终止），回报G2=10；
- 回合3：S1→A右→S2→A右→S3→A右→S4→A右→S5（终止），回报G3=10；
算Q(S1,A右)：用这3个回合的回报求平均
Q(S1,A右) = (G1 + G2 + G3) / 3 = (10+10+10)/3 = 10；
关键：必须攒够“所有要用到的回合”，再一次性算平均——这里用了3个回合的回报。

http://www.jsqmd.com/news/359402/

相关文章：

《凌微经 · 理悖相涵》第七章形性一体——本然如是之元观

AX3000T刷机教程

听《卡农》有感 - Mars

深入解析：FPGA纯verilog实现JESD204B协议，基于AD9250数据接收，提供3套工程源码和技术支持

局域网内如何互相ping通？

python使用pip安装jupter报错，并且用conda安装jupter后，启动jupter也报一样的错误：checking the latest version of pip...如何解决？

【SQL笔记1】SQL真正的执行顺序

第二章，MySQL数据类型

SQL笔记（一）

技术的便利，从来都不属于开发者

西门子数控系统 SINUMERIK 840D sl数据高速录波的一种方法

C# 变量作用域

【状态机DP】LeetCode 123. 买卖股票的最佳时机|||

大数据可视化项目实战：从数据采集到展示

《堆的 shift down》

除夕夜的坚守（原创诗）

一种适用于联通ZXHN G7606V6光猫的，在自带的openwrt子系统操作主系统ip6tables防火墙的方法

Vue.js 事件处理器

集体好奇心与团队成员的心理健康

TypeScript String

Android开发工程师深度解析：技术能力与职业发展

构建智能化的个人退休规划优化助手

AJAX 实例详解

揭秘大数据领域存算分离方案

燃爆！大数据OLAP在电力行业的创新应用

Git 核心概念：Tag 与 Branch 的本质区别

HarmonyOS应用开发实战（基础篇）Day01-《ArkTS基本知识》

计算机字符编码

量子AI在图像识别中的应用实战

Detached HEAD 状态详解