MC ε-Greedy 算法详解
MC ε-Greedy 算法详解
🎯 算法目标
寻找最优策略,是探索性初始(Exploring Starts)蒙特卡洛算法的推广版本。相比于严格要求每个状态-动作对都必须被选为初始的算法,本算法通过ε-Greedy策略保证了充分的探索。
📋 算法流程
1️⃣ 初始化阶段
初始化策略 π₀(a|s)# 任意初始策略初始化所有q(s,a)的值# 状态-动作值函数设置Return(s,a)=0# 累积回报设置Number(s,a)=0# 访问次数选择探索参数 ε ∈(0,1]# 探索概率