(二) 1. Q-learning的遗憾界分析-结合置信上界的Q-learning算法
结合置信上界的Q-learning算法
- 1. 表格型分幕式马尔可夫决策过程
- 2. 结合了 UCB 探索策略的 Q-learning 变体
- 2.1. 带有 Hoeffding 类型奖励的 Q-learning
- 2.2. 带有 Bernstein 类型奖励的 Q-learning
- 3. UCB-Hoeffding Q-learning 的证明
- 3.1. 符号说明
- 3.2. 学习率
- 3.3. 关于Q k − Q ∗ Q^k - Q^*Qk−Q∗的界
1. 表格型分幕式马尔可夫决策过程
我们考虑表格型分幕式马尔可夫决策过程(Tabular Episodic MDP),记为 MDP( S , A , H , P , r ) (\mathcal{S}, \mathcal{A}, H, \mathbb{P}, r)(S,A,H,
