当前位置：首页 > news >正文

7天掌握强化学习：从零开始在FrozenLake环境中实现Q-learning算法的完整指南

news 2026/6/4 13:15:24

7天掌握强化学习：从零开始在FrozenLake环境中实现Q-learning算法的完整指南

【免费下载链接】Reinforcement-LearningLearn Deep Reinforcement Learning in 60 days! Lectures & Code in Python. Reinforcement Learning + Deep Learning项目地址: https://gitcode.com/gh_mirrors/rei/Reinforcement-Learning

GitHub加速计划的Reinforcement-Learning项目是一个专注于深度学习与强化学习结合的实战教程，通过60天的系统学习，帮助学习者掌握强化学习核心算法与Python实现。本文将带你通过Week2的实战案例，深入理解如何在FrozenLake环境中应用Q-learning算法，从零开始构建智能决策系统。

什么是FrozenLake环境？

FrozenLake是OpenAI Gym提供的经典强化学习环境，模拟了一个结冰湖面的导航问题。智能体需要在充满陷阱的网格世界中找到从起点到终点的安全路径，湖面的光滑特性使得移动方向具有不确定性，增加了决策难度。

环境网格使用字母标识不同状态：

S：起点（安全）
F：结冰表面（安全）
H：冰洞（危险，掉落则任务失败）
G：目标点（终点，成功到达获得奖励）

智能体每次移动若到达目标获得1分奖励，掉入冰洞或未到达目标则无奖励。这个环境非常适合入门强化学习算法，因为它状态空间小且规则清晰。

Q-learning算法核心原理

Q-learning是一种无模型（model-free）的异策略（off-policy）强化学习算法，通过构建Q表（状态-动作价值表）来指导智能体决策。其核心思想是通过不断更新Q值来学习最优行动策略。

Q值更新公式

Q-learning的核心在于Q值更新规则，公式如下：

公式中各参数含义：

NewQ(s,a)：更新后的状态-动作对Q值
Q(s,a)：当前Q值
α：学习率（控制更新幅度，通常取0.1-0.9）
R(s,a)：执行动作a后的即时奖励
γ：折扣因子（未来奖励的衰减率，通常取0.9-0.99）
max Q'(s',a')：下一状态s'的最大Q值

这个公式的直观理解是：新的Q值等于旧Q值加上学习率乘以"时序差分误差"（TD error），即实际收到的奖励与预期奖励之间的差距。

从零实现Q-learning算法

我们将基于Week2提供的frozenlake_Qlearning.ipynb notebook，逐步实现Q-learning算法。

1. 环境初始化

首先导入必要的库并创建FrozenLake环境：

import gym import random from collections import namedtuple import collections import numpy as np import matplotlib.pyplot as plt # 创建环境 env = gym.make("FrozenLake-v0") obs = env.reset() # 重置环境，获取初始状态 obs_length = env.observation_space.n # 状态空间大小 n_actions = env.action_space.n # 动作空间大小

2. 核心函数实现

动作选择策略

实现ε-贪婪策略（ε-greedy），平衡探索与利用：

def select_eps_greedy_action(table, obs, n_actions): # 选择当前状态下Q值最大的动作 value, action = best_action_value(table, obs) # 以ε概率随机选择动作（探索），1-ε概率选择最优动作（利用） if random.random() < epsilon: return random.randint(0, n_actions-1) else: return action def best_action_value(table, state): best_action = 0 max_value = 0 for action in range(n_actions): if table[(state, action)] > max_value: best_action = action max_value = table[(state, action)] return max_value, best_action

Q值更新函数

实现Q-learning的核心更新逻辑：

def Q_learning(table, obs0, obs1, reward, action): # 获取下一状态的最大Q值 best_value, _ = best_action_value(table, obs1) # 计算目标Q值 Q_target = reward + GAMMA * best_value # 计算Q值误差 Q_error = Q_target - table[(obs0, action)] # 更新Q值 table[(obs0, action)] += LEARNING_RATE * Q_error

3. 训练过程实现

设置超参数并执行训练循环：

# 超参数设置 GAMMA = 0.95 # 折扣因子 EPS_DECAY_RATE = 0.9993 # ε衰减率 LEARNING_RATE = 0.8 # 学习率 TEST_EPISODES = 100 # 测试回合数 MAX_GAMES = 15000 # 最大训练回合数 # 初始化Q表 table = collections.defaultdict(float) epsilon = 1.0 # 初始探索率 test_rewards_list = [] # 记录测试奖励 # 训练主循环 games_count = 0 obs = env.reset() while games_count < MAX_GAMES: # 选择动作 action = select_eps_greedy_action(table, obs, n_actions) next_obs, reward, done, _ = env.step(action) # 更新Q表 Q_learning(table, obs, next_obs, reward, action) obs = next_obs if done: epsilon *= EPS_DECAY_RATE # 衰减探索率 # 每1000回合测试一次 if (games_count + 1) % 1000 == 0: test_reward = test_game(env, table) test_rewards_list.append(test_reward) obs = env.reset() games_count += 1

4. 结果评估与可视化

实现测试函数并绘制训练曲线：

def test_game(env, table): reward_games = [] for _ in range(TEST_EPISODES): obs = env.reset() rewards = 0 while True: # 贪婪选择动作 next_obs, reward, done, _ = env.step(select_greedy_action(table, obs, n_actions)) obs = next_obs rewards += reward if done: reward_games.append(rewards) break return np.mean(reward_games) # 绘制训练曲线 plt.figure(figsize=(18,9)) plt.xlabel('训练回合 (x1000)') plt.ylabel('平均奖励') plt.plot(test_rewards_list) plt.show()