当前位置：首页 > news >正文

强化学习入门：用Python实现网格世界中的智能体移动（附完整代码）

news 2026/3/27 2:09:55

强化学习实战：用Python构建网格世界智能体从零到决策

引言：为什么选择网格世界作为强化学习的第一课？

记得第一次接触强化学习时，我被那些复杂的数学公式和抽象概念弄得晕头转向。直到有一天，导师在白板上画出一个3×3的网格，说："让我们从这里开始。"那一刻，一切突然变得清晰起来。网格世界就像强化学习的"Hello World"，它用最简化的环境展现了这门技术的核心思想。

网格世界的魅力在于它的可视化和可操作性。你不需要昂贵的硬件设备，不需要复杂的环境搭建，只需要几行Python代码，就能亲眼看到智能体如何从随机游走到目标导向。这种即时反馈对于初学者理解状态、动作、奖励等基础概念至关重要。

本文将带你用Python实现一个完整的网格世界环境，并训练一个能自主决策的智能体。不同于理论讲解，我们会聚焦代码实现，让你在动手实践中感受强化学习的运作机制。即使你刚接触编程或机器学习，也能跟随这个指南构建出自己的第一个强化学习模型。

1. 环境搭建：构建网格世界的基础框架

1.1 定义网格世界的基本结构

我们先从最基础的网格表示开始。在Python中，可以用二维数组来表示网格世界：

import numpy as np class GridWorld: def __init__(self, size=3): self.size = size # 网格大小 (size x size) self.grid = np.zeros((size, size)) # 初始化网格 self.agent_pos = [0, 0] # 智能体初始位置 self.goal_pos = [size-1, size-1] # 目标位置 self.actions = ['up', 'right', 'down', 'left'] # 可能的动作 # 设置特殊单元格 self.forbidden = [[1, 1]] # 禁止区域 self.rewards = { 'goal': 1, # 到达目标的奖励 'forbidden': -1, # 进入禁止区域的惩罚 'boundary': -1, # 碰到边界的惩罚 'default': 0 # 默认奖励 }

这个基础类定义了：

网格的大小（默认为3×3）
智能体的初始位置（左上角）
目标位置（右下角）
可能的动作（上、右、下、左）
特殊区域和对应的奖励值

1.2 实现状态转移逻辑

智能体在网格中移动时，我们需要处理几种特殊情况：

def move_agent(self, action): old_pos = self.agent_pos.copy() # 根据动作更新位置 if action == 'up': self.agent_pos[0] -= 1 elif action == 'right': self.agent_pos[1] += 1 elif action == 'down': self.agent_pos[0] += 1 elif action == 'left': self.agent_pos[1] -= 1 # 检查边界碰撞 if (self.agent_pos[0] < 0 or self.agent_pos[0] >= self.size or self.agent_pos[1] < 0 or self.agent_pos[1] >= self.size): self.agent_pos = old_pos return self.rewards['boundary'], True # 检查禁止区域 if list(self.agent_pos) in self.forbidden: self.agent_pos = old_pos return self.rewards['forbidden'], True # 检查是否到达目标 if self.agent_pos == self.goal_pos: return self.rewards['goal'], False return self.rewards['default'], False

这段代码实现了：

根据动作更新智能体位置
处理边界碰撞（返回原位置并给予惩罚）
处理禁止区域（返回原位置并给予惩罚）
检查是否到达目标（给予奖励）

提示：在强化学习中，奖励设计至关重要。太简单的奖励可能导致智能体学习不到有效策略，太复杂的奖励可能使学习过程变得困难。

2. 智能体设计：从随机游走到策略学习

2.1 创建基础智能体类

我们的智能体需要能够：

感知当前状态
选择动作
从经验中学习

class Agent: def __init__(self, env): self.env = env self.q_table = {} # Q表存储状态-动作值 self.learning_rate = 0.1 # 学习率 self.discount_factor = 0.9 # 折扣因子 self.epsilon = 0.1 # 探索率 def get_state_key(self): return tuple(self.env.agent_pos) def choose_action(self): state_key = self.get_state_key() # 初始化Q表（如果状态未见过） if state_key not in self.q_table: self.q_table[state_key] = {a: 0 for a in self.env.actions} # ε-贪婪策略：大部分时间选择最优动作，偶尔随机探索 if np.random.random() < self.epsilon: return np.random.choice(self.env.actions) else: return max(self.q_table[state_key].items(), key=lambda x: x[1])[0] def learn(self, state, action, reward, next_state, done): # 初始化下一个状态的Q值（如果未见过） if next_state not in self.q_table: self.q_table[next_state] = {a: 0 for a in self.env.actions} # Q-learning更新公式 current_q = self.q_table[state][action] max_next_q = max(self.q_table[next_state].values()) new_q = current_q + self.learning_rate * (reward + self.discount_factor * max_next_q - current_q) self.q_table[state][action] = new_q

2.2 Q-learning算法解析

Q-learning是一种经典的强化学习算法，其核心是更新Q值的公式：

Q(s,a) ← Q(s,a) + α[r + γ·maxQ(s',a') - Q(s,a)]

其中：

α是学习率（控制新信息覆盖旧信息的速度）
γ是折扣因子（衡量未来奖励的当前价值）
r是即时奖励
maxQ(s',a')是下一状态的最大预期回报

在我们的实现中，这个公式体现在learn方法里。智能体通过不断尝试和更新Q表，逐渐学习到最优策略。

3. 训练流程：让智能体从经验中学习

3.1 完整的训练循环

现在我们将环境和智能体结合起来，实现完整的训练过程：

def train(episodes=1000): env = GridWorld() agent = Agent(env) for episode in range(episodes): env.agent_pos = [0, 0] # 重置智能体位置 state = agent.get_state_key() total_reward = 0 done = False while not done: # 智能体选择动作 action = agent.choose_action() # 执行动作，获取新状态和奖励 reward, done = env.move_agent(action) next_state = agent.get_state_key() total_reward += reward # 智能体学习 agent.learn(state, action, reward, next_state, done) state = next_state # 每100轮打印一次进度 if (episode + 1) % 100 == 0: print(f"Episode {episode+1}, Total Reward: {total_reward}") return agent

3.2 训练过程的可视化

为了更直观地理解训练过程，我们可以添加一些可视化功能：

def visualize_path(agent): env = GridWorld() path = [env.agent_pos.copy()] for _ in range(20): # 限制最大步数 state = tuple(env.agent_pos) action = max(agent.q_table[state].items(), key=lambda x: x[1])[0] _, done = env.move_agent(action) path.append(env.agent_pos.copy()) if done: break # 打印网格和路径 grid = np.zeros((env.size, env.size)) for pos in path: grid[pos[0], pos[1]] += 1 print("智能体路径热度图（数值表示经过次数）：") print(grid)

这个可视化会显示智能体在训练后选择的路径，帮助我们直观评估学习效果。

4. 高级主题：优化与扩展

4.1 奖励塑形（Reward Shaping）

基础的奖励设计可能导致学习效率低下。我们可以通过奖励塑形提供更多引导：

# 在GridWorld类中添加 def get_shaped_reward(self): # 基础奖励 reward, done = self.get_basic_reward() # 额外奖励：靠近目标 distance = abs(self.agent_pos[0] - self.goal_pos[0]) + \ abs(self.agent_pos[1] - self.goal_pos[1]) reward += 0.1 * (self.size*2 - distance) # 越近奖励越高 return reward, done

这种设计鼓励智能体向目标移动，而不仅仅是最终到达时才获得奖励。

4.2 策略改进技巧

我们可以通过几种方法改进学习效率：

动态ε调整：随着训练进行，逐渐减少探索

agent.epsilon = max(0.01, 1 - episode / episodes) # 线性衰减

经验回放：存储并随机重放经验

class ReplayBuffer: def __init__(self, capacity=1000): self.buffer = deque(maxlen=capacity) def add(self, experience): self.buffer.append(experience) def sample(self, batch_size): return random.sample(self.buffer, min(len(self.buffer), batch_size))

双重Q学习：减少过高估计

# 在Agent类中修改learn方法 if np.random.rand() < 0.5: next_action = max(self.q_table1[next_state].items(), key=lambda x: x[1])[0] new_q = current_q + self.learning_rate * (reward + self.discount_factor * self.q_table2[next_state][next_action] - current_q) else: next_action = max(self.q_table2[next_state].items(), key=lambda x: x[1])[0] new_q = current_q + self.learning_rate * (reward + self.discount_factor * self.q_table1[next_state][next_action] - current_q)

4.3 扩展到更复杂环境

一旦掌握了基础网格世界，你可以尝试以下扩展：

更大的网格（如10×10）
动态障碍物
多个智能体互动
部分可观测环境
连续动作空间

# 示例：随机移动障碍物 class DynamicGridWorld(GridWorld): def __init__(self, size=5): super().__init__(size) self.obstacles = [[1,1], [2,3]] self.move_prob = 0.2 # 障碍物移动概率 def step(self): if np.random.rand() < self.move_prob: obs_idx = np.random.randint(len(self.obstacles)) direction = np.random.choice(['up','right','down','left']) # 实现障碍物移动逻辑...