当前位置：首页 > news >正文

用PyTorch和PPO训练AI玩超级马里奥，我踩过的那些版本兼容的坑（附完整代码）

news 2026/6/6 21:50:20

用PyTorch和PPO训练AI玩超级马里奥：从环境配置到实战调优全指南

当经典游戏遇上现代强化学习算法，会碰撞出怎样的火花？最近我在尝试用PyTorch实现PPO算法训练AI玩《超级马里奥兄弟》时，发现这个看似简单的项目背后隐藏着不少"暗礁"。从gym到gymnasium的版本迁移，从环境封装到奖励函数设计，每一步都可能让你在复现过程中踩坑。本文将分享一套经过实战验证的完整解决方案，包含环境配置、算法实现和调优技巧，助你避开我走过的弯路。

1. 环境配置：避开版本兼容的"雷区"

在开始编码之前，正确的环境配置是项目成功的第一步。我最初直接复制了某GitHub仓库的requirements.txt，结果陷入了无尽的依赖冲突中。以下是经过反复验证的稳定环境配置方案：

# 关键依赖版本清单 Python == 3.11.7 PyTorch == 2.0.1+cu118 gym == 0.23.0 # 注意不是gymnasium nes_py == 8.1.8 gym_super_mario_bros == 7.3.0 opencv-python == 4.8.1

注意：虽然OpenAI的gym已停止维护，但当前super_mario_bros仍基于gym开发。直接使用gymnasium会导致包装器接口不兼容。

常见的版本冲突问题及解决方案：

问题1：AttributeError: 'TimeLimit' object has no attribute 'reward_range'
- 原因：gym版本过高（>0.23.0）与nes_py不兼容
- 解决：降级到gym 0.23.0
问题2：TypeError: __init__() got an unexpected keyword argument 'new_step_api'
- 原因：尝试使用gymnasium的API调用gym环境
- 解决：统一使用gym 0.23.0的接口规范
问题3：RuntimeError: Expected 4D input for 4D weight...
- 原因：PyTorch版本差异导致张量维度检查更严格
- 解决：确保输入张量形状为(batch_size, channels, height, width)

2. 环境封装：打造适合RL训练的游戏界面

原始的马里奥环境直接输出RGB图像，这会导致训练效率低下。我们需要通过多层封装将其转化为适合强化学习的格式：

class ProcessFrameWrapper(gym.ObservationWrapper): def __init__(self, env): super().__init__(env) self.observation_space = gym.spaces.Box(low=0, high=255, shape=(84, 84, 1), dtype=np.uint8) def observation(self, obs): # 转换为灰度图并调整尺寸 obs = cv2.cvtColor(obs, cv2.COLOR_RGB2GRAY) obs = cv2.resize(obs, (84, 84), interpolation=cv2.INTER_AREA) return np.expand_dims(obs, axis=-1) class FrameStackWrapper(gym.Wrapper): def __init__(self, env, num_frames=4): super().__init__(env) self.num_frames = num_frames self.frames = deque(maxlen=num_frames) self.observation_space = gym.spaces.Box( low=0, high=255, shape=(num_frames, 84, 84), dtype=np.uint8 ) def reset(self): obs = self.env.reset() for _ in range(self.num_frames): self.frames.append(obs) return self._get_obs() def step(self, action): obs, reward, done, info = self.env.step(action) self.frames.append(obs) return self._get_obs(), reward, done, info def _get_obs(self): return np.stack(self.frames, axis=0)

关键封装技术说明：

封装技术	作用	参数优化建议
灰度处理	减少输入维度	使用cv2.COLOR_RGB2GRAY转换
尺寸调整	统一输入规格	84x84是经典尺寸，平衡信息保留与计算量
帧堆叠	提供时序信息	4帧堆叠效果最佳，过多会导致动作延迟

3. PPO算法实现：核心代码解析

PPO(Proximal Policy Optimization)是目前最流行的on-policy强化学习算法之一。以下是针对马里奥游戏优化的实现：

class PPONetwork(nn.Module): def __init__(self, input_shape, n_actions): super().__init__() self.conv = nn.Sequential( nn.Conv2d(input_shape[0], 32, kernel_size=8, stride=4), nn.ReLU(), nn.Conv2d(32, 64, kernel_size=4, stride=2), nn.ReLU(), nn.Conv2d(64, 64, kernel_size=3, stride=1), nn.ReLU() ) conv_out_size = self._get_conv_out(input_shape) self.actor = nn.Sequential( nn.Linear(conv_out_size, 512), nn.ReLU(), nn.Linear(512, n_actions) ) self.critic = nn.Sequential( nn.Linear(conv_out_size, 512), nn.ReLU(), nn.Linear(512, 1) ) def _get_conv_out(self, shape): o = self.conv(torch.zeros(1, *shape)) return int(np.prod(o.size())) def forward(self, x): conv_out = self.conv(x).view(x.size()[0], -1) return self.actor(conv_out), self.critic(conv_out) class PPOAgent: def __init__(self, env, lr=3e-4, gamma=0.99, gae_lambda=0.95, clip_epsilon=0.2, batch_size=64, n_epochs=10): self.env = env self.net = PPONetwork(env.observation_space.shape, env.action_space.n).float() self.optimizer = optim.Adam(self.net.parameters(), lr=lr) self.gamma = gamma self.gae_lambda = gae_lambda self.clip_epsilon = clip_epsilon self.batch_size = batch_size self.n_epochs = n_epochs def compute_gae(self, rewards, values, dones): # GAE计算实现 pass def update(self, samples): # PPO核心更新逻辑 pass def train(self, total_timesteps=1e6): # 训练循环实现 pass

PPO参数设置经验值：

学习率：3e-4（Actor和Critic可分别设置）
折扣因子γ：0.99（适用于长周期奖励）
GAE参数λ：0.95（平衡偏差与方差）
Clip范围ε：0.2（防止策略更新过大）
Batch大小：64（根据显存调整）
训练轮数：10（每次采样数据后更新次数）

4. 实战调优：让马里奥真正"学会"闯关

即使算法实现正确，直接训练也很难让马里奥通关。以下是经过验证的调优技巧：

奖励函数设计：原始环境的奖励信号过于稀疏，需要精心设计：

class CustomRewardWrapper(gym.Wrapper): def __init__(self, env): super().__init__(env) self.current_score = 0 self.current_x = 0 self.max_x = 0 def step(self, action): state, reward, done, info = self.env.step(action) # 基础奖励 reward = info['x_pos'] - self.current_x # 向右移动奖励 self.current_x = info['x_pos'] # 特别事件奖励 if info['flag_get']: reward += 500 # 通关大奖 elif info['life'] < 2: reward -= 100 # 死亡惩罚 # 进度奖励 if info['x_pos'] > self.max_x: reward += 10 * (info['x_pos'] - self.max_x) self.max_x = info['x_pos'] return state, reward / 10.0, done, info

训练技巧：

课程学习：先从简单关卡开始（1-1），再逐步增加难度
动作空间优化：使用SIMPLE_MOVEMENT而非COMPLEX_MOVEMENT
帧跳过：每4帧执行一次动作，平衡反应速度与训练效率
早停机制：当连续100步x位置无变化时终止episode

可视化监控：使用TensorBoard记录关键指标：

from torch.utils.tensorboard import SummaryWriter writer = SummaryWriter() for episode in range(num_episodes): # ...训练逻辑... writer.add_scalar('Reward/episode', episode_reward, episode) writer.add_scalar('Position/max_x', max_x, episode)

当你的马里奥开始在1-1关卡稳定通过时，可以尝试以下进阶优化：