当前位置：首页 > news >正文

用PyTorch和DQN训练一个会玩Flappy Bird的AI（附完整代码和300万次训练模型）

news 2026/7/22 3:41:35

用PyTorch和DQN训练一个会玩Flappy Bird的AI（附完整代码和300万次训练模型）

1. 项目概述与核心挑战

Flappy Bird作为一款经典的休闲游戏，其简单的规则背后隐藏着复杂的动态环境。要让AI掌握这个游戏，我们需要解决几个关键问题：

状态表示：如何从原始像素中提取有效特征
动作决策：在仅有两个动作（跳跃/不跳）的情况下做出最优选择
长期规划：平衡即时奖励与长期收益

深度Q网络(DQN)通过结合卷积神经网络和Q-learning算法，能够直接从屏幕像素学习游戏策略。我们的实现包含以下技术要点：

# 网络结构示例 class DQN(nn.Module): def __init__(self): super().__init__() self.conv1 = nn.Conv2d(4, 32, kernel_size=8, stride=4) self.conv2 = nn.Conv2d(32, 64, kernel_size=4, stride=2) self.conv3 = nn.Conv2d(64, 64, kernel_size=3, stride=1) self.fc1 = nn.Linear(7*7*64, 512) self.fc2 = nn.Linear(512, 2)

2. 工程实现细节

2.1 环境配置与预处理

游戏画面经过多步处理才能作为神经网络的输入：

尺寸压缩：从288×512缩小到84×84
灰度化：转换为单通道图像
帧堆叠：将连续4帧叠加作为状态输入

def pre_process(image): image = cv2.cvtColor(cv2.resize(image, (84, 84)), cv2.COLOR_BGR2GRAY) _, image = cv2.threshold(image, 1, 255, cv2.THRESH_BINARY) return image[None, :, :].astype(np.float32)

2.2 关键参数设置

参数名称	取值	作用说明
γ (折扣因子)	0.99	控制未来奖励的重要性
初始ε	0.1	探索概率起始值
最终ε	1e-4	探索概率最终值
回放内存	30000	存储经验样本的数量
批大小	32	每次训练的样本数

2.3 训练流程优化

训练过程中采用了多项改进措施：

经验回放：打破样本相关性，提高数据效率
目标网络：稳定学习过程
ε-贪心策略：平衡探索与利用

提示：训练初期应保持较高探索率，随着网络成熟逐渐降低

3. 代码架构解析

项目包含以下核心文件：

flappy_bird.py- 游戏环境实现
deep_q_network.py- 神经网络定义
utils.py- 预处理工具
train.py- 主训练循环
test.py- 模型评估

训练循环的关键片段：

# 从回放内存采样 batch = sample(replay_memory, min(len(replay_memory), batch_size)) states, actions, rewards, next_states, dones = zip(*batch) # 计算目标Q值 with torch.no_grad(): next_q_values = target_net(next_states) max_next_q = next_q_values.max(1)[0] targets = rewards + (1 - dones) * gamma * max_next_q # 计算当前Q值并更新 current_q = net(states).gather(1, actions) loss = F.mse_loss(current_q, targets) optimizer.zero_grad() loss.backward() optimizer.step()

4. 训练结果分析

经过300万次迭代训练，模型表现呈现明显阶段性进步：

5万次：基本无法通过任何管道
50万次：偶尔通过1-2个管道
100万次：稳定通过4-5个管道
250万次：极少失误，可长期存活
300万次：近乎完美表现

训练过程中的关键指标变化：

Loss曲线：初期快速下降，后期趋于平稳
Q值：随着训练持续上升
奖励：后期稳定在较高水平
ε值：线性下降，探索率降低

5. 实战技巧与常见问题

5.1 性能优化建议

使用CUDA加速训练过程
调整回放内存大小平衡性能与效果
定期保存模型检查点

5.2 调试技巧

当训练出现问题时，可以检查：

预处理后的图像是否正常
奖励设计是否合理
网络梯度更新是否正常

# 监控GPU使用情况 nvidia-smi -l 1

5.3 扩展思路

本项目可以进一步优化：

引入Double DQN解决过估计问题
尝试Dueling Network结构
添加优先级经验回放

完整项目代码已包含300万次训练后的模型参数，可直接用于测试或继续训练。在实际使用中，建议从较小的迭代次数开始逐步验证模型效果。

http://www.jsqmd.com/news/844314/

相关文章：

小程序数据采集（5）- .wxapkg深度解密与源码反编译详解

逆向新手看过来：手把手教你用LSPosed+FunDex2，给APK‘扒衣服’看源码

【亲测免费】 TDMS官方Dll开发包及C调用示例

压力大心情不好就忍不住吃很多，情绪性进食，吃完又后悔怎么办？

本地宠物市场实测，探店老牌宠物店猫舍犬舍靠谱选择这里 - 范德萨的得到

告别Labelme！用飞桨EISeg交互式分割工具，5分钟搞定一张图的语义标注（附模型下载避坑指南）

3分钟解锁游戏新境界：Borderless Gaming让你的多任务游戏体验飞起来

云南私人定口碑好的制旅行社品牌哪个好 - GrowthUME

AI+3D 视觉赋能轮毂智能制造：迁移科技柔性上下料解决方案深度解析

2026年南京周边哪个度假酒店玩的多，一篇解锁遛娃度假新选择 - 速递信息

网盘直链下载助手完整指南：告别限速烦恼，九大网盘一键获取真实下载链接

【亲测免费】精准时钟管理：STM32F103驱动DS3231时钟芯片资源包推荐

拆解Segment Anything：除了分割一切，Meta的‘数据引擎’和‘十亿掩码’数据集才是真王牌

小程序数据采集（6）- 基于AST自动化解决JS混淆逻辑

工业自动化中的利器：libmodbus开源库Windows x64编译教程

RK3588开发板全接口调试指南：从串口登录到摄像头采集实战

CSDN博客下载器：3分钟掌握博客批量备份的终极方案

YOLOv8集成EMA注意力机制：从原理到部署的完整实践

如何截取图片的圆形区域

2026 对标 Cadence Allegro 的国产高端 PCB 软件推荐：弘快 RedPCB 实测 - 品牌2025

NotebookLM修改建议整合失效？立即停用默认流程！谷歌原厂工程师推荐的4阶语义对齐法

【亲测免费】探索EXE文件的内部世界：一款强大的反编译工具

【免费下载】慧荣SM3271AD量产工具：U盘量产的利器

西安用友畅捷通服务商选型：星瀚数智的专业服务全景 - 奔跑123

SuperMap Objects组件开发避坑指南：资源释放、事件处理与性能优化实战

2026年贵阳百货批发、不锈钢厨具、地摊货源怎么选？思洪多元深度横评指南 - 企业名录优选推荐

从CANoe到DoIP：一份给车载测试新人的UDS刷写服务($34/$36/$37)实战避坑指南

井下作业粘度监测难题破解！井下在线粘度计可定制，口碑源头厂家，参数选型更省心 - 品牌推荐大师

NotebookLM大纲生成不精准？深度拆解其语义锚定机制，手把手调优上下文压缩比与主题聚焦阈值

湛江 24 小时防水补漏服务评测：5 家本地正规企业实力对比 - 速递信息