当前位置：首页 > news >正文

深度Q网络DQN工程落地：从原理到边缘设备部署

news 2026/7/2 3:44:10

1. 项目概述：当强化学习撞上深度神经网络，我们到底在解决什么问题？

“Reinforcement Learning: Function Approximation and Deep Q-Networks — Part 4”这个标题，乍看像教科书目录里的一节，但如果你正在调试一个机器人避障策略、优化广告投放的实时出价逻辑，或者训练一个能玩《太空侵略者》的AI代理，那你此刻正站在一个关键分水岭上——从“小规模可穷举”的强化学习，正式迈入“真实世界不可穷举”的工程化落地阶段。Part 4 不是简单延续前三部分的理论推导，而是整套强化学习知识体系中最具实践张力的转折点：它标志着我们不再满足于在3×3网格世界里用一张表格存下所有状态-动作价值（Q值），而是必须直面现实——状态空间动辄是百万维图像像素、连续控制空间里有无穷多关节角度组合、环境反馈延迟且稀疏。这时候，“函数近似”不再是选修课，而是生存必需；而“深度Q网络（DQN）”也不再是论文里的漂亮架构，而是你部署在边缘设备上、每秒要处理20帧游戏画面并做出决策的实时推理引擎。

我带过三届校企联合AI实训营，每次讲到这一章，总有一半学员卡在“为什么非得用神经网络来拟合Q函数？”这个问题上。他们翻遍资料，看到的解释往往是“因为状态太多，查表存不下”。这没错，但太浅。真正让DQN成为里程碑的，是它首次系统性地把监督学习中的泛化能力，嫁接到强化学习的时序信用分配难题中。打个比方：传统Q-learning像一个记性极好的老账房先生，每个客户（状态）的赊账记录（Q值）都手写在独立账本上，从不混淆；而DQN则像一位新来的AI财务总监，它不记每一笔流水，而是通过分析成千上万笔历史交易（经验回放），总结出“高净值客户通常在周五下午下单”“促销期退货率上升15%”这类泛化规律（神经网络权重），再用这些规律去预测从未见过的新客户行为。这种泛化，让AI第一次具备了“举一反三”的能力——看到一只没训练过的蓝色太空船，也能基于对“红色飞船”的击毁经验，推断出同样该用激光射击。

所以，这篇内容的核心价值非常明确：它不是教你如何复现一篇顶会论文，而是帮你建立一套工程级DQN落地的思维框架。适合三类人：第一类是刚学完Q-learning基础、正为“我的迷宫机器人在训练地图上跑得飞快，一换新地图就撞墙”而困惑的初学者；第二类是算法工程师，需要在IoT设备资源受限条件下部署轻量DQN，纠结于“用ResNet还是MobileNet做特征提取”；第三类是技术决策者，想评估“把现有规则引擎升级为DQN驱动的动态定价系统，硬件成本和迭代周期会增加多少”。接下来的内容，我会完全跳过公式推导的“黑板时间”，直接带你进入实验室现场——从GPU显存告急的报错日志，到训练曲线突然崩塌的凌晨三点，再到最终在树莓派4B上稳定运行的12FPS实时决策模块。所有细节，都是我在过去三年为物流调度、工业质检、教育机器人三个领域交付DQN方案时，亲手写进运维手册里的血泪笔记。

2. 核心思路拆解：为什么DQN不是“Q-learning+神经网络”这么简单？

2.1 传统Q-learning的三大死穴，决定了必须重构整个学习范式

很多初学者尝试把Q-learning的更新公式 $Q(s,a) \leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s',a') - Q(s,a)]$ 直接套用到神经网络上，结果无一例外遭遇训练崩溃。这不是代码bug，而是范式冲突。我们必须先看清传统方法在扩展到复杂场景时暴露出的结构性缺陷：

第一，目标漂移（Target Drift）—— 神经网络的“自我催眠”陷阱
在标准Q-learning中，$Q(s',a')$ 的目标值来自同一张Q表，更新是同步进行的。但当你用神经网络 $\theta$ 表示Q函数时，每次梯度下降都在修改同一个网络的权重。这意味着：你在用当前网络 $\theta$ 计算损失（$r + \gamma \max_{a'} Q(s',a';\theta)$），又用这个损失去更新 $\theta$。这就像一个人一边当裁判一边踢球——网络在不断优化自己对“最优未来回报”的预测，而这个预测本身又在剧烈震荡。实测数据显示，未加干预的DQN在Atari游戏上训练10万步后，Q值估计误差（MSE）会放大3.7倍，导致策略彻底迷失。

第二，样本相关性（Sample Correlation）—— 时间序列数据的“记忆污染”
Q-learning依赖马尔可夫性质，假设每个转移 $(s_t,a_t,r_t,s_{t+1})$ 是独立同分布的。但在真实环境中，连续帧之间高度相似：游戏画面中飞船只移动了2个像素，机械臂关节角变化不到0.5度。如果直接按时间顺序喂给神经网络，网络会把“第1001帧和第1002帧的微小差异”误判为需要不同策略的关键特征，而非学习真正的状态转移规律。我们在物流分拣机器人项目中做过对照实验：用原始帧序列训练，模型在新仓库布局上的泛化准确率仅61%；改用经验回放后，提升至89%。

第三，奖励稀疏性（Sparse Reward）—— “大海捞针”式的学习效率
在经典Q-learning中，每个状态都有明确的Q值更新机会。但DQN面对的是高维输入（如84×84灰度图），单次前向传播耗时长，而真实奖励往往延迟出现（比如在《Breakout》中，击碎最后一块砖才获得高分）。如果等待完整episode结束再更新，网络可能在数万步内接收不到任何有效梯度信号。我们的工业质检系统曾因此卡在“识别焊点缺陷”的环节长达72小时——直到引入双网络结构，才将收敛时间压缩到4.2小时。

提示：这三个问题不是孤立存在的。目标漂移会加剧样本相关性带来的过拟合，而奖励稀疏性又放大了目标漂移的破坏力。DQN的精妙之处，在于用一套环环相扣的工程设计，同时击穿这三重壁垒。

2.2 DQN的四大支柱设计：每个选择背后都是血泪教训

DQN不是凭空发明的，它的每个组件都对应着解决上述某一类问题的实战需求。理解“为什么这样设计”，比记住“怎么实现”重要十倍：

支柱一：经验回放（Experience Replay）—— 打破时间锁链的“数据搅拌机”
核心操作：把每个交互 $(s_t,a_t,r_t,s_{t+1})$ 存入一个容量为$N$的循环缓冲区（如Python的deque），训练时随机采样小批量（batch）数据。这看似简单的操作，实际解决了两个致命问题：

去相关性：随机采样使相邻训练样本不再具有时间关联，网络被迫学习跨时间步的通用模式。我们在树莓派部署时发现，当缓冲区大小设为10万条时，GPU显存占用比顺序训练降低42%，且训练稳定性提升3倍。
样本复用：单个经验可被多次用于不同轮次的梯度更新，极大提升稀疏奖励下的学习效率。物流调度项目中，一次“成功避开拥堵路段”的经验被重复利用17次，才让策略真正掌握该模式。

支柱二：固定目标网络（Fixed Target Network）—— 给学习过程装上“锚点”
核心操作：维护两个结构相同的Q网络——在线网络（online network，参数$\theta$）和目标网络（target network，参数$\theta^-$）。在线网络负责实时决策和梯度更新；目标网络每$C$步（如10000步）才用在线网络的最新权重覆盖一次。其数学本质是将贝尔曼方程的目标项 $r + \gamma \max_{a'} Q(s',a';\theta^-)$ 中的$\theta^-$冻结，形成稳定的优化目标。

注意：这里的$C$不是越大越好。我们在教育机器人项目中测试过：当$C=500$时，目标网络更新太频繁，无法抑制漂移；当$C=50000$时，目标过于陈旧，导致学习停滞。最终选定$C=10000$，这是在收敛速度与稳定性间找到的黄金平衡点。

支柱三：ε-贪心策略的动态衰减—— 探索与利用的“呼吸节奏”
核心操作：初始ε设为1.0（完全随机探索），线性衰减至0.01（基本纯利用），衰减步数通常设为100万步。但真实场景中，这个“线性”是理想化的。我们在工业质检系统中发现：前期衰减太快（如50万步内降到0.1），模型会错过关键缺陷模式；后期衰减太慢，则陷入局部最优。最终采用分段衰减：前20万步快速降至0.5（快速覆盖状态空间），中间60万步缓慢降至0.1（精细调整策略），最后20万步保持0.1并加入噪声扰动（对抗过拟合）。

支柱四：卷积特征提取器—— 高维感知的“视觉皮层”
核心操作：输入84×84×4堆叠帧（4帧代表运动信息），经3层卷积（32@8×8@4, 64@4×4@2, 64@3×3@1）+2层全连接（512→num_actions）。这里的关键洞察是：卷积核的本质是状态抽象器。第一层卷积核自动学习边缘检测（飞船轮廓），第二层组合成形状识别（炮台结构），第三层构建空间关系（子弹与敌机相对位置）。我们在物流机器人项目中对比过：用预训练ResNet提取特征，虽然精度略高2.3%，但推理延迟增加8倍，无法满足实时避障要求；而定制卷积网络在Jetson Nano上稳定运行在23FPS。

3. 实操细节解析：从代码片段到生产环境的12个关键决策点

3.1 环境适配：为什么Atari预处理流程不能直接照搬？

DQN论文中经典的Atari预处理流程（灰度化→裁剪→缩放→堆叠4帧）是针对特定场景优化的，但真实项目中必须根据传感器类型和计算资源重新设计。以下是我们在三个典型场景中的实操决策：

场景	输入源	关键处理步骤	决策依据
工业质检（PCB焊点）	高分辨率工业相机（2048×1536）	① ROI裁剪（仅保留焊点区域） ② 自适应直方图均衡化（增强微小虚焊对比度） ③ 双线性插值缩放至84×84	原始图像含大量无关背景，直方图均衡化比Gamma校正更能突出0.1mm级缺陷纹理
物流分拣（包裹识别）	RGB-D深度相机	① 深度图转点云→体素化（32×32×32） ② RGB图与体素特征拼接 ③ 通道归一化（RGB/255, Depth/1000）	单靠RGB无法判断包裹堆叠关系，深度信息必须作为独立通道参与特征学习
教育机器人（手势控制）	树莓派CSI摄像头	① YUV色彩空间转换（减少计算量） ② 运动检测（帧差法提取手势区域） ③ 裁剪+缩放至84×84	树莓派CPU弱，YUV处理比RGB快3.2倍；运动检测将输入维度从84×84×3降至1200像素

实操心得：在教育机器人项目中，我们曾错误沿用Atari的“堆叠4帧”设计，结果发现儿童手势动作缓慢，4帧堆叠反而模糊了关键姿态。改为“堆叠当前帧+前1帧+前3帧+前5帧”，捕捉动作节奏感，准确率提升19%。永远先理解你的传感器物理特性，再决定数据预处理逻辑。

3.2 网络架构调优：那些论文里不会写的参数陷阱

DQN原论文的网络结构是经典模板，但实际部署时，每个参数都需结合硬件约束反复验证。以下是我们在Jetson AGX Orin上实测的12个关键决策点：

1. 输入帧堆叠数（Stack Size）

Atari标准：4帧（捕获速度方向）
我们的工业质检：2帧（焊点状态变化缓慢，4帧引入冗余噪声）
物流分拣：3帧（包裹移动中需判断加速度，2帧不足以建模）

关键发现：堆叠数超过3后，GPU内存占用呈指数增长，但性能提升趋近于零。建议用nvidia-smi监控显存，找到拐点。

2. 卷积核尺寸选择

第一层：8×8核（Atari）→ 在PCB质检中改为5×5
理由：8×8核感受野过大，会淹没0.5mm焊点的细微裂纹。5×5在保持边缘检测能力的同时，提升空间分辨率。

3. 激活函数替换

原论文：ReLU
我们的实践：第一层卷积后用LeakyReLU（α=0.1）
效果：在低光照质检场景中，负值泄漏避免了“死亡神经元”，缺陷检出率提升7.3%

4. 全连接层神经元数

Atari：512→ 我们在树莓派4B上降为256
验证：256维特征已足够区分12类焊点缺陷，继续增加导致过拟合，且推理延迟超阈值。

5. 批量大小（Batch Size）

GPU训练：32（平衡显存与梯度稳定性）
边缘设备：8（Jetson Nano显存仅4GB，batch=16时OOM）

注意：batch size改变时，学习率必须同比例缩放（线性缩放定律）。batch=8时，学习率从1e-4降至2.5e-5。

6. 优化器选择

Adam（Atari）→ 我们的工业场景改用RMSProp
理由：RMSProp对梯度方差的自适应更稳定，尤其在奖励稀疏时，避免Adam的偏置校正导致的早期震荡。

7. 损失函数微调

Huber Loss（Atari）→ 我们的物流系统加入Clipped Double Q-learning
操作：维护两个Q网络，取较小值计算目标，减少过高估计偏差。实测使配送路径规划成功率提升11%。

8. ε衰减终点值

Atari：0.01 → 我们的教育机器人：0.05
原因：儿童手势存在天然抖动，保留一定随机性可增强鲁棒性，避免模型对微小抖动过度敏感。

9. 目标网络更新频率（C）

Atari：10000步 → 我们的PCB质检：5000步
依据：质检任务状态转移更快（焊点切换频率高），目标网络需更及时同步在线网络。

10. 经验回放缓冲区大小

Atari：100万 → 我们的物流系统：20万
理由：仓库环境变化慢，过大的缓冲区会混入过时经验（如旧货架布局），反而降低泛化性。

11. 奖励塑形（Reward Shaping）

Atari：原始游戏得分 → 我们的工业质检：
- +1.0：正确识别缺陷
- -0.5：漏检（严重错误）
- -0.1：误检（可容忍）
- +0.2：连续5次正确（鼓励稳定性）

关键技巧：奖励塑形必须与业务目标强对齐。在物流项目中，我们曾给“提前到达”加正向奖励，结果模型学会冒险闯红灯——立即修正为“安全准时到达”才达标。

12. 硬件感知的推理优化

Jetson AGX Orin：启用TensorRT加速，FP16量化
树莓派4B：用ONNX Runtime + OpenVINO，INT8量化
效果：Orin上推理延迟从42ms降至8ms；树莓派从210ms降至65ms，满足实时性要求。

3.3 训练监控：如何从loss曲线中读出即将发生的灾难？

DQN训练不像监督学习那样平滑，loss曲线的每一次异常波动都预示着潜在危机。以下是我们在12个DQN项目中总结的“曲线诊断手册”：

曲线特征	可能原因	紧急应对措施	实测案例
Loss持续上升（>1000步）	目标网络更新延迟或学习率过高	① 立即暂停训练 ② 检查目标网络是否真的被更新（打印θ⁻权重范数） ③ 将学习率降低50%	物流项目中因CUDA版本bug导致目标网络未更新，loss在3小时内飙升17倍
Loss剧烈震荡（振幅>5）	经验回放采样偏差或奖励未归一化	① 检查reward范围（应控制在[-1,1]） ② 临时关闭ε-贪心，用确定性策略收集纯exploit数据	教育机器人中，原始RGB值[0,255]未归一化，导致loss在[0.3, 12.7]间狂跳
Q值估计持续发散	目标网络冻结失效或梯度爆炸	① 检查梯度裁剪（clip_grad_norm_=1.0）是否生效 ② 在loss计算前插入`torch.isnan(q_target).any()`断言	PCB质检中因焊点图像过曝，某批次数据导致q_target出现NaN，引发连锁崩溃
Episode Reward平台期（>5万步）	探索不足或环境奖励设计缺陷	① 临时提高ε至0.3，强制探索 ② 分析最后100个episode的action分布，检查是否陷入单一策略	物流分拣中发现模型98%时间选择“左转”，实为奖励函数未惩罚无效转向所致
GPU显存缓慢爬升	张量未释放或循环引用	① 在训练循环末尾添加`torch.cuda.empty_cache()` ② 用`gc.collect()`清理Python垃圾	Jetson Nano上因未清缓存，显存3小时后耗尽，训练中断

实操心得：在所有项目中，我们强制要求在训练脚本开头插入以下监控钩子：

# 每100步执行一次健康检查 if step % 100 == 0: # 检查Q值合理性 q_values = online_net(state_batch) assert torch.all(q_values < 100), f"Q值异常发散: {q_values.max()}" # 检查目标网络同步 target_norm = torch.norm(torch.cat([p.data.flatten() for p in target_net.parameters()])) online_norm = torch.norm(torch.cat([p.data.flatten() for p in online_net.parameters()])) assert abs(target_norm - online_norm) < 1e-3, "目标网络未同步"

这段代码在3个项目中提前2天预警了潜在崩溃，避免了72小时以上的无效训练。

4. 完整实操流程：从零搭建可部署的DQN系统（以PCB质检为例）

4.1 环境准备：硬件选型与依赖安装的硬核细节

我们的PCB质检系统最终部署在Jetson AGX Orin开发套件（32GB RAM，2048-core GPU）上，但训练环境需兼顾复现性与效率。以下是经过12次环境重装验证的精准配置：

操作系统与驱动

Ubuntu 20.04 LTS（必须，Ubuntu 22.04的glibc版本与某些CUDA库冲突）
NVIDIA Driver 515.65.01（Orin官方认证版本，525+版本会导致TensorRT编译失败）
CUDA 11.8（非12.x！TensorRT 8.6.1仅支持CUDA 11.8）
cuDNN 8.6.0（严格匹配CUDA 11.8，官网下载时注意选择“Deb (local)”安装包）

Python环境（绝对禁止conda）

# 创建纯净虚拟环境（conda的包管理在Jetson上极易出错） python3.8 -m venv dqn_env source dqn_env/bin/activate # 升级pip到23.0以上（旧版pip安装torch会失败） pip install --upgrade pip==23.0.1 # 安装PyTorch（必须用NVIDIA官方源，非pip默认源） pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 --extra-index-url https://download.pytorch.org/whl/cu117 # 安装关键依赖（版本锁定！） pip install numpy==1.23.5 opencv-python==4.8.0.74 gym==0.26.2 tensorboard==2.12.0 # TensorRT加速（核心！） pip install nvidia-tensorrt==8.6.1.6

注意：gym==0.26.2是关键。新版gym（0.27+）移除了env.reset()的seed参数，而DQN训练需要确定性重置以保证可复现性。若强行升级，会导致训练结果无法复现。

自定义环境封装（核心代码）

import cv2 import numpy as np from gym import Env from gym.spaces import Box, Discrete class PCBDefectEnv(Env): def __init__(self, camera_id=0): super().__init__() # 动作空间：0=无操作, 1=标记虚焊, 2=标记短路, 3=标记漏焊 self.action_space = Discrete(4) # 观察空间：84x84x4堆叠帧（灰度图） self.observation_space = Box(low=0, high=255, shape=(84, 84, 4), dtype=np.uint8) self.cap = cv2.VideoCapture(camera_id) self.frame_stack = np.zeros((84, 84, 4), dtype=np.uint8) def reset(self, seed=None): # 确保可复现性 if seed is not None: np.random.seed(seed) # 清空帧堆栈 self.frame_stack = np.zeros((84, 84, 4), dtype=np.uint8) return self._get_observation() def _get_observation(self): # 1. 采集原始帧 ret, frame = self.cap.read() if not ret: frame = np.zeros((1080, 1920, 3), dtype=np.uint8) # 2. ROI裁剪（PCB板固定位置） roi = frame[200:800, 400:1200] # 实际坐标需标定 # 3. 自适应直方图均衡化 gray = cv2.cvtColor(roi, cv2.COLOR_BGR2GRAY) clahe = cv2.createCLAHE(clipLimit=2.0, tileGridSize=(8,8)) enhanced = clahe.apply(gray) # 4. 缩放+归一化 resized = cv2.resize(enhanced, (84, 84)) # 5. 堆叠到帧栈（移位+更新） self.frame_stack = np.roll(self.frame_stack, shift=-1, axis=2) self.frame_stack[:, :, -1] = resized return self.frame_stack def step(self, action): # 业务逻辑：根据action触发质检动作 reward = self._calculate_reward(action) done = self._check_episode_end() info = {"defect_type": ["none", "cold_solder", "short_circuit", "missing_solder"][action]} return self._get_observation(), reward, done, info def _calculate_reward(self, action): # 奖励塑形（业务核心！） if action == 0: # 无操作 return -0.01 # 小惩罚，鼓励主动判断 elif action == 1 and self._is_cold_solder(): return 1.0 elif action == 1 and not self._is_cold_solder(): return -0.5 # 严重漏检惩罚 # ... 其他动作逻辑

4.2 DQN核心类实现：去掉所有魔法数字的生产级代码

import torch import torch.nn as nn import torch.optim as optim import numpy as np from collections import deque import random class DQNAgent: def __init__(self, state_shape, action_size, lr=2.5e-5, gamma=0.99, epsilon_start=1.0, epsilon_end=0.05, epsilon_decay=1e6, replay_buffer_size=200000, batch_size=32, target_update=5000): self.state_shape = state_shape # (84, 84, 4) self.action_size = action_size self.gamma = gamma self.epsilon = epsilon_start self.epsilon_end = epsilon_end self.epsilon_decay = epsilon_decay self.batch_size = batch_size self.target_update = target_update # 网络初始化 self.online_net = self._build_network() self.target_net = self._build_network() self.target_net.load_state_dict(self.online_net.state_dict()) # 优化器（RMSProp更稳定） self.optimizer = optim.RMSprop(self.online_net.parameters(), lr=lr, alpha=0.95, eps=0.01) # 经验回放（使用deque，O(1)插入/删除） self.memory = deque(maxlen=replay_buffer_size) # 训练步数计数器 self.step_count = 0 def _build_network(self): """构建DQN网络（生产环境精简版）""" net = nn.Sequential( # 输入: 4x84x84 -> 输出: 32x20x20 nn.Conv2d(4, 32, kernel_size=5, stride=4, padding=0), nn.LeakyReLU(0.1), # 32x20x20 -> 64x9x9 nn.Conv2d(32, 64, kernel_size=3, stride=2, padding=1), nn.LeakyReLU(0.1), # 64x9x9 -> 64x7x7 nn.Conv2d(64, 64, kernel_size=3, stride=1, padding=1), nn.LeakyReLU(0.1), nn.Flatten(), # 64*7*7 = 3136 -> 256 nn.Linear(3136, 256), nn.LeakyReLU(0.1), # 256 -> action_size nn.Linear(256, self.action_size) ) return net def act(self, state): """ε-贪心策略（带动态衰减）""" self.step_count += 1 # 动态ε衰减（分段线性） if self.step_count < 200000: self.epsilon = 1.0 - (1.0 - self.epsilon_end) * (self.step_count / 200000) elif self.step_count < 800000: self.epsilon = self.epsilon_end + (self.epsilon_end - 0.01) * ((self.step_count - 200000) / 600000) else: self.epsilon = 0.01 if random.random() <= self.epsilon: return random.randrange(self.action_size) # 确保state是tensor且在GPU上 state_tensor = torch.FloatTensor(state).permute(2,0,1).unsqueeze(0).cuda() with torch.no_grad(): q_values = self.online_net(state_tensor) return q_values.argmax().item() def remember(self, state, action, reward, next_state, done): """存储经验""" self.memory.append((state, action, reward, next_state, done)) def replay(self): """经验回放训练""" if len(self.memory) < self.batch_size: return # 随机采样batch batch = random.sample(self.memory, self.batch_size) states, actions, rewards, next_states, dones = zip(*batch) # 转换为tensor（关键：归一化！） states = torch.FloatTensor(np.array(states)).permute(0,3,1,2).cuda() / 255.0 next_states = torch.FloatTensor(np.array(next_states)).permute(0,3,1,2).cuda() / 255.0 actions = torch.LongTensor(actions).cuda() rewards = torch.FloatTensor(rewards).cuda() dones = torch.BoolTensor(dones).cuda() # 计算当前Q值 current_q_values = self.online_net(states).gather(1, actions.unsqueeze(1)) # 计算目标Q值（Double DQN变体） with torch.no_grad(): # 在线网络选择动作，目标网络评估价值 next_q_online = self.online_net(next_states) next_actions = next_q_online.argmax(dim=1) next_q_target = self.target_net(next_states).gather(1, next_actions.unsqueeze(1)).squeeze(1) # 贝尔曼更新 target_q_values = rewards + (self.gamma * next_q_target * ~dones) # Huber损失（对异常值鲁棒） loss = nn.SmoothL1Loss()(current_q_values.squeeze(), target_q_values) # 反向传播 self.optimizer.zero_grad() loss.backward() # 梯度裁剪（防止爆炸） torch.nn.utils.clip_grad_norm_(self.online_net.parameters(), max_norm=1.0) self.optimizer.step() # 定期更新目标网络 if self.step_count % self.target_update == 0: self.target_net.load_state_dict(self.online_net.state_dict()) def save(self, path): """保存模型（生产环境必须）""" torch.save({ 'online_net_state_dict': self.online_net.state_dict(), 'target_net_state_dict': self.target_net.state_dict(), 'optimizer_state_dict': self.optimizer.state_dict(), 'step_count': self.step_count, 'epsilon': self.epsilon, }, path) def load(self, path): """加载模型""" checkpoint = torch.load(path) self.online_net.load_state_dict(checkpoint['online_net_state_dict']) self.target_net.load_state_dict(checkpoint['target_net_state_dict']) self.optimizer.load_state_dict(checkpoint['optimizer_state_dict']) self.step_count = checkpoint['step_count'] self.epsilon = checkpoint['epsilon']

4.3 训练脚本：嵌入23个生产级监控的完整流程

import torch import numpy as np from datetime import datetime import os from torch.utils.tensorboard import SummaryWriter # 初始化环境与智能体 env = PCBDefectEnv() agent = DQNAgent( state_shape=(84, 84, 4), action_size=4, lr=2.5e-5, gamma=0.99, epsilon_start=1.0, epsilon_end=0.05, epsilon_decay=1e6, replay_buffer_size=200000, batch_size=32, target_update=5000 ) # TensorBoard日志（按时间戳命名，避免覆盖） log_dir = f"runs/pcb_dqn_{datetime.now().strftime('%Y%m%d_%H%M%S')}" writer = SummaryWriter(log_dir) # 训练主循环 total_steps = 0 episode_rewards = [] best_reward = -float('inf') for episode in range(10000): state = env.reset() episode_reward = 0 done = False while not done: # 1. 动作选择 action = agent.act(state) # 2. 环境交互 next_state, reward, done, info = env.step(action) episode_reward += reward # 3. 存储经验 agent.remember(state, action, reward, next_state, done) state = next_state total_steps += 1 # 4. 每步训练（关键：高频更新提升效率） agent.replay() # 5. 每100步执行健康检查 if total_steps % 100 == 0: # 检查Q值合理性 q_vals = agent.online_net( torch.FloatTensor(state).permute(2,0,1).unsqueeze(0).cuda() / 255.0 ) if torch.any(torch.abs(q_vals) > 100): print(f"[ALERT] Q值异常: {q_vals.max().item():.2f}") # 触

查看全文

http://www.jsqmd.com/news/1106441/