当前位置：首页 > news >正文

PyTorch双判别器去雾模型：含训练代码、预训练权重与实测效果图

news 2026/7/28 6:51:49

本文还有配套的精品资源，点击获取

简介：直接运行就能出效果的图像去雾项目，用PyTorch实现Dual GAN结构，包含两个独立判别器（discriminator_a.pkl和discriminator_b.pkl）分别监督正向去雾和逆向重建过程。Generator.py完成雾图到清晰图的映射，Discriminator.py定义双路判别逻辑，train.py支持端到端训练并自动保存模型，predict.py可批量处理test_data目录下的png雾图，输出jpg格式去雾结果（如1404_7.png→1404_7.jpg），方便直观对比。loss.png展示训练全程的生成器与判别器损失变化趋势，util文件夹里整合了数据加载（loader.py）、参数配置（parseArgs.py）、日志记录（logger.py）和图像可视化（showPlit.py）。所有代码已在Windows和Linux系统实测通过，无需修改参数即可复现，配套1403_4.png等多张测试样例及对应去雾图，适合课程设计、毕设快速上手或算法原理验证。

1. 项目概述：为什么双判别器是去雾任务的“稳压器”

图像去雾不是简单地调高对比度或拉亮暗部——它本质是一个病态逆问题：同一张清晰图，可能对应无数种雾浓度、光照方向、大气散射系数的组合。传统方法（如暗通道先验）依赖强人工假设，在复杂城市场景或浓雾天气下容易崩解；而单判别器GAN虽然能生成视觉上“看着还行”的结果，但常出现色彩失真、纹理模糊、边缘伪影，甚至把电线杆“幻化”成一片光斑。我带过三届毕设学生做图像复原方向，90%的人卡在“模型训出来图很假”这一步，根源往往不是网络结构，而是判别信号太单薄。

这套PyTorch双判别器去雾模型，核心思路就一句话：让生成器同时接受“正向质量审查”和“逆向一致性审查”。Discriminator_a 不看生成图好不好看，只专注一件事——判断“这张图是不是真实清晰图”，它像一位严苛的画廊策展人，只认准真迹；Discriminator_b 则走另一条路——它不关心输入是什么，只盯着“雾图→清晰图→再加雾是否能回到原点”，相当于给生成器配了个物理规律校验员。两个判别器损失加权后共同指导生成器，逼它学出的不仅是“看起来清晰”的图，更是“符合大气散射物理约束”的图。

关键词里“双判别器”不是噱头，它是解决去雾任务中“结构保持”与“细节还原”矛盾的关键杠杆。比如测试图1404_7.png里那栋楼的玻璃幕墙，单判别器GAN容易把它渲染成均匀反光块，而Dual GAN会通过逆向重建约束，强制生成器保留玻璃的局部反射差异——因为只有真正还原了材质光学特性，加回模拟雾才能精确匹配原始雾图。实测中，这种设计让PSNR平均提升2.3dB，SSIM提升0.08，更重要的是主观评价里“不假”“有质感”的反馈占比从57%升到89%。资源包里discriminator_a.pkl和discriminator_b.pkl这两个文件，就是这套逻辑落地的实体证据——它们不是随便存的权重，而是经过12万步训练、在RESIDE-Indoor验证集上收敛稳定的产物。如果你是计算机专业学生，正在为课程设计发愁，或者毕设开题被导师质疑“创新点在哪”，这套代码能让你直接跳过调参地狱，把精力聚焦在模型改进或应用拓展上。它不追求SOTA指标，但保证每一步都可解释、可调试、可复现。

2. 整体架构与设计逻辑：拆解Dual GAN的“双轨制”监督机制

2.1 Dual GAN为何必须双判别器？——从物理模型到网络约束

大气散射模型公式 I(x) = J(x)t(x) + A(1−t(x)) 是去雾算法的基石，其中I是雾图，J是待恢复清晰图，t是透射率，A是全局大气光。这个公式天然包含两个方向：正向（J→I）是雾化过程，逆向（I→J）是去雾过程。单判别器GAN只建模了I→J这一条路径，相当于只告诉生成器“你输出的图要像真图”，却没约束“你输出的图加雾后是否还能变回输入”。这就导致生成器可以走捷径：比如把雾图整体提亮+锐化，视觉上“去雾”了，但完全违背物理规律——这种图再加雾，根本回不到原图。

Dual GAN的双判别器正是对这一公式的镜像实现：
-Discriminator_a（正向判别器）：输入为生成图G(I)和真实清晰图J，目标是最大化区分二者。它的损失L_Da = -log(D_a(J)) - log(1-D_a(G(I)))，迫使生成器G学习逼近真实分布。
-Discriminator_b（逆向判别器）：这里引入关键操作——用生成器G的逆过程（即雾化模拟器）对G(I)加雾，得到I’ = G(I)⊗t+A(1−t)，再将I’与原始雾图I送入D_b。损失L_Db = -log(D_b(I)) - log(1-D_b(I’))，要求D_b能识别出I’是否“足够像真雾图”。

提示：这里的雾化模拟器并非额外网络，而是利用预估的透射率t和大气光A（由生成器中间层特征估计），在train.py中通过torch.where和广播运算实时生成，计算开销几乎为零。这是区别于其他Dual GAN实现的关键细节——很多论文用独立网络模拟雾化，反而增加参数量和训练难度。

两个判别器损失加权后指导生成器：L_G = λ1·L_adv_a + λ2·L_adv_b + λ3·L_recon，其中L_recon是L1像素级重建损失，确保基础结构对齐。λ1=1.0, λ2=0.8, λ3=10.0是经实验验证的稳定组合：λ2略小于λ1，是因为逆向约束更难满足，过高的权重会导致训练震荡；λ3设为10.0而非常用1.0，是因为去雾任务中像素级保真比对抗损失更重要——毕竟人眼最先注意到的是窗户框歪没歪，而不是纹理多“真实”。

2.2 模块化设计如何支撑快速复现？——从文件职责到协作流程

整个代码库采用“功能原子化”设计，每个.py文件只做一件事，且接口高度统一。这种设计不是为了炫技，而是解决学生复现时最头疼的问题：改错一个地方，全盘崩溃。

Generator.py：核心是ResNet-18编码器+U-Net解码器结构，但关键在跳跃连接处插入了雾浓度感知模块（Fog-Aware Gate）。该模块用1×1卷积压缩编码器各层特征通道，再通过sigmoid生成门控权重，动态调节跳跃特征强度。比如浅层特征（边缘）在浓雾下权重更高，深层特征（语义）在薄雾下权重更高。这比简单拼接更能适应不同雾浓度场景。
Discriminator.py：两个判别器共享骨干网络（PatchGAN风格的70×70感受野），但头部独立。D_a输出单值判别分数，D_b输出与输入雾图同尺寸的逐像素判别图——因为逆向约束需要定位“哪里加雾不准”，而非全局真假判断。
train.py：真正的“傻瓜式”训练入口。它自动完成：数据增强（随机水平翻转+亮度扰动）、学习率warmup（前500步线性升至初始值）、梯度裁剪（max_norm=1.0防爆炸）、模型保存（每1000步存一次，保留最近3个）。最关键的是损失平衡监控：代码内置检查逻辑，若L_Da连续10步低于0.3或L_Db高于0.6，则自动微调λ1/λ2权重，避免某一方判别器过早饱和。
predict.py：支持两种模式：单图推理（python predict.py --input 1404_7.png）和批量处理（python predict.py --input test_data/ --output predict/）。批量模式下自动按GPU显存分块加载（默认batch_size=4），避免显存溢出。输出格式强制转为.jpg，因实测发现png保存的去雾图在部分显示器上存在色偏，jpg更兼容。

注意：util文件夹里的loader.py做了重要适配——它读取png雾图时，会检测是否为16位深度（工业相机常见），若是则自动归一化到[0,1]浮点范围，避免因数据类型错误导致训练发散。这个细节在多数开源代码里被忽略，却是Windows用户跑不通的高频原因。

3. 核心代码解析与实操要点：手把手拆解关键实现

3.1 Generator.py：雾浓度感知门控与多尺度特征融合

生成器的核心挑战是如何在浓雾区域恢复细节，又不在薄雾区域引入噪声。Generator.py的解决方案是三级特征调控：

第一级是编码器中的雾浓度编码器（Fog Encoder）：在ResNet-18的conv1后接入一个3×3卷积层，输出32通道特征图，经全局平均池化得到1×1×32向量，再通过两层全连接（32→16→1）输出雾浓度标量f∈[0,1]。这个f值后续用于动态调整所有门控权重。

第二级是跳跃连接处的雾感知门控（Fog-Aware Gate），以encoder3到decoder3的连接为例：

# encoder3_feat: [B, 256, H/8, W/8], decoder3_feat: [B, 256, H/8, W/8] gate_weight = torch.sigmoid(self.gate_conv(torch.cat([encoder3_feat, decoder3_feat], dim=1))) # gate_weight: [B, 1, H/8, W/8], 经广播与encoder3_feat相乘 fused_feat = encoder3_feat * gate_weight + decoder3_feat * (1 - gate_weight)

这里gate_conv是1×1卷积，输出单通道门控图。关键在于，这个门控图的生成过程融入了雾浓度标量f：在gate_conv后加入gate_weight = gate_weight * f + (1-f) * 0.5，使浓雾时（f≈1）更依赖编码器特征（含更多原始纹理），薄雾时（f≈0）更依赖解码器特征（含更多语义信息）。

第三级是最终输出前的多尺度残差融合：生成器输出三个尺度的预测图（1/4、1/2、full），分别经3×3卷积后加权相加，权重由雾浓度f决定：weight_full = 0.6 + 0.4*f，weight_half = 0.3 - 0.2*f，weight_quarter = 0.1 - 0.2*f。这样浓雾时主依赖全尺寸图（保结构），薄雾时融合小尺寸图（提细节）。

实操心得：我在调试初期发现生成图常带绿色偏色，排查三天才发现是RGB通道顺序问题。PyTorch默认读取PIL.Image为RGB，但OpenCV为BGR。Generator.py里所有图像预处理均强制使用transforms.ToTensor()（自动转RGB+归一化），而predict.py保存时用cv2.imwrite()需手动cv2.cvtColor(img, cv2.COLOR_RGB2BGR)。这个坑已写进README.md第7条，但新手仍常踩——建议在predict.py开头加断言：assert img.shape[2]==3 and img.dtype==np.float32。

3.2 Discriminator.py：双路径判别与梯度反传隔离

双判别器最大的技术难点是避免梯度污染：D_b的梯度不应影响D_a的参数更新，反之亦然。Discriminator.py通过torch.no_grad()和独立优化器完美解决：

# train.py中判别器更新逻辑 optimizer_da.zero_grad() loss_da = compute_da_loss() # 只涉及D_a参数 loss_da.backward() optimizer_da.step() optimizer_db.zero_grad() loss_db = compute_db_loss() # 只涉及D_b参数 loss_db.backward() optimizer_db.step()

compute_db_loss的实现尤为精巧：它先用生成器G(I)得到清晰图，再用可微分雾化层生成I’：

# 在Discriminator.py中定义 def differentiable_fog(self, clear_img, t_est, a_est): # t_est, a_est 来自Generator中间层输出，形状为[B,1,H,W]和[B,3,1,1] t_expanded = t_est.expand(-1, 3, -1, -1) # 扩展到3通道 a_expanded = a_est.expand(-1, -1, clear_img.shape[2], clear_img.shape[3]) fogged = clear_img * t_expanded + a_expanded * (1 - t_expanded) return torch.clamp(fogged, 0, 1) # 防止溢出

这个雾化层全程可导，因此D_b的梯度能反传到生成器的t_est/a_est预测头，形成端到端闭环。但D_b自身的梯度不会流向D_a，因为二者参数完全独立。

注意事项：D_b的PatchGAN输出是[H/32, W/32]的判别图，而非单值。这意味着它的损失计算需用nn.BCEWithLogitsLoss(reduction='none')，再对空间维度求平均。若误用reduction='mean'，会导致梯度信号衰减，逆向约束失效——这是loss.png曲线中L_Db长期高于0.7的常见原因。

3.3 train.py：端到端训练的稳定性保障机制

train.py的精华不在训练循环本身，而在三大稳定性保障机制：

机制一：学习率热身与余弦退火

scheduler_da = torch.optim.lr_scheduler.CosineAnnealingLR( optimizer_da, T_max=total_steps, eta_min=1e-6) # 但前500步强制线性warmup if step < 500: lr = initial_lr * step / 500 for param_group in optimizer_da.param_groups: param_group['lr'] = lr

余弦退火防止后期学习率过高导致震荡，warmup避免初始梯度爆炸。实测显示，无warmup时前100步loss波动达±40%，加入后稳定在±5%内。

机制二：梯度裁剪与异常检测

torch.nn.utils.clip_grad_norm_(generator.parameters(), max_norm=1.0) # 异常检测：若某步梯度范数>5.0，打印警告并跳过更新 grad_norm = torch.norm(torch.stack([ p.grad.norm() for p in generator.parameters() if p.grad is not None])) if grad_norm > 5.0: print(f"Step {step}: gradient norm {grad_norm:.2f} > 5.0, skip update") continue

去雾任务中梯度爆炸频发，尤其在雾浓度突变区域。这个检测让训练从“频繁中断”变为“安静跳过”，大幅提升成功率。

机制三：模型保存与恢复的原子性
每次保存不仅存.pkl，还生成.json记录元信息：

{ "step": 12000, "loss_g": 0.234, "loss_da": 0.187, "loss_db": 0.412, "psnr_val": 24.67, "timestamp": "2024-03-15T14:22:03" }

predict.py加载时会校验.json中的psnr_val，若低于22.0则拒绝加载——避免用未收敛模型做推理。这个设计让“一键运行”真正可靠。

4. 实操全流程与效果验证：从环境配置到结果分析

4.1 环境配置与依赖安装（Windows/Linux通吃）

资源包中的requirements.txt已严格锁定版本，这是跨平台稳定的前提：

torch==1.13.1+cu117 torchvision==0.14.1+cu117 numpy==1.23.5 opencv-python==4.8.0.76 Pillow==9.4.0

关键点在于CUDA版本匹配：torch==1.13.1+cu117表示必须安装CUDA 11.7驱动。Windows用户常犯的错误是装了CUDA 12.x，导致import torch报错。正确做法是：
1. 运行nvidia-smi查看驱动支持的最高CUDA版本（如显示“CUDA Version: 12.1”，说明驱动兼容CUDA 12.1及以下）
2. 下载CUDA 11.7 Toolkit（非完整版，仅Runtime）
3.pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 --extra-index-url https://download.pytorch.org/whl/cu117

Linux用户需额外注意：Ubuntu 22.04默认Python 3.10，而opencv-python==4.8.0.76在3.10下需编译，耗时极长。解决方案是创建conda环境：

conda create -n dehaze python=3.9 conda activate dehaze pip install -r requirements.txt

实操心得：我在实验室服务器（Ubuntu 20.04 + RTX 3090）上首次运行时，predict.py报错OSError: libglib-2.0.so.0: cannot open shared object file。查证发现是OpenCV依赖的glib版本冲突。终极解法是卸载系统glib，改用conda安装：conda install -c conda-forge glib=2.72.4。这个方案已写入util/logger.py的启动检查函数——若检测到Linux且glib版本异常，自动触发conda修复提示。

4.2 训练执行与loss.png解读

执行python train.py后，控制台实时输出：

Step 1000 | G:0.421 | Da:0.213 | Db:0.587 | PSNR:21.34 Step 2000 | G:0.387 | Da:0.192 | Db:0.521 | PSNR:22.01 ... Step 12000| G:0.234 | Da:0.187 | Db:0.412 | PSNR:24.67

同步生成的loss.png是诊断训练健康度的黄金标准。正常曲线应呈现：
-L_G（蓝色）：从0.8左右缓慢下降至0.2~0.3，后期平稳，无剧烈抖动；
-L_Da（橙色）：从0.6快速降至0.15~0.25，之后在0.2附近小幅波动，表明D_a保持适度判别力；
-L_Db（绿色）：下降最慢，从0.7降至0.4~0.45，若长期高于0.5，说明逆向约束不足，需检查雾化层实现或λ2权重。

常见问题：若L_Db始终在0.65以上，大概率是雾化层中t_est或a_est估计不准。此时应打开showPlit.py的debug模式，在训练第5000步后可视化t_est图——正常情况应呈现“雾浓区域t值低（深色），雾淡区域t值高（亮色）”。若整张图都是灰色，说明生成器未学会估计透射率，需检查Generator.py中雾浓度编码器的梯度流。

4.3 predict.py批量推理与效果对比

执行python predict.py --input test_data/ --output predict/后，目录结构变为：

test_data/ ├── 1403_4.png ├── 1404_7.png └── ... predict/ ├── 1403_4.jpg # 去雾结果 ├── 1404_7.jpg └── ...

关键技巧在于结果验证的三步法：
1.肉眼对比：并排打开test_data/1404_7.png和predict/1404_7.jpg，重点观察：
- 远处楼宇轮廓是否清晰（检验结构保持）
- 玻璃幕墙是否有合理反光（检验材质还原）
- 天空区域是否出现色块（检验过拟合）
2.量化验证：若你有对应清晰图（如RESIDE数据集），用util/eval_metrics.py计算：
bash python util/eval_metrics.py --gt gt/1404_7.png --pred predict/1404_7.jpg # 输出 PSNR:24.67 SSIM:0.892 LPIPS:0.183
3.物理一致性验证：用util/fog_simulation.py对predict/1404_7.jpg加雾，与test_data/1404_7.png计算MSE：
python from util.fog_simulation import add_fog fogged_pred = add_fog(pred_img, t_est, a_est) # t_est,a_est来自Generator中间输出 mse = torch.mean((fogged_pred - original_fog)**2) # 正常值应<0.005，若>0.01说明逆向约束失效

实测效果图中，1404_7.png的去雾结果最能体现Dual GAN优势：原始雾图中楼宇完全隐没，单判别器GAN输出虽亮但窗框扭曲，而本模型输出窗框笔直、玻璃反光自然，且加雾后与原图MSE仅0.0032。这种效果不是靠堆参数，而是双判别器协同约束的必然结果。

5. 常见问题与避坑指南：那些文档里不会写的实战经验

5.1 典型问题速查表

问题现象	根本原因	解决方案	触发频率
`train.py`报错`CUDA out of memory`	batch_size过大或图像分辨率超限	修改`parseArgs.py`中`--batch_size 2`，或用`--crop_size 256`裁剪训练图	高（Win10+GTX1660用户100%遇到）
`predict.py`输出图全黑	图像归一化异常，输入值超出[0,1]范围	在`predict.py`开头添加`img = np.clip(img, 0, 1)`，或检查test_data是否含16位png	中（常发生于手机截图直接放入test_data）
`loss.png`中L_Db持续>0.65	雾化层`t_est`估计偏差大	检查Generator.py第87行`t_est = torch.sigmoid(t_head(features))`，确认未误用`softmax`	高（初学者易混淆sigmoid/softmax）
Windows下`cv2.imwrite`保存jpg色偏	OpenCV默认BGR，而PyTorch Tensor为RGB	在`predict.py`保存前加`img_bgr = cv2.cvtColor(img, cv2.COLOR_RGB2BGR)`	极高（Windows用户必踩）
Linux下`OSError: libglib-2.0.so.0`	系统glib与OpenCV预编译版本冲突	执行`conda install -c conda-forge glib=2.72.4`，重启Python环境	中（Ubuntu 22.04用户）

5.2 那些必须知道的“潜规则”

关于预训练权重的真相：discriminator_a.pkl和discriminator_b.pkl并非从零训练，而是基于RESIDE-Indoor数据集预训练10万步后，再在你的test_data上微调5000步所得。这意味着：
- 若你的测试图雾浓度远超RESIDE（如海港浓雾），直接加载可能效果不佳；
- 此时应删除预训练权重，运行python train.py --epochs 50从头训练——得益于双判别器稳定性，50轮即可收敛，耗时约3小时（RTX 3090）。

关于图像尺寸的隐藏限制：Generator.py的U-Net结构要求输入尺寸能被32整除。predict.py已内置自动padding，但padding区域会引入边缘伪影。最优解是预处理test_data：

# Linux/macOS批量重置尺寸 mogrify -path ./test_data_resized -resize '512x512^' -gravity center -extent 512x512 ./test_data/*.png

Windows用户可用IrfanView图形界面批量处理，设置“Canvas size”为512×512，“Anchor”居中。

关于效果提升的务实建议：不要盲目修改网络结构。实测最有效的提升手段是数据增强策略调整：
- 对城市街景图：启用--augment_brightness 0.3（亮度扰动±30%），模拟不同时间段光照；
- 对自然风光图：启用--augment_hue 0.1（色相扰动±10%），应对白平衡差异；
- 关键原则：增强强度必须小于训练时使用的强度，否则推理时域偏移（domain shift）。

最后分享一个小技巧：若想快速验证模型是否“学到了”，在train.py中临时注释掉optimizer_db.step()，只训练D_a和G。运行1000步后，用predict.py处理一张雾图，你会发现输出图整体变亮但细节糊成一片——这恰恰证明D_b的逆向约束在起作用：它阻止了生成器走“暴力提亮”的捷径。Dual GAN的精妙，正在于这种相互制衡的脆弱平衡。

本文还有配套的精品资源，点击获取

查看全文

http://www.jsqmd.com/news/960753/