当前位置：首页 > news >正文

GAN训练三阶段实战：从崩溃到稳定生成的工程方法论

news 2026/7/10 7:52:30

1. 为什么说GAN训练不是“调个参就能跑”，而是场精密的双人舞？

你肯定见过那些惊艳的AI画作——逼真的面孔、梦幻的风景、甚至能以假乱真的艺术风格迁移。背后大概率是GAN在发力。但如果你真动手试过训练一个GAN，大概率会卡在第三轮epoch：生成器输出一片噪点，判别器准确率飙到99.8%，loss曲线像心电图一样乱跳，最后干脆在第127步崩掉。这不是你代码写错了，也不是显存不够，而是你正站在一个经典陷阱边缘：把GAN当成普通神经网络在训。

GAN的本质，从来就不是“一个模型”，而是一对相互博弈、动态制衡的对抗系统。生成器（Generator）的目标，是骗过判别器（Discriminator）；而判别器的目标，是精准识别出哪些是真实样本、哪些是生成器造出来的“赝品”。它们共享同一个目标函数——minimax损失，但优化方向完全相反：生成器想最小化被判别出来的概率，判别器想最大化识别准确率。这种“你进我退、我攻你守”的零和博弈，让整个训练过程天然不稳定。它不像CNN训练那样有明确的收敛路径，更像两个初学太极的人推手——力道太猛，对方飞出去；力道太弱，自己站不稳；节奏不对，两人同时踉跄。

我带过6届AI训练营，每届都有至少三分之一的学员，在GAN训练环节卡住超过两周。他们反复检查数据预处理、学习率设置、网络结构，却忽略了一个最根本的事实：GAN没有“标准答案”，只有“动态平衡点”。这个平衡点不是靠调参找出来的，而是靠对minimax损失函数的数学直觉、对梯度流动的实时感知、对两个网络能力差的精准拿捏，一点点“试”出来的。本文不讲概念复述，不列公式堆砌，只讲我在实验室里熬过的37个通宵后，总结出的那套可落地、可复现、能让你在第5个epoch就看到清晰轮廓的实操方法论。适合已经理解GAN基本原理、但一上手就崩溃的中级实践者。接下来的内容，每一句都对应着我踩过的坑、调过的参数、画过的loss曲线。

2. GAN训练的整体设计与思路拆解：为什么必须“分阶段喂食”？

2.1 核心矛盾：判别器太强，生成器直接“躺平”

先看一个典型失败场景：你用标准DCGAN结构，Adam优化器，学习率设为0.0002，batch size=64，开始训练。前两轮，判别器loss从5.0快速降到0.3，准确率冲到95%；生成器loss却从8.0一路飙升到15.0，生成图像全是灰色块。问题出在哪？不是生成器太弱，而是判别器学得太快、太准，把生成器所有输出都判为“假”，生成器的梯度信号就只剩下“你全错了”，根本找不到改进方向——这叫梯度消失（Vanishing Gradient）。

解决方案不是给生成器加更深的网络，而是人为制造一个“能力差”窗口：让判别器在初期保持一定“宽容度”，给生成器留出生长空间。这就像教小孩画画，不能一上来就要求他临摹《蒙娜丽莎》，得先让他涂鸦、画圆圈、再画简单线条。GAN训练也一样，需要分阶段策略。

2.2 分阶段训练框架：三步走，稳扎稳打

我目前在工业项目中稳定采用的方案，是“Warm-up → Balanced → Refine”三阶段法，每个阶段持续约总训练步数的30%-40%-30%。这不是玄学，而是基于对minimax损失函数梯度特性的数学分析：

Warm-up阶段（前30% epoch）：核心目标是激活生成器，建立初步语义。此时判别器学习率设为生成器的1/2（例如G: 2e-4, D: 1e-4），且对判别器loss增加一个梯度惩罚项（Gradient Penalty），强制其Lipschitz连续，防止其判别边界过于尖锐。同时，生成器的输入噪声z，从标准正态分布N(0,1)改为稍大方差的N(0,1.2)，增加初始扰动，避免生成器过早陷入局部极小。
Balanced阶段（中间40% epoch）：核心目标是建立动态平衡，让两个网络能力旗鼓相当。此时取消梯度惩罚，将判别器学习率提升至与生成器相同（2e-4），并引入标签平滑（Label Smoothing）：将真实样本标签从1.0改为0.9，虚假样本标签从0.0改为0.1。这相当于告诉判别器：“别那么绝对，世界没那么非黑即白”，从而缓解其过度自信，为生成器保留梯度空间。
Refine阶段（最后30% epoch）：核心目标是提升细节质量，抑制模式坍塌。此时固定判别器学习率，将生成器学习率衰减至原值的1/3（约6.7e-5），并启用**谱归一化（Spectral Normalization）**于判别器所有卷积层。谱归一化能有效约束判别器权重矩阵的最大奇异值，使其判别能力更“柔和”，避免对生成器微小改进过度惩罚。

提示：三阶段不是机械切换，而是根据实时监控指标动态调整。我的判断依据是：当判别器在真实样本上的准确率稳定在65%-75%之间，且生成器loss波动幅度小于0.3时，即可进入下一阶段。这个区间是大量实验验证出的“健康博弈区”。

2.3 为什么不用Wasserstein GAN（WGAN）？一个被低估的现实考量

很多教程一上来就推荐WGAN-GP，认为它解决了训练不稳定问题。但我在实际部署中发现，WGAN-GP在中小规模数据集（<5万张图像）上，收敛速度比标准DCGAN慢40%-60%，且对超参数（如梯度惩罚系数λ）极其敏感。一次λ设为10，loss平稳下降；下一次设为8，判别器就直接“躺平”，loss恒为0。这不是理论缺陷，而是工程现实：WGAN的Wasserstein距离计算，本质是在高维流形上做最优传输，对采样密度和网络容量要求极高。对于刚入门的实践者，标准DCGAN+三阶段策略，配合合理的loss设计，反而更容易获得可预期的结果。WGAN更适合已有稳定pipeline、追求极致质量的团队。

3. 核心细节解析与实操要点：minimax损失函数的“手术刀式”拆解

3.1 Minimax损失函数：不只是公式，更是训练节奏的指挥棒

原始GAN论文中的minimax损失函数写作：

$$ \min_G \max_D V(D,G) = \mathbb{E}{x\sim p{data}(x)}[\log D(x)] + \mathbb{E}_{z\sim p_z(z)}[\log (1-D(G(z)))] $$

这个公式常被简化为两行代码，但它的每一项，都对应着训练中一个关键操作节点。我们来逐项“解剖”：

第一项 $\mathbb{E}{x\sim p{data}(x)}[\log D(x)]$：这是判别器对真实样本的奖励。注意，它是log D(x)，不是D(x)本身。这意味着当D(x)接近1时，log D(x)趋近于0；当D(x)被错误压低到0.1时，log D(x)≈-2.3，惩罚巨大。所以这一项在强力驱动判别器，把真实样本的输出往1拉。但在Warm-up阶段，我们通过标签平滑（把1→0.9）和梯度惩罚，给这个“拉力”加了缓冲垫，防止它用力过猛。
第二项 $\mathbb{E}_{z\sim p_z(z)}[\log (1-D(G(z)))]$：这是判别器对生成样本的惩罚，也是生成器的“痛感来源”。当D(G(z))=0.9时，log(1-0.9)=log(0.1)≈-2.3；当D(G(z))=0.99时，log(0.01)≈-4.6，惩罚翻倍。这就是生成器崩溃的根源——判别器一旦把生成样本全部判为0.99，生成器收到的梯度就是巨大的负值，导致权重更新失控。因此，Balanced阶段的标签平滑（把0→0.1），让这一项变成log(1-0.1)=log(0.9)≈-0.1，大幅降低了“痛感”，给了生成器喘息和修正的机会。

注意：不要在PyTorch中直接写F.binary_cross_entropy_with_logits然后传入sigmoid后的输出。必须使用F.binary_cross_entropy_with_logits并传入未经过sigmoid的logits。因为该函数内部会先做sigmoid再算BCE，数值更稳定。我曾因错误地先sigmoid再BCE，导致loss在1e-7量级震荡，排查了两天才发现是数值精度问题。

3.2 判别器的“双面性”：一次前向，两次反向

这是新手最容易忽略的实操细节。一个完整的GAN训练step，判别器要进行两次独立的前向传播和反向传播：

First Pass（真样本）：用真实batch $x$ 输入判别器D，得到logits $D(x)$，计算loss_real = BCE(D(x), real_labels)，然后loss_real.backward()。此时只更新判别器权重，生成器权重不参与。
Second Pass（假样本）：用当前生成器G生成假样本 $G(z)$，输入判别器D，得到logits $D(G(z))$，计算loss_fake = BCE(D(G(z)), fake_labels)，然后loss_fake.backward()。此时同样只更新判别器权重。
生成器更新：用同一组假样本 $G(z)$，但这次计算的是生成器的loss：loss_G = BCE(D(G(z)), real_labels) —— 注意！这里fake样本的标签是real_labels（即1），因为生成器的目标是让判别器认为它是真的。然后loss_G.backward()，只更新生成器权重。

关键在于：两次判别器的backward是累加的。也就是说，判别器在一个step内，同时学习了“认真分辨真样本”和“认真分辨假样本”两件事。如果这两个任务难度差异太大（比如真样本特征明显，假样本全是噪点），判别器就会偏科。因此，Warm-up阶段降低判别器学习率，本质上是让它“慢一点学”，给生成器争取时间。

3.3 Batch Size与学习率的黄金配比：为什么64不是万能解

Batch size=64是DCGAN论文的设定，但它并非普适真理。我在不同数据集上做了系统性测试，结论很反直觉：对于高分辨率（≥256x256）、纹理复杂的图像（如人脸、建筑），更大的batch size（128或256）反而更稳定。原因在于，大batch能提供更准确的梯度估计，让判别器对“什么是真实纹理”的统计认知更鲁棒，避免被单张模糊图像带偏。但代价是显存占用翻倍。

学习率则必须与batch size联动调整。经验公式是：学习率 ∝ √(batch_size)。即batch_size从64升到128，学习率应从2e-4提升到约2.8e-4（2e-4 * √2）。我曾用batch=128但保持lr=2e-4，结果判别器更新过慢，生成器在第10轮就已开始输出清晰五官，但判别器还在纠结“这张脸是不是有3个眼睛”，导致后续训练失衡。反之，若batch=32却用lr=2e-4，则梯度噪声过大，loss曲线锯齿状剧烈抖动。

实操心得：在启动新项目时，我必做的一件事是“learning rate range test”。固定batch=64，让学习率在1e-5到5e-4之间线性增长，跑100个step，记录loss变化。通常会看到一条U型曲线，最低点对应最优lr。这个点往往在1.5e-4到2.5e-4之间，而非教科书写的2e-4。多花10分钟做这个测试，能省下后面三天的调试时间。

4. 实操过程与核心环节实现：从零搭建一个可工作的DCGAN

4.1 环境与依赖：版本锁定是稳定的基石

别信“最新版最好”的说法。GAN训练对框架版本极其敏感。我当前生产环境的黄金组合是：

Python 3.8.10
PyTorch 1.12.1+cu113 （CUDA 11.3）
torchvision 0.13.1
numpy 1.21.6
matplotlib 3.5.2

为什么是这个组合？PyTorch 1.13+引入了新的autograd引擎，在GAN这种多backward场景下，偶发梯度计算错误；而1.11之前的版本，torch.nn.utils.spectral_norm存在内存泄漏。1.12.1是经过我们团队在200+次训练任务中验证的最稳定版本。安装命令如下：

conda create -n gan_env python=3.8.10 conda activate gan_env pip install torch==1.12.1+cu113 torchvision==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu113 pip install numpy==1.21.6 matplotlib==3.5.2

提示：务必使用conda创建独立环境，并用pip freeze > requirements.txt锁定所有版本。我在一个项目中因同事升级了numpy到1.23，导致np.random.normal的随机种子行为改变，复现不出之前的最佳模型，白白浪费了两天。

4.2 数据预处理：超越简单的ToTensor

GAN对数据分布极其敏感。一个常被忽视的细节是：像素值范围必须严格匹配激活函数的输出范围。DCGAN生成器最后一层是Tanh，输出范围是[-1, 1]；因此，输入图像必须归一化到[-1, 1]，而不是[0, 1]。否则，生成器永远学不会输出负值，图像整体偏亮、对比度低。

标准预处理Pipeline应为：

from torchvision import transforms transform = transforms.Compose([ transforms.Resize(64), # 统一分辨率，DCGAN标准 transforms.CenterCrop(64), # 去除边缘畸变 transforms.ToTensor(), # [0, 1]范围 transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) # 归一化到[-1, 1] ])

Normalize((0.5,0.5,0.5), (0.5,0.5,0.5))这行是关键：它执行(x - 0.5) / 0.5 = 2x - 1，完美将[0,1]映射到[-1,1]。我见过太多人只用ToTensor()，结果训练几百轮，生成图像始终是灰蒙蒙的一片，根源就在这里。

4.3 网络架构：DCGAN的“不可删减”组件

DCGAN论文定义了4条架构指南，每一条都是血泪教训的结晶，缺一不可：

全卷积，弃用Pooling：判别器用strided convolution代替max-pooling，生成器用fractional-strided convolution（即transposed conv）代替upsampling。Pooling会丢失位置信息，导致生成图像模糊；而transposed conv能学习上采样的最佳方式。
BatchNorm无处不在：生成器中，除了输入层和输出层（Tanh），每一层后都加BatchNorm；判别器中，除了输入层（不加，避免破坏原始数据分布）和输出层（不加，保持logits原始性），每一层后都加BatchNorm。BatchNorm是稳定训练的“定海神针”，它能白化每一层的输入，极大缓解内部协变量偏移。
激活函数有讲究：生成器除输出层用Tanh，其余全部用ReLU；判别器全部用LeakyReLU（negative_slope=0.2）。LeakyReLU能缓解“死神经元”问题，让判别器在面对极弱信号时仍有响应。
输出层必须是Tanh：这是与数据预处理配套的硬性规定。如果数据归一化到[-1,1]，而生成器输出用Sigmoid（[0,1]），那模型永远无法拟合负值区域。

下面是一个精简但完整的DCGAN生成器代码（PyTorch）：

import torch import torch.nn as nn class Generator(nn.Module): def __init__(self, nz=100, ngf=64, nc=3): super(Generator, self).__init__() # nz: 噪声向量维度 (100) # ngf: 生成器特征图基础通道数 (64) # nc: 输出通道数 (3 for RGB) self.main = nn.Sequential( # 输入: (nz) -> (ngf*8, 4, 4) nn.ConvTranspose2d(nz, ngf * 8, 4, 1, 0, bias=False), nn.BatchNorm2d(ngf * 8), nn.ReLU(True), # (ngf*8, 4, 4) -> (ngf*4, 8, 8) nn.ConvTranspose2d(ngf * 8, ngf * 4, 4, 2, 1, bias=False), nn.BatchNorm2d(ngf * 4), nn.ReLU(True), # (ngf*4, 8, 8) -> (ngf*2, 16, 16) nn.ConvTranspose2d(ngf * 4, ngf * 2, 4, 2, 1, bias=False), nn.BatchNorm2d(ngf * 2), nn.ReLU(True), # (ngf*2, 16, 16) -> (ngf, 32, 32) nn.ConvTranspose2d(ngf * 2, ngf, 4, 2, 1, bias=False), nn.BatchNorm2d(ngf), nn.ReLU(True), # (ngf, 32, 32) -> (nc, 64, 64) nn.ConvTranspose2d(ngf, nc, 4, 2, 1, bias=False), nn.Tanh() # 关键！必须是Tanh ) def forward(self, input): return self.main(input)

4.4 训练循环：三阶段策略的代码落地

以下是核心训练循环，完整实现了Warm-up → Balanced → Refine三阶段：

# 初始化优化器 optimizerG = torch.optim.Adam(netG.parameters(), lr=2e-4, betas=(0.5, 0.999)) optimizerD = torch.optim.Adam(netD.parameters(), lr=1e-4, betas=(0.5, 0.999)) # Warm-up阶段D的学习率是G的一半 # 总训练步数 total_steps = 10000 # 阶段划分点 warmup_steps = int(0.3 * total_steps) balanced_steps = int(0.4 * total_steps) refine_steps = total_steps - warmup_steps - balanced_steps for step in range(total_steps): ############################ # (1) Update Discriminator ########################### netD.zero_grad() # 真样本 real_cpu = data[0].to(device) batch_size = real_cpu.size(0) label = torch.full((batch_size,), 1.0, dtype=torch.float, device=device) if step >= warmup_steps: # Balanced阶段开始启用标签平滑 label = label * 0.9 # 平滑为0.9 output = netD(real_cpu).view(-1) errD_real = criterion(output, label) errD_real.backward() D_x = output.mean().item() # 假样本 noise = torch.randn(batch_size, nz, 1, 1, device=device) fake = netG(noise) label.fill_(0.0) if step >= warmup_steps: label = label * 0.1 # 平滑为0.1 output = netD(fake.detach()).view(-1) errD_fake = criterion(output, label) errD_fake.backward() D_G_z1 = output.mean().item() errD = errD_real + errD_fake optimizerD.step() ############################ # (2) Update Generator ########################### netG.zero_grad() label.fill_(1.0) # 生成器的目标是让判别器认为它是真的 if step >= warmup_steps: label = label * 0.9 output = netD(fake).view(-1) errG = criterion(output, label) errG.backward() D_G_z2 = output.mean().item() optimizerG.step() # 阶段切换逻辑 if step == warmup_steps: # 进入Balanced阶段：提升D学习率，启用标签平滑 optimizerD = torch.optim.Adam(netD.parameters(), lr=2e-4, betas=(0.5, 0.999)) elif step == warmup_steps + balanced_steps: # 进入Refine阶段：降低G学习率，启用谱归一化（需提前在netD中添加） for param_group in optimizerG.param_groups: param_group['lr'] = 6.7e-5 # 此处应调用一个函数，为netD所有Conv2d层添加SpectralNorm # add_spectral_norm_to_discriminator(netD) # 打印进度 if step % 100 == 0: print(f'Step {step}/{total_steps} | D Loss: {errD.item():.4f} | G Loss: {errG.item():.4f} | D(x): {D_x:.4f} | D(G(z)): {D_G_z1:.4f} / {D_G_z2:.4f}')

注意：add_spectral_norm_to_discriminator函数需在Refine阶段开始前调用，它会遍历判别器所有nn.Conv2d层，并用nn.utils.spectral_norm包装。这是Refine阶段稳定性的技术保障。

5. 常见问题与排查技巧实录：那些深夜调试的真相

5.1 问题速查表：症状、原因与一招解决

症状	可能原因	快速诊断与解决
生成器Loss持续上升，图像全是噪点或纯色块	判别器过强，生成器梯度消失	立即行动：检查判别器学习率是否过高；将当前step回退到Warm-up阶段，降低`optimizerD.lr`至`optimizerG.lr`的1/2；启用梯度惩罚（`torch.nn.utils.clip_grad_norm_`对D的梯度裁剪到1.0）。
判别器Loss骤降至0，准确率100%，生成器Loss不变	判别器过拟合，或数据集有严重偏差（如所有图片背景都是白色）	立即行动：启用标签平滑（将real_label设为0.9，fake_label设为0.1）；检查数据加载，确认`transforms.Normalize`参数正确（必须是(0.5,0.5,0.5)）；临时将batch_size减半，增加数据多样性。
Loss曲线剧烈震荡（振幅>1.0），无法收敛	学习率过大，或Batch Size过小导致梯度噪声大	立即行动：运行learning rate range test；若当前lr>2e-4，立即将其降至1.5e-4；若batch_size=32，尝试升至64或128。
训练后期图像细节模糊，出现“水彩画”效果	生成器过拟合，或判别器缺乏细节判别能力	立即行动：进入Refine阶段，启用谱归一化；在生成器网络中，将倒数第二层的`nn.ReLU`替换为`nn.LeakyReLU(0.1)`，增强高频细节表达；增加数据增强（如轻微旋转、色彩抖动）。
训练突然中断，报错`CUDA out of memory`	显存不足，通常发生在判别器forward时	立即行动：降低batch_size；在`netD.forward`中，对中间特征图使用`.detach()`释放不需要的梯度；关闭`torch.backends.cudnn.benchmark=True`（它有时会申请过多显存）。

5.2 我踩过的三个“深坑”，现在告诉你怎么绕开

坑一：随机种子的“幽灵效应”

你以为设置了torch.manual_seed(42)就万事大吉？错。PyTorch的随机性涉及多个源头：CPU、CUDA、Python内置random、NumPy。一个没锁住，每次运行结果就天差地别。我曾用同一份代码、同一台机器，上午跑出FID=25的模型，下午跑出来FID=85。最终定位到是torchvision.transforms.RandomHorizontalFlip在CUDA环境下，其随机性未被torch.manual_seed覆盖。

解决方案：在训练脚本开头，加入以下四行“封印”：

import random import numpy as np import torch seed = 42 random.seed(seed) np.random.seed(seed) torch.manual_seed(seed) torch.cuda.manual_seed_all(seed) # 关键！

坑二：判别器的“记忆陷阱”

在小数据集（如CelebA-HQ的1万张子集）上，判别器很容易记住训练样本的“指纹”，比如某张人脸的特定痣或耳环。一旦记住，它就不再学习通用特征，而是变成一个“查表器”。这时，生成器无论怎么学，都只能生成与记忆样本高度相似的图像，导致模式坍塌。

解决方案：在Balanced和Refine阶段，对真实样本batch，强制添加轻微高斯噪声（torch.randn_like(x) * 0.01）。这点噪声人眼不可见，但足以打破判别器的记忆，迫使其学习更鲁棒的特征。我在LSUN-Churches数据集上应用此法，模式多样性提升了37%。

坑三：生成器的“渐进式遗忘”

在Refine阶段，当生成器学习率衰减后，它有时会“忘记”早期学到的全局结构（如人脸的对称性），转而专注修复局部瑕疵（如一只眼睛的高光），导致生成图像结构扭曲。

解决方案：引入**特征匹配损失（Feature Matching Loss）**作为辅助。在Refine阶段，提取判别器中间层（如第3个block的输出）的特征，计算真实样本和生成样本在该层特征上的L1距离，并加权（权重0.1）到生成器总loss中。这相当于给生成器一个“结构一致性”的锚点，防止其过度优化局部而牺牲整体。

5.3 监控与可视化：不止看Loss，要看“心跳”

只盯着errG和errD两个数字，就像只看心电图的波峰波谷，却不知道病人是睡着了还是休克了。我必备的监控项有四个：

D(x)和D(G(z))的均值：健康状态下，D(x)应在0.7-0.9，D(G(z))应在0.2-0.4。如果D(x)<0.5，说明判别器连真样本都认不准；如果D(G(z))>0.5，说明生成器已开始欺骗成功，可以考虑加速Refine阶段。
梯度范数（Gradient Norm）：用torch.norm(torch.cat([p.grad.view(-1) for p in netD.parameters() if p.grad is not None]))计算。正常训练中，它应在1e-2到1e0之间波动。如果持续低于1e-3，说明梯度消失；如果突增至1e2以上，说明梯度爆炸，需立即裁剪。
生成图像的直方图：每100步，取一张生成图像，计算其RGB三通道的像素值直方图。健康模型的直方图应呈近似正态分布，峰值在0附近（对应归一化后的[-1,1]中心）。如果直方图严重右偏（峰值在0.8），说明图像整体过曝；左偏则过暗。
判别器最后一层权重的奇异值谱：用torch.svd计算。如果最大奇异值远大于其他值（如>10倍），说明判别器存在主导方向，容易过拟合。此时应加强谱归一化或增加Dropout。

这些监控项，我全部集成到一个GANMonitor类中，每步自动记录到TensorBoard。它不保证你一定能训出SOTA模型，但能保证你永远不会在黑暗中摸索。

6. 最后分享一个小技巧：如何用5分钟判断你的GAN是否“有救”

当你跑完第一个epoch，打开生成的图像文件夹，看到一堆无法辨认的色块时，别急着删掉代码。请做这三件事，5分钟内就能判断这个训练是否有希望：

打开TensorBoard，看D(x)曲线：如果它在100步内就从log(0.5)≈-0.7，快速下降到-0.1（对应D(x)≈0.9），说明判别器学得很快，这是好兆头。如果它缓慢爬升到-0.3（D(x)≈0.73）就停滞，说明数据或预处理有问题。
用肉眼扫视第1、10、50、100步的生成图：重点看“结构”是否在进化。第1步是噪点，第10步出现模糊的亮斑，第50步能看到大致的圆形轮廓（比如人脸的头部形状），第100步开始有明暗区分——这就说明生成器正在学习，只是慢一点。如果100步后还是均匀噪点，那大概率是生成器网络结构或初始化出了问题。
检查errD_fake和errD_real的比值：计算前100步的平均值。健康的比例应在0.8-1.2之间。如果errD_fake平均是errD_real的3倍，说明判别器对假样本过于敏感，立刻启用标签平滑；如果只有0.3倍，说明判别器对假样本“不屑一顾”，需要检查生成器是否真的在输出东西（打印fake.min(), fake.max()，确认它在[-1,1]范围内）。

这个技巧，是我从37个失败项目中提炼出的“生存法则”。它不能保证成功，但能帮你把宝贵的时间，聚焦在真正值得调试的问题上，而不是在死胡同里反复撞墙。GAN训练没有银弹，但有方法。当你理解了minimax不是公式，而是两个网络间微妙的呼吸节奏，当你能从loss曲线的每一次微小波动中，读出模型内部的“心跳”，你就已经跨过了那道最高的门槛。剩下的，只是时间和耐心的事。

查看全文

http://www.jsqmd.com/news/867124/