当前位置：首页 > news >正文

PyTorch实战：用GAN生成手写数字的完整指南

news 2026/6/17 21:41:53

1. 从零开始：GAN与PyTorch环境搭建

第一次接触GAN（生成对抗网络）时，我被它的神奇效果震撼到了——就像有个魔术师在电脑里凭空变出手写数字。用PyTorch实现这个过程其实比想象中简单，我们先从最基础的环境准备说起。

PyTorch的安装就像搭积木，选对版本很重要。我推荐直接用Anaconda创建独立环境，避免与其他项目冲突。执行下面这行命令就能一键安装最新版PyTorch（记得勾选CUDA选项如果你有NVIDIA显卡）：

conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch

装完可以跑个简单测试验证是否成功：

import torch print(torch.__version__) # 应该输出类似1.12.1的版本号 print(torch.cuda.is_available()) # 显示True说明GPU可用

MNIST数据集下载慢是个常见问题。有次我在咖啡馆等下载等了半小时，后来发现可以直接把数据集文件（四个.gz压缩包）提前下载到./mnist_data目录。这里有个小技巧：用迅雷等工具下载后，重命名文件为：

train-images-idx3-ubyte.gz
train-labels-idx1-ubyte.gz
t10k-images-idx3-ubyte.gz
t10k-labels-idx1-ubyte.gz

2. 模型构建：解剖GAN的双生子结构

GAN就像有两个大脑的艺术家：生成器(G)负责创作，判别器(D)负责挑刺。我们先来看判别器的构造——它其实是个标准的二分类网络：

D = nn.Sequential( nn.Linear(784, 256), nn.LeakyReLU(0.2), # 负半轴斜率设为0.2是GAN的常见配置 nn.Linear(256, 256), nn.LeakyReLU(0.2), nn.Linear(256, 1), nn.Sigmoid() # 输出0-1的概率值 )

生成器则是从随机噪声中创造奇迹的魔术师。注意最后一层用Tanh激活，这是为了让输出值落在(-1,1)区间，与MNIST标准化后的范围一致：

G = nn.Sequential( nn.Linear(64, 256), # 64维噪声输入 nn.ReLU(), # 生成器通常用ReLU nn.Linear(256, 256), nn.ReLU(), nn.Linear(256, 784), nn.Tanh() )

第一次运行时我犯了个错误：忘记把模型移到GPU上。后来加了这个判断就稳了：

device = torch.device("cuda" if torch.cuda.is_available() else "cpu") D = D.to(device) G = G.to(device)

3. 训练的艺术：让两个网络互相博弈

训练GAN就像教小孩画画：先让判别器看真画（MNIST数据）和假画（生成器作品），然后让生成器尝试骗过判别器。这个博弈过程需要精心设计损失函数：

real_labels = torch.ones(batch_size, 1).to(device) # 真图标签为1 fake_labels = torch.zeros(batch_size, 1).to(device) # 假图标签为0 # 判别器要能区分真假 d_loss_real = loss_fn(D(real_images), real_labels) d_loss_fake = loss_fn(D(fake_images.detach()), fake_labels) d_loss = d_loss_real + d_loss_fake # 生成器要让假图被判别为真 g_loss = loss_fn(D(fake_images), real_labels)

实际训练时我发现几个关键点：

判别器不能太强，否则生成器学不动。我的经验是先让D训练1-2次，再训练G1次
学习率设为0.0002比较稳妥，太大容易震荡
每100步打印一次损失值，观察两者是否平衡

4. 效果调优与问题排查

训练到第50轮时，我的生成器开始输出模糊的斑点。通过以下调整解决了问题：

学习率衰减：在训练后期加入这个能让结果更稳定

scheduler_D = torch.optim.lr_scheduler.StepLR(d_optimizer, step_size=30, gamma=0.1) scheduler_G = torch.optim.lr_scheduler.StepLR(g_optimizer, step_size=30, gamma=0.1)

梯度裁剪：防止梯度爆炸

torch.nn.utils.clip_grad_norm_(D.parameters(), max_norm=1.0) torch.nn.utils.clip_grad_norm_(G.parameters(), max_norm=1.0)

如果遇到生成器总是输出相同数字（模式坍塌），可以尝试：

增加噪声维度（从64提到128）
在判别器中加入Dropout层
改用Wasserstein GAN等改进结构

最终效果评估时，别只看损失值曲线。我习惯每10轮保存一次生成图片，用肉眼观察进步：

with torch.no_grad(): test_z = torch.randn(16, latent_size).to(device) fake_images = G(test_z).view(-1,1,28,28) torchvision.utils.save_image(fake_images, f"epoch_{epoch}.png", nrow=4)

记得第一次看到自己训练的GAN生成出可辨认的数字时，那种成就感比中彩票还强烈。虽然现在生成的数字可能还不够完美，但这个过程已经让你掌握了GAN的核心要领。下次可以尝试生成彩色人脸图片，或者用Conditional GAN控制生成特定数字——那又是另一个有趣的故事了。

查看全文

http://www.jsqmd.com/news/608314/