当前位置：首页 > news >正文

告别马赛克！用PyTorch和ESRGAN亲手复活你的老照片（附完整代码与数据集处理技巧）

news 2026/8/3 3:33:23

用PyTorch和ESRGAN让模糊老照片重获新生：从原理到实战的完整指南

翻开相册时，那些泛黄的老照片总让人感慨万千——模糊的面容、褪色的背景，仿佛记忆也在随之消散。如今，借助深度学习的力量，我们能够亲手修复这些珍贵的影像。本文将带你深入ESRGAN（增强型超分辨率生成对抗网络）的技术核心，并提供一个完整的PyTorch实现方案，让你不仅能理解其工作原理，更能实际应用于老照片修复。

1. 超分辨率技术演进与ESRGAN核心原理

传统图像放大技术如双三次插值往往会产生模糊和锯齿，而深度学习带来的超分辨率革命彻底改变了这一局面。ESRGAN作为该领域的里程碑式模型，其创新主要体现在三个方面：

RRDB模块：通过残差中的残差结构（Residual-in-Residual Dense Block），实现了比传统ResNet更深的梯度传播路径。每个RRDB包含：

class RRDB(nn.Module): def __init__(self, in_channels, growth_channels=32): super().__init__() self.conv1 = nn.Conv2d(in_channels, growth_channels, 3, padding=1) self.conv2 = nn.Conv2d(in_channels+growth_channels, growth_channels, 3, padding=1) self.conv3 = nn.Conv2d(in_channels+2*growth_channels, growth_channels, 3, padding=1) self.lrelu = nn.LeakyReLU(0.2, inplace=True) def forward(self, x): out1 = self.lrelu(self.conv1(x)) out2 = self.lrelu(self.conv2(torch.cat([x, out1], 1))) out3 = self.conv3(torch.cat([x, out1, out2], 1)) return out3 * 0.2 + x # 残差缩放

感知损失优化：不同于普通GAN只追求像素级相似，ESRGAN通过VGG网络提取高级特征，使重建图像在视觉感知上更自然。其损失函数组合为：
```
总损失 = 对抗损失 + 0.006 × 感知损失(L1)
```
去除批量归一化：实验表明，去除BN层可以避免人工伪影，尤其适合纹理丰富的图像重建。

下表对比了不同超分辨率方法的关键差异：

方法类型	代表模型	PSNR(峰值信噪比)	视觉质量	训练难度
传统插值	双三次插值	22.1 dB	差	无需训练
早期深度学习	SRCNN	26.2 dB	一般	容易
GAN基础模型	SRGAN	28.4 dB	较好	中等
当前最佳	ESRGAN	29.7 dB	优秀	较难

2. 实战环境搭建与数据准备

2.1 开发环境配置

推荐使用Python 3.8+和PyTorch 1.10+环境，以下是快速搭建命令：

conda create -n esrgan python=3.8 conda activate esrgan pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113 pip install opencv-python pillow matplotlib tqdm

对于GPU加速，建议使用NVIDIA显卡（显存≥8GB）并安装对应版本的CUDA工具包。可通过以下代码验证环境：

import torch print(f"PyTorch版本: {torch.__version__}") print(f"CUDA可用: {torch.cuda.is_available()}") print(f"GPU数量: {torch.cuda.device_count()}")

2.2 数据集构建技巧

高质量的数据集是模型成功的关键。针对老照片修复，建议采用以下策略：

配对数据获取：

使用DIV2K数据集（1000张2K分辨率图像）作为基础
对老照片可先使用传统方法（如Waifu2x）生成初始HR，再人工修正

数据增强方法：

transform = transforms.Compose([ transforms.RandomHorizontalFlip(p=0.5), transforms.RandomRotation(10), transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2), transforms.ToTensor(), transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5]) ])

自制数据集处理流程：

使用OpenCV实现自动对齐：

import cv2 def align_images(hr, lr): # 转换为灰度图 gray_hr = cv2.cvtColor(hr, cv2.COLOR_BGR2GRAY) gray_lr = cv2.cvtColor(lr, cv2.COLOR_BGR2GRAY) # 使用ECC算法对齐 warp_matrix = np.eye(2, 3, dtype=np.float32) criteria = (cv2.TERM_CRITERIA_EPS | cv2.TERM_CRITERIA_COUNT, 500, 1e-6) _, warp_matrix = cv2.findTransformECC(gray_hr, gray_lr, warp_matrix, cv2.MOTION_AFFINE, criteria) # 应用变换 aligned_lr = cv2.warpAffine(lr, warp_matrix, (hr.shape[1], hr.shape[0]), flags=cv2.INTER_CUBIC + cv2.WARP_INVERSE_MAP) return aligned_lr

注意：老照片常有划痕、噪点等问题，建议预处理时先使用传统图像处理技术（如非局部均值去噪）进行初步清理，再作为LR输入。

3. 模型训练的关键技巧与调参经验

3.1 生成器架构优化

ESRGAN的生成器采用"浅层特征提取→深层特征处理→上采样"的三段式结构。实际应用中可根据需求调整：

class Generator(nn.Module): def __init__(self, scale=4, num_blocks=23): super().__init__() self.conv_first = nn.Conv2d(3, 64, 3, padding=1) # RRDB块堆叠 self.body = nn.Sequential(*[ RRDB(64) for _ in range(num_blocks) ]) # 上采样部分 self.upsample = nn.Sequential( nn.Conv2d(64, 64*(scale**2), 3, padding=1), nn.PixelShuffle(scale), nn.LeakyReLU(0.2, inplace=True), nn.Conv2d(64, 3, 3, padding=1) ) def forward(self, x): fea = self.conv_first(x) trunk = self.body(fea) fea = fea + trunk # 全局残差连接 return self.upsample(fea)

关键调参经验：

RRDB数量：23个是论文推荐值，实际应用中：
- 老照片修复：可减少到16-18个以降低过度锐化风险
- 自然风景：可增加到25-30个增强细节
残差缩放系数：0.2是平衡点，对高噪声图像可降低到0.1
上采样策略：对4倍超分，推荐使用PixelShuffle而非转置卷积

3.2 判别器设计与对抗训练

有效的判别器应该具备区分真实纹理和人工伪影的能力。我们改进的判别器结构：

class Discriminator(nn.Module): def __init__(self): super().__init__() self.features = nn.Sequential( # 下采样部分 nn.Conv2d(3, 64, 3, stride=1, padding=1), nn.LeakyReLU(0.2, inplace=True), *self._make_down_block(64, 64, stride=2), # 112x112 *self._make_down_block(64, 128, stride=1), *self._make_down_block(128, 128, stride=2), # 56x56 *self._make_down_block(128, 256, stride=1), *self._make_down_block(256, 256, stride=2), # 28x28 *self._make_down_block(256, 512, stride=1), *self._make_down_block(512, 512, stride=2), # 14x14 ) # 分类头 self.classifier = nn.Sequential( nn.AdaptiveAvgPool2d(1), nn.Conv2d(512, 1024, 1), nn.LeakyReLU(0.2, inplace=True), nn.Conv2d(1024, 1, 1) ) def _make_down_block(self, in_c, out_c, stride): return [ nn.Conv2d(in_c, out_c, 3, stride=stride, padding=1), nn.BatchNorm2d(out_c), nn.LeakyReLU(0.2, inplace=True) ] def forward(self, x): x = self.features(x) return self.classifier(x)

训练过程中的关键观察：

学习率设置：
- 生成器初始LR：1e-4
- 判别器初始LR：5e-5
- 使用余弦退火调度器：
```
scheduler_G = torch.optim.lr_scheduler.CosineAnnealingLR( optimizer_G, T_max=100, eta_min=1e-6)
```
损失平衡技巧：
- 前10个epoch侧重感知损失（权重0.01）
- 10-50 epoch逐步增加对抗损失比重
- 50 epoch后加入频率匹配损失：
```
def freq_loss(fake, real): fake_fft = torch.fft.fft2(fake) real_fft = torch.fft.fft2(real) return F.l1_loss(fake_fft.abs(), real_fft.abs())
```

4. 推理优化与后处理技巧

4.1 分块推理策略

处理大尺寸图像时，直接输入可能导致显存溢出。采用分块处理策略：

def split_process(img, model, tile_size=256, padding=16): _, _, h, w = img.shape output = torch.zeros_like(img) # 计算分块数量 grid_x = (w + tile_size - 1) // tile_size grid_y = (h + tile_size - 1) // tile_size for i in range(grid_y): for j in range(grid_x): # 计算当前块坐标（带重叠） x1 = max(j * tile_size - padding, 0) y1 = max(i * tile_size - padding, 0) x2 = min((j + 1) * tile_size + padding, w) y2 = min((i + 1) * tile_size + padding, h) # 截取分块并处理 patch = img[:, :, y1:y2, x1:x2] with torch.no_grad(): out_patch = model(patch) # 计算有效区域（去除重叠部分） rx1 = padding if x1 > 0 else 0 ry1 = padding if y1 > 0 else 0 rx2 = out_patch.shape[3] - padding if x2 < w else out_patch.shape[3] ry2 = out_patch.shape[2] - padding if y2 < h else out_patch.shape[2] # 拼接结果 output[:, :, i*tile_size:(i+1)*tile_size, j*tile_size:(j+1)*tile_size] = out_patch[:, :, ry1:ry2, rx1:rx2] return output

4.2 后处理增强方案

原始输出可能仍有瑕疵，推荐的处理流程：

颜色校正：使用直方图匹配对齐原始图像色调

def hist_match(source, template): # 计算直方图 src_hist = cv2.calcHist([source], [0,1,2], None, [256,256,256], [0,256,0,256,0,256]) tpl_hist = cv2.calcHist([template], [0,1,2], None, [256,256,256], [0,256,0,256,0,256]) # 计算累积分布函数 src_cdf = src_hist.cumsum() tpl_cdf = tpl_hist.cumsum() # 直方图匹配 lut = np.interp(src_cdf, tpl_cdf, np.arange(256)) matched = cv2.LUT(source, lut) return matched

边缘锐化：使用自适应USM锐化

def adaptive_sharp(img, sigma=3, amount=1.5, threshold=10): blurred = cv2.GaussianBlur(img, (0,0), sigma) sharp = cv2.addWeighted(img, 1 + amount, blurred, -amount, 0) # 只对高频区域应用锐化 gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) edges = cv2.Laplacian(gray, cv2.CV_32F) mask = np.abs(edges) > threshold mask = np.stack([mask]*3, axis=-1) return np.where(mask, sharp, img)

噪声抑制：对平坦区域应用非局部均值去噪

def selective_denoise(img, strength=10): gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) variance = cv2.Laplacian(gray, cv2.CV_32F).var() if variance < 50: # 低纹理区域 return cv2.fastNlMeansDenoisingColored(img, None, strength, strength, 7, 21) return img

在实际修复一张1940年代的老照片时，完整流程耗时约3分钟（RTX 3090显卡），关键质量指标对比如下：