当前位置：首页 > news >正文

用PyTorch从零搭建ResNet34：手把手教你理解残差块与梯度消失的解决之道

news 2026/6/9 4:02:41

用PyTorch从零搭建ResNet34：手把手教你理解残差块与梯度消失的解决之道

深度神经网络在图像识别领域取得了巨大成功，但随着网络层数的增加，一个令人头疼的问题逐渐浮出水面——梯度消失。这种现象在传统的深度网络中尤为明显，导致深层网络难以训练。2015年，微软研究院提出的ResNet架构通过引入残差连接（Residual Connection）巧妙地解决了这一难题，并在当年的ImageNet竞赛中一举夺魁。

今天，我们将从零开始用PyTorch实现一个ResNet34模型，在这个过程中，你将亲手构建残差块（Residual Block），并通过代码直观理解它如何解决梯度消失问题。不同于单纯的理论讲解，我们将通过打印中间层输出的维度变化，让你清晰地看到数据在网络中的流动过程。

1. 环境准备与基础概念

在开始编码之前，让我们先搭建好开发环境并理解几个核心概念。你需要安装最新版的PyTorch，建议使用Anaconda创建虚拟环境：

conda create -n resnet python=3.8 conda activate resnet conda install pytorch torchvision torchaudio -c pytorch

残差网络的核心思想可以用一个简单公式表示：F(x) + x。这里的x是输入，F(x)是经过几层变换后的输出。传统网络直接学习F(x)，而残差网络学习的是F(x)与输入x之间的残差（Residual）。这种设计带来了几个关键优势：

梯度可以直接通过跳跃连接（Shortcut）反向传播，缓解梯度消失
网络可以更容易地学习恒等映射（Identity Mapping）
深层网络的训练难度显著降低

下表对比了传统网络与残差网络的关键差异：

特性	传统网络	残差网络
梯度流动	逐层传递，易衰减	多路径传递，保持强度
深层训练	困难	相对容易
结构复杂度	简单	引入跳跃连接
性能表现	随深度增加可能下降	随深度增加持续提升

提示：在实际项目中，当网络深度超过20层时，残差结构的优势会变得非常明显。

2. 残差块的结构解析

残差块（Residual Block）是ResNet的基本构建单元，理解它的设计是掌握ResNet的关键。一个标准的残差块包含两条路径：

主路径：通常由2-3个卷积层组成，包括卷积、批归一化（BatchNorm）和ReLU激活
捷径：当输入输出维度匹配时直接使用恒等映射，不匹配时使用1×1卷积调整维度

让我们用PyTorch实现一个基础的残差块：

import torch import torch.nn as nn class BasicBlock(nn.Module): expansion = 1 def __init__(self, in_channels, out_channels, stride=1, downsample=None): super(BasicBlock, self).__init__() self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False) self.bn1 = nn.BatchNorm2d(out_channels) self.relu = nn.ReLU(inplace=True) self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=False) self.bn2 = nn.BatchNorm2d(out_channels) self.downsample = downsample self.stride = stride def forward(self, x): identity = x out = self.conv1(x) out = self.bn1(out) out = self.relu(out) out = self.conv2(out) out = self.bn2(out) if self.downsample is not None: identity = self.downsample(x) out += identity out = self.relu(out) print(f"残差块输出维度: {out.size()}") return out

在这个实现中，有几个关键点值得注意：

维度匹配：当输入输出通道数或空间尺寸不同时，需要通过downsample调整
批归一化：每个卷积层后都接BatchNorm，这是训练深度网络的重要技巧
ReLU位置：注意最后一个ReLU是在相加操作之后应用的

注意：打印输出维度的语句在实际项目中可以移除，这里是为了教学目的保留。

3. 构建完整的ResNet34架构

现在我们将残差块组装成完整的ResNet34。ResNet34的网络结构可以分为几个部分：

初始卷积层（7×7卷积+最大池化）
四个阶段的残差块堆叠（分别包含3,4,6,3个残差块）
全局平均池化和全连接分类层

以下是完整的实现代码：

class ResNet(nn.Module): def __init__(self, block, layers, num_classes=1000): super(ResNet, self).__init__() self.in_channels = 64 # 初始卷积层 self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False) self.bn1 = nn.BatchNorm2d(64) self.relu = nn.ReLU(inplace=True) self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1) # 四个残差阶段 self.layer1 = self._make_layer(block, 64, layers[0]) self.layer2 = self._make_layer(block, 128, layers[1], stride=2) self.layer3 = self._make_layer(block, 256, layers[2], stride=2) self.layer4 = self._make_layer(block, 512, layers[3], stride=2) # 分类头 self.avgpool = nn.AdaptiveAvgPool2d((1, 1)) self.fc = nn.Linear(512 * block.expansion, num_classes) def _make_layer(self, block, out_channels, blocks, stride=1): downsample = None if stride != 1 or self.in_channels != out_channels * block.expansion: downsample = nn.Sequential( nn.Conv2d(self.in_channels, out_channels * block.expansion, kernel_size=1, stride=stride, bias=False), nn.BatchNorm2d(out_channels * block.expansion) ) layers = [] layers.append(block(self.in_channels, out_channels, stride, downsample)) self.in_channels = out_channels * block.expansion for _ in range(1, blocks): layers.append(block(self.in_channels, out_channels)) return nn.Sequential(*layers) def forward(self, x): print(f"输入维度: {x.size()}") x = self.conv1(x) x = self.bn1(x) x = self.relu(x) x = self.maxpool(x) print(f"初始卷积后维度: {x.size()}") x = self.layer1(x) x = self.layer2(x) x = self.layer3(x) x = self.layer4(x) x = self.avgpool(x) x = torch.flatten(x, 1) x = self.fc(x) return x

创建ResNet34实例并打印模型结构：

def resnet34(num_classes=1000): return ResNet(BasicBlock, [3,4,6,3], num_classes) model = resnet34() print(model)

4. 梯度消失问题的实证分析

为了直观展示残差连接如何解决梯度消失问题，我们设计了一个对比实验。我们将分别观察传统网络和残差网络在反向传播时的梯度变化。

首先，定义一个简单的传统网络：

class PlainNet(nn.Module): def __init__(self): super(PlainNet, self).__init__() self.layers = nn.Sequential( nn.Conv2d(3,64,3,padding=1), nn.ReLU(), nn.Conv2d(64,64,3,padding=1), nn.ReLU(), # ... 更多层 nn.Conv2d(64,10,3,padding=1) ) def forward(self, x): return self.layers(x)

现在，我们创建一个工具函数来测量各层的梯度：

def check_gradients(model, input_tensor): output = model(input_tensor) target = torch.randn_like(output) loss = nn.MSELoss()(output, target) loss.backward() gradients = [] for name, param in model.named_parameters(): if param.grad is not None: grad_mean = param.grad.abs().mean().item() gradients.append((name, grad_mean)) return gradients

运行对比实验：

# 准备输入 input_tensor = torch.randn(1,3,224,224) # 传统网络 plain_net = PlainNet() plain_grads = check_gradients(plain_net, input_tensor) # 残差网络 resnet = resnet34() resnet_grads = check_gradients(resnet, input_tensor) # 打印结果 print("传统网络各层梯度均值:") for name, grad in plain_grads[:5]: # 只看前几层 print(f"{name}: {grad:.6f}") print("\n残差网络各层梯度均值:") for name, grad in resnet_grads[:5]: print(f"{name}: {grad:.6f}")

实验结果通常会显示：

传统网络的梯度随着层数增加迅速衰减
残差网络各层的梯度保持相对稳定
深层残差块的梯度甚至可能比浅层更大

这种差异正是残差连接带来的核心优势——它创建了从浅层到深层的"高速公路"，让梯度可以直接流动，避免了传统链式法则中的连乘效应。

5. 训练技巧与实战建议

在实际项目中应用ResNet时，以下几个技巧能显著提升模型性能：

学习率调整策略：

初始学习率设为0.1，每30个epoch乘以0.1
使用warmup在前5个epoch线性增加学习率

from torch.optim.lr_scheduler import StepLR, LambdaLR optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9) scheduler = StepLR(optimizer, step_size=30, gamma=0.1) # 或者使用warmup warmup_epochs = 5 def lr_lambda(epoch): if epoch < warmup_epochs: return (epoch + 1) / warmup_epochs return 0.1 ** (epoch // 30) scheduler = LambdaLR(optimizer, lr_lambda)

数据增强方法：

随机水平翻转
颜色抖动
随机裁剪

from torchvision import transforms train_transform = transforms.Compose([ transforms.RandomResizedCrop(224), transforms.RandomHorizontalFlip(), transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ])

模型微调技巧：

不同层使用不同的学习率
冻结部分底层参数
使用标签平滑（Label Smoothing）

# 分层设置学习率 optimizer = torch.optim.SGD([ {'params': model.conv1.parameters(), 'lr': 0.001}, {'params': model.layer1.parameters(), 'lr': 0.01}, {'params': model.layer2.parameters(), 'lr': 0.05}, {'params': model.layer3.parameters(), 'lr': 0.1}, {'params': model.layer4.parameters(), 'lr': 0.1}, {'params': model.fc.parameters(), 'lr': 0.1} ], momentum=0.9) # 标签平滑 class LabelSmoothingLoss(nn.Module): def __init__(self, classes, smoothing=0.1): super(LabelSmoothingLoss, self).__init__() self.confidence = 1.0 - smoothing self.smoothing = smoothing self.classes = classes def forward(self, pred, target): pred = pred.log_softmax(dim=-1) with torch.no_grad(): true_dist = torch.zeros_like(pred) true_dist.fill_(self.smoothing/(self.classes-1)) true_dist.scatter_(1, target.data.unsqueeze(1), self.confidence) return torch.mean(torch.sum(-true_dist * pred, dim=-1))

在图像分类任务中，经过适当训练的ResNet34通常能达到75%以上的Top-1准确率（ImageNet数据集）。相比更深的ResNet版本，ResNet34在模型大小和计算效率之间提供了很好的平衡，特别适合计算资源有限的应用场景。

查看全文

http://www.jsqmd.com/news/978767/