当前位置：首页 > news >正文

别再死记ResNet结构图了！用PyTorch手写一个18层残差网络（附代码逐行解析）

news 2026/6/5 17:20:04

用PyTorch从零构建ResNet-18：残差连接的本质与实现细节

在深度学习领域，ResNet（残差网络）无疑是计算机视觉任务中的里程碑式架构。许多教程会展示复杂的网络结构图，但真正理解ResNet的最佳方式莫过于亲手实现它。本文将带您用PyTorch构建一个完整的ResNet-18模型，通过代码揭示残差连接的核心思想，让抽象的结构图变得具体可操作。

1. 残差网络基础概念

残差网络的核心创新在于引入了"跳跃连接"（skip connection），解决了深层网络训练中的梯度消失问题。传统神经网络中，数据需要经过层层变换，而ResNet允许原始输入"跳过"某些层直接与后续层的输出相加。

这种设计带来了两个关键优势：

梯度传播更高效：反向传播时梯度可以通过跳跃连接直接回传，缓解了深层网络的梯度衰减
网络更容易优化：即使添加的层没有提升性能，模型至少可以保持与浅层网络相当的表现（不会更差）

在PyTorch中实现残差块时，我们需要特别注意输入输出维度匹配的问题。当维度不匹配时（如特征图尺寸变化或通道数变化），需要通过1x1卷积进行维度调整，这就是结构图中"虚线"与"实线"的区别所在。

2. ResNet-18整体架构设计

ResNet-18由以下几个主要部分组成：

初始卷积层：7x7卷积，步长2，配合3x3最大池化进行初步下采样
四个残差阶段（conv2_x到conv5_x）：每个阶段包含多个残差块
全局平均池化：将空间维度降为1x1
全连接分类层：输出对应类别数

让我们用表格更清晰地展示ResNet-18各层的配置：

层级名称	残差块数量	输出通道数	特征图尺寸	是否下采样
conv1	-	64	112x112	是
maxpool	-	64	56x56	是
conv2_x	2	64	56x56	否
conv3_x	2	128	28x28	是
conv4_x	2	256	14x14	是
conv5_x	2	512	7x7	是

3. 实现基础残差块

我们先实现最基本的残差块，这是构建整个网络的基础组件。在ResNet-18中，每个残差块包含两个3x3卷积层，中间通过BatchNorm和ReLU激活函数连接。

import torch import torch.nn as nn class BasicBlock(nn.Module): expansion = 1 # 扩展系数，基础块中为1 def __init__(self, in_channels, out_channels, stride=1, downsample=None): super(BasicBlock, self).__init__() self.conv1 = nn.Conv2d( in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False ) self.bn1 = nn.BatchNorm2d(out_channels) self.relu = nn.ReLU(inplace=True) self.conv2 = nn.Conv2d( out_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=False ) self.bn2 = nn.BatchNorm2d(out_channels) self.downsample = downsample self.stride = stride def forward(self, x): identity = x out = self.conv1(x) out = self.bn1(out) out = self.relu(out) out = self.conv2(out) out = self.bn2(out) if self.downsample is not None: identity = self.downsample(x) out += identity out = self.relu(out) return out

注意：downsample参数用于处理维度不匹配的情况，当输入输出维度不同时（如进行下采样或通道数变化），需要通过1x1卷积调整维度。

4. 构建完整的ResNet-18网络

现在我们可以利用基础残差块来组装完整的ResNet-18网络。关键在于正确处理各阶段之间的过渡，特别是当下采样发生时。

class ResNet(nn.Module): def __init__(self, block, layers, num_classes=1000): super(ResNet, self).__init__() self.in_channels = 64 # 初始卷积层 self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False) self.bn1 = nn.BatchNorm2d(64) self.relu = nn.ReLU(inplace=True) self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1) # 四个残差阶段 self.layer1 = self._make_layer(block, 64, layers[0]) self.layer2 = self._make_layer(block, 128, layers[1], stride=2) self.layer3 = self._make_layer(block, 256, layers[2], stride=2) self.layer4 = self._make_layer(block, 512, layers[3], stride=2) # 分类头 self.avgpool = nn.AdaptiveAvgPool2d((1, 1)) self.fc = nn.Linear(512 * block.expansion, num_classes) def _make_layer(self, block, out_channels, blocks, stride=1): downsample = None if stride != 1 or self.in_channels != out_channels * block.expansion: downsample = nn.Sequential( nn.Conv2d( self.in_channels, out_channels * block.expansion, kernel_size=1, stride=stride, bias=False ), nn.BatchNorm2d(out_channels * block.expansion), ) layers = [] layers.append(block(self.in_channels, out_channels, stride, downsample)) self.in_channels = out_channels * block.expansion for _ in range(1, blocks): layers.append(block(self.in_channels, out_channels)) return nn.Sequential(*layers) def forward(self, x): x = self.conv1(x) x = self.bn1(x) x = self.relu(x) x = self.maxpool(x) x = self.layer1(x) x = self.layer2(x) x = self.layer3(x) x = self.layer4(x) x = self.avgpool(x) x = torch.flatten(x, 1) x = self.fc(x) return x

提示：_make_layer方法是构建每个残差阶段的核心，它处理了第一个块的维度匹配问题（可能使用下采样），然后添加剩余的残差块。

5. 实例化ResNet-18并验证结构

现在我们可以创建ResNet-18实例，并验证其结构与预期是否一致：

def resnet18(num_classes=1000): return ResNet(BasicBlock, [2, 2, 2, 2], num_classes) # 创建模型实例 model = resnet18() # 打印模型结构 print(model) # 验证输入输出 dummy_input = torch.randn(1, 3, 224, 224) output = model(dummy_input) print(f"Output shape: {output.shape}") # 应为 [1, 1000]

通过这段代码，我们可以看到完整的ResNet-18结构，并能验证输入输出维度是否符合预期。特别值得注意的是：

输入图像尺寸应为224x224（ImageNet标准）
经过各阶段下采样后，最终特征图尺寸为7x7
全局平均池化将空间维度降为1x1
最后的全连接层输出1000维向量（对应ImageNet的1000类）

6. 残差连接的关键实现细节

在实现ResNet时，有几个关键细节需要特别注意：

Batch Normalization的使用：
- 每个卷积层后都紧跟BN层，加速训练并提高稳定性
- BN层在推理时会使用移动平均的统计量
ReLU激活函数的位置：
- 在每个残差块内部有两个ReLU激活
- 但残差相加后还需要一个ReLU激活
- 这种设计被称为"post-activation"
下采样处理：
- 在conv3_x、conv4_x、conv5_x的第一个残差块会进行下采样（stride=2）
- 同时需要通过1x1卷积调整捷径分支的维度
��数初始化：
- 卷积层通常使用He初始化
- BN层的γ初始化为1，β初始化为0

# 参数初始化示例 def init_weights(m): if isinstance(m, nn.Conv2d): nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu') elif isinstance(m, nn.BatchNorm2d): nn.init.constant_(m.weight, 1) nn.init.constant_(m.bias, 0) model.apply(init_weights)

7. 训练技巧与常见问题

在实际使用ResNet-18时，以下几个技巧可以帮助获得更好的效果：

学习率调整：初始学习率设为0.1，每30个epoch乘以0.1
权重衰减：通常设为1e-4防止过拟合
数据增强：随机水平翻转、颜色抖动等
标签平滑：缓解模型对预测结果的过度自信

常见问题及解决方案：

训练初期损失不下降：
- 检查初始化是否正确
- 确认输入数据归一化（通常使用ImageNet的均值和标准差）
验证准确率波动大：
- 增大batch size
- 使用更激进的学习率衰减
模型过拟合：
- 增加数据增强
- 尝试dropout（虽然原论文未使用）
- 调整权重衰减系数

# 示例训练循环框架 optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9, weight_decay=1e-4) scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1) criterion = nn.CrossEntropyLoss() for epoch in range(100): model.train() for inputs, labels in train_loader: optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() scheduler.step() # 验证过程 model.eval() with torch.no_grad(): # 计算验证集指标...

通过这次从零实现ResNet-18的过程，我们不仅理解了残差网络的结构，更重要的是掌握了如何将论文中的概念转化为实际可运行的代码。这种能力对于深度学习工程师来说至关重要——它让我们能够真正理解模型的工作原理，而不仅仅是调用现成的API。

查看全文

http://www.jsqmd.com/news/956383/