当前位置：首页 > news >正文

用PyTorch手把手搭建ResNet34：从Residual Block到完整模型，附代码逐行解析

news 2026/6/9 12:03:01

用PyTorch手把手搭建ResNet34：从残差块到完整模型的实战指南

残差网络（ResNet）自2015年横空出世以来，已成为计算机视觉领域的基石架构。不同于传统神经网络随着深度增加出现的性能退化问题，ResNet通过引入残差连接（Residual Connection）这一创新设计，使得训练数百层的深度网络成为可能。本文将聚焦ResNet34这一经典变体，带你从零开始实现完整的模型搭建过程。

1. 残差网络的核心思想与设计原理

1.1 残差学习的本质

传统深度神经网络面临的主要困境是：随着网络层数增加，准确率会先达到饱和然后迅速下降。这种现象并非由过拟合引起，而是因为梯度消失/爆炸使得深层网络难以训练。ResNet提出的残差学习框架巧妙地解决了这一问题。

残差块的基本数学表达为：

输出 = F(x) + x

其中：

x是输入
F(x)是经过卷积层等变换后的输出
+操作实现了跨层连接

这种设计使得网络可以专注于学习输入与输出之间的残差映射（F(x)），而非完整的输出。当最优映射接近恒等映射时，网络只需将残差推向零，这比用非线性层拟合恒等映射要容易得多。

1.2 ResNet34的架构特点

ResNet34作为中等规模的残差网络，其结构特点包括：

组件	配置	输出尺寸
初始卷积	7x7, 64, stride 2	112x112
最大池化	3x3, stride 2	56x56
残差层1	3个残差块，64通道	56x56
残差层2	4个残差块，128通道	28x28
残差层3	6个残差块，256通道	14x14
残差层4	3个残差块，512通道	7x7
全局池化	平均池化	1x1
全连接层	1000维输出	-

2. 实现基础残差块

2.1 基本残差块结构

我们先实现最基础的残差块，它包含两个3x3卷积层，每个卷积后接批量归一化和ReLU激活：

import torch import torch.nn as nn class BasicBlock(nn.Module): def __init__(self, in_channels, out_channels, stride=1): super().__init__() self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False) self.bn1 = nn.BatchNorm2d(out_channels) self.relu = nn.ReLU(inplace=True) self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=False) self.bn2 = nn.BatchNorm2d(out_channels) # 处理维度不匹配的shortcut连接 self.shortcut = nn.Sequential() if stride != 1 or in_channels != out_channels: self.shortcut = nn.Sequential( nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride, bias=False), nn.BatchNorm2d(out_channels) ) def forward(self, x): residual = x out = self.conv1(x) out = self.bn1(out) out = self.relu(out) out = self.conv2(out) out = self.bn2(out) out += self.shortcut(residual) out = self.relu(out) return out

2.2 残差块的关键细节

维度匹配问题：当输入输出维度不一致时（通道数变化或特征图缩小），需要通过1x1卷积调整shortcut路径的维度
批量归一化：每个卷积层后都添加了BN层，这是训练深度网络的关键
激活函数位置：注意ReLU只在残差相加后使用一次，这与传统网络不同

提示：在实际项目中，可以通过添加print(x.shape)在forward中检查各层维度变化，这是调试网络结构的有效方法

3. 构建完整ResNet34模型

3.1 模型骨架实现

基于定义好的基础残差块，我们可以搭建完整的ResNet34：

class ResNet34(nn.Module): def __init__(self, num_classes=1000): super().__init__() self.in_channels = 64 # 初始卷积层 self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False) self.bn1 = nn.BatchNorm2d(64) self.relu = nn.ReLU(inplace=True) self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1) # 残差层 self.layer1 = self._make_layer(64, 3, stride=1) self.layer2 = self._make_layer(128, 4, stride=2) self.layer3 = self._make_layer(256, 6, stride=2) self.layer4 = self._make_layer(512, 3, stride=2) # 分类头 self.avgpool = nn.AdaptiveAvgPool2d((1, 1)) self.fc = nn.Linear(512, num_classes) def _make_layer(self, out_channels, blocks, stride=1): layers = [] # 第一个块可能需要下采样 layers.append(BasicBlock(self.in_channels, out_channels, stride)) self.in_channels = out_channels # 后续块保持维度不变 for _ in range(1, blocks): layers.append(BasicBlock(out_channels, out_channels)) return nn.Sequential(*layers) def forward(self, x): x = self.conv1(x) x = self.bn1(x) x = self.relu(x) x = self.maxpool(x) x = self.layer1(x) x = self.layer2(x) x = self.layer3(x) x = self.layer4(x) x = self.avgpool(x) x = torch.flatten(x, 1) x = self.fc(x) return x

3.2 关键实现细节解析

_make_layer方法：这是构建重复残差层的工厂函数，自动处理第一个块的维度变化
通道数变化：每进入一个新的残差层，通道数会翻倍（64→128→256→512）
特征图下采样：通过设置stride=2的卷积实现，注意只在每个残差层的第一个块中进行
全局平均池化：替代全连接层，减少参数量的同时提高模型泛化能力

4. 模型验证与训练技巧

4.1 验证模型结构

我们可以快速验证模型是否正确构建：

model = ResNet34() dummy_input = torch.randn(1, 3, 224, 224) output = model(dummy_input) print(f"输出形状: {output.shape}") # 应为 torch.Size([1, 1000])

4.2 训练优化技巧

学习率调度：使用余弦退火或分阶段下降策略

scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)

数据增强：对图像分类任务特别重要

transform = transforms.Compose([ transforms.RandomResizedCrop(224), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ])

权重初始化：对卷积层使用He初始化

for m in model.modules(): if isinstance(m, nn.Conv2d): nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')

4.3 常见问题排查

维度不匹配错误：检查各层输入输出通道数和特征图尺寸
训练不收敛：尝试降低学习率，检查数据预处理是否正确
过拟合：增加数据增强，添加Dropout层（虽然原论文未使用）

5. 进阶优化与变体

5.1 Bottleneck改进

对于更深的ResNet（如50/101/152层），会使用Bottleneck结构：

class Bottleneck(nn.Module): expansion = 4 def __init__(self, in_channels, out_channels, stride=1): super().__init__() mid_channels = out_channels // self.expansion self.conv1 = nn.Conv2d(in_channels, mid_channels, kernel_size=1, bias=False) self.bn1 = nn.BatchNorm2d(mid_channels) self.conv2 = nn.Conv2d(mid_channels, mid_channels, kernel_size=3, stride=stride, padding=1, bias=False) self.bn2 = nn.BatchNorm2d(mid_channels) self.conv3 = nn.Conv2d(mid_channels, out_channels, kernel_size=1, bias=False) self.bn3 = nn.BatchNorm2d(out_channels) self.relu = nn.ReLU(inplace=True) self.shortcut = nn.Sequential() if stride != 1 or in_channels != out_channels: self.shortcut = nn.Sequential( nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride, bias=False), nn.BatchNorm2d(out_channels) ) def forward(self, x): residual = x out = self.conv1(x) out = self.bn1(out) out = self.relu(out) out = self.conv2(out) out = self.bn2(out) out = self.relu(out) out = self.conv3(out) out = self.bn3(out) out += self.shortcut(residual) out = self.relu(out) return out