当前位置：首页 > news >正文

ResNet的“捷径”设计，如何影响了后来的Transformer和扩散模型？

news 2026/5/13 4:02:29

ResNet的"捷径"革命：深度学习中跨域通用的残差范式

2015年，当Kaiming He等人首次提出ResNet架构时，很少有人能预料到这种简单的"捷径连接"设计会成为深度学习领域最具影响力的范式之一。如今，从计算机视觉到自然语言处理，从生成模型到强化学习，残差连接几乎无处不在。这种看似微小的结构创新，究竟如何重塑了现代深度学习模型的底层设计逻辑？

1. 残差连接的诞生：解决深度网络训练难题

在ResNet出现之前，深度学习社区面临一个令人困惑的悖论：理论上，更深的神经网络应该具有更强的表达能力，但实践中，随着网络层数增加，模型性能反而会下降。这不是过拟合问题——训练误差也会随着深度增加而上升。这种现象被称为退化问题(Degradation Problem)。

ResNet的核心洞见在于重新定义了网络的学习目标。传统网络直接学习目标映射H(x)，而ResNet改为学习残差映射F(x) = H(x)-x。这种转变带来了几个关键优势：

梯度传播更高效：通过跳跃连接，梯度可以直接反向传播到浅层，缓解了梯度消失问题
网络深度不再受限：实验证明，ResNet可以扩展到1000层以上而不会出现退化
优化难度降低：学习残差比学习完整映射更容易，这一点在深层网络中尤为明显

# 典型的残差块实现(PyTorch) class ResidualBlock(nn.Module): def __init__(self, in_channels, out_channels, stride=1): super().__init__() self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1) self.bn1 = nn.BatchNorm2d(out_channels) self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, padding=1) self.bn2 = nn.BatchNorm2d(out_channels) self.shortcut = nn.Sequential() if stride != 1 or in_channels != out_channels: self.shortcut = nn.Sequential( nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride), nn.BatchNorm2d(out_channels) ) def forward(self, x): out = F.relu(self.bn1(self.conv1(x))) out = self.bn2(self.conv2(out)) out += self.shortcut(x) return F.relu(out)

提示：残差连接的成功不仅在于技术实现，更在于它改变了我们对深度网络训练的基本认知——与其让每层都学习复杂的变换，不如让它们专注于学习必要的增量调整。

2. Transformer中的残差变体：跨层信息高速公路

当残差连接在CV领域大获成功后，自然语言处理领域很快吸收了这一思想。2017年提出的Transformer架构中，残差连接成为标准配置，但其应用方式展现出一些有趣的变化：

组件	残差连接形式	作用
多头注意力	输入→LayerNorm→多头注意力→残差相加	保持原始信息同时融入注意力结果
前馈网络	注意力输出→LayerNorm→FFN→残差相加	防止非线性变换导致信息丢失
整体结构	每子层输出=子层(input)+input	构建跨层信息通路

与ResNet相比，Transformer中的残差连接有三个显著创新：

前置归一化：采用LayerNorm before残差连接，而非ResNet的后置BN
双重残差：每个Transformer块包含两次残差连接（注意力和FFN各一次）
跨模态适应：证明残差思想同样适用于序列数据和非卷积架构

# Transformer中的残差实现(简化版) class TransformerBlock(nn.Module): def __init__(self, d_model, nhead, dim_feedforward=2048): super().__init__() self.self_attn = nn.MultiheadAttention(d_model, nhead) self.linear1 = nn.Linear(d_model, dim_feedforward) self.linear2 = nn.Linear(dim_feedforward, d_model) self.norm1 = nn.LayerNorm(d_model) self.norm2 = nn.LayerNorm(d_model) def forward(self, src): # 第一次残差(注意力) src2 = self.norm1(src) src2 = self.self_attn(src2, src2, src2)[0] src = src + src2 # 第二次残差(FFN) src2 = self.norm2(src) src2 = self.linear2(F.relu(self.linear1(src2))) src = src + src2 return src

在实际应用中，这些残差连接使Transformer能够构建数十甚至数百层的深度模型，如GPT-3就包含96层Transformer块。没有残差连接，训练如此深的序列模型几乎是不可想象的。

3. 扩散模型中的跳跃连接：多尺度信息融合

扩散模型近年来成为生成式AI的重要范式，而残差思想在其中扮演着关键角色。与之前应用不同的是，扩散模型中的跳跃连接主要用于多尺度特征融合而非解决梯度问题。

典型的U-Net结构扩散模型中，跳跃连接实现了：

前向传播：下采样过程中保留不同尺度的特征
反向生成：将低层细节信息直接传递给上采样路径
噪声预测：帮助模型同时考虑全局结构和局部细节

扩散模型中跳跃连接的关键作用：

保持空间一致性：防止多次下采样-上采样导致的结构失真
加速收敛：提供更丰富的梯度信号
提升生成质量：保留高频细节，避免生成结果过于平滑

[输入图像] │ ▼ [下采样路径]───┐ │ │ ▼ │ [下采样]──────┤ │ │ ▼ ▼ [中间层]→[上采样] │ ▼ [输出]

注意：扩散模型中的跳跃连接通常采用concatenation而非residual add，这可以看作残差思想的一种扩展——不仅保留原始信息，还要充分利用中间特征。

实验数据表明，移除U-Net中的跳跃连接会导致：

FID分数下降约30%
训练收敛速度降低2-3倍
生成图像缺失细粒度纹理

4. 残差范式的通用设计原则

通过对不同领域应用的观察，我们可以总结出残差连接的几个通用设计原则：

核心价值：

保持信息流动的持续性
实现梯度高速公路
支持模块化网络设计

实现变体：

加法残差(ResNet风格)
连接残差(U-Net风格)
门控残差(如LSTM中的遗忘门)
注意力加权残差(某些Transformer变体)

最佳实践：

当需要保留原始信息时优先考虑残差连接
深层网络比浅层网络更需要残差设计
归一化层的位置影响残差效果(前置vs后置)
残差路径不宜过于复杂(避免引入新瓶颈)

下表比较了不同领域中残差连接的应用特点：

领域	典型架构	残差形式	主要作用	特殊设计
计算机视觉	ResNet	加法	解决退化问题	批量归一化
自然语言处理	Transformer	加法+LayerNorm	稳定深层训练	前置归一化
生成模型	U-Net	连接	多尺度融合	跨路径连接
语音识别	Conformer	门控	动态特征选择	门控机制

在实际工程中，残差连接已经成为现代深度学习架构的标配组件。以PyTorch为例，实现一个通用的残差模块可以这样设计：

class UniversalResBlock(nn.Module): def __init__(self, sublayer, d_model, dropout=0.1): super().__init__() self.sublayer = sublayer self.norm = nn.LayerNorm(d_model) self.dropout = nn.Dropout(dropout) def forward(self, x): # 前置归一化 + 子层 + dropout + 残差 return x + self.dropout(self.sublayer(self.norm(x)))

这个通用模块可以灵活应用于各种场景，只需替换sublayer即可实现不同类型的残差块。

5. 前沿发展与未来方向

残差思想仍在持续演化，近期研究展示了几个值得关注的新趋势：

动态残差连接：

根据输入数据自动调整残差权重
示例：ResNeSt中的"split-attention"残差块
优势：提升模型表达能力而不显著增加计算量

跨模态残差：

在多模态模型中共享残差路径
应用：CLIP等视觉-语言模型中的共享编码器
效果：促进不同模态间的特征对齐

稀疏残差网络：

仅选择性地保留部分残差连接
实现方式：通过可学习门控或注意力机制
好处：降低计算成本，提升模型可解释性

一些实验性架构甚至尝试将残差连接推向极致：

无限网络(InfiniNet)：理论上支持无限深度的残差架构
分形网络：递归应用残差原理构建自相似结构
量子残差连接：探索量子计算环境下的残差信息保持

在工程实践方面，残差连接也带来了一些有趣的优化技巧：

残差重参数化：训练时使用复杂残差路径，推理时合并为简单结构
残差蒸馏：用小模型学习大模型的残差映射
自适应残差：根据网络深度动态调整残差权重

# 动态残差连接示例 class DynamicResBlock(nn.Module): def __init__(self, in_channels): super().__init__() self.conv = nn.Conv2d(in_channels, in_channels, 3, padding=1) self.attention = nn.Sequential( nn.AdaptiveAvgPool2d(1), nn.Conv2d(in_channels, in_channels//8, 1), nn.ReLU(), nn.Conv2d(in_channels//8, in_channels, 1), nn.Sigmoid() ) def forward(self, x): residual = x out = self.conv(x) weights = self.attention(x) return residual + out * weights

这种动态调整的残差连接在图像超分辨率等任务中表现出色，能够根据图像内容自适应地混合不同层次的特征。

查看全文

http://www.jsqmd.com/news/806411/