当前位置：首页 > news >正文

从ResNet到DenseNet：图解Element-wise Add和Concat如何塑造了现代CNN架构

news 2026/4/26 17:45:03

从ResNet到DenseNet：图解Element-wise Add和Concat如何塑造了现代CNN架构

在深度学习的演进历程中，神经网络架构设计经历了从简单堆叠到精心设计的转变。2015年，ResNet通过残差连接（Residual Connection）彻底改变了卷积神经网络的深度极限；2017年，DenseNet则通过密集连接（Dense Connection）开创了特征复用的新范式。这两种革命性架构的核心差异，本质上源于对特征图融合方式的两种不同选择：Element-wise Add和Concat。理解这两种基础操作如何影响梯度流动、特征表达和计算效率，是掌握现代CNN设计精髓的关键。

1. 特征融合的两种基础操作

1.1 Element-wise Add的数学本质

Element-wise Add（逐元素相加）要求参与运算的两个张量具有完全相同的形状（shape），其数学表达为：

import torch x = torch.randn(1, 64, 56, 56) # 假设输入特征图 identity = x # 恒等映射 out = x + identity # Element-wise Add操作

这种操作的核心特性包括：

信息混合：将两个特征图的对应通道数值相加，产生新的特征表示
维度不变：输出特征图保持与输入相同的通道数和空间尺寸
参数效率：不引入额外的可学习参数

在ResNet中，残差连接正是采用这种操作，使得网络能够学习"残差"而非直接映射。实验表明，当输入输出维度不匹配时，常用的处理方式包括：

处理方法	实现方式	计算开销	信息保留
1x1卷积	用卷积核调整通道维度	中等	部分
零填充	在缺失通道补零	低	不完全
平均池化+复制	下采样后复制到所需通道数	中等	部分

1.2 Concat操作的实现细节

与Add不同，Concat（拼接）操作沿特定维度（通常是通道维度）合并张量：

x1 = torch.randn(1, 64, 56, 56) x2 = torch.randn(1, 64, 56, 56) out = torch.cat([x1, x2], dim=1) # 输出形状变为(1, 128, 56, 56)

Concat的关键特点包括：

维度扩展：输出特征图的通道数是输入特征图通道数之和
信息隔离：各输入特征图的原始信息保持独立
后续处理需求：通常需要接卷积层来融合拼接后的特征

DenseNet的密集连接块（Dense Block）就是典型应用，其中每个层都会接收前面所有层的特征拼接。这种设计带来了显著的特征复用优势：

第1层输出：$x_1$
第2层输入：$[x_0, x_1]$
第3层输入：$[x_0, x_1, x_2]$
...
第$l$层输入：$[x_0, x_1, ..., x_{l-1}]$

2. 梯度传播的差异分析

2.1 Add操作的梯度流动特性

ResNet的残差连接创造了一条"梯度高速公路"，其反向传播过程可以表示为：

$$ \frac{\partial L}{\partial x} = \frac{\partial L}{\partial F} \cdot \frac{\partial F}{\partial x} + \frac{\partial L}{\partial F} $$

其中第二项$\frac{\partial L}{\partial F}$就是通过Add操作保留的直连梯度。这种设计解决了深层网络中的梯度消失问题：

即使$\frac{\partial F}{\partial x}$变得很小（接近0），梯度仍能通过恒等路径传播
实验显示，在100层以上的网络中，ResNet的梯度幅值仍能保持$10^{-2}$量级
相比之下，普通CNN在50层时梯度就可能衰减到$10^{-6}$以下

2.2 Concat的梯度分配机制

DenseNet的梯度传播则呈现出不同的模式。对于第$l$层的输出$x_l$，它会接收来自所有后续层的梯度：

$$ \frac{\partial L}{\partial x_l} = \sum_{i=l+1}^n \frac{\partial L}{\partial x_i} \cdot \frac{\partial x_i}{\partial x_l} $$

这种设计带来了三个独特优势：

梯度多样性：各层接收来自多个路径的梯度信号
隐式深度监督：浅层特征直接受到深层目标的监督
特征再利用：早期特征可以参与后续所有层的计算

下表对比了两种连接方式的梯度特性：

特性	Element-wise Add	Concat
梯度路径	单一主路径	多分支路径
梯度幅值	稳定但可能饱和	动态调整
浅层梯度来源	仅来自下一层	来自所有后续层
对超深的适应性	优秀（1000+层可行）	良好（通常数百层）

3. 特征表达能力的比较

3.1 Add操作的特征复用模式

ResNet的Add操作实际上创建了一种特征精炼机制。假设原始特征为$x$，经过变换后的特征为$F(x)$，则输出为：

$$ H(x) = F(x) + x $$

这种结构促使网络学习残差$F(x) = H(x) - x$，在实践中表现出：

对微小变化更敏感（因为需要拟合差值）
倾向于保留主要特征，只修改必要部分
在图像恢复任务中表现突出（如超分辨率）

注意：当使用Add操作时，建议先对输入特征进行Batch Normalization，以避免数值范围的不匹配导致优化困难。

3.2 Concat的特征组合能力

DenseNet的Concat操作则实现了特征累积。第$l$层的输出可以表示为：

$$ x_l = H_l([x_0, x_1, ..., x_{l-1}]) $$

这种设计带来了几个独特性质：

多尺度特征融合：浅层的高分辨率细节与深层的语义信息自然结合
特征冗余降低：各层可以专注于产生新特征而非重复已有信息
参数量效率高：每层只需产生少量特征图（如k=32）

实验数据显示，在ImageNet上达到相同准确率时：

ResNet-50需要约25.5M参数
DenseNet-201仅需20M参数
而DenseNet-BC（瓶颈设计）仅需15.3M参数

4. 现代架构中的演进与融合

4.1 混合连接策略的兴起

近年来，研究者开始探索结合Add和Concat的混合架构。例如：

ResNeXt：在残差块内使用分组卷积+Concat

# 伪代码示例 def resnext_block(x): group1 = conv3x3(x[:, :64]) # 分组处理 group2 = conv3x3(x[:, 64:]) transformed = torch.cat([group1, group2], dim=1) return x + transformed # 最终仍使用Add