当前位置：首页 > news >正文

AI 术语通俗词典：归一化层

news 2026/7/14 21:09:26

归一化层是深度学习、神经网络、卷积神经网络、Transformer 和人工智能模型训练中非常重要的一类层结构。它用来描述一种对神经网络中间表示进行标准化处理的计算层。换句话说，归一化层是在回答：模型训练过程中，如何让每一层接收到的特征分布更加稳定，从而使训练更容易、更平稳。

如果说卷积层、全连接层主要负责提取特征和变换特征，那么归一化层更强调“稳定特征分布”和“改善训练过程”。它通常不直接决定模型要学习什么模式，而是帮助模型在训练时保持更好的数值状态，减少梯度不稳定、收敛缓慢和训练震荡等问题。

因此，归一化层常用于卷积神经网络、循环神经网络、Transformer、大语言模型和各种深度学习模型中，是理解现代神经网络训练稳定性的重要基础。

一、基本概念：什么是归一化层

归一化层（Normalization Layer）是神经网络中用于调整中间特征分布的一种层结构。

在神经网络训练中，每一层的输出都会作为下一层的输入。如果前一层输出的数值分布变化很大，后一层就需要不断适应这种变化，训练可能变得不稳定。

归一化层的基本思想是：先对一组特征计算均值和方差，再把这些特征转换到相对稳定的分布范围内。

常见形式可以写为：

其中：

• x 表示需要归一化的输入特征

• μ 表示均值

• σ² 表示方差

• ε 是一个很小的正数，用于避免除以 0

• x̂ 表示归一化后的结果

归一化后，模型通常还会引入两个可学习参数：

其中：

• γ 表示缩放参数

• β 表示平移参数

• y 表示归一化层最终输出

从通俗角度看，归一化层不是简单地把数据“压平”，而是先把特征调整到更稳定的尺度，再允许模型通过 γ 和 β 学习合适的缩放和平移。

因此，归一化层可以理解为：先让特征分布更规整，再把是否需要放大、缩小或平移的自由度交还给模型学习。

二、为什么需要归一化层

归一化层之所以重要，是因为深度神经网络训练时，数据在层与层之间不断变换。

一层的输出可能会出现：

• 数值过大

• 数值过小

• 分布不断漂移

• 不同通道尺度差异很大

• 梯度传播不稳定

这些问题会影响后续层的学习。

例如，一个隐藏层输出的特征有的范围在 0 到 1 之间，有的范围在 -100 到 100 之间，那么后一层在接收这些特征时，不同维度的影响尺度会很不一致，模型训练可能变得困难。

归一化层的作用就是缓解这种问题。它可以帮助模型：

• 稳定中间特征分布

• 改善梯度传播

• 加快收敛速度

• 减少对参数初始化的敏感性

• 提高深层网络训练稳定性

从通俗角度看：归一化层像是在神经网络内部不断“整理数据尺度”，让后面的层更容易接着学习。

这也是为什么在很多现代神经网络结构中，归一化层几乎已经成为标准组件。

三、归一化层的核心计算过程

归一化层的基本计算可以分成三步：

计算统计量 → 标准化 → 可学习缩放和平移

1、计算均值和方差

首先，在指定维度上计算均值：

再计算方差：

其中：

• m 表示参与统计的一组元素数量

• xᵢ 表示其中第 i 个元素

• μ 表示这一组元素的平均值

• σ² 表示这一组元素的方差

不同归一化层的主要区别，就在于“这一组元素”到底包括哪些维度。

例如：

• Batch Normalization 通常按 batch 维度统计

• Layer Normalization 通常按一个样本内部的特征维度统计

• Instance Normalization 通常按单个样本、单个通道的空间维度统计

• Group Normalization 会把通道分组后分别统计

2、进行标准化

计算出均值和方差后，对输入进行标准化：

其中：

• xᵢ 表示归一化前的第 i 个元素

• x̂ᵢ 表示归一化后的第 i 个元素

• μ 表示均值

• σ² 表示方差

• ε 表示防止分母为 0 的小常数

从通俗角度看，这一步就是把特征转换成“相对于平均水平偏高还是偏低”的形式。

3、缩放和平移

如果只做标准化，模型表达能力可能受到限制。

因此，归一化层通常会再引入可学习参数：

其中：

• γ 控制缩放

• β 控制平移

• yᵢ 表示最终输出

这一步非常重要。它意味着归一化层不是强行固定特征分布，而是给模型保留了学习合适分布的能力。

图 1：归一化层基本原理（以 Batch Normalization 为例）

从通俗角度看：

• 标准化负责“先整理”

• γ 和 β 负责“再按模型需要调整”

四、Batch Normalization：按批量归一化

Batch Normalization 通常简称 BatchNorm，是早期深度学习中非常经典的归一化层。

它的核心思想是：在一个 mini-batch 中，对同一特征通道上的数据计算均值和方差，然后进行归一化。

在全连接网络中，假设某一层输出形状为：

其中：

• N 表示 batch 中的样本数量

• D 表示特征维度

BatchNorm 通常会对每一个特征维度，在 N 个样本上计算均值和方差。

在卷积神经网络中，输入通常是：

其中：

• N 表示 batch 大小

• C 表示通道数

• H 表示特征图高度

• W 表示特征图宽度

BatchNorm2d 通常会对每个通道 C，统计 N、H、W 维度上的均值和方差。

也就是说，对于每个通道，BatchNorm 会统计这个 batch 中所有样本、所有空间位置的分布。

从通俗角度看，BatchNorm 会问：这一批数据中，某个通道整体上偏大还是偏小？然后把它调整到更稳定的尺度。

BatchNorm 的常见优点是：

• 训练通常更稳定

• 收敛速度可能更快

• 对初始化不那么敏感

• 在 CNN 中非常常见

不过，BatchNorm 也有局限。

它依赖 batch 统计量。如果 batch 很小，均值和方差估计可能不稳定。

因此，在小 batch 训练、序列建模或某些生成任务中，BatchNorm 不一定是最佳选择。

五、训练阶段与推理阶段的 BatchNorm

BatchNorm 有一个非常重要的特点：训练阶段和推理阶段行为不同。

1、训练阶段

训练时，BatchNorm 使用当前 mini-batch 的均值和方差：

其中：

• μ_B 表示当前 batch 的均值

• σ_B² 表示当前 batch 的方差

• m 表示参与统计的元素数量

同时，BatchNorm 会维护一个滑动平均统计量，用于推理阶段。

2、推理阶段

推理时，模型通常一次只处理一个样本或少量样本，不能稳定依赖当前 batch 统计量。

因此，BatchNorm 会使用训练过程中累计得到的 running mean 和 running variance。

从通俗角度看：

• 训练时：看当前这一批样本的统计分布

• 推理时：使用训练过程中积累下来的总体统计经验

这也是为什么在 PyTorch 中，需要区分：

model.train()

和：

model.eval()

model.train() 会让 BatchNorm 使用当前 batch 统计量。

model.eval() 会让 BatchNorm 使用累计统计量。

如果推理时忘记调用 model.eval()，模型输出可能会不稳定。

六、Layer Normalization：按层归一化

Layer Normalization 通常简称 LayerNorm。

它的核心思想是：对单个样本内部的一组特征进行归一化，而不是依赖 batch 中其他样本。

假设一个样本的隐藏表示为：

LayerNorm 会在这个样本自己的 d 个特征上计算均值和方差：

然后进行标准化：

其中：

• d 表示单个样本中的特征维度数量

• xᵢ 表示该样本的第 i 个特征

• μ 和 σ² 都来自该样本自身的特征维度

从通俗角度看：LayerNorm 不关心同一个 batch 中其他样本是什么样，而是只整理当前样本自己的特征分布。

LayerNorm 的常见特点是：

• 不依赖 batch 大小

• 适合序列建模

• 在 Transformer 中非常常见

• 在大语言模型中是核心组件之一

在 Transformer 中，每个 token 都会有一个隐藏向量。LayerNorm 通常会对这个 token 的隐藏向量内部进行归一化。

例如，一个 token 的隐藏表示是 d 维向量：

LayerNorm 就是在这 d 个维度上计算均值和方差。

从通俗角度看：LayerNorm 像是在整理每个 token 自己的内部表示，使它在进入下一层计算前保持稳定。

七、Instance Normalization 与 Group Normalization

除了 BatchNorm 和 LayerNorm，还有两种常见归一化层：

• Instance Normalization

• Group Normalization

1、Instance Normalization

Instance Normalization 通常简称 InstanceNorm。

它常用于图像生成、风格迁移等任务。

对于输入：

InstanceNorm 通常对每个样本、每个通道，分别在 H 和 W 上计算均值和方差。

也就是说，它不跨样本统计，也不跨通道统计。

从通俗角度看：InstanceNorm 会单独整理每张图片中每个通道的空间分布。

这在风格迁移中很有用，因为图像风格往往与通道的整体统计特征有关。

2、Group Normalization

Group Normalization 通常简称 GroupNorm。

它会把通道分成若干组，在每一组内部计算均值和方差。

例如，如果输入有 32 个通道，可以分成 8 组，每组 4 个通道。

从通俗角度看：GroupNorm 既不像 BatchNorm 那样依赖 batch，也不像 LayerNorm 那样把所有通道都放在一起，而是在通道之间分组归一化。

GroupNorm 的常见特点是：

• 不依赖 batch 大小

• 适合小 batch 训练

• 常用于检测、分割等显存占用较大的任务

• 在 CNN 中可以作为 BatchNorm 的替代方案

八、几种归一化层的直观区别

不同归一化层的核心区别，在于统计均值和方差时“看哪些维度”。

图 2：不同归一化层统计范围的区别

1、BatchNorm：看同一通道在一批样本中的分布

BatchNorm 通常在 batch 维度和空间维度上统计。

对于 CNN 中的输入：

BatchNorm2d 通常对每个通道 C，在 N、H、W 上计算均值和方差。

从通俗角度看：BatchNorm 关心的是“一批样本中某个通道整体是否稳定”。

2、LayerNorm：看单个样本内部的特征分布

LayerNorm 通常对单个样本内部的特征维度统计。

从通俗角度看：LayerNorm 关心的是“一个样本自己的特征向量是否稳定”。

3、InstanceNorm：看单个样本、单个通道的空间分布

InstanceNorm 对每个样本的每个通道分别在空间维度上统计。

从通俗角度看：InstanceNorm 关心的是“一张图里某个通道的空间风格是否稳定”。

4、GroupNorm：看单个样本中一组通道的分布

GroupNorm 把通道分组，在每一组内部统计。

从通俗角度看：GroupNorm 关心的是“一个样本中某一组通道的整体分布是否稳定”。

可以概括为：

• BatchNorm：跨 batch 统计

• LayerNorm：样本内统计

• InstanceNorm：样本内、通道内统计

• GroupNorm：样本内、通道分组统计

九、归一化层与数据归一化的区别

归一化层容易和数据预处理中的归一化混淆。

二者都涉及“调整数值尺度”，但作用位置不同。

1、数据归一化

数据归一化通常发生在模型输入之前。

例如，对表格数据做标准化：

或者把像素值从 0～255 缩放到 0～1。

它的目标是让原始输入数据更适合模型训练。

从通俗角度看：数据归一化是在“模型外部”整理输入数据。

2、归一化层

归一化层发生在模型内部。

它处理的是中间层输出，例如卷积特征图、隐藏向量或 token 表示。

从通俗角度看：归一化层是在“模型内部”整理中间表示。

因此，二者不能混为一谈。

一个模型既可能需要输入数据标准化，也可能在内部使用 BatchNorm、LayerNorm 或 GroupNorm。

十、归一化层的优势、局限与使用注意事项

1、归一化层的主要优势

归一化层最大的优势是提高训练稳定性。

它可以让中间特征分布更加平稳，使后续层更容易学习。

其次，归一化层可以改善梯度传播。

在深层网络中，归一化层常常有助于缓解数值不稳定问题。

再次，归一化层可以提高训练效率。

很多模型在加入合适归一化层后，可以使用更大的学习率，收敛也可能更快。

从通俗角度看，归一化层的优势在于：它让神经网络内部的数据流更稳定，从而让训练更顺畅。

2、归一化层的主要局限

归一化层也有局限。

首先，归一化层不是万能的。

如果模型结构不合理、学习率设置不当或数据质量差，归一化层无法单独解决所有问题。

其次，不同归一化层适合不同场景。

BatchNorm 在大 batch CNN 中表现常见，但小 batch 时可能不稳定；LayerNorm 适合 Transformer，但不一定是所有 CNN 任务的首选。

再次，归一化层会引入额外计算和参数。

虽然 γ 和 β 参数量通常不大，但归一化过程本身仍然有一定计算开销。

此外，BatchNorm 的训练和推理行为不同，使用时要特别注意模型模式。

3、使用归一化层时需要注意的问题

使用归一化层时，需要注意：

• CNN 中常见 BatchNorm、GroupNorm

• Transformer 中常见 LayerNorm

• 小 batch 训练时 BatchNorm 可能不稳定

• 推理前要切换到 eval 模式

• 归一化层通常放在卷积层或全连接层附近

• 不同结构中归一化层的位置可能不同

• 归一化层不能替代输入数据预处理

• BatchNorm 的 running mean 和 running variance 会影响推理结果

从实践角度看，归一化层应根据任务、模型结构、batch 大小和训练稳定性选择，而不是机械套用。

十一、归一化层在常见网络中的位置

归一化层通常不会单独出现，而是和其他层组合使用。

1、CNN 中的常见形式

在卷积神经网络中，常见结构是：

卷积层 → BatchNorm → ReLU

也可以写作：

从通俗角度看：卷积层提取局部特征，BatchNorm 稳定特征分布，ReLU 引入非线性。

这种结构在很多经典 CNN 中非常常见。

2、Transformer 中的常见形式

在 Transformer 中，LayerNorm 是非常关键的组件。

常见结构包括：

LayerNorm → 注意力层 → 残差连接

或者：

注意力层 → 残差连接 → LayerNorm

不同模型可能采用不同归一化位置。

例如：

• Pre-LN：先归一化，再进入子层

• Post-LN：先经过子层和残差，再归一化

从通俗角度看：Transformer 中的 LayerNorm 负责稳定 token 表示，使多层注意力和前馈网络更容易训练。

3、生成模型中的常见形式

在图像生成、风格迁移等任务中，InstanceNorm、GroupNorm 或其他归一化变体也很常见。

例如：

卷积层 → InstanceNorm → 激活函数

从通俗角度看：这些归一化层不仅影响训练稳定性，也可能影响生成图像的风格和质感。

十二、Python 示例

下面给出几个简单示例，用来帮助理解归一化层的基本使用。

示例 1：使用 BatchNorm1d 处理向量特征

import torchimport torch.nn as nn # 输入：4个样本，每个样本3个特征（batch_size=4, num_features=3）x = torch.tensor([ [1.0, 2.0, 3.0], [2.0, 4.0, 6.0], [3.0, 6.0, 9.0], [4.0, 8.0, 12.0]]) # BatchNorm1d：对每个特征维度（共3维）在batch上进行标准化bn = nn.BatchNorm1d(num_features=3) # 训练模式：使用当前batch的均值和方差进行标准化bn.train()y = bn(x) print("输入：")print(x)print("BatchNorm 输出：")print(y) # 输出接近均值为0、方差为1的标准正态分布

这个例子中：

• 输入形状为 4 × 3

• 4 表示 batch 中有 4 个样本

• 3 表示每个样本有 3 个特征

• BatchNorm1d 会对每个特征维度在 batch 上计算均值和方差

从通俗角度看，它会分别整理第 1、2、3 个特征在这一批样本中的分布。

示例 2：使用 BatchNorm2d 处理图像特征图

import torchimport torch.nn as nn # 输入：8张图像，16个通道，每个特征图32x32x = torch.randn(8, 16, 32, 32) # BatchNorm2d：对每个通道在batch和空间维度上进行标准化bn = nn.BatchNorm2d(num_features=16) y = bn(x) # 输出形状与输入相同 print("输入形状：", x.shape) # torch.Size([8, 16, 32, 32])print("输出形状：", y.shape) # torch.Size([8, 16, 32, 32])

这个例子中：

• 输入形状为 N × C × H × W

• N = 8 表示 batch 大小

• C = 16 表示通道数

• H = W = 32 表示特征图空间尺寸

• BatchNorm2d 会对每个通道分别统计 N、H、W 维度上的均值和方差

输出形状仍然是 8 × 16 × 32 × 32，说明 BatchNorm2d 改变的是数值分布，而不是特征图形状。

示例 3：使用 LayerNorm 处理隐藏向量

import torchimport torch.nn as nn # 输入：4个样本，每个样本有6个特征（即一个6维向量）x = torch.randn(4, 6) # LayerNorm：对每个样本内部的6个特征进行标准化（计算该样本的均值和方差）ln = nn.LayerNorm(normalized_shape=6) y = ln(x) # 输出形状与输入相同，但内部特征已被归一化 print("输入形状：", x.shape) # torch.Size([4, 6])print("输出形状：", y.shape) # torch.Size([4, 6])

这个例子中：

• 输入形状为 4 × 6

• LayerNorm 不依赖 batch 中其他样本

• 它对每个样本自己的 6 个特征进行归一化

从通俗角度看，LayerNorm 是逐个样本整理内部特征分布。

示例 4：在 CNN 中使用 BatchNorm

import torchimport torch.nn as nn # 构建基础卷积块：卷积 → 批归一化 → ReLUblock = nn.Sequential( nn.Conv2d(3, 16, kernel_size=3, padding=1), # 卷积层：3→16通道，保持空间尺寸 nn.BatchNorm2d(16), # 批归一化：稳定训练，加速收敛 nn.ReLU() # ReLU激活) # 输入：8张RGB图像，32×32像素x = torch.randn(8, 3, 32, 32) y = block(x) # 前向传播 print("输入形状：", x.shape) # torch.Size([8, 3, 32, 32])print("输出形状：", y.shape) # torch.Size([8, 16, 32, 32])

这个结构中：

• Conv2d 负责提取局部特征

• BatchNorm2d 负责稳定通道特征分布

• ReLU 负责引入非线性

输出形状为 8 × 16 × 32 × 32。

示例 5：在 Transformer 风格模块中使用 LayerNorm

import torchimport torch.nn as nn # 输入张量：batch_size=2，序列长度=5，每个token的隐藏维度=8x = torch.randn(2, 5, 8) # LayerNorm：对每个样本的每个token内部的隐藏维度（最后一维）进行标准化ln = nn.LayerNorm(8) y = ln(x) # 输出形状不变 print("输入形状：", x.shape) # torch.Size([2, 5, 8])print("输出形状：", y.shape) # torch.Size([2, 5, 8])

这个例子中：

• 输入形状为 batch × seq_len × hidden_size

• LayerNorm 对每个 token 的 8 维隐藏向量做归一化

• 输出形状不变

这说明 LayerNorm 常用于稳定每个 token 的内部表示。

📘 小结

归一化层是神经网络中用于稳定中间特征分布的层结构。它通常先计算均值和方差，再进行标准化，并通过可学习参数 γ 和 β 恢复模型表达能力。BatchNorm 常用于 CNN，LayerNorm 常用于 Transformer，InstanceNorm 和 GroupNorm 适合特定视觉任务和小 batch 场景。对初学者而言，可以把归一化层理解为：模型内部的“数值整理层”，它让特征分布更稳定，使深层网络更容易训练。

“点赞有美意，赞赏是鼓励”

查看全文

http://www.jsqmd.com/news/855088/