当前位置：首页 > news >正文

深度学习：Transformer 算法原理

news 2026/5/13 0:57:15

深度解构 Transformer 算法原理：

作为一名深度学习从业者，如果我们要在当今的 AI 时代寻找一个真正的“万物基石”，那无疑是 Transformer。从自然语言处理（NLP）跨越到计算机视觉（CV），再到多模态大模型，其底层架构的统一性令人叹为观止。本文将基于详实的推导与原汁原味的原理图，为你深度解构 Transformer 的每一个核心齿轮。

1. 算法背景与跨时代影响

Transformer 最早由 Google 的研究团队提出，论文《Attention Is All You Need》正式发表于 2017 年。

核心痛点解决：在它诞生之前，序列建模高度依赖 RNN（循环神经网络）或 CNN（卷积神经网络）。Transformer 的出现，主要致力于在序列建模中提升并行计算能力与长距离依赖的建模能力，彻底摆脱了对循环与卷积的依赖。
深远影响：
- NLP 的绝对基石：催生了 BERT 以及后续百花齐放的大语言模型（LLM）系列。如今我们熟知的 ChatGPT、DeepSeek、Qwen、Gemini 等大模型，全部基于其演进而来。
- 跨模态扩展：成功破圈至视觉领域（如 ViT）以及各类多模态大模型。

2. Transformer 整体架构概览

Transformer 在宏观上采用了经典的 编码器-解码器（Encoder-Decoder） 结构。

编码器（Encoder）：由 $N$ 个相同的层堆叠而成。其内部核心组件包含多头自注意力机制（Multi-Head Attention）、残差连接与层归一化（Add & Norm）、以及前馈神经网络（Feed Forward）。
解码器（Decoder）：同样由 $N$ 个层堆叠而成。相比编码器，它多了一个带有因果掩码的多头自注意力机制（Masked Multi-Head Attention），并且引入了多头交叉注意力机制（Multi-Head Attention）来接收编码器的输出信息。
输入/输出层：包含词嵌入（Input/Output Embedding）和位置编码（Positional Encoding）。最终输出经过全连接层（Linear）和 Softmax 层，输出对应字符的概率分布。

3. 数据的输入与预处理：从文本到向量

计算机无法直接理解“我是一条狗”这样的自然语言文字。在送入网络前，需要经历严格的数字化重构。

3.1 Token 切分与独热编码 (One-Hot)

首先，我们需要收集大量文本样本，统计 Token 的出现频次并排序，构建词表。
随后，将字符串切分为 Token（如“我”、“是”、“一条”、“狗”），并将其转换为独热向量（One-hot Vector）。

⚠️ 独热向量的致命缺点：维度极其巨大且高度稀疏。假设词表大小 $V = 50k$，那么每个词都是一个 50k 维的向量，且其中只有 1 个元素为非零值（1），其余全为 0。这种表示方法不仅计算效率低下，且完全无法体现词与词之间的语义相似度。

3.2 词嵌入映射 (Word Embedding)

为了解决独热向量的缺陷，我们引入了词嵌入矩阵（Word Embedding Matrix）。

原理：词嵌入矩阵是一个经训练得到的权重表，能够将高维稀疏的词 ID 映射为低维稠密的连续向量。
维度说明：假设词表大小为 $V$，设定的嵌入维度为 $d$（在标准 Transformer 中通常设定 $d=512$）。通过矩阵乘法，独热向量被降维投影。
语义聚类：在降维后的连续向量空间中，语义相近的词（如“篮球”、“足球”、“排球”）会在空间坐标上聚类靠近，差异大的词则会分散，这极大地便利了后续的相似度计算。

3.3 位置编码 (Positional Encoding)

由于 Transformer 彻底抛弃了 RNN 的顺序处理机制，导致模型本身丢失了序列中 Token 的相对/绝对位置信息。因此，必须额外引入位置编码来提供输入向量的时序信息。
Transformer 巧妙地使用了不同频率的正弦和余弦函数来计算位置编码：
$$PE(pos, 2i) = \sin\left(\frac{pos}{10000^{2i/d}}\right)$$
$$PE(pos, 2i+1) = \cos\left(\frac{pos}{10000^{2i/d}}\right)$$

参数解析：$pos$ 指当前 Token 在序列中的绝对物理位置（如 0, 1, 2...）。$d$ 是词嵌入矩阵的特征维度（如 512）。$i$ 则是维度索引（$i = 0, 1, ..., \frac{d}{2}-1$）。
融合方式：最终送入模型的数据，是词向量与位置编码的直接逐元素相加 (+)。

4. 核心灵魂：多头注意力机制深度剖析

注意力机制是 Transformer 能够捕捉全局上下文信息的绝对核心。

4.1 自注意力机制 (Self-Attention)

以序列长度为 $L$，特征维度为 $d$ 的输入矩阵 $X$ 为例：

生成 Q, K, V：输入 $X$ 分别与三个可学习的投影权重矩阵 $W^q, W^k, W^v$ 相乘，得到查询矩阵 $Q$、键矩阵 $K$ 和值矩阵 $V$。以 $Q$ 为例，$Q = XW^q$，其中 $W^q$ 的维度为 $d \times d_k$。
计算注意力得分 (Scores)：使用 $Q$ 矩阵点乘 $K$ 的转置矩阵 $K^T$。这相当于计算序列中每个 Token 相互之间的相关性/相似度。
缩放与 Softmax：
$$Scores = \frac{QK^T}{\sqrt{d_k}}$$

💡 为什么要除以缩放因子 $\sqrt{d_k}$？
这是点积注意力设计的精妙之处。如果 $d_k$ 较大，点积后的数值范围会急剧放大，导致经过 Softmax 操作后，梯度分布极度饱和（梯度消失）。除以特征维度的平方根可以平滑数值，从而提升训练稳定性与收敛速度。
加权汇聚：将 Softmax 归一化后的注意力权重矩阵 $A$（维度 $L \times L$）与值矩阵 $V$（维度 $L \times d_k$）相乘，得到最终的上下文表示。

4.2 多头注意力机制 (Multi-Head Attention)

为了让模型从不同的特征维度提取更加丰富的信息，Transformer 采用了“多头”并行处理机制。

计算定义：系统同时并行执行 $h$ 组独立的注意力机制计算：
$$head_i = Attention(XW_i^q, XW_i^k, XW_i^v)$$
特征融合：将所有 Head 的输出结果在特征维度上进行拼接（Concat），最后再乘以一个统一的线性投影矩阵 $W^O$：
$$MHA(X) = Concat(head_1, ..., head_h)W^O$$
直觉本质：$W^O$ 的作用不仅是把多头的拼接结果进行融合，更重要的是把维度“拉回”到原始维度 $d$，使得后续网络能够继续处理，并且满足与输入张量进行残差连接的要求。不同的 Head 在不同的子空间与相对位置上进行对齐分工：有人专门看短距离依赖，有人负责长距离；有人关注实体名词，有人则捕捉标点和句法关系。此外，注意力机制天然支持不同长度的序列输入，这非常契合机器翻译等时序任务。

5. 掩码机制 (Mask Mechanism)：规范信息流向

在注意力计算公式 $Scores = \frac{QK^T}{\sqrt{d_k}} + Mask$ 中，Mask 的作用至关重要。

5.1 填充掩码 (Padding Mask)

为什么需要？ 在进行深度学习批处理（Batch Processing）时，为了让 GPU 能够高效并行计算，Transformer 要求同一 Batch 内的所有句子长度必须对齐。较短的句子会被填充（Pad）到最大长度。
如何操作？ 那些因为填充而无实际语义的 Token 不应该参与注意力的分配。因此，我们在这些位置上的 $Scores$ 加上一个极小的负数（如 $-\infty$），使其经过 Softmax 后概率无限趋近于 0，实现屏蔽。

5.2 因果掩码 (Causal Mask / Masked Attention)

这主要应用于 解码器（Decoder） 内部。
在模型训练的阶段（采用 Teacher Forcing），输入是完整的正确答案序列。为了防止模型在预测当前词时“作弊”看到未来的词，我们需要施加因果掩码。
它通过一个上三角掩码矩阵（对角线以上设为 $-\infty$），强制使得时间步 $t$ 的输出只能依赖于 $t$ 及其之前的 Token。而在推理（Inference）阶段，模型是自回归逐个生成 Token 的，未来的 Token 物理上还不存在，因此掩码也是自然生效的。

6. 连通桥梁：交叉注意力机制 (Cross-Attention)

解码器除了内部的自注意力，还需要接收来自编码器的语义特征，这就依赖于多头交叉注意力机制。

信息来源分离：在交叉注意力中，查询向量矩阵 $Q$ 来自于解码器自身的上一层输出，而键矩阵 $K$ 和值矩阵 $V$ 则固定来自于编码器的最终输出信息。
物理意义：这一步的本质是让解码器在生成目标语言（如英语 "I am a dog"）的过程中，不断去“回顾”和查询源语言（如中文 "我是一条狗"）中对当前生成最相关的词汇特征。

7. 确保稳定性的关键组件：Add & Norm 与 FFN

7.1 层归一化 (Layer Normalization)

Transformer 的标准层块中大量使用了“残差连接 + 层归一化”。
与 CV 中常用的批归一化（Batch Norm）不同，层归一化的对象是每个样本的每一层特征维度。
$$LayerNorm(x) = \frac{x-\mu}{\sigma}\cdot\gamma + \beta$$
由于序列模型处理的通常是变长序列，Batch Norm 在这种场景下会受到极大限制，而计算单个样本各神经元均值与方差的 LayerNorm 则展现出了极强的适应性和训练稳定性。

7.2 前馈神经网络 (Feed Forward Network)

这是一个无循环的多层单向流动神经网络。在 Transformer 中，它紧跟在注意力层之后，负责对每个位置的向量进行非线性变换。其本质是两层全连接网络。

8. 宏观拓扑：多层深层堆叠

最后，我们将上述所有组件封装组合。
在实际的模型拓扑中，无论是编码器还是解码器，都会被复制堆叠多次（例如原论文中 $N=6$ 层）。
输入信号自底向上穿过所有编码器层提取高级语义特征后，其输出信号会被广播给每一个解码器层的交叉注意力模块。解码器随之利用这些上下文信息，结合移位后的目标序列，最终输出预测的概率分布。

声明：本博客由gemini基于laobie本地obsidian笔记转写，意在将obsidian内置图片转化为了纯文本或表格描述，便于博客上传

查看全文

http://www.jsqmd.com/news/530054/