当前位置：首页 > news >正文

自注意力机制

news 2026/4/6 21:45:28

自注意力机制 (Self-Attention Mechanism) 是现代人工智能（特别是大语言模型 LLM）的“心脏”。它是 Google 在 2017 年提出的 Transformer 架构中的核心组件。

如果没有自注意力机制，就没有今天的 ChatGPT、Claude 或任何大模型。

简单来说，自注意力机制是一种让模型在处理序列数据（如句子）时，能够同时关注序列中所有其他部分，并计算它们之间相关性的方法。

传统方法 (RNN/LSTM) 的局限：
- 像读报纸一样，从左到右逐字阅读。
- 读到后面时，前面的内容容易遗忘（长距离依赖问题）。
- 无法并行计算，训练速度慢。
自注意力机制的优势：
- 一眼看全句：处理任何一个词时，都能直接“看到”句子中的所有其他词。
- 动态权重：自动判断哪些词对当前词最重要，并赋予不同的“注意力权重”。
- 并行计算：所有词可以同时处理，极大提升了训练效率。

假设输入句子：

“那只猫因为太饿了，所以它一直在叫。”

当模型处理到 “它” 这个词时，自注意力机制会做什么？

结果：模型完美理解了“它”指代的是“猫”，而不是别的什么。这就是消歧义能力。

自注意力机制的数学实现非常优雅，核心是三个向量：Query (Q), Key (K), Value (V)。

你可以把它想象成图书馆检索系统：

生成 Q, K, V：
对于句子中的每个词（比如“猫”），通过三个不同的矩阵变换，生成属于它的 $Q_{cat}, K_{cat}, V_{cat}$ 向量。
计算注意力分数 (Attention Scores)：
用当前词的 $Q$ 去和句子中所有词的 $K$ 做点积（Dot Product）。
$$ \text{Score} = Q \cdot K^T $$
- 如果 $Q$ 和 $K$ 方向一致（相似度高），分数就高，说明这两个词关系紧密。
缩放与归一化 (Softmax)：
- 缩放：除以 $\sqrt{d_k}$，防止数值过大导致梯度消失。
- Softmax：将分数转换成概率分布（0 到 1 之间，总和为 1）。
- 结果：得到了每个词对当前词的注意力权重。
加权求和 (Weighted Sum)：
用上面的权重，对所有词的 $V$（内容）进行加权求和。
$$ \text{Output} = \sum (\text{Weight} \times V) $$
- 权重高的词（如“猫”），其内容 $V$ 被大量保留；权重低的词，其内容被忽略。
输出：
得到的结果就是融合了上下文信息的新向量，传递给下一层网络。

公式总结：
$$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$

注意力机制 (Attention) 最早用于机器翻译（Encoder-Decoder 架构），是源语言句子关注目标语言句子。
自注意力 (Self-Attention) 是指：同一个句子内部的词互相关注。
- “猫”关注“饿”。
- “饿”关注“猫”。
- 它们都在同一个序列里，自己对自己做注意力计算，所以叫“自”注意力。

这是 Transformer 的另一个神器。

问题：单个注意力机制可能只学到一种关系（比如语法关系）。但一个词可能同时涉及语法、语义、指代等多种关系。
解决：把 $Q, K, V$ 切分成多份（比如 8 头或 16 头），让模型在不同的子空间里并行学习不同的注意力模式。
- 头 1：可能关注主谓宾语法结构。
- 头 2：可能关注指代关系（它->猫）。
- 头 3：可能关注情感色彩（饿->叫）。
最后：把所有头的结果拼接起来，再经过一次线性变换。这让模型能从多个角度全面理解句子。