当前位置：首页 > news >正文

2.1 自注意力、位置编码与前馈网络：Transformer 三件套一次搞懂

news 2026/3/27 2:21:18

2.1 自注意力、位置编码与前馈网络：Transformer 三件套一次搞懂

基于《大规模语言模型：从理论到实践（第2版）》第2章大语言模型基础

爆款小标题：面试必考的 Transformer 核心，原书公式与直觉对照版

为什么这一节重要

Transformer 是现代大语言模型的骨架，而自注意力（Self-Attention）、**位置编码（Positional Encoding）和前馈网络（FFN）**是构成 Transformer 块的三大核心组件。无论是读源码、做模型改动还是面试，都绕不开对这三者的准确理解：注意力如何实现「任意位置看任意位置」、位置编码为何必要、FFN 在块里扮演什么角色。本节结合原书第 2 章，用「直觉 + 公式」把三件套讲清，并点到长上下文与 RoPE 等工程上常遇的延伸，为后续 GPT/LLaMA 架构与长上下文扩展打基础。

学习目标

学完本节，你将能够：

讲清 Self-Attention：用自己的话说明 Query/Key/Value 从哪来、注意力权重如何计算、输出如何得到，以及「关注任意位置」的直觉。
理解位置编码：说明为什么需要位置编码、绝对与相对位置编码（含 RoPE）的大致思路，以及长序列扩展时的常见做法（如 NTK、YaRN）。
掌握 FFN 的角色：说明前馈网络在 Transformer 块中的位置、典型结构（如中间维度 4x）以及与注意力的分工（注意力做交互、FFN 做逐点变换）。