当前位置：首页 > news >正文

从输入到输出：大语言模型一次完整推理简单解析 - 实践

news 2026/3/26 19:18:28

前言

大语言模型（LLM）的推理过程，本质上是一个在离散 token 空间中进行条件概率建模与自回归采样的计算流程。从系统角度看，这一过程可以被严格拆解为：文本离散化、全量上下文建模（Prefill）、概率分布构造、候选空间裁剪、随机采样、状态递推，直至满足终止条件。以下按照真实执行顺序，对每一阶段进行完整解析。

一、文本输入与 Tokenisation：离散化的起点

模型无法直接处理字符串。所有文本输入起初通过 tokenizer 映射为 token ID 序列。Tokenisation 是一个确定性函数，其输出完全由 tokenizer 和词表定义，与模型参数无关。tokenization分为字词级、子词级、字节级词元化，各有优劣。

现代 LLM 普遍采用子词级（subword）tokenisation（如 BPE、Unigram LM）。其核心目标不是“语言学合理”，而是相对于其他词元化的规则，子词级有以下优势：

控制词表规模；
覆盖长尾词与未登录词；
压缩 token 数以降低 Attention 计算成本。

Tokenisation 的结果直接决定：

输入 token 数（影响 Attention 的 $O(n^2)$ 复杂度）；
可用上下文长度（context window 是 token 数上限，而非字符数）；
推理成本与延迟的下限。

模型后续所有计算均发生在 token 空间中，任何字符串级执行在此之后都不再存在。

二、Embedding 与 Transformer：进入连续空间

每个 token ID 通过 embedding lookup 映射为一个定长向量，其维度为模型的 hidden size，与词表大小无关。Embedding 层的本质是一个形状为 ( $\times d$ ) 的查表矩阵，其中单个 token 对应的向量长度为 (d)。

Embedding 向量叠加位置编码后，输入 Transformer Decoder 堆栈。每一层 Transformer 由：

多头自注意力（Self-Attention）
前馈网络（FFN）
残差连接与 LayerNorm
组成。

长上下文推理的根本瓶颈。就是Self-Attention 的计算复杂度随 token 数平方增长，这

三、Prefill：全量上下文的 Attention 展开

Prefill 是指模型对全部输入 token进行一次前向传播的阶段，其核心目的不是生成输出，而是构建 Attention 所需的 Key / Value Cache。

在 Prefill 阶段：

每一层 Transformer 都会为每个 token 计算对应的 Key 和 Value；
Attention 在完整序列上展开，复杂度为 $O(n^2)$ ；
Prefill 只执行一次，但计算量巨大。

工程上，长 prompt 导致的首 token 延迟，几乎完全由 Prefill 决定。RAG、长对话、架构 prompt 叠加，本质上都是在放大这一阶段的成本。

四、KV Cache：自回归生成的状态基础

Prefill 结束后，模型已为当前上下文中所有 token 构建好 KV Cache。KV Cache 存储的是各层 Attention 的 Key / Value 张量，其维度属于 hidden space，而非词表空间。

KV Cache 的存在，使得后续生成阶段无需重新计算历史 token 的 Attention，从而将自回归生成的复杂度从 $O(n^2)$ 降为 $O (n)$ 。代价是显存占用随上下文长度线性增长。

五、Logits 与 Softmax：从连续表示到词表空间

在 Prefill 的最后一个 token，或 Decode 阶段的每一步，模型都会输出一个 logits 向量，其维度等于词表大小 ( $∣ V ∣$ 模型唯一一次显式进入“词表空间”。就是)。这
Logits 是未归一化的对数得分，不具备概率意义。通过 softmax，将 logits 映射为一个在词表上的概率分布：
$p_i = \frac{e^{z_i / T}}{\sum_j e^{z_j / T}}$
Temperature对 logits 的线性缩放，用于调节概率分布的陡峭程度。Temperature 不改变 token 排序，仅影响概率差距与分布熵，因此只在 sampling 场景中生效。就是本质上
设模型在某一步输出的 logits 为：
$\mathbf{z} = (z_1, z_2, \dots, z_{|V|}), \quad z_i \in \mathbb{R}$
带 Temperature 的 softmax 定义为：
$p_i(T) = \frac{\exp(z_i / T)}{\sum_{j=1}^{|V|} \exp(z_j / T)}$
其中( $T > 0$ ) 为 temperature， $p_i(T)$ 是 token ( $i$ ) 的生成概率
Temperature 数学性质
- 排序不变性：对任意 $T > 0$ ，若 $z_a > z_b$ ，则 $p_a(T) > p_b(T)$ ，Temperature 不改变 token 排序，只改变概率差距。
- 对数概率差缩放： $log⁡papb=za−zbT\log \frac{p_a}{p_b} = \frac{z_a - z_b}{T}$ 在缩放 logits 差值，从而控制概率分布的熵。就是，Temperature 实际
- 极限行为：
  - $\to 0$ ：分布收敛为 one-hot（近似 argmax）
  - (T \to \infty)：分布收敛为均匀分布

六、候选空间裁剪：Top-k 与 Top-p

直接在完整词表上采样在工程上不可控，因此需要对概率分布进行裁剪。
设经过 softmax（已包含 temperature）后得到的概率分布为：
$(p_1, p_2, \dots, p_{|V|}), \quad \sum_i p_i = 1$ 将所有 token 按概率从大到小排序：
$p_{(1)} \ge p_{(2)} \ge \dots \ge p_{(|V|)}$