当前位置：首页 > news >正文

大语言模型：从你的文字到AI回复，背后究竟发生了什么？深度解析LLM文字接龙机制！

news 2026/6/23 21:35:52

大语言模型（英语：Large Language Model，简称LLM）

大多数人都有和 DeepSeek、Kimi 这类大语言模型（LLM）对话，却很少有人真正想明白：当你敲下一行文字，点击发送，到模型一字一句吐出回复，这中间到底发生了什么？

其实，抛开那些动辄千亿参数的复杂模型不谈，LLM 的本质非常简单：它就是一个永不停歇的 “文字接龙” 大师，通过一次又一次预测 “下一个字是什么”，最终拼出一整段完整的回复。

整个过程可以拆解为一个清晰的循环流水线，我们用一张图先看懂全貌：

LLM 预测循环流程示意图

接下来，我们一步步把这个过程拆解开，讲透每一个环节。

第一步：把你的文字，拆成模型能懂的 “积木”——Tokenization

你输入的是一串人类能看懂的字符串，比如："你好,大模型"，但计算机和大模型根本看不懂文字，它们只认识数字。

所以第一步，模型要先把你的文本，拆成一个个最小的、标准化的 “文本积木”，我们称之为Token（词元）。这个过程就叫做分词（Tokenization）。

❝
注：这里我使用到了openai的分词网站：https://platform.openai.com/tokenizer

你可能会问，为什么不直接按字或者按词拆分？

这是因为现代 LLM 普遍采用了子词（Subword）分词算法（比如 BPE），它的好处是：

兼顾效率与覆盖：用有限的几万种 Token，就能组合出几乎所有的词语，不管是常用词还是生僻词、甚至是你造的新词。
解决未登录词问题：比如你输入一个模型没见过的专业术语，它也能把它拆成几个子词来理解，而不是直接报错。

举个例子：

英文单词unhappiness，可能会被拆成un、h、appiness三个 Token；
中文句子你好，大模型，可能会被拆成你好、，、大、模型四个 Token。

简单来说，Token 就是模型处理文本的最小单位，1 个 Token 大概对应 0.75 个英文单词，或者 1.5 至 2 个左右的中文字符。

第二步：把积木变成数字 ——Token 到 Token ID 的映射

拆完 Token 之后，模型还是不能直接处理这些字符串，它需要把每一个 Token，转换成一个唯一的整数，这个整数就是Token ID。

这个过程其实就是查表：模型自带了一个预训练好的词汇表（Vocabulary），里面记录了每一个 Token 对应的唯一 ID。比如：

你好→ 177519
，→ 11
大→ 1640
模型→ 184232

经过这一步，你输入的整段文字，就从一串字符串，变成了一串纯数字的数组：

[177519, 11, 1640, 184232]。

到这里，文本的预处理就完成了，这串数字数组，就是大模型真正的输入。

第三步：大模型的 “思考”—— 编码与上下文理解

现在，这串 Token ID 数组被送入了大模型的核心，开始了模型的Transformer “思考”过程。

首先，这些 ID 会被转换成向量：

1. 词嵌入：本质是查表操作

词嵌入的底层实现非常直观，就是一个超大的查找表（Lookup Table）：

模型会维护一个形状为[词表大小 |V|, 隐藏维度 d]的权重矩阵，每一行就对应一个Token的语义向量——比如“国王”和“女王”的行向量会非常接近，因为它们的语义相似。
当你拿到Token ID之后，直接把这个ID作为索引，从矩阵里取出对应的那一行，就得到了这个Token的嵌入向量，整个过程就是一次简单的数组索引。
绝大多数主流大模型（比如GPT、LLaMA系列）都会做权重共享：这个嵌入矩阵，和最后预测下一个Token的输出层权重是同一个，这样可以减少近一半的参数，同时提升模型的泛化能力。
词嵌入底层实现示意图
2. 位置编码：给向量注入顺序信息
因为Transformer是并行处理所有Token的，天生不认识序列顺序，所以需要给每个Token注入位置信息，现在主流的实现有两种：
传统正弦位置编码（原始Transformer）：用三角函数预计算出位置向量，直接加到词嵌入上，公式是：
这种方式不需要训练，但是处理超长序列的时候泛化能力很差。
旋转位置编码（RoPE，当前事实标准）：现在LLaMA、GPT-NeoX等主流模型都用这个，它不是直接加向量，而是通过旋转词嵌入的向量，让两个Token的点积自动带上它们的相对位置信息。这种方式天生支持长度外推，哪怕训练的时候只见过4k的序列，推理的时候也能处理128k甚至百万级的长序列。
3. 自注意力：理解上下文依赖的核心
这是模型理解词与词之间关系的核心，底层的计算流程是：

生成Q、K、V向量：每个Token的向量，通过三个独立的可训练权重矩阵，分别投影出三个向量：

Q（查询）：当前Token想要“查找”什么信息
K（键）：当前Token能“提供”什么信息
V（值）：当前Token的实际内容

计算注意力分数：用当前的Q，和所有Token的K做点积，点积的结果就代表两个Token的相似度，然后除以√d_k来缩放，避免点积太大导致Softmax饱和、梯度消失。
归一化与加权求和：把分数过Softmax，转换成0-1之间的注意力权重，然后用这些权重对所有的V做加权求和，就得到了当前Token的上下文向量——比如当处理“它”的时候，就会自动给前面的“球”或者“机器人”分配很高的权重，实现指代消解。
多头注意力：上面的过程会并行做很多次（比如8头、32头），每个头关注不同的依赖关系，比如有的头关注语法结构，有的头关注语义关联，最后把所有头的结果拼起来，再做一次线性变换，就得到了自注意力层的输出。另外，因为是Decoder-only的生成式模型，这里还会加一个因果掩码：把未来位置的注意力分数设为负无穷，这样Softmax之后权重就是0，保证模型在处理的时候，看不到未来的Token，不会泄露信息。

4. Prefill与KV Cache：推理加速的核心

这一步是把所有输入的Prompt一次性处理完，同时为后面的生成阶段做准备：

Prefill阶段：模型会一次性把所有输入的Token都过一遍Transformer层，为每个Token都计算出对应的K和V向量，然后把这些K和V都缓存起来，这就是KV Cache。这个阶段的时间复杂度是O(n²)，所以如果你的Prompt很长，这一步会比较慢，也就是你感觉“第一个字出来很慢”的原因。
KV Cache的作用：后面生成新Token的时候，就不需要重新计算之前所有Token的K和V了，只需要计算新Token的K和V，拼到缓存里就行。这样生成阶段的时间复杂度就从O(n²)降到了O(n)，每生成一个新Token都非常快。
KV Cache工作流程示意图

经过这一步，模型已经完全理解了你输入的内容，接下来就要开始生成回复了。