当前位置：首页 > news >正文

大模型知识大观：从数学基础到应用落地的完整图谱

news 2026/7/15 13:31:22

大模型知识大观：从数学基础到应用落地的完整图谱

作者：技术博主 |更新时间：2026-05-24 |阅读时长：约 35 分钟
标签：大语言模型LLMTransformer预训练RLHFRAGAgent知识图谱

🧭写给谁看：你听过 ChatGPT、Claude、Gemini，也知道背后是"大模型"，但打开一篇论文就发现：注意力机制、KL 散度、PPO、KV Cache……每个词都认识，连在一起就不知所云。本文试图画出一张完整的地图，把大模型涉及的知识板块梳理清楚，告诉你每块知识是什么、为什么重要、学到哪种程度够用。不求面面俱到，但求结构清晰、层次分明。

一、数学基础：地基决定上限
二、深度学习基础：理解神经网络的通用语言
三、Transformer 架构：大模型的核心引擎
四、预训练与规模扩展：从模型到"大"模型
五、对齐与微调：让模型有用且安全
六、推理加速与部署：从实验室到生产环境
七、应用范式：RAG、Agent 与提示工程
八、学习路线建议

一、数学基础：地基决定上限

很多人问：学大模型必须精通数学吗？答案是看目标。如果只是调用 API 写应用，数学可以缓一缓；但如果想理解模型为什么这样设计、为什么会出错、怎么改进，数学是绕不开的。

1.1 线性代数：大模型的几何语言

大模型处理的一切——文本、图像、音频——最终都被表示为向量和矩阵。理解这一点，很多"神秘"的概念就会变得直观：

词嵌入是把单词映射到高维空间中的一个点，语义相近的词在空间中距离近。“国王"减去"男人"加上"女人”，结果接近"女王"——这是向量运算，不是魔法。
注意力机制的核心计算是矩阵乘法：Attention ( Q , K , V ) = softmax ⁣ ( Q K ⊤ d k ) V \text{Attention}(Q, K, V) = \text{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right)VAttention(Q,K,V)=softmax(dkQK⊤)V。每一个符号都是矩阵，理解矩阵乘法的几何意义（投影、旋转、缩放），就理解了注意力在"做什么"。
**特征值分解（SVD）**是理解 LoRA 微调的数学基础：LoRA 的核心假设是权重更新矩阵是低秩的，用两个小矩阵的乘积来近似，而这正是矩阵秩和 SVD 的概念。

学到哪种程度：能手算矩阵乘法，理解特征值和特征向量的含义，知道什么是范数、内积、余弦相似度，够了。

1.2 概率与统计：不确定性的语言

语言模型本质上是一个概率模型：给定前文，预测下一个词的概率分布。这里面涉及：

最大似然估计（MLE）：预训练的训练目标，找到让观测数据出现概率最大的参数。交叉熵损失就是负对数似然，两者等价。
KL 散度：衡量两个概率分布的"距离"。RLHF 中用 KL 散度约束微调后的模型不要偏离原始模型太远；变分推理（VAE）的 ELBO 也离不开它。
贝叶斯推断：理解"先验"和"后验"的概念，对理解 MAP 估计（等价于 L2 正则化）和各种不确定性量化方法很有帮助。
信息熵：语言建模中的困惑度（Perplexity）本质上是每个词的平均熵，是衡量语言模型质量的基础指标。

学到哪种程度：理解概率分布、期望、条件概率；会用 KL 散度和交叉熵；知道贝叶斯定理怎么用，足矣。

1.3 微积分与最优化：训练的数学引擎

模型训练 = 在参数空间里找到损失函数最小值的过程。这里涉及：

链式法则：反向传播的数学基础，梯度如何从输出层一层一层传回输入层。理解链式法则，反向传播就不再神秘。
自动微分（Autograd）：PyTorch/JAX 背后的机制，不需要手写梯度公式，计算图会自动完成微分。
梯度下降及其变体：SGD、Adam、AdaFactor。Adam 是当前大模型训练的主流优化器，理解它的动量项和自适应学习率，能帮你理解为什么某些超参数设置会导致训练不稳定。
学习率调度：warmup + cosine decay 是大模型训练的标准配置，背后是对损失曲面的经验认识。

学到哪种程度：能手推一层神经网络的梯度；理解 Adam 的更新公式；知道为什么学习率太大会发散、太小会收敛慢。

二、深度学习基础：理解神经网络的通用语言

2.1 从感知机到深度网络

神经网络的基本单元是神经元：对输入做线性变换，然后经过一个非线性激活函数。把很多神经元堆叠起来，就得到了深度网络。

激活函数的选择很有讲究：早期的 Sigmoid 和 Tanh 在深层网络中容易导致梯度消失；ReLU 解决了这个问题但有"死神经元"的风险；现代大模型普遍使用 SiLU（Swish）或 GELU，它们在平滑性和梯度流方面表现更好。

残差连接是深度网络能真正"深"起来的关键：y = F ( x ) + x y = F(x) + xy=F(x)+x，让梯度可以跳过某些层直接回传，解决了网络极深时的训练困难问题。ResNet 证明了它的效果，Transformer 继承并发扬了这一设计。

2.2 序列建模的历史：为什么需要 Transformer

在 Transformer 出现之前，序列建模的主流是 RNN/LSTM/GRU。它们按时间步顺序处理序列，每一步的隐状态承载着历史信息。

RNN 家族有两个根本性缺陷：第一，无法并行化，必须按顺序计算，训练速度慢；第二，长距离依赖问题，序列太长时早期的信息容易被遗忘，即使 LSTM 的门控机制有所缓解，也不彻底。

Transformer 用注意力机制彻底绕开了这两个问题：任意两个位置之间的信息交互只需一步，且所有位置可以并行计算。这是大模型能扩展到数千亿参数的基础——规模需要并行，并行需要 Transformer。

2.3 正则化与泛化

过拟合是所有机器学习模型的敌人，大模型也不例外：

Dropout：训练时随机丢弃神经元，强迫网络不依赖任何单个特征。现代大模型中 Dropout 用得越来越少（数据够多时不需要），但在微调阶段仍有价值。
批归一化（BatchNorm）和层归一化（LayerNorm）：Transformer 使用 LayerNorm 而非 BatchNorm，因为语言模型处理的序列长度不固定，LayerNorm 对批大小更鲁棒。Pre-LayerNorm（在注意力和 FFN 之前做归一化）是现代架构的标准选择，训练更稳定。
权重衰减（L2 正则化）：等价于高斯先验的 MAP 估计，防止权重过大。大模型训练中通常设置较小的权重衰减（如 0.1）。

三、Transformer 架构：大模型的核心引擎

这是最值得深挖的部分。所有现代大语言模型的底层都是 Transformer，理解它的每一个设计决策，是理解大模型的关键。

3.1 注意力机制：全局信息交互

注意力机制的核心思想是：每个位置的输出，是所有位置的信息的加权平均，权重由该位置与其他位置的相关性决定。

具体计算过程：

输入X XX分别经过三个线性变换得到Q QQ（Query）、K KK（Key）、V VV（Value）
计算注意力分数：score = Q K ⊤ / d k \text{score} = QK^\top / \sqrt{d_k}score=QK⊤/dk
经过 Softmax 得到注意力权重（归一化到 0-1 之间，且和为 1）
用注意力权重对V VV做加权平均得到输出

除以d k \sqrt{d_k}dk是为了防止点积值过大导致 Softmax 梯度消失——这个小细节在原论文的 Footnote 里，很多教程直接略过，但它是训练稳定性的关键。

多头注意力将注意力并行做多次，每个"头"学习不同类型的依赖关系：有的头关注句法结构，有的头关注语义相关性，有的头关注共指关系。这是 Transformer 表达能力强大的重要原因。

**因果掩码（Causal Mask）**是自回归语言模型的必要组件：预测第t tt个词时，只能看到1 11到t − 1 t-1t−1个词，不能"看未来"。通过在注意力分数矩阵的上三角位置填充负无穷（Softmax 后变为 0），实现这一约束。

Flash Attention是 2022 年的重要工程优化：重新设计注意力的 CUDA 实现，利用 GPU 内存层次结构（SRAM 比 HBM 快 10 倍），把注意力计算的显存从O ( n 2 ) O(n^2)O(n2)降到O ( n ) O(n)O(n)，同时速度提升 2-4 倍。这使得处理更长序列成为可能。

3.2 位置编码：让模型知道"顺序"

注意力机制本身是排列无关的（permutation invariant）：把输入打乱顺序，输出（不含位置信息时）是一样的。但语言是有序的，"猫追狗"和"狗追猫"意思完全不同。位置编码就是告诉模型每个词在序列中的位置。

正弦绝对位置编码（原始 Transformer）：用不同频率的正弦/余弦函数编码位置，数学优雅，支持任意长度，但没有被学习，可能不是最优的。
可学习位置编码（GPT-2/BERT）：把位置编码当参数训练，效果好但不支持超过训练长度的序列。
相对位置编码（RoPE）：现代大模型（LLaMA、Qwen、ChatGLM）的主流选择。把位置信息编码在注意力分数的计算过程中，而非加到输入上。数学上通过旋转矩阵实现，天然捕获相对位置关系，且对长度外推更友好。
ALiBi：更激进的方案，直接给注意力分数加一个随距离增长的负偏置（近的词注意力高，远的词注意力低），无需学习，长度外推性能好。

长度外推是一个活跃的研究方向：模型训练时最大长度是 4K，但推理时要处理 128K 的文档怎么办？YaRN、LongRoPE 等方法通过对位置编码的插值/外推来扩展上下文长度。

3.3 前馈网络与 MoE

Transformer 的每个层除了注意力，还有一个前馈网络（FFN）：两层线性变换中间夹一个激活函数。FFN 的宽度通常是模型维度的 4 倍，占了 Transformer 大部分的参数量。一种有趣的解读是：注意力层负责"信息路由"（哪些位置的信息要交互），FFN 层负责"知识存储"（记忆具体的事实和模式）。

**混合专家模型（MoE）**是扩展模型能力的重要技术：把 FFN 替换成多个"专家"（多个 FFN），每次只激活其中少数几个（路由机制决定）。这样参数量大幅增加（更强的能力），但计算量不成比例地增加（仍然高效）。Mixtral 8×7B 有 467 亿参数，但每次前向传播只激活约 130 亿，效果接近 700 亿规模的稠密模型。

状态空间模型（SSM）/ Mamba是近年出现的 Transformer 竞争者：用线性递推代替注意力，训练时可以并行（卷积视角），推理时可以用递推式（类 RNN 视角），KV Cache 大小恒定不随序列增长。但目前在大规模应用上还未超越 Transformer。

四、预训练与规模扩展：从模型到"大"模型

4.1 预训练目标：模型学什么

大语言模型的主流预训练目标是自回归语言建模（Causal Language Modeling，CLM）：给定前t − 1 t-1t−1个词，预测第t tt个词。这个目标极其简单，但蕴藏的信息量极为丰富——要准确预测下一个词，模型必须理解语法、语义、常识、甚至推理能力。

对比学习（BERT 路线的 MLM，掩码语言模型）在双向理解任务上有优势，但生成能力弱。当前大模型普遍走 GPT 路线（Decoder-only，CLM），理由是生成能力是 AGI 的核心，且 Decoder-only 架构在大规模下表现更好（Scaling Law 在 Decoder-only 上更优美）。

4.2 数据工程：垃圾进，垃圾出

模型能力上限由数据决定。预训练数据的质量和规模是核心竞争力：

规模：LLaMA-3 训练了 15 万亿 token，GPT-4 的训练数据量更大。万亿级 token 的处理需要大规模分布式系统。
清洗：原始网络爬取数据充斥着噪声、重复、低质量内容、有害内容。去重（MinHash/SimHash）、质量过滤（困惑度过滤、分类器过滤）是标准流程。
配比：不同领域数据（代码、数学、英文、中文、科学文献）的比例影响模型的能力分布。配比是训练秘方的核心部分。
合成数据：当高质量真实数据不够时，用更强的模型生成合成数据来训练较弱的模型（蒸馏/自指导）。这是 Phi 系列（微软）证明有效的方向。

分词器是数据管道的入口：BPE（GPT 系列）和 SentencePiece（T5、LLaMA）是主流方案，把原始文本切分成 sub-word 单元，词汇表通常 3-10 万。分词器的质量直接影响模型对不同语言的处理效率——同样的中文文本，不同分词器切出的 token 数量可以差 2-3 倍，直接影响训练和推理成本。

4.3 规模扩展定律（Scaling Laws）

2020 年 OpenAI 发表的 Scaling Laws 论文发现：语言模型的性能（测试集损失）与**参数量（N）、数据量（D）、计算量（C）**之间存在幂律关系，是可预测的。

2022 年 DeepMind 的 Chinchilla 论文修正了此前"越大越好"的认知，给出了给定计算预算下的最优配比：参数量和训练数据量应该等比例增长，每个参数大约需要 20 个 token 的训练数据（Chinchilla 最优）。

这个结论改变了行业实践：与其训练一个超大模型但数据不足，不如训练一个适中规模但数据充足的模型，后者性能更好，推理成本更低。LLaMA 系列正是践行这一理念的代表。

4.4 分布式训练：让千卡 GPU 协同工作

训练万亿参数的模型，单块 GPU 连参数都放不下，必须借助分布式训练：

数据并行：每块 GPU 有完整的模型副本，处理不同的数据批次，梯度同步。DDP（PyTorch 原生）是最常用的方案。
模型并行：模型太大放不进单卡，需要切分。张量并行（层内切分，Megatron-LM）、流水线并行（层间切分）、序列并行（序列长度维度切分）各有适用场景。
ZeRO（Zero Redundancy Optimizer）：微软 DeepSpeed 提出，把优化器状态、梯度、参数分摊到不同 GPU，大幅减少每块 GPU 的显存占用。
混合精度训练：用 BF16 或 FP16 做前向/反向传播，用 FP32 维护参数副本和优化器状态，平衡计算速度和数值稳定性。

五、对齐与微调：让模型有用且安全

预训练完的模型是一个强大的"文本预测机器"，但它不懂如何遵循指令、不懂安全边界、也不懂人类偏好。对齐（Alignment）的目标是让模型的行为符合人类的意图和价值观。

5.1 高效微调：不动大部分参数

全量微调（Full Fine-tuning）更新所有参数，效果好但代价高。参数高效微调（PEFT）应运而生：

LoRA（Low-Rank Adaptation）：假设权重更新矩阵Δ W \Delta WΔW是低秩的，用Δ W = B A \Delta W = BAΔW=BA（B ∈ R d × r B \in \mathbb{R}^{d \times r}B∈Rd×r，A ∈ R r × d A \in \mathbb{R}^{r \times d}A∈Rr×d，r ≪ d r \ll dr≪d）来近似。只训练 A 和 B，参数量不到全模型的 1%，但效果接近全量微调。这是当前最主流的微调方法，CivitAI 上数以万计的 LoRA 都基于此。
QLoRA：在 LoRA 的基础上，把基础模型量化到 4-bit，大幅减少显存占用，使得在消费级 GPU 上微调 70B 模型成为可能。
Prefix Tuning / Prompt Tuning：在输入前加可训练的"软提示"，只训练这些前缀向量，模型本身完全冻结。适合多任务快速切换。

**指令微调（Instruction Tuning）**是让预训练模型学会"遵循指令"的关键步骤：用大量的（指令，回答）对进行有监督微调，让模型从"续写文本"变成"按要求完成任务"。这是 InstructGPT、ChatGPT 的核心秘诀之一。

5.2 RLHF：从人类反馈中学习偏好

指令微调让模型能遵循指令，但"遵循指令"和"给出好答案"之间还有差距。RLHF（Reinforcement Learning from Human Feedback）的目标是让模型的输出符合人类的主观偏好：

收集偏好数据：给出同一个问题的多个回答，让人类标注哪个更好。
训练奖励模型（RM）：用这些偏好数据训练一个分类器，能打分"这个回答有多好"。
PPO 强化学习：用奖励模型的分数作为奖励信号，用 PPO 算法更新语言模型，让模型生成能获得高分的回答。同时加入 KL 散度约束，防止模型为了"骗"奖励模型而产生极端输出。

RLHF 的流程复杂、超参数多、训练不稳定。DPO（Direct Preference Optimization）是 2023 年提出的简化替代方案：数学上证明 RLHF 的最优策略有闭合形式，可以直接用偏好数据进行监督学习，不需要单独训练奖励模型和跑强化学习。效果相当，工程复杂度大幅降低，正在逐渐成为主流。

**Constitutional AI（CAI）**是 Anthropic 提出的方法：给模型一套"宪法"（原则集合），让模型自我批判和修正自己的输出，减少对大量人工标注的依赖。Claude 模型背后正是这一方法。

5.3 评估：怎么知道模型好不好

评估大模型是一个开放性难题：

自动基准测评：MMLU（多学科知识）、HumanEval（代码）、GSM8K（数学）、HELM 等，覆盖知识、推理、代码等多个维度。局限性：容易被"刷榜"（训练数据污染），且不一定反映真实使用体验。
人类评测：Chatbot Arena（LMSYS 的 ELO 排行榜）让真实用户对比两个模型的回答，投票选更好的，用 ELO 系统排名。这是目前最接近真实用户体验的评测方式。
幻觉检测：模型会"一本正经地胡说八道"，检测事实性错误是关键挑战。TruthfulQA、FActScore 等基准专门评测幻觉。

六、推理加速与部署：从实验室到生产环境

训练好的模型要服务数以百万计的用户，推理的速度和成本是核心挑战。

6.1 推理的性能瓶颈

自回归生成是逐 token 进行的：生成第t tt个 token，需要所有前t − 1 t-1t−1个 token 的注意力计算。这天然是串行的，且随着序列增长，计算量线性增加。

KV Cache是解决重复计算的关键：在生成第t tt个 token 时，前t − 1 t-1t−1个 token 的 Key 和 Value 矩阵已经在之前的步骤里算好了，缓存下来就不需要重算。代价是显存随序列长度线性增长——生成长序列时，KV Cache 可能占用数十 GB 显存。

PagedAttention（vLLM）：借鉴操作系统的虚拟内存和分页管理思想，把 KV Cache 按"页"管理，消除显存碎片，大幅提升吞吐量（比原始 Huggingface 实现快 24 倍）。

投机采样（Speculative Decoding）：用一个小模型（Draft Model）快速生成多个候选 token，再用大模型一次性验证（接受或拒绝），利用了大模型并行验证比串行生成快的特点。在保持输出质量不变的前提下，速度提升 2-3 倍。

连续批处理（Continuous Batching）：传统批处理需要等待批内所有请求都完成才释放资源；连续批处理在迭代级别动态调度，某个请求生成完成后立即接入新请求，GPU 利用率大幅提升。

6.2 量化：用更少的比特存储模型

模型参数默认是 FP32（4字节）或 BF16（2字节）。量化把参数压缩成更少的比特：

INT8 量化：4字节 → 1字节，几乎无精度损失，是生产环境的成熟选择。
INT4 量化（GPTQ、AWQ）：2字节 → 0.5字节，精度略有损失但通常可接受。70B 模型可以在单台 8×24GB 服务器上运行。
FP8：NVIDIA H100 等新一代 GPU 原生支持，在保持类 FP16 精度的同时速度提升 2 倍，是大规模生产的方向。

量化不是"免费的午餐"：极低比特（INT2/INT3）的量化损失较大，且需要针对性的推理内核支持。

6.3 知识蒸馏与剪枝

知识蒸馏：用大模型（Teacher）的软标签（logits 分布）来监督小模型（Student）的训练，传递"暗知识"。Phi 系列的成功证明：高质量合成数据 + 蒸馏可以让小模型（3.8B）在很多任务上接近大得多的模型。
结构化剪枝：移除对模型输出贡献小的注意力头、MLP 神经元，减少模型大小，需要后续微调来恢复性能。

七、应用范式：RAG、Agent 与提示工程

7.1 提示工程：用语言指挥模型

提示工程（Prompt Engineering）是在不改变模型参数的情况下，通过设计输入来引导模型输出的艺术：

零样本（Zero-shot）：直接描述任务，让模型完成。适合模型本身能力强的任务。
少样本（Few-shot）：在提示中给出几个示例，让模型"举一反三"。对于格式复杂或模型不熟悉的任务效果显著。
思维链（Chain of Thought，CoT）：在提示中加入"让我们一步一步来思考"，引导模型在给出答案前先输出推理过程。这个简单的技巧让 GPT-3 的数学推理能力从接近随机提升到接近 SOTA。原因在于：中间推理步骤本身提供了计算空间，且模型生成每个 token 时都能"看到"之前的推理。
ReAct（Reason + Act）：让模型交替输出"思考"和"行动"，思考决定下一步做什么，行动调用工具获取外部信息，然后根据结果继续思考。是构建能使用工具的智能体的基础框架。
结构化输出：要求模型以 JSON 等格式输出，便于程序解析。现代 API 通常支持 JSON Mode 或 Function Calling 来强制结构化输出。

7.2 RAG：给模型外接"记忆"

大模型有两个固有局限：知识截止日期（训练数据有时间边界）和上下文长度限制（无法把整个知识库放进提示）。RAG（Retrieval-Augmented Generation）通过外接检索系统来解决：

把外部文档切分成小块（Chunk），用嵌入模型编码成向量，存入向量数据库（Chroma、Milvus、Pinecone）
用户提问时，把问题也编码成向量，在向量数据库中检索最相关的文档块（余弦相似度）
把检索到的文档块作为上下文，和用户问题一起送入大模型，由模型综合生成答案

RAG 的挑战在于检索质量：如果检索到的文档块不相关，模型的输出反而会受到"噪声"干扰。混合检索（稠密检索 + BM25 关键词检索）、重排序（Reranking）、GraphRAG（构建知识图谱辅助检索）都是改进检索质量的方向。

7.3 智能体（Agent）：让模型主动做事

从"问答助手"到"能自主完成任务的 Agent"，是大模型应用的重要进化方向：

工具调用（Tool Use / Function Calling）：给模型定义一组工具（搜索、代码执行、数据库查询、API 调用），模型根据任务决定调用哪个工具、传什么参数，获取结果后继续推理。OpenAI 的 Function Calling、Anthropic 的 Tool Use 是主流实现。
规划与反思：复杂任务需要多步规划。Tree of Thoughts（ToT）让模型生成多个候选路径并评估；Reflexion 让模型反思自己的输出并迭代改进。
多智能体协作：多个专门化的 Agent 协作完成任务——一个 Agent 负责搜索，一个负责代码生成，一个负责审核结果，由协调者 Agent 统筹调度。AutoGen、CrewAI 是主流框架。
记忆系统：短期记忆（上下文窗口）、长期记忆（向量数据库）、工作记忆（外部状态管理）构成 Agent 的记忆体系，解决上下文长度和跨会话记忆问题。