当前位置：首页 > news >正文

从Transformer到AI Agent的深度解析，带你领略大型语言模型的核心技术！

news 2026/4/22 3:58:37

LLM（大型语言模型）是一种基于深度学习的人工智能模型，能够理解、生成和处理人类语言。文章详细介绍了LLM的核心架构——Transformer，包括其关键组件如Self-Attention、Positional Encoding等的作用。同时，文章还深入探讨了LLM的训练过程，包括预训练、监督微调和人类反馈强化学习三个阶段。此外，文章还介绍了Tokenization、推理优化技术以及LLM的能力边界。最后，文章通过Hugging Face Transformers实战，展示了如何使用LLM生成文本。

什么是 LLM？

LLM（Large Language Model，大型语言模型）是一种基于深度学习的人工智能模型，能够理解、生成和处理人类语言。

简单来说，LLM 通过海量文本数据训练，学会了：

预测下一个词（Next Token Prediction）
理解上下文语义（Context Understanding）
执行复杂推理任务（Reasoning）

核心架构：Transformer

所有现代 LLM 都基于Transformer 架构（2017 年 Google 提出）。

Transformer 的关键创新

组件	作用
Self-Attention（自注意力）	让模型理解词与词之间的关系，无论距离多远
Positional Encoding（位置编码）	给模型提供词序信息
Feed-Forward Networks（前馈网络）	进行非线性变换，增强表达能力
Layer Normalization（层归一化）	稳定训练过程，加速收敛

Self-Attention 机制详解

自注意力是 Transformer 的核心，计算公式：

Attention(Q, K, V) = softmax(QK^T / √d_k) V

其中：

Q（Query）：当前词的查询向量
K（Key）：所有词的键向量
V（Value）：所有词的值向量
d_k：向量维度，用于缩放

直观理解：

当模型处理句子 “The cat sat on the mat” 时，Self-Attention 让 “cat” 能够关注到 “sat” 和 “mat”，理解它们之间的语义关系。

多头注意力（Multi-Head Attention）

# 伪代码：多头注意力机制class MultiHeadAttention: def __init__(self, embed_dim, num_heads): self.num_heads = num_heads self.head_dim = embed_dim // num_heads # 为每个头创建独立的 Q/K/V 投影 self.q_projs = [Linear(embed_dim, self.head_dim) for _ in range(num_heads)] self.k_projs = [Linear(embed_dim, self.head_dim) for _ in range(num_heads)] self.v_projs = [Linear(embed_dim, self.head_dim) for _ in range(num_heads)] # 输出投影 self.out_proj = Linear(embed_dim, embed_dim) def forward(self, x): # 并行计算所有注意力头 heads = [] for i in range(self.num_heads): q = self.q_projs[i](x) k = self.k_projs[i](x) v = self.v_projs[i](x) head = attention(q, k, v) heads.append(head) # 拼接所有头的输出 concatenated = concat(heads, dim=-1) return self.out_proj(concatenated)

多头注意力的优势：

不同头可以关注不同的语义关系（语法、指代、情感等）
增强模型的表达能力

LLM 的训练过程

阶段一：预训练（Pre-training）

目标：学习语言的基本规律和世界知识

方法：自监督学习（Self-Supervised Learning）

# 预训练任务：下一个词预测输入："The quick brown fox jumps over the"目标："lazy"# 损失函数：交叉熵损失loss = -log(P("lazy" | "The quick brown fox jumps over the"))

数据规模：

GPT-3：约 45TB 文本数据
LLaMA 2：约 2T tokens
包含：网页、书籍、代码、维基百科等

计算资源：

需要数千张 GPU/TPU
训练时间：数周到数月
成本：数百万到数千万美元

阶段二：监督微调（SFT）

目标：让模型学会遵循指令

方法：使用人工标注的指令 - 回答对进行微调

# SFT 数据示例{ "instruction": "解释什么是光合作用", "input": "", "output": "光合作用是植物利用阳光将二氧化碳和水转化为..."}

阶段三：人类反馈强化学习（RLHF）

目标：让模型输出更符合人类偏好

流程：

收集人类对多个回答的偏好排序
训练奖励模型（Reward Model）
使用 PPO 算法优化策略

# RLHF 优化目标maximize: E[reward(response)] - β * KL(policy || reference)# 平衡生成质量和多样性

Tokenization：文本如何变成数字

LLM 不能直接处理文本，需要将文本转换为 Token ID。

BPE（Byte Pair Encoding）算法

# BPE 分词示例原始文本："unbelievable"分词过程：1. 初始字符级：['u', 'n', 'b', 'e', 'l', 'i', 'e', 'v', 'a', 'b', 'l', 'e']2. 合并常见对：['un', 'belie', 'vable']3. 最终 Token：['un', 'believable']# 对应词表 IDtoken_ids = [1234, 5678]

词表规模对比

模型	词表大小
GPT-2	50,257
GPT-3	50,257
LLaMA	32,000
LLaMA 2	32,000
Qwen	151,936

关键参数解析

模型规模

模型	参数量	典型用途
7B	70 亿	个人设备部署、简单任务
13B	130 亿	平衡性能与资源
70B	700 亿	复杂推理、专业应用
175B+	1750 亿 +	最强性能、高成本

上下文窗口（Context Window）

定义：模型一次能处理的最大 Token 数

模型	上下文长度
GPT-3	2,048 / 4,096
GPT-4	8,192 / 128,000
LLaMA 2	4,096
LLaMA 3	8,192
Claude 3	200,000

技术挑战：

注意力复杂度：O(n²)
长上下文需要优化算法（如 Flash Attention、Sparse Attention）

温度参数（Temperature）

# 温度对输出的影响temperature = 0.0 # 确定性输出，总是选择概率最高的词temperature = 0.7 # 平衡创造性和准确性（推荐）temperature = 1.5 # 高度随机，创造性强但可能不准确

推理优化技术

KV Cache（键值缓存）

问题：自回归生成时，重复计算历史 Token 的 K/V 向量

解决：缓存已计算的 K/V，只计算新 Token

# 无缓存：每次重新计算for i in range(sequence_length): k, v = compute_kv(all_tokens[:i+1]) # O(n²)# 有缓存：只计算新 Tokenkv_cache = {}for i in range(sequence_length): k_new, v_new = compute_kv(token[i]) # O(n) kv_cache[i] = (k_new, v_new)

效果：推理速度提升 5-10 倍

Flash Attention

核心思想：减少 GPU 内存访问，提高计算效率

# 标准 Attention：多次 HBM 访问# Flash Attention：分块计算，SRAM 内完成def flash_attention(q, k, v): # 将 Q/K/V 分块 for block_q in q_blocks: for block_k, block_v in zip(k_blocks, v_blocks): # 在 SRAM 内计算注意力 attention_block = compute_block(block_q, block_k, block_v) # 累积结果 output += attention_block return output

效果：注意力计算速度提升 2-3 倍

量化（Quantization）

目的：减少模型大小，提高推理速度

量化精度	模型大小	精度损失
FP32	原始大小	无
FP16	50%	极小
INT8	25%	小
INT4	12.5%	中等

# INT8 量化示例from transformers import AutoModelForCausalLM# 加载量化模型model = AutoModelForCausalLM.from_pretrained( "model_name", load_in_8bit=True, # 启用 INT8 量化 device_map="auto")

LLM 的能力边界

擅长任务

✅ 文本生成（写作、翻译、总结）
✅ 代码生成与解释
✅ 知识问答（训练数据内的知识）
✅ 简单推理（数学、逻辑）
✅ 情感分析、分类

不擅长任务

❌ 实时信息（训练数据截止后的事件）
❌ 精确计算（大数运算、复杂数学）
❌ 长链条推理（多步推理容易出错）
❌ 事实核查（可能产生幻觉）
❌ 专业领域深度知识（医疗、法律等需验证）

从 LLM 到 AI Agent

LLM 是 Agent 的大脑，但 Agent 需要更多：

组件	LLM	AI Agent
核心能力	语言理解与生成	任务规划与执行
记忆	有限上下文	短期 + 长期记忆
工具	无	可调用外部工具
行动	生成文本	执行操作（API、代码等）
反馈	无	可从环境获取反馈

Agent = LLM + 规划 + 记忆 + 工具 + 反思

实战：使用 Hugging Face Transformers

from transformers import AutoTokenizer, AutoModelForCausalLMimport torch# 加载模型和分词器model_name = "meta-llama/Llama-2-7b-chat-hf"tokenizer = AutoTokenizer.from_pretrained(model_name)model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=torch.float16, device_map="auto")# 生成文本prompt = "解释一下什么是机器学习"inputs = tokenizer(prompt, return_tensors="pt").to(model.device)outputs = model.generate( **inputs, max_new_tokens=512, temperature=0.7, top_p=0.9, do_sample=True)response = tokenizer.decode(outputs[0], skip_special_tokens=True)print(response)