当前位置：首页 > news >正文

从N-Gram到Transformer：一条可落地的LLM技术演进路径

news 2026/8/3 9:20:21

1. 这不是一堂“理论课”，而是一条可踩实的LLM入门小径

你点开这篇内容，大概率不是为了背诵“Transformer由Encoder-Decoder组成”这种教科书定义。你真正想搞懂的是：为什么我调用一个API就能生成一段像模像样的文字？为什么换几个词，模型就突然“胡说八道”？为什么有人微调5分钟就让模型学会写合同，而我跑通demo都卡在环境配置上？——这些困惑背后，藏着一条真实存在的技术演进路径，它不是从天而降的黑箱，而是由N-Gram → 词向量（Embedding）→ Transformer三块扎实的砖垒起来的。我把这条路径叫作“The Path to LLMs”，它不讲抽象数学推导，只讲每个环节解决了什么具体问题、暴露了什么真实缺陷、又如何被下一个方案接住并推进。比如，N-Gram本质是“查表法”：给定“今天天气”，它只能从语料库中翻出“很好”“很差”“一般”这些高频后缀，但完全无法理解“天气”和“心情”之间的隐含关联；而Embedding把“天气”“心情”“阴沉”“明媚”都变成高维空间里的点，让“天气 - 阴沉 + 明媚 ≈ 心情”这种类比运算成为可能；到了Transformer，它不再满足于单个词的静态表示，而是让每个词在不同上下文中动态调整自己的“身份权重”——“苹果”在“吃苹果”里是水果，在“买苹果手机”里是公司，在“牛顿被苹果砸中”里是物理对象。这条路径上的每一步，都是工程师在真实场景中被问题逼出来的解法。本文适合三类人：刚学完Python想摸AI门道的转行者、业务中要用大模型但总被术语绕晕的产品/运营、以及想补足底层逻辑避免被“Prompt Engineering万能论”带偏的技术负责人。你不需要会矩阵求导，但需要知道“为什么必须用Attention而不是RNN”，就像修车师傅不必精通冶金学，但得清楚“为什么这颗螺丝松了，整个悬挂就发飘”。

2. 内容整体设计与思路拆解：为什么必须按N-Gram→Embedding→Transformer这个顺序走？

2.1 技术演进不是线性升级，而是对前代缺陷的精准爆破

很多人把N-Gram、Embedding、Transformer当成三个并列的“模型类型”，这是最大的认知陷阱。它们根本不是同一代技术，而是同一问题在不同阶段的三张诊断报告。我们先看最原始的痛点：让机器“猜下一个词”。1950年代香农就用N-Gram干这事——统计“the cat sat on the ___”，发现“mat”出现频次最高，就填“mat”。这方法简单粗暴，但致命伤有三：第一，数据稀疏性。当N=3时，“the fluffy cat”这种组合在语料库里可能一次都没出现过，模型直接哑火；第二，语义鸿沟。“猫”和“猫咪”在N-Gram里是两个完全无关的ID，但人类知道它们是同义词；第三，长程依赖失效。“虽然……但是……”这种跨50个词的逻辑关系，N-Gram连窗口都滑不到。Embedding正是为解决这三点而生：它把每个词映射到300维向量空间，让“猫”和“猫咪”的向量距离极近，“银行”在“去银行取钱”和“河岸的银行”中自动分裂成两个不同向量。但Embedding很快暴露新问题——它仍是静态表示。同一个“bank”在不同句子中本该有不同含义，可Word2Vec训练完就固定死了。这就逼出了Transformer：它用Self-Attention机制，让每个词在处理当前句子时，动态计算自己和句中所有词的相关度。比如处理“bank”时，如果上下文是“river”，它就自动加权“河岸”相关维度；如果是“money”，就激活“金融机构”维度。所以这条路径的本质，是问题驱动的技术迭代：N-Gram暴露了“统计不可靠”，Embedding用向量空间修复了“语义不可知”，Transformer再用动态注意力解决了“上下文不可变”。跳过任何一环，你对LLM的理解都会缺一块承重墙。

2.2 方案选型背后的工程现实：为什么不用RNN/LSTM替代Transformer？

常有人问：“既然RNN能处理序列，为什么非得用Transformer？”这问题背后藏着关键的工程真相。RNN确实能记住长序列，但它有个物理级硬伤：计算无法并行。RNN必须按顺序一个词一个词算，第100个词的输出依赖第99个词的隐藏状态，GPU的数千个核心99%时间都在等。我实测过：用LSTM处理一篇2000字文档，单次推理耗时47秒；换成同等参数量的Transformer，只要1.8秒——快26倍。这不是算法优劣，而是硬件适配问题。更致命的是梯度消失。RNN反向传播时，误差信号要穿过几十层网络，到开头词时梯度已衰减到1e-10，根本学不会“因为……所以……”这种远距离因果。Transformer用残差连接+LayerNorm，让梯度能直线穿透所有层。还有个常被忽略的点：位置编码的巧妙妥协。RNN天然有序，但Transformer的Self-Attention本身是“无序”的——它把整句话同时喂进去，必须额外注入位置信息。Sinusoidal位置编码用不同频率的正弦波标记位置，让模型能轻松学到“第5位和第15位的词距离是10”，这种设计既轻量又泛化强。而早期CNN尝试用卷积提取局部特征，结果发现卷积核尺寸难调：太小抓不住“主谓宾”，太大又爆炸式增加参数。Transformer用O(n²)的Attention矩阵换来了O(1)的全局感知能力，这是工程上典型的“用空间换时间，再用硬件优势把空间成本打下来”的经典案例。

2.3 领域适配性：为什么这条路径对中文尤其关键？

英文N-Gram至少还能靠空格切分，中文连“切词”都是第一道生死关。“南京市长江大桥”该切成“南京市/长江/大桥”还是“南京/市长/江大桥”？早期中文N-Gram系统光分词准确率就卡在85%，错误切分直接导致后续所有统计失效。Embedding时代，中文迎来了转机：Skip-gram模型不依赖分词，它把整段文本当字符流，让“南”“京”“市”各自学习向量，再通过上下文窗口自动聚类。我用BERT-Base-Chinese在新闻语料上微调，发现“新冠”“疫情”“防控”的向量距离比“新冠”“冠状病毒”还近——因为媒体总把“新冠疫情”连用。但中文的终极挑战在Transformer：汉字没有词形变化，英文的“run/running/ran”能通过词根共享向量，中文每个动词都要单独学。所以中文LLM必须更大规模预训练，用更多样化的语境强制模型理解“吃”在“吃饭”“吃亏”“吃醋”中的不同角色。这也是为什么中文开源模型（如ChatGLM、Qwen）普遍比英文同参数模型多30%的训练步数——不是算力过剩，而是语言特性倒逼的必然选择。

3. 核心细节解析与实操要点：从代码层面看每个环节如何落地

3.1 N-Gram：不只是统计，而是理解“概率建模”的起点

N-Gram的核心是条件概率P(wₙ|wₙ₋₁,wₙ₋₂,…,wₙ₋ₖ₊₁)。以Trigram（K=3）为例，预测“the cat sat on the ___”，实际计算的是P(mat|sat, on, the)。但直接统计会导致零概率灾难：如果“sat on the mat”没在语料中出现过，概率就是0。解决方案是加法平滑（Laplace Smoothing）：给所有n-gram计数统一加1，分母加V（词汇表大小）。公式变为：
P(wₙ|wₙ₋₁,wₙ₋₂) = (count(wₙ₋₂,wₙ₋₁,wₙ) + 1) / (count(wₙ₋₂,wₙ₋₁) + V)
这个“+1”看似简单，实则是贝叶斯思想的体现：假设每个n-gram至少出现1次的先验知识。我在用NLTK实现时发现，V取值极关键——若语料只有10万词，V设为10万，平滑后概率全趋近于1/V，模型退化成随机采样；但若V设为1000（只统计高频词），低频n-gram仍保持合理概率。实操心得：永远用验证集调平滑系数λ，而非拍脑袋设1。代码中我改用Kneser-Ney平滑，它统计“wₙ₋₁,wₙ”作为后缀的出现次数，而非单纯计数，对OOV（未登录词）鲁棒性提升40%。> 提示：N-Gram不是过时技术，它仍是拼写纠错、键盘预测的底层引擎。iOS输入法的“下一词预测”至今用Trigram+缓存，响应速度<5ms，因为它的计算复杂度是O(1)，而Transformer最小也要O(n²)。

3.2 Embedding：Word2Vec的Skip-gram为何比CBOW更适合中文？

Word2Vec两种架构常被混为一谈，但Skip-gram（用中心词预测上下文）和CBOW（用上下文预测中心词）有本质差异。CBOW像“填空题”：给“___ 爱吃苹果”，模型猜“我”；Skip-gram像“造句题”：给“我”，模型要生成“爱”“吃”“苹果”等多个词。这对中文至关重要——中文单字信息量大，“我”能关联“爱”“恨”“喜”“怒”，而“爱”却只能关联“我”“你”“他”等有限主语。Skip-gram的损失函数是最大化log P(context|word)，它强制每个词学习更丰富的语义场。我用gensim训练中文维基百科，对比两种模式：Skip-gram下，“苹果”的最近邻是“香蕉”“梨子”“水果”，而CBOW给出的是“吃”“买”“喜欢”。后者偏向语法功能，前者才是语义相似。更关键的是负采样（Negative Sampling）的实现：Skip-gram每次只更新5-10个负样本（如“汽车”“电脑”“足球”），而非全部10万词表，训练速度提升200倍。实操时我发现，负采样数设为5时，高频词（如“的”“了”）向量质量差；设为20时，低频词（如“饕餮”“缂丝”）收敛慢。最终采用自适应负采样：对词频f，负样本数=5+15×(1-f/f_max)，让高频词少采样、低频词多采样。> 注意：不要迷信“向量越长越好”。300维在多数任务中已达瓶颈，500维以上相似度计算耗时剧增，但准确率仅提升0.3%。我测试过100维到1000维，300维是性价比拐点。

3.3 Transformer：Self-Attention的矩阵运算到底在算什么？

Self-Attention常被画成一堆箭头，但它的数学本质是带权重的向量加权平均。给定输入序列X=[x₁,x₂,…,xₙ]，先经线性变换得Query(Q)、Key(K)、Value(V)矩阵：
Q = XW_Q, K = XW_K, V = XW_V
然后计算Attention权重：
Attention(Q,K,V) = softmax(QKᵀ/√d_k) × V
这里QKᵀ是n×n的相似度矩阵，第i行第j列值表示“第i个词关注第j个词的程度”。除以√d_k是为了防止softmax输入过大导致梯度消失。重点在于：这个权重矩阵不是预设的，而是模型自己学出来的。比如处理“it is raining because the sky is ___”，“because”这个词的Q向量会和“sky”的K向量高度匹配，从而让“sky”的V向量主导输出。我在PyTorch中手动实现过单头Attention，发现一个反直觉现象：初始权重矩阵全是噪声，但训练10轮后，“the”和“sky”的注意力分数就跃升至0.87，而“the”和“raining”仅0.03——模型在10步内就自发建立了“the”修饰“sky”的语法关系。Multi-Head机制则让模型并行学习不同关系：一个头专注语法（主谓一致），一个头专注指代（it→sky），一个头专注逻辑（because→so）。实操时我试过删减头数：12头降到6头，长文本任务F1下降12%；但降到3头时，模型开始混淆“他”和“她”，说明性别指代需要独立的注意力通道。

4. 实操过程与核心环节实现：手把手复现从N-Gram到Transformer的关键步骤

4.1 用Python从零实现N-Gram语言模型（含平滑与采样）

我们用《红楼梦》前10回做语料（约12万字），目标是生成符合古文风格的新句子。第一步是预处理：

import jieba import numpy as np from collections import defaultdict, Counter # 中文分词（不用空格，jieba更准） def preprocess(text): words = list(jieba.cut(text.replace(' ','').replace('\n',''))) # 过滤标点和空白 return [w for w in words if len(w.strip()) > 0 and w not in '，。！？；：“”（）【】'] corpus = preprocess(open('hongloumeng.txt',encoding='utf-8').read())

第二步构建Trigram词典：

trigrams = defaultdict(Counter) for i in range(len(corpus)-2): w1, w2, w3 = corpus[i], corpus[i+1], corpus[i+2] trigrams[(w1,w2)][w3] += 1 # Kneser-Ney平滑：统计w2->w3的转移次数 suffix_count = defaultdict(int) for (w1,w2), next_words in trigrams.items(): for w3 in next_words: suffix_count[(w2,w3)] += 1

第三步采样生成：

def generate_sentence(start=('那','日'), max_len=20): sentence = list(start) for _ in range(max_len): w1, w2 = sentence[-2], sentence[-1] if (w1,w2) not in trigrams or not trigrams[(w1,w2)]: break # 计算Kneser-Ney概率 total = sum(trigrams[(w1,w2)].values()) candidates = [] for w3, count in trigrams[(w1,w2)].items(): # 绝对折扣：每个计数减0.75 discounted = max(0, count - 0.75) # 继续概率：有多少不同w1能引出w2->w3 cont_prob = suffix_count.get((w2,w3),0) / sum(suffix_count.values()) prob = discounted / total + 0.75 * cont_prob / total candidates.append((w3, prob)) # 按概率采样 words, probs = zip(*candidates) next_word = np.random.choice(words, p=probs) sentence.append(next_word) if next_word in '。！？': break return ''.join(sentence) print(generate_sentence()) # 输出："那日宝玉见黛玉面带愁容便问道妹妹可是身子不适"

这个模型虽简陋，但已能生成语法正确的句子。关键技巧：用Kneser-Ney替代加法平滑，让模型学会“新词组合”。比如语料中无“黛玉葬花”，但“黛玉”常接“葬”（葬礼）、“花”常接“葬”（葬花），模型就能合成新搭配。

4.2 用Gensim训练中文词向量并可视化语义关系

我们用百度百科100万篇摘要（约2GB文本）训练Word2Vec。关键参数设置：

from gensim.models import Word2Vec from gensim.models.phrases import Phrases # 自动识别词组，如"深度学习"不被拆成"深度"+"学习" phrases = Phrases(sentences, min_count=10, threshold=50) bigram = Phraser(phrases) sentences = [bigram[s] for s in sentences] model = Word2Vec( sentences=sentences, vector_size=300, # 维度 window=5, # 上下文窗口 min_count=5, # 词频阈值 workers=8, # CPU线程 sg=1, # 1=Skip-gram, 0=CBOW negative=10, # 负采样数 epochs=5 # 训练轮数 )

训练后验证效果：

# 查看"人工智能"的最近邻 similar = model.wv.most_similar('人工智能', topn=10) # 输出：[('机器学习', 0.82), ('深度学习', 0.79), ('神经网络', 0.75), ...] # 验证类比关系：国王-男人+女人≈女王？ result = model.wv.most_similar( positive=['女王', '男人'], negative=['女人'], topn=1 ) # 得到'国王'，余弦相似度0.68

可视化用t-SNE降维：

from sklearn.manifold import TSNE import matplotlib.pyplot as plt words = ['苹果', '香蕉', '梨子', '汽车', '飞机', '轮船'] vectors = [model.wv[w] for w in words] tsne = TSNE(n_components=2, random_state=42) reduced = tsne.fit_transform(vectors) plt.scatter(reduced[:,0], reduced[:,1]) for i, w in enumerate(words): plt.annotate(w, (reduced[i,0], reduced[i,1])) plt.show()

图中水果聚成一团，交通工具聚成另一团，证明向量空间已捕获语义。实操心得：中文必须用bigram识别词组，否则“微信支付”会被拆成“微信”“支付”，丢失专有名词语义。

4.3 用Hugging Face Transformers构建微型Transformer（12层，768维）

我们用Hugging Face的AutoModel从头训练一个迷你版BERT，仅用1万条知乎问答（约5MB）。核心步骤：

from transformers import AutoTokenizer, AutoModelForMaskedLM, TrainingArguments, Trainer from datasets import Dataset # 1. 加载分词器（中文用BertTokenizer） tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese') # 2. 构建数据集（MLM任务：随机mask15%的token） def tokenize_function(examples): result = tokenizer(examples['text'], truncation=True, max_length=128) # 随机mask for i, input_ids in enumerate(result['input_ids']): masked_input = input_ids.copy() for j in range(1, len(input_ids)-1): # 跳过[CLS][SEP] if np.random.random() < 0.15: if np.random.random() < 0.8: masked_input[j] = tokenizer.mask_token_id elif np.random.random() < 0.5: masked_input[j] = np.random.randint(100, tokenizer.vocab_size) result['labels'][i] = [-100 if x == tokenizer.pad_token_id else x for x in input_ids] result['input_ids'][i] = masked_input return result dataset = Dataset.from_dict({'text': texts}).map(tokenize_function, batched=True) # 3. 定义模型结构（精简版） config = BertConfig( vocab_size=21128, hidden_size=768, num_hidden_layers=12, # 原BERT是12层 num_attention_heads=12, # 原BERT是12头 intermediate_size=3072, max_position_embeddings=512 ) model = AutoModelForMaskedLM.from_config(config) # 4. 训练 training_args = TrainingArguments( output_dir='./mini-bert', num_train_epochs=3, per_device_train_batch_size=16, warmup_steps=500, weight_decay=0.01, logging_dir='./logs', ) trainer = Trainer( model=model, args=training_args, train_dataset=dataset, ) trainer.train()

训练后测试：

from transformers import pipeline fill_mask = pipeline('fill-mask', model='./mini-bert', tokenizer=tokenizer) print(fill_mask("北京是中国的[MASK]")) # 输出：[{'sequence': '北京是中国的首都', 'score': 0.92, 'token': 102}, ...]

关键经验：中文预训练必须用大量口语语料。我试过只用新闻语料，模型对“绝绝子”“yyds”完全无法理解；加入微博数据后，这些网络词的mask准确率从12%升至67%。这印证了Transformer的“语境即一切”哲学。

5. 常见问题与排查技巧实录：那些文档里不会写的坑

5.1 N-Gram常见问题速查表

问题现象	根本原因	排查技巧	解决方案
生成句子全是“的”“了”“在”	高频停用词未过滤	统计top100词，若“的”占比>15%，需添加停用词表	用哈工大停用词表，或动态过滤：词频>语料总词数0.1%的词加入停用词
新词组合概率为0	Kneser-Ney折扣系数过大	打印discounted计数，若多数为0，说明折扣>计数	将折扣系数从0.75降至0.5，或改用绝对折扣（Absolute Discounting）
生成句子重复循环	回溯采样未加惩罚	检查是否连续3次采样同一n-gram	在采样时对已出现的w3加-0.1分，强制模型探索新路径

5.2 Embedding训练失败的三大隐形杀手

杀手一：语料清洗不彻底。我曾用未清洗的网页文本训练，结果“

”“ ”成了高频词，向量空间被污染。正确做法：用BeautifulSoup提取正文，正则过滤HTML标签和乱码，再用langdetect剔除非中文段落。
杀手二：窗口大小与语义粒度错配。训练科技文档时用window=10，结果“神经网络”被拆散；训练诗歌时用window=2，又抓不住“山高水长”的意境。我的经验：技术文本window=5，文学文本window=8，对话文本window=3。
杀手三：负采样分布失衡。默认用均匀分布采样负样本，但“的”“了”等停用词被频繁采为负例，导致模型过度学习“这些词不该出现”。解决方案：用unigram分布，概率∝词频^0.75，让高频词被采样概率降低，低频词提升。

5.3 Transformer训练崩溃的现场诊断指南

现象：Loss在第3轮突然飙升至inf
→ 检查梯度：torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)，若clip后norm仍>100，说明某层权重爆炸。定位到LayerNorm的gamma参数，将其初始化为0.1而非默认1.0。

现象：Attention权重全趋近0.5（无区分度）
→ 这是位置编码失效。检查是否误将position_ids设为全0，或sinusoidal编码的波长计算错误（应为10000^(2i/d_model)）。打印前10个位置编码，确认奇偶位正弦/余弦交替。

现象：长文本生成重复片段（如“因此因此因此”）
→ 这是自回归采样中的“贪心退化”。不要用argmax，改用top-k=50+temperature=0.7：

logits = model(input_ids).logits[:,-1,:] # 取top50个候选 top_logits, top_indices = torch.topk(logits, 50) # 温度缩放 probs = F.softmax(top_logits/0.7, dim=-1) next_token = torch.multinomial(probs, 1)

5.4 中文LLM特有的“水土不服”问题

问题：模型总把“苹果”生成为“iPhone”
→ 语料偏差。训练数据中“苹果”90%出现在科技新闻，需注入生活语料。我的解法：对“苹果”“香蕉”等水果词，在生活语料中人工提升采样权重3倍。

问题：无法正确处理“的”字结构（如“红色的苹果”）
→ Attention机制对依存关系建模不足。在预训练时，对“的”字前后词（如“红色”“苹果”）强制添加相对位置编码，让模型明确知道“的”是连接定语和中心语的桥梁。

问题：生成古诗押韵错误
→ 传统Transformer不感知音韵。解决方案：在Embedding层叠加拼音向量。将“红”映射为“hong1”，其拼音向量与字向量相加，让模型同时学习字形和读音。我测试后，押韵准确率从41%升至79%。

6. 实操总结与个人体会：这条路的终点不在技术，而在问题意识

我带过十几期LLM实战训练营，发现一个规律：学员卡点从不发生在代码报错，而是在“不知道该问什么问题”。有人纠结“为什么我的Embedding维度设300效果不好”，却没意识到问题可能是语料里“苹果”99%指代公司；有人抱怨Transformer训练慢，却没检查GPU显存是否被其他进程占用。这条“The Path to LLMs”的真正价值，不是让你记住Self-Attention的公式，而是培养一种问题溯源能力：当模型表现异常时，你能像老中医搭脉一样，顺着N-Gram→Embedding→Transformer的链条，快速定位是数据层（N-Gram的语料污染）、表示层（Embedding的维度失配）、还是架构层（Transformer的注意力头数不足）。我自己踩过最深的坑，是在用N-Gram做客服对话生成时，发现模型总回复“您好，请问有什么可以帮您？”，后来追踪发现，训练语料中80%的对话以这句话开头，模型学到了“安全答案”而非“有效答案”。这让我明白：所有技术都是镜子，照出的是我们对业务问题的理解深度。所以别急着调参，先问一句——你真正想解决的问题，到底是什么？

查看全文

http://www.jsqmd.com/news/985348/