当前位置：首页 > news >正文

从零手写Transformer：NumPy实现语言模型前向与反向传播

news 2026/6/13 7:48:36

1. 项目概述：从零手写语言模型，不是调包，是真正理解每一行代码在做什么

“Language Modeling From Scratch — Part 2”这个标题一出来，我就知道这不是又一篇教你怎么用Hugging Face加载gpt2-small的速成指南。它直指一个被太多人跳过的硬核地带：当你把transformer、attention、layer norm这些词背得滚瓜烂熟之后，真正坐下来，不依赖任何高级封装，只用NumPy（或纯Python）从头实现一个能跑通前向传播、能算出loss、能完成一次梯度更新的语言模型时，你到底在动哪些变量？它们的shape为什么是那样？反向传播时梯度怎么一层层穿回去？为什么mask要加在logits上而不是embedding里？这就是Part 2要干的事——它承接Part 1里搭好的骨架（比如tokenization、数据加载、基础网络结构），开始往里面灌血肉：位置编码的数学实现、多头注意力的矩阵拆分与拼接逻辑、残差连接中梯度如何绕过非线性层、以及最关键的——如何让整个计算图在没有自动微分框架的情况下，依然能正确回传误差。我带过不少刚学完《深度学习》课程的同学做这个练习，90%的人卡在第3个attention head的softmax输出shape上，因为教材里写的“并行计算”四个字，掩盖了实际代码中必须手动reshape、transpose、split的繁琐细节。这篇文章不讲大道理，只讲我在Jupyter里一行行敲、一行行debug、一行行画矩阵草图后，确认无误的实操路径。适合所有想撕开PyTorchnn.Module黑箱、想搞懂GPT类模型底层脉络的工程师、研究员，或者准备面试大厂AI岗、需要手撕attention的求职者。你不需要有博士学历，但得愿意为一个q @ k.T / sqrt(d_k)的除法运算，花20分钟检查维度对齐。

2. 整体设计思路与方案选型：为什么坚持用NumPy，而不是“半手写”？

2.1 拒绝“伪从零”：为什么不用PyTorch的autograd，哪怕它更省事？

很多标榜“from scratch”的教程，其实只是把nn.Linear换成torch.nn.functional.linear，再手动写个F.softmax，美其名曰“自己控制流程”。这根本不算scratch——autograd引擎依然在后台默默构建计算图，你连backward()调用都不用管。而Part 2的硬性要求是：所有梯度必须显式计算、显式传递、显式累加。我们用NumPy，不是因为它多先进，恰恰是因为它足够“笨”：没有.grad属性，没有.backward()方法，没有动态图。你写loss = -np.log(probs[true_token_idx])，那就得自己推导出d_loss/d_probs是多少，再手动乘上d_probs/d_logits，再一路倒推到d_logits/d_W。这个过程痛苦，但它是唯一能让你肌肉记忆“梯度流经哪里”的方式。我试过用PyTorch手动禁用autograd（torch.no_grad()），但很快发现，一旦涉及torch.where、torch.scatter这类操作，梯度路径就变得不可见。而NumPy里，np.where(mask, x, -np.inf)之后，你清清楚楚看到那个-np.inf是怎么让softmax输出趋近于0，又是怎么让交叉熵loss爆炸的——这种“失控感”，恰恰是理解稳定训练的关键入口。

2.2 网络规模取舍：为什么只做1层Transformer Block，而不是复刻GPT-2？

Part 2的目标不是造一个能写诗的模型，而是做一个可单步调试、可全量打印中间变量、可在1分钟内跑完一个batch的验证沙盒。所以我把模型压到极致：

词表大小（vocab_size）设为1000：够覆盖英文基础词汇+标点，又不至于让embedding矩阵大到内存溢出；
隐藏层维度（d_model）设为64：这是能被8整除的最小值（适配8头attention），且64×64矩阵乘法在CPU上耗时<10ms；
层数（n_layers）= 1：只实现一个完整的Transformer Block，包含MHA + FFN + LayerNorm + Residual；
上下文长度（seq_len）= 32：刚好能塞下一句完整问句（如“What is the capital of France?”），又不会让O(n²)的attention计算变成性能黑洞。

这个配置不是拍脑袋定的。我做过实测：当d_model从64升到128时，单次前向传播时间从83ms跳到310ms；当seq_len从32翻倍到64，attention的k.T转置操作内存占用直接涨了4倍。Part 2的价值，在于让你在“能看见”的尺度上，看清每个tensor的生命周期——从input_ids: (B, T)进来，到logits: (B, T, V)出去，中间每一个(B, H, T, D_h)的shape是怎么被squeeze、unsqueeze、transpose出来的。大模型是结果，小模型才是显微镜。

2.3 数据流设计：为什么采用“函数式”而非“面向对象”风格？

你会看到代码里没有class TransformerBlock，只有def multi_head_attention(...),def feed_forward(...),def layer_norm(...)这样的独立函数。这不是为了炫技，而是为了强制暴露数据依赖。在OOP里，self.W_q、self.b_q藏在实例属性里，你很容易忽略它们和输入x之间的耦合关系。而在函数式里，你必须把W_q,b_q,x全部作为参数明明白白列出来，这就逼着你思考：“如果我把W_q的shape从(d_model, d_k)改成(d_model, d_k*2)，下游哪个函数会立刻报错？”——答案是multi_head_attention里的q = x @ W_q + b_q这一行，因为x @ W_q的矩阵乘法规则会直接崩。这种“错误前置”的设计，比任何文档都管用。我自己在实现时，就因为漏传了一个mask参数给attention函数，导致训练loss一直不下降，debug了3小时才发现是attn_scores没被mask，让模型偷偷“偷看”了未来token。函数式写法让这种低级错误无处遁形。

3. 核心模块逐行解析：从数学公式到NumPy实现的映射

3.1 位置编码（Positional Encoding）：正弦波不是装饰，是模型理解顺序的唯一线索

很多人以为PE就是加个固定pattern的矩阵，不影响训练。错。在Part 2里，PE是第一个必须手推梯度的模块。它的公式是：

PE(pos, 2i) = sin(pos / 10000^(2i/d_model)) PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

关键不在sin/cos，而在分母里的10000^(2i/d_model)——这个指数衰减，让高频位置（小i）变化快，低频位置（大i）变化慢，从而让模型能分辨“第1个token”和“第100个token”的远近关系。用NumPy实现时，最易错的是i的索引：

# 错误写法：用range(d_model)直接当i，但i应该是0,2,4...偶数位 pe = np.zeros((max_len, d_model)) position = np.arange(0, max_len).reshape(-1, 1) # (max_len, 1) div_term = np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0) / d_model)) # (d_model//2,) # 正确：div_term只算一半维度，然后广播到sin/cos pe[:, 0::2] = np.sin(position * div_term) # 偶数位填sin pe[:, 1::2] = np.cos(position * div_term) # 奇数位填cos

提示：pe[:, 0::2]中的0::2表示从索引0开始，步长为2，即取所有偶数列。如果写成pe[:, ::2]，虽然结果一样，但语义模糊，容易在后续修改时出错。

梯度方面，d_pe/d_div_term必须手动算：d(sin(x))/dx = cos(x)，所以反向时，d_loss/d_div_term = d_loss/d_pe * cos(position * div_term) * position。这个乘法position * div_term就是为什么PE不能简单用nn.Embedding替代——Embedding查表是离散的，而PE的梯度是连续的、可导的，它让模型能学到“位置之间是线性插值关系”。

3.2 多头注意力（Multi-Head Attention）：拆分、计算、拼接，三步缺一不可

这是Part 2的“心脏手术”。我们以d_model=64,n_heads=8,d_k=d_v=8为例（因为64/8=8）。核心步骤不是“并行”，而是维度重组的艺术：

线性投影：x (B,T,64)→q,k,v (B,T,64)，各用一个(64,64)权重矩阵；
拆分成头：q.reshape(B, T, 8, 8).transpose(0,2,1,3)→(B,8,T,8)；
Scaled Dot-Product：scores = q @ k.transpose(0,1,3,2) / sqrt(8)→(B,8,T,T)；
Mask & Softmax：scores = np.where(mask, scores, -1e9)，再probs = softmax(scores, axis=-1)；
加权求和：context = probs @ v→(B,8,T,8)；
拼回头：context.transpose(0,2,1,3).reshape(B,T,64)。

最容易翻车的是第2步的transpose。新手常写成q.reshape(B, T, n_heads, d_k).transpose(0,2,1,3)，这没错；但如果你把d_k算错（比如当成d_model//n_heads + 1），reshape就会报cannot reshape array。我踩过的坑是：在计算mask时，用了np.tril(np.ones((T,T)))生成下三角，但忘了mask要扩展到(B,1,T,T)才能和(B,8,T,T)的scores广播——少一个维度，NumPy会静默广播成错误形状，导致loss nan。解决方案是显式mask = mask.reshape(1,1,T,T)。

注意：softmax必须在-1e9掩码后立刻执行，且axis=-1（对最后一个维度即Tsoftmax）。如果在mask前softmax，-inf会让整行prob为nan；如果axis=1，就变成了对head维度softmax，完全违背注意力机制本意。

3.3 前馈网络（Feed-Forward Network）：两层线性+GELU，但GELU的近似你得懂

FFN公式是FFN(x) = W2 * GELU(W1 * x + b1) + b2。这里W1: (64,256),W2: (256,64)，把维度先放大再打回原形。难点在GELU：GELU(x) = x * Φ(x)，其中Φ是标准正态分布CDF。NumPy没有内置Φ，所以必须用近似：

def gelu(x): return 0.5 * x * (1 + np.tanh(np.sqrt(2/np.pi) * (x + 0.044715 * x**3)))

这个近似公式来自Hendrycks 2016年的论文，误差<0.001。为什么不用scipy.stats.norm.cdf？因为scipy不是纯NumPy依赖，且cdf计算慢。而tanh近似在CPU上快10倍。梯度推导也得手写：d_gelu/d_x = 0.5*(1+tanh(...)) + 0.5*x*(1-tanh^2(...))*d_inner/d_x。我实测过，如果用np.maximum(0,x)（ReLU）替代GELU，模型在10个epoch后loss就卡在2.1不再下降；而用正确GELU，loss能降到1.3。这说明激活函数的选择不是玄学，它直接影响梯度流的平滑度。

3.4 层归一化（LayerNorm）：均值方差在哪个轴上算，决定了模型是否崩溃

LayerNorm是对每个样本的每个token的特征维度做归一化，即x (B,T,64)→ 对axis=-1（64维）计算mean和std。公式：
ln(x) = gamma * (x - mean) / sqrt(std^2 + eps) + beta
其中gamma,beta是可学习参数，shape为(64,)。关键陷阱：

mean = np.mean(x, axis=-1, keepdims=True)→(B,T,1)，不是(B,T)；
std = np.std(x, axis=-1, keepdims=True)→ 同样要keepdims=True，否则广播失败；
eps = 1e-5不能太大（>1e-3会导致归一化失效）也不能太小（<1e-8在FP32下可能下溢为0）。

我曾把keepdims=False，结果x - mean触发NumPy广播，把mean (B,T)错误地从x (B,T,64)的每个token上减去，导致所有token的64维特征被同一均值拉平，模型瞬间退化成词频统计器。LayerNorm的梯度更复杂：d_ln/d_x不仅依赖gamma和std，还依赖x本身（因为mean和std都是x的函数），必须用链式法则展开。这部分代码长达40行，但它是理解BN/LN差异的必经之路。

4. 完整训练循环实现：从数据加载到梯度更新的闭环

4.1 数据预处理：为什么用字符级tokenization，而不是WordPiece？

Part 2用"hello world"→[104,101,108,108,111,32,119,111,114,108,100]的ASCII映射，而非BERT的subword。原因有三：

可控性：词表大小固定为256（ASCII全集），无需训练tokenizer，避免unktoken引入的随机性；
可追溯性：每个int对应一个明确字符，debug时print(chr(logits.argmax()))就能看到模型猜的字符；
教学性：字符级任务（如预测下一个字母）的loss曲线更陡峭，10个epoch就能看到明显下降，给学习者即时反馈。

数据加载函数get_batch()返回(X, Y)，其中X是input_ids，Y是labels（X右移一位）。关键细节：Y必须是int32，因为np.cross_entropy的true_labels参数要求整数索引；如果传float32，NumPy会静默转成int32，但可能截断。我因此遇到过Y里出现负数label，导致cross_entropy报index out of bounds——根源是X序列末尾pad时用了-1，而Y没同步处理。解决方案：pad统一用0，并在loss计算时用mask忽略padding位置。

4.2 损失函数与梯度计算：交叉熵的手动实现，比调库多学10个知识点

PyTorch的F.cross_entropy一行搞定，但手动实现能让你看到魔鬼细节：

def cross_entropy_loss(logits, targets): # logits: (B,T,V), targets: (B,T) B, T, V = logits.shape logits_flat = logits.reshape(B*T, V) # (B*T, V) targets_flat = targets.reshape(B*T) # (B*T,) # 手动softmax + log + negative exp_logits = np.exp(logits_flat - np.max(logits_flat, axis=1, keepdims=True)) probs = exp_logits / np.sum(exp_logits, axis=1, keepdims=True) log_probs = np.log(probs[np.arange(B*T), targets_flat] + 1e-8) # 防0 loss = -np.mean(log_probs) # 反向：d_loss/d_logits_flat d_logits_flat = probs.copy() d_logits_flat[np.arange(B*T), targets_flat] -= 1 d_logits_flat /= (B*T) return loss, d_logits_flat.reshape(B, T, V)

这段代码揭示了三个真相：

np.max(..., keepdims=True)不是可选项，是数值稳定性刚需，否则exp(1000)直接inf；
probs[...] -= 1就是softmax的梯度特性：对正确类减1，其他类不变；
d_logits_flat /= (B*T)是因为loss = -mean(log_probs)，所以梯度要除以总样本数。

如果跳过这一步，直接用scipy.special.logsumexp，你就永远不知道为什么loss下降时，某些logits会突然暴涨——因为logsumexp内部做了更激进的数值保护，掩盖了梯度爆炸的早期信号。

4.3 参数更新与优化器：SGD with Momentum，但Momentum的累积你得亲手写

Part 2不用Adam，用最朴素的SGD + momentum：

# 初始化momentum缓存 velocities = {k: np.zeros_like(v) for k, v in params.items()} # 更新循环 for k in params: velocities[k] = mu * velocities[k] - lr * grads[k] params[k] += velocities[k]

这里mu=0.9，lr=3e-4。重点在velocities[k]的初始化：必须是np.zeros_like(v)，不能是np.zeros(v.shape)，因为v可能是(64,64)的float64，而np.zeros(v.shape)默认float64，但params[k]是float32，类型不匹配会导致隐式转换，拖慢10倍。我为此专门写了类型检查函数：

def check_dtype_consistency(params, grads, velocities): for k in params: assert params[k].dtype == grads[k].dtype == velocities[k].dtype, f"dtype mismatch in {k}"

每次迭代前跑一遍，省去后期debug的90%时间。另外，lr=3e-4不是随便选的：d_model=64时，W_q的梯度范数通常在1e-2量级，3e-4 * 1e-2 = 3e-6，刚好在FP32的有效精度范围内（FP32最小正数约1e-38，但有效数字只有7位，3e-6能被精确表示）。

5. 实操问题排查与避坑指南：那些文档里永远不会写的血泪教训

5.1 常见问题速查表

问题现象	根本原因	快速定位方法	解决方案
Loss为nan或inf	`softmax`输入含`-inf`未mask，或`log(0)`	在`cross_entropy`前加`assert not np.any(np.isnan(logits))`	检查attention mask是否正确broadcast，`logits`最大值是否过大（>88）
Loss不下降，卡在2.3	`W_q`,`W_k`,`W_v`初始化为全零，导致`q@k.T`全零，softmax输出均匀分布	`print(np.mean(np.abs(q@k.T)))`，应>0.01	用`np.random.normal(0,0.02,(d,d))`初始化权重，非零均值
GPU内存爆满（即使用CPU）	`mask`未`astype(np.bool_)`，NumPy用`int`存储`True/False`，内存翻4倍	`print(mask.nbytes)`，对比`mask.astype(bool).nbytes`	`mask = mask.astype(np.bool_)`，bool数组省内存8倍
梯度为0，参数不更新	`gelu`梯度计算漏了`d_inner/d_x`项，或`layer_norm`梯度未考虑`mean/std`对`x`的依赖	`print(np.mean(np.abs(grads['W1'])))`，应>1e-5	重推GELU梯度，用符号微分工具（如SymPy）验证

5.2 我踩过的3个致命坑与现场debug记录

坑1：Attention mask的广播维度错位
现象：训练10个step后，loss从2.3跳到15.7，然后nan。
debug过程：

print("scores shape:", scores.shape)→(1,8,32,32)，正常；
print("mask shape:", mask.shape)→(32,32)，问题！mask应为(1,1,32,32)才能和scores广播；
scores = np.where(mask, scores, -1e9)→ 因为mask是(32,32)，NumPy把它广播成(1,8,32,32)，但广播规则是沿B和H维度复制，导致所有head共享同一mask，而-1e9被错误地加在了scores[0,0,:,:]上，其他head不受影响，梯度爆炸。
解决方案：mask = mask.reshape(1,1,*mask.shape)，强制四维。

坑2：LayerNorm的std计算用np.var而非np.std
现象：ln_out输出全是nan，但mean和x-mean都正常。
debug过程：

print("var:", np.var(x, axis=-1))→[nan nan]；
print("std:", np.std(x, axis=-1))→[1.2 0.8]；
查NumPy文档：np.var默认ddof=0，但np.std是sqrt(var)，当var因数值问题为负时，sqrt(neg)=nan。
解决方案：std = np.sqrt(np.var(x, axis=-1, keepdims=True) + 1e-8)，显式加eps。

坑3：GELU梯度中x**3的溢出
现象：d_gelu输出含inf，导致后续梯度全inf。
debug过程：

print("x max:", np.max(np.abs(x)))→12.5；
print("x**3 max:", np.max(np.abs(x**3)))→1953.125；
0.044715 * 1953.125 ≈ 87.3，np.tanh(87.3)在FP32下饱和为1，但x**3本身已超FP32范围（~3.4e38），虽未溢出，但精度丢失严重。
解决方案：改用np.clip(x, -10, 10)在GELU前截断，或用更稳定的GELU实现（0.5 * x * (1 + np.tanh(0.79788456 * (x + 0.044715 * x**3)))，系数已归一化）。

5.3 性能优化技巧：让NumPy跑得比你想象中快

向量化优先：所有循环用np.arange+索引代替。例如，计算position * div_term，用position[:, None] * div_term[None, :]（广播），比双重for快200倍；
内存连续性：reshape后立即copy()，避免view导致的cache miss。q = q.reshape(B, T, n_heads, d_k).transpose(0,2,1,3).copy()；
预分配数组：d_logits = np.empty_like(logits)，而非d_logits = np.zeros_like(logits)，减少内存分配开销；
关闭警告：np.seterr(all='ignore')，避免RuntimeWarning: invalid value encountered in true_divide打断训练流。

最后分享一个小技巧：在Jupyter里用%timeit测试每行耗时，你会发现q @ k.T占整个attention 60%时间。此时，把q和k转成float32（q = q.astype(np.float32)），速度提升40%，且精度损失可忽略（float32的相对误差<1e-6）。

6. 从Part 2到真实工程：这个练习如何迁移到你的日常工作中

做完Part 2，你手上有一个能跑通的、全手动梯度的语言模型。但这不是终点，而是你理解现代LLM的起点。我带团队做模型优化时，90%的线上问题都能回溯到Part 2里练过的某个环节：

当线上服务OOM，我第一反应是检查attention mask的shape和dtype，因为Part 2里mask占内存的教训太深刻；
当模型训练loss震荡，我会用Part 2的debug方法：print(np.mean(np.abs(grads['W_q'])))，看梯度是否健康；
当需要定制化attention（如稀疏attention），我直接复用Part 2的multi_head_attention函数，只改scores计算部分，因为骨架已经过千次验证。

这个练习的价值，不在于你最终实现了多大的模型，而在于你获得了对tensor流动的直觉。下次看到论文里说“we apply rotary positional embedding”，你脑子里自动浮现q和k如何被cos/sin矩阵旋转；看到“flash attention”，你立刻意识到它是在优化q @ k.T的IO瓶颈。这种直觉，没法从API文档里抄来，只能靠一行行代码喂出来。我自己现在写PyTorch模型，依然习惯在关键层后加assert x.shape == expected_shape，这个习惯，就来自Part 2里被shape错误毒打的那72小时。

如果你真按这个路径走完，你会发现自己看Hugging Face源码的速度快了3倍——因为LlamaAttention.forward里的q = self.q_proj(hidden_states)，你马上能脑补出q_proj.weight的shape，以及hidden_states经过@后的维度变化。这才是“from scratch”真正的含义：不是重复造轮子，而是亲手拆开每一个齿轮，看清它为什么咬合，又为什么磨损。

查看全文

http://www.jsqmd.com/news/1003973/