当前位置：首页 > news >正文

Transformer注意力机制实操内核：缩放点积、多头解耦与因果掩码

news 2026/7/30 23:50:44

1. 这个“臭名昭著”的注意力机制，到底在 Transformer 里干了什么？

你打开任何一篇讲大模型的入门文章，“Attention is all you need”这句标题几乎必然出现；你翻看 PyTorch 或 Hugging Face 的源码，nn.MultiheadAttention是最常被调用的模块之一；你调试一个训练崩溃的模型，十有八九要回溯到attention_weights的 shape 是否对齐、mask是否漏填、causal逻辑是否写反。它不是某个炫技的附加功能，而是 Transformer 的心脏、骨架、神经系统——三位一体。所谓“臭名昭著”，不是因为它难懂，而是因为它太核心、太敏感、太容易出错：一个 softmax 的温度参数没调好，整个序列的长程依赖就塌缩成局部噪声；一个 key-value 缓存的维度搞错一位，GPU 显存直接爆满报 OOM；一次 casual mask 的布尔索引越界，训练 loss 瞬间发散成 NaN。我带过三届实习生，每人第一次独立实现ScaledDotProductAttention，平均要卡住 3.2 小时——不是卡在公式推导，而是卡在q @ k.T / sqrt(d_k)里那个除法到底是除标量还是除向量、mask是加负无穷还是乘零、attn_output_weights该不该 detach。这篇文章不讲论文复述，不堆数学符号，只讲我在工业级模型（从 7B 到 70B 参数量）实际部署中，反复验证、踩坑、重写、压测过的注意力机制实操内核：它为什么必须是“缩放点积”，为什么 head 数必须整除d_model，为什么causal=True时不能用torch.nn.functional.scaled_dot_product_attention的默认实现，以及——最关键的——当你看到nan出现在 attention score 里时，第一眼该盯哪三行代码。如果你正在调试一个 attention 相关的 bug，或者正准备手写一个兼容 FlashAttention 的自定义 kernel，或者只是想彻底搞明白为什么 LLaMA 不用 RoPE 而要用 RMSNorm 配合 attention，那这篇就是为你写的。

2. 整体设计思路与方案选型背后的硬逻辑

2.1 为什么非得是“缩放点积”，而不是别的相似度计算？

很多人初学时会疑惑：为什么 attention 公式里一定要有个1/sqrt(d_k)的缩放因子？直接softmax(q @ k.T)不行吗？答案是：不行，而且会立刻崩。这不是一个可选项，而是一个数值稳定性强制要求。让我用一个真实调试案例说明：去年我们部署一个金融新闻摘要模型，在 batch_size=16、seq_len=512 的场景下，q @ k.T的输出值域集中在 [-80, +120] 区间。当d_k=64时，q @ k.T的方差理论值约为d_k = 64，实际观测均值为 0，标准差约 7.8。但一旦去掉1/sqrt(64)=0.125，q @ k.T的值域就变成 [-10, +15]，而 softmax 对输入非常敏感——输入增加 1，输出概率可能翻倍；输入增加 10，某一项概率就趋近于 1，其余全趋近于 0。结果就是 attention weights 变成 one-hot 式的硬分配，模型彻底丧失泛化能力，BLEU 分数从 32.7 暴跌到 18.3。更致命的是，当d_k=128时，不缩放的q @ k.T方差理论值达 128，实测值域 [-180, +220]，softmax 输入溢出，直接产出inf和nan。缩放因子1/sqrt(d_k)的本质，是把q @ k.T的方差强行拉回到 1 附近，让 softmax 处于其最稳定的工作区间（输入在 [-5, +5] 内）。这不是经验调参，而是线性代数+概率论的必然推导：假设q和k各维度独立同分布于N(0, 1/d_k)，则q @ k.T的每个元素期望为 0，方差为d_k * (1/d_k)^2 = 1/d_k，所以q @ k.T整体方差为1/d_k，要恢复到方差为 1，必须乘以sqrt(d_k)—— 即除以1/sqrt(d_k)。所有主流框架（PyTorch、JAX、TensorFlow）都内置此缩放，但如果你手写 kernel 或用低阶 API（如 CUDA cuBLAS），这个因子必须手动补上，漏掉等于埋雷。

2.2 多头注意力（Multi-Head）不是为了“并行加速”，而是为了“表征解耦”

另一个常见误解是：“多头是为了 GPU 并行，提升速度”。错。多头的核心价值在于表征空间的正交分解。单头 attention 的q, k, v权重矩阵都是(d_model, d_k)，它们共享同一组参数，学习到的注意力模式高度耦合——比如一个头可能同时捕捉“主语-谓语”和“时间状语-动词”两种关系，导致梯度更新时相互干扰。而多头将d_model拆分为h个子空间，每个头独立学习q_i, k_i, v_i ∈ R^{d_k}（其中d_k = d_model // h），相当于给模型配备了h个专用“注意力探针”：一个专抓语法结构，一个专抓指代消解，一个专抓情感极性，一个专抓数字逻辑。我们在 LLaMA-2-13B 上做过 ablation 实验：固定总参数量，对比单头（h=1, d_k=5120）vs 八头（h=8, d_k=640），在 GSM8K 数学推理任务上，八头比单头准确率高 11.4%，且训练 loss 曲线更平滑、收敛更快。关键证据来自 probing analysis：用线性 probe 分别测试各 head 对不同语言属性的识别能力，发现第 2 头在依存句法树距离预测上 R²=0.87，第 5 头在共指链长度预测上 R²=0.79，而单头 probe 的 R² 均低于 0.45。这证明多头不是冗余计算，而是强制模型学习多种正交的注意力模式。因此，h的选择绝非越大越好——h=32在d_model=4096时d_k=128，每个头容量过大，易过拟合；h=2时d_k=2048，头间差异太小，失去解耦意义。工业实践中的黄金法则是：h必须是 2 的幂（便于 GPU warp shuffle），且d_k应落在[64, 128]区间。例如d_model=4096时，h=32（d_k=128）是 LLaMA 系列的选择；d_model=5120时，h=8（d_k=640）是 Mixtral 的选择——注意640不是 64，这是为适配 MoE 专家路由做的妥协，但d_k仍保持>64的下限。

2.3 为什么 causal mask 必须用上三角矩阵，且不能简单设为 -inf？

因果掩码（causal mask）是自回归生成的基石，但它的实现细节极易出错。标准做法是构造一个seq_len x seq_len的上三角矩阵，对角线及以下为0，上方为-inf，再加到q @ k.T上。但问题来了：-inf在 float16 下是0xF800，在某些 GPU（如 A100）的 tensor core 计算中，-inf + finite_value可能因硬件 rounding mode 不同而产出nan，而非预期的-inf。我们在线上服务中遇到过真实 case：当q @ k.T的最大值为120.5，而 mask 加的是-inf，某次 kernel launch 中120.5 + (-inf)返回nan，后续 softmax 直接失效。解决方案不是换数据类型（float32 显存翻倍），而是改用masking by multiplication：构造布尔 maskM[i,j] = (i >= j)，然后attn_scores = q @ k.T * M + (1 - M) * (-1e9)。这里-1e9是一个足够小的有限数，在 float16 下精确表示为-1000000000.0，且120.5 + (-1e9) ≈ -1e9，不会触发 inf/nan。Hugging Face Transformers 从 v4.35 开始默认启用此方案，PyTorch 2.0+ 的scaled_dot_product_attention也支持is_causal=True自动处理，但前提是你的q, k, vshape 符合(batch, seq_len, num_heads, head_dim)，否则它会 fallback 到 naive 实现，mask 逻辑可能错位。我们曾因q的 shape 是(batch, num_heads, seq_len, head_dim)（即 head 维度在第二位），导致is_causal=True误将 batch 维度当作 seq 维度，生成错误 mask，模型输出全乱码。因此，无论用哪个框架，第一步永远是print(q.shape, k.shape, v.shape)确认 layout。

3. 核心细节解析与实操要点

3.1 QKV 投影的权重初始化：为什么用 Xavier Uniform，而不是 Kaiming？

QKV 三个投影层的权重初始化，直接影响 attention 的初始分布和训练稳定性。常见错误是统一用nn.Linear默认的 Kaiming 初始化（适用于 ReLU 激活），但 attention 中q, k的点积结果需服从近似标准正态分布，才能保证缩放后方差为 1。Xavier Uniform 的理论依据是：对于线性层y = Wx + b，若x各维度独立同分布于U[-a,a]，则为使y方差也为U[-a,a]，W应初始化为U[-1/sqrt(in_features), 1/sqrt(in_features)]。在q = x @ W_q中，x是前一层输出，通常经 LayerNorm 后方差≈1，所以W_q的初始化范围应为±1/sqrt(d_model)。PyTorch 的nn.init.xavier_uniform_正是实现此逻辑。我们对比过：在 OPT-1.3B 上，QKV 全用 Kaiming，训练 1000 step 后q @ k.T的 std 达 12.7（远超目标 1）；改用 Xavier Uniform 后，std 稳定在 0.98±0.03。更关键的是，Xavier 能显著降低 early training 的 gradient explosion 概率。实操中，必须对W_q, W_k, W_v三个权重矩阵分别初始化，不能共享初始化器实例——因为W_q和W_k的输入x相同，但W_v的输入是k（已变换），分布不同。我们的标准模板是：

self.w_q = nn.Linear(d_model, d_k * h, bias=False) self.w_k = nn.Linear(d_model, d_k * h, bias=False) self.w_v = nn.Linear(d_model, d_v * h, bias=False) nn.init.xavier_uniform_(self.w_q.weight) nn.init.xavier_uniform_(self.w_k.weight) nn.init.xavier_uniform_(self.w_v.weight)

注意bias=False：attention 中q,k,v的偏置项不仅无益，反而破坏 zero-mean 假设，导致缩放失效。所有 SOTA 模型（LLaMA、Gemma、Phi-3）均禁用 bias。

3.2 Attention 输出的 dropout：为什么只 drop output，不 drop weights？

Attention 层的 dropout 位置，是另一个高频误区。有人会在q, k, v投影后加 dropout，有人会在attn_weights上加，但正确位置是attn_output（即attn_weights @ v的结果）之后。原因有三：
第一，q, k, v是中间特征，对其 dropout 会破坏q @ k.T的统计特性，导致缩放因子失效；
第二，attn_weights是概率分布，对其 dropout（即随机置零某些权重）等价于强制模型忽略部分 token，但在训练初期，模型尚未学会哪些 token 重要，这种随机屏蔽会极大拖慢收敛；
第三，attn_output是最终融合信息的向量，对其 dropout 是标准的正则化手段，且与 FFN 层的 dropout 逻辑一致，便于统一管理 dropout rate。

我们在 7B 模型上测试过不同 dropout 位置对 loss 的影响：q投影后 dropout（rate=0.1）使收敛步数增加 37%；attn_weightsdropout 使 validation loss 波动幅度扩大 2.3 倍；而attn_outputdropout（rate=0.1）则稳定降低 overfitting，test loss 下降 8.2%。PyTorch 官方MultiheadAttention的dropout_p参数正是作用于此处，但要注意：当batch_first=True时，dropout 应用在(batch, seq_len, embed_dim)上；当batch_first=False（默认）时，则在(seq_len, batch, embed_dim)上——务必确认你的数据 layout 与 dropout axis 匹配，否则会误删整个 batch 的某个维度。

3.3 KV Cache 的内存布局：为什么用`(batch, num_heads, head_dim, seq_len)`而不是`(batch, seq_len, num_heads, head_dim)`？

在推理阶段，为避免重复计算历史 token 的k, v，必须缓存它们，即 KV Cache。但 cache 的 tensor shape 设计，直接决定显存占用和访问效率。错误做法是按q的 layout 存储k_cache = torch.cat([k_cache, k_new], dim=1)，即(batch, seq_len, num_heads, head_dim)。问题在于：每次 append 新 token，都要在seq_len维度做 concat，触发内存 realloc 和 copy，latency 随seq_len线性增长。正确做法是预分配固定大小的 cache，并采用k_cache: (batch, num_heads, head_dim, max_seq_len)的 layout。这样，新k_new的 shape 是(batch, num_heads, head_dim, 1)，只需k_cache[..., :cur_len] = k_new，是纯 in-place write，latency 恒定。更重要的是，此 layout 与 FlashAttention 的 kernel 要求完全一致：FlashAttention-2 的flash_attn_varlen_qkvpacked_func强制qkv为(total_tokens, 3, num_heads, head_dim)，而total_tokens = sum(seq_lens)，其内部 kernel 对k, v的访存 pattern 就是按head_dim连续排列。我们实测：在 A100 上，max_seq_len=2048时，k_cache用(b,h,d,s)layout 比(b,s,h,d)layout 推理吞吐高 2.1 倍，显存碎片减少 63%。Hugging Face 的StaticCache和SlidingWindowCache均采用此设计，但很多自定义实现仍沿用旧 layout，这是性能瓶颈的常见根源。

4. 实操过程与核心环节实现

4.1 手写 Scaled Dot-Product Attention：从零开始的 7 行可靠实现

下面是一个经过生产环境验证的、可直接 copy-paste 的ScaledDotProductAttention实现。它规避了所有常见陷阱，支持causal、dropout、attn_mask，且与 PyTorch 原生行为 100% 一致：

import torch import torch.nn as nn import torch.nn.functional as F class ScaledDotProductAttention(nn.Module): def __init__(self, dropout_p: float = 0.0): super().__init__() self.dropout = nn.Dropout(dropout_p) def forward( self, q: torch.Tensor, # (batch, seq_len_q, d_k * h) k: torch.Tensor, # (batch, seq_len_k, d_k * h) v: torch.Tensor, # (batch, seq_len_k, d_v * h) attn_mask: torch.Tensor = None, # (seq_len_q, seq_len_k) or (batch, 1, seq_len_q, seq_len_k) is_causal: bool = False, need_weights: bool = True, ) -> tuple[torch.Tensor, torch.Tensor | None]: # Step 1: Reshape to (batch, num_heads, seq_len, head_dim) b, s_q, _ = q.shape _, s_k, _ = k.shape h = self.num_heads # assume set in __init__ or passed d_k = self.head_dim q = q.view(b, s_q, h, d_k).transpose(1, 2) # (b, h, s_q, d_k) k = k.view(b, s_k, h, d_k).transpose(1, 2) # (b, h, s_k, d_k) v = v.view(b, s_k, h, d_k).transpose(1, 2) # (b, h, s_k, d_k) # Step 2: Compute attention scores with scaling attn_scores = torch.matmul(q, k.transpose(-2, -1)) / (d_k ** 0.5) # (b, h, s_q, s_k) # Step 3: Apply causal mask if needed if is_causal: # Create upper triangular mask: True where j > i (future tokens) causal_mask = torch.triu(torch.ones(s_q, s_k, dtype=torch.bool, device=q.device), diagonal=1) attn_scores = attn_scores.masked_fill(causal_mask, float('-inf')) # Step 4: Apply user-provided mask if attn_mask is not None: if attn_mask.dim() == 2: # (s_q, s_k) -> (1, 1, s_q, s_k) attn_mask = attn_mask.unsqueeze(0).unsqueeze(0) elif attn_mask.dim() == 3: # (b, s_q, s_k) -> (b, 1, s_q, s_k) attn_mask = attn_mask.unsqueeze(1) attn_scores = attn_scores.masked_fill(~attn_mask, float('-inf')) # Step 5: Softmax and dropout attn_weights = F.softmax(attn_scores, dim=-1) # (b, h, s_q, s_k) attn_weights = self.dropout(attn_weights) # Step 6: Weighted sum attn_output = torch.matmul(attn_weights, v) # (b, h, s_q, d_v) # Step 7: Reshape back attn_output = attn_output.transpose(1, 2).contiguous().view(b, s_q, -1) # (b, s_q, d_v * h) if need_weights: return attn_output, attn_weights else: return attn_output, None

关键细节说明：

Line 28-30：causal_mask用torch.triu(..., diagonal=1)确保j>i时为True，即未来 token 被屏蔽。diagonal=1是精髓，diagonal=0会错误屏蔽对角线（当前 token），导致模型无法关注自身。
Line 33-37：attn_mask的维度自动广播逻辑。用户传入(s_q, s_k)时，我们升维到(1,1,s_q,s_k)，使其能与(b,h,s_q,s_k)的attn_scoresbroadcast；传入(b,s_q,s_k)时，升维到(b,1,s_q,s_k)。这是避免RuntimeError: The size of tensor a (128) must match the size of tensor b (32)的关键。
Line 40：F.softmax的dim=-1确保在s_k维度归一化，即每个 query 对所有 key 的权重和为 1。若误设为dim=-2，则每个 key 对所有 query 的权重和为 1，完全错误。
Line 47：contiguous()不可省略。transpose后 tensor 可能 non-contiguous，view会报错。这是新手最常遇到的RuntimeError: view size is not compatible with input tensor's size and stride的根源。

4.2 FlashAttention 集成：如何绕过 PyTorch 的限制，直连 CUDA kernel

FlashAttention 是工业级部署的标配，但直接调用flash_attn_qkvpacked_func常因 shape 不匹配失败。根本原因是：PyTorch 的MultiheadAttention输出q,k,v是(seq_len, batch, embed_dim)，而 FlashAttention 要求(batch, seq_len, num_heads, head_dim)且q,k,vpacked。以下是安全集成方案：

# 假设你已有 q,k,v from Linear layers, shape: (b, s, d_model) b, s, d_model = q.shape h = self.num_heads d_k = d_model // h # Step 1: Reshape and pack qkv = torch.stack([ q.view(b, s, h, d_k), k.view(b, s, h, d_k), v.view(b, s, h, d_k) ], dim=2) # (b, s, 3, h, d_k) # Step 2: Flatten heads into batch for FlashAttention qkv = qkv.view(b * s, 3, h, d_k) # (b*s, 3, h, d_k) # Step 3: Call FlashAttention # Note: flash_attn_qkvpacked_func expects (total, 3, h, d) # and returns (total, h, d) out = flash_attn_qkvpacked_func( qkv, dropout_p=0.0, softmax_scale=1.0 / math.sqrt(d_k), causal=is_causal ) # Step 4: Reshape back out = out.view(b, s, h, d_k).view(b, s, -1) # (b, s, d_model)

核心避坑点：

softmax_scale必须显式传入：FlashAttention 不自动应用1/sqrt(d_k)，若漏传，attention scores 会爆炸。
causal参数必须与你的 mask 逻辑一致：若is_causal=True，FlashAttention 内部会生成上三角 mask，此时外部attn_mask必须为None，否则双重 mask 导致全-inf。
qkv的 packing 顺序必须是[q,k,v]：顺序错位会导致k当q用，v当k用，模型彻底失效。我们曾因 tensor 的.data_ptr()地址未对齐，导致stack时内存覆盖，debug 了 17 小时。

4.3 RoPE 位置编码的嵌入时机：为什么必须在 QKV 投影后、attention 计算前？

RoPE（Rotary Position Embedding）不是加在输入 embedding 上，而是作用于q, k投影后的向量。原因在于：RoPE 的核心是旋转矩阵R_θ，它通过q_rot = R_θ q将绝对位置信息编码为相对角度差，从而天然支持外推。若加在输入上，R_θ作用于x，则q = x @ W_q，R_θ与W_q不可交换，破坏旋转不变性。正确流程是：

q_raw = x @ W_q
q_rot = apply_rope(q_raw, pos_ids)
k_rot = apply_rope(k_raw, pos_ids)
attn_scores = q_rot @ k_rot.T / sqrt(d_k)

apply_rope的实现关键是分组旋转：将q_raw每两个维度(q_i, q_{i+1})视为一个二维向量，用cos θ_i, sin θ_i旋转。θ_i = 10000^(-2i/d_k)是标准衰减频率。我们实测：在 LLaMA-2-7B 上，RoPE 加在输入 embedding 上，PPL（Perplexity）升高 1.8；加在q,k投影后，PPL 降低 0.3，且外推到seq_len=8192时 loss 仅上升 0.07。Hugging Face 的LlamaRotaryEmbedding类封装了此逻辑，但注意其forward方法输入是q, k, position_ids，输出是q_embed, k_embed，必须在q @ k.T前调用。

5. 常见问题与排查技巧实录

5.1 Attention Score 出现 nan 的 5 种根因与速查表

现象	根因	检查命令	修复方案
`attn_scores`全`nan`	`q`或`k`中含`nan`	`torch.isnan(q).any(), torch.isnan(k).any()`	检查前一层 LayerNorm 的`eps`是否过小（<1e-6），或输入数据是否有非法值
`attn_scores`部分`nan`	`causal_mask`与`attn_mask`维度不匹配，`~attn_mask`产生`nan`	`print(attn_mask.shape, attn_scores.shape)`	确保`attn_mask`broadcast 后 shape 与`attn_scores`一致，用`masked_fill`前先`print(attn_mask.dtype)`
`attn_weights`全`0`或`1`	`q @ k.T`值域过大，softmax 饱和	`attn_scores.max(), attn_scores.min()`	检查`d_k`是否正确计算，`1/sqrt(d_k)`是否漏乘
`attn_output`为`nan`	`attn_weights @ v`中`v`含`inf`	`torch.isinf(v).any()`	检查`v`投影层是否有`inf`输入，或`v`的初始化是否异常
训练初期`loss=nan`	`q @ k.T`在`fp16`下 overflow	`q.half().bfloat16().dtype`	改用`bfloat16`（A100 支持），或在`q @ k.T`后插入`torch.clamp(attn_scores, min=-5e4, max=5e4)`

提示：最高效的 debug 流程是，在forward函数开头插入torch.autograd.set_detect_anomaly(True)，然后运行一个 mini-batch，错误会精准定位到q @ k.T这一行。不要试图在训练循环里 print，nan 会污染整个计算图。

5.2 多头注意力 head 间差异过小：如何诊断与增强

当所有 head 的attn_weights相似度 >0.95，说明多头退化为单头。诊断方法：

可视化：取一个 batch 的attn_weights[0, :, 0, :]（第一个 head，第一个 token），用plt.imshow画热力图，对比第 2、5、8 head，若图案高度相似，则退化。
量化指标：计算 head 间 cosine similarity：sim = F.cosine_similarity(weights[0], weights[1], dim=-1).mean()，sim > 0.9即告警。

增强策略：

Head-wise Dropout：为每个 head 设置独立 dropout rate，dropout_rates = torch.rand(h) * 0.1，强制 head 学习不同鲁棒性。
Differential Initialization：W_q_i = W_q_base + 0.01 * torch.randn_like(W_q_base)，微小扰动打破对称性。
Loss Regularization：添加 head 差异损失L_div = -sum(cosine_sim(weights[i], weights[j]) for i<j)，鼓励正交。

我们在 13B 模型上启用Differential Initialization，head 间平均相似度从 0.92 降至 0.76，MMLU 准确率提升 2.3%。

5.3 KV Cache 显存暴涨：3 个被忽视的元凶

KV Cache 显存占用 =2 * batch_size * num_heads * head_dim * max_seq_len * sizeof(dtype)。但实际常超预期，原因：

Padding to multiple of 64：CUDA kernel 为对齐，会将max_seq_len向上取整到 64 的倍数。例如max_seq_len=2049，cache 实际分配2048+64=2112，浪费 3.1%。解决方案：max_seq_len = ((max_seq_len - 1) // 64 + 1) * 64预计算。
Gradient checkpointing 干扰：启用torch.utils.checkpoint时，KV Cache 若在 checkpoint 区域内，会被重复保存。解决方案：将 cache 创建移出checkpoint装饰器范围，或用torch.no_grad()包裹 cache 更新。
CPU-GPU Copy overhead：当cache在 CPU，每次推理都cache.to(device)，触发隐式 copy。解决方案：初始化时cache = cache.to(device).pin_memory()，后续直接cache.copy_(new_k)。

我们曾因未处理 padding，max_seq_len=4097的模型显存多占 256MB；因 checkpoint 错位，cache 显存峰值翻倍。这些细节，文档从不提及，但线上服务每一分显存都关乎成本。

6. 工业级部署中的注意力优化实战

6.1 FlashAttention-2 与 PagedAttention 的协同：如何突破 context length 限制

当seq_len > 32768，即使 FlashAttention-2 也会因q @ k.T的O(n^2)内存占用而失败。PagedAttention（vLLM 的核心技术）通过分页管理 KV Cache，将显存占用从O(n^2)降至O(n)。但二者不是替代关系，而是互补：FlashAttention-2 加速单个 block 的 attention 计算，PagedAttention 管理 block 的调度。集成要点：

Block Size 选择：block_size=16是 A100 的黄金值，16*16=256正好匹配 Tensor Core 的 warp size。block_size=32在 H100 上更优。
Paged KV Layout：k_cache不再是(b, h, d, s)，而是(num_blocks, block_size, h, d)，每个 block 存储连续block_size个 token 的k。
Attention Kernel 修改：不能直接调用flash_attn_qkvpacked_func，需用flash_attn_with_kvcache，传入k_cache, v_cache, cache_seqlens。

我们部署 70B 模型时，seq_len=65536，纯 FlashAttention 显存不足；启用 PagedAttention 后，显存从 82GB 降至 41GB，吞吐提升 3.8 倍。关键代码片段：

# Pre-allocate paged cache num_blocks = (max_seq_len + block_size - 1) // block_size k_cache = torch.empty(num_blocks, block_size, h, d_k, dtype=dtype, device=device) v_cache = torch.empty(num_blocks, block_size, h, d_k, dtype=dtype, device=device) # During inference, get block indices for current sequence block_tables = get_block_table(cur_seq_len, block_size) # e.g., [0,1,2,...] cache_seqlens = torch.tensor([cur_seq_len], device=device) # Call paged kernel out = flash_attn_with_kvcache( q, k, v, k_cache, v_cache, cache_seqlens=cache_seqlens, block_table=block_tables, softmax_scale=1.0 / math.sqrt(d_k), causal=True )

注意：block_table是一个torch.LongTensor，指示每个逻辑位置对应的物理 block index。get_block_table必须确保逻辑位置i映射到block_tables[i // block_size]，这是 PagedAttention 正确性的基石。