当前位置：首页 > news >正文

突破内存墙：Google Gemma 4 如何通过推测解码实现 3 倍提速？

news 2026/7/1 20:44:39

突破内存墙：Google Gemma 4 如何通过推测解码实现 3 倍提速？

在大型语言模型（LLM）的推理过程中，一个鲜为人知但极为致命的瓶颈是内存墙（Memory Wall）。

当模型进行自回归生成时，处理器绝大部分时间并没有在进行复杂的数学运算，而是在等待从显存中搬运庞大的模型参数。这种受限于内存带宽（Memory-bandwidth bound）的状态，导致 GPU 算力被大量浪费。

Google 在最新的Gemma 4模型家族中，给出了一个极具工程美感的解决方案：多 Token 预测机制（Multi-Token Prediction, 简称 MTP）。

深度解析：推测解码与并行验证机制

MTP 的核心建立在**推测解码（Speculative Decoding）**之上。传统的自回归生成中，由于Token_i+1Token\_{i+1}Token_i+1必须等待Token_iToken\_iToken_i计算完毕，模型的计算图处于高度串行的低效状态。MTP 通过引入“起草-验证”（Draft-then-Verify）范式打破了这种串行限制。

1. 独立起草阶段 (Drafting Phase)

Google 专门为 Gemma 4 训练了一系列极轻量级的起草模型（Drafter Models）。在主干模型（Target Model）受限于显存带宽、慢吞吞加载权重时，Drafter 会利用闲置的流处理器（ALU），以极低的延迟在本地自回归地生成KKK个候选 Token（通常K=3sim5K=3 \\sim 5K=3sim5）。

2. 并行验证阶段 (Parallel Verification Phase)

获取到这KKK个草稿 Token 后，主干模型不再逐个生成，而是将这KKK个 Token 作为已知的上下文，一次性并行送入 Transformer 的注意力机制（Attention Blocks）中。这意味着，Target Model 只需执行单次前向传播（Forward Pass），就能同时计算出这KKK个 Token 的真实概率分布P_targetP\_{target}P_target。

3. 拒绝采样与分布对齐 (Rejection Sampling)

如果仅仅是简单对比，推测解码就毫无意义。MTP 能保证**100% 数学等价（即输出质量零损耗）的核心在于其严密的拒绝采样（Rejection Sampling）**算法：

针对每个候选 Token，如果主干模型评估的概率P_target(x)P\_{target}(x)P_target(x)大于等于起草模型的概率P_drafter(x)P\_{drafter}(x)P_drafter(x)，则该 Token 被直接接受。
如果P_target(x)<P_drafter(x)P\_{target}(x) < P\_{drafter}(x)P_target(x)<P_drafter(x)，系统会以1−fracP_target(x)P_drafter(x)1 - \\frac{P\_{target}(x)}{P\_{drafter}(x)}1−fracP_target(x)P_drafter(x)的概率拒绝该 Token。
一旦在序列的第jjj个位置发生拒绝，系统会立即丢弃第jjj个及之后的所有草稿 Token，并从一个经过修正的残差分布P′∗targetproptomax(0,P∗target−P_drafter)P'*{target} \\propto \\max(0, P*{target} - P\_{drafter})P′∗targetproptomax(0,P∗target−P_drafter)中重新采样出正确的 Token。