当前位置：首页 > news >正文

QUOKA：革新LLM预填充效率的稀疏注意力算法

news 2026/6/23 19:51:45

1. 项目概述：QUOKA如何革新LLM预填充效率

在大型语言模型（LLM）推理过程中，预填充阶段（Prefill）的注意力计算占据了70%以上的总延迟，这成为制约实际应用性能的关键瓶颈。传统密集注意力机制需要计算查询（Query）与所有键（Key）的交互，导致计算复杂度随序列长度呈O(T²)增长。QUOKA（Query-oriented KV selection for efficient Attention）通过几何相似性分析，提出了一种硬件无关的稀疏注意力算法，在保持模型精度的同时实现了显著的加速效果。

1.1 核心创新点解析

QUOKA的核心突破在于发现了查询向量的几何分布特性：与平均查询余弦相似度较低的"离群查询"往往与更多键产生强交互。如图2所示，在Llama3模型的注意力矩阵中：

高Sq（低余弦相似度）查询（红色）广泛分布于键空间
低Sq查询（蓝色）仅集中于局部区域
这种分布特性在多层注意力头中具有普适性

基于此观察，QUOKA采用三阶段处理流程：

查询子选择：保留最具代表性的NQ个低余弦相似度查询
余弦相似度评分：计算选定查询与键的归一化相似度
分组感知聚合：跨注意力头聚合分数并选择Top-K键值对

这种设计使得在32K上下文长度下，仅需保留12%的KV对即可维持97%的原始准确率（RULER基准测试结果）。

2. 技术实现细节

2.1 查询子选择算法

查询子选择是QUOKA高效性的关键。如算法1所示，其数学实现包含以下步骤：

# 输入: queries (b,nq,T,d), keys (b,nkv,T,d) MQ = mean(Q, dim=2) # 计算平均查询向量 SQ = -CosineSimilarity(Q, MQ) # 计算负余弦相似度 Q_selected = gather(topk(SQ, NQ), Q) # 选择Top-NQ查询

该过程的理论依据源于Theorem 1：对于任意键k，若查询q与其夹角βq越小（相似度越高），且平均查询MQ与k夹角αq越大，则q的选取优先级Sq=-cos(MQ,q)越大。这保证了被选中的查询确实主导了注意力分布。

实际部署中发现，当块大小（BCP）超过512时，选择NQ=BCP/16能在精度和效率间取得最佳平衡。过高的NQ会导致冗余计算，而过低会丢失关键注意力路径。

2.2 余弦相似度评分优化

与传统点积注意力不同，QUOKA采用余弦相似度作为评分函数：

S_{ij} = \frac{Q_i \cdot K_j}{||Q_i|| \cdot ||K_j||}

这种设计具有三大优势：

数值稳定性：相似度范围固定在[-1,1]，避免softmax溢出
几何解释性：直接反映向量空间中的角度关系
硬件友好性：可通过L2归一化+矩阵乘实现，兼容所有BLAS库

在RULER基准测试中，余弦相似度比标准点积注意力提升10.2%的KV选择准确率（见表9）。

2.3 分组感知聚合策略

现代LLM普遍采用分组查询注意力（GQA）架构，QUOKA通过两步聚合解决多头兼容性问题：

查询维度：取各查询-键得分的最大值（保留异常重要交互）
头维度：对KV头取平均得分（利用头间相关性）

Q_norm = Q / norm(Q, dim=-1) # (b,nq,NQ,d) K_norm = K / norm(K, dim=-1) # (b,nkv,T,d) Q_group = mean(Q_norm.reshape(b,nkv,nq//nkv,NQ,d), dim=2) # GQA聚合 S = matmul(Q_group, K_norm.transpose(-1,-2)) # (b,nkv,NQ,T) S_agg = max(S, dim=2) # (b,nkv,T) indices = topk(S_agg, BSA) # 选择Top-BSA键

这种设计在RTX 2080上实现了4.3倍的速度提升，同时内存占用减少67%（见图5d）。