Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin
paper: https://arxiv.org/pdf/2510.06477
ICLR 2026
一句话概括
这篇论文想说明:LLM 中的 attention sink 和 compression valley 不是两个孤立现象,而是同一个底层机制的两种表现,这个机制就是 residual stream 中某些 token,尤其 BOS token,出现 massive activations。
更直白地说:模型中间层里,某个特殊 token 的激活值突然变得异常大;这个异常大的向量一方面让很多 attention head 把注意力吸过去,形成attention sink,另一方面又让整层 token 表征在奇异值谱上被一个主方向主导,形成表征压缩。论文认为这两件事本质上是同一枚硬币的两面。
它要解决的问题
之前有两个现象一直比较奇怪。
第一个是attention sink:一些 attention head 会把大量注意力放到 BOS、首 token 或其他语义上不太重要的 token 上。看起来很反直觉,因为模型似乎在“浪费注意力”。
第二个是compression valley:LLM 的中间层表征会突然变得很“低维”,也就是高维 hidden states 的有效秩、熵或信息分布明显下降。看起来像模型在中间层把信息压缩了一次。
以前这两个问题大多是分开研究的。本文的核心问题是:它们有没有共同原因?如果有,这个原因能不能被理论证明、被实验验证?论文明确说,此前 attention sink 已经被和 massive activations 联系起来,但 compression valley 还缺少明确因果机制。
关键概念怎么理解
Massive activations:就是 residual stream 中某些 token 的 hidden state 范数特别大,远大于其他 token。论文里特别关注 BOS token,因为很多模型中 BOS token 在中间层会出现极大的 L2 norm。论文报告,在多个模型中,BOS norm 可在中间层上升到普通规模的 (10^3) 到 (10^4) 量级。
Compression valley:论文用 representation matrix 的奇异值分布来度量压缩。把一层里所有 token 的 hidden states 组成矩阵 (X),如果最大奇异值占据了绝大部分能量,那么矩阵虽然形式上是高维的,但实际信息主要集中在少数方向上,熵就会下降,表现为压缩。论文用 matrix-based entropy、anisotropy 等指标衡量这一点。
Attention sink:论文用 sink score / sink rate 衡量某个 token 被多少 attention head 集中关注,重点看 BOS token。它们设定阈值后统计有多少 head 对 BOS 的注意力达到 sink 标准。
核心理论:为什么 massive activation 会导致压缩
论文的理论核心是 Theorem 1:假设 (x_0) 是 BOS token 的表示,(M=|x_0|^2),其他 token 的总能量是 ®,其他 token 与 BOS 的方向对齐程度是 (\alpha),那么表示矩阵 (X) 的最大奇异值满足:
\sigma_1^2 \ge M + \alpha R
这句话的含义是:只要 BOS token 的范数足够大,它就会强行制造出一个主导奇异值。一旦最大奇异值主导整个矩阵,表示矩阵的能量就集中到一个方向,熵下降,有效维度下降,于是出现 compression valley。论文进一步给出了 dominance、anisotropy 和 entropy 的上界/下界关系,说明 norm ratio 越大,压缩越强。([arXiv][1])
这个理论比较重要,因为它不是只说“我们观察到相关”,而是说明:如果一个 token 的激活范数压倒其他 token,那么谱压缩在数学上几乎不可避免。
实验证据
论文在多个 decoder-only LLM 上做了实验,包括 Pythia 410M/6.9B、LLaMA3 8B、Qwen2 7B、Gemma 7B、Bloom 1.7B 等,并提到实验覆盖 410M 到 120B 参数规模。它们在 GSM8K 的 7.5K 训练样本上统计每一层的 normalized entropy、BOS sink rate 和 BOS token norm。结果是三条曲线高度同步:BOS norm 暴涨时,entropy 掉下去,sink rate 接近 1。([arXiv][1])
论文还看了训练过程,发现这三个现象在 Pythia 的训练早期就一起出现,大约在 step 1k 左右形成,并在之后训练中持续存在。这说明它不是推理时偶然出现的小现象,而像是模型训练过程中很早学出来的一种内部结构。([arXiv][1])
更关键的是消融实验。作者在 massive activations 出现的层,把 MLP 对 BOS token 的贡献置零。结果在 LLaMA3 8B 中,原本 entropy 会掉到 0.02 bits,但消融后保持在 0.4–0.5 bits;sink rate 也保持为 0;BOS norm 不再异常放大。这说明 massive activation 不只是和两个现象相关,而是很可能具有因果作用。([arXiv][1])
论文提出的三阶段理论:Mix–Compress–Refine
论文进一步把这个机制上升为一个 LLM 深度计算理论,叫Mix–Compress–Refine。
第一阶段是Mix,早期层,大约 0–20% 深度。这一阶段 attention 比较分散,模型做广泛的信息混合,把不同 token 的上下文初步整合起来。([arXiv][1])
第二阶段是Compress,中间层,大约 20–85% 深度。massive activations 出现,BOS token 变成高范数 token,导致 representation compression,同时 attention sink 出现,模型减少继续混合,避免过度平滑或无效混合。论文认为这一阶段不是“坏事”,而可能是在压缩冗余信息、保留高层语义结构。([arXiv][1])
第三阶段是Refine,后期层,大约 85–100% 深度。BOS token 的相对优势下降,其他 token 的 norm 上升,token norm 逐渐均衡;表示重新展开,attention pattern 从 sink 转向 identity head、previous-token head、局部位置型 attention,用于做 token-specific refinement。
它解释了什么实际现象
这篇论文还解释了一个常见矛盾:为什么有些任务中间层效果最好,而生成任务往往需要最后层。
论文发现,embedding / classification / retrieval 这类任务更适合中间层,因为中间层压缩后,高层语义结构更集中,线性探针、聚类、检索可能更容易。论文在 ARC、SST-2、MTEB 等任务上观察到,embedding-style 任务常在 25–75% 相对深度达到峰值,并且比早期/晚期层高 10–20%。([arXiv][1])
但generation / next-token prediction不一样。生成需要最后阶段的 token-specific refinement,所以 perplexity 和多选 QA 的 LogitLens 性能通常要到后半段,尤其 Phase 3,才明显提升。也就是说,中间层可能已经有较好的语义表征,但还不够适合直接生成下一个 token。
论文真正成立的贡献
我认为它比较扎实的贡献有三个。
第一,它把attention sink、compression valley、massive activation三个现象放到了同一个机制框架里,而不是孤立解释。这个统一视角有价值。
第二,它对“massive activation 导致 compression”给出了比较清楚的谱分析证明。这个理论部分比单纯画曲线更强。
第三,它做了有针对性的 ablation,说明移除 BOS 上的 massive activation 后,compression 和 sink 都会消失或显著削弱。这让文章从“相关性观察”推进到了“机制性证据”。
需要谨慎的地方
这篇论文很有启发,但不要把它理解成已经完全解释了 LLM 内部计算。它主要研究 decoder-only Transformer,且重点围绕 BOS/special token、residual stream norm、奇异值熵和 attention pattern。不同架构、不同 tokenizer、不同位置编码、不同训练策略下,这套三阶段划分未必完全一致。论文自己也提到 RoPE 模型和非 RoPE 模型在后期 attention pattern 上会有差异。
另外,Mix–Compress–Refine 更像是一个机制假说或解释框架,而不是一个已经能直接提升模型训练/推理效果的算法。它的应用价值可能在后续工作中体现,比如 layer selection、early exit、embedding extraction、模型压缩、activation intervention、attention head 分析等。论文结论也说,它希望帮助连接 head-level mechanisms 和 representation geometry,从而指导更高效、可控的 LLM 设计。
