当前位置：首页 > news >正文

DeepSeek V4 的注意力机制设计：CSA 和 HCA

news 2026/6/23 22:49:53

写 DeepSeek V4，注意力机制这一块其实很值得单独拿出来看。官方公开材料已经把重点说得比较清楚：这代模型在长上下文上最核心的结构升级，就是把Compressed Sparse Attention和Heavily Compressed Attention交替放进主干网络里。

这套设计解决的问题也很具体：当上下文真的拉到几十万、上百万 token 时，模型面对的不只是“能不能支持长上下文”，还有“推理时每生成一个 token，到底要付出多少 FLOPs、多少 KV cache、多少延迟”。

DeepSeek V4 的思路不复杂：历史信息不一定要用同一种分辨率保留下来，也不是每一层都要花同样的代价去读历史。于是它把这件事拆成了两种互补机制。

一、先看背景

V4 的注意力设计不是凭空冒出来的。它的前身是 V3.2 里的DeepSeek Sparse Attention。V3.2 那一代做的事情，大致可以概括成一句话：在一长串历史 token 里，先找出最值得看的那部分，再只对这部分做更细的注意力计算。

到了 V4，这个想法继续往前推，但形式变了。V4 不再直接对原始 KV 序列做稀疏选择，而是先做压缩，再决定用什么方式去读压缩后的历史。后面的CSA和HCA就是从这里出来的。

二、CSA：先压缩，再挑重点

CSA全称是Compressed Sparse Attention。它可以理解成 V3.2 那套稀疏检索思路的延伸版。

在官方说明里，CSA 的做法大致分两步：

先把历史 KV 沿着序列维压缩四倍。
再用一个轻量 indexer 去挑出 top-k 压缩块，只对这部分做稀疏注意力。

这样做的好处很直接。序列先被压短了一次，后面检索的对象就不再是原始 token，而是压缩块。索引空间更小，检索本身也更便宜。它保留的还是“先找重点，再细看重点”这件事。

从直觉上看，CSA 更像一个带放大镜的检索器。它并没有试图对整个百万 token 历史都保持同样精度，而是默认：历史里真正重要的部分只占一小部分，只要先把这部分定位出来，后面的注意力开销就能明显压下来。

下面这张图来自 DeepSeek V4 技术报告，对 CSA 的流程画得很直观：

图里更重要的是信息流方向。左边是完整的历史 KV，先经过一层压缩；中间是索引模块；右边才是被挑出来的压缩块进入稀疏注意力计算。顺着这条路看，CSA 做的事情比较清楚：先降采样，再检索，再精读。

三、HCA：压得更狠，直接看全局

如果说 CSA 还保留着“先找 top-k”这层选择动作，那HCA的思路就更激进一些。

HCA全称是Heavily Compressed Attention。它不是把序列压缩四倍，而是直接压到128x。压到这个程度之后，历史序列已经短到足够小，小到不一定非得再做稀疏选择。于是 V4 的处理方式变成了：对这个高度压缩后的历史，直接做 dense attention。

这听起来有点反直觉，因为大家一提长上下文，第一反应往往是“dense attention 太贵”。HCA 走的是另一条路：不是在原始长序列上做 dense attention，而是在一个非常粗粒度的历史摘要上做 dense attention。这样一来，模型虽然看到的是降分辨率的历史，但它看到的是一整段历史的全局轮廓，而不是若干被挑中的局部块。

可以把 HCA 理解成一种“低清全景图”。它不负责精确回忆远处某个细节，但会给当前层一个全局概览，让模型知道长历史里大概发生过什么。

技术报告里的 HCA 图也很直白：

这张图和 CSA 对比着看会更清楚。HCA 里最醒目的变化，是压缩率更高，后面也没有再接 top-k block selection，而是直接进入 dense attention。它不再强调“找哪几个块最重要”，而是强调“先把整条历史缩成一个便宜得多的全局上下文”。