当前位置：首页 > news >正文

大模型API缓存的底层原理：从显存到网关

news 2026/4/26 3:16:21

最近和一位朋友聊到API的缓存，他提出了一个很敏锐的问题：

“其实tokens缓存都是假的吧？LLM本身就是无状态的。这种缓存只是一种计费规则。实际上跟上下文显存空间有关，你来用，他那边就会给你开一个显存池，就是为了反复压缩切换。不可能你现在来一次，等下不来了，他还把你这份留着来压缩显存，开销太大了。”

这个直觉基本完全正确，但只猜中了故事的一半。

LLM确实是无状态的。每一次推理，都必须把全部上下文（系统提示词+全部历史消息+新问题）重新输入计算。那么，所谓的“缓存”到底缓存在哪里？为什么API厂商的定价里都有“缓存命中”这个折扣项？

答案在于，市面上的“缓存”其实是三种完全不同的机制。我们一层层来看。

这是最底层、也是朋友直觉最准的那部分。

模型生成文本时，为了避免每个新token都把之前所有token的计算重跑一遍，推理框架会把已经算好的Key-Value状态矩阵暂存在GPU显存（VRAM）里。这就是KV Cache。

核心特征：

朋友提到的“反复压缩切换显存”，正是现代推理框架管理KV Cache的核心技术。比如vLLM的PagedAttention，把显存切成小块，像操作系统管理虚拟内存一样分配和回收。

这种KV Cache对用户是透明的。你没法单独为它付费，也没法要求服务商“把我这份KV Cache留到明天”。它只是一个瞬时的、服务于当前连续对话的工程优化。

这才是我们在API平台后台看到的“开启缓存”开关主要控制的那一层。

原理很简单——它就是一个巨大的、以请求为key、以回复为value的分布式字典，通常用Redis实现。

流程如下：

关键特征：

朋友直觉里“不可能你走了还把你的留着”，在显存（KV Cache）层面是对的，但在内存（响应缓存）层面不是。内存便宜得多，服务商完全可以把你的一条回复保留24小时，只要它认定这个请求的复用频率够高。

这是最容易被和第二层混淆，但技术上完全不同的机制。

如果你的请求里有一段非常长的、完全相同的固定前缀（比如一份300页的小说开头、一套复杂的Function Calling定义），系统可以识别出这段前缀的哈希，直接从存储器中加载它对应的KV状态，跳过对这段前缀的重计算。

它和KV Cache的区别：KV Cache是显存里的瞬时态，一旦释放就消失。Prompt Cache则是把某个前缀的KV状态序列化后持久化在了更慢但更便宜的硬盘或内存里。

它和网关响应缓存的区别：响应缓存要求整个请求完全一致。而Prompt Cache只要求前缀一致。你的问题可以千变万化，但只要那大段前缀相同，这部分计算费就省下来了。Anthropic等厂商提供的就是这种原生服务端缓存，你只需标记出希望缓存的前缀部分即可。