当前位置：首页 > news >正文

KV Cache管理架构演进：从连续分配到统一混合内存架构

news 2026/3/27 0:44:24

在生产环境部署过LLM的人都知道模型权重只是问题的一半，另一半是KV cache：存储注意力状态的运行时内存，让模型在生成token时不必从头开始重算。能不能管好这块内存决定了系统是一个卡顿的demo还是一个可用的推理服务。

本文梳理KV cache管理经历的5个时代，从它根本不存在的阶段，到今天正在成型的统一内存架构。文中会结合多个模型的部署经验，对比vLLM、SGLang和TensorRT-LLM在各阶段的应对思路。读完后应当能建立一套判断框架，为具体场景选择合适的方案。

先从KV cache本身说起。

背景：Prefill、Decode与KV Cache

LLM推理分两个阶段。Prefill阶段并行处理全部输入token，在每个注意力层为每个token计算Key和Value向量，属于计算密集型，GPU并行度越高越好。Decode阶段则以自回归方式逐token生成，每个新token都要对先前所有Key-Value对做注意力计算；GPU大部分时间花在从HBM读取KV cache而非运算上，瓶颈在内存带宽。

KV cache的作用就是把已经算过的Key和Value向量缓存下来，避免每个decode步骤重复计算。没有它每生成一个token就得对整个序列重跑一遍注意力，推理速度完全无法接受。

以Llama-3–70B、8K上下文为例：

KV cache per token = 2 (K+V) x 80 layers x 8 KV heads x 128 head_dim x 2 bytes (FP16)
= 2 x 80 x 8 x 128 x 2 = 327,680 bytes ≈ 320 KB per token
For 8K tokens: 320 KB x 8,192 = 2.56 GB per request
For 32 concurrent requests: 2.56 GB x 32 = 81.9 GB

81.9 GB：一块A100 80GB的全部显存都装不下留给模型权重的空间是零。KV cache管理重要正是因为这一点。

Era 0：Pre-GenAI（2017年之前）

Transformer出现之前深度学习的主力是ResNet、YOLO、VGG、Inception这些无状态前馈架构。每次推理独立处理一个输入步骤之间没有任何持久状态，KV cache的概念自然无从谈起。

ONNX Runtime、TensorRT等推理框架也是为这类无状态负载设计的：加载模型，跑前向传播，返回结果。

如果今天仍然只是服务传统视觉或表格模型，后面这些复杂度都不需要关心。

https://avoid.overfit.cn/post/6272647e7bc24c8084545ec3f5ca7972

http://www.jsqmd.com/news/432889/

相关文章：

新手 Java 编程学习日志（Ai生成内容，用于测试 mcp 服务）

通义上线语音双模型：自然语言指令控制声音表达、音色与场景；儿童 AI 语音互动故事平台 Giant 融资 800 万美元丨日报

C++游戏开发之旅 22

Solution - P3642 [APIO2016] 烟花表演

六轴机械臂粒子群轨迹规划与关节动态特性展示：包括收敛曲线、位置、速度及加速度曲线，并支持多种智...

用投入换未来，从爱奇艺财报看它的新打法

基于YOLO26深度学习的无人机视角河道水面垃圾检测系统【python源码+Pyqt5界面+数据集+训练代码】

【开题答辩全过程】以基于Web的医院日间手术管理系统设计与实现为例，包含答辩的问题和答案

成都小程序开发公司排名｜性价比高、不踩坑 - 企业数字化改造和转型

【开题答辩全过程】以基于Web的学生就业管理系统为例，包含答辩的问题和答案

2026开学第一周

200 本电子书乱糟糟？Reader + cpolar 让碎片时间都能高效读

Nginx 高分实战博客：从原理到生产优化的完整指南

LLM-VN LLM-Enhanced Rumor Detection via Virtual Node Induced Edge Prediction

2026 小程序开发公司十强｜避坑要点 + 选择标准一次说清 - 企业数字化改造和转型

强劲性能+超大电池，荣耀WIN畅快游戏不设限

荣耀400以开放推进创新驱动行业体验升级

PCC框架： FACT-CHECKING WITH LARGE LANGUAGE MODELS VIA PROBABILISTIC CERTAINTY AND CONSISTENCY

Python print full text via pprint

深圳小程序公司大盘点：报价、案例、口碑一次看清 - 企业数字化改造和转型

2026 年 TOP10 小程序开发公司行业报告！十大服务商深度剖析 - 企业数字化改造和转型

2026年8款AI字幕与语音转文字工具深度评测：教育、LD与企业培训选型指南

KIRIN HYOKETSU通过本地生产进军美国即饮饮料市场

离线数仓的优化及重构

把激光雷达干到500线以上，华为乾崑到底图什么？

ydata-profiling 汉化魔改

【开题答辩全过程】以基于web的学校田径运动会管理系统开发与实现为例，包含答辩的问题和答案

2026年3月桥梁模板实力厂家，彰显国产技术实力 - 品牌鉴赏师

Go - fmt.Scanln()