当前位置: 首页 > news >正文

KV Cache管理架构演进:从连续分配到统一混合内存架构

在生产环境部署过LLM的人都知道模型权重只是问题的一半,另一半是KV cache:存储注意力状态的运行时内存,让模型在生成token时不必从头开始重算。能不能管好这块内存决定了系统是一个卡顿的demo还是一个可用的推理服务。

本文梳理KV cache管理经历的5个时代,从它根本不存在的阶段,到今天正在成型的统一内存架构。文中会结合多个模型的部署经验,对比vLLM、SGLang和TensorRT-LLM在各阶段的应对思路。读完后应当能建立一套判断框架,为具体场景选择合适的方案。

先从KV cache本身说起。

背景:Prefill、Decode与KV Cache

LLM推理分两个阶段。Prefill阶段并行处理全部输入token,在每个注意力层为每个token计算Key和Value向量,属于计算密集型,GPU并行度越高越好。Decode阶段则以自回归方式逐token生成,每个新token都要对先前所有Key-Value对做注意力计算;GPU大部分时间花在从HBM读取KV cache而非运算上,瓶颈在内存带宽。

KV cache的作用就是把已经算过的Key和Value向量缓存下来,避免每个decode步骤重复计算。没有它每生成一个token就得对整个序列重跑一遍注意力,推理速度完全无法接受。

以Llama-3–70B、8K上下文为例:

  1. KV cache per token = 2 (K+V) x 80 layers x 8 KV heads x 128 head_dim x 2 bytes (FP16)
  2. = 2 x 80 x 8 x 128 x 2 = 327,680 bytes 320 KB per token
  3. For 8K tokens: 320 KB x 8,192 = 2.56 GB per request
  4. For 32 concurrent requests: 2.56 GB x 32 = 81.9 GB

81.9 GB:一块A100 80GB的全部显存都装不下留给模型权重的空间是零。KV cache管理重要正是因为这一点。

Era 0:Pre-GenAI(2017年之前)

Transformer出现之前深度学习的主力是ResNet、YOLO、VGG、Inception这些无状态前馈架构。每次推理独立处理一个输入步骤之间没有任何持久状态,KV cache的概念自然无从谈起。

ONNX Runtime、TensorRT等推理框架也是为这类无状态负载设计的:加载模型,跑前向传播,返回结果。

如果今天仍然只是服务传统视觉或表格模型,后面这些复杂度都不需要关心。

 

https://avoid.overfit.cn/post/6272647e7bc24c8084545ec3f5ca7972

http://www.jsqmd.com/news/432889/

相关文章:

  • 新手 Java 编程学习日志(Ai生成内容,用于测试 mcp 服务)
  • 通义上线语音双模型:自然语言指令控制声音表达、音色与场景;儿童 AI 语音互动故事平台 Giant 融资 800 万美元丨日报
  • 24.Context
  • C++游戏开发之旅 22
  • Solution - P3642 [APIO2016] 烟花表演
  • 六轴机械臂粒子群轨迹规划与关节动态特性展示:包括收敛曲线、位置、速度及加速度曲线,并支持多种智...
  • 用投入换未来,从爱奇艺财报看它的新打法
  • 基于YOLO26深度学习的无人机视角河道水面垃圾检测系统【python源码+Pyqt5界面+数据集+训练代码】
  • 【开题答辩全过程】以 基于Web的医院日间手术管理系统设计与实现为例,包含答辩的问题和答案
  • 成都小程序开发公司排名|性价比高、不踩坑 - 企业数字化改造和转型
  • 【开题答辩全过程】以 基于Web的学生就业管理系统为例,包含答辩的问题和答案
  • 2026开学第一周
  • 200 本电子书乱糟糟?Reader + cpolar 让碎片时间都能高效读
  • Nginx 高分实战博客:从原理到生产优化的完整指南
  • LLM-VN LLM-Enhanced Rumor Detection via Virtual Node Induced Edge Prediction
  • 2026 小程序开发公司十强|避坑要点 + 选择标准一次说清 - 企业数字化改造和转型
  • 强劲性能+超大电池,荣耀WIN畅快游戏不设限
  • 荣耀400以开放推进创新 驱动行业体验升级
  • PCC框架: FACT-CHECKING WITH LARGE LANGUAGE MODELS VIA PROBABILISTIC CERTAINTY AND CONSISTENCY
  • Python print full text via pprint
  • 深圳小程序公司大盘点:报价、案例、口碑一次看清 - 企业数字化改造和转型
  • 2026 年 TOP10 小程序开发公司行业报告!十大服务商深度剖析 - 企业数字化改造和转型
  • 2026年8款AI字幕与语音转文字工具深度评测:教育、LD与企业培训选型指南
  • KIRIN HYOKETSU通过本地生产进军美国即饮饮料市场
  • 离线数仓的优化及重构
  • 把激光雷达干到500线以上,华为乾崑到底图什么?
  • ydata-profiling 汉化魔改
  • 【开题答辩全过程】以 基于web的学校田径运动会管理系统开发与实现为例,包含答辩的问题和答案
  • 2026年3月桥梁模板实力厂家,彰显国产技术实力 - 品牌鉴赏师
  • Go - fmt.Scanln()