当前位置: 首页 > news >正文

如何计算KV Cache占的显存大小

1.什么是KV Cache

推荐文章:
大模型推理加速:看图学KV Cache - 知乎https://zhuanlan.zhihu.com/p/662498827引用文章中给的解释:KV Cache是Transformer标配的推理加速功能,transformer官方use_cache这个参数默认是True,但是它只能用于Decoder架构的模型,这是因为Decoder有Causal Mask,在推理的时候前面已经生成的字符不需要与后面的字符产生attention,从而使得前面已经计算的K和V可以缓存起来。

其中的Causal Mask是什么呢,因果掩码(Causal Mask),又称前瞻掩码(Look-ahead Mask),是Transformer解码器中确保因果关系的关键机制。它通过屏蔽未来位置的信息,让模型在预测当前词时只能看到已经生成的词,不能"偷看"未来的词。

通常情况下,causal mask 是一个二维矩阵,其中对角线以下的元素都为1,表示允许当前位置之前的信息流动,而对角线及以上的元素都为0,表示屏蔽了当前位置之后的信息。在序列生成任务中,这种掩码非常重要,因为它确保了模型按照序列的顺序逐步生成输出,而不会提前使用未来的信息。

关于Transformer的详细结构介绍可以看这篇文章:
(18 封私信 / 14 条消息) Transformer模型详解(图解最完整版) - 知乎https://zhuanlan.zhihu.com/p/338817680其中最重要的就是

使用Mask主要是在训练decoder时使用,在预测时天然就是没有后面信息的。

由于Q、K、V都是通过X与矩阵相乘得到,所以X变化,Q、K、V也都跟着变化。

需要注意的是,X、Q、K、V的每一行都可以表示一个单词,当X增加一个单词时,Q、K、V也都对应的增加一行,并且其他行的值不变。

所以可以推理得到如下所示,KV 为什么需要 Cache。

当大模型进行推理时,每次的注意力计算只和当前的Qk、所有的K、所有的V有关,所以逐字生成的时候必须要缓存之前生成的所有K和V,这样就能避免重复计算,加快推理速度。

K和V也是根据生成句子的长度逐渐累加起来的,和i = i + 1有点类似。

下面4张图展示了使用KV Cache和不使用的对比。

2.如何计算KV Cache消耗的显存

如何获取这些参数?

http://www.jsqmd.com/news/419608/

相关文章:

  • Postman:postman应用实战
  • 赵忠抗在青岛数字化营销直播企业座谈会上为行业发展献策
  • Postman接口测试: postman设置接口关联,实现参数化
  • 六大行业协会共商产业融合发展新路径
  • 2026年合肥事业单位考试培训机构综合评估与选型指南 - 2026年企业推荐榜
  • 2026年沉水植物公司权威推荐:睡莲种植、芦苇种植、荷花苗种植、金鱼藻植物、金鱼藻种植、马来眼子菜植物选择指南 - 优质品牌商家
  • 2026年植物厂家最新推荐:马来眼子菜植物/马来眼子菜种植/黑叶黑藻植物/黑叶黑藻种植/四节矮生苦草植物/选择指南 - 优质品牌商家
  • SpringBoot+Vue 个性化电影推荐系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】
  • 2026年种植厂家推荐:四节矮生苦草植物、四节矮生苦草种植、水生植物种植、沉水植物网箱订做、沉种植网箱订做选择指南 - 优质品牌商家
  • 2026年评价高的防火胶公司推荐:耐高温防火胶采购/通风烟道/防火胶制品/防火胶品牌/防火胶工厂/防火胶市场/选择指南 - 优质品牌商家
  • 2026年编制考试服务商实力盘点:安徽本土机构深度解析 - 2026年企业推荐榜
  • 2026年自来水臭氧机厂家推荐:污水处理臭氧机/空间杀菌臭氧发生器/空间杀菌臭氧机/纯净水臭氧发生器/选择指南 - 优质品牌商家
  • Ubuntu20.04 部署 CLIProxyAPI 及 Win/Mac/Linux 三端 CLI 配置笔记
  • 2026年大型卖场回收厂家最新推荐:二手厨房设备、二手火锅店设备、二手空调回收销售、二手酒店设备、二手餐饮设备选择指南 - 优质品牌商家
  • 2026年Q1宜兴硝化菌厂家全景评测与选型指南 - 2026年企业推荐榜
  • 2026年商务调查公司推荐公司权威推荐:四川找人公司品牌/四川找人公司推荐/四川找人公司电话/四川找人公司网址/选择指南 - 优质品牌商家
  • 花有重开日,人无再少年
  • 2026年二手空调回收销售公司权威推荐:办公设备回收、工厂设备回收、工地二手空调采购、开店设备采购选择指南 - 优质品牌商家
  • 2026年电脑横编织领机品牌厂家权威推荐榜:电脑横编织领机优质厂家、电脑横编织领机供应厂家选择指南 - 优质品牌商家
  • 蚌埠五河县装修设计怎么选?这5家实力公司值得一看 - 2026年企业推荐榜
  • 轻松掌握GPU分区技术在Windows Server 2025上的部署与收藏
  • 轻松入门大模型开发:用mcp-use连接LLM与MCP服务器
  • BERT大模型入门指南:小白也能学会的NLP预训练技术
  • 小白程序员轻松上手部署DeepSeek大模型,开启AI创新之旅
  • 2026年防爆楔子工具公司权威推荐:防爆螺丝旋工具/防爆錾子工具/防爆锤子工具/防爆防跌落扣工具/选择指南 - 优质品牌商家
  • 2026年特殊螺丝厂家最新推荐:螺丝五金异形件、螺丝精密轴、螺丝销轴、高精密螺丝、异形螺丝、微型螺丝选择指南 - 优质品牌商家
  • 2026年304不锈钢链板公司权威推荐:网带输送机、链条传动网带、链板提升机、链板转弯机、链板输送带选择指南 - 优质品牌商家
  • CICD与Jenkins流水线:小白程序员轻松入门自动化软件开发
  • AI-Compass LLM推理框架+部署生态:整合顶级加速框架,轻松掌握大模型部署
  • 2026年评价高的乐吧车公司推荐:商场碰碰车/地网碰碰车/夜市摆摊碰碰车/室内遥控碰碰车/广场乐吧车/选择指南 - 优质品牌商家