当前位置: 首页 > news >正文

vLLM KVCache 评估

目录
  • 1️⃣ hidden_size
    • Qwen 系列举例
  • 2️⃣ dtype
  • 3️⃣ 结合公式举例
    • ✅ 总结

KV Cache = max_model_len × batch × hidden_size × 2 × dtype

符号 含义
max_model_len 上下文长度(Token 数)
batch 一次推理请求中同时处理的序列数
hidden_size 模型隐藏层维度(Qwen-14B = 12288)
2 Key + Value,各 1 份
dtype 每个元素占用显存(FP16 = 2 byte, 8-bit = 1 byte, 4-bit ≈ 0.5 byte)

每次 forward 只处理 1 条请求
batch > 1 的优势
-多条请求合并成 batch,一次 forward 同时处理多条请求
-GPU 核心利用率提升 → 吞吐量明显提高
-tradeoff:单条请求延迟略增加,但平均吞吐(QPS)提升

明白,你想搞清楚公式里 hidden_sizedtype 的具体数值。下面详细说明:

1️⃣ hidden_size

hidden_size = 模型隐藏层维度,也就是 Transformer 中 每个 token 表示向量的长度

Qwen 系列举例

模型 hidden_size
Qwen-7B 8192
Qwen-14B 12288
Qwen-32B 20480

对应每个 token 的 embedding / attention 内部维度

所以如果你在用 Qwen-14B

hidden_size = 12288

2️⃣ dtype

dtype = 每个元素在显存中的字节数(Byte),影响 KV Cache 和权重占用

数据类型 说明 Bytes/元素
FP32 全精度 4
FP16 半精度 2
BF16 半精度变体 2
8-bit int / 量化 量化权重 / KV Cache 1
4-bit int / 量化 超低精度 0.5

注意:KV Cache 可以用 FP16 或 8-bit 保存 key/value
8-bit / 4-bit 可以大幅减少显存占用


3️⃣ 结合公式举例

假设:

  • Qwen-14B
  • max_model_len = 2048
  • batch = 4
  • hidden_size = 12288
  • dtype = 8-bit → 1 Byte

公式:

KV Cache = max_model_len × batch × hidden_size × 2 × dtype= 2048 × 4 × 12288 × 2 × 1 byte≈ 201 MB × 2 ?  (大概估算,实际稍大)

2 是因为 Key + Value 各一份

如果改成 FP16:

dtype = 2 bytes
KV Cache ≈ 402 MB

✅ 总结

符号 含义 示例(Qwen-14B)
hidden_size 模型隐藏层维度 12288
dtype 每个元素显存占用 FP16=2B, int8=1B, 4-bit≈0.5B

KV Cache 显存占用和这两个值直接线性相关,上下文长度和 batch 也是线性关系。


http://www.jsqmd.com/news/254183/

相关文章:

  • 旅美经济学家向凌云院士获聘秘鲁驻华大使馆“中秘友好交流使者”
  • 2026年一键式闪测仪厂家推荐排行榜:影像式/全自动闪测仪,高精度智能测量设备实力品牌深度解析 - 品牌企业推荐师(官方)
  • 基于MATLAB GUI的条形码识别探索
  • 深度测评!10个AI论文网站:本科生毕业论文必备工具全解析
  • 【咸鱼RK3399】网络摄像头
  • AI技术如何重塑搜索引擎优化的核心策略与方向
  • 国内色选机市场主要参与者技术特点与选型参考分析
  • 导师推荐!9款AI论文工具测评:本科生毕业论文必备
  • 30 段速三菱 PLC 程序在橡筋机生产线的实践与分享
  • 2026年GEO源码搭建源头优选,技术实力厂商排行 - 源码云科技
  • 2026年南京AI搜索服务商推荐榜单:AI搜索推广、优化、拓客、获客与运营一站式解决方案深度解析 - 品牌企业推荐师(官方)
  • 你的手势冲突解决了吗?鸿蒙事件拦截机制全解析
  • 2026年智能农业应用国产头部企业深度推荐:山东建大仁科领航全国,技术赋能农业现代化 - 深度智识库
  • 数据库not exists 运算符
  • 搜维尔科技:Tesollo公司开发出紧凑轻便的人形机械手“DG-5F-S”
  • 实验室污水设备哪里买?2026年热门厂家盘点,帘式MBR膜/美国滨特尔水泵,实验室污水设备销售厂家哪家靠谱 - 品牌推荐师
  • 2026 年 1 月紫外线光源厂家推荐排行榜:汞灯/汞齐灯/中压灯/磁吸灯/台灯/灭蚊灯/爬宠补钙灯/虫情监测灯/耐老化灯专业制造与创新应用深度解析 - 企业推荐官【官方】
  • 2026年 激光冷水机厂家推荐排行榜,半导体/TEC/无压缩机冷水机,低噪音便携型温控设备专业选购指南 - 品牌企业推荐师(官方)
  • 详细介绍:vs Code 中 ESLint 插件 和 npm install eslint 的区别
  • vllm推理加速之 - continuous batching +Rag合并请求优化
  • 2026年1月办公写作工具综合实力榜单:AI写作、AI会议纪要、AI润色 - 深度智识库
  • 三菱FX2N实现对台达变频器ASCII通信控制全解析
  • 2026年温控模块厂家推荐榜单:压缩机/PCR仪/探针台/激光器/芯片测试座/光电器件/流式细胞仪/血液分离机/微流控芯片核心器件温控专业解决方案 - 品牌企业推荐师(官方)
  • AI会议纪要生成谁家强?2026年最新智能写作工具Top排名 - 深度智识库
  • 2026年GEO源码搭建哪家专业?源头团队推荐 - 源码云科技
  • Atcoder[ABC401F] Add One Edge 3 题解
  • 护资刷题APP推荐:易小考助力高效备考 - 品牌观察员小捷
  • 免费AI写论文神器实操指南:7款工具30分钟搞定文理医工论文
  • 数据小白也能玩转实证!宏智树 AI:解锁论文数据分析的极简模式
  • 护考刷题APP推荐:易小考让备考更高效 - 品牌观察员小捷