当前位置: 首页 > news >正文

vllm推理加速之 - continuous batching +Rag合并请求优化

目录
  • 最大吞吐量的“三剑客”
  • batch 设置多大合适
    • 1️⃣ 影响 batch 大小的核心因素
    • 2️⃣ 工程经验参考表
    • 3️⃣ 结合显存计算
    • 4️⃣ 连续批 + Ray 调度策略
    • 5️⃣ 工程实践总结

KV Cache = max_model_len × batch × hidden_size × 2 × dtype

符号 含义
max_model_len 上下文长度(Token 数)
batch 一次推理请求中同时处理的序列数
hidden_size 模型隐藏层维度(Qwen-14B = 12288)
2 Key + Value,各 1 份
dtype 每个元素占用显存(FP16 = 2 byte, 8-bit = 1 byte, 4-bit ≈ 0.5 byte)

每次 forward 只处理 1 条请求
batch > 1 的优势
-多条请求合并成 batch,一次 forward 同时处理多条请求
-GPU 核心利用率提升 → 吞吐量明显提高
-tradeoff:单条请求延迟略增加,但平均吞吐(QPS)提升

最大吞吐量的“三剑客”

手段 作用 备注
1️⃣ Continuous Batching vLLM 内部把短请求排队,短时间内合并成 batch 送入 forward 提高 GPU 利用率,减少每条请求独立 forward 的开销
2️⃣ Ray / AI 网关自动合并请求 高 QPS 场景下,把来自多客户端/多线程的请求调度、排序、聚合 可以把更多请求填满 batch,让 GPU 始终满载
3️⃣ batch > 1 一次 forward 同时处理多条请求 核心 GPU 并行利用率提升,吞吐量线性增加(理论上)

batch 设置多大合适

明白,你想知道 vLLM / 大模型推理场景下 batch 的最佳实践,尤其是短请求 / 高 QPS 的智能客服场景。下面我从工程实战角度给你整理一套参考方案。


1️⃣ 影响 batch 大小的核心因素

因素 说明
上下文长度(max_model_len) KV Cache ∝ token × batch → 上下文越长,batch 越大显存压力越大
GPU 显存大小 显存越大 → 可承受 batch 越大
权重量化 / dtype FP16 > 8-bit > 4-bit → 权重越小,batch 可越大
请求并发 / QPS 高 QPS → batch 可以大一些,吞吐最大化
延迟要求 单请求延迟敏感 → batch 不宜太大,单条请求等待合并时间增加
多机 / 多卡部署 batch 可以拆分到多 GPU,每卡 batch 分配影响单卡显存

2️⃣ 工程经验参考表

假设:

  • GPU:48GB(SL400S / 3090 / 4090)
  • 模型:Qwen-14B 8-bit
  • 请求短文本:≤2K token
  • vLLM continuous batching 开启
  • 单机 1–6 卡
场景 上下文长度 QPS / 并发 推荐 batch 备注
短请求,低 QPS 2K 50–100 2–4 延迟优先,小 batch 足够
短请求,高 QPS 2K 200–500 4–8 GPU 利用率高,吞吐最大化
中等请求 4K 50–200 2–4 KV Cache 占显存多,batch 不宜过大
长请求 8K+ 50–100 1–2 单请求 forward 时间长,batch 大影响延迟

规律总结

  1. 上下文越长,batch 越小
  2. QPS 越高,batch 越大(吞吐优先)
  3. 延迟敏感 → batch 控制在 1–4

3️⃣ 结合显存计算

KV Cache 占用公式

KV Cache = max_model_len × batch × hidden × 2 × dtype

举例(Qwen-14B 8-bit,hidden=12288,batch=4,2K token):

KV Cache ≈ 2048 × 4 × 12288 × 2 × 1 byte ≈ 196 MB × 2 ? ≈ 384 MB
  • 权重 8-bit ≈ 16–18GB
  • GPU 48GB → 显存足够

batch 太大 → KV Cache 占用增加 → gpu-memory-utilization 要降低,否则 OOM


4️⃣ 连续批 + Ray 调度策略

  1. continuous batching

    • max_batch_size = 推荐 batch
    • max_wait_ms = 5–20ms(短请求延迟敏感)
  2. Ray / AI 网关

    • 自动收集高 QPS 请求
    • 填满 batch
    • 结合优先级队列:短请求优先,长请求单独处理

通过两层合并(网关 + vLLM continuous batching),可以保证 batch 在 吞吐量最大化 的同时 延迟可控


5️⃣ 工程实践总结

条件 batch 建议
token ≤ 2K,低延迟,QPS < 100 1–2
token ≤ 2K,高吞吐,QPS 200–500 4–8
token 4K,QPS < 200 2–4
token 8K+,延迟敏感 1–2

核心原则
batch 大 → GPU 利用率高,吞吐高,但显存增加,单请求延迟增加
batch 小 → 延迟低,显存小,但吞吐受限

http://www.jsqmd.com/news/254163/

相关文章:

  • 2026年1月办公写作工具综合实力榜单:AI写作、AI会议纪要、AI润色 - 深度智识库
  • 三菱FX2N实现对台达变频器ASCII通信控制全解析
  • 2026年温控模块厂家推荐榜单:压缩机/PCR仪/探针台/激光器/芯片测试座/光电器件/流式细胞仪/血液分离机/微流控芯片核心器件温控专业解决方案 - 品牌企业推荐师(官方)
  • AI会议纪要生成谁家强?2026年最新智能写作工具Top排名 - 深度智识库
  • 2026年GEO源码搭建哪家专业?源头团队推荐 - 源码云科技
  • Atcoder[ABC401F] Add One Edge 3 题解
  • 护资刷题APP推荐:易小考助力高效备考 - 品牌观察员小捷
  • 免费AI写论文神器实操指南:7款工具30分钟搞定文理医工论文
  • 数据小白也能玩转实证!宏智树 AI:解锁论文数据分析的极简模式
  • 护考刷题APP推荐:易小考让备考更高效 - 品牌观察员小捷
  • 如何科学评估软件人力外包服务商?5大核心维度深度解析
  • 盲盒式设计 VS 精准导航!宏智树 AI:让论文问卷从 “无效数据” 到 “实证利器”
  • 杭州拼多多代运营公司哪家好?2026年靠谱服务商参考清单 - 前沿公社
  • 2026智能农业监测设备领军企业:建大仁科引领气象站与农业传感器国产化新标杆 - 深度智识库
  • 三步锁定最佳技术伙伴?解析APP开发公司的三大合作模式
  • 2026实用AI智能写作工具精选:写作、纪要、润色、校对等全场景精准适配 - 深度智识库
  • 苹果手机照片怎么导入电脑?苹果手机传输照片的5大技巧
  • 2026年气象站国产优质企业推荐|山东建大仁科领衔,铸就气象监测行业标杆 - 深度智识库
  • 如何微调从易到难
  • 国内目前比较好的MES实施厂家有哪些?对应的MES系统价格是多少?
  • AI 写论文哪个软件最好?实测封神!宏智树 AI 堪称毕业论文通关神器
  • 2026年 设备机架加工厂家推荐排行榜,自动化设备框架/焊接机架/铝型材防护罩/半导体医疗设备外壳,实力源头工厂精选 - 品牌企业推荐师(官方)
  • 2026 年 1 月镇流器厂家推荐排行榜:电子镇流器,整流器,中压灯镇流器,紫外线灯电源,高频/可调光/预热型电子镇流器源头精选! - 企业推荐官【官方】
  • 吐血推荐10个AI论文软件,继续教育学生轻松搞定毕业论文!
  • 9 款 AI 写论文哪个好?实测封神!宏智树 AI 凭真材实料 C 位出圈
  • 【毕业设计】SpringBoot+Vue+MySQL 安康旅游网站平台源码+数据库+论文+部署文档
  • 好写作AI|研究生的理论迷宫,急需一个AI“引航员”
  • 【Nginx】鉴权接口通过后,导出或下载接口无响应
  • 5 款 AI 写论文哪个好?实测揭晓!宏智树 AI 凭硬核实力 C 位出圈
  • 覆盖写作/会议纪要/润色校对,智能写作工具蜜度模力通升级推荐 - 深度智识库