当前位置：首页 > news >正文

vllm推理加速之 - continuous batching +Rag合并请求优化

news 2026/7/12 20:48:16

最大吞吐量的“三剑客”
batch 设置多大合适
- 1️⃣ 影响 batch 大小的核心因素
- 2️⃣ 工程经验参考表
- 3️⃣ 结合显存计算
- 4️⃣ 连续批 + Ray 调度策略
- 5️⃣ 工程实践总结

KV Cache = max_model_len × batch × hidden_size × 2 × dtype

符号	含义
max_model_len	上下文长度（Token 数）
batch	一次推理请求中同时处理的序列数
hidden_size	模型隐藏层维度（Qwen-14B = 12288）
2	Key + Value，各 1 份
dtype	每个元素占用显存（FP16 = 2 byte, 8-bit = 1 byte, 4-bit ≈ 0.5 byte）

每次 forward 只处理 1 条请求
batch > 1 的优势
-多条请求合并成 batch，一次 forward 同时处理多条请求
-GPU 核心利用率提升 → 吞吐量明显提高
-tradeoff：单条请求延迟略增加，但平均吞吐（QPS）提升

最大吞吐量的“三剑客”

手段	作用	备注
1️⃣ Continuous Batching	vLLM 内部把短请求排队，短时间内合并成 batch 送入 forward	提高 GPU 利用率，减少每条请求独立 forward 的开销
2️⃣ Ray / AI 网关自动合并请求	高 QPS 场景下，把来自多客户端/多线程的请求调度、排序、聚合	可以把更多请求填满 batch，让 GPU 始终满载
3️⃣ batch > 1	一次 forward 同时处理多条请求	核心 GPU 并行利用率提升，吞吐量线性增加（理论上）

batch 设置多大合适

明白，你想知道 vLLM / 大模型推理场景下 batch 的最佳实践，尤其是短请求 / 高 QPS 的智能客服场景。下面我从工程实战角度给你整理一套参考方案。

1️⃣ 影响 batch 大小的核心因素

因素	说明
上下文长度（max_model_len）	KV Cache ∝ token × batch → 上下文越长，batch 越大显存压力越大
GPU 显存大小	显存越大 → 可承受 batch 越大
权重量化 / dtype	FP16 > 8-bit > 4-bit → 权重越小，batch 可越大
请求并发 / QPS	高 QPS → batch 可以大一些，吞吐最大化
延迟要求	单请求延迟敏感 → batch 不宜太大，单条请求等待合并时间增加
多机 / 多卡部署	batch 可以拆分到多 GPU，每卡 batch 分配影响单卡显存

2️⃣ 工程经验参考表

假设：

GPU：48GB（SL400S / 3090 / 4090）
模型：Qwen-14B 8-bit
请求短文本：≤2K token
vLLM continuous batching 开启
单机 1–6 卡

场景	上下文长度	QPS / 并发	推荐 batch	备注
短请求，低 QPS	2K	50–100	2–4	延迟优先，小 batch 足够
短请求，高 QPS	2K	200–500	4–8	GPU 利用率高，吞吐最大化
中等请求	4K	50–200	2–4	KV Cache 占显存多，batch 不宜过大
长请求	8K+	50–100	1–2	单请求 forward 时间长，batch 大影响延迟

规律总结：

上下文越长，batch 越小

QPS 越高，batch 越大（吞吐优先）

延迟敏感 → batch 控制在 1–4

3️⃣ 结合显存计算

KV Cache 占用公式：

KV Cache = max_model_len × batch × hidden × 2 × dtype

举例（Qwen-14B 8-bit，hidden=12288，batch=4，2K token）：

KV Cache ≈ 2048 × 4 × 12288 × 2 × 1 byte ≈ 196 MB × 2 ? ≈ 384 MB

权重 8-bit ≈ 16–18GB
GPU 48GB → 显存足够

batch 太大 → KV Cache 占用增加 → gpu-memory-utilization 要降低，否则 OOM

4️⃣ 连续批 + Ray 调度策略

continuous batching
- max_batch_size = 推荐 batch
- max_wait_ms = 5–20ms（短请求延迟敏感）
Ray / AI 网关
- 自动收集高 QPS 请求
- 填满 batch
- 结合优先级队列：短请求优先，长请求单独处理

通过两层合并（网关 + vLLM continuous batching），可以保证 batch 在 吞吐量最大化 的同时 延迟可控

5️⃣ 工程实践总结

条件	batch 建议
token ≤ 2K，低延迟，QPS < 100	1–2
token ≤ 2K，高吞吐，QPS 200–500	4–8
token 4K，QPS < 200	2–4
token 8K+，延迟敏感	1–2

核心原则：
batch 大 → GPU 利用率高，吞吐高，但显存增加，单请求延迟增加
batch 小 → 延迟低，显存小，但吞吐受限

查看全文

http://www.jsqmd.com/news/254163/

2026年1月办公写作工具综合实力榜单：AI写作、AI会议纪要、AI润色 - 深度智识库

三菱FX2N实现对台达变频器ASCII通信控制全解析

AI会议纪要生成谁家强？2026年最新智能写作工具Top排名 - 深度智识库

2026年GEO源码搭建哪家专业？源头团队推荐 - 源码云科技

Atcoder[ABC401F] Add One Edge 3 题解

护资刷题APP推荐：易小考助力高效备考 - 品牌观察员小捷

免费AI写论文神器实操指南：7款工具30分钟搞定文理医工论文

数据小白也能玩转实证！宏智树 AI：解锁论文数据分析的极简模式

护考刷题APP推荐：易小考让备考更高效 - 品牌观察员小捷

如何科学评估软件人力外包服务商？5大核心维度深度解析

盲盒式设计 VS 精准导航！宏智树 AI：让论文问卷从 “无效数据” 到 “实证利器”

杭州拼多多代运营公司哪家好？2026年靠谱服务商参考清单 - 前沿公社

2026智能农业监测设备领军企业：建大仁科引领气象站与农业传感器国产化新标杆 - 深度智识库

三步锁定最佳技术伙伴？解析APP开发公司的三大合作模式

2026实用AI智能写作工具精选：写作、纪要、润色、校对等全场景精准适配 - 深度智识库

苹果手机照片怎么导入电脑？苹果手机传输照片的5大技巧

如何微调从易到难

国内目前比较好的MES实施厂家有哪些？对应的MES系统价格是多少？

AI 写论文哪个软件最好？实测封神！宏智树 AI 堪称毕业论文通关神器

吐血推荐10个AI论文软件，继续教育学生轻松搞定毕业论文！

9 款 AI 写论文哪个好？实测封神！宏智树 AI 凭真材实料 C 位出圈

【毕业设计】SpringBoot+Vue+MySQL 安康旅游网站平台源码+数据库+论文+部署文档

好写作AI｜研究生的理论迷宫，急需一个AI“引航员”

【Nginx】鉴权接口通过后，导出或下载接口无响应

5 款 AI 写论文哪个好？实测揭晓！宏智树 AI 凭硬核实力 C 位出圈

覆盖写作/会议纪要/润色校对，智能写作工具蜜度模力通升级推荐 - 深度智识库