当前位置: 首页 > news >正文

vLLM--连续批处理(Continuous Batching)

连续批处理(又称动态批处理 / 迭代级批处理)是 vLLM 高吞吐量的第二大核心支柱,与 PagedAttention 分块显存管理共同构成了 vLLM 的性能基础。

传统静态批处理的致命缺陷:1.一次性收集固定数量的请求,打包成一个批次

2.同时处理该批次的所有请求

3.必须等待批次内所有请求全部生成结束,才能处理下一批次

连续批处理的核心思想:不等整个批次结束,只要有任何一个请求生成结束,就立刻将新请求插入到这个空位上,让 GPU 永远不闲着。

完整工作流程:

1.预填充阶段:将多个新请求打包成一个批次,多个请求的 Prompt 会被拼接成一个大张量,一次性计算它们的 Prompt KV-Cache(计算密集型)

2.解码阶段:逐 Token 生成,每生成一个 Token 就执行一次调度(内存密集型)

解码阶段调度循环(每步执行)

1. 检查运行队列,将已生成结束的请求移至完成队列 2. 释放完成请求占用的所有物理块,归还至空闲块池 3. 从等待队列中取出尽可能多的新请求(满足:有空闲块 + 未超最大并发) 4. 对新请求执行预填充,计算其Prompt KV-Cache 5. 将新请求与未完成的旧请求合并成新的批次 6. 用新批次生成下一个Token 7. 重复上述步骤

vLLM 调度器:连续批处理的大脑

三个核心队列:

  1. 等待队列:所有新到达的请求在此排队
  2. 运行队列:当前正在被处理的请求
  3. 完成队列:已生成结束的请求

设计细节

  1. 预填充与解码分离:预填充是计算密集型,解码是内存密集型;将多个新请求的预填充打包成大批次执行,最大化计算利用率
  2. 基于物理块数的调度:不是按请求数量调度,而是按空闲物理块数量调度;每个新请求需要的块数 =ceil(Prompt长度 / block_size);只要空闲块数足够,就可以调度该请求
  3. 抢占式调度(Swap 机制):显存不足时,将低优先级请求的 KV-Cache 换出到 CPU 内存;有空闲显存时,再将其换回 GPU 继续处理;可支持远超 GPU 显存容量的并发数
http://www.jsqmd.com/news/860004/

相关文章:

  • Adobe GenP 3.0:终极Adobe全家桶破解工具使用指南
  • Midjourney阿盖洛印相实战手册(从暗房哲学到AI指令映射):12个被官方文档刻意隐藏的--stylize与--chaos协同公式
  • 【2026推荐榜】西安黄金回收哪家价格高?七家实体店横向对比,金晨金包银稳居榜首 - 西安知道
  • 马斯克预测10年后90%行驶里程由AI完成,自动驾驶是吹牛还是大势所趋?
  • 职场痛点|同事甩锅、摸鱼划水,干活全靠自己?3步破局不内耗
  • Vue.js 版本全解析与 nvm 环境管理完全指南
  • ComfyUI Manager终极指南:简单快速管理你的AI绘画插件生态系统
  • 告别小屏幕!5个专业技巧让你在Windows大屏上高效刷酷安
  • 5分钟免费解决NVIDIA显卡广色域显示器色彩过饱和问题:novideo_srgb终极指南
  • 目前浙江省内每年MBA/MPA/MEM/MPAcc哪个项目录取指标供给最多?工程管理还有提升空间!
  • Nodejs开发者三步接入Taotoken,实现异步聊天补全
  • 2026这6款硬核降AIGC软件大公开,一键把AI检测率精准控到安全区!
  • 2026年5月19日OpenBSD 7.9发布:多架构更新、内核创新,安全与性能双提升!
  • BabelDOC终极指南:5个技巧让你的PDF翻译又快又好
  • 从济南话到烟台腔:ElevenLabs山东话语音泛化能力极限测试(覆盖17地市、1362条测试句、WER 8.7%实测数据)
  • 创业团队如何利用Taotoken统一技术栈并降低AI接入门槛
  • 为持续运行的业务系统选择高可用大模型API服务
  • 如何三步实现AI虚拟试衣:OOTDiffusion从安装到实战的完整指南
  • ubuntu中Conda环境安装Openclaw
  • 独立开发者如何利用Taotoken快速验证多个模型的产品创意
  • 为ClaudeCode配置Taotoken密钥实现稳定无感对接
  • 中小团队考勤管理难?试试这款 CodaERP 考勤打卡系统,一个页面搞定全流程
  • Cursor AI助手功能扩展技术实现:5步实现永久免费使用的完整方案
  • 联想笔记本BIOS解锁终极指南:一键解锁隐藏高级设置
  • Perplexity语法查询与SQL/GraphQL/Lucene三范式对比实测:在17种复杂语义场景下准确率差距达41.6%
  • 免费解密网易云音乐NCM格式:ncmdumpGUI完整使用指南
  • Buzz开源项目实战指南:打造本地化音频转录与翻译解决方案
  • 告别海外账号!OpenClaw+88api一站式配置:多模型本地管理,小白也能照着做
  • 有始有终的温柔:“易领宠”让每一次宠物领养都不再是未知数
  • 残差网络(ResNet)百科全书让深度学习真正“深“起来