当前位置：首页 > news >正文

vLLM v0.16.0 重磅发布：吞吐量提升30%，异步调度+流水线并行全面整合

news 2026/3/26 17:59:30

今天早上部署了vLLM v0.16.0,传说是真的。

2026年2月，vLLM 迎来了 v0.16.0 版本。这次更新最值得关注的不是又新增了多少模型支持，而是一个底层架构的质变——Async Scheduling（异步调度）与 Pipeline Parallelism（流水线并行）的完全整合。

根据官方数据，这一改进带来了惊人的性能提升：
📈端到端吞吐量提升 30.8%
⏱️每个输出 Token 的耗时（TPOT）降低 31.8%

对于在生产环境跑大模型推理的同学来说，这意味着：同样的硬件能服务更多用户，同样的并发下用户等待时间更短。是不是很心动？那我们就来拆解一下，这 30% 的性能提升到底从哪来。

一、先理解痛点：传统流水线并行为什么会有“空转”？

当模型大到一张显卡放不下时，我们会用Pipeline Parallelism（流水线并行）——把模型按层切分，不同层放到不同 GPU 上，像工厂流水线一样处理请求。

传统方式的问题在于：调度是同步的。
Scheduler 必须等前一阶段完全执行完，才能调度下一阶段。这就导致了 GPU 的空闲等待，这种空闲时间被称为Pipeline Bubble（流水线气泡）。就像流水线上一个工位慢了，后面全得等着。

二、Async Scheduling：让调度“异步”起来，填满每一个气泡

v0.16.0 的核心改进就是Async Scheduling（异步调度）。
简单说，就是让 Scheduler不再死等前一阶段完成，而是可以“预判”和“预调度”，提前把后续任务塞进队列。

我们来看一个对比：

传统流水线并行：

text

GPU 0: [请求A层1-10] -> 等待 -> [请求B层1-10] -> 等待 -> ... GPU 1: 等待 -> [请求A层11-20] -> 等待 -> [请求B层11-20] -> ...

Async + PP（新版本）：

text

GPU 0: [请求A层1-10] -> [请求B层1-10] -> [请求C层1-10] -> ... GPU 1: 等待 -> [请求A层11-20] -> [请求B层11-20] -> ... ↑ 这里的等待被压缩到最小

关键点在于：Scheduler 可以在一个请求的前一阶段还在执行时，就提前把后续阶段加入调度队列。
这样一来，GPU 间的数据传输和计算高度重叠，气泡被填满，整体吞吐自然就上去了。

三、30% 性能提升，到底从哪来？

1. 大幅减少 Pipeline Bubble

传统流水线并行的气泡占比可能高达30%~50%。异步调度通过预调度和执行重叠，把这个比例压到了最低——硬件利用率自然飙升。

2. 更聪明的内存管理

异步调度需要更精细的内存控制。vLLM 独有的PagedAttention技术在这里发挥了关键作用：
细粒度的 KV Cache 管理，让异步调度可以灵活分配和回收显存，避免了内存碎片和等待。

3. TPOT 降低，用户体验直接提升

TPOT（每个输出 Token 的耗时）降低31.8%，意味着用户感受到的延迟大幅缩短。对于实时性要求高的应用（如聊天机器人、代码补全），这个改进可以说是质的飞跃。

四、如何启用？升级就完事了！

好消息是：如果你已经在使用 Pipeline Parallelism，升级到 v0.16.0 后，这个优化是默认开启的！

你的启动参数完全不用改，比如原来是这样启动的：

bash

vllm serve meta-llama/Llama-2-70b \ --pipeline-parallel-size 4 \ --tensor-parallel-size 2

升级后，vLLM 会自动检测并启用 Async Scheduling，无需额外配置。

五、除了性能，还有哪些值得关注的亮点？

✨Realtime API：支持 WebSocket 音频流，基于 Voxtral 架构，为实时交互应用打开想象空间。
✨RLHF 优化：包括 NCCL 权重同步、层级别重载、引擎暂停/恢复，让强化学习训练更顺畅。
✨Speculative Decoding：统一并行草稿，支持结构化输出，推理速度进一步提升。