当前位置：首页 > news >正文

lmdeploy v0.14.0发布：FP8 KV Cache量化、Qwen3 Omni、OpenAI Responses接口、PPL端点全量升级解析

news 2026/6/26 14:04:18

2026年6月24日，lmdeploy 发布了v0.14.0最新版本。
从本次更新内容来看，这次版本迭代覆盖范围非常广，既有面向能力边界扩展的核心新特性，也有围绕推理后端、服务接口、多模态处理、量化模型、前缀缓存、调度器、流式输出、工程依赖、Windows 兼容性等多个方向的深度优化与系统性修复。

如果要用一句话概括这个版本，那么可以总结为：

这是一个同时强调“能力扩展、接口兼容、推理效率、工程稳健性”的重要版本。

一、版本概览：lmdeploy v0.14.0 到底更新了什么

本次版本更新主要包括以下几类内容：

新增功能
- FP8 KV Cache 量化
- 支持 Qwen3 Omni
- turbomind 后端支持 qwen3.5 视觉推理
- 新增兼容 OpenAI Responses 的接口
- 新增/get_ppl端点
核心改进
- turbomind 建模基础设施升级
- CUDA 错误处理整合并增加手动堆栈追踪
- 新增 Qwen3.5 Moe lite awq
- sleep engine 时支持队列排空
- chat completions 与 v1/messages 扩展 token-in、token-out 与 routed experts 返回
- 服务端进一步对齐 OpenAI 规范
- 健康检查、指标、日志概率输出、XML 工具解析器、前缀缓存、cudagraph 捕获批大小等多方向持续优化
大量 Bug 修复
- anthropic 适配器
- GPT-OSS 结构化输出
- 多模态 tensor 紧凑化
- 老版本 VLM 预处理器
- Dockerfile 依赖缺失
- FA3、CUDA 版本比较、KV Cache padding、流式 usage chunk
- 大图输入内存泄漏
- Windows 模型加载与 CUDA 路径处理
- qwen3.5 多项推理与量化问题
- gdr、mtp、prefix caching、scheduler、tool-call XML 解析等多个底层问题
文档与工程维护
- 多模态模型支持文档更新
- 依赖抽取、CI 调整、测试配置更新、版本冻结、版本号升级等

可以看出，v0.14.0 并不是一个单点突破的小版本，而是一个覆盖功能、接口、性能、兼容性、稳定性和工程体系的综合升级版本。

二、功能新增：能力边界进一步拉开

1. FP8 KV Cache quantization

本次版本新增了FP8 KV Cache 量化。
KV Cache 是大模型推理中的关键组成部分，尤其在长上下文和高并发服务场景下，对显存占用和吞吐能力影响非常直接。此次加入 FP8 KV Cache 量化能力，意味着 lmdeploy 在 KV Cache 相关资源利用方面又向前推进了一步。

从更新项本身来看，这一功能的核心就是：

为 KV Cache 引入 FP8 量化支持
面向推理过程中的缓存压缩与资源优化
为更大上下文、更高并发场景提供基础能力支撑

对于关注部署成本、显存利用率和服务密度的用户来说，这是本版本最值得关注的新增能力之一。

2. Support Qwen3 Omni

v0.14.0 新增Qwen3 Omni 支持。
这意味着 lmdeploy 在模型支持范围上继续扩大，进一步适配更新的模型体系。对于使用 Qwen 系列模型进行部署和服务化的用户来说，这一更新直接提升了模型接入的可选空间。

从版本演进角度看，模型适配本身不仅意味着“能跑”，也通常伴随着推理链路、输入输出协议、多模态处理流程等一系列底层适配工作。因此，这一新增项对生态兼容价值非常高。

3. turbomind 后端支持 qwen3.5(vit) inference

本次更新中，turbomind 后端新增对 qwen3.5 视觉推理的支持。
这条更新非常关键，因为它指向了 lmdeploy 在多模态推理上的持续扩展，尤其是视觉相关模型在 turbomind 路线上的适配能力增强。

这意味着：

qwen3.5 视觉模型可以在 turbomind 后端进行推理
多模态部署路径进一步完善
视觉模型的后端支持能力更强

对于希望在统一推理框架内部署文本与视觉模型的团队而言，这是非常实用的能力补齐。

4. Add OpenAI Responses-compatible endpoint

v0.14.0 新增兼容 OpenAI Responses 的服务端接口。
这是本次版本另一个极具现实意义的更新。

过去在 API 兼容层面，很多用户最关心的问题就是：
现有应用是否可以尽可能少改动地接入新的推理服务框架。

这次新增 Responses 兼容接口，意味着：

lmdeploy 对 OpenAI 风格接口的兼容继续增强
更有利于现有应用迁移
对接标准化服务协议更加方便
在生态适配层面迈出重要一步

对于构建统一推理网关、兼容已有客户端 SDK、减少上层业务改造成本来说，这项更新价值非常高。

5. Add /get_ppl endpoint

本次版本新增了/get_ppl端点。
PPL 通常与困惑度相关，在模型评估、效果对比、数据分析以及调试过程中都具有实际用途。

这个新增项说明 lmdeploy 在服务接口层不仅关注生成式调用，也开始补充更多模型分析与评估型接口能力。对于有评测需求、在线诊断需求或者研究需求的用户来说，这是一个非常直接的增强点。

三、改进优化：从推理底座到服务协议的全面打磨

1. turbomind 建模基础设施升级

本次版本对turbomind modeling infrastructure进行了更新。
这类更新往往属于底层系统能力重构，虽然不会直接体现在单个 API 功能上，但它会影响后续模型适配、推理流程组织、算子调度与整体可维护性。

从版本信息来看，这表明 turbomind 的建模基础设施继续演进，为后续功能扩展与稳定性提升打下基础。

2. 整合 CUDA 错误处理并增加手动堆栈追踪

更新内容中明确提到：

整合 CUDA 错误处理
增加手动 stacktracing

这是一项非常偏底层但非常重要的改进。
CUDA 相关错误一旦分散处理，定位成本往往很高。统一错误处理机制，并补充手动堆栈追踪能力，能够显著提升问题诊断效率。

这类改动说明 v0.14.0 不只是加功能，也在补强底层可观测性与调试能力。

3. Add Qwen3.5 Moe lite awq

本次版本新增Qwen3.5 Moe lite awq。
这表明 lmdeploy 对 Qwen3.5 系列、尤其是 Moe 与量化相关形态的支持继续扩大。对于依赖 AWQ 路线进行模型压缩和部署的用户来说，这是一项非常直接的模型支持增强。

4. sleep engine 时支持队列排空

更新项中提到：当 engine 进入 sleep 时，支持 drain queues。
这属于引擎运行状态管理方面的优化。其意义在于：

提升引擎休眠切换过程中的处理完整性
降低请求残留风险
改善运行状态切换时的行为一致性

这类能力看似不显眼，但对线上服务的稳定运行非常关键。

5. chat completions 扩展 token-in、token-out 与 routed experts 返回

在 chat completions 接口中，本次版本引入了：

token-in
token-out
返回 routed experts

这说明 lmdeploy 的接口返回信息更加丰富。
对于需要做调用分析、用量核算、专家路由观测或精细化监控的场景，这类返回字段极具实用价值。

6. 对齐 OpenAI 规范：AllowedToolChoice 与请求解析失败返回 400

本次版本进一步跟进 OpenAI 规范：

增加AllowedToolChoice
当请求解析失败时返回 400

这两项改进体现了服务接口兼容层的继续完善。
一方面是参数规范对齐，另一方面是错误语义更明确。对接现有 OpenAI 风格客户端时，这种规范化行为非常重要。

7. 健康检查端点改进

更新中包含Improve health endpoint。
健康检查端点直接关系到服务发现、实例剔除、自动运维与负载调度，因此其改进意味着服务治理层也在同步增强。

8. Remove state init

本次版本移除了状态初始化相关内容。
这条更新虽然简短，但通常意味着某种初始化逻辑被简化或重构，减少了不必要的状态准备过程，有助于提升代码路径清晰度。

9. 指标中纳入 spec stats

版本更新将spec stats纳入 metrics。
这代表监控指标更完整，用户可以从指标侧获得更丰富的服务状态信息。

10. 原始 chat completion logprob 输出

本次新增raw chat completion logprob output。
对于需要 token 概率、采样分析、生成质量诊断、调试输出细节的用户而言，logprob 输出是非常实用的能力补充。

11. PyTorch 路线：将 guided decoding 的 CPU 操作移入线程池，避免阻塞事件循环

这是一个非常具体但很有价值的优化。
其核心是：

将 guided decoding 的 CPU 操作 offload 到线程池
防止阻塞 event loop

对于异步服务框架来说，事件循环被阻塞通常会直接影响整体并发响应能力，因此这一改动有助于改善服务端吞吐与响应稳定性。

12. 更新 gated delta rule state layout

版本更新中调整了gated delta rule 的 state layout。
这属于底层状态布局优化，与相关推理路径或内部状态组织有关。

13. dp 大于 1 时的 kernel dispatch 优化

本次新增针对 dp 大于 1 的 kernel dispatch 优化。
这说明在数据并行相关场景中，内核调度行为得到了进一步改进，有利于并行推理性能表现。

14. v1/messages 同步扩展 token-in、token-out 与 routed experts

除了 chat completions，本次版本也对v1/messages接口进行了相同方向的增强：

增加 token-in
增加 token-out
返回 routed experts

这说明接口升级不是局部行为，而是整个服务协议体系的统一推进。

15. Fuse gdr preprocess

版本中加入了gdr preprocess 融合。
这类融合型优化一般指向更紧凑的前处理流程与更高执行效率。

16. 简化多模态预处理扩展逻辑

更新中明确提到：simplify multimodal preprocessing expansion。
这说明多模态输入相关预处理链路被进一步梳理，结构更简洁，维护成本也会更低。

17. 支持配置 cudagraph capture batch sizes

v0.14.0 新增了可配置的 cudagraph capture batch sizes。
这让 cudagraph 的捕获批次策略更具灵活性，方便在不同场景下做更细粒度调整。

18. PyTorch engine 前缀缓存重构

版本对prefix caching for pytorch engine进行了重构。
前缀缓存是优化复用、降低重复计算的重要机制，本次重构说明该能力在 PyTorch 路线中被继续强化。

19. 为 fa3 prefill 多 padding 一个 block

更新中包含：Pading one more block for fa3 prefill。
这是一项与 prefill 阶段细节处理相关的优化，属于底层执行路径调节。

20. 为 prefix caching 增加 cached_tokens 统计字段

本次版本新增：

usage.prompt_tokens_details.cached_tokens

这条更新非常有价值，因为它让前缀缓存的命中情况可以在用量统计中被更直接地观察到。

21. XML 工具解析器优化：增量流式与快速缓冲路径

v0.14.0 对 XML 工具解析器进行了优化，重点包括：

增量流式处理
fast-path buffering

这说明工具调用解析链路在性能与流式处理能力方面得到了加强。

四、Bug 修复：稳定性与兼容性大规模补强

这一部分是 v0.14.0 内容最多的区域，也最能体现版本成熟度提升。

1. 修复 anthropic adapter

修复了 anthropic 适配器问题，提升协议兼容稳定性。

2. 修复 GPT-OSS Models 的 Structured Output

针对 GPT-OSS 模型的结构化输出问题进行了修复，保证结构化结果生成更稳定。

3. W8A8Linear 初始化支持 dtype，不再硬编码

更新后，W8A8Linear 在初始化时可以接收 dtype，而不是固定写死，灵活性与兼容性更好。

4. 紧凑化拆分后的多模态 tensors

修复多模态 tensor 拆分后的紧凑化问题，改善多模态数据处理路径。

5. 修复旧版 VLM 预处理器对归一化图像数据的处理

针对 legacy VLM preprocessors 在 normalized image data 上的问题进行了修复。

6. 修复 Dockerfile 缺少 common.txt

Dockerfile 缺失common.txt的问题被修复，部署链路更完整。

7. 启用 SM80 及以上 GPU 的 FA3，并修复 CUDA 版本比较逻辑

这项修复包含两层内容：

为 SM80 及以上 GPU 启用 FA3
修复 CUDA version comparison

兼顾能力启用与版本判断准确性。

8. flatten_kv_cache 零填充修复

修复了 flatten_kv_cache 的 zero padding 问题。

9. 流式 usage chunks 对齐 OpenAI 规范

此次修复让 streaming usage chunks 更符合 OpenAI 规范，协议一致性更好。

10. 降低多模态特征内存使用

针对视觉语言相关流程，减少了 multimodal feature memory use。

11. 修复大图输入导致的内存泄漏

当输入包含 large image data 时的内存泄漏问题得到修复，这对多模态服务非常关键。

12. turbomind 中修复 Intern-S1 HF checkpoint key 映射

模型权重加载映射问题被修复，提升对应模型加载正确性。

13. 服务端修复流式 tool-call 并发时的 stream_chunk delta 发射问题

修复后，所有 stream_chunk deltas 都会被正确发出，用于解决并发工具调用流式输出问题。

14. 修复 cp inference

更新中明确修复 cp inference 问题。

15. 服务端解析器避免按请求重复做 tokenizer 工作

这是一次服务端重构性质的修复优化，减少解析器内每请求 tokenizer 工作。

16. MixtralForCausalLM 回归 Turbomind

该模型重新支持在 Turbomind 中使用，是兼容能力的恢复性修复。

17. 修复 Windows 上模型加载问题

Windows 平台模型加载能力得到修复和改善。

18. 修复 RL 场景下无 warmup 时的 mtp cudagraph 问题

针对特定条件下的 MTP cudagraph 问题进行了修复。

19. Windows 取消硬性 CUDA_PATH 断言，并从多来源搜索 DLL 路径

这是 Windows 兼容性方面的重要修复：

去掉硬性 CUDA_PATH assert
从多个来源搜索 DLL paths

显著提升 Windows 部署体验。

20. 单元测试修复：移除 latest-transformers-unsupported models

通过移除不受支持模型，修复单元测试问题。

21. 修复 qwen3.5 mtp

qwen3.5 的 mtp 相关问题得到修复。

22. 修复 tilelang 版本不低于 0.1.9 时的 gdr kernel

针对 tilelang 较新版本的 gdr kernel 兼容问题进行了修复。

23. 回退 mtp 中 cudagraph buffer 复用

本次版本回退了对 mtp 的 cudagraph buffer 复用，以修复由此带来的问题。

24. 修复 PyTorch MP engine 中 client-disconnect 导致的 session 泄漏

这是线上场景下非常重要的一项修复，解决客户端断开连接后会话泄漏问题。

25. 修复 cancel stopped seq

停止序列后的 cancel 处理问题被修复。

26. turbomind 后端支持 num_experts_per_tok=10

虽然更新项写法带有 feat，但它出现在问题修复区域中，本质上也是对专家数配置能力的补强，支持在 turbomind 后端设置num_experts_per_tok=10。

27. 修复批处理中不同 stop words 的序列处理

batched seqs with different stop words 的问题被修复，批量请求行为更准确。

28. 将 warmup 移入 wakeup

更新中包含Move warmup inside wakeup，这是引擎唤醒流程上的调整与修复。

29. 修复 dequant_mixed

dequant mixed 相关问题得到修复。

30. 提升 engine health monitoring

除了 health endpoint 改进之外，这里还进一步提升了引擎健康监控能力。

31. 修复 qwen3.5 27b gdr preprocess

qwen3.5 27b 的 gdr preprocess 问题被修复。

32. 修复由 vllm/llm-compressor 制作的 qwen3.5 量化模型的 dequant mixed 问题

这项修复针对特定来源制作的 qwen3.5 量化模型，进一步增强模型兼容性。

33. 修复 decode delta kv_seqlens 中 max_q_seqlen 双重计数问题

这个问题属于更底层的序列长度统计修复，对解码过程正确性很关键。

34. 修复 ssm 的 scheduler

调度器层面的稳定性问题得到修复。

35. 服务端修复 XML 解析器中并行 tool-call 参数泄漏

这是一个很重要的服务端修复，避免并行工具调用时参数相互污染。

36. 修复 prefix caching

版本末尾再次明确修复 prefix caching，说明这一能力在本次版本中是重点优化区域之一。

五、文档更新：多模态支持说明同步完善

本次文档部分只有一项，但非常重要：

更新多模态模型支持文档

这意味着随着 qwen3.5 视觉推理支持、多模态预处理优化、内存占用修复、大图泄漏处理等更新推进，官方文档也同步进行了调整，让用户能够更准确了解当前支持范围。

六、其他工程与维护更新：为长期稳定演进打基础

除了功能与修复，本次版本还包含大量工程层调整。

1. 请求日志按 request level 控制

请求日志被放在 request level 后面进行门控，日志控制更精细。

2. intern-s models 缺少 rdkit

补充了 intern-s 模型所需的 rdkit 依赖。

3. 抽取公共依赖到 requirements/common.txt

将公共依赖统一提取到requirements/common.txt，依赖管理更清晰。

4. 移除 vlmevalkit 文档中的过时 CLI 参数

清理过期说明，减少使用歧义。

5. 增加 response 日志用于调试

新增响应日志以便排查问题。

6. 当 PR 更新或合并时取消进行中的运行

工程流水线层面优化，避免无效执行。

7. 更新 qwen3.5 397b 测试

测试配置同步更新。

8. 更新视频测试

视频相关测试内容也做了调整。

9. 校验最终 chat response 结构

加入最终 chat response 结构校验，提升接口结果可靠性。

10. 为 qwen35 mtp 支持 dp

数据并行与 qwen35 mtp 结合能力得到补充。

11. 重构 testcoverage 配置

测试覆盖率配置被重构，CI 体系更清晰。

12. 更新 ascend 与 mtp 测试配置

针对不同硬件与功能路径的测试同步完善。

13. 更新 FP8 处理逻辑并移除重复 MTP 测试

测试和处理逻辑都做了整理与优化。

14. 冻结 tilelang 版本

将 tilelang 版本冻结，有助于控制依赖波动。

15. 修复 Windows CI

Windows 持续集成环境相关问题得到修复。

16. 在 pr_test 中增加 mtp 测试配置

MTP 的测试覆盖进一步增强。

17. 支持 disaggregated weight update

新增对 disaggregated weight update 的支持。

18. 版本号升级到 v0.14.0

最终完成版本号提升，形成正式发布版本。

七、lmdeploy v0.14.0 的更新重点总结

如果从实用价值角度提炼，本次版本最值得关注的几个核心方向主要有：

模型与能力扩展
- 支持 Qwen3 Omni
- turbomind 支持 qwen3.5 视觉推理
- 增加 Qwen3.5 Moe lite awq
- Turbomind 支持num_experts_per_tok=10
量化与推理效率
- FP8 KV Cache 量化
- cudagraph capture batch sizes 可配置
- dp 大于 1 的 kernel dispatch 优化
- gdr preprocess 融合
- prefix caching 重构与修复
- cached_tokens 统计加入 usage
接口与生态兼容
- OpenAI Responses-compatible endpoint
- /get_ppl端点
- AllowedToolChoice
- 请求解析失败返回 400
- 流式 usage chunks 对齐 OpenAI 规范
- chat completions 与 v1/messages 扩展 token-in、token-out、routed experts
多模态链路强化
- qwen3.5(vit) inference 支持
- 简化多模态预处理扩展
- 修复旧版 VLM 预处理器
- 降低多模态特征内存占用
- 修复大图输入内存泄漏
- 更新多模态模型支持文档
稳定性与工程质量
- CUDA 错误处理整合与手动堆栈追踪
- engine health monitoring 改进
- XML 工具解析器优化与并行参数泄漏修复
- Windows 模型加载与 DLL 路径修复
- Dockerfile、CI、测试配置、依赖抽取等工程更新