Unsloth Sglang Vllm核心区别和使用场景
(一)核心总结
- Unsloth:主打「微调/训练加速」,推理只是附带
- vLLM:通用推理引擎,主打「高吞吐、高显存利用率」
- SGLang:推理引擎,主打「前缀复用、结构化输出、低延迟」
下面从定位、核心技术、性能、适用场景四个维度拆开讲。
一、定位
1. Unsloth
- 定位:微调优先、推理为辅的加速库(LoRA/QLoRA 神器)
- 出身:创业公司,专注让消费级显卡也能微调大模型
- 典型口号:7B 模型 8GB 显存可微调,速度 ×2、显存 降低70%
2. vLLM
- 定位:通用生产推理引擎,工业界默认首选
- 出身:UC Berkeley LMSYS(2023)
- 典型口号:PagedAttention,显存利用率 95%+,吞吐 ×24
3. SGLang
- 定位:高性能交互推理引擎,偏对话/Agent/结构化输出
- 出身:UC Berkeley(2024)
- 典型口号:RadixAttention,多轮对话吞吐比 vLLM 高 2–5 倍
二、核心技术差异
1. Unsloth:训练/微调优化
- 核心不是 KV Cache,而是:
- 高度优化的 QLoRA(4-bit)内核,比 GPTQ/AWQ 快、精度无损
- 自定义梯度检查点、显存分片、算子融合
- 推理只是简单封装(基于 HF),没有 PagedAttention
- 一句话:优化反向传播 + 低秩适配器,推理是赠品
