当前位置: 首页 > news >正文

Ollama和vLLM大模型推理性能对比实测

在部署大模型推理服务的时候,选择合适的部署工具可以让我们事半功倍,怎么在对应的场景下选择合适的部署工具,用于平衡部署的成本和推理的性能?

OllamavLLM是目前最常见的两个大模型部署工具,我们先问问DeepSeek看看这两个部署工具的功能特性,分别适用于什么场景?

Ollama和vLLM特性比较

特性维度 Ollama vLLM
设计定位 开发者友好的本地体验工具 生产级的高性能推理引擎
架构特点 单体应用,内置模型管理 专注推理后端,需要API封装
核心技术 基于GGML/GGUF优化,CPU+GPU混合 PagedAttention,连续批处理
易用性 ⭐⭐⭐⭐⭐(极简) ⭐⭐⭐(需要集成)
性能 ⭐⭐⭐(良好) ⭐⭐⭐⭐⭐(卓越)
生态系统 ⭐⭐⭐⭐(丰富模型库) ⭐⭐⭐⭐(工业标准)
资源需求 相对较低 相对较高
适用场景 1. 个人开发与实验
2. 资源受限环境
3. 多模型管理需求
1. 高并发生产环境
2. 对吞吐量要求极高的场景
3. 企业级部署

这里选择英伟达的RTX 3090比较Ollama和vLLM这两个工具在大语言模型推理场景下性能表现,控制同样的模型、同样的API推理参数,并测试并发调用下的性能表现。

在GPU算力租用平台 晨涧云 分别租用3090显卡资源的Ollama和vLLM的云容器进行测试。

模型选择与参数控制

这里选择 Qwen3的模型进行测试,考虑到3090的显存是24GB,选择一个FP16精度的qwen3:8b模型进行测试。

借助DeepSeek 生成测试脚本,调整脚本控制变量:

  • 使用复杂度近似的N个prompts;

  • MAX_TOKENS配置256,让每次请求需要一定的生成时长便于采样显卡的使用指标,减少波动;

  • 选择[1, 4, 8, 16] 4种BATCH_SIZES测试不同并发度下的性能表现;

  • 每轮测试执行3次推理,指标取平均;

  • 同时需要模型预热,消除第一次推理响应延时过大的问题。

然后就可以执行推理性能测试脚本,查看输出结果。

Ollama推理性能

3090-Ollama大模型推理测试结果

vLLM推理性能

3090-vLLM大模型推理测试结果

测试结果解释

  • Batch Size:一次推理调用的并发prompt数量

  • 平均耗时 (s):多次推理平均响应时长

  • 平均吞吐量 (tokens/s):多次推理平均Token生成速度

  • 平均显存 (MB):多次推理平均显存使用量

  • 平均GPU使用率(%):多次推理平均GPU使用率

vLLM的显存占用比Ollama略高,GPU使用率比较接近,主要比较平均响应时长平均Token生成速度两个指标:

Batch Size 1 8 16
响应时长(s) Ollama 5.68 7.64 15.6
响应时长(s) vLLM 5.44 5.82 6.42
响应时长(s) 差异 104.4% 131.3% 243.0%
Token生成速度(tokens/s) Ollama 45.1 268.0 262.9
Token生成速度(tokens/s) vLLM 47.1 351.9 638.4
Token生成速度(tokens/s) 差异 95.6% 76.2% 41.2%

——Ollama的并发数量超过8之后有明显的性能瓶颈,调整 OLLAMA_NUM_PARALLEL 参数还是上不去,不知道是不是需要调整其他参数。

总体来说,顺序调用场景(Batch Size=1)Ollama和vLLM性能接近;并发调用场景vLLM的性能完胜,而且并发度越高的场景下vLLM的性能优势越明显。

这个测试基于单卡的推理场景,多卡下面并发调用的性能表现可能又会有差异。

http://www.jsqmd.com/news/32121/

相关文章:

  • wireguard组网
  • 误解对象的“引用名”跟对象的“名称属性”(`__name__`)引发的一则错误
  • React系列教程:8. 传递函数
  • 杂题选记(10.26 - 11.1)
  • P3953 [NOIP 2017 提高组] 逛公园 题解
  • 用“引用名”替代“变量名”来描述指向对象的标识,更为准确!
  • 2025 年最新推荐开沟机供应厂家榜单:覆盖多机型实力厂商口碑推荐及选购指南梯形槽 / 自走式手扶 / 轮式 / 农用开沟机公司推荐
  • 2025年11月长途旅行行李箱品牌十大选择榜:权威榜单与数据佐证推荐
  • 2025 年镀锌卷板厂家最新推荐排行榜:聚焦实力企业,揭秘定制化服务优势及优质产品选购方向无花镀锌卷板 / 高锌层镀锌卷板 / 批发镀锌卷板公司推荐
  • 2025年11月长途旅行行李箱十大品牌选择榜:知名主流参数全解析
  • 2025.11 做题记录
  • 2025 年 11 月外墙仿石漆厂家推荐排行榜,真石漆,水包砂,质感涂料,仿石涂料优质品牌公司推荐
  • 2025 年 11 月耐污仿石漆厂家推荐排行榜,外墙耐污仿石漆,墙面耐污仿石漆,建筑涂料耐污仿石漆公司推荐
  • 2025 年 11 月水包水仿石漆厂家推荐排行榜,外墙水包水仿石漆,多彩水包水仿石漆,质感水包水仿石漆公司推荐
  • 2025年11月轻便行李箱品牌十大排行榜:全维度解析与避坑建议
  • 2025 年 11 月防霉仿石漆厂家推荐排行榜,外墙防霉仿石漆,室内防霉仿石漆,水性防霉仿石漆,高效防霉仿石漆公司推荐
  • 移动应用APP开发搭建自动化测试框架经验分享
  • 2025年11月大容量行李箱品牌十大对比榜:知名型号数据化评测
  • React系列教程:7. 条件渲染
  • 基于MATLAB的FY-3B MWRI数据处理
  • 2025年11月大容量行李箱品牌十大口碑榜:排行榜与选择方案
  • 2025年11月闸阀厂家排名:十强资质对比与项目适配评价
  • 2025年能注册公司代办的公司哪家好?
  • 【权威发布】国产设备采购必看!工信部安全可靠测评最新结果汇总(附指南).v2.251105
  • Java学习之 stream 常用方法
  • 2025年11月闸阀厂家推荐榜:十强对比评测与选购全解析
  • 真实迁移案例:从 Azkaban 到 DolphinScheduler 的选型与实践
  • 2025 年最新推荐泳池设备源头厂家排行榜:含温泉酒店别墅等各类泳池设备优质品牌精选
  • 2025年11月领先品牌认证机构评测榜:尚普咨询华信人数据对比
  • 2025年11月脸部泛红产品推荐榜:泛红舒缓精华实测对比榜