当前位置: 首页 > news >正文

Ollama大模型推理场景下3090和4090性能实测

Ollama 是一个开源的大型语言模型(LLM)部署服务工具,能让用户能够轻松地在本地运行、管理和与大型语言模型进行交互。

我们使用Ollama的快速模型部署,来实测英伟达的RTX 3090RTX 4090这两张显卡,在大语言模型推理场景中的性能差异。

3090和4090的显卡参数对比

RTX 3090 RTX 4090
架构 Ampere Ada Lovelace
CUDA核心数 10,496 16,384
显存容量 24 GB GDDR6X 24 GB GDDR6X
显存带宽 936 GB/s 1,008 GB/s
TDP功耗 350W 450W
FP32 算力 35.6 TFLOPS 82.6 TFLOPS
Tensor FP16 算力 142 TFLOPS 330 TFLOPS

3090和4090的显存参数比较接近,显存容量都是24GB,显存带宽差异也不大;算力方面,4090的单精度和Tensor FP16算力差不多是3090的2.3倍。

Ollama大模型推理测试

大模型选择

这里选择 Qwen3的模型进行测试,考虑到3090和4090的显存都是24GB,分别选择一个FP16精度和一个Q4_K_M量化后的大模型进行测试:

模型 精度 大小
qwen3:8b fp16 16 GB
qwen3:14b q4_K_M 9.3 GB

借助DeepSeek 生成测试脚本,使用复杂度近似的8个prompts;MAX_TOKENS配置256,让每次请求需要一定的生成时长便于采样显卡的使用指标,减少波动;同时需要模型预热,消除第一次推理响应延时过大的问题。

我们在GPU算力租赁平台 晨涧云 直接租用Ollama云容器进行测试,分别创建3090和4090两种显卡的容器实例,启动后访问Open WebUI 选择模型:

Ollama-OpenWebUI

然后就可以执行推理性能测试脚本,查看输出结果。

3090推理性能

Ollama-Qwen3推理性能测试-3090

4090推理性能

Ollama-Qwen3推理性能测试-4090

测试结果解释

  • Latency (s):多次推理平均响应时长

  • Throughput (tokens/s):多次推理平均Token生成速度

  • VRAM (MB):多次推理平均显存使用量

  • GPU Util (%):多次推理平均GPU使用率

3090显卡和4090显卡在两个模型推理过程中的显存使用和GPU使用率都比较接近,所以主要比较平均响应时长平均Token生成速度两个指标:

qwen3:8b fp16 qwen3:14b q4_K_M
响应时长(s) 3090 5.39 3.79
响应时长(s) 4090 4.88 3.31
响应时长(s) 差异 90.5% 87.3%
Token生成速度(tokens/s) 3090 47.46 67.62
Token生成速度(tokens/s) 4090 52.45 77.31
Token生成速度(tokens/s) 差异 110.5% 114.3%

4090在量化模型的推理性能相较FP16精度的模型会更突出一点,FP16精度模型推理性能4090比3090高10%左右,Q4_K_M量化模型4090比3090的推理性能高14%左右。

但相较显卡本身参数的算力值2.3倍的差异,在推理场景下4090的优势并没有想象中的那么明显。


Ollama因为更多考虑的是本地和边缘算力的轻量级快速部署场景,所以在推理性能,特别是多GPU高并发场景下,不如vLLMSGLang等框架,后续准备比较在vLLM下不同显卡的推理性能,也可以跟Ollama比较下不同大模型推理框架的性能差异。

http://www.jsqmd.com/news/21476/

相关文章:

  • OSI七层网络参考模型(Leo)
  • 2025 年最新推荐河道护栏源头厂家口碑榜,聚焦全流程服务与高性价比之选铝合金/绳索/不锈钢河道护栏公司推荐
  • ABP vNext 基础四层
  • 2025 年管道修补器源头厂家最新推荐排行榜:揭秘行业内具备全流程管控能力的靠谱厂商及优质产品选型指南加长/铸铁/弯头/卡箍式管道修补器公司推荐
  • 实用指南:YOLO系列——实时屏幕检测
  • 信号(Signal)、信号量(Semaphore)
  • 在 macOS 中遇到 brew 命令不存在的问题
  • 在线聊天室
  • 2025 年亚克力大型鱼缸厂家联系方式推荐:江苏金穗的全产业链服务与定制化技术优势解析
  • 2025 年海洋水族馆厂家联系方式推荐:江苏金穗亚克力定制服务与工程案例,泳池 / 鱼缸项目解决方案
  • 例3.3】三个数 ------信息奥赛高级题库
  • 详细介绍:Go 和云原生 的现状和发展前景
  • Socket 编程 TCP(准备阶段) - 指南
  • 2025 年亚克力板材厂家联系方式推荐:江苏金穗技术工艺与工程案例解析,泳池 / 鱼缸 / 海洋馆解决方案
  • 2025 年 亚克力透明泳池厂家联系方式推荐:江苏金穗的技术积淀与工程服务优势解析
  • 2025山东单招综评培训机构推荐榜:济南易升教育五星领跑,小班培养 + 高上岸率适配升学需求
  • 实用指南:npm 包构建与发布
  • 2025修护/二硫化硒去屑/香氛/控油蓬松/洗发水品牌推荐榜:MASIL 玛丝兰(西安悦己容)五星领衔,这些专研洗护品牌值得关注
  • 2025年Q345B/20G/5310/无缝钢管 高压/5310高压/6479高压合金管推荐榜:天津大无缝五星领跑,这些品质流通企业适配工业需求
  • 2025年保险法律服务律所推荐:拒赔点外险保险律师聚焦专业与实战能力的权威之选
  • vue3+vite学习日记之配置全新项目
  • 2025 全案/VI/品牌设计公司服务商推荐:意识形体(上海意感)五星领跑,这些专注视觉价值的公司值得选
  • 2025 年水泥房厂家联系方式推荐,内蒙古蒙营新型建材提供预制水泥房及配套产品专业解决方案
  • 一网统管,智慧赋能:国标GB28181算法算力平台EasyGBS构建城市交通可视、巡检与指挥新范式
  • YouTube数据抓取漏洞利用与概念验证解析
  • 2025 年检查井厂家联系方式推荐,内蒙古蒙营新型建材提供专业检查井解决方案与可靠产品供应
  • oracle 控制文件
  • iOS 26 查看电池容量与健康状态 多工具组合的工程实践
  • 完整教程:数据类型和变量1
  • 2025年苏州中式秀禾服婚纱照公司权威推荐榜单:海边婚纱照/园林婚纱照/旅拍婚纱照源头公司精选