当前位置：首页 > news >正文

实测对比：4 卡 vs8 卡 5090 服务器大模型推理吞吐量差距 - 智恒百亿

news 2026/6/16 10:33:50

实测对比：4 卡 vs8 卡 5090 服务器大模型推理吞吐量差距

一、背景前言

做私有化大模型部署、本地 LLM 服务开发的开发者，常会纠结硬件选型：中小团队选 4 张 RTX5090 服务器是否够用？业务并发上涨后，升级 8 卡整机的实际吞吐提升有多大？

很多人只看显卡数量翻倍，忽略显存容量、多卡互联、并发承载、长时间负载稳定性带来的真实性能差异。本文基于智恒百亿 4 卡、8 卡两款 RTX5090 整机做统一环境压测，完整记录 70B 开源大模型推理下的吞吐量、显存占用、延迟、稳定性数据，给开发者硬件选型提供可参考的实测依据。

统一测试基线环境

推理框架：vLLM 稳定版，统一开启连续批处理调度
测试模型：Llama3 70B-Instruct，统一 4bit AWQ 量化
上下文参数：上下文长度 512，单次输出 128token
系统配置：Ubuntu22.04，CUDA 对应 RTX5090 适配版本
两款服务器硬件基础配置

硬件项目	4 卡 RTX5090 服务器	8 卡 RTX5090 服务器（智恒百亿 7U 机型）
GPU 配置	4×RTX5090 32G，合计 128GB 显存	8×RTX5090 32G，合计 256GB 显存
CPU	双路 Intel 至强 Gold 6530	双路 Intel 至强 Gold 6530
系统内存	384GB DDR5	512GB DDR5
供电架构	4 台冗余电源	5 台 2700W 白金 4+1 冗余电源
散热结构	4 卡直通风道	7U 定制 8 组独立散热模组
网络	双 2.5G 电口	万兆电口 + 2.5G 管理网口

二、核心压测吞吐量对比数据

分 3 种业务场景：单用户低并发、10 并发在线、30 并发压力满载，记录总吞吐、单用户 token 速度、显存占用、p99 响应延迟，所有数据均为连续 2 小时稳定运行后的均值。

测试场景指标	4 卡 RTX5090 整机	8 卡 RTX5090 整机	实测差异说明
单用户独立推理总吞吐	37 token/s	39 token/s	低负载下两者差距很小，多卡通信存在少量开销，8 卡小幅领先
10 并发用户稳定总吞吐	162 token/s	307 token/s	8 卡整机吞吐量约为 4 卡 1.9 倍，显存余量充足无排队阻塞
30 并发用户满载总吞吐	显存溢出 OOM，无法稳定运行	583 token/s	4 卡 128GB 显存不足以承载 30 路 70B 并发，直接触发内存报错；8 卡 256GB 显存可稳定承载高并发
满载运行显存占用峰值	121GB（20 并发即逼近上限）	192GB（30 并发仍剩余 64GB 余量）	8 卡显存冗余充足，支持多模型同时加载
30 并发 p99 首字响应延迟	无法稳定跑满 30 并发	460ms	4 卡机型并发超过 20 路后延迟持续飙升，请求排队堆积
72 小时连续满载稳定性	20 并发以上显卡温度持续 82℃，偶有性能下调	全程显卡温度 63℃以内，无降频、无中断	8 卡专属多风道散热，长时间高负载温控表现更好

数据核心解读

低并发场景（10 人以内）

4 卡整机可以满足基础业务需求，吞吐差距不明显，适合小型内部工具、个人知识库、低访问量演示系统。

中高并发场景（20 人以上商用服务）

4 卡 128GB 聚合显存是明显瓶颈，70B 量化模型单套就会占用近 190GB 显存上限，多用户同时请求时 KV 缓存快速占满显存，出现请求排队、报错、推理中断；8 卡 256GB 显存可同时承载多套模型 + 高并发请求，吞吐量接近 4 卡机型 2 倍，不存在显存瓶颈。

长期运维稳定性差异

4 卡机箱散热负载集中，多显卡满载后热量堆积，容易触发显卡功耗下调；8 卡整机采用分立式散热模组，每张显卡独立风道，长时间持续推理不会因高温损失算力，适配 7×24 小时无人机房运行。

三、不同业务场景硬件选型建议

1、适合选择 4 卡 RTX5090 服务器的场景

内部研发测试、算法调试，日常并发访问低于 10 人；
仅单套 7B/30B 中小参数模型推理，无多模型并行需求；
短期项目、临时实验环境，无长期商用高并发需求；
机房机柜空间紧张，算力访问量可控。

2、优先选择 8 卡 RTX5090 服务器的场景

对外商用 AI 问答、智能客服、私有化知识库，日常并发 20 人以上；
需要同时加载 2 套及以上 70B 大模型，实现多业务并行；
工业仿真、AI 绘画、多模态生成等多任务混合算力场景；
高校实验室、算力租赁工作室，需要支撑多人同时做模型微调 + 推理；
计划长期部署，后续业务访问量存在上涨预期，避免短期硬件迭代。

四、多卡部署实操踩坑总结（开发向）

4 卡机型运行 70B 大模型高并发时，尽量调低 max_num_seqs 序列上限，否则极易触发 OOM；8 卡机型可放宽序列参数，充分发挥批量推理效率。
多卡并行推理会产生少量 PCIe 通信开销，显卡数量翻倍不会带来理论 2 倍性能提升，但显存容量带来的并发承载提升是线性收益。
供电冗余影响长时间运行稳定性：4 卡机型电源负载接近饱和，峰值请求时电压波动更大；8 卡 4+1 冗余电源单台电源故障不影响整机持续工作。
若后续需要搭建分布式算力集群，8 卡整机自带万兆网口，多机组网传输效率优于仅配 2.5G 网口的 4 卡机型。

五、常见 FAQ

Q1：同样跑 70B 量化模型，4 卡显存 128GB 为什么不够高并发？

A：大模型推理除模型权重占用显存外，每一路并发请求都会生成独立 KV 缓存，并发量越高缓存占用增长越快。单套 70B 4bit 模型权重占用约 90GB 显存，4 卡剩余显存仅 38GB，只能承载少量并发缓存；8 卡合计 256GB 显存，扣除权重后仍有 166GB 余量，可容纳大量并发 KV 缓存。