当前位置: 首页 > news >正文

32并发输出速度519.87t/s!四卡T10(Turing, sm75) Qwen3-27B-FP8 并发吞吐量测试

硬件配置:

主板:ProLiant ML350 Gen9
处理器:双路E5-2630v4
显卡:英伟达 Tesla T10 16G 四卡(每个CPU接两个T10)
系统:Ubuntu 24.04.3 LTS
推理框架:vLLM
模型:Qwen/Qwen3.5-27B-FP8

并发 1~32 吞吐量测试

测试工具:mokieli/vllm_api_throughput_test
输入 20 tokens,输出 256 tokens
throughput_charts

简单说明:

  • Qwen3.5-27B模型信息:魔搭社区
  • 部署指令设置最大上下文=256k,最大并发=32 。
  • 使用vLLM加载 Qwen3.5-27B-FP8 模型后,首次调用 API 进行推理时,需要等待约 4~10 分钟才会开始生成回复。推测是模型在初次调用时执行了某些编译或初始化操作,等待时间可能与 CPU 单核性能有关。后续 API 调用响应速度恢复正常。
  • 本次测试主机的四张显卡分别连接到两颗 CPU 上,跨 NUMA 节点通信带来了一定的性能损耗,推理速度可能略低于四张显卡全部连接在同一 CPU 下的设备。

Docker部署指令:

注意: 执行部署指令前,请先将模型的config.json文件中的bfloat16改为float16

docker run -d \--gpus all \--memory 16g \--memory-swap 16g \--shm-size 16g \-p 8032:8000 \-v /model/Qwen/Qwen3.5-27B-FP8:/model \--ipc=host \--name vllm-Qwen3.5-27B-seqs32 \--env VLLM_SLEEP_WHEN_IDLE=1 \--env VLLM_USE_FLASHINFER_SAMPLER=1 \--env OMP_NUM_THREADS=2 \--env PYTORCH_ALLOC_CONF=expandable_segments:True \--env HF_HUB_OFFLINE=1 \--env VLLM_ENGINE_ITERATION_TIMEOUT_S=1800 \--env VLLM_ENGINE_READY_TIMEOUT_S=1800 \--env VLLM_RPC_TIMEOUT=1800000 \--env VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS=1800 \--env VLLM_MARLIN_USE_ATOMIC_ADD=1 \--env VLLM_LOG_STATS_INTERVAL=1.0 \--env LD_LIBRARY_PATH='/usr/local/nvidia/lib64:/usr/local/nvidia/lib:/usr/lib/x86_64-linux-gnu' \vllm/vllm-openai:nightly \/model \--served-model-name Qwen3.5-27B \--mamba-cache-mode align \--limit-mm-per-prompt '{"video": 0}' \--mm-encoder-attn-backend TORCH_SDPA \--dtype float16 \--enable-auto-tool-choice \--tool-call-parser qwen3_coder \--reasoning-parser qwen3 \--gpu-memory-utilization 0.85 \--max-model-len 262144 \--max-num-seqs 32 \--max-num-batched-tokens 2048 \--tensor-parallel-size 4 \--async-scheduling \--enable-prefix-caching \--disable-custom-all-reduce \--attention-config.backend FLASHINFER \--host 0.0.0.0 \--enable-log-requests
http://www.jsqmd.com/news/425067/

相关文章:

  • 小学剑桥原版线上英语课推荐|家长实测不踩坑,选课直接抄作业 - 品牌测评鉴赏家
  • 现在分词
  • 从技术到口碑,惠耳神逸助听器彰显国产硬核实力 - 资讯焦点
  • 初中英语提分难?6个宝藏学习平台实测推荐,覆盖同步、口语、冲刺全场景 - 品牌测评鉴赏家
  • 2026年特氟龙输送带TOP10厂商评测排名 - 资讯焦点
  • 口碑较好的小型冰箱排行榜——2026年非常值得入手的选项 - 资讯焦点
  • 2026实测|初中英语线上辅导机构哪家好?避坑不花冤枉钱,家长直接抄作业 - 品牌测评鉴赏家
  • 2026线上少儿英语培训班推荐|家长闭眼抄作业不踩坑 - 品牌测评鉴赏家
  • 揭秘 Qt 的底层黑魔法:元对象系统 (MOS) 与元对象编译器 (MOC) 深度解析
  • 2026年知名的振动温度传感器厂家行业热门推荐 - 品牌鉴赏师
  • 小学生剑桥英语选课指南,3大主流品牌实测,新手家长直接抄作业 - 品牌测评鉴赏家
  • 西门子PLC结构化编程_数值改变检测标准块
  • 初中生必看|3款剑桥原版线上英语课实测,告别无效刷题 - 品牌测评鉴赏家
  • 2026男士防脱产品哪个牌子最好?十大明星级防脱生发品牌排行榜推荐,榜首效果惊艳 - 资讯焦点
  • 小学0基础线上英语课推荐|家长实测不踩坑!新手娃入门抄作业 - 品牌测评鉴赏家
  • NMN哪个牌子好?2026年全球NMN品牌深度横测:认准三项硬核指标 - 资讯焦点
  • 小学生线上剑桥英语选课|实测3家热门款,闭眼抄作业不踩坑 - 品牌测评鉴赏家
  • LangGraph4j 学习系列(7)-流式响应
  • hi3519dv500 Tsensor驱动
  • 基于深度学习的YOLO目标检测+智能计数系统之木材数量计数图像数据集 树木卡车图像计数数据集 detr图像数据集第10115期
  • TinyTeams.xyz:小团队创造大奇迹的科技名人堂
  • 基于机器学习的无人机的人群密度分析图像数据集 人员密度图像识别 无人机巡逻巡检人群数据集 cnn人员密度检测
  • 对于 UTF-16 的高低代理项码点的解析
  • 具身智能2026年产业图谱:智平方引领下的技术分化与价值落地
  • 春晚带火具身智能!2026 核心技术推荐 五强企业解锁智能新未来
  • PMMA塑料光纤怎么提高耐热性
  • 【系统分析师】10.4 问题分析
  • DSA期末考情分析
  • 实战笔记】手把手拆解S7-1200四轴伺服控制系统
  • 2026线上英语启蒙课实测对比:这几家最靠谱,家长闭眼选不踩坑 - 品牌测评鉴赏家