当前位置：首页 > news >正文

32并发输出速度519.87t/s！四卡T10(Turing, sm75) Qwen3-27B-FP8 并发吞吐量测试

news 2026/7/9 10:16:29

硬件配置：

主板：ProLiant ML350 Gen9
处理器：双路E5-2630v4
显卡：英伟达 Tesla T10 16G 四卡（每个CPU接两个T10）
系统：Ubuntu 24.04.3 LTS
推理框架：vLLM
模型：Qwen/Qwen3.5-27B-FP8

并发 1~32 吞吐量测试

测试工具：mokieli/vllm_api_throughput_test
输入 20 tokens，输出 256 tokens

简单说明：

Qwen3.5-27B模型信息：魔搭社区
部署指令设置最大上下文=256k，最大并发=32 。
使用vLLM加载 Qwen3.5-27B-FP8 模型后，首次调用 API 进行推理时，需要等待约 4~10 分钟才会开始生成回复。推测是模型在初次调用时执行了某些编译或初始化操作，等待时间可能与 CPU 单核性能有关。后续 API 调用响应速度恢复正常。
本次测试主机的四张显卡分别连接到两颗 CPU 上，跨 NUMA 节点通信带来了一定的性能损耗，推理速度可能略低于四张显卡全部连接在同一 CPU 下的设备。

Docker部署指令：

注意： 执行部署指令前，请先将模型的config.json文件中的bfloat16改为float16

docker run -d \--gpus all \--memory 16g \--memory-swap 16g \--shm-size 16g \-p 8032:8000 \-v /model/Qwen/Qwen3.5-27B-FP8:/model \--ipc=host \--name vllm-Qwen3.5-27B-seqs32 \--env VLLM_SLEEP_WHEN_IDLE=1 \--env VLLM_USE_FLASHINFER_SAMPLER=1 \--env OMP_NUM_THREADS=2 \--env PYTORCH_ALLOC_CONF=expandable_segments:True \--env HF_HUB_OFFLINE=1 \--env VLLM_ENGINE_ITERATION_TIMEOUT_S=1800 \--env VLLM_ENGINE_READY_TIMEOUT_S=1800 \--env VLLM_RPC_TIMEOUT=1800000 \--env VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS=1800 \--env VLLM_MARLIN_USE_ATOMIC_ADD=1 \--env VLLM_LOG_STATS_INTERVAL=1.0 \--env LD_LIBRARY_PATH='/usr/local/nvidia/lib64:/usr/local/nvidia/lib:/usr/lib/x86_64-linux-gnu' \vllm/vllm-openai:nightly \/model \--served-model-name Qwen3.5-27B \--mamba-cache-mode align \--limit-mm-per-prompt '{"video": 0}' \--mm-encoder-attn-backend TORCH_SDPA \--dtype float16 \--enable-auto-tool-choice \--tool-call-parser qwen3_coder \--reasoning-parser qwen3 \--gpu-memory-utilization 0.85 \--max-model-len 262144 \--max-num-seqs 32 \--max-num-batched-tokens 2048 \--tensor-parallel-size 4 \--async-scheduling \--enable-prefix-caching \--disable-custom-all-reduce \--attention-config.backend FLASHINFER \--host 0.0.0.0 \--enable-log-requests

查看全文

http://www.jsqmd.com/news/425067/