当前位置：首页 > news >正文

189k上下文，四卡T10(Turing, SM75)部署Qwen3-Coder-Next-AWQ-4bit模型

news 2026/5/12 18:52:50

硬件配置：

处理器：E5-2680v4 双路
显卡：英伟达 Tesla T10 16G 四卡
推理框架：vLLM 0.15.0
模型：cyankiwi/Qwen3-Coder-Next-AWQ-4bit
系统环境：Windows10 + WSL + Docker

简单说明：

本次测试运行在 Windows + WSL + Docker 容器环境中，性能存在一定损耗。在原生 Linux 系统中部署，预计可获得更高的推理速度。
当前参数支持最大189k上下文，1并发。
使用vLLM加载 Qwen3-Coder-Next 模型后，首次调用API进行推理时，需要等待约4~10分钟才会开始生成回复。推测是模型在初次调用时执行了某些编译或初始化操作，等待时间可能与CPU单核性能有关。后续API调用响应速度恢复正常。

Docker部署

注意： 执行部署指令前，请先将模型的config.json文件中的bfloat16改位float16
创建docker-compose.yml文件

services:vllm-qwen3-coder-next:image: vllm/vllm-openai:v0.15.0container_name: vllm-0150-Qwen3-Coder-Next-AWQ-4bitports:- "3000:8000"volumes:- "E:/Qwen3-Coder-Next-AWQ-4bit:/model"deploy:resources:reservations:devices:- driver: nvidiacapabilities: [gpu]ipc: hostshm_size: 16gmem_limit: 16gmemswap_limit: 16genvironment:- VLLM_SLEEP_WHEN_IDLE=1- VLLM_USE_FLASHINFER_SAMPLER=1- OMP_NUM_THREADS=2- PYTORCH_ALLOC_CONF=expandable_segments:True- HF_HUB_OFFLINE=1- VLLM_ENGINE_ITERATION_TIMEOUT_S=1800- VLLM_ENGINE_READY_TIMEOUT_S=1800- VLLM_RPC_TIMEOUT=1800000- VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS=1800- VLLM_MARLIN_USE_ATOMIC_ADD=1- CUDA_VISIBLE_DEVICES=0,1,2,3- LD_LIBRARY_PATH=/usr/local/nvidia/lib64:/usr/local/nvidia/lib:/usr/lib/x86_64-linux-gnucommand: >/model--served-model-name Qwen3-Coder-Next-AWQ-4bit--mamba-cache-mode align--quantization compressed-tensors--dtype float16--enable-auto-tool-choice--tool-call-parser qwen3_coder--gpu-memory-utilization 0.86--max-model-len 193536--max-num-seqs 1--max-num-batched-tokens 1024--tensor-parallel-size 4--async-scheduling--enable-prefix-caching--disable-custom-all-reduce--attention-config.backend FLASHINFER--host 0.0.0.0--api-key vllm-api-key-abc123--enable-log-requests

启动容器