当前位置: 首页 > news >正文

189k上下文,四卡T10(Turing, SM75)部署Qwen3-Coder-Next-AWQ-4bit模型

硬件配置:

处理器:E5-2680v4 双路
显卡:英伟达 Tesla T10 16G 四卡
推理框架:vLLM 0.15.0
模型:cyankiwi/Qwen3-Coder-Next-AWQ-4bit
系统环境:Windows10 + WSL + Docker

简单说明:

  • 本次测试运行在 Windows + WSL + Docker 容器环境中,性能存在一定损耗。在原生 Linux 系统中部署,预计可获得更高的推理速度。
  • 当前参数支持最大189k上下文,1并发。
  • 使用vLLM加载 Qwen3-Coder-Next 模型后,首次调用API进行推理时,需要等待约4~10分钟才会开始生成回复。推测是模型在初次调用时执行了某些编译或初始化操作,等待时间可能与CPU单核性能有关。后续API调用响应速度恢复正常。

Docker部署

注意: 执行部署指令前,请先将模型的config.json文件中的bfloat16改位float16
创建docker-compose.yml文件

services:vllm-qwen3-coder-next:image: vllm/vllm-openai:v0.15.0container_name: vllm-0150-Qwen3-Coder-Next-AWQ-4bitports:- "3000:8000"volumes:- "E:/Qwen3-Coder-Next-AWQ-4bit:/model"deploy:resources:reservations:devices:- driver: nvidiacapabilities: [gpu]ipc: hostshm_size: 16gmem_limit: 16gmemswap_limit: 16genvironment:- VLLM_SLEEP_WHEN_IDLE=1- VLLM_USE_FLASHINFER_SAMPLER=1- OMP_NUM_THREADS=2- PYTORCH_ALLOC_CONF=expandable_segments:True- HF_HUB_OFFLINE=1- VLLM_ENGINE_ITERATION_TIMEOUT_S=1800- VLLM_ENGINE_READY_TIMEOUT_S=1800- VLLM_RPC_TIMEOUT=1800000- VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS=1800- VLLM_MARLIN_USE_ATOMIC_ADD=1- CUDA_VISIBLE_DEVICES=0,1,2,3- LD_LIBRARY_PATH=/usr/local/nvidia/lib64:/usr/local/nvidia/lib:/usr/lib/x86_64-linux-gnucommand: >/model--served-model-name Qwen3-Coder-Next-AWQ-4bit--mamba-cache-mode align--quantization compressed-tensors--dtype float16--enable-auto-tool-choice--tool-call-parser qwen3_coder--gpu-memory-utilization 0.86--max-model-len 193536--max-num-seqs 1--max-num-batched-tokens 1024--tensor-parallel-size 4--async-scheduling--enable-prefix-caching--disable-custom-all-reduce--attention-config.backend FLASHINFER--host 0.0.0.0--api-key vllm-api-key-abc123--enable-log-requests

启动容器

docker-compose up

停止容器

docker-compose down

速度测试结果:

本次测试运行在 Windows + WSL + Docker 容器环境中,性能存在一定损耗。在原生 Linux 系统中部署,预计可获得更高的推理速度。
f1853784391d180f3f5cc1174aa92ed7

http://www.jsqmd.com/news/367830/

相关文章:

  • 2026.2.1总结
  • STM32_LED相关
  • 计算机Java毕设实战--基于微信小程序的网络教学资源学习系统基于springboot的网络课程学习系统小程序【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • Doris在用户行为分析中的应用:大数据场景实践
  • 为什么有些域名不能正常访问?
  • python+django基于大数据的房价数据分析vue_爬虫可视化
  • vue 甘特图 vxe-gantt 设置每个进度条分为计划和实际两条,实现上下分布任务条
  • 计算机Java毕设实战-基于springboot的慢性病健康知识科普管理系统的设计与实现【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 计算机Java毕设实战-基于springboot的中医五行音乐失眠治疗小程序【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 手机连接树莓派pico rp2040示波器 scoppy-pico
  • 域名卖不出去,要不要考虑委托或经纪出售?
  • 瑞幸咖啡 x 阿里云合作共创:AI 推荐让瑞幸咖啡“更懂你
  • 深圳众擎机器人开启全球首个双足机器人格斗联赛URKL:140万美元金腰带背后,双足格斗如何改写机器人行业未来?
  • DOS叙事环与意义行为原生论:一个智能时代意义哲学的重构、对话与导航
  • flask国内python招聘职位可视化数据分析vue_ka8v0爬虫可视化
  • 前端工程化 - gitlab - MT
  • Python SQLite3 查询结果返回字典的完整解决方案
  • 【每日一题】 LeetCode 3719. 最长平衡子数组 I
  • Flink时间语义全解析:Event Time、Processing Time和Ingestion Time
  • python+django图片相册推荐系统可视化大屏vue_sdtwv 爬虫可视化
  • 能源管理AI优化:从POC到规模化应用的完整路径
  • 大数据领域数据服务:优化业务决策的有效途径
  • Cesium进阶教程(1)在cesium后处理中使用shadertoy的代码
  • U-Net登上Nature封面!谷歌这波颠覆性改进太值得学习了
  • Cesium进阶教程(2)线性高度雾
  • JVM的内存结构
  • 《effective python》- python默认参数
  • 基于SpringBoot的海洋航运管理系统开题报告
  • 降AIGC率8款AI工具,赶due党速码!
  • 8款AI降AIGC率神器,赶due急救指南!