当前位置：首页 > news >正文

使用vLLM部署Qwen/Qwen3.5-35B-A3B-FP8并且在DIFY中调用

news 2026/5/11 20:53:16

硬件配置

三块4090的显卡，CUDA版本为12.8，需要注意vllm需要在CUDA12.4-9的版本下运行，下面的命令要根据当前的CUDA版本来

模型部署

创建环境

这里使用conda创建一个新的python 虚拟环境（重要！！！一定是新的虚拟环境，python版本选择3.12）

# 创建虚拟环境
conda create -n vllm-qwen python=3.12 -y
# 激活环境
conda activate vllm-qwen

安装基础依赖

# 安装包管理工具
pip install uv
# 安装模型下载工具
uv pip install modelscope

安装vllm

# 先安装PyTorch（使用国内镜像）,需要注意的是cu128对应cuda12.8的版本，如果是12.0则是cu129！！！！！！此处造成了我爬坑了半天！！！！！！
uv pip install torch -i https://mirrors.aliyun.com/pypi/simple/ --extra-index-url https://mirrors.aliyun.com/torch-cu128/
# 再安装vllm（不指定PyTorch索引）
uv pip install -U vllm --prerelease=allow \-i https://mirrors.aliyun.com/pypi/simple/ \--extra-index-url https://wheels.vllm.ai/nightly \--extra-index-url https://mirrors.aliyun.com/torch-cu128/ \--trusted-host mirrors.aliyun.com
# 验证vllm是否安装成功
pip show vllm

启动模型

此处注意--tensor-parallel-size的值需要被模型的内部维度（8192）整除，所以我有3块卡但也设置为2

# 充分利用算力
vllm serve $HOME/.cache/modelscope/hub/models/Qwen/Qwen3.5-35B-A3B-FP8     --port 8002     --tensor-parallel-size 2     --dtype auto     --max-model-len 32768     --max-num-seqs 1     --block-size 128     --served-model-name Qwen3.5-35B     --gpu-memory-utilization 0.9
# 最求性能，把max-model-len、block-size降低了
vllm serve $HOME/.cache/modelscope/hub/models/Qwen/Qwen3.5-35B-A3B-FP8 \--port 8002 \--tensor-parallel-size 2 \--dtype auto \--max-model-len 16384 \--max-num-seqs 1 \--block-size 16 \--served-model-name Qwen3.5-35B \--gpu-memory-utilization 0.8