当前位置：首页 > news >正文

vllm启动Qwen/Qwen3.6-35B-A3B踩坑日记

news 2026/7/10 22:04:41

1）docker拉取镜像

docker pull nvidia/cuda:12.8.0-cudnn-devel-ubuntu22.04

记住是devel版本的，要不你就悲剧了。你也可以拉取cuda13系列的，都可以的，这里我使用cuda12.8

docker images

然后

docker run -it -p 8004:8004 --name cuda128 --gpus all -v /home:/app 你的镜像id /bin/bash

没docker基础的你就自己百度吧，我不写那么详细了。

2)uv

自己装个conda或者python3激活，最好python3.12

pip install uv

然后：

uv venv --python 3.12 source .venv/bin/activate uv pip install vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

注意：可能2026年5月的时候vllm 0.20.0可以直接安装支持，不需要nightly版本了。

uv pip install -U vllm --torch-backend=auto

uv是真慢啊，等着吧

uv安装完之后，最好重新安装一下torch

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-0.8B --port 8000 --tensor-parallel-size 1 --max-model-len 262144

如果执行这个运行语句，会报错：

ImportError: libcudart.so.13: cannot open shared object file: No such file or directory

这是因为Qwen3.5必须要CUDA 13以上的版本才能支持，所以

nvidia-smi看下自己的驱动最高支持到什么版本。

这个地方必须是13开头的，

然后你再

docker pull nvidia/cuda:13.2.0-cudnn-devel-ubuntu22.04

这样才行的！

然后：

uv venv source .venv/bin/activate uv pip install -U vllm --torch-backend=auto

就可以了：

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3

再然后：

from openai import OpenAI # Modify OpenAI's API key and API base to use vLLM's API server. openai_api_key = "EMPTY" openai_api_base = "http://localhost:8000/v1" client = OpenAI( api_key=openai_api_key, base_url=openai_api_base, ) completion = client.completions.create( model="Qwen/Qwen3.5-35B-A3B", prompt="San Francisco is a", ) print("Completion result:", completion)

就可以了。

查看全文

http://www.jsqmd.com/news/808008/