当前位置: 首页 > news >正文

vllm启动Qwen/Qwen3.6-35B-A3B踩坑日记

1)docker拉取镜像

docker pull nvidia/cuda:12.8.0-cudnn-devel-ubuntu22.04

记住是devel版本的,要不你就悲剧了。你也可以拉取cuda13系列的,都可以的,这里我使用cuda12.8

docker images

然后

docker run -it -p 8004:8004 --name cuda128 --gpus all -v /home:/app 你的镜像id /bin/bash

没docker基础的你就自己百度吧,我不写那么详细了。

2)uv

自己装个conda或者python3激活,最好python3.12

pip install uv

然后:

uv venv --python 3.12 source .venv/bin/activate uv pip install vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

注意:可能2026年5月的时候vllm 0.20.0可以直接安装支持,不需要nightly版本了。

uv pip install -U vllm --torch-backend=auto

uv是真慢啊,等着吧

uv安装完之后,最好重新安装一下torch

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-0.8B --port 8000 --tensor-parallel-size 1 --max-model-len 262144

如果执行这个运行语句,会报错:

ImportError: libcudart.so.13: cannot open shared object file: No such file or directory

这是因为Qwen3.5必须要CUDA 13以上的版本才能支持,所以

nvidia-smi看下自己的驱动最高支持到什么版本。

这个地方必须是13开头的,

然后你再

docker pull nvidia/cuda:13.2.0-cudnn-devel-ubuntu22.04

这样才行的!

然后:

uv venv source .venv/bin/activate uv pip install -U vllm --torch-backend=auto

就可以了:

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3

再然后:

from openai import OpenAI # Modify OpenAI's API key and API base to use vLLM's API server. openai_api_key = "EMPTY" openai_api_base = "http://localhost:8000/v1" client = OpenAI( api_key=openai_api_key, base_url=openai_api_base, ) completion = client.completions.create( model="Qwen/Qwen3.5-35B-A3B", prompt="San Francisco is a", ) print("Completion result:", completion)

就可以了。

http://www.jsqmd.com/news/808008/

相关文章:

  • CRM 系统是什么?一文读懂客户关系管理系统的核心价值与应用
  • PCL2启动器游戏启动失败:终极解决方案与完整指南
  • Photo Sphere Viewer、Three.js、Pannellum怎么选?2024年Web全景图库横向评测与入门指南
  • PowerToys Awake:让Windows电脑在你需要时保持清醒的3种智能模式
  • 如何做变量操作化:从抽象概念到测量指标
  • TVA与传统视觉技术的本质区别——以工业视觉检测为例(11)
  • 跨摄像机不是识别接力,而是空间连续:镜像视界空间智能跟踪中枢
  • 低代码革命:Gemini3.1Pro赋能全民开发
  • 9大网盘直链解析工具LinkSwift:本地化文件下载解决方案
  • 从手动到自动:基于Test Sequence与Test Manager的Simulink模型高效测试流程构建
  • Unpivot逆透视:列名转列值的利器与海量数据下的性能陷阱
  • iOS 音频硬件架构:采样率、位深、声道、音频缓冲区核心解析
  • 拒绝信息过载:Infoseek如何从“噪音海洋”中打捞出真正的价值情报
  • 2026深度教程:如何用好 Gemini 3.1 Pro 联网搜索?实时信息获取与验证技巧全解析
  • 分类记单词:哺乳动物
  • 无感定位 + 跨镜连续:镜像视界视频孪生驱动的全域轨迹计算
  • AI编程助手上下文优化:用VS Code扩展管理Token成本与指令文件
  • Cadence Virtuoso PEX参数提取:除了RC,别忘了设置GND和电源网络(IC617实测)
  • Xception 涨点改进|全网独家复现|引入 MSA 多尺度注意力,全局感知 + 细节增强,助力阿尔茨海默病脑影像精准识别
  • C++中的模板(初阶)
  • 硬件电路中的 EMC 设计
  • 数据库事务的四大特性以及事务并发访问引起的更新丢失问题
  • 西门子“工业软件驱动的数字孪生”模式
  • mac80211基础知识总结
  • HoRain云--PHP邮件发送终极指南
  • 快装管道售后服务测评? - 中媒介
  • 5分钟快速上手:res-downloader 全网资源下载神器终极指南
  • 告别固定尺寸:手把手教你用MATLAB Coder生成能处理任意大小数组的C函数
  • # 2026公考机构红黑榜!粉笔稳居第一,华图中公厮杀太激烈
  • RNN案例之:人名分类器