当前位置: 首页 > news >正文

使用vLLM部署Qwen/Qwen3.5-35B-A3B-FP8并且在DIFY中调用

硬件配置

三块4090的显卡,CUDA版本为12.8,需要注意vllm需要在CUDA12.4-9的版本下运行,下面的命令要根据当前的CUDA版本来

image

模型部署

创建环境

这里使用conda创建一个新的python 虚拟环境(重要!!!一定是新的虚拟环境,python版本选择3.12)

# 创建虚拟环境
conda create -n vllm-qwen python=3.12 -y
# 激活环境
conda activate vllm-qwen

安装基础依赖

# 安装包管理工具
pip install uv
# 安装模型下载工具
uv pip install modelscope

安装vllm

# 先安装PyTorch(使用国内镜像),需要注意的是cu128对应cuda12.8的版本,如果是12.0则是cu129!!!!!!此处造成了我爬坑了半天!!!!!!
uv pip install torch -i https://mirrors.aliyun.com/pypi/simple/ --extra-index-url https://mirrors.aliyun.com/torch-cu128/
# 再安装vllm(不指定PyTorch索引)
uv pip install -U vllm --prerelease=allow \-i https://mirrors.aliyun.com/pypi/simple/ \--extra-index-url https://wheels.vllm.ai/nightly \--extra-index-url https://mirrors.aliyun.com/torch-cu128/ \--trusted-host mirrors.aliyun.com
# 验证vllm是否安装成功
pip show vllm

启动模型

此处注意--tensor-parallel-size的值需要被模型的内部维度(8192)整除,所以我有3块卡但也设置为2

# 充分利用算力
vllm serve $HOME/.cache/modelscope/hub/models/Qwen/Qwen3.5-35B-A3B-FP8     --port 8002     --tensor-parallel-size 2     --dtype auto     --max-model-len 32768     --max-num-seqs 1     --block-size 128     --served-model-name Qwen3.5-35B     --gpu-memory-utilization 0.9
# 最求性能,把max-model-len、block-size降低了
vllm serve $HOME/.cache/modelscope/hub/models/Qwen/Qwen3.5-35B-A3B-FP8 \--port 8002 \--tensor-parallel-size 2 \--dtype auto \--max-model-len 16384 \--max-num-seqs 1 \--block-size 16 \--served-model-name Qwen3.5-35B \--gpu-memory-utilization 0.8

企业微信截图_1772798280451

 显示上述内容表示启动成功

DIFY配置

 

image

 

http://www.jsqmd.com/news/444466/

相关文章:

  • ElasticSearch常见问题和注意事项
  • 一文搞懂LockSupport原理
  • Windows 安装 OpenClaw 踩坑全记录:Node、Git、CMake、VS Build Tools 一次解决
  • Flutter 三方库 preact_signals 的鸿蒙化适配指南 - 掌控极致信号响应、Signals 架构实战、鸿蒙级精密状态指控专家
  • 别只盯着模型参数了:聊聊多模态时代最容易被忽视的一件事——训练数据准备
  • 看懂“单词规律”的算法之美:为什么简单的模式匹配,其实很深
  • RAG 入门-LangChain 读取图片数据
  • 春节单位发的永辉超市卡如何回收? - 京顺回收
  • YOLO26改进66:全网首发--使用WFU改进特征融合模块
  • Kappa架构在电商大数据平台中的落地实践
  • AI+JavaWeb Vue Ajax
  • 详细介绍:数据结构之查找的方法
  • 2026年大连殡葬服务标杆机构最新推荐:大连众安诚信殡葬礼仪有限公司,一站式殡仪服务新标杆 - 海棠依旧大
  • 聚合支付系统设计方案
  • osi七层模型学习笔记
  • 2026年3月大连殡葬服务公司选择指南:殡葬一条龙、殡仪服务、殡葬用品、灵棚搭建、殡仪车出租相关公司 - 海棠依旧大
  • 保姆级VSCode入门指南,Python党直接抄作业
  • 二叉树的直径-leetcode
  • React Fibber架构设计理解
  • 2026年国内信号屏蔽仪品牌排名推荐,助您选择更具品质保障的产品 - 睿易优选
  • 嘎嘎降AI vs 学术猹 vs PaperYY降AI:同一篇论文三个结果 - 还在做实验的师兄
  • 博士论文降AI用什么工具?高要求场景下只推荐这2款 - 还在做实验的师兄
  • 论文降AI后查重率飙升怎么办?一招搞定两全其美 - 还在做实验的师兄
  • 【MySQL 数据库】MySQL 数据库核心概念详解:库、表、字段、主键与关系型模型一文读懂 - 指南
  • AI 模型服务化实战:FastAPI + vLLM 高性能部署指南
  • ARC092F - Two Faced Edges - Link
  • Logstash
  • 均值不等式初步介绍
  • 最小二乘问题详解13:对极几何中本质矩阵求解
  • 2026年西宁漏水检测维修标杆机构最新推荐:消防管道漏水检测、卫生间漏水检测、厨房漏水检测、暗管漏水检测、地埋管线查漏水、厂房漏水检测、西宁斌瑶精准定位破解漏水难题 - 海棠依旧大