当前位置：首页 > news >正文

保姆级教程：手把手教你用vllm部署Qwen2.5-7B-Instruct并调用

news 2026/6/2 11:58:46

保姆级教程：手把手教你用vllm部署Qwen2.5-7B-Instruct并调用

1. 准备工作

1.1 了解Qwen2.5-7B-Instruct模型

Qwen2.5-7B-Instruct是通义千问团队推出的70亿参数指令微调语言模型，具有以下特点：

多语言支持：支持中文、英文等29种以上语言
长文本处理：支持128K tokens上下文长度，可生成8K tokens内容
结构化数据处理：擅长处理表格数据并生成JSON等结构化输出
知识丰富：在18T tokens数据上预训练，编程和数学能力突出

1.2 硬件要求

GPU：推荐NVIDIA Tesla V100 32GB或更高性能显卡
内存：至少32GB RAM
存储：需要20GB以上可用空间
操作系统：支持Linux系统（如CentOS 7/8, Ubuntu 18.04+）

2. 环境安装与配置

2.1 安装基础依赖

# 更新系统包 sudo apt-get update && sudo apt-get upgrade -y # 安装基础工具 sudo apt-get install -y wget git python3 python3-pip # 安装CUDA工具包（以CUDA 12.2为例） wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 wget https://developer.download.nvidia.com/compute/cuda/12.2.2/local_installers/cuda-repo-ubuntu2204-12-2-local_12.2.2-535.104.05-1_amd64.deb sudo dpkg -i cuda-repo-ubuntu2204-12-2-local_12.2.2-535.104.05-1_amd64.deb sudo cp /var/cuda-repo-ubuntu2204-12-2-local/cuda-*-keyring.gpg /usr/share/keyrings/ sudo apt-get update sudo apt-get -y install cuda

2.2 安装Python依赖

# 创建虚拟环境 python3 -m venv qwen_env source qwen_env/bin/activate # 安装vllm及相关依赖 pip install vllm chainlit openai

3. 部署Qwen2.5-7B-Instruct模型

3.1 下载模型权重

# 创建模型目录 mkdir -p models/Qwen2.5-7B-Instruct cd models/Qwen2.5-7B-Instruct # 下载模型权重（需提前获取下载链接） wget [模型权重下载链接]

3.2 使用vllm启动模型服务

# 启动vllm服务 python -m vllm.entrypoints.api_server \ --model models/Qwen2.5-7B-Instruct \ --trust-remote-code \ --gpu-memory-utilization 0.9 \ --max-num-seqs 16 \ --max-model-len 8192

参数说明：

--model: 指定模型路径
--trust-remote-code: 信任远程代码执行
--gpu-memory-utilization: GPU内存利用率
--max-num-seqs: 最大并发序列数
--max-model-len: 最大模型长度

4. 使用chainlit创建前端界面

4.1 创建chainlit应用

# app.py import chainlit as cl from openai import OpenAI @cl.on_chat_start async def start_chat(): cl.user_session.set( "client", OpenAI( base_url="http://localhost:8000/v1", api_key="no-key-required" ) ) @cl.on_message async def main(message: cl.Message): client = cl.user_session.get("client") response = client.chat.completions.create( model="Qwen2.5-7B-Instruct", messages=[ {"role": "system", "content": "你是一个乐于助人的AI助手"}, {"role": "user", "content": message.content} ], temperature=0.7, max_tokens=2048 ) await cl.Message(content=response.choices[0].message.content).send()

4.2 启动chainlit服务

chainlit run app.py -w

启动后，在浏览器中访问http://localhost:8000即可看到交互界面。

5. 测试与使用

5.1 通过chainlit界面交互

打开浏览器访问http://localhost:8000
在输入框中输入问题，如"广州有什么好玩的地方？"
等待模型生成回答

5.2 通过API直接调用

from openai import OpenAI client = OpenAI( base_url="http://localhost:8000/v1", api_key="no-key-required" ) response = client.chat.completions.create( model="Qwen2.5-7B-Instruct", messages=[ {"role": "user", "content": "用Python写一个快速排序算法"} ], temperature=0.7, max_tokens=2048 ) print(response.choices[0].message.content)