当前位置：首页 > news >正文

零基础玩转Qwen2.5-7B：手把手教你用Docker部署大模型服务

news 2026/5/12 23:50:53

零基础玩转Qwen2.5-7B：手把手教你用Docker部署大模型服务

1. 准备工作

1.1 环境要求

在开始之前，请确保你的系统满足以下要求：

操作系统：Linux（推荐Ubuntu 20.04+或CentOS 7+）
GPU：NVIDIA显卡（建议至少16GB显存）
驱动：已安装NVIDIA驱动和CUDA 12.2+
Docker：已安装并配置好NVIDIA Container Toolkit

1.2 安装Docker和NVIDIA Container Toolkit

如果你还没有安装Docker，可以按照以下步骤进行安装：

更新系统软件包：

sudo apt-get update && sudo apt-get upgrade -y

安装Docker依赖：

sudo apt-get install -y apt-transport-https ca-certificates curl gnupg-agent software-properties-common

添加Docker官方GPG密钥：

curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -

添加Docker仓库：

sudo add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable"

安装Docker：

sudo apt-get update && sudo apt-get install -y docker-ce docker-ce-cli containerd.io

安装NVIDIA Container Toolkit：

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \ && curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \ && curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list sudo apt-get update && sudo apt-get install -y nvidia-docker2 sudo systemctl restart docker

2. 部署Qwen2.5-7B-Instruct服务

2.1 拉取Docker镜像

我们将使用预构建的vLLM Docker镜像来部署Qwen2.5-7B-Instruct模型：

docker pull vllm/vllm-openai:latest

2.2 下载模型文件

你可以从以下两个来源下载Qwen2.5-7B-Instruct模型：

Hugging Face：

git lfs install git clone https://huggingface.co/Qwen/Qwen2.5-7B-Instruct

ModelScope：

git clone https://www.modelscope.cn/qwen/Qwen2.5-7B-Instruct.git

下载完成后，建议将模型文件放在/data/model/qwen2.5-7b-instruct目录下。

2.3 启动Docker容器

使用以下命令启动Qwen2.5-7B-Instruct服务：

docker run --runtime nvidia --gpus all \ -p 9000:9000 \ --ipc=host \ -v /data/model/qwen2.5-7b-instruct:/qwen2.5-7b-instruct \ -it --rm \ vllm/vllm-openai:latest \ --model /qwen2.5-7b-instruct --dtype float16 --max-parallel-loading-workers 1 --max-model-len 10240 --enforce-eager --host 0.0.0.0 --port 9000

参数说明：

--gpus all：使用所有可用的GPU
-p 9000:9000：将容器的9000端口映射到主机的9000端口
-v /data/model/qwen2.5-7b-instruct:/qwen2.5-7b-instruct：将主机上的模型目录挂载到容器内
--model /qwen2.5-7b-instruct：指定模型路径
--dtype float16：使用float16精度运行模型
--max-model-len 10240：设置最大模型长度

3. 使用chainlit构建前端界面

3.1 安装chainlit

首先，创建一个Python虚拟环境并安装chainlit：

python -m venv qwen-env source qwen-env/bin/activate pip install chainlit openai

3.2 创建chainlit应用

创建一个名为app.py的文件，内容如下：

import chainlit as cl from openai import OpenAI client = OpenAI(base_url="http://localhost:9000/v1", api_key="none") @cl.on_message async def main(message: cl.Message): response = client.chat.completions.create( model="/qwen2.5-7b-instruct", messages=[ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": message.content} ], temperature=0.7, ) await cl.Message(content=response.choices[0].message.content).send()

3.3 启动chainlit服务

运行以下命令启动chainlit前端：

chainlit run app.py -w

启动后，在浏览器中访问http://localhost:8000即可看到聊天界面。

4. 测试与使用

4.1 通过curl测试API

你可以直接通过curl命令测试API：

curl http://localhost:9000/v1/chat/completions -H "Content-Type: application/json" -d '{ "model": "/qwen2.5-7b-instruct", "messages": [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "广州有什么特色景点?" } ] }'

4.2 通过chainlit界面交互

在chainlit界面中，你可以直接输入问题与Qwen2.5-7B-Instruct模型交互。例如：

输入："帮我写一封求职信"
输入："用Python实现快速排序算法"
输入："解释量子计算的基本原理"

5. 常见问题解决

5.1 模型加载失败

如果模型加载失败，请检查：

模型路径是否正确
是否有足够的GPU显存（至少16GB）
Docker是否有权限访问GPU

5.2 响应速度慢

如果响应速度慢，可以尝试：

减少--max-model-len参数的值
使用更小的模型（如Qwen2.5-1.8B）
确保GPU驱动和CUDA版本正确

5.3 显存不足

如果遇到显存不足的问题，可以尝试：

使用--dtype bfloat16代替float16
减少--max-model-len参数的值
使用多GPU部署（见下文）

6. 进阶配置

6.1 多GPU部署

如果你有多块GPU，可以使用以下命令进行部署：

docker run --runtime nvidia --gpus all \ -p 9000:9000 \ --ipc=host \ -v /data/model/qwen2.5-7b-instruct:/qwen2.5-7b-instruct \ -it --rm \ vllm/vllm-openai:latest \ --model /qwen2.5-7b-instruct --dtype float16 --max-parallel-loading-workers 1 --max-model-len 10240 --enforce-eager --host 0.0.0.0 --port 9000 --tensor-parallel-size 2

其中--tensor-parallel-size 2表示使用2块GPU并行计算。

6.2 使用OpenResty实现负载均衡

如果你有多台服务器运行Qwen2.5-7B-Instruct服务，可以使用OpenResty实现负载均衡：

安装OpenResty：

sudo apt-get install -y openresty

配置Nginx：

upstream qwen_servers { server 192.168.1.101:9000; server 192.168.1.102:9000; server 192.168.1.103:9000; } server { listen 80; server_name qwen.example.com; location /v1/chat/completions { proxy_pass http://qwen_servers; proxy_http_version 1.1; proxy_set_header Upgrade $http_upgrade; proxy_set_header Connection "upgrade"; } }