当前位置：首页 > news >正文

零基础部署DeepSeek-R1-Distill-Qwen-1.5B：图文详解每一步

news 2026/7/13 4:27:44

零基础部署DeepSeek-R1-Distill-Qwen-1.5B：图文详解每一步

1. 模型简介与准备工作

1.1 DeepSeek-R1-Distill-Qwen-1.5B模型特点

DeepSeek-R1-Distill-Qwen-1.5B是DeepSeek团队基于Qwen2.5-Math-1.5B基础模型，通过知识蒸馏技术优化而来的轻量级版本。这个模型特别适合需要在本地部署运行的中文场景，主要优势包括：

轻量化设计：模型参数量压缩至1.5B级别，内存占用比原版减少75%
垂直领域优化：在数学推理、法律文书、医疗问诊等场景表现突出
硬件友好：支持INT8量化，可在NVIDIA T4等边缘设备上流畅运行

1.2 部署前准备

在开始部署前，请确保你的环境满足以下要求：

硬件要求：
- GPU：NVIDIA显卡（推荐8GB以上显存）
- 内存：至少16GB
- 存储：20GB以上可用空间
软件要求：
- Linux系统（推荐Ubuntu 20.04+）
- Python 3.8+
- CUDA 11.8+
- vLLM 0.3.0+

2. 环境配置与安装

2.1 安装CUDA和驱动

首先安装NVIDIA驱动和CUDA工具包：

# 添加NVIDIA官方仓库 sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/3bf863cc.pub sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /" # 安装CUDA 11.8 sudo apt-get update sudo apt-get install -y cuda-11-8

安装完成后，验证CUDA是否安装成功：

nvidia-smi nvcc --version

2.2 创建Python虚拟环境

建议使用conda创建独立的Python环境：

conda create -n deepseek python=3.10 -y conda activate deepseek

2.3 安装vLLM

在虚拟环境中安装vLLM及其依赖：

pip install vllm

验证安装是否成功：

python -c "import vllm; print(vllm.__version__)"

3. 模型下载与准备

3.1 下载模型权重

可以从ModelScope或Hugging Face下载模型权重。这里以ModelScope为例：

git lfs install git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B.git cd DeepSeek-R1-Distill-Qwen-1.5B

3.2 检查模型文件

确保模型目录包含以下关键文件：

config.json model-00001-of-00002.safetensors model-00002-of-00002.safetensors tokenizer.json tokenizer_config.json

4. 启动模型服务

4.1 使用vLLM启动服务

运行以下命令启动模型服务：

vllm serve /path/to/DeepSeek-R1-Distill-Qwen-1.5B \ --gpu-memory-utilization 0.9 \ --max-model-len 8192 \ --port 8000

参数说明：

--gpu-memory-utilization：设置GPU显存利用率
--max-model-len：设置最大上下文长度
--port：指定服务端口

4.2 验证服务启动

查看启动日志确认服务是否正常运行：

cat /root/workspace/deepseek_qwen.log

如果看到类似下面的输出，表示服务已成功启动：

INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit) INFO: Application startup complete.

5. 测试模型服务

5.1 使用Python客户端测试

创建一个测试脚本test_model.py：

from openai import OpenAI client = OpenAI( base_url="http://localhost:8000/v1", api_key="none" ) response = client.chat.completions.create( model="DeepSeek-R1-Distill-Qwen-1.5B", messages=[ {"role": "user", "content": "请用中文解释一下量子计算的基本原理"} ], temperature=0.6, max_tokens=1024 ) print(response.choices[0].message.content)

运行测试脚本：

python test_model.py

5.2 流式对话测试

修改测试脚本支持流式输出：

from openai import OpenAI client = OpenAI( base_url="http://localhost:8000/v1", api_key="none" ) stream = client.chat.completions.create( model="DeepSeek-R1-Distill-Qwen-1.5B", messages=[ {"role": "user", "content": "写一首关于春天的七言绝句"} ], temperature=0.6, max_tokens=256, stream=True ) for chunk in stream: content = chunk.choices[0].delta.content if content is not None: print(content, end="", flush=True) print()