当前位置：首页 > news >正文

从零开始！DeepSeek-R1-Distill-Qwen-1.5B完整部署流程详解

news 2026/6/17 21:17:39

从零开始！DeepSeek-R1-Distill-Qwen-1.5B完整部署流程详解

1. 模型简介与核心优势

1.1 什么是DeepSeek-R1-Distill-Qwen-1.5B？

DeepSeek-R1-Distill-Qwen-1.5B是一款经过知识蒸馏优化的轻量级语言模型，由DeepSeek团队基于Qwen-1.5B架构开发。通过80万条R1推理链样本的蒸馏训练，这个仅有1.5B参数的"小钢炮"模型在多项基准测试中达到了7B级别模型的性能水平。

1.2 为什么选择这个模型？

超低资源需求：FP16全精度仅需3GB显存，GGUF-Q4量化后仅0.8GB
惊人推理能力：MATH数据集80+分，HumanEval代码生成50+分
广泛硬件兼容：从高端GPU到树莓派都能流畅运行
商用友好：Apache 2.0协议允许免费商用
功能丰富：支持4K上下文、函数调用、JSON输出等高级特性

2. 部署环境准备

2.1 硬件要求

配置类型	最低要求	推荐配置
GPU版本	NVIDIA显卡(6GB显存)	RTX 3060及以上
CPU版本	双核x86/ARM处理器	四核2.0GHz+
内存	6GB RAM	8GB+ RAM
存储	2GB可用空间	SSD+5GB空间

2.2 软件依赖

Docker 20.10+
Docker Compose 1.29+
Python 3.10+ (可选)
vLLM 0.4.3+ (已包含在镜像中)

3. 一键部署实战

3.1 获取部署文件

创建项目目录并准备docker-compose配置文件：

mkdir deepseek-deploy && cd deepseek-deploy

创建docker-compose.yml文件，内容如下：

version: '3.8' services: vllm: image: vllm/vllm-openai:latest container_name: vllm-server ports: - "8000:8000" environment: - VLLM_MODEL=deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B - VLLM_DOWNLOAD_DIR=/models volumes: - ./models:/models command: - "--model" - "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B" - "--tokenizer" - "deepseek-ai/deepseek-coder-tokenizer" - "--dtype" - "auto" - "--max-model-len" - "4096" webui: image: ghcr.io/open-webui/open-webui:main container_name: open-webui ports: - "7860:8080" environment: - OLLAMA_BASE_URL=http://vllm:8000/v1 depends_on: - vllm volumes: - ./webui_data:/app/backend/data

3.2 启动服务

执行以下命令启动所有服务：

docker-compose up -d

首次运行会自动下载模型文件，根据网络情况可能需要10-30分钟。可以通过以下命令查看日志：

docker logs vllm-server -f

当看到"Model loaded successfully"提示时，表示模型已准备就绪。

4. 使用Open WebUI交互

4.1 访问Web界面

服务启动完成后，在浏览器中访问：

http://localhost:7860

使用默认账号登录：

用户名：admin@openwebui.com
密码：start123

4.2 配置模型连接

点击右下角设置图标
选择"Model Provider"为"Custom URL"
输入Base URL：http://vllm:8000/v1
API Key留空
点击"Save & Reload"

配置完成后，聊天界面顶部会显示已连接的模型名称。

5. 模型性能优化

5.1 GPU加速配置

如果使用NVIDIA显卡，可以修改vLLM服务的启动参数：

command: - "--model" - "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B" - "--tokenizer" - "deepseek-ai/deepseek-coder-tokenizer" - "--dtype" - "auto" - "--max-model-len" - "4096" - "--gpu-memory-utilization" - "0.9"

5.2 量化模型使用

为节省显存，可以使用GGUF量化模型：

下载量化模型文件：

wget https://huggingface.co/TheBloke/DeepSeek-R1-Distill-Qwen-1.5B-GGUF/resolve/main/deepseek-r1-distill-qwen-1.5b.Q4_K_M.gguf -O models/deepseek-r1-distill-qwen-1.5b.Q4_K_M.gguf

修改vLLM启动参数：

command: - "--model" - "/models/deepseek-r1-distill-qwen-1.5b.Q4_K_M.gguf" - "--tokenizer" - "deepseek-ai/deepseek-coder-tokenizer" - "--dtype" - "auto" - "--device" - "cuda" # 或"cpu"用于纯CPU推理

6. 实际应用示例

6.1 数学问题求解

输入：

求解方程：x² - 5x + 6 = 0

模型输出：

这是一个二次方程，可以使用因式分解法求解： x² - 5x + 6 = 0 (x - 2)(x - 3) = 0 因此方程的解为： x₁ = 2 x₂ = 3

6.2 代码生成

输入：

用Python写一个快速排序算法

模型输出：

def quick_sort(arr): if len(arr) <= 1: return arr pivot = arr[len(arr) // 2] left = [x for x in arr if x < pivot] middle = [x for x in arr if x == pivot] right = [x for x in arr if x > pivot] return quick_sort(left) + middle + quick_sort(right) # 示例用法 print(quick_sort([3,6,8,10,1,2,1])) # 输出: [1, 1, 2, 3, 6, 8, 10]