当前位置：首页 > news >正文

手把手教你部署DeepSeek-R1-Distill-Qwen-1.5B：vLLM环境配置与测试

news 2026/7/23 4:08:16

手把手教你部署DeepSeek-R1-Distill-Qwen-1.5B：vLLM环境配置与测试

1. 模型与环境概述

1.1 DeepSeek-R1-Distill-Qwen-1.5B模型特点

DeepSeek-R1-Distill-Qwen-1.5B是DeepSeek团队基于Qwen2.5-Math-1.5B基础模型，通过知识蒸馏技术融合R1架构优势打造的轻量化版本。该模型具有以下核心优势：

参数效率优化：通过结构化剪枝与量化感知训练，将模型参数量压缩至1.5B级别，同时保持85%以上的原始模型精度（基于C4数据集的评估）
任务适配增强：在蒸馏过程中引入领域特定数据（如法律文书、医疗问诊），使模型在垂直场景下的F1值提升12-15个百分点
硬件友好性：支持INT8量化部署，内存占用较FP32模式降低75%，在NVIDIA T4等边缘设备上可实现实时推理

1.2 vLLM推理框架简介

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架，具有以下显著特点：

高效内存管理：采用创新的PagedAttention算法，有效管理注意力键和值
性能优势：吞吐量最高可达HuggingFace实现的24倍，比文本生成推理(TGI)高出3.5倍
无缝集成：与HuggingFace生态完美兼容，无需修改模型结构

2. 环境准备与配置

2.1 硬件与基础软件要求

推荐配置如下：

GPU：NVIDIA V100 32GB（或同等性能显卡）
操作系统：Ubuntu 22.04 LTS
Python：3.12版本
CUDA：12.4驱动版本

2.2 关键依赖安装

执行以下命令安装必要依赖：

pip install torch==2.5.1 transformers==4.46.3 pip install vllm==0.6.6 triton==3.0.0 safetensors==0.4.5

3. 模型获取与准备

3.1 下载模型文件

从HuggingFace官方仓库获取模型：

git lfs install git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

3.2 模型存放目录

建议将模型存放在专用目录，例如：

mkdir -p /LLM/DeepSeek-R1-Distill-Qwen-1.5B mv DeepSeek-R1-Distill-Qwen-1.5B/* /LLM/DeepSeek-R1-Distill-Qwen-1.5B/

4. 服务启动与优化

4.1 基础启动脚本

创建api_server.sh启动脚本：

#!/bin/bash python -m vllm.entrypoints.openai.api_server \ --model /LLM/DeepSeek-R1-Distill-Qwen-1.5B \ --served-model-name deepseek-qwen-1.5b \ --dtype=half \ --tensor-parallel-size 1 \ --max-model-len 1000

4.2 显存优化技巧

默认配置下模型可能占用较多显存（约28GB），可通过调整KV缓存内存利用率优化：

--gpu-memory-utilization 0.2 # 将显存利用率设置为20%

优化后显存占用可降至6GB左右，同时保持良好性能。

4.3 服务验证

检查服务是否正常启动：

cd /root/workspace cat deepseek_qwen.log

成功启动后日志应显示API服务已就绪。

5. 客户端测试与使用

5.1 Python客户端示例

创建测试脚本client_demo.py：

from openai import OpenAI class LLMClient: def __init__(self, base_url="http://localhost:8000/v1"): self.client = OpenAI( base_url=base_url, api_key="none" # vLLM通常不需要API密钥 ) self.model = "DeepSeek-R1-Distill-Qwen-1.5B" def simple_chat(self, user_message, system_message=None): messages = [] if system_message: messages.append({"role": "system", "content": system_message}) messages.append({"role": "user", "content": user_message}) response = self.client.chat.completions.create( model=self.model, messages=messages, temperature=0.6, # 推荐温度设置 max_tokens=2048 ) return response.choices[0].message.content # 使用示例 if __name__ == "__main__": llm_client = LLMClient() # 测试知识问答 response = llm_client.simple_chat( "请用中文介绍一下人工智能的发展历史", "你是一个有帮助的AI助手" ) print(f"AI回复: {response}")