当前位置：首页 > news >正文

DeepSeek-R1-Distill-Qwen-1.5B部署教程：RTX3060 200 tokens/s实测

news 2026/3/26 22:00:07

DeepSeek-R1-Distill-Qwen-1.5B部署教程：RTX3060 200 tokens/s实测

1. 引言

1.1 本地大模型的“小钢炮”时代来临

随着大模型技术的不断演进，轻量化、高推理能力的小参数模型正成为边缘计算和本地部署的新宠。DeepSeek-R1-Distill-Qwen-1.5B 就是这一趋势下的代表性成果——它通过在80万条R1推理链数据上对 Qwen-1.5B 进行知识蒸馏，实现了以1.5亿参数逼近7亿级模型的推理表现。

该模型不仅具备出色的数学与代码能力（MATH 80+，HumanEval 50+），还支持函数调用、JSON输出和Agent插件扩展，上下文长度达4k tokens，且Apache 2.0协议允许商用，真正做到了高性能、低门槛、可落地。

1.2 为什么选择 vLLM + Open WebUI 组合？

为了最大化发挥 DeepSeek-R1-Distill-Qwen-1.5B 的性能潜力，本文采用vLLM 作为推理引擎，结合Open WebUI 构建可视化对话界面，打造一个响应迅速、交互流畅的本地AI助手应用。

实测在 RTX 3060（12GB）显卡上，fp16精度下推理速度可达约200 tokens/s，启动后仅需数秒即可完成中等长度回复，体验接近云端大模型服务。

2. 环境准备与依赖安装

2.1 硬件与软件要求

项目	推荐配置
GPU 显存	≥6 GB（推荐RTX 3060/3070及以上）
内存	≥16 GB
存储空间	≥10 GB（含模型缓存）
操作系统	Ubuntu 20.04+/Windows WSL2/Linux/macOS
Python 版本	3.10 或 3.11

提示：若显存不足6GB，可使用 GGUF-Q4 量化版本部署于 CPU 或集成显卡设备（如树莓派、RK3588板卡）。

2.2 安装核心依赖库

首先创建独立虚拟环境并安装必要组件：

python -m venv deepseek-env source deepseek-env/bin/activate # Linux/macOS # 或 deepseek-env\Scripts\activate # Windows pip install --upgrade pip pip install vllm open-webui docker-compose torch==2.1.0+cu118 -f https://download.pytorch.org/whl/torch_stable.html

确保 CUDA 驱动正常工作：

import torch print(torch.cuda.is_available()) # 应输出 True print(torch.cuda.get_device_name(0))

3. 使用 vLLM 部署 DeepSeek-R1-Distill-Qwen-1.5B

3.1 下载模型权重

官方模型已托管于 Hugging Face，可通过huggingface-cli下载：

huggingface-cli login # 登录账号（需接受模型协议） git lfs install git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

下载完成后目录结构如下：

DeepSeek-R1-Distill-Qwen-1.5B/ ├── config.json ├── pytorch_model.bin ├── tokenizer.model └── ...

3.2 启动 vLLM 服务

使用以下脚本启动 vLLM API 服务：

from vllm import LLM, SamplingParams import uvicorn from fastapi import FastAPI app = FastAPI(title="DeepSeek-R1-Distill-Qwen-1.5B API") # 初始化模型（自动使用GPU） llm = LLM( model="./DeepSeek-R1-Distill-Qwen-1.5B", trust_remote_code=True, dtype="half", # fp16 加速 max_model_len=4096, tensor_parallel_size=1 # 单卡 ) sampling_params = SamplingParams(temperature=0.7, top_p=0.9, max_tokens=512) @app.post("/generate") async def generate(prompt: str): outputs = llm.generate([prompt], sampling_params) return {"response": outputs[0].outputs[0].text} if __name__ == "__main__": uvicorn.run(app, host="0.0.0.0", port=8000)

保存为vllm_server.py并运行：

python vllm_server.py

服务启动后将监听http://localhost:8000/generate，支持POST请求生成文本。

性能实测：RTX 3060 上平均吞吐量约为195–205 tokens/s，首 token 延迟 <1s。

4. 集成 Open WebUI 实现图形化交互

4.1 什么是 Open WebUI？

Open WebUI 是一个可本地运行的开源前端框架，支持连接多种后端模型（包括 vLLM、Ollama、HuggingFace TGI），提供类似 ChatGPT 的聊天界面，支持多会话、历史记录、导出等功能。

4.2 部署 Open WebUI（Docker方式）

创建docker-compose.yml文件：

version: '3.8' services: open-webui: image: ghcr.io/open-webui/open-webui:main container_name: open-webui ports: - "7860:8080" volumes: - ./models:/app/models - ./data:/app/data depends_on: - vllm-api environment: - WEBUI_SECRET_KEY=your-secret-key-here restart: unless-stopped vllm-api: build: context: . dockerfile: Dockerfile.vllm ports: - "8000:8000" volumes: - ./DeepSeek-R1-Distill-Qwen-1.5B:/app/model deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu]

新建Dockerfile.vllm：

FROM python:3.11-slim WORKDIR /app COPY requirements.txt . RUN pip install --no-cache-dir -r requirements.txt COPY vllm_server.py . CMD ["python", "vllm_server.py"]

requirements.txt内容：

vllm>=0.4.0 fastapi uvicorn

启动服务：

docker-compose up -d

等待几分钟，待模型加载完毕后访问http://localhost:7860即可进入 WebUI 界面。

5. 配置模型连接与使用说明

5.1 在 Open WebUI 中添加 vLLM 模型

打开http://localhost:7860
登录或注册账户（也可使用演示账号）
- 账号：kakajiang@kakajiang.com
- 密码：kakajiang
进入Settings > Models
添加新模型：
- Model Name:deepseek-r1-distill-qwen-1.5b
- Base URL:http://host.docker.internal:8000/v1（Mac/Win）或http://<宿主机IP>:8000/v1
- API Key: 留空（vLLM无需密钥）
保存并设为默认模型

5.2 功能测试示例

数学推理能力测试

输入：

求解方程：x^2 - 5x + 6 = 0

输出（实测）：

这是一个一元二次方程，可以使用因式分解法求解： x² - 5x + 6 = 0 → (x - 2)(x - 3) = 0 所以解为：x = 2 或 x = 3。

函数调用支持测试（JSON模式）

输入：

请以 JSON 格式返回中国四大名著及其作者。

输出：

{ "classics": [ {"title": "红楼梦", "author": "曹雪芹"}, {"title": "西游记", "author": "吴承恩"}, {"title": "水浒传", "author": "施耐庵"}, {"title": "三国演义", "author": "罗贯中"} ] }

6. 性能优化与常见问题解决

6.1 提升推理效率的关键技巧

技巧	说明
使用 FP16 精度	减少显存占用，提升计算速度
设置合理的`max_model_len`	避免内存浪费，建议设为4096
批处理提示（batching）	vLLM 自动启用 PagedAttention 实现高效批处理
使用 Tensor Parallelism	多卡环境下设置`tensor_parallel_size=N`

6.2 常见问题与解决方案

Q：启动时报错CUDA out of memory？
A：尝试降低max_model_len至2048，或改用 GGUF 量化版 + llama.cpp 方案。
Q：Open WebUI 无法连接 vLLM？
A：检查容器网络互通性，Windows/Mac 使用host.docker.internal，Linux 使用宿主机IP。
Q：响应缓慢或卡顿？
A：确认是否启用了 GPU 加速，运行nvidia-smi查看GPU利用率。
Q：如何在 Jupyter 中调用？
A：启动 Jupyter 后，将访问地址中的8888改为7860即可进入 Open WebUI。