当前位置：首页 > news >正文

零基础教程：用DeepSeek-R1-Distill-Qwen-1.5B搭建智能问答系统

news 2026/3/27 6:55:05

零基础教程：用DeepSeek-R1-Distill-Qwen-1.5B搭建智能问答系统

1. 引言

1.1 学习目标

本文旨在为零基础开发者提供一套完整、可落地的实践指南，帮助你从零开始在本地环境中部署DeepSeek-R1-Distill-Qwen-1.5B模型，并基于该模型构建一个具备上下文理解能力的智能问答系统。完成本教程后，你将能够：

成功下载并加载 DeepSeek-R1-Distill-Qwen-1.5B 模型
使用 Ollama 工具启动模型服务
通过命令行和 Python 调用模型进行推理
实现流式输出与多轮对话功能
掌握常见问题排查方法

1.2 前置知识

建议读者具备以下基础：

熟悉 Linux 命令行操作
了解 Python 编程语言
对大语言模型（LLM）有基本认知

1.3 教程价值

本教程整合了模型部署、服务调用、代码实现与最佳实践，避免碎片化信息带来的学习成本。所有步骤均经过实测验证，提供完整可运行代码，适合快速上手轻量级 LLM 应用开发。

2. 环境准备与模型下载

2.1 安装 Ollama

Ollama 是一个轻量级工具，专为本地运行大语言模型设计，支持多种主流模型格式。我们首先安装 Ollama：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，可通过以下命令检查服务状态：

systemctl status ollama.service

若服务未启动，可手动启动：

systemctl start ollama.service

2.2 下载模型文件

由于 Hugging Face 国内访问受限，推荐使用国内镜像站 https://hf-mirror.com/ 进行模型下载。

创建工作目录并进入：

mkdir -p DeepSeek-R1-Distill-Qwen/1.5B cd DeepSeek-R1-Distill-Qwen/1.5B

启用 Git LFS 支持以下载大文件：

git lfs install

克隆模型仓库：

git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

提示：如果git clone因网络中断失败，可采用分步下载方式：

GIT_LFS_SKIP_SMUDGE=1 git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B wget https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B/resolve/main/model.safetensors mv model.safetensors ./DeepSeek-R1-Distill-Qwen-1.5B/

2.3 后台任务管理（可选）

对于长时间运行的任务（如模型下载），建议使用screen防止 SSH 断连导致中断：

apt install screen -y # 创建名为 download 的会话 screen -S download # 在 screen 中执行下载命令 git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B # 按 Ctrl+A+D 切回主终端，任务在后台继续运行

查看或恢复会话：

screen -ls # 查看所有会话 screen -r download # 恢复名为 download 的会话

3. 模型加载与服务启动

3.1 创建 Modelfile 配置文件

在模型目录下创建名为Modelfile的配置文件，内容如下：

PARAMETER temperature 0.6 PARAMETER top_p 0.95 TEMPLATE """ {{- if .System }}{{ .System }}{{ end }} {{- range $i, $_ := .Messages }} {{- $last := eq (len (slice $.Messages $i)) 1}} {{- if eq .Role "user" }}<｜User｜>{{ .Content }} {{- else if eq .Role "assistant" }}<｜Assistant｜>{{ .Content }}{{- if not $last }}<｜end▁of▁sentence｜>{{- end }} {{- end }} {{- if and $last (ne .Role "assistant") }}<｜Assistant｜>{{- end }} {{- end }} """

该配置指定了：

温度值temperature=0.6，符合官方推荐范围（0.5–0.7）
采样策略top_p=0.95
自定义对话模板，适配 DeepSeek-R1 系列输入格式

3.2 加载模型到 Ollama

执行以下命令创建模型实例：

ollama create DeepSeek-R1-Distill-Qwen-1.5B -f ./Modelfile

注意：此过程可能需要几分钟时间，取决于磁盘读写速度。

3.3 启动模型服务

加载完成后，启动模型服务：

ollama run DeepSeek-R1-Distill-Qwen-1.5B

首次运行时会自动加载模型至内存。成功后可在终端中直接输入问题进行交互，输入/bye退出。

查看已加载模型列表：

ollama list

删除模型（清理空间）：

ollama rm DeepSeek-R1-Distill-Qwen-1.5B

4. 测试模型服务是否正常运行

4.1 使用 curl 测试 API 接口

Ollama 默认监听http://localhost:11434，可通过 HTTP 请求测试服务可用性：

curl http://127.0.0.1:11434/api/generate -d '{ "model": "DeepSeek-R1-Distill-Qwen-1.5B", "prompt": "请解释牛顿第一定律。", "stream": false }'

预期返回 JSON 格式的响应，包含生成文本字段"response"。

4.2 查看日志确认启动状态（可选）

若使用 vLLM 或其他服务框架部署，可查看日志确认服务状态：

cd /root/workspace cat deepseek_qwen.log

出现类似[INFO] Uvicorn running on http://0.0.0.0:8000表示服务已就绪。

5. Python 调用模型实现智能问答

5.1 安装 Ollama Python 客户端

pip install ollama

5.2 基础问答接口封装

import ollama def ollama_chat(prompt, model="DeepSeek-R1-Distill-Qwen-1.5B"): try: response = ollama.generate( model=model, prompt=prompt, options={ "temperature": 0.7, "num_predict": 500 # 控制最大生成 token 数 } ) return response['response'] except Exception as e: return f"Error: {str(e)}" # 使用示例 if __name__ == "__main__": result = ollama_chat("为什么天空是蓝色的？") print(result)

5.3 流式输出实现

支持逐字输出，提升用户体验：

def ollama_stream_chat(prompt, model="DeepSeek-R1-Distill-Qwen-1.5B"): try: for chunk in ollama.generate( model=model, prompt=prompt, stream=True ): yield chunk['response'] except Exception as e: yield f"Error: {str(e)}" # 使用示例 for text in ollama_stream_chat("讲一个关于程序员的冷笑话"): print(text, end="", flush=True)

5.4 多轮对话上下文管理

实现带记忆的聊天机器人：

class ChatSession: def __init__(self, model="DeepSeek-R1-Distill-Qwen-1.5B"): self.client = ollama.Client(host='http://localhost:11434') self.model = model self.context = [] # 存储上下文向量 self.history = [] # 存储对话记录 def chat(self, prompt): try: response = self.client.generate( model=self.model, prompt=prompt, context=self.context, options={'temperature': 0.6} ) self.context = response.get('context', []) self.history.append({"user": prompt, "assistant": response['response']}) return response['response'] except Exception as e: return f"Error: {str(e)}" # 使用示例 if __name__ == "__main__": session = ChatSession() while True: user_input = input("You: ") if user_input.lower() in ['exit', 'quit']: break ai_response = session.chat(user_input) print(f"AI: {ai_response}")

6. 最佳实践与注意事项

6.1 参数设置建议

根据官方文档，使用 DeepSeek-R1 系列模型时应遵循以下建议：

参数	推荐值	说明
`temperature`	0.6	控制输出随机性，过高易发散，过低则重复
`top_p`	0.95	核采样比例，保留高概率词集
`system prompt`	不使用	所有指令应放在用户输入中

6.2 提升数学推理能力

针对数学类问题，在提示词中加入明确指令可显著提升表现：

“请逐步推理，并将最终答案放在\boxed{}内。”

例如：

用户输入：求解方程 2x + 5 = 15，请逐步推理，并将最终答案放在\boxed{}内。

6.3 防止模型跳过思维链

观察发现，模型有时会跳过“思考”阶段直接输出结论。可通过强制添加换行符引导其进入推理模式：

\n 请回答：……

即在提示开头添加\n字符，促使模型展开中间推理步骤。

7. 总结

7.1 核心收获回顾

本文详细介绍了如何从零开始部署DeepSeek-R1-Distill-Qwen-1.5B模型并构建智能问答系统，涵盖以下关键环节：

使用hf-mirror.com克隆模型权重
通过Ollama加载并运行模型
编写Modelfile实现参数与模板定制
利用curl和Python完成服务调用
实现流式输出与多轮对话机制
遵循官方建议优化推理质量

7.2 下一步学习路径

建议进一步探索以下方向：

将问答系统接入 Web 前端（Flask/Django/Vue）
结合 RAG（检索增强生成）提升专业领域准确性
使用 vLLM 替代 Ollama 实现更高并发性能
对模型进行 LoRA 微调以适配特定业务场景

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

查看全文

http://www.jsqmd.com/news/260215/

YOLOv9 weights=‘‘ 空值含义：从零开始训练配置说明

电商订单查询如何提速？SGLang结构化输出实战

GLM-4.6V-Flash-WEB金融科技：票据识别与反欺诈应用

中文逆文本标准化全攻略｜利用科哥开发的FST ITN-ZH镜像高效处理

FSMN-VAD与WebSocket实时通信：在线检测服务构建

亲测腾讯混元翻译模型，网页一键启动太方便了

Qwen2.5-7B智能搜索增强：语义理解与结果优化

Qwen3-1.7B安全指南：云端临时环境比本地更防数据泄露

零基础入门UART协议数据帧硬件解析过程

Qwen3-0.6B教育场景落地：智能批改系统搭建教程

CAM++负载均衡：多实例部署下的流量分配策略

Qwen3-VL-2B-Instruct WebUI美化升级：前端定制部署教程

Z-Image-Turbo校服细节生成：人物服饰准确性实战验证

Unsloth游戏NPC：用微调模型打造智能角色对话系统

Z-Image-Turbo一文详解：与其他蒸馏模型的速度对比

未来AI工作流：Z-Image-Turbo与LangChain集成部署前瞻

DeepSeek-OCR部署案例：法院卷宗电子化系统

Llama3-8B科研写作助手：学术场景应用部署完整指南

CAM++能否识别儿童语音？年龄适应性实测结果

想做情绪机器人？先用科哥镜像体验AI听声辨情

影视剪辑福音：IndexTTS 2.0精准对齐台词与画面节奏

Supertonic极速TTS技术解析：高效推理的底层实现

Qwen3-0.6B能否私有化部署？开源协议与合规性说明

用户态程序调试实践：结合minidump与WinDbg

GLM-ASR-Nano-2512性能优化：让语音识别速度提升50%

HY-MT1.8B vs 商业API实战对比：开源模型精度与成本优势分析

推荐几家2026年初好评沙发供应商 - 2026年企业推荐榜

difference

GLM-ASR-Nano-2512部署教程：支持中英文的低成本语音识别方案

零基础玩转SGLang，轻松实现AI任务编排