当前位置：首页 > news >正文

保姆级教程：用Qwen3-1.7B镜像搭建自己的AI助理

news 2026/7/7 3:59:52

保姆级教程：用Qwen3-1.7B镜像搭建自己的AI助理

1. 引言

随着大语言模型技术的快速发展，越来越多开发者希望在本地或私有环境中部署属于自己的AI助理。Qwen3（千问3）是阿里巴巴集团于2025年4月29日开源的新一代通义千问大语言模型系列，涵盖6款密集模型和2款混合专家（MoE）架构模型，参数量从0.6B至235B，适用于多种场景下的推理与微调任务。

本文将带你从零开始，使用预置的Qwen3-1.7B镜像快速搭建一个可交互的AI助理，并通过 LangChain 调用其 API 实现流式对话功能。整个过程无需复杂的环境配置，适合初学者快速上手。

本教程属于D. 教程指南类（Tutorial-Style），强调实操性、步骤清晰性和代码完整性，确保你能在30分钟内完成部署并实现基础对话能力。

2. 环境准备与镜像启动

2.1 启动 Qwen3-1.7B 镜像

首先，在支持GPU的云平台（如CSDN星图镜像广场）中搜索并启动Qwen3-1.7B预置镜像。该镜像已集成以下组件：

Hugging Face Transformers
FastAPI + vLLM 推理服务
Jupyter Lab 开发环境
LangChain 支持库

启动成功后，系统会自动运行一个基于 FastAPI 的推理服务，默认监听端口为8000，并通过/v1接口暴露 OpenAI 兼容的 RESTful API。

注意：请记录下当前实例的访问地址，例如：
https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net

该地址将在后续 LangChain 调用中作为base_url使用。

2.2 打开 Jupyter Lab 进行开发

点击平台提供的 Web IDE 或直接访问<your-instance-url>/lab即可进入 Jupyter Lab 界面。

推荐创建一个新的.ipynb笔记本文件，命名为qwen3_assistant.ipynb，用于后续代码编写与测试。

3. 基于 LangChain 调用 Qwen3-1.7B

LangChain 是目前最流行的 LLM 应用开发框架之一，支持统一接口调用各类大模型。由于 Qwen3-1.7B 提供了 OpenAI 兼容接口，我们可以直接使用ChatOpenAI类进行调用。

3.1 安装依赖库（如未预装）

虽然镜像通常已预装所需库，但建议检查并安装缺失模块：

!pip install langchain_openai openai --quiet

3.2 初始化 ChatModel 实例

以下是调用 Qwen3-1.7B 的核心代码片段：

from langchain_openai import ChatOpenAI import os chat_model = ChatOpenAI( model="Qwen3-1.7B", temperature=0.5, base_url="https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1", # 替换为你的实际地址 api_key="EMPTY", # 当前服务无需真实密钥 extra_body={ "enable_thinking": True, # 启用“思考”模式 "return_reasoning": True, # 返回中间推理过程 }, streaming=True, # 启用流式输出，提升用户体验 )

参数说明：

参数	说明
`model`	模型名称标识，不影响实际调用，仅用于日志追踪
`temperature`	控制生成随机性，值越高越发散，建议设置在 0.5~0.8
`base_url`	必须替换为你自己的实例地址，注意包含`/v1`路径
`api_key`	因服务无需认证，设为`"EMPTY"`即可
`extra_body`	扩展字段，支持启用“思考链”等高级功能
`streaming`	是否启用逐字流式返回，适合聊天场景

3.3 发起首次对话请求

调用invoke()方法发送一条消息，测试模型是否正常响应：

response = chat_model.invoke("你是谁？") print(response.content)

预期输出示例：

我是通义千问3（Qwen3），阿里巴巴集团研发的新一代大语言模型。我能够回答问题、创作文字、表达观点、编程等。有什么我可以帮助你的吗？

如果能成功收到回复，说明模型服务和客户端连接均已就绪。

4. 构建交互式 AI 助理

接下来我们将封装一个更友好的交互函数，支持多轮对话和流式打印效果。

4.1 封装对话函数

def ask_assistant(question: str): """ 向Qwen3-1.7B提问并实时打印回答 """ messages = [ ("human", question) ] # 使用stream方法实现逐字输出 for chunk in chat_model.stream(messages): print(chunk.content, end="", flush=True) print() # 换行

4.2 测试多轮对话能力

ask_assistant("请用诗意的语言描述秋天的落叶。")

输出示例：

秋风轻拂，金黄的叶片如蝶般翩跹起舞，在空中划出最后一道优雅的弧线。它们缓缓飘落，铺满小径，像是大地披上了一层温暖的绒毯……

再试一个问题：

ask_assistant("你能写一段Python代码计算斐波那契数列吗？")

你会看到代码逐行输出，体验接近实时聊天。

5. 高级功能：启用“思考模式”

Qwen3-1.7B 支持enable_thinking和return_reasoning参数，允许模型先进行内部推理再输出最终答案。这在复杂任务中非常有用。

5.1 修改模型配置以获取推理过程

thinking_model = ChatOpenAI( model="Qwen3-1.7B", temperature=0.3, base_url="https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1", api_key="EMPTY", extra_body={ "enable_thinking": True, "return_reasoning": True, }, streaming=True, )

5.2 提出需要逻辑推理的问题

for chunk in thinking_model.stream([("human", "小明有10个苹果，他每天吃掉前一天剩下的一半再加半个，几天后吃完？")]): print(chunk.content, end="", flush=True) print()

输出可能包含类似如下结构的内容：

<正在思考> 第1天剩余：(10 - 5 - 0.5) = 4.5 第2天：吃掉 2.25 + 0.5 = 2.75，剩 1.75 第3天：吃掉 0.875 + 0.5 = 1.375，剩 0.375 第4天不够半个……所以是3天？ </思考完毕> 小明在第4天无法再吃“前一天剩下的一半再加半个”，因此他在3天后吃完所有的苹果。

这种“可见思维”机制极大增强了模型的可信度和可解释性。

6. 常见问题与解决方案（FAQ）

6.1 请求超时或连接失败？

✅ 检查base_url是否正确，特别是端口号（应为8000）
✅ 确认镜像实例处于“运行中”状态
✅ 查看 Jupyter 终端是否有报错日志

6.2 返回乱码或格式错误？

✅ 确保Content-Type: application/json被正确设置（LangChain 默认处理）
✅ 不要手动修改extra_body中的关键字段名

6.3 如何提高响应速度？

✅ 减少max_new_tokens数量（默认为 2048，可调至 512）
✅ 关闭return_reasoning可降低延迟
✅ 使用更高性能的 GPU 实例（如 A10G、V100）

6.4 是否支持多轮对话上下文？

目前服务默认保留上下文长度为 2048 token，可通过构造完整 message history 实现多轮对话：

messages = [ {"role": "user", "content": "你好"}, {"role": "assistant", "content": "你好！有什么可以帮助你？"}, {"role": "user", "content": "刚才我说了什么？"} ] for chunk in chat_model.stream(messages): print(chunk.content, end="", flush=True)