当前位置：首页 > news >正文

Qwen3-0.6B零基础部署：5分钟在Jupyter中调用大模型

news 2026/6/5 19:37:22

Qwen3-0.6B零基础部署：5分钟在Jupyter中调用大模型

1. 为什么选择Qwen3-0.6B？

如果你对AI大模型感兴趣，但看到动辄几十GB的模型文件就头疼，或者担心自己的电脑配置不够，那么Qwen3-0.6B就是为你准备的。

Qwen3是阿里巴巴在2025年4月开源的新一代大语言模型系列，而其中的0.6B版本，你可以把它理解为这个家族里最轻量、最亲民的成员。它只有6亿参数，听起来很多，但在大模型世界里，这已经算是“迷你”级别了。

这个模型有几个特别适合新手的特点：

对硬件要求极低：不需要高端显卡，普通CPU就能跑起来
部署简单快速：从下载到运行，整个过程可能比泡一杯咖啡还快
功能完整：虽然体积小，但聊天、问答、代码生成这些基本功能都有
完全免费开源：不用担心API费用，想怎么用就怎么用

今天我要带你做的，就是把这个模型部署到Jupyter Notebook里，让你在5分钟内就能开始和AI对话。整个过程就像搭积木一样简单，不需要复杂的命令行操作，也不需要懂太多深度学习知识。

2. 准备工作：启动镜像

2.1 找到并启动Qwen3-0.6B镜像

首先，你需要找到Qwen3-0.6B的镜像。这个镜像已经预装好了所有需要的环境，包括Python、Jupyter、LangChain等工具，你不需要自己一个个安装。

启动镜像的步骤很简单：

在镜像管理页面找到“Qwen3-0.6B”这个镜像
点击“启动”按钮
等待几秒钟，系统会自动为你创建一个运行环境

启动成功后，你会看到一个Jupyter的界面。这个界面和你平时用的Jupyter Notebook一模一样，左边是文件列表，右边是代码编辑区域。

2.2 理解镜像的工作原理

这个镜像已经帮你做了很多准备工作：

模型已经下载好：你不需要自己从网上下载几百MB的模型文件
环境配置完成：所有Python包都已经安装好，包括LangChain、OpenAI兼容库等
服务已经启动：模型服务在后台运行，随时可以调用

你唯一需要做的，就是写几行Python代码来调用这个模型。这就像去餐厅吃饭，厨房已经准备好了所有食材，厨师也已经就位，你只需要点菜就行了。

3. 编写调用代码

3.1 创建新的Notebook

在Jupyter界面中，点击右上角的“New”按钮，选择“Python 3”创建一个新的Notebook。

给这个Notebook起个名字，比如“qwen3_demo.ipynb”。名字不重要，能让你记住这是什么就行。

3.2 编写核心调用代码

现在，把下面的代码复制到第一个代码单元格里：

from langchain_openai import ChatOpenAI import os # 创建聊天模型实例 chat_model = ChatOpenAI( model="Qwen-0.6B", # 指定使用Qwen3-0.6B模型 temperature=0.5, # 控制回答的随机性，0.5是比较平衡的值 base_url="https://gpu-pod694e6fd3bffbd265df09695a-8000.web.gpu.csdn.net/v1", # 这是当前Jupyter服务的地址 api_key="EMPTY", # 因为是本地服务，不需要真正的API密钥 extra_body={ "enable_thinking": True, # 启用思维链功能 "return_reasoning": True, # 返回推理过程 }, streaming=True, # 启用流式输出，回答会一个字一个字显示 ) # 发送第一个问题 response = chat_model.invoke("你是谁？") print(response.content)

让我解释一下这段代码的每个部分：

from langchain_openai import ChatOpenAI：导入LangChain的聊天模型类，这是调用大模型的标准方式
model="Qwen-0.6B"：告诉系统我们要使用哪个模型
temperature=0.5：这个参数控制回答的创造性。0表示完全确定性的回答，1表示非常随机。0.5是个不错的中间值
base_url：这是模型服务的地址。在这个镜像里，服务已经在8000端口运行了
api_key="EMPTY"：因为是本地服务，不需要付费的API密钥
streaming=True：让回答像打字一样逐个字显示，体验更好

3.3 运行代码并查看结果

点击单元格上方的“运行”按钮（或者按Shift+Enter），等待几秒钟。

你会看到类似这样的输出：

我是Qwen，由通义实验室开发的大语言模型。我可以回答各种问题，协助写作、编程、翻译等任务。

恭喜！你已经成功调用了Qwen3-0.6B模型。虽然回答很简单，但这证明整个流程是通的。

4. 尝试更多对话

4.1 问一些简单问题

现在让我们试试更多问题。在下一个单元格里，输入：

# 问一个常识问题 response = chat_model.invoke("中国的首都是哪里？") print(response.content)

运行后，你应该会看到：

中国的首都是北京。

4.2 尝试创意写作

大模型不只是回答问题，还能帮你写东西。试试这个：

# 让模型写一首短诗 response = chat_model.invoke("写一首关于春天的五言绝句") print(response.content)

输出可能是这样的：

春风拂面来，花开满园香。 鸟语枝头唱，人间好时光。

虽然不是李白杜甫的水平，但对于一个只有0.6B参数的小模型来说，已经不错了。

4.3 测试代码生成能力

Qwen3虽然小，但也能写简单的代码：

# 让模型写一个Python函数 response = chat_model.invoke("写一个Python函数，计算斐波那契数列的第n项") print(response.content)

你可能会得到这样的代码：

def fibonacci(n): if n <= 0: return "输入必须大于0" elif n == 1: return 0 elif n == 2: return 1 else: a, b = 0, 1 for _ in range(2, n): a, b = b, a + b return b

5. 调整参数获得不同效果

5.1 理解temperature参数

前面我们用了temperature=0.5，现在试试不同的值：

# 创建两个不同temperature的模型 creative_model = ChatOpenAI( model="Qwen-0.6B", temperature=0.9, # 更高的创造性 base_url="https://gpu-pod694e6fd3bffbd265df09695a-8000.web.gpu.csdn.net/v1", api_key="EMPTY", streaming=True, ) precise_model = ChatOpenAI( model="Qwen-0.6B", temperature=0.1, # 更低的创造性，更确定 base_url="https://gpu-pod694e6fd3bffbd265df09695a-8000.web.gpu.csdn.net/v1", api_key="EMPTY", streaming=True, ) # 用同一个问题测试 question = "描述一只猫" print("高创造性回答（temperature=0.9）：") response1 = creative_model.invoke(question) print(response1.content) print("\n低创造性回答（temperature=0.1）：") response2 = precise_model.invoke(question) print(response2.content)

你会发现，temperature=0.9时，回答可能更丰富、更有想象力；而temperature=0.1时，回答会更直接、更保守。

5.2 使用流式输出

流式输出让对话体验更好，你可以看到模型“思考”的过程：

# 使用流式输出 response = chat_model.invoke("讲一个简短的笑话") for chunk in response: print(chunk.content, end="", flush=True)

这样，回答会一个字一个字地显示出来，就像有人在打字一样。

6. 处理常见问题

6.1 如果连接失败怎么办？

有时候你可能会遇到连接错误。别担心，这通常是因为服务地址不对。检查一下：

确认服务是否运行：在Jupyter中新建一个终端，输入：
```
curl http://localhost:8000/health
```
如果返回{"status":"ok"}，说明服务正常。
检查base_url：确保base_url中的端口号是8000，并且地址正确。
重启服务：如果还是不行，可以重启Jupyter内核，然后重新运行代码。

6.2 如果回答太慢怎么办？

Qwen3-0.6B虽然小，但在某些情况下可能还是会有点慢。你可以：

减少回答长度：让模型回答简短一些
关闭流式输出：设置streaming=False，等完整回答生成后再显示
简化问题：避免太复杂或需要大量推理的问题

6.3 如果回答质量不高怎么办？

记住，Qwen3-0.6B只有6亿参数，它的能力有限：

问简单明确的问题：不要问太开放或太复杂的问题
给更多上下文：如果需要连续对话，把之前的对话历史也传给模型
降低期望：把它当作一个简单的聊天助手，而不是全能AI

7. 进阶使用技巧

7.1 连续对话

要让模型记住之前的对话，你需要手动管理对话历史：

# 初始化对话历史 conversation_history = [] def chat_with_history(question): # 构建包含历史的提示 prompt = "" for role, content in conversation_history: prompt += f"{role}: {content}\n" prompt += f"用户: {question}\n助手:" # 调用模型 response = chat_model.invoke(prompt) # 更新历史 conversation_history.append(("用户", question)) conversation_history.append(("助手", response.content)) # 保持历史长度（避免太长） if len(conversation_history) > 10: # 只保留最近5轮对话 conversation_history = conversation_history[-10:] return response.content # 测试连续对话 print("第一轮：") print(chat_with_history("你好，我是小明")) print("\n第二轮：") print(chat_with_history("你还记得我是谁吗？"))

7.2 自定义系统提示

你可以告诉模型扮演什么角色：

custom_model = ChatOpenAI( model="Qwen-0.6B", temperature=0.7, base_url="https://gpu-pod694e6fd3bffbd265df09695a-8000.web.gpu.csdn.net/v1", api_key="EMPTY", extra_body={ "system": "你是一个专业的编程助手，专门帮助解决Python编程问题。回答要简洁、准确、有代码示例。" }, streaming=True, ) response = custom_model.invoke("如何用Python读取CSV文件？") print(response.content)

7.3 批量处理问题

如果你有一堆问题要问，可以批量处理：

questions = [ "Python中如何定义函数？", "什么是列表推导式？", "如何安装第三方包？" ] for q in questions: print(f"问题：{q}") response = chat_model.invoke(q) print(f"回答：{response.content}") print("-" * 50)