当前位置：首页 > news >正文

快速体验：Xinference-v1.17.1在Jupyter中加载Phi-3-mini模型，5分钟出结果

news 2026/7/30 11:26:42

快速体验：Xinference-v1.17.1在Jupyter中加载Phi-3-mini模型，5分钟出结果

1. 准备工作与环境检查

1.1 启动Xinference镜像

在CSDN星图镜像广场中找到并启动xinference-v1.17.1镜像后，系统会自动为你准备好Jupyter Lab环境。Xinference已经预装完成，无需额外配置。

首先，我们验证环境是否就绪：

!xinference --version

预期输出：

xinference 1.17.1

1.2 启动本地推理服务

在Jupyter中执行以下命令启动服务：

!nohup xinference-local --host 127.0.0.1 --port 9997 --log-level WARNING > /tmp/xinference.log 2>&1 & !sleep 3 # 等待服务启动

为什么需要nohup？因为Jupyter的cell执行完毕后会终止进程，使用nohup可以让服务在后台持续运行。

2. 加载Phi-3-mini模型

2.1 初始化客户端

from xinference.client import Client client = Client("http://127.0.0.1:9997")

2.2 一键加载模型

Phi-3-mini是一个轻量级但性能优秀的模型，特别适合快速体验：

model_uid = client.launch_model( model_name="phi-3-mini", model_size_in_billions=3.8, quantization="q4_k_m" # 推荐量化方式 ) print(f"模型UID: {model_uid}")

加载时间参考：

首次加载约20-30秒
后续加载仅需3-5秒

3. 快速测试模型效果

3.1 基础对话测试

from openai import OpenAI client_oai = OpenAI( base_url="http://127.0.0.1:9997/v1", api_key="not-needed" ) response = client_oai.chat.completions.create( model=model_uid, messages=[ {"role": "system", "content": "你是一个乐于助人的AI助手"}, {"role": "user", "content": "用简单的话解释什么是机器学习"} ], temperature=0.3, max_tokens=100 ) print(response.choices[0].message.content)

预期输出示例：

机器学习是让计算机从数据中自动学习规律和模式，而不需要明确编程的方法。就像教小孩通过例子学习而不是死记硬背规则一样。

3.2 代码生成测试

response = client_oai.chat.completions.create( model=model_uid, messages=[ {"role": "user", "content": "用Python写一个计算斐波那契数列的函数"} ], temperature=0.1, # 降低随机性，确保代码准确 max_tokens=200 ) print(response.choices[0].message.content)

预期输出示例：

def fibonacci(n): """ 计算斐波那契数列的第n项 """ if n <= 0: return 0 elif n == 1: return 1 else: a, b = 0, 1 for _ in range(2, n+1): a, b = b, a + b return b

4. 实用技巧与优化

4.1 提高响应速度

# 使用stream模式获取即时响应 stream = client_oai.chat.completions.create( model=model_uid, messages=[{"role": "user", "content": "Python中如何反转列表？"}], stream=True ) for chunk in stream: if chunk.choices[0].delta.content: print(chunk.choices[0].delta.content, end="")

4.2 保存模型状态

# 保存模型配置 config_path = "/tmp/phi3_config.json" client.export_model(model_uid, config_path) print(f"配置已保存至: {config_path}") # 下次启动时恢复 # !xinference-local --model-config-path /tmp/phi3_config.json

5. 常见问题解决

服务启动失败
- 检查端口是否被占用：!lsof -i :9997
- 查看日志：!cat /tmp/xinference.log | tail -20
模型加载缓慢
- 确保网络连接正常
- 尝试更小的量化版本：quantization="q3_k_m"
内存不足
- 关闭其他不必要的模型
- 重启Jupyter内核释放内存