当前位置：首页 > news >正文

Phi-3.5-mini-instruct快速上手：无需root权限，在普通用户目录完成全部部署

news 2026/4/25 21:49:15

Phi-3.5-mini-instruct快速上手：无需root权限，在普通用户目录完成全部部署

1. 模型简介

Phi-3.5-mini-instruct 是一个轻量级的开放模型，属于Phi-3模型家族。它基于高质量的数据集构建，包括合成数据和经过筛选的公开网站数据，特别关注推理密集型任务。这个模型支持长达128K令牌的上下文长度，经过监督微调、近端策略优化和直接偏好优化等多阶段训练，能够精确遵循指令并具备强大的安全特性。

主要特点：

轻量级设计，适合在普通硬件上运行
128K超长上下文支持
精确的指令跟随能力
优化的安全措施

2. 环境准备

2.1 系统要求

在开始部署前，请确保您的系统满足以下基本要求：

Linux操作系统（推荐Ubuntu 20.04或更高版本）
Python 3.8或更高版本
至少16GB内存（推荐32GB）
支持CUDA的NVIDIA GPU（推荐显存8GB以上）
普通用户账号（无需root权限）

2.2 创建部署目录

在您的用户目录下创建部署文件夹：

mkdir -p ~/phi3-mini-deployment cd ~/phi3-mini-deployment

3. 部署步骤

3.1 安装依赖

首先安装必要的Python包：

pip install vllm chainlit torch

3.2 下载模型

使用以下命令下载Phi-3.5-mini-instruct模型：

git lfs install git clone https://huggingface.co/microsoft/Phi-3-mini-128k-instruct

3.3 启动vLLM服务

在后台启动vLLM服务：

python -m vllm.entrypoints.api_server \ --model ~/phi3-mini-deployment/Phi-3-mini-128k-instruct \ --trust-remote-code \ --port 8000 \ > ~/phi3-mini-deployment/llm.log 2>&1 &

3.4 验证服务

检查服务是否启动成功：

tail -n 20 ~/phi3-mini-deployment/llm.log

如果看到类似以下输出，表示服务已成功启动：

INFO 05-08 10:20:12 llm_engine.py:72] Initializing an LLM engine with config:... INFO 05-08 10:20:15 model_runner.py:121] Loading model weights... INFO 05-08 10:20:18 api_server.py:210] Started server process [12345]

4. 使用Chainlit前端

4.1 创建Chainlit应用

创建一个新的Python文件app.py：

import chainlit as cl import requests @cl.on_message async def main(message: cl.Message): response = requests.post( "http://localhost:8000/v1/completions", json={ "model": "Phi-3-mini-128k-instruct", "prompt": message.content, "max_tokens": 512, "temperature": 0.7 } ) await cl.Message(content=response.json()["choices"][0]["text"]).send()

4.2 启动Chainlit

运行以下命令启动前端：

chainlit run app.py -w

4.3 访问界面

在浏览器中打开http://localhost:8000，您将看到Chainlit的交互界面。在输入框中提问，模型将生成回答。

5. 使用示例

5.1 简单问答

输入：

请解释量子计算的基本原理

典型输出：

量子计算利用量子比特(qubit)的叠加和纠缠特性进行计算。与传统比特不同，量子比特可以同时处于0和1的叠加态，通过量子门操作实现并行计算...

5.2 代码生成

输入：

用Python写一个快速排序算法

典型输出：

def quick_sort(arr): if len(arr) <= 1: return arr pivot = arr[len(arr)//2] left = [x for x in arr if x < pivot] middle = [x for x in arr if x == pivot] right = [x for x in arr if x > pivot] return quick_sort(left) + middle + quick_sort(right)