当前位置：首页 > news >正文

Phi-3-mini-128k-instruct部署教程：基于vLLM的GPU算力适配与低显存运行方案

news 2026/5/12 14:56:12

Phi-3-mini-128k-instruct部署教程：基于vLLM的GPU算力适配与低显存运行方案

1. 模型简介

Phi-3-Mini-128K-Instruct是一个38亿参数的轻量级开放模型，属于Phi-3系列的最新成员。这个模型经过专门训练，能够处理长达128K token的上下文内容，在保持小体积的同时展现出强大的推理能力。

模型训练使用了包含合成数据和精选公开网站数据的Phi-3数据集，特别注重数据质量和推理能力的培养。经过监督微调和直接偏好优化后，模型在遵循指令和安全响应方面表现优异。在多项基准测试中，包括常识理解、数学计算、编程能力和逻辑推理等任务，Phi-3 Mini-128K-Instruct都在同类小模型中达到了领先水平。

2. 环境准备

2.1 硬件要求

GPU：至少12GB显存的NVIDIA显卡（如RTX 3060及以上）
内存：建议16GB以上
存储：需要约8GB空间用于模型文件

2.2 软件依赖

确保系统已安装以下组件：

# 基础环境 sudo apt update && sudo apt install -y python3-pip git # Python包 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install vllm chainlit

3. 模型部署

3.1 下载模型

使用以下命令下载Phi-3-mini-128k-instruct模型：

git lfs install git clone https://huggingface.co/microsoft/Phi-3-mini-128k-instruct

3.2 使用vLLM启动服务

vLLM是一个高效的推理引擎，特别适合大语言模型的部署。运行以下命令启动服务：

python -m vllm.entrypoints.api_server \ --model microsoft/Phi-3-mini-128k-instruct \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.85

参数说明：

--tensor-parallel-size：设置GPU并行数量，单卡设为1
--gpu-memory-utilization：控制显存使用率，0.85表示使用85%的可用显存

4. 服务验证

4.1 检查服务状态

服务启动后，可以通过查看日志确认是否部署成功：

tail -f /root/workspace/llm.log

正常运行的日志会显示类似以下内容：

INFO 05-10 14:30:12 llm_engine.py:72] Initializing an LLM engine... INFO 05-10 14:30:15 llm_engine.py:74] Engine initialized.

4.2 使用Chainlit创建交互界面

Chainlit提供了一个简单的前端界面来测试模型。创建一个Python脚本（如app.py）：

import chainlit as cl from vllm import LLM, SamplingParams @cl.on_message async def main(message: cl.Message): llm = LLM(model="microsoft/Phi-3-mini-128k-instruct") sampling_params = SamplingParams(temperature=0.7, top_p=0.9) response = llm.generate([message.content], sampling_params) await cl.Message(content=response[0].outputs[0].text).send()

启动Chainlit服务：

chainlit run app.py

在浏览器中打开显示的地址（通常是http://localhost:8000），即可开始与模型交互。

5. 低显存优化方案

5.1 量化部署

对于显存有限的设备，可以使用4位量化减少内存占用：

python -m vllm.entrypoints.api_server \ --model microsoft/Phi-3-mini-128k-instruct \ --quantization awq \ --gpu-memory-utilization 0.9

5.2 分块处理长文本

处理超长文本时，可以启用分块处理模式：

from vllm import LLM, SamplingParams llm = LLM( model="microsoft/Phi-3-mini-128k-instruct", enable_chunked_prefill=True, max_num_batched_tokens=128000 )