当前位置：首页 > news >正文

Phi-3-mini-128k-instruct保姆级教程：Chainlit前端集成WebSocket实现实时流式响应

news 2026/8/2 10:43:52

Phi-3-mini-128k-instruct保姆级教程：Chainlit前端集成WebSocket实现实时流式响应

1. 模型介绍

Phi-3-Mini-128K-Instruct是一个38亿参数的轻量级开放模型，属于Phi-3系列。它经过专门训练，能够处理长达128K token的上下文，在常识理解、语言推理、数学计算和编码等任务上表现出色。

这个模型的特点在于：

训练数据包含高质量合成数据和精选公开网站数据
经过监督微调和直接偏好优化，确保指令遵循能力
在同类小模型中性能领先
资源占用低，适合实际部署

2. 环境准备

2.1 确认模型服务状态

在开始集成前，我们需要确认模型服务已正确部署。通过以下命令检查日志：

cat /root/workspace/llm.log

如果看到类似下面的输出，说明服务已就绪：

Loading model weights... Model successfully loaded on GPU Ready to serve requests

2.2 安装必要组件

确保已安装以下Python包：

pip install chainlit vllm websockets

3. Chainlit前端集成

3.1 基础集成代码

创建一个app.py文件，包含以下基础集成代码：

import chainlit as cl from vllm import LLM, SamplingParams # 初始化模型 llm = LLM(model="Phi-3-Mini-128K-Instruct") sampling_params = SamplingParams(temperature=0.7, top_p=0.9) @cl.on_message async def main(message: cl.Message): # 创建响应消息 response = await cl.Message(content="").send() # 流式生成响应 output = llm.generate([message.content], sampling_params) for token in output: await response.stream_token(token) # 完成流式传输 await response.update()

3.2 WebSocket实时流实现

要实现真正的实时流式响应，我们需要修改为WebSocket连接：

import asyncio from websockets.server import serve async def handle_websocket(websocket): async for message in websocket: output = llm.generate([message], sampling_params) async for token in output: await websocket.send(token) async def start_websocket(): async with serve(handle_websocket, "localhost", 8765): await asyncio.Future() # 保持服务运行 @cl.on_chat_start async def start_chat(): asyncio.create_task(start_websocket())

4. 完整实现方案

4.1 前端界面代码

在Chainlit中创建完整的用户界面：

@cl.on_chat_start async def init_chat(): await cl.Message( content="Phi-3 Mini 128K Instruct模型已就绪，请输入您的问题..." ).send() @cl.on_message async def handle_message(message: cl.Message): # 创建WebSocket连接 async with websockets.connect("ws://localhost:8765") as ws: await ws.send(message.content) response = await cl.Message(content="").send() async for token in ws: await response.stream_token(token) await response.update()

4.2 后端服务优化

为了提升性能，我们可以添加以下优化：

# 在LLM初始化时添加这些参数 llm = LLM( model="Phi-3-Mini-128K-Instruct", tensor_parallel_size=1, # 根据GPU数量调整 gpu_memory_utilization=0.9, max_num_seqs=64 ) # 优化采样参数 sampling_params = SamplingParams( temperature=0.7, top_p=0.9, max_tokens=2048, stop=["\n\n", "###"] # 自定义停止标记 )