当前位置：首页 > news >正文

Phi-3.5-mini-instruct实操手册：vLLM服务指标接入Prometheus监控体系指南

news 2026/4/22 22:10:32

Phi-3.5-mini-instruct实操手册：vLLM服务指标接入Prometheus监控体系指南

1. 模型介绍与环境准备

1.1 Phi-3.5-mini-instruct模型概述

Phi-3.5-mini-instruct是一个轻量级的开放模型，属于Phi-3模型家族。它基于高质量、推理密集的数据集构建，支持128K令牌的上下文长度。该模型经过监督微调、近端策略优化和直接偏好优化等多阶段训练，具备精确的指令遵循能力和强大的安全措施。

1.2 部署环境检查

在开始监控配置前，请确保您的vLLM服务已正确部署。可以通过以下命令检查服务状态：

cat /root/workspace/llm.log

成功部署后，日志中应显示类似以下内容：

INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit) INFO: Started server process [1234]

2. Prometheus监控体系搭建

2.1 Prometheus安装与配置

首先安装Prometheus服务：

wget https://github.com/prometheus/prometheus/releases/download/v2.47.0/prometheus-2.47.0.linux-amd64.tar.gz tar xvfz prometheus-*.tar.gz cd prometheus-*

编辑配置文件prometheus.yml，添加vLLM监控目标：

scrape_configs: - job_name: 'vllm' static_configs: - targets: ['localhost:8000'] # vLLM服务地址

启动Prometheus服务：

./prometheus --config.file=prometheus.yml

2.2 vLLM指标暴露配置

vLLM服务默认提供Prometheus格式的指标端点。确保启动vLLM时启用了指标收集：

python -m vllm.entrypoints.api_server \ --model Phi-3.5-mini-instruct \ --port 8000 \ --enable-metrics

3. 关键监控指标解析

3.1 基础性能指标

vLLM暴露的主要指标包括：

指标名称	说明	重要性
`vllm_num_requests_running`	当前运行中的请求数	高
`vllm_request_latency_seconds`	请求延迟分布	高
`vllm_num_pending_requests`	排队中的请求数	中
`vllm_gpu_utilization`	GPU利用率	高

3.2 自定义告警规则

在Prometheus中配置告警规则（rules.yml）：

groups: - name: vllm-alerts rules: - alert: HighRequestLatency expr: histogram_quantile(0.95, sum(rate(vllm_request_latency_seconds_bucket[5m])) by (le)) > 5 for: 10m labels: severity: warning annotations: summary: "High request latency detected" description: "95th percentile request latency is {{ $value }} seconds"

4. Grafana可视化配置

4.1 安装Grafana

wget https://dl.grafana.com/oss/release/grafana-10.2.0.linux-amd64.tar.gz tar -zxvf grafana-10.2.0.linux-amd64.tar.gz cd grafana-10.2.0 ./bin/grafana-server web

4.2 导入vLLM监控仪表板

访问Grafana界面（默认http://localhost:3000）
创建新的Prometheus数据源
导入vLLM监控仪表板（JSON模板可从vLLM官方文档获取）

5. 模型调用验证与监控

5.1 使用Chainlit进行测试

确保模型服务正常运行后，可以通过Chainlit前端进行调用测试：

import chainlit as cl @cl.on_message async def main(message: str): # 调用vLLM API response = await query_vllm(message) await cl.Message(content=response).send()

5.2 监控指标验证

在Prometheus界面查询以下指标，确认数据收集正常：

vllm_num_requests_running rate(vllm_requests_total[5m])

6. 总结与最佳实践

通过本文的配置，您已经实现了：

vLLM服务指标的Prometheus监控体系搭建
关键性能指标的收集与告警配置
Grafana可视化仪表板的部署
完整的监控流程验证

建议的最佳实践包括：

设置合理的告警阈值（如GPU利用率>80%持续10分钟）
定期检查指标数据保留策略
对历史性能数据进行分析，优化模型部署参数

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

查看全文

http://www.jsqmd.com/news/683996/

可视掏耳勺好用吗？弹簧挖耳勺好用吗？可视掏耳勺热销品牌排行

治愈不内卷！星露谷物语v1.6.15，承包你的所有温柔时光

深度学习归一化技术：从原理到TensorFlow实践

手把手教你用STM32F103C8T6驱动HUB75 LED点阵屏（附74HC595级联原理详解）

26年春季学期学习记录第28天

手把手教你用Scrcpy+FFmpeg，为你的移动安全测试搭建一套免费高效的录屏分析环境

基于stm32设计智能消防小车（有完整资料）

DownKyi终极指南：3步掌握B站视频高效下载与管理

螺丝头类型检测数据集1144张VOC+YOLO格式

multiple在Android 4.4系统浏览器是否被忽略？

2026年吉林建筑施工资质代办公司口碑推荐：吉林/长春建筑施工资质新批、延期、维护以及建筑公司股权转让、建筑公司收购选择指南 - 海棠依旧大

手把手教你使用LOKI数据集评估自己的LMM模型（含代码示例）

透明任务栏革命：TranslucentTB如何让Windows桌面焕然一新

项目部废料处理“老大难”？广州老兵上门回收，省心又高价！ - 广州搬家老班长

边分树学习笔记

wangEditor在Vue项目中的两个大坑：动态渲染与表单回填的完整解决方案

Agenus 指定 BAP Pharma 为 BOT+BAL 准入项目全球独家合作伙伴

React 任务过期逻辑：调度器中的 expirationTime 是如何防止低优先级任务产生“饥饿（Starvation）”现象的？

广州搬家避坑指南：干了20年的李班长教你选对公司、搬得省心 - 广州搬家老班长

RAPIDS 24.10版本GPU加速与大数据处理实战解析

C语言完美演绎8-15

告别Unity/UE4焦虑！用Love2D+Lua零基础开启你的第一个游戏项目（附ZeroBrane Studio配置避坑指南）

4/22

PIC32MX795F512LT-80I/PT以及PIC32MX795F512L-80I/PT是一款32 位高性能微控制器

内网日志排查小工具：纯 HTML 单文件，超大日志秒开 + 全局搜索

Phi-3.5-mini-instruct部署案例：为高校实验室定制代码辅导AI工具

美国国安局无视供应链风险继续使用Anthropic公司Claude Mythos模型

牛客：最长不下降子序列

Less如何优化CSS文件大小_利用压缩配置去除冗余样式

Phi-3.5-mini-instruct实操手册：vLLM服务指标接入Prometheus监控体系指南

1. 模型介绍与环境准备

1.1 Phi-3.5-mini-instruct模型概述

1.2 部署环境检查

2. Prometheus监控体系搭建

2.1 Prometheus安装与配置

2.2 vLLM指标暴露配置

3. 关键监控指标解析

3.1 基础性能指标

3.2 自定义告警规则

4. Grafana可视化配置

4.1 安装Grafana

4.2 导入vLLM监控仪表板

5. 模型调用验证与监控

5.1 使用Chainlit进行测试

5.2 监控指标验证

6. 总结与最佳实践

相关文章：