当前位置：首页 > news >正文

⚖️Lychee-Rerank实操手册：集成Prometheus+Grafana监控rerank服务QPS与延迟

news 2026/3/27 0:29:41

⚖Lychee-Rerank实操手册：集成Prometheus+Grafana监控rerank服务QPS与延迟

1. 项目背景与监控需求

Lychee-Rerank是一个基于Qwen2.5-1.5B模型的本地检索相关性评分工具，它能够对查询语句和候选文档进行匹配度打分，并输出按相关性排序的结果。在实际生产环境中，我们需要实时了解这个服务的运行状态，特别是两个关键指标：

QPS（每秒查询数）：了解服务处理请求的能力和负载情况
延迟（Latency）：监控每次推理请求的响应时间，确保服务质量

通过集成Prometheus和Grafana，我们可以构建一个完整的监控系统，实时可视化这些关键指标，及时发现性能瓶颈和异常情况。

2. 监控系统架构设计

2.1 整体架构

我们的监控系统采用三层架构：

Lychee-Rerank服务 → Prometheus数据采集 → Grafana可视化展示

2.2 监控指标定义

我们需要监控的核心指标包括：

rerank_requests_total：总请求数计数器
rerank_request_duration_seconds：请求耗时直方图
rerank_requests_current：当前并发请求数
rerank_qps：每秒查询数

3. 环境准备与部署

3.1 安装Prometheus

首先下载并安装Prometheus：

# 创建监控目录 mkdir -p ~/monitoring/lychee-rerank cd ~/monitoring/lychee-rerank # 下载Prometheus wget https://github.com/prometheus/prometheus/releases/download/v2.47.2/prometheus-2.47.2.linux-amd64.tar.gz tar xvfz prometheus-*.tar.gz cd prometheus-*

3.2 配置Prometheus

创建Prometheus配置文件prometheus.yml：

global: scrape_interval: 15s scrape_configs: - job_name: 'lychee-rerank' static_configs: - targets: ['localhost:8000'] metrics_path: '/metrics'

3.3 安装Grafana

下载并安装Grafana：

# Ubuntu/Debian wget -q -O - https://packages.grafana.com/gpg.key | sudo apt-key add - echo "deb https://packages.grafana.com/oss/deb stable main" | sudo tee -a /etc/apt/sources.list.d/grafana.list sudo apt-get update sudo apt-get install grafana # 启动Grafana sudo systemctl start grafana-server sudo systemctl enable grafana-server

4. 集成Prometheus监控指标

4.1 添加监控指标导出

在Lychee-Rerank服务中添加Prometheus客户端库。首先安装必要的依赖：

pip install prometheus-client

4.2 实现指标收集

在Lychee-Rerank的主程序中添加监控代码：

from prometheus_client import Counter, Histogram, Gauge, start_http_server import time # 定义监控指标 REQUEST_COUNT = Counter('rerank_requests_total', 'Total rerank requests') REQUEST_DURATION = Histogram('rerank_request_duration_seconds', 'Rerank request duration') CURRENT_REQUESTS = Gauge('rerank_requests_current', 'Current concurrent requests') class MonitoringMiddleware: def __init__(self): self.active_requests = 0 def before_request(self): self.active_requests += 1 CURRENT_REQUESTS.set(self.active_requests) def after_request(self, duration): self.active_requests -= 1 CURRENT_REQUESTS.set(self.active_requests) REQUEST_COUNT.inc() REQUEST_DURATION.observe(duration) # 初始化监控 monitor = MonitoringMiddleware() def calculate_relevance_with_monitoring(instruction, query, documents): """带监控的相关性计算函数""" start_time = time.time() monitor.before_request() try: # 原有的相关性计算逻辑 results = calculate_relevance(instruction, query, documents) return results finally: duration = time.time() - start_time monitor.after_request(duration) # 启动Prometheus指标服务器 start_http_server(8000)

4.3 添加QPS计算

为了计算实时QPS，我们可以添加一个函数：

from prometheus_client import Gauge import threading QPS_GAUGE = Gauge('rerank_qps', 'Current queries per second') class QPSCalculator: def __init__(self): self.request_times = [] self.lock = threading.Lock() def add_request(self): with self.lock: current_time = time.time() self.request_times.append(current_time) # 保留最近60秒的请求记录 self.request_times = [t for t in self.request_times if current_time - t < 60] # 计算QPS if self.request_times: qps = len(self.request_times) / 60.0 QPS_GAUGE.set(qps) qps_calculator = QPSCalculator() # 在请求处理中添加 def calculate_relevance_with_monitoring(instruction, query, documents): start_time = time.time() monitor.before_request() qps_calculator.add_request() try: results = calculate_relevance(instruction, query, documents) return results finally: duration = time.time() - start_time monitor.after_request(duration)

5. Grafana仪表板配置

5.1 添加数据源

访问Grafana界面（默认 http://localhost:3000）
使用默认账号admin/admin登录
进入Configuration → Data Sources → Add data source
选择Prometheus，设置URL为 http://localhost:9090

5.2 创建监控仪表板

创建新的仪表板，添加以下面板：

5.2.1 QPS监控面板

标题：实时QPS监控
查询：rate(rerank_requests_total[1m])
可视化：Graph
设置：Y轴单位为 "req/s"

5.2.2 延迟分布面板

标题：请求延迟分布
查询：histogram_quantile(0.95, rate(rerank_request_duration_seconds_bucket[5m]))
可视化：Graph
设置：添加多个分位数（0.5, 0.9, 0.95, 0.99）

5.2.3 当前负载面板

标题：当前并发请求数
查询：rerank_requests_current
可视化：Gauge
设置：设置阈值（绿色：0-5，黄色：5-10，红色：>10）

5.3 仪表板JSON配置

你也可以直接导入完整的仪表板配置：

{ "dashboard": { "title": "Lychee-Rerank监控", "panels": [ { "title": "实时QPS", "type": "graph", "targets": [{ "expr": "rate(rerank_requests_total[1m])", "legendFormat": "QPS" }] }, { "title": "延迟分布", "type": "graph", "targets": [ { "expr": "histogram_quantile(0.5, rate(rerank_request_duration_seconds_bucket[5m]))", "legendFormat": "p50" }, { "expr": "histogram_quantile(0.9, rate(rerank_request_duration_seconds_bucket[5m]))", "legendFormat": "p90" } ] } ] } }

6. 实战演示与效果验证

6.1 启动监控系统

按照顺序启动各个组件：

# 终端1：启动Prometheus cd ~/monitoring/lychee-rerank/prometheus-* ./prometheus --config.file=prometheus.yml # 终端2：启动Lychee-Rerank（已集成监控） python lychee_rerank_with_monitoring.py # 终端3：压力测试（模拟请求） for i in {1..1000}; do curl -X POST http://localhost:7860/calculate \ -H "Content-Type: application/json" \ -d '{"instruction":"Find relevant documents","query":"test query","documents":["doc1", "doc2"]}' sleep 0.1 done