当前位置：首页 > news >正文

ERNIE-4.5-0.3B-PT模型监控方案：Prometheus+Grafana看板搭建

news 2026/7/1 11:59:33

ERNIE-4.5-0.3B-PT模型监控方案：Prometheus+Grafana看板搭建

1. 引言

当你部署了ERNIE-4.5-0.3B-PT模型服务后，有没有遇到过这样的困惑：模型运行得好不好？GPU资源用足了没有？推理速度怎么样？有没有异常请求？如果只是靠肉眼观察日志，这些问题很难得到准确的答案。

今天我就来分享一套完整的监控方案，用Prometheus和Grafana为你的ERNIE模型服务装上"眼睛"，让你能够实时掌握模型服务的运行状态。这套方案不仅部署简单，而且效果立竿见影，几分钟内就能看到漂亮的监控仪表盘。

2. 环境准备与组件介绍

在开始之前，我们先简单了解一下要用到的两个核心组件：

Prometheus是一个开源的监控系统，专门负责收集和存储各种指标数据。它就像是个数据收集员，会定期从各个服务那里拉取监控数据。

Grafana则是个数据可视化平台，能把Prometheus收集到的数据变成直观的图表和仪表盘。它就像是个数据分析师，把原始数据变成容易理解的视觉信息。

这两个工具配合使用，就能为你的ERNIE模型服务提供全方位的监控能力。

2.1 安装Docker

如果你的系统还没有安装Docker，可以用以下命令快速安装：

# 更新软件包列表 sudo apt-get update # 安装必要的依赖包 sudo apt-get install apt-transport-https ca-certificates curl software-properties-common # 添加Docker官方GPG密钥 curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add - # 添加Docker仓库 sudo add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" # 再次更新并安装Docker sudo apt-get update sudo apt-get install docker-ce # 验证安装是否成功 sudo docker run hello-world

3. 部署Prometheus监控系统

3.1 创建Prometheus配置文件

首先创建一个配置文件，告诉Prometheus要监控什么：

# 创建配置目录 mkdir -p prometheus/config # 创建配置文件 cat > prometheus/config/prometheus.yml << 'EOF' global: scrape_interval: 15s # 每15秒收集一次数据 scrape_configs: - job_name: 'prometheus' static_configs: - targets: ['localhost:9090'] - job_name: 'ernie-model' static_configs: - targets: ['host.docker.internal:8000'] # 假设ERNIE服务运行在8000端口 metrics_path: '/metrics' # 监控数据端点 - job_name: 'node-exporter' static_configs: - targets: ['host.docker.internal:9100'] # 节点监控 EOF

3.2 启动Prometheus容器

用Docker一键启动Prometheus：

docker run -d \ --name=prometheus \ -p 9090:9090 \ -v $(pwd)/prometheus/config:/etc/prometheus \ prom/prometheus

启动成功后，在浏览器访问http://你的服务器IP:9090就能看到Prometheus的界面了。

4. 部署Grafana可视化平台

4.1 启动Grafana容器

Grafana的部署同样简单：

docker run -d \ --name=grafana \ -p 3000:3000 \ grafana/grafana-oss

等容器启动后，访问http://你的服务器IP:3000就能看到Grafana的登录界面。默认用户名和密码都是admin，首次登录后会要求修改密码。

4.2 配置数据源

登录Grafana后，需要先添加Prometheus作为数据源：

点击左侧菜单的"Configuration"（小齿轮图标）
选择"Data Sources"
点击"Add data source"
选择"Prometheus"
在URL字段填写：http://你的服务器IP:9090
点击"Save & Test"，看到绿色提示就表示连接成功了

5. 为ERNIE服务添加监控指标

要让Prometheus能够监控ERNIE模型服务，我们需要在服务中暴露监控指标。这里以Python的FastAPI服务为例：

5.1 安装监控依赖

pip install prometheus-client fastapi uvicorn

5.2 在ERNIE服务中添加监控

在你的ERNIE服务代码中添加以下监控相关代码：

from prometheus_client import Counter, Gauge, Histogram, generate_latest from fastapi import Response import time # 定义监控指标 REQUEST_COUNT = Counter( 'ernie_requests_total', 'Total number of requests', ['model', 'status'] ) REQUEST_LATENCY = Histogram( 'ernie_request_latency_seconds', 'Request latency in seconds', ['model'] ) GPU_MEMORY = Gauge( 'ernie_gpu_memory_usage_bytes', 'GPU memory usage in bytes', ['device_id'] ) GPU_UTILIZATION = Gauge( 'ernie_gpu_utilization_percent', 'GPU utilization percentage', ['device_id'] ) # 在FastAPI应用中添加监控端点 @app.get("/metrics") async def metrics(): return Response(generate_latest(), media_type="text/plain") # 在推理函数中添加监控 @app.post("/generate") async def generate_text(request: TextRequest): start_time = time.time() try: # 这里是你的推理逻辑 result = await run_inference(request.text) # 记录成功的请求 REQUEST_COUNT.labels(model='ernie-4.5-0.3b-pt', status='success').inc() # 记录延迟 latency = time.time() - start_time REQUEST_LATENCY.labels(model='ernie-4.5-0.3b-pt').observe(latency) return result except Exception as e: # 记录失败的请求 REQUEST_COUNT.labels(model='ernie-4.5-0.3b-pt', status='error').inc() raise e # 定期更新GPU指标（需要安装pynvml） def update_gpu_metrics(): try: import pynvml pynvml.nvmlInit() device_count = pynvml.nvmlDeviceGetCount() for i in range(device_count): handle = pynvml.nvmlDeviceGetHandleByIndex(i) mem_info = pynvml.nvmlDeviceGetMemoryInfo(handle) utilization = pynvml.nvmlDeviceGetUtilizationRates(handle) GPU_MEMORY.labels(device_id=str(i)).set(mem_info.used) GPU_UTILIZATION.labels(device_id=str(i)).set(utilization.gpu) except ImportError: print("pynvml not installed, GPU monitoring disabled")