当前位置：首页 > news >正文

2023最新版Prometheus+Grafana监控系统搭建指南（含Docker-compose部署）

news 2026/6/17 23:00:37

2023云原生监控实战：基于Docker-compose的Prometheus+Grafana全栈部署指南

在云原生技术席卷各行各业的今天，监控系统已成为保障业务稳定性的神经中枢。传统监控方案在面对容器化、微服务架构时往往力不从心，而Prometheus作为CNCF毕业项目，凭借其多维数据模型和强大的查询能力，已成为云原生监控的事实标准。本文将带您从零开始，通过Docker-compose快速搭建包含Prometheus、Alertmanager和Grafana的完整监控栈，并分享可视化看板配置的实战技巧。

1. 环境准备与架构设计

1.1 技术栈选型解析

现代监控系统需要具备以下核心能力：

指标采集：支持多种Exporter和Pushgateway
存储查询：高效处理时间序列数据
告警管理：灵活的路由和抑制机制
数据可视化：直观展现系统状态

我们选择的组件组合：

Prometheus（采集+存储+告警规则） ├─ Alertmanager（告警分发） └─ Grafana（可视化展示）

1.2 硬件资源建议

组件	CPU核心	内存	磁盘空间
Prometheus	2	4GB	50GB+
Alertmanager	1	2GB	5GB
Grafana	1	2GB	1GB

提示：生产环境建议为Prometheus配置SSD存储，显著提升查询性能

2. Docker-compose全栈部署

2.1 编排文件详解

创建docker-compose.yml文件：

version: '3' services: prometheus: image: prom/prometheus:v2.37.0 ports: - "9090:9090" volumes: - ./prometheus.yml:/etc/prometheus/prometheus.yml - prom_data:/prometheus command: - '--config.file=/etc/prometheus/prometheus.yml' - '--storage.tsdb.retention.time=30d' alertmanager: image: prom/alertmanager:v0.24.0 ports: - "9093:9093" volumes: - ./alertmanager.yml:/etc/alertmanager/alertmanager.yml grafana: image: grafana/grafana:9.1.6 ports: - "3000:3000" volumes: - grafana_data:/var/lib/grafana volumes: prom_data: grafana_data:

2.2 关键配置文件示例

Prometheus主配置（prometheus.yml）：

global: scrape_interval: 15s evaluation_interval: 15s rule_files: - 'alert.rules' alerting: alertmanagers: - static_configs: - targets: ['alertmanager:9093'] scrape_configs: - job_name: 'prometheus' static_configs: - targets: ['localhost:9090'] - job_name: 'node' static_configs: - targets: ['node-exporter:9100']

Alertmanager配置（alertmanager.yml）：

route: group_by: ['alertname'] receiver: 'email-notifications' receivers: - name: 'email-notifications' email_configs: - to: 'admin@example.com' from: 'alertmanager@example.com' smarthost: 'smtp.example.com:587' auth_username: 'user' auth_password: 'password'

3. 监控数据采集实战

3.1 节点监控配置

在docker-compose.yml中添加node-exporter服务：

node-exporter: image: prom/node-exporter:v1.3.1 ports: - "9100:9100" restart: unless-stopped

3.2 常见Exporter部署

MySQL监控：使用mysqld_exporter
Redis监控：使用redis_exporter
Nginx监控：配置nginx-module-vts

示例MySQL监控配置：

- job_name: 'mysql' static_configs: - targets: ['mysqld-exporter:9104'] metrics_path: /metrics

4. Grafana高级可视化技巧

4.1 看板导入与配置

访问Grafana控制台（localhost:3000）
添加Prometheus数据源：
- URL: http://prometheus:9090
- Access: Server (Default)
导入官方仪表板：
- Node Exporter Full：ID 1860
- Prometheus 2.0 Stats：ID 3662

4.2 自定义看板设计

关键面板类型推荐：

Singlestat：关键指标摘要
Graph：趋势分析
Heatmap：请求分布
Table：详细数据

示例Panel JSON配置片段：

{ "title": "CPU Usage", "type": "graph", "datasource": "Prometheus", "targets": [ { "expr": "100 - (avg by(instance)(irate(node_cpu_seconds_total{mode=\"idle\"}[5m])) * 100)", "legendFormat": "{{instance}}" } ] }

5. 告警策略优化实践

5.1 告警规则示例

创建alert.rules文件：

groups: - name: host-alerts rules: - alert: HighCPUUsage expr: 100 - (avg by(instance)(irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80 for: 10m labels: severity: warning annotations: summary: "High CPU usage on {{ $labels.instance }}" description: "CPU usage is {{ $value }}%" - alert: MemoryPressure expr: (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes) * 100 < 20 for: 15m labels: severity: critical

5.2 告警分级策略

级别	响应时间	通知渠道	静默策略
Critical	15分钟	短信+邮件+钉钉	非工作时间除外
Warning	1小时	邮件+企业微信	周末静默
Info	24小时	邮件	无需静默

6. 生产环境调优指南

6.1 Prometheus性能优化

存储优化：

command: - '--storage.tsdb.retention.time=30d' - '--storage.tsdb.wal-compression' - '--storage.tsdb.max-block-duration=2h'

查询优化：

# 避免全量扫描 bad: metric{label=~".*value.*"} good: metric{label="exact_value"}

6.2 高可用方案

基础HA架构：

┌──────────────┐ │ Load Balancer │ └──────┬───────┘ │ ┌─────────────────────┼─────────────────────┐ │ │ │ ┌──────▼──────┐ ┌──────▼──────┐ ┌──────▼──────┐ │ Prometheus A │ │ Prometheus B │ │ Prometheus C │ └─────────────┘ └─────────────┘ └─────────────┘