当前位置: 首页 > news >正文

Prometheus告警处理详解:从Alertmanager部署到告警实战

一、Alertmanager介绍

Prometheus 内置了一个报警模块——Alertmanager,它负责接收来自 Prometheus 的告警信息,并支持对告警进行去重、降噪、分组、路由,同时具备丰富的通知渠道集成能力,是一款高效的告警通知系统。

告警流程架构

在 Prometheus 中,告警功能分为两部分:

  1. Prometheus:定义告警规则并周期性计算,触发告警后发送给 Alertmanager。

  2. Alertmanager:接收告警并按照配置进行后续处理与通知。

下图展示了告警流程架构:


二、部署Alertmanager

Alertmanager 使用 Go 编写,无第三方依赖,支持跨平台部署。

1. Linux安装步骤

(1)下载安装包

bash

wget https://github.com/prometheus/alertmanager/releases/download/v0.26.0/alertmanager-0.26.0.linux-amd64.tar.gz

(2)创建配置文件

解压后默认配置文件为alertmanager.yml,主要内容如下:

yaml

route: group_by: ['alertname'] group_wait: 30s group_interval: 5m repeat_interval: 1h receiver: 'web.hook' receivers: - name: 'web.hook' webhook_configs: - url: 'http://127.0.0.1:5001/' inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'dev', 'instance']
(3)启动Alertmanager

bash

./alertmanager

支持启动参数:

  • --config.file:指定配置文件路径

  • --storage.path:指定数据存储路径

(4)查看运行状态

访问http://<IP>:9093可进入Alertmanager控制台。


2. Docker安装步骤

bash

mkdir -p /etc/alertmanager/ mkdir -p /etc/alertmanager/template vim /etc/alertmanager/alertmanager.yml # 内容同上 docker run -d -p 9093:9093 \ -v /etc/alertmanager:/etc/alertmanager \ -v /etc/localtime:/etc/localtime \ prom/alertmanager

三、配置Receiver接收告警信息

Alertmanager 支持多种通知方式,包括邮件、Slack、Webhook、PagerDuty 等。

集成QQ邮箱告警示例

1. 申请QQ邮箱授权码

参考:QQ邮箱授权码申请指南

2. 配置alertmanager.yml

yaml

global: resolve_timeout: 5m smtp_smarthost: 'smtp.qq.com:465' smtp_from: '276****211@qq.com' smtp_auth_username: '276****211@qq.com' smtp_auth_password: 'xxxxxxxxx' # 授权码,非QQ密码 smtp_require_tls: false templates: - '/etc/alertmanager/template/*.tmpl' route: group_by: ['service','alertname','cluster'] group_wait: 30s group_interval: 10s repeat_interval: 5m receiver: 'email' receivers: - name: 'email' email_configs: - to: '276****211@qq.com' send_resolved: true html: '{{ template "email.html" . }}' inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'dev', 'instance']
3. 创建自定义邮件模板

bash

vim /etc/alertmanager/template/email.tmpl

模板内容如下(支持Go模板语法):

go

{{ define "email.html" }} {{ range $i, $alert :=.Alerts }} ========监控报警==========<br> 告警状态:{{ .Status }}<br> 告警级别:{{ $alert.Labels.severity }}<br> 告警类型:{{ $alert.Labels.alertname }}<br> 告警应用:{{ $alert.Annotations.summary }}<br> 告警主机:{{ $alert.Labels.instance }}<br> 告警详情:{{ $alert.Annotations.description }}<br> 触发阀值:{{ $alert.Annotations.value }}<br> 告警时间:{{ ($alert.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05"}}<br> ========end=============<br> {{ end }} {{ end }}

注意:

  • StartsAt为UTC时间,需加28800e9转换为北京时间

  • 2006-01-02 15:04:05为Go语言固定时间格式


四、启用Alertmanager模块与Rules告警规则

1. 配置Prometheus连接Alertmanager

编辑prometheus.yml,添加以下内容:

yaml

global: scrape_interval: 5s evaluation_interval: 5s alerting: alertmanagers: - static_configs: - targets: - 192.168.3.100:9093 rule_files: - "/etc/prometheus/rules/*.rules"

重启Prometheus后,访问http://<IP>:9090/config确认配置生效。

2. 创建告警规则文件

示例规则:CPU与内存使用率告警

bash

mkdir -p /etc/prometheus/rules vim /etc/prometheus/rules/alerts.rules

内容如下:

yaml

groups: - name: hostStatsAlert rules: - alert: hostCpuUsageAlert expr: (1 - avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance))*100 > 85 for: 1m labels: severity: critical annotations: summary: "Instance {{ $labels.instance }} CPU usage high" description: "{{ $labels.instance }} CPU usage above 85% (current value: {{ $value }})" - alert: hostMemUsageAlert expr: (1 - (node_memory_MemAvailable_bytes{} / (node_memory_MemTotal_bytes{})))* 100 > 70 for: 1m labels: severity: critical annotations: summary: "Instance {{ $labels.instance }} MEM usage high" description: "{{ $labels.instance }} MEM usage above 70% (current value: {{ $value }})"

重启Prometheus后,可通过以下地址查看规则与告警状态:

  • 规则列表:http://127.0.0.1:9090/rules

  • 告警状态:http://127.0.0.1:9090/alerts

3. 模拟告警触发测试

创建CPU负载脚本:

bash

vim load_cpu.sh #!/bin/bash while true; do : done chmod +x load_cpu.sh ./load_cpu.sh

运行后观察:

  1. Prometheus 检测到CPU使用率 >85%

  2. 告警状态先变为PENDING(持续1分钟后)

  3. 触发FIRING状态并发送至Alertmanager

  4. Alertmanager 根据路由发送邮件通知


总结

本文完整介绍了从 Alertmanager 部署、配置邮件接收、编写Prometheus告警规则到模拟告警测试的全过程。通过合理配置路由、抑制规则与通知模板,可构建一套稳定、易用的监控告警系统。

后续可继续扩展:

  • 集成企业微信、钉钉、Slack等通知

  • 配置告警分级与静默规则

  • 使用Webhook对接自愈系统

http://www.jsqmd.com/news/359552/

相关文章:

  • Gitee迁移GitHub开源全攻略:一键配置自动同步,仅需维护单一仓库
  • 下载git不在默认c盘时tortoiseGit安装后右键没有出现Git Clone… Git Create repository here…以及TotoiseGit时的解决方法
  • 基于ThinkPHP5开发的ERP进销存与仓储管理PHP源码系统
  • 科研数据分析不卡壳!虎贲等考 AI 一键搞定实证分析,零基础也能出专业结果
  • 企业级资产管理系统源码|Java+Vue全栈开发,含移动端支持
  • 开题报告不用反复改!虎贲等考 AI 一键搭框架,导师直呼专业
  • 基于SpringBoot的车辆信息管理平台(含完整源码、数据库脚本、毕业论文及答辩PPT)
  • 软著材料整理怎么做更快:从项目描述到可导出初稿(软著通)
  • 基于响应面技术和遗传算法的最优控制策略的逆变器散热结构优化附Matlab代码
  • 提升自己价值和稀缺性:同一句脏话,下属说就是顶嘴,领导说就是个性:人性的核心是趋利避害,所有的“干净与肮脏”“合理与不合理”,都是利益和价值的权衡,而非绝对的道德判断
  • 基于布谷鸟算法优化Tsallis熵图像分割附Matlab代码
  • 改进粒子群算法的RSSI定位附matlab代码
  • 3483. 2的幂次方(上海交通大学考研机试题)
  • 解释一下 JSON 文件中,能不能写注释,postman 中,定义 json 格式的接口参数,能写注释吗
  • 春节放假通知模板设计技巧:排版配色与文案撰写要点
  • Tensorflow数据增强(三):高级裁剪
  • SSM汽车销售系统e08ua--程序+源码+数据库+调试部署+开发环境
  • Android Jetpack Compose - Alignment、Arrangement、Carousel、Checkbox、TriStateCheckbox
  • jsp大学新生入学管理系统的设计与实现w8s63(程序+源码+数据库+调试部署+开发环境)
  • 密码学(一):sm4+ofb
  • Java 泛型 - Java 泛型通配符(上界通配符、下界通配符、无界通配符、PECS 原则)
  • 力扣448题:找到所有数组中消失的数字
  • SSM入学新生信息管理系统y0mew程序+源码+数据库+调试部署+开发环境
  • 【第二十九周】机器学习笔记三十
  • 小马智行与摩尔线程战略合作,强强联合能改变什么?
  • SSM球类体育用品商城系统9xsh4(程序+源码+数据库+调试部署+开发环境)
  • Autodesk Inventor professiona
  • “我们数据太少,做不了风控?”——这可能只是个借口
  • SSM人才猎聘系统j9d6n(程序+源码+数据库+调试部署+开发环境)
  • 变量IV值高到“爆表”,是发现宝藏还是踩中陷阱?