当前位置：首页 > news >正文

性能监控高阶实践：从常规应用到 Prometheus 与 Grafana 的高阶配置模式

news 2026/7/28 0:31:37

性能监控高阶实践：从常规应用到 Prometheus 与 Grafana 的高阶配置模式

一、多环境/多服务的统一看板

1.1 看板变量（Templating）的深度使用

基础用法大家都会——定义一个$service变量，下拉选服务。但我们的需求更复杂：同一个看板要覆盖dev/staging/prod三个环境、50+个微服务、按不同维度聚合。

{ "templating": { "list": [ { "name": "datasource", "type": "datasource", "query": "prometheus", "current": {"selected": true}, "hide": 2 }, { "name": "environment", "type": "custom", "options": [ {"text": "生产", "value": "prod", "selected": true}, {"text": "预发布", "value": "staging"}, {"text": "测试", "value": "dev"} ], "includeAll": false }, { "name": "service", "type": "query", "query": "label_values(up{env=\"$environment\"}, service)", "refresh": 2, "includeAll": true, "allValue": ".*", "multi": true, "sort": 1 }, { "name": "instance", "type": "query", "query": "label_values(up{service=~\"$service\", env=\"$environment\"}, instance)", "refresh": 2, "includeAll": true, "allValue": ".*", "multi": true } ] } }

关键设计：

级联变量：选择环境 → 过滤服务列表 → 过滤实例列表，逐层缩小范围
multi: true：支持多选，方便比较不同服务的指标
allValue: ".*"：选"全部"时用正则匹配，而不是查询全部数据

1.2 使用Repeated Panel自动生成

当选择了多个服务时，我们希望每个服务单独一个面板，而不是混在一起：

{ "panels": [ { "title": "$service CPU使用率", "type": "timeseries", "repeat": "service", "targets": [ { "expr": "avg(rate(container_cpu_usage_seconds_total{service=\"$service\", env=\"$environment\"}[5m])) by (pod) * 100", "legendFormat": "{{pod}}" } ] } ] }

"repeat": "service"的作用是：当用户选择了3个服务时，这个Panel会自动复制3份，每个服务1份。避免了手动创建多个相似Panel的重复劳动。

二、PromQL的模式化与复用

2.1 用Record Rule简化复杂查询

同样的PromQL表达式，如果出现在多个看板中，说明应该做成Record Rule：

# prometheus-rules/recording_rules.yaml groups: - name: service_recording_rules interval: 30s rules: # 错误率 - record: service:error_rate:ratio_5m expr: | sum(rate(http_requests_total{status=~"5.."}[5m])) by (service, env) / sum(rate(http_requests_total[5m])) by (service, env) # P99延迟 - record: service:latency_p99:seconds_5m expr: | histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket[5m])) by (service, env, le) ) # 每秒请求量 - record: service:qps:rate_1m expr: | sum(rate(http_requests_total[1m])) by (service, env)

看板中的PromQL简化成：

# 原本需要写20行的PromQL service:error_rate:ratio_5m{service=~"$service", env="$environment"} # 原本的P99计算 service:latency_p99:seconds_5m{service=~"$service", env="$environment"}

好处：

性能提升：Record Rule在Prometheus中预先计算，看板查询时直接读取结果
一致性：同一指标在不同看板中的计算方式完全一致
维护简单：修改计算逻辑只需改Rule，不用改每个看板

2.2 单元Panel的复用：Library Panel

Grafana的Library Panel功能允许在不同的看板间复用Panel配置。

// 创建一个Library Panel：CPU使用率面板 // Configuration → Library Panels → New { "title": "CPU使用率", "type": "timeseries", "targets": [ { "expr": "service:cpu_usage:avg_5m{service=~\"$service\", env=\"$environment\"}", "legendFormat": "CPU %" } ], "fieldConfig": { "defaults": { "unit": "percent", "thresholds": { "steps": [ {"color": "green", "value": null}, {"color": "yellow", "value": 70}, {"color": "red", "value": 90} ] } } } }

创建一次后，可以在任意看板中引用这个Library Panel，修改Library Panel会自动更新所有引用它的看板。

三、告警与看板的联动

3.1 从Grafana看板直接创建告警

在Grafana 8+中，可以在看板Panel上直接创建告警，不需要切到Alertmanager：

{ "panels": [ { "title": "支付服务错误率", "alert": { "alertRuleTags": { "severity": "critical", "team": "payment", "service": "payment" }, "conditions": [ { "evaluator": { "params": [5], "type": "gt" }, "query": { "params": ["A", "5m", "now"] }, "reducer": { "params": [], "type": "avg" }, "type": "query" } ], "for": "5m", "frequency": "60s" } } ] }

3.2 告警信息模板

通过告警模板，让告警通知包含上下文信息：

告警: {{ .Alert.Name }} 严重级别: {{ .Labels.severity }} 当前值: {{ .Values.A }} Dashboard: http://grafana/d/xxxx Panel: {{ .Alert.PanelTitle }} 排查建议: 1. 查看对应服务日志: http://kibana 2. 查看最近变更: http://cmdb 3. 检查上游依赖服务状态

四、性能优化：大看板的加载加速

当看板中包含20+个Panel时，加载速度会变慢。我们做了几个优化：

4.1 使用`$__rate_interval`

# 推荐使用$__rate_interval代替固定的[5m] rate(http_requests_total[$__rate_interval]) # $__rate_interval会自动根据看板的时间范围调整 # 看1h: [5m] 看24h: [30m] 看7d: [2h]

4.2 开启Query Caching

# grafana.ini — 启用查询缓存 [caching] enabled = true ttl = 5m

4.3 使用Explore模式做临时分析

对于需要深度分析的场景，用Explore模式而不是在看板中加临时Panel：

# Explore模式中的查询 topk(5, sum(rate(http_requests_total{status=~"5.."}[5m])) by (service))

Explore模式的查询不占用看板的缓存资源，适合临时性的深度排查。

五、实践效果

指标	优化前	优化后	提升
看板加载时间（20 Panel）	12s	2.3s	81%
新服务接入看板时间	30min	5min	83%
告警配置覆盖率	60%	95%	58%
运维手动操作次数/周	15次	2次	87%