当前位置：首页 > news >正文

云原生监控体系建设：打造全方位的可观测性平台

news 2026/7/15 15:15:20

云原生监控体系建设：打造全方位的可观测性平台

引言

在云原生时代，监控是保障系统稳定运行的关键。一个完善的监控体系可以帮助我们及时发现问题、定位问题、解决问题。

今天就来分享一下云原生监控体系的建设经验。

监控体系概述

可观测性三支柱

监控体系通常包括三个方面：

指标：量化的度量，如CPU使用率、响应时间、内存使用量等。指标是监控的基础，可以帮助我们了解系统的运行状态。

日志：事件的记录，如应用日志、系统日志、访问日志等。日志可以帮助我们了解系统发生了什么，是问题排查的重要依据。

追踪：请求的完整路径，记录请求从入口到出口的整个过程。追踪可以帮助我们了解请求在各个服务之间的流转情况，定位性能瓶颈。

监控目标

监控体系的目标是：

发现问题：及时发现系统中的异常，如服务宕机、性能下降、错误率升高等。

定位问题：快速定位问题的根源，通过指标、日志和追踪的结合，找到问题发生的位置和原因。

解决问题：帮助解决问题，提供足够的信息让工程师能够快速修复问题。

预防问题：通过数据分析预测潜在问题，提前采取措施避免问题发生。

优化性能：通过监控数据发现性能瓶颈，进行系统优化。

监控层次

监控体系可以分为几个层次：

基础设施层：监控服务器、网络、存储等基础设施的状态。

平台层：监控Kubernetes、Docker等平台的运行状态。

应用层：监控应用程序的运行状态，包括请求数、响应时间、错误率等。

业务层：监控业务指标，如订单量、用户活跃度、转化率等。

监控工具生态

云原生监控工具生态包括：

指标监控：Prometheus、InfluxDB、Graphite
日志管理：Elastic Stack（Elasticsearch、Logstash、Kibana）、Loki、Fluentd
分布式追踪：Jaeger、Zipkin、OpenTelemetry
告警管理：Alertmanager、PagerDuty、OpsGenie
可视化：Grafana、Kibana、Datadog

指标监控

指标类型

常见的指标类型有：

基础设施指标：CPU、内存、磁盘、网络
应用指标：请求数、响应时间、错误率
业务指标：订单量、用户活跃度

指标采集

使用Prometheus采集指标：

# prometheus.yml global: scrape_interval: 15s scrape_configs: - job_name: 'kubernetes-pods' kubernetes_sd_configs: - role: pod relabel_configs: - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape] action: keep regex: true - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_path] action: replace target_label: __metrics_path__ regex: (.+) - source_labels: [__address__, __meta_kubernetes_pod_annotation_prometheus_io_port] action: replace regex: ([^:]+)(?::\d+)?;(\d+) replacement: $1:$2 target_label: __address__

指标展示

使用Grafana展示指标：

{ "panels": [ { "title": "CPU Usage", "type": "graph", "targets": [ { "expr": "100 - (avg by(instance) (irate(node_cpu_seconds_total{mode=\"idle\"}[5m])) * 100)", "legendFormat": "{{instance}}" } ] } ] }

日志管理

日志采集

使用Filebeat采集日志：

filebeat.inputs: - type: log paths: - /var/log/myapp/*.log json.keys_under_root: true json.add_error_key: true fields: service: myapp output.logstash: hosts: ["logstash:5044"]

日志处理

使用Logstash处理日志：

input { beats { port => 5044 } } filter { if [service] == "myapp" { grok { match => { "message" => "%{TIMESTAMP_ISO8601:timestamp} %{LOGLEVEL:level} %{GREEDYDATA:message}" } } date { match => ["timestamp", "ISO8601"] target => "@timestamp" } } } output { elasticsearch { hosts => ["elasticsearch:9200"] index => "myapp-logs-%{+YYYY.MM.dd}" } }

日志查询

使用Kibana查询日志：

{ "query": { "bool": { "must": [ { "term": { "level": "ERROR" } }, { "range": { "@timestamp": { "gte": "now-1h" } } } ] } } }

分布式追踪

追踪采集

使用Jaeger采集追踪数据：

apiVersion: jaegertracing.io/v1 kind: Jaeger metadata: name: jaeger spec: strategy: allInOne ingress: enabled: true

追踪实现

在应用中集成OpenTelemetry：

from opentelemetry import trace from opentelemetry.sdk.trace import TracerProvider from opentelemetry.sdk.trace.export import BatchSpanProcessor from opentelemetry.exporter.jaeger.thrift import JaegerExporter trace.set_tracer_provider(TracerProvider()) tracer = trace.get_tracer(__name__) jaeger_exporter = JaegerExporter( agent_host_name="jaeger-agent", agent_port=6831, ) trace.get_tracer_provider().add_span_processor( BatchSpanProcessor(jaeger_exporter) ) with tracer.start_as_current_span("my-operation"): # 业务逻辑 pass

告警管理

告警规则

配置Prometheus告警规则：

groups: - name: node-alerts rules: - alert: HighCPUUsage expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80 for: 2m labels: severity: warning annotations: summary: "High CPU usage detected" description: "CPU usage is {{ $value }}% on instance {{ $labels.instance }}"

告警通知

使用Alertmanager发送告警：

route: group_by: ['alertname'] receiver: 'web.hook' receivers: - name: 'web.hook' webhook_configs: - url: 'https://api.example.com/webhook' slack_configs: - channel: '#ops-alerts' send_resolved: true