当前位置: 首页 > news >正文

监控指标

Kubernetes 告警规则清单


生命周期类告警

类别 指标 / 事件 常见根因 告警信息 / 内容 实际 PromQL
生命周期 Pod 状态异常 资源不足 / 调度约束 / 镜像拉取慢 命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} 处于 {{$labels.phase}} 状态持续超过 3 分钟 ```promql sum_over_time(kube_pod_status_phase{namespace="namespace-name", pod_name=~"(online
生命周期 Pod 启动失败(CrashLoop / ImagePullBackOff / ErrImagePull) 配置错误 / 依赖未就绪 / 启动命令异常 命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} 超过 15 分钟未启动成功,等待原因 {{$labels.reason}} ```promql avg_over_time(kube_pod_container_status_waiting_reason{namespace="namespace-name", pod_name=~"(online
生命周期 Pod 重启提醒(1 分钟 ≥ 1 次) 网络抖动 / 短暂 OOM / 发布重建 / 外部依赖瞬断 / 容器运行时异常 命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}}{{$labels.metrics_params_time}} 分钟内重启超过 {{$labels.metrics_params_value}} 次,当前重启 {{$value}} ```promql increase(kube_pod_container_status_restarts_total{namespace="namespace-name", pod_name=~"(online
生命周期 Pod 频繁重启(5 分钟 ≥ 3 次) CrashLoop / 持续 OOM / 探针配置不当 / 依赖异常 / 权限挂载错误 Pod 频繁重启(5 分钟 ≥ 3 次),Namespace: {{$labels.namespace}},Pod: {{$labels.pod}} ```promql ceil( increase( kube_pod_container_status_restarts_total{ job="_kube-state-metrics", namespace="namespace-name", pod=~"(online

资源类告警

类别 指标 / 事件 常见根因 告警信息 / 内容 实际 PromQL
资源 Pod 容器近期异常终止 OOMKilled:内存超限
Error:应用崩溃
Evicted:节点驱逐
DeadlineExceeded:退出超时
ContainerCannotRun:容器无法运行
{{ $labels.namespace }}/{{ $labels.pod_name }} 中的容器 {{ $labels.container }} 发生异常终止,原因:{{ $labels.reason }} ```promql ( increase(kube_pod_container_status_restarts_total{ namespace="namespace-name", pod_name=~"(online
资源 容器内存使用率突增 内存泄漏 / 缓存增长 / 负载提升 命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 内存使用率 {{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%,当前值 {{ printf "%.2f" $value }}% ```promql ( sum(container_memory_working_set_bytes{id!="/", namespace="namespace-name", pod_name=~"(online
资源 容器 CPU 使用率突增 CPU 突发负载 / 性能热点 命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU 使用率 {{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%,当前值 {{ printf "%.2f" $value }}% ```promql 100 * ( sum(rate(container_cpu_usage_seconds_total{id!="/", namespace="namespace-name", pod_name=~"(online
资源 Pod CPU 限流突增 CPU limit 过低 / 并发突增 / noisy neighbor 命名空间: {{ $labels.namespace }} Pod: {{ $labels.pod_name }} 容器: {{ $labels.container }} CPU throttling > 60%,检查 CPU limit / requests / 节点资源 ```promql 100 * ( sum by (namespace, pod_name, container) ( rate(container_cpu_cfs_throttled_seconds_total{ namespace="namespace-name", pod_name=~"(online

健康检查类告警

类别 指标 / 事件 常见根因 告警信息 / 内容 实际 PromQL
健康检查 Readiness NotReady 就绪探针失败 / 容器重启 / 资源不足 / 节点异常 Pod 未就绪(NotReady)已持续超过 3 分钟,当前无法接收服务流量。Namespace: {{ $labels.namespace }}, Pod: {{ $labels.pod_name }}, 容器: {{ $labels.container }},建议检查 Pod 事件 / 探针 / 资源 / 节点 ```promql kube_pod_status_ready{ namespace="namespace-name", pod_name=~"(online

http://www.jsqmd.com/news/288598/

相关文章:

  • YOLOv9 Torchaudio安装必要性:音频模块是否冗余?
  • 光伏线缆制造厂哪个值得选,品恩泰克品质保障受认可
  • FSMN-VAD服务守护:后台常驻进程配置教程
  • 2026年浑南专业的车衣改色实体店推荐榜单,车衣改色/太阳膜/贴车衣/汽车车衣/隐形车衣/汽车贴膜,车衣改色定制哪家好
  • 沪苏浙皖设备模型服务商推荐,聚景模型上榜了吗?
  • 2025浙江山地速降基地大揭秘!口碑爆棚的TOP5来袭,山地速降/山地车骑行/山地车/户外骑行,山地速降基地口碑推荐
  • 在线教育平台应用:学生答题语气分析提升教学反馈
  • Qwen模型并发能力不足?多实例负载均衡部署方案
  • 为什么Qwen3-14B适合中小企业?低成本落地实战案例
  • 强烈安利10个AI论文工具,研究生搞定毕业论文!
  • 2026苏州靠谱的综合律师事务所推荐
  • 为什么Qwen2.5部署总卡顿?0.5B极速镜像保姆级教程来了
  • 2026年广州靠谱的保险纠纷调解机构推荐,保险纠纷哪家性价比高?
  • Qwen2.5降本实战:0.5B小模型如何实现零GPU高效运行
  • YOLO11体验报告,目标检测优劣分析一文看懂
  • SGLang结构化生成扩展:自定义格式输出教程
  • YOLOE训练160 epoch效果如何?完整过程记录
  • Live Avatar备份恢复教程:模型与数据保护策略
  • 2026东四省最新艺考培训机构TOP5评测!辽宁、沈阳等地优质服务学校权威榜单发布,权威师资+全产业链,助力艺考生实现名校梦
  • PyTorch-2.x镜像处理VisDrone2021数据集的真实体验
  • verl生成阶段优化:低延迟部署实战技巧
  • Qwen2.5-0.5B部署疑问:是否需要GPU?实战教程揭晓答案
  • 通信底层逻辑:TCP、流与缓冲区
  • 一文详解开源大模型在亲子领域的应用:以Qwen为例
  • FSMN-VAD如何接入?API封装与调用代码实例
  • 基于微信小程序的农村客运服务系统计算机毕业设计项目源码文档
  • 2026国内红外分光光度计厂家top3名录,含天津本土生产商质量评测
  • 2026液压系统/伺服液压系统/非标定制厂家推荐无锡上研液压,专业设计稳定可靠
  • verl gRPC集成:高性能服务部署教程
  • 2026年质量好的陕西橡胶皮囊_气动悬挂_减震气囊高评价厂家推荐