当前位置：首页 > news >正文

Kube-Prometheus部署后，别忘了做这3步：开放访问、检查面板、理解监控对象

news 2026/6/15 16:00:32

Kube-Prometheus部署后必做的3个关键步骤：从安装到实战的完整指南

当你看到所有Pod都处于Running状态时，可能以为大功告成了——但真正的挑战才刚刚开始。部署成功只是第一步，要让这套监控系统真正发挥作用，还需要完成几个关键操作。本文将带你深入理解部署后的必要配置，让你不仅能访问监控界面，更能真正读懂数据。

1. 开放访问：正确处理网络策略与安全权衡

很多人在删除prometheus-networkPolicy.yaml文件时心里都会打鼓：这会不会带来安全隐患？实际上，kube-prometheus默认的网络策略确实会阻止外部访问，这是出于安全考虑的设计。但在开发测试环境中，我们通常需要临时开放访问。

1.1 为什么需要删除网络策略

默认安装会创建三个关键的网络策略：

prometheus-networkPolicy.yaml
grafana-networkPolicy.yaml
alertmanager-networkPolicy.yaml

这些策略限制了只有monitoring命名空间内的Pod才能访问这些服务。执行以下命令删除它们：

kubectl delete -f manifests/prometheus-networkPolicy.yaml kubectl delete -f manifests/grafana-networkPolicy.yaml kubectl delete -f manifests/alertmanager-networkPolicy.yaml

提示：在生产环境中，建议保留网络策略并通过Ingress或API网关控制访问，而不是完全删除。

1.2 验证服务可访问性

删除策略后，检查服务类型和端口：

kubectl get svc -n monitoring

重点关注以下服务：

服务名称	类型	端口范围	默认功能
prometheus-k8s	NodePort	30000-32767	Prometheus主界面
grafana	NodePort	30000-32767	Grafana仪表板
alertmanager-main	NodePort	30000-32767	告警管理界面

访问格式为：http://<节点IP>:<NodePort>

2. 首次访问指南：关键面板与核心指标解读

面对琳琅满目的监控面板，新手常感到无所适从。以下是首次访问时应重点关注的几个方面。

2.1 Grafana预置仪表板解析

Grafana默认提供了丰富的仪表板，这几个最为关键：

Kubernetes / Compute Resources / Cluster
- 集群整体CPU/内存使用情况
- 节点资源分配与利用率对比
- 工作负载资源请求与实际使用对比
Kubernetes / Compute Resources / Namespace (Pods)
- 按命名空间查看Pod资源消耗
- 快速定位资源异常增长的Pod
Kubernetes / Compute Resources / Workload
- 按工作负载(Deployment,StatefulSet等)查看资源
- 识别配置不合理的请求/限制

2.2 Prometheus原生界面重点

在Prometheus的Graph页面，这些指标值得特别关注：

kube_pod_container_resource_requests：容器资源请求
kube_pod_container_resource_limits：容器资源限制
kube_node_status_allocatable：节点可分配资源
kube_pod_status_phase：Pod状态统计
up：监控目标健康状态

尝试在PromQL中输入以下查询，感受监控数据的威力：

sum(kube_pod_container_resource_requests{resource="cpu"}) by (namespace)

2.3 Alertmanager默认告警规则

系统预置了一些实用的告警规则，可以通过以下命令查看：

kubectl get prometheusrules -n monitoring

重点关注：

KubernetesAbsent：关键组件缺失告警
KubernetesResources：资源不足告警
KubernetesHealth：健康状态告警

3. 理解监控对象：系统自动采集了哪些数据

kube-prometheus部署后，已经自动配置了对Kubernetes核心组件的监控。了解这些监控对象，才能更好地利用数据。

3.1 系统监控的四大维度

节点级监控
- 通过node-exporter采集
- CPU/内存/磁盘/网络等基础指标
- 内核和系统服务状态
Pod和容器监控
- cAdvisor自动采集容器指标
- 资源使用率(CPU,内存,IO)
- 网络流量统计
Kubernetes组件监控
- API Server性能指标
- Scheduler和Controller Manager健康状态
- etcd存储性能指标
服务发现监控
- Service和Endpoint状态
- Ingress请求统计
- 自定义Pod监控发现

3.2 关键监控目标清单

以下是系统自动发现和监控的主要目标：

监控目标	数据来源	关键指标示例
kube-apiserver	内置metrics接口	请求延迟、错误率、吞吐量
kubelet	cAdvisor	容器CPU/内存、文件系统使用
etcd	内置metrics接口	存储延迟、提交速率、心跳状态
node-exporter	node-exporter	节点CPU/内存/磁盘/网络
kube-state-metrics	自定义指标	资源请求/限制、Pod状态、副本数

3.3 自定义服务发现机制

kube-prometheus通过ServiceMonitor和PodMonitor两种CRD实现灵活的服务发现。查看已配置的监控规则：

kubectl get servicemonitors -n monitoring kubectl get podmonitors -n monitoring

典型的ServiceMonitor配置示例：

apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: name: example-app namespace: monitoring spec: selector: matchLabels: app: example-app endpoints: - port: web interval: 30s

4. 进阶配置：从可用到好用的关键调整

基础监控运行后，还需要一些优化才能真正发挥系统威力。

4.1 持久化存储配置

默认安装使用emptyDir，重启会丢失数据。修改prometheus-prometheus.yaml添加持久卷：

spec: storage: volumeClaimTemplate: spec: storageClassName: standard resources: requests: storage: 50Gi

4.2 告警通知集成

配置Alertmanager发送告警到常用渠道（如Slack、邮件）：

receivers: - name: 'slack-notifications' slack_configs: - channel: '#monitoring-alerts' api_url: 'https://hooks.slack.com/services/...'

4.3 资源请求优化

监控系统本身也需要合理配置资源，避免影响集群性能。修改以下部署的资源请求：

prometheus-operator
prometheus-adapter
grafana
alertmanager

示例配置：

resources: requests: memory: "512Mi" cpu: "500m" limits: memory: "2Gi" cpu: "1"

5. 常见问题排查指南

即使按照步骤操作，仍可能遇到各种问题。以下是几个典型场景的解决方法。

5.1 访问服务返回超时

可能原因及解决方案：

网络策略未正确删除
- 确认已删除所有networkPolicy资源
NodePort端口被防火墙拦截
- 检查云平台安全组规则
服务未正确暴露
- 验证Service的type是否为NodePort

5.2 Grafana面板显示"No Data"

排查步骤：

检查Prometheus数据源配置
验证Prometheus是否采集到目标数据
检查ServiceMonitor/PodMonitor选择器是否匹配

5.3 Prometheus容器不断重启

常见原因：

资源不足导致OOM
存储卷权限问题
配置语法错误

查看详细日志定位问题：

kubectl logs -f prometheus-k8s-0 -n monitoring -c prometheus

6. 监控策略最佳实践

要让监控系统真正发挥作用，需要遵循一些基本原则。

6.1 黄金指标法则

针对不同服务类型关注的四大黄金指标：

延迟：服务处理请求的时间
流量：服务的请求量或并发量
错误：失败请求的比例
饱和度：资源使用的程度

6.2 有效的告警策略

避免告警疲劳的几个技巧：

设置合理的阈值和持续时间
区分不同严重级别
实现告警抑制和分组
定期回顾和优化规则

6.3 容量规划参考

根据集群规模推荐的资源配置：

节点规模	Prometheus存储	内存分配	CPU分配
<10节点	50GB	4GB	2核
10-50节点	200GB	8GB	4核
>50节点	1TB+	16GB+	8核+

查看全文

http://www.jsqmd.com/news/1017701/

葫芦岛市回收奢侈品手表包包去哪好？整理了5家本地实体店对比记录 - 凯撒是大帝

LINFlexD控制器DMA接口配置：从原理到实战的嵌入式通信优化

超越原生：Xceed WPF Toolkit如何重塑企业级桌面应用开发范式

阅读APP书源一键导入终极指南：26个高质量书源快速配置教程

Win11/Win10系统下，CIMCO Edit 2022保姆级安装与激活避坑指南（附资源）

深入解析MCU时钟与ADC配置：从寄存器操作到低功耗系统设计

大模型时代核心算法完全指南：从Transformer到MoE，一文打尽

90+格式全兼容！ImageGlass现代图像浏览器完全指南：从安装到精通

WzComparerR2解密指南：3步轻松玩转冒险岛游戏数据宝藏

MSC8113多核DSP中断系统配置详解：从GIC、LIC到PIC的实战指南

告别盲目学习，这家铁板鸭烤鸭培训让技术落地更简单 - 品牌2026

OpenVAS扫不动了？别慌，用这3个Linux命令5分钟定位问题（附日志分析实战）

AI Agent智能体合集

晋城市回收奢侈品手表包包去哪好？整理了5家本地实体店对比记录 - 凯撒是大帝

League-Toolkit：英雄联盟玩家的智能助手，5分钟掌握高效游戏秘籍

# 2026年四川成都五大文物保护方案设计企业实力排行榜 - 十大品牌榜

3步解锁小爱音箱无限听歌：XiaoMusic开源方案完全指南

汉知宝用户必看：你的专属知产小助手正式上线，随问随答！

终极分屏游戏指南：Nucleus Co-Op如何让你和朋友在同一台电脑上玩多人游戏

AI 驱动上下文感知个性化激励系统设计与应用研究

DouYin-Downloader：抖音批量下载工具深度解析与实战指南

NASA开源飞机设计神器：5分钟快速创建专业级飞机模型的完整指南

5分钟快速上手：基于系统代理的抖音弹幕监听器完整指南

佛山灭蟑螂灭老鼠服务商盘点：6家专业机构虫害防制深度对比 - 速递信息

FlexCAN控制器寄存器配置实战：从芯片手册到稳定CAN通信

TV Bro电视浏览器：终极遥控器优化方案，让智能电视上网变得如此简单！

YOLOv8-seg模型在RK3566上量化精度掉点？手把手教你定位并修复concat节点问题

如何高效解密加密音乐文件：专业音乐解锁工具完整指南

ByteDexter本文档为ByteDexter工业级底层技术密档（401-600序列），包含硬件资源调度、系统防护机制等核心工业参数。主要内容包括：1) 硬件健康度评分体系（权重占比、静默上报周期1

防窜货系统厂家哪家好？2026实体商家渠道管控经验汇总 - 品牌优企推荐