当前位置：首页 > news >正文

别只盯着Prometheus了！Zabbix 6.0 LTS监控K8s集群的保姆级避坑指南

news 2026/5/1 18:32:00

别只盯着Prometheus了！Zabbix 6.0 LTS监控K8s集群的保姆级避坑指南

在Kubernetes监控领域，Prometheus似乎已经成为默认选择，但这是否意味着它是唯一可行的方案？对于那些已经在传统IT架构中深度使用Zabbix的团队来说，切换到Prometheus可能意味着需要重新构建整个监控体系、重写告警规则，甚至需要培训团队成员掌握全新的工具链。Zabbix 6.0 LTS版本的发布改变了这一局面，它原生集成了Kubernetes监控能力，让企业能够在保持现有监控体系不变的情况下，将Kubernetes集群纳入统一监控视图。

本文将带你深入探索Zabbix 6.0监控Kubernetes的完整方案，从Helm Chart部署到精细配置，再到日常运维中的常见问题解决。不同于简单的功能演示，我们会重点分享在实际生产环境中积累的经验教训，特别是那些官方文档中没有明确指出的"坑"和最佳实践。

1. 为什么选择Zabbix监控Kubernetes？

在决定采用Zabbix监控Kubernetes之前，我们需要明确几个关键问题：Zabbix方案适合哪些场景？它能提供哪些Prometheus难以替代的价值？

统一监控体系的优势：

告警规则一致性：无需为Kubernetes单独维护一套告警规则和通知机制
历史数据连续性：与现有监控数据存储在同一时间序列数据库中
技能栈复用：团队无需学习新的查询语言（如PromQL）和工具链
权限管理统一：复用现有的用户角色和权限体系

Zabbix 6.0的Kubernetes监控能力矩阵：

监控维度	覆盖组件	数据采集方式
集群状态	Nodes, Pods, Deployments	kube-state-metrics
API Server	请求延迟、错误率	直接采集API Server指标
Controller Manager	队列深度、处理延迟	组件暴露的metrics接口
Scheduler	调度延迟、失败次数	组件暴露的metrics接口
Kubelet	资源使用、运行时状态	Kubelet metrics接口

值得注意的是，Zabbix的Kubernetes监控并非要完全取代Prometheus，而是为特定场景提供另一种选择。如果你的团队已经深度使用Prometheus且运行良好，可能没有必要切换。但对于那些Zabbix重度用户，或者需要统一监控传统基础设施和Kubernetes的环境，Zabbix 6.0提供了极具吸引力的解决方案。

2. 部署架构设计与准备工作

在开始部署前，我们需要理解Zabbix监控Kubernetes的整体架构。与传统的Zabbix agent部署不同，Kubernetes环境下的监控组件部署有其特殊性。

2.1 组件拓扑关系

[Kubernetes Cluster] │ ├── [Zabbix Proxy] (Deployment) │ ├── 收集kube-state-metrics数据 │ └── 聚合节点agent数据 │ ├── [Zabbix Agent] (DaemonSet) │ └── 每个节点部署，采集节点级指标 │ └── [kube-state-metrics] (Deployment) └── 提供集群状态指标

2.2 关键部署决策点

Proxy部署模式选择：
- 集群内Proxy：延迟低，但增加集群负载
- 集群外Proxy：资源隔离，但网络延迟可能影响数据采集

资源配额规划：

生产环境建议的最低资源配置：

zabbixProxy: resources: requests: cpu: "500m" memory: "512Mi" limits: cpu: "1000m" memory: "1Gi"

网络连通性准备：
- 确保Proxy能够访问：
  - Kubernetes API Server
  - 各节点的kubelet端口（默认10250）
  - kube-state-metrics服务端口（默认8080）

2.3 Helm Chart定制化配置

Zabbix官方提供的Helm Chart已经包含了大多数必要的配置，但以下几个参数需要特别注意：

# values.yaml关键配置示例 zabbixProxy: env: ZBX_HOSTNAME: "zabbix-proxy-k8s" # 必须与Zabbix Server中配置的Proxy名称一致 ZBX_SERVER_HOST: "zabbix.example.com" # Zabbix Server地址 ZBX_SERVER_PORT: "10051" # Server监听端口 ZBX_PROXYMODE: "0" # 主动模式 zabbixAgent: env: ZBX_ACTIVESERVERS: "zabbix-proxy" # 必须与Proxy的Service名称匹配 ZBX_ACTIVE_ALLOW: "true" # 允许主动模式

注意：国内环境需要特别注意镜像拉取问题，建议提前配置好镜像仓库镜像或加速器。

3. 实战部署步骤详解

现在让我们进入实际的部署过程。我们将使用Helm 3进行部署，这是目前管理Kubernetes应用的事实标准。

3.1 基础环境准备

安装并配置Helm：

# 下载Helm curl -fsSL -o get_helm.sh https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 chmod 700 get_helm.sh ./get_helm.sh # 验证安装 helm version

添加Zabbix Helm仓库：

helm repo add zabbix https://cdn.zabbix.com/zabbix/integrations/kubernetes-helm/6.0 helm repo update

3.2 定制化安装

获取默认values文件并进行修改：

helm show values zabbix/zabbix-helm-chrt > custom-values.yaml

编辑custom-values.yaml，重点关注以下部分：

global: zabbixUrl: "https://zabbix.example.com" zabbixApiUser: "Admin" zabbixApiPass: "zabbix" kube-state-metrics: image: repository: "bitnami/kube-state-metrics" # 国内可用镜像 tag: "2.2.0" zabbixAgent: resources: limits: cpu: "200m" memory: "120Mi"

执行安装：

kubectl create namespace monitoring helm install zabbix zabbix/zabbix-helm-chrt -n monitoring -f custom-values.yaml

3.3 验证部署

检查Pod状态：
```
kubectl get pods -n monitoring
```
预期输出应显示所有Pod都处于Running状态。
检查Service：
```
kubectl get svc -n monitoring
```
确保zabbix-proxy服务有正确的ClusterIP。

获取API Token（后续配置需要）：

kubectl get secret zabbix-service-account -n monitoring -o jsonpath='{.data.token}' | base64 --decode

4. Zabbix Server端配置

部署完Kubernetes端的组件后，我们需要在Zabbix Server上进行相应配置。

4.1 添加Proxy

登录Zabbix Web界面
导航至"Administration" → "Proxies"
点击"Create proxy"
填写Proxy信息：
- Proxy name：必须与Helm values中配置的ZBX_HOSTNAME一致
- Proxy mode：选择"Active"
- Hosts：选择"Monitored by this proxy"

4.2 导入监控模板

Zabbix 6.0 LTS自带了多个Kubernetes监控模板，但如果是从低版本升级而来，可能需要手动导入：

下载官方模板包：
- 访问Zabbix官方GitHub仓库获取最新模板
导入模板：
- 导航至"Configuration" → "Templates"
- 点击"Import"，上传下载的模板文件

关键模板列表及其作用：

模板名称	监控对象	依赖组件
Kubernetes API server by HTTP	API Server	无需额外组件
Kubernetes cluster state by HTTP	集群状态	kube-state-metrics
Kubernetes nodes by HTTP	节点状态	kube-state-metrics

4.3 配置主机和监控项

创建Kubernetes集群主机：

使用"Kubernetes nodes by HTTP"模板

设置以下宏变量：

{$KUBE.API.ENDPOINT.URL} = https://kubernetes.default.svc {$KUBE.API.TOKEN} = [步骤3.3获取的token] {$KUBE.NODES.ENDPOINT.NAME} = zabbix-kube-state-metrics

验证数据采集：
- 等待几分钟后检查"Latest data"页面
- 确认能够看到节点CPU、内存等基础指标

5. 常见问题与解决方案

在实际生产环境中部署Zabbix监控Kubernetes时，可能会遇到各种问题。以下是我们在多个项目中积累的经验教训。

5.1 Token失效问题

现象：

监控项突然开始返回"Permission denied"错误
Zabbix前端显示"Kubernetes: Failed to get nodes"告警

原因： Kubernetes ServiceAccount Token默认有一定有效期，过期后需要更新。

解决方案：

获取新Token：

kubectl get secret zabbix-service-account -n monitoring -o jsonpath='{.data.token}' | base64 --decode

更新Zabbix中的宏变量：
- 导航至主机配置页面
- 更新{$KUBE.API.TOKEN}宏的值

长期解决方案：创建长期有效的Token：

apiVersion: v1 kind: Secret metadata: name: zabbix-service-account-token annotations: kubernetes.io/service-account.name: zabbix-service-account type: kubernetes.io/service-account-token

5.2 监控项无数据问题

可能原因及排查步骤：

检查Proxy连接状态：
- 在Zabbix前端确认Proxy处于"Online"状态
- 检查Proxy日志：
```
kubectl logs -n monitoring [proxy-pod-name]
```

验证网络连通性：

进入Proxy Pod测试连接：

kubectl exec -it -n monitoring [proxy-pod-name] -- sh curl -k https://kubernetes.default.svc/api/v1/nodes

检查资源限制：
- 确认Proxy和Agent有足够的CPU和内存资源
- 调整资源限制后重新部署：
```
helm upgrade zabbix zabbix/zabbix-helm-chrt -n monitoring -f custom-values.yaml
```

5.3 性能优化建议

当监控大规模集群时，可能需要以下优化：

调整数据采集间隔：
- 对于非关键指标，适当延长更新间隔
- 在模板中修改"Update interval"参数

启用Proxy数据缓存：

zabbixProxy: env: ZBX_PROXYBUFFERSIZE: "8GB" # 根据集群规模调整

分布式Proxy部署：
- 对于超大规模集群，考虑按namespace或节点分组部署多个Proxy

6. 高级监控场景扩展

基础监控就绪后，我们可以进一步扩展监控能力，满足更复杂的运维需求。

6.1 自定义指标监控

除了使用预置模板，我们还可以监控自定义指标：

通过kube-state-metrics添加自定义指标：

# kube-state-metrics额外配置示例 kube-state-metrics: metricAnnotationsAllowList: ["deployment=[*]"] customResources: - groupVersion: "apps/v1" kind: "Deployment" metrics: - name: "deployment_replicas_desired" help: "Number of desired pods for a deployment" each: true gauge: true labels: - "namespace" - "deployment"