AWS Health Dashboard 巡检实战 — 从事件发现到行动落地的完整指南
AWS Health Dashboard 是 AWS 主动推送的服务健康和生命周期事件中心。本文详解如何通过 CLI 系统化巡检,按优先级分类处理,确保版本淘汰、安全补丁、高风险配置等事件不遗漏。
前言
很多运维团队对 AWS Health Dashboard 的使用停留在"偶尔打开 Console 看一眼",导致:
- Lambda 运行时淘汰通知收到了,但没人跟进,直到不能更新函数才发现
- EKS 版本到期自动进入 Extended Support,每月多花几百美元才注意到
- MSK 安全补丁重启 broker,因为 Kafka 配置问题导致业务写入中断
- Shield Advanced 自动续期,$3,000/月的费用没人审批就续了
本文建立一套系统化的 Health Dashboard 巡检流程,通过 CLI 批量获取事件、自动分类优先级、输出行动时间线,确保每个事件都有人跟进。
本文适合:
- AWS 运维/SRE 工程师
- 需要管理多账号 AWS 环境的团队
- 想建立定期巡检机制的技术负责人
一、AWS Health Dashboard 基础
事件来源
AWS Health Dashboard 包含三类事件:
