日志刷屏的背后,藏着系统雪崩的前兆:聊聊 Logger Rate Limiter(日志速率限制器)
日志刷屏的背后,藏着系统雪崩的前兆:聊聊 Logger Rate Limiter(日志速率限制器)
作者:Echo_Wish
前几天,一位做运维的朋友给我发来一张监控截图。
凌晨两点。
某个业务接口因为数据库连接异常开始报错。
本来只是一个普通故障。
结果短短5分钟,日志系统被打爆:
ERROR Database Connection Failed ERROR Database Connection Failed ERROR Database Connection Failed ERROR Database Connection Failed ERROR Database Connection Failed ...整整几百万条。
最终发生了什么?
- Elasticsearch磁盘告急
- Kafka消息堆积
- 日志采集Agent CPU飙升
- Kibana查询卡死
- 运维手机疯狂报警
最讽刺的是:
真正的问题只有一个。
数据库挂了。
但系统却因为记录同一个错误,把自己搞崩了。
看到这里你会发现一个很有意思的现象:
很多时候,压垮系统的不是故障本身,而是故障产生的日志。
