当前位置: 首页 > news >正文

凌晨告警排查记:一次AWS EBS磁盘IO利用率100%的真相

凌晨 3:30(其实是UTC时间, 美国站点的晚上, 我们这边正常上班时间, 嘿嘿嘿),电话响了。心里咯噔一下:这个时间点的告警,十有八九不是什么好事。果然,值班同事反馈应用变得特别慢,大量请求超时,用户已经开始骂了。

我第一反应:是不是有什么 job 跑起来了?比如凌晨的日志备份。

查了一圈,发现确实有一个日志备份(先压缩写入, 再读取通过网络传到S3上去)的 cronjob 正在执行。正当我以为是元凶时,仔细一看,这 job 的日志量不算大,不至于把服务搞趴。但问题又确确实实发生了,那个时间点也只有这一个明显的操作。

好吧,排障的经典套路来了:先看基础设施层面有没有瓶颈

💥 常规指标一切正常?

登录监控系统(Prometheus + Grafana),先扫了一眼传统三件套:

  • CPU:不高,才 20% 左右。
  • 内存:也正常,50% 左右。
  • 网络:带宽用了 1Gbps 左右,而 EC2 实例的基线带宽是 3Gbps,离打满还远着呢。
  • 磁盘 IOPS:EC2 跑的应用,挂载的是 gp3 卷,IOPS 基线 3000,峰值可以飙到 12000 左右。当时的读写 IOPS 也就 500 多,也没达到上限。

Network

Disk IOPS

这数据看着好像没什么问题……那应用为什么会慢?

等等。

有个指标被我忽略了——磁盘 IO 利用率

🐾 注意:
Prometheus 中的 node_disk_io_time_secondsrate() 化之后,(具体是: instance_device:node_disk_io_time_seconds:rate5m)
反映的是磁盘完成 IO 请求所花费的时间占比,可以理解为磁盘的 '忙碌程度'。
如果这个值维持在 100%,说明磁盘一直是满负荷运转的,IO 请求排着队,应用能不卡吗。

赶紧查了下这个指标,好家伙,直接 100%

IO Util

这就矛盾了:明明 IOPS 和网络带宽都没打满,为啥磁盘会一直 100% 忙?

🔍 隐藏的凶手:gp3 卷的吞吐量限制

这时候我突然觉得不对劲,仔细看了下网络流量和磁盘的指标。

  • 网络流量:通过 node_network_receive_bytes_total 计算,大约 1Gbps。
  • 磁盘吞吐量:通过 node_disk_bytes_total 计算,也是大约 1Gbps,和网卡流量几乎完全吻合。

等等,gp3 卷的吞吐量上限是多少?

AWS 官网写得明明白白:gp3 卷的吞吐量单独计价,基础的吞吐量是 125 MB/s(约 1 Gbps)。不像 gp2, 如果你的 IOPS 和吞吐量都超出了基线,可以利用积分(burst credits),但一旦积分耗尽,吞吐量就会被硬性限制在 1 Gbps。
gp3 卷的吞吐量上限默认就是 125 MB/s(约 1 Gbps), burst 不了。除非你提前花钱买额外的吞吐量.

🤔 网卡流量 1 Gbps,磁盘吞吐量 1Gbps?这显然已经达到了 gp3 卷的 1Gbps 吞吐量限制。

真相只有一个:日志备份 job 产生了大量的磁盘写入/读取,瞬间吃光了 gp3 卷的吞吐量积分,导致后续所有的 IO 请求都被限速。 应用发起的业务请求虽然 IOPS 不高,但数据量不小,也被堵在了队列里。磁盘 IO 利用率 100%,并非 IOPS 不够,而是吞吐量被卡住了。

这就像是:一个快递站(gp3 卷)的处理速度(吞吐量)是固定的,突然来了一大卡车货(日志备份),把整条传送带占满了。后面来的一箱箱 VIP 快件(业务请求),只能等着,自然就超时了。

🛠️ 如何确认这个猜想?

为了验证,我快速查了以下信息:

  1. 对比网络入流量和磁盘写入量:确认两者高度一致,都达到了 1Gbps。这说明磁盘写入和网络流量是'一路货'。
  2. 确认 gp3 卷的吞吐量配置:检查控制台,确认该卷的吞吐量配置确实是默认的 125MB/s(1Gbps)。

🤔 这次排查教会了我们什么?

👍️ 做得好的地方

  1. 监控覆盖全面:我们部署了 node_exporter,采集了磁盘 IO 利用率、IOPS、网络带宽等几乎全部的关键指标,没有出现盲区。
  2. 常规指标都排查了:第一时间排查了 CPU、内存、IOPS、带宽,这是非常正确的第一反应。
  3. 数据对比能力强:能迅速对比网络流量和磁盘吞吐量,发现两者数值吻合,这是最关键的一步。

👎 需要改进的地方

  1. 对监控指标理解不够深:只关注了 "IOPS" 和 "带宽" 是否打满,而忽视了 IO 利用率 这个关键指标。它才是反映"应用是否在排队等待 IO"的望远镜。
  2. 对 AWS 卷类型特性不熟:虽然最后发现是 gp3 限速,但排查过程中对 gp3/gp2 等不同卷类型的 IOPS/吞吐量/积分机制 缺乏系统了解。当时是 gp3,真真切切被它坑了。
    • 😱 所以,一个"卷性能速查表"是多么重要。
  3. 排查流程不够完整:排查时,应该在"常规指标正常"后就立刻转向磁盘 IO 队列深度instance_device:node_disk_io_time_weighted_seconds:rate5m),这是判断 IO 是否真的 '拥堵' 的核心指标,而不是只看利用率。

IO Saturation

💡 写在最后:一份实用的 EBS 性能排查清单

这次 Case 让我意识到,很多'云原生' '云计算'的坑,都是对底层基础设施的'一知半解'导致的。以后排查类似问题,建议按以下顺序走:

  1. 看现象:应用慢、超时。
  2. 扫硬件:CPU、内存、IOPS、带宽。
    • ⚠️ 如果这些指标都正常,立刻进入第三步。
  3. 看 IO 队列:检查 instance_device:node_disk_io_time_weighted_seconds:rate5m 指标,判断是否有 IO 拥堵。
    • 如果 IO 队列高,但 IOPS 不高,大概率是吞吐量或 IO 模型问题
  4. 对比流量:查看网卡流量和磁盘写入/读取吞吐量,看它们是否匹配。
  5. 验证假设
    • 确认是 EBS 限速?根据EBS类型判断是查 BurstBalance 指标, 还是查 IOPS 和 吞吐量等指标。
    • 确认是应用 IO 模型问题?分析具体是哪个文件的读写导致 IO 高(如 /var/log 的日志)。
  6. 调整配置
    • EBS 限速:升级卷类型(如 gp3 → io2)或调整吞吐量基线。
    • 应用问题:优化日志输出(如异步、批量、减少日志级别),调整 cronjob 的执行周期或错峰, 日志备份限速等。

🤔对云服务的更多思考

经历了这次问题, 我专门查找了相关的资料, 发现云服务的限制不止这些.

云服务虽带来弹性与可扩展性,但网络节流(带宽限制)常被忽视,是导致应用响应慢、卡顿的重要原因。即便CPU、内存等指标正常,网络节流仍会通过丢包、重传大幅增加延迟,引发服务中断、性能不稳定,甚至造成数百万美元收入损失。

核心问题

  • 云服务商(AWS、Azure、GCP等)根据实例大小设定带宽基线,超出后触发自动节流(如AWS的突发积分耗尽后降速)。
  • 节流规则复杂、不透明,传统监控(如仅测RTT)无法有效识别,NTP精度不足,PTP成本高。

常见场景与解决方案

  • 持续高利用率:升级实例、负载分散、智能缓存。
  • 微突发(Microburst):应用级限速、流量整形、高粒度监控。

未来应对策略

  • 实施实时单向延迟监控。
  • 架构设计考虑弹性,容忍带宽限制。
  • 平衡实例大小与网络需求,避免过度配置。
  • 建立性能基线,主动测试。
  • 核心转变:从反应式扩缩容转向主动自动化延迟自愈,将网络节流管理视为业务必需,而非仅IT问题。

📝总结

排查应用故障,不能只看「有多少水(IOPS)」,更要关注「水的流速(吞吐量)」和「水管子堵不堵(IO 利用率)」。

📚️参考文档

  1. Amazon EBS 卷类型 - AWS 官方文档
  2. 监控 Amazon EBS 卷 - CloudWatch 指标
  3. node_exporter 磁盘指标说明
  4. Cloud Apps Slow? Network Throttling Could Be Why
http://www.jsqmd.com/news/838063/

相关文章:

  • Unity3D集成3D WebView:实现跨平台网页视频播放与实时视觉处理
  • 2026 年度东莞 GEO 优化服务商权威 TOP5 榜单:本地头部公司深度测评 - 速递信息
  • 如何通过SQL子查询实现灵活的参数化查询_模板设计
  • 番茄小说下载器:打造永不掉线的个人数字图书馆
  • Win11安全中心总弹警告?手把手教你揪出并删除那个捣乱的‘内存完整性’不兼容驱动
  • 从零到一:uni-app多端应用集成i18n国际化的完整实践指南
  • 2026内蒙古消防器材供应商选型参考:沟槽管件、喷淋头、消防阀门全品类技术要点 - 深度智识库
  • CANape实战:如何绕过CSMconfig识别问题,用VN5610A的Network模式连接ECAT ADMM模块
  • 3个步骤掌握抖音无水印下载:从单视频到批量采集的完整指南
  • 光电振荡器与飞秒激光器:从原理到工程实践的核心挑战与解决方案
  • 穆斯堡尔谱(Mössbauer spectroscopy)原理简介、应用实例文献解读
  • 基于mpromonet/webrtc-streamer的Docker化WebRTC流媒体服务实战指南
  • AI赋能产能爆发 合规精品引领方向——2026年漫剧市场迎来转型关键期 - 品牌2025
  • 物联网 基于netty构建mqtt服务协议支持
  • Nexus Mods App 终极指南:告别模组冲突,打造完美游戏体验
  • 鸿蒙开源阅读器完整指南:重新定义你的数字阅读体验
  • 2026年3月市面上诚信的婚礼定制公司哪家好,旅行结婚/纪实婚礼/极简婚礼/旅拍婚纱照/户外婚礼/婚纱照,婚礼门店有哪些 - 品牌推荐师
  • 3步快速上手:XUnity自动翻译器让你的Unity游戏告别语言障碍
  • 合宙物联网方案如何以极致性价比与低门槛开发重塑硬件开发体验
  • 网络工程师实战技能库:自动化配置、故障排查与路由优化
  • 2026振动粘度计优选:上海提创——高精度、快交付、可定制的国产标杆 - 品牌推荐大师1
  • Neovim集成Minecraft启动器:开发者工作流与游戏管理的无缝融合
  • 2026重磅首发|AI全域GEO产业生态布局深度解析:底层架构搭建到商业落地全链路实操手册 - 速递信息
  • 从‘长得像’到‘算得准’:一个电商营销活动复盘,带你吃透PSM-DID的实战避坑指南
  • API Key认证系统设计:企业级API开放平台实践
  • Bandgap设计避坑指南:从原理图到稳定输出的5个常见误区与调试技巧
  • 终极指南:用UXTU轻松解锁电脑隐藏性能,让你的Intel/AMD设备火力全开
  • 2026年豆包推广AI搜索排名优化指南:深圳昊客网络GEO技术引领企业获客新范式 - 深圳昊客网络
  • DS4Windows完全指南:让PlayStation手柄在Windows平台获得完美游戏体验
  • 如何高效获取无水印抖音内容:douyin-downloader完整指南