当前位置: 首页 > news >正文

拒绝背锅!服务器卡顿CPU却空闲?一文揪出磁盘I/O这个“隐形杀手”

2

大家好,我是三味

最近在技术群里(QQ群:949793437),有位朋友提出了一个非常经典的问题:

“AlmaLinux 9.7 系统,怎么看磁盘的负载?我担心磁盘影响性能,只会用 uptime 和 df 够吗?”

这简直是灵魂发问!

很多时候,我们发现服务器 Load Average(平均负载)飙高,应用响应变慢,但一看 CPU 使用率(User%)却只有 5%,内存也还剩一大把。这时候,如果你只会 top,可能就真的束手无策了。

其实,90% 的“诡异卡顿”都源于它——磁盘 I/O(输入/输出)瓶颈

今天三味就带大家抛弃那些“花架子”,用最硬核的命令,把磁盘负载看个通通透透。

1

1. 为什么 top 可能会骗你?

我们习惯性敲下 top,通常只盯着 CPU 的 us(用户空间)和 sy(内核空间)。但请往右上角看,那里藏着一个关键指标:%wa (I/O Wait)

  • %wa 是什么?
    它代表 CPU 处于“空闲”状态,但之所以空闲,是因为它发出了磁盘读写请求,正在苦苦等待磁盘把数据传回来。
  • 警报线:
    如果 %wa 长期超过 10% 甚至更高,别怀疑,你的磁盘已经成为整个系统的短板了!CPU 再快也没用,全堵在硬盘上了。

注意: 很多朋友喜欢用增强版的 htop,但默认的 htop 界面居然不显示 %wa!你需要按 F2 -> Meters -> CPU -> 切换样式,才能看到这个关键指标。这里是个大坑,要注意!

2. 神器一:iostat —— 宏观透视眼

top 只能告诉你“磁盘有问题”,但不能告诉你“哪块磁盘有问题”。这时候,必须请出 sysstat 包里的 iostat

这是三味最推荐的起手式:

iostat -dx 1
  • -d:只看磁盘,不看CPU。
  • -x:显示扩展的详细数据(这一步最关键)。
  • 1:每秒刷新一次。

看到满屏数据别慌,只盯这三个核心指标:

  1. %util (最重要的指标)
    表示磁盘设备的利用率。如果这个值持续接近 100%,说明磁盘已经满负荷运转,IO请求已经开始排队,它就是系统的瓶颈!
  2. await
    IO请求的平均等待时间(毫秒)。
    • SSD 正常应该在 1ms 以内。
    • 机械硬盘 5-10ms 算正常。
    • 如果 await 飙升到 100ms 甚至更高,你的数据库绝对在“卡顿”。
  3. r/sw/s
    每秒的读写次数(IOPS)。结合业务量来看,判断是否超出了磁盘的物理极限。

3. 神器二:iotop —— 谁是罪魁祸首?

知道了磁盘忙,但到底是哪个进程在疯狂读写?是 MySQL 在刷盘?还是日志进程在发疯?还是有人在偷偷挖矿?

iostat 看不到进程,这时候要用 iotop
(如果没安装:dnf install iotop)

推荐用法:

iotop -oP
  • -o:只显示正在产生 I/O 的进程(过滤掉不干活的)。
  • -P:只显示进程,不显示线程(让视图更清爽)。

怎么看?
直接看 DISK WRITEDISK READ 列,谁排第一,谁就是把磁盘打满的元凶!选中它,你就找到了优化的目标。

4. 神器三:dstat —— 全能指挥官

如果你想把 CPU、磁盘、网络放在一起看关联,dstat 是最炫酷的工具(AlmaLinux 9 可能需要通过 EPEL 安装)。

dstat -cdngy 1

这种上帝视角能让你发现有趣的关联:比如,是不是网络流量(Net)进来的瞬间,磁盘写(Disk)突然飙高,紧接着 CPU 等待(Wait)上升?这就是全链路分析的魅力。


兄弟们,下次服务器卡顿时,别只盯着 CPU 看了。

  1. 先看 top%wa,判断是否有 I/O 等待。
  2. 再用 iostat -dx 1 确认磁盘利用率 %util 和响应时间 await
  3. 最后用 iotop -oP 揪出那个疯狂读写磁盘的进程

这三板斧下去,99% 的磁盘性能问题都将无所遁形。

技术之路,贵在知其然,更知其所以然。


如果你觉得这篇文章让你学到了真东西:

  1. 关注我的公众号 [爱三味],我不发水文,只讲实战。
  2. 转发给身边的运维和开发朋友,帮他们省去排查问题的几个通宵。
  3. 加入我们的技术交流 QQ群:949793437,这里有真大佬,也有热心的三味,我们在群里等你!
http://www.jsqmd.com/news/299394/

相关文章:

  • 彼得林奇对公司并购后文化整合成功因素的案例研究
  • React 组件状态(State)
  • 从零开始:Gitee 仓库创建与本地项目纳管全流程详解
  • 法律服务效率提升的架构创新:AI应用架构师详解法律AI智能体微服务设计
  • 并行计算: CUDA 12.9 (支持 GPU 加速), OpenMP (多核 CPU)
  • Qt中connect()实现信号与槽连接这一核心机制
  • HDF5与CGNS文件格式详解
  • 资产管理系统如何让账实对齐变得简单又精准?
  • 本周学习总结
  • JDK动态代理和CGLIB代理的机制和选择
  • 洛谷 P1332 血色先锋队 题解
  • ClickHouse 25.12 版本发布说明
  • 什么才是真正影响性能的关键:一年来基准测试的经验教训
  • 大数据领域HBase的RegionServer管理技巧
  • ClickHouse 完成由 Dragoneer 领投的 4 亿美元 D 轮融资,加速其在分析与 AI 基础设施领域的扩张
  • 走向全栈:前后端状态认知差异与设计边界的深度探讨
  • Java毕设选题推荐:基于Java的小说三体科幻社区管理系统的设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 本周 GitHub 热门:更好用的MCP客户端和Coding创作视频,开源项目层出不穷!
  • 计算机Java毕设实战-基于springboot的三体科幻社区交流分享管理系统的设计与实现【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • Java毕设项目:基于springboot的三体科幻社区管理系统的设计与实现(源码+文档,讲解、调试运行,定制等)
  • 【课程设计/毕业设计】基于vue+springboot科幻社区管理系统springboot的三体科幻社区管理系统的设计与实现【附源码、数据库、万字文档】
  • 生成器跟容器还是不一样的,生成器可能有“江郎才尽”的那一天 - GLORY-TO-THE
  • ppo走中国象棋如果走到某一步3步之内必死会怎么样
  • 03.Python IDE / 编辑器选型指南:PyCharm/VS Code/IDLE 使用对比
  • 【已解决】浏览器出现 STATUS_STACK_BUFFER_OVERRUN 错误的原因及解决方法汇总
  • 5060laptop 显卡安装torch
  • 详细介绍:LLaMA大模型家族发展介绍
  • 模拟 TI C6678 多核并行加速的雷达目标检测与协同处理
  • selenium自动化测试工具实战项目(登录页面)
  • 字体反爬分析