当前位置: 首页 > news >正文

常用运维故障排查命令

常用运维故障排查命令

      • 一、 网络诊断 (Network)
      • 二、 系统状态与资源 (System & Resources)
      • 三、 进程与性能分析 (Process & Performance)
      • 四、 日志排查 (Logging)
      • 五、 安全与权限 (Security & Permission)
      • **高级组合与排查思路**

这是一份精心整理的运维故障排查命令清单,涵盖网络、系统、进程、性能、日志和安全等核心场景,并附有简明解释和常用参数。

一、 网络诊断 (Network)

  1. ping- 测试主机连通性

    • ping -c 4 8.8.8.8(发送4个包后停止)
    • ping -I eth0 目标IP(指定网卡发送)
  2. traceroute/tracepath/mtr- 追踪数据包路径

    • traceroute www.baidu.com
    • mtr --report www.google.com(动态实时追踪,更强大)
  3. netstat- 查看网络连接、路由表、接口统计(旧版,部分系统已淘汰)

    • netstat -tunlp(查看所有监听端口及进程)
    • netstat -rn(查看路由表)
  4. ss-netstat的现代替代品,速度更快

    • ss -tunlp(功能同netstat -tunlp
    • ss -s(查看套接字统计摘要)
  5. dig/nslookup- DNS 查询

    • dig www.example.com A(查询A记录)
    • dig @8.8.8.8 example.com MX(指定DNS服务器查询MX记录)
    • nslookup www.example.com(交互式查询)
  6. nmap- 端口扫描和网络探测

    • nmap -sT -p 1-1000 目标IP(TCP连接扫描常用端口)
    • nmap -sU -p 53,161 目标IP(UDP端口扫描)
    • nmap -O 目标IP(尝试识别操作系统)
  7. tcpdump- 命令行网络抓包分析

    • tcpdump -i eth0 port 80(抓取eth0网卡80端口的包)
    • tcpdump -i any host 192.168.1.1 -w file.pcap(抓取特定主机的包并保存)
    • tcpdump -n -vvv(禁用主机名解析,显示更详细信息)
  8. telnet/nc(netcat)- 测试TCP/UDP端口连通性

    • telnet 目标IP 端口(测试TCP端口是否开放)
    • nc -zv 目标IP 端口(快速测试TCP端口)
    • nc -u 目标IP UDP端口(测试UDP端口)
  9. curl/wget- HTTP/HTTPS 请求与下载

    • curl -I http://example.com(仅获取HTTP头部)
    • curl -v http://example.com(显示详细连接过程)
    • curl -X POST -d ‘data’ http://api(发送POST请求)
    • wget --spider --timeout=5 URL(模拟爬虫,检查URL可达性)
  10. iptables/firewall-cmd(firewalld)- 防火墙规则查看

    • iptables -L -n -v(查看所有规则,数字显示端口/IP)
    • firewall-cmd --list-all(查看firewalld所有区域和规则)

二、 系统状态与资源 (System & Resources)

  1. top/htop- 动态查看进程和系统资源占用

    • top(经典工具,按P按CPU排序,M按内存排序)
    • htoptop的增强版,色彩丰富,支持鼠标操作)
  2. uptime- 查看系统运行时间与平均负载

    • 输出示例:12:30:00 up 30 days, 1:23, 2 users, load average: 0.05, 0.10, 0.15
  3. free- 查看内存使用情况

    • free -h(以人类可读的单位显示,如G、M)
    • free -m(以MB为单位显示)
  4. df- 查看磁盘空间使用情况

    • df -h(人类可读格式)
    • df -i(查看inode使用情况,防止“磁盘有空间但无法创建文件”的问题)
  5. du- 查看目录/文件占用的磁盘空间

    • du -sh /var/log/(查看/var/log目录的总大小)
    • du -h --max-depth=1 /home(查看/home下第一级子目录大小)
  6. vmstat- 报告虚拟内存、进程、CPU活动等统计信息

    • vmstat 2 5(每2秒采样一次,共采样5次)
  7. iostat- 查看CPU统计和磁盘I/O情况

    • iostat -dx 2(显示扩展磁盘统计,每2秒刷新)
    • iostat -c(仅显示CPU使用率)
  8. sar- 系统活动报告器,历史性能数据查询

    • sar -u 1 3(查看CPU使用率,每秒1次,共3次)
    • sar -b 1 3(查看I/O和传输速率)
    • sar -r(查看内存使用历史)
    • sar -n DEV(查看网络接口历史流量)

三、 进程与性能分析 (Process & Performance)

  1. ps- 显示当前进程状态快照

    • ps aux(显示所有用户的所有进程详细信息)
    • ps -ef(标准格式)
    • ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%cpu | head(按CPU使用率排序并显示前几名)
  2. pstree- 以树状图显示进程关系

    • pstree -p(显示PID)
  3. lsof- 列出打开的文件和进程

    • lsof -i :8080(查看谁在占用8080端口)
    • lsof /var/log/syslog(查看谁在打开这个日志文件)
    • lsof -p PID(查看指定进程打开的所有文件)
  4. strace/ltrace- 系统调用/库调用追踪

    • strace -f -p PID(追踪一个正在运行的进程及其子进程)
    • strace -e open,read,write command(追踪命令的特定系统调用)
    • ltrace command(追踪库函数调用)
  5. pidstat- 监控进程资源占用(CPU、内存、IO)

    • pidstat -u 2 5(每2秒报告一次各进程CPU使用,共5次)
    • pidstat -d(报告进程IO情况)
  6. perf- Linux性能分析工具(功能强大,较复杂)

    • perf top(实时显示消耗CPU最多的函数/符号)
    • perf record -g -p PID(记录进程的性能数据,生成火焰图数据)

四、 日志排查 (Logging)

  1. tail- 查看文件尾部内容

    • tail -f /var/log/syslog(实时追踪日志增长)
    • tail -n 100 /var/log/nginx/error.log(查看最后100行)
  2. head- 查看文件头部内容

    • head -n 20 /var/log/boot.log(查看文件前20行)
  3. grep- 强大的文本搜索工具

    • grep “error” /var/log/app.log(搜索包含“error”的行)
    • grep -E “error|fail” /var/log/app.log(使用正则,搜索error或fail)
    • grep -C 3 “keyword” file(显示匹配行前后各3行内容)
    • tail -f logfile | grep --line-buffered pattern(实时过滤日志流)
  4. journalctl- 查询systemd日志(适用于使用systemd的系统)

    • journalctl -f(实时追踪所有日志)
    • journalctl -u nginx.service(查看指定服务的日志)
    • journalctl --since “2023-10-01” --until “2023-10-02”(按时间范围查询)
    • journalctl -p err(只看错误级别以上的日志)

五、 安全与权限 (Security & Permission)

  1. last/lastb- 查看用户登录记录和失败尝试

    • last(查看所有成功登录历史)
    • lastb(查看失败的登录尝试)
  2. lsattr/chattr- 查看/修改文件扩展属性

    • lsattr filename(查看文件特殊属性,如i(不可修改)、a(只追加))
    • chattr +i file(给文件加上不可修改属性,防止误删)
    • chattr -i file(移除不可修改属性)

高级组合与排查思路

  • “黄金命令组合”:当服务不可用时,一个典型的排查链条是:

    1. curl/wget(测试服务自身HTTP响应)
    2. telnet/nc(测试端口可达性)
    3. ping(测试网络层连通性)
    4. traceroute(定位网络中断点)
    5. 如果前三步在本地通,远端不通 -> 检查安全组/防火墙:iptables -L/firewall-cmd --list-all
    6. 如果端口被占用 ->ss -tunlp | grep :端口lsof -i :端口
    7. 如果服务进程崩溃 ->journalctl -u 服务名tail -f /var/log/服务日志
    8. 如果服务器负载高 ->top->pidstat -u -p 高CPU进程PID->strace -p PIDperf
  • 磁盘I/O瓶颈iostat -dx 1%utilawait,同时用iotop定位哪个进程在大量读写。

  • 内存泄漏free -h观察可用内存持续下降,用ps aux --sort=-%memsmem找嫌疑进程,再用valgrind(开发环境)或pmap -x PID分析进程内存映射。

掌握这些命令,并理解它们背后的原理,你将能系统性地诊断和解决绝大多数运维故障。建议在测试环境中多加练习,形成自己的排查“肌肉记忆”。

http://www.jsqmd.com/news/329991/

相关文章:

  • [solution] 关闭硬件加速解决导出视频绿屏
  • 学霸同款 10个一键生成论文工具测评:专科生毕业论文+开题报告高效写作指南
  • 猫头鹰护眼靠谱吗?验光准度+近视防控全测评,家长必看!
  • 青少年全科网校怎么选?优质网校解析+避坑指南
  • Debian 13基于kubeadm和containerd部署单节点kubernetes
  • Java线程池缓冲队列上限解析 - 指南
  • 2026年本地衬塑衬四氟管道品牌口碑趋势分析,耐磨管件/合金管道/保温管件/高压管件,工厂预制化管道公司怎么选择
  • 避坑指南|青少年语数英网校哪家好?实测3科高口碑推荐,家长闭眼冲
  • 详细介绍:农产品电商|基于SprinBoot+vue的农产品电商系统(源码+数据库+文档)
  • 计算机毕业设计springboot公交线路查询系统 基于SpringBoot的城市公交出行路线智能检索平台 SpringBoot框架下的公共交通线路信息可视化系统
  • 小学生全科网课怎么选?语数英爆款平台+免费APP硬核测评!
  • 计算机毕业设计springboot娱乐网站设计与实现 基于SpringBoot的在线影音文学社区构建 SpringBoot驱动的多媒体互动娱乐平台研发
  • oracle使用服务名链接报错ORA-12537: TNS:connection closed
  • 市场上排行前列的短视频矩阵厂商推荐,ai数字人矩阵/ai排名/矩阵/抖音短视频矩阵,短视频矩阵系统排行
  • Stable数组的使用
  • YOLO在Java中跑不起来?手把手教你解决CUDA兼容性问题(附GPU推理完整代码)
  • 计算机毕业设计springboot体育场馆在线预约系统 基于SpringBoot的高校体育馆场地预约平台 SpringBoot+MySQL的校园运动场馆智能预订系统
  • Flutter 三端应用实战:OpenHarmony “呼吸灯”——在焦虑时代守护每一次呼吸的数字禅修
  • 计算机毕业设计springboot二手房产交易平台 SpringBoot驱动的二手房租售一体化平台 基于SpringBoot的存量房交易与租赁撮合系统
  • Flutter 三端应用实战:OpenHarmony “专注时光盒”——在碎片洪流中守护心流的数字容器
  • 2025年市场岗位能力重构与跨领域转型路径分析 - 详解
  • 山间雾里-重庆
  • 飞牛fnOS高危漏洞实战分析与应急处置指南(2026最新版)
  • 别小看这些碎片,芬兰乌拉尔语族的分词技术竟有这么大学问
  • 算法入门打卡Day4___交换链表节点、删除倒数N个节点、链表相交、环形链表
  • 2026青少年数学网校实测|分龄选对不踩坑,学霸私藏清单曝光
  • 人民大学团队破解AI智能体“健忘症“
  • Flutter艺术探索-Flutter跨平台适配:Android/iOS/Web差异化处理
  • stm32毕业论文(毕设)必过选题思路
  • 研究团队发明了一套AI评审系统,让深度研究报告评测变得精准!