服务器突然卡死、SSH 连不上?应急排查思路(运维必备)
服务器毫无征兆卡死、无响应、SSH 连不上,是我最近在郑州易方科贸管理服务器中最让人头皮发麻的故障之一。 网站打不开、业务中断、后台登不进去,很多人第一反应是 “重启”,但重启只能临时解决,还会丢现场、丢日志,根本查不到根因。
这篇文章给你一套通用、可落地、从应急到定位的完整排查思路,不管是云服务器还是物理机,新手也能一步步操作。
一、先搞清楚:服务器到底 “死” 在哪一步?
SSH 连不上,不代表机器真的挂了,先快速判断故障类型:
- 完全无响应:ping 不通、telnet 22 端口不通、控制台黑屏
- 能 ping 通,但 SSH 连不上:网络通,服务或系统卡住
- 能进控制台,但操作极卡:系统负载高、IO 卡死、内存爆了
- 刚连上就断:OOM 杀进程、端口被占、防火墙拦截
不同现象,排查方向完全不同。
二、第一步:最紧急 —— 先恢复业务(能救就救)
1. 优先尝试 VNC / 控制台
云服务器(阿里云、腾讯云、华为云等)都有网页终端 / VNC 控制台,这是最后救命入口。
- 能进去:说明机器没死,只是网络或 SSH 异常
- 进不去、黑屏、卡死:大概率系统内核卡死或硬件问题
2. 简单连通性测试
在本地执行:
bash
运行
ping 服务器IP telnet 服务器IP 22- ping 不通 → 网络 / 防火墙 / 机器宕机
- ping 通、22 端口不通 → SSH 服务挂了或被拦截
- 都通但连不上 → 认证、负载、文件系统问题
3. 万不得已再重启
重启会丢失现场,建议只在两种情况用:
- 业务中断影响极大,必须立刻恢复
- 完全无任何响应,控制台也进不去
重启前如果能截图控制台、记录最后画面,对后续排查极有帮助。
三、第二步:能进控制台,怎么排查卡死原因?
如果你能通过 VNC / 网页终端进入,恭喜你,问题基本能定位。
1. 先看系统负载:是不是 CPU 跑满
执行:
bash
运行
top重点看:
- load average 远大于 CPU 核心数 → 严重拥堵
- % CPU 接近 100% → 某个进程疯狂占用
- 常见元凶:MySQL、Java、Python、Nginx、爬虫、挖矿程序
处理:
- 记录 PID,
kill -9 PID干掉异常进程 - 观察是否恢复 SSH 连接
2. 内存爆了、OOM 机制杀服务
bash
运行
free -h- used 占满、swap 也爆满 → 内存溢出 系统会主动杀死 SSH、Nginx、Java 等进程,导致无法登录。
查 OOM 日志:
bash
运行
dmesg | grep -i "out of memory" dmesg | grep -i oom看到哪个进程被 kill,基本就是元凶。
3. 磁盘 IO 卡死(最容易被忽略)
很多时候 CPU、内存都正常,但系统就是动不了,90% 是磁盘 IO 被打满。
bash
运行
iostat -x 1重点看:
%util接近 100%- await 特别高
再看谁在疯狂读写:
bash
运行
iotop常见原因:
- 日志疯狂刷写
- MySQL 大量慢查询、刷脏页
- 磁盘满、inode 耗尽
- 机械盘扛不住高并发
4. 磁盘满了,系统直接卡死
bash
运行
df -h df -i- 根目录 / 使用率 100% → 无法创建临时文件,SSH 无法登录
- inode 满了(小文件太多)→ 同样会卡死
清理:日志、备份、缓存、垃圾文件。
5. 系统文件异常、只读挂载
如果控制台提示:
plaintext
Read-only file system说明磁盘异常,系统自动保护改为只读模式,任何写入都会失败,SSH 也无法正常建立会话。
四、第三步:能 ping 通,但 SSH 死活连不上
如果网络正常,但 SSH 登不进,排查这几项:
1. SSH 服务挂了
进控制台执行:
bash
运行
systemctl status sshd异常则重启:
bash
运行
systemctl restart sshd2. 防火墙 / 安全组拦截 22 端口
云服务器优先检查:
- 安全组是否放通 22
- 内网防火墙 firewalld、iptables 是否拦截
临时关闭测试:
bash
运行
systemctl stop firewalld3. hosts.deny/hosts.allow 黑名单
系统级黑名单会直接拉黑 IP:
plaintext
/etc/hosts.deny /etc/hosts.allow查看是否被误封。
4. SSH 最大连接数满了
bash
运行
ss -ntpl | grep sshd连接数打满,新连接进不来,需要调整配置或重启服务。
5. 密钥 / 权限异常
SSH 对权限极其敏感:
- .ssh 目录权限不对
- authorized_keys 权限异常 都会直接拒绝登录,且不提示原因。
五、第四步:完全 ping 不通、控制台也黑了
这种情况最严重,基本只有几种可能:
服务器真宕机内核崩溃、硬件故障、电源 / 网卡异常。
被流量攻击打挂DDOS、CC 攻击导致网卡 / 系统资源耗尽。
内核死锁、panic控制台会打印错误信息,可截图提工单给厂商。
机房网络中断交换机、上联线路、运营商故障。
处理方式:
- 提交云厂商工单,查监控与系统日志
- 物理机检查硬件、网卡、电源
- 查看流量监控是否被攻击
六、事后必做:避免下次再突然卡死
- 配置监控:CPU、内存、磁盘、IO、TCP 连接
- 开启日志采集:dmesg、syslog、应用日志
- 限制日志大小,配置日志轮转
- 关键服务设置开机自启、异常自动重启
- 定期清理磁盘,避免 100% 占满
- 重要业务做高可用,避免单点故障
