当前位置：首页 > news >正文

Linux服务器故障排查：从连不上到查得清的归因路径

news 2026/7/10 15:23:42

1. 这不是故障，是系统在给你发求救信号

“服务器系统崩溃了怎么办”——这句话我每天至少在运维群、技术论坛和深夜告警群里看到七八次。但说实话，真正“崩溃”的服务器极少，绝大多数所谓“崩溃”，其实是某个关键服务失联、资源耗尽、配置错位或依赖链断裂的综合表现。你刷新监控面板看到一片红色，SSH连不上，网站打不开，数据库报错503，第一反应是“完了，系统挂了”，然后手忙脚乱重启物理机、重装系统、甚至准备回滚整套镜像……结果发现，重启后5分钟又挂，或者刚恢复就出现数据不一致。这不是运气差，而是把“症状”当成了“病因”。

我做过三年IDC现场值守，后来带过十几人的SRE团队，处理过从单台VPS到千节点K8s集群的各类“崩溃”事件。最深的体会是：“崩溃”从来不是起点，而是终点；它前面一定有一长串被忽略的预警、日志、指标和人为操作痕迹。比如上周一个电商客户凌晨三点告警，说“订单系统全挂”，我们接入后发现根本不是内核panic，而是Redis连接池被上游Java应用疯狂打满（maxActive=200，实际并发连接峰值达1700），导致连接拒绝，进而触发Spring Boot的Hystrix熔断，最终所有下游服务返回500。整个过程持续了47分钟，但/var/log/redis/redis-server.log里从第3分钟起就有“WARNING: The TCP backlog setting of 511 cannot be enforced”和大量“Client connection timeout”记录——这些信息，比任何“系统崩溃”四个字都更早、更准、更可操作。

所以这篇内容不叫《服务器崩溃应急手册》，而叫《从“连不上”到“查得清”的完整归因路径》。它面向三类人：刚转行做运维的新手（需要建立排查逻辑）、开发同学（想理解线上环境的真实约束）、以及中小团队的技术负责人（要快速判断是该自己上还是该叫外援）。全文不讲理论模型，只讲我在真实生产环境里验证过、抄作业就能用的步骤、命令、判断依据和避坑点。核心关键词就是：服务器系统崩溃、应急响应、根因定位、Linux诊断、服务恢复。接下来，我会带你从按下回车键登录服务器的第一秒开始，一层层剥开“崩溃”表象，找到那个真正卡住系统的螺丝钉。

2. 登录失败？先别急着重启，试试这五种“绕过式访问”

当SSH提示“Connection refused”或“Operation timed out”，90%的人第一反应是去机房按电源键，或者在云控制台点“强制重启”。但这是最危险的一步——它直接抹掉了所有正在内存中运行的线索：未刷盘的日志、瞬时CPU飙高的堆栈、被OOM Killer干掉进程前的最后状态。真正的高手，永远在重启前先尝试“绕过式访问”，也就是不依赖SSH守护进程本身，获取系统最底层的运行快照。

2.1 用串口控制台（Serial Console）抓取内核级输出

云厂商（阿里云、腾讯云、AWS）和主流IDC都提供串口控制台功能，它直连虚拟机或物理机的串口设备（/dev/ttyS0），完全独立于SSH服务、网络栈甚至init系统。只要机器还在通电运行（哪怕SSH进程已死），串口就能看到内核启动日志、panic dump、systemd启动失败详情。以阿里云为例，进入ECS控制台→实例详情→“更多”→“串口连接”，输入VNC密码即可进入。此时如果看到类似这样的输出：

[ 123.456789] INFO: task java:12345 blocked for more than 120 seconds. [ 123.456790] Not tainted 5.4.0-91-generic #102-Ubuntu [ 123.456791] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message. [ 123.456792] Call Trace: [ 123.456793] __schedule+0x2a2/0x700 [ 123.456794] schedule+0x2f/0x90 [ 123.456795] io_schedule+0x12/0x40 [ 123.456796] get_request+0x2e5/0x4c0

这就是典型的I/O hang，说明磁盘或存储后端（如NFS、Ceph）已无响应，系统卡在等待IO完成。此时重启不仅解决不了问题，反而可能因强制断电导致文件系统损坏。正确做法是：立刻在串口里执行dmesg -T | tail -50看最近硬件错误，再用cat /proc/mounts确认挂载状态，如果发现某NFS挂载点显示nfs on /data type nfs (rw,hard,intr,addr=10.0.1.100)但ping 10.0.1.100不通，那根因就非常清晰了——不是服务器崩溃，是存储网络中断。

提示：串口控制台默认不记录历史，务必开启“日志保存”功能（阿里云叫“串口日志采集”，AWS叫“Serial Console Logging”），否则断电后日志就丢了。

2.2 利用救援模式（Rescue Mode）挂载原系统分区

当串口也黑屏（常见于物理机BIOS卡死或虚拟化层异常），且你有root权限，就该启用救援模式。它会用一个精简Linux镜像启动，把原系统磁盘作为普通块设备挂载，让你能读写其文件系统。以CentOS 7为例，在GRUB启动菜单按e编辑启动参数，在linux16行末尾添加rd.break，然后Ctrl+X启动。系统会在initramfs阶段暂停，此时执行：

# 挂载原系统根分区（假设为/dev/sda2） mount /dev/sda2 /mnt/sysroot # 切换到原系统环境 chroot /mnt/sysroot # 现在可以查看任何日志 journalctl -u nginx --since "2024-05-20 02:00:00" | tail -30 # 或检查磁盘健康 smartctl -a /dev/sda | grep -E "(Reallocated_Sector|Current_Pending_Sector|UDMA_CRC_Error)"

这个操作的关键在于：它绕过了原系统的init进程、systemd、甚至文件系统挂载逻辑。即使/etc/fstab里有一行错误的NFS挂载导致开机卡死，救援模式下你也能手动跳过它，直接访问磁盘数据。我曾用这招从一块即将报废的SSD上抢救出客户三天的订单日志——因为dmesg显示ata1.00: failed command: READ FPDMA QUEUED，但分区还没坏，数据尚可读。

2.3 通过IPMI/iDRAC远程管理口执行硬诊断

对于物理服务器，IPMI（Intel）或iDRAC（Dell）是比串口更底层的管理通道。它由独立芯片运行，即使CPU完全锁死、内存报错、电源模块异常，只要主板供电正常，IPMI就能工作。登录IPMI Web界面（通常是https://服务器IP:623），重点看三个地方：

System Health → Sensors：查看CPU温度（>95℃大概率热节流）、风扇转速（<3000 RPM可能散热失效）、电压（+12V波动超±5%说明电源老化）
Remote Console → KVM：启动图形化远程控制台，看是否卡在BIOS自检、GRUB菜单或内核加载阶段
Storage → Physical Disks：直接读取硬盘SMART状态，比smartctl更可靠（因不经过OS驱动栈）

去年帮一家银行排查一台Oracle数据库服务器频繁hang住的问题，IPMI显示CPU1 Temp长期维持在102℃，但top里CPU使用率才30%。原来机房空调故障，机柜局部过热，CPU自动降频保命，导致Oracle RAC心跳包超时，集群误判节点死亡。这种问题，SSH连得上也查不到——因为/sys/class/thermal/下的温度传感器驱动根本没加载。

2.4 借助云平台元数据服务（Metadata Service）获取实例状态

公有云环境下，即使实例完全失联，它的元数据服务（如AWS的http://169.254.169.254/latest/meta-data/）通常仍可用。curl一下就能知道：

实例是否处于stopped/terminated状态（说明已被云平台强制关机）
instance-type和ami-id（确认是不是被误操作更换了镜像）
public-keys/下的SSH密钥（验证密钥是否被覆盖导致无法登录）

更关键的是，很多云平台会把最近一次系统事件（如“Instance reboot initiated by system due to hardware failure”）写入/latest/meta-data/spot/instance-action或/latest/dynamic/instance-identity/document。这相当于云厂商给你的“事故报告”，比你自己猜靠谱十倍。

2.5 用网络层工具确认是“真断网”还是“假失联”

有时候你以为服务器“崩溃”了，其实只是网络策略出了问题。用三步法快速验证：

从同VPC/VLAN内另一台机器ping目标IP：如果通，说明是防火墙或安全组问题；如果不通，继续下一步
用arping -I eth0 10.0.1.100（目标IP）测试二层可达性：如果收到reply，证明MAC地址学习正常，问题在三层以上；如果timeout，可能是交换机端口down或ARP表溢出
在网关设备上抓包：tcpdump -i any host 10.0.1.100 and port 22，看是否有SYN包发出但无SYN-ACK返回——这指向目标机器的iptables INPUT链DROP了22端口，而非SSH服务宕了

我见过最离谱的一次：客户说“所有服务器同时崩溃”，结果发现是运维误删了核心交换机的ACL规则，把整个业务网段的ICMP和TCP 22/443全部deny了。服务器好好的，只是变成了“网络孤岛”。

3. 登录成功后，别急着看服务状态，先做这四件“保命级”操作

当你终于通过SSH、串口或救援模式连上服务器，屏幕显示熟悉的[root@prod ~]#提示符时，很多人会立刻敲systemctl status nginx或ps aux | grep mysql。但这是大忌——在确认系统基础健康度之前，任何服务级检查都是空中楼阁。就像医生不会一进门就问“您胃疼吗”，而是先测血压、听心音、看瞳孔。以下四件事，必须在登录后30秒内完成，它们决定了后续排查是事半功倍还是南辕北辙。

3.1 第一时间执行`uptime && w`，锁定“崩溃”发生的时间窗口

uptime显示系统已运行多久，w显示当前登录用户及每个用户的最近命令。这两条命令的组合，能帮你精准定位“崩溃”是何时发生的。例如：

$ uptime 03:22:15 up 12 days, 7:45, 1 user, load average: 0.02, 0.03, 0.05 $ w 03:22:18 up 12 days, 7:45, 1 user, load average: 0.02, 0.03, 0.05 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT root pts/0 10.0.1.5 03:20 1.00s 0.02s 0.00s w

这里up 12 days说明系统没重启过，所谓“崩溃”其实是服务中断；而w显示root用户2分钟前才登录，说明问题发生在这之前。再结合last -n 20看最近登录记录，如果发现reboot时间戳在12天前，基本可排除内核panic。反之，如果uptime显示up 5 minutes，那一定是刚重启过，此时dmesg -T | head -20里的Kernel panic或Oops就是铁证。

注意：uptime的load average值在此刻意义不大。高负载可能是崩溃原因，也可能是崩溃结果（如OOM Killer杀进程后残留的僵尸进程占满PID表）。先记下，后面再分析。

3.2 立即运行`df -hT && mount | grep -v "type tmpfs"`，揪出磁盘空间陷阱

90%的“神秘崩溃”背后，都藏着一个填满的/var/log、/tmp或/var/lib/docker/overlay2。df -hT显示各分区使用率和文件系统类型，mount过滤掉tmpfs（内存文件系统）后，重点看哪些挂载点是真实磁盘。典型陷阱：

/var/log/journal占满100%：systemd-journald默认不限制日志大小，一台跑半年的服务器，journal可能膨胀到20GB。journalctl --disk-usage可查，journalctl --vacuum-size=500M可清理
/var/lib/docker/overlay2爆满：Docker容器日志（/var/lib/docker/containers/*/logs/*.log）或构建缓存未清理。docker system df -v比df更准
/home或/data被用户程序写爆：比如Python脚本无限追加日志到/home/app/logs/app.log，而logrotate配置错误没生效

我处理过一个案例：客户说“MySQL突然连不上”，systemctl status mysqld显示active (running)，但mysql -u root -p报错Can't connect to local MySQL server through socket '/var/run/mysqld/mysqld.sock'。df -hT发现/var分区100%，ls -lh /var/run/mysqld/为空——因为socket文件是内存映射，分区满导致tmpfs无法创建新inode。rm -f /var/log/mysql/*.log腾出2GB后，MySQL立刻恢复正常。

3.3 快速执行`free -h && swapon -s`，识别内存危机的真假面孔

free -h看内存使用，swapon -s看交换分区状态。但关键不是看数字，而是看模式：

free输出特征	可能含义	验证命令
`available`远小于`total`，`used`不高，`buff/cache`极高	内存被page cache霸占，但应用没压力	`echo 3 > /proc/sys/vm/drop_caches`后观察`available`是否回升
`available`极低（<100MB），`swap`使用率>80%	真实内存不足，OOM Killer随时触发	`dmesg -T
`available`正常，但`swap`完全不用	交换分区被禁用或未配置	`cat /proc/sys/vm/swappiness`（应为1-10，0表示禁用）

去年一个Java应用频繁GC停顿，free -h显示available: 1.2G，看似充裕。但cat /proc/meminfo | grep -E "Active|Inactive|SwapCached"发现Active(file)高达15GB，说明JVM堆外内存（DirectByteBuffer）和大量文件缓存竞争内存。echo 1 > /proc/sys/vm/zone_reclaim_mode强制内核优先回收本地node内存后，GC时间下降70%。

3.4 火速运行`systemctl list-units --state=failed`，扫描systemd层面的显性故障

systemctl list-units --state=failed列出所有systemd标记为failed的服务单元。注意：它只显示systemd明确知道失败的单元，不包括那些“活着但不干活”的进程（如nginx worker进程卡死在epoll_wait）。但它是最快暴露配置错误的途径。常见failed类型：

start-limit-hit：服务启动失败次数超限（默认5次/10秒），systemd放弃重试。systemctl reset-failed nginx可重置计数器，再systemctl start nginx看真实报错
dependency：依赖的服务没起来。如mysqld.servicefailed becausenetwork.targetnot reached，说明网络没通就启动数据库
timeout：服务启动超时（默认90秒）。systemctl show mysqld.service | grep TimeoutStartUSec可查实际超时值

有一次客户反馈“GitLab页面502”，systemctl list-units --state=failed显示gitlab-runsvdir.servicefailed。journalctl -u gitlab-runsvdir -n 50发现/opt/gitlab/embedded/bin/runsvdir: fatal: unable to start ./gitlab-workhorse: exec: "/opt/gitlab/embedded/bin/gitlab-workhorse": stat /opt/gitlab/embedded/bin/gitlab-workhorse: no such file or directory——原来是GitLab升级后，workhorse二进制文件路径变更，但旧的runsvdir配置没更新。gitlab-ctl reconfigure一键修复。

这四步操作加起来不超过90秒，但它构建了你对系统健康度的“第一印象”。记住：不要在df显示/var100%时去查nginx日志，也不要free显示available仅50MB时还去优化SQL查询。顺序错了，所有努力都是徒劳。

4. 根因定位：从“哪个服务挂了”到“为什么挂”的深度归因链

当基础健康度检查（磁盘、内存、systemd状态）都OK，但业务依然不可用时，就进入了真正的根因定位阶段。这里没有银弹，只有层层递进的归因链：从网络层→系统层→进程层→应用层→代码层。我把它拆解为四个必查环节，每个环节都配有一个“黄金命令”和一个“避坑经验”，确保你能像剥洋葱一样，直达核心。

4.1 网络层归因：用`ss -tulnp`替代`netstat`，看清端口真相

netstat已废弃多年，ss（socket statistics）是现代Linux的标准工具。ss -tulnp中：

-t：TCP连接
-u：UDP连接
-l：监听状态（LISTEN）
-n：不解析端口名（显示数字，避免DNS查询拖慢）
-p：显示占用进程（需root权限）

执行后，你会看到类似：

Netid State Recv-Q Send-Q Local Address:Port Peer Address:Port Process tcp LISTEN 0 128 *:80 *:* users:(("nginx",pid=1234,fd=6)) tcp LISTEN 0 128 *:3306 *:* users:(("mysqld",pid=5678,fd=22)) tcp LISTEN 0 128 127.0.0.1:6379 *:* users:(("redis-server",pid=9012,fd=6))

关键看三点：

端口是否在监听：如果业务端口（如80、443、8080）没出现在LISTEN列表，说明服务根本没起来，回到systemd检查
监听地址是否正确：*:80表示监听所有IP，127.0.0.1:6379表示只监听本地，外部无法访问。很多“Redis连不上”问题根源在此
进程PID是否真实存活：ps -p 1234确认nginx进程是否存在。曾遇到ss显示nginx在监听，但ps查无此进程——原因是ss缓存了旧的socket信息，kill -9 1234后ss才刷新

避坑经验：ss -tulnp在高并发服务器上可能卡住（因遍历所有socket）。此时用ss -tuln 'sport == :80'指定端口，秒出结果。

4.2 系统层归因：用`pidstat -r -u -d 1 5`捕捉瞬时资源争抢

top或htop是静态快照，而pidstat是动态采样。pidstat -r -u -d 1 5表示：

-r：报告内存使用（%MEM, kB_rd/s, kB_wr/s）
-u：报告CPU使用（%CPU, %usr, %sys）
-d：报告I/O（kB_rd/s, kB_wr/s, I/O等待%）
1 5：每1秒采样1次，共5次

执行后，你会看到类似：

03:45:01 UID PID %usr %system %guest %CPU CPU Command 03:45:02 0 1234 12.5 35.2 0.0 47.7 0 java 03:45:02 0 5678 0.0 0.0 0.0 0.0 0 mysqld 03:45:02 0 9012 0.0 0.0 0.0 0.0 0 redis-server 03:45:02 0 11223 0.0 99.0 0.0 99.0 1 dd

这里dd进程%system高达99%，说明它在疯狂调用内核IO函数，导致其他进程（如java）的%system也被拉高——因为CPU时间片被抢占。pidstat -d还能看到kB_wr/s飙升，指向磁盘写满。这比iostat更精准，因为它关联到了具体进程。

避坑经验：pidstat默认只显示活跃进程。如果怀疑是僵尸进程（Z状态）占满PID表，加-H参数：pidstat -H 1 5，它会显示所有进程，包括zombie。

4.3 进程层归因：用`strace -p <PID> -e trace=network,io`捕获进程行为

当pidstat发现某个进程CPU或IO异常，但top里看不出它在干什么时，strace就是手术刀。strace -p 1234 -e trace=network,io表示：

-p 1234：跟踪PID为1234的进程
-e trace=network,io：只跟踪网络和IO系统调用（避免海量read/write刷屏）

你会看到实时输出：

connect(3, {sa_family=AF_INET, sin_port=htons(6379), sin_addr=inet_addr("10.0.1.100")}, 16) = -1 EINPROGRESS (Operation now in progress) sendto(3, "*1\r\n$4\r\nPING\r\n", 14, MSG_NOSIGNAL, NULL, 0) = 14 recvfrom(3, 0x7fffe8a8b9e0, 8192, 0, NULL, NULL) = -1 EAGAIN (Resource temporarily unavailable)

这段日志清晰表明：Java进程（PID 1234）正在向10.0.1.100:6379发PING，但recvfrom返回EAGAIN，说明Redis服务端没响应。此时立刻telnet 10.0.1.100 6379，如果连不上，问题就出在Redis或网络；如果能连上，再straceRedis进程，看它是否在处理请求。

避坑经验：strace本身有性能开销，生产环境慎用。优先用perf trace -p <PID>（基于eBPF），它开销小得多，且支持更丰富的事件过滤。

4.4 应用层归因：用`jstack <PID> | grep "java.lang.Thread.State"`分析Java线程阻塞

对于Java应用，“崩溃”常表现为HTTP 503或响应超时，但ps显示进程活着。jstack是JDK自带的线程堆栈分析工具。jstack 1234 | grep "java.lang.Thread.State"会提取所有线程状态：

java.lang.Thread.State: RUNNABLE java.lang.Thread.State: WAITING (parking) java.lang.Thread.State: BLOCKED (on object monitor) java.lang.Thread.State: TIMED_WAITING (sleeping)

RUNNABLE：线程在CPU上运行或就绪，正常
WAITING：线程在等待其他线程通知（如Object.wait()），需查谁在notify()
BLOCKED：线程在等锁（synchronized），是死锁高发区！jstack 1234 | grep -A 20 "Found one Java-level deadlock"可直接定位
TIMED_WAITING：线程在sleep或wait指定时间，正常，但若大量线程卡在此状态，说明上游依赖（如DB、Redis）响应慢

我处理过一个支付系统超时问题，jstack显示200+线程处于BLOCKED (on object monitor)，锁对象是com.alipay.sdk.app.PayTask。grep -A 10 "com.alipay.sdk.app.PayTask" jstack.log发现所有线程都在等同一个PayTask实例的synchronized方法。根因是SDK设计缺陷：全局单例PayTask被多线程并发调用，而内部有长IO操作。解决方案是为每个支付请求创建独立PayTask实例。

这四层归因链，不是并列选项，而是严格串行：网络不通，查系统；系统资源足，查进程；进程行为异常，查应用。跳过任何一层，都可能把Redis连接超时误判为Java代码死循环，导致修复方向完全错误。

5. 恢复与加固：从“修好”到“不再犯”的闭环实践

定位到根因只是完成了50%的工作。真正的专业度，体现在如何安全恢复业务、防止同类问题复发、并把这次故障转化为团队能力。我见过太多团队：花3小时定位到是磁盘满了，rm -rf /var/log/nginx/*.log后业务恢复，然后关掉终端，继续写代码。结果一周后同一台服务器又因/var/log/journal爆满挂掉。这不是技术问题，是流程缺失。以下是我坚持执行的四个闭环动作，每个都附带可落地的脚本和配置。

5.1 安全恢复：用`logrotate`自动化清理，杜绝手动`rm -rf`

手动删除日志是定时炸弹。logrotate是Linux标准日志轮转工具，配置一次，永绝后患。以Nginx日志为例，创建/etc/logrotate.d/nginx：

/var/log/nginx/*.log { daily missingok rotate 30 compress delaycompress notifempty create 0644 www-data www-data sharedscripts postrotate if [ -f /var/run/nginx.pid ]; then kill -USR1 `cat /var/run/nginx.pid` fi endscript }

daily：每天轮转一次
rotate 30：保留30个压缩日志文件
compress：用gzip压缩旧日志
postrotate：轮转后发送USR1信号给Nginx，让它重新打开日志文件（避免kill -HUP重启）

关键经验：logrotate默认在/etc/cron.daily/logrotate里由cron执行，但很多服务器cron没开。务必执行systemctl enable cron && systemctl start cron，并用logrotate -d /etc/logrotate.conf（debug模式）测试配置语法。

5.2 防御加固：用`systemd`的`RestartSec`和`StartLimitIntervalSec`设置服务韧性

让服务在崩溃后自动恢复，比等你半夜爬起来强十倍。在/etc/systemd/system/mysqld.service的[Service]段添加：

Restart=on-failure RestartSec=10 StartLimitIntervalSec=600 StartLimitBurst=5

Restart=on-failure：仅在非0退出码、信号终止（如SIGSEGV）时重启
RestartSec=10：重启前等待10秒，避免雪崩
StartLimitIntervalSec=600+StartLimitBurst=5：10分钟内最多重启5次，超限则systemctl stop mysqld并标记failed，防止无限重启掩盖真问题

关键经验：Restart=always是毒药！它会让服务在配置错误（如my.cnf语法错）时无限重启，journalctl -u mysqld里全是Failed with result 'exit-code'，却看不到真实的错误行。on-failure才是生产环境唯一选择。

5.3 监控埋点：用`Prometheus + node_exporter`采集`node_filesystem_avail_bytes`，提前预警

磁盘满是最高频故障，但监控往往滞后。node_exporter的node_filesystem_avail_bytes指标，可精确到字节。在Prometheus里配置告警规则：

- alert: FilesystemFull expr: 100 * (1 - (node_filesystem_avail_bytes{mountpoint="/var"} / node_filesystem_size_bytes{mountpoint="/var"})) > 90 for: 5m labels: severity: warning annotations: summary: "Filesystem /var is over 90% full" description: "Available space on /var is only {{ $value | humanize }} bytes"

这条规则在/var使用率超90%且持续5分钟时触发告警。比传统“磁盘使用率>95%”提前5%预警，给你充足时间清理。node_filesystem_avail_bytes比df更准，因为它直接读取statfs()系统调用，不受df缓存影响。

5.4 知识沉淀：用`Markdown + Git`建立团队故障库，强制复盘

每次故障处理完，必须写一篇YYYYMMDD-HHMM-故障描述.md，存入团队Git仓库。模板如下：

## 故障时间 2024-05-20 02:15 - 02:47 (UTC+8) ## 影响范围 - 订单提交接口503，影响100%用户 - 支付回调延迟>30s ## 根因 - `df -hT`显示`/var`分区100% - `/var/log/journal/`目录占98%空间（18GB） - `journalctl --disk-usage`确认 ## 处理步骤 1. `journalctl --vacuum-size=500M` 清理journal 2. `systemctl restart systemd-journald` 重启日志服务 3. `systemctl edit systemd-journald` 修改`/etc/systemd/journald.conf`：

SystemMaxUse=500M RuntimeMaxUse=200M

## 预防措施 - [x] 已部署logrotate for nginx - [ ] 待办：为所有服务器部署Prometheus磁盘告警（负责人：张三，截止：2024-05-25）

关键经验：复盘文档不是写给领导看的，是写给三个月后的自己看的。我团队规定：任何故障，必须在解决后2小时内提交PR，否则当天绩效扣分。现在我们的故障平均解决时间从47分钟降到12分钟，因为新人查文档就能复现老手的操作。

服务器系统崩溃，从来不是技术问题，而是认知问题、流程问题、习惯问题。当你能把“连不上”变成“查得清”，把“修好”变成“防住”，把“这次故障”变成“团队知识”，你就已经超越了90%的同行。最后分享一个小技巧：在每台服务器的/root/.bashrc里加一行alias crisis='uptime && df -hT && free -h && ss -tulnp'，下次再遇到“崩溃”，敲crisis，3秒内掌握全局——这才是资深运维的肌肉记忆。

查看全文

http://www.jsqmd.com/news/866903/