当前位置：首页 > news >正文

服务器上频繁出现soft lockup告警？别慌，这可能是stop_machine在内存压力下的‘正常’表现

news 2026/4/24 12:33:31

服务器频繁出现soft lockup告警的深度诊断与实战解决方案

现象诊断：当soft lockup遇上内存压力

凌晨三点，监控系统突然告警大作——某台关键业务服务器连续抛出soft lockup警告，同时伴随着oom-killer的进程终止记录。这种组合式告警往往会让运维人员瞬间清醒，因为这意味着系统同时面临CPU调度异常和内存资源枯竭的双重危机。

典型的告警日志呈现以下特征模式：

May 8 11:46:12 node-2 kernel: watchdog: BUG: soft lockup - CPU#116 stuck for 22s! [migration/116:733] May 8 11:46:13 node-2 kernel: Memory cgroup out of memory: Killed process 59194 (prometheus)

关键诊断线索的交叉验证：

时间关联性：soft lockup与oom-killer日志时间戳紧密相邻（通常在1秒内）
进程特征：soft lockup总涉及migration/内核线程，而oom-killer主要针对内存密集型应用（如MySQL、Prometheus）
资源上下文：memory.usage_in_bytes显示cgroup内存使用量接近或超过memory.limit_in_bytes

实战经验：当看到migration线程相关的soft lockup与oom-killer同时出现，80%的情况都与stop_machine机制在内存压力下的异常表现有关。这时需要立即检查两个关键指标：cgroup内存使用率和CPU调度延迟。

机制解析：stop_machine的"死亡拥抱"

Linux内核的stop_machine机制就像系统级的"急刹车"，它会暂停所有CPU的执行流来完成关键操作（如CPU热插拔、内核补丁等）。但在内存压力下，这个设计精妙的机制可能变成导致系统僵局的罪魁祸首。

stop_machine状态机的危险阶段：

状态	行为	风险窗口
MULTI_STOP_PREPARE	等待所有CPU进入停机状态	可能长时间阻塞
MULTI_STOP_DISABLE_IRQ	关闭中断	无法响应watchdog
MULTI_STOP_RUN	执行回调函数	函数执行时间过长

当内存不足触发oom-killer时，其执行路径会：

获取RCU读锁遍历进程树
进行内存统计和进程选择
可能需要调用stop_machine

此时若另一个CPU正在执行stop_machine，就会形成典型的死锁态势：

oom-killer等待stop_machine完成
stop_machine等待所有CPU停机（包括运行oom-killer的CPU）

# 使用crash工具分析锁争用情况 crash> bt -c 116 PID: 733 TASK: ffff88003d5d8000 CPU: 116 COMMAND: "migration/116" #0 [ffff88003d5d7c60] __schedule at ffffffff8164a7ed #1 [ffff88003d5d7d08] schedule at ffffffff8164acad #2 [ffff88003d5d7d18] rcu_momentary_dyntick_idle at ffffffff810e5b40

应急处理：三阶缓解策略

第一阶段：快速止血方案

临时调整watchdog阈值（立即生效但需谨慎）：

# 将softlockup阈值从默认20秒提升到60秒 echo 60 > /proc/sys/kernel/watchdog_thresh # 同时调整panic阈值（按需配置） echo 120 > /proc/sys/kernel/panic_on_softlockup

缓解内存压力：

# 1. 快速定位问题cgroup grep "Memory cgroup out of memory" /var/log/messages | awk '{print $NF}' | sort | uniq -c # 2. 临时扩大内存限制（示例将kubepods限制从40G提升到45G） cgset -r memory.limit_in_bytes=45G /kubepods # 3. 手动触发内存回收 sync; echo 3 > /proc/sys/vm/drop_caches

第二阶段：稳定性加固措施

优化内核参数组合：

# 调整oom-killer策略 echo 1 > /proc/sys/vm/overcommit_memory echo 80 > /proc/sys/vm/overcommit_ratio # 优化内存回收积极性 echo 500 > /proc/sys/vm/vfs_cache_pressure echo 60 > /proc/sys/vm/swappiness

cgroup内存配置调优：

# 设置内存软限制和回收阈值 cgset -r memory.soft_limit_in_bytes=38G /kubepods cgset -r memory.swappiness=10 /kubepods # 启用早期oom通知 cgset -r memory.oom_control=1 /kubepods

第三阶段：根本解决方案

内核参数永久调整：

# /etc/sysctl.d/10-softlockup.conf kernel.watchdog_thresh = 30 kernel.softlockup_panic = 0 vm.overcommit_memory = 1 vm.overcommit_ratio = 80

应用层防护：

# Kubernetes Pod配置示例 apiVersion: v1 kind: Pod metadata: name: critical-app spec: containers: - name: app resources: limits: memory: "4Gi" requests: memory: "3Gi" lifecycle: preStop: exec: command: ["/bin/sh", "-c", "sync; sleep 5"]

深度防御：监控体系构建

多维度监控指标配置：

监控层级	关键指标	告警阈值	采集频率
内核	softlockup_count	>0/5min	10s
内存	cgroup_usage_ratio	>90%	30s
CPU	scheduler_latency	>100ms	10s
存储	io_delay	>200ms	30s

Prometheus监控规则示例：

groups: - name: softlockup-alert rules: - alert: KernelSoftLockup expr: increase(softlockup_count[1m]) > 0 for: 2m labels: severity: critical annotations: summary: "Soft lockup detected on {{ $labels.instance }}" description: "CPU {{ $labels.cpu }} stuck for over 20s"

长效治理：架构级优化建议

内存分级保障：

graph TD A[关键业务Pod] -->|最高优先级| B[Guaranteed QoS] C[普通业务Pod] -->|中等优先级| D[Burstable QoS] E[测试环境Pod] -->|最低优先级| F[BestEffort QoS]

内核补丁方案（需评估稳定性）：

- } else if (curstate > MULTI_STOP_PREPARE) { + } else if (curstate >= MULTI_STOP_PREPARE) { touch_nmi_watchdog();

混合部署策略优化：

# 基于AI的调度算法示例 def schedule_pod(pod): if pod.mem_usage > threshold: return nodes.filter(lambda n: n.mem_free > pod.mem_usage * 2) else: return default_scheduler(pod)

在云原生环境中，这类问题往往暴露出资源配置策略的缺陷。某金融客户在实施以下改进后，soft lockup发生率下降97%：