当前位置：首页 > news >正文

保姆级教程：用夜莺V6的告警自愈功能，5分钟搞定服务器磁盘告警自动清理

news 2026/6/14 0:14:12

5分钟实现服务器磁盘告警自动清理：夜莺V6告警自愈实战指南

凌晨三点，刺耳的告警铃声又一次把你从睡梦中惊醒——某台核心服务器的磁盘使用率超过90%。这种场景对运维人员来说再熟悉不过。但今天，我们将彻底告别这种被动响应模式。夜莺监控系统V6的告警自愈功能，能让你在告警触发的同时自动执行清理脚本，真正实现"告警即修复"的运维自动化闭环。

1. 环境准备与基础配置

在开始自动化之旅前，需要确保夜莺V6的核心组件正常运行。不同于简单的监控告警，自愈功能需要以下基础环境：

夜莺服务端：v6.0及以上版本，已正确配置数据采集和告警规则引擎
被监控主机：安装并运行Categraf采集器，版本不低于v3.8.0
网络互通：确保夜莺服务端能通过SSH访问目标服务器（建议使用密钥认证）
权限准备：自愈脚本执行账户需具有目标服务器的磁盘清理权限（如/tmp、/var/log等目录的写权限）

验证环境是否就绪的快速方法是在目标服务器上执行：

# 检查磁盘空间 df -h | grep -v tmpfs # 检查常用可清理目录权限 ls -ld /var/log /tmp

提示：生产环境建议为自愈功能创建专用系统账户，并通过sudo精细控制权限范围

2. 编写智能清理Shell脚本

一个健壮的磁盘清理脚本需要兼顾安全性和有效性。以下脚本模板经过数十次线上环境验证，包含多项安全设计：

#!/bin/bash # 磁盘自动清理脚本 v1.2 # 安全参数：设置最大可删除文件时间和保留空间阈值 MAX_DAYS=30 MIN_FREE_GB=10 LOG_DIR="/var/log/disk_clean" mkdir -p $LOG_DIR LOG_FILE="$LOG_DIR/clean_$(date +%Y%m%d).log" { echo "==== 清理开始于 $(date) ====" # 安全校验：确认当前是根分区告警 MOUNT_POINT=$(df -h | awk '/\/$/ {print $NF}') [ -z "$MOUNT_POINT" ] && { echo "错误：未找到根分区"; exit 1; } # 核心清理逻辑 echo ">>> 清理旧日志文件（超过${MAX_DAYS}天）" find /var/log -type f -mtime +$MAX_DAYS -delete echo ">>> 清理临时文件" rm -rf /tmp/* /var/tmp/* echo ">>> 清理Docker无用数据" docker system prune -f --filter "until=168h" # 二次验证：确保达到预期清理效果 FREE_GB=$(df -BG $MOUNT_POINT | awk 'NR==2 {print $4}' | tr -d 'G') [ $FREE_GB -lt $MIN_FREE_GB ] && { echo "警告：清理后空间仍不足${MIN_FREE_GB}GB，请人工介入" exit 2 } echo "==== 清理完成，当前可用空间 ${FREE_GB}GB ====" } | tee -a $LOG_FILE

脚本关键设计要点：

设计维度	实现方案	安全考量
日志记录	所有操作记录到/var/log/disk_clean	便于事后审计和问题排查
防误删	设置MAX_DAYS和MIN_FREE_GB参数	避免删除近期重要文件
多阶段清理	分步骤清理日志、临时文件、Docker	渐进式释放空间更安全
结果验证	清理后检查实际可用空间	防止脚本执行但未解决问题

将脚本保存为/opt/scripts/disk_cleaner.sh，并赋予执行权限：

chmod +x /opt/scripts/disk_cleaner.sh

3. 夜莺V6自愈功能配置

夜莺的自愈引擎通过ibex模块实现，配置过程分为三个关键步骤：

3.1 创建自愈脚本

登录夜莺Web控制台，导航至「告警自愈」模块

点击「新建脚本」，填写以下核心参数：

脚本名称：Disk_Cleaner_Prod
执行账户：选择具有目标服务器SSH权限的账户
超时时间：建议300秒（复杂环境可延长）

脚本内容：

#!/bin/bash # 夜莺会自动替换这些变量 TARGET_IP="$1" ALERT_MESSAGE="$2" # 通过SSH执行远程清理 ssh -i /etc/n9e/keys/cleaner.key cleaner@$TARGET_IP \ "sudo /opt/scripts/disk_cleaner.sh" # 返回执行结果 RETVAL=$? [ $RETVAL -eq 0 ] && echo "清理成功" || echo "清理失败(code:$RETVAL)" exit $RETVAL

高级设置建议：
- 标签：添加service=disk便于后续管理
- 执行方式：选择「单机执行」（集群环境可选「批量执行」）
- 重试策略：失败后延迟60秒重试1次

3.2 配置磁盘告警规则

在「告警规则」界面创建或修改现有磁盘告警：

规则配置：

规则名称：Disk_Usage_Critical 数据源：VictoriaMetrics PromQL：100 - (node_filesystem_avail_bytes{mountpoint="/",fstype!="tmpfs"} * 100 / node_filesystem_size_bytes{mountpoint="/",fstype!="tmpfs"}) > 90 持续时长：5m 告警级别：P1（最高级）

回调地址设置：
```
${ibex}/[你的脚本ID]
```
其中[你的脚本ID]可在脚本列表页面查看。系统会自动将告警目标的IP和告警内容作为参数传递给脚本。

3.3 测试与验证

通过夜莺的「即时执行」功能模拟告警触发：

在目标服务器上手动创建大文件：

dd if=/dev/zero of=/var/log/test_large_file bs=1G count=5

在夜莺控制台观察：
- 告警触发后5分钟内应出现在「活跃告警」列表
- 同时「任务执行」页面会出现对应的自愈任务记录

验证结果：

# 在目标服务器检查 df -h / # 查看清理日志 tail -f /var/log/disk_clean/clean_*.log

4. 高级优化与避坑指南

4.1 性能优化方案

当监控数百台服务器时，原始方案可能遇到性能瓶颈。以下是经过验证的优化策略：

批量执行模式：

#!/bin/bash # 批量执行版清理脚本 TARGETS=$(echo "$2" | jq -r '.targets[]') for IP in $TARGETS; do ssh -i /path/to/key user@$IP "sudo /opt/scripts/disk_cleaner.sh" & done wait echo "批量任务提交完成"

关键参数调优：

# 夜莺服务端配置建议(config.toml) [Ibex] WorkerCount = 10 # 并发工作线程数 Timeout = 600 # 任务超时时间(秒) MaxRetry = 2 # 失败重试次数

4.2 常见故障排查

故障现象	可能原因	解决方案
脚本执行超时	网络延迟或IO瓶颈	增大Timeout参数，优化脚本逻辑
权限被拒绝	SSH密钥配置错误	检查~/.ssh/authorized_keys文件权限
清理后空间未增加	脚本未命中大文件	添加find / -xdev -size +100M查找大文件
误删重要文件	脚本过滤条件不足	添加exclude参数保护关键目录

4.3 监控闭环设计

完善的自愈系统需要监控自身运行状态：

自愈成功率监控：

# PromQL示例 sum(rate(ibex_task_status_total{status="success"}[1h])) by (script_name) / sum(rate(ibex_task_status_total[1h])) by (script_name)

添加备用通知渠道：
- 当自愈失败时，通过企业微信/钉钉通知值班人员
- 配置二级告警规则，检测连续自愈失败事件
定期演练机制：
- 每月在测试环境模拟磁盘爆满场景
- 验证从告警触发到空间恢复的全流程时效性

5. 扩展应用场景

告警自愈的价值不仅限于磁盘清理，还可应用于以下场景：

服务进程自动重启：

#!/bin/bash # Nginx进程自愈 if ! systemctl is-active --quiet nginx; then systemctl restart nginx sleep 5 systemctl status nginx fi

数据库连接池修复：

# MySQL连接池修复脚本 import pymysql from prometheus_client import push_to_gateway def check_db(): try: conn = pymysql.connect(host='DB_HOST', user='monitor') conn.close() return True except: return False if not check_db(): os.system('systemctl restart mysql') push_to_gateway('localhost:9091', job='db_recovery', registry=registry)

存储空间预测式扩容：

#!/bin/bash # 基于趋势预测的扩容脚本 CURRENT_USAGE=$(df -h /data | awk 'NR==2 {print $5}' | tr -d '%') GROWTH_RATE=$(get_daily_growth_rate) # 自定义获取日增长率的函数 if [ $(($CURRENT_USAGE + $GROWTH_RATE*3)) -gt 90 ]; then aws ec2 modify-volume --size $(($CURRENT_SIZE + 50)) --volume-id vol-xxxx fi

在实际生产环境中，我们团队通过组合这些自愈策略，将P1级故障的人工干预率降低了78%。特别是在分布式存储集群中，当某个节点磁盘使用率达到阈值时，系统会自动将部分数据迁移到其他节点，同时扩展云磁盘容量，整个过程无需人工参与。

查看全文

http://www.jsqmd.com/news/1008418/