当前位置: 首页 > news >正文

系统监控异常告警2.0版本之nacos服务监控

背景:

昨天写了一篇关于系统监控异常告警2.0版本,他是基于你的SpringBoot项目开启了CG相关的配置。但是,有两种情况还需要考虑。

  1. 那我没有开启相关配置怎么办?
  2. 虽开启了配置,服务没有触发GC,但nacos的健康实例数少了,总实例数也少了,怎么办?
  3. 如果我想通过nacos服务,每次都登录上去看吗,这不扯嘛。。

思路:

  1. 既然登录nacos能看,那我能调用它的api吧。

2. 能调用api,那返回json结果就有我需要的信息。

3. 那就解析json报文,获取我们想要的信息。

4. 设置告警阈值(服务数少的,总实例数,监控实例数不一致的)。

5. 日志记录必不可少,邮件通知必不可少。

开干:

1、前置工作

为什么不使用java写?可以但不推荐,为了监控nacos,我再安装个JDK,配置下,定制服务修改了,改源码,打包编译上传,浪费时间。

有侵入吗?Linux脚本,无侵入,仅修改nacos配置,任意服务器均可用(网络得通啊)。

安全吗?对,这点很重要,毕竟有敏感信息啊,脚本调试可用后,可通过

shc -v -r -f ss.sh进行加密处理,如果没用过,没事看我的啊,shc源码安装

2、安装jq

服务器需要安装jq工具来解析 JSON,这是常用的工具,如果安装过,可忽略。

安装命令 (CentOS/RHEL): sudo yum install jq 安装命令 (Ubuntu/Debian): sudo apt-get install jq 安装命令 (Mac): brew install jq

3、编写脚本

checkout_nacos_health.sh

#!/bin/bash # ================= 配置区域 ================= # Nacos 地址 NACOS_HOST="10.71.180.155" NACOS_PORT="8520" # 登录 Nacos 的账号密码(?本次不用,直接用ACCESS_TOKEN) NACOS_USER="nacos" NACOS_PASSWORD="********" # 要监控的命名空间 ID NAMESPACE_ID="prd" # 日志文件配置 LOG_DIR="/home/mdm/logs" # 日志存放目录 LOG_FILE="${LOG_DIR}/nacos_check.log" # 日志文件路径 # 邮件配置(多人空格分开) RECIPIENTS="*****@qq.com" SENDER_NAME="Nacos监控机器人" # ================= 脚本逻辑 ================= # 0. 初始化日志目录 if [ ! -d "$LOG_DIR" ]; then mkdir -p "$LOG_DIR" fi # 定义一个日志输出函数,同时输出到屏幕和日志文件 # 使用追加模式 >> 写入日志 function log() { local msg="[$(date '+%Y-%m-%d %H:%M:%S')] $1" echo "$msg" echo "$msg" >> "$LOG_FILE" } log "==========================================" log "开始 Nacos 服务健康检查" log "命名空间: ${NAMESPACE_ID}" log "==========================================" # 1. 获取 Access Token log "[1/3] 正在获取 Access Token..." #TOKEN_RESP=$(curl -s -X POST "http://${NACOS_HOST}:${NACOS_PORT}/nacos/v1/auth/login" -d "username=${NACOS_USER}&password=${NACOS_PASSWORD}") #ACCESS_TOKEN=$(echo $TOKEN_RESP | jq -r '.accessToken') ACCESS_TOKEN="eyJhbGciOiJIUzM4NCJ9.eyJzdWIiOiJuYWNvcyIsImV4cCI6MTc2ODU0MTc0N30.RFO80FEn0GoSSf5b_7URzqa2mWGHl5qToslviSSmCZeFMAJFIsZWJjTm1-Rn57Q8" if [ "$ACCESS_TOKEN" == "null" ] || [ -z "$ACCESS_TOKEN" ]; then log "错误: 无法获取 Access Token。响应: $TOKEN_RESP" exit 1 fi log "Token 获取成功: ${ACCESS_TOKEN:0:10}..." # 2. 循环获取所有服务列表 log "[2/3] 正在获取服务列表并分析..." PAGE_NO=1 PAGE_SIZE=100 UNHEALTHY_SERVICES="" HAS_ERROR=0 while true; do API_URL="http://${NACOS_HOST}:${NACOS_PORT}/nacos/v1/ns/catalog/services?accessToken=${ACCESS_TOKEN}&hasIpCount=true&withInstances=false&pageNo=${PAGE_NO}&pageSize=${PAGE_SIZE}&serviceNameParam=&groupNameParam=&namespaceId=${NAMESPACE_ID}" JSON_RESP=$(curl -s -X GET "$API_URL") SERVICE_LIST=$(echo "$JSON_RESP" | jq -c '.serviceList[]') # 如果当前页没有数据,跳出循环 if [ -z "$SERVICE_LIST" ]; then break fi # 遍历当前页服务 while IFS= read -r service; do NAME=$(echo "$service" | jq -r '.name') GROUP=$(echo "$service" | jq -r '.groupName') IP_COUNT=$(echo "$service" | jq -r '.ipCount') HEALTHY_COUNT=$(echo "$service" | jq -r '.healthyInstanceCount') IP_COUNT=${IP_COUNT:-0} HEALTHY_COUNT=${HEALTHY_COUNT:-0} # 判断逻辑 # 提取字段 NAME=$(echo "$service" | jq -r '.name') GROUP=$(echo "$service" | jq -r '.groupName') IP_COUNT=$(echo "$service" | jq -r '.ipCount') HEALTHY_COUNT=$(echo "$service" | jq -r '.healthyInstanceCount') IP_COUNT=${IP_COUNT:-0} HEALTHY_COUNT=${HEALTHY_COUNT:-0} # 初始化异常原因变量 ERROR_REASON="" # 1. 状态一致性检查:只要健康数 < 总数,肯定有问题 if [ "$HEALTHY_COUNT" -lt "$IP_COUNT" ]; then ERROR_REASON="存在宕机/不健康实例 (总数:${IP_COUNT} > 健康:${HEALTHY_COUNT})" fi # 2. 通用数量阈值检查:除了 sw-tenant,健康数不能少于 6 # 注意:这里加了 [ "$NAME" != "sw-tenant" ] 避免重复判定 if [ "$NAME" != "sunway-tenant" ] && [ "$HEALTHY_COUNT" -lt 6 ]; then ERROR_REASON="${ERROR_REASON} 健康实例数过少 (< 6)" fi # 3. 特定服务检查:如果是 sw-tenant,健康数不能少于 2 if [ "$NAME" == "sw-tenant" ] && [ "$HEALTHY_COUNT" -lt 2 ]; then ERROR_REASON="${ERROR_REASON} sw-tenant 健康数过低 (< 2)" fi # --- 判断是否需要告警 --- # 如果 ERROR_REASON 不为空,说明触发了上述任意条件 if [ -n "$ERROR_REASON" ]; then ERR_MSG="[异常] 服务: ${GROUP} :: ${NAME} | 总实例: ${IP_COUNT} | 健康实例: ${HEALTHY_COUNT} | 原因: ${ERROR_REASON}" log "$ERR_MSG" # 构造邮件内容 (修正了原脚本中可能存在的特殊字符 > 问题) UNHEALTHY_SERVICES="${UNHEALTHY_SERVICES}服务组: ${GROUP}\n服务名: ${NAME}\n总实例数: ${IP_COUNT}\n健康实例数: ${HEALTHY_COUNT}\n异常原因: ${ERROR_REASON}\n----------------------------------------\n" HAS_ERROR=1 fi done <<< "$SERVICE_LIST" # 判断翻页 COUNT=$(echo "$JSON_RESP" | jq '.count') if [ $((PAGE_NO * PAGE_SIZE)) -ge $COUNT ]; then break fi PAGE_NO=$((PAGE_NO + 1)) done # 3. 发送邮件与结束 log "[3/3] 检查完成。" if [ $HAS_ERROR -eq 1 ]; then log "发现异常服务,正在发送告警邮件..." SUBJECT="[Nacos 告警] 命名空间 ${NAMESPACE_ID} 中检测到服务实例异常" CONTENT="检测时间: $(date '+%Y-%m-%d %H:%M:%S')\n\n以下服务存在不健康实例,请及时处理:\n\n${UNHEALTHY_SERVICES}\n详情请登录 Nacos 控制台查看。" # 发送邮件 (这里假设系统 mail 命令可用) #echo -e "$CONTENT" | mail -s "$SUBJECT" -a "From: ${SENDER_NAME}" "$RECIPIENTS" echo -e "$CONTENT" | from="${SENDER_NAME}" mail -s "$SUBJECT" "$RECIPIENTS" if [ $? -eq 0 ]; then log "邮件发送成功。" else log "邮件发送失败。" fi else log "所有服务状态正常,无需发送邮件。" fi log "=========================================="

注意:这块需要根据服务进行调整

3、设置定时任务,略

4、查看执行结果

5、查看邮件告警

其他:

该脚本的可塑性较高,灵活配置,根据实际需要进行改造即可。

也可结合系统监控异常告警2.0版本,进行改造优化,实现整体监控,这里就不多说了,大家自己整吧。

http://www.jsqmd.com/news/253905/

相关文章:

  • Python全栈项目--智能客服机器人的设计与实现
  • 导师推荐!专科生必备8款AI论文网站测评
  • ACPI!ACPIBuildProcessRunMethodPhaseRunMethod函数对_SB总线_INT方法的调用
  • 大模型增强之道:RAG技术详解与应用实践
  • ACPI!ACPIBuildProcessRunMethodPhaseCheckSta函数对_SB总线的状态的确定
  • 无人机螺距设计要点与技术解析
  • 表驱动法:告别 if-else(案例:查月份天数、成绩分级)
  • 小程序 django基于django的助农商城销售系统
  • 【iManus】勾股定理的多种经典证明方法
  • 小程序 基于django的大学生支教管理系统设计与实现
  • 探索 5KW 混合储能系统:从架构到功率板的技术之旅
  • 【毕业设计】基于SpringBoot+Vue的中青年人员招聘平台(源码+文档+远程调试,全bao定制等)
  • CANopen 转 Modbus TCP 工业数据采集网关:PLC 与工控机实时数据同步方案
  • 视频融合平台EasyCVR构建智慧林业一体化监测防护体系
  • 从CC-Link IE FB转ProfiNet:一条网关线串起德系日系变频“朋友圈”
  • 视频汇聚平台EasyCVR如何运用全域轨迹跟踪技术构建主动式安防新体系?
  • 【课程设计/毕业设计】基于SpringBoot+Vue的中青年人员招聘平台SpringBoot+Vue的人才招聘平台系统【附源码、数据库、万字文档】
  • Django模板变量操作全指南
  • 伺服电机控制:从 PLC 程序案例看门道
  • 酒店管理系统java和mysql,零基础入门到精通,收藏这篇就够了
  • LLM解析电子鼻数据呼吸预警提速
  • Lua 的 String(字符串) 模块
  • 为什么美国男足在国际比赛事表这么差劲,而是美国女足却好得多
  • 【收藏必备】提示词工程完全指南:谷歌白皮书解读与大模型应用技巧
  • 41岁,失业的第七周。降薪50%,明天终于入职了。
  • Playwright性能优化:减少测试执行时间的10个技巧
  • 草莓病害图像数据集(YOLO使用,train为655张照片和val为487张照片)
  • Java【四则运算计算器】_java四则运算计算器,零基础入门到精通,收藏这篇就够了
  • 基于VUE的轻琢线条塑形管理系统[VUE]-计算机毕业设计源码+LW文档
  • 电子手轮控制步进电机程序探索