当前位置: 首页 > news >正文

用 AI 给运维告警降噪:从理想到现实

用 AI 给运维告警降噪:从理想到现实

标签:运维 / AIOps / 监控 / DevOps / 开源
分类:运维
摘要:AIOps 产品都在说"减少 90% 噪音",但真实情况如何?本文不讲营销话术,分享在开源项目 VigilOps 中用 DeepSeek LLM 做告警降噪的实际做法:什么有效(根因关联、日志解读)、什么没效(延迟、幻觉、成本),以及 4 层告警降噪方法论。


"AI 降噪"听起来很美

打开任何一个 AIOps 产品的官网,你都会看到类似的承诺:“AI 驱动的告警降噪,减少 90% 噪音”。这些数字看起来令人激动,但在真实运维环境中,事情远没那么简单。

这篇文章不讲营销话术。我们会分享在 VigilOps 中使用 AI(DeepSeek LLM)做告警降噪的实际做法、遇到的坑,以及什么有效、什么没效。

先搞清楚"噪音"是什么

运维告警中的噪音大致分几类:

重复告警。同一个问题在一分钟内触发了 10 条告警(比如 10 个 Pod 同时报内存高)。AlertManager 的分组功能可以处理大部分情况,但前提是告警的标签要设计得好。

自恢复告警。CPU 突然飙到 95%,一分钟后降回正常,触发了告警但恢复得太快来不及处理。这类告警对值班人员来说基本是噪音,但完全屏蔽又怕漏掉持续性问题。

关联告警。一个上游服务挂了,导致下游 5 个服务同时报错。本质上只有一个根因,但你收到了 6 条告警。

阈值不合理告警。磁盘使用率告警设在 80%,但你的服务器一直稳定在 78-82% 之间。这个告警每周都会触发几次,每次都不需要处理。

http://www.jsqmd.com/news/449432/

相关文章:

  • 【已解决】ubuntu22.04 TightVNCServer GNOME 灰屏黑叉
  • Claude Code 常用命令和小技巧
  • 【雷达原理 学习笔记】P75 天线波束扫描方法详细讲解至P76
  • 怎么让 AI 听懂你的话?——同一个 AI,为什么他用得比你好 10 倍
  • 2026.3.6~7 - 工作中的问题总结
  • 11.7k Star!这个命令行工具让我告别了Google搜索
  • VSCode 自动换行设置完全指南
  • 2026年值得关注的6大商旅平台供应商
  • windows电脑提交APPStore应用,windows提交ipa
  • 测绘程序设计-伪距单点定位
  • 聊聊2026年湖南特色湘西姑娘泡菜,它的性价比到底高不高 - 工业设备
  • nodejs基于vue的摄影器材商城论坛交流的设计与实现vue
  • 增量同步 B 到 A,仅补充 A 中「缺失的目录」和「缺失的文件」,完全保留 A 已有内容(不删除、不覆盖),包括「A 目录存在但内部文件缺失」的场景
  • 【面试专栏|JVM虚拟机】从Serial到ZGC,JVM垃圾收集器进化史
  • 2026年重庆地区就业保障靠谱的PLC编程培训,哪家专业? - 工业品牌热点
  • openclaw 使用kimi api key 报错401
  • 我要训练神经网络可以识别solidworks哪个面和哪个面之间会出现标注
  • C++021(阶段练习)
  • 盘点2026年绵阳两波护栏板制造厂排名,哪家售后更专业? - 工业品网
  • 【面试专栏|JVM虚拟机】3种核心垃圾收集算法对比:标记清除vs标记复制vs标记整理,适用场景一眼分清
  • 计算机网络(六)--运输层 | TCP 报文段结构
  • nodejs基于vue的少数民族特色产品商城推介系统设计与实现
  • 网站搬家:备份整站需要备份什么数据?
  • rotate函数
  • 帝国cms提示Cann’t connect to DB! 的原因EmpireCMS
  • 02计算机组成原理-流水线技术概述
  • 2026企业商旅选哪个?6款高性价比平台推荐
  • 将盾CDN:Web应用防火墙(WAF)深度解析
  • 计算机毕业设计java基于Java实习网站购物的制作 基于B/S架构的实习网站商品交易与商家管理平台设计与实现 面向多角色的实习购物商城与促销活动管理系统开发
  • 网站提示“Notice: Use of undefined constant”错误说明