当前位置: 首页 > news >正文

从告警到根因只需几秒:基于 AI 驱动的可观测性,使用 Elastic Agent Builder 和 Workflows

作者:来自 Elastic Aleksandar Panov

Elastic Agent Builder 和 Workflows 替代仪表盘排查:一个问题即可浮现根本原因,跨周关联指标,并计算业务影响;然后工作流提交工单。

Elastic Agent Builder 和 Workflows 将可观测性从 “仪表盘搜索” 转变为 agentic 故障排查。在一次对话中,agent 会编写并执行 ES|QL 查询,在 3 周时间窗口内关联出行量、交付时长以及争议率,并得出约 36,669 美元的未交付收入估算,而无需人工操作任何面板。本文将完整展示这一过程:从 FastFreight Co 的流量告警开始,到一个具备检查能力的运营 agent,再到自动创建 Jira 工单的工作流。

AI 之前的方式:仪表盘、阈值与手动关联

在 AI 出现之前,你通常会配置 Kibana Alerts 或 Watcher 这类阈值规则,例如当过去 10 分钟错误率超过 5% 时触发告警。当告警触发后,你需要打开相关仪表盘视图,手动关联日志、追踪与指标数据,并寻找问题根因。因此,首先引起注意的是告警本身 —— 某个阈值被触发并产生告警,在这个案例中是出行量的断崖式下降

有了合适的仪表盘,你可以发现确实出了问题,但如果你不够熟悉,这些仪表盘无法告诉你原因,也无法跨多个面板进行关联,更重要的是,无法计算业务影响。

识别 “为什么” 以及回答影响相关的问题需要很高的专业能力。例如,虽然前 3 个面板显示的是与同一供应商相关的问题,但最后一个面板是无关的,它显示的是另一个供应商的问题。

经验丰富的仪表盘操作员能够识别这种模式:

信号解读
出行量下降,时长上升,争议上升供应商的运营故障
所有指标正常,但成本飙升账单异常

对某些仪表盘和视图所代表含义的理解需要大量投入。理解你所处理问题的性质和原因需要时间。通常,这些知识要么存在于你的脑海中,要么最终记录在某个 wiki 中。主要缺点是系统可以检测并展示数据,但无法对底层数据行为进行推理。而 agent 可以做到。

Elastic Agent Builder:提问即答案

AI Agent 的本质,是将那些被写死在仪表盘和指标中的特定问题与组织中少数人掌握的经验知识,转化为可以被公司中任何人使用的灵活 agent,从而按需探索数据并即时生成洞察。

Agent Builder 是 Elastic 的 AI 对话式平台,用于通过自然语言与数据交互。接下来我们将基于前面提到的出行量下降告警,对供应商交易日志进行排查。

使用 Agent Builder 时,你可以使用内置模型,或通过 connectors 连接其他模型提供方,包括在你环境中运行的本地 LLM。在这个示例中,我们通过 connector 使用了 GPT-4o,但任何受支持的模型都可以使用。

选择好 LLM 之后,你可以进入 Agent Builder,直接让 agent 分析数据,并即时生成查询、表格和图表。

接下来我们看看,当你不再点击各个面板,而是直接提问时,会发生什么。

我们当前有一个活跃告警:FastFreight Co(vendor_id=1)在过去 24 小时内的出行量已下降到 100 以下。我们的基线大约是每天 229 次出行。你能确认 FastFreight 当前的每日出行量,并展示过去 3 周的变化情况吗?

一个问题就足够了。agent 拉取了数据,而表格已经确认出行量正在持续下降。

接下来我们需要找出退化从什么时候开始。agent 生成并执行 ES|QL 查询,来定位首次低于基线平均值的日期,从而确定下降的起点。

上面的截图展示了幕后发生的事情。agent 编写 ES|QL,执行查询,并发现性能退化大约从 3 月 1 日开始。从 3 月 11 日起,下降变得更加严重。

在此基础上,再追问一个问题就揭示了另外两个红色信号:平均交付时长从 12.6 分钟上升到 46 分钟,而争议率从 0.3% 上升到 20%。agent 在一次回答中就完成了跨指标关联。

再经过几轮迭代,就能从问题诊断推进到业务影响分析。

Agent 计算出如下汇总结果:

  • 预期出行量:3 月 1 日到 3 月 19 日,约 228 次/天 = 约 4,328 次

  • 实际出行量:1,884 次

  • 缺失出行量:约 2,444 次

  • 损失收入:缺失出行量 × 基线平均值(约 $15.00)

预计损失:约 $36,669 的未交付收入。

因此,业务影响可以通过一次请求生成。在 AI 出现之前,如果不借助外部工具,这是不可能完成的。

你可以将 agent 连接到你的私有数据,并获得基于 RAG 的回答。这使它能够使用你组织拥有的信息,返回更精确的答案,而不是通用的 LLM 响应。

从通用 agent 到专属分析师:具备领域记忆的自定义 agent

因此,可观测性已经从 “查看特定图表并知道去哪里找问题”,转变为 “描述要检查什么”,而 agent 会在数据中自动导航,并以自动生成的图表、曲线、表格和报告的形式将结果返回给你。你可以询问“是否有任何异常”,agent 会在你的索引中查找异常值。

不过,每一次与通用 agent 的对话都从零开始。你必须重新解释数据、阈值以及需要检查的内容。自定义能力也有限。你无法定义特定的提示或工具,也无法在 Kibana 之外使用你的 agent。Agent Builder 正是为了解决这个问题,它允许你创建基于领域的专用分析师(agent),供不同团队从各自视角使用。

下面是当你选择一个自定义 agent 并开始对话时的效果。

在使用 agents 方面,有多种可选方式,从使用内置 agents 和工具,到创建你自己的 agents 和工具。

你可以通过 MCP server 将它们连接到外部工具,或将其作为外部资源使用。自定义 agents 通过自定义指令构建(例如“你是高级车队运营分析师……”),并结合 ES|QL 参考,从而对准确性和安全性进行更细粒度的控制。

通过使用特定的 agent,你可以更快发现问题,深入关联数据,诊断故障,并更迅速地采取行动。

在我们的示例中,“OpsWatch” 是运营团队的 agent。它了解出行量、交付时长以及人员配置水平。但它不了解费用,也不了解 SLA。

在被询问进行运营评估后,它会基于真实数据给出结论与建议。用其他方法需要数小时完成的事情,在这里几秒钟就可以完成。

最后再说一点关于作用范围边界。当被问及成本问题时,它会拒绝回答,并将问题重定向到另一个自定义 agent,因为它理解该问题已经超出了自身边界,并建议转而询问另一个自定义构建的 agent —— CostGuard。这是 scoped agents 的设计特性。

闭环:从诊断到执行的 Elastic Workflows

我们在这里展示的内容,说明了可观测性正在走向的方向:从盯着仪表盘,转向直接提问。仪表盘仍然有价值,但调查将从 agent 开始。

过去只有少数人掌握的业务知识,现在可以写入 agent 的指令中,因此当新员工提出开放性问题时,agent 能准确知道应该运行哪些查询来回答问题,甚至可能挖掘出新的洞察。

在理解了 agents 如何诊断事件之后,下一个问题是:它们能否创建工单或通知团队?它们可以给出建议,但不会执行操作。从对话式 AI 到自动化响应之间的空白,由 Elastic Workflows 来填补。

Workflow 是一种基于规则触发的自动化机制,可以调用外部 API(如 Jira、Slack、Teams 等),或执行后续的 Elasticsearch 查询。例如,它可以创建一个包含详细信息的 Jira 工单,或向特定 Slack 频道(如 #ops-alerts)发送一条包含摘要的消息。

当告警触发时,Workflow 会启动并调用 Agent Builder 的 agent。该 agent 执行 ES|QL 查询,关联相关指标,并返回诊断结果。随后 Workflow 执行后续动作(创建 Jira 工单、发送 Slack 消息或两者同时执行),整个过程无需任何人工介入。

原文:Elastic Agent Builder agents overview | Elastic Docs

http://www.jsqmd.com/news/1044189/

相关文章:

  • 团队博文01注册团队博客地址
  • Windows热键冲突检测神器:Hotkey Detective深度技术解析 [特殊字符]️‍♂️
  • 2026年6月优秀的去内毛刺焊管/汽车用焊管厂家推荐恒丰祥钢管,窄公差尺寸统一提升零部件装配契合度 - 品牌鉴赏师
  • 苏州家长速看!2026 年专业戒网瘾学校 TOP10,叛逆、厌学、沉迷手机全解决! - 辛云教育资讯
  • 邵阳家长速藏!2026 年十大叛逆厌学戒网瘾学校权威榜单,帮孩子重回阳光青春! - 辛云教育资讯
  • 多卡并行推理实战,vLLM 张量并行配置与性能测试
  • 2026成都旧金首饰变现实操攻略,拆解磨损扣费、旧料折旧行业规则 - 奢侈品回收评测
  • Tomcat CVE-2017-12615漏洞原理与实战复现:从任意文件上传到RCE
  • 2026年6月优秀的古建瓦厂家推荐富美建筑陶瓷,适配套房景区商业街打造统一国风仿古屋面景观 - 品牌鉴赏师
  • 智能黑苹果配置革命:OpCore Simplify如何用AI思维重塑OpenCore体验
  • QuickLook Office预览插件完整指南:3秒快速查看Word、Excel、PPT文件
  • Windows下CMake交叉编译:破解“无法编译简单测试程序”的困局
  • AMD 显卡跑大模型,ROCm 7.x 加 vLLM 部署避坑指南
  • 转行学充电桩维修培训 高口碑正规培训机构选这家 - 湖南阳光技术
  • 2026寄快递怎么省钱?新手避坑必看攻略 - 快递物流资讯
  • 终极解决方案:如何一键修复Kindle电子书封面,让数字书架重焕光彩
  • 2026海口包包回收怎么估价?看懂行业规则,轻松规避变现套路! - 奢品小当家
  • AgentCore Web Search 实战:让你的 Agent 能联网搜索,还不把数据泄露出去
  • MC9S08JM60 GPIO与CPU核心实战:从寄存器配置到寻址模式优化
  • TestSigma终极指南:如何用AI驱动测试自动化平台提升软件质量
  • 没有购买票据,黄金还能正常回收吗?答案在这里 - 开心测评
  • 6大核心技术:基于ROS的KUKA机械臂智能搬运系统
  • WorkshopDL终极指南:无需Steam账号快速下载创意工坊模组的完整方案
  • MC9S12XE微控制器:16位架构下的高可靠性与XGATE协处理器实战
  • 【防水案例】青岛顶楼反复漏水,楼长修楼彻底根治施工全过程 - 青岛防水品牌推荐
  • 鸿蒙 ArkUI 可伸缩侧边导航栏布局技术详解 —— 基于 AnimatedContainer 的管理后台实践
  • 从理论到实践:深度解析崖山数据库YashanDB的HTAP架构与落地挑战
  • Tornado SSTI漏洞实战:从handler.settings泄露到RCE的攻防剖析
  • DLSS Swapper完全指南:解锁NVIDIA显卡性能潜能的终极工具
  • QuickAdd插件深度解析:构建Obsidian自动化工作流的技术架构与实战应用