当前位置：首页 > news >正文

AI能监控AI吗？New Relic首席战略官：新难题是模型会“胡说”

news 2026/7/1 5:29:42

“我们收集的数据太多了，多到你甚至不知道该问什么。”

New Relic首席技术战略官Nic Benders日前在一档播客中对老搭档Lee Atchison抛出的这句话，撕开了一个许多人不敢承认的现实：那面人人都引以为傲的仪表盘大屏，正在变成一堵只会刷数据的墙。

Benders在New Relic干了十几年，几乎亲历了整个现代软件运维的爬升。他梳理出的三阶段演进——插桩时代、数据平台时代、智能时代，每一步都踩在运维人的痛点上。最早，团队拼命给Ruby、Java、.NET、Python做代码插桩，以为看得越多越安全。等到数据量大到处理不过来，New Relic在2013至2014年紧急推出NRDB数据库，让工程师可以“先收数据后提问”，比如突然追问：慢查询从哪儿来的？如果把测试环境排除再看呢？再按国家拆分会怎样？这种交互式分析一度让运维人掌握了解释系统行为的主动权。

十年后，局面又翻了个个儿。数据体量涨到告警列表一拉不到底，人反而变得被动。Benders描述了一个反直觉的场景：一家电商团队为了安全，把alert条目从40条加到了120条，结果平均响应时间没有缩短，反而拉长。工程师被训练出一种危险反应——“先等等，看它会不会自己恢复”。噪音越大，人越迟钝，这几乎推翻了“告警越多越安全”的常识。Benders扔下一句重话：可观测性系统的终极source of truth根本不是仪表盘上的CPU、内存、错误率，而是业务本身到底还跑不跑得动。电商要盯成交，社交产品盯互动，没有哪个团队写软件是为了练运维。

而当可观测性本身引入AI大模型之后，新的麻烦来了。LLM能帮着从噪音里抓信号，但那个信号本身可能就在“胡说”。Benders直言，传统监控找的是系统崩溃，模型出问题却往往是不声不响地开始编造——转账金额改一改，客服话术夹带私货，这些故障既不会触发404也不会把CPU拉到100%。要揪出这种“安静型故障”，LLM必须和统计方法咬合在一起工作，而不是靠人拍脑袋设阈值。

连团队分工也在被AI撕开。Benders不认为技术进步会让人变闲，“历史上没有哪次技术进步让人类真的减少工作量，AI让每个人有能力产出更多，结果就是更多产出，而不是更少工作。”所以可观测性这件事，他直接给它换了个名字：understandability。没人想盯着屏幕看，所有人要的都是瞬间理解。

当模型开始静悄悄地“胡说”而系统资源一切正常，运维的仪表盘还能抓出这种故障吗？

查看全文

http://www.jsqmd.com/news/1100488/