AI能监控AI吗?New Relic首席战略官:新难题是模型会“胡说”
“我们收集的数据太多了,多到你甚至不知道该问什么。”
New Relic首席技术战略官Nic Benders日前在一档播客中对老搭档Lee Atchison抛出的这句话,撕开了一个许多人不敢承认的现实:那面人人都引以为傲的仪表盘大屏,正在变成一堵只会刷数据的墙。
Benders在New Relic干了十几年,几乎亲历了整个现代软件运维的爬升。他梳理出的三阶段演进——插桩时代、数据平台时代、智能时代,每一步都踩在运维人的痛点上。最早,团队拼命给Ruby、Java、.NET、Python做代码插桩,以为看得越多越安全。等到数据量大到处理不过来,New Relic在2013至2014年紧急推出NRDB数据库,让工程师可以“先收数据后提问”,比如突然追问:慢查询从哪儿来的?如果把测试环境排除再看呢?再按国家拆分会怎样?这种交互式分析一度让运维人掌握了解释系统行为的主动权。
十年后,局面又翻了个个儿。数据体量涨到告警列表一拉不到底,人反而变得被动。Benders描述了一个反直觉的场景:一家电商团队为了安全,把alert条目从40条加到了120条,结果平均响应时间没有缩短,反而拉长。工程师被训练出一种危险反应——“先等等,看它会不会自己恢复”。噪音越大,人越迟钝,这几乎推翻了“告警越多越安全”的常识。Benders扔下一句重话:可观测性系统的终极source of truth根本不是仪表盘上的CPU、内存、错误率,而是业务本身到底还跑不跑得动。电商要盯成交,社交产品盯互动,没有哪个团队写软件是为了练运维。
而当可观测性本身引入AI大模型之后,新的麻烦来了。LLM能帮着从噪音里抓信号,但那个信号本身可能就在“胡说”。Benders直言,传统监控找的是系统崩溃,模型出问题却往往是不声不响地开始编造——转账金额改一改,客服话术夹带私货,这些故障既不会触发404也不会把CPU拉到100%。要揪出这种“安静型故障”,LLM必须和统计方法咬合在一起工作,而不是靠人拍脑袋设阈值。
连团队分工也在被AI撕开。Benders不认为技术进步会让人变闲,“历史上没有哪次技术进步让人类真的减少工作量,AI让每个人有能力产出更多,结果就是更多产出,而不是更少工作。”所以可观测性这件事,他直接给它换了个名字:understandability。没人想盯着屏幕看,所有人要的都是瞬间理解。
当模型开始静悄悄地“胡说”而系统资源一切正常,运维的仪表盘还能抓出这种故障吗?
