当前位置: 首页 > news >正文

智能体泡沫:88%死于投产前

他让 AI 清理缓存。

结果它把整个硬盘都清空了。

2025 年 12 月,希腊摄影师 Tassos M. 正在使用 Google 的 Antigravity IDE 开发一个简单的图片分类应用。他让 agent 重启服务器。Agent 说需要先删除缓存。他说好。

结果它没有清理项目文件夹,而是把 D 盘上的所有东西都删了。永久删除。跳过了回收站。

当他问自己是否授权了这项操作时,agent 说没有。它检查了自己的日志,承认了错误,并建议他尝试使用恢复软件。

数月的工作。没了。

同年早些时候,一位使用 Replit AI agent 的企业主眼睁睁看着它删除了公司的生产数据库。

Agent 的回应是:“我慌了,没有思考。我在几秒钟内毁掉了你数月的工作。”

两家不同的公司。两个不同的 agent。它们都拥有所需的全部工具。但都不知道"不可逆"意味着什么。

这不是运气不好。这就是 2026 年 AI agent 规模化的真实面貌。

欢迎来到"已死"系列的第二部分。

1、AI agent 到底是什么?

如果你只是用 ChatGPT 来回答问题,那你还没见识过 agent。它们的工作方式不同。

ChatGPT 接收一条消息,思考,回复。一步完成。

AI agent 接收一个目标,然后自己规划步骤。

给它:“调研我们的三大竞争对手,然后给团队发一封总结邮件。”

把它想象成一个数字打工人,大脑是 LLM,工具是双手。

它不会等你一步步告诉它怎么做。它会自己搜索网页、判断哪些信息重要、撰写总结、打开你的邮件客户端并发送。全部自动完成。

目标:"帮我订一张下周二去伦敦、500 美元以下的机票" 步骤 1 → 搜索航班 API 步骤 2 → 比较选项 步骤 3 → 检查日程冲突 步骤 4 → 选择最佳方案 步骤 5 → 发起预订 步骤 6 → 确认付款 步骤 7 → 发送日历邀请

七个步骤。七次决策。七个让自信的 AI 悄悄出错的地方。

2、承诺曾是真实的

人工点击七个界面来处理一张工单,又慢又贵。Agent 在几秒钟内完成,规模化运行,每次只要 0.15 美元,这才是真正的商业价值。

斯坦福 honed 大学的 OSWorld 基准测试用真实的电脑任务来考验 agent。2025 年 3 月,最好的模型成功率是 12%。到 2026 年 3 月,这个数字达到了 66%。

真正的进步。演示没有骗人。

但演示是可控环境。干净的输入。配合的用户。精心挑选的场景,只展示 agent 的长处,把失败模式藏在幕后。

生产环境完全不是这样。

3、让一切崩塌的数字

让 agent 在结构上难以部署的原因,跟你选哪个模型无关。

AI agent 是非确定性的。

同一个 agent 执行同一个任务两次,它可能走完全不同的路径。这不是一个会被修复的 bug。这是大语言模型的工作方式。

相同的输入不能保证相同的输出。

传统软件会大声报错。函数失败会抛出异常。你能看到。你能修复。

Agent 会安静地失败。它完成任务,返回一个漂亮的结果,但从第二步开始就已经错了。没有错误。没有警报。只有一个自信的答案,建立在二十步之前一个错误决策的基础上。

现在来看数学。

每步成功率 95% 时,一个 10 步工作流的成功率是 60%。每步成功率 85% 时,成功率只有 20%。五分之四的运行会失败。

这个数字不会出现在融资演示文稿里。Temporal.io 2026 年的研究在真实的生产部署中证实了这一点。问题不是能力。是复合效应。

工作流越长,数学越残酷。

人人都能做演示,但能在生产环境跑通的都死了。

4、生产环境中三种崩溃方式

4.1 静默失败

Agent 可以运行 15 步,返回一个自信的结果,但从第三步开始就已经错了。之后的每一步都建立在错误的基础上。

没有堆栈跟踪。每次运行走不同的路径,所以你无法重放失败的执行。你不是在调试。你是在根据看起来正常的输出,重构可能出了什么问题。

经历过这件事的团队称之为"雾中调试"。很贴切。

没有评估的 AI 系统不是产品。它只是一个碰巧在互联网上的演示。

4.2 多 agent 流水线中的级联错误

当你把 agent 串联起来时,一个 agent 的输出成为下一个 agent 的输入。非确定性不是相加,而是相乘。

受理 Agent → 分类 Agent → 策略 Agent → 解决 Agent

如果受理 Agent 误读了一个索赔,分类 Agent 就会对错误的东西进行分类。策略 Agent 应用了错误的策略。解决 Agent 解决了一个客户根本没有的问题。

四个 agent。四次交接。开头一个坏步骤就会污染之后的一切。

构建多 agent 流水线的团队报告,窄范围流水线按时交付率是 65%。宽范围流水线,涉及多个 agent 和集成点,按时交付率只有 16%。

4.3 价值还没产生,成本先飙升

每个 agent 步骤都是一次或多次 LLM 调用。每次调用都要消耗 token。

每次执行 0.15 美元听起来不错,直到你每天运行 50 万次。那就是每天 7.5 万美元。一个失败的 agent 在放弃前重试五次,花了 0.75 美元却什么都没完成。

卡在循环中的 agent 会持续消耗计算资源,直到外部力量终止它们。大多数团队在看到账单之前不会构建那个终止开关。

Gartner 2025 年调查:85% 的 AI 项目未能投产。MIT Sloan 2025:95% 的生成式 AI 试点未能规模化。另一项横跨 2024 和 2025 年的企业分析:88% 的 agent 项目在上线前死亡。

三个来源。同一个数字。不是噪音。

5、那些成功部署 agent 的团队是怎么做的

Agent 在生产环境能工作。只是大多数团队的构建方式不对。

  • 保持链条简短。可靠的生产环境 agent 运行 2-4 步。一个 15 步的工作流应该是三个 5 步工作流,中间有人工检查点。
  • 任何不可逆操作前都要确认。Antigravity 事件发生在"Turbo 模式"下,该模式取消了人工确认。一个设计决策把缓存请求变成了 wiped drive。
  • 沙盒化文件和数据库访问。任何无法撤销的操作都需要显式权限和回滚能力。没有回滚能力的 agent 是一个披着友好界面的 liability。
  • 在发布前构建评估。一个覆盖你最危险场景的固定测试集,能在用户发现问题之前告诉你哪里坏了。

6、什么时候用 agent,什么时候跳过

AI kicking agent 失败不是因为它们不够聪明。

它们失败是因为每一个额外的决策都会放大不确定性。

第一步时,95% 看起来像是信心。第十步时,60% 看起来像是抛硬币,只是多了几个步骤。第二十步时,你在发布一个三分之一概率能工作的东西,还管它叫产品。

演示隐藏了这一点。演示永远是第一步,干净输入,配合用户,最佳路径。

生产环境暴露了这一点。生产环境是其他所有步骤。

Tassos 的硬盘没了。Replit 的数据库勉强恢复了。

两个案例中,agent 都有正确的工具,理解目标,然后做出了没人会做的决策。不是智能的失败。是在一个给了它权限却没有约束的系统中,判断力的失败。

2026 年国际 AI 安全报告由 100 多位专家撰写,称持续不可靠是这些 agent 运行模型面临的核心挑战。不是未来的问题。是当前的问题。

AI agent 没有死。认为"演示能工作就意味着产品能工作"的信念才死了。

演示永远能工作。

生产环境不是演示。


原文链接:智能体泡沫:88%死于投产前 - 汇智网

http://www.jsqmd.com/news/983816/

相关文章:

  • 43dBm输出功率!成都鼎讯DXGF-21A让光伏、风电信号覆盖无死角
  • 寄快递想省钱?试试这3个方法,价格低到5折起 - 快递物流资讯
  • 5分钟学会永久保存B站视频:m4s-converter零转码转换终极指南
  • 2026高端进口车库门十大品牌测评:德国霍曼领衔,五款标杆级隔音抗风防盗门深度解析 - 品牌发掘
  • 如何在Windows电脑上直接安装安卓应用?APK安装器终极指南
  • Kinetis K21F I2S/SAI时序与低功耗模式实战解析
  • 2026年 钢丝电缆收卷机厂家推荐:精密排线/自动收线/多功能收线机品牌实力榜单与选购指南 - 企业推荐官【官方】
  • 3大核心功能揭秘:暗黑破坏神2存档编辑器如何重塑你的游戏体验
  • 2026客厅金属线条装饰厂家实力排名:六家匠心工艺标杆企业及核心优势深度解析 - 品牌发掘
  • FreeKill架构深度剖析:Qt+Lua+C++如何打造跨平台桌游引擎
  • 读懂文献中的图:Masson染色结果分析(1)
  • APKMirror:3个场景解决安卓应用下载的终极难题
  • DeepSeek-Coder-V2:打破闭源壁垒,开启代码智能新纪元
  • TrafficMonitorPlugins插件性能优化:减少CPU占用与内存使用的终极指南
  • Nex-N2重磅开源!具备“智能体思维”,性能直逼GPT-5.5,引领AI新纪元!
  • 2026年 CNC加工源头厂家实力榜单:塑胶模具/压铸模具/五金模具/夹治具/石墨零件/汽车配件/机械零件/铝合金零件/航空零件/铜公电极推荐 - 品牌发掘
  • 重磅!2025JCR,即将发布!
  • 成都友发管业有限公司|焊管|镀锌管|方矩管|镀锌方矩管|螺旋钢管|钢管 - 四川盛世钢联营销中心
  • 视频修复神器untrunc:5分钟拯救损坏的MP4文件终极指南
  • MySQL 8 其他新特性
  • 163MusicLyrics:一站式音乐歌词下载与格式转换神器
  • 多 Agent 架构:从单个助手到协作团队
  • SB-Admin-Angular项目架构解析:理解AngularJS模块化设计
  • 终极指南:3步实现同花顺Python自动化交易,告别手动盯盘
  • Nature声明!不刊登含AI创作图像的稿件
  • 85个公共Tracker终极指南:三步解决BT下载缓慢问题
  • 可视耳勺到底值不值得买?,西圣、蜂鸟建议买哪一款?必看指南!
  • 河南评估机构主流指标横评:信息梳理与选型避坑指南 - 信息热点
  • 2026年自动光杆排线器/全自动光杆排线器/伺服排线器厂家推荐:多功能排线机与排线器配件品牌深度解析及选购指南 - 企业推荐官【官方】
  • 2026镇海新房除甲醛公司哪家专业?垂直测评:宁波博豪环保凭硬实力脱颖而出 - 专注室内空气检测治理