当前位置: 首页 > news >正文

Uber 4 个月烧光 2026 全年 AI 预算:人均月账单 $500-$2000,企业 token 计费失控的第一个公开样本

5 月 26 日 Fortune 的一篇报道引爆了 AI 圈:Uber 在 2026 年 4 月就把原定全年的 AI 工具预算花光了。COO Andrew Macdonald 在采访里用了"head-exploding moment"形容这次事故,CTO Praveen Neppalli Naga 证实全年预算无补充计划。

这是企业 AI 工具规模化采购时代第一个"全员账单失控"的公开样本——值得每一个正在评估 AI 工具采纳节奏的技术负责人看一眼数字。


一、关键数字

事件经 Fortune、Briefs、AI Magazine 等多家媒体交叉报道,可信度较高。已核实数字如下:

指标数值
全员工程师规模5,000
月人均 API 账单$500–$2,000(重度用户达 $2,000)
月人均平均水位$150–$250
月活 AI 工具使用率95%
AI 生成代码占提交比例≈70%
内部 AI agent 每周完全自动写入的代码变更数约 1,800 条
Q1 2026 R&D 支出$951M,同比 +17%
全年 R&D 体量$3.4B

时间线也值得看:

  • 2025-12:Uber 把 Claude Code 推给全员
  • 2026-02:月活工程师从 32% 跃升至 63%,两月翻倍
  • 2026-03:84% 工程师进入"agentic coding"状态
  • 2026-04:全年 AI 预算被烧光
  • 2026-05-26:COO 在内部 all-hands 公开复盘

二、为什么会烧得这么快:三个被低估的成本机制

把这件事归结为"Uber 财务能力不行"太肤浅了。同样的机制正在每一家把 AI 编码工具推到全员的公司里发生。

机制 1:座位许可式预算 vs token 计费的结构错配

传统企业软件是 seat-based:一个工程师一个 license,预算线性可预测。AI 编码工具是token-based

  • 工程师 A 用它做函数末尾自动补全,单次几百 token,月度账单几十美元
  • 工程师 B 把它当 agent 在 monorepo 里跑一下午"重构 API 层并补齐测试",单次会话几千美元

5000 工程师 × 不可预测的 agentic 行为模式 = 完全跳出年度预算节奏的现金流。这不是算账失误,是企业财务模型还没适配 token 计费

机制 2:内部排行榜把 token 用量变成了 KPI

Uber 内部有一个按 AI 使用量排名团队的 leaderboard——本意是推广 AI 工具采纳率,结果工程师为了上榜主动堆 token 用量。

这个现象在行业里被称为tokenmaxxing,据报道 Meta 等公司也有类似的内部仪表盘。问题是:token 数和实际产出之间没有线性关系。Macdonald 的原话:“如果你没法把这个支出直接对应到给用户交付了多少功能,这笔交易就很难再合理化。”

机制 3:agentic 模式下的"次思考成本"

Claude 4.x 系列在 agentic 模式下会自己规划、分步、调工具。每一步都消耗 thinking tokens——而且 Opus 4.7 的 adaptive thinking 默认就是effort: high,模型会在判断必要时大量思考。

一次工程师以为"就让它写个函数"的请求,可能在背后跑了 10 万 token 的推理与工具循环。这部分成本对工程师本人完全不可见——他们只看到结果,看不到中间消耗。账单出来时只有财务能拼出全貌。


三、行业涟漪:Uber 不是唯一一家

公司动作信号
Microsoft5 月初被报道取消大部分 Claude Code 直接许可,让工程师改用 GitHub Copilot CLI大厂开始把 token 计费 AI 工具视为不可控成本
Uber4 月烧光预算并公开复盘第一个公开样本
Meta(据报道)内部 token 用量仪表盘tokenmaxxing 文化已成型

第三方调研也指向同一趋势:2025 Mavvrik 调研显示85% 的企业 AI 成本超出预期 10% 以上84% 的企业毛利率下降 6 个百分点以上。Gartner 预测 2026 年 AI agent 软件支出将达约2070 亿美元,比 2025 年的 864 亿翻 1.4 倍。

Uber 的"head-exploding moment"将在 2026 下半年大量复现,只是其他公司未必会公开


四、可落地的成本控制:三件马上能做的事

工程师团队规模就算只有 Uber 的 1/100,相同的机制一样适用。下面三件事不需要等到月底账单出来才能动手。

1. 用 Prompt Caching 把高频上下文成本拍平

对于 codebase 大、上下文长的场景,prompt caching 能把重复输入的部分降到原价的 10%。

importanthropic client=anthropic.Anthropic(api_key="sk-你的密钥",base_url="https://gw.claudeapi.com")response=client.messages.create(model="claude-sonnet-4-6",max_tokens=2048,system=[{"type":"text","text":"<把代码库的关键文件、约定、风格指南塞进来>","cache_control":{"type":"ephemeral"}}],messages=[{"role":"user","content":"为 utils/parser.py 加单元测试"}])

第一次调用建缓存,之后 5 分钟窗口内的所有请求只按 10% 价格计算 cached 部分。对一天内反复让 Claude 看同一份代码库的工作流,能省下约七成 token 费用。

2. 模型分层路由:不是所有任务都需要 Opus 4.7

人均 $2000 的工程师,多半把 Opus 4.7 当默认模型在所有场景下用。但实际上:

任务类型推荐模型相对 Opus 4.7 价格
复杂架构、长链路推理、最难的 bugOpus 4.7100% 基准
90% 日常编码、PR review、文档Sonnet 4.6输入输出都约 1/5 价
分类、抽取、简单补全、 schema 转换Haiku 4.5输入输出都约 1/20 价

仅仅把"默认模型"从 Opus 改成 Sonnet,账单能砍到 1/5。Opus 4.7 留给真正需要深度推理的任务——日常工作流里这样的任务占比远低于很多人以为的。

3. 工程师粒度的预算与告警

Uber 这次事故的核心问题不是用得多,而是用了才知道。要避免重演,最低要求是:

  • 每个工程师独立 API Key,账单可追溯到人
  • 每把 Key 设月度预算上限,触发后自动停用
  • 异常用量(单日 > 个人均值 3 倍)触发告警

实现方式不限于哪家中转平台,主流平台都提供按 Key 维度的用量明细。关键是把这件事在工程师入职 Day 1 就配好,而不是等出账单。


五、复盘:tokenmaxxing 不是好事

Uber 这次复盘最值得 industry 记住的一句话来自 Macdonald:

“如果你没法把这个支出直接对应到给用户交付了多少功能,这笔交易就很难再合理化。”

70% 的提交代码由 AI 生成,听起来是个漂亮的 KPI——但它和"产品提速"之间没有自动等号。token 数也不等于产出。用得对用得多重要。

下一波踩同样坑的,大概率不是 Uber 级别的公司,而是那些刚把 Claude Code 推给全公司、还没设预算上限、还没做模型分层路由的中型团队。提前 6 个月把这三件事做好,能省下的钱可能比工具本身的价值还高。


信息来源:Fortune / Briefs / AI Magazine 及 Startup Fortune、Designrush 等二手报道。完整 Claude 模型定价见 claudeapi.com。

http://www.jsqmd.com/news/908374/

相关文章:

  • 如何用 ChatGPT 提升学习指导效率?完整实现指南
  • 体育科技革命:从数据采集到AI分析,技术如何重塑竞技体育
  • Gemini多语言翻译质量深度拆解(中/日/阿/印地语实测盲区大曝光)
  • NVIDIA Profile Inspector终极指南:5个步骤解决显卡驱动兼容性难题
  • 微服务间的远程接口调用:OpenFeign 的使用
  • GAMP程序太老了?手把手教你修改源码,让北斗三号PPP定位精度起飞
  • 华硕笔记本终极优化指南:5个G-Helper核心功能让电脑重获新生
  • 量化投资基石:10大机器学习股票数据集选型与实战指南
  • ESPI协议详解:单线、双线、四线模式怎么选?服务器BMC带外管理实战
  • 鸿蒙数学 108 篇 第二十八篇:计数体系完整推演
  • ArcSWAT建模新手避坑指南:你的土壤参数SOL_AWC算对了吗?从SPAW计算到模型验证
  • 别再瞎猜了!用SystemView透视你的FreeRTOS任务调度,解决实际卡顿问题
  • 2026年|知网AIGC查重原理与降AI实用技巧 - 降AI实验室
  • 3分钟快速上手:手机号码定位工具location-to-phone-number完全指南
  • 2025-2026年一起装修网电话查询。装修前请核实资质与合同条款 - 品牌推荐
  • 告别MPU6050磁干扰漂移:手把手教你用STM32CubeMX HAL库驱动IM948陀螺仪(附完整源码)
  • 别再只调sklearn的KMeans了!手把手教你用NumPy从零实现K-means聚类(附鸢尾花数据集实战代码)
  • 告别Cloud Sync!用Docker版aliyundrive-webdav为群晖打造更稳定的阿里云盘备份方案
  • 从零搭建自动化天文台:圆顶同步、PLC控制与远程观测实践
  • RoboTron-Sim:自动驾驶长尾场景模拟数据解决方案
  • 低预算先跑测试:投流公司常用小步快跑打法
  • JavaScript中Emoji长度计算的陷阱与精准解决方案
  • FineReport连接TDengine 3.x踩坑实录:驱动版本、时区问题与客户端安装的终极解决方案
  • 别再死磕Q-learning了!用Sarsa算法搞定你的第一个强化学习智能体(附Python代码)
  • 2025-2026年北京京云律师事务所电话查询:委托前请核实资质与合同条款 - 品牌推荐
  • MATLAB配电网状态估计算法包:最小二乘+解耦双模型,改参数就能跑不同拓扑
  • 如何用tcc-g15实现戴尔G15散热控制的终极开源替代方案
  • 别再瞎调了!用IxChariot测工业网关吞吐量,这5个坑我帮你踩过了
  • Hermes Agent框架连接Taotoken自定义模型提供商详细步骤
  • Django+OpenCV人脸采集与比对Web系统(含数据库、媒体资源和完整迁移文件)