当前位置：首页 > news >正文

Uber 4 个月烧光 2026 全年 AI 预算：人均月账单 $500-$2000，企业 token 计费失控的第一个公开样本

news 2026/6/18 0:51:50

5 月 26 日 Fortune 的一篇报道引爆了 AI 圈：Uber 在 2026 年 4 月就把原定全年的 AI 工具预算花光了。COO Andrew Macdonald 在采访里用了"head-exploding moment"形容这次事故，CTO Praveen Neppalli Naga 证实全年预算无补充计划。

这是企业 AI 工具规模化采购时代第一个"全员账单失控"的公开样本——值得每一个正在评估 AI 工具采纳节奏的技术负责人看一眼数字。

一、关键数字

事件经 Fortune、Briefs、AI Magazine 等多家媒体交叉报道，可信度较高。已核实数字如下：

指标	数值
全员工程师规模	5,000
月人均 API 账单	$500–$2,000（重度用户达 $2,000）
月人均平均水位	$150–$250
月活 AI 工具使用率	95%
AI 生成代码占提交比例	≈70%
内部 AI agent 每周完全自动写入的代码变更数	约 1,800 条
Q1 2026 R&D 支出	$951M，同比 +17%
全年 R&D 体量	$3.4B

时间线也值得看：

2025-12：Uber 把 Claude Code 推给全员
2026-02：月活工程师从 32% 跃升至 63%，两月翻倍
2026-03：84% 工程师进入"agentic coding"状态
2026-04：全年 AI 预算被烧光
2026-05-26：COO 在内部 all-hands 公开复盘

二、为什么会烧得这么快：三个被低估的成本机制

把这件事归结为"Uber 财务能力不行"太肤浅了。同样的机制正在每一家把 AI 编码工具推到全员的公司里发生。

机制 1：座位许可式预算 vs token 计费的结构错配

传统企业软件是 seat-based：一个工程师一个 license，预算线性可预测。AI 编码工具是token-based：

工程师 A 用它做函数末尾自动补全，单次几百 token，月度账单几十美元
工程师 B 把它当 agent 在 monorepo 里跑一下午"重构 API 层并补齐测试"，单次会话几千美元

5000 工程师 × 不可预测的 agentic 行为模式 = 完全跳出年度预算节奏的现金流。这不是算账失误，是企业财务模型还没适配 token 计费。

机制 2：内部排行榜把 token 用量变成了 KPI

Uber 内部有一个按 AI 使用量排名团队的 leaderboard——本意是推广 AI 工具采纳率，结果工程师为了上榜主动堆 token 用量。

这个现象在行业里被称为tokenmaxxing，据报道 Meta 等公司也有类似的内部仪表盘。问题是：token 数和实际产出之间没有线性关系。Macdonald 的原话：“如果你没法把这个支出直接对应到给用户交付了多少功能，这笔交易就很难再合理化。”

机制 3：agentic 模式下的"次思考成本"

Claude 4.x 系列在 agentic 模式下会自己规划、分步、调工具。每一步都消耗 thinking tokens——而且 Opus 4.7 的 adaptive thinking 默认就是effort: high，模型会在判断必要时大量思考。

一次工程师以为"就让它写个函数"的请求，可能在背后跑了 10 万 token 的推理与工具循环。这部分成本对工程师本人完全不可见——他们只看到结果，看不到中间消耗。账单出来时只有财务能拼出全貌。

三、行业涟漪：Uber 不是唯一一家

公司	动作	信号
Microsoft	5 月初被报道取消大部分 Claude Code 直接许可，让工程师改用 GitHub Copilot CLI	大厂开始把 token 计费 AI 工具视为不可控成本
Uber	4 月烧光预算并公开复盘	第一个公开样本
Meta（据报道）	内部 token 用量仪表盘	tokenmaxxing 文化已成型

第三方调研也指向同一趋势：2025 Mavvrik 调研显示85% 的企业 AI 成本超出预期 10% 以上，84% 的企业毛利率下降 6 个百分点以上。Gartner 预测 2026 年 AI agent 软件支出将达约2070 亿美元，比 2025 年的 864 亿翻 1.4 倍。

Uber 的"head-exploding moment"将在 2026 下半年大量复现，只是其他公司未必会公开。

四、可落地的成本控制：三件马上能做的事

工程师团队规模就算只有 Uber 的 1/100，相同的机制一样适用。下面三件事不需要等到月底账单出来才能动手。

1. 用 Prompt Caching 把高频上下文成本拍平

对于 codebase 大、上下文长的场景，prompt caching 能把重复输入的部分降到原价的 10%。

importanthropic client=anthropic.Anthropic(api_key="sk-你的密钥",base_url="https://gw.claudeapi.com")response=client.messages.create(model="claude-sonnet-4-6",max_tokens=2048,system=[{"type":"text","text":"<把代码库的关键文件、约定、风格指南塞进来>","cache_control":{"type":"ephemeral"}}],messages=[{"role":"user","content":"为 utils/parser.py 加单元测试"}])

第一次调用建缓存，之后 5 分钟窗口内的所有请求只按 10% 价格计算 cached 部分。对一天内反复让 Claude 看同一份代码库的工作流，能省下约七成 token 费用。

2. 模型分层路由：不是所有任务都需要 Opus 4.7

人均 $2000 的工程师，多半把 Opus 4.7 当默认模型在所有场景下用。但实际上：

任务类型	推荐模型	相对 Opus 4.7 价格
复杂架构、长链路推理、最难的 bug	Opus 4.7	100% 基准
90% 日常编码、PR review、文档	Sonnet 4.6	输入输出都约 1/5 价
分类、抽取、简单补全、 schema 转换	Haiku 4.5	输入输出都约 1/20 价

仅仅把"默认模型"从 Opus 改成 Sonnet，账单能砍到 1/5。Opus 4.7 留给真正需要深度推理的任务——日常工作流里这样的任务占比远低于很多人以为的。