Codex 用户集体暴怒!Token疯狂蒸发的 5 个原因终于找到了
最近不少朋友都有一个感受,就是codex怎么消耗变快了。
之前是100刀的Pro会员随便用,根本用不完(额度那个时候有翻倍)。
后续发现100刀的Pro开始不够用了,甚至到最后200刀的刀Pro也开始不够用了。
就在2026 年 6 月底,开发者社区集体不干了,开始控诉codex的消耗异常。
大量用户报告 Codex 的 token 消耗出现严重异常,有人一条 prompt 下去,5 小时额度直接归零;有人花 200 美元买了 Pro 20x,结果三四个小时就用完了临时额度。
大批用户在社交媒体上集体 @ Codex 产品负责人 Tibo Sottiaux 讨要说法。
几天后,Tibo 终于做出正式回应,承认系统存在多个叠加问题,并连续做了多轮全局额度重置。
而在 6 月 30 日,这次“额度异常”的正式调查结果终于出炉,Tibo 此前的推测居然也没中。
按照 Tibo 的报告,这次并不是某一个单点 bug 把额度系统干崩了,而是多个问题在特定用户场景下叠加放大,换句话说,是“亿点点问题在一起爆了”。
简单来看,主要问题集中在几个方面:
- 自动代码审查触发频率过高
- 任务拆解机制异常,导致触发更多子任务
- 失败 prompt 在后台发生重复重试
- 用量统计与分类显示出现偏差
目前,OpenAI 已经回滚了相关改动,并修复了重复生成、重复调度和异常重试的问题。
事实上,早在 2025 年底 Codex 出现计费异常时,团队就采取过一次激进修复——直接重写了计费与使用追踪系统的底层逻辑。
但即便如此,Codex 的额度问题依然没有彻底消失。
额度故障一波接一波,官方重置也一轮接一轮。
出于对 Codex 疯狂重置的好奇,我们认真研究了这次的故障报告,也翻了翻 Codex 过去和各种额度 bug 斗智斗勇的历史记录。
最后,我们扒出了五条 Codex 额度疯狂燃烧的原因。
原因一:Codex的回答本身就很耗Token
当Codex发出去 prompt的时候, Codex 内部可能被拆解成了好几个环节:理解意图、扫描项目结构、读取相关文件、生成代码、自动审查代码质量、验证修改是否正确……每一个环节都在消耗 token。
尤其是 auto-review(自动代码审查)这个功能在某些版本中,它的触发逻辑被调得过于激进。
你根本没有主动要求它进行审查,但 Codex 已经自作主张地在后台启动了分析流程。
原因二:Cloud 任务和本地任务共用一个额度
2025 年底之前,Codex 的云端任务(Cloud Task)和本地 CLI 任务各有各的额度池——互不干扰。
但后来,OpenAI 悄悄把两者合并成了一个共享额度池,没有公告,没有更新日志。
问题在于,云端任务和本地任务的 token 消耗根本不在一个量级。
每个云端任务启动时会拉起一个独立的沙箱容器,光是加载环境上下文就可能吃掉 15 万到 30 万 token。
而本地一个轻量级 prompt 可能只消耗几千 token。
原因三:失败的任务不退钱
这大概是整个 Codex 额度体系中最让人无语的设计。
当一个 Codex 任务挂起、超时或者执行失败的时候,系统不会退还已经消耗的 token。
其次就是,Codex 的重试机制在某些情况下过于激进。
一个任务失败了,AI 不会停下来,而是会自动尝试启动重试、分叉出新的子任务、甚至在后台重复调度已经失败的流程。
在 6 月底那次重大故障中,Tibo 明确提到这种"失败 prompt 在后台重复重试"是导致额度异常消耗的重要原因之一。
原因四:两套计时系统不对
Codex 的额度系统有两层限制:一个是 5 小时滚动窗口限制,一个是每周总额度限制。理论上,这两个窗口应该按比例联动,保持一致的消耗节奏。
但现实是,它们的计算逻辑并不同步。
社区发现,在 CLI v0.40.0 版本中,5 小时窗口的额度恢复 2% 时,每周额度只恢复 1%。这意味着如果你在短时间内集中使用 Codex 完成一个大型重构任务,5 小时额度可能还剩一些空间,但你的周额度已经被不成比例地消耗殆尽了。
OpenAI 后来承认这是一个 bug,也给受影响的用户发放了补偿。
原因五:Codex 在偷偷加班
除了上面那些执行层面的问题,还有一个容易被忽视的后台消耗大户:记忆预览功能(Memory Preview)。
这个功能会持续抓取你的屏幕上下文,用来"补全"AI 的短期记忆,让连续对话更自然。
听起来确实很好用?但问题是它会一直在后台运行,持续消耗 token。
也就是说,哪怕你放下电脑去吃饭、去遛弯、去睡觉,只要 Codex 开着,这个功能可能就在后台默默刷新你的上下文信息。
这个可以手动关掉,在设置的「个性化 → 记忆」里把它关闭就行。
如何节约Codex Token
目前也有用户在社区分享了许多自己节省Token的技巧,大家可以参考一下。
以下是综合社区经验和技术分析后整理出来的几个实用方法:
精简你的 AGENTS.md 文件。这是最容易被忽视但效果最显著的一招。
很多人的 AGENTS.md 文件随着项目迭代已经膨胀到了几千行,而每次 prompt 都会把这个文件完整加载进上下文。有开发者实测,精简 AGENTS.md 后 token 消耗降低了 30%-40%。
缩小工作区范围。如果你的项目是一个大型 monorepo,不要在根目录打开 Codex。
把工作区限定到你当前实际操作的子目录下,可以显著减少上下文加载的 token 开销。
日常任务用小模型。不是所有任务都需要上最强的 GPT-5.5。
简单的代码修改、格式调整、配置文件编辑这些活儿,用 codex-mini 就够了,token 消耗低得多。把重型模型留给真正需要深度推理的复杂任务。
关掉不需要的 MCP 服务。每个 MCP server 启动时都会往上下文里加载工具 schema,配的越多,每次会话的基础开销就越大。只留当前任务真正用得上的。
养成查余额的习惯。在 CLI 里跑一下/status,在大型任务前确认自己还剩多少额度。
尤其是预估会超过 10 万 token 输入的任务,先确认余量再动手。
好了,以上就是这篇文章的所有内容~,如果觉得文章不错的话,记得一键三连支持~
