Tokenmaxxing 2.0:复合正确性如何重塑 Agent 经济学
2024 年,开发者还在想尽办法「省 Token」。2026 年,最聪明的团队已经在问:「我能不能花更多 Token,让 Agent 多跑几轮,把结果再提升 5%?」——这背后不是铺张,而是 Agent 经济学的根本转向。
一、从「复合错误」到「复合正确性」
早期 Agent 有一个致命假设:模型每多走一步,错误就多一点。幻觉、边界条件遗漏、工具调用失误,会在长链路上不断放大,最终把项目带偏。所以那时的工程原则是控制调用次数——能用一次 LLM 解决的问题,绝不调用两次。
但 2026 年的观察正在推翻这个前提。
安全研究者 Drew Breunig 在分析 AISI 的 Mythos 测试时指出:模型被允许在单次任务中消耗1 亿 Token(成本约12,500∗∗),连续跑十次总计∗∗12,500∗∗),连续跑十次总计∗∗125,000。结果没有出现明显的收益递减——更多 Token 真的带来了更好的漏洞发现率。
这引出了一个新概念:Compound Correctness(复合正确性)。它与「复合错误」相反:Agent 在循环中不是积累错误,而是积累验证、修正和上下文理解。只要错误修复的速度快于错误产生的速度,整体质量就会随 Token 投入持续上升。
简单理解:过去是「多走一步多错一步」,现在是「多验证一轮多对一轮」。
二、为什么现在才发生?
三个条件同时成熟,让复合正确性成为可能。
1. 模型本身更稳定了
Claude Opus、GPT-5.5、GLM-5.2 等前沿模型在代码理解、数学推理和工具调用上的错误率显著下降。一次循环引入的噪音,低于一次循环能修复的缺陷。
2. Agent 框架有了真正的循环结构
Pydantic AI、LangGraph、CrewAI 等框架让「Loop」不再是一次性 Pipeline,而是可持久化的状态机。Agent 可以保存中间结果、回滚失败路径、在多个子任务间复用上下文。
3. 开源模型把成本压到了临界点
这是最关键的经济变量。以 GLM-5.2 为例:
| 模型 | 输入价 / MTok | 输出价 / MTok | 相对成本 |
|---|---|---|---|
| GLM-5.2(开源) | ~$1.4 | ~$4 | 1× |
| Claude Opus 4.8 | $5 | $25 | ~5× |
| Anthropic Haiku 4.5 | $1 | $5 | ~1.2× |
如果 Claude 每次迭代带来 1.1 倍质量提升,而 GLM-5.2 带来 1.05 倍但便宜 5 倍,那么把 GLM-5.2 多跑 5 轮,最终效果反而更好。复合正确性只有在「算得起账」时才成立。
三、Tokenmaxxing 的两种形态
不是所有「烧 Token」都是合理的。文章原作者区分了两种完全不同的模式:
| 类型 | 形式 | 结果 | 典型场景 |
|---|---|---|---|
| 开发者 Tokenmaxxing | 工程师用 Claude Code、Cursor 等工具,在 Loop 中反复迭代 | ✅ 生产力提升,ROI 可量化 | 写代码、重构、测试生成 |
| 管道 Tokenmaxxing | 手写多层 Agent 管道,用「质检 Agent」给「主 Agent」擦屁股 | ❌ 脆弱、非确定性、成本倍增 | 客服、内容生成、审批流 |
第一种是好的投资,因为它把 Token 花在人机协作的密度上;第二种是坏的架构,因为它用 Token 掩盖设计缺陷。很多咨询公司把第二种包装成「AI 解决方案」,本质上只是写了一堆 skill 文件就收费数百万。
四、Meta 的 KPI 教训:Token 不能当虚荣指标
2026 年初,Meta 被曝出把员工绩效与 Token 使用量挂钩。结果出现荒诞场景:员工让两个 Agent 互相聊天,只为刷高 Token 数。
这个案例说明了两件事:
- Token 是成本,不是产出。把它当 KPI,必然导致扭曲行为。
- 但完全否定 Token 消耗也不对。如果组织在 Token 使用上过度保守,会错失复合正确性带来的质量飞跃。
正确的管理口径应该是「每单位业务结果所消耗的 Token」,而不是「总共花了多少 Token」。
五、安全领域:Token 变成工作量证明
Drew Breunig 在《Cybersecurity is Proof of Work Now》中提出一个尖锐结论:
未来安全攻防的本质,是防守方能不能在发现漏洞上花比攻击者更多的 Token。
AISI 的 Mythos 测试已经展示了这个趋势:模型没有收益递减,意味着发现复杂漏洞只需要足够的计算预算。对安全团队来说,这既是好消息(可以用算力弥补人力),也是成本警钟(传统静态分析工具可能很快被高 Token 预算的 Agent 审计取代)。
六、开发者应该怎么做?
基于以上趋势,给 AI 开发者的三条实用建议:
1. 设计可循环的 Agent,而不是单次 Pipeline
把任务拆成「尝试 → 验证 → 修正 → 再尝试」的循环。每次循环保留中间状态,让模型能在失败路径上继续改进,而不是从头再来。
2. 引入模型路由,避免闭源锁定
用 GLM-5.2、DeepSeek-V4 等开源模型承担高频迭代任务,只在最关键环节调用 Claude/GPT-5.5。这能把循环成本压到原来的 1/5~1/6。
3. 用「每轮改进率」衡量 ROI
不要只看单次调用成本。记录每轮迭代的质量提升幅度,找到收益递减的拐点。很多任务的拐点比想象中更靠后。
总结
Tokenmaxxing 正在从「贬义词」变成「技术策略」。它不再指无脑烧钱,而是指在复合正确性的新范式下,有意识地用 Token 换质量。
核心结论:
- 复合正确性取代复合错误,更多 Token 可能带来更好结果,前提是模型和框架足够稳定。
- 开源模型是这一轮变革的燃料,GLM-5.2 等模型的低价让高频循环变得经济可行。
- 区分两种 Tokenmaxxing:开发者工具上的投入是资产,脆弱管道的叠加是负债。
- 安全领域将成为最先被改变的场景,攻防双方将围绕 Token 预算展开竞争。
一句话:2026 年,省 Token 已经不是最優解。聪明的开发者开始计算「多花多少 Token,能把结果提升多少」。
