当前位置：首页 > news >正文

Tokenmaxxing 2.0：复合正确性如何重塑 Agent 经济学

news 2026/7/1 13:41:52

2024 年，开发者还在想尽办法「省 Token」。2026 年，最聪明的团队已经在问：「我能不能花更多 Token，让 Agent 多跑几轮，把结果再提升 5%？」——这背后不是铺张，而是 Agent 经济学的根本转向。

一、从「复合错误」到「复合正确性」

早期 Agent 有一个致命假设：模型每多走一步，错误就多一点。幻觉、边界条件遗漏、工具调用失误，会在长链路上不断放大，最终把项目带偏。所以那时的工程原则是控制调用次数——能用一次 LLM 解决的问题，绝不调用两次。

但 2026 年的观察正在推翻这个前提。

安全研究者 Drew Breunig 在分析 AISI 的 Mythos 测试时指出：模型被允许在单次任务中消耗1 亿 Token（成本约12,500∗∗），连续跑十次总计∗∗12,500∗∗），连续跑十次总计∗∗125,000。结果没有出现明显的收益递减——更多 Token 真的带来了更好的漏洞发现率。

这引出了一个新概念：Compound Correctness（复合正确性）。它与「复合错误」相反：Agent 在循环中不是积累错误，而是积累验证、修正和上下文理解。只要错误修复的速度快于错误产生的速度，整体质量就会随 Token 投入持续上升。

简单理解：过去是「多走一步多错一步」，现在是「多验证一轮多对一轮」。

二、为什么现在才发生？

三个条件同时成熟，让复合正确性成为可能。

1. 模型本身更稳定了

Claude Opus、GPT-5.5、GLM-5.2 等前沿模型在代码理解、数学推理和工具调用上的错误率显著下降。一次循环引入的噪音，低于一次循环能修复的缺陷。

2. Agent 框架有了真正的循环结构

Pydantic AI、LangGraph、CrewAI 等框架让「Loop」不再是一次性 Pipeline，而是可持久化的状态机。Agent 可以保存中间结果、回滚失败路径、在多个子任务间复用上下文。

3. 开源模型把成本压到了临界点

这是最关键的经济变量。以 GLM-5.2 为例：

模型	输入价 / MTok	输出价 / MTok	相对成本
GLM-5.2（开源）	~$1.4	~$4	1×
Claude Opus 4.8	$5	$25	~5×
Anthropic Haiku 4.5	$1	$5	~1.2×

如果 Claude 每次迭代带来 1.1 倍质量提升，而 GLM-5.2 带来 1.05 倍但便宜 5 倍，那么把 GLM-5.2 多跑 5 轮，最终效果反而更好。复合正确性只有在「算得起账」时才成立。

三、Tokenmaxxing 的两种形态

不是所有「烧 Token」都是合理的。文章原作者区分了两种完全不同的模式：

类型	形式	结果	典型场景
开发者 Tokenmaxxing	工程师用 Claude Code、Cursor 等工具，在 Loop 中反复迭代	✅ 生产力提升，ROI 可量化	写代码、重构、测试生成
管道 Tokenmaxxing	手写多层 Agent 管道，用「质检 Agent」给「主 Agent」擦屁股	❌ 脆弱、非确定性、成本倍增	客服、内容生成、审批流

第一种是好的投资，因为它把 Token 花在人机协作的密度上；第二种是坏的架构，因为它用 Token 掩盖设计缺陷。很多咨询公司把第二种包装成「AI 解决方案」，本质上只是写了一堆 skill 文件就收费数百万。