当前位置: 首页 > news >正文

Tokenmaxxing 2.0:复合正确性如何重塑 Agent 经济学

2024 年,开发者还在想尽办法「省 Token」。2026 年,最聪明的团队已经在问:「我能不能花更多 Token,让 Agent 多跑几轮,把结果再提升 5%?」——这背后不是铺张,而是 Agent 经济学的根本转向。


一、从「复合错误」到「复合正确性」

早期 Agent 有一个致命假设:模型每多走一步,错误就多一点。幻觉、边界条件遗漏、工具调用失误,会在长链路上不断放大,最终把项目带偏。所以那时的工程原则是控制调用次数——能用一次 LLM 解决的问题,绝不调用两次。

但 2026 年的观察正在推翻这个前提。

安全研究者 Drew Breunig 在分析 AISI 的 Mythos 测试时指出:模型被允许在单次任务中消耗1 亿 Token(成本约12,500∗∗),连续跑十次总计∗∗12,500∗∗),连续跑十次总计∗∗125,000。结果没有出现明显的收益递减——更多 Token 真的带来了更好的漏洞发现率。

这引出了一个新概念:Compound Correctness(复合正确性)。它与「复合错误」相反:Agent 在循环中不是积累错误,而是积累验证、修正和上下文理解。只要错误修复的速度快于错误产生的速度,整体质量就会随 Token 投入持续上升。

简单理解:过去是「多走一步多错一步」,现在是「多验证一轮多对一轮」。


二、为什么现在才发生?

三个条件同时成熟,让复合正确性成为可能。

1. 模型本身更稳定了

Claude Opus、GPT-5.5、GLM-5.2 等前沿模型在代码理解、数学推理和工具调用上的错误率显著下降。一次循环引入的噪音,低于一次循环能修复的缺陷。

2. Agent 框架有了真正的循环结构

Pydantic AI、LangGraph、CrewAI 等框架让「Loop」不再是一次性 Pipeline,而是可持久化的状态机。Agent 可以保存中间结果、回滚失败路径、在多个子任务间复用上下文。

3. 开源模型把成本压到了临界点

这是最关键的经济变量。以 GLM-5.2 为例:

模型输入价 / MTok输出价 / MTok相对成本
GLM-5.2(开源)~$1.4~$4
Claude Opus 4.8$5$25~5×
Anthropic Haiku 4.5$1$5~1.2×

如果 Claude 每次迭代带来 1.1 倍质量提升,而 GLM-5.2 带来 1.05 倍但便宜 5 倍,那么把 GLM-5.2 多跑 5 轮,最终效果反而更好。复合正确性只有在「算得起账」时才成立。


三、Tokenmaxxing 的两种形态

不是所有「烧 Token」都是合理的。文章原作者区分了两种完全不同的模式:

类型形式结果典型场景
开发者 Tokenmaxxing工程师用 Claude Code、Cursor 等工具,在 Loop 中反复迭代✅ 生产力提升,ROI 可量化写代码、重构、测试生成
管道 Tokenmaxxing手写多层 Agent 管道,用「质检 Agent」给「主 Agent」擦屁股❌ 脆弱、非确定性、成本倍增客服、内容生成、审批流

第一种是好的投资,因为它把 Token 花在人机协作的密度上;第二种是坏的架构,因为它用 Token 掩盖设计缺陷。很多咨询公司把第二种包装成「AI 解决方案」,本质上只是写了一堆 skill 文件就收费数百万。


四、Meta 的 KPI 教训:Token 不能当虚荣指标

2026 年初,Meta 被曝出把员工绩效与 Token 使用量挂钩。结果出现荒诞场景:员工让两个 Agent 互相聊天,只为刷高 Token 数。

这个案例说明了两件事:

  1. Token 是成本,不是产出。把它当 KPI,必然导致扭曲行为。
  2. 但完全否定 Token 消耗也不对。如果组织在 Token 使用上过度保守,会错失复合正确性带来的质量飞跃。

正确的管理口径应该是「每单位业务结果所消耗的 Token」,而不是「总共花了多少 Token」。


五、安全领域:Token 变成工作量证明

Drew Breunig 在《Cybersecurity is Proof of Work Now》中提出一个尖锐结论:

未来安全攻防的本质,是防守方能不能在发现漏洞上花比攻击者更多的 Token。

AISI 的 Mythos 测试已经展示了这个趋势:模型没有收益递减,意味着发现复杂漏洞只需要足够的计算预算。对安全团队来说,这既是好消息(可以用算力弥补人力),也是成本警钟(传统静态分析工具可能很快被高 Token 预算的 Agent 审计取代)。


六、开发者应该怎么做?

基于以上趋势,给 AI 开发者的三条实用建议:

1. 设计可循环的 Agent,而不是单次 Pipeline

把任务拆成「尝试 → 验证 → 修正 → 再尝试」的循环。每次循环保留中间状态,让模型能在失败路径上继续改进,而不是从头再来。

2. 引入模型路由,避免闭源锁定

用 GLM-5.2、DeepSeek-V4 等开源模型承担高频迭代任务,只在最关键环节调用 Claude/GPT-5.5。这能把循环成本压到原来的 1/5~1/6。

3. 用「每轮改进率」衡量 ROI

不要只看单次调用成本。记录每轮迭代的质量提升幅度,找到收益递减的拐点。很多任务的拐点比想象中更靠后。


总结

Tokenmaxxing 正在从「贬义词」变成「技术策略」。它不再指无脑烧钱,而是指在复合正确性的新范式下,有意识地用 Token 换质量。

核心结论:

  1. 复合正确性取代复合错误,更多 Token 可能带来更好结果,前提是模型和框架足够稳定。
  2. 开源模型是这一轮变革的燃料,GLM-5.2 等模型的低价让高频循环变得经济可行。
  3. 区分两种 Tokenmaxxing:开发者工具上的投入是资产,脆弱管道的叠加是负债。
  4. 安全领域将成为最先被改变的场景,攻防双方将围绕 Token 预算展开竞争。

一句话:2026 年,省 Token 已经不是最優解。聪明的开发者开始计算「多花多少 Token,能把结果提升多少」。

http://www.jsqmd.com/news/1102745/

相关文章:

  • AI如何增强新闻写作:从效率提升到专业重构
  • 基于ICM-42605和PIC32的6DOF运动追踪系统设计
  • LTC6904与PIC18F47Q10构建高精度方波发生器
  • 如何快速将3DS游戏格式转换为CIA:完整3dsconv使用指南
  • 大模型应用后端扩容:从冷启动优化到 GPU 弹性调度的全链路设计
  • MC6470与PIC18F27K42在运动控制中的优化应用
  • Si5351A可编程时钟发生器与PIC18F57K42的硬件设计与优化
  • TB9051FTG与PIC18LF46K22实现直流电机静音驱动方案
  • 终极指南:如何用免费开源工具JPEXS FFDec拯救你的Flash数字遗产
  • ONNX 推理优化:从图融合到内存复用的全链路加速实战
  • 锂离子电池过压保护电路设计与智能管理方案
  • 提示词驱动的数据标注:重构AI数据生产流水线
  • MTK设备解锁完整指南:使用mtkclient-gui轻松绕过授权限制
  • 蔚蓝档案鼠标指针主题:3分钟让你的Windows桌面变身动漫游戏世界
  • LV3296与TM4C129XNCZAD构建工业数据采集系统
  • 2026年云原生服务治理深度实践:Istio Ambient Mesh多集群部署与全链路可观测性
  • 独立部署与运行时隔离:微前端架构选型的深度对比与工程决策
  • IS31FL3731与MKV46F128VLH16实现高效LED矩阵控制
  • 薄膜手套规格怎么选对临床场景
  • 如何快速掌握流媒体下载:N_m3u8DL-RE完整指南
  • SRWE:Windows窗口的实时魔法师,让任何应用窗口随心而动
  • 从LLaMA-3到GPT-5再到DeepSeek V3:大模型进化路径被彻底改写?——一位CTO的17页技术备忘录首次流出
  • 大模型服务调度困局:LLM 推理集群的负载均衡策略与架构实践
  • LTC6903数字控制振荡器与PIC微控制器的SPI通信实现
  • DAC161S997与PIC32MX695F512L构建4-20mA电流环方案
  • STM32与74HC165实现高效GPIO扩展方案
  • STM32驱动IS31FL3731 LED矩阵实战指南
  • 导师反馈“AI痕迹明显”,有哪些真正值得体验的的降AIGC软件推荐?
  • wiliwili:让你的游戏机变身B站客户端,跨平台追番神器终极指南
  • 2026年口粮红茶推荐:5大高口碑日常款实测横评