当前位置：首页 > news >正文

浙大×阿里云综述 Token 经济学：LLM Agent 的成本、协作与安全账本

news 2026/7/17 16:23:29

一句话讲清楚👉🏻来自浙江大学和阿里云的研究团队把 LLM Agent 里的 token 重新定义为生产要素、交换媒介和记账单位，用一套“计算机系统 × 经济学”的框架解释单 Agent 、多 Agent 、 Agent 生态和安全治理中的成本边界。

先想一个很常见的代码 Agent 场景。

用户只说“帮我修一下这个 bug”。 Agent 第一步读取报错日志，第二步搜索仓库，第三步打开相关文件，第四步尝试修改，第五步跑测试，第六步发现另一个失败，再把前面的日志、 diff 、测试输出继续塞回上下文。最后看起来只是改了几行代码，账单上却可能多出几十万 input token ；真正贵的地方不是最后那段 patch ，而是反复读入上下文、解释工具结果、 review 自己的修改、修复失败路径。

这就是 Agent 时代最容易被低估的东西： token 已经从模型调用的计量单位，变成了智能系统的库存、现金流和损耗表。读文件是 token ，检索网页是 token ，工具 schema 是 token ，多 Agent 互相同步还是 token 。只盯模型价格，很容易把系统里最大的成本中心漏掉。

这篇 46 页综述《 Token Economics for LLM Agents: A Dual-View Study from Computing and Economics 》给了一个系统化说法。研究团队引用 OpenRouter 数据指出，平台周 token 处理量从 2024 年 12 月的 0.4 万亿增长到 2026 年 3 月的 27 万亿，约 15 个月增长 68 倍。 Agent 早已越过“偶尔多花几个 token”的阶段，推理、工具、记忆、协作和安全都变成持续消耗 token 的生产流程。

Agent 技术栈从 2022 到 2026 年快速扩展， OpenRouter 周 token 量在关键节点出现数量级增长。

我更愿意把这篇论文看成一张 Agent 成本地图。它关心的不是“如何少用 token”这么单点的问题，而是四个更工程化的判断：哪些 token 是必要生产投入，哪些 token 是协作摩擦，哪些 token 能沉淀成长期资产，哪些 token 因为不可信反而需要额外付费验证。

token 为什么成了 Agent 的经济原语

在传统 LLM 调用里， token 主要是信息处理单位。用户输入被切成 token ，模型逐 token 生成回答。这个视角适合单轮问答，却解释不了 Agent 的新成本结构。

先把 token 当成三种东西来看，会比单纯看账单更清楚。

属性	含义	Agent 中的表现
生产要素	消耗 GPU 、内存、电力和时间	推理、检索、工具调用都要消耗 token
交换媒介	API 市场按 token 计价	token 变成 AI 服务的事实货币
记账单位	衡量任务复杂度和生产力	可以统计推理、通信、记忆、失败重试成本

这个分类直接影响产品埋点。很多团队只统计 prompt token 和 completion token ，却没有单独记录 reasoning 、 retrieval 、 tool schema 、 retry 、 review 、 memory write 、 memory read 、 security check 。结果就是优化时只会砍输出长度，看不到真正烧钱的输入回放和失败路径。把 token 看成记账单位后， Agent 的失败重试、通信冗余、安全校验才能进入同一张账本。

进一步拆账，可以把 Agent token 分成五类： Input Token 、 Reasoning Token 、 Communication Token 、 External Token 和 Output Token 。输入 token 来自用户提示和上下文；推理 token 来自规划、草稿和自我反思；通信 token 在多 Agent 之间流动；外部 token 来自 RAG 、工具 API 和网页检索；输出 token 是最终交付给用户的结果。

论文把单 Agent 的“Memory-Planning-Action”循环和多 Agent 的通信同步放到同一条 token 生命周期里。

一旦这样分类，很多工程现象就变得容易解释。一个 RAG 系统相当于在内部推理 token 和外部检索 token 之间做替代；一个多 Agent 系统会在专家分工之外引入通信 token 、状态同步 token 和冲突解决 token ；一个安全防护模块也不是纯粹的合规开销，它会给每个 token 增加验证、过滤、沙箱和访问控制成本。

统一目标：在质量约束下最小化总成本

这篇论文背后的总框架很朴素： Agent 推理是一个有质量约束的资源分配问题。

用文字表达就是：系统要在输出质量达到目标阈值的前提下，让总成本尽可能低。这里的总成本不只包括模型 API 费，还包括 GPU 折旧、内存带宽、推理延迟、人工参与、工具调用、通信协调、缓存状态、合规和安全防护。

如果做成工程指标，我会把它拆成四列：目标质量、 token 投入、隐藏成本、失败损失。目标质量用评测、人工验收或业务指标表达； token 投入按输入、推理、检索、通信、输出分桶；隐藏成本记录 latency 、 cache miss 、工具失败、人工确认；失败损失记录重试次数、回滚次数和错误外部动作。

真正有意思的是“替代”和“互补”的双重关系。

一方面，计算资本和 token 可以替代。一个小模型可以通过更多思考链、更长检索和更多工具调用弥补能力短板；一个更强的模型可能用更少 token 做出同样质量的答案。

另一方面，它们又互补。长上下文需要更大的 KV cache 和更高内存带宽；多 Agent 通信越多，对 serving 系统、缓存和调度的压力越大。 token 便宜不代表可以无限堆，算力不够时，更多 token 只会变成延迟、 OOM 或低质量冗余。

所以论文的核心目标可以压缩成一句工程判断：不要只看 token 数，也不要只看模型能力，要看每个 token 对目标质量的边际贡献是否超过它带来的真实成本。

论文的整体路线：从 token 定义和成本函数出发，依次分析单 Agent 、多 Agent 、生态级市场、安全和未来机会。

单 Agent ：在“自己想”和“调用外部工具”之间找平衡

单 Agent 的成本问题，最像一个小企业如何组织生产。它有内部能力，也可以买外部服务。内部能力对应参数化知识、推理 token 和模型自身计算；外部服务对应工具调用、 API 、 RAG 、网页检索和数据库查询。

论文把单 Agent 的核心问题定义为：在目标输出质量固定时，如何在内部推理 token 和外部工具 token 之间做最优分配。

一个金融市场分析 Agent 可以说明这个问题。如果它完全靠内部推理，可能会因为事实过时或幻觉而反复修正，消耗大量推理 token ；如果它过度依赖外部 API ，又会把大量行情、新闻和指标塞进上下文，带来高延迟、高输入成本和格式处理成本。最优点往往在中间：调用一个高信息密度的实时价格 API ，再用内部推理综合判断。

单 Agent 的最优策略是在内部推理和外部工具之间达到边际成本平衡，而不是一味多想或一味多查。

单 Agent 优化可以不按论文清单背名词，换成一个更容易落地的排查表。

要省什么	典型做法	真实收益
input	prompt 压缩、上下文裁剪	少塞历史和无关文档
reasoning	early exit 、 latent reasoning	避免无收益的长思考
prefill	KV cache 、 FlashAttention	降低长上下文启动成本
tool	更准的工具选择、 MCP	少注入 schema ，少失败重试
memory	写入、检索、遗忘策略	把重复上下文变成资产

这里面我最看重两类： early exit 和 memory 。

early exit 对应一个很朴素的止损问题：下一轮思考还会带来新信息吗？如果只是把同一个计划换个说法，继续生成就是负收益。代码 Agent 、数据分析 Agent 、浏览器 Agent 都应该有这种 stop-loss 机制：连续两轮没有新证据、同一测试失败重复出现、工具返回同类错误时，就该切换策略或停下来。

memory 则是另一种账。一个没有长期记忆的 Agent ，每次都要把同样背景塞进 prompt ；一个有组织的记忆系统，可以把重复 token 消费转化为一次性写入和后续检索。但记忆不是越多越好，低价值记忆会污染检索结果，占用上下文窗口。好的记忆系统要同时会写、会查、会忘。

工具和 RAG 的边界也要按成本算。 Toolformer 、 Gorilla 、 ToolLLM 、 AnyTool 、 ToolRL 等工作可以统一理解成“降低外部 token 的采购成本”：什么时候该调用工具，调用哪个工具，注入多少 schema ，如何避免错误调用造成重试。 MCP 和 Function Calling 的价值也可以放在这张成本表里理解：它们降低工具集成和格式解析成本，让外部能力更像可替代的生产要素。

我的判断是，单 Agent 阶段最容易被误用的优化，是“盲目压缩”。很多系统只盯着 token 数下降，却忽略了质量阈值。 Token Economics 的提醒更准确：压缩只有在不破坏输出质量、不增加后续修复成本时才成立。否则，前面省掉的 token 会在后面的失败重试、人工介入和安全校验里成倍还回来。

多 Agent ：专家越多，沟通税越高

多 Agent 系统看起来像把任务拆给多个专家：规划、检索、编码、验证、总结，各司其职。专业化确实会降低单个节点的生产成本，但协作会带来另一类成本：通信、同步、冲突解决和状态传递。

论文用 Coase 的企业边界理论解释多 Agent 。企业内部多一个部门，既可能带来专业化收益，也会增加会议、汇报、对齐和管理成本。多 Agent 也是如此：多一个 Agent ，可能提升专业能力，也会增加角色说明、消息传递、上下文复制和争议仲裁。

论文把多 Agent 的总成本拆成两部分：节点生产成本和内部交易成本。随着 Agent 数量增加，节点生产成本先下降，因为任务被专业化拆分；但通信成本可能近似按网络边数超线性增长，在密集拓扑下甚至接近 Agent 数量平方级。

多 Agent 的最优规模存在边界：专业化收益下降后，通信和协调成本会主导总成本。

这解释了一个常见现象：有些任务用单 Agent 表现稳定，加几个 Agent 后反而更慢、更贵、更容易跑偏。问题未必出在模型能力，而是组织设计越过了最优边界。

举个更贴近日常的反例：一个投研 Agent 被拆成 planner 、 searcher 、 analyst 、 reviewer 、 editor 。 planner 先输出大纲， searcher 把十几篇材料塞进上下文， analyst 写初稿， reviewer 又要求补材料， editor 再把所有历史对话读一遍改写。最后文章质量可能只提升一点，但每一轮都在复制前文、材料和 review 意见。这里真正贵的是“所有人都要知道所有事”的组织设计。更经济的做法是让 searcher 只交付结构化证据卡片，让 reviewer 只看结论和引用链，让 editor 不读取原始搜索噪声。

论文总结了多 Agent 优化的几条主线。

第一，先做成本归因。 AgentTaxo 、 Tokenomics 、 MultiAgentBench 等工作尝试统计不同角色、拓扑和 pipeline 阶段的 token 分布。论文提到一个很有冲击力的数据：在软件工程场景中，迭代代码 review 消耗了 ChatDev 59.4% 的 token ；另有 SWE-bench 相关研究显示， agentic coding 的 token 消耗可能超过单轮推理 1000 倍，输入 token 主导，比例超过 150:1 。同一任务的 token 用量还可能有高达 30 倍方差。

这些数字对工程落地很有启发。我们经常优化输出长度，却忽略真正的大头在输入上下文、历史回放、重复 review 和失败路径。没有细粒度账本，多 Agent 优化只能靠感觉。

第二，裁剪通信图和 Agent 数量。 AgentPrune 剪掉冗余消息， AgentDropout 移除低贡献 Agent ， G-Designer 、 ARG-Designer 、 GTD 则尝试学习通信拓扑。经济含义很直接：不要默认所有专家都参加每一轮，也不要默认每个 Agent 都和所有人通信。

第三，压缩通信内容。 Optima 通过训练学习更紧凑的 Agent 通信协议； CodeAgents 用 YAML 角色说明和 Python 风格伪代码替代长篇自然语言系统 prompt 。这里有个朴素但锋利的结论： Agent 之间不一定需要像人类一样说话。自然语言适合给人看，却充满修辞和句法冗余；在 Agent 内部，结构化表示、伪代码、 KV 表征甚至视觉 embedding 可能更经济。

第四，复用计算和缓存。 KVComm 、 Q-KVComm 、 TokenDance 、 LRAgent 、 DroidSpeak 等工作关注跨 Agent 的 KV cache 复用、压缩和共享。多 Agent 常常重复处理相似上下文，如果每个 Agent 都从头 prefill ，同一批 token 被反复付费。共享缓存相当于把固定成本摊到多个 Agent 上，提升 GPU 资本效率。

第五，管理集体记忆。多 Agent 的 memory 不是单 Agent memory 的简单放大版。共享记忆池会带来“公共草地悲剧”：每个 Agent 都写入自己觉得有用的信息，最后检索空间被低相关内容污染。论文提到的角色特定记忆、混合记忆拓扑、 RCR-Router 、 G-Memory 、 AgentNet 等方法，都在解决“该给谁看、看多少、多久忘”的库存管理问题。

我认为多 Agent 系统最该借鉴论文的一点，是把“协作”当成成本中心，而不是能力装饰。一个好系统不应该炫耀有多少 Agent ，而应该能回答：每个 Agent 的边际贡献是什么？每条消息是否减少了不确定性？每次 review 是否真的降低错误率？如果回答不上来，多 Agent 很可能只是在制造沟通税。

Agent 生态： token 进入市场后，价格不再只是 API 单价

当 Agent 跑在共享云平台、 API 市场、缓存系统和工具生态上， token 的问题就从单个系统扩展到生态层。多个用户、多个工作流、多个模型供应商争抢同一批 GPU 、 KV cache 、内存带宽、低延迟队列和合规能力。

论文把生态级总成本拆成四类：生产成本、等待成本、交易成本和合规成本。

生产成本包括实际 serving 所需的计算、内存、 KV cache 、带宽和系统效率。等待成本把排队、首 token 延迟、每输出 token 延迟和 SLA 违约转化为经济损失。交易成本包括寻找供应商、迁移 API 、适配工具协议、丢失缓存状态和迁移记忆库。合规成本则来自碳排、访问义务、数据可携带、安全要求和审计负担。

生态级 Token Economics 关注共享 serving 能力、用户需求、供应商竞争、监管约束和动态市场反馈。

这里我的判断比较明确：未来平台竞争不会只围绕 token 单价展开，而会围绕“状态资产”展开。谁掌握用户的缓存、会话、 memory 、工具授权、 SLA 和工作流适配，谁就能在核心 token 降价后继续保留议价能力。

拥塞定价会变得重要。两个请求 token 数相同，实际成本可能完全不同。一个低峰期批处理任务和一个高峰期实时 IDE Agent ，对平台造成的等待成本和机会成本不同。论文提到 Batch API 、 provisioned throughput 、 QoS tier ，本质上都是用价格和优先级区分不同延迟偏好的需求。

缓存既省钱，也会形成粘性。 vLLM 、 SGLang 、 Mooncake 等系统通过 KV block 共享、 radix-tree 前缀匹配、跨节点缓存池提升吞吐。论文提到， Anthropic 对 cached input token 按基础输入价格的 10% 收费， OpenAI 对重复前缀自动 50% 折扣。表面看这是成本优化，深层看是平台状态资产：用户在某个供应商那里积累了缓存、会话和 memory ，迁移成本会升高。

开源模型改变议价边界。论文讨论了 DeepSeek-V2 、 DeepSeek-V3 、 Llama-3 等开放或低价模型如何改变闭源 API 的价格锚点。即便用户没有真正迁移，只要 outside option 足够可信，闭源供应商的价格质量边界也会被压低。 token 市场的竞争不只发生在实际市场份额里，也发生在“用户随时可以离开”的预期里。

协议标准可能同时降低迁移成本和形成新护城河。 MCP 降低工具调用协议层的切换成本，但具体 host 的模型选择、认证、 UX 和记忆服务仍可能是平台特定的。也就是说，标准化不一定消灭 lock-in ，它可能把 lock-in 从 token 单价转移到接口、状态和工作流层。

成本下降不一定减少总消耗。论文用类似 Jevons paradox 的动态解释 Agent 生态： MoE 、量化、 speculative decoding 、 prefill-decode 分离、 KV cache 池化降低单位成本后，会让更多原本不划算的 Agent 工作流变得可行。单位 token 更便宜，长期总需求反而扩大，拥塞和资源竞争继续存在。

这对行业判断很重要。很多人以为“推理成本下降后， token 焦虑会结束”。更可能发生的是：成本下降释放新需求， Agent 被嵌入更多高频场景，系统从“单次贵”进入“总量大”。 Token Economics 的问题不会消失，只会从单价优化升级为市场设计和资源治理。

安全：便宜 token 也可能很贵

论文把安全单独列为一大块，这是它比普通系统优化综述更完整的地方。原因很简单：在 Agent 系统里， token 会被读取，也会触发工具、修改文件、调用 API 、进入共享记忆，甚至影响后续多个 Agent 的决策。

安全风险会通过三条路径改变 token 经济学。

第一，它降低 token 的预期效用。被污染的检索片段、 prompt injection 、越狱输入、恶意工具输出，都会让本来有信息价值的 token 变成低质量甚至有害输入。

第二，它提高 token 的影子价格。过滤、来源验证、沙箱、访问控制、冗余评估、隐私保护都会增加延迟和额外 token 。一个外部网页片段看似便宜，但如果必须做 provenance check 、交叉验证和权限隔离，它的真实成本会明显上升。

第三，它会制造非局部损失。单 Agent 里一次错误可能只是重试；多 Agent 和共享生态里，一个污染 token 可以进入 memory pool ，经由通信图传播到其他 Agent ，再触发工具链级联失败。小攻击可能造成系统级 token 浪费和外部损害。

论文把风险分成五类：输入 token 风险、外部 token 风险、内部 token 风险、 Agent 间 token 风险和市场级 token 风险。

风险	典型来源	经济后果
输入风险	越狱、 prompt injection	先污染生产输入，再增加过滤成本
外部风险	RAG 文档投毒、网页污染	检索 token 需要信任溢价
内部风险	潜伏行为、安全对齐失效	审计和红队成本前移
Agent 间风险	共享记忆、工具链传播	局部失败变成协作级损失
市场风险	DoS 、容量误报、选择性拥塞	扭曲价格信号和服务可用性

论文的安全成本模型强调一个取舍：防御组合会增加即时成本，但会降低预期攻击损失。过滤、来源审计、沙箱、冗余评估、隐私计算都不该被视为额外负担，而是 Agent token 生产系统里的质量控制和市场制度。

我的理解是， Agent 安全最容易被低估的成本不是一次拦截本身，而是“未拦截导致的连锁反应”。如果一个 poisoned retrieval token 被写入长期记忆，后续每次检索都可能继续付费消费它、验证它、修复它。安全缺陷会从一次性 bug 变成持续折旧的坏资产。

未来方向：从静态 token 统计走向动态预算系统

论文最后给出六个趋势和五个机会。完整路线图如下，但如果按落地顺序看，我会把它压成三件事：先做成本归因，再做预算控制，最后才是动态市场和可微预算。

论文把未来方向分为系统基础、协作鲁棒性、基础设施与市场三个层级。

最先落地的是成本归因。现在不同论文和不同产品对 cached token 、失败尝试、输入输出单价、工具调用成本的统计口径不统一。工程团队可以先做统一账本：每次任务记录 input 、 reasoning 、 retrieval 、 tool schema 、 communication 、 memory 、 retry 、 security 八类 token ，再按成功路径和失败路径分开看。

第二步是预算控制。现在很多 Agent 只设一个 max tokens ，太粗。更合理的是按阶段设预算：检索最多几轮，工具失败最多几次， reviewer 只看哪些证据， memory 每次最多注入多少，安全验证触发条件是什么。这样的系统即便不用新模型，也能明显减少无效消耗。

更远的是动态市场和可微预算。固定 token 单价很难表达供需、时段、缓存状态、任务紧急度和质量要求。未来可能出现 spot pricing 、竞价机制、保底容量合约；研究侧也可能把 token 成本直接写进训练目标，让模型在训练时学会把预算分配到推理、检索和工具调用中。

对工程团队的几个直接启发

如果把这篇论文落到 Agent 产品和平台实践，我会提炼成五条。

第一，先做 token 成本账本，再谈优化。成本要按输入、输出、推理、通信、检索、记忆、重试、安全校验分开统计。只看总 token 数意义有限，因为真正的浪费常常藏在输入回放、失败路径和 Agent 间通信里。

第二，给每个循环设置 stop-loss。 Agent 最贵的部分往往不是第一次生成，而是反复计划、反复调用工具、反复修错。循环预算、错误中断、观察截断、最大重试次数，本质上都是经济系统里的止损机制。

第三，记忆要有折旧和淘汰。长期 memory 不是无限仓库。每条记忆都应该有写入成本、检索收益、过期概率和污染风险。只写不删的 memory 会从资产变成负债。

第四，多 Agent 要先证明边际收益。新增 Agent 、 reviewer 、 planner 、 verifier 前，先估算它带来的质量提升是否覆盖通信成本。组织结构常常比单个 prompt 更影响 token 成本。

第五，安全成本应进入主预算。对 Agent 来说，安全不是上线前 checklist ，而是每次 token 流动时的成本项。外部内容、共享记忆和工具调用越多，越要把验证、权限、沙箱和 provenance 纳入成本函数。

结语

这篇综述的贡献，是把分散在系统优化、 Agent 架构、 RAG 、 memory 、多 Agent 协作、 API 市场和安全治理里的问题，统一到一张 token 成本地图里。

在单 Agent 层，关键是内部推理与外部工具之间的替代；在多 Agent 层，关键是专业化收益与通信税之间的边界；在生态层，关键是拥塞、缓存、定价、开源 outside option 和切换成本；在安全层，关键是把不可信 token 的风险溢价计入真实成本。

Agent 的下一阶段竞争，不会只是谁的模型更强，也不是谁能堆更多 token 。更关键的是谁能把 token 当成资源来经营：该花的地方敢花，不该花的地方停手，能复用的变成资产，有风险的先做验证。

当 token 成为智能生产的共同货币， Token Economics 可能会成为 Agent 系统设计的底层语言。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～