当前位置：首页 > news >正文

AI收费告别“单一Token时代”：计费单位裂变，价值分层重构企业预算语言

news 2026/4/20 21:47:15

AI收费：告别“单一Token时代”

“Token经济”，正成为AI行业近期最热的关键词之一。当OpenClaw（俗称“龙虾”）引发全民关注，各大厂商加入“龙虾潮”，Token消耗呈指数级增长。开发者社区和社交平台频繁出现对比表，比较不同模型的Token消耗、输出质量差异以及“每千Token成本”。

但用Token算账并非易事。一个做财务的朋友询问，agent每天几十万次调用，一个月要花多少钱？看似可通过“Token×单价×调用次数”计算，然而翻开Anthropic的价格页，Claude Managed Agents的session runtime按$0.08/session - hour独立计费，cache write和cache hit各有不同档位的乘数，与Token不在一个维度。

查看几家主流平台的价格页，发现这不是一道简单的算术题。OpenAI的价格页像资源总账，Token之外，web search按千次调用收费，container按session时长收费，file search storage按GB/天收费，regional processing再叠一层10%。Google Gemini收敛一些，但grounding和context caching也独立计价。Anthropic三档缓存乘数叠一个session runtime，又是另一套维度，三家无法用同一公式计算。

再往上，商品边界脱离“模型”。Salesforce用Flex Credits把动作配额写进价格体系，Intercom绕开Token，按outcome收费，每个$0.99并定义“有效解决”。2026年一月，OpenAI CFO Sarah Friar在官网文章中指出三条商业化路径：订阅、广告支撑的免费层、按用量计费的API，还表示未来将扩展到授权、IP协议和按结果定价。

过去行业常讨论“谁的Token更便宜”，默认存在统一计量单位。但到2026年4月，Token已不是AI账单唯一计费单位，AI商品从单一计量项走向多单位并存，企业预算语言被改写。

如今若只讨论“哪个模型每百万Token更贵”，看到的只是底层供给一部分。企业购买的是一段组织过的智能劳动，裸模型只是一小部分，可能包含模型推理、搜索、检索、缓存等。AI经济经历的不是简单价格战，而是计费对象扩散。

这里易误读为“计费单位变多”意味着“底层模型不重要”，但事实相反，模型仍是核心供给对象，只是不再是企业成本解释框架的唯一变量。系统进入真实工作流，采购者与运营者需处理grounding、batch、regional、runtime与席位切换，账单是一组叠加的价格对象。

AI底层可能像电力成为公用事业，便宜、可计量、不可或缺，但价值不在此。经济史上，电带来的生产率跃升，是工厂围绕电重写生产组织，而非电变便宜。

AI成本：从统一定价走向按任务分化

过去用“每百万Token多少钱”理解AI成本，如今这个锚点失效，账单主角取决于任务。

以轻量、高频、检索为主的企业问答任务为例，Google Gemini 2.5 Flash - Lite标准档，5,000 input + 1,000 output Tokens，Token成本约0.0009美元；附带一次grounded prompt，超出免费额度后，单次grounding价格为0.035美元，是Token成本近四十倍。这类工作负载中，search / grounding等外层能力主导账单，模型推理退居二线。

换成更强的前沿模型，情况不同。OpenAI GPT - 5.4标准档，5,000 input + 1,000 output Tokens约0.0275美元；一次web search的tool call fee为0.01美元（search content Tokens另按模型费率计）；一次1GB container session为0.03美元。此时模型成本与工具调用处于同一数量级，推理密集任务中甚至占大头。

Anthropic官方的Claude Managed Agents worked example显示，一小时的Opus 4.6 coding session，50,000 input + 15,000 output的Token成本是0.625美元，session runtime仅0.08美元。runtime进入商品列表，但未“压倒”模型成本。

三个例子表明，成本大头取决于AI的任务。通俗说，让AI查资料，钱花在搜索；让它动脑子，钱花在模型；让它后台干活，“开机时长”是一笔账，不存在通用的“AI单位成本”表。AI经济演变不能简化为“工具吃掉模型”或“模型吞噬一切”，买方需按不同任务形态理解total cost，不再假定统一成本锚。

计费单位裂变后果严重，原本用“每百万Token多少钱”对账的人，现在要理解search成本、cache命中率、runtime时长与regional溢价。预算口径从一维变多维，采购比较轴从“谁的Token更便宜”变成“在我的工作负载下，谁的综合成本更低”，倒逼企业重写理解AI支出的方式。

中国市场是“反向参照”。2024年国内大模型价格战惨烈，部分厂商降价超97%，推理毛利一度为负，战争围绕“谁的百万token更便宜”。runtime、grounding、outcome等在美国价格页独立成行的维度，在中国仍处于早期。所有玩家挤在同一计量单位竞争，负毛利是结构性终点。

价格页先变，企业的预算体系也需跟上

计费单位变化先体现在价格页，最后反映到平台营收。企业预算表最先被迫调整。

目前无可靠公开数据证明OpenAI、Google或Anthropic的tool/storage/runtime营收超过model/Token营收。所以，平台价格页新增收费项，不代表钱从新项目挣得，需等数据说话。

当前可确认的是，卖方定价语言已变，买方预算口径不能停在Token。道理很简单，官方价格页把tool call、session runtime、outcome独立定价，企业对账单不能只列Token，否则买卖双方核算对不上。

Token不再是唯一主角，更像底层计量单位。真正影响账单的是推理、搜索、缓存等成本。Sarah Friar提到的“未来扩展到授权、IP协议、按结果定价”，说明OpenAI清楚卖的不只是Token。

买方预算框架调整后，一些被忽视的东西会重新浮现。Model router决定账单结构，选错预算重心偏移；Salesforce的Flex Credits卖的是“使用权”；Outcome pricing把预算绑在“完成件”上，企业可用结果与供应商对账。

新计费单位或许未改写卖方收入结构，但已改写企业看待AI的方式。组织用新语言理解AI支出，预算流向和沉淀不再由模型排行榜决定。

当计费单位裂变，价值开始分层

把视野拉远，计费单位不只是token，“钱沉淀在哪一层”得分层看。可把AI经济看成五层结算栈，本系列接下来几篇会沿此框架展开：

第一层·公用事业层：算力、Token、缓存、搜索、容器、文件检索，可计量、可路由的“认知吞吐量”；第二层·协议与能力层：MCP、A2A、Agent Skills这类让模型、工具、数据源和agent互操作的共同接口；第三层·知识封装层：Skill、Prompt、Eval、Policy、Memory，序列化行业know - how；第四层·执行交付层：被托管、观测、监控的“数字劳动力”，marketplace把agent从“下载”变成“调用”；第五层·结果与责任层：Intercom的$0.99 per outcome表明，“被完成的工作”成为合同化结算对象。

五层有清晰分布规律：越靠下，越易单位化和路由化；越靠上，越深嵌入上下文、验收和责任。对应的商业模式也分化，底层依赖规模和效率，买方按成本比价；上层依赖不可替代性，买方按结果付费。两种模式“价格锚”不同，前者锚定投入成本，后者锚定创造的价值。