AI收费告别“单一Token时代”:计费单位裂变,价值分层重构企业预算语言
AI收费:告别“单一Token时代”
“Token经济”,正成为AI行业近期最热的关键词之一。当OpenClaw(俗称“龙虾”)引发全民关注,各大厂商加入“龙虾潮”,Token消耗呈指数级增长。开发者社区和社交平台频繁出现对比表,比较不同模型的Token消耗、输出质量差异以及“每千Token成本”。
但用Token算账并非易事。一个做财务的朋友询问,agent每天几十万次调用,一个月要花多少钱?看似可通过“Token×单价×调用次数”计算,然而翻开Anthropic的价格页,Claude Managed Agents的session runtime按$0.08/session - hour独立计费,cache write和cache hit各有不同档位的乘数,与Token不在一个维度。
查看几家主流平台的价格页,发现这不是一道简单的算术题。OpenAI的价格页像资源总账,Token之外,web search按千次调用收费,container按session时长收费,file search storage按GB/天收费,regional processing再叠一层10%。Google Gemini收敛一些,但grounding和context caching也独立计价。Anthropic三档缓存乘数叠一个session runtime,又是另一套维度,三家无法用同一公式计算。
再往上,商品边界脱离“模型”。Salesforce用Flex Credits把动作配额写进价格体系,Intercom绕开Token,按outcome收费,每个$0.99并定义“有效解决”。2026年一月,OpenAI CFO Sarah Friar在官网文章中指出三条商业化路径:订阅、广告支撑的免费层、按用量计费的API,还表示未来将扩展到授权、IP协议和按结果定价。
过去行业常讨论“谁的Token更便宜”,默认存在统一计量单位。但到2026年4月,Token已不是AI账单唯一计费单位,AI商品从单一计量项走向多单位并存,企业预算语言被改写。
如今若只讨论“哪个模型每百万Token更贵”,看到的只是底层供给一部分。企业购买的是一段组织过的智能劳动,裸模型只是一小部分,可能包含模型推理、搜索、检索、缓存等。AI经济经历的不是简单价格战,而是计费对象扩散。
这里易误读为“计费单位变多”意味着“底层模型不重要”,但事实相反,模型仍是核心供给对象,只是不再是企业成本解释框架的唯一变量。系统进入真实工作流,采购者与运营者需处理grounding、batch、regional、runtime与席位切换,账单是一组叠加的价格对象。
AI底层可能像电力成为公用事业,便宜、可计量、不可或缺,但价值不在此。经济史上,电带来的生产率跃升,是工厂围绕电重写生产组织,而非电变便宜。
AI成本:从统一定价走向按任务分化
过去用“每百万Token多少钱”理解AI成本,如今这个锚点失效,账单主角取决于任务。
以轻量、高频、检索为主的企业问答任务为例,Google Gemini 2.5 Flash - Lite标准档,5,000 input + 1,000 output Tokens,Token成本约0.0009美元;附带一次grounded prompt,超出免费额度后,单次grounding价格为0.035美元,是Token成本近四十倍。这类工作负载中,search / grounding等外层能力主导账单,模型推理退居二线。
换成更强的前沿模型,情况不同。OpenAI GPT - 5.4标准档,5,000 input + 1,000 output Tokens约0.0275美元;一次web search的tool call fee为0.01美元(search content Tokens另按模型费率计);一次1GB container session为0.03美元。此时模型成本与工具调用处于同一数量级,推理密集任务中甚至占大头。
Anthropic官方的Claude Managed Agents worked example显示,一小时的Opus 4.6 coding session,50,000 input + 15,000 output的Token成本是0.625美元,session runtime仅0.08美元。runtime进入商品列表,但未“压倒”模型成本。
三个例子表明,成本大头取决于AI的任务。通俗说,让AI查资料,钱花在搜索;让它动脑子,钱花在模型;让它后台干活,“开机时长”是一笔账,不存在通用的“AI单位成本”表。AI经济演变不能简化为“工具吃掉模型”或“模型吞噬一切”,买方需按不同任务形态理解total cost,不再假定统一成本锚。
计费单位裂变后果严重,原本用“每百万Token多少钱”对账的人,现在要理解search成本、cache命中率、runtime时长与regional溢价。预算口径从一维变多维,采购比较轴从“谁的Token更便宜”变成“在我的工作负载下,谁的综合成本更低”,倒逼企业重写理解AI支出的方式。
中国市场是“反向参照”。2024年国内大模型价格战惨烈,部分厂商降价超97%,推理毛利一度为负,战争围绕“谁的百万token更便宜”。runtime、grounding、outcome等在美国价格页独立成行的维度,在中国仍处于早期。所有玩家挤在同一计量单位竞争,负毛利是结构性终点。
价格页先变,企业的预算体系也需跟上
计费单位变化先体现在价格页,最后反映到平台营收。企业预算表最先被迫调整。
目前无可靠公开数据证明OpenAI、Google或Anthropic的tool/storage/runtime营收超过model/Token营收。所以,平台价格页新增收费项,不代表钱从新项目挣得,需等数据说话。
当前可确认的是,卖方定价语言已变,买方预算口径不能停在Token。道理很简单,官方价格页把tool call、session runtime、outcome独立定价,企业对账单不能只列Token,否则买卖双方核算对不上。
Token不再是唯一主角,更像底层计量单位。真正影响账单的是推理、搜索、缓存等成本。Sarah Friar提到的“未来扩展到授权、IP协议、按结果定价”,说明OpenAI清楚卖的不只是Token。
买方预算框架调整后,一些被忽视的东西会重新浮现。Model router决定账单结构,选错预算重心偏移;Salesforce的Flex Credits卖的是“使用权”;Outcome pricing把预算绑在“完成件”上,企业可用结果与供应商对账。
新计费单位或许未改写卖方收入结构,但已改写企业看待AI的方式。组织用新语言理解AI支出,预算流向和沉淀不再由模型排行榜决定。
当计费单位裂变,价值开始分层
把视野拉远,计费单位不只是token,“钱沉淀在哪一层”得分层看。可把AI经济看成五层结算栈,本系列接下来几篇会沿此框架展开:
第一层·公用事业层:算力、Token、缓存、搜索、容器、文件检索,可计量、可路由的“认知吞吐量”;第二层·协议与能力层:MCP、A2A、Agent Skills这类让模型、工具、数据源和agent互操作的共同接口;第三层·知识封装层:Skill、Prompt、Eval、Policy、Memory,序列化行业know - how;第四层·执行交付层:被托管、观测、监控的“数字劳动力”,marketplace把agent从“下载”变成“调用”;第五层·结果与责任层:Intercom的$0.99 per outcome表明,“被完成的工作”成为合同化结算对象。
五层有清晰分布规律:越靠下,越易单位化和路由化;越靠上,越深嵌入上下文、验收和责任。对应的商业模式也分化,底层依赖规模和效率,买方按成本比价;上层依赖不可替代性,买方按结果付费。两种模式“价格锚”不同,前者锚定投入成本,后者锚定创造的价值。
Token经济:不再只关于Token
如今谈Token经济学,不只是“Token单价走势”,更要研究Token作为底层计量颗粒,如何与search、cache、runtime、seat、outcome等高层单位一起重写企业对AI的预算语言。Token还在,但不能单独解释这门生意。
底层资源层可能是最大利润池,甚至有高度集中的赢家。但2026年想理解AI商业化变化,只盯着Token不够,问题从“Token多便宜”变成“整张账单如何构成”。
接下来应观察一些信号:企业合同是否出现SLA、数据驻留、缓存策略、责任边界等条款,而非只谈Token单价;marketplace上是否出现带eval card的agent服务;是否出现第三方的审计、认证和争议处理服务。到2027年底,若三条中有两条以上落地,可确认结算对象从Token向更高层上移。
Anthropic在4月7日以“invitation - only”方式发布了Mythos(预览版),同时工作层模型价格持续下降。前沿能力集中,工作层商品化,成本下沉,价值上移。这两种看似相反的变化指向同一方向:AI价格走向分层,价值重新分配。
当Token不再是唯一计量单位,账单拆分成多种成本结构,企业为哪一层买单,决定价值沉淀在哪一层。至于“成本下沉、价值上移”结构如何在同一体系成立,后续解读将展开。那么,这种结构究竟是如何实现的呢?
