当前位置: 首页 > news >正文

AI收费告别“单一Token时代”:计费单位裂变,价值分层重构企业预算语言

AI收费:告别“单一Token时代”

“Token经济”,正成为AI行业近期最热的关键词之一。当OpenClaw(俗称“龙虾”)引发全民关注,各大厂商加入“龙虾潮”,Token消耗呈指数级增长。开发者社区和社交平台频繁出现对比表,比较不同模型的Token消耗、输出质量差异以及“每千Token成本”。

但用Token算账并非易事。一个做财务的朋友询问,agent每天几十万次调用,一个月要花多少钱?看似可通过“Token×单价×调用次数”计算,然而翻开Anthropic的价格页,Claude Managed Agents的session runtime按$0.08/session - hour独立计费,cache write和cache hit各有不同档位的乘数,与Token不在一个维度。

查看几家主流平台的价格页,发现这不是一道简单的算术题。OpenAI的价格页像资源总账,Token之外,web search按千次调用收费,container按session时长收费,file search storage按GB/天收费,regional processing再叠一层10%。Google Gemini收敛一些,但grounding和context caching也独立计价。Anthropic三档缓存乘数叠一个session runtime,又是另一套维度,三家无法用同一公式计算。

再往上,商品边界脱离“模型”。Salesforce用Flex Credits把动作配额写进价格体系,Intercom绕开Token,按outcome收费,每个$0.99并定义“有效解决”。2026年一月,OpenAI CFO Sarah Friar在官网文章中指出三条商业化路径:订阅、广告支撑的免费层、按用量计费的API,还表示未来将扩展到授权、IP协议和按结果定价。

过去行业常讨论“谁的Token更便宜”,默认存在统一计量单位。但到2026年4月,Token已不是AI账单唯一计费单位,AI商品从单一计量项走向多单位并存,企业预算语言被改写。

如今若只讨论“哪个模型每百万Token更贵”,看到的只是底层供给一部分。企业购买的是一段组织过的智能劳动,裸模型只是一小部分,可能包含模型推理、搜索、检索、缓存等。AI经济经历的不是简单价格战,而是计费对象扩散。

这里易误读为“计费单位变多”意味着“底层模型不重要”,但事实相反,模型仍是核心供给对象,只是不再是企业成本解释框架的唯一变量。系统进入真实工作流,采购者与运营者需处理grounding、batch、regional、runtime与席位切换,账单是一组叠加的价格对象。

AI底层可能像电力成为公用事业,便宜、可计量、不可或缺,但价值不在此。经济史上,电带来的生产率跃升,是工厂围绕电重写生产组织,而非电变便宜。

AI成本:从统一定价走向按任务分化

过去用“每百万Token多少钱”理解AI成本,如今这个锚点失效,账单主角取决于任务。

以轻量、高频、检索为主的企业问答任务为例,Google Gemini 2.5 Flash - Lite标准档,5,000 input + 1,000 output Tokens,Token成本约0.0009美元;附带一次grounded prompt,超出免费额度后,单次grounding价格为0.035美元,是Token成本近四十倍。这类工作负载中,search / grounding等外层能力主导账单,模型推理退居二线。

换成更强的前沿模型,情况不同。OpenAI GPT - 5.4标准档,5,000 input + 1,000 output Tokens约0.0275美元;一次web search的tool call fee为0.01美元(search content Tokens另按模型费率计);一次1GB container session为0.03美元。此时模型成本与工具调用处于同一数量级,推理密集任务中甚至占大头。

Anthropic官方的Claude Managed Agents worked example显示,一小时的Opus 4.6 coding session,50,000 input + 15,000 output的Token成本是0.625美元,session runtime仅0.08美元。runtime进入商品列表,但未“压倒”模型成本。

三个例子表明,成本大头取决于AI的任务。通俗说,让AI查资料,钱花在搜索;让它动脑子,钱花在模型;让它后台干活,“开机时长”是一笔账,不存在通用的“AI单位成本”表。AI经济演变不能简化为“工具吃掉模型”或“模型吞噬一切”,买方需按不同任务形态理解total cost,不再假定统一成本锚。

计费单位裂变后果严重,原本用“每百万Token多少钱”对账的人,现在要理解search成本、cache命中率、runtime时长与regional溢价。预算口径从一维变多维,采购比较轴从“谁的Token更便宜”变成“在我的工作负载下,谁的综合成本更低”,倒逼企业重写理解AI支出的方式。

中国市场是“反向参照”。2024年国内大模型价格战惨烈,部分厂商降价超97%,推理毛利一度为负,战争围绕“谁的百万token更便宜”。runtime、grounding、outcome等在美国价格页独立成行的维度,在中国仍处于早期。所有玩家挤在同一计量单位竞争,负毛利是结构性终点。

价格页先变,企业的预算体系也需跟上

计费单位变化先体现在价格页,最后反映到平台营收。企业预算表最先被迫调整。

目前无可靠公开数据证明OpenAI、Google或Anthropic的tool/storage/runtime营收超过model/Token营收。所以,平台价格页新增收费项,不代表钱从新项目挣得,需等数据说话。

当前可确认的是,卖方定价语言已变,买方预算口径不能停在Token。道理很简单,官方价格页把tool call、session runtime、outcome独立定价,企业对账单不能只列Token,否则买卖双方核算对不上。

Token不再是唯一主角,更像底层计量单位。真正影响账单的是推理、搜索、缓存等成本。Sarah Friar提到的“未来扩展到授权、IP协议、按结果定价”,说明OpenAI清楚卖的不只是Token。

买方预算框架调整后,一些被忽视的东西会重新浮现。Model router决定账单结构,选错预算重心偏移;Salesforce的Flex Credits卖的是“使用权”;Outcome pricing把预算绑在“完成件”上,企业可用结果与供应商对账。

新计费单位或许未改写卖方收入结构,但已改写企业看待AI的方式。组织用新语言理解AI支出,预算流向和沉淀不再由模型排行榜决定。

当计费单位裂变,价值开始分层

把视野拉远,计费单位不只是token,“钱沉淀在哪一层”得分层看。可把AI经济看成五层结算栈,本系列接下来几篇会沿此框架展开:

第一层·公用事业层:算力、Token、缓存、搜索、容器、文件检索,可计量、可路由的“认知吞吐量”;第二层·协议与能力层:MCP、A2A、Agent Skills这类让模型、工具、数据源和agent互操作的共同接口;第三层·知识封装层:Skill、Prompt、Eval、Policy、Memory,序列化行业know - how;第四层·执行交付层:被托管、观测、监控的“数字劳动力”,marketplace把agent从“下载”变成“调用”;第五层·结果与责任层:Intercom的$0.99 per outcome表明,“被完成的工作”成为合同化结算对象。

五层有清晰分布规律:越靠下,越易单位化和路由化;越靠上,越深嵌入上下文、验收和责任。对应的商业模式也分化,底层依赖规模和效率,买方按成本比价;上层依赖不可替代性,买方按结果付费。两种模式“价格锚”不同,前者锚定投入成本,后者锚定创造的价值。

Token经济:不再只关于Token

如今谈Token经济学,不只是“Token单价走势”,更要研究Token作为底层计量颗粒,如何与search、cache、runtime、seat、outcome等高层单位一起重写企业对AI的预算语言。Token还在,但不能单独解释这门生意。

底层资源层可能是最大利润池,甚至有高度集中的赢家。但2026年想理解AI商业化变化,只盯着Token不够,问题从“Token多便宜”变成“整张账单如何构成”。

接下来应观察一些信号:企业合同是否出现SLA、数据驻留、缓存策略、责任边界等条款,而非只谈Token单价;marketplace上是否出现带eval card的agent服务;是否出现第三方的审计、认证和争议处理服务。到2027年底,若三条中有两条以上落地,可确认结算对象从Token向更高层上移。

Anthropic在4月7日以“invitation - only”方式发布了Mythos(预览版),同时工作层模型价格持续下降。前沿能力集中,工作层商品化,成本下沉,价值上移。这两种看似相反的变化指向同一方向:AI价格走向分层,价值重新分配。

当Token不再是唯一计量单位,账单拆分成多种成本结构,企业为哪一层买单,决定价值沉淀在哪一层。至于“成本下沉、价值上移”结构如何在同一体系成立,后续解读将展开。那么,这种结构究竟是如何实现的呢?

http://www.jsqmd.com/news/673268/

相关文章:

  • 如何快速掌握网站离线下载:Python网站下载器完整指南
  • 从‘命令行过长’报错,聊聊Windows、Linux和Mac下Spring Boot启动命令的长度限制与应对
  • 告别野路子!用STM32CubeMX HAL库点亮LED,这才是新手该学的标准流程
  • 如何用7款免费开源思源宋体CN彻底解决你的中文排版难题?
  • 从PCB自动布线到算法面试:动态规划解决‘最大不相交子集’问题的两种实战场景
  • TVS管选型避坑指南:为什么你的高速USB/HDMI接口保护总失效?可能是结电容没选对
  • SketchUp选择工具全解析:从点选到反选,6种技巧提升建模效率
  • STM32F030 IAP实战:手把手教你搞定Cortex-M0中断向量表重映射(附完整代码)
  • 2026年4月大件运输物流公司推荐,南京大件物流/跨省运输/超重货物运输物流公司,专业可靠之选 - 品牌推荐用户报道者
  • Modelsim新手避坑指南:手把手教你用.vt和.v文件搞定Verilog仿真(附Quartus II 13.1工程)
  • AS2632 SSR 恒压控制器,直驱碳化硅MOS ,功率5-500W,CCM、QR、DCM 多模式工作
  • 如何快速解决Windows热键冲突:终极排查指南
  • 避开那些坑:在Windows/Mac上成功安装scikit-survival 0.20+的完整指南
  • OpenAI 与 Anthropic 相爱相杀:IPO 前夕竞争白热化,谁能成为“美国 AI 第一股”?
  • 别急着换拓展坞!联想笔记本外接显示器不识别,试试BIOS里这个‘临时禁用电池’选项
  • 避坑指南:UE4/UE5中ProceduralMeshComponent模块依赖与CreateMeshSection接口的正确用法
  • 最新谷歌全球专利数据(Google Patents Public Data)+python代码(2026年)
  • RAG的“2026魔幻现实主义”:当智能体开始主动干活
  • almalinux 8安装 prometheus-node-exporter
  • 2026年4月高温模温机厂家TOP推荐:油式/防爆/压铸/高精度模温机品牌深度解析与选购指南 - 品牌推荐用户报道者
  • 别再乱填了!EndNote文献类型保姆级选择指南(附期刊/会议/专利等完整对照表)
  • 2026最权威的六大降重复率平台推荐榜单
  • 2026年4月 无菌实验室装修公司推荐,恒温恒湿/生物安全/洁净无尘实验室装修设计工程服务商精选 - 品牌推荐用户报道者
  • 研一科研第一步不知道如何下手?
  • Java List.subList() 的‘视图’魔法:如何用它优雅地批量删除和局部更新数据
  • 别再瞎调了!手把手教你配置AD9361的增益控制模式(MGC/AGC实战避坑)
  • KMS智能激活工具终极指南:3分钟免费激活Windows和Office全系列
  • Claude Routines:你下班睡觉了,Agent 还在为你干活
  • ViraHInter:融合双模态信息,将抗病毒药物研发推进到系统化靶点发现模式
  • Go容易出错的地方总结