当前位置: 首页 > news >正文

全球公司集体反省:从“Token管够”到“小模型经济学”,省钱风潮来袭!

全球公司转向“小模型经济学”

曾经Token管够的公司,如今集体开始节约。最近,美国Agent公司Lindy将100%的托管Agent流量从Claude迁移至DeepSeek V4,理由是能节省数百万美元推理成本,迁移流量成本下降约90%。不仅如此,一些美国开发者和中小公司转向中国模型,因其在大量日常任务上“够用且便宜”。据外媒报道,Siemens、Renault、Orange、ChapsVision等欧洲企业也开始混用美国、中国、欧洲的模型。

Token最大化的反噬

过去一年,很多企业鼓励员工多用AI,认为Token烧得越多越能证明公司“AI - first”。但随着Token账单摆在面前,全球公司开始集体反省,“该省省该花花”,小模型经济学风潮兴起。所谓小模型经济学,就是不什么活都请最贵的专家。过去企业接入AI默认用最强模型,然而前沿模型是Token碎钞机,成本高昂。于是大家思考是否每件事都要用最贵的旗舰模型,结果发现简单活分给便宜模型,复杂活上贵模型效果不错,这一省钱“小妙招”被称为“小模型经济学”。

这一经济学并非凭空产生,而是被账单逼出来的。Uber曾鼓励工程师多用AI编程工具,如Claude Code、Cursor,但仅几个月就烧穿全年AI编程预算。Uber COO Andrew Macdonald公开质疑Claude Code使用量与“多交付25%有用消费者功能”的关联,随后公司给员工设Token限额,每人、每个工具每月1500美元Token花费,超额需获批。亚马逊员工自发做KiroRank排行榜比谁用Token多,有人钻漏洞,高级副总裁Dave Treadwell只好喊话“别为了用AI而用AI”,排行榜下线。Meta内部的“Claudeonomics”也遭遇同样问题。目前,大公司都开始收紧Token用量,微软取消Claude Code直接许可,转向GitHub Copilot CLI,Copilot从固定订阅走向按量计费;Meta从“Token最大化”转向“Token最小化”策略,计划限制员工Token使用,因内部AI使用成本预计达数十亿美元级别。

小模型经济学变成一门生意

企业抠预算的同时,供给侧也发生变化,便宜模型开始好用。DeepSeek V4系列是典型代表,其价格比Anthropic模型低约20 - 50倍,在Ramp的企业软件采购趋势榜上曾冲到第一,在Vercel AI Gateway的生产流量中,Token份额一个月从不到1%升至17%,连微软都考虑用其微调版顶替Copilot Cowork里的Anthropic、OpenAI。

行业形成分层逻辑:不差钱或任务难时用OpenAI、Anthropic的旗舰模型;算性价比则用DeepSeek、Kimi、智谱GLM、MiniMax等“够用且便宜”的模型。开源项目ClawRouter数据显示,这种分层组合可将平均成本从每百万Token 25美元压到约2美元。

在这种逻辑下,OpenRouter等模型路由公司变得有价值。OpenRouter不训练模型,而是做模型调度台,考虑价格、延迟、稳定性、上下文长度等因素,帮助企业和开发者在数百个模型之间调度。据外媒报道,OpenRouter今年完成1.13亿美元B轮融资,估值约13亿美元,周处理Token量涨了5倍到25万亿,拥有800万用户。Vercel数据显示,大规模AI应用不是一个模型打天下,月请求量超1000万次的团队平均会同时使用35个模型,AI使用像分工明确的流水线。还有LiteLLM、Helicone等工具把模型路由做成财务系统,可按团队、项目、模型设置预算,监控Token消耗,切换流量。云厂商也跟进,AWS Bedrock的Intelligent Prompt Routing能在同一模型家族里自动分配请求,内部测试显示可节省48%到56%成本。

企业如何落地“小模型经济学”

企业落地“小模型经济学”面临具体技术问题,如请求该派给便宜模型还是贵模型,需把AI任务拆成小步骤。以客服Agent为例,用户问“我的订单到哪了”,先让便宜模型判断意图,再抽出订单号调用物流API,最后用中等模型润色结果,企业可减少昂贵推理。AI编程也类似,读取目录等简单任务可交给便宜模型,大型重构等复杂任务交给强模型。

企业实现模型路由通常有几种做法。最简单的是规则路由,如订单查询走小模型加API,法律问题走强模型加人审;更常见的是级联路由,先让便宜模型回答,校验不通过再升级给贵模型;还有学习型路由,系统根据提示词难度等自动判断用哪个模型。近两年,相关工程化手艺成为研究课题,如ParetoBandit研究动态环境里的预算路由,Budget - Aware Agentic Routing研究Agent场景。当企业转向务实的“小模型经济学”,这是继续扩大AI使用的前提。

http://www.jsqmd.com/news/1110919/

相关文章:

  • 如何3分钟搞定QQ空间数据备份:GetQzonehistory智能导出工具完整指南
  • STM32F439ZG与DS28EC20 1-Wire EEPROM嵌入式存储方案
  • 如何通过HWInfo插件实现FanControl智能风扇控制:完整配置指南
  • 2026论文写作新利器!5款AI论文软件实测,从框架到内容一步到位
  • 苹果提前发布系统更新修复 29 个安全漏洞,归咎于人工智能威胁!
  • SpaceX收购后Cursor推iOS版应用,可语音启动Agent但遭用户吐槽Bug多
  • 2026年构建 AI 交易机器人的最佳加密APIs
  • 无限维系统模型降阶:从插值投影到H2最优逼近的工程实践
  • 工程办公管理软件如何破解成本失控与回款扯皮?三个落地切口
  • Claude归零层解析:语义保真度校验环的工程消除与能力密度跃升
  • 注册商标找哪家代理机构公司好?2026靠谱代理机构筛选与性价比下证白皮书
  • YOLOv8工业视觉实战:从模型优化到RK3588边缘部署全解析
  • GPT-4稀疏激活原理:2%参数如何实现万亿级模型高效推理
  • 经典蓝牙技术综述
  • 终极游戏库管理指南:如何用Playnite统一你的所有游戏平台
  • Three.js 变换 Box3教程
  • Agent Runtime:AI 应用的“操作系统时刻”已到来
  • 扎根向下、向阳而上:植物感知重力的分子密码
  • 这是关于选择器
  • 经济模型预测控制在周期性最优运行中的稳定性与性能分析
  • 计算机Java毕设实战-基于 SpringBoot 的瑜伽普拉提综合会馆运营管理系统 基于 SpringBoot 的健身会所课程预约管理系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 良率工程实战:从72%到89%的完整爬坡路径
  • AI增强型SOC工作流:三层架构实现人机协同实战
  • 山西干冰医用冷藏
  • 【Java从入门到精通】第11篇:内部类的四种形态——成员内部类、静态内部类、局部内部类与匿名内部类
  • 基于边缘计算与多模态AI的认知症护理机器人系统设计与实践
  • PyCaret 低代码机器学习库简介
  • 前端响应式原理与DOM优化实战:从defineProperty到虚拟DOM
  • 从Samba漏洞到Jenkins沦陷:CVE-2017-7494攻击链深度剖析与防御实践
  • 2026毕业季救星!6款AI论文工具实测,从框架到初稿一路畅写