额度对半砍?腾讯、字节员工发现,大模型Token额度正在“降本增效”
🔥个人主页:代码不加冰(欢迎来访)
🎬作者简介:java后端学习者
❄️个人专栏:LeetCode刷题日记 , 苍穹外卖日记,SSM框架深入,JavaWeb,
✨命运的结局尽可永在,不屈的挑战却不可须臾或缺!
大家好,我是代码不加冰,这里给大家分享一个最近比较热点的内容。
从“随便用”到“省着用”,只隔了一次预算复盘会
如果你在腾讯或者字节工作,最近可能已经注意到了:
上个月还能随意调用的混元、豆包大模型API,这个月突然开始“限额”了。原本每月几十万甚至上百万Token的免费额度,被悄悄下调到了几万。有的部门甚至直接取消了员工个人调用权限,统一收归到“按项目申请”。
不是传言。这是正在发生的事情。
以前随便跑,现在跑之前要想想
一位腾讯某事业群的员工向笔者吐槽:
“去年我们做一个需求,随手写个脚本调混元API跑几百条数据做测试,很常见的事。那时候觉得大模型就是工具箱里的一把扳手,想用就用。但这两个月不行了。部门的Token额度被砍了大约70%,现在跑一次批量测试之前,要先想清楚:真的需要跑全量吗?能不能抽样?能不能用规则代替?”
字节跳动的情况类似。一位来自抖音业务线的产品经理说:“豆包的额度以前基本是放开的,我们做A/B测试、做内容评估,大量依赖大模型辅助。上个月底收到通知,个人账号的每日调用上限从10万Token降到了2万。说实话,2万Token听着不少,但你要是跑几十条视频摘要,很快就没了。”
这不是个例,是“降本增效”进入深水区
2023年到2024年,国内大厂在大模型上是不计成本投入的。内部员工用自家模型——那叫“肥水不流外人田”,鼓励用、放开用。一方面是为了测试模型能力,另一方面也是一种员工福利。
但到了2026年,风向变了。
“降本增效”这个词,从2023年喊到现在,前面砍的是差旅、福利、外包预算。现在,轮到大模型了。
原因很直接:
第一,大模型调用不是免费的。即使是对内调用,也要消耗计算资源。GPU服务器、电费、运维成本,这些都是真金白银。过去两年,很多公司的内部API成本翻了几倍甚至十几倍——因为用的人越来越多、用的场景越来越杂。
第二,很多内部调用其实是不必要的。产品经理拿大模型写周报、工程师让大模型写不重要的测试用例、运营让大模型批量生成标题……这些需求在“放开用”的时候看起来很合理,但一算账,加起来是个惊人的数字。
第三,预算收缩了。2026年,大多数互联网公司的增长预期都调低了,预算自然跟着收紧。大模型作为一个相对新兴的成本项,又不像服务器、带宽那样是“刚需”,自然成了被优化的对象。
大厂的逻辑变了:从“放开用”到“用在刀刃上”
腾讯和字节内部传递的信号是类似的:不是不用,是要聪明地用。
具体怎么操作?我了解到几种做法:
1. 分层配额制
不同岗位、不同职级的员工,获得不同的Token额度。核心研发团队额度高,边缘支持岗位额度低。需要更多?走审批流程,说明业务价值和预期收益。
2. 场景分级
一些明显的“低价值”场景被直接限制或禁止。比如用大模型写内部周报、生成演讲稿、润色无关紧要的内部沟通消息——这些被视为“滥用”。而真正产生业务价值的场景(如代码辅助、数据分析、用户洞察)保留优先使用权。
3. 内部成本可视化
以前员工调用API,看不到成本,感觉像免费的。现在很多公司开始做“成本看板”——你调一次大模型,花了公司多少钱,清清楚楚写在监控页面上。
一位腾讯员工展示了他收到的内部邮件截图:“尊敬的同事,您上个月API调用量超过部门平均值的300%,产生成本约XX元。建议您在调用前确认是否必要。”
别小看这个数字。当你亲眼看到自己“随手一跑”花了公司几十块钱的时候,行为会自然收敛。
4. 强制使用更便宜的模型
很多公司内部同时部署了多个版本的大模型:顶配版(千亿参数)、标准版(百亿参数)、轻量版(几十亿参数)。
新规之下,默认调用的是轻量版。只有明确需要复杂推理的任务,才可以申请使用顶配版。大多数日常任务,轻量版完全够用——但员工以前不管,哪个顺手用哪个。
员工怎么看:从“不适应”到“理解,但有点不爽”
对于这个变化,员工的态度分化明显。
一部分人觉得合理:
“说实话,以前确实有点浪费。我自己就经常让大模型帮我写一些其实不需要那么高智能的东西,比如给同事发消息润个色什么的。现在想想确实没必要。”——字节某工程师
“公司不是慈善机构。大模型服务器多贵啊,如果每个人都不节制,最后成本还不是摊到业务头上?业务不赚钱,年终奖从哪来?”——腾讯某产品运营
另一部分人则不太满意:
“我觉得这是‘既要马儿跑,又要马儿不吃草’。公司天天喊着要用AI提效,我们真的去用了,又开始限制额度。到底要不要我们用?”——某大厂匿名员工在内部论坛发帖
“额度降了之后,我现在做数据分析会犹豫。以前可以放心大胆地让模型跑各种角度,现在得先自己想一遍,只把最拿不准的地方交给模型。效率至少掉了30%。”——字节某数据分析师
还有一层隐忧:额度限制会不会影响创新?
“很多好的创意就是试出来的。你让我先审批再测试,那试错成本就高了。不敢试,就出不了新东西。”——腾讯某创新项目组成员
这其实是一个必然的阶段
冷静下来看,这件事并不意外。
任何一项新技术在企业内部的普及,都会经历三个阶段:
第一阶段:尝鲜期。技术新、成本高、使用者少。公司鼓励用,不计成本。
第二阶段:滥用期。人人都想试试,各种场景一拥而上。成本开始失控。
第三阶段:理性期。公司开始算账,明确“什么场景该用、什么场景不该用”,建立规则。
大模型现在正处在从“第二阶段”到“第三阶段”的转折点上。Token额度下调,不是公司“不给用了”,而是公司在学习如何聪明地用。
这也是健康的。如果放任成本无限增长,最后的结果反而是整个项目被砍掉。现在控制一下,细水长流,对所有人都好。
总结一下
腾讯、字节最近调整内部大模型Token额度,本质上释放了几个信号:
大模型不再是“免费的午餐”。即使是自家的模型,使用也有成本,而且这个成本正在被量化、被看见、被管理。
“降本增效”进入细颗粒度阶段。从砍人头、砍福利,细化到砍API调用次数。说明公司的成本管理在变得越来越精细。
员工需要学会“聪明地用AI”。不是所有任务都需要大模型,不是所有大模型调用都需要顶配版。这个认知,正在从“建议”变成“规定”。
对普通员工来说,短期会有些不适。但从长远看,这恰恰说明大模型已经从“花架子”变成了“真工具”——当一个东西开始被严格管起来的时候,恰恰说明它真的有用。
而那些抱怨“额度不够”的人,也许应该问自己一个问题:我之前用掉的那些Token,到底创造了多少真实价值
如果答案是模糊的,那额度降了,也许不是坏事。
