面向token编程,一夜百万账单,还能抗的住吗?
最近经常听到说现在token的成本已经超过人工了,意味着养一个后端工程师甚至比Vibe Coding更便宜。
Uber就是个典型的例子,5000名工程师人均token账单500-2000美元,四个月用完了全年的AI预算,算一算帐,上千万美金的AI费用,可以养活多少工程师。
还有的企业没有对token限流,导致一夜之间几十、上百万token账单。
花了很多钱后,Agent的产出是什么样呢?现在Github上上星很快的开源项目多是纯Vibe coding,但翻车的不少,用户体验并不好。
比如像前段时间的DeepSeekTUI,这是老美一个音乐专业的学生用AI手搓的Coding Agent(和DeepSeek没什么关系),虽然已经很厉害,但实际用起来bug非常多。
这就引出了Agent的2个瓶颈,上下文碎片化和可验证性缺失。
这是Notion创始人Ivan Zhao在文章中《Steam, Steel, and Infinite Minds》中提出的,几乎是现在各种Agent的通病。
上下文碎片化会导致3个问题。
1、token消耗奇高。因为信息到处分散,数据库、云文档、本地文件等,Agent为了查全信息会塞进超长的上下文,每次请求都会浪费很多token。
如果你用过OpenClaw龙虾,相信会有这样的体会,让它翻译个ppt内容,可能几块钱没了。
2、容易出错,说胡话。上下文不足,或者上下文太长,AI就会胡编乱造,像豆包就会经常出现幻觉。
3、成果很难落地。Agent只会在有限的框框里去完成任务,它不知道一件事的前因后果,背景细节,开发一个货物瑕疵检测小工具容易,但是搭建物流系统就很难,因为涉及很多的流程、规范、变数。
Ivan Zhao的原话是:
聊天、战略文档、仪表盘数据、只存在老员工脑子里的隐性组织经验;现在人类充当 “人肉胶水”,靠复制粘贴、切换浏览器标签拼凑信息。上下文无法统一聚合前,AI Agent 永远被困在碎片化小场景,做不了全链路工作。
举个很简单的例子,你让Agent去修复某张数仓表的bug,告诉它这张表的结构、用途,Agent确实把问题解决了,能run起来,但是另一张下下下游表却出bug,因为某字段字段属性/逻辑被更改,导致无法关联。
结果不可验证同样是致命的问题。
Code 可通过单元测试、运行报错客观验证对错,因此编程 AI 能靠强化学习持续迭代变强;但项目管理、战略方案、业务汇报没有统一客观评判标准,没法量化好坏,AI 缺少闭环反馈,无法自主优化能力,必须人类全程人工校验兜底。
意思是说,Agent执行非代码任务,没有办法自己纠错,因为没有评判标准,遇到问题不会自动停任务,只会反复重试,不断循环,这样会拉爆token。
写代码其实也会出现同样问题,Agent确实会单元测试,但是一个代码项目涉及相当多的业务流程、复杂的判断、循环,Agent虽然能知道哪里有语法bug,但是不知道每个模块之间的业务联系。
所以现在很多AI项目代码出现屎山的情况,需要大量程序员去维护、调试。
我理解针对上下文碎片化和可验证性缺失的瓶颈,解决方案会越来越多,不然也不会出现Claude Code和Codex独树一帜的局面,它们的优化做的确实好。
所以我对Agent的发展是积极乐观的,不光编程,未来大部分工作都可能有Agent参与进来。
