当前位置: 首页 > news >正文

AI 编程的账单真凶,可能不是模型


AI 编程真正贵起来,可能不是因为它“写了很多代码”,而是因为它在背后跑了太多轮。

这篇论文叫TraceLab: Characterizing Coding Agent Workloads for LLM Serving,6 月 29 日提交到 arXiv,6 月 30 日更新到 v2。作者团队拿到的不是那种标准 benchmark,而是真实日常使用里的 Claude Code 和 Codex 记录。

数据量不小:

  • 4,265 个 coding-agent 会话
  • 43 位开发者
  • 357,161 次 LLM step
  • 432,510 次工具调用
  • 549 亿输入 token

看到这里,很多人第一反应可能是:那不就是模型调用多吗?

但 TraceLab 真正有意思的地方,不在“调用多”,而在它拆开了 AI 编程的真实工作方式。

以前我们想象 AI 编程,脑子里大概是这样的:

你给它一个需求,它想一下,吐一段代码。

但真实的 coding agent 不是这样工作的。

它更像一个小型开发者,在你的项目里来回跑:

先读文件,再搜上下文,再改代码,再跑命令,再看报错,再改,再跑测试,再读新的文件,再继续下一轮。

也就是说,账单不是一次回答产生的。

账单是循环产生的。

论文里提到,平均一个请求会触发大约 8.8 次 LLM 调用、10.8 次工具调用。一个请求平均要跑 4.3 分钟,p90 超过 6.4 分钟。

这就很像什么?

像你请了一个助手,不是让他“写一页文档”,而是让他在办公室里来回跑腿。每跑一步,都要刷一次卡。

更关

http://www.jsqmd.com/news/1105048/

相关文章:

  • Claude架构层归零:从隐式约束到显式可控的AI应用重构
  • 基于Emoji映射的趣味编码器:从古典密码到现代通信的轻量级信息隐蔽实践
  • Python+Pytest接口自动化测试框架:从分层设计到工程化实践
  • 从零实现RSA算法:深入理解非对称加密的核心原理与工程实践
  • 大模型自我反思机制:结构化校验提升AI输出准确性
  • Anthropic协议内生治理:推理编排层为何正在归零
  • 2026年保姆级毕业论文降AI教程:5步把知网AI率从83%压到4%,免费照抄
  • GPT-4稀疏激活真相:万亿参数模型的MoE动态路由与工程实践
  • Counterfeit-V3.0:突破AI绘画构图限制的Stable Diffusion解决方案
  • Delphi XE2集成GmSSL实现SM2国密算法,打通与Web后端的安全通信
  • GLM-5 Pro:从代码补全到系统架构师的AI范式跃迁
  • 基于Unsloth微调大模型,实现Spring Boot单元测试自动化生成
  • Claude底层架构解析:长上下文稳定性与宪法式对齐设计
  • MANO手部模型:用45个参数重构人类手部的数字魔法
  • Claude长上下文记忆的数学本质:状态压缩与动态重建
  • 3分钟掌握VK视频下载神器:永久保存你喜欢的VK视频内容
  • CryptoSwift自定义填充模式:三步实现ZeroPadding等非标加密对接
  • 从零构建PHP靶场:深入理解SQL注入、文件上传等五大Web安全漏洞
  • RAG事件预测:用信号捕手思维做趋势研判
  • Mythos门控推理:可审计、可追溯的多步逻辑闭环能力
  • 给Transformer加外置记忆体:零微调支持262K长上下文
  • Java实现MD5算法:从原理到工程实践与安全考量
  • 大模型自我反思机制:构建可信AI输出的工程化路径
  • 抖音音频下载终极教程:5分钟学会免费提取热门BGM
  • C++实现Hill密码:从矩阵运算到古典密码编程实践
  • 腾讯Soter服务端签名验证:Java实现与安全实践详解
  • GPTs不是提示词,而是可复用的AI工作流封装体
  • 主流AI UI原型生成工具深度对比报告:6款工具实测横评
  • 大模型推理‘校验层’归零:从Softmax到Logits蒸馏的技术演进
  • Gemini 3.1 Pro如何填平大模型四大体验暗坑