当前位置：首页 > news >正文

AI 编程的账单真凶，可能不是模型

news 2026/7/1 22:12:22

AI 编程真正贵起来，可能不是因为它“写了很多代码”，而是因为它在背后跑了太多轮。

这篇论文叫TraceLab: Characterizing Coding Agent Workloads for LLM Serving，6 月 29 日提交到 arXiv，6 月 30 日更新到 v2。作者团队拿到的不是那种标准 benchmark，而是真实日常使用里的 Claude Code 和 Codex 记录。

数据量不小：

4,265 个 coding-agent 会话
43 位开发者
357,161 次 LLM step
432,510 次工具调用
549 亿输入 token

看到这里，很多人第一反应可能是：那不就是模型调用多吗？

但 TraceLab 真正有意思的地方，不在“调用多”，而在它拆开了 AI 编程的真实工作方式。

以前我们想象 AI 编程，脑子里大概是这样的：

你给它一个需求，它想一下，吐一段代码。

但真实的 coding agent 不是这样工作的。

它更像一个小型开发者，在你的项目里来回跑：

先读文件，再搜上下文，再改代码，再跑命令，再看报错，再改，再跑测试，再读新的文件，再继续下一轮。

也就是说，账单不是一次回答产生的。

账单是循环产生的。

论文里提到，平均一个请求会触发大约 8.8 次 LLM 调用、10.8 次工具调用。一个请求平均要跑 4.3 分钟，p90 超过 6.4 分钟。

这就很像什么？

像你请了一个助手，不是让他“写一页文档”，而是让他在办公室里来回跑腿。每跑一步，都要刷一次卡。

更关

http://www.jsqmd.com/news/1105048/

相关文章：

Claude架构层归零：从隐式约束到显式可控的AI应用重构

基于Emoji映射的趣味编码器：从古典密码到现代通信的轻量级信息隐蔽实践

Python+Pytest接口自动化测试框架：从分层设计到工程化实践

从零实现RSA算法：深入理解非对称加密的核心原理与工程实践

大模型自我反思机制：结构化校验提升AI输出准确性

Anthropic协议内生治理：推理编排层为何正在归零

2026年保姆级毕业论文降AI教程：5步把知网AI率从83%压到4%，免费照抄

GPT-4稀疏激活真相：万亿参数模型的MoE动态路由与工程实践

Counterfeit-V3.0：突破AI绘画构图限制的Stable Diffusion解决方案

Delphi XE2集成GmSSL实现SM2国密算法，打通与Web后端的安全通信

GLM-5 Pro：从代码补全到系统架构师的AI范式跃迁

基于Unsloth微调大模型，实现Spring Boot单元测试自动化生成

Claude底层架构解析：长上下文稳定性与宪法式对齐设计

MANO手部模型：用45个参数重构人类手部的数字魔法

Claude长上下文记忆的数学本质：状态压缩与动态重建

3分钟掌握VK视频下载神器：永久保存你喜欢的VK视频内容

CryptoSwift自定义填充模式：三步实现ZeroPadding等非标加密对接

从零构建PHP靶场：深入理解SQL注入、文件上传等五大Web安全漏洞

RAG事件预测：用信号捕手思维做趋势研判

Mythos门控推理：可审计、可追溯的多步逻辑闭环能力

给Transformer加外置记忆体：零微调支持262K长上下文

Java实现MD5算法：从原理到工程实践与安全考量

大模型自我反思机制：构建可信AI输出的工程化路径

抖音音频下载终极教程：5分钟学会免费提取热门BGM

C++实现Hill密码：从矩阵运算到古典密码编程实践

腾讯Soter服务端签名验证：Java实现与安全实践详解

GPTs不是提示词，而是可复用的AI工作流封装体

主流AI UI原型生成工具深度对比报告：6款工具实测横评

大模型推理‘校验层’归零：从Softmax到Logits蒸馏的技术演进

Gemini 3.1 Pro如何填平大模型四大体验暗坑