当前位置：首页 > news >正文

大模型 API 调用成本优化：从 Token 计算到智能路由省 60% 费用

news 2026/7/30 1:04:01

一个日均 10 万次调用的项目，月费从 $3000 降到 $1200，没有降低服务质量。本文分享我们的完整优化路径。

先搞清楚钱花在哪

大模型 API 的计费模型很简单：按 token 付费，input 和 output 分别计价。

费用 = input_tokens × input_price + output_tokens × output_price

Token 是什么？大概来说，英文约 4 个字符 = 1 token，中文约 1.5-2 个字符 = 1 token。一句 “写一篇 500 字的产品介绍” 大约消耗 10 个 input token，生成的 500 字大约消耗 350 个 output token。

为什么要区分 input 和 output？因为生成 token 比读取 token 计算量更大，所以 output 单价普遍是 input 的 3-5 倍。这意味着控制输出长度往往比压缩 prompt 更划算。

主流模型定价对比（2025 Q1，USD/百万 token）

模型	Input	Output	定位
GPT-5.2	$1.75	$14	OpenAI 旗舰
GPT-5	$1.25	$10	OpenAI 推理
Claude Opus 4.6	$5	$25	Anthropic 旗舰
Claude Sonnet 4.6	$3	$15	Anthropic 均衡
Claude Haiku 4.5	$1	$5	Anthropic 快速
Claude Haiku 3.5	$0.80	$4	Anthropic 经济
Gemini 3.1 Pro	$2	$12	Google 旗舰
Gemini 2.5 Flash	$0.30	$2.50	Google 均衡
Gemini 2.5 Flash Lite	$0.10	$0.40	Google 经济
Gemini 2.0 Flash Lite	$0.075	$0.30	极低成本
DeepSeek V3	~$0.27	~$1.10	开源高性价比

关键洞察：从最贵到最便宜，价格相差 20-60 倍。如果你的所有请求都跑在 Claude Opus，而其中 80% 的任务用 Haiku 也能完成，你在白白多花 5 倍的钱。

优化策略一：选对模型

这是最大的杠杆，没有之一。

先把业务请求按复杂度分层：

简单任务（用便宜模型）

意图识别、实体抽取
文本分类、情感分析
简单 QA、FAQ 匹配
格式转换、模板填充

中等任务（用均衡模型）

文档摘要、内容改写
代码补全（片段级）
多轮对话助手
翻译（专业领域）

复杂任务（用旗舰模型）

完整功能模块的代码生成
复杂推理、多步骤规划
长文档深度分析
需要反思和修正的 Agentic 任务

举例：一个客服机器人，意图识别用 Gemini 2.0 Flash Lite（$0.075/$0.30），回复生成用 Claude Haiku 4.5（$1/$5），升级复杂问题时才调用 Claude Sonnet（$3/$15）。三个层次组合使用，比全程用 Claude Sonnet 便宜 60-70%。

优化策略二：Prompt 工程减少 Token

Prompt 优化是最容易被忽视的成本点。一个写得啰嗦的系统提示，每次请求都在白白消耗 input token。

具体做法：

1. 压缩系统提示

反面案例（~200 tokens）：

你是一个非常专业的、有丰富经验的客服助理，你的工作是帮助用户解决问题。 你应该始终保持礼貌和专业的态度，用清晰易懂的语言回答用户的问题。 如果你不知道答案，你应该诚实地告诉用户，并建议他们联系人工客服。 请用中文回答所有问题。

正面案例（~50 tokens）：

你是客服助手，用中文简洁回答问题。不确定时建议联系人工客服。

效果完全等价，节省 75% 的系统提示 token。日均 10 万次调用，每次节省 150 tokens，一个月节省 4.5 亿 tokens。

2. 精简 Few-Shot 示例

Few-shot 是提升效果的好工具，但例子不是越多越好。2-3 个高质量示例通常比 10 个普通示例效果更好，而且成本低很多。

3. 避免在每次请求里重复传递大型上下文

如果你的应用每次都把完整的用户历史记录塞进 context，这会让 input token 快速膨胀。考虑使用滑动窗口——只保留最近 N 轮对话，或者先做一次摘要再传递。

Anthropic 的 Prompt Caching 功能值得利用：把固定的系统提示和文档放到缓存，后续请求复用缓存内容只需支付 10-30% 的 cache read 费用，而不是每次都支付完整 input 费用。

优化策略三：智能路由

如果你已经在用 AI API 网关，这是成本优化的进阶玩法。

按任务复杂度动态路由：

不需要等模型生成完才知道任务难度，很多情况下可以在请求阶段就判断：

请求里包含大量代码 → 可能是复杂任务，路由到旗舰模型
纯文字问答，长度 < 100 字 → 大概率是简单任务，路由到经济模型
带有tools参数（函数调用）→ 结构化输出要求高，用支持度更好的模型

基于成本的路由算法：

在多个 provider 都支持同一个标准模型时，优先选当前成本最低的路由。比如anthropic/claude-sonnet-4.6可以通过 Anthropic 直连或 AWS Bedrock 调用，两者成本略有差异（取决于 AWS 合同价格和 Anthropic 零售价的比较），网关层可以自动选更便宜的。

在 TheRouter 里，路由算法可以在priority（按优先级）和lowest_cost（按成本）之间切换，也可以通过请求参数provider.order指定偏好顺序。

优化策略四：缓存相似请求

对于重复性高的场景，语义缓存可以直接跳过模型调用。

完全一致的请求（哈希缓存）：内容完全相同的请求直接返回缓存结果，成本为零。适合 FAQ、固定模板的批量任务。

语义相似的请求（向量缓存）：先把请求 embedding，和缓存库里的历史请求做相似度比较，超过阈值（比如 0.95）就返回缓存。实现成本稍高，但对用户查询场景效果显著。

注意事项：缓存会牺牲实时性。如果你的场景对内容时效性要求高（比如查询最新股价），或者响应强依赖当前时间、用户状态，就不适合做语义缓存。

一个电商客服场景实测：对 “这个商品能退货吗” 类的问题，70% 以上的查询通过语义缓存命中，当天的 API 调用量直接减少了一半。

优化策略五：用 max_tokens 控制输出长度

这是最容易操作但最常被忽略的优化点。

output token 贵，那就别让模型无限生成。大多数任务都有合理的输出上限：

# 意图识别 - 最多返回 50 tokensresponse=client.chat.completions.create(model="anthropic/claude-haiku-4.5",messages=[...],max_tokens=50# 明确限制)# 摘要任务 - 限制在 200 tokens 以内response=client.chat.completions.create(model="anthropic/claude-sonnet-4.6",messages=[{"role":"user","content":"用 150 字以内总结以下文章：..."}],max_tokens=200)