当前位置：首页 > news >正文

简单任务用便宜模型，关键镜头上高质量模型：模型路由到底怎么把 AI 成本打下来

news 2026/7/28 7:24:10

很多 AI 应用成本高，不是因为模型一定贵，而是因为所有任务都被当成“关键任务”处理。分类、提取、改写、草稿、普通镜头、关键镜头、合规审校，本来就是不同价值密度的任务。把它们全部丢给最强模型，就像送外卖也开超跑，能到，但账单一定难看。

模型路由要解决的就是这个问题：在每一次模型调用之前，先判断任务类型、复杂度、风险、预算、延迟和质量要求，然后把请求分发给便宜模型、标准模型或高质量模型。简单任务不浪费，关键任务不省错。

一、为什么模型路由会变成 AI 应用的必修课？

过去做 AI 应用，很多团队最容易犯一个错误：选一个最强模型，然后让所有场景都用它。刚开始流量小，问题不明显；一旦用户量上来、上下文变长、Agent 开始多轮调用，成本会被迅速放大。

模型调用的账单不是只按“调用次数”算，而是由输入 token、输出 token、模型单价、重试次数、工具调用次数、上下文长度、缓存命中率共同决定。Agent 场景尤其明显：一次看似简单的“帮我改代码”或者“帮我生成视频脚本”，背后可能发生多次规划、检索、读文件、调用工具、生成、审校和重试。

公开研究和云厂商产品也在朝这个方向走。RouteLLM 提出的思路是根据请求动态选择强模型和弱模型，在尽量不损失质量的前提下降低成本；FrugalGPT 更早提出了 LLM Cascade，用更便宜的模型先处理，必要时再升级到更强模型；Amazon Bedrock 的 Intelligent Prompt Routing 也把“根据质量和成本动态路由请求”做成了托管能力。

二、最通俗的理解：模型路由就是 AI 版“分诊台”

医院不会让所有病人一进门就直接找顶级专家。普通感冒先去普通门诊，疑难杂症再转专家，危急病人进急诊。AI 模型也一样。不是每个请求都需要最强推理能力，不是每个镜头都值得用最贵的视频模型，不是每段文字都需要专家级审校。

在 AI 系统里，模型路由通常分三层：

第一层是便宜模型：用于分类、意图识别、关键词提取、简单摘要、格式转换、草稿生成。它的任务是快速处理大部分低风险请求。

第二层是标准模型：用于常规问答、RAG 生成、代码解释、文案改写、脚本整理、多轮对话。它是系统的默认主力。

第三层是高质量模型：用于复杂推理、关键镜头生成、最终审校、合规判断、品牌口径、合同/金融/医疗等高风险任务。它不一定调用最多，但应该被用在最值钱的位置。

三、“关键镜头”为什么要上高质量模型？

用户提到“简单任务用便宜模型，关键镜头用高质量模型”，这个例子非常典型。因为内容生成类应用不是每一步都同等重要。以短视频、广告片、数字人视频、图文混剪为例，真正决定质感和转化的，往往不是所有镜头，而是封面、开头 3 秒、产品特写、情绪转折、人物高光、成交按钮前的关键画面。

普通过渡镜头只要风格一致、信息不乱，就可以用便宜模型或标准模型生成；但主视觉镜头、封面图、人物表情、产品质感、品牌露出，一旦失败，返工成本会远远高于模型调用成本。这个时候上高质量模型，不是浪费，而是减少返工。

四、怎么判断一个任务该用哪个模型？先打标签，再打分

模型路由不能只靠“感觉”。第一步应该给请求打标签：任务类型、风险等级、用户等级、上下文长度、是否需要工具、是否需要多模态、是否影响最终交付、是否可以失败重试。

一套可落地的标签体系可以这样设计：

标签维度	低风险示例	中风险示例	高风险示例
任务类型	关键词提取、分类	文案改写、RAG 问答	合同审校、关键镜头、最终代码提交
错误代价	错了可重试	错了会返工	错了影响成交、合规或线上事故
上下文长度	短文本	多轮对话 / 多文档	长代码仓库 / 长视频脚本 / 法务材料
输出位置	中间草稿	用户可见内容	最终发布 / 自动执行 / 对外承诺
推荐模型	便宜模型	标准模型	高质量模型 + 审校

第二步是做复杂度评分。最简单的做法是规则分：任务难度、错误代价、业务价值、上下文长度、实时性要求、用户等级，各给一个分数，最后加权求和。分数低走便宜模型，分数中等走标准模型，分数高走高质量模型。

五、五种模型路由策略：从简单到高级

1. 规则路由：最适合第一版上线

规则路由就是根据 task_type、risk_level、user_tier、output_position 直接分流。例如：分类、提取、简单摘要走便宜模型；RAG 问答、脚本改写走标准模型；合规审校、关键镜头、最终代码修改走高质量模型。

它的优点是可解释、好排查、上线快；缺点是不够灵活，遇到边界问题可能判断不准。第一版模型路由应该优先做规则路由，因为它能立刻把“所有请求都打到一个模型”的混乱状态拆开。

2. 分类器路由：先判断难度，再分配模型

分类器路由会先用一个小模型或轻量分类器判断请求复杂度，比如“简单/中等/困难”“低风险/高风险”“是否需要长上下文”“是否需要工具调用”。分类器本身很便宜，但它可以决定后面是否调用贵模型。

这种方式适合请求种类多、规则不好维护的业务，例如智能客服、AI 编程助手、内容生成平台。

3. 级联路由：先用便宜模型，不行再升级

级联路由是最有性价比的路线。系统先让便宜模型尝试回答，再由验证器检查质量。如果格式正确、置信度高、风险低，就直接返回；如果答案不完整、引用不足、格式错误、涉及关键场景，就升级到高质量模型。

4. 投票/自一致路由：关键问题多看几眼

对关键任务，可以让多个模型或同一模型多次生成，再用审校模型或规则选择最可靠的答案。它不一定便宜，但适合高价值场景：合同条款、金融风控、医疗建议、品牌内容发布、复杂代码变更。

5. 在线学习路由：用反馈持续调阈值

当系统有足够请求量后，可以根据用户反馈、人工评分、返工率、升级率、延迟、成本等数据，持续优化路由阈值。哪些任务便宜模型已经足够，哪些任务必须强模型兜底，应该让数据来证明。

六、成本账怎么算？别只看单次调用价格

模型路由真正要优化的是总成本，而不是某一次调用的价格。总成本可以粗略拆成：模型 token 成本 + 重试成本 + 工具调用成本 + 人工返工成本 + 事故成本。便宜模型如果导致大量重试、返工和差评，最后可能更贵。高质量模型如果只用在关键位置，反而能降低总成本。

一个简单公式是：

总成本 = 输入Token×输入单价 + 输出Token×输出单价 + 重试次数×平均成本 + 人工返工成本 + 风险损失
路由收益 = 全部高质量模型成本 - 路由后总成本 - 质量损失成本

因此，模型路由的目标不是“尽量少用贵模型”，而是“贵模型只用在贵的地方”。

七、上线前必须有评估闭环，否则就是静默降级

模型路由最危险的地方在于：成本真的降了，但质量也悄悄掉了。用户不一定马上投诉，但会少点击、少转化、少续费，业务最后才发现“省下来的钱不如丢掉的转化”。

所以路由上线必须同时看五类指标：质量、成本、延迟、升级率、业务结果。尤其是关键任务，要建立人工评估集和回归测试集，不能只靠模型自己说“我答得很好”。

质量指标：正确率、人工评分、关键镜头通过率、事实引用率、JSON 解析成功率。

成本指标：单请求成本、单任务成本、模型调用占比、缓存命中率、重试成本。

延迟指标：P50/P95、首字延迟、工具调用耗时、升级后总耗时。

路由指标：便宜模型命中率、升级率、兜底率、失败率、人工介入率。

业务指标：点击率、转化率、用户满意度、返工率、发布通过率。

八、工程落地：一套最小可用模型路由方案

如果你是 Java 做业务系统、Python 做 AI 服务，可以这样落地：Java 侧负责业务请求、权限、订单、用户等级、日志；Python 侧负责模型调用、路由策略、Prompt 模板、评估器、工具调用。中间用 AI Gateway 统一封装模型。

最小可用链路如下：

业务层传入 task_type、user_id、scene_id、risk_level、input_text、budget_hint。

路由层根据规则或分类器生成 complexity_score。

策略引擎从模型池里选择 cheap / standard / premium。

执行层调用对应模型，并记录 token、耗时、模型版本、prompt 版本。

验证器检查格式、事实、置信度、风险命中。

如果不通过，自动升级模型或转人工。

日志回流到数据表，用于按天复盘成本和质量。

九、伪代码：一个可复制的路由函数

def route(request):

features = extract_features(request)

score = complexity_score(features)

if features.risk_level == "high" or features.output_position == "final":

model = "premium"

elif score < 40:

model = "cheap"

elif score < 70:

model = "standard"

else:

model = "premium"

result = call_model(model, request)

check = verify(result, request)

if not check.passed and model != "premium":

result = call_model("premium", request, reason="fallback_upgrade")

log_route(request, model, score, check, result)

return result

这段伪代码看起来简单，但已经覆盖了生产里最重要的几个动作：特征提取、复杂度评分、模型选择、质量验证、失败升级、日志记录。复杂系统可以在这个基础上继续加缓存、灰度、A/B、人工抽检和在线学习。

十、模型路由的常见坑

第一个坑，是只按价格路由。价格最低不等于成本最低，因为错一次可能要重试三次，还要人工修。第二个坑，是没有升级机制。便宜模型答得不好，应该自动升级，而不是直接把低质量结果返回给用户。第三个坑，是没有日志。没有日志，就不知道哪类任务被错误分流，也无法复盘成本。

第四个坑，是所有模型共用一套 Prompt。便宜模型需要更清晰、更短、更结构化的提示词；高质量模型可以承担更复杂的上下文和更细的约束。如果 Prompt 不分层，模型路由的效果会大打折扣。

十一、适合不同业务的路由模板

业务场景	便宜模型	标准模型	高质量模型
智能客服	意图分类、FAQ 初筛	RAG 生成、工单总结	投诉、赔偿、法律风险回复
AI 编程	代码解释、文件搜索	普通 bug 修复、单文件改造	多文件重构、提交前审查
内容生成	标题草稿、素材摘要	正文改写、脚本生成	封面、关键镜头、品牌审校
企业知识库	问题改写、检索 Query	答案生成、引用整合	高管报告、对外材料
销售助手	线索分类、话术草稿	客户跟进建议	报价、合同、关键客户方案