简单任务用便宜模型,关键镜头上高质量模型:模型路由到底怎么把 AI 成本打下来
很多 AI 应用成本高,不是因为模型一定贵,而是因为所有任务都被当成“关键任务”处理。分类、提取、改写、草稿、普通镜头、关键镜头、合规审校,本来就是不同价值密度的任务。把它们全部丢给最强模型,就像送外卖也开超跑,能到,但账单一定难看。
模型路由要解决的就是这个问题:在每一次模型调用之前,先判断任务类型、复杂度、风险、预算、延迟和质量要求,然后把请求分发给便宜模型、标准模型或高质量模型。简单任务不浪费,关键任务不省错。
一、为什么模型路由会变成 AI 应用的必修课?
过去做 AI 应用,很多团队最容易犯一个错误:选一个最强模型,然后让所有场景都用它。刚开始流量小,问题不明显;一旦用户量上来、上下文变长、Agent 开始多轮调用,成本会被迅速放大。
模型调用的账单不是只按“调用次数”算,而是由输入 token、输出 token、模型单价、重试次数、工具调用次数、上下文长度、缓存命中率共同决定。Agent 场景尤其明显:一次看似简单的“帮我改代码”或者“帮我生成视频脚本”,背后可能发生多次规划、检索、读文件、调用工具、生成、审校和重试。
公开研究和云厂商产品也在朝这个方向走。RouteLLM 提出的思路是根据请求动态选择强模型和弱模型,在尽量不损失质量的前提下降低成本;FrugalGPT 更早提出了 LLM Cascade,用更便宜的模型先处理,必要时再升级到更强模型;Amazon Bedrock 的 Intelligent Prompt Routing 也把“根据质量和成本动态路由请求”做成了托管能力。
二、最通俗的理解:模型路由就是 AI 版“分诊台”
医院不会让所有病人一进门就直接找顶级专家。普通感冒先去普通门诊,疑难杂症再转专家,危急病人进急诊。AI 模型也一样。不是每个请求都需要最强推理能力,不是每个镜头都值得用最贵的视频模型,不是每段文字都需要专家级审校。
在 AI 系统里,模型路由通常分三层:
第一层是便宜模型:用于分类、意图识别、关键词提取、简单摘要、格式转换、草稿生成。它的任务是快速处理大部分低风险请求。
第二层是标准模型:用于常规问答、RAG 生成、代码解释、文案改写、脚本整理、多轮对话。它是系统的默认主力。
第三层是高质量模型:用于复杂推理、关键镜头生成、最终审校、合规判断、品牌口径、合同/金融/医疗等高风险任务。它不一定调用最多,但应该被用在最值钱的位置。
三、“关键镜头”为什么要上高质量模型?
用户提到“简单任务用便宜模型,关键镜头用高质量模型”,这个例子非常典型。因为内容生成类应用不是每一步都同等重要。以短视频、广告片、数字人视频、图文混剪为例,真正决定质感和转化的,往往不是所有镜头,而是封面、开头 3 秒、产品特写、情绪转折、人物高光、成交按钮前的关键画面。
普通过渡镜头只要风格一致、信息不乱,就可以用便宜模型或标准模型生成;但主视觉镜头、封面图、人物表情、产品质感、品牌露出,一旦失败,返工成本会远远高于模型调用成本。这个时候上高质量模型,不是浪费,而是减少返工。
四、怎么判断一个任务该用哪个模型?先打标签,再打分
模型路由不能只靠“感觉”。第一步应该给请求打标签:任务类型、风险等级、用户等级、上下文长度、是否需要工具、是否需要多模态、是否影响最终交付、是否可以失败重试。
一套可落地的标签体系可以这样设计:
标签维度 | 低风险示例 | 中风险示例 | 高风险示例 |
任务类型 | 关键词提取、分类 | 文案改写、RAG 问答 | 合同审校、关键镜头、最终代码提交 |
错误代价 | 错了可重试 | 错了会返工 | 错了影响成交、合规或线上事故 |
上下文长度 | 短文本 | 多轮对话 / 多文档 | 长代码仓库 / 长视频脚本 / 法务材料 |
输出位置 | 中间草稿 | 用户可见内容 | 最终发布 / 自动执行 / 对外承诺 |
推荐模型 | 便宜模型 | 标准模型 | 高质量模型 + 审校 |
第二步是做复杂度评分。最简单的做法是规则分:任务难度、错误代价、业务价值、上下文长度、实时性要求、用户等级,各给一个分数,最后加权求和。分数低走便宜模型,分数中等走标准模型,分数高走高质量模型。
五、五种模型路由策略:从简单到高级
1. 规则路由:最适合第一版上线
规则路由就是根据 task_type、risk_level、user_tier、output_position 直接分流。例如:分类、提取、简单摘要走便宜模型;RAG 问答、脚本改写走标准模型;合规审校、关键镜头、最终代码修改走高质量模型。
它的优点是可解释、好排查、上线快;缺点是不够灵活,遇到边界问题可能判断不准。第一版模型路由应该优先做规则路由,因为它能立刻把“所有请求都打到一个模型”的混乱状态拆开。
2. 分类器路由:先判断难度,再分配模型
分类器路由会先用一个小模型或轻量分类器判断请求复杂度,比如“简单/中等/困难”“低风险/高风险”“是否需要长上下文”“是否需要工具调用”。分类器本身很便宜,但它可以决定后面是否调用贵模型。
这种方式适合请求种类多、规则不好维护的业务,例如智能客服、AI 编程助手、内容生成平台。
3. 级联路由:先用便宜模型,不行再升级
级联路由是最有性价比的路线。系统先让便宜模型尝试回答,再由验证器检查质量。如果格式正确、置信度高、风险低,就直接返回;如果答案不完整、引用不足、格式错误、涉及关键场景,就升级到高质量模型。
4. 投票/自一致路由:关键问题多看几眼
对关键任务,可以让多个模型或同一模型多次生成,再用审校模型或规则选择最可靠的答案。它不一定便宜,但适合高价值场景:合同条款、金融风控、医疗建议、品牌内容发布、复杂代码变更。
5. 在线学习路由:用反馈持续调阈值
当系统有足够请求量后,可以根据用户反馈、人工评分、返工率、升级率、延迟、成本等数据,持续优化路由阈值。哪些任务便宜模型已经足够,哪些任务必须强模型兜底,应该让数据来证明。
六、成本账怎么算?别只看单次调用价格
模型路由真正要优化的是总成本,而不是某一次调用的价格。总成本可以粗略拆成:模型 token 成本 + 重试成本 + 工具调用成本 + 人工返工成本 + 事故成本。便宜模型如果导致大量重试、返工和差评,最后可能更贵。高质量模型如果只用在关键位置,反而能降低总成本。
一个简单公式是:
总成本 = 输入Token×输入单价 + 输出Token×输出单价 + 重试次数×平均成本 + 人工返工成本 + 风险损失
路由收益 = 全部高质量模型成本 - 路由后总成本 - 质量损失成本
因此,模型路由的目标不是“尽量少用贵模型”,而是“贵模型只用在贵的地方”。
七、上线前必须有评估闭环,否则就是静默降级
模型路由最危险的地方在于:成本真的降了,但质量也悄悄掉了。用户不一定马上投诉,但会少点击、少转化、少续费,业务最后才发现“省下来的钱不如丢掉的转化”。
所以路由上线必须同时看五类指标:质量、成本、延迟、升级率、业务结果。尤其是关键任务,要建立人工评估集和回归测试集,不能只靠模型自己说“我答得很好”。
质量指标:正确率、人工评分、关键镜头通过率、事实引用率、JSON 解析成功率。
成本指标:单请求成本、单任务成本、模型调用占比、缓存命中率、重试成本。
延迟指标:P50/P95、首字延迟、工具调用耗时、升级后总耗时。
路由指标:便宜模型命中率、升级率、兜底率、失败率、人工介入率。
业务指标:点击率、转化率、用户满意度、返工率、发布通过率。
八、工程落地:一套最小可用模型路由方案
如果你是 Java 做业务系统、Python 做 AI 服务,可以这样落地:Java 侧负责业务请求、权限、订单、用户等级、日志;Python 侧负责模型调用、路由策略、Prompt 模板、评估器、工具调用。中间用 AI Gateway 统一封装模型。
最小可用链路如下:
业务层传入 task_type、user_id、scene_id、risk_level、input_text、budget_hint。
路由层根据规则或分类器生成 complexity_score。
策略引擎从模型池里选择 cheap / standard / premium。
执行层调用对应模型,并记录 token、耗时、模型版本、prompt 版本。
验证器检查格式、事实、置信度、风险命中。
如果不通过,自动升级模型或转人工。
日志回流到数据表,用于按天复盘成本和质量。
九、伪代码:一个可复制的路由函数
def route(request):
features = extract_features(request)
score = complexity_score(features)
if features.risk_level == "high" or features.output_position == "final":
model = "premium"
elif score < 40:
model = "cheap"
elif score < 70:
model = "standard"
else:
model = "premium"
result = call_model(model, request)
check = verify(result, request)
if not check.passed and model != "premium":
result = call_model("premium", request, reason="fallback_upgrade")
log_route(request, model, score, check, result)
return result
这段伪代码看起来简单,但已经覆盖了生产里最重要的几个动作:特征提取、复杂度评分、模型选择、质量验证、失败升级、日志记录。复杂系统可以在这个基础上继续加缓存、灰度、A/B、人工抽检和在线学习。
十、模型路由的常见坑
第一个坑,是只按价格路由。价格最低不等于成本最低,因为错一次可能要重试三次,还要人工修。第二个坑,是没有升级机制。便宜模型答得不好,应该自动升级,而不是直接把低质量结果返回给用户。第三个坑,是没有日志。没有日志,就不知道哪类任务被错误分流,也无法复盘成本。
第四个坑,是所有模型共用一套 Prompt。便宜模型需要更清晰、更短、更结构化的提示词;高质量模型可以承担更复杂的上下文和更细的约束。如果 Prompt 不分层,模型路由的效果会大打折扣。
十一、适合不同业务的路由模板
业务场景 | 便宜模型 | 标准模型 | 高质量模型 |
智能客服 | 意图分类、FAQ 初筛 | RAG 生成、工单总结 | 投诉、赔偿、法律风险回复 |
AI 编程 | 代码解释、文件搜索 | 普通 bug 修复、单文件改造 | 多文件重构、提交前审查 |
内容生成 | 标题草稿、素材摘要 | 正文改写、脚本生成 | 封面、关键镜头、品牌审校 |
企业知识库 | 问题改写、检索 Query | 答案生成、引用整合 | 高管报告、对外材料 |
销售助手 | 线索分类、话术草稿 | 客户跟进建议 | 报价、合同、关键客户方案 |
十二、最终结论:模型路由不是省钱小技巧,而是 AI 系统的调度中枢
AI 应用发展到 Agent、长上下文、多模态、自动执行之后,成本和质量会同时变得更难控制。这个时候,模型路由不再是“可选优化”,而是系统稳定性的基础设施。
简单任务用便宜模型,是为了把规模跑起来;关键镜头用高质量模型,是为了把结果做出来;验证器和升级机制,是为了让便宜不变成低质;日志和评估,是为了让每一次模型选择都能被解释、被复盘、被优化。
真正成熟的 AI 系统,不是永远调用最强模型,而是知道什么时候该省、什么时候不能省。
