当前位置：首页 > news >正文

RAG又牛了！阿里提出SkillRouter

news 2026/7/3 5:52:41

当 AI Agent 的技能库从几十个膨胀到几万个，把所有技能都喂给大模型已经不可能了。系统必须先从8万个Skill里挑出最相关的几个，再交给 Agent 去用。这个"挑"的过程叫技能路由（Skill Routing）。

问题在于，当前主流 Agent 框架（包括 Claude Code、Codex 等）普遍采用的是一种叫"渐进式披露"的策略：路由阶段只看技能的名字和描述，真正的实现正文是藏起来的。所有人都默认这样做没问题，但从来没有人认真测过——当技能库真正大起来的时候，这样做到底行不行。

关键发现：只看名字和描述，准确率直接崩了

阿里巴巴团队用75 条专家标注查询在8 万技能池上做了对比实验，核心发现非常硬：

Figure 1: 删掉技能正文后的准确率暴跌

BM25（传统文本匹配）：从 31.4% 直接跌到 **0.0%**——去掉技能正文后，准确率归零
8B 编码器（当前最强的开源向量检索模型）：从 64.0% 跌到25.3%
16B 检索+重排管线（最强基线系统）：从 68.0% 跌到24.0%

有人可能会说：是不是因为技能描述写得太差？团队专门做了验证——即便只看描述最详细的那 25% 技能，差距仍然超过26 个百分点。问题不在于描述质量，而在于描述本身就不可能替代完整的实现文本。

团队还通过注意力分析证明，重排模型在读到技能正文时，不是简单地"因为文字多所以关注多"——中间层会先看技能名字做初步对齐，最后一层才回到正文做最终判断。这是一个有策略的阅读过程，而不是被文本长度牵着走。

SkillRouter 是怎么做的

基于这个发现，团队提出了SkillRouter——一个12 亿参数（0.6B 编码器 + 0.6B 重排器）的两阶段管线：

双编码器召回：从 8 万技能里用向量检索找出 top-20 候选
交叉编码器精排：对 20 个候选逐个打分，选出最匹配的那个

两个阶段的输入都是完整的技能文本（名字 + 描述 + 实现正文），而不是只看名字和描述。

但光用全文还不够。在大规模、高重叠的技能池里，有两个训练技巧是关键的：

假阴性过滤：8 万技能库里，很多不同名字的技能其实干的是同一件事。如果把它们当负样本训练，模型会学乱。三层过滤（名字去重 + 正文重叠度 + 语义相似度）去掉了约 10% 的假负样本，贡献+4.0pp准确率
列表式重排训练：传统的逐点打分（每个候选独立评"相关/不相关"）在 20 个看起来都差不多的候选面前会崩——准确率只有 **43.3%**。换成列表式训练（让模型学会在候选之间做比较）后，准确率直接到 **74.0%**，差距30.7 个百分点

实验结果

系统	参数量	Hit@1	延迟
最强基线（Qwen3 16B）	16B	68.0%	2900ms
SkillRouter 1.2B	1.2B	74.0%	496ms
SkillRouter 8B	8B	76.0%	—

Figure 4: 各编码器的 Recall@K 覆盖率

三个关键数字：

参数量少 13 倍，准确率反而高 6 个百分点
推理速度快 5.8 倍，GPU 显存少 15.8%
微调后的 0.6B 编码器（65.4%）甚至超过了未微调的 8B 编码器（64.0%）——在这个场景下，任务针对性的训练比堆参数更值钱

在另一个独立构建的 256 查询补充基准上，同样的模型无需重新训练，1.2B 管线仍然以 0.641 vs 0.637 的 Hit@1 领先 16B 基线，证明结果不是过拟合。

这对 Agent 产品意味着什么

团队在 4 个编程 Agent（Kimi-K2.5、glm-5、Claude Sonnet 4.6、Claude Opus 4.6）上做了端到端测试：更好的路由确实能带来更高的任务成功率。

但最值得注意的发现是：路由质量的提升，对能力越强的 Agent 效果越明显。Claude Sonnet/Opus 的平均提升是 +3.22pp，而 glm-5/Kimi-K2.5 只有 +0.89pp。这很好理解——如果 Agent 本身就执行不好任务，给它更好的技能也用不上；但如果 Agent 能力够强，选对技能就是整个系统的天花板。

反过来说，如果路由层选错了，后面再强的推理能力也救不回来。一个典型案例：任务是需要"审计项目依赖的安全漏洞"，基线路由选了一个看起来相关但功能不对的社区技能，4 个 Agent 全部 0/12 失败；SkillRouter 选对了技能，4 个 Agent 全部 12/12 成功。路由对了，从零分到满分。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～