当前位置: 首页 > news >正文

RAG又牛了!阿里提出SkillRouter

当 AI Agent 的技能库从几十个膨胀到几万个,把所有技能都喂给大模型已经不可能了。系统必须先从8万个Skill里挑出最相关的几个,再交给 Agent 去用。这个"挑"的过程叫技能路由(Skill Routing)。

问题在于,当前主流 Agent 框架(包括 Claude Code、Codex 等)普遍采用的是一种叫"渐进式披露"的策略:路由阶段只看技能的名字和描述,真正的实现正文是藏起来的。所有人都默认这样做没问题,但从来没有人认真测过——当技能库真正大起来的时候,这样做到底行不行。

关键发现:只看名字和描述,准确率直接崩了

阿里巴巴团队用75 条专家标注查询8 万技能池上做了对比实验,核心发现非常硬:

Figure 1: 删掉技能正文后的准确率暴跌

  • BM25(传统文本匹配):从 31.4% 直接跌到 **0.0%**——去掉技能正文后,准确率归零
  • 8B 编码器(当前最强的开源向量检索模型):从 64.0% 跌到25.3%
  • 16B 检索+重排管线(最强基线系统):从 68.0% 跌到24.0%

有人可能会说:是不是因为技能描述写得太差?团队专门做了验证——即便只看描述最详细的那 25% 技能,差距仍然超过26 个百分点。问题不在于描述质量,而在于描述本身就不可能替代完整的实现文本。

团队还通过注意力分析证明,重排模型在读到技能正文时,不是简单地"因为文字多所以关注多"——中间层会先看技能名字做初步对齐,最后一层才回到正文做最终判断。这是一个有策略的阅读过程,而不是被文本长度牵着走。

SkillRouter 是怎么做的

基于这个发现,团队提出了SkillRouter——一个12 亿参数(0.6B 编码器 + 0.6B 重排器)的两阶段管线:

  1. 双编码器召回:从 8 万技能里用向量检索找出 top-20 候选
  2. 交叉编码器精排:对 20 个候选逐个打分,选出最匹配的那个

两个阶段的输入都是完整的技能文本(名字 + 描述 + 实现正文),而不是只看名字和描述。

但光用全文还不够。在大规模、高重叠的技能池里,有两个训练技巧是关键的:

  • 假阴性过滤:8 万技能库里,很多不同名字的技能其实干的是同一件事。如果把它们当负样本训练,模型会学乱。三层过滤(名字去重 + 正文重叠度 + 语义相似度)去掉了约 10% 的假负样本,贡献+4.0pp准确率
  • 列表式重排训练:传统的逐点打分(每个候选独立评"相关/不相关")在 20 个看起来都差不多的候选面前会崩——准确率只有 **43.3%**。换成列表式训练(让模型学会在候选之间做比较)后,准确率直接到 **74.0%**,差距30.7 个百分点

实验结果

系统参数量Hit@1延迟
最强基线(Qwen3 16B)16B68.0%2900ms
SkillRouter 1.2B1.2B74.0%496ms
SkillRouter 8B8B76.0%

Figure 4: 各编码器的 Recall@K 覆盖率

三个关键数字:

  • 参数量少 13 倍,准确率反而高 6 个百分点
  • 推理速度快 5.8 倍,GPU 显存少 15.8%
  • 微调后的 0.6B 编码器(65.4%)甚至超过了未微调的 8B 编码器(64.0%)——在这个场景下,任务针对性的训练比堆参数更值钱

在另一个独立构建的 256 查询补充基准上,同样的模型无需重新训练,1.2B 管线仍然以 0.641 vs 0.637 的 Hit@1 领先 16B 基线,证明结果不是过拟合。

这对 Agent 产品意味着什么

团队在 4 个编程 Agent(Kimi-K2.5、glm-5、Claude Sonnet 4.6、Claude Opus 4.6)上做了端到端测试:更好的路由确实能带来更高的任务成功率。

但最值得注意的发现是:路由质量的提升,对能力越强的 Agent 效果越明显。Claude Sonnet/Opus 的平均提升是 +3.22pp,而 glm-5/Kimi-K2.5 只有 +0.89pp。这很好理解——如果 Agent 本身就执行不好任务,给它更好的技能也用不上;但如果 Agent 能力够强,选对技能就是整个系统的天花板

反过来说,如果路由层选错了,后面再强的推理能力也救不回来。一个典型案例:任务是需要"审计项目依赖的安全漏洞",基线路由选了一个看起来相关但功能不对的社区技能,4 个 Agent 全部 0/12 失败;SkillRouter 选对了技能,4 个 Agent 全部 12/12 成功。路由对了,从零分到满分。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/790179/

相关文章:

  • 从加密牢笼到自由播放:ncmToMp3如何解放你的网易云音乐收藏
  • 抖音下载终极指南:douyin-downloader工具完整教程与实战技巧
  • 3分钟掌握VideoDownloadHelper:你的浏览器视频下载神器
  • FPGA并行CRC32_8:从串行推导到硬件实现的深度解析
  • 别再手动setData了!用QDataWidgetMapper在Qt5/C++中快速绑定UI与Model(附完整代码)
  • 我的世界地球3.0整合包下载分享2026最新版
  • 易语言大漠插件字库制作避坑指南:从单色识别到复杂背景,让你的Ocr准确率提升90%
  • 告别黄牛票!大麦网Python抢票脚本终极指南,轻松抢到心仪门票
  • 终极指南:如何在Linux系统上免费安装和运行SOLIDWORKS 2020
  • 抖音无水印下载工具完整指南:快速获取高清视频资源的终极方案
  • 告别桌面混乱:NoFences让你的数字工作空间重获秩序
  • 用PyTorch复现AlexNet:从论文公式到代码,手把手教你训练自己的花分类模型
  • Navicat密码解密工具:终极指南与快速恢复方案
  • CT图像重构的‘星状伪迹’从哪来?用Python可视化带你彻底搞懂反投影法
  • Origin9.1绘图避坑指南:从数据归一化到论文级.tif图导出全流程
  • 用MK60单片机+鹰眼摄像头,从零搭建一个能画方块的板球控制系统(附完整代码)
  • 如何用AI斗地主助手轻松成为欢乐斗地主高手:完整免费教程
  • 哔哩哔哩大模型面试岗,我悟了!!!
  • 对比直接使用官方API通过Taotoken调用在接入便捷性上的差异
  • 【2026奇点大会Prompt黄金标准】:基于178家头部企业实测数据的4.2秒响应率提升公式
  • 如何轻松解锁QQ音乐加密文件:QMCDecode免费解密方案完全指南
  • 娱乐圈天降紫微星气运加持,海棠山铁哥白手之路自有天道护航
  • LangChain Splitter 全解析:那么多分割策略,其实你只需要一个
  • wiliwili终极指南:快速免费解锁Switch全能B站观影体验
  • HsMod炉石传说插件终极指南:55项功能完全解锁
  • 2026毛毯热转印机器品牌推荐:技术与服务双优之选 - 品牌排行榜
  • Python 开发者如何用三行代码调用 Taotoken 聚合大模型
  • Windows 11上Wireshark抓不到网卡?5分钟搞定Npcap驱动安装与网卡选择避坑指南
  • X-Mouse Controls:5个专业技巧解锁Windows鼠标终极效率
  • 5分钟搞定iPhone网络共享:Windows驱动安装的终极避坑指南