当前位置: 首页 > news >正文

RAG变轻了,Corpus2Skill:告别检索,直接导航企业知识库

传统 RAG(检索增强生成)的核心逻辑是——用户提问 → 向量检索 → 拼接上下文 → LLM 生成答案。这套流程存在一个结构性缺陷:LLM 从来看不到知识库的全貌

打个比方,你问"怎么把个体户改成 LLC",这个问题横跨账户类型、支付配置、法律实体管理三个板块。但传统 RAG 只会把最靠近 query 向量的 Top-K 段落丢给模型,很可能漏掉那篇关键文章——“账户类型不可直接修改,需联系客服”。

模型不知道知识库里还有什么、没检索到的内容是否更重要、已检索的片段之间有何关联。它是一个被动的搜索结果消费者,规划和推理能力完全闲置。

即便是 Agentic RAG(让 LLM 迭代发起多次搜索),Agent 也像在黑暗中摸索——没有地图,每次搜索都是一次"盲猜"。

核心方案

本文提出的 Corpus2Skill 框架,核心思想只有一句话:不要让 Agent 去搜索,而是给它一张地图,让它自己导航。

整个框架分为两个阶段:

离线编译阶段

把文档语料库一次性转化为一棵层级化的"技能目录树",流程如下:

  1. 文档加载与向量化:读取所有文档(.md/.txt/.json),为每篇生成语义嵌入向量。
  2. 迭代层级聚类:用 K-Means 对向量做聚类,分支因子 p 控制每层节点数;对每个聚类,LLM 生成主题摘要;摘要再向量化,继续聚类,直到顶层簇数 ≤ K。整个过程是一个"嵌入 → 聚类 → 摘要"的循环,类似 RAPTOR 的递归树构建,但关键区别是:每个文档只归属一条路径(硬分配),并且物化为文件系统而非扁平向量索引。
  3. 标签生成:为每个非叶节点生成 2-5 个词的文件系统安全标签(如wix-commerce-monetization),既是人类可读的目录名,也是 Agent 做主题路由的语义入口。
  4. 目录树构建:层级物化为文件结构——根簇 →SKILL.md(含子组概览),子簇 →INDEX.md(含文档 ID 和摘要),全文存在外部documents.json中。导航文件通常 < 2KB,保持 Agent 每步的 token 开销很低。

以 WixQA 语料库(6,221 篇文档)为例,p=10、K=7 的设定产出 3 层树结构、6 个顶层技能、665 个导航文件,编译耗时仅 6.5 分钟。

在线服务阶段

编译好的技能目录上传至 Skills API(利用渐进式披露机制),Agent 通过两个工具完成导航:

  • code_execution(文件浏览):查看 SKILL.md 和 INDEX.md
  • get_document(doc_id):按 ID 拉取文档全文

典型查询流程仅需 2-3 轮:

  1. Agent 从预加载的技能描述中选定最相关的技能,读取 SKILL.md 了解子组结构
  2. 导航进入相关子组的 INDEX.md,浏览文档标题和摘要
  3. 调用 get_document 获取最有希望的文档,综合生成答案

由于层级结构是"显式可见"的,Agent 能做到两件扁平检索做不到的事:回溯(放弃死胡同,回到分叉点选另一条路)和跨分支综合(从同一技能下的多个子组中拼接证据)。

图4展示了一个直接导航的案例——Agent 从"商业变现"技能出发,经"支付生态 → 账户管理"路径,4 步找到正确文档。

图5则展示了跨分支导航——Agent 先查"在线课程"子组,发现货币设置是站点级配置,于是回溯到"账单文档"子组找到完整说明。

实验结果

在 WixQA 企业客户支持基准上,Corpus2Skill 与五种基线对比:

指标Corpus2Skill最强基线提升幅度
Token F10.460Agentic 0.388+19%
Factuality0.729Agentic 0.724
Context Recall0.652RAPTOR 0.616+6%

值得注意的是,层次化方法(RAPTOR、Corpus2Skill)整体大幅优于扁平检索(BM25、Dense、Hybrid),验证了层级组织对答案质量的增益。

成本方面,Corpus2Skill 每次查询约 $0.17(Agentic 的 1.75 倍、RAPTOR 的 14 倍),但输出 token 仅为 Agentic 的一半左右——导航到正确文档后,答案更精准、更精炼

消融实验的关键发现

  1. 树形结构:窄而深(p=5,4 层)略优于默认设定;宽而浅(p=20,仅 2 个顶层技能)质量暴跌——SKILL.md 摘要变得过于笼统,Agent 无法有效路由。
  2. 探索预算:即使只允许 5 轮交互,F1 仅下降 1.5%。层级结构组织得当,Agent 很少需要深度探索。
  3. 服务模型选择:换用更便宜的模型,成本减半,F1 仅降 8%,但 Context Recall 反而上升——说明编译出的技能树质量才是核心驱动力,而非导航模型的"聪明程度"

一句话总结

Corpus2Skill 的本质是一种“编译时换查询时”的设计哲学:把计算成本前置到离线编译阶段,将文档语料蒸馏成一棵 Agent 可直接导航的技能目录树,从而在查询时摆脱对嵌入搜索的依赖,让 LLM 的推理能力真正发挥出来。

这篇工作的启示不仅限于 RAG 领域——当我们给 LLM 一张好的"地图"时,它比我们想象的更会"找路"。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/723217/

相关文章:

  • 浅谈响应式编程在企业级前端应用 UI 开发中的实践
  • 逆中心化社交审核程序,颠覆平台删帖封号,用户投票决定,内容合规,拒绝一言堂。
  • 蚂蚁AI应用开发一二面面经
  • 软件测试流程
  • VLM-CAD:基于视觉语言模型的模拟电路优化新方法
  • invoice2data 开发者指南:深入源码理解数据提取原理
  • 2026年户内外高清写真制作核心专业厂家技术解析:门头发光字制作,门头招牌广告制作,不锈钢发光字,实力盘点! - 优质品牌商家
  • AD7606并行驱动避坑指南:实测200KHz采样率下,为什么你的数据会“窜通道”?
  • 避开这3个坑,你的奇安信天眼探针部署才算真正成功
  • 解锁AI对话潜力:ChatALL多平台智能对话完整指南
  • ARM链接器符号管理与ELF文件转换实战
  • Transformer在像素级场景理解与视觉状态压缩中的应用
  • Spring Data 2027 高级查询技术:从基础到实战
  • 想省钱不踩坑?搞清深圳网站建设、建站公司、外贸推广、全网营销、企业邮箱哪家好?少走弯路认准万创科技 - 栗子测评
  • 2026年四川典当公司TOP5推荐 合规资质与服务实力对比 - 优质品牌商家
  • pv-migrate实际案例研究:企业级Kubernetes存储迁移的最佳实践
  • Dubbo Spring Boot Starter故障排查:常见问题与解决方案清单
  • 告别微信压缩!用群晖Synology Photos和cpolar,5分钟搞定户外照片无损分享
  • 仓储物流场景的工业配送和工业AMR品牌应该怎么选?
  • JAX框架入门:高性能机器学习与自动微分实践
  • 用STM32F407和RDA5820N模块DIY一个FM无线话筒(附完整代码和避坑指南)
  • Java 云原生开发 2027:从理论到实践
  • Claude Code 深度解析:一个生产级 AI Agent 系统的设计空间
  • vben-admin-thin-next完整指南:10个核心功能深度解析
  • 高端地磅品牌有哪些?地磅品牌前十名最新榜单!2026年电子汽车衡厂家/地磅工厂推荐:玖鼎领衔,优质地磅生产厂家汇总 - 栗子测评
  • 别再只懂线性插值了!深入对比Bayer转RGB的几种算法:从速度到画质怎么选?
  • 别再为陡坡地形头疼了!手把手教你调优PTD滤波的5个关键参数
  • 2026年Q2山东电工证复审合规品牌实操推荐 - 优质品牌商家
  • 2026年安全滑触线、钢体滑触线厂家推荐,滑触线厂家优选指南! - 栗子测评
  • 电脑卡顿元凶找到了!用360安全卫士自带的“弹窗过滤器”一键屏蔽所有软件广告(含规则分享)