当前位置：首页 > news >正文

再谈Skill渐进式加载RAG的思路

news 2026/7/13 15:08:52

一位群友发了条消息：“这个rag-skill真的绝了，10 万+文档，秒回复，还精准！”，配上了一张看起来响应飞快的截图。

我点进去仔细看了一下这个开源项目。

本地知识库检索 Skill 演示项目
https://github.com/ConardLi/rag-skill

看完之后，第一反应不是惊喜，而是一种熟悉感——这套实现思路，和我之前分享过的一篇文章里的方案几乎如出一辙：用data_structure.md做分层导航，用grep做关键词检索，让 LLM 在文件系统里"按图索骥"。

从 Skill 的渐进式加载到知识库检索：另一种 RAG 思路

思路本身没有问题。我在那篇文章里也说过，这是一个可以借鉴的方向，但很难规模化生产落地。

"10 万+文档，秒回复，还精准！"这个说法，我是根本不信的

这个思路本质上是一个 LLM 驱动的文件浏览器，不是真正的 RAG 系统。
面对海量非结构化文档，它会遭遇系统性失效，而不只是"效果差一点"。

下面逐层拆开说。

它到底是怎么工作的

先理解这个思路的核心机制，才能理解为什么有问题。整个检索流程分三步：

读索引
每个目录下都有一个手写的data_structure.md，描述"这个目录里有什么文件、适合什么查询"
定位文件
LLM 读完索引后，判断应该去哪个子目录，找哪个文件
grep 搜内容
用关键词在文件里搜索，局部读取匹配行附近的上下文，最多循环 5 轮

就这样。没有 embedding，没有向量数据库，没有语义检索。整个系统的智能来自两个地方：LLM 的语言理解能力，和人工编写的data_structure.md。

六大缺陷全景

在逐条分析之前，先看一张总览图——缺陷的根源都指向同一个核心：用 grep 关键词匹配代替语义检索。

rag-skill 架构缺陷全景核心引擎grep 关键词匹配🚨 致命缺陷一无语义检索grep 无法理解同义词/近义词🚨 致命缺陷二手动维护索引data_structure.md 无法规模化⚠️ 严重缺陷三硬性 5 轮上限复杂多跳问题无法完整推理🚨 致命缺陷四无持久化向量索引每次查询从零读取文件⚠️ 严重缺陷五PDF 解析极其脆弱扫描件 / 图片 PDF 直接失败⚠️ 严重缺陷六无文档分块策略长文档靠行偏移盲目猜测根本性架构问题本质是 LLM Agent 文件浏览器，不是真正的 RAG 系统（无向量化、无语义检索、无持久索引）致命缺陷（海量场景直接崩溃）严重缺陷（显著降低可用性）

图1：rag-skill 六大缺陷全景，根源均指向核心引擎的字面匹配机制

致命缺陷 ① grep 是字面匹配，不是语义检索

这是最根本的问题。grep只匹配字面字符串。用户问"监管合规的法律义务"，文档里写的是"遵守法规的强制性要求"——这两句话语义完全等价，但grep一个字也搜不到。

更麻烦的是中文的分词问题。PDF 经过排版引擎处理后，"知识产权"可能被断成"知识"和"产权"两个词，grep "知识产权"直接返回空。

真正的 RAG 是怎么做的？

所有工业级 RAG 的第一步，是在文档入库时做向量化：用 Embedding 模型把每个文本块转成高维向量，存进向量数据库（Qdrant、Milvus、Chroma 等）。查询时，把用户的问题也转成向量，算余弦相似度，找最近邻。

这个过程不依赖关键词匹配，语义相近的内容自然会被检索到。rag-skill没有这一步，在检索层就注定了低召回率。

当然，混合召回（向量+BM25）是我们生产中，用的比较多的一种召回策略。

致命缺陷 ② 手写索引，根本无法扩展

项目的导航层依赖每个目录下的data_structure.md。示例知识库只有 30 多个文件，就已经需要手动维护 4 个这样的文件。面对企业级场景，这套机制有三个死穴：

静默失效：新增文件如果忘记更新data_structure.md，那个文件对系统来说就永久不存在。LLM 不会报错，只会给出不完整的答案，用户也不知道。

描述偏差：索引描述是编写者当时的语言，不是所有未来查询者的语言。写"AI大模型应用趋势"，但用户问"具身智能竞品"——LLM 可能认为不匹配，直接跳过整个目录。

粒度太粗：目录写着"金融财报数据"，但用户要找"毛利率连续三年下降的公司"——这个维度根本没有在索引里体现，路由在第一步就可能走错。

致命缺陷 ③ 单路径路由，无法处理跨目录问题

假设用户问："头部 AI 公司的财务状况如何？"正确答案需要同时检索两个目录：

AI Knowledge
：知道哪些是头部 AI 公司
Financial Report Data
：找对应公司的财报数据

但rag-skill的路由逻辑是单路径选择——LLM 读完根目录索引，只会选一个子目录进去，另半个答案就永远消失了。任何需要多跳推理的问题（比较类、关联类、综合分析类），几乎全军覆没。

致命缺陷 ④ 无持久化索引，每次查询从零开始

系统没有任何预构建的索引。每个查询进来都要：读索引文件 → 判断目录 → 提取文件 → grep 搜索 → 局部读取。PDF 文件每次都要重新跑pdftotext提取。一个 135MB 的 PDF 集合，在高并发场景下，这是灾难性的 I/O 开销。

真正的 RAG 系统只需要一次索引构建，之后每次查询是亚秒级的向量检索，索引和查询完全解耦。

严重缺陷 ⑤ PDF 解析极其脆弱

如果依赖pdftotext提取 PDF 文本。下面这些场景会直接让它失效：

场景	结果
扫描版 PDF（图片 PDF）	完全提取不到文字，需要 OCR
多栏排版 / 复杂表格	提取后文字顺序混乱
加密 / 权限保护 PDF	无法提取
图表、数学公式	完全丢失
中文竖排排版	大概率乱码

而实际企业的"非结构化文档"，恰恰充斥着这些情况。金融财报、法律合同、政府文件，几乎全是扫描件或复杂排版 PDF。

严重缺陷 ⑥ 5 轮迭代硬上限 + 无分块策略

系统规定"最多 5 轮迭代"——这个上限不是基于"是否真的找到答案"，而是纯粹的次数计数。复杂的多跳推理问题（比如"对比三家公司 2024 年研发投入趋势的异同"），5 轮根本不够。

同时，系统没有文档分块（Chunking）策略。检索逻辑是"grep 找到关键词行，读取附近 200–500 行"。如果关键信息分散在文档不同位置，只能靠运气在 5 轮内碰到。

（画外音：Agentic Search 的多轮迭代搜索范式，就决定了其很难秒回。难道是59秒？）

data_structure.md 的路由失效，比你想象的更频繁

除了上面几个结构性缺陷，data_structure.md的路由机制还有两类隐蔽的失效，在日常使用中其实非常高频。先看一张失效模式全图：

data_structure.md 路由失效全景用户 Query自然语言提问读取 data_structure.mdLLM 语义匹配路由描述① 语义描述偏差描述写"大模型应用趋势"问"GPT竞品分析" → 漏检② 跨目录知识答案横跨两个子目录路由只选一条路 → 半答③ 多义路由冲突"安全" → 网络安全目录还是金融风险目录？④ 描述过时/缺失新文件加入忘记更新索引LLM 永远不知道它存在⑤ 描述粒度太粗"金融财报数据"六个字无法判断有无毛利率数据⑥ 否定/缺失类查询"哪些公司未提及AI战略"索引描述无法表达缺失本质问题路由精度完全依赖人工描述质量 + LLM 主观判断，无法量化、无法保证

图2：data_structure.md 六种路由失效模式，左侧为高频失效，右侧为隐蔽失效

多义词冲突

查询词	可能命中目录 A	可能命中目录 B
“安全”	网络安全目录	金融风险目录
“增长”	电商销售数据	财报营收数据
“客户”	电商客户表	机构客户报告

LLM 基于文字描述做选择时，没有任何置信度机制。选错了就全错，也不知道自己选错了。

否定 / 缺失类查询：从架构上无解

“哪些报告没有提到监管风险？”
“所有文档中只有哪几家公司提到了海外扩张？”

data_structure.md描述的是"有什么"，无法表达"没有什么"。grep找不到时只是静默返回空，无法区分"文件里真的没有"还是"关键词没搜到"。这类查询从架构上就是无解的。

这个项目适合什么场景

说了这么多缺陷，不是说这个项目没有价值，而是要明确它的边界：

✅适合：小型、结构良好、人工精心维护的知识库（< 100 个文件，全是文本型文档，有专人维护索引，查询模式简单且固定）

（画外音：目前很多Agent Memory框架的范式，都是如此。比如：sirchmunk、TreeSearch、OpenViking等）

❌彻底失效：海量非结构化文档、扫描件 PDF、语义模糊查询、需持续自动摄入新文档、多跳推理问题、高并发生产环境

它是一个优秀的概念验证 Demo，展示了"LLM 可以被用来导航文件系统"这个想法。但把它当成生产级 RAG 方案，在真实业务场景下会遭遇系统性失效。

真正的 RAG 应该长什么样

一个面向海量非结构化文档的健壮 RAG 系统，至少需要这几层：

文档解析层 → Unstructured / Docling（处理 PDF、扫描件、表格）分块层 → 滑动窗口 + 重叠分块，保留语义完整性向量化层 → Embedding 模型（BGE、text-embedding-3 等）存储层 → 向量数据库（Qdrant / Milvus / Weaviate）检索层 → 向量相似度 + 关键词混合检索（BM25 + dense）重排层 → Reranker 模型二次精排生成层 → LLM 基于召回内容生成答案

每一层都是独立的、可替换的工程组件。与rag-skill用 LLM 一把梭的思路完全不同。

rag-skill把所有复杂度都压在了 LLM 的 in-context 推理上，用 Prompt Engineering 代替了工程架构。这在小规模下能跑，在大规模下必然崩溃。

这类项目很容易让人误解 RAG 的难度——看起来几个 Prompt 就搞定了，但真实业务里踩完坑才会明白，RAG 的挑战根本不在生成，而在检索。

检索不准，生成再强也白搭。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～