当前位置：首页 > news >正文

传统RAG核心流程；传统RAG数据准备阶段的数据切片策略(Chunking);传统RAG检索阶段的检索增强；代理式RAG与传统RAG；

news 2026/6/14 23:22:26

传统RAG核心流程；

检索增强整个过一遍，加深印象

核心流程定义：RAG 是通过从外部知识库检索相关信息，并将其作为上下文喂给大模型（LLM），以解决模型幻觉和知识滞后的问题。

技术栈闭环：

数据准备：文档清洗 -> 切片（Chunking）-> 向量化（Embedding）-> 存入向量数据库（如chroma）。
检索阶段：用户提问 -> 向量化 -> 近邻搜索（ANN）获取 Top-K 相关片段。
生成阶段：Prompt = 提示词 + 检索到的上下文 + 用户问题 -> LLM 生成回答。

传统RAG数据准备阶段的数据切片策略(Chunking);

之前做的切片是比较简单的固定长度切片，还有比较高级的切片方式，提高文档的检索准确率。

按字符/Token切片
简单的固定长度切片，这种切片方式只适合快速原型开发，容易让模型断章取义。
重叠切片
固定长度 + 滑动窗口，设定一个固定窗口大小和一个重叠步长，防止从中间切断语义。
语义切片
将文档拆成极小的单元（如单句），利用 Embedding 模型计算相邻句子之间的余弦相似度，设定一个阈值，当相邻两句的相似度突然大幅下降时（意味着话题转移了），就在此处设置切片点。
递归字符切片
用算法按层级（段落 > 句子 > 词）切分，递归切片是结构感知的，会优先尝试在段落边界切分。到字符还不够就会按字符切分，且可以加入重叠切片。

传统RAG检索阶段的检索增强；

检索阶段做个检索增强，能够决定回答是否有深度和准确度的核心环节。

检索前增强
优化用户的“提问”，查询改写：利用LLM将用户的一句口语改为更具描述性的书面语，或者生成多个相关的搜索词，从不同角度去库里检索。
检索中增强
提升搜索的准度，混合检索（向量搜索-语义匹配、关键词搜索-字面匹配）以及带元数据过滤的检索。
检索后增强
重排序：最有效的提质手段。向量库检索（ANN）为了快，牺牲了部分精度。捞出前 50 个后，用一个更小、更精密的交叉编码模型对这50个重新打分，选出最准的前5个。
上下文压缩：让一个小模型把片段里的废话删了，只保留关键句。
父文档检索：用小的切片（Chunk）去搜，搜到后把该切片所属的整段或整篇文档传给LLM。

代理式RAG与传统RAG；

上面提到的都是以前的rag做法，可以用langgragh的单向工作流实现，agent RAG更多的是吧决策都交给智能体。

数据准备阶段

与传统 RAG 基本一样，额外需要

多粒度切片：同一文档切成小块/中块/大块多份索引，Agent 按需选择
丰富元数据：来源、时间、章节、类型等，供 Agent 过滤路由
多索引：向量索引之外还建关键词索引，Agent 自主选择检索方式
摘要索引（可选）：每篇文档额外生成摘要单独索引，用于快速定位

检索阶段

传统RAG：
提问 → 向量化 → ANN → Top-K（完毕）
代理式RAG：
提问
↓
Agent 分析：这个问题需要几步？用什么检索方式？
↓
第一次检索
↓
Agent 反思：结果够用吗？相关吗？
├─ 够用 → 进入生成
└─ 不够 → 重新构造查询 / 换索引 / 拆子问题 → 再检索