当前位置：首页 > news >正文

这是我至今为止看到最干最系统地讲解RAG文章

news 2026/3/27 5:21:50

本文为朋友 an_time 原创作品，承蒙授权，得以在本公众号发布。想学 RAG，这一篇干货就够你吃透。

一、RAG

1.1 简介

RAG (Retrieval-Augmented Generation)，即“检索增强生成”，是目前大模型（LLM）落地应用中最主流的技术方案。它解决了大模型知识更新慢、容易产生“幻觉”以及无法掌握私有数据的问题。

大模型虽然聪明，但它的知识停留在他训练的那一刻。如果问它昨天的新闻或公司的内部文件，它就会胡编乱造。RAG的做法是：在模型回答之前，先去外部知识库里“翻书”查阅资料，把查到的内容喂给模型，让它参考这些资料来写答案。

image.png

参考文档：https://datawhalechina.github.io/all-in-rag/#/

1.2 核心思想

RAG 的核心思想可以理解为：“开卷考试”。

传统生成：闭卷考试，全凭记忆，记错或没学过就乱写。
RAG：开卷考试，遇到问题先在资料堆里找相关段落，然后根据这些段落组织语言回答。

1.3 实现原理

实现 RAG 通常分为两个阶段：数据准备（离线）和检索生成（在线）。

A. 数据准备阶段（把书存进库里）

文本分割 (Chunking)：把长文档切成一小段一小段（比如每段 500 字）。
向量化 (Embedding)：利用向量模型把这些文本片段向量化。
存入向量数据库：把这些向量存到向量数据库，方便以后进行快速的相似度搜索。

B. 检索生成阶段（查书并回答）

问题向量化：把用户的提问使用相同的向量模型转换成向量。
检索 (Retrieve)：在数向量据库里检索和问题向量相似的文本片段（欧氏距离或余弦距离）。
增强 (Augment)：把找出来的片段和原始问题拼接在一起，组成一个提示词（Prompt）。
生成 (Generate)：把这个提示词发给 LLM，模型根据参考资料输出最终答案。

1.4 优势

准确性高：所有的回答都有据可查，显著降低幻觉。
实时性强：只要更新数据库，模型就能掌握最新信息，无需重新训练模型。
成本低：相比于微调（Fine-tuning）模型，RAG 的部署和维护成本极低。
隐私保护：敏感数据可以留在本地数据库，只在需要时提供给模型参考。

1.5 挑战

虽然原理简单，但在实际应用中仍面临难题：

检索不到：数据库里有，但没搜出来。
检索不准：搜出来很多无关信息。
整合能力差：模型拿到了资料，但没理解好，或者忽略了关键信息。

二、高级RAG

当前RAG所存在的问题，成为很多企业或开发者的痛点，为了解决这些痛点，于是出现了多种方式来优化RAG。在优化的阶段，主要包括：预检索阶段、检索阶段、后检索阶段。

1. 预检索优化（Pre-Retrieval）

预检索优化是指在检索之前的环节进行优化，在预检索优化中存在如下方法：

1.1 摘要索引

简介：
摘要索引 (Summary Index)是 RAG 架构中一种旨在优化检索效率和准确性的索引策略。它不直接检索原始文本块，而是通过对文档内容进行预处理，生成“摘要”并以此为核心进行检索。
在标准 RAG 中，如果文档非常长且细节繁琐，直接检索原始切片（Chunks）容易导致信息支离破碎或检索不到位。
摘要索引的做法是：先为每个文档（或文档的大段落）生成一段精炼的摘要，并为摘要建立索引。检索时，系统先匹配摘要，确定相关文档后，再深入该文档获取细节。

image.png

核心思想：
摘要索引的核心思想是“由简入繁，层级定位”：
- 语义提炼：原始文本可能包含大量噪音，摘要保留了核心语义，降低了向量检索的干扰。
- 全局映射：摘要作为一个“锚点”，代表了背后一整块或一整篇文档的含义，解决了“只见树木不见森林”的问题。
- 多层级检索：通过建立“摘要 -> 原始文本”的映射关系，实现从宏观意图到微观细节的精准导航。
实现原理：
实现摘要索引通常分为以下几个步骤：
A. 文档拆分与总结 (Summarization)
B. 构建索引 (Indexing)
C. 检索流程 (Retrieval)
D. 答案生成 (Generation)
LLM 结合这些经过筛选的、高度相关的原始文本片段生成答案。

第一阶段（摘要检索）：用户提问后，系统在“摘要库”中寻找最匹配的摘要。
第二阶段（上下文提取）：一旦命中某个摘要，系统会自动提取出该摘要关联的所有原始文本片段（或更细小的切片）。

向量化摘要：仅对生成的“摘要文本”进行 Embedding（向量化）并存入向量数据库。
建立链接：在数据库中建立父子关系，即：摘要 ID -> 原始文本块 IDs。

将长文档拆分为较大的语义单元（如章节、页面组）。
利用 LLM 为每个语义单元生成一段简短的摘要。
关键点：摘要中通常会保留文档中的核心关键词、实体和主要观点。

优势：
摘要索引是构建层级化 RAG的基础。它像是一本书的“详细目录”，让 AI 能够先看目录确定位置，再翻到具体页面读细节，从而大大提升了处理长文档时的检索成功率，而且信噪比极高。

http://www.jsqmd.com/news/320861/

相关文章：

2026 家居美学升级：富安娜 VS 水星家纺，契合不同生活方式

零基础入门AI Agent完全指南——从小白到高手的7步进阶之路

2026年1月北京搬家公司十大优选机构综合评测，技术+服务+保障全解析

串口通信协议中如果一帧的帧头和数据一样，你们用什么方案解决？

2026年01月29日最热门的开源项目(Github)

强烈安利8个AI论文写作软件，自考学生轻松搞定毕业论文！

【EI快速检索 | IEEE出版 | 同济大学山东师范大学主办 | 高届数优质学术会议】第九届先进算法与控制工程国际学术会议（ICAACE 2026）

AAAI2026 Outstanding Paper一作开讲｜多模态表征模型能力边界LLM2CLIP

SEW变频器MC07B0300-503-4-00 8285306

手把手大模型系列｜一篇文章教会你使用有RAG功能的CAMEL框架

2026 家纺抉择：富安娜 VS 罗莱，精致生活选艺术还是实用？

一个开源工具：10 分钟让 Moltbot/Clawdbot 接入飞书机器人

辊筒式AGV物联网远程监控系统方案

Moltbot 遇上网易云信，快速集成你的“龙虾”助理！

20 年 Java 老店的“背叛”：WSO2 为何高呼“Goodbye Java, Hello Go”？

江门百爱科技GEO服务怎么样，费用及性价比全分析

2026年北京搬家公司推荐：服务标准化趋势排名，涵盖日式搬家与长途跨城场景核心痛点

【SSM毕设源码分享】基于SSM线上视频学习系统设计与实现(程序+文档+代码讲解+一条龙定制)

2025–2050 设计师演化展望报告：从“木匠”到“园丁”的范式转移#凯文凯利视角的Agent给出的预测

全球物流业进入“退货季“；经济压力推动可持续生活快速增长 | 美通社一周热点简体中文稿

Moleskine在美国开设首家社区概念店

2.2 图论建模图论杂项

Google AI帮我写的“炸裂”的产品介绍文案，我跪了！

BMI325，低功耗特性、快速启动和硬件同步的传感器

OpenAI刚刚扔下3颗“核弹”，其中1颗可能会让你直接失业

数据科学与大数据技术毕业设计新颖的题目推荐

专业小程序定制开发公司选型指南：2026年最新推荐与盘点（硬件小程序、AI小程序、物联网小程序开发公司推荐）

专著评职称加多少分？—专著加分影响因素分析

【SSM毕设源码分享】基于ssm+vue的高校学生社团管理系统的设计与实现(程序+文档+代码讲解+一条龙定制)

2026年行业内知名的截止阀企业哪家好，气动盲板阀/刀闸阀/电动截止阀/调节阀/伸缩蝶阀，截止阀制造商哪家权威