当前位置: 首页 > news >正文

这是我至今为止看到最干最系统地讲解RAG文章

本文为朋友 an_time 原创作品,承蒙授权,得以在本公众号发布。想学 RAG,这一篇干货就够你吃透。

一、RAG

1.1 简介

RAG (Retrieval-Augmented Generation),即“检索增强生成”,是目前大模型(LLM)落地应用中最主流的技术方案。它解决了大模型知识更新慢、容易产生“幻觉”以及无法掌握私有数据的问题。

大模型虽然聪明,但它的知识停留在他训练的那一刻。如果问它昨天的新闻或公司的内部文件,它就会胡编乱造。RAG的做法是:在模型回答之前,先去外部知识库里“翻书”查阅资料,把查到的内容喂给模型,让它参考这些资料来写答案。

image.png

参考文档:https://datawhalechina.github.io/all-in-rag/#/

1.2 核心思想

RAG 的核心思想可以理解为:“开卷考试”

  • 传统生成:闭卷考试,全凭记忆,记错或没学过就乱写。

  • RAG:开卷考试,遇到问题先在资料堆里找相关段落,然后根据这些段落组织语言回答。

1.3 实现原理

实现 RAG 通常分为两个阶段:数据准备(离线)检索生成(在线)

A. 数据准备阶段(把书存进库里)

  1. 文本分割 (Chunking):把长文档切成一小段一小段(比如每段 500 字)。

  2. 向量化 (Embedding):利用向量模型把这些文本片段向量化。

  3. 存入向量数据库:把这些向量存到向量数据库,方便以后进行快速的相似度搜索。

B. 检索生成阶段(查书并回答)

  1. 问题向量化:把用户的提问使用相同的向量模型转换成向量。

  2. 检索 (Retrieve):在数向量据库里检索和问题向量相似的文本片段(欧氏距离或余弦距离)。

  3. 增强 (Augment):把找出来的片段和原始问题拼接在一起,组成一个提示词(Prompt)。

  4. 生成 (Generate):把这个提示词发给 LLM,模型根据参考资料输出最终答案。

1.4 优势

  • 准确性高:所有的回答都有据可查,显著降低幻觉。

  • 实时性强:只要更新数据库,模型就能掌握最新信息,无需重新训练模型。

  • 成本低:相比于微调(Fine-tuning)模型,RAG 的部署和维护成本极低。

  • 隐私保护:敏感数据可以留在本地数据库,只在需要时提供给模型参考。

1.5 挑战

虽然原理简单,但在实际应用中仍面临难题:

  • 检索不到:数据库里有,但没搜出来。

  • 检索不准:搜出来很多无关信息。

  • 整合能力差:模型拿到了资料,但没理解好,或者忽略了关键信息。

二、高级RAG

当前RAG所存在的问题,成为很多企业或开发者的痛点,为了解决这些痛点,于是出现了多种方式来优化RAG。在优化的阶段,主要包括:预检索阶段、检索阶段、后检索阶段。

1. 预检索优化(Pre-Retrieval)

预检索优化是指在检索之前的环节进行优化,在预检索优化中存在如下方法:

1.1 摘要索引

  • 简介:

    摘要索引 (Summary Index)是 RAG 架构中一种旨在优化检索效率和准确性的索引策略。它不直接检索原始文本块,而是通过对文档内容进行预处理,生成“摘要”并以此为核心进行检索。

    在标准 RAG 中,如果文档非常长且细节繁琐,直接检索原始切片(Chunks)容易导致信息支离破碎检索不到位

    摘要索引的做法是:先为每个文档(或文档的大段落)生成一段精炼的摘要,并为摘要建立索引。检索时,系统先匹配摘要,确定相关文档后,再深入该文档获取细节。

image.png
  • 核心思想:

    摘要索引的核心思想是“由简入繁,层级定位”

    • 语义提炼:原始文本可能包含大量噪音,摘要保留了核心语义,降低了向量检索的干扰。

    • 全局映射:摘要作为一个“锚点”,代表了背后一整块或一整篇文档的含义,解决了“只见树木不见森林”的问题。

    • 多层级检索:通过建立“摘要 -> 原始文本”的映射关系,实现从宏观意图到微观细节的精准导航。

  • 实现原理:

    实现摘要索引通常分为以下几个步骤:

    A. 文档拆分与总结 (Summarization)

    B. 构建索引 (Indexing)

    C. 检索流程 (Retrieval)

    D. 答案生成 (Generation)

    LLM 结合这些经过筛选的、高度相关的原始文本片段生成答案。

  1. 第一阶段(摘要检索):用户提问后,系统在“摘要库”中寻找最匹配的摘要。

  2. 第二阶段(上下文提取):一旦命中某个摘要,系统会自动提取出该摘要关联的所有原始文本片段(或更细小的切片)。

  1. 向量化摘要:仅对生成的“摘要文本”进行 Embedding(向量化)并存入向量数据库。

  2. 建立链接:在数据库中建立父子关系,即:摘要 ID -> 原始文本块 IDs

  1. 将长文档拆分为较大的语义单元(如章节、页面组)。

  2. 利用 LLM 为每个语义单元生成一段简短的摘要。

  3. 关键点:摘要中通常会保留文档中的核心关键词、实体和主要观点。

  • 优势:

    摘要索引是构建层级化 RAG的基础。它像是一本书的“详细目录”,让 AI 能够先看目录确定位置,再翻到具体页面读细节,从而大大提升了处理长文档时的检索成功率,而且信噪比极高。

http://www.jsqmd.com/news/320861/

相关文章:

  • 2026 家居美学升级:富安娜 VS 水星家纺,契合不同生活方式
  • 零基础入门AI Agent完全指南——从小白到高手的7步进阶之路
  • 2026年1月北京搬家公司十大优选机构综合评测,技术+服务+保障全解析
  • 串口通信协议中如果一帧的帧头和数据一样,你们用什么方案解决?
  • 2026年01月29日最热门的开源项目(Github)
  • 强烈安利8个AI论文写作软件,自考学生轻松搞定毕业论文!
  • 【EI快速检索 | IEEE出版 | 同济大学山东师范大学主办 | 高届数优质学术会议】 第九届先进算法与控制工程国际学术会议(ICAACE 2026)
  • AAAI2026 Outstanding Paper一作开讲|多模态表征模型能力边界LLM2CLIP
  • SEW变频器MC07B0300-503-4-00 8285306
  • 手把手大模型系列|一篇文章教会你使用有RAG功能的CAMEL框架
  • 2026 家纺抉择:富安娜 VS 罗莱,精致生活选艺术还是实用?
  • 一个开源工具:10 分钟让 Moltbot/Clawdbot 接入飞书机器人
  • 辊筒式AGV物联网远程监控系统方案
  • Moltbot 遇上网易云信,快速集成你的“龙虾”助理!
  • 20 年 Java 老店的“背叛”:WSO2 为何高呼“Goodbye Java, Hello Go”?
  • 江门百爱科技GEO服务怎么样,费用及性价比全分析
  • 2026年北京搬家公司推荐:服务标准化趋势排名,涵盖日式搬家与长途跨城场景核心痛点
  • 【SSM毕设源码分享】基于SSM线上视频学习系统设计与实现(程序+文档+代码讲解+一条龙定制)
  • 2025–2050 设计师演化展望报告:从“木匠”到“园丁”的范式转移#凯文凯利视角的Agent给出的预测
  • 全球物流业进入“退货季“;经济压力推动可持续生活快速增长 | 美通社一周热点简体中文稿
  • Moleskine在美国开设首家社区概念店
  • 2.2 图论建模 图论杂项
  • Google AI帮我写的“炸裂”的产品介绍文案,我跪了!
  • BMI325,低功耗特性、快速启动和硬件同步的传感器
  • OpenAI刚刚扔下3颗“核弹”,其中1颗可能会让你直接失业
  • 数据科学与大数据技术毕业设计新颖的题目推荐
  • 专业小程序定制开发公司选型指南:2026年最新推荐与盘点(硬件小程序、AI小程序、物联网小程序开发公司推荐)
  • 专著评职称加多少分?—专著加分影响因素分析
  • 【SSM毕设源码分享】基于ssm+vue的高校学生社团管理系统的设计与实现(程序+文档+代码讲解+一条龙定制)
  • 2026年行业内知名的截止阀企业哪家好,气动盲板阀/刀闸阀/电动截止阀/调节阀/伸缩蝶阀,截止阀制造商哪家权威