当前位置：首页 > news >正文

RAG 是什么

news 2026/3/27 2:14:29

1. RAG 是什么

RAG（检索增强生成）是一种让语言模型更准确、信息量更丰富地回答问题的方法。它的核心思路类似于先查资料再作答。

想象一下，你需要回答一个关于某个专业领域的问题，比如“最新的电动汽车电池技术有哪些突破”。如果你只依靠自己的记忆和常识，可能无法给出准确、详细的回答。而 RAG 的做法是：当问题来临时，它首先会去一个指定的“资料库”（比如公司内部文档、最新的研究报告或产品手册）里，快速找到与问题最相关的几段信息。然后，它结合找到的这些具体资料，再组织语言生成最终的答案。

所以，RAG 本质上是一个“两步走”的流程：检索相关的、可靠的外部信息，然后利用这些信息来增强语言模型的生成过程，使答案“有据可依”。

2. RAG 能做什么

RAG 主要用于解决通用大语言模型存在的几个常见问题：

信息过时：大模型的训练数据有截止日期，无法知晓之后的事情。RAG 可以通过检索最新的文档来提供当前信息。
缺乏特定知识：模型不了解非公开的、私有的或高度专业的信息，比如企业内部流程、机密产品数据或个人笔记。RAG 可以将这些信息放入资料库，让模型能够调用。
事实性错误或“幻觉”：模型有时会自信地编造看似合理但错误的答案。RAG 要求模型基于检索到的文本生成答案，增加了答案的可追溯性和准确性。
提供来源引用：RAG 能够明确指出答案的哪一部分来源于哪份资料，方便使用者验证，增加了可信度。

常见的应用场景包括：构建基于知识库的智能客服、分析企业内部报告并回答问题、创建能够解读个人文档（如所有邮件或笔记）的助手等。

3. 怎么使用 RAG

使用 RAG 系统通常涉及以下几个步骤，可以类比为建立一个高效的“问答研究室”：

准备资料库：
- 收集文档：将所有可能用到的文本资料（PDF、Word、网页、数据库记录等）汇聚起来。
- 处理与切片：将长文档切成大小适中、意思相对完整的“片段”（比如几段文字为一个片段）。这就像把一本厚厚的书拆分成一个个便于查阅的章节或条目。
- 创建索引：为每一个文本片段生成一个“数字指纹”（即向量嵌入），这个指纹能代表这段文字的含义。所有这些指纹被存入一个专门的数据库（向量数据库），以便快速查找。
搭建查询流程：
- 接收问题：当用户提出一个问题时，系统首先理解这个问题。
- 检索相关片段：系统为这个问题也生成一个“数字指纹”，然后去向量数据库里寻找指纹最相似、即含义最相关的几个文本片段。
- 组装上下文：将这些检索到的文本片段，连同原始问题，一起打包成一个详细的“提示”，提交给语言模型。
- 生成最终答案：语言模型根据这个包含了明确参考资料的提示，生成一个有针对性的答案。通常会要求模型在答案中注明依据的来源。

4. 最佳实践

为了确保 RAG 系统运行良好，有几个关键点需要注意：

资料质量决定上限：输入系统的文档必须准确、干净、格式清晰。混乱或错误的数据会导致检索到无关信息，进而产生糟糕的答案。这好比图书馆的藏书质量直接决定了研究结果的好坏。
优化文本切片：如何切割文档是一门学问。切片太小可能丢失上下文，太大可能包含过多无关信息。需要根据文档类型和问题特点进行试验和调整。
提升检索精度：单纯依赖语义相似度检索有时不够。可以结合关键词搜索进行混合检索，或者在用户问题不明确时，让模型先改写或扩展问题，再进行检索。
精心设计提示：给模型的指令（提示）需要清晰，例如明确要求“严格根据提供的上下文回答”、“如果上下文没有相关信息，就说明不知道”、“在答案末尾列出引用来源”。
持续评估与迭代：用一批典型问题测试系统，检查答案的准确性和相关性。根据失败案例，回头优化文档处理、检索策略或提示模板。

5. 和同类技术对比

与传统微调对比：
- RAG：像是一个随时可以更新参考书的“研究员”。要增加新知识，只需把新文档加入资料库即可，成本低、速度快，且答案有来源可查。
- 微调：像是通过集中培训让模型“记住”新知识。它改变模型内部的参数，适合学习一种特定的风格或任务范式。但增加新知识需要重新训练，成本高，且模型学到的知识是隐式的，无法提供具体出处。
- 简单比喻：微调是让厨师学会做一道新菜（改变厨师本身），而RAG是为厨师提供了一本随时可以翻阅的最新菜谱（改变外部工具）。
与直接调用大模型对比：
- 直接调用大模型：依赖模型训练时记忆的通用知识，存在信息过时、缺乏专有知识、易产生“幻觉”等问题。
- RAG：通过引入外部知识源，直接弥补了上述短板，使模型能回答特定、专业、最新的问题。
与普通搜索引擎对比：
- 搜索引擎：返回一系列相关网页或文档链接，需要用户自己阅读、梳理和总结。
- RAG：在检索的基础上，增加了“理解检索内容并直接生成整合性答案”的步骤，提供的是即用型的答案，效率更高。