当前位置：首页 > news >正文

RAG 检索增强生成

news 2026/7/13 16:49:42

RAG (Retrieval-Augmented Generation，检索增强生成) 是目前解决大语言模型（LLM）“幻觉”、知识滞后和私有数据缺失问题的最主流技术方案。

简单来说，RAG 就是给大模型配了一个“外挂知识库”。在模型回答问题之前，先让它去查资料，然后基于查到的资料来回答，而不是仅靠它“脑子里”训练时的记忆。

原生大模型（如基础的 ChatGPT）存在以下局限：

RAG 的出现，就是为了在不重新训练模型的前提下，让模型拥有最新、最准、最私有的知识。

RAG 的工作流程可以分为两个阶段：准备阶段（离线） 和 运行阶段（在线）。

这是把“死文档”变成“活数据”的过程。

数据收集：收集你的私有数据（PDF、Word、Wiki、数据库等）。
切片 (Chunking)：将长文档切分成小的片段（Chunks），比如每段500字。因为大模型上下文有限，且搜索小片段更精准。
向量化 (Embedding)：使用嵌入模型将这些文字片段转换成向量（一串数字）。
- 原理：在向量空间里，语义相似的文本距离更近。例如“苹果水果”和“香蕉”的距离，比“苹果水果”和“苹果手机”的距离在某些语境下可能更远（取决于具体语义）。
存储：将这些向量存入向量数据库（如 Milvus, Pinecone, Chroma, Faiss）。

当用户提出问题时：

用户提问：用户输入问题（例如：“公司去年的差旅报销标准是多少？”）。
查询向量化：系统将这个问题也转换成向量。
检索 (Retrieval)：在向量数据库中搜索与问题向量最相似的若干个文档片段（Top-K）。
- 结果：系统找到了包含“2025年差旅标准”的那几段文字。
增强 (Augmentation)：将“用户问题” + “检索到的相关片段” 拼接成一个新的提示词（Prompt）。
- Prompt 示例：“请根据以下参考信息回答问题。如果参考信息里没有，就说不知道。\n参考信息：[插入检索到的差旅标准片段]...\n问题：公司去年的差旅报销标准是多少？”
生成 (Generation)：大模型阅读这个包含参考信息的 Prompt，生成最终答案。
输出：用户得到基于事实的回答，通常还会带上引用来源。

很多人会混淆 RAG 和微调，它们的区别非常关键：

最佳实践：通常是 RAG + 微调 结合使用。用微调让模型学会“如何像个专家一样说话”，用 RAG 给模型提供“最新的专家知识”。

虽然 RAG 很强大，但在实际落地中也面临挑战：

检索不准 (Garbage In, Garbage Out)：
- 如果检索到的片段不相关，模型就会基于错误信息回答。
- 优化：混合检索（关键词搜索 + 向量搜索）、重排序（Re-ranking，对检索结果再次精细排序）。
切片策略难定：
- 切太碎丢失上下文，切太大包含噪音。
- 优化：按语义切片、重叠切片（Overlap）、父子索引（检索小片段，送入大片段上下文）。
多跳推理困难：
- 如果答案分散在两篇不同的文档里，简单的 RAG 很难整合。
- 优化：迭代检索（Iterative Retrieval）、GraphRAG（基于知识图谱的检索，微软开源项目，擅长处理全局性问题）。

你不需要从头造轮子，现在有很多工具可以快速搭建 RAG 应用：

无代码/低代码平台：
- Dify / Coze (扣子)：上传 PDF/文档，配置知识库，直接发布为聊天机器人。这是目前最快上手的方式。
- LangChain / LlamaIndex：Python 框架，适合开发者构建复杂的 RAG 流程（自定义切片、检索策略、重排序等）。
本地部署方案：
- AnythingLLM / Databerry：可以在本地电脑运行，连接本地文件夹作为知识库，保护隐私。
向量数据库：
- 初学者可用 Chroma (轻量级，嵌入式)，生产环境常用 Milvus, Pinecone, Weaviate。