当前位置：首页 > news >正文

RAG从入门到精通：检索增强生成的完整技术栈

news 2026/6/12 18:41:01

RAG 从入门到精通：检索增强生成的完整技术栈

一、引言：LLM 的「知识断档」困境

2025 年，大语言模型（LLM）已经深入渗透到日常开发的方方面面。但任何一个在一线落地的工程师都会碰到同一个尴尬场景：

你问 GPT-4：「我们公司 Q3 的营收增长是多少？」
它回答：「抱歉，我没有关于贵公司财务数据的实时信息。我的训练数据截止到 2024 年……」

这不是模型「笨」，而是 LLM 的知识截止效应（Knowledge Cutoff）——模型训练完成后，它对训练数据之外的一切一无所知。对于企业内部知识库、实时数据、专业领域文档，LLM 天然存在三个致命缺陷：

知识滞后：不知道训练截止时间之后发生的事情
幻觉风险：面对不知道的问题，模型会「编造」看起来合理的答案
私有数据盲区：无法访问企业内部文档、数据库和 API

检索增强生成（Retrieval-Augmented Generation, RAG）正是为解决这些痛点而生的技术范式。它的核心思想极其朴素：

在 LLM 生成回答之前，先从一个外部的知识库中检索出相关文档，把这些文档作为「参考资料」塞进 prompt，再让 LLM 基于这些资料回答。

这相当于给 LLM 配了一个随时可查的「百科全书助手」。自 Meta AI 在 2020 年提出 RAG 概念以来，这套技术栈已经经历了从学术原型到工业级系统的跨越式演进。本文将带你从零搭建一个完整的 RAG 系统，并深入剖析每个环节的工程细节和调优经验。

二、RAG 核心架构：三步走

一个标准 RAG 系统由三个核心阶段组成，我把它类比为「图书管理员工作法」：

┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ 1. 建索引 │ ──▶ │ 2. 检索 │ ──▶ │ 3. 生成 │ │ (离线) │ │ (在线) │ │ (在线) │ │ 文档分块 │ │ 查询向量化 │ │ 拼接 prompt │ │ → Embedding │ │ → 相似搜索 │ │ → LLM 回答 │ │ → 向量存储 │ │ → Top-K 文档 │ │ │ └──────────────┘ └──────────────┘ └──────────────┘

阶段一：索引构建（Indexing）— 离线

这是 RAG 系统的「准备工作」。把知识库中的所有文档：

分块（Chunking）：将长文档切割成适合检索的语义块
向量化（Embedding）：用嵌入模型将每个文本块转成高维向量
存储（Storage）：将向量存入向量数据库，建立索引

阶段二：检索（Retrieval）— 在线

当用户提问时：

将问题同样做 embedding，得到一个查询向量
在向量数据库中做近似最近邻搜索（ANN），找到与查询最相似的 Top-K 个文档块
返回这些块的原始文本

阶段三：增强生成（Augmented Generation）

将检索到的文档块与用户问题拼接成一个增强 prompt：

请根据以下参考资料回答用户问题。如果资料中没有相关信息，请如实说明。 参考资料： {检索到的文档块} 用户问题：{用户原始问题} 回答：

然后交给 LLM 生成最终答案。

这个架构看起来简单，但每个环节都有大量工程陷阱。下面我们用代码一步步实现，同时拆解那些「文档不会告诉你」的坑。

三、实战：从零搭建 RAG 问答系统

3.1 环境准备

# 安装依赖# pip install langchain langchain-community chromadb sentence-transformers openai pypdf tiktokenimportosfromtypingimportList,Dict,OptionalfrompathlibimportPathfromlangchain.text_splitterimportRecursiveCharacterTextSplitterfromlangchain_community.document_loadersimportPyPDFLoader,TextLoaderfromlangchain_community.vectorstoresimportChromafromlangchain_community.embeddingsimportHuggingFaceEmbeddingsfromlangchain_community.chat_modelsimportChatOpenAIfromlangchain.schemaimportDocumentfromlangchain.chainsimportRetrievalQAfromlangchain.promptsimportPromptTemplate

3.2 文档加载与分块（决定 RAG 质量的关键一步）

分块策略是 RAG 系统最重要的超参数之一。块太大会引入噪声、丢失精度；块太小则语义不完整、检索召回率下降。

classDocumentIndexer:"""文档索引构建器"""def__init__(self,chunk_size:int=500,# 每个文本块的最大字符数chunk_overlap:int=80,# 相邻块之间的重叠字符数embedding_model:str="BAAI/bge-large-zh-v1.5"# 中文 Embedding 模型):self.chunk_size=chunk_size self.chunk_overlap=chunk_overlap# 文本分割器：按段落优先、句子次之的分割策略self.text_splitter=RecursiveCharacterTextSplitter(chunk_size=chunk_size,chunk_overlap=chunk_overlap,separators=["\n\n","\n","。","！","？","；",".","!","?",";"," "],length_function=len,)# Embedding 模型：bge-large-zh 在 C-MTEB 中文排行榜常年 TOP 3self.embeddings=HuggingFaceEmbeddings(model_name=embedding_model,model_kwargs={"device":"cuda"},# 有 GPU 就用 CUDAencode_kwargs={"normalize_embeddings":True}# 归一化，余弦相似度更稳定)self.vectorstore=Nonedefload_documents(self,source_path:str)->List[Document]:"""加载单个文件或目录下所有支持格式的文档"""source=Path(source_path)documents=[]ifsource.is_file():documents=self._load_file(source)elifsource.is_dir():forfile_pathinsource.rglob("*"):iffile_path.suffix.lower()in[".pdf",".txt",".md",".py"]:documents.extend(self._load_file(file_path,silent=True))else:raiseValueError(f"无效路径:{source_path}")print(f"📄 加载了{len(documents)}个文档")returndocumentsdef_load_file(self,file_path:Path,silent:bool=False)->List[Document]:"""根据文件类型选择合适的加载器"""ext=file_path.suffix.lower()try:ifext==".pdf":loader=PyPDFLoader(str(file_path))docs=loader.load()# PyPDFLoader 可能将一页作为一个 doc，元数据中补上文件名fordocindocs:doc.metadata["source"]=file_path.namereturndocselse:loader=TextLoader(str(file_path),encoding="utf-8")returnloader