当前位置：首页 > news >正文

RAG保姆级教程：大模型知识库构建与优化，建议收藏

news 2026/3/26 20:28:04

今日题目：

• RAG知识库如何构建？
• RAG策略
• RAG流程与优化手段
• 评价RAG项目效果
• ragflow和llamaindex区别
• RAG在大模型中的作用
• 如何让大模型的回答更加多样化
• 主流大模型的解码策略

一、RAG 的基本流程

RAG（Retrieval-Augmented Generation，检索增强生成）是一种将外部知识库与大语言模型（LLM）结合的技术，用于解决 LLM 固有知识有限、易产生幻觉、无法访问私有数据等问题。其核心思想是：在生成答案前，先从外部文档中检索相关片段，再将这些片段作为上下文输入给 LLM，引导其生成更准确、可溯源的回答。

标准 RAG 流程包含三个阶段：

1、索引构建（Indexing）
（1）将外部知识库（如 PDF、网页、数据库记录）切分为文本块（chunks）；
（2）使用嵌入模型（如 bge、text-embedding-ada-002）将每个 chunk 转为向量；
（3）将向量存入向量数据库（如 FAISS、Milvus、Pinecone），建立高效检索索引。

2、检索（Retrieval）
（1）用户输入查询（query）后，用同一嵌入模型将其转为向量；
（2）在向量库中搜索 top-K 最相似的 chunks（通常 K=3–10）；
（3）可加入元数据过滤（如时间范围、文档类型）提升相关性。

3、生成（Generation）
（1）将原始 query 与检索到的 chunks 拼接成提示（prompt），例如：
“根据以下资料回答问题：{chunk1} {chunk2} … 问题：{query}”；
（2）将该 prompt 输入 LLM，生成最终答案；
（3）理想情况下，答案应基于检索内容，避免编造。

二、RAG 的常见问题与优化手段

1、检索质量不高

（1）问题：召回的文档不相关，或关键信息被遗漏；
（2）优化方法：
①改进嵌入模型：使用更强的开源模型（如 bge-large-zh-v1.5、e5-mistral）替代通用 embedding；
②多向量检索：对同一 chunk 生成多个视角的向量（如摘要向量 + 关键词向量）；
③HyDE（Hypothetical Document Embeddings）：让 LLM 先生成一个假设答案，用其向量去检索，提升语义匹配；
④混合检索：结合向量检索（语义）与关键词检索（BM25），取并集或加权融合。

2、上下文噪声干扰

（1）问题：检索结果包含无关或矛盾信息，干扰 LLM 判断；
（2）优化方法：
①重排序（Reranking）：用 Cross-Encoder（如 bge-reranker）对 top-K 结果重新打分，保留最相关 few 条；
②上下文压缩：让小模型或规则模块提取检索内容中的关键句，去除冗余；
③多跳检索（Multi-hop）：若首轮结果不足，基于初步答案发起第二轮检索，逐步聚焦。

3、LLM 未有效利用检索内容

（1）问题：LLM 忽略上下文，直接凭内部知识作答，导致事实错误；
（2）优化方法：
①Prompt 工程：明确指令如“仅根据以上资料回答，若无相关信息请回答‘不知道’”；
②微调 LLM：在含检索上下文的数据上进行 SFT，教会模型依赖外部信息；
③对比解码：同时生成“有上下文”和“无上下文”两个答案，选择差异小的版本，抑制幻觉。

4、长上下文处理效率低

（1）问题：检索结果过长，超出 LLM 上下文窗口或增加推理成本；
（2）优化方法：
①智能切分：按语义边界（如段落、标题）切 chunk，避免截断关键信息；
②动态窗口：只保留与 query 最相关的句子，而非整个 chunk；
③使用支持长上下文的 LLM：如 Llama3-8B-Instruct（8K）、Qwen-72B（32K）或 Claude（200K）。