当前位置：首页 > news >正文

检索结果全是噪音？我用Rerank重排序一通操作，精准度瞬间拉满！

news 2026/7/6 11:53:15

文章目录

进阶玩法：它们不是互斥的！你可以RAG + 微调：先用RAG外挂知识库，再微调模型让它更擅长“阅读”你的检索结果；或者RAG + 提示工程：优化检索后的Prompt模板，让模型回答更规范。

二、文档分块：切菜的艺术

RAG的第一步是“备菜”——把长文档切成小块。这一步要是切不好，后面模型就只能吃“夹生饭”。

2.1 分块策略大盘点

专业解读：
文档分块的核心在于平衡上下文完整性与检索精度。块太大，噪声多；块太小，语义丢失。

策略	原理	优点	缺点	适用场景
固定长度	按字符/Token数硬切	简单粗暴，大小可控	容易把一句话切成两半，破坏语义	结构简单的文本
句子边界	在句号、换行处切分	句子完整，通顺	块大小忽大忽小	段落式文档
滑动窗口	固定窗口 + 重叠区域	保留上下文连续性	存储冗余，空间浪费	上下文依赖强的文本
层次切片	按标题、章节结构切	逻辑清晰	需要文档结构规范	技术文档、教材
LLM语义切片	让LLM判断语义边界	语义最完美	慢！贵！	高价值核心文档

2.2 实战中的“黄金组合”

生活案例：
切文档就像切蛋糕。如果你把蛋糕上的“草莓”和“奶油”切分到了两盘里（固定长度切分），客人吃到草莓那块觉得酸，吃到奶油那块觉得腻。最好的办法是滑动窗口：每一块蛋糕都稍微带点上一块的奶油，保证每一口滋味都完整。

经验值推荐：

Chunk Size: 一般推荐256 - 1024 tokens。
Overlap: 推荐设置10% - 20%的重叠，防止关键信息刚好卡在切口上。

Python代码示例：滑动窗口切分逻辑

defsliding_window_chunk(text,window_size=100,step=50):""" 模拟滑动窗口分块 :param text: 原始文本 :param window_size: 窗口大小 :param step: 步长，window_size - step 即为重叠部分 """chunks=[]start=0whilestart<len(text):end=start+window_size chunk=text[start:end]chunks.append(chunk)# 如果剩余文本不足一个窗口，退出ifend>=len(text):break# 移动窗口start+=stepreturnchunks# 测试sample_text="这是一段关于RAG技术的介绍文档，主要讲解了如何进行文档分块。分块是RAG系统的基石..."result=sliding_window_chunk(sample_text,window_size=20,step=10)fori,chunkinenumerate(result):print(f"Chunk{i+1}:{chunk}")

2.3 拓展方案：三种进阶切分思路

父子索引：检索时用小块（精度高），生成时回溯取大块（上下文全）。比如检索到某一段落，生成时把整个章节喂给LLM。
小模型切分：用小型的Bert模型计算句子间的语义相似度，如果两句话语义差异突变，就在此切分，比LLM便宜比固定切分智能。
结构化解析切分：针对PDF中的表格、图片，利用OCR和布局分析工具（如Unstructured, PyMuPDF），将表格转为Markdown或JSON格式作为一个独立块，避免表格被打散成乱码。

三、RAG系统全流程：从“存”到“答”

这一部分是RAG的“心脏”。别急，我们用一张图和一段大白话把它讲透。

3.1 全景架构图

3.2 关键步骤详解

步骤一：向量化（Embedding）—— 文字的“DNA编码”
计算机看不懂文字，只能看懂数字。Embedding模型把文字变成一串数字向量。语义相近的词，向量距离就近。

比如“苹果”和“梨”在向量空间里距离很近，但和“汽车”距离很远。

步骤二：向量存储与检索
把向量存进数据库（如FAISS, Milvus）。检索时，拿着问题向量去库里算“距离”，最近的Top-K个就是检索结果。

步骤三：重排序—— 精挑细选
检索出来的前20条可能有些是凑数的。用Rerank模型（更精细但更慢的模型）重新打分，选出最好的3条给LLM。这就像海选（向量检索）和决赛（Rerank）。

四、Embedding模型选择：挑选“翻译官”

Embedding模型直接决定了你的检索效果。选模型就像选翻译官，得看它懂不懂“行话”。

4.1 主流模型对比

模型	厂商	维度	特点	适用场景
text-embedding-3-large	OpenAI	3072	性能强悍，支持维度压缩	英文为主，预算充足
text-embedding-v4	阿里通义	1024	中文优化，性价比极高	国内项目首选
BGE-large-zh	智源	1024	开源界翘楚，中文效果好	私有化部署，安全第一
M3E	Moka	768	轻量级开源	资源受限场景

特别注意：Query和Document必须用同一个模型！千万不要换了模型不重建索引，否则就是鸡同鸭讲。

五、检索质量不行？调试指南来啦！

“为什么我的RAG答非所问？”这是开发者最崩溃的时刻。别慌，跟着这个排查清单走。

5.1 检索阶段调试

症状：召回了乱七八糟的内容。
- 病因：Embedding模型不懂你的专业术语。
- 药方：换领域微调过的Embedding模型，或者做同义词扩展。
症状：答案明明在文档里，就是找不到。
- 病因：Chunk切太小，信息被切碎了。
- 药方：增大chunk_size，增加overlap。

5.2 生成阶段调试

症状：LLM胡说八道，无视检索内容。
- 病因：Prompt太弱，LLM放飞自我。
- 药方：强化指令，例如<font color="red">请必须且仅基于以下背景知识回答，不可编造：</font>。
症状：回答太啰嗦，甚至有废话。
- 病因：喂给LLM的上下文里混入了噪声。
- 药方：加上Rerank环节，把质量差的文档筛掉。

六、进阶技术：让RAG变聪明

这一部分是“加分项”，也是区分新手和老手的关键。

6.1 Query改写：听懂“弦外之音”

用户提问往往很随意。

用户问：“它的退票政策是什么？”
机器懵了：“它”是谁？
改写后：“迪士尼乐园门票（上文提到）的退票政策是什么？”

Python代码示例：结合历史的Query改写

defrewrite_query_with_history(current_query,chat_history,llm_client):""" 使用LLM结合对话历史改写问题 """history_str="\n".join([f"用户:{h['user']}\n助手:{h['bot']}"forhinchat_history[-3:]])prompt=f""" 你是一个专业的对话助手。请根据对话历史，将用户的最新问题改写为一个独立、完整、明确的问题。 [对话历史]{history_str}[最新问题]{current_query}[改写要求] 1. 补全省略的主语宾语。 2. 解析代词（它、那个）。 改写后的问题： """# 调用LLM进行改写 (伪代码)response=llm_client.chat.completions.create(model="gpt-3.5-turbo",messages=[{"role":"user","content":prompt}])returnresponse.choices[0].message.content

6.2 混合检索：左手语义，右手关键词

向量检索虽然强，但对专有名词（如型号“RTX-4090”）可能不如传统的关键词检索（BM25）准。
最佳实践：混合检索。同时跑一遍向量检索和关键词检索，把结果融合。这就像中医（传统关键词）和西医（向量语义）结合，疗效最好。

6.3 GraphRAG：让知识连成网

这是微软提出的最新架构。

传统RAG：像是在图书馆里找散落的书页。
GraphRAG：把书里的知识点抽取出来，连成一张知识图谱。

优势：擅长回答“这篇文档主要讲了什么”这种全局性问题，以及“A和B有什么关系”这种多跳推理问题。

拓展方案：

HyDE (假设文档嵌入)：先让LLM瞎编一个“假设答案”，拿这个假设答案的向量去检索。因为“答案”和“文档”在语义空间更接近，往往比直接拿问题检索效果更好。
自适应检索：如果检索结果置信度低，自动触发联网搜索或追问用户，而不是强行回答。
Query路由：判断问题类型，如果是闲聊直接拒绝检索；如果是数学计算走代码解释器；如果是知识问答才走RAG。

七、系统评估与维护：如何做到“长生不老”？

系统上线不是结束，只是开始。

7.1 评估指标 RAGAS

不要只靠肉眼观察，要用数据说话。RAGAS是目前最流行的自动化评估框架，主要看三个指标：

Faithfulness (忠实度)：有没有瞎编？答案是不是都能在上下文里找到依据？
Answer Relevance (答案相关性)：答案是不是答非所问？
Context Precision (上下文精度)：检索到的内容是不是废话多？

7.2 知识库维护：智能迭代

系统上线久了，知识库会过期、会有垃圾数据。怎么搞？

Agent RL (智能体反馈闭环)：
这是一个让系统自我进化的思路：

收集反馈：记录用户对答案的“点赞”或“点踩”，以及用户的修改意见。
分析模式：定期用LLM分析这些Bad Case，找出共性问题（比如“经常漏掉金额单位”）。
自动优化Prompt：让LLM根据分析结果，自动修改System Prompt。

Python代码示例：轻量级反馈闭环

classAgentFeedbackLoop:def__init__(self):self.feedback_db=[]# 模拟数据库defcollect_feedback(self,query,output,user_action):"""收集反馈"""self.feedback_db.append({"query":query,"output":output,"action":user_action# accept/reject})defanalyze_and_improve(self,current_prompt):"""分析失败案例并优化Prompt"""failures=[fforfinself.feedback_dbiff['action']=='reject']iflen(failures)<10:# 样本太少不分析returncurrent_prompt analysis_prompt=f"分析这些被拒绝的案例，找出失败原因：{failures}。\n请根据这些原因，优化以下Prompt：{current_prompt}"# 调用大模型生成新Prompt (伪代码)new_prompt=llm_call(analysis_prompt)print(f"Prompt已从 v1 升级为 v2，主要改进点：...")returnnew_prompt