当前位置：首页 > news >正文

【RAG】召回（Retrieval）与重排（Rerank）核心技术要点汇总

news 2026/7/24 20:04:34

RAG 召回（Retrieval）与重排（Rerank）核心技术要点汇总

一、核心概念

在检索增强生成（RAG）架构中，召回与重排处于不同的阶段，承担不同的职责：

召回阶段（初筛 - Retrieval）
- 核心任务：从全量海量知识库（百万级文本块）中，快速、低延迟地筛选出可能相关的候选文本集合（通常为 Top 50）。
- 关注指标：查全率（Recall）。核心目标是“宁滥勿缺”，确保正确答案包含在候选集中。
重排阶段（精排 - Rerank）
- 核心任务：对召回阶段产生的有限候选集（Top 10 ~ 50）进行深度的语义相似度重新评估与排序，筛选出质量最高、最精准的文本块（通常为 Top 3 ~ 5）喂给大语言模型（LLM）。
- 关注指标：查准率（Precision）。核心目标是“去伪存真”，将真正高价值的上下文推到最前面。

二、底层原理与技术要点

1. 召回阶段：双塔模型（Bi-Encoder）

架构机制：Query（用户问题）与 Document（文档块）在编码阶段各自独立进行向量化，二者在计算相似度前互不知道对方的存在。
计算逻辑：离线状态下将全量文档转化为高维向量并存入向量数据库（如 Milvus）；在线推理时仅需将 Query 向量化，通过计算余弦相似度等指标进行极速检索。
优缺点：
- 优点：计算复杂度低，支持大规模向量索引，响应时间在毫秒级。
- 缺点：无法捕捉 Query 与 Document 之间微观、细腻的词级互动，容易被字面相似但逻辑不相关的硬负样本（Hard Negatives）欺骗。

2. 重排阶段：交叉编码器（Cross-Encoder）

架构机制：打破双塔屏障，将Query与Document拼接成一条连续的输入序列，格式通常为：
[CLS] + Query + [SEP] + Document + [SEP]
整体输入到同一个 Transformer 网络中。
计算逻辑：在网络内部，利用全注意力机制（Full Attention），让 Query 中的每一个 Token 与 Document 中的每一个 Token 进行深度的微观交互。最终通过[CLS]位置的输出向量进行线性映射，输出一个 0 到 1 之间的相关性得分。
优缺点：
- 优点：语义理解极度精准，对否定句、因果逻辑、条件转折等微观语义极其敏锐。
- 缺点：计算复杂度随输入长度呈平方级（O(N^2)）暴增，无法用于全量知识库检索。

3. 企业级落地部署方案

在工业级高并发场景中，禁止在业务代码中直接同步加载模型推理，主流做法分为两类：

方案 A：独立微服务化部署（私有化首选）
- 技术栈：利用基于 Rust 编写的TEI (Text Embeddings Inference)框架或 Triton、vLLM 进行模型托管。
- 核心优化：利用框架集成的Flash Attention 2以及动态批处理（Dynamic Batching）技术，将重排时延压缩至毫秒级，实现高吞吐。
方案 B：商业化 API 服务（免运维首选）
- 代表厂商：智谱 AI Rerank API、Cohere Rerank、阿里云百炼等。
- 集成方式：通过标准 HTTP/gRPC 协议调用。例如智谱 AI 接口，通过Authorization: Bearer <API_KEY>鉴权，传入query和documents数组，直接返回排序后的index和relevance_score。

三、总结与注意事项

1. 经典漏斗形 RAG 架构

标准生产环境的检索链路应当遵循**“多级漏斗”**设计：

第一级（多路混合检索召回）：全量知识库 -> 向量检索 + BM25 关键词检索 -> 融合产生 Top 50 候选集。
第二级（专用 Rerank 模型精排）：Top 50 候选集 -> 经由bge-reranker或智谱 Rerank API -> 精简为 Top 5 核心上下文。
第三级（大模型生成）：Top 5 上下文 + 原始 Prompt -> 最终喂给大语言模型（LLM）生成回答。

2. 生产落地注意事项

Top_N 截断机制：在调用 Rerank 模型或 API 时，务必显式指定top_n参数（如 3 或 5）。利用服务端内部排序截断，避免将大量无效文本传输回业务后端，不仅节省带宽，还能大幅减少最终喂给 LLM 的 Context Token 消耗。
超时与降级策略：重排由于计算量大且通常涉及网络 I/O，必须设置严格的超时控制（建议 2 ~ 3 秒）。在系统偶发超时或服务不可用时，应引入降级机制：跳过重排步骤，直接截取向量检索原始的前 5 个结果送给 LLM，确保核心业务的可用性与高容错。
安全合规：若涉及极度敏感、涉密的企业核心资产或用户隐私数据，应避免使用云端公有云 Rerank API，须采用自建显卡服务器通过 Docker 本地化部署开源重排模型。

http://www.jsqmd.com/news/929889/

相关文章：

AutoDock Vina：分子对接入门指南，3步开启药物发现之旅

2026 温州财税公司代理记账靠谱推荐，公司注册代办五大优选指南 - 品牌智鉴榜

抖音批量下载神器：5分钟掌握高效内容采集终极指南

不要只懂 CAS：手把手带你手写面向 AI 推理的无锁 MPMC 队列

3步掌握微信QQ消息防撤回：开源工具RevokeMsgPatcher实战指南

3分钟解决B站缓存难题：让m4s视频自由播放的终极方案

内存编址与计算（地址范围、芯片数量）

5分钟掌握ImageToSTL：将任何图片转换为3D打印模型的终极指南

小视频投票评选活动如何制作？微信投票工具教会你 - 微信投票小程序

期末论文不再熬夜肝：Paperxie 课程论文智能写作功能全解析

【统计法规】3.4规范统计原则 ★ ★

2026年对讲系统厂家推荐：福建环宇通信息科技股份公司网络/双向可视对讲全解析 - 品牌推荐官

解锁Windows安卓应用安装：APK-Installer技术解析与实战指南

2026 年 5 月 31 日技术前沿速览：GPT-5.5 再升级，Claude Opus 4.8 强势来袭，智博会展现 AI 产业落地新高度

别再死磕验证方案文档了！一个资深验证工程师的UVM实战测试分解心法

从零构建455KHz中频放大器：深入解析超外差接收核心

2026浙江高考复读学校实力排行榜，优质高复机构精准择校攻略 - 玖叁鹿

四旋翼无人机单桨失效的强化学习容错控制方案

2026年裕福卡回收五种正规方式，选“京回收”更放心 - 京回收小程序

5分钟搭建你的专属暗黑破坏神2存档编辑器：可视化修改，解放游戏时间

Palworld存档迁移终极解决方案：告别服务器更换的数据丢失噩梦

5步解决英雄联盟游戏体验优化难题：LeagueAkari工具箱的完整指南

终极指南：3步快速解决Mac Boot Camp驱动安装难题，免费自动化工具Brigadier详解

2026 杭州本地代理记账机构盘点口碑服务商推荐 - 玖叁鹿

2026年瑞典户外品牌实力盘点：从极地探险到山系生活的靠谱选择 - 深度智识库

别再死记硬背Transformer了！用Python+PyTorch手写一个简易版，5分钟搞懂注意力机制

AI文本检测：从统计特征到人机协同的鉴别实践

后端技术09-2026年了，系统编程该选C++还是Rust？从C++迁移到Rust：我们的游戏服务器重构经验

2026年功能内衣选购参考：五家专注户外与性能的品牌实力解析 - 深度智识库

【字节跳动】安全防护机制：实现熔丝保护、密钥轮换、硬件黑名单等安全措施，如权重补丁需通过34轮哈希校验（5178）资源管理：会话池支持2048个并发（SESS_POOL_MAX）显存资源闲置释放