当前位置：首页 > news >正文

RAG 答不准？多半不是模型不行，是缺了 Rerank

news 2026/6/30 5:33:22

有一次线上答疑，业务同学甩来一条截图：「明明知识库里有，为什么 AI 说没有？」我们拉日志一看，Top8 召回里 5 条是「语义相近、业务无关」的废话。模型不是笨，是吃进了一盘沙拉。

很多人做 RAG 的第一版链路是这样的：文档切块 → Embedding → 向量库 → 用户提问 → 相似度 TopK → 塞进 Prompt → 大模型生成。

这条链路在 Demo 里往往跑得挺顺。一上生产，就开始出现「有库无答」「引文对不上」「同样问题今天准明天飘」。

根因之一，是向量检索只做粗排。

它回答的问题是：「哪几段话和 query 在语义空间里更近？」而不是：「哪几段话真的能用来回答这个问题？」

举个很常见的坑：用户问「服务怎么部署到 K8s」，知识库里同时有运维手册和财务报销流程。两段都可能出现「部署」「服务」「配置」这类词，embedding 分数拉不开差距。粗排 TopK 里混进 3～5 条伪相关，大模型照样会「自信地」把它们编进答案里——这就是大家说的幻觉，有时候其实是检索噪声。

WECHATIMGPH_1

二、Rerank 在干什么：从粗排到精排

如果你做过推荐或搜索，应该熟悉「召回 + 排序」两段式。RAG 也一样：

召回（粗排）：向量检索、BM25、混合检索，目标是「宽」，别漏掉可能相关的文档；
精排（Rerank）：用更强的相关性模型，对「query × 候选段落」逐对打分，把真相关的顶上去，把「像但不答」的踢下去。

Rerank 常见实现是交叉编码器（Cross-Encoder）一类：把问题和候选拼在一起算相关性，比单向量余弦更准，也更贵，所以放在 TopK 之后、进 LLM 之前——典型是粗排先捞 20～50 条，Rerank 留下 3～5 条。

我在面试复盘里记过一句很实在的话（也写进了我们自己的 checklist）：

向量检索只做语义相似度匹配，存在语义相近但业务无关的噪声召回；Rerank 做细粒度语义精排，是检索粗排到大模型精生成之间的关键中间层，生产必备。

「必备」两个字不是夸张。没有 Rerank，你往往是在用更多 token 换更差的答案。

三、上了 Rerank 之后，你会看到什么变化

幻觉率下来。进 Prompt 的段落更贴题，模型「自由发挥」的空间变小，尤其是强约束「必须基于引用作答」的场景。

成本可控。粗排可以多捞一点避免漏召回，精排后再截断，总上下文比「Top8 全塞进去」往往更短，推理费用反而可能降。

评测可对齐。你们如果建了 golden set，会明显看到：同一套切片和 Prompt，加上 Rerank 后，忠实度、上下文精准度（Ragas 里那几项）会一起动——这比盲改 Prompt 靠谱。

当然 Rerank 也有代价：多一跳延迟、多一个模型服务（bge-reranker、Cohere Rerank、各云厂商都有）。工程上要做超时降级：Rerank 挂了是回退粗排 Top3，还是直接报错，得提前定，别线上静默变差。

四、和整条 RAG 流水线怎么拼

完整一点的流水线（简化版）：

文档入库 → 分块 → 向量化 + metadata → 用户 Query →（可选）Query 改写 → 稠密 + 稀疏混合检索 → Rerank → 截断 → Prompt 组装 → 生成 → 引文溯源 / 合规校验。

注意 Rerank 前面还有两件常被忽略的事：

1. metadata 过滤：权限、业务域、版本号先在检索侧卡住，别让 Rerank 给脏数据打分；
2. chunk 质量：块切得支离破碎，Rerank 也救不回来——「语义完整」的块，比换十个 rerank 模型都管用。

五、你可以马上做的两件事

第一件：看日志。随机抽 10 条线上 badcase，把粗排 Top10 和 Rerank 后的 Top3 并排打印。如果粗排里大量「像但不答」，别急着换大模型，先把 Rerank 补上。

第二件：写进准入 checklist。我们内部现在默认：RAG 上线 = 混合检索 + Rerank + 引文溯源，缺一项就当「未完工」，不进灰度。

如果这篇文章对你有用，欢迎「在看」转给做 RAG 的同事。你们现在链路有 Rerank 吗？用的是开源还是云服务？留言区聊聊，我挑几个典型架构回复。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

👇👇扫码免费领取全部内容👇👇

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

4. 2026行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5. 大模型项目实战

学以致用，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

7. 资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇

查看全文

http://www.jsqmd.com/news/1094033/

dart_common_extensions：一套 Dart 常用扩展方法集合

全球自组网电台硬件技术路线解析

2026门店收银系统服务商测评解析：凤梨收银系统适配本地业态的优质服务商推荐

SmsForwarder Windows客户端

P.2简易计算器

营销智能体选哪个？一份基于实际场景的对比指南正在改变内容生成、投放优化和用户互动的效率。但市场上的产品形态差异很大：有的只是套了壳的通用写作工具，有的是传统营销 SaaS 加了个 AI 入口。选错不仅

移动端安全加固方案

日志分析与谷歌收录优化流程：Vue单页网站收录率提至80%技巧

编译型语言与解释型语言的深度区别

收藏！AI应用开发路线图：Java后端+Python大模型，小白也能轻松入门并快速上手

PHP代码加密平台深度对比：IonCube与SourceGuardian技术选型指南

口碑佳的智能产品有何奥秘

Rust的#[test]测试属性与基准测试在持续集成中的自动化运行

【毕业设计】基于 Java 的员工任务下达与反馈管理系统设计办公场景下任务分配信息管理系统的设计与实现(源码+文档+远程调试，全bao定制等)

CO₂RR计算的“疑难解答手册”--80+课题组验证的实战方案分享

软件数据可视化化的图表展示与交互

TMP815单相全波风扇电机预驱动器：从原理到实战的完整设计指南

chinese 15 sentences

基于MCP协议与Playwright构建零代码AI自动化测试框架

暑假将至，校园安防不“放假”：国标GB28181视频监控平台EasyCVR这套视频融合方案让安全“全年无休”

气溶胶载荷及其属性（微物理、光学、辐射）

解决ios应用4.3a拒审难题（帮助应用上架App Store）

[百度网盘] 大模型AI应用开发企业级项目实战（提示词工程+大模型NLP应用+AI对话产品）

现场动平衡前，为什么要先确认基础和紧固：方法与流程

MC6470与PIC18单片机在运动感知与导航中的应用实践

5分钟解锁你的音乐收藏：ncmdump如何帮你打破格式限制

数据库巡检怎么做？Prometheus+Grafana监控体系搭建指南

Linux 5.10 CAN/CANFD机制详解

深度学习框架原理

2026 年华北政企怎么选安全 IM？看完这 5 点不踩坑