当前位置：首页 > news >正文

上下文窗口不是你的问题，你塞进去的东西才是——RAG 精排技术深度解析

news 2026/5/5 20:56:08

上下文窗口不是你的问题，你塞进去的东西才是

“The LLM is usually fine. The retrieval is the bottleneck.”

这句话戳中了大量 RAG 应用开发者的痛点。当你的 AI Agent 回答质量差、幻觉高、延迟慢，第一反应往往是：上下文窗口太小了，得换个更大的模型。

但这个诊断是错的。

真正的病灶在检索层——不是你拿到了多少内容，而是你拿到的内容有多精准。

一、标准 RAG 的原罪：把垃圾塞进提示词

典型的 RAG 流程是这样的：

用向量数据库做余弦相似度检索，召回 Top-200 候选文档
把所有候选全部塞进 prompt，指望 LLM 自己找到信号
等待 2000ms+ 的响应，得到一个可信度不稳定的答案

这套方案的问题不是"上下文窗口不够大"，而是你给 LLM 喂了一堆噪音。

向量检索（Bi-Encoder）的本质是把 query 和文档分别编码成向量，然后计算余弦相似度。速度极快（<1ms/千条），但精度有限——它衡量的是语义相似性，而不是"这段话对当前问题有多有用"。

结果：召回的 200 条里，真正有用的可能只有 10 条，剩下 190 条都是噪音。

二、Transformer 的 Attention 是 O(n²) 的

这不是细节，这是核心。

Self-Attention 的计算复杂度与序列长度的平方成正比：

Context Token 数	相对计算量	相对延迟
1,000	1x	~200ms
4,000	16x	~800ms
16,000	256x	~3.2s
64,000	4,096x	~12s+
128,000	16,384x	~30s+

你每往 context 里多塞一个无关的 chunk，都在指数级地拖慢模型、推高成本。

更糟的是，研究表明 LLM 在上下文被无关信息"稀释"时，会出现**迷失在中间（Lost in the Middle）**现象——关键信息即使存在，也可能被忽略。

三、两阶段检索：精排才是正解

工程上的标准解法是两阶段检索：

Stage 1: 向量检索（快，低精度）→ 召回 Top-100~200 候选 Stage 2: 精排 Reranker（慢，高精度）→ 筛选 Top-10 传入 LLM

第一阶段用 Bi-Encoder（如 BGE-M3、text-embedding-3-large）做大范围召回，速度优先。

第二阶段用 Cross-Encoder（如 BGE-Reranker-v2-M3、Cohere Rerank 3.5）对 query 和每个候选文档联合编码，精确评估相关性。

Cross-Encoder 为什么更准？因为它同时看到了问题和文档，能捕捉两者之间的交互语义，而不只是各自的独立特征。

代码示例（LangChain + FAISS + CrossEncoder）

fromsentence_transformersimportCrossEncoderfromlangchain_community.vectorstoresimportFAISSfromlangchain_openaiimportOpenAIEmbeddings# 初始化 Cross-Encoder rerankercross_encoder=CrossEncoder('BAAI/bge-reranker-v2-m3')# Stage 1: 向量召回 Top-50embeddings=OpenAIEmbeddings()vectorstore=FAISS.load_local("my_index",embeddings)candidates=vectorstore.similarity_search(query,k=50)# Stage 2: Cross-Encoder 精排，取 Top-10pairs=[(query,doc.page_content)fordocincandidates]scores=cross_encoder.predict(pairs)# 按分数排序，取前 10ranked=sorted(zip(scores,candidates),reverse=True)top_docs=[docfor_,docinranked[:10]]# 只将 Top-10 传入 LLMcontext="\n\n".join([doc.page_contentfordocintop_docs])

这一改动，通常能让进入 LLM 的 token 数从 5 万降到 2500 左右。

四、主流精排方案对比

方案	类型	优势	局限
BGE-Reranker-v2-M3	开源 Cross-Encoder	免费，多语言，性能强	需要自托管
Cohere Rerank 3.5	商业 API	开箱即用，效果优秀	付费，有延迟
ColBERT / RAGatouille	Late Interaction	兼顾速度与精度	索引复杂
FlashRank	轻量 Cross-Encoder	极快（CPU 友好）	精度略低