当前位置：首页 > news >正文

PRIOR-RAG：failed

news 2026/3/27 2:45:05

PRIOR-RAG：failed

我们试图让7B小模型在多跳问答上打败Claude。实验设计有漏洞，方向有问题，但过程中发现了一些真正有意思的东西。

01 问题从哪里来

做RAG的人都遇到过多跳推理失败的场景。传统RAG系统有一个隐含假设，几乎没人明说，但所有实现都在用：

语义上相关的文档 = 回答问题需要的文档

对简单问题，这个假设成立。对多跳问题，它从根本上就是错的。

举个具体例子。问题是："J.P. Hayes出生地所在县的邻县县治在哪里？"

正确的推理路径是：

步骤1 → J.P. Hayes 出生在哪？          → Appleton, Wisconsin
步骤2 → Appleton 在哪个县？            → Outagamie County
步骤3 → Outagamie County 的邻县是哪个？→ Brown County
步骤4 → Brown County 的县治在哪？      → Green Bay  ← 最终答案

问题在于：传统RAG用这个问题去做向量检索，它能找到关于Hayes的文档，也许能找到Outagamie County的文档，但它不知道还需要找Brown County，更不知道最终要找Green Bay。

这不是模型够不够强的问题，是检索路径规划的问题。

02 我们的想法：把推理路径提前算好

既然推理路径是瓶颈，能不能把路径离线预计算，存进知识库，在线查询时直接执行？

传统做法：

每次查询 → 强模型实时推理 → 生成检索路径 → 找文档 → 回答
问题：每次都要调用强模型，成本高，延迟大

PRIOR-RAG：

【离线，一次性】强模型分析知识库 → 推理路径存入知识库
【在线，每次查询】弱模型按路径执行 → 找文档 → 回答

核心是把推理和执行解耦。强模型做一次，结果永久可用，而且可以移植到任何环境，不依赖任何特定模型架构。

这个框架叫做 PRIOR-RAG（Precomputed Reasoning and Inference Offline Repository for RAG）。

离线阶段预计算什么

对每个问题类型，强模型生成一份"导航地图"，包含四样东西：

{"reasoning_chain": {"main": ["步骤1：找Hayes出生地，检索词：J.P. Hayes birthplace","步骤2：找出生地所在县，检索词：Appleton Wisconsin county","步骤3：找邻县，检索词：Outagamie County neighboring","步骤4：找县治，检索词：Brown County seat"],"backup": ["若步骤1失败：改用 Hayes golfer birthplace","若步骤3失败：改用 counties bordering Outagamie"]},"key_entities": {"main": [["J.P. Hayes"], ["Appleton"], ["Outagamie County"], ["Brown County"]]},"retrieval_traps": ["Appleton是出生地不是答案，不要停在这里"],"answer_format": {"type": "城市名","instruction": "只输出城市名，不要输出推理过程"}
}

在线阶段，弱模型不需要推理，只需要按关键实体序列依次检索，按格式约束输出答案。

03 第一版实验：漂亮的数字，假的结论

第一版实验结果非常好看：

方法	EM精确匹配	文档覆盖率	速度
Weak-RAG（7B）	0.05	0.30	2.18s
Strong-RAG（Claude）	0.20	0.30	6.29s
PRIOR-RAG完整版	0.65	0.78	1.01s

7B模型+PRIOR，精确匹配率0.65，是强模型的2.75倍，速度快6倍。看起来非常强。

但仔细看代码，发现了一个致命问题：

# prior_build.py 里的这几行
supporting_paras = [p for p in sample.get("paragraphs", [])if p.get("is_supporting", False)  # ← 只取金标文档
]# 还有这一行：
sub_questions = sub_questions_text  # ← 把官方答案路径直接给了强模型

致命漏洞： 强模型看到的是被标注过的金标文档和官方子问题分解——相当于开卷考试。真实部署里这些东西根本不存在。实验证明的不是"强模型能推断推理路径"，而是"给了答案之后弱模型能执行"，这是一个平凡的结论，没有价值。

04 第二版：修复漏洞，面对真实数字

修复了两处：去掉金标文档过滤，去掉官方子问题分解，让强模型真正从原始候选文档里推断推理路径。

指标	第一版（开卷）	第二版（闭卷）	变化
PRIOR-RAG EM	0.65	0.35	-46%
文档覆盖率	0.78	0.48	-38%
Strong-RAG EM	0.25	0.25	不变 ✓

Strong-RAG完全没变，说明基线本来就是干净的。PRIOR-RAG的大幅下降，是去掉作弊条件之后的真实水平。

但即使修复后，PRIOR-RAG仍然显著优于强模型：EM 0.35 vs 0.25，文档覆盖率 0.48 vs 0.30，速度快近20倍。框架的核心逻辑依然成立。

05 消融实验：最意外的发现

拆开框架的每个组件，单独测试贡献：

消融组	EM	文档覆盖率
Weak-RAG（基线）	0.00	0.30
只有推理链	0.10	0.35
只有答案格式	0.20	0.30
只有关键实体	0.35	0.64
无答案格式（推理链+实体+陷阱）	0.10	0.54
完整版（所有组件）	0.35	0.54
实体+格式（最优简化）★	0.35	0.64