当前位置: 首页 > news >正文

PRIOR-RAG:failed

PRIOR-RAG:failed

我们试图让7B小模型在多跳问答上打败Claude。实验设计有漏洞,方向有问题,但过程中发现了一些真正有意思的东西。


01 问题从哪里来

做RAG的人都遇到过多跳推理失败的场景。传统RAG系统有一个隐含假设,几乎没人明说,但所有实现都在用:

语义上相关的文档 = 回答问题需要的文档

对简单问题,这个假设成立。对多跳问题,它从根本上就是错的。

举个具体例子。问题是:"J.P. Hayes出生地所在县的邻县县治在哪里?"

正确的推理路径是:

步骤1 → J.P. Hayes 出生在哪?          → Appleton, Wisconsin
步骤2 → Appleton 在哪个县?            → Outagamie County
步骤3 → Outagamie County 的邻县是哪个?→ Brown County
步骤4 → Brown County 的县治在哪?      → Green Bay  ← 最终答案

问题在于:传统RAG用这个问题去做向量检索,它能找到关于Hayes的文档,也许能找到Outagamie County的文档,但它不知道还需要找Brown County,更不知道最终要找Green Bay。

这不是模型够不够强的问题,是检索路径规划的问题。


02 我们的想法:把推理路径提前算好

既然推理路径是瓶颈,能不能把路径离线预计算,存进知识库,在线查询时直接执行?

传统做法:

每次查询 → 强模型实时推理 → 生成检索路径 → 找文档 → 回答
问题:每次都要调用强模型,成本高,延迟大

PRIOR-RAG:

【离线,一次性】强模型分析知识库 → 推理路径存入知识库
【在线,每次查询】弱模型按路径执行 → 找文档 → 回答

核心是把推理和执行解耦。强模型做一次,结果永久可用,而且可以移植到任何环境,不依赖任何特定模型架构。

这个框架叫做 PRIOR-RAG(Precomputed Reasoning and Inference Offline Repository for RAG)。

离线阶段预计算什么

对每个问题类型,强模型生成一份"导航地图",包含四样东西:

{"reasoning_chain": {"main": ["步骤1:找Hayes出生地,检索词:J.P. Hayes birthplace","步骤2:找出生地所在县,检索词:Appleton Wisconsin county","步骤3:找邻县,检索词:Outagamie County neighboring","步骤4:找县治,检索词:Brown County seat"],"backup": ["若步骤1失败:改用 Hayes golfer birthplace","若步骤3失败:改用 counties bordering Outagamie"]},"key_entities": {"main": [["J.P. Hayes"], ["Appleton"], ["Outagamie County"], ["Brown County"]]},"retrieval_traps": ["Appleton是出生地不是答案,不要停在这里"],"answer_format": {"type": "城市名","instruction": "只输出城市名,不要输出推理过程"}
}

在线阶段,弱模型不需要推理,只需要按关键实体序列依次检索,按格式约束输出答案。


03 第一版实验:漂亮的数字,假的结论

第一版实验结果非常好看:

方法 EM精确匹配 文档覆盖率 速度
Weak-RAG(7B) 0.05 0.30 2.18s
Strong-RAG(Claude) 0.20 0.30 6.29s
PRIOR-RAG完整版 0.65 0.78 1.01s

7B模型+PRIOR,精确匹配率0.65,是强模型的2.75倍,速度快6倍。看起来非常强。

但仔细看代码,发现了一个致命问题:

# prior_build.py 里的这几行
supporting_paras = [p for p in sample.get("paragraphs", [])if p.get("is_supporting", False)  # ← 只取金标文档
]# 还有这一行:
sub_questions = sub_questions_text  # ← 把官方答案路径直接给了强模型

致命漏洞: 强模型看到的是被标注过的金标文档和官方子问题分解——相当于开卷考试。真实部署里这些东西根本不存在。实验证明的不是"强模型能推断推理路径",而是"给了答案之后弱模型能执行",这是一个平凡的结论,没有价值。


04 第二版:修复漏洞,面对真实数字

修复了两处:去掉金标文档过滤,去掉官方子问题分解,让强模型真正从原始候选文档里推断推理路径。

指标 第一版(开卷) 第二版(闭卷) 变化
PRIOR-RAG EM 0.65 0.35 -46%
文档覆盖率 0.78 0.48 -38%
Strong-RAG EM 0.25 0.25 不变 ✓

Strong-RAG完全没变,说明基线本来就是干净的。PRIOR-RAG的大幅下降,是去掉作弊条件之后的真实水平。

但即使修复后,PRIOR-RAG仍然显著优于强模型:EM 0.35 vs 0.25,文档覆盖率 0.48 vs 0.30,速度快近20倍。框架的核心逻辑依然成立。


05 消融实验:最意外的发现

拆开框架的每个组件,单独测试贡献:

消融组 EM 文档覆盖率
Weak-RAG(基线) 0.00 0.30
只有推理链 0.10 0.35
只有答案格式 0.20 0.30
只有关键实体 0.35 0.64
无答案格式(推理链+实体+陷阱) 0.10 0.54
完整版(所有组件) 0.35 0.54
实体+格式(最优简化)★ 0.35 0.64

这里有两个反直觉的发现。

发现1:推理链对检索几乎没有帮助。

只用推理链,文档覆盖率只有0.35,和不用先验基本一样。BM25是关键词匹配,精确实体名的效果远好于自然语言描述的推理步骤。推理链让人看起来很清晰,但BM25不吃这套。

发现2:加入推理链反而让完整版变差。

实体+格式的文档覆盖率是0.64,完整版(额外加了推理链和检索陷阱)反而降到0.54。推理链作为检索query引入了噪声,干扰了BM25。

这意味着框架的最优配置是关键实体+答案格式,而不是我们设计的"完整版"。推理链的价值在于可解释性,不在于检索性能。


06 最终数字

加入主备树状路径优化后(备用路径应对实体歧义),文档覆盖率从0.48提升到0.64。最优配置(实体+格式)的最终结果:

方法 EM 文档覆盖率 速度
Weak-RAG(7B) 0.00 0.30 1.87s
Strong-RAG(Claude) 0.25 0.30 12.96s
PRIOR-实体+格式 ★ 0.35 0.64 0.66s

比强模型:EM高40%,文档覆盖率高113%,速度快约20倍。


07 为什么最终放弃了

结果有,但有几个问题让我们觉得还不够成一篇论文。

备用路径的触发逻辑在真实场景里是假的。

主备路径切换的条件是"文档覆盖率不足时切换备用路径",但真实部署里根本不知道覆盖率是多少——那需要知道哪些是金标文档,而这正是不知道的东西。这个设计在实验里有效,在实际中没有意义,需要另外设计一个代理指标。

和NER的区别缺乏实验支撑。

我们的核心差异化是"问题导向的实体推导"而不是"文档导向的实体抽取"。NER从文档里找已有的实体,我们的方法推导回答问题需要经过的实体序列。理论上这个论点是成立的,但缺少一个直接和NER对比的实验来量化差异。

缺少和主流方法的对比。

Self-RAG、IRCoT、GraphRAG 这些方法没有加入对比实验,而这是审稿人必然会问的问题。

这些问题叠在一起,意味着要做到能发的程度,需要的工作量已经超出了这个项目的投入预算。


08 那这个项目有没有价值

有,但是工程价值大于学术价值。

我们发现的最有意思的结论是:

在BM25检索里,推理链的自然语言描述对检索没有帮助,精确实体名才是关键。

这对任何做多跳RAG的人都有参考价值:与其花力气让模型生成更好的推理描述,不如花力气提取更准确的中间实体名。

另一个有工程价值的点是离线预计算的范式本身。对于稳定知识库(法律文档、产品手册、企业内部知识库),提前用强模型分析常见问题类型并生成推理路径,可以让在线推理成本大幅降低。这不需要发论文,可以直接用在工程里。


09 如果你要在这个方向继续做

几个具体建议:

  • 关键实体提取+答案格式约束 是有效的最小组合,直接用这两个,别加推理链做BM25检索query
  • 主备路径需要一个不依赖金标标签的触发指标,比如检索结果的相关性分数或召回文档的多样性
  • 和NER做一个直接对比实验,量化"问题导向实体推导"vs"文档导向实体抽取"的差异,这是这个方向最值得验证的核心假设
  • 在稳定知识库场景(法律、医疗、企业内部)上验证,而不是学术QA数据集,工程价值会更清晰

实验基于 MuSiQue 4-hop 多跳问答基准测试,模型为 Claude(强模型离线构建)+ Qwen2.5-7B(弱模型在线执行)。

http://www.jsqmd.com/news/436097/

相关文章:

  • 分布式事务
  • React Native for OpenHarmony:简易计算器应用的开发与跨平台适配实践 - 教程
  • 西门子S7-1500PLC大项目案例 带14台发那科机器人 三个SEW变频器控制的4面转台 阀...
  • 2026不锈钢水管优质品牌推荐指南 - 优质品牌商家
  • 2026固液分离设备实力图谱:矿山过滤机与脱硫石膏过滤机五大优选厂商解析 - 深度智识库
  • 如何在openKylinx下安装配置SSH服务
  • 2026年广州纪念币销售厂家品牌优选指南 五大品质品牌参考 - 十大品牌榜
  • 解锁增长:融意网络全模式网站开发方案盘点,软件开发/APP开发/小程序开发/网站开发/网站建设,网站开发公司推荐排行 - 品牌推荐师
  • 2026年3月净化车间装修公司推荐,专业施工与品牌保障口碑之选 - 品牌鉴赏师
  • 全球灯塔工厂咨询服务商实力排行白皮书:谁在引领制造业的数字化转型浪潮? - 华Sir1
  • 2026年3月钢厂烟囱美化企业推荐,专业涂装与品牌保障口碑之选 - 品牌鉴赏师
  • 2026年 水浴锅厂家推荐排行榜:单孔恒温、四孔搅拌、八孔定时等多功能型号专业解析与选购指南 - 品牌企业推荐师(官方)
  • 2026年 定量阀厂家推荐排行榜,高压/精密/微型/润滑油/螺杆定量阀,电动工具/汽车执行器/集中注油系统专业品牌深度解析 - 品牌企业推荐师(官方)
  • kafka伪集群接入kerberosr安全认证 - NG
  • 婚介管理系统权威品牌推荐指南 - 优质品牌商家
  • 论AI元人文的诗意留白与他者面容
  • 2026年摄像头厂家权威推荐榜:远程监控系统、高清摄像头、半球网络摄像头、家用高清监控、无线监控设备选择指南 - 优质品牌商家
  • 酶解反应罐生产企业怎么选?国内推荐厂家东顶机械+国外品牌详解,性价比拉满 - 品牌推荐大师1
  • 2026年3月江苏办公室装修公司推荐,专业设计与品牌保障口碑之选 - 品牌鉴赏师
  • 2026年T-BOX品牌实力排行白皮书:重新定义车联终端的“硬核标准” - 华Sir1
  • 鸿蒙应用开发UI基础第十七节:图片展示组件Image 核心讲解与演示(进阶篇) - 鸿蒙
  • SW装配体绘制之高级配合-宽度
  • 推理onnx是啥??
  • 2026工业AI系统公司实力排行白皮书:谁在领航智能转型? - 华Sir1
  • 2026年 ARO柱塞泵维修包推荐榜单:GRACO配件、高粘度泵体、油脂定量注油泵,专业维修解决方案精选 - 品牌企业推荐师(官方)
  • 2026年道路声屏障厂家专业选型参考:公路/地铁高架/城市快速路隔音屏障精选 - 品牌推荐官
  • 2026年度11款AI论文写作工具全景解析 | 高效学术创作神器推荐
  • 3-8k初学者电钢琴推荐 - 速递信息
  • 2026北京本地收车服务优质推荐榜 - 优质品牌商家
  • “人工智能+制造”专项行动指明方向:从“自动化”向“自主化”,工业智能体要跑起来