当前位置: 首页 > news >正文

字节:解耦LLM检索与推理能力

📖标题:Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities
🌐来源:arXiv, 2601.21937v1

摘要

尽管在现有基准上表现出色,但大型语言模型能否推理真正新颖的科学信息仍不清楚。大多数评估都对端到端的RAG管道进行评分,其中推理与检索和工具链选择相混淆,信号进一步受到参数记忆和开放网络波动性的污染。我们引入了DeR2,这是一个受控的深度研究沙盒,它隔离了基于文档的推理,同时保留了深度搜索的核心困难:多步合成、去噪和基于证据的结论。DeR2通过四个机制将证据获取与推理分离——仅指令、概念(没有文档的黄金概念)、仅相关(仅相关文档)和全套(相关文档加上局部相关干扰物)——产生可解释的机制间隙,将检索损失与推理损失进行操作,并实现细粒度的错误归因。为了防止参数泄漏,我们应用了两阶段验证,要求没有证据的参数失败,同时确保预言概念的可解性。为了确保可重复性,每个实例都提供了一个冻结的文档库(取自2023-2025年的理论论文),其中包含专家注释的概念和经过验证的原理。在各种最先进的基础模型中进行的实验揭示了实质性的变化和显著的空间:一些模型表现出模式切换的脆弱性,全套模型的性能比纯指令模型差,而另一些模型则表现出结构概念误用,正确命名概念,但未能将它们作为过程执行。

🛎️文章简介

🔸研究问题:如何在不混淆检索与推理能力的前提下,准确评估大模型对全新科学知识的证据驱动推理能力?
🔸主要贡献:论文提出DeR2基准,首次通过四阶段受控输入实现检索与推理能力的可解释性解耦,并配套双阶段验证与冻结文档库保障可控性与可复现性。

📝重点思路

🔸设计四阶段评估范式:Instruction-only(纯参数知识)、Concepts-only(提供黄金概念但无文档)、Related-only(仅相关文档)、Full-set(相关文档+主题干扰项),使性能落差可归因于检索损失或推理损失。
🔸引入双阶段可验证性协议:要求所有题目在Instruction-only下必须失败(防参数记忆),但在Concepts-only下必须可解(保概念有效性),确保评估聚焦于真正新颖的科学推理。
🔸构建冻结文档库:每题附带2023–2025年理论论文构成的固定文档集(含专家标注概念、验证过的CoT及主题干扰项),彻底规避开放网络检索带来的时变性与不可复现问题。
🔸支持过程级诊断:提供专家标注的概念集合与链式推理轨迹,结合模型生成CoT进行细粒度错误归因(如概念遗漏、误用、推理断裂、噪声诱导模式切换)。

🔎分析总结

🔸存在“模式切换脆弱性”:部分模型在Full-set下表现反低于Instruction-only(如Gemini-3-Pro:64.2 → 53.7),表明其无法稳定激活证据驱动推理路径,暴露控制器缺陷。
🔸普遍存在“结构性概念误用”:即使正确复述概念(Concepts-only准确率75.4%),模型仍频繁失败于将其作为可执行程序(如定理实例化、算法步骤展开),而非仅调用定义。
🔸检索损失远大于推理损失:Concepts-only与Related-only平均分差达12.5%,说明从文档中精准提取并操作概念仍是主要瓶颈;Full-set与Related-only再差11.6%,凸显干扰项对证据筛选与推理锚定的强破坏性。
🔸概念数量与噪声数量呈非线性负相关:所需概念越多、干扰文档越多,性能下降越剧烈,且早期推理偏差易引发不可逆轨迹漂移,证实多概念协调与抗噪鲁棒性是深层挑战。

💡个人观点

论文将“检索-推理”从黑箱流水线转化为可拆解、可归因、可复现的白盒评估问题,直击当前RAG评测中参数泄露的根本顽疾。

附录


http://www.jsqmd.com/news/357281/

相关文章:

  • 在RK3566鲁班猫部署模型全流程
  • comsol亚波长超声聚焦 仿真 生物超声、高强度聚焦换能器 超声换能器 超声传感器 MEMS...
  • 无锡地区气流超微粉碎机价格多少,品牌选购攻略 - 工业推荐榜
  • blender 视角调整技巧
  • 【AI智能体】31-MetaGPT框架:多角色协同与标准化输出
  • 你没抄、没用AI,却被系统“判了刑”?百考通「降重+降AI」,专治学术审核“误伤症”
  • 你写得越认真,系统越不信你是人?百考通「降重+降AI」,专治“好论文被算法冤枉”
  • 基于飞秒激光模型与Comsol仿真的研究与应用
  • 讲讲家庭防水服务选购,乌鲁木齐家修防水口碑如何,选哪家? - myqiye
  • 利用Abaqus和Matlab软件软件实现相场法模拟裂纹扩展,扩展有限元XFEM等断裂力学领域...
  • 你写得越像“人”,系统越觉得你像AI?百考通「降重+降AI」,专治“好论文被算法误判”
  • 你写得越规范,系统越不信你是人?百考通「降重+降AI」,专治“好学生被算法误判”
  • 聊聊国内盐湖提锂企业口碑排名,杭州蓝然排第几 - 工业品网
  • 直接开撸PMSM的无感控制仿真!今天咱们玩点硬核的——IF控制结合反正切位置估算。别看名字高大上,实际操作起来你会发现这玩意儿其实挺有机械美感的
  • 北京大型离婚律师事务所哪家口碑好 - 工业品牌热点
  • 你没用AI,但系统说你“不像真人写的”?百考通「降重+降AI」,专治“好论文被算法冤枉”
  • ​你写得越规范,系统越不信你是人?百考通「降重+降AI」,专治“好论文被算法冤枉”
  • 调试Docker容器内的程序
  • 你没用AI,但系统说你“不像人写的”?百考通「降重+降AI」,专治“好论文被算法误伤”
  • 冥想第一千七百八十七天(1787)
  • AI人类学工具在本地化测试中的文化偏见检测框架
  • 百考通一句话需求,一键生成专业问卷,让调研智能高效
  • Thymeleaf,现代化的Java服务器端模板引擎!
  • 技术日报|AI安全黑客Shannon横空出世狂揽3000+星登顶GitHub
  • 用过才敢说! 降AIGC网站 千笔·专业降AIGC智能体 VS 学术猹,MBA专属更高效
  • 人工智能应用- 语言处理:08.AI 作诗的局限与挑战
  • 1966-2025年低空经济企业数据库
  • 人工智能应用- 语言处理:01.机器翻译:人类语言的特点
  • 如何盘活闲置的京东e卡?回收唤醒沉睡资金! - 京顺回收
  • 导师又让重写?千笔,碾压级的降AI率网站