当前位置: 首页 > news >正文

[论文阅读]RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation

RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation

https://proceedings.neurips.cc/paper_files/paper/2024/hash/27245589131d17368cccdfa990cbf16e-Abstract-Datasets_and_Benchmarks_Track.html

NIPS 2024

尝试从图中理解作者的工作:

作者是对RAG系统的评估进行了更加细粒度的指标定义

这些指标是在构建RAGChecker框架时专门设计的,用以更精细地诊断和量化 RAG 系统各个模块的性能与行为,不仅仅是粗略的召回/准确率,而能识别出检索和生成组件的具体优劣以及它们之间的交互特性。

传统的评估指标(如 recall@k、MRR、BLEU、ROUGE、BERTScore 等)通常用于评估检索排名或文本生成质量,但它们:

  1. 不能明确分解错误来源(检索 vs 生成)

  2. 难以区分语义错误、噪声敏感度、幻觉等不同行为

  3. 对于长文本及复杂回答表现不稳定

RAGChecker 引入一套基于“断言(claim)级别蕴含关系判断”的细粒度指标,可以更精细诊断 RAG 系统错误类型和机制。

RAGChecker 的指标体系分为三大类:

  1. 整体性能指标(Overall Metrics)

  2. 检索模块诊断指标(Retriever Diagnostic Metrics)

  3. 生成模块诊断指标(Generator Diagnostic Metrics)

整体性能指标

这些指标衡量 RAG 系统从查询到生成回答的整体表现:

指标

定义

说明

Precision

生成回答中正确断言所占比例

衡量回答中有多少内容是正确的

Recall

ground truth 断言中被回答覆盖的比率

衡量回答的完整性

F1 score

Precision 和 Recall 的调和平均

综合评估整体质量

  • 断言(claim)是指答案中独立的事实性陈述,经由工具抽取和语义蕴含判断生成这些指标。

  • 这些指标更关注答案是否覆盖重要事实及是否正确,而不是单纯的 n-gram 或向量相似度。

检索模块诊断指标

这些指标用于分析检索器在提取上下文片段(chunks)时的性能:

指标

计算方式

意义

Claim Recall

所有 ground truth 断言中,被检索上下文覆盖的比例

检索到的相关信息覆盖率

Context Precision

检索到的片段中,与 ground truth 有语义关系的片段比例

检索的噪声 vs 有用片段的精度

  • Claim Recall判断检索上下文是否真的包含了对回答有信息价值的内容。

  • Context Precision衡量检索器是否带入太多无关噪声(噪音片段可能误导生成器)。

生成模块诊断指标

这些指标细粒度分析生成模块如何利用检索上下文以及生成回答的可靠性:

指标

定义

说明

Context Utilization

在生成的正确断言中,有多少是使用检索上下文信息推断的

衡量生成器有效使用检索信息的程度

Relevant Noise Sensitivity

错误断言比例中,从相关检索信息中推断出的错误断言

检查生成器是否过度信任相关上下文中的噪声

Irrelevant Noise Sensitivity

错误断言比例中,由不相关检索信息引起的错误

生成器对无用上下文的敏感度

Hallucination

错误断言中无法从任何检索上下文推断出的部分

衡量生成器的幻觉现象

Self-knowledge

正确断言中无法从检索上下文推断出的部分

表示生成器依赖自身知识而非检索信息

Faithfulness

所有断言中可从检索上下文推断出的比例

衡量回答的“忠实度”

• Context Utilization

评估回答中正确的断言有多少是从检索内容中真正推导出来的。

高值意味着生成器有效利用了检索结果,有助于减少模型依赖自身记忆。

• Noise Sensitivity(相关/不相关)

拆分错误断言来源:

  • 相关噪声敏感性:错误断言是基于相关检索上下文中噪声的推断。

  • 不相关噪声敏感性:错误断言来自完全无关背景信息。

这两项指标帮助定位生成错误是否因为检索带来的噪声信息所致。

• Hallucination

衡量模型“凭空生成错误事实”的比例,即与任何检索内容无直接语义蕴含关系的错误。

这是衡量生成部分幻觉的重要指标。

• Self-knowledge

表示模型正确回答中不是来自检索上下文的信息。

在一些场景中这并不是坏事(例如广泛公共知识),但在 RAG 任务中高 Self-knowledge 表示生成器可能忽视检索结果。

• Faithfulness

衡量回答中有多少事实能被检索上下文蕴含。是对生成回答“是否忠实于检索内容”的整体度量。

RAGChecker 的细粒度指标设计具有如下优势:

  1. 语义驱动,不局限于表面结构匹配:通过断言级语义蕴含判断,能更真实反映“回答是否真实”而非仅对文本相似性。

  2. 模块拆解明确错误来源:分别诊断检索与生成,有助于定位性能瓶颈。

  3. 与人类评判高度相关:元评估显示 RAGChecker 指标比现有指标更符合人类判断

http://www.jsqmd.com/news/145401/

相关文章:

  • Windows系统动不动就自动更新,如何永久关闭呢?关闭win10 Win11自动更新的方法
  • 论文重复率过高?掌握这5个降重技巧,轻松降到合格线以下。
  • 【毕业设计】基于springboot的茶食酒馆网站(源码+文档+远程调试,全bao定制等)
  • JAVASCRIPT 离线解析IP地址 幽冥大陆(七十) —东方仙盟练气期
  • 数据库索引设计
  • 融入学习的近视防控:让调节训练 “不费力”
  • 计算机Java毕设实战-基于springboot的见山茶食酒馆网站菜品 / 茶酒品类管理茶食酒馆 “休闲社交 + 精致消费” 的场景需求【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 122魔方、123魔方
  • 慢SQL分析与优化实战
  • 6-叠氮基-6-脱氧-L-半乳糖 —— 解锁糖代谢与聚糖工程前沿的精密探针 70932-63-7
  • 论文重复率超限?5个有效技巧,快速降至安全范围
  • 基于CNN-DELM单变量时序预测 Matlab
  • Java计算机毕设之基于springboot的茶食酒馆网站基于Java+SpringBoot的见山茶食酒馆网站系统(完整前后端代码+说明文档+LW,调试定制等)
  • 华为OD机试真题 - 没有回文串 (C++ Python JAVA JS GO)
  • 论文重复率不合格?5个科学方法,轻松降到目标值
  • 【Qt】Ubantu安装Qt6.9.1
  • 暴打基洛夫6.0
  • Java毕设项目:基于springboot的启梦校园招聘平台(源码+文档,讲解、调试运行,定制等)
  • 论文查重率超过30%?五个高效降重方法,快速达标
  • 缓冲流
  • Reinforcement Learning for VLA(强化学习+VLA)
  • 学长亲荐8个AI论文工具,本科生搞定毕业论文+格式规范!
  • 深耕GEO优化,落地GEO优化,GEO优化堪称各行业推广首选王牌 - 源码云科技
  • MySQL 支持的各类索引
  • 【VMware】Ubuntu在桥接模式下没有网络图标
  • 学术论文重复超标?五个科学方法助你快速降重
  • 浅谈一则C++中拷贝构造时产生的bug
  • Java计算机毕设之基于springboot的启梦校园招聘平台基于Java与Vue的校园招聘平台设计(完整前后端代码+说明文档+LW,调试定制等)
  • Java毕设项目:基于springboot的茶食酒馆网站(源码+文档,讲解、调试运行,定制等)
  • 自制程序列表