当前位置：首页 > news >正文

LongFact：评估LLM长文本事实性的基准测试

news 2026/5/11 19:08:42

论文核心要点

创建了 "LongFact"，这是一个可以评估长文本事实性和信息准确性的数据集
提出了"SAFE"，这是一种利用 LLM 自动评估长文本事实性的方法
引入 "F1@K"，这是一种量化长句事实性的指标

Longfact

功能：

包括 38 个主题的 2,280 个事实调查问题
主题分为四类：STEM（科学、技术、工程和数学）、社会科学、人文科学和其他。
包括需要长时间回答的问题
使用 GPT-4生成问题。
从生成的问题中删除重复问题，并为每个主题随机抽取 30 个问题

下图左侧显示的是 "包含在 LongFact 中的问题主题百分比"，右侧显示的是 "现有数据集与 LongFact 的比较"。

与现有的数据集相比，LongFact 是可用于评估长句事实性的数据集中主题数量最多的数据集。

SAFE（搜索增强事实评估器）

SAFE 的评估按以下顺序进行

向 LLM 输入 "提示"，并让它输出 "响应"。
使用 LLM 将回复文本分解为若干 "要素"。
使用 LLM 确定 "分解的各个元素是否与输入的提示相关"。
使用已确定相关的 "单个元素 "的 LLM 生成 Google 搜索查询。
使用生成的查询进行谷歌搜索
确定谷歌搜索结果中的 "个别元素 "是否为正确信息（以及是否有充分依据）。

实质上，如下图所示，输出文本被分解为其元素、查询生成和谷歌搜索，从搜索结果中寻找支持事实的信息。

当然，"正确信息元素数量 "越多，LLM 输出的响应就越可靠
当作者为 SAFE 与人类意见不一致的 100 个事实分配正确标签时，他们发现 SAFE 的正确率为 76%，而人类的正确率仅为 19%。此外，SAFE 的表现优于人类，而成本却不到人类评分者的二十分之一。

这意味着，SAFE 将被证明成本相对较低，准确性较高。

顺便提一下，SAFE 的实施代码在GitHub 上以开源方式提供，任何人都可以使用。

评价指标：F1@K

F1@K 是一个同时考虑拟合率（精确度）和重复率（召回率）的指标。其具体定义如下

一致率 $prec(y)$：输出 y 中 "正确信息要素 "的百分比
召回率 $R_k(y)$：输出 y 中 "正确信息元素 "数量的最小值 $S(y)$ 除以用户预期偏好的输出句子长度（正确信息元素数量）的数量K ($min(S(y)/K,1) $)

而 F1@K，则将拟合度和可重复性与下式相结合
如果 S(y) > 0
$F 1 @ K (y) = \frac{2 * Prec (y) * R_{K} (y)}{Prec (y) + R_{K} (y)}$

如果 S(y) = 0
$F 1 @ K (y) = 0$
换句话说，F1@K 的值介于 0 和 1 之间，越接近 1 表示长文本的事实性越强

K 是一个超参数，代表用户偏好的输出文本长度（正确信息元素的数量）。假设用户认为最多 K 个 "信息正确元素 "越多越好，但对超过 K 个的 "信息正确元素 "则漠不关心。

例如，如果 K=64，用户认为 64 以内的 "正确信息要素 "越多越好，但对第 65 条及以后的信息则漠不关心。

K 值需要根据用户的偏好来设置。

这样不仅可以评估信息是否符合事实，还可以评估信息是否包含足够的信息量。

事实上，本文使用 F1@K 对 13 个 LLM 进行了基准测试，并比较了这些模型在长句中的实际表现。

Experiment

LongFact 对 13 个 LLM（Gemini、GPT、Claude 和 PaLM-2 系列）进行了基准测试，以研究LLM 中"模型大小 "与 "长文本事实性 "之间的关系。

具体来说，每个模型都会针对从 LongFact 中随机抽取的 250 个问题生成输出结果，并使用 SAFE 进行评估。

然后，他们对 F1@K（K=64 和 K=178）的性能进行了量化和比较。

Result

实验结果表明，模型越大，越长的陈述越符合事实。

例如，GPT-4-Turbo 的事实性高于 GPT-4，GPT-4 的事实性高于 GPT-3.5-Turbo。我们还可以看到，Gemini-Ultra 的事实性高于 Gemini-Pro，PaLM-2-L-IT-RLHF 的事实性高于 PaLM-2-L-IT。

此外，无论 K 值如何，三个最符合事实的模型是 GPT-4-Turbo、Gemini-Ultra 和 PaLM-2-L-IT-RLHF。

局限性

本研究的局限性如下

LongFact 和 SAFE 依赖于 LLM，因此直接受到所用 LLM 功能的影响
SAFE 依靠谷歌搜索，可能无法正确评估某些事实
至于 SAFE 的性能是否与 "人类专家级评估员 "相当或更好，尚未进行测试。

查看全文

http://www.jsqmd.com/news/481808/

稳压泵实力厂家2026年新动态，一文速览，排污泵/恒压变频供水设备/消防泵/消防水箱/玻璃钢水箱，稳压泵公司有哪些 - 品牌推荐师

百考通精准贴合不同学历层次的学术需求，实现了从选题到成文的全流程赋能

cpp的模块配置

EasyCPP2

关于HTML5的一些基础认知

深圳宝珀维修、上海朗格保养、南京积家检修｜6城高端腕表维修科普指南 - 时光修表匠

阅读进度管理程序，设定目标自动计算每日页数，提醒打卡，提高读完率，不半途而废。

北京格拉苏蒂维修、杭州雅克德罗保养、无锡法穆兰检修｜6城高端腕表维修科普指南 - 时光修表匠

台州宠物腹腔镜绝育：这些医院值得一试，异宠/宠物眼科/宠物腹腔镜绝育/狗狗体检/宠物内科/宠物骨科，宠物绝育医生选哪家 - 品牌推荐师

QQ机器人接入OpenClaw完整指南：从零开始打造你的智能助手

KDT 小记

杭州宝玑维修、无锡帝舵保养、北京朗格检修｜6城高端腕表维修科普指南 - 时光修表匠

[20260313]深入探究max_idle_time(21c).txt

java+vue+SpringBoot校园外卖服务系统（程序+数据库+报告+部署教程+答辩指导）

java+vue+SpringBoot学生用品采购系统（程序+数据库+报告+部署教程+答辩指导）

java+vue+SpringBoot火车票订票系统（程序+数据库+报告+部署教程+答辩指导）

[20260309]关于db_file_multiblock_read_count参数疑问3.txt

ABC449

图形学：重心坐标与纹理渲染核心技术解析

[20260310]理解db file parallel read等待事件与异步IO.txt

无根仪式：当AI时代的时间加速膨胀

[20260308]关于db_file_multiblock_read_count参数疑问1.txt

2FSK-RRC处理随机信号——GNU radio

prometheus在k8s上的部署及添加非集群节点的监控

2026最新！9个AI论文软件测评：自考毕业论文写作必备工具推荐

寻找优质单篦雨水井？不妨先看看这些生产厂商，预制混:凝土电力井/水泥阀门井/水泥检查井/预制混凝土成品井，井厂商排行 - 品牌推荐师

【太奶学IT】80岁太奶都能学会：计算机到底是怎么算加法的？从开关到CPU全讲透

LeetCode 300 | 最长递增子序列