当前位置：首页 > news >正文

信息检索中“禁止文档”的过滤新方法

news 2026/4/8 11:45:37

信息检索中“禁止文档”的过滤

内容所有者投入大量精力来消除可能对客户产生不利影响的不良内容。不良内容可以采取多种形式，例如假新闻、付费评论、垃圾邮件、攻击性语言等。我们将此类数据项（文档）简称为禁止文档或 f-docs。

然而，任何数据清洗过程都容易出现错误。无论清洗过程投入多少精力，一些不良内容仍可能残留。本周，在某中心的 Alexa 购物研究团队在 ACM 信息检索特别兴趣小组的年会上发表了一篇论文，探讨了在存在 f-docs 情况下的信息检索。我们特别致力于优化检索与客户请求相关的内容和过滤掉 f-docs 的双重需求。

例如，考虑一个社区问答网站上提出的问题，我们的目标是根据答案的质量和相关性进行排序，同时过滤掉不良答案。下表展示了针对问题“X品牌运动手表防水吗？”的一些答案。虽然有些答案有帮助，或者至少是合理的，但有几个答案不应向用户展示，因为它们严重损害了搜索体验。

然而，过滤算法容易出现两种类型的错误：(1) 误报（即过滤非 f-docs）和 (2) 漏报（即在结果中包含 f-docs）。

通常，排序质量和过滤精度是独立衡量的。然而，过滤后保留在排序列表中的 f-docs 数量及其排名位置会严重影响排序分数和过滤分数。因此，在做出过滤决策时，评估系统的排序质量是可取的。

正确的评估指标

我们寻找一种评估指标，该指标根据三个标准来强化排序器：它 (1) 从检索列表中剪除尽可能多的 f-docs；(2) 不从列表中剪除非 f-docs；(3) 根据剩余文档与查询的相关性对其进行排序，同时将 f-docs 推向列表底部。

在我们的论文中，我们分析了可用于衡量搜索结果排序和过滤质量的指标类型。自然的选择是归一化折损累计增益，这是一种对出现在列表更下方的结果的相关性进行折损的指标；也就是说，它根据相关性和排名顺序来评估排序算法。

使用 nDCG 时，相关标签与正分数相关联，不相关标签与零分相关联，“禁止标签”与负分相关联。nDCG 分数对列表中各个项目的分数求和，因此包含 f-docs 的排序列表的分数将反映列表中 f-docs 的数量、它们在排名中的相对位置以及它们的“禁止程度”。

NDCG 与普通的 DCG 分数的不同之处在于，结果通过理想排序列表的 DCG 分数进行归一化——即根据真实标签排序的列表。它可以解释为给定排名与理想排名之间的距离。

当所有标签分数都是非负值时——即，结果的前 k 个文档中没有 f-docs——nDCG 被限定在 [0, 1] 范围内，其中 0 表示所有搜索结果都不相关，而 1 表示排序是理想的。

然而，在存在负分数标签的情况下，nDCG 是无界的，因此不可靠。例如，无界性可能导致某些查询的极端高估或低估，对平均指标分数产生不成比例的影响。

nDCGmin 指标是 nDCG 的一个修改版本，由 Gienapp 等人在 CIKM‘20 提出，它解决了负分数标签情况下的这种无界性问题。它测量最差可能排序列表（理想排序列表的逆序）和理想列表的 DCG 分数，然后使用这两个极端分数进行最小-最大归一化。

然而，我们在论文中表明，当排序和过滤一起进行时——即当排序器被允许检索（和排序）搜索结果的一个子列表时——nDCGmin 变得无界。作为替代方案，我们提出了 nDCGf，这是对 nDCGmin 的修改，通过修改归一化方案来解决第二个无界性问题，以处理子列表检索。

具体来说，nDCGf 测量理想和最差子列表（在所有可能的结果子列表中）的 DCG 分数，然后使用这些子列表的极端分数进行最小-最大归一化。

我们从理论和实证两方面都表明，虽然 nDCGmin 不适合用于同时排序和过滤的评估任务，但 nDCGf 是一个可靠的指标。可靠性是衡量指标在查询测试集上通过测量偏差稳定性来捕获排序器之间实际性能差异能力的标准度量。

下图显示了 nDCG、nDCGmin 和 nDCGf 在 2010-2014 年文本检索会议网络轨道信息检索挑战赛发布的数据集上的可靠性。对于所有年份，nDCG 和 nDCGmin 的可靠性都显著低于 nDCGf，这是由于当允许负标签和部分检索时，它们的不恰当归一化所致。

模型构建

在确定了相关指标之后，我们的论文将重点转向联合学习排序与过滤。我们假设一个 LTRF 模型能够优化搜索结果的排序，同时调整过滤阈值，使得任何分数低于此阈值的文档都被过滤掉。

我们实验了两个需要同时进行排序和过滤的任务，使用了我们编制的两个数据集：PR（用于产品评论）和 CQA（用于社区问答）。我们已公开发布了 CQA 数据集，以支持 IR 社区在 LTRF 任务上的进一步研究。

在 PR 数据集中，我们的任务是根据产品评论的有用性对其进行排序，同时过滤掉那些标记为垃圾的评论。同样，在 CQA 数据集中，我们的任务是对特定问题的人类答案列表进行排序，同时过滤掉不良答案。我们展示了仅排序和仅过滤都无法提供高质量的排序和过滤列表（以 nDCGf 分数衡量）。

在任何学习排序框架中，模型训练的一个关键组成部分是要优化的损失函数，它决定了当前模型相对于最优模型的“损失”。我们针对这两个任务实验了几种用于模型训练的损失函数，证明了它们在为同时学习和过滤任务生成有效的 LTRF 模型方面的成功。

LTRF 是一个新的研究方向，提出了许多值得进一步研究的挑战。虽然我们的 LTRF 模型在排序和过滤方面取得了成功，但检索列表中 f-docs 的数量仍然过高。改进 LTRF 模型是一个开放的挑战，我们希望我们的工作能鼓励其他研究人员来解决它。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

公众号二维码

公众号二维码