虚假新闻检测数据集中的隐藏偏见
在2021年欧洲计算语言学协会(EACL)会议上,我们的论文《虚假新闻检测数据集中的隐藏偏见》荣获最佳长篇论文提名。该论文研究了研究社区用于开发自动识别虚假新闻模型的数据集,发现这些数据集存在偏见,而这些偏见正是以往论文所报告的高准确率的主要原因。这表明,基于这些数据集构建的模型在现实场景中将难以有效泛化。
数据收集中的偏见
创建虚假新闻数据集需要收集新闻文章及其对应的标签(例如“可靠”或“不可靠”)。事实核查网站(如PolitiFact)为单个文章分配标签,虽准确但耗时且成本高,导致数据集规模较小。另一种方法是给每个新闻网站(如cnn.com)分配一个可靠性评分,这能轻松创建大规模数据集,但会产生噪音标签。我们的研究考察了这两种方法(网站级和文章级标注)所构建数据集的偏见。
关键词相关性带来的偏见
以流行的FakeNewsNet数据集(文章级标注)为例,我们训练了一个简单的逻辑回归模型仅基于关键词预测新闻的可靠性,其准确率(78%)几乎与基于BERT的最先进模型(81%)相当。分析发现,像“Brad”、“Pitt”等名人名字倾向于预测“不可靠”标签,而“2018”、“season”等中性词则预测“可靠”标签。
这表明,模型可能只是捕捉到了主题词与“虚假新闻”标签之间的表面相关性(例如,数据集中的名人新闻多被标记为不可靠),而非真正理解了内容的虚假性。这反映出数据集构成存在偏差:主题词与标签之间存在强烈且不真实的关联。造成这种现象的部分原因是事实核查网站选择文章时的固有偏见,另一部分原因则是在构建FakeNewsNet时,作者使用搜索引擎检索全文,可能导致原本的虚假内容被替换为可靠内容而标签未更新。
网站分类带来的问题
在考察使用网站级标签的NELA数据集时,我们发现了更多问题。文献中报道的模型在该类数据集上准确率很高,但我们发现大部分准确率归因于训练集和测试集中包含了来自相同网站的文章。这意味着模型可以忽略识别虚假内容的任务,而只是简单地记住特定网站是可靠还是不可靠。
我们通过一个“随机标签”实验证明了这一点:将网站标签完全随机打乱,使其不再代表网站的真实可靠性。结果发现,使用这些随机标签训练的模型,其准确率与使用真实标签训练的模型相比,差距仅在2%以内。这表明模型实际上是在学习识别网站,而非判断内容真伪,这在实践中毫无用处,因为网址本身就包含了网站名。
我们还发现,即使采用干净的训练/测试集网站划分,也不足以衡量模型的泛化能力。模型性能的高低与训练集和测试集中网站的相似性密切相关:相似度越高,准确率越高。
模型性能的深层偏差
在使用合理划分(训练集与测试集网站相似度低)的数据集进行训练后,我们分析了模型最容易出错的文章类型。结果发现,模型在政治和世界新闻等主题上的表现最差,而在体育和娱乐新闻上表现最好。新闻的真实性对所有主题都至关重要,模型在政治等关键领域的表现不佳,凸显了改进虚假新闻检测数据的紧迫性。
改进建议
我们的研究表明,为确保模型性能的提升真正反映了其识别虚假新闻的能力,研究社区需要在数据收集、数据集构建和实验设计方面做出多项改变。为此,我们提供了最佳实践指南表格(见原文),并公开了所有代码(基于Apache 2.0许可,可在GitHub上获取),希望以此推动虚假新闻建模、分析和数据质量的提升。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
