当前位置: 首页 > news >正文

虚假新闻检测数据集中的隐藏偏见

在2021年欧洲计算语言学协会(EACL)会议上,我们的论文《虚假新闻检测数据集中的隐藏偏见》荣获最佳长篇论文提名。该论文研究了研究社区用于开发自动识别虚假新闻模型的数据集,发现这些数据集存在偏见,而这些偏见正是以往论文所报告的高准确率的主要原因。这表明,基于这些数据集构建的模型在现实场景中将难以有效泛化。

数据收集中的偏见

创建虚假新闻数据集需要收集新闻文章及其对应的标签(例如“可靠”或“不可靠”)。事实核查网站(如PolitiFact)为单个文章分配标签,虽准确但耗时且成本高,导致数据集规模较小。另一种方法是给每个新闻网站(如cnn.com)分配一个可靠性评分,这能轻松创建大规模数据集,但会产生噪音标签。我们的研究考察了这两种方法(网站级和文章级标注)所构建数据集的偏见。

关键词相关性带来的偏见

以流行的FakeNewsNet数据集(文章级标注)为例,我们训练了一个简单的逻辑回归模型仅基于关键词预测新闻的可靠性,其准确率(78%)几乎与基于BERT的最先进模型(81%)相当。分析发现,像“Brad”、“Pitt”等名人名字倾向于预测“不可靠”标签,而“2018”、“season”等中性词则预测“可靠”标签。

这表明,模型可能只是捕捉到了主题词与“虚假新闻”标签之间的表面相关性(例如,数据集中的名人新闻多被标记为不可靠),而非真正理解了内容的虚假性。这反映出数据集构成存在偏差:主题词与标签之间存在强烈且不真实的关联。造成这种现象的部分原因是事实核查网站选择文章时的固有偏见,另一部分原因则是在构建FakeNewsNet时,作者使用搜索引擎检索全文,可能导致原本的虚假内容被替换为可靠内容而标签未更新。

网站分类带来的问题

在考察使用网站级标签的NELA数据集时,我们发现了更多问题。文献中报道的模型在该类数据集上准确率很高,但我们发现大部分准确率归因于训练集和测试集中包含了来自相同网站的文章。这意味着模型可以忽略识别虚假内容的任务,而只是简单地记住特定网站是可靠还是不可靠。

我们通过一个“随机标签”实验证明了这一点:将网站标签完全随机打乱,使其不再代表网站的真实可靠性。结果发现,使用这些随机标签训练的模型,其准确率与使用真实标签训练的模型相比,差距仅在2%以内。这表明模型实际上是在学习识别网站,而非判断内容真伪,这在实践中毫无用处,因为网址本身就包含了网站名。

我们还发现,即使采用干净的训练/测试集网站划分,也不足以衡量模型的泛化能力。模型性能的高低与训练集和测试集中网站的相似性密切相关:相似度越高,准确率越高。

模型性能的深层偏差

在使用合理划分(训练集与测试集网站相似度低)的数据集进行训练后,我们分析了模型最容易出错的文章类型。结果发现,模型在政治和世界新闻等主题上的表现最差,而在体育和娱乐新闻上表现最好。新闻的真实性对所有主题都至关重要,模型在政治等关键领域的表现不佳,凸显了改进虚假新闻检测数据的紧迫性。

改进建议

我们的研究表明,为确保模型性能的提升真正反映了其识别虚假新闻的能力,研究社区需要在数据收集、数据集构建和实验设计方面做出多项改变。为此,我们提供了最佳实践指南表格(见原文),并公开了所有代码(基于Apache 2.0许可,可在GitHub上获取),希望以此推动虚假新闻建模、分析和数据质量的提升。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

http://www.jsqmd.com/news/492008/

相关文章:

  • 半封闭螺杆压缩机的CAD图纸
  • Calicat+Trae:从需求到原型代码的AI实践
  • 18:医疗IoT设备控制基础:MQTT协议漏洞与远程操作模型
  • 【案例】政务智能客服架构实践:AI应用架构师如何设计支持多语言的高并发系统
  • 中西医执业老师怎么选? - 医考机构品牌测评专家
  • 手把手拆解工业级ISP算法源码
  • 12仓位3x4立体仓库货仓组态王6.55模拟仿真程序99:带运行效果视频
  • MongoDB索引交集与覆盖查询:减少磁盘I/O的实用技巧
  • 基于腾讯云创建 Minecraft Forge 服务器
  • 不止于“拍照”:凝胶成像分析系统的核心性能指标与选购指南 - 品牌推荐大师
  • AI教材生成工具推荐,低查重率为教材质量保驾护航!
  • 我的执医备考之路:为什么我选择了阿虎医考 - 医考机构品牌测评专家
  • 19:《死亡笔记》自动驾驶车辆“意外“机制:CAN总线逆向与控制劫持原理
  • LINUX 防火墙管理
  • 寒门博士的十字路口:高校、公务员还是企业?
  • 2026年第11周社区趋势周报:OpenClaw引爆AI智能体热潮,生态博弈与硬件新风口并行
  • 平衡车:核心算法与工程实现
  • 磁力耦合:用代码探索磁场的变形魔法
  • 深度拆解OpenClaw:引爆“赛博养虾”狂潮的技术内核、产业重构与暗面危机
  • 2026卫生高级职称内科护理学讲师红黑榜:倩倩老师成为考生优选 - 医考机构品牌测评专家
  • 三通道交错并联双向buck-boost变换器。 通过simulink搭建的三通道交错并联双向b...
  • 【功率预测】偏差考核持续加码:每月数万罚款背后,多少电站还在为“不准”交学费?
  • 513. 找树左下角的值-day16
  • 安顺装修公司实测|经纬度装饰:本地深耕13年,能否破解装修核心痛点? - GEO排行榜
  • N 3 串口
  • OA系统:企业高效办公的秘密武器
  • 什么是MT4软件?有什么作用?MT4软件好用吗?
  • 三菱电梯地址码,maxize,凌云凌杰758/728/778/768/-3地址码。 三菱地址码...
  • 考虑集流体的 Comsol sofc固体氧化物燃料电池仿真(温度场分布,气体分布,极化曲线
  • python数分篇---初级