当前位置：首页 > news >正文

Misinformation Detection using Large Language Models with Explainability

news 2026/5/12 19:07:43

摘要

研究背景：网络平台虚假信息快速传播，破坏个体信任并阻碍理性决策，传统检测方法存在局限性。
核心方法：提出可解释且计算高效的检测流程，采用基于 Transformer 的预训练语言模型（PLMs），对 RoBERTa 和 DistilBERT 进行两步优化：
- 第一步：冻结模型骨干网络，仅训练分类头。
- 第二步：逐步解冻骨干网络层，同时应用分层学习率衰减（LLRD）。
实验设计：在两个真实世界基准数据集（COVID Fake News、FakeNewsNet GossipCop）上测试，采用统一的数据预处理和分层划分方案。
可解释性实现：整合两种解释方法保障透明度：
- 局部可解释性：通过 LIME（局部可解释模型无关解释）提供 token 级推理依据。
- 全局可解释性：借助 SHAP（SHapley 可加性解释）实现全局特征归因。
关键发现：DistilBERT 的检测准确率与 RoBERTa 相当，但所需计算资源显著更少。
核心贡献：
- 定量证明轻量级 PLM 在大幅降低计算成本的同时，能维持虚假信息检测任务性能。
- 提出可解释的检测流程，在不影响性能的前提下，获取可靠的局部和全局推理依据。
研究结论：结合规范微调与可解释性的 PLMs，可成为可扩展、可信的虚假信息检测有效框架。

核心贡献

轻量化且具竞争力的建模：在 COVID 虚假新闻数据集上，紧凑型预训练语言模型（PLM）DistilBERT 准确率与 RoBERTa 相当，且大幅降低计算成本 —— 训练日志显示其每轮训练时间约 397 秒，在 2041 个测试样本上推理吞吐量约 71.8 样本 / 秒、延迟约 13.9 毫秒 / 样本，为实时部署与边缘部署提供可行路径。
含分层学习率衰减（LLRD）的两阶段微调：采用 “先冻结骨干网络稳定任务适配，再逐步解冻网络层并实施分层学习率衰减” 的训练方案，缓解灾难性遗忘问题，提升模型收敛效果。
内置可解释性：整合 LIME（局部 token 级理据）与 SHAP（全局归因），为模型决策提供可信、人类可理解的依据，满足高风险场景下负责任 AI 的关键需求。
全面评估：除准确率外，还报告精确率、召回率、F1 值、AUROC 及效率指标（参数数量、每轮训练时间、推理延迟、吞吐量），实现与更强基准模型的全方位对比。

方法

数据收集与预处理
- 选用两个数据集：COVID Fake News 数据集、FakeNewsNet GossipCop 数据集（含真实 / 虚假新闻实例）；
- 清洗文本（去除超链接、特殊字符、表情符号、HTML 标签块），并将文本统一转为小写以标准化格式，适配基于 Transformer 的语言模型训练。
模型选择
- 测试 4 种主流 Transformer 模型：DistilBERT、RoBERTa、社交媒体语言适配版 BERTweetbase、DeBERTa-v3-small；
- 通过对比确定最优模型架构，平衡准确率、计算效率与可解释性。
两阶段训练策略
- 针对 RoBERTa（高容量）和 DistilBERT（轻量型）两种模型，均搭配任务专属分类头（公式：$ $y^= Softmax (W 2 \cdot Dropout (σ (W 1 \cdot h [CLS])))$$ ），避免过拟合的同时最大化性能；
  - 阶段 1（特征提取）：冻结预训练 Transformer 模型骨干，仅训练自定义分类头（含注意力机制、 dropout 层、密集层、softmax 输出层），保障语言表征通用性，适配二分类错误信息检测任务；
  - 阶段 2（分层学习率衰减微调）：逐步解冻所有 Transformer 层，对靠近输入嵌入的低层用较小学习率、靠近分类头的高层用较大学习率，实现模型对新数据的适配，同时防止 “灾难性遗忘”。
可解释性集成
- 局部可解释性：用 LIME 方法识别输入文本中影响最终预测的特定词元 / 短语；
- 全局可解释性：用 SHAP 方法计算并可视化全数据集中各特征的输入贡献；
- 两种方法结合，确保模型输出清晰、易懂、可靠，满足事实核查人员与学者的解读需求。