当前位置：首页 > news >正文

Beyond Translation: LLM-Based Data Generation for Multilingual Fact-Checking

news 2026/3/26 21:00:24

3 多语言数据集生成（Multilingual Dataset Generation）方法

一、核心目标

构建可扩展、高效的自动化流程，生成高质量多语言事实核查数据集，支持英语、西班牙语、德语及低资源语言，包含 “支持（Supports）”“反驳（Refutes）”“信息不足（Not-info）” 三类声明 - 来源对，最终产出经 5 轮迭代优化的合成数据集。

二、具体流程（4 个核心组件 + 迭代优化）

1. 知识句子创建（Knowledge Sentences Creation）- 数据来源准备

（1）数据源选择

采用 Wikipedia 作为事实知识来源，使用对应语言的特定版本 dump 文件：
- 西班牙语、德语：2024 年 4 月版（20240401）
- 英语：2024 年 8 月版（20240820）
工具：通过wikitextparser库解析 Wikipedia 数据

（2）句子提取规则

为每个 Wikipedia 条目生成 8 条知识句子，提升数据多样性：

（3）刻意保留的局限性

自动检索的来源可能存在不完整、格式错误或上下文不足的问题，此举旨在模拟真实场景中声明常有的模糊性与不完整性。

2. 声明生成（Claim Generation）- 核心内容生成

（1）模型选择

采用Mistral-7B-Instruct-v0.3，核心依据是其在研究阶段具备较强的多语言处理能力。

（2）声明类别与生成要求

目标类别：生成 3 类声明，分别对应标签supports（支持）、refutes（反驳）、not-info（信息不足）
特殊要求：为增强模型对对比案例的敏感度，指令模型在声明中融入比较级 / 最高级形容词（如 larger、more、highest 等），助力模型学习来源 - 声明推理逻辑
数据规模：随机选取 30,000 个 Wikipedia 条目（对应 240,000 条知识句子）作为生成基础

（3）提示词（Prompt）设计

核心约束：声明需简洁（＜30 词）、客观、自包含（不提及原始来源句子）、仅基于提供的知识句子生成，不添加额外信息或主观判断
分类提示词差异：
- supports：生成与来源句子事实一致的声明（示例见表 3）
- refutes：生成与来源句子事实矛盾的伪造声明（示例见附录 A.2 表 13）
- not-info：生成无法通过来源句子验证的声明（示例见附录 A.2 表 14）

3. 声明过滤（Claim Filtering）- 质量筛选

采用 “LLM 评估 + MNLI 验证” 双重过滤机制，最小化人工干预，筛选高质量声明：

（1）LLM 过滤（同声明生成模型 Mistral-7B）

评估维度（1-5 分制）：
- 自包含性（self-contained）：声明是否无需额外上下文即可理解
- 支持度（support）：声明与来源句子的匹配程度
- 客观性（objective）：声明是否无主观偏见
- 整体质量（quality）：综合评估声明可用性
类别分类：将声明分为 C0（与来源矛盾）、C1（与来源一致）、C2（无法通过来源验证）
过滤规则：仅保留 “类别与目标标签一致”（C0→refutes、C1→supports、C2→not-info）且 “质量 + 自包含性得分＞3” 的声明

（2）MNLI 过滤（跨语言自然语言推理验证）

模型选择：mDeBERTav3-base-xnli-multilingual-nli-2mil7（经 XNLI 和 multilingual-NLI-26lang 数据集微调）
任务转化：将知识句子作为 “前提（premise）”，生成的声明作为 “假设（hypothesis）”
类别映射：
- entailment（蕴含）→ supports
- contradiction（矛盾）→ refutes
- neutral（中立）→ not-info
过滤规则：剔除模型预测类别与目标标签不一致的声明，确保语义一致性

4. 声明评估（Claim Evaluation）- 质量校验

（1）自动评估

核心指标：通过 BLEU-4、ROUGE-L、METEOR 三种指标，衡量声明与来源句子的词汇相似度，验证语义对齐程度
输出：生成两类数据集
- 无 MNLI 过滤（no_mnli_filtering）：380 万条实例（仅经 LLM 过滤）
- 有 MNLI 过滤（mnli_filtering）：220 万条实例（经 LLM+MNLI 双重过滤，即最终核心数据集 MultiSynFact）

（2）人工评估

抽样规则：对每个类别随机抽取 10 条声明，由 2 名作者进行打分
评估维度（1-5 分制）：
- 整体质量：声明的连贯性与信息量
- 语法正确性：语言表达无语法错误
- 语义关系：声明与来源句子的逻辑、事实关联准确性
- 标签准确性：声明类别标签是否正确
迭代优化：若某轮生成的声明在所有维度得分未达 4 分以上，需调整提示词并重新执行生成 - 过滤流程，直至满足质量要求

三、最终数据集输出

数据集类型	实例数量	核心特征
无 MNLI 过滤（no_mnli_filtering）	3.8M	仅经 LLM 过滤，规模大
有 MNLI 过滤（mnli_filtering）	2.2M	经双重过滤，质量更高，含英、西、德三语