当前位置: 首页 > news >正文

Beyond Translation: LLM-Based Data Generation for Multilingual Fact-Checking

3 多语言数据集生成(Multilingual Dataset Generation)方法

一、核心目标

  构建可扩展、高效的自动化流程,生成高质量多语言事实核查数据集,支持英语、西班牙语、德语及低资源语言,包含 “支持(Supports)”“反驳(Refutes)”“信息不足(Not-info)” 三类声明 - 来源对,最终产出经 5 轮迭代优化的合成数据集。

二、具体流程(4 个核心组件 + 迭代优化)

1. 知识句子创建(Knowledge Sentences Creation)- 数据来源准备

(1)数据源选择

  • 采用 Wikipedia 作为事实知识来源,使用对应语言的特定版本 dump 文件:

    • 西班牙语、德语:2024 年 4 月版(20240401)

    • 英语:2024 年 8 月版(20240820)

  • 工具:通过wikitextparser库解析 Wikipedia 数据

(2)句子提取规则

  为每个 Wikipedia 条目生成 8 条知识句子,提升数据多样性:

  • 类型 1:从页面中随机抽取 5 条句子

  • 类型 2:从摘要部分抽取 3 条句子(首句 + 1 条随机句 + 尾句)

(3)刻意保留的局限性

  自动检索的来源可能存在不完整、格式错误或上下文不足的问题,此举旨在模拟真实场景中声明常有的模糊性与不完整性。

2. 声明生成(Claim Generation)- 核心内容生成

(1)模型选择

  采用Mistral-7B-Instruct-v0.3,核心依据是其在研究阶段具备较强的多语言处理能力。

(2)声明类别与生成要求

  • 目标类别:生成 3 类声明,分别对应标签supports(支持)、refutes(反驳)、not-info(信息不足)

  • 特殊要求:为增强模型对对比案例的敏感度,指令模型在声明中融入比较级 / 最高级形容词(如 larger、more、highest 等),助力模型学习来源 - 声明推理逻辑

  • 数据规模:随机选取 30,000 个 Wikipedia 条目(对应 240,000 条知识句子)作为生成基础

(3)提示词(Prompt)设计

  • 核心约束:声明需简洁(<30 词)、客观、自包含(不提及原始来源句子)、仅基于提供的知识句子生成,不添加额外信息或主观判断

  • 分类提示词差异:

    • supports:生成与来源句子事实一致的声明(示例见表 3)

    • refutes:生成与来源句子事实矛盾的伪造声明(示例见附录 A.2 表 13)

    • not-info:生成无法通过来源句子验证的声明(示例见附录 A.2 表 14)

3. 声明过滤(Claim Filtering)- 质量筛选

  采用 “LLM 评估 + MNLI 验证” 双重过滤机制,最小化人工干预,筛选高质量声明:

(1)LLM 过滤(同声明生成模型 Mistral-7B)

  • 评估维度(1-5 分制):

    • 自包含性(self-contained):声明是否无需额外上下文即可理解

    • 支持度(support):声明与来源句子的匹配程度

    • 客观性(objective):声明是否无主观偏见

    • 整体质量(quality):综合评估声明可用性

  • 类别分类:将声明分为 C0(与来源矛盾)、C1(与来源一致)、C2(无法通过来源验证)

  • 过滤规则:仅保留 “类别与目标标签一致”(C0→refutes、C1→supports、C2→not-info)且 “质量 + 自包含性得分>3” 的声明

(2)MNLI 过滤(跨语言自然语言推理验证)

  • 模型选择:mDeBERTav3-base-xnli-multilingual-nli-2mil7(经 XNLI 和 multilingual-NLI-26lang 数据集微调)

  • 任务转化:将知识句子作为 “前提(premise)”,生成的声明作为 “假设(hypothesis)”

  • 类别映射:

    • entailment(蕴含)→ supports

    • contradiction(矛盾)→ refutes

    • neutral(中立)→ not-info

  • 过滤规则:剔除模型预测类别与目标标签不一致的声明,确保语义一致性

4. 声明评估(Claim Evaluation)- 质量校验

(1)自动评估

  • 核心指标:通过 BLEU-4、ROUGE-L、METEOR 三种指标,衡量声明与来源句子的词汇相似度,验证语义对齐程度

  • 输出:生成两类数据集

    • 无 MNLI 过滤(no_mnli_filtering):380 万条实例(仅经 LLM 过滤)

    • 有 MNLI 过滤(mnli_filtering):220 万条实例(经 LLM+MNLI 双重过滤,即最终核心数据集 MultiSynFact)

(2)人工评估

  • 抽样规则:对每个类别随机抽取 10 条声明,由 2 名作者进行打分

  • 评估维度(1-5 分制):

    • 整体质量:声明的连贯性与信息量

    • 语法正确性:语言表达无语法错误

    • 语义关系:声明与来源句子的逻辑、事实关联准确性

    • 标签准确性:声明类别标签是否正确

  • 迭代优化:若某轮生成的声明在所有维度得分未达 4 分以上,需调整提示词并重新执行生成 - 过滤流程,直至满足质量要求

三、最终数据集输出

数据集类型 实例数量 核心特征
无 MNLI 过滤(no_mnli_filtering) 3.8M 仅经 LLM 过滤,规模大
有 MNLI 过滤(mnli_filtering) 2.2M 经双重过滤,质量更高,含英、西、德三语

四、关键特性

  1. 可扩展性:流程不依赖特定语言,可适配所有 LLM 和 MNLI 模型支持的语言,尤其适用于低资源语言

  2. 低耗高效:大幅减少人工标注成本与时间,通过自动化流程实现大规模数据集生成

  3. 质量可控:通过 “生成 - 过滤 - 评估” 的迭代机制(5 轮优化),确保声明的客观性、自包含性与语义对齐性

http://www.jsqmd.com/news/67341/

相关文章:

  • 道2:汉语和英语是互相独立的系统,学习英语就是学习“切换系统”
  • JAVA快捷键
  • go缓存设计 redis 发布订阅
  • npm几个实用命令
  • 产品研发管理 : 构建世界一流的产品研发管理体系
  • iOS 知识点 - 多线程总结(GCD/Operation/Swift Concurrency/线程安全/线程通信)
  • 前端实现页面截图及截图内容包含跨域图片时的处理
  • 2025.12.8
  • (最新)2025实测!这11款免费降AI率工具,哪款能救你论文?
  • LLM应用剖析: 小红书AI图文生成器-红墨
  • openSIS 8.0 SQL注入漏洞技术分析与利用
  • 【把Linux“聊”明白】进程的概念与状态 - 详解
  • 17.Mybatis之代理对象的执行
  • 哥大与某机构共建AI研究中心,五年投资500万美元
  • linux基础命令
  • 中国电子学会全国机器人技术等级考试(一级)2019年12月 - 详解
  • 道1:“知识型英语”和“本能型英语”都要学
  • IDEA源码阅读神器-Diagram专业的工具
  • 读书笔记 XILINX ug1137-Zynq UltraScale+ MPSoC Software Developer Guide 软件开发者指南 Chapter7
  • 2025年苗木批发基地供应商口碑榜:前十强深度解析,丝棉木/金森女贞/青叶复叶槭/红叶李/国槐/白蜡/无刺枸骨球苗木批发基地供应商排行榜单
  • 2025 年优质服装批发市场推荐:精准适配需求,解锁高效采批新体验
  • MySQL 性能实测:Docker 容器 vs 裸机部署,差距到底有多大?
  • 详细介绍:【二叉搜索树】:程序的“决策树”,排序数据的基石
  • thinkphp6 request /i /s等转换
  • An Explainable KG-RAG-Based Approach to Evidence-Based Fake News Detection Using LLMs
  • 10 种低情商行为
  • 科学破解“睡眠信用卡”困局:狄耐克脑电波交互技术,重塑健康作息新模式
  • 2025 最新免费降 AI 率网站测评!13 款中英文工具实测,哪个最好用?
  • Google 开源项目风格指南
  • 男士洗面奶哪个牌子最好?露卡菲娅山茶花洗面奶,排行榜单热销款揭秘!