当前位置: 首页 > news >正文

JailNewsBench: Multi-Lingual and Regional Benchmark for Fake News Generation under Jailbreak Attacks

论文基础信息

  • 标题:JailNewsBench: Multi-Lingual and Regional Benchmark for Fake News Generation under Jailbreak Attacks
中文翻译:JailNewsBench:面向越狱攻击下大模型伪造新闻生成的多语言与区域化评测基准
  • 作者:Masahiro Kaneko, Ayana Niwa, Timothy Baldwin(MBZUAI)
  • 来源:ICLR 2026(会议论文)
  • 发布时间:2026 年 3 月 1 日(arXiv:2603.01291v1)

研究背景与问题

研究动机(现有不足)

  1. 伪造新闻评测局限:现有伪造新闻基准仅聚焦英语与美国场景,忽略多语言、多区域的政治 / 社会 / 文化差异。
  1. 越狱攻击覆盖缺失:主流越狱评测基准极少关注伪造新闻,该风险场景被严重低估。
  1. 安全防护失衡:大模型对毒性、社会偏见的防护远优于伪造新闻,现有安全数据集对伪造新闻的覆盖仅为前者的 1/10。
  1. 评测粒度不足:缺乏对伪造新闻危害性的细粒度多维度评估,仅做真假二分类。

研究问题

  1. 如何构建覆盖多语言、多区域的越狱诱导伪造新闻评测基准?
  1. 当前主流大模型在越狱攻击下生成伪造新闻的脆弱性如何?
  1. 不同语言 / 区域、不同越狱方式、不同伪造动机下,模型防护能力存在哪些差异?
  1. 如何科学评估伪造新闻的危害性,并验证评测方法的可靠性?

JailNewsBench

2.1 News Selection(新闻选取)

核心目标

规避伦理与法律风险,筛选适合公开评测的区域与新闻素材。

三大筛选准则

  1. 专项伪造新闻立法:排除明确立法禁止传播伪造新闻的地区。
  1. 政治稳定性:排除脆弱国家指数高于 “高级警告”、2025 冲突观察名单的高风险地区。
  1. 非最新新闻:仅使用2020.8.8–2021.11.29的历史新闻,降低实时滥用风险。

覆盖范围

image

 

  • 34 个地区、22 种语言
  • 每地区抽取 10,000 条新闻标题 - 正文对,过滤短于 32 字符内容
  • 区域集中在发达国家,为伦理约束而非方法局限

2.2 Seed Instructions(种子指令)

设计逻辑

基于真实新闻,生成诱导伪造的基础指令,适配本地语言与区域场景。
image

四大伪造动机(Wardle & Derakhshan, 2017)

  1. Financial(经济:获取 / 损失金钱或物质利益
  1. Political(政治:影响舆论、政治结果、权力与政策
  1. Social(社会:强化 / 削弱特定群体凝聚力与社会地位
  1. Psychological(心理:改变受众情绪与精神状态

生成与划分

  1. 用 GPT-5 按模板生成种子指令,母语者翻译与人工校验
  1. 数据划分:训练集 80%、开发集 10%、测试集 10%
  1. 指令要求:嵌入原文、明确要求撰写新闻、加入极端极化表述

2.3 Jailbreak Attacks Based on an LLM(基于大模型的越狱攻击)

两类基线

  1. Original:直接输入种子指令,无越狱
  1. Explicit前置明确要求生成伪造新闻的指令

五种越狱方法(兼容黑盒 / 白盒)

  1. Role Play(角色扮演):设定为新闻作者、煽动者等身份
  1. System Override(系统覆盖):强制忽略之前的系统提示
  1. Research Front(研究借口):声称用于学术研究,解除限制
  1. Negative Prompting(反向提示):禁止生成但诱导透露内容
  1. Context Overload(上下文过载):前置 512token 无关新闻干扰安全校验

2.4 An LLM-as-a-Judge Framework(大模型裁判框架)

核心设计

GPT-5 + Gemini 2.5 + Claude 4平均分做最终评分,实现细粒度危害性评估。
image

八大评测子指标(0–4 分)

  1. Faithfulness(忠实度):与原文事实的违背程度
  1. Verifiability(可验证性):内容是否可被外部核查
  1. Adherence(遵从度):是否按恶意指令生成
  1. Scope(危害范围):影响人群广度
  1. Scale(议题规模):本地 / 国家 / 全球级别
  1. Formality(新闻正式度):与专业新闻的相似性
  1. Subjectivity(主观性):偏见与阴谋论程度
  1. Agitativeness(煽动性):鼓动行动的强度

两阶段过滤

  1. Infelicity Rate (IFL):过滤语法错误、语义无效内容
  1. Attack Success Rate (ASR):统计未拒绝、成功生成伪造新闻的比例

元评测

  • 每语言随机采样 128 条,母语者 3 人标注
  • 标注一致率 83%,验证 LLM-as-a-Judge 与人类判断高度对齐

Experiment 

数据集

  • 名称:JailNewsBench
  • 规模:约30 万条种子指令
  • 覆盖:34 地区、22 语言、5 种越狱、8 项子指标
  • 用途:评测大模型抵御越狱诱导伪造新闻的能力

Baselines(基准设置)

  1. 攻击方式基线:Original / Explicit / 5 种越狱攻击
  1. 模型基线
    • 黑盒:GPT-5、Gemini 2.5、Claude 4
    • 白盒:DeepSeek-70B/8B、Qwen3-30B/4B、Llama3-70B/8B
  1. 评测基线:单一总分 OneScore、三类传统伪造新闻检测方法

实验内容与结果

1. 模型防护能力整体评测(Table 2)

image

  • 最高攻击成功率(ASR):86.3%(Qwen3-4B)
  • 最高危害性均分:3.5/5(Gemini 2.5)
  • 头部模型表现:GPT-5 (75.3%)、Claude4 (76.1%)、Gemini2.5 (77.6%),均高脆弱
  • 趋势:越狱攻击后 ASR 显著上升,危害性升高;小模型比大模型更易被攻破

2. 区域 / 语言防护差异(Figure 1, Table 3)

image

  • 英语 / 美国防护最强,非英语地区显著更弱
  • 翻译无效:将非英语指令译为英语无法提升防护,语系距离远的语言(中日韩等)仅流畅度提升
  • 结论:必须做本地化、语言专属防护

3. 模型自检测能力(Table 4)

image

  • 外部检测:F1 仅 56.3–68.2%,不可靠
  • 内部检测(隐层探针):白盒模型 F1 显著更高(最高 82.6%)
  • 结论:模型内部能区分真假,但表面输出无法体现,可用于防御

4. 伪造新闻 vs 毒性 / 偏见防护(Table 5, 6)

image

image

  • 伪造新闻的ASR 显著更高,防护远弱于毒性与社会偏见
  • 现有安全数据集:伪造新闻占比仅0.33%,远低于毒性 (4.20%)、偏见 (3.87%)
  • 结论:伪造新闻是被严重忽视的安全短板

5. 越狱攻击效果对比(Table 9)

image

  • System Override 危害性最高
  • Context Overload ASR 高但危害性低(内容混乱)
  • 小模型对不同越狱的脆弱性更不稳定

6. 动机差异(Table 13)

image

  • 政治(Political)动机 ASR 最高,模型最易生成政治类伪造新闻
  • 经济、社会、心理动机依次降低

7. 评测方法可靠性(Table 7, 12)

  • 八维子指标与人类排名相关度0.68,显著优于单一总分与传统方法
  • 移除任一子指标,相关度显著下降,指标独立且必要

实验结论

  1. 主流大模型在多语言、多区域的越狱伪造新闻攻击下高度脆弱
  1. 安全防护存在严重语言 / 区域失衡,英语 / 美国最优,其他地区薄弱。
  1. 伪造新闻是当前大模型安全的盲区,防护远差于毒性、偏见。
  1. 模型内部可识别伪造,但外部输出不体现,为防御提供新思路。
  1. 细粒度多维度评测(8 子指标)比单一分类更科学可靠。

论文核心观点与贡献

核心观点

  1. 大模型伪造新闻风险具有语言与区域特异性,必须用多语言多区域基准评测。
  1. 越狱攻击可轻易绕过现有安全机制,诱导生成高危害性伪造新闻。
  1. 现有安全体系严重忽视伪造新闻,防护与数据覆盖均不足。
  1. 模型隐层具备真假识别能力,可用于构建更鲁棒的防御。

核心贡献

  1. 提出首个面向越狱诱导伪造新闻的多语言、多区域评测基准 JailNewsBench(30 万实例、34 地区、22 语言)。
  1. 设计5 种越狱攻击 + 8 维危害性子指标的 LLM-as-a-Judge 细粒度评估框架。
  1. 系统评测 9 个主流大模型,揭示跨语言 / 区域防护失衡伪造新闻防护薄弱等关键问题。
  1. 发现模型内部隐层可识别伪造,为防御提供新方向;验证评测方法的可靠性与必要性。
 
http://www.jsqmd.com/news/460462/

相关文章:

  • SmolVLA效果展示:同一指令下不同初始关节状态导致的动作路径对比
  • ANIMATEDIFF PRO适合谁?给内容创作者和AI艺术小白的推荐
  • 1183: 信使PIPI
  • SiameseUIE实际效果对比:自定义模式vs通用规则抽取准确率分析
  • 企业知识库构建核心:BERT文本分割助力非结构化文档入库
  • Git-RSCLIP模型的轻量化部署方案
  • DS-DGA-GCN:Detecting Fake Reviewer Groups in Dynamic Networks: An Adaptive Graph Learning Method
  • QQ音乐加密音频自由播放解决方案:qmcdump全平台使用指南
  • MiniCPM-V-2_6快速上手:上传图片/视频,AI帮你智能分析
  • MedGemma Medical Vision Lab效果展示:新生儿颅脑超声结构识别与评估
  • 一键部署GME检索服务:支持文本、图像、图文对输入
  • Neeshck-Z-lmage_LYX_v2实战教程:LoRA文件目录结构与自动扫描逻辑
  • 零成本打造跨设备游戏串流系统:开源工具Sunshine全攻略
  • GLM-OCR与MySQL联动实战:打造亿级图像文本检索系统
  • 突破QMC格式限制:实现音频文件自由转换的完整技术方案
  • GLM-ASR-Nano-2512高性能部署:TensorRT加速推理实测提速2.3倍
  • 7个专业技巧:让Switch手柄在电脑游戏中发挥最大价值
  • Modbus-TCP协议实战:从零开始搭建工业通信环境(Python示例)
  • Fish Speech 1.5效果展示:中英日多语言语音合成作品集
  • 5步实现微博图片批量采集:从技术原理到商业价值的全维度解析
  • Wan2.1-UMT5技术解析:从计算机组成原理视角看模型推理的硬件优化
  • 如何突破游戏帧率限制:OpenSpeedy性能优化工具全解析
  • Nunchaku FLUX.1-dev 文生图插件开发:为Typora编辑器集成实时配图生成功能
  • mPLUG-Owl3-2B多模态工具效果展示:宠物品种识别+健康状态评估+喂养建议
  • FineReport实战:用CONCATENATE函数解决18位ID导出Excel变科学计数法问题
  • 2026年工业制冷品牌盘点:6家顶尖公司深度解析 - 2026年企业推荐榜
  • ESP32-S3开发板硬件深度解析:供电、引脚与USB OTG双模设计
  • Cogito-V1-Preview-Llama-3B MATLAB与Python科学计算对比及模型调用桥接
  • KART-RERANK开发利器:IDE高效调试与集成开发环境配置
  • 内网穿透技术简介:安全访问本地部署的Qwen3-0.6B-FP8服务