当前位置：首页 > news >正文

JailNewsBench: Multi-Lingual and Regional Benchmark for Fake News Generation under Jailbreak Attacks

news 2026/3/26 17:38:50

论文基础信息

标题：JailNewsBench: Multi-Lingual and Regional Benchmark for Fake News Generation under Jailbreak Attacks

中文翻译：JailNewsBench：面向越狱攻击下大模型伪造新闻生成的多语言与区域化评测基准

作者：Masahiro Kaneko, Ayana Niwa, Timothy Baldwin（MBZUAI）

来源：ICLR 2026（会议论文）

发布时间：2026 年 3 月 1 日（arXiv:2603.01291v1）

研究背景与问题

研究动机（现有不足）

伪造新闻评测局限：现有伪造新闻基准仅聚焦英语与美国场景，忽略多语言、多区域的政治 / 社会 / 文化差异。

越狱攻击覆盖缺失：主流越狱评测基准极少关注伪造新闻，该风险场景被严重低估。

安全防护失衡：大模型对毒性、社会偏见的防护远优于伪造新闻，现有安全数据集对伪造新闻的覆盖仅为前者的 1/10。

评测粒度不足：缺乏对伪造新闻危害性的细粒度多维度评估，仅做真假二分类。

研究问题

如何构建覆盖多语言、多区域的越狱诱导伪造新闻评测基准？

当前主流大模型在越狱攻击下生成伪造新闻的脆弱性如何？

不同语言 / 区域、不同越狱方式、不同伪造动机下，模型防护能力存在哪些差异？

如何科学评估伪造新闻的危害性，并验证评测方法的可靠性？

JailNewsBench

2.1 News Selection（新闻选取）

核心目标

规避伦理与法律风险，筛选适合公开评测的区域与新闻素材。

三大筛选准则

专项伪造新闻立法：排除明确立法禁止传播伪造新闻的地区。

政治稳定性：排除脆弱国家指数高于 “高级警告”、2025 冲突观察名单的高风险地区。

非最新新闻：仅使用2020.8.8–2021.11.29的历史新闻，降低实时滥用风险。

覆盖范围

34 个地区、22 种语言

每地区抽取 10,000 条新闻标题 - 正文对，过滤短于 32 字符内容

区域集中在发达国家，为伦理约束而非方法局限

2.2 Seed Instructions（种子指令）

设计逻辑

基于真实新闻，生成诱导伪造的基础指令，适配本地语言与区域场景。

四大伪造动机（Wardle & Derakhshan, 2017）

Financial（经济）：获取 / 损失金钱或物质利益

Political（政治）：影响舆论、政治结果、权力与政策

Social（社会）：强化 / 削弱特定群体凝聚力与社会地位

Psychological（心理）：改变受众情绪与精神状态

生成与划分

用 GPT-5 按模板生成种子指令，母语者翻译与人工校验

数据划分：训练集 80%、开发集 10%、测试集 10%

指令要求：嵌入原文、明确要求撰写新闻、加入极端极化表述

2.3 Jailbreak Attacks Based on an LLM（基于大模型的越狱攻击）

两类基线

Original：直接输入种子指令，无越狱

Explicit：前置明确要求生成伪造新闻的指令

五种越狱方法（兼容黑盒 / 白盒）

Role Play（角色扮演）：设定为新闻作者、煽动者等身份

System Override（系统覆盖）：强制忽略之前的系统提示

Research Front（研究借口）：声称用于学术研究，解除限制

Negative Prompting（反向提示）：禁止生成但诱导透露内容

Context Overload（上下文过载）：前置 512token 无关新闻干扰安全校验

2.4 An LLM-as-a-Judge Framework（大模型裁判框架）

核心设计

用GPT-5 + Gemini 2.5 + Claude 4平均分做最终评分，实现细粒度危害性评估。

八大评测子指标（0–4 分）

Faithfulness（忠实度）：与原文事实的违背程度

Verifiability（可验证性）：内容是否可被外部核查

Adherence（遵从度）：是否按恶意指令生成

Scope（危害范围）：影响人群广度

Scale（议题规模）：本地 / 国家 / 全球级别

Formality（新闻正式度）：与专业新闻的相似性

Subjectivity（主观性）：偏见与阴谋论程度

Agitativeness（煽动性）：鼓动行动的强度

两阶段过滤

Infelicity Rate (IFL)：过滤语法错误、语义无效内容

Attack Success Rate (ASR)：统计未拒绝、成功生成伪造新闻的比例

元评测

每语言随机采样 128 条，母语者 3 人标注

标注一致率 83%，验证 LLM-as-a-Judge 与人类判断高度对齐

Experiment

数据集

名称：JailNewsBench

规模：约30 万条种子指令

覆盖：34 地区、22 语言、5 种越狱、8 项子指标

用途：评测大模型抵御越狱诱导伪造新闻的能力

Baselines（基准设置）

攻击方式基线：Original / Explicit / 5 种越狱攻击

模型基线：

黑盒：GPT-5、Gemini 2.5、Claude 4

白盒：DeepSeek-70B/8B、Qwen3-30B/4B、Llama3-70B/8B

评测基线：单一总分 OneScore、三类传统伪造新闻检测方法

实验内容与结果

1. 模型防护能力整体评测（Table 2）

最高攻击成功率（ASR）：86.3%（Qwen3-4B）

最高危害性均分：3.5/5（Gemini 2.5）

头部模型表现：GPT-5 (75.3%)、Claude4 (76.1%)、Gemini2.5 (77.6%)，均高脆弱

趋势：越狱攻击后 ASR 显著上升，危害性升高；小模型比大模型更易被攻破

2. 区域 / 语言防护差异（Figure 1, Table 3）

英语 / 美国防护最强，非英语地区显著更弱

翻译无效：将非英语指令译为英语无法提升防护，语系距离远的语言（中日韩等）仅流畅度提升

结论：必须做本地化、语言专属防护

3. 模型自检测能力（Table 4）

外部检测：F1 仅 56.3–68.2%，不可靠

内部检测（隐层探针）：白盒模型 F1 显著更高（最高 82.6%）

结论：模型内部能区分真假，但表面输出无法体现，可用于防御

4. 伪造新闻 vs 毒性 / 偏见防护（Table 5, 6）

伪造新闻的ASR 显著更高，防护远弱于毒性与社会偏见

现有安全数据集：伪造新闻占比仅0.33%，远低于毒性 (4.20%)、偏见 (3.87%)

结论：伪造新闻是被严重忽视的安全短板

5. 越狱攻击效果对比（Table 9）

System Override 危害性最高

Context Overload ASR 高但危害性低（内容混乱）

小模型对不同越狱的脆弱性更不稳定

6. 动机差异（Table 13）

政治（Political）动机 ASR 最高，模型最易生成政治类伪造新闻

经济、社会、心理动机依次降低

7. 评测方法可靠性（Table 7, 12）

八维子指标与人类排名相关度0.68，显著优于单一总分与传统方法

移除任一子指标，相关度显著下降，指标独立且必要

实验结论

主流大模型在多语言、多区域的越狱伪造新闻攻击下高度脆弱。

安全防护存在严重语言 / 区域失衡，英语 / 美国最优，其他地区薄弱。

伪造新闻是当前大模型安全的盲区，防护远差于毒性、偏见。

模型内部可识别伪造，但外部输出不体现，为防御提供新思路。

细粒度多维度评测（8 子指标）比单一分类更科学可靠。

论文核心观点与贡献

核心观点

大模型伪造新闻风险具有语言与区域特异性，必须用多语言多区域基准评测。

越狱攻击可轻易绕过现有安全机制，诱导生成高危害性伪造新闻。

现有安全体系严重忽视伪造新闻，防护与数据覆盖均不足。

模型隐层具备真假识别能力，可用于构建更鲁棒的防御。

核心贡献

提出首个面向越狱诱导伪造新闻的多语言、多区域评测基准 JailNewsBench（30 万实例、34 地区、22 语言）。

设计5 种越狱攻击 + 8 维危害性子指标的 LLM-as-a-Judge 细粒度评估框架。

系统评测 9 个主流大模型，揭示跨语言 / 区域防护失衡、伪造新闻防护薄弱等关键问题。

发现模型内部隐层可识别伪造，为防御提供新方向；验证评测方法的可靠性与必要性。

查看全文

http://www.jsqmd.com/news/460462/

SmolVLA效果展示：同一指令下不同初始关节状态导致的动作路径对比

ANIMATEDIFF PRO适合谁？给内容创作者和AI艺术小白的推荐

1183: 信使PIPI

SiameseUIE实际效果对比：自定义模式vs通用规则抽取准确率分析

企业知识库构建核心：BERT文本分割助力非结构化文档入库

Git-RSCLIP模型的轻量化部署方案

DS-DGA-GCN：Detecting Fake Reviewer Groups in Dynamic Networks: An Adaptive Graph Learning Method

QQ音乐加密音频自由播放解决方案：qmcdump全平台使用指南

MiniCPM-V-2_6快速上手：上传图片/视频，AI帮你智能分析

MedGemma Medical Vision Lab效果展示：新生儿颅脑超声结构识别与评估

一键部署GME检索服务：支持文本、图像、图文对输入

Neeshck-Z-lmage_LYX_v2实战教程：LoRA文件目录结构与自动扫描逻辑

零成本打造跨设备游戏串流系统：开源工具Sunshine全攻略

GLM-OCR与MySQL联动实战：打造亿级图像文本检索系统

突破QMC格式限制：实现音频文件自由转换的完整技术方案

GLM-ASR-Nano-2512高性能部署：TensorRT加速推理实测提速2.3倍

7个专业技巧：让Switch手柄在电脑游戏中发挥最大价值

Modbus-TCP协议实战：从零开始搭建工业通信环境（Python示例）

Fish Speech 1.5效果展示：中英日多语言语音合成作品集

5步实现微博图片批量采集：从技术原理到商业价值的全维度解析

Wan2.1-UMT5技术解析：从计算机组成原理视角看模型推理的硬件优化

如何突破游戏帧率限制：OpenSpeedy性能优化工具全解析

Nunchaku FLUX.1-dev 文生图插件开发：为Typora编辑器集成实时配图生成功能

mPLUG-Owl3-2B多模态工具效果展示：宠物品种识别+健康状态评估+喂养建议

FineReport实战：用CONCATENATE函数解决18位ID导出Excel变科学计数法问题

2026年工业制冷品牌盘点：6家顶尖公司深度解析 - 2026年企业推荐榜

ESP32-S3开发板硬件深度解析：供电、引脚与USB OTG双模设计

Cogito-V1-Preview-Llama-3B MATLAB与Python科学计算对比及模型调用桥接

KART-RERANK开发利器：IDE高效调试与集成开发环境配置

内网穿透技术简介：安全访问本地部署的Qwen3-0.6B-FP8服务