当前位置：首页 > news >正文

论文阅读 EMNLP 2025 Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Ja

news 2026/3/26 13:52:44

总目录大模型安全研究论文整理 2026年版：https://blog.csdn.net/WhiffeYF/article/details/159047894

https://arxiv.org/pdf/2502.12970

Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking

论文翻译：https://whiffe.github.io/Paper_Translation/LLM_Thinking/Safe/%E6%8E%A8%E7%90%86%E9%98%B2%E5%BE%A1%EF%BC%9A%E5%AE%89%E5%85%A8%E6%84%9F%E7%9F%A5%E6%8E%A8%E7%90%86%E5%8F%AF%E4%BB%A5%E4%BF%9D%E6%8A%A4%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%85%8D%E5%8F%97%E8%B6%8A%E7%8B%B1%E6%94%BB%E5%87%BB%20%E8%AD%A6%E5%91%8A%EF%BC%9A%E6%9C%AC%E6%96%87%E5%8C%85%E5%90%AB%E5%8F%AF%E8%83%BD%E8%A2%AB%E8%A7%86%E4%B8%BA%E5%86%92%E7%8A%AF%E6%80%A7%E7%9A%84%E5%86%85%E5%AE%B9.html

该论文《Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking》由北京航空航天大学、百度公司及中关村实验室的研究者（Junda Zhu 等）合作完成，发表于 EMNLP 2025。论文聚焦一个核心问题：大模型在“越狱攻击”（诱导输出不安全内容）下仍然脆弱，而现有方法过度依赖外部检测或简单拒答，效果有限。

该论文提出一种全新的训练范式R2D（Reasoning-to-Defend），核心思想是：让模型在“思考过程中就具备安全意识”。与传统方法不同，它不是简单在输出阶段拦截，而是让模型在每一步推理中都自我评估“是否安全”。具体来说，模型在生成回答前会进行多步推理，并在每一步打上类似[SAFE] / [UNSAFE] / [RETHINK]的“安全标签”（称为Pivot Token），从而动态调整后续回答策略。

为了实现这一点，该论文设计了两大关键技术：第一是安全感知推理蒸馏（SwaRD），将强推理模型的“思考过程”迁移给普通模型；第二是对比枢纽优化（CPO），强化模型对每一步安全状态的判断能力。这种设计让模型不仅会“答题”，还会在答题过程中不断反思是否存在风险，从而实现“自我防御”。

可以用一个简单例子理解：当用户提出一个带有攻击性的请求（比如诱导生成危险内容），传统模型可能直接拒绝或误判。而R2D模型会这样思考：第一步识别意图（发现潜在风险），第二步评估是否违规（标记为[UNSAFE]），第三步调整策略（改为安全回应）。就像一个人边思考边自检，而不是最后才决定“说不说”。这种过程显著降低了被诱导的概率。

实验结果显示，R2D在多个越狱攻击基准（如JailbreakBench、HarmBench）上大幅降低攻击成功率，平均可降低约50%以上，同时基本不影响正常任务性能。更重要的是，它还减少了“误拒答”（把正常问题当危险问题拒绝），实现了安全性与可用性的平衡。

总体来看，该论文的贡献不只是提出一个新方法，而是提供了一种新思路：让大模型通过“会思考”来“更安全”。这对未来大模型从“工具”走向“可信系统”具有重要意义。

查看全文

http://www.jsqmd.com/news/522720/