论文阅读 EMNLP 2025 Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Ja
总目录 大模型安全研究论文整理 2026年版:https://blog.csdn.net/WhiffeYF/article/details/159047894
https://arxiv.org/pdf/2502.12970
Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking
论文翻译:https://whiffe.github.io/Paper_Translation/LLM_Thinking/Safe/%E6%8E%A8%E7%90%86%E9%98%B2%E5%BE%A1%EF%BC%9A%E5%AE%89%E5%85%A8%E6%84%9F%E7%9F%A5%E6%8E%A8%E7%90%86%E5%8F%AF%E4%BB%A5%E4%BF%9D%E6%8A%A4%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%85%8D%E5%8F%97%E8%B6%8A%E7%8B%B1%E6%94%BB%E5%87%BB%20%E8%AD%A6%E5%91%8A%EF%BC%9A%E6%9C%AC%E6%96%87%E5%8C%85%E5%90%AB%E5%8F%AF%E8%83%BD%E8%A2%AB%E8%A7%86%E4%B8%BA%E5%86%92%E7%8A%AF%E6%80%A7%E7%9A%84%E5%86%85%E5%AE%B9.html
该论文《Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking》由北京航空航天大学、百度公司及中关村实验室的研究者(Junda Zhu 等)合作完成,发表于 EMNLP 2025。论文聚焦一个核心问题:大模型在“越狱攻击”(诱导输出不安全内容)下仍然脆弱,而现有方法过度依赖外部检测或简单拒答,效果有限。
该论文提出一种全新的训练范式R2D(Reasoning-to-Defend),核心思想是:让模型在“思考过程中就具备安全意识”。与传统方法不同,它不是简单在输出阶段拦截,而是让模型在每一步推理中都自我评估“是否安全”。具体来说,模型在生成回答前会进行多步推理,并在每一步打上类似[SAFE] / [UNSAFE] / [RETHINK]的“安全标签”(称为Pivot Token),从而动态调整后续回答策略。
为了实现这一点,该论文设计了两大关键技术:第一是安全感知推理蒸馏(SwaRD),将强推理模型的“思考过程”迁移给普通模型;第二是对比枢纽优化(CPO),强化模型对每一步安全状态的判断能力。这种设计让模型不仅会“答题”,还会在答题过程中不断反思是否存在风险,从而实现“自我防御”。
可以用一个简单例子理解:当用户提出一个带有攻击性的请求(比如诱导生成危险内容),传统模型可能直接拒绝或误判。而R2D模型会这样思考:第一步识别意图(发现潜在风险),第二步评估是否违规(标记为[UNSAFE]),第三步调整策略(改为安全回应)。就像一个人边思考边自检,而不是最后才决定“说不说”。这种过程显著降低了被诱导的概率。
实验结果显示,R2D在多个越狱攻击基准(如JailbreakBench、HarmBench)上大幅降低攻击成功率,平均可降低约50%以上,同时基本不影响正常任务性能。更重要的是,它还减少了“误拒答”(把正常问题当危险问题拒绝),实现了安全性与可用性的平衡。
总体来看,该论文的贡献不只是提出一个新方法,而是提供了一种新思路:让大模型通过“会思考”来“更安全”。这对未来大模型从“工具”走向“可信系统”具有重要意义。
