当前位置: 首页 > news >正文

论文阅读 EMNLP 2025 Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Ja

总目录 大模型安全研究论文整理 2026年版:https://blog.csdn.net/WhiffeYF/article/details/159047894

https://arxiv.org/pdf/2502.12970

Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking

论文翻译:https://whiffe.github.io/Paper_Translation/LLM_Thinking/Safe/%E6%8E%A8%E7%90%86%E9%98%B2%E5%BE%A1%EF%BC%9A%E5%AE%89%E5%85%A8%E6%84%9F%E7%9F%A5%E6%8E%A8%E7%90%86%E5%8F%AF%E4%BB%A5%E4%BF%9D%E6%8A%A4%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%85%8D%E5%8F%97%E8%B6%8A%E7%8B%B1%E6%94%BB%E5%87%BB%20%E8%AD%A6%E5%91%8A%EF%BC%9A%E6%9C%AC%E6%96%87%E5%8C%85%E5%90%AB%E5%8F%AF%E8%83%BD%E8%A2%AB%E8%A7%86%E4%B8%BA%E5%86%92%E7%8A%AF%E6%80%A7%E7%9A%84%E5%86%85%E5%AE%B9.html

该论文《Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking》由北京航空航天大学、百度公司及中关村实验室的研究者(Junda Zhu 等)合作完成,发表于 EMNLP 2025。论文聚焦一个核心问题:大模型在“越狱攻击”(诱导输出不安全内容)下仍然脆弱,而现有方法过度依赖外部检测或简单拒答,效果有限。

该论文提出一种全新的训练范式R2D(Reasoning-to-Defend),核心思想是:让模型在“思考过程中就具备安全意识”。与传统方法不同,它不是简单在输出阶段拦截,而是让模型在每一步推理中都自我评估“是否安全”。具体来说,模型在生成回答前会进行多步推理,并在每一步打上类似[SAFE] / [UNSAFE] / [RETHINK]的“安全标签”(称为Pivot Token),从而动态调整后续回答策略。

为了实现这一点,该论文设计了两大关键技术:第一是安全感知推理蒸馏(SwaRD),将强推理模型的“思考过程”迁移给普通模型;第二是对比枢纽优化(CPO),强化模型对每一步安全状态的判断能力。这种设计让模型不仅会“答题”,还会在答题过程中不断反思是否存在风险,从而实现“自我防御”。

可以用一个简单例子理解:当用户提出一个带有攻击性的请求(比如诱导生成危险内容),传统模型可能直接拒绝或误判。而R2D模型会这样思考:第一步识别意图(发现潜在风险),第二步评估是否违规(标记为[UNSAFE]),第三步调整策略(改为安全回应)。就像一个人边思考边自检,而不是最后才决定“说不说”。这种过程显著降低了被诱导的概率。

实验结果显示,R2D在多个越狱攻击基准(如JailbreakBench、HarmBench)上大幅降低攻击成功率,平均可降低约50%以上,同时基本不影响正常任务性能。更重要的是,它还减少了“误拒答”(把正常问题当危险问题拒绝),实现了安全性与可用性的平衡。

总体来看,该论文的贡献不只是提出一个新方法,而是提供了一种新思路:让大模型通过“会思考”来“更安全”。这对未来大模型从“工具”走向“可信系统”具有重要意义。

http://www.jsqmd.com/news/522720/

相关文章:

  • VideoAgentTrek-ScreenFilter效果展示:同一视频不同conf阈值下的漏检/误检对比
  • 卡证检测模型在低代码平台中的应用:赋能业务人员快速搭建应用
  • MATLAB实战:蓝牙GFSK调制解调全流程解析(附误码率优化技巧)
  • WuliArt Qwen-Image Turbo 5分钟极速部署:24G显存跑通高清文生图
  • 墨语灵犀保姆级教程:Mac M1/M2芯片原生支持部署与性能实测
  • 新手必看!Docker pull报错全攻略:从超时到认证失败的7种解决方案
  • Phi-3-mini-128k-instruct一文详解:Phi-3系列中唯一支持128K上下文的指令模型
  • AST | 西工大崔榕峰、张伟伟等:基于物理约束与双并行注意力UNet++的高保真度三维机翼流场重构研究
  • Unity弹窗背景虚化效果实战:5分钟搞定高斯模糊Shader(附完整代码)
  • 储能系统——05 常用一二次电缆
  • Self-Play RL实战:如何用Python和OpenAI Gym搭建自己的AI对弈环境
  • 3个核心功能让零基础用户实现高效地理数据编辑
  • mPLUG视觉问答作品展示:餐厅菜单价格识别案例
  • 幻镜视觉重构实验室部署:Kubernetes集群中幻镜服务弹性扩缩容实践
  • K210串口通信实战:从引脚映射到数据回传(附完整代码)
  • Qwen2.5-Coder-1.5B代码实例:生成符合PEP8/Pylint标准的Python代码
  • 学Simulink——基于 Simulink 的 高升压比 Boost 变换器软开关控制
  • 黄金期启航:3-6岁幼儿英语启蒙机构科学选择全指南 - 品牌2025
  • Apache Spark 第 6 章 附加篇:Tungsten 引擎深度解析
  • Codeforces Round 1086 (Div. 2)复盘
  • 2025-2026年Jira替代软件推荐:敏捷开发团队高性价比替代方案深度评测 - 品牌推荐
  • C++ Stack_queue的入门使用与模板进阶
  • 别再只盯着飞控了!用大疆PSDK开发无人机负载,解锁Matrice 30行业应用新玩法
  • 深聊黑龙江专业的铝塑门窗厂家,哪家值得选 - mypinpai
  • MedGemma应用实战:构建医学影像教学演示系统
  • Gemma-3-270m多场景落地:写邮件、做摘要、答问题——一文详解
  • Step3-VL-10B-Base学术写作助手:LaTeX文档自动插图与配文
  • 智能交通新突破:TRACER框架如何通过意图识别提升跨区域轨迹预测精度?
  • 景观设计、仿真树、仿真绿植、仿真植物、旱景、花艺景观、成都景观设计公司哪家靠谱?2026年从技术到服务的综合筛选指南 - 速递信息
  • 终于找到了一款能一次导出AI对话内容的工具——“DS随心转” - DS随心转小程序