当前位置: 首页 > news >正文

论文阅读:ICLR 2026 A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Res

总目录 大模型安全研究论文整理 2026年版:https://blog.csdn.net/WhiffeYF/article/details/159047894

https://openreview.net/forum?id=887vde4ZAW

https://openreview.net/pdf?id=887vde4ZAW

A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space

ICLR 2026 | 安全微调新范式

📄 论文背景与基本信息
《A GUARDRAIL FOR SAFETY PRESERVATION: WHEN SAFETY-SENSITIVE SUBSPACE MEETS HARMFUL-RESISTANT NULL-SPACE》
由吉林大学、KAUST、牛津大学等机构的 Bingjie Zhang、Yibo Yang 等学者完成。该论文发现:大语言模型在微调(即使是 benign 数据或 LoRA)时,预训练阶段的安全对齐极易退化,导致模型对恶意提示产生有害回复。

💡 例子:
想象一位训练有素的保安(预训练模型)。他原本能熟练识别并阻止危险人物(恶意提示)。
现在要让他学习新技能,比如整理文件(下游任务)。传统方法要么直接扔给他新任务,结果他忘了老本行;要么把他关进小黑屋不让学新东西。
该论文的做法是:

  1. 先给保安做一次“能力扫描”,找出哪些肌肉群是用来防危险的(安全敏感子空间)。这部分永久冻结,不参与学习。
  2. 剩下的肌肉群用来学习新技能,同时给他戴上一副“有害过滤眼镜”(有害抵抗零空间)。无论他怎么活动,眼镜都能保证:当危险人物出现时,他的反应和原来一模一样。
    最终,保安既学会了整理文件,又没丢掉防暴能力。

🔍 实验发现(基于文档事实)

  • 在 Llama-2-7B-Chat 上微调 SST‑2、AGNEWS、GSM8K、Dialog Summary 四个任务,GuardSpace 的平均有害分数(HS)降至 2.70%,显著优于 SOTA 方法 AsFT 的 8.10%;同时平均任务准确率(FA)提升至 64.36%(AsFT 为 62.78%)。
  • 跨模型验证(Qwen‑2‑7B、Gemma‑2‑9B、Mistral‑7B)在 GSM8K 上,GuardSpace 平均 HS 仅 7.60%,而 LoRA 高达 53.50%;平均 FA 达 64.60%,为所有方法最高。
  • 即使微调数据中混入 20% 有害样本,GuardSpace 的 HS 仍能维持在 11.2% 以下,而 LoRA 已飙升至 58.4%。

🚀 启示
该论文通过显式拆分安全相关与安全无关的权重,并利用零空间投影约束有害输入的输出不变,为 LLM 的“安全-性能”权衡提供了一种可工程化、无额外推理开销的普适解法。它证明:安全不是脆弱的枷锁,而是可以被结构化保留的固有属性。

http://www.jsqmd.com/news/723939/

相关文章:

  • 别再手动改Word了!用docxtemplater的{{#each}}和{{#if}}语法,5分钟搞定批量合同生成
  • 软件决策树管理中的选择路径分析者
  • 视觉语言导航技术:挑战、方案与SeeNav-Agent框架解析
  • 深圳中南实验室建设|黑灯实验室公司厂家:人类科研更好还是更糟
  • 立创3D模型快速下载
  • 基于Netty与WebSocket构建高性能物联网推送服务:从原理到实践
  • AI数据分类分级系统赋能金融行业数据治理提质增效
  • 光伏电站气象监测站
  • DLSS Swapper终极指南:3分钟掌握游戏性能优化神器,免费提升帧率与画质
  • 精美UI的单页网盘资源分享搜索页面 短剧搜索 自适应页面
  • c语言的练习—二维数组的练习(对称矩阵的判定)
  • 如何快速获取百度网盘提取码:baidupankey终极使用指南
  • React SSR 性能优化与缓存设计
  • 《跳出西方 AI 范式:以天人同胎十六字道学,重构下一代可信 AI 全生命周期底层体系
  • BetterJoy终极指南:5分钟让Switch手柄变身PC游戏利器
  • GRM奖励模型:机器人强化学习的视觉评估与优化
  • 科技中介机构如何快速搭建专业的数智化服务系统?
  • 如何永久备份微信聊天记录?WeChatMsg让你的珍贵对话永不丢失
  • 远程容器开发成本飙升?3个被90%团队忽略的CPU/内存泄漏点,今天必须修复!
  • 5个简单步骤:用downkyi免费批量下载B站视频的完整教程
  • 为什么你的AI Sandbox永远“半隔离”?——深度拆解Linux命名空间缺陷、GPU共享陷阱与3种绕过检测的隐蔽行为
  • 2026 数字孪生空间智能服务商 TOP10 综合实力榜单
  • 商品结构需要重排跨境卖家如何选择先优化哪一类
  • 终极碧蓝航线自动化脚本:Alas如何24小时解放你的双手 [特殊字符]
  • VBA-JSON 指南:在Office中轻松处理JSON数据
  • C# 13模式匹配到底强在哪?对比C# 12的12处关键突破,含IL反编译数据+基准测试报告(附GitHub可运行Demo)
  • 终极B站视频下载指南:DownKyi免费工具的完整使用教程
  • 如何高效捕获网页媒体资源?3步掌握猫抓浏览器扩展实用技巧
  • ES|QL METRICS_INFO 和 TS_INFO:为你的时间序列数据建立目录
  • 2026年3月服务好的泄爆板企业推荐,泄爆墙/抗爆板/泄爆板/纤维水泥复合钢板/防爆板/防爆墙,泄爆板工程口碑推荐 - 品牌推荐师