当前位置：首页 > news >正文

论文阅读：ICLR 2026 A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Res

news 2026/4/30 7:55:00

总目录大模型安全研究论文整理 2026年版：https://blog.csdn.net/WhiffeYF/article/details/159047894

https://openreview.net/forum?id=887vde4ZAW

https://openreview.net/pdf?id=887vde4ZAW

A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space

ICLR 2026 | 安全微调新范式

📄 论文背景与基本信息
《A GUARDRAIL FOR SAFETY PRESERVATION: WHEN SAFETY-SENSITIVE SUBSPACE MEETS HARMFUL-RESISTANT NULL-SPACE》
由吉林大学、KAUST、牛津大学等机构的 Bingjie Zhang、Yibo Yang 等学者完成。该论文发现：大语言模型在微调（即使是 benign 数据或 LoRA）时，预训练阶段的安全对齐极易退化，导致模型对恶意提示产生有害回复。

💡 例子：
想象一位训练有素的保安（预训练模型）。他原本能熟练识别并阻止危险人物（恶意提示）。
现在要让他学习新技能，比如整理文件（下游任务）。传统方法要么直接扔给他新任务，结果他忘了老本行；要么把他关进小黑屋不让学新东西。
该论文的做法是：

先给保安做一次“能力扫描”，找出哪些肌肉群是用来防危险的（安全敏感子空间）。这部分永久冻结，不参与学习。
剩下的肌肉群用来学习新技能，同时给他戴上一副“有害过滤眼镜”（有害抵抗零空间）。无论他怎么活动，眼镜都能保证：当危险人物出现时，他的反应和原来一模一样。
最终，保安既学会了整理文件，又没丢掉防暴能力。

🔍 实验发现（基于文档事实）

在 Llama-2-7B-Chat 上微调 SST‑2、AGNEWS、GSM8K、Dialog Summary 四个任务，GuardSpace 的平均有害分数（HS）降至 2.70%，显著优于 SOTA 方法 AsFT 的 8.10%；同时平均任务准确率（FA）提升至 64.36%（AsFT 为 62.78%）。
跨模型验证（Qwen‑2‑7B、Gemma‑2‑9B、Mistral‑7B）在 GSM8K 上，GuardSpace 平均 HS 仅 7.60%，而 LoRA 高达 53.50%；平均 FA 达 64.60%，为所有方法最高。
即使微调数据中混入 20% 有害样本，GuardSpace 的 HS 仍能维持在 11.2% 以下，而 LoRA 已飙升至 58.4%。

🚀 启示
该论文通过显式拆分安全相关与安全无关的权重，并利用零空间投影约束有害输入的输出不变，为 LLM 的“安全-性能”权衡提供了一种可工程化、无额外推理开销的普适解法。它证明：安全不是脆弱的枷锁，而是可以被结构化保留的固有属性。

查看全文

http://www.jsqmd.com/news/723939/