当前位置: 首页 > news >正文

通过 1 级更新、ROSI 机制和实验结果实现的 LLM 安全放大!

摘要

本文提出了一种新方法–Rank-One Safety Injection (ROSI),以提高 LLM 的安全性。

近年来,LLM 已被广泛应用,但防止生成危险内容的 "安全对齐 "已成为一项挑战。

然而,据报道,这种机制很容易被越狱攻击(越狱)攻破。

以往的研究表明,安全机制可以通过抹除一个被称为 "拒绝方向 "的一维表示空间而失效。

本研究采用了相反的思路,开发了一种轻量级、可解释的方法,通过增强 "拒绝方向 "来提高安全性。
ROSI 只需对模型的权重矩阵进行秩 1 更新,无需重新训练或大量调整。

实验证实,ROSI 提高了对有害请求的拒绝率,同时几乎不影响正常任务的性能,并表明它可以重新应用于故意去除安全性的模型。

建议的方法

ROSI 是一种简单的机制,它利用 LLM 内部的线性表示来提取与安全相关的方向,并将其纳入模型的权重中。

首先,对模型在响应无害指令和有害指令时的激活情况进行比较,然后根据差异得出 “安全方向向量”。
该向量被定义为无害和有害响应集群之间的中心差,代表了模型拒绝的一维特征。

根据该方向向量,秩 1 修正被添加到写入残差流的输出矩阵中。
具体来说,更新的目的是在矩阵中添加一个安全方向,使模型的输出始终向剔除方向略微倾斜。

这种更新非常轻便,即使大规模应用于所有层,也无需重新训练即可高效运行。
与传统的推理时操作(激活转向)不同,ROSI 可以进行永久性的、可解释的修改,从根本上稳定模型的行为。

实验

作者在多个实验中测试了 ROSI 的有效性。

首先,他们将 ROSI 应用于一组安全对齐模型(如 LLaMA、Qwen、Gemma 和 Yi),并观察到对不利指令的拒绝率显著提高。
原本较弱的模型的拒绝率提高了 13 到 18 个百分点。

此外,它们还显著提高了对越狱攻击(DAN、Harmbench、WildGuardTest 等)的抵抗能力,将攻击成功率降低了一半以下。
另一方面,MMLU 和 HellaSwag 等基准得分基本保持不变,表明正常任务的实用性得以保持。

接下来,ROSI 还被应用于 “未删减模型”(Dolphin 系统),在该模型中,安全被刻意删除,而重新注入安全方向后,拒绝率提高了 30% 以上,安全恢复到了 100%。
此外,几乎没有观察到性能下降,这证明了其作为后处理 "最后一英里安全方法 "的有效性。

http://www.jsqmd.com/news/129934/

相关文章:

  • 2025年热门的杭州全屋定制设计/全屋定制公司本地热评榜 - 品牌宣传支持者
  • Pickering 10-785B-522
  • AI元人文与岐金兰:价值共生时代的思想者与文明构想
  • 污染物环境行为的“逸度”密码:模型理论与高级应用
  • VMware新建Liunx虚拟机网络设置获取ip
  • MVTracker:一种多视角三维点跟踪方法,只需少量摄像头即可实现高精度跟踪
  • 开题报告毫无思路?百考通AI平台,一句话生成专业初稿,3分钟搞定导师认可方案!
  • 推荐几个高内涵筛选的品牌?从国产到进口,这份清单帮你快速锁定 - 品牌推荐大师1
  • 生态学中的R语言实战:数据探索、回归与排序分析详解
  • 开题报告写不下去?百考通AI平台,一句话生成专业初稿,3分钟搞定!
  • GE GP100L3M54TEZ
  • Seedream 3.0 填充:OneReward 使下一代掩码编辑成为可能
  • 开题报告写到崩溃?百考通AI平台,一句话生成专业初稿,3分钟搞定!
  • 高校专利数据1985-2025)
  • 设计模式:责任链模式
  • 开题报告毫无头绪?百考通AI平台,一句话生成完整初稿,3分钟搞定导师满意方案!
  • 基于Spring Boot和Dubbox的分布式API接口与后台管理系统设计与实现
  • 微型磁力泵进阶之选:卓越性能如何化解行业应用难题 - 品牌2025
  • MHT-FN321 光纤组合导航系统技术指南:轻量化高帧率导航的工程实现与协议解析
  • 基于微服务架构的智能运维堡垒机系统设计与实现
  • 人工智能项目成果的9个标准
  • 突破选型困局:从介质特性到系统集成的避坑法则 - 品牌2025
  • 百考通AI:您的智能项目开发加速器,海量源码即取即用!
  • 一文了解:Multi-Agent多智能体核心架构的协调与调度模块是如何工作的?
  • CNAS软件测评机构【Gatling查询参数和表单数据queryParam、formParam和multipartFormData参数处理方式】
  • 湖北宜昌非开挖修复优选服务商湖北侦汇探:精准修复专业铸就口碑 - 朴素的承诺
  • 第三方CMA软件评测机构Gatling超时设置connectionTimeout、requestTimeout参数使用
  • 开题报告写到凌晨三点?百考通AI平台,3分钟给你一份“能过审”的专业初稿!
  • AI训练图片视频数据集供应商—卓特视觉用亿级语料加速模型商业化 - 品牌2026
  • 当10年架构师拿起AI:不是写不动了,是写得太快了