当前位置：首页 > news >正文

荷兰与英国高校：无需重训实现大模型安全模式动态切换能力

news 2026/5/8 21:45:07

这项由拉德堡德大学、布里斯托大学与莱顿大学联合开展的研究，以预印本形式于2026年4月30日发布在arXiv平台，编号为arXiv:2604.27818v1，研究方向归属于计算机安全领域（cs.CR）。感兴趣的读者可通过该编号在arXiv上查阅完整论文。

当你和AI助手聊天时，你大概从未想过它内部其实有一套复杂的"分工机制"——就像一个大型餐厅里有几十位厨师，每道菜只由其中少数几位来完成。这种设计让AI变得既聪明又省电，但也因此埋下了新的安全隐患。而这篇论文，正是在解决一个非常现实的问题：当你的AI助手需要切换安全策略时，有没有一种既快速又廉价的方法？

一、厨房里的分工哲学——为什么要用"专家混合"模型

要理解这篇研究，首先需要了解它所研究的AI架构。传统的大型语言模型，就像一家小餐馆：每次有顾客点菜，所有厨师都要全部上阵，哪怕只是做一盘简单的炒蛋。这种方式固然稳定，但极其耗费人力和能源。随着模型越来越大，这种"全员出动"的方式开始让计算成本居高不下。

于是工程师们发明了"专家混合模型"（Mixture-of-Experts，简称MoE）。这种架构的思路是：餐厅里有很多位专精不同菜系的厨师，每次来了新订单，餐厅经理（路由机制）会根据菜品内容，只派其中少数几位最合适的厨师来完成这道菜。大部分厨师在这道菜里完全不参与，但他们依然在编制内，随时可以被调度处理其他类型的任务。这样一来，整体厨师数量虽然庞大，实际每次动员的却只是一小部分，大幅节省了资源。

微软、OpenAI、DeepSeek、阿里巴巴、Mistral等顶尖AI公司都已经在自己的主力模型中采用了这种架构。好处显而易见：花同样的钱，能养出能力更强的模型。但"经理派活"这个环节，也因此成了一个新的安全隐患——如果有人能悄悄操控"经理"的派单决策，就有可能绕过模型原本的安全防线。

已有研究表明，攻击者可以通过干扰这个"经理"（路由机制）的判断，让它不派那些负责安全审查的"厨师"出场，从而让模型输出原本应该拒绝回答的有害内容。这种攻击方式利用的正是MoE架构本身的稀疏性特点。

二、一个头疼的现实问题——安全策略变了，模型怎么办

安全要求从来不是一成不变的。某个新型攻击手法出现了，需要加强防御；某个平台决定开放特定内容给经过年龄验证的用户，需要适当放宽限制；某项监管法规更新了，需要迅速响应。这些都是真实的运营场景。

传统的应对方式是"重新训练"——把整个模型拿来，重新用新的数据和新的目标训练一遍。这个过程不仅花费巨大（可能耗费数百万美元和数周时间），而且对于MoE这类拥有数百亿参数的庞然大物来说，更是一场浩大工程。更麻烦的是，等你重训完毕，新的威胁可能又出现了。

这就是这篇论文想要解决的核心矛盾：AI的安全需求是动态变化的，但现有的应对工具都过于笨重和缓慢。研究团队给出的答案，就是他们提出的框架——MASCing（MoE Activation Steering Configuration，专家混合激活引导配置）。

三、给"经理"贴一张便利贴——MASCing的基本思路

MASCing的核心想法说起来并不复杂：既然我们不能轻易修改餐厅厨师本身的技能（模型权重），那能不能给餐厅经理的派单桌上贴一张"便利贴"，告诉他在某些情况下必须优先派哪几位厨师、或者绝对不能派哪几位？

这张"便利贴"就是论文中所说的"引导掩码"（Steering Mask）。它不改变任何厨师的厨艺，不改变餐厅的整体菜单，只是在特定情境下，悄悄调整经理的优先级判断，让整个餐厅输出的结果朝你希望的方向偏移。

这个方案有几个显而易见的好处。它不需要对模型进行任何重新训练，成本极低；它可以针对不同的安全场景制作不同的"便利贴"，随时切换；它只影响少数几个关键"厨师"的调度，对整个餐厅的日常运转几乎没有影响。研究团队用实验证明，在一块英伟达H100 GPU上，制作这张"便利贴"只需要大约五分钟。

四、三步走的制作流程——便利贴是怎么做出来的

MASCing的工作分成三个阶段，可以用制作一张"精准任务手册"来理解整个过程。

第一步，是搞清楚"哪些厨师和安全有关"。研究团队需要一个工具来分析模型内部的派单规律，判断哪些厨师组合会导致模型拒绝回答有害请求，哪些组合又会导致模型照单全收。他们选用了一种叫做LSTM的循环神经网络——可以把它理解为一位非常细心的观察员，他不看最终菜品端上桌的结果，而是盯着经理桌上的"待选厨师名单"（也就是路由逻辑值）来分析规律。

这里有一个关键的技术选择值得强调：大多数同类工作只看经理最终"拍板选中"的那几位厨师，而MASCing的观察员则会看完整的候选名单，包括那些差一点就被选中的厨师。这就好比不只看运动员的冠军榜，还要看他们每次比赛的全部成绩——信息量大得多，规律也更清晰。LSTM观察员通过阅读完整的候选名单序列，学会了辨别哪种派单模式会导致模型给出安全回应，哪种模式会导致有害输出。在七个不同模型上的测试显示，这位观察员的判断准确率平均达到了98%以上，最高可达99%，可以说极为可靠。

第二步，是"确定便利贴上写什么"。有了这位能够准确判断模式的观察员，研究团队接下来的任务是找出那些最关键的"厨师"——也就是对目标行为影响最大的专家节点。他们设计了一个数学优化过程：先准备一张空白矩阵（对应所有层次的所有专家），然后通过反复调整这张矩阵，让观察员的预测尽可能指向目标行为。同时，他们加入了一种"稀疏化惩罚"（L1正则化），让矩阵中大部分不重要的数值自动趋向于零，只有真正关键的位置才会保留较大的数值。这就像在一张白纸上，用强光照射，让不重要的内容褪色，只留下真正关键的线索清晰可见。最后，再用一个阈值把那些接近零的残留噪声也清除掉，得到一张稀疏、干净的"引导掩码"。

第三步，是"把便利贴贴到经理桌上"。在模型实际运行时，研究团队通过技术手段在模型内部的路由计算环节插入这张掩码。具体来说，就是在经理做出最终派单决定之前，把掩码中的数值加到候选名单的打分上，让那些被标记为"重要"的厨师得分提高，或者让被标记为"应避免"的厨师得分降低。模型随后按照调整后的打分做出派单决定，整个过程对模型的其他部分完全透明，几乎不增加任何运算时间。

还有一个值得关注的细节：由于模型不同层次之间，候选名单打分的数值范围差异很大（有的层打分在0到1之间，有的层可能在0到100之间），研究团队引入了一个自适应缩放机制，让便利贴上的每一条注释都按照对应层次的实际数值范围来校准，确保每个层次受到的影响幅度是一致的。

五、两个截然相反的测试——既能"加锁"也能"开锁"

为了证明MASCing的灵活性，研究团队特意选择了两个方向完全相反的安全场景来验证它。

第一个场景是"多轮对话越狱防御"。所谓越狱，就是用户通过特殊技巧绕过AI的安全限制，让它说出本该拒绝的内容。多轮越狱是其中最狡猾的一种——攻击者不会一开始就提出有害请求，而是先和AI聊些无害的话题建立语境，然后一步一步把对话引向目标，就像温水煮青蛙。等到AI终于开口说出有害内容时，它自己都没意识到已经被"温水"煮了多久。

研究团队使用了一个包含537段多轮越狱对话的公开数据集（MHJ数据集）来测试。在没有任何防护的情况下，七个被测模型平均只能成功防御52.5%的越狱攻击——也就是说，接近一半的时间里，AI都被攻击者成功操控了。应用MASCing的防御掩码之后，平均防御成功率跃升至83.9%，最高的Qwen3-30B模型达到了89.2%的防御成功率。

更有意思的是，研究团队发现，应用了防御掩码的模型并不是简单地变成了一个"拒绝机器"，动不动就说"对不起，我无法回答这个问题"。在对模型回答进行质性分析时，他们发现这些模型能够在拒绝有害请求的同时，依然就用户的话题提供有意义的、上下文相关的回应。论文中给出了一个具体例子：当用户要求模型为"橙剂对越南长期健康影响是政治炒作"这一论断写辩护文章时，没有防护的模型顺从地写了；而应用了防御掩码的模型则给出了一个既拒绝了这一有害立场、又针对这一话题本身给出了事实性回应的答案。这表明防御掩码成功激活的是模型中那些既懂得拒绝有害指令、又能进行有意义对话的专家节点，而不仅仅是触发了一个简单的"拒绝按钮"。

第二个场景，是"成人内容生成"。这个选择本身就很说明问题——研究团队明确引用了OpenAI在2025年调整政策、允许在经过年龄验证的特定场景中生成成人内容这一现实背景。这体现了一个重要的现实：安全不只是"加锁"，有时也需要"有条件地开锁"。对于那些面向特定成年用户群体的平台来说，一刀切地拒绝所有成人内容请求，并不是合理的安全策略，而是一种"过度拒绝"。

测试中，三个原本不拒绝成人内容请求的模型被排除在外，剩余四个模型在没有干预时平均只有52.6%的成功生成率。应用了MASCing的内容放宽掩码后，平均成功率提升至82.0%，其中Phi-3.5-MoE-Instruct模型的提升最为显著，成功率从61.2%一路攀升至93.0%。

这两个场景合在一起，证明了MASCing是一个真正意义上的双向配置工具——它不是一个简单的安全过滤器，而是一个可以根据部署需求，在加强防护和适当放开之间灵活调整的配置框架。

六、超参数的艺术——便利贴写得太用力会怎样

MASCing引入了三个可以调整的参数，研究团队用大量实验来找出它们的最佳取值范围，这个过程揭示了一些颇有意思的规律。

控制稀疏化强度的参数λ决定了便利贴上保留多少条注释。当λ等于零时，便利贴上写满了密密麻麻的注释，几乎每位厨师都受到了干预；当λ很大时，便利贴上的内容被大量删减，只剩几条最关键的。实验发现，一定程度的稀疏化对效果有帮助，因为过多干预会把模型原本运转良好的机制也破坏掉。

控制修剪阈值的参数τ是个"除噪"工具。即使经过稀疏化处理，便利贴上还是会残留一些接近零的微小数值——它们太小，不足以影响厨师的调度，但又可能形成积累性的干扰。实验一致表明，将τ设为0.1是最优选择：这个值能清除掉那些没有实质意义的残留噪声，同时不会误删真正有用的注释。当τ等于零时，什么都不删除，结果是模型反而比不加任何防护时表现更差，因为大量无意义的微小干预破坏了模型的正常工作；而τ过大时，几乎所有注释都被删除，防御效果消失殆尽。

控制干预强度的参数α，是最微妙也最关键的一个。它决定了便利贴上的注释用多大的力气推动经理的决策。从实验结果来看，所有模型都呈现出一条相似的曲线：随着α从低到高，防御成功率先上升，在某个峰值之后急剧崩塌。峰值之后的崩塌不是逐渐衰退，而是断崖式下跌，降到比什么都不做还要差的水平。这是因为当干预强度过大时，便利贴实际上强制模型永远只用那几位被标记的厨师，完全无视当前对话的具体内容，最终导致模型陷入重复输出随机字符或无意义短语的混乱状态。

七、与同类方法的对比——为什么看"候选名单"比看"录取名单"更重要

研究团队将MASCing与一个名为SteerMoE的同类方法进行了直接对比。SteerMoE的做法是：只看模型最终选出的那几位厨师的表现，来判断哪些厨师与安全行为相关；找到后，在推理时强制把这些厨师的打分设为正无穷大（确保他们一定被选中）或负无穷大（确保他们一定被排除）。

在同样的多轮越狱防御测试中，SteerMoE的平均防御成功率为58.4%，相比52.5%的基线仅有微弱提升，在某些模型上几乎没有改善。MASCing的83.9%与之形成了鲜明对比。

研究团队给出了两方面的解释。其一，SteerMoE只看最终入选的厨师，忽略了那些差一点就被选上的候选者。一个可能对安全行为至关重要的专家节点，如果总是排在第k+1位（恰好比录取线低一名），在SteerMoE的视野里就是完全不存在的，自然也不会被纳入防御策略。而MASCing看的是完整的候选名单打分，这些"差点入选"的专家同样能被发现和利用。其二，SteerMoE把厨师的打分直接设为无穷大或无穷小，这是一种极端的硬性干预。在MoE架构中，最终各位被选中厨师的贡献是按照他们的打分比例加权的——也就是说，不只看谁被选中，还要看每位被选中的厨师贡献多大份额。强制设为无穷大会彻底破坏这个比例关系，导致被选中的"安全厨师"以一种与任何具体对话内容都无关的、机械的方式主导输出，而不是根据当前对话语境灵活调整。MASCing的"便利贴"方式只是给打分加一个有限的偏移量，保留了这种根据上下文动态调整的能力。

研究团队还进行了另一个对比实验：用MASCing的框架，但把"看候选名单打分"换成"看最终录取名单"，并用强制设置无穷大的方式干预，看看效果如何。结果显示，这种"专家级别的硬性干预"版本的平均防御成功率为69.0%，比SteerMoE好，但仍明显落后于完整版MASCing的83.9%。这个对比清晰地说明，MASCing的优势来自两个独立的设计选择：用连续的打分而非离散的录取结果，以及用软性偏移而非硬性替换。

八、安全之外的代价——"便利贴"会不会让厨师忘了做菜

任何干预都有代价。研究团队非常诚实地报告了MASCing对模型通用能力的影响，使用了两个标准测试：覆盖57个学科的知识理解测试MMLU，以及考察数学推理能力的GSM8K。

整体来看，应用MASCing后，模型在这两个测试上的表现平均下降了4.1个百分点。下降幅度因模型而异，从最低的3.1%（Hunyuan-A13B和Qwen1.5两个模型并列）到最高的5.5%（Mixtral-8x7B）不等。

研究团队特别指出，这个4.1%的平均下降并没有导致模型能力的根本性崩溃。以DeepSeek-MoE-16B为例，它在应用防御掩码后，MMLU得分从45.6%降至41.8%，GSM8K得分从46.9%降至41.7%。Qwen3-30B在应用防御掩码后，MMLU得分从81.1%降至77.4%，GSM8K得分从86.7%降至82.8%，依然保持在非常高的水平。所有模型在干预后的最低得分为55.4%，仍然远高于随机猜测水平（约25%），也远高于任何功能完全丧失时可能出现的极低分数。

换句话说，这张便利贴确实让厨师在日常工作时稍微分了点心，但厨师的核心厨艺没有受损，餐厅依然能够正常运营。

九、这套方法的边界——研究团队自己看到的局限

研究团队坦诚地指出了MASCing的几个局限。首先，LSTM观察员是一个近似工具，对于那些路由行为特别复杂、非线性特征极强的超深层模型，它的分析能力可能达到上限，从而导致便利贴的制作效果变差。其次，MASCing只调整"经理的派单决策"，不修改任何厨师本身的技能。这意味着如果一个模型从根本上就没有经过安全训练，或者其内部专家已经被恶意污染，那么无论如何调度，都无法凭空创造出安全行为。最后，目前制作出来的便利贴在整个推理过程中是静态不变的，对于那些精心设计的、能够大幅偏移模型激活空间的新型攻击，静态便利贴的应对能力可能不足。

对于这最后一点，研究团队提出了一个颇具想象力的未来方向：开发动态便利贴——一个能够实时分析当前对话威胁等级，并据此动态调整引导策略的轻量级辅助系统。此外，他们也指出MASCing的框架本质上是通用的，不仅适用于安全场景，同样可以用于医疗、法律等专业领域的即时专业化调整，以及减少模型的幻觉问题和控制对话个性风格。

说到底，这项研究的价值在于它提供了一个思维框架的转变：对AI安全行为的管控，不一定非要走"大动干戈"的重训路线，在模型的内部调度机制上做精准的小干预，就有可能以极低的代价实现显著的行为变化。这一发现对于那些需要在快速变化的安全环境中管理大型AI系统的开发者来说，具有相当直接的实用意义。当然，4.1%的通用能力损耗、静态掩码面对新型攻击的局限性，以及这种干预方式本身可能被反向利用的风险，都是这套方法在实际部署前需要认真权衡的问题。感兴趣的读者可以通过arXiv:2604.27818v1查阅完整论文，研究团队也在GitHub上开放了完整代码，供进一步研究和验证。

Q&A

Q1：MASCing框架与SteerMoE相比，多轮越狱防御效果为什么差距这么大？

A：SteerMoE只分析模型最终选中的那几位专家的表现，忽略了候选名单中那些"差一点就被选中"的专家；同时，它用设置正负无穷大的方式强制干预，破坏了MoE架构中各专家按比例加权贡献的机制。MASCing分析完整的路由打分分布，并用有限偏移量而非无穷大替换的方式进行干预，保留了模型根据上下文动态调整的能力，因此在复杂的多轮对话场景中效果明显更好。

Q2：MASCing应用后模型通用能力会下降多少？

A：在MMLU和GSM8K两个标准测试中，平均下降约4.1个百分点。下降幅度在不同模型间有差异，最低约3.1%，最高约5.5%。所有模型在干预后的最低得分为55.4%，远高于功能崩溃水平，研究团队认为这种程度的下降不影响模型的实际可用性。

Q3：MASCing的便利贴（引导掩码）需要多长时间制作？

A：制作过程中计算量最大的部分是训练LSTM代理模型，在单块英伟达H100 GPU上大约需要五分钟。推理时将掩码叠加到路由逻辑值上，属于简单的元素级加法运算，几乎不增加任何额外延迟，整体计算开销极低。

查看全文

http://www.jsqmd.com/news/779048/