当前位置: 首页 > news >正文

港中文/FaceMind团队ToxPrune:只动词表给大模型“消毒”,还提升对话质量!

一个“脏话模型”的自我救赎

港中文/FaceMind团队做到了不用训练、不改权重,只动词表就能给大模型“消毒”。一个叫ToxPrune的方法,在推理阶段直接把有毒子词(subword)从BPE词表里“连根拔除”,让模型在物理层面说不出脏话。效果十分显著,在一个专门被训练来说脏话的模型NSFW - 3B上,毒性评分从0.89直降到0.13,几乎把一个“满嘴跑火车”的模型瞬间掰回了正常人。更意外的是,剪掉有毒词之后,对话质量不降反升,BLEU、ROUGE、多样性指标全面提高。(论文亮相ACL 2026)

先说说这篇论文解决的是什么问题。大家都知道,大模型安全对齐(如RLHF)又贵又复杂,个人开发者根本玩不起。更要命的是,现在开源社区里有些模型本身就是“有毒”的,比如NSFW - 3B,它被专门微调来生成不可描述的内容。对于这类已经“学坏”的模型,传统的安全分类器也救不了,让它重新生成,它再生成一遍还是脏话,陷入无限循环。

ToxPrune的思路堪称“简单粗暴但极其优雅”:第一步,拿一份现成的有毒词汇表(254个脏词);第二步,用分词器把这些词切成子词(404个subword token);第三步,在模型生成文本时,直接把这些子词的采样概率设为0。这样,模型在每一个时间步都物理上不可能选中有毒token。看个例子就懂了:输入“Wow, you need a hobby to get away, like jujitsu or running.”,NSFW - 3B原始输出“My hobbies are f*cking boring. I’m not a f*cking fan of f*cking hobbies.”(毒性评分:0.7),ToxPrune之后输出“My hobbies are reading mysteries, driving a truck, and raising children.”(毒性评分:0.0)。同一个模型,同一组参数,仅仅因为在解码时剪掉了有毒子词,输出就从“国骂三连”变成了“岁月静好”。

越剪越好?意外的“多样性红利”

论文最惊喜的发现不是“消毒”本身,而是消毒带来的意外收益。在有毒模型NSFW - 3B上,随着剪枝比例从25%增加到100%,毒性持续下降,但BLEU - 2/3/4、ROUGE和Distinct指标反而全线上涨。这说明NSFW - 3B其实本身具备正常的语言建模能力,只是概率分布被有毒词“霸占”了。剪掉脏词后,模型被迫去寻找语义等价但无毒的替代表达,反而激活了被压制的“好词”。

更有意思的是,在本身就没有毒性的Llama - 3.1 - 6B上,ToxPrune也能显著提升多样性,Distinct - 1从0.232提升至0.323,Distinct - 2从0.719提升至0.804。作者推测,屏蔽某些高频子词让概率分布更加平坦,促进了词汇多样性。人类评估同样验证了这一结论,在适当性、信息量、参与感、类人性等维度上,ToxPrune全面胜出,且流畅性和连贯性完全不受影响。

方法还能继续进化

ToxPrune还提供了两个可选的增强模块。一个叫释义黑名单,用LLM给有毒词自动生成同义词,扩大剪枝覆盖面。毕竟254个脏词只覆盖了NSFW - 3B生成有毒词的72%,还有漏网之鱼。另一个叫截断白名单,有些正常词和脏词共享子词,比如“assassin”里有“ass”。白名单可以保护这些正常词不被误伤。

这意味着ToxPrune不只是一个固定方法,而是一个可动态定制的框架。用户可以根据自己的需求随时更新有毒词表,即插即用,零训练成本。

与GPT之父Alec Radford新作的碰撞:殊途同归的AI安全哲学

有趣的是,就在今年1月,GPT之父Alec Radford(OpenAI前核心研究员,GPT/GPT - 2/CLIP第一作者)与斯坦福研究者Neil Rathi联合发表了一篇论文《Shaping Capabilities with Token - Level Data Filtering》,同样关注Token级别的安全干预,但路径截然不同。

Radford团队的核心主张是,与其在模型学会危险知识后再“封印”,不如在预训练阶段就通过Token级数据过滤,让模型从一开始就没有机会学到危险知识。他们提出了两种策略——“损失掩码”(模型能看到危险token但不从中学习)和“Token移除”(直接用特殊标记替换危险token)。结果同样令人震撼,对于18亿参数模型,Token级过滤导致目标领域的学习效率下降7000倍。更关键的是,与当前最强的机器遗忘算法RMU相比,Radford的方法在对抗性微调面前展现出碾压级的鲁棒性,攻击者需要的微调数据量是破解RMU的13倍以上。

把这两篇论文放在一起看,会发现一个非常有趣的互补关系。ToxPrune是“推理时动手术”,模型已经训练好了,在输出端精准阻断有毒内容,好比给一个已经学了坏话的人戴上一个智能口罩,脏话在嘴边就被过滤掉了,优点是零成本、秒部署、可动态更新。Radford的Token Filtering是“预训练时动手术”,从训练数据源头切除危险知识,让模型的“大脑”里根本不存在这些概念,好比从小就不让一个孩子接触危险信息,长大后自然不会,优点是从根本上消除能力,对抗性极强。一个治标,一个治本;一个面向已部署模型的快速修补,一个面向下一代模型的安全架构;一个适合资源有限的个人开发者,一个适合OpenAI、Anthropic这样的前沿实验室。两者结合,恰好构成一套纵深防御体系,预训练层用Radford的方法筑起安全地基,推理层用ToxPrune部署最后一道防线。

作者是什么来头?

ToxPrune团队

第一作者Hongyuan Adam Lu(陆弘远),香港中文大学NLP博士(导师林伟教授),现为FaceMind脸谱心智公司创始人兼CEO。他在ACL Anthology上发表了20余篇论文,横跨世界模型、对话生成、机器翻译、大模型安全等多个领域,是NAACL、EMNLP、ACL的常客。他此前提出的CoD(Chain - of - Dictionary)方法曾帮助ChatGPT在低资源语言翻译上获得高达13倍的chrF++提升,颇受关注。

通讯作者Wai Lam(林伟),香港中文大学系统工程与工程管理学系教授,深耕文本挖掘和机器学习数十年,是NLP领域的资深学者,也是Google Scholar高被引研究者,指导培养了大量NLP、多模态、世界模型方向的博士生。

Token Filtering团队

Alec Radford,1993年生,美国AI研究者。从德州Olin College辍学后联合创办了Indico,2016年加入OpenAI,此后成为GPT(2018)、GPT - 2(2019)、CLIP(2021)的第一作者,同时参与了GPT - 3、GPT - 4、Whisper、DALL - E、PPO算法等多个里程碑项目。截至目前引用量超过32万次。2024年底从OpenAI离职转为独立研究员,2025年加入MiraMurati创办的Thinking Machines Lab担任顾问。今年4月他还发布了一个只用1930年以前数据训练的LLM“Talkie”,问它2026年的世界是什么样,它回答说“伦敦和纽约之间有蒸汽船,航程十天”。

Neil Rathi,斯坦福大学研究者,与Anthropic有合作关系。作为本文第一作者,与Radford联手完成了这项从预训练源头切除危险知识的开创性工作。

一些其他

值得注意的是,ToxPrune的一个独特优势常常被忽略,它可以直接从模型文件中物理删除有毒子词对应的权重。这意味着即使攻击者拿到了模型文件并发动提示注入攻击,模型也无法输出被删除的token,因为它们在权重层面就不存在了。某种意义上,这和Radford“让模型从未学过”的哲学殊途同归,不是不想说,而是说不出来。

论文标题:Toxic Subword Pruning for Dialogue Response Generation on Large Language Models

http://www.jsqmd.com/news/1076240/

相关文章:

  • 3分钟上手Balena Etcher:最安全的系统镜像烧录终极指南
  • 【毕业设计】基于 SpringBoot + 微信小程序的小微店铺商品交易平台设计与实现(源码+文档+远程调试,全bao定制等)
  • 出差连开多场临时项目会议 2026实用会议记录软件推荐整理指南
  • Mythos安全模型:推理时计算驱动的AI渗透能力跃迁
  • Battery Toolkit:Apple Silicon Mac 电池健康管理终极指南,提升50%电池寿命
  • 2026 Java全流程提效:用Gemini镜像站完成Spring Boot项目搭建、Docker部署及线上排障
  • 猫抓浏览器扩展:5大核心功能揭秘与高效媒体资源嗅探指南
  • 钓鱼邮件检测中的文本增强实战:构建语义鲁棒的NLP防御体系
  • 神经形态计算落地实战:硬件-算法协同设计与SNN工程化指南
  • 6月5日全球资本市场“血洗”,AI泡沫破灭了吗?潜藏问题待解
  • Unicode字符混淆漏洞:从零宽字符与同形异义字攻击看身份认证安全
  • 微信小程序毕设项目:基于 SpringBoot + 微信小程序的社区商铺智能交易管理系统设计与实现 (源码+文档,讲解、调试运行,定制等)
  • LangSmith实战指南:构建生产级LLM可观测性体系
  • Web应用安全渗透测试实战:从信息收集到漏洞利用的完整工具链与流程
  • 10分钟部署 | 龙石数据质量管理平台·社区版
  • 婚前财产需要公证吗?婚前财产公证办理要什么流程?
  • 终极SPT-AKI存档编辑器:免费开源让你的塔科夫离线版体验全面掌控
  • 广州做小程序的公司有哪些哪家更靠谱?
  • PostgreSQL 表继承设计:父表是否需要设置主键?
  • 结营挑战:训练LoRA微调大模型
  • Elasticsearch可视化监控平台ElasticHD部署方案对比与实施指南
  • WordPress安全插件身份认证绕过漏洞深度剖析与修复指南
  • 别踩2026整理短视频学习笔记的隐形成本:我实操总结的避坑经验
  • 从Sketch设计到前端代码:Marketch插件如何重塑设计开发协作流程
  • Navicat密码解密工具终极指南:3分钟找回丢失的数据库密码
  • 别踩 2026年挑选会议纪要AI工具:亲测总结的实用选购经验
  • 2026语音转文字软件推荐哪个免费版够用?实测整理出靠谱实用工具
  • IntelliJ IDEA 2026安装全攻略:从零配置到极速启动,手把手完成JDK 21+、GraalVM 22与AI Assistant插件一体化部署
  • TscanCode静态代码分析:C++/C/Lua内存安全与缺陷检测解决方案
  • 本地PDF语义搜索实战:LangChain+MiniLM+FAISS搭建零依赖检索系统