文本到图像生成模型的安全挑战与原型引导概念擦除技术
1. 文本到图像生成模型的安全挑战
文本到图像(Text-to-Image, T2I)生成技术近年来取得了显著进展,能够根据自然语言描述生成高度逼真的图像。然而,这类模型通常在海量网络爬取数据上训练,不可避免地会学习到一些不良概念。这些概念可能涉及侵权内容(如特定卡通形象或名人肖像)或不适宜内容(如暴力、色情等)。这引发了公众对T2I模型可能被滥用的担忧。
传统安全增强方法主要分为两类:
- 外部保护措施:如过滤训练语料或附加轻量级检测器来阻止不安全输出
- 概念擦除方法:直接干预模型的输出分布,通过针对性微调调整模型参数或在推理时引导采样过程
现有方法在擦除狭义概念(如特定IP或名人)时表现良好,但在处理广泛概念(如暴力、色情)时效果有限。这是因为广泛概念可以通过多变的外观和灵活的文本表达实现,其表现形式具有高度多样性。
2. 原型引导的概念擦除原理
2.1 核心思想
我们观察到生成模型将语义组织成结构化、低维的邻域而非任意分散。基于此,我们假设T2I模型在其嵌入空间中隐式地整合了概念的典型模式。这些嵌入空间提供了复杂概念的自然摘要,并受益于图像和文本之间强大的跨模态对齐。
具体而言,目标概念的实例存在于图像和文本嵌入空间的几个紧凑区域中。我们使用一组代表性锚点(称为概念原型)来总结这些区域,每个原型捕捉概念的一个显著和表达性模式。理想情况下,这些原型平衡了覆盖范围和特异性,代表了完整的概念范围,同时提供了精确的语义方向。
2.2 技术实现
原型引导的概念擦除是一种无需训练的流程,通过一组学习到的概念原型来捕捉概念多样性。具体步骤包括:
- 通过比较包含和不包含目标概念的生成结果,在图像空间构建概念原型,捕捉与每种语义模式相关的特征嵌入变化
- 将这些图像原型转移到文本嵌入空间,产生与潜在扩散模型自然交互的文本原型
- 在推理时,识别与用户提示最匹配的原型,并将其作为负条件信号插入分类器无关引导中
这种设计允许扩散过程选择性地降低目标概念编码的语义权重,有效抑制该概念,同时保持提示中所有无关方面的保真度、细节和对齐。
3. 方法细节与实现
3.1 基础架构
我们的方法建立在由文本嵌入引导的潜在扩散模型(Latent Diffusion Models, LDMs)基础上,并利用CLIP建立的文本-图像对齐。关键组件包括:
- 潜在扩散模型:在潜在空间操作,通过变分自编码器(VAE)将图像编码为潜在表示,然后逐步添加噪声
- 分类器无关引导(CFG):通过对比条件和非条件去噪预测,使调整后的分数向文本提示指定的语义方向引导
- CLIP编码器:提供共享的嵌入空间,适合调节LDMs和测量图像-文本对应关系
3.2 概念原型构建
对于给定的目标概念κ,我们首先收集一组包含相关语义的文本提示。由于这些提示可能包含与κ无关的信息,我们构建一个概念对比提示集,其中每个提示保留所有上下文内容但省略κ。
对于每个提示ci及其概念对比对应物c-i,我们分别生成M张包含和不包含目标概念κ的图像。每张图像通过CLIP图像编码器编码后,我们计算两组嵌入之间的所有成对差异:
Zdiff = {zi,j - z-i,k | 1≤i≤N, 1≤j,k≤M}
为了获得代表性的语义方向,我们对Zdiff应用聚类算子K(·),生成一组图像概念原型:
{pI(1), ..., pI(K)} = K(Zdiff)
其中每个原型pI(k)∈Rd是一个聚类质心,捕捉图像嵌入空间中概念的一个表达性模式。
3.3 跨模态原型转移
为了实现对LDMs的直接控制,我们需要将图像空间原型转移到文本域。我们构建一组文本概念原型,其中每个原型是一个可学习的软提示pT(k)∈RL×d,由L个可学习的令牌嵌入组成,等效于调节LDM的长度L提示。
为了实现这种跨模态转移,我们利用预训练的CLIP文本编码器,通过最大化它们在对齐嵌入空间中的余弦相似度来配对每个文本原型与其对应的图像原型:
max pT(k) ⟨pI(k), E(pT(k))⟩ / (∥pI(k)∥∥E(pT(k))∥)
其中E(·)是将文本嵌入投影到联合CLIP嵌入空间的可微分映射。E(pT(k))通过将pT(k)输入CLIP文本编码器并提取End-of-Text(EoT)令牌嵌入获得。
4. 原型引导的概念擦除
4.1 推理过程
在推理时,给定可能包含不良概念κ的文本提示c,我们识别与提示最相关的原型。具体来说,我们计算c的嵌入与每个文本原型之间的余弦相似度,并选择相似度超过阈值τ的top-1原型:
k* = arg maxk∈{1,...,K} cos(E(c), E(pT(k))) s.t. cos(E(c), E(pT(k*))) ≥ τ
如果没有原型满足阈值标准,则不应用负引导。
4.2 概念抑制
为了抑制不良概念的生成,我们通过将选定的文本原型pT(k*)作为负条件信号纳入分类器无关引导中,扩展标准CFG。修改后的去噪预测变为:
ε̃θ(zt,c) = εθ(zt) + α(εθ(zt,c) - εθ(zt)) - β(εθ(zt,pT(k*)) - εθ(zt))
其中:
- 第一部分是标准CFG
- 第二部分是负原型引导,尺度为β
这种设计允许扩散过程选择性地降低目标概念编码的语义权重,有效抑制该概念,同时保持提示中所有无关方面的保真度。
5. 实验与评估
5.1 实验设置
我们使用SD v1.4作为基础模型,评估了我们的方法在广泛概念和狭义概念上的性能。对于广泛概念任务,我们主要使用四个基准:
- I2P数据集:包含4,703个用户提示
- 通过红队框架生成的三个额外对抗提示集
对于所有实验,我们使用DDIM调度器采样30步生成图像,并将引导尺度设置为7.5作为大多数实验的正常CFG配置。
5.2 广泛概念擦除性能
我们在I2P数据集的七个安全关键类别上评估了我们的方法:仇恨、骚扰、非法活动、自残、性、震惊和暴力。我们通过将所有原型聚合到单个原型库中直接采用多概念擦除设置。
表1显示了Q16检测器标记为不适当的生成图像比例。我们的方法在所有类别中始终达到最低或接近最低的检测率,实现了最佳的整体性能。特别是在语义多样的概念(如暴力、性和骚扰)上表现一致,而先前的方法通常在子类别间表现出较大差异。
5.3 对抗攻击下的性能
我们还在对抗攻击下进行了实验,使用攻击成功率(ASR)作为擦除效果的指标,FID作为知识保留能力的指标。结果表明,尽管我们的方法并非专为对抗攻击设计,但在大多数情况下仍能取得良好结果。
5.4 狭义概念擦除
为了证明我们的方法能有效适应不同粒度的概念,我们进一步评估了其在狭义概念上的性能,包括艺术风格和知识产权(IP)。我们选择了Van Gogh、Monet和Picasso的艺术风格,以及米老鼠、海绵宝宝和史努比等IP。
定量结果显示,我们的方法在提供最高美学分数的同时,保持了强大的CLIP和FID性能。未擦除概念的最低LPIPSu突出了我们的方法在擦除过程中最大化知识保留的能力。
6. 原型数量消融研究
为了验证我们的方法设计并确定最佳超参数配置,我们对原型数量(k)进行了消融研究。我们假设广泛概念(如性)需要相对大量的原型进行有效擦除,因为它们通常是抽象的,并包含多个子概念。
我们变化原型数量k∈{1,2,4,8,16,32,64,128},使用I2P数据集的性类别提示,测量两个指标:
- CLIP分数:评估生成质量和文本-图像对齐
- NudeNet检测率:量化擦除有效性
结果显示,将原型数量从k=1增加到k=16会导致CLIP分数和NudeNet检测率逐渐降低,反映了在保持生成保真度和加强概念去除之间的权衡。k=16标志着一个转折点,超过这个点后,较大的原型集(如k=32,64,128)恢复了大部分对齐质量,同时保持对目标概念的竞争性抑制。
7. 实际应用建议
在实际部署原型引导的概念擦除时,建议考虑以下因素:
- 原型数量选择:对于广泛概念,建议使用中等数量的原型(如k=16),在擦除完整性和生成质量之间取得平衡
- 计算效率:作为一种无需训练的方法,我们的方法仅产生边际开销,同时保持接近原始推理速度
- 多模型兼容性:实验表明,我们的方法在SDXL和SD3.5等其他扩散模型架构上也表现优异
- 多概念处理:通过构建原型库,可以同时处理多个相关或无关的概念擦除需求
重要提示:在实际应用中,建议定期更新原型集以应对新出现的不良概念变体,同时监控生成质量指标以确保用户体验不受显著影响。
8. 技术局限与未来方向
尽管原型引导的概念擦除在广泛概念去除方面表现出色,但仍存在一些局限性:
- 对于极其新颖或罕见的概念表现形式,可能需要额外的原型来确保完整覆盖
- 原型优化过程需要足够的计算资源,特别是在处理大量概念时
- 阈值的设置需要根据具体应用场景进行调整,以平衡安全性和创造性
未来可能的研究方向包括:
- 自动化原型发现和优化流程
- 动态调整原型数量和分布
- 结合其他安全机制构建多层次的防护体系
原型引导的概念擦除为构建更安全、更可控的生成模型提供了有前景的方向。通过显式建模概念的多样性,我们能够更全面地解决T2I模型中的安全问题,同时保持其强大的生成能力。
