当前位置：首页 > news >正文

重温DIRE:走向通用人工智能生成的图像检测

news 2026/7/1 15:47:36

1.摘要

生成模型的快速发展提高了图像质量，并使图像合成广泛可用，引起了对内容可信度的关注。为了解决这个问题，我们提出了一种称为通用重建残差分析(UR2EA)的方法来检测合成图像。我们的研究表明，当通过预训练的扩散模型重建GAN和扩散生成的图像时，与真实图像相比，它们在重建误差方面表现出显著差异:GAN生成的图像显示出比真实图像更低的重建质量，而扩散生成的图像重建得更精确（在进行图像重构时，GAN的重构误差比真实图像更低，扩散模型的重构误差比真实图像更高）。在训练用于检测合成图像的模型之前，我们利用这些残差图作为通用图。此外，我们引入了多尺度通道和窗口注意(MCWA)模块，从多个尺度的残差图中提取细粒度特征，捕捉局部和全局细节。为了便于探索不同的检测方法，我们构建了一个新的UniversalForensics数据集，其中包括由30个不同模型生成的合成图像的各种表示。与性能最佳的基线相比，我们的方法将平均准确度提高了3.3 %，精度提高了1.6 %，达到了最先进的结果。

2.引言

受益于生成性对抗网络(GANs)的进步(Goodfellow等人，2014；Karras等人，2019)和扩散模型(Ho等人，2020；Rombach等人，2022)，高质量的图像合成或编辑技术近年来受到了广泛关注，因为它可以合成人眼无法分辨的照片级真实感图像，并具有从娱乐和营销到电影创作等更复杂场景的多种应用。然而，在每一个收获中，都有一个损失。如果图像合成或编辑技术被犯罪分子使用，也会带来风险，因为它也可能被用于传播虚假信息和伪造图像。因此，检测由GAN基和扩散基模型产生的合成图像成为一个紧迫的问题。（介绍背景，GAN和扩散进步飞快，生成检测器的开发迫在眉睫）。

为了识别生成的图像，我们注意到研究人员已经开发了各种基于CNN的通用生成图像检测器，他们的核心思想是提高模型的泛化能力以识别真伪图片，但是用扩散训练的模型在GAN上效果不好，在GAN上训练的模型在扩散上效果不好。因此，构建用于同时识别基于GAN的生成图像和基于扩散的生成图像的可推广的生成图像检测器是紧迫的，但也是重要的。（套话，说泛化性不足，然后开发一种能够同时检测GAN和扩散的模型十分重要）

作者认为一个优秀的模型应该具有三种特征：

(I)强检测能力，能够跨不同家族和训练范式检测来自不同生成模型的AI生成图像；

(ii)对看不见的合成模式的良好概括；

(iii)对输入扰动和畴变的强鲁棒性。

第一个挑战是构建数据集，该数据集可以确保生成的图像检测器可以同时推广到看不见的基于GAN的图像和基于扩散的图像。借鉴pioneer works 中常用的程序生成图像或扩散生成图像，我们构造了一个新的集合UniversalForensics，以探索如何构建一个生成图像检测器，它可以同时推广到看不见的基于GAN和基于扩散的图像。UniversalForensics提供了一个训练集，其中包含来自ForenSynths的80，000个基于程序的生成图像、来自DiffusionForensics的40，000个基于扩散的图像以及120，000个真实图像。此外，UniversalForensics还提供了由30个不同的生成模型产生的多个测试子集。（就是拿别人的数据集做一个整合，其实AIGCDetect数据集就以及可以实现了，但是作者还是自己构建了一个数据集）

第二个挑战是设计一个具有合适先验的通用生成图像检测器。直觉思维是在基于程序生成的、扩散生成的和真实的图像上训练CNN二元分类器。然而，先前的研究(王等人，2023)表明，这种简单的方法是次优的，并且对于看不见的图像具有有限的推广性。为了应对这一挑战，我们根据经验发现，扩散重建误差(DIRE)仍然是检测基于GAN生成的图像和扩散生成的图像的合适先验，但是DIRE背后的假设，即与真实图像相比，由扩散过程生成的图像可以通过预先训练的扩散模型更准确地重建，对于基于GAN生成的图像并不成立。如表1所示，其总结了跨多个重建模型的图像重建质量结果，包括MAE、VQGAN、稳定扩散和DDIM，我们可以看到两个相反的现象:

1)与真实图像相比，由扩散过程产生的图像可以由预训练的扩散模型更精确地重建。

2)与GAN产生的图像相比，通过预训练的扩散模型可以更准确地重建真实图像。当我们同时面对基于GANbased生成的图像和扩散生成的图像时，这两个矛盾的现象使得背后的假设不成立。

（作者提出了自己的分类模型架构命名为UR2EA，然后作者说DIRE这种方法只这对扩散，他对GAN失效，作者提出自己的假设，GAN的重构误差更小，扩散的重构误差更大，真实图像的重构误差在中间。）

作者发现，真实图像和生成图像之间的差距很大扩散和真实的图像TSNE图差距很大，GAN和真实图像的TSNE图差距很大。我们改变了DIRE背后的假设，即在特征空间中生成的图像和真实图像之间的强可区分性，并且将扩散重建误差概括为用于检测基于GAN生成的图像和扩散生成的图像的先验。因此，我们提出了通用重建残差分析(UR2EA ),用于检测由各种生成模型(包括基于GAN的模型和基于扩散的模型)生成的合成图像。

我们提出了通用重建残差分析(UR2EA ),用于检测由各种生成模型(包括基于GAN的模型和基于扩散的模型)生成的合成图像。UR2EA将重建误差作为输入，并在改进的ResNet的帮助下，为生成的图像和真实图像学习更全面和更有区别的特征表示。具体而言，为了更有效地捕捉残差图中的细微特征，我们提出了一种新的多尺度通道和窗口注意(MCWA ),通过将MCWA合并到ResNet中的残差块中，从空间和通道角度来细化提取的图像特征。MCWA将多尺度窗口注意与通道注意相结合，能够在不同的空间尺度上同时处理局部和全局特征，同时跨频率通道动态调整注意。此外，MCWA通过循环移位操作扩展了模型的感受域，增强了其捕捉超越传统卷积边界的大规模结构关系的能力。这种设计可以通过更好地处理残差图中的细微特征来提升ResNet以检测合成图像。

提出了一种通用的生成图像检测方法UR2EA，以扩散重建误差为输入，同时检测GAN基生成图像和扩散生成图像。

我们提出了一种新的MCWA来增强残差图像中的特征提取。MCWA将通道注意与多尺度窗口注意相结合，使用不同的窗口大小来捕捉从局部到全局尺度的相关性，并使用通道注意来加强特征表示，从而提高辨别能力。

我们构建了UniversalForensics数据集，用于构建通用检测器，以同时检测看不见的基于GAN的图像和基于扩散的图像。

提出的UR2EA在30个不同生成模型的广泛评估中表现出卓越的泛化能力。与现有方法相比，平均准确率提高了8.2 %，精确度提高了3.6 %。这些结果强调UR2EA在现实场景中的有效性和优越性。

3.相关工作

由于我们提出的UR2EA方法利用预训练的扩散模型进行图像重建，因此本节简要概述了扩散模型和常用通用图像检测器的发展。

2.1.生成模型的演进

在扩散模型成熟之前，图像生成主要依赖 GAN 系列方法，如 StarGAN 能够在单一模型中实现多域风格迁移，StyleGAN 则显著提升了人脸合成质量。随后，扩散模型逐渐成为图像生成领域的重要方向。Sohl-Dickstein et al. 最早将扩散过程引入数据生成任务，为后续扩散模型奠定理论基础；Ho et al. 提出的 DDPM 通过反向去噪过程显著提升了生成质量，引发了广泛关注。此后，DDIM、ADM、PNDM 等方法分别从采样效率、噪声控制和实时生成等角度对扩散模型进行改进。进一步地，VQ-VAE 和 LDM 将图像压缩到低维潜空间中进行建模，有效降低了计算成本，并通过交叉注意力引入条件信息。当前广泛使用的 Stable Diffusion v1 和 v2 即建立在 LDM 框架之上，标志着扩散模型在高质量图像生成中的主流化应用。

2.2.生成图像检测研究

生成图像检测早期主要面向 GAN 生成图像，研究者通常从颜色分布、饱和度、光照、像素共现关系以及 GAN 伪影等角度提取特征，用于区分真实图像与生成图像。随着生成模型不断演进，检测方法逐渐从依赖特定伪影转向提升跨模型泛化能力，例如利用 ProGAN 数据训练分类器、结合全局与局部特征、借助 CLIP-ViT 或预训练 CNN 表征，以及通过 DIRE 等重构式方法比较输入图像与扩散重构图像之间的差异。与此同时，频域特征也成为重要研究方向。相关工作发现，GAN 与扩散模型在上采样、噪声去除和图像重建过程中会引入明显的频谱异常和高频伪影，因此 F3Net、FreGAN、BiHPF、ADD、FreqNet 和 FatFormer 等方法分别从频率统计、高通滤波、频率扰动、注意力蒸馏以及离散小波变换等角度增强检测能力。整体来看，现有检测研究已从早期的空间域伪影分析，逐步发展为融合空间、语义、重构误差与频域特征的综合检测框架。

4.方法

5.UniversalForensics数据集

用于评估的UniversalForensics数据集的统计数据。“IN”代表ImageNet“数量”表示每个子集中包含的样本数量；“分辨率”指定图像尺寸范围；“多样性”表示源域，包括面部、场景和对象。

包含了三十种类别：ProGAN、StyleGAN、StyleGAN2、BigGAN、CycleGAN、StarGAN、GauGAN、Deepfake、ATTGAN、BEGAN、CramerGAN、InfoMaxGAN、MMDGAN、RelGAN、S3GAN、SNGAN、STGAN、DDPM、IDDPM、ADM、LDM、PNDM、VQDiffusion、Glide、稳定扩散v1、稳定扩散v2、DALLE、DALLE2、悟空和Midjourney

把五个数据集的值取平均

实验参数对比

不同扰动方法的对比：

不同尺度的大小对比：

6.结论

在本文中，我们提出了一种用于合成图像的通用检测方法——通用重建残差分析(UR2EA ),该方法将扩散重建误差重新解释为用于检测由不同模型生成的图像的通用先验。为了更有效地捕捉残差图像中的细微特征，我们引入了一种新的多尺度通道和窗口注意(MCWA)机制，该机制将多尺度窗口注意与通道注意相结合，以捕捉残差中的细粒度特征。此外，我们开发了UniversalForensics数据集，以促进通用检测方法的探索。在30个生成模型上的大量实验表明，提出的UR2EA在检测生成图像方面达到了最先进的性能。虽然UR2EA在这个具有挑战性的基准测试上取得了进展，但我们的方法和现有的基线都将每个输入视为完全真实或完全虚假，即使在只有部分区域被操纵的情况下，如Deepfakes。扩展我们的框架来识别局部异常和准确定位篡改区域仍然是未来研究的一个重要方向。

查看全文

http://www.jsqmd.com/news/798498/