当前位置：首页 > news >正文

扩散模型的兴起

news 2026/6/25 7:10:51

VAE 和 GAN 的局限性分析及扩散模型的兴起

变分自编码器（VAE）和生成对抗网络（GAN）在生成式模型中扮演了重要角色，推动了图像生成、文本合成等领域的进展。然而，这些模型在实际应用中存在一系列挑战，影响了它们的性能和可靠性。下面我将逐步分析 VAE 和 GAN 的局限性，并解释为何扩散模型（如 DDPM）近年来获得广泛关注。

VAE 是一种基于变分推断的生成模型，它通过学习数据的潜在分布来生成新样本。但其主要问题包括：

后验塌陷（Posterior Collapse）：在训练过程中，潜在变量可能被忽略，导致模型退化到仅依赖解码器，使后验退化为先验（通常为标准正态分布）。数学上，这表现为KL 散度项趋近于零：，从而削弱了潜在空间的表达能力。
生成样本模糊：VAE 优化证据下界（ELBO），其定义为：，优化目标中包含重构误差 + KL 散度。当解码器采用高斯似然时，模型倾向于预测所有可能输出的“平均”，导致图像边缘、纹理等高频细节丢失，输出显得模糊。由于 ELBO 强调重建损失，而非直接优化样本质量，生成的图像或数据往往缺乏清晰度，出现模糊现象。
训练不稳定：超参数（如潜在维度或学习率）的选择对模型性能影响较大，需要大量试错。
多样性不足：VAE 倾向于生成保守样本，难以捕获数据中的复杂模式，限制了其生成多样性。
这些局限性使 VAE 在高分辨率图像生成等任务中表现不佳。
对分布假设敏感：高斯先验的局限性：真实数据分布往往位于低维流形上，与高斯分布差异较大，导致隐空间填充了实际上没有数据对应的区域（“空洞”问题）。

GAN 通过对抗训练机制（生成器与判别器的博弈）生成逼真样本，但其挑战显著：

训练不稳定：生成器和判别器的平衡难以维持，容易发生模式塌陷（Mode Collapse），即生成器仅产生少数几种样本。数学上，判别器的损失函数为，但梯度问题常导致训练发散。
梯度消失或爆炸：在对抗过程中，生成器的梯度可能不稳定，影响收敛。例如，当判别器过于强大时，生成器梯度接近零。
评估困难：缺乏鲁棒的评估指标（如 Inception Score 或 FID 分数）可能误导性能判断。
样本多样性问题：GAN 倾向于生成高质量但缺乏多样性的样本，尤其是在复杂数据分布下。
模式崩溃：生成器可能只学会产生少数几种“欺骗”判别器的样本，而丢失数据分布中的其他模式（例如生成人脸时永远只生成同一种表情或角度），导致生成多样性极低。

这些问题限制了 GAN 在医疗图像生成或安全敏感应用中的可靠性。

扩散模型通过逐步噪声添加和去除过程生成数据，解决了 VAE 和 GAN 的许多痛点，从而获得广泛关注。关键优势包括：

高质量生成：扩散模型基于马尔可夫链，前向过程逐步添加噪声：，反向过程则通过神经网络去噪，生成样本清晰度高，避免了 VAE 的模糊问题。
训练稳定：不需要对抗机制，优化目标基于似然估计（如负对数似然），训练更可靠，不易出现模式塌陷。目标函数（常为噪声的简单均方误差）通常易于优化。
理论基础坚实：模型建立在概率扩散理论上，数学框架清晰，易于扩展。例如，损失函数可表示为：，其中是去噪网络。
灵活性和可扩展性：扩散模型适应多种数据类型（图像、音频、文本），并易于结合条件生成或大规模数据集，在图像超分辨率、分子设计等领域表现突出。
多样性保留：通过迭代去噪过程，模型能捕获完整数据分布，生成样本既多样又逼真。扩散模型生成过程的迭代特性非常适合加入条件信息（如类别标签或文本描述）以引导样本生成。