当前位置: 首页 > news >正文

扩散模型的兴起

VAE 和 GAN 的局限性分析及扩散模型的兴起

变分自编码器(VAE)和生成对抗网络(GAN)在生成式模型中扮演了重要角色,推动了图像生成、文本合成等领域的进展。然而,这些模型在实际应用中存在一系列挑战,影响了它们的性能和可靠性。下面我将逐步分析 VAE 和 GAN 的局限性,并解释为何扩散模型(如 DDPM)近年来获得广泛关注。


1.VAE 的局限性

VAE 是一种基于变分推断的生成模型,它通过学习数据的潜在分布来生成新样本。但其主要问题包括:

  • 后验塌陷(Posterior Collapse):在训练过程中,潜在变量可能被忽略,导致模型退化到仅依赖解码器,使后验退化为先验(通常为标准正态分布) 。数学上,这表现为KL 散度项趋近于零,从而削弱了潜在空间的表达能力。
  • 生成样本模糊:VAE 优化证据下界(ELBO),其定义为:,优化目标中包含重构误差 + KL 散度。当解码器采用高斯似然时,模型倾向于预测所有可能输出的“平均”,导致图像边缘、纹理等高频细节丢失,输出显得模糊。 由于 ELBO 强调重建损失,而非直接优化样本质量,生成的图像或数据往往缺乏清晰度,出现模糊现象。
  • 训练不稳定:超参数(如潜在维度或学习率)的选择对模型性能影响较大,需要大量试错。
  • 多样性不足:VAE 倾向于生成保守样本,难以捕获数据中的复杂模式,限制了其生成多样性。
  • 这些局限性使 VAE 在高分辨率图像生成等任务中表现不佳。
  • 对分布假设敏感:高斯先验的局限性:真实数据分布往往位于低维流形上,与高斯分布差异较大,导致隐空间填充了实际上没有数据对应的区域(“空洞”问题)。

2.GAN 的局限性

GAN 通过对抗训练机制(生成器与判别器的博弈)生成逼真样本,但其挑战显著:

  • 训练不稳定:生成器和判别器的平衡难以维持,容易发生模式塌陷(Mode Collapse),即生成器仅产生少数几种样本。数学上,判别器的损失函数为,但梯度问题常导致训练发散。
  • 梯度消失或爆炸:在对抗过程中,生成器的梯度可能不稳定,影响收敛。例如,当判别器过于强大时,生成器梯度接近零。
  • 评估困难:缺乏鲁棒的评估指标(如 Inception Score 或 FID 分数)可能误导性能判断。
  • 样本多样性问题:GAN 倾向于生成高质量但缺乏多样性的样本,尤其是在复杂数据分布下。
  • 模式崩溃:生成器可能只学会产生少数几种“欺骗”判别器的样本,而丢失数据分布中的其他模式(例如生成人脸时永远只生成同一种表情或角度),导致生成多样性极低。

这些问题限制了 GAN 在医疗图像生成或安全敏感应用中的可靠性。


3.扩散模型的优势及兴起原因

扩散模型通过逐步噪声添加和去除过程生成数据,解决了 VAE 和 GAN 的许多痛点,从而获得广泛关注。关键优势包括:

  • 高质量生成:扩散模型基于马尔可夫链,前向过程逐步添加噪声:,反向过程则通过神经网络去噪,生成样本清晰度高,避免了 VAE 的模糊问题。
  • 训练稳定:不需要对抗机制,优化目标基于似然估计(如负对数似然),训练更可靠,不易出现模式塌陷。目标函数(常为噪声的简单均方误差)通常易于优化。
  • 理论基础坚实:模型建立在概率扩散理论上,数学框架清晰,易于扩展。例如,损失函数可表示为:, 其中是去噪网络。
  • 灵活性和可扩展性:扩散模型适应多种数据类型(图像、音频、文本),并易于结合条件生成或大规模数据集,在图像超分辨率、分子设计等领域表现突出。
  • 多样性保留:通过迭代去噪过程,模型能捕获完整数据分布,生成样本既多样又逼真。扩散模型生成过程的迭代特性非常适合加入条件信息(如类别标签或文本描述)以引导样本生成。

4.扩散模型的不显著缺点(相对可容忍)

唯一常被诟病的是采样速度慢(需要数十到数百步迭代)。但近年来:

  • 快速采样器(DDIM、DPM-Solver、LCM)只需 1~20 步即可生成高质量图像。

  • 蒸馏技术(渐进蒸馏、一致性模型)可将步数压缩到 1~4 步。

这些进步使扩散模型在绝大多数任务中替换了 GAN 和 VAE,成为生成式模型的首选体系结构

总结

VAE 和 GAN 的局限性(如训练不稳定、样本模糊或多样性不足)促使研究人员寻求替代方案。扩散模型凭借其高质量生成、稳定训练和理论优势,成为生成式模型的新兴方向,推动了 AI 生成内容的进步。未来研究可能进一步优化扩散效率,例如通过减少迭代步骤来提升实用性。

本文来源于网络学习后,通过个人总结等完成,感谢各位前辈的总结,如有不妥或有误的地方,欢迎大家来讨论,批评指正!

http://www.jsqmd.com/news/716309/

相关文章:

  • 2002-2025年中债国债到期收益率
  • 抖音无水印下载工具:简单三步获取高清无水印视频
  • 终极指南:快速掌握Dlib Windows预编译包的核心技巧
  • WindowsCleaner:你的Windows系统健康管家,告别C盘爆红烦恼
  • STM32H743外挂W5500做UDP通信,一个Socket端口如何同时处理多个客户端数据?
  • Flux2-Klein-9B-True-V2效果展示:运动模糊与动态抓拍效果模拟
  • X-Scan在Windows 10/11上的那些“坑”:从WinPcap驱动安装到NMAP报错全解决
  • LayerDivider终极指南:免费AI智能分层工具彻底改变数字艺术创作流程
  • 2001-2025.12中国城市空气质量每日数据、良好天数
  • 告别环境配置噩梦:手把手教你用Eclipse+MSYS2搞定Ai-WB2开发环境(附SDK下载)
  • 前端性能分析工具
  • 告别臃肿!从Anaconda迁移到Miniconda的保姆级卸载与安装指南(附JupyterLab配置)
  • 1980年-2024年各县区逐日相对湿度、比湿、地表高度、气压、风速和气温数据
  • 如何在安卓上快速配置虚拟摄像头:VCAM完整使用指南
  • 避开蓝桥杯单片机常见坑:从按键消抖到窗口切换的实战调试记录(国信天长开发板)
  • COMSOL方形锂电池电化学-热耦合模型充放电循环仿真研究:三种模型,含一维电化学与三维方形铝...
  • 终极指南:3分钟掌握Zotero插件市场,一键安装所有必备插件
  • 静驭山河,力顺无界 | 盖茨 Belt Drive 亮相中国国际自行车展,开启骑行传动新体验
  • ES8311音频Codec调试避坑指南:从ID读取失败到回环测试无声的常见问题排查
  • axilite + ap_memory修饰数组
  • 管好PPT的“骨架”:用Python控制页面与文档属性
  • WASM容器化部署不香了?Docker 26.0+原生支持WASM Runtime,90%工程师还不知道的5个技术拐点
  • 告别人工质检:用PatchCore、DRAEM这些SOTA模型,5步搞定工业缺陷检测
  • 百度网盘命令行终极指南:告别图形界面,用终端掌控云端文件
  • 宏观颗粒度流水设计-子函数之间
  • 舆情监控:如何让AI自动抓取新闻资讯,并生成每日摘要报告?
  • 5大核心功能解析:BongoCat如何成为你的终极跨平台桌面伴侣?
  • C++数据结构与算法的基础知识和经典算法汇总
  • 5分钟精通暗黑破坏神2存档编辑器:打造你的完美角色体验
  • 实测!用HALCON 23.05 + OpenVINO 2021.4,让你的Intel Arc显卡在工业视觉里跑起来