当前位置: 首页 > news >正文

扩散模型diffusion

扩散模型(Diffusion Models)是最近生成式 AI领域的绝对核心,近年来,只要涉及AI生成视频、图像,它的底层原理几乎都绕不开diffusion

Diffusion与GAN

在扩散模型之前,GAN 的逻辑是“一步到位”。给生成器一个随机噪声,要求它立刻输出一张完美的 4K 图像。这就像让一个刚学画画的学徒,闭着眼睛一笔画出一幅《蒙娜丽莎》。由于难度太高,生成器经常崩溃,或者只能翻来覆去画它最擅长的那几笔(Mode Collapse)。

而扩散模型把这个极难的任务,拆解成了 1000 步的微小去噪任务

  • 它不要求神经网络凭空捏造一张图片,而只要求它“把眼前这张带点噪声的图,变得稍微清晰那么一点点”。

  • 对神经网络来说,在每一步预测噪声的数学难度,远远小于直接生成图像。通过 1000 次微小的修正,错误在每一步都被不断校正,最终积少成多,化腐朽为神奇。

扩散模型的工作原理

  • 始于随机噪声:扩散模型不是从空白画布开始,而是从充满纯静态或随机噪声的"画布"起步,就像老式电视的雪花屏

  • 渐进去噪:通过许多小步骤,每次尝试去除少量噪声,使图像或视频略微清晰

  • 指令引导:每个步骤都使用文本调节器生成的数字编码作为引导,确保去噪过程朝着预期画面发展

  • 精炼成连贯视频:经过多次去噪后,随机噪声转变为可识别的高质量视频序列

扩散模型的核心训练过程

forward process

这个过程不需要训练,它是一个纯粹的数学公式。

我们从一张真实的图片x0 开始,每一步都向其中添加一点点极其微小的高斯噪声。随着步数t(通常是 1000 步)的增加,图片中的结构信息彻底消失。

核心细节:数学上有一个非常优雅的推导,使得我们不需要真的模拟 1000 次加噪。我们可以直接通过一个公式,一步到位计算出第 t 步加噪后的图片是什么样。最终的 xt会变成一个符合标准正态分布N(0,I) 的纯噪声

reverse process

这是扩散模型需要投入海量算力去训练的部分。

既然 xt 是一堆纯噪声,我们想把它还原。但是,从噪声还原图片的路径有无数条,神经网络(通常是U-Net架构)要做的,就是预测在前向过程中,当前这一步到底加入了多少噪声

一旦神经网络成功“猜”出了当前步的噪声,我们就可以把这部分噪声减掉,从而逆向推导回上一步稍微清晰一点的图片 x(t-1)。如此循环 1000 步,就能凭空生成一张高质量的全新图像。

http://www.jsqmd.com/news/883702/

相关文章:

  • 龙岩6月雨季来临,房屋漏水怎么办?卫生间免砸砖防水、外墙、屋面+地下室渗漏。权威防水公司靠谱TOP5推荐(2026年6月本地最新深度调研) - 企业资讯
  • 3步实现浏览器端HTML转Word文档:html-docx-js实战指南
  • 哔哩下载姬DownKyi完整指南:快速获取B站高清视频的终极方案
  • 【AI代码审查新纪元】:DeepSeek为何比GitHub Copilot Code Review准确率高42%?
  • Whisper-WebUI:一站式语音转字幕解决方案在Mac上的完美部署指南
  • 亳州6月雨季来临,房屋漏水怎么办?卫生间免砸砖防水、外墙、屋面+地下室渗漏。权威防水公司靠谱TOP5推荐(2026年6月本地最新深度调研) - 企业资讯
  • 在SCnet上部署70b int4的模型
  • FM广播高精度预加重模块设计:解决传统电路缺陷,提升音质与信噪比
  • 终极3步驱动清理:如何用DriverStore Explorer释放Windows性能
  • 告别短信验证码:在uni-app中集成阿里云一键登录的完整配置与优化心得
  • 为什么你的DeepSeek总生成无效边界值?揭秘LLM测试生成中的3层语义断层与2种对齐方案
  • 分子对接的困境与突围:为什么AutoDock-Vina能成为药物发现的加速引擎?
  • 手把手教你用PE镜像修复麒麟系统磁盘异常(Boot From Harddisk故障保姆级教程)
  • 淮北6月雨季来临,房屋漏水怎么办?卫生间免砸砖防水、外墙、屋面+地下室渗漏。权威防水公司靠谱TOP5推荐(2026年6月本地最新深度调研) - 企业资讯
  • 阜阳6月雨季来临,房屋漏水怎么办?卫生间免砸砖防水、外墙、屋面+地下室渗漏。权威防水公司靠谱TOP5推荐(2026年6月本地最新深度调研) - 企业资讯
  • 衢州6月雨季来临,房屋漏水怎么办?卫生间免砸砖防水、外墙、屋面+地下室渗漏。权威防水公司靠谱TOP5推荐(2026年6月本地最新深度调研) - 企业资讯
  • 如何在Windows系统上完美运行Android应用:WSABuilds终极解决方案指南
  • 3PEAK思瑞浦 TPA6532-SO1R SOP8 运算放大器
  • 现在不学DeepSeek代码审查,3个月后你的CI/CD流水线将全面落后——5大不可逆趋势预警
  • WaveTools终极指南:鸣潮游戏性能优化神器完整教程
  • 2026海外大厂Contractor岗位转正通关指南「蒸汽求职」
  • B站CC字幕下载完整指南:5分钟学会免费获取视频字幕资源
  • 铜陵6月雨季来临,房屋漏水怎么办?卫生间免砸砖防水、外墙、屋面+地下室渗漏。权威防水公司靠谱TOP5推荐(2026年6月本地最新深度调研) - 企业资讯
  • 江苏启东寄快递省钱指南|全网高性价比寄件渠道盘点,日常寄件少花冤枉钱 - 时讯资讯
  • macOS微信防撤回插件WeChatIntercept:消息保护的技术实现与用户体验
  • 别再只配PLAIN了!Offset Explorer连接Kafka时,SASL/SCRAM-SHA-256怎么配更安全?
  • Keil C51工具链中Evatronix芯片缺失问题解决方案
  • sd卡照片删除怎么恢复正常使用教程,只需6个方法,数据就能完美恢复(含完整视频教程)
  • Unity UI Toolkit避坑指南:3D世界UI、动画与Shader特效的替代方案
  • 别再让C盘爆红了!保姆级VMware 17虚拟机安装CentOS 7.6全流程(附磁盘分区避坑指南)