当前位置: 首页 > news >正文

三分钟秒懂:Stable Diffusion 系列模型的 推理流程

【一】前序

目前常用的主流的AI模型分为两大类: LLM(大语言模型) 和 SD(文生图扩散生成模型)。

LLM 是 基于 transformer架构,核心靠 自注意力机制 生成数据。
而 SD 是基于 diffusion扩散架构,核心靠 逐步去噪 生成数据。

transformer架构 相信大家都很熟悉了(几乎天天都在用), 接下来重点给大家聊聊 Diffusion 的 推理流程。


【二】Stable Diffusion 完整推理流程

先记住核心一句话:
LLM Transformer 是从左到右逐字生成文字;Stable Diffusion 是从满是噪点的纯灰图,一步步擦掉噪声、还原出清晰图片

1、核心基础组件(C U V)

  1. CLIP文本编码器(Transformer结构,你熟的自注意力)
    你输入的提示词(比如“一只白猫站在草地上”),会交给CLIP Transformer,把文字转换成一组数字向量(文本特征)
    后面画图的核心网络UNet,全靠这组向量知道你想要什么画面。
  2. UNet(SD核心去噪网络,卷积+注意力混合,不是纯Transformer)
    唯一干活的模块:接收「带噪声的图片潜空间张量 + CLIP文字向量」,计算出当前图片里噪声长什么样,输出噪声预测值,用来擦掉噪声。
  3. VAE解码器
    UNet处理的不是真实像素图,是压缩后的小尺寸“潜空间数据”;VAE负责把压缩数据还原成肉眼可见的RGB图片。

2、完整推理分步 大白话流程(以文生图为例)

步骤1:处理文字提示词(CLIP Transformer)

你输入正向prompt、反向prompt(负面提示,比如模糊、畸形、低画质)

  • CLIP用自注意力理解词语之间的关系,把文字转成 固定长度 的数字向量
  • 反向prompt向量会约束模型:不要生成向量对应的糟糕画面。

步骤2:生成一张纯随机噪声图(潜空间)

程序先造一张全是杂乱白点黑点的“纯噪声底片”(潜空间格式,尺寸很小,比如512图对应64×64潜图),这是绘图起点
类比:相当于一张完全糊掉、什么都看不见的照片。

步骤3:循环迭代去噪(核心流程,步数就是采样步数,比如20/28步)

循环N次(采样步数),每一轮做三件事:

  1. 当前带噪声的潜图 + CLIP文字向量一起喂进UNet;
  2. UNet计算:识别出这张图里哪些是无意义噪声,输出噪声预测;
  3. 采样器(Euler/DPM++等)根据预测的噪声,从原图里减去一部分噪声,画面变清晰一点点;

循环逻辑通俗比喻:
第1轮:全是噪点,只能隐约看出一点轮廓;
第10轮:物体轮廓、颜色出现;
第28轮:几乎所有噪声擦干净,物体细节、光影完整。

和Transformer自注意力的核心区别:
Transformer一次只生成1个字,依赖上文;UNet每一步 修改整张图,靠文本向量全局约束画面。

步骤4:去噪循环结束,得到干净潜空间数据

几十轮循环跑完,噪声基本全部剔除,现在得到一张压缩版的清晰图像数据,还不能直接看。

步骤5:VAE解码,输出最终图片

把压缩潜图送入VAE解码器,还原成正常RGB像素图片,保存/展示。

重点说明:

  1. 为什么需要采样步数?
    噪声不能一次性全部擦掉,一步擦干净会画面崩坏;分多轮缓慢去除,画面稳定、细节丰富。步数越高画面越好,但速度越慢。

  2. UNet里也有注意力层(Cross-Attention交叉注意力)
    这是SD连接文字和图片的关键,和自注意力有区别:

    • 自注意力:只看图片自身像素、文字自身单词;
    • 交叉注意力:图片像素作为Query,文字CLIP向量作为Key/Value,让图片每一处像素都对齐文字描述。
      简单说:交叉注意力保证“图像中 猫 的位置 对应 文字 里的猫,草 地对应 文字 里的草地”。

3、举个生活化完整例子

需求:生成“阳光下的橘猫,草坪,高清写实”

  1. CLIP Transformer解析文字,输出「橘猫、阳光、草坪」语义向量;
  2. 生成一张纯雪花噪点底片;
  3. 循环28次:每次UNet根据文字向量,擦掉不匹配“橘猫草坪阳光”的噪声,轮廓慢慢浮现;
    • 前5步:只有色块,分不清是什么;
    • 中间10步:出现猫的轮廓、绿色地面、黄色光斑;
    • 最后几步:细化毛发、光影、草叶细节;
  4. 循环结束,VAE把压缩底片转成真实照片,输出图片。
http://www.jsqmd.com/news/1064930/

相关文章:

  • 2026年8月EI学术会议时间表,赶快收藏!覆盖模式识别、土木工程、数据智能处理、能源环境、智能系统、人机交互、互联网金融、机械材料、机器学习、具身智能、区块链、生物医学、计算建模等多领域!...
  • 机器人长时程稳定性测试平台LongBench:从原理到实践
  • Nanobot自定义Responses配置指南:从Codex兼容到流式响应重写
  • AI编程时代的核心能力:从手写代码到提示词工程
  • 2026年新消息:揭秘目前好的派对用品批发厂家如何重塑行业采购格局 - 品牌鉴赏官2026
  • 2026年中山专利申请与无效律师推荐指南:从灯饰到五金全程护航 - 本地品牌推荐
  • 讲真的2026年深圳专利申请与无效律师 这5位值得推荐 - 本地品牌推荐
  • Harness Engineering:从CI脚本到可编程交付流水线
  • (2026最新)十堰防水补漏正规公司甄选推荐:漏水检测维修-暗管漏水精准定位检测漏水点-卫生间/厨房/屋顶/阳台/渗漏水维修-本地人必选的正规测漏公司 - 即刻修防水
  • 2026年新消息:软著类服务机构推荐深度解析 - 品牌鉴赏官2026
  • 构建生产级RAG系统实践:从原型到高可用问答引擎
  • 2026年更新:深度剖析信阳工业水处理设备市场,热门厂家价格与服务全解析 - 品牌鉴赏官2026
  • (2026最新)南京防水补漏正规公司甄选推荐:漏水检测维修-暗管漏水精准定位检测漏水点-卫生间/厨房/屋顶/阳台/渗漏水维修-本地人必选的正规测漏公司 - 即刻修防水
  • React 状态管理:从“全局仓库“到“就近原则“的架构演进
  • web平分750份-2
  • 2026年东莞制造企业力荐专利申请与无效律师 5位双证精选 - 本地品牌推荐
  • 开咖啡馆选什么咖啡机?从半自动到全自动,2026年商用咖啡机选型深度观察 - 商业科技观察
  • 探索数学之美:5个核心维度带你掌握awesome-math数学资源宝库
  • 2026年AI大模型接口中转平台全维度实测排名 面向开发者与企业的权威选型实用参考指南
  • 2026年北京印刷供应厂家怎么选?廊坊佰利得印刷有限公司综合实力解析 - 品牌鉴赏官2026
  • 大语言模型社交支持策略审计:多轮模拟与压力感知框架
  • 2026年国内中走丝机床产品推荐榜 - 品牌排行榜
  • 2026年新消息:如何甄别并选择真正靠谱的一氧化碳催化剂优质厂商 - 品牌鉴赏官2026
  • 终极指南:如何快速搭建MCP Registry服务器,轻松管理AI模型协议服务
  • N-DCA:基于组合项链隐喻的分布式联盟价值公平分配算法
  • KDash终极实战指南:10个高效监控Kubernetes集群的深度技巧
  • 2026最新易学入门App推荐:新手首次选择易学排盘,为什么要先看懂命盘结构?
  • 大模型核心技术全解析:从预训练到AI Agent,算力开销与落地场景大公开!
  • 2026年更新:好的佛山刑事诉讼律师咨询谁靠谱?深度解析与选择指南 - 品牌鉴赏官2026
  • (2026最新)北京防水补漏正规公司甄选推荐:漏水检测维修-暗管漏水精准定位检测漏水点-卫生间/厨房/屋顶/阳台/渗漏水维修-本地人必选的正规测漏公司 - 即刻修防水