当前位置：首页 > news >正文

Stable Diffusion WebUI 深度技术解析：AI 图像生成的瑞士军刀

news 2026/7/6 1:59:34

Stable Diffusion WebUI 深度技术解析：AI 图像生成的瑞士军刀

一、项目概述

Stable Diffusion WebUI（SD WebUI）是由 AUTOMATIC1111 开发的 Stable Diffusion 图形化 Web 界面，是 AI 图像生成领域最广泛使用的开源工具之一。基于 Gradio 库实现，它将 Stable Diffusion 的强大能力封装为易用的 Web 界面，支持文生图、图生图、修复、超分辨率等数十种功能。

核心特性：

txt2img / img2img 原始模式

Inpainting / Outpainting 图像修复与扩展

4GB 显存即可运行（甚至有人报告 2GB 可用）

X/Y/Z plot 三维参数图像生成

Textual Inversion 自定义 embedding 训练

️ GFPGAN / CodeFormer / RealESRGAN 面部修复与超分辨率

注意力权重控制，指定文本中模型应关注的部分

Loopback 多轮 img2img 处理

生成参数自动保存（PNG 元数据 / JPEG EXIF）

丰富的社区扩展（Custom Scripts）

二、技术原理

2.1 架构设计

┌─────────────────────────────────────────┐
│         Gradio Web UI                    │
│   参数面板 · 预览 · 设置 · 扩展           │
├─────────────────────────────────────────┤
│         Core Pipeline                    │
│   txt2img · img2img · inpaint · upscale  │
├─────────────────────────────────────────┤
│         Stable Diffusion Model           │
│   UNet · VAE · CLIP Text Encoder         │
├─────────────────────────────────────────┤
│         Extensions & Scripts             │
│   Loras · ControlNet · ADetailer · ...   │
├─────────────────────────────────────────┤
│         Post-processing                  │
│   GFPGAN · CodeFormer · RealESRGAN       │
└─────────────────────────────────────────┘

2.2 核心技术栈

文生图 / 图生图：SD WebUI 的核心是 Stable Diffusion 模型的封装。txt2img 模式从纯文本提示生成图像，img2img 模式则在输入图像的基础上进行修改。

注意力权重控制：SD WebUI 首创了注意力语法，允许用户在提示中指定哪些部分模型应更多关注：

((tuxedo)) — 双括号，增加注意力

(tuxedo:1.21) — 带权重的语法

选中文字后按 Ctrl+Up / Ctrl+Down 自动调整注意力权重

采样器系统：支持多种采样方法，每种采样器在质量和速度之间有不同的权衡：

Euler / Euler a

DPM++ 系列

DDIM

UniPC

LMS 等

每种采样器还支持 eta 值（噪声乘子）调整。

Textual Inversion：允许训练自定义 embedding，用少量图片即可教会模型新的概念或风格。支持半精度浮点数，8GB 显存即可训练。

Loras / Hypernetworks：轻量级的模型微调方法，文件通常只有几 MB 到几十 MB，却能显著改变生成图像的风格。

2.3 超分辨率与面部修复

SD WebUI 内置了多个后处理模型：

| 模型 | 用途 | 特点 | |------|------|------| | GFPGAN | 面部修复 | 腾讯开源，擅长修复生成图像中的面部 | | CodeFormer | 面部修复 | GFPGAN 的替代方案，效果更自然 | | RealESRGAN | 图像超分辨率 | 通用图像放大，保持细节 | | ESRGAN | 图像超分辨率 | 大量第三方模型可选 | | SwinIR / Swin2SR | 图像超分辨率 | 基于 Transformer 的超分辨率 | | LDSR | 潜在扩散超分辨率 | 利用扩散过程进行超分辨率 |

2.4 扩展生态

SD WebUI 最强大的能力在于其丰富的社区扩展：

ControlNet：通过边缘图、深度图、姿态图等条件控制生成

ADetailer：自动检测并修复面部/手部等细节

LoRA 管理器：在 UI 中选择、预览、添加 LoRA 到提示

图像浏览器：在 UI 内浏览、删除已生成的图像

美学梯度：使用 CLIP 图像嵌入生成特定美学的图像

DeepDanbooru：为动漫风格提示生成标签

2.5 高级功能

Prompt Editing：允许在生成过程中改变提示。例如：开始生成西瓜，中途切换为动漫女孩。

Highres Fix：一次性生成高分辨率图片，避免常见的失真问题。

Checkpoint Merger：合并最多 3 个检查点模型为一个，融合不同模型的能力。

Composable Diffusion：同时使用多个提示，用 AND 分隔，还支持权重：a cat :1.2 AND a dog AND a penguin :2.2

Composable-Diffusion：多提示同时使用，用大写 AND 分隔，支持提示权重。

三、安装与快速开始

3.1 环境要求

Python 3.10+（推荐 3.10.6）

Git

显卡：NVIDIA GPU 推荐 4GB+ 显存（AMD/Apple Silicon 也支持）

硬盘空间：至少 10GB（模型 + 依赖）

3.2 安装步骤

# 克隆项目
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
运行（Windows 用户运行 webui-user.bat）
./webui.sh

脚本会自动安装 Python 依赖和下载默认模型。首次运行后，打开浏览器访问 http://localhost:7860 即可使用。

3.3 最简运行示例

打开 WebUI 后，在提示框中输入：

a beautiful sunset over the ocean, photorealistic, 4k

点击 Generate，等待几秒到几分钟（取决于硬件），即可看到生成的图像。

3.4 命令行参数

# 启用 xformers 加速（NVIDIA 显卡）
./webui.sh --xformers
允许从 UI 运行 Python 代码
./webui.sh --allow-code
低显存模式
./webui.sh --medvram
./webui.sh --lowvram

四、使用方法与实战

4.1 文生图（txt2img）

Positive Prompt: masterpiece, best quality, 1girl, long hair, looking at viewer, blue eyes, school uniform, sunset, cherry blossoms

Negative Prompt: lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality

设置步骤：

采样器：DPM++ 2M Karras

步数：20-30

CFG Scale：7

分辨率：512x768（竖图）或 768x512（横图）

4.2 图生图（img2img）

上传一张图片，在提示框中描述你想要的修改，调整 Denoising strength（0.0-1.0）：

低值（0.2-0.4）：保留原图大部分，小幅修改

中值（0.4-0.6）：中等程度改变

高值（0.6-1.0）：大幅变化，几乎重新生成

4.3 Inpainting（局部修复）

上传图片后，用画笔涂抹需要修改的区域，输入提示描述该区域应该是什么。适合：

替换图像中的物体

修复面部和手部

添加或删除元素

4.4 Lora 使用

1. 将 Lora 文件放入 models/Lora/ 目录 2. 在提示中使用语法 3. 例如：以 0.7 的权重应用 anime_style Lora

4.5 ControlNet 集成

安装 ControlNet 扩展后，可以在 ControlNet 面板中： 1. 上传控制图像（边缘图、姿态图等） 2. 选择预处理器和模型 3. 启用 ControlNet，生成受控图像

五、常见问题与解决方案

5.1 显存不足（OOM）

使用 --medvram 或 --lowvram 参数

降低图像分辨率

减少 batch size

启用 xformers（--xformers）

使用 --opt-sdp-attention（PyTorch 2.0+ 的注意力优化）

5.2 生成质量差

增加采样步数（20-50）

调整 CFG Scale（7-12 为常用范围）

使用更详细的提示和 Negative Prompt

尝试不同的采样器

使用 Highres Fix

5.3 下载模型慢

模型文件通常较大（2-7GB）。建议使用下载工具或镜像站。模型目录：models/Stable-diffusion/

5.4 AMD GPU 支持

需要安装 ROCm 版本的 PyTorch：

pip install torch torchvision --index-url https://download.pytorch.org/whl/rocm5.4.2

然后运行 ./webui.sh --precision full --no-half。

5.5 macOS Apple Silicon

SD WebUI 支持 M1/M2 Mac，但速度较慢。建议：

./webui.sh --use-cpu all --precision full --no-half

六、总结

Stable Diffusion WebUI 是 AI 图像生成领域最重要的开源项目之一。从简单的 txt2img/img2img 到数十种高级功能，从丰富的后处理模型到庞大的社区扩展生态，SD WebUI 为用户提供了一个功能完整的 AI 图像生成工作台。4GB 显存即可运行的低门槛、一键安装脚本、以及活跃的社区支持，使其成为 AI 绘画爱好者的首选工具。

GitHub 地址： https://github.com/AUTOMATIC1111/stable-diffusion-webui

稳定可靠低价的AI中转站：X API

查看全文

http://www.jsqmd.com/news/798949/