当前位置：首页 > news >正文

Stable-Diffusion-V1-5 在ComfyUI中的高级工作流搭建教程

news 2026/4/1 5:35:29

Stable-Diffusion-V1-5 在ComfyUI中的高级工作流搭建教程

你是不是已经玩过基础的文生图，感觉效果不错，但总想更进一步？比如，想让生成的人物摆出特定的姿势，或者给一张草图就能生成完整的画面，又或者让生成的图片分辨率更高、细节更丰富。如果你有这些想法，那今天这篇内容就是为你准备的。

我们这次不聊基础的安装和简单生图，而是聚焦于一个更强大的工具——ComfyUI。它可能没有WebUI那么“开箱即用”，但它的节点式工作流设计，让你能像搭积木一样，精确控制图像生成的每一个环节。想象一下，你可以把加载模型、控制姿势、高清修复这些步骤，像流程图一样清晰、灵活地连接起来，这就是ComfyUI的魅力。

接下来，我会带你一步步在星图GPU平台上，用Stable-Diffusion-V1-5模型，搭建一个集成了LoRA风格、ControlNet姿势控制和Latent Upscaler高清修复的进阶工作流。整个过程就像组装一台精密的机器，虽然零件多了点，但一旦跑通，你的创作自由度和作品质量都会上一个新台阶。

1. 环境准备与ComfyUI初探

在开始搭建复杂工作流之前，我们得先把“车间”准备好。假设你已经在星图GPU平台上成功部署了Stable-Diffusion-V1-5的基础环境，并且通过WebUI能正常生图。那么，ComfyUI的部署通常也非常简单，它往往作为一个独立的Web应用存在。

1.1 启动与界面熟悉

当你通过平台提供的链接或端口访问ComfyUI后，首先看到的可能是一个略显“空旷”的界面。中间大片区域是画布，左侧是节点工具箱。别被这极简风格吓到，它的逻辑其实很直观：一切皆节点，连接即流程。

你可以先尝试从工具箱里拖出一个“Load Checkpoint”节点和一个“KSampler”节点，再把它们连起来。加载一个模型，简单输入提示词，点击“Queue Prompt”，就能生成图片。这个最简流程能帮你快速建立信心，理解“加载模型 -> 采样生成”这个核心链路。

1.2 核心节点概念理解

在ComfyUI里，有几个你一定会反复打交道的核心节点，我们先混个脸熟：

Load Checkpoint: 这是起点，负责加载你的大模型（比如sd-v1-5.ckpt）。它会输出模型本身、CLIP文本编码器和VAE解码器。
CLIP Text Encode: 文本编码器。你需要分别连接“正面提示词”和“负面提示词”节点到这里，它会将文字转换成模型能理解的向量。
KSampler / KSampler Advanced: 采样器。这是图像生成的“发动机”，你需要设置采样步数、采样方法（如Euler a, DPM++ 2M）、随机种子等参数。
VAE Decode: 解码器。采样器输出的是在“潜空间”里的图像（Latent Image），这个节点负责将其解码成我们能看到的RGB图片。
Save Image: 终点站，保存生成的图片。

理解了这些，就等于拿到了搭建更复杂机器的基本零件。接下来，我们开始组装第一台“增强型”发动机——引入LoRA。

2. 加载与融合自定义LoRA模型

LoRA（Low-Rank Adaptation）是一种轻量化的模型微调技术，它像是一个“风格滤镜”或“角色插件”，能以很小的体积改变大模型的输出风格，比如转换成某种画风，或者固定生成某个特定人物。

2.1 集成LoRA节点

在ComfyUI中，使用LoRA不需要修改原始大模型。你只需要在合适的位置插入一个“LoraLoader”节点。

具体操作是这样的：找到“Load Checkpoint”节点输出的“MODEL”连接线。不要将它直接连到采样器，而是先连接到“LoraLoader”节点的“model”输入端口。同时，将“CLIP”输出线也连接到“LoraLoader”的“clip”输入端口。

然后，在“LoraLoader”节点上，你需要指定两个关键参数：

lora_name: 从下拉菜单中选择你已放置在ComfyUI的models/loras目录下的LoRA文件（例如pixel_art_v1.safetensors）。
strength_model / strength_clip: 这决定了LoRA对模型和文本编码器的影响强度。通常两者设为相同的值，范围在0到1之间。1.0表示完全应用，0.5则是半强度应用。对于风格化LoRA，可以从0.7开始尝试。

最后，将“LoraLoader”节点输出的“MODEL”和“CLIP”，再连接到后续的采样器等节点。这样，你的生成流程就带上了LoRA赋予的特定风格。

2.2 多LoRA的叠加使用

ComfyUI的强大之处在于，你可以串联多个“LoraLoader”节点。比如，第一个LoRA负责“盲盒玩具”风格，第二个LoRA负责“赛博朋克”色调。只需将上一个Loader的输出，作为下一个Loader的输入，依次连接即可。

需要注意的是，多个LoRA的效果是叠加的，强度参数需要精细调整，否则容易导致画面混乱。通常建议一次不要叠加超过2-3个，并且适当降低每个的强度（比如都设为0.6）。

3. 使用ControlNet进行精确姿势控制

这是从“随机抽卡”走向“定向创作”的关键一步。ControlNet允许你用一张姿势图、边缘草图或深度图，来严格约束生成图像的构图、姿态或景深。

3.1 准备ControlNet模型与预处理

首先，确保你需要的ControlNet模型（如control_v11p_sd15_openpose.pth用于姿势检测）已经放在models/controlnet目录下。同时，你需要一张控制图，比如一张人物姿势的简笔画或从照片中提取的骨骼图。

在ComfyUI中，控制图的处理通常需要一个预处理节点。以OpenPose为例：

拖入一个“Load Image”节点，加载你的姿势参考图。
拖入“OpenPose Preprocessor”节点，将加载的图片连接进去，它就会输出提取到的姿势骨骼图。这个骨骼图就是我们将要使用的“控制条件”。

3.2 构建ControlNet工作流分支

ControlNet的集成，是在主生成流程之外，建立一条并行的“控制条件”流水线。

加载ControlNet模型：从工具箱添加“ControlNetLoader”节点，选择你需要的ControlNet模型（例如control_v11p_sd15_openpose）。
应用控制条件：添加“Apply ControlNet”节点。这个节点有几个关键输入：
- positive / negative: 这里连接的是已经过CLIP文本编码的提示词向量（就是来自“CLIP Text Encode”节点的输出）。
- control_net: 连接“ControlNetLoader”节点输出的模型。
- image: 连接预处理后得到的姿势骨骼图。
- strength: 控制强度，值越高，生成图像越严格遵循控制图。对于姿势，通常可以设得高一些，比如0.9到1.2。
连接回主流程：“Apply ControlNet”节点会输出新的“positive”和“negative”。你需要用它们替换掉原来直接输入到“KSampler”的正面/负面提示词向量。这样，采样器在生成时，就会同时考虑你的文字描述和姿势约束。

通过这样的连接，你就能让Stable Diffusion在指定的姿势框架内进行创作了，无论是复刻一张照片的姿势，还是让多个角色保持特定的互动构图，都变得轻而易举。

4. 集成Latent Upscaler实现高清修复

直接生成高分辨率大图（如1024x1024以上）对显存要求高，且容易导致人物畸形、画面混乱。一个更稳健的策略是“先小后大”：先快速生成一张低分辨率的小图（如512x512），确定构图和内容，再使用高清修复（Hires. fix）或放大模型来提升分辨率和细节。

4.2 在ComfyUI中连接放大流程

ComfyUI的节点化让我们可以清晰地将“初代生图”和“高清放大”分为两个阶段。

第一阶段 - 生成潜空间小图：你的“KSampler”按照前述流程（含LoRA和ControlNet），以较低的分辨率（如512x512）生成一张“潜空间图像”（Latent Image）。将这个输出连接到一个“VAE Decode”并“Save Image”，你就可以先预览小图效果。
第二阶段 - 连接放大节点：将第一个“KSampler”输出的“LATENT”连接到一个“Latent Upscale”节点。这个节点会将潜空间图像放大指定的倍数（例如2倍，得到1024x1024）。你需要选择放大方法，nearest-exact或bilinear是常见选择。
第二阶段 - 细节重绘：放大后的潜空间图像通常会变得模糊。我们需要一个**第二个“KSampler”**来为它补充细节。将放大后的“LATENT”连接到第二个KSampler的“latent_image”输入。
- 提示词（positive/negative）可以继续使用第一阶段编码好的向量，也可以微调。
- 关键：将第二个KSampler的“denoise”参数设置为一个小于1的值（如0.2-0.5）。这个参数控制“重绘幅度”。值太低（如0.2）则细节添加少，更像单纯放大；值太高（如0.5）则可能改变原图内容。0.3-0.35是个不错的起点。
- 第二个KSampler的步数可以比第一阶段少一些（如20步），以加快速度。
最终输出：将第二个KSampler输出的最终潜空间图像，连接“VAE Decode”和“Save Image”，即可得到高清大图。

这种分步操作，不仅节省显存、提高成功率，还能让你在中间阶段确认效果，避免了长时间等待后才发现构图不满意的情况。

5. 整合完整工作流与参数调优

现在，让我们把前面所有的“积木”拼装起来，形成一个完整的自动化生产线。

5.1 节点连接总览

一个整合了上述所有功能的工作流，其节点连接顺序大致如下：

Load Checkpoint (基础模型) | |---> LoraLoader (加载风格/角色LoRA) | |---> CLIP Text Encode (编码提示词) | | | |---> Apply ControlNet (应用姿势控制条件) ---> KSampler (第一阶段，低分辨率采样) | | | | | | |<--- ControlNetLoader & Preprocessed Image (控制图输入) | | |---> (另一路) CLIP Text Encode for Negative (编码负面提示词) | |---> VAE | KSampler (Stage 1) ---> Latent Upscale ---> KSampler (Stage 2, 低重绘幅度) ---> VAE Decode ---> Save Image

看起来连线有点多，但每个节点的功能是单一的。在ComfyUI界面上，你可以通过拖拽来合理布局，让流程从左到右清晰展开。

5.2 关键参数调试心得

搭建好工作流只是开始，微调参数才能出好作品。这里分享几个调试心得：

ControlNet强度（strength）：对于线条类（Canny, Scribble）或姿势（OpenPose），强度可以高（0.9-1.2）；对于风格类（如色彩控制），强度可以低一些（0.5-0.8）。
LoRA强度（strength）：过于强烈的LoRA（强度1.0）可能会削弱主体内容的多样性。尝试0.6-0.8，让风格和内容更好融合。
高清重绘幅度（denoise）：这是平衡“保持原图”和“增加细节”的关键。0.25-0.35通常能在保留构图的同时，有效增加面部细节、纹理质感。如果放大后脸部崩了，尝试降低到0.2。
种子（Seed）：在第一阶段找到一个满意的种子后，在第二阶段使用相同的种子，可以保证放大前后内容的一致性。你可以在第一个KSampler上固定一个种子，然后通过节点连线将这个种子值传递给第二个KSampler。