当前位置：首页 > news >正文

22 ComfyUI 实战：SD1.5 + ControlNet OpenPose 复刻人物姿势，为什么真人图不如 Pose 图稳定？

news 2026/6/21 16:25:20

ComfyUI 实战：SD1.5 + ControlNet OpenPose 姿势复刻经验总结

一、前言

在使用ComfyUI + SD1.5 + ControlNet OpenPose进行姿势控制测试时，发现一个比较明显的现象：

直接将真人照片作为控制输入时，姿势复刻效果通常不够稳定；而使用标准的 Pose 图（OpenPose 骨架图）作为输入时，姿势控制效果更准确、更容易复现。

对于初学者而言，这个结论非常重要。因为很多人在刚接触 ControlNet 时，往往会默认认为“直接输入一张参考人物图就可以复刻动作”，但实际测试结果并不完全如此。

本文将结合一套可运行的 ComfyUI 工作流，从原理、工作流结构、参数设置和使用建议几个方面，系统说明 OpenPose 在姿势控制中的使用方法。

效果图

工作流截图

二、实验结论

本次测试可以得到如下结论：

1. 真人图片不适合作为 OpenPose ControlNet 的直接输入

直接输入真人图片时，模型虽然可以部分参考人物结构，但最终生成结果中的姿势还原度并不稳定，容易受到服装、背景、光影和构图等信息干扰。

2. 标准 Pose 图更适合做姿势控制

当输入改为标准 OpenPose 骨架图后，模型对人体关键点和肢体方向的理解更加直接，姿势复刻效果更稳定。

3. Prompt 与 Pose 图应分工明确

在这类工作流中，建议将：

Prompt用于控制人物风格、服装、光线和画面氛围
Pose 图用于控制人物动作和姿势结构

这种分工方式更符合 OpenPose ControlNet 的设计思路。

三、为什么真人图姿势复刻效果不稳定？

1. 真人图中包含的信息过于复杂

一张普通人物照片中，除了姿势之外，还包含大量与动作无关的信息，例如：

服装细节
背景环境
光照变化
局部遮挡
画面构图
材质纹理

这些信息会在一定程度上干扰模型对“姿势”本身的提取和控制。

2. OpenPose 更擅长处理骨架信息

OpenPose ControlNet 的核心能力在于识别和约束人体关键点，例如：

头部位置
肩部位置
手臂方向
腿部角度
身体整体骨架关系

因此，它更适合接收“已经被抽象出来的人体姿势信息”，也就是标准的 Pose 图，而不是复杂的真实照片。

3. Pose 图的输入信息更加纯净

标准 Pose 图通常只保留：

关键点
骨架连接线
简洁背景

这种输入方式可以显著减少无关信息干扰，使模型更专注于“动作控制”本身。

四、工作流结构说明

本次测试使用的是一套典型的SD1.5 + OpenPose ControlNet工作流，其核心结构包括：

CheckpointLoaderSimple → CLIPTextEncode（正向） → CLIPTextEncode（反向） → Load Pose Image → Resize Pose Image → ControlNetLoader → Apply ControlNet → EmptyLatentImage → KSampler → VAEDecode → SaveImage

从工作流配置可以看到，这套流程中使用了：

ControlNetApplyAdvanced节点作为 ControlNet 的应用节点 [4]
EmptyLatentImage作为初始 latent 输入，尺寸设置为696 x 792[4]
最终通过VAEDecode和SaveImage完成出图 [4]

这说明整套流程是标准的 OpenPose 控姿方案，而不是图像参考混合方案。

五、Prompt 的作用：控制风格，而不是姿势

在该工作流中，正向提示词更适合用于控制：

人物类型
穿着风格
光线氛围
写实程度
摄影风格

例如，当前工作流中的正向提示词使用了偏写实人像的描述：

A serene portrait of a young Asian woman is captured in this photograph, set against a soft, diffused background. The subject is wearing an elegant white blouse with long sleeves, modest clothing, fully dressed, covered shoulders, natural fabric folds, soft natural lighting, realistic skin texture, warm and luminous glow, softly nuanced and realistic complexion, high quality, photorealistic.

这类描述明确了以下信息：

柔和背景
完整穿着
自然光照
写实肤质
高质量摄影风格 [4]

因此，Prompt 的主要任务不是“描述动作”，而是“定义画面风格”。

六、关于负面提示词的建议

在 ControlNet 工作流中，负面提示词通常用于减少以下问题：

低质量
模糊
解剖错误
手部异常
肢体重复
画面过曝或欠曝
杂乱背景

在另一套已验证可用的工作流中，负面提示词示例如下：

low quality, blurry, distorted anatomy, extra fingers, bad hands, malformed body, duplicate features, messy background, oversaturated, overexposed, underexposed, artifacts, worst quality

这类负面词是比较通用、也比较适合初学者直接复用的 [2]。

七、ControlNet 参数如何设置？

从已有工作流中可以看到，不同任务的 ControlNet 强度并不相同：

一套 Depth 工作流中，Apply ControlNet的参数是0.65, 0, 1[2]
当前 OpenPose 工作流中，也使用了ControlNetApplyAdvanced这一节点结构 [4]

对于姿势复刻任务，可以参考以下经验：

建议范围

0.5：约束较弱，姿势可能不够像
0.6 ~ 0.8：较均衡，推荐初学者使用
0.8 ~ 1.0：姿势更贴近参考，但画面可能偏僵

如果生成结果中“人物动作不像参考姿势”，可以优先尝试提高 ControlNet 强度。

八、为什么推荐先使用 Pose 图？

对于初学者来说，先使用 Pose 图有几个明显优势：

1. 更容易理解工作流逻辑

使用 Pose 图时，Prompt 和 ControlNet 的职责划分会更清楚：

Prompt 管风格
Pose 图管动作

2. 更容易定位问题

如果结果不理想，可以直接排查：

Pose 图是否清晰
ControlNet 强度是否过低
Prompt 是否与动作冲突

而如果直接使用真人图，问题来源往往更复杂。

3. 更容易复现

标准 Pose 图本身就是“动作信息的抽象表达”，因此在不同底模和不同 Prompt 下，通常都能保持较高的一致性。

九、一个容易混淆的问题：姿势数据文件与 Pose 图片的区别

测试过程中还涉及到一种 JSON 格式的姿势文件，其内容包含了大量人体关节、骨骼位置、旋转和相机参数信息，例如：

neck
nose
left_hip_link_left_knee
left_knee_link_left_ankle
camera.position
camera.rotation

这说明该文件本质上是姿势数据文件，而不是普通图片。

因此需要区分两个概念：

1. 姿势数据文件

用于保存骨架位置、角度、缩放等结构信息。

2. Pose 图片

用于直接输入给 ControlNet 的骨架可视化图像。

对于初学者来说，更推荐直接使用Pose 图片，而不是直接处理姿势 JSON 数据。

十、分辨率设置建议

在当前 OpenPose 工作流中，EmptyLatentImage的尺寸为：

696 x 792

这是该工作流中已经可运行的一组参数 [4]。

而在另一套工作流中，EmptyLatentImage使用的是：

832 x 1216

这个尺寸更适合写实人像和更完整的人体构图 [2][3]。

因此，分辨率可以根据任务灵活调整：

半身或中近景：可以使用较小尺寸
全身或完整动作姿势：建议使用更高、更纵向的尺寸

十一、初学者实战建议

如果目标是学习 OpenPose 控姿势，建议按照以下顺序入门：

第一步：先用标准 Pose 图

不要一开始就尝试直接使用真人参考图控姿势。

第二步：先跑通最小工作流

优先验证以下链路是否正常：

Load Pose Image → Resize Pose Image → Load OpenPose ControlNet → Apply ControlNet → KSampler → VAE Decode → Save Image

第三步：再优化 Prompt 和参数

先保证“动作像”，再考虑：

风格是否写实
服装是否稳定
光影是否自然
构图是否完整

十二、总结

综合这次测试结果，可以得到一个比较明确的经验结论：

在 ComfyUI 中使用 SD1.5 + ControlNet OpenPose 进行姿势复刻时，标准 Pose 图通常比真人图片更适合作为控制输入。

原因主要有三点：

真人图信息复杂，容易干扰动作提取
OpenPose 更擅长处理人体骨架信息
Pose 图能够让模型更专注于姿势本身

对于初学者来说，推荐采用如下思路：

先准备标准 Pose 图，再通过 OpenPose ControlNet 控制动作，最后利用 Prompt 控制风格。

这样不仅更容易理解工作流，也更容易获得稳定、可复现的生成结果。

十三、参考信息

姿势 JSON 文件中包含人体关键点、骨骼连接与相机参数，说明其本质上是姿势数据而非普通图片
一套已验证工作流中的负面提示词包含常见画质与解剖错误约束 [2]
另一套工作流中EmptyLatentImage使用了832 x 1216的纵向尺寸 [2][3]
当前 OpenPose 工作流使用了ControlNetApplyAdvanced、EmptyLatentImage(696x792)、VAEDecode和写实风格正向提示词 [4]

查看全文

http://www.jsqmd.com/news/707176/