当前位置：首页 > news >正文

通过diffusers和ComfyUI部署测试Z-Image base模型

news 2026/7/18 1:34:59

Z-Image（造相）是阿里通义实验室 2026 年初开源的 6B 图像生成基座模型，以照片级写实、精准中英双语文字渲染和强可微调性著称。Z-Image 是一个 6B 参数的模型家族，官方目前规划 4 个变体：

变体	Step	CFG	任务	画质	多样性	可微调	状态
Z-Image-Omni-Base	50	yes	生成 + 编辑	中	高	易	待发布
Z-Image	50	yes	生成	高	中	易	已发布
Z-Image-Turbo	8	no	生成	极高	低	N/A	已发布
Z-Image-Edit	50	yes	编辑	高	中	易	待发布

本文聚焦的 Z-Image（base） 是 Turbo 的母模型：经过预训练 + SFT，但没有做 RL 蒸馏，所以它保留了 CFG（需要 guidance）、多样性更好、适合二次微调，定位是“创作 + 下游开发的原始基座“。Turbo 则是它蒸馏出来的 8 步快速版，画质极高但多样性低、不可微调。

S3-DiT 架构

Z-Image 采用 Scalable Single-Stream DiT（S3-DiT，可扩展单流扩散 Transformer）。和 Flux 那种「文本流 + 图像流」的双流结构不同，S3-DiT 把文本 token、视觉语义 token、图像 VAE token 在序列维度上拼成一条统一输入流喂给 DiT，最大化参数效率。

文本编码器是 Qwen3-4B（一个 LLM），不是传统的 CLIP/T5——这是它中文理解和文字渲染极强的根因
VAE 是 16-channel 的（和 Flux 同款），latent 空间比老的 4-channel SD VAE 信息密度更高
单流拼接让文本和图像在每一层都充分交互，参数利用率高于双流

graph LRP["prompt 字符串 (中/英)"] --> TE["Qwen3-4B 文本编码器"]TE --> SEQ["统一输入流 文本token + 视觉语义token + VAE token (单流拼接)"]NOISE["随机噪声 latent 16ch"] --> SEQSEQ --> DIT["S3-DiT 6B 去噪 (28-50 步)"]DIT --> LAT["去噪后 latent"]LAT --> VAE["VAE Decode (16ch → RGB)"]VAE --> PNG["PNG 图像 1024×1024..."]

选 base 是因为我们要的是质量、可控性、和后续微调空间；如果只追求速度可换 Turbo（diffusers 里把 num_inference_steps=9、guidance_scale=0.0 即可）。

diffusers 直接部署

环境准备

mkdir -p /opt/zimage && cd /opt/zimage
python3 -m venv venv && source venv/bin/activate# torch (cu130) + diffusers from source (Z-Image 支持只在源码版)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130
pip install git+https://github.com/huggingface/diffusers
pip install transformers accelerate safetensors# 下载 base 权重（多文件夹 diffusers 格式, ~20 GB）
pip install -U "huggingface_hub[cli]"
hf download Tongyi-MAI/Z-Image --local-dir /opt/zimage/Z-Image

生成脚本（ZImagePipeline）

import torch
from diffusers import ZImagePipeline# 加载 pipeline（BF16 是 L4 的最优精度）
pipe = ZImagePipeline.from_pretrained("/opt/zimage/Z-Image",torch_dtype=torch.bfloat16,low_cpu_mem_usage=False,
)
pipe.to("cuda")prompt = "超高清写实摄影，新中式国风，一位气质优雅的年轻亚洲女性……"
neg = "低质量，模糊，多余的肢体，畸形的手，比例失调，塑料感皮肤，水印，文字"image = pipe(prompt=prompt,negative_prompt=neg,        # base 支持有效负向，强烈推荐height=1280, width=960,     # 总像素面积在 512²~2048² 间，任意宽高比cfg_normalization=True,     # True=写实 / False=风格化num_inference_steps=50,     # 官方 28-50guidance_scale=4.0,         # 官方 3.0-5.0generator=torch.Generator("cuda").manual_seed(168),
).images[0]
image.save("out.png")

官方推荐参数

参数	推荐值	说明
`num_inference_steps`	28–50	base 是非蒸馏模型，步数要够；25 偏少
`guidance_scale`	3.0–5.0	太高会过饱和/光晕，太低不贴合 prompt
`cfg_normalization`	True=写实 / False=风格化	写实人像/产品用 True，插画/艺术风用 False
`negative_prompt`	强烈推荐	base 对负向响应有效，用来去畸形/水印/杂物
分辨率	512²–2048²	按总像素面积，任意宽高比

本次使用L40卡，单张生图可以满速直跑，批量的话需要用独立进程串行。

单张生图直接pipe.to("cuda") 满速即可，50 步约 160–215 s，显存峰值 ~21.3 GB，24 GB 放得下。
批量循环场景，在一个进程里 for 循环连出多张，显存会累积，常在第 2 张 OOM
enable_model_cpu_offload()开启后，组件按需在 CPU和GPU 之间搬运，峰值降到 ~13 GB，能避 OOM，但速度巨慢，而且在某些情况会 thrash（进程卡 D 状态、GPU 0% 利用率、磁盘 I/O 打满，单张拖到 7 分钟仍不出）
所以，批量出图时，需要串行提交任务。

ComfyUI 部署

ComfyUI 需要 Comfy-Org 重打包的单文件，按固定目录摆放：

ComfyUI/models/
├── text_encoders/   qwen_3_4b.safetensors        (8.0 GB)
├── diffusion_models/ z_image_bf16.safetensors     (12.3 GB)
└── vae/             ae.safetensors                (335 MB)

下载模型文件

cd /opt/comfyui
wget -O models/text_encoders/qwen_3_4b.safetensors \https://huggingface.co/Comfy-Org/z_image_turbo/resolve/main/split_files/text_encoders/qwen_3_4b.safetensors
wget -O models/diffusion_models/z_image_bf16.safetensors \https://huggingface.co/Comfy-Org/z_image/resolve/main/split_files/diffusion_models/z_image_bf16.safetensors
wget -O models/vae/ae.safetensors \https://huggingface.co/Comfy-Org/z_image_turbo/resolve/main/split_files/vae/ae.safetensors

安装与启动

# clone + venv + torch + 依赖
cd /opt && git clone --depth 1 https://github.com/comfyanonymous/ComfyUI.git comfyui
cd comfyui
python3 -m venv venv && source venv/bin/activate
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130
pip install -r requirements.txt

ComfyUI 原生支持 Z-Image（核心节点已内置，无需自定义节点）

cd /opt/comfyui
/opt/comfyui/venv/bin/python main.py --listen 0.0.0.0 --port 8188

官方模板已内置在 ComfyUI（comfyui-workflow-templates 包），也可单独下载放进工作流目录：

wget -O user/default/workflows/z_image_base.json \https://raw.githubusercontent.com/Comfy-Org/workflow_templates/refs/heads/main/templates/image_z_image.json

关键节点参数

节点	参数	值	说明
UNETLoader	unet_name	`z_image_bf16.safetensors`	weight_dtype 选 `default`（BF16）；想省显存可选 `fp8_e4m3fn`
CLIPLoader	clip_name / type	`qwen_3_4b.safetensors` / `qwen_image`	枚举里没有 z_image，Z-Image 复用 `qwen_image` 类型
VAELoader	vae_name	`ae.safetensors`	Flux 同款 16ch VAE
EmptySD3LatentImage	width/height	1024×1024 起	16ch latent 用 SD3 系列 latent 节点
ModelSamplingAuraFlow	shift	3	Z-Image base 推荐值
KSampler	sampler / scheduler	`res_multistep` / `simple`（或 `beta`）	steps 28–50，cfg 3.0–5.0