当前位置: 首页 > news >正文

通过diffusers和ComfyUI部署测试Z-Image base模型

Z-Image(造相)是阿里通义实验室 2026 年初开源的 6B 图像生成基座模型,以照片级写实精准中英双语文字渲染强可微调性著称。Z-Image 是一个 6B 参数的模型家族,官方目前规划 4 个变体:

变体 Step CFG 任务 画质 多样性 可微调 状态
Z-Image-Omni-Base 50 yes 生成 + 编辑 待发布
Z-Image 50 yes 生成 已发布
Z-Image-Turbo 8 no 生成 极高 N/A 已发布
Z-Image-Edit 50 yes 编辑 待发布

本文聚焦的 Z-Image(base) 是 Turbo 的母模型:经过预训练 + SFT,但没有做 RL 蒸馏,所以它保留了 CFG(需要 guidance)多样性更好适合二次微调,定位是“创作 + 下游开发的原始基座“。Turbo 则是它蒸馏出来的 8 步快速版,画质极高但多样性低、不可微调。

S3-DiT 架构

Z-Image 采用 Scalable Single-Stream DiT(S3-DiT,可扩展单流扩散 Transformer)。和 Flux 那种「文本流 + 图像流」的双流结构不同,S3-DiT 把文本 token、视觉语义 token、图像 VAE token 在序列维度上拼成一条统一输入流喂给 DiT,最大化参数效率。

  • 文本编码器是 Qwen3-4B(一个 LLM),不是传统的 CLIP/T5——这是它中文理解和文字渲染极强的根因
  • VAE 是 16-channel 的(和 Flux 同款),latent 空间比老的 4-channel SD VAE 信息密度更高
  • 单流拼接让文本和图像在每一层都充分交互,参数利用率高于双流
graph LRP["prompt 字符串<br/>(中/英)"] --> TE["Qwen3-4B<br/>文本编码器"]TE --> SEQ["统一输入流<br/>文本token + 视觉语义token + VAE token<br/>(单流拼接)"]NOISE["随机噪声 latent<br/>16ch"] --> SEQSEQ --> DIT["S3-DiT<br/>6B 去噪<br/>(28-50 步)"]DIT --> LAT["去噪后 latent"]LAT --> VAE["VAE Decode<br/>(16ch → RGB)"]VAE --> PNG["PNG 图像<br/>1024×1024..."]

选 base 是因为我们要的是质量、可控性、和后续微调空间;如果只追求速度可换 Turbo(diffusers 里把 num_inference_steps=9guidance_scale=0.0 即可)。

diffusers 直接部署

环境准备

mkdir -p /opt/zimage && cd /opt/zimage
python3 -m venv venv && source venv/bin/activate# torch (cu130) + diffusers from source (Z-Image 支持只在源码版)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130
pip install git+https://github.com/huggingface/diffusers
pip install transformers accelerate safetensors# 下载 base 权重(多文件夹 diffusers 格式, ~20 GB)
pip install -U "huggingface_hub[cli]"
hf download Tongyi-MAI/Z-Image --local-dir /opt/zimage/Z-Image

生成脚本(ZImagePipeline)

import torch
from diffusers import ZImagePipeline# 加载 pipeline(BF16 是 L4 的最优精度)
pipe = ZImagePipeline.from_pretrained("/opt/zimage/Z-Image",torch_dtype=torch.bfloat16,low_cpu_mem_usage=False,
)
pipe.to("cuda")prompt = "超高清写实摄影,新中式国风,一位气质优雅的年轻亚洲女性……"
neg = "低质量,模糊,多余的肢体,畸形的手,比例失调,塑料感皮肤,水印,文字"image = pipe(prompt=prompt,negative_prompt=neg,        # base 支持有效负向,强烈推荐height=1280, width=960,     # 总像素面积在 512²~2048² 间,任意宽高比cfg_normalization=True,     # True=写实 / False=风格化num_inference_steps=50,     # 官方 28-50guidance_scale=4.0,         # 官方 3.0-5.0generator=torch.Generator("cuda").manual_seed(168),
).images[0]
image.save("out.png")

官方推荐参数

参数 推荐值 说明
num_inference_steps 28–50 base 是非蒸馏模型,步数要够;25 偏少
guidance_scale 3.0–5.0 太高会过饱和/光晕,太低不贴合 prompt
cfg_normalization True=写实 / False=风格化 写实人像/产品用 True,插画/艺术风用 False
negative_prompt 强烈推荐 base 对负向响应有效,用来去畸形/水印/杂物
分辨率 512²–2048² 按总像素面积,任意宽高比

本次使用L40卡,单张生图可以满速直跑,批量的话需要用独立进程串行。

  • 单张生图直接pipe.to("cuda") 满速即可,50 步约 160–215 s,显存峰值 ~21.3 GB,24 GB 放得下。
  • 批量循环场景,在一个进程里 for 循环连出多张,显存会累积,常在第 2 张 OOM
  • enable_model_cpu_offload()开启后,组件按需在 CPU和GPU 之间搬运,峰值降到 ~13 GB,能避 OOM,但速度巨慢,而且在某些情况会 thrash(进程卡 D 状态、GPU 0% 利用率、磁盘 I/O 打满,单张拖到 7 分钟仍不出)
  • 所以,批量出图时,需要串行提交任务。

ComfyUI 部署

ComfyUI 需要 Comfy-Org 重打包的单文件,按固定目录摆放:

ComfyUI/models/
├── text_encoders/   qwen_3_4b.safetensors        (8.0 GB)
├── diffusion_models/ z_image_bf16.safetensors     (12.3 GB)
└── vae/             ae.safetensors                (335 MB)

下载模型文件

cd /opt/comfyui
wget -O models/text_encoders/qwen_3_4b.safetensors \https://huggingface.co/Comfy-Org/z_image_turbo/resolve/main/split_files/text_encoders/qwen_3_4b.safetensors
wget -O models/diffusion_models/z_image_bf16.safetensors \https://huggingface.co/Comfy-Org/z_image/resolve/main/split_files/diffusion_models/z_image_bf16.safetensors
wget -O models/vae/ae.safetensors \https://huggingface.co/Comfy-Org/z_image_turbo/resolve/main/split_files/vae/ae.safetensors

安装与启动

# clone + venv + torch + 依赖
cd /opt && git clone --depth 1 https://github.com/comfyanonymous/ComfyUI.git comfyui
cd comfyui
python3 -m venv venv && source venv/bin/activate
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130
pip install -r requirements.txt

ComfyUI 原生支持 Z-Image(核心节点已内置,无需自定义节点)

cd /opt/comfyui
/opt/comfyui/venv/bin/python main.py --listen 0.0.0.0 --port 8188

官方模板已内置在 ComfyUI(comfyui-workflow-templates 包),也可单独下载放进工作流目录:

wget -O user/default/workflows/z_image_base.json \https://raw.githubusercontent.com/Comfy-Org/workflow_templates/refs/heads/main/templates/image_z_image.json

关键节点参数

节点 参数 说明
UNETLoader unet_name z_image_bf16.safetensors weight_dtype 选 default(BF16);想省显存可选 fp8_e4m3fn
CLIPLoader clip_name / type qwen_3_4b.safetensors / qwen_image 枚举里没有 z_image,Z-Image 复用 qwen_image 类型
VAELoader vae_name ae.safetensors Flux 同款 16ch VAE
EmptySD3LatentImage width/height 1024×1024 起 16ch latent 用 SD3 系列 latent 节点
ModelSamplingAuraFlow shift 3 Z-Image base 推荐值
KSampler sampler / scheduler res_multistep / simple(或 beta steps 28–50,cfg 3.0–5.0

生图示例

image

提示词与参数调优

因为文本编码器是 Qwen3-4B 这个 LLM,Z-Image 的 prompt技巧如下:

  • 写长、写细:官方示例都是几百字的完整场景描述(人物/服饰/光线/背景/镜头/质感全写),不是堆关键词
  • 中英双语都强:中文 prompt 直接喂,无需翻译;文字渲染精准——想在图里出中/英文字,直接在 prompt 里写出来(短、高对比效果最好)
  • 负向提示有效:base 对 negative_prompt 响应明显,用来去畸形手、多余肢体、塑料感皮肤、水印、杂乱背景
  • cfg_normalization 决定走向:写实人像/产品 设置 True;插画/艺术/风格化 设置 False

生图示例

以下全部由本次部署的 Z-Image base 实际产出,1024×1024 / 960×1280 等。

英文写实测试 —— 验证基础写实能力。

image

高铁旅拍 —— 米色 T + 牛仔短裤,车窗阳光与车厢顶灯双光源、发丝随车速飘动。

image

官方模板出图—— 超现实浪漫主义时尚大片:低角度仰拍、梦幻蓝色植被、黄白条纹长裙模特走在沙地上、暖棕树干 vs 冷蓝树叶。

image

新中式园林旗袍 —— 灰色亚麻立领旗袍、苏州园林飞檐、太湖石与竹林、手持团扇、玉簪与珍珠耳饰,胶片质感、东方含蓄气质。

image

http://www.jsqmd.com/news/924036/

相关文章:

  • 如何永久保存微信聊天记录:免费本地数据备份与情感分析完整指南
  • FinalBurn Neo终极指南:构建高性能街机模拟器的技术实践
  • 基于Arduino Uno与UnoJoy库自制USB游戏手柄全攻略
  • 2026年物流公司靠谱度对比:四家头部落地效果解析 - 资讯纵览
  • Windows隐私保护新方案:Boss-Key一键隐藏工具完全指南
  • 3个颠覆性方法永久保存微信聊天记录:WeChatMsg让数字记忆永不褪色
  • 广西省百色市寄件省钱攻略:4 个微信工具,上门取件通吃小件快递大件物流特产 - 时讯资讯
  • 基于Arduino的自动喂鱼器DIY:从硬件搭建到编程控制
  • 三步解决pyecharts离线部署难题:告别网络依赖的完整方案
  • 反渗透高纯水设备哪家强?2026年05月加工厂推荐名单,超纯水设备/全自动高纯水设备,高纯水设备生产厂家哪家好 - 品牌推荐师
  • 微信聊天记录永久保存完全指南:如何用WeChatMsg一键备份珍贵对话
  • Zotero Style完整指南:让文献管理效率翻倍的终极插件
  • 破解工业高能耗降温痛点:科瑞昌省电空调3E方法论如何降本增效? - 资讯纵览
  • 基于Arduino的智能音量均衡器:解决家庭影院动态范围过大问题
  • Arduino流水灯项目实战:从GPIO控制到多模式非阻塞编程
  • 基于Arduino与声音传感器的乒乓球自动计分器设计与实现
  • 终极指南:如何将PowerShell脚本轻松转换为专业EXE程序
  • 论文被批“不够学术”?,有哪些真正值得信赖的的降AIGC网站推荐? - 降AI小能手
  • 宁波市海曙区黄金回收服务指南 - 黄金回收
  • 2026 年泉州汽车音响改装行业标杆:四大核心维度全面领跑 - 汽车音响改装
  • VirtScreen:Linux多屏工作革命,如何将移动设备变身高效率副屏?
  • 如何用OpCore-Simplify快速构建稳定的黑苹果OpenCore EFI配置
  • 创客实践:从电路设计到生活应用的完整项目指南
  • 如何快速掌握艾尔登法环帧率解锁:面向新手的完整指南
  • 如何实现微信聊天记录完整备份:WeChatMsg工具终极使用指南
  • 12306高仿购票系统:大学生分布式架构实战终极指南
  • 2026 广州工厂搬家公司实测:5 家服务商服务体验对比测评 - 从来都是英雄出少年
  • 闭眼入不翻车!2026实测靠谱的AI论文写作软件|实测必入避坑版
  • 广西省荔浦市寄件怎么选?4 个全国低级寄快递微信工具,小件快递大件物流特产全搞定 - 时讯资讯
  • 5分钟掌握Mousecape:macOS光标定制终极指南