当前位置: 首页 > news >正文

【阿里拥抱开源】Qwen Image团队开源图像分解模型——Qwen-Image-Layered

简介

我们很高兴推出Qwen-Image-Layered模型,该模型能够将图像分解为多个RGBA图层。这种分层表示解锁了内在可编辑性:每个图层可以独立操作而不影响其他内容。同时,这种分层表示天然支持高保真基础操作——例如调整大小、重新定位和重新着色。通过将语义或结构组件物理隔离到不同图层中,我们的方法实现了高保真且一致的编辑。

快速开始

  1. 确保您的transformers版本≥4.51.3(支持Qwen2.5-VL)
  2. 安装最新版diffusers
pip install git+https://github.com/huggingface/diffusers pip install python-pptx
fromdiffusersimportQwenImageLayeredPipelineimporttorchfromPILimportImage pipeline=QwenImageLayeredPipeline.from_pretrained("Qwen/Qwen-Image-Layered")pipeline=pipeline.to("cuda",torch.bfloat16)pipeline.set_progress_bar_config(disable=None)image=Image.open("asserts/test_images/1.png").convert("RGBA")inputs={"image":image,"generator":torch.Generator(device='cuda').manual_seed(777),"true_cfg_scale":4.0,"negative_prompt":" ","num_inference_steps":50,"num_images_per_prompt":1,"layers":4,"resolution":640,# Using different bucket (640, 1024) to determine the resolution. For this version, 640 is recommended"cfg_normalize":True,# Whether enable cfg normalization."use_en_prompt":True,# Automatic caption language if user does not provide caption}withtorch.inference_mode():output=pipeline(**inputs)output_image=output.images[0]fori,imageinenumerate(output_image):image.save(f"{i}.png")

案例展示

应用中的分层解构

给定一张图像,Qwen-Image-Layered可将其分解为多个RGBA图层:

分解后,编辑操作仅作用于目标图层,使其在物理层面与其他内容隔离,从而从根本上确保编辑的一致性。

例如,我们可以单独对首层重新着色,同时保持其他所有内容不受影响:

我们也可以将第二层从女孩替换为男孩(目标层使用Qwen-Image-Edit进行编辑):

我们将文本修改为“Qwen-Image”(目标图层使用Qwen-Image-Edit进行编辑):

此外,分层结构天然支持基础操作。例如,我们可以彻底删除不需要的对象。

我们也可以在不失真的情况下调整对象大小:

分层解构后,我们可以在画布上自由移动对象:

灵活可迭代的分层

Qwen-Image-Layered 不局限于固定分层数量。该模型支持可变层数分解,例如根据需求可将图像分解为3层或8层:

此外,分解可以递归应用:任何层级本身都可以进一步分解,从而实现无限分解。

许可协议

Qwen-Image-Layered 采用 Apache 2.0 许可证授权。

引用说明

如果您认为我们的工作对您有所帮助,我们诚挚地建议您引用相关成果。

@misc{yin2025qwenimagelayered, title={Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition}, author={Shengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu}, year={2025}, eprint={2512.15603}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.15603}, }
http://www.jsqmd.com/news/123148/

相关文章:

  • 2026年教育行业GEO服务商优选指南:技术驱动下的品牌曝光新范式 - 品牌测评鉴赏家
  • 2025年广州口碑好的西点培训中心推荐:专业的西点培训学校有哪些? - myqiye
  • LangFlow镜像SOC2准备工具:帮助企业通过审计认证
  • 2025 年 12 月破碎站厂家权威推荐榜:移动/履带式/重型卡车式等全系列硬核装备实力解析与选购指南 - 品牌企业推荐师(官方)
  • 2025年GEO优化服务推荐,专业AI-GEO优化公司全解析 - 工业推荐榜
  • LangFlow实时预览功能揭秘:即时调试LangChain应用不再是难题
  • LangFlow结合GPU云服务,打造高性能AI应用流水线
  • 还在手动做攻略?Open-AutoGLM已实现一键生成全链路行程方案
  • 2025三元乙丙O型圈厂家TOP5权威推荐:甄选epdmO型圈研发实力标杆 - mypinpai
  • leetcode 960
  • 2025年靠谱GEO推广企业排名,新测评精选GEO精准推广服务专业公司推荐 - 工业推荐榜
  • nimble使用本地包
  • VMware安装过程
  • 2025年浙江信誉好的移民公司推荐:资质齐全、售后完善的移民专业公司有哪些? - mypinpai
  • 【日记】我觉得这可能不是我想象中的半马(2340 字)
  • 洁净棚哪家强?十大口碑厂商排行一览,FFU/医疗装修工程/净化工作台/风淋室/洁净工作台/快速卷帘门洁净棚供应商选哪家 - 品牌推荐师
  • Open-AutoGLM调度性能提升300%?背后你不知道的5个优化秘诀
  • 2025 年 12 月农产品供应链权威推荐榜:数字化配送、冷链物流、B2B食堂采购与共享中心合伙人招募全解析 - 品牌企业推荐师(官方)
  • 成都火锅怎么选?2025年最新口碑与热度双重榜单发布,地摊火锅/火锅/重庆火锅/社区火锅/牛肉火锅/成都火锅/美食成都火锅品牌口碑推荐 - 品牌推荐师
  • null != ‘2’ 返回的是 null 这个属于SQL 标准
  • 30 分钟打印!多材料3D打印软机器人内置驱动 + 自主避障
  • 【好写作AI】学生党必备:用AI高效完成论文与作业,告别熬夜与焦虑
  • 2025年GEO推广服务公司排名:哪家权威合适?GEO精准推广服务推荐 - 工业推荐榜
  • 基于机器学习的慢性病风险评估与预防系统开题报告
  • 为什么你的任务无法实时同步?Open-AutoGLM底层架构深度剖析
  • 2025年等离子清洗机厂推荐,双工位常压三轴与工业真空设备全解析 - myqiye
  • LangFlow镜像数据库设计工具:ER图生成与SQL语句输出
  • LangFlow镜像入侵检测系统:实时报警可疑活动
  • LangFlow镜像运维巡检机器人:定期检查系统状态
  • 物联网设备智能联动新突破(Open-AutoGLM核心技术解析)