当前位置: 首页 > news >正文

端侧AI图像生成新突破!字节开源DreamLite:0.39B参数统一图像生成与编辑,小米14上实现1秒出图。

在AI图像生成与编辑领域,云端大模型一直占据主导地位,但其高延迟和依赖云端资源的特性限制了移动端应用的普及。近日,字节跳动智能创作实验室发布的DreamLite模型,以其0.39B参数的轻量化设计和统一生成与编辑的能力,在小米14等移动设备上实现了1秒内生成或编辑1024x1024分辨率图像的壮举,为端侧AI图像处理树立了新的标杆。

相关链接

  • 论文:https://arxiv.org/abs/2603.28713

  • 主页:https://carlofkl.github.io/dreamlite

  • 仓库:https://github.com/ByteVisionLab/DreamLite

论文介绍

DreamLite模型旨在解决端侧AI图像处理中的两大痛点:高延迟和功能单一。传统端侧模型往往专注于单一的图像生成任务,而图像编辑则需要部署额外的模型,导致系统复杂度高且资源消耗大。DreamLite通过创新的轻量化架构设计、In-Context条件统一机制、任务渐进式联合预训练以及后训练优化与步数蒸馏等技术,实现了在一个统一模型中同时支持图像生成和编辑的功能。

方法概述

轻量化架构设计

DreamLite基于SnapGen进一步压缩U-Net骨干网络,通过减少Transformer块数量、缩减通道维度、去掉高分辨率阶段的Self-Attention、使用深度可分离卷积和Multi-Query Attention(MQA)等技术,将模型参数量从2.5B压缩至0.39B。 采用极轻量的TinyVAE(仅2.5M参数)进行图像编码,以及Qwen3-VL-2B作为文本编码器,确保模型在保持高性能的同时,计算量大幅降低。

In-Context条件统一机制

不同于传统的InstructPix2Pix范式,DreamLite在latent空间中将目标图像和条件图像沿宽度方向水平拼接,通过空间维度拼接和任务token路由,在不引入额外参数的前提下实现了任务统一。

文生图任务中,条件面板设置为空白图像;图像编辑任务中,条件面板使用源图像。任务token([Generate]和[Edit])充当轻量级路由信号,指导模型动态切换行为。

任务渐进式联合预训练

分三步进行预训练:首先进行T2I预训练,然后激活In-Context条件机制进行编辑预训练,最后在T2I和编辑数据的混合数据集上进行统一联合训练。

引入前景聚焦掩码解决编辑任务中目标编辑区域小、梯度信号被背景主导的问题,确保模型在微小编辑上的敏感性和训练稳定性。

后训练优化与步数蒸馏。

  • 采用监督微调(SFT)和强化学习(RL)进行后训练优化,提升模型稳定性和性能。

  • 使用Distribution Matching Distillation (DMD2)将采样过程压缩到仅4步,实现快速推理,同时保持较高的生成和编辑质量。

实验

图像生成实验

在GenEval和DPG基准上,DreamLite分别达到0.72和85.8的成绩,超过所有端侧模型,甚至超越了部分服务器端大模型(如FLUX.1-Dev 12B和SANA-1.6B)。 在颜色属性和位置子项上,DreamLite同样表现出色,证明了其在复杂场景、风格把控和多物体关系处理上的能力。

图像编辑实验

在ImgEdit基准上,DreamLite拿到4.11分,超越了多个大模型(如FLUX.1 Kontext-Dev 12B和BAGEL 7B),在GEdit-EN基准上也取得了6.88分的优异成绩。 消融实验验证了In-Context条件统一机制、任务渐进式联合预训练和后训练优化的有效性,证明了每个设计对模型性能提升的贡献。

结论

DreamLite模型通过创新的轻量化架构设计、In-Context条件统一机制、任务渐进式联合预训练以及后训练优化与步数蒸馏等技术,成功实现了在一个统一模型中同时支持图像生成和编辑的功能。其在多个基准测试中的优异表现以及在移动端设备上的实时性能,证明了DreamLite在端侧AI图像处理领域的领先地位。随着代码和模型权重的即将开源,DreamLite有望推动端侧AI图像生成与编辑技术的普及和发展,为用户带来更加便捷和高效的图像处理体验。

http://www.jsqmd.com/news/634978/

相关文章:

  • 3步搞定Arduino ESP32开发环境:从零开始物联网项目实战
  • 模型监控超简单
  • 维深:夸克AI眼镜S1用户体验调研报告 2026
  • 北美求职陪跑日记:从 OPT 濒临过期到拿下 Tech Giant Offer 的 45 天
  • RestTemplate HTTPS请求中PKIX路径构建失败的深度解析与解决方案
  • PacketSerial:ESP32轻量级结构化UART通信协议库
  • AI 工作流防线失守:Flowise 漏洞被黑客大规模利用
  • 如何在Zotero中实现PDF即时预览?这款插件让文献管理效率翻倍
  • 医疗AI诊断革命倒计时(2026奇点大会闭门报告首曝):7类误诊场景已被AIAgent动态拦截,附临床验证数据包
  • QQ拼音剪贴板:绿色提取版,打工人的复制粘贴神器
  • 16N50 -ASEMI重塑电源与电机驱动效率16N50
  • excel使用下拉选项
  • 国风美学生成模型v1.0效果对比:不同参数下的古风人物生成
  • 企业邮件处理自动化落地,分类回复全流程实现方法 —— 2026企业级智能体选型与落地全景指南丨Agent产品测评局
  • 零代码AI识别:通用物体识别-ResNet18镜像WebUI详细使用指南
  • 从 Scaffolding 到 Harness:AI Coding Agent 真正难的,不是写代码,而是把系统跑起来
  • 深入解析tiktoken离线加载cl100k_base的三种实战方案
  • 如何用KaTrain围棋AI彻底改变你的棋艺提升路径:从智能分析到实战精进的深度解析
  • 【边缘AI代理架构生死线】:为什么你的AIAgent在Jetson Orin上吞吐暴跌63%?——基于127个边缘集群压测数据的拓扑重构白皮书
  • XShell突然罢工?别慌!手把手教你用FinalShell快速搭建SSH连接环境(附Windows/Mac安装包)
  • 选购道源隔音门的要点,解答可以信任吗及定制周期等疑问 - myqiye
  • 如何为网站注入灵魂:Live2D AI交互助手的革命性实践
  • 实习08-Mamba 和 SSM
  • 2026年操作简单的灌装机推荐,能减少人工且懂中小食品厂需求的公司 - mypinpai
  • 智能充电桩项目复盘:STM32如何用C语言优雅地管理IC卡、指纹与充电状态机?
  • 从零到一:ESP32 Arduino核心开发环境完整搭建指南
  • 背景提升服务哪家有效? - 中媒介
  • 从NASA数据到科研图表:如何利用格陵兰冰盖流域边界做出一张专业地图
  • WPS-Zotero插件:打通学术写作与文献管理的终极解决方案
  • 终极Android万能适配器指南:baseAdapter让ListView与RecyclerView开发效率提升10倍