当前位置: 首页 > news >正文

百度:开源图文生成模型ERNIE-Image

📖标题:ERNIE-Image Technical Report
🌐来源:arXiv, 2605.25347v1

🛎️文章简介
🔸研究问题:如何在不单纯依赖模型参数规模扩张的前提下,通过优化数据策略和训练流程,使开源文生图模型在指令遵循、文本渲染及美学质量上逼近顶尖闭源商业模型?
🔸主要贡献:论文提出了基于8B单流DiT架构的ERNIE-Image,通过自底向上的预训练数据构建、自顶向下的后训练对齐及多教师蒸馏技术,实现了开源模型性能的突破,并发布了全套模型及美学评估基准。

📝重点思路
🔸预训练阶段采用自底向上数据管线,结合万级细粒度图像分类、VLM丰富 caption 标注及美学评分进行分层采样,有效降低噪声并保留长尾概念与真实世界知识。
🔸后训练阶段采用自顶向下策略,针对海报、摄影等高需求场景 curated 高质量数据,并通过多样化 prompt 重写增强模型对真实用户输入的鲁棒性。
🔸引入稳定化直接偏好优化(DPO)算法,通过锚点损失防止奖励黑客现象,将模型分布与人类美学偏好对齐;提出多教师分布匹配蒸馏(MT-DMD),利用不同领域专家教师联合监督,解决蒸馏过程中的能力漂移问题,实现8步高效生成。
🔸开发轻量级 Prompt Enhancer,将用户简短意图扩展为结构化视觉描述,显著提升复杂指令遵循能力;构建工业级美学模型 ERNIE-Image-Aes 及人工标注基准 ERIA-1K,纠正现有美学评估偏差。

🔎分析总结
🔸在 GenEval 基准测试中,ERNIE-Image 取得0.89的最高综合得分,尤其在空间定位和属性绑定方面表现优异,证明其强大的指令遵循能力。
🔸在 LongText-Bench 测试中,模型在英文和中文长文本渲染上均达到0.973的高准确率,展现了卓越的跨语言文本生成能力及字符级空间协调性。
🔸人类评估显示,ERNIE-Image 在整体偏好、空间结构及世界知识准确性上优于其他开源模型,仅次于顶尖闭源模型 Nano Banana 2.0,且显著优于参数量更大的竞品。
🔸美学模型 ERNIE-Image-Aes 在 ERIA-1K 基准上的 SRCC 和 PLCC 指标大幅领先现有模型,能更公正地评估各类图像风格,避免了传统模型对AI生成内容或黑白照片的系统性偏见。

💡个人观点
论文证明了“数据质量与训练策略”比单纯的“参数规模”更能决定文生图模型的上限。

http://www.jsqmd.com/news/993456/

相关文章:

  • 如何快速搭建个人离线小说库:番茄小说下载器完整使用指南
  • LabVIEW调试实战:探针与断点的进阶应用指南
  • 告别手动转换!用C++/QT封装一个自己的Snap7工具类,管理PLC连接与数据读写更优雅
  • 从开源代码到实战应用:YOLO驱动的多模态目标检测资源全景解析
  • WPEWebKit在Ubuntu 18.04上的编译配置与常见问题解决
  • 拼多多 anti-content 参数生成所需浏览器环境补丁(Webpack 兼容 JS + Python 调用)
  • 《Java 100 天进阶之路》第83篇:MySQL索引(2026版)
  • Claudian插件与项目规划:AI辅助的任务管理
  • 2026合肥本地土壤检测农田土壤检测哪家强?TOP 正规机构榜单 + 联系方式 - 鉴安检测
  • okbiye AI 毕业论文写作:三步标准化创作,一站式抚平应届毕业生全流程写作焦虑
  • 如何在24GB以下显卡上流畅运行FLUX.1-dev FP8模型?揭秘低显存AI图像生成的秘密武器 [特殊字符]
  • CGI-Plus 增强版:从一键备份到智能系统部署的全能进化
  • P89LPC938微控制器I2C、SPI与ADC模块实战配置与深度调试指南
  • 鸿蒙原生应用开发实战(三):电影列表与搜索筛选 — 电影清单App
  • 3分钟搭建Windows C/C++开发环境:w64devkit完全免费解决方案
  • 5分钟上手 markItUp! 1.x:让你的网站秒变专业标记编辑平台 [特殊字符]
  • 终极指南:如何用开源3D建模软件从照片创建专业级三维模型
  • 卡梅德生物科普:C5(补体蛋白C5)靶点功能与应用深度解析
  • 2026博尔塔拉本地土壤检测农田土壤检测哪家强?TOP 正规机构榜单 + 联系方式 - 鉴安检测
  • 2026年6月青岛婚纱照品牌推荐:TOP10口碑严选+全攻略 - 江湖评测
  • D2UNet:双解码器协同与纹理变形模块,如何重塑地震图像超分辨率重建?
  • 3大核心技术深度解析:cim系统如何实现高可用分布式即时通讯
  • 2026港大本科直申中介怎么挑?专业口碑佳、录取实力强的香港本科留学机构盘点 - 品牌2026
  • 构建千万级分布式即时通讯系统的3大核心策略:ZooKeeper服务发现架构实战
  • PowerPC EC603e嵌入式处理器硬件设计实战:从架构解析到PCB布局与调试
  • LavinMQ性能基准测试:如何快速评估你的消息队列系统性能
  • PCA9622 LED驱动器:两级PWM控制、I2C通信与热管理设计详解
  • 实测CH32V305的USB-CDC串口:用Python脚本跑出30MB/s+,附完整代码与避坑点
  • 5分钟快速上手Umi-OCR:免费离线OCR软件的完整使用指南
  • 别再死记硬背网络结构了!手把手带你用PyTorch复现GoogLeNet(附完整代码与调试技巧)