当前位置: 首页 > news >正文

MICON-Bench Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Mo

MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models

Authors:Mingrui Wu, Hang Liu, Jiayi Ji, Xiaoshuai Sun, Rongrong Ji

Deep-Dive Summary:
这份学术论文介绍了一个名为MICON-Bench的基准测试,旨在评估和增强统一多模态模型(UMMs)在多图上下文生成(Multi-Image Context Generation)方面的能力。

| :—: | :—: | :—: | :—: |
| BAGEL | 0.3586 | 0.9155 | 0.8766 | 0.6073 |
|BAGEL + DAR|0.3612|0.9201|0.8828|0.6018|
| OmniGen2 | 0.3646 | 0.9102 | 0.8742 | 0.6373 |
|OmniGen2 + DAR|0.3648|0.9130|0.8757|0.6327|

表 5:参考图像数量对 UMMs 性能的影响。

ModelRef=2Ref=3Ref=4Ref=5
BAGEL88.5084.3775.1166.36
OmniGen292.1889.5274.9267.00

图 4:DAR 抑制噪声注意力并重新聚焦目标。红色框代表被抑制的无关区域,绿色框代表被增强的目标区域。

6. 结论 (Conclusion)

MICON-Bench 为多图上下文生成提供了严谨的评估平台,而 DAR 机制则提供了一种有效且低成本的手段,来解决当前 UMMs 在跨图像推理中的幻觉问题。这两者共同为开发更可靠的多模态生成系统奠定了基础。

Original Abstract:Recent advancements in Unified Multimodal Models (UMMs) have enabled remarkable image understanding and generation capabilities. However, while models like Gemini-2.5-Flash-Image show emerging abilities to reason over multiple related images, existing benchmarks rarely address the challenges of multi-image context generation, focusing mainly on text-to-image or single-image editing tasks. In this work, we introduce \textbf{MICON-Bench}, a comprehensive benchmark covering six tasks that evaluate cross-image composition, contextual reasoning, and identity preservation. We further propose an MLLM-driven Evaluation-by-Checkpoint framework for automatic verification of semantic and visual consistency, where multimodal large language model (MLLM) serves as a verifier. Additionally, we present \textbf{Dynamic Attention Rebalancing (DAR)}, a training-free, plug-and-play mechanism that dynamically adjusts attention during inference to enhance coherence and reduce hallucinations. Extensive experiments on various state-of-the-art open-source models demonstrate both the rigor of MICON-Bench in exposing multi-image reasoning challenges and the efficacy of DAR in improving generation quality and cross-image coherence. Github: https://github.com/Angusliuuu/MICON-Bench.

PDF Link:2602.19497v1

部分平台可能图片显示异常,请以我的博客内容为准

http://www.jsqmd.com/news/409081/

相关文章:

  • DeepSeek广告服务商联系方式 - 品牌2025
  • 2026年广州江诗丹顿手表维修评测与推荐:非官方维修点选择与售后网点服务指南 - 十大品牌推荐
  • 2026年广州江诗丹顿手表维修推荐评测:非官方维修点榜单与售后网点服务选择指南 - 十大品牌推荐
  • AI人工智能(十六)错误示范http文件处理—东方仙盟练气期
  • 2026年广州家庭搬家公司推荐评测排行榜:告别搬家烦恼,轻松开启新生活 - 十大品牌推荐
  • 2026年广州家庭搬家公司评测推荐榜单:告别杂乱与纠纷,轻松搬迁全攻略 - 十大品牌推荐
  • 2026年广州家具搬运公司推荐评测榜单:告别杂乱与破损,专业团队让搬迁无忧 - 十大品牌推荐
  • 2026年广州家庭搬家公司评测推荐榜单:告别杂乱与焦虑,轻松搬迁新家指南 - 十大品牌推荐
  • 在DeepSeek做广告联系哪个服务商? - 品牌2025
  • 2026 2.23 - 2026 3.1 日做题题解
  • 宽度学习旋转机械智能故障诊断【附代码】
  • DeepSeek广告服务商?联系谁? - 品牌2025
  • 欧姆龙PLC CP1E与柯力XK3101电子称重仪表的Modbus RTU通信及拓展
  • 深沟球轴承外滚道偏转缺陷建模与动力学分析【附代码】
  • 从单一到融合:机器学习、多模型学习与大语言模型的全面综述
  • 2026年2月24日
  • MySQL从入门到精通:一份全面的数据库实战指南
  • 春节单位发的京东e卡如何回收? - 京顺回收
  • 上海人工智能实验室重磅发布:AI正在学会“偷鸡摸狗“?
  • n8n 节点矩阵总览(分层结构 + 云图 + 教程索引)
  • 波士顿大学与亚马逊联手:让AI画图速度飞跃3倍的智能补丁技术
  • 公共安全能力建设专项技术方案——城市公共空间实时预测与前向布控辅助决策系统
  • 2026最新云南本地游旅行社品牌TOP10推荐:权威榜单发布,多元需求精准适配 - 十大品牌榜
  • QPACK、单向流、帧解析:逐行拆解Nginx HTTP/3的13个源文件,看HTTP/3请求到底怎么跑起来的
  • 20260224 模拟测 总结
  • 责任珠宝业委员会(RJC)认证全方位介绍:珠宝行业可持续发展的标杆
  • 谷歌DeepMind突破:噪声训练法提升图像生成效率数倍
  • 题解:P15148 [SWERC 2024] Divine Gifting
  • 全功能爬虫框架:Botasaurus 的详细使用(现代化、反检测、高并发的智能爬虫框架)
  • 分层图网络建模风电机组故障诊断【附代码】