当前位置: 首页 > news >正文

Qwen-Image-Agent发布:Agent如何填补AI生图的上下文鸿沟

Qwen-Image-Agent: Bridging the Context Gap in Real-World Image Generation

作者:Zekai Zhang, Jiahao Li, Jie Zhang, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Shengming Yin, Tianhe Wu, Xiaoyue Chen, Xiao Xu, Yan Shu, Yanran Zhang, Yixian Xu, Yuxiang Chen, Zhendong Wang, Zihao Liu, Zikai Zhou, Huishuai Zhang, Dongyan Zhao, Chenfei Wu
核心发表机构:论文源码未明确标注或暂未可靠识别
论文链接:arXiv:2606.26907v2
发布于:arXiv 预印本(cs.CV)

|:—😐:—😐:—😐:—😐:—😐
| 完整模型 |45.3|43.7|46.1|49.0|45.4|
| w/o Reason 上下文 | ↓ 24.7 | ↓ 29.7 | 46.1 | 49.0 | ↓ 35.1 |
| w/o Search 上下文 | 46.0 | 44.3 |↓ 7.8| 49.0 | ↓ 34.3 |
| w/o Memory 上下文 | 45.3 | 43.7 | 46.1 |↓ 0.0| ↓ 40.5 |
| w/o Feedback 上下文 | 40.0 | 41.3 | 42.8 | 49.0 | ↓ 42.1 |
| 替换 MLLM 骨干 | ↓ 24.7 | 41.7 |↓ 19.4|↓ 21.0| ↓ 27.8 |
| 替换生成骨干 | ↓ 19.3 | ↓ 30.7 | ↓ 31.1 | ↓ 40.0 | ↓ 28.3 |

核心发现:每个接地上下文模块(推理、搜索、记忆、反馈)对相应能力维度都是不可或缺的。移除推理上下文不仅大幅降低 Reason 分值,也损害了 Plan 能力(因为枚举等隐含需求需要通过推理来解决)。移除搜索上下文使 Search 能力几乎归零(7.8 vs 46.1)。移除记忆上下文使 Memory 能力完全消失(0.0),验证了 IA-Bench 维度设计的有效性。移除反馈上下文的影响相对较小(IA-score 从 45.4 降至 42.1),这是因为基础生成器本身能力较强,但反馈仍能在某些边缘情况下提供改进。替换 MLLM 骨干(如换为 Qwen 系列)导致整体性能大幅下降(IA-score 降至 27.8),说明 MLLM 的通用智能(布局规划、关键词生成、信息集成)是系统瓶颈。替换生成骨干同样严重损害各维度(IA-score 降至 28.3),表明底层渲染能力(计数、视觉推理、风格匹配)至关重要。

五、相关工作 / Related Work

现有图像生成研究主要沿以下几个方向推进,但大多仅覆盖部分智能体能力,缺乏统一视角。

  • 基于规划的方法(如 PhotoAgent)能将复杂意图分解为中间步骤,但未系统处理上下文获取。
  • 基于推理的方法(如 MindBrushIA)能处理隐含意图,但未集成搜索或记忆。
  • 基于搜索的方法(如 GenSearcher、AgentB、ImAgent)整合了网页或图像搜索,但忽略了规划与记忆。
  • 基于记忆的方法(如 GEMSAM)支持长程交互,但缺乏推理与反馈。
  • 基于反馈的方法(如 GenAgent、ImAgent)通过测试时缩放改进生成,但未纳入规划与记忆。

Qwen-Image-Agent 的独特性在于将plan、reason、memory、search、feedback五种能力统一在一个以上下文为中心的框架中,从识别上下文差距出发,系统性地构建生成上下文。此外,大多数现有基准(如 GenEval、DPGBench、WISE、MindBench)仅评估渲染能力或单一智能体能力,而 IA-Bench 同时覆盖规划、推理、搜索、记忆四个维度,提供了更全面的评估工具。

六、局限性与展望 / Limitations & Future Work

尽管 Qwen-Image-Agent 取得了显著成果,但仍存在以下局限和改进方向:

  1. 未识别的上下文差距:规划模块依赖 MLLM 识别缺失上下文。当差距过于隐晦(例如需要从特定日期和地点推断历史事件)时,MLLM 可能无法准确识别。瓶颈在于 MLLM 的领域知识广度与推理深度。未来可结合更强大的 MLLM 或专用知识图谱。

  2. 推理与搜索的模糊边界:实践中某些事实既可通过参数知识(推理)解决,也可通过外部检索(搜索)解决。当前策略将常识归为推理、精确事实(数字、日期)和动态事实(随时间变化)归为搜索。该划分虽有助于解耦,但可能不适用于所有场景。未来可引入自适应决策机制,根据置信度在推理和搜索间动态选择。

  3. 过度图像搜索引入视觉偏差:过量的图像搜索会引入不相关的视觉参考,反而降低生成质量。这主要是因为编辑模型不如直接生成模型鲁棒。当前策略仅在明确需要 IP 参考时调用图像搜索,并限制结果数量。未来可借助生成式评估器判断参考图像的相关性,并动态调整搜索阈值。

  4. 多轮生成中的上下文爆炸:多轮交互中,图像 token(用户提供、历史生成、搜索得到)迅速增长,可能超出 token 限制。当前基于相关性进行上下文选择(而非保留所有历史),但选择策略的鲁棒性有待提升。未来可开发更高效的历史压缩或摘要方法。

  5. 弱反馈监督:当前反馈仅作为生成后的后验批评,依赖 VLM 泛化反馈信号,提升有限。未来可扩展反馈以监督上下文识别和接地阶段(即检查规划是否正确、搜索是否充分),或引入明确的任务特定监督(如预定义指标、学习奖励模型)。

  6. 高延迟与成本:完整智能体流程引入了更高的计算延迟和 API 成本。尽管可通过 DAG 执行实现部分并行化,但整体成本仍需优化。未来可探索轻量级规划器或蒸馏版模型。

七、总结 / Conclusion

本文识别了真实世界图像生成中的核心挑战——上下文差距,即用户提供的部分上下文与 T2I 模型所需的充分生成上下文之间的不匹配。为弥合这一差距,我们提出了Qwen-Image-Agent,一个统一的智能体框架,通过上下文感知规划上下文接地,有机整合了规划、推理、搜索、记忆和反馈五种能力,渐进式地构建完整的生成上下文。该框架是训练无关的,兼容现有生成器,并支持多图像与多轮交互。同时,我们构建了IA-Bench基准,从规划、推理、搜索、记忆四个维度全面评估智能体图像生成能力。在 IA-Bench、WISE-Verified 和 MindBench 上,Qwen-Image-Agent 均取得了最先进的性能,消融实验验证了各关键模块的有效性。这项工作标志着从直接图像生成向智能体图像生成的必要转变,为未来更智能、更适应真实世界需求的图像生成系统提供了统一的理论视角和实用的实现框架。

原文摘要:While text-to-image (T2I) models have achieved remarkable progress, they struggle with real-world requests that are often underspecified, implicit, or dependent on up-to-date knowledge. We identify this challenge as the Context Gap: the mismatch between the user context and the sufficient generation context for T2I models. To bridge this gap, we propose Qwen-Image-Agent, a unified agentic framework that integrates plan, reason, search, memory and feedback in a context-centric manner. Qwen-Image-Agent treats user input as partial context and progressively constructs the generation context through Context-Aware Planning and Context Grounding. Specifically, Context-Aware Planning identifies missing context and plans how it should be acquired and used, while Context Grounding gathers this context from reason, search, memory, and feedback. To evaluate agentic image generation, we further introduce Image Agent Bench (IA-Bench), a benchmark covering four core image agent capabilities: Plan, Reason, Search, and Memory. Experiments on IA-Bench, Mindbench and WISE-Verified show that Qwen-Image-Agent outperforms strong baselines and achieves state-of-the-art performance.

PDF链接:https://arxiv.org/pdf/2606.26907v2

部分平台可能图片显示异常,请以我的博客内容为准

http://www.jsqmd.com/news/1100463/

相关文章:

  • 基于YOLOv5与OpenCV的实时目标检测系统搭建指南
  • 【机器人】基于matlab缓冲的不确定性感知沃罗诺伊单元多机器人碰撞规避【含Matlab源码 15672期】
  • 别再纠结clock_gettime了!Windows下用QueryPerformanceCounter实现高精度计时(附C++代码示例)
  • 西安军工科研院所首选:满足信创要求的国产数字孪生仿真引擎有哪些?
  • 保姆级教程:用PyTorch和MNE搞定BCI竞赛数据集预处理,手把手教你喂给EEGNet
  • 保姆级教程:在RK3568开发板上搞定RS232/RS485/CAN通信测试(附设备树配置与避坑点)
  • 别再让流程打架了!手把手教你用L1-L5框架梳理公司业务(附实战避坑清单)
  • 本地化部署AI编程助手:Codex能力接入IDE与工作流实践
  • SPA安全扫描实战:基于Playwright的自动化漏洞发现与攻防
  • CAD 内嵌图片/Excel 的识别
  • 无状态的“皇帝新装”:JWT 注销、续签与黑名单的终极拷问
  • CAD快捷键
  • 手把手教你用Cheat Engine 7.5修改《魔法工艺》0.82.7版:无限金币、钥匙与生命值
  • 别再死记硬背了!用Python+Excel搞定二级计量师核心公式(附实战代码)
  • 别再死记硬背公式了!用Python+Matlab手把手复现AM包络调制与解调全过程
  • 爬虫开发实战:识别与规避反爬蜜罐(Web陷阱)的技术指南
  • RTK8852BE蓝牙驱动的安装问题
  • L3/L4 自动驾驶强制国标落地:座舱交互与仿真测试的实时系统支撑方案
  • 3D点云处理入门:从ICP配准到PointNet分类的完整实践指南
  • 别再手动算排名了!用Matlab实现TOPSIS评价模型,5分钟搞定水质评估案例
  • 别再死记硬背公式了!用Python+Matplotlib动态可视化AM包络调制全过程
  • 爱博精电助力北京中海金融中心,打造首都核心区绿色建筑能源管理新标杆
  • YOLO目标检测入门教程:从环境搭建到自定义训练全流程
  • 安吉哪里可以晚托的权威机构
  • 零甲醛儿童房艺术漆推荐
  • 第一章Netty,Selector key用完要remove
  • 勒索攻击防御三大认知误区:备份神话、侥幸心理与赎金陷阱
  • 别再只用OCV了!Primetime POCV实战:从变量设置到看懂报告,一次搞定
  • 云克隆神经相关原代细胞:以高保真细胞模型驱动神经科学研究新突破
  • 别再写if-else了!用PySide6信号槽重构你的登录跳转逻辑,代码更清晰