当前位置: 首页 > news >正文

ADaFuSE Adaptive Diffusion-generated Image and Text Fusion for Interactive Text-to-Image Retrieval

ADaFuSE: Adaptive Diffusion-generated Image and Text Fusion for Interactive Text-to-Image Retrieval

Authors:Zhuocheng Zhang, Xingwu Zhang, Kangheng Liang, Guanxuan Li, Richard Mccreadie, Zijun Long

Deep-Dive Summary:

ADaFuSE: 用于交互式文本到图像检索的自适应扩散生成图像与文本融合

摘要

近期交互式文本到图像检索(I-TIR)的进展利用扩散模型来弥合文本信息需求与待检索图像之间的模态差距,从而提升了检索效果。然而,现有框架通过简单的嵌入加法来融合用户反馈的多模态视图。在本工作中,我们表明这种静态且不加区分的融合方式会无差别地引入扩散模型产生的生成噪声,导致高达55.62 % 55.62\%55.62%的样本性能下降。我们进一步提出了 ADaFuSE(具有语义感知专家的自适应扩散-文本融合),这是一种轻量级融合模型,旨在为扩散增强的 I-TIR 对齐和校准多模态视图,无需修改主干编码器即可插入现有框架。具体而言,我们引入了一种双分支融合机制:采用自适应门控分支动态平衡模态可靠性,同时采用语义感知混合专家分支捕捉细粒度的跨模态细微差别。通过在四个标准 I-TIR 基准上的全面评估,ADaFuSE 达到了最先进的性能,在仅增加5.29 % 5.29\%5.29%参数的情况下,Hits@10 比 DAR 提升高达3.49 % 3.49\%3.49%,同时对噪声和更长交互查询表现出更强的鲁棒性。这些结果表明,生成增强与原则性融合相结合,为交互式检索提供了一种简单、可泛化的替代微调方案。

关键词

扩散增强交互式文本到图像检索,多模态查询融合

1 引言

交互式文本到图像检索(I-TIR)允许用户通过迭代整合以自然语言对话形式表达的用户反馈,在语料库中找到目标图像 [12, 16, 17]。最近,扩散增强 I-TIR 作为一种引人注目的范式出现,它利用扩散模型 [14, 29] 生成以对话上下文为条件的合成图像作为视觉代理,用于丰富文本查询 [23] 或作为独立的图像查询 [33]。现有框架(如 DAR [23])通过静态加法融合策略整合对话文本和相应的生成图像,以固定权重结合它们的嵌入。

然而,我们认为这种静态加法融合存在两个关键局限性。首先,像 DAR 这样依赖固定权重的方法忽略了每个模态的有用性在不同实例间的变化。实际上,对视觉和文本信息的依赖应该是动态的,取决于生成图像对当前意图的捕捉程度 [3, 35, 1]。其次,静态加法融合将所有生成图像视为同等有价值,忽略了它们的实际质量。由于扩散模型本质上是随机的,生成图像与用户意图的一致性在不同样本间波动。静态加法无差别地融合这些生成图像,不可避免地引入噪声。

为解决上述局限性,我们提出了 ADaFuSE(具有语义感知专家的自适应扩散-文本融合),这是一种轻量级融合模型,旨在为扩散增强 I-TIR 动态校准多模态表示,无需修改主干编码器即可插入现有 I-TIR 流程。在结构上,该模型包含两个协调分支:自适应门控 [27] 分支,利用跨模态交互动态调节文本特征和相应生成图像特征的融合权重;以及语义感知混合专家分支,利用多样化的语义感知专家构建补偿特征,捕捉细粒度的跨模态细微差别。通过整合门控分支的调节特征与语义感知分支的补偿特征,ADaFuSE 形成了比静态加法融合更鲁棒且与意图对齐的查询表示。

我们的主要贡献包括:(i) 批判性分析现有扩散增强 I-TIR 框架,揭示无差别静态加法融合的局限性;(ii) 提出 ADaFuSE,一种旨在实现输入文本与扩散生成图像之间鲁棒融合表示的轻量级融合模型;(iii) 在四个标准 I-TIR 基准上展示最先进的性能,Hits@10 比最强扩散增强基线(DAR)[23] 提升高达3.49 % 3.49\%3.49%,并展示对查询复杂度和交互长度增加的鲁棒性。

2 相关工作

交互式文本到图像检索:与传统检索系统仅依赖单一(短)查询不同 [15, 28],交互式文本到图像检索(I-TIR)基于多轮用户反馈迭代优化搜索查询 [17, 38]。在大语言模型 [6, 11, 21] 和视觉语言模型 [24, 28, 18] 进步的推动下,这种交互式方法已用于提高从通用图像搜索 [16, 33, 37] 到人物检索等专门任务 [4, 25] 的广泛用例的搜索效果。扩散增强 I-TIR 方法是一项最新创新,它引入扩散生成图像来弥合文本查询/对话与待检索图像之间的语义差距。具体而言,DAR [23] 以对话上下文为条件合成这些图像,并通过静态加法融合策略将其与文本查询整合,即使在零样本设置下也能实现最先进的性能。

多模态查询视图的融合:据我们所知,先前工作尚未研究如何更好地融合扩散增强 I-TIR 的多模态查询视图。最接近的相关领域是组合图像检索(CIR)[31, 32, 22, 2],其中多模态查询(通常是参考图像与修改文本配对)用于检索目标图像 [30, 34]。该任务已在从时尚电商到开放域场景等领域得到广泛探索,由 FashionIQ [32]、CIRR [22] 和 CIRCO [5] 等大规模数据集推动。然而,扩散增强 I-TIR 与 CIR 在输入性质上有所不同。在标准 CIR 中,文本通常作为应用于可靠参考图像的修改指令。相反,扩散增强检索采用从(可能较长的)对话上下文生成的合成图像 [23, 33]。在此设置中,理论上两种模态应传达相同的语义意图,但实际上生成图像会引入实例依赖的噪声 [36]。这促使开发专门针对扩散增强 I-TIR 的融合机制。

图 1:VisDial [9] 验证集上扩散增强退化率(左)和平均排名下降(右)的分析。越低越好。

3 提出的方法:ADaFuSE

3.1 加法融合的局限性

如 [36] 所讨论,扩散增强交互式文本到图像检索(I-TIR)方法产生的生成图像经常在语义上偏离用户的检索意图,引入可能与原始对话上下文冲突的噪声。最先进的方法 DAR [23] 使用静态加权加法融合策略,将这些扩散生成图像直接与查询表示结合。尽管 DAR 已被证明在此局限性下仍然有效,但我们认为引入的噪声正在降低某些查询的性能。

为量化这一风险,我们分析了引入扩散生成图像损害而非改善检索性能的查询比例(称为退化率),以及相关图像的平均排名下降。如图 1 所示,红色实线显示 DAR 从第 2 轮开始退化率超过50 % 50\%50%,红色虚线显示退化查询的平均排名下降约为 7500。这表明扩散噪声是一个主要问题,需要更好的文本与扩散生成图像证据融合方式。

3.2 扩散生成图像与文本的自适应融合

我们假设限制扩散生成噪声泄漏到排序过程的有效手段是在融合文本和扩散产生证据时更具选择性。为此,我们提出了 ADaFuSE(具有语义感知专家的自适应扩散-文本融合),如图 2 所示,这是一种轻量级模型,作为文本和图像模态之间的智能桥梁,动态校准每个查询应使用各模态的多少信号。

查询编码与投影:考虑数据集中第i ii个样本在第n nn轮对话。我们将文本查询记为T n , i T_{n,i}Tn,i,相应的扩散生成图像记为I n , i I_{n,i}In,i,真实目标图像记为I i ∗ I_i^*Ii。令Φ T ( ⋅ ) \Phi_T(\cdot)ΦT()Φ I ( ⋅ ) \Phi_I(\cdot)ΦI()分别表示文本和图像编码器。通过将输入映射到共享的d dd维嵌入空间获得初始嵌入:

z n , i T = Φ T ( T n , i ) , z n , i D = Φ I ( I n , i ) , z i ∗ = Φ I ( I i ∗ ) ( 1 ) z_{n,i}^T = \Phi_T(T_{n,i}), \quad z_{n,i}^D = \Phi_I(I_{n,i}), \quad z_i^* = \Phi_I(I_i^*) \quad (1)zn,iT=ΦT(Tn,i),zn,iD=ΦI(In,i),zi=ΦI(Ii)(1)

其中z n , i T , z n , i D , z i ∗ ∈ R d z_{n,i}^T, z_{n,i}^D, z_i^* \in \mathbb{R}^dzn,iT,zn,iD,ziRd。尽管预训练编码器能有效全局对齐模态,但其预训练目标优先考虑不变性,这可能抑制包含补充文本有价值语义信息的细粒度视觉细节 [7, 8]。在此压缩空间内直接融合限制了这些视觉线索的有效利用。为恢复这一损失的能力,ADaFuSE 首先采用两个投影块(见图 2)将原始文本和图像嵌入非线性投影到更高维度的任务特定潜在空间:

h n , i T = δ ( P T ( z n , i T ) ) , h n , i D = δ ( P D ( z n , i D ) ) ( 2 ) \mathbf{h}_{n,i}^T = \delta(\mathcal{P}_T(z_{n,i}^T)), \quad \mathbf{h}_{n,i}^D = \delta(\mathcal{P}_D(z_{n,i}^D)) \quad (2)hn,iT=δ(PT(zn,iT)),hn,iD=δ(PD(zn,iD))(2)

其中P { T , D } ( ⋅ ) : R d → R d ′ \mathcal{P}_{\{T,D\}}(\cdot): \mathbb{R}^d \to \mathbb{R}^{d'}P{T,D}():RdRd实例化为独立的投影头以捕捉模态特定特征,δ ( ⋅ ) \delta(\cdot)δ()为 GELU 激活函数。这种非线性维度扩展用于恢复特征的判别能力,为后续自适应门控和专家路由提供更富表达力的嵌入空间。

![](images/d4322c88222d7d752d81c78f34ea1b2100c5aab

Original Abstract:Recent advances in interactive text-to-image retrieval (I-TIR) use diffusion models to bridge the modality gap between the textual information need and the images to be searched, resulting in increased effectiveness. However, existing frameworks fuse multi-modal views of user feedback by simple embedding addition. In this work, we show that this static and undifferentiated fusion indiscriminately incorporates generative noise produced by the diffusion model, leading to performance degradation for up to 55.62% samples. We further propose ADaFuSE (Adaptive Diffusion-Text Fusion with Semantic-aware Experts), a lightweight fusion model designed to align and calibrate multi-modal views for diffusion-augmented I-TIR, which can be plugged into existing frameworks without modifying the backbone encoder. Specifically, we introduce a dual-branch fusion mechanism that employs an adaptive gating branch to dynamically balance modality reliability, alongside a semantic-aware mixture-of-experts branch to capture fine-grained cross-modal nuances. Via thorough evaluation over four standard I-TIR benchmarks, ADaFuSE achieves state-of-the-art performance, surpassing DAR by up to 3.49% in Hits@10 with only a 5.29% parameter increase, while exhibiting stronger robustness to noisy and longer interactive queries. These results show that generative augmentation coupled with principled fusion provides a simple, generalizable alternative to fine-tuning for interactive retrieval.

PDF Link:2603.21886v1

部分平台可能图片显示异常,请以我的博客内容为准

http://www.jsqmd.com/news/535395/

相关文章:

  • 告别繁琐账务,TaxHacker 帮你轻松管理财务![特殊字符]
  • Telnet另类用法:5分钟写个自动化端口检测脚本(支持批量测试)
  • EasyExcel导出日期变#####?3分钟搞定列宽自适应问题(附@ColumnWidth注解详解)
  • 游戏物理引擎实战:用牛顿欧拉方程模拟刚体旋转(Unity3D案例)
  • STM32F103ZET6通过IIC驱动VL53L0X实现多模式激光测距
  • 客户背调步骤:避开3个坑,5分钟完成全维度排查
  • AI角色一键生成工具正在改写3D创作流程:V2Fun.art+香蕉2,更丝滑的创作体验
  • 攻克Retrieval-based-Voice-Conversion-WebUI技术难题:从入门到精通的问题解决手册
  • 【华为OD机试真题】手牌接龙 · 最大出牌次数(Python /JS)
  • 百川2-13B模型效果展示:代码生成与解释能力实测
  • 如何让路由器自动保持最佳状态?ImmortalWrt智能更新全攻略
  • Qwen3-Reranker-0.6B快速入门:5步搭建多语言文本排序服务
  • 深入解析PyTorch模型加载:如何巧妙应对state_dict键不匹配问题
  • 颠覆叙事设计:用Arrow打造3类互动故事的零代码解决方案
  • 利用MCP(Model Context Protocol)标准化Granite TimeSeries FlowState R1的模型交互
  • 革命性角色生成引擎Pony V7:重新定义AI驱动的视觉创作范式
  • 惊艳效果展示:LiuJuan20260223Zimage生成高质量技术文档与报告
  • MogFace-large部署教程:SSL证书自动签发+Nginx负载均衡双机热备
  • Template Studio:提升Windows应用开发效率的专业工具
  • STM32F405 + CubeMX - 中心对齐模式1与PWM模式2的实战配置:FOC电机驱动的核心PWM生成
  • 高精度低量程浊度仪的使用注意事项
  • StarRocks新手入门:如何用CloudDM个人版快速验证四种数据模型的特点?
  • 2026年Q1,在陕西创业开公司,如何选择靠谱的注册服务平台? - 2026年企业推荐榜
  • 单片机串口高效收发数据方案与实现
  • 3步轻松搞定QQ音乐加密格式:QMCDecode完全指南
  • 2026年降AI总失败?踩了4次坑后我终于搞懂了真正原因
  • 2026年市面上优质的大牌保健食品供应商有哪些,保健食品加盟/保健食品/进口热销品集合店,大牌保健食品供应链口碑分析 - 品牌推荐师
  • 中国村级居民点空间数据(天地图 + 统计年鉴融合)|全国270万+居民点|SHP点格式、带标准名称
  • Legado内置Web服务深度剖析:轻量级架构与跨设备阅读体验升级
  • 3个核心价值的测试工具转型:从手动到自动化的效率革命