当前位置：首页 > news >正文

ADaFuSE Adaptive Diffusion-generated Image and Text Fusion for Interactive Text-to-Image Retrieval

news 2026/7/7 10:04:22

ADaFuSE: Adaptive Diffusion-generated Image and Text Fusion for Interactive Text-to-Image Retrieval

Authors:Zhuocheng Zhang, Xingwu Zhang, Kangheng Liang, Guanxuan Li, Richard Mccreadie, Zijun Long

Deep-Dive Summary:

ADaFuSE: 用于交互式文本到图像检索的自适应扩散生成图像与文本融合

摘要

近期交互式文本到图像检索（I-TIR）的进展利用扩散模型来弥合文本信息需求与待检索图像之间的模态差距，从而提升了检索效果。然而，现有框架通过简单的嵌入加法来融合用户反馈的多模态视图。在本工作中，我们表明这种静态且不加区分的融合方式会无差别地引入扩散模型产生的生成噪声，导致高达55.62 % 55.62\%55.62%的样本性能下降。我们进一步提出了 ADaFuSE（具有语义感知专家的自适应扩散-文本融合），这是一种轻量级融合模型，旨在为扩散增强的 I-TIR 对齐和校准多模态视图，无需修改主干编码器即可插入现有框架。具体而言，我们引入了一种双分支融合机制：采用自适应门控分支动态平衡模态可靠性，同时采用语义感知混合专家分支捕捉细粒度的跨模态细微差别。通过在四个标准 I-TIR 基准上的全面评估，ADaFuSE 达到了最先进的性能，在仅增加5.29 % 5.29\%5.29%参数的情况下，Hits@10 比 DAR 提升高达3.49 % 3.49\%3.49%，同时对噪声和更长交互查询表现出更强的鲁棒性。这些结果表明，生成增强与原则性融合相结合，为交互式检索提供了一种简单、可泛化的替代微调方案。

关键词

扩散增强交互式文本到图像检索，多模态查询融合

1 引言

交互式文本到图像检索（I-TIR）允许用户通过迭代整合以自然语言对话形式表达的用户反馈，在语料库中找到目标图像 [12, 16, 17]。最近，扩散增强 I-TIR 作为一种引人注目的范式出现，它利用扩散模型 [14, 29] 生成以对话上下文为条件的合成图像作为视觉代理，用于丰富文本查询 [23] 或作为独立的图像查询 [33]。现有框架（如 DAR [23]）通过静态加法融合策略整合对话文本和相应的生成图像，以固定权重结合它们的嵌入。

然而，我们认为这种静态加法融合存在两个关键局限性。首先，像 DAR 这样依赖固定权重的方法忽略了每个模态的有用性在不同实例间的变化。实际上，对视觉和文本信息的依赖应该是动态的，取决于生成图像对当前意图的捕捉程度 [3, 35, 1]。其次，静态加法融合将所有生成图像视为同等有价值，忽略了它们的实际质量。由于扩散模型本质上是随机的，生成图像与用户意图的一致性在不同样本间波动。静态加法无差别地融合这些生成图像，不可避免地引入噪声。

为解决上述局限性，我们提出了 ADaFuSE（具有语义感知专家的自适应扩散-文本融合），这是一种轻量级融合模型，旨在为扩散增强 I-TIR 动态校准多模态表示，无需修改主干编码器即可插入现有 I-TIR 流程。在结构上，该模型包含两个协调分支：自适应门控 [27] 分支，利用跨模态交互动态调节文本特征和相应生成图像特征的融合权重；以及语义感知混合专家分支，利用多样化的语义感知专家构建补偿特征，捕捉细粒度的跨模态细微差别。通过整合门控分支的调节特征与语义感知分支的补偿特征，ADaFuSE 形成了比静态加法融合更鲁棒且与意图对齐的查询表示。

我们的主要贡献包括：(i) 批判性分析现有扩散增强 I-TIR 框架，揭示无差别静态加法融合的局限性；(ii) 提出 ADaFuSE，一种旨在实现输入文本与扩散生成图像之间鲁棒融合表示的轻量级融合模型；(iii) 在四个标准 I-TIR 基准上展示最先进的性能，Hits@10 比最强扩散增强基线（DAR）[23] 提升高达3.49 % 3.49\%3.49%，并展示对查询复杂度和交互长度增加的鲁棒性。

2 相关工作

交互式文本到图像检索：与传统检索系统仅依赖单一（短）查询不同 [15, 28]，交互式文本到图像检索（I-TIR）基于多轮用户反馈迭代优化搜索查询 [17, 38]。在大语言模型 [6, 11, 21] 和视觉语言模型 [24, 28, 18] 进步的推动下，这种交互式方法已用于提高从通用图像搜索 [16, 33, 37] 到人物检索等专门任务 [4, 25] 的广泛用例的搜索效果。扩散增强 I-TIR 方法是一项最新创新，它引入扩散生成图像来弥合文本查询/对话与待检索图像之间的语义差距。具体而言，DAR [23] 以对话上下文为条件合成这些图像，并通过静态加法融合策略将其与文本查询整合，即使在零样本设置下也能实现最先进的性能。

多模态查询视图的融合：据我们所知，先前工作尚未研究如何更好地融合扩散增强 I-TIR 的多模态查询视图。最接近的相关领域是组合图像检索（CIR）[31, 32, 22, 2]，其中多模态查询（通常是参考图像与修改文本配对）用于检索目标图像 [30, 34]。该任务已在从时尚电商到开放域场景等领域得到广泛探索，由 FashionIQ [32]、CIRR [22] 和 CIRCO [5] 等大规模数据集推动。然而，扩散增强 I-TIR 与 CIR 在输入性质上有所不同。在标准 CIR 中，文本通常作为应用于可靠参考图像的修改指令。相反，扩散增强检索采用从（可能较长的）对话上下文生成的合成图像 [23, 33]。在此设置中，理论上两种模态应传达相同的语义意图，但实际上生成图像会引入实例依赖的噪声 [36]。这促使开发专门针对扩散增强 I-TIR 的融合机制。

图 1：VisDial [9] 验证集上扩散增强退化率（左）和平均排名下降（右）的分析。越低越好。

3 提出的方法：ADaFuSE

3.1 加法融合的局限性

如 [36] 所讨论，扩散增强交互式文本到图像检索（I-TIR）方法产生的生成图像经常在语义上偏离用户的检索意图，引入可能与原始对话上下文冲突的噪声。最先进的方法 DAR [23] 使用静态加权加法融合策略，将这些扩散生成图像直接与查询表示结合。尽管 DAR 已被证明在此局限性下仍然有效，但我们认为引入的噪声正在降低某些查询的性能。

为量化这一风险，我们分析了引入扩散生成图像损害而非改善检索性能的查询比例（称为退化率），以及相关图像的平均排名下降。如图 1 所示，红色实线显示 DAR 从第 2 轮开始退化率超过50 % 50\%50%，红色虚线显示退化查询的平均排名下降约为 7500。这表明扩散噪声是一个主要问题，需要更好的文本与扩散生成图像证据融合方式。

3.2 扩散生成图像与文本的自适应融合

我们假设限制扩散生成噪声泄漏到排序过程的有效手段是在融合文本和扩散产生证据时更具选择性。为此，我们提出了 ADaFuSE（具有语义感知专家的自适应扩散-文本融合），如图 2 所示，这是一种轻量级模型，作为文本和图像模态之间的智能桥梁，动态校准每个查询应使用各模态的多少信号。

查询编码与投影：考虑数据集中第i ii个样本在第n nn轮对话。我们将文本查询记为T n , i T_{n,i}Tn,i，相应的扩散生成图像记为I n , i I_{n,i}In,i，真实目标图像记为I i ∗ I_i^*Ii∗。令Φ T ( ⋅ ) \Phi_T(\cdot)ΦT(⋅)和Φ I ( ⋅ ) \Phi_I(\cdot)ΦI(⋅)分别表示文本和图像编码器。通过将输入映射到共享的d dd维嵌入空间获得初始嵌入：

z n , i T = Φ T ( T n , i ) , z n , i D = Φ I ( I n , i ) , z i ∗ = Φ I ( I i ∗ ) ( 1 ) z_{n,i}^T = \Phi_T(T_{n,i}), \quad z_{n,i}^D = \Phi_I(I_{n,i}), \quad z_i^* = \Phi_I(I_i^*) \quad (1)zn,iT=ΦT(Tn,i),zn,iD=ΦI(In,i),zi∗=ΦI(Ii∗)(1)

其中z n , i T , z n , i D , z i ∗ ∈ R d z_{n,i}^T, z_{n,i}^D, z_i^* \in \mathbb{R}^dzn,iT,zn,iD,zi∗∈Rd。尽管预训练编码器能有效全局对齐模态，但其预训练目标优先考虑不变性，这可能抑制包含补充文本有价值语义信息的细粒度视觉细节 [7, 8]。在此压缩空间内直接融合限制了这些视觉线索的有效利用。为恢复这一损失的能力，ADaFuSE 首先采用两个投影块（见图 2）将原始文本和图像嵌入非线性投影到更高维度的任务特定潜在空间：

h n , i T = δ ( P T ( z n , i T ) ) , h n , i D = δ ( P D ( z n , i D ) ) ( 2 ) \mathbf{h}_{n,i}^T = \delta(\mathcal{P}_T(z_{n,i}^T)), \quad \mathbf{h}_{n,i}^D = \delta(\mathcal{P}_D(z_{n,i}^D)) \quad (2)hn,iT=δ(PT(zn,iT)),hn,iD=δ(PD(zn,iD))(2)

其中P { T , D } ( ⋅ ) : R d → R d ′ \mathcal{P}_{\{T,D\}}(\cdot): \mathbb{R}^d \to \mathbb{R}^{d'}P{T,D}(⋅):Rd→Rd′实例化为独立的投影头以捕捉模态特定特征，δ ( ⋅ ) \delta(\cdot)δ(⋅)为 GELU 激活函数。这种非线性维度扩展用于恢复特征的判别能力，为后续自适应门控和专家路由提供更富表达力的嵌入空间。

![](images/d4322c88222d7d752d81c78f34ea1b2100c5aab

Original Abstract:Recent advances in interactive text-to-image retrieval (I-TIR) use diffusion models to bridge the modality gap between the textual information need and the images to be searched, resulting in increased effectiveness. However, existing frameworks fuse multi-modal views of user feedback by simple embedding addition. In this work, we show that this static and undifferentiated fusion indiscriminately incorporates generative noise produced by the diffusion model, leading to performance degradation for up to 55.62% samples. We further propose ADaFuSE (Adaptive Diffusion-Text Fusion with Semantic-aware Experts), a lightweight fusion model designed to align and calibrate multi-modal views for diffusion-augmented I-TIR, which can be plugged into existing frameworks without modifying the backbone encoder. Specifically, we introduce a dual-branch fusion mechanism that employs an adaptive gating branch to dynamically balance modality reliability, alongside a semantic-aware mixture-of-experts branch to capture fine-grained cross-modal nuances. Via thorough evaluation over four standard I-TIR benchmarks, ADaFuSE achieves state-of-the-art performance, surpassing DAR by up to 3.49% in Hits@10 with only a 5.29% parameter increase, while exhibiting stronger robustness to noisy and longer interactive queries. These results show that generative augmentation coupled with principled fusion provides a simple, generalizable alternative to fine-tuning for interactive retrieval.

PDF Link:2603.21886v1