当前位置：首页 > news >正文

Adaptive Multi-Agent Reasoning for Text-to-Video Retrieval

news 2026/3/26 22:51:25

Adaptive Multi-Agent Reasoning for Text-to-Video Retrieval

Authors:Jiaxin Wu, Xiao-Yong Wei, Qing Li

Deep-Dive Summary:
这篇论文题目为《Adaptive Multi-Agent Reasoning for Text-to-Video Retrieval》（文本到视频检索的自适应多智能体推理），由来自深圳大学、香港理工大学和四川大学的研究人员共同完成。

以下是该论文核心内容的中文摘要：

1. 摘要（Abstract）

随着短视频平台和多模态大语言模型（MLLMs）的兴起，对可扩展、有效的零样本（zero-shot）文本到视频检索系统的需求日益增长。尽管大规模预训练模型改善了跨模态对齐，但现有方法在处理包含时间、逻辑或因果关系的复杂查询时仍面临挑战。为此，本文提出了一种自适应多智能体检索框架，根据每个查询的需求动态编排多个专用智能体。该框架包含：

检索智能体（Retrieval Agent）：在海量视频库中进行可扩展检索。
推理智能体（Reasoning Agent）：进行零样本上下文时间推理。
查询重构智能体（Query Reformulation Agent）：细化模糊查询并恢复检索性能。
编排智能体（Orchestration Agent）：根据中间反馈引导执行。

此外，还引入了结合检索性能记忆和历史推理轨迹的通信机制。在 TRECVid 基准测试中，该框架的表现比 CLIP4Clip 提升了一倍，并显著优于现有 SOTA 方法。

2. 引言（Introduction）

文本到视频检索任务旨在利用自然语言查询从大规模语料库中检索相关视频。现有的检索方法主要集中在跨模态对齐（如对比学习），但在处理视频内的时间推理（例如动作的先后顺序、逻辑约束如否定或合取）时表现较差。例如，查询“一个人开门并进入房间”不仅需要识别实体，还需理解动作的时序和逻辑共存。

图 1：应用于复杂查询的动态多智能体检索框架快照。编排智能体根据反馈决定调用哪些智能体。

3. 多智能体检索框架（Multi-Agent Retrieval Framework）

给定查询q qq和视频库C = { v i } i = 1 N \mathbf{C} = \{v_i\}_{i=1}^NC={vi}i=1N，检索任务是返回相关视频的排序列表y ^ \hat{y}y^。该框架将检索过程重新表述为T TT次推理迭代。

3.1 核心组件：

可扩展检索智能体 (f S f_SfS)：使用跨模态检索模型计算相似度分数，从语料库中初步筛选候选视频。
r t = f S ( q t , C t ) r_t = f_S(q_t, \mathbf{C}_t)rt=fS(qt,Ct)
上下文推理智能体 (f R f_RfR)：利用 MLLM 对排名靠前的视频进行细粒度评估，识别其是否满足时间、逻辑和因果关系。
y ^ t m a t c h , y ^ t u n m a t c h = f R ( p e v a l , q t , r t [ : k ] ) \hat{y}_t^{match}, \hat{y}_t^{unmatch} = f_R(p_{eval}, q_t, r_t[:k])y^tmatch,y^tunmatch=fR(peval,qt,rt[:k])
查询重构智能体 (f Q f_QfQ)：针对检索失败的复杂查询，利用 LLM 将原查询重构为更易于视觉对齐的子查询。
q t = f Q ( p r e f i n e , q 0 , q t − 1 ) q_t = f_Q(p_{refine}, q_0, q_{t-1})qt=fQ(prefine,q0,qt−1)
多智能体编排智能体 (f O f_OfO)：作为中央控制器，决定是继续“利用”（Exploit）当前结果还是进行“探索”（Explore，即重构查询）。
a t , a t r = f O ( p a c t i o n , h t − 1 e v a l ) a_t, a_t^r = f_O(p_{action}, h_{t-1}^{eval})at,atr=fO(paction,ht−1eval)

图 2：多智能体视频检索框架概览。

3.2 多智能体通信机制

为了让智能体协同工作，系统引入了检索性能记忆库M \mathcal{M}M，存储过去的查询及其表现。这使得重构智能体能根据检索智能体的强项和局限性调整策略。

4. 实验（Experiments）

研究人员在三个 TRECVid AVS 基准（IACC.3, V3C1, V3C2）上验证了该方法。

4.1 与 SOTA 方法对比

实验结果表明，该方法在所有查询集上的表现均显著优于现有方法（如 CLIP4Clip, GLSCL, GenSearch 等）。在复杂查询（涉及时间、因果等）上，其性能提升尤为明显。

图 3：在需要多步推理的复杂且极具挑战性的查询上的性能对比。

图 4：GLSCL、IITV 和本模型检索到的 Rank-1 视频对比。通过上下文时间推理，本模型能准确匹配“卡车停稳且有人在旁边走”的动态场景。

4.2 消融实验

消融实验验证了各智能体的贡献：

推理智能体：相比纯检索基准，平均性能提升了43.8 % 43.8\%43.8%。
编排智能体：相比固定的“贪婪策略”（即每步都重构或从不重构），动态编排能更有效地平衡检索速度和精度。

图 5：自适应智能体工作流（含编排智能体）与固定贪婪策略在累积检索到真实结果（Ground Truth）数量上的性能对比。

结论

该研究通过引入多智能体协同机制，解决了传统视频检索模型在处理复杂自然语言查询时缺乏深度推理的问题。实验证明，动态编排不同职能的智能体可以极大地提高零样本视频检索的准确性。

4.4.3 超参数敏感性分析

我们进行了敏感性分析，以研究最大迭代次数T TT和检查窗口大小k kk的不同取值对检索性能的影响。下表报告了三种超参数配置下的结果。在保持检查的总视频数（k × T k \times Tk×T）基本恒定以确保公平比较的前提下，当我们将窗口大小从k = 50 k = 50k=50增加到k = 100 k = 100k=100，并将迭代次数从T = 60 T = 60T=60减少到T = 30 T = 30T=30时，观察到平均性能略有下降（从 0.323 降至 0.322）。这表明，较小窗口下的更频繁更新可能更有效，这可能归因于更细粒度的反馈和更具适应性的探索。有趣的是，当T TT增加到 50 时，平均性能略微提升至 0.325，这表明在搜索深度和动作调整频率之间存在权衡。总体而言，该框架对T TT和k kk的变化表现出了较强的鲁棒性。

5. 结论与未来工作

我们提出了一种动态多代理检索框架，旨在解决文本到视频检索中由复杂和模糊查询带来的上下文及时间推理挑战。广泛的实验证明，该自适应代理工作流在标准及复杂查询集上均显著优于现有的最先进方法和贪婪策略。未来的工作可能会探索用于代理协调的强化学习以及用户在环（user-in-the-loop）的反馈机制。

Original Abstract:The rise of short-form video platforms and the emergence of multimodal large language models (MLLMs) have amplified the need for scalable, effective, zero-shot text-to-video retrieval systems. While recent advances in large-scale pretraining have improved zero-shot cross-modal alignment, existing methods still struggle with query-dependent temporal reasoning, limiting their effectiveness on complex queries involving temporal, logical, or causal relationships. To address these limitations, we propose an adaptive multi-agent retrieval framework that dynamically orchestrates specialized agents over multiple reasoning iterations based on the demands of each query. The framework includes: (1) a retrieval agent for scalable retrieval over large video corpora, (2) a reasoning agent for zero-shot contextual temporal reasoning, and (3) a query reformulation agent for refining ambiguous queries and recovering performance for those that degrade over iterations. These agents are dynamically coordinated by an orchestration agent, which leverages intermediate feedback and reasoning outcomes to guide execution. We also introduce a novel communication mechanism that incorporates retrieval-performance memory and historical reasoning traces to improve coordination and decision-making. Experiments on three TRECVid benchmarks spanning eight years show that our framework achieves a twofold improvement over CLIP4Clip and significantly outperforms state-of-the-art methods by a large margin.

PDF Link:2602.19040v1