当前位置：首页 > news >正文

视频检索中的一致性挑战与CAST解决方案

news 2026/6/25 19:36:25

在当今视频内容创作从短视频向长视频叙事转变的背景下，如何从海量视频片段中检索出符合叙事逻辑的连贯序列成为关键挑战。传统视频检索系统主要依赖语义匹配，即根据文本查询找到视觉内容相关的片段。这种方法虽然能实现基本的"找相似"功能，但在构建连贯的长视频叙事时暴露出两个根本性缺陷：

身份不一致问题表现为连续片段中出现突兀的演员更换、场景跳变或风格差异。想象一下烹饪教程中，前一个镜头是主厨A在厨房A切菜，下一个镜头突然变成主厨B在厨房B翻炒——尽管两个动作本身都符合"翻炒蔬菜"的文本描述，但这种身份跳转会严重破坏观看体验。

状态不一致问题则更为隐蔽，它违反的是事件发展的因果逻辑。例如在"打蛋→搅拌→煎蛋"的流程中，检索系统可能返回一个已经煎好的蛋的画面来响应"搅拌蛋液"的指令，因为"煎蛋"和"搅拌"在语义上都与"蛋"相关。这种状态错位会导致叙事逻辑的断裂。

造成这些问题的根源在于传统检索系统的"上下文无关"设计范式。为了便于建立索引，现有方法通常将视频片段编码为独立的向量表示，在检索时仅考虑查询文本与候选片段的点对点相似度。这种设计本质上忽略了视频作为时间序列的内在关联性，就像只根据单词定义来评判小说情节是否连贯一样荒谬。

CAST(Context-Aware State Transition)的创新之处在于将视频检索重构为状态转换预测问题。其核心公式可表示为：

v̂_t = φ(v_{t-1} + Δ(v_{t-1}, q_t, H_t))

其中：

这个公式背后的直觉非常精妙：在流程性活动中，每个步骤通常只改变场景的部分属性。比如"切西红柿"主要改变西红柿的物理状态，而砧板、刀具和厨师等元素保持相对稳定。通过残差连接，CAST让模型只需专注于预测状态变化量Δ，而身份信息则通过v_{t-1}得以保留。

CAST通过两条互补路径计算状态转换量Δ：

指令条件路径将文本指令嵌入f_t(q_t)与当前状态v_{t-1}拼接，通过MLP预测基础转换量Δ_cond。这种设计确保动作语义与具体场景紧密结合——同样的"搅拌"指令，在面糊制备阶段和最后调味阶段应该产生不同的状态演变。

时序上下文路径则采用多头注意力机制，以指令为查询，历史片段序列为键值对，捕捉长程依赖关系。例如在烘焙视频中，"放入烤箱"这个动作的正确理解可能需要参考前面"预热烤箱"的步骤。该路径输出的Δ_ctx作为对基础转换量的情境化调整。

这种双路径设计既保留了针对当前指令的精确响应能力，又通过注意力机制赋予模型"叙事记忆"，使其能够理解复杂的工作流程。实验表明，相比简单的特征拼接方法，这种架构在CrossTask数据集上带来21.9%的准确率提升。

为了科学评估一致性检索能力，研究团队构建了专门的CVR(Consistent Video Retrieval)评测基准，包含三种精心设计的干扰样本：

状态干扰项：来自同一视频但时间位置错误的片段。例如在"打蛋→搅拌→煎蛋"序列中，用"煎蛋"片段作为"搅拌"查询的干扰项。这类样本保持身份一致但违反状态逻辑。
身份干扰项：来自不同视频但语义相似的片段。例如用其他厨师切西红柿的片段作为干扰。这类样本保持动作语义但破坏身份连续性。
简单干扰项：随机选取的低相关性片段，用于维持固定的候选池大小(1正例+9干扰)。

这种构造方式迫使模型必须同时理解语义、状态和身份信息，而不能仅靠关键词匹配。在YouCook2数据集上，传统CLIP模型在这种设定下的准确率仅为25.03%，说明常规检索方法难以应对一致性挑战。