当前位置：首页 > news >正文

【即插即用完整代码】AAAI 2026 “一看就懂，先扫后察”大模型让视频异常无处遁形！

news 2026/7/16 0:04:58

专栏内提供试读，感兴趣的小伙伴可以订阅一下哈！

适用于所有的CV二维任务：图像分割、超分辨率、目标检测、图像识别、低光增强、遥感检测等

每日分享最新的前沿技术，

助力快速发论文、模型涨点！

一、摘要

当前视频异常检测方法主要分为两类：传统深度神经网络方法侧重于异常事件的时间定位，而基于大语言模型的方法则强调异常事件的语义理解。然而，现有方法中没有一个能够同时支持这两种任务，也缺乏相应的数据集。为了解决这一问题，研究团队提出了VAGU，这是第一个将异常定位与异常理解联合起来的基准数据集。VAGU包含超过7500个真实世界视频，涵盖21大类异常事件，并提供超过20000个与异常相关的问答对。在此基础上，论文提出了一个名为“先扫视后细察”的无训练框架，通过文本提示引导模型先进行粗粒度的异常区域定位，再进行细粒度的异常理解和时间边界精修。此外，论文还提出了JeAUG评估指标，能够联合评估语义理解与时间定位的精度，克服了传统指标的局限性。大量实验验证了该基准、框架和评估指标的有效性。

二、引言

视频异常检测在工业自动化、智能监控和智能交通等领域的应用越来越广泛，已成为计算机视觉的重要研究方向。然而，现有方法存在明显的“能力割裂”现象：传统方法只能给出异常发生的时间，大语言模型方法则只能描述异常是什么，二者缺乏有效协同。论文指出，虽然一些视觉语言模型尝试同时实现定位与理解，但计算开销极大，难以满足实时性要求。为此，作者系统探讨了三个关键问题：为什么定位与理解缺一不可？为什么现有视觉问答和视频时序定位模型在异常检测中表现不佳？为什么要采用无训练框架？答案在于，异常检测需要“何时”与“什么”的协同，而现有模型缺乏开放场景下的异常定义标准，以及真实世界中异常数据获取困难、标注成本高。基于这些思考，作者重新定义了视频异常检测任务，并提出了VAGU基准和GtS框架。

三、创新点

本论文的主要创新点包括以下四个方面：第一，构建了VAGU数据集，这是首个将异常定位与异常理解结合的大规模视频异常检测基准，同时提供了客观的异常相关多项选择题。第二，提出了GtS无训练框架，通过动态与静态文本提示，在现有多模态大语言模型上构建异常定位与理解能力。第三，设计了JeAUG评估指标，能够联合量化语义准确性与定位精度，并引入视频时长加权因子，使得评估更加公平全面。第四，在VAGU上开展了大量实验，验证了基准、框架与评估指标的优越性。

四、实验

在实验部分，论文从多个维度对提出的VAGU基准、GtS框架和JeAUG指标进行了系统评估。首先，在VAGU数据集上，作者对比了多种主流视觉语言模型在异常理解与异常定位任务上的表现。实验结果显示，现有模型在异常视频的定位任务上普遍表现不佳，例如mPLUG-Owl的IoU仅为12.6%，TimeChat最高也仅为14.8%，这说明当前模型在异常事件的精确时间定位方面仍有很大提升空间。

其次，论文评估了GtS框架在不同模型上的提升效果。以Qwen-2.5-VL-7B模型为例，原始模型在异常理解任务中得分较低，而加入GtS框架后，得分从3.61提升至5.50。相比之下，简单地将视频均匀分段并增加采样帧数，得分仅提升至4.02，说明GtS的关键在于引导模型关注异常相关线索，而非单纯增加数据量。对于Video-R1等具备推理能力的模型，GtS同样显著改善了其在整段视频推理中的性能，避免了无关帧的干扰。

在异常定位任务中，GtS框架通过细粒度的语义理解作为上下文提示，显著提升了定位精度。实验表明，GtS在不同模型上均带来一致的定位性能提升，尤其在需要多段证据融合的因果异常行为中，表现更为突出。例如，在盗窃或纵火等需要多步骤完成的异常事件中，GtS能够有效整合不同片段的信息，实现更准确的时间边界定位。

在异常问答任务中，尽管当前模型在面对开放性问题时仍存在困难，但GtS仍然带来了超过10%的总体性能提升。论文还指出，当JeAUG评分低于3分时，模型往往无法正确理解或定位异常；而评分超过3分时，模型表现普遍较好，因此将3分作为可接受性能的下限。

此外，作者还对JeAUG指标本身进行了人类偏好对齐实验。十位标注者对同一异常事件的定位结果两两IoU最低约为0.7，因此设计了以0.7为满分的分段评分函数，并引入视频时长补偿因子，使得长视频中的异常定位评估更加合理。与传统指标如ROUGE、BLEU、METEOR相比，JeAUG在异常理解任务中的变异系数更低，说明其更具稳定性和公平性。

最后，论文还通过多个案例展示了GtS框架在实际视频中的推理过程。例如，在一个包含老人被虐待的视频中，GtS通过分段分析成功捕捉到推搡、打脸等异常行为，而直接使用VQA模型则输出完全错误或无关的描述。整体而言，实验充分证明了VAGU基准的有效性、GtS框架的优越性以及JeAUG指标的合理性。

五、结论

综上所述，本论文针对视频异常检测中“何时”与“什么”能力割裂的问题，提出了VAGU基准数据集、GtS无训练框架和JeAUG联合评估指标。VAGU是首个同时支持异常定位与异常理解的大规模数据集，GtS框架在无训练条件下显著提升了现有多模态模型的异常检测能力，JeAUG指标则实现了更公平、更全面的性能评估。大量实验验证了所提方法的有效性。