当前位置：首页 > news >正文

【Vid-Agent】长视频理解VideoTemp-o3框架

news 2026/6/29 23:26:20

note

论文核心：让视频大模型学会“先找关键时间段，再放大看这段视频，最后回答问题”的长视频 Agent 模型。它不是简单均匀抽帧看完整视频（以往这样如果漏抽对应帧就会遗漏信息），而是走localize → clip → answer流程：
- localize：temporal grounding，定位视频时间范围
- crop：从原视频里截取这个时间段的视频 clip，并更密集抽帧给模型看。注意这里不是对视频帧进行图片裁剪。
- QA
这篇论文提出了一种统一的主动思维视频框架VideoTemp-o3，通过按需视频裁剪和迭代细化实现了长视频理解。该方法在多个长视频问答和定位基准上取得了最先进的性能，并通过高质量的数据集和专门的训练设计显著提高了模型的内部定位能力。未来的工作可以结合更广泛的外部工具，如搜索引擎和时空定位操作，以应对复杂和最新的任务。

文章目录

note
一、研究背景
二、VideoTemp-o3框架
- 1、冷启动SFT
- 2、RL训练
- 3、数据构建
- 4、真正使用推理时
三、实验设计
四、结果分析
五、论文评价
- 1、优点与创新
- 2、不足与反思
Reference

一、研究背景

论文：VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos
论文地址：https://www.arxiv.org/abs/2602.07801
项目主页：https://liuwq-bit.github.io/VideoTemp-o3

研究问题：这篇文章要解决的问题是长视频理解中的关键视觉证据捕捉不足，导致性能下降和幻觉增加的问题。现有的主动思维视频范式虽然取得了一定的进展，但仍存在工作流程复杂、定位不精确和刚性流程等问题。
研究难点：该问题的研究难点包括：如何有效地进行视频定位和问题回答，如何在不增加计算成本的情况下捕捉关键视觉证据，以及如何避免奖励黑客行为。
相关工作：该问题的研究相关工作包括：传统的均匀帧采样方法、多代理框架、混合训练方法（如VideoExplorer、VITAL、REVISOR和LongVT）等。

二、VideoTemp-o3框架

这篇论文提出了VideoTemp-o3，一种统一的主动思维视频框架，用于联合建模视频定位和问题回答。

figure1：用户问视频里某张地图上有多少艘船。模型第一轮先定位到一个片段 [215, 224]，发现不够准确；然后再重新定位到 [312, 325]，最后基于这个片段数船并回答 C / 11。

和普通vid-llm对的区别：

普通 Video-LLM	VideoTemp-o3
均匀抽帧	按问题主动找关键片段
一次性回答	可以多轮定位、裁剪、修正
视频理解和时间定位分开	一个模型同时做 grounding + QA
容易漏掉长视频关键证据	尽量聚焦关键时间段
工具调用弱	支持 on-demand video clipping

1、冷启动SFT

1、冷启动监督微调（SFT）：首先，通过冷启动SFT策略激励思维视频行为，使模型学会按需裁剪视频并生成基于关键视觉证据的最终答案。该策略具有以下三个特点：

按需裁剪：对于短视频，模型可以直接回答问题而无需裁剪。
反思机制：对于具有挑战性的长视频，模型可以进行多次细化轮次。
统一的时间定位和视频问答：模型同时支持视频问答和时间定位，增强了内在的定位能力。

这里的训练数据包括：

直接回答数据； 一次裁剪工具调用数据； 多次裁剪 refine 数据； temporal grounding 数据； VideoQA 数据。

unified masking strategy：多轮轨迹里早期定位可能是错的，所以 SFT 不监督所有中间错误步骤，只监督最后两轮“正确定位 + 正确回答”，避免错误轨迹污染训练。

2、RL训练

2、强化学习（RL）：在RL阶段，设计了专门的奖励系统来显著提高定位精度和片段定位答案的准确性，同时有效缓解奖励黑客行为。奖励系统包括三个奖励：

准确性奖励：衡量答案的正确性。
格式奖励：鼓励模型在整个多轮对话中遵循所需的格式。
惩罚感知IoU奖励：用于衡量时间戳定位的质量。为了避免奖励黑客行为，当IoU低于阈值时，应用惩罚项。

关键：Penalty-aware IoU Reward。如果只用 IoU 奖励，模型可能为了刷奖励乱裁剪、频繁调用工具。论文加了 penalty，惩罚低质量定位，减少 reward hacking

3、数据构建

VideoTemp-o3在数据集构建方面有哪些创新之处？

单轮数据集：通过拒绝采样策略确保可靠的推理链。具体来说，利用Qwen3-VL-235B-A22B-Thinking生成推理轨迹和最终答案，只保留预测答案与真实答案匹配的样本。
多轮数据集：通过迭代识别、裁剪和验证相关视频片段来模拟真实的工具辅助定位行为。设计了一个专门的验证阶段，评估选定的视频片段是否提供了足够的证据来支持连贯的思维视频推理链。
数据平衡：在训练过程中从三个维度进行数据平衡：模态平衡、任务平衡和视频长度平衡，以确保模型在不同场景下的泛化能力。

这些创新之处使得VideoTemp-o3能够构建高质量的多轮轨迹和大规模的长视频GQA数据集，从而提高模型的定位和问答能力。

数据分布：

4、真正使用推理时

localize-crop-answer：模型先低采样浏览视频，然后在每轮交互中生成 reasoning，并选择输出一个时间区间 P 或最终答案 A；如果输出 P，外部 cropping 模块会从原视频裁剪对应片段并高采样，再把 clip 加回上下文进入下一轮

场景	实际流程
短视频 / 简单问题	直接回答，不 crop
一般长视频问题	先 grounding 一个区间，再基于 clip 回答
难长视频问题	grounding → crop → 发现不准 → re-grounding → crop → answer

三、实验设计

1、数据集构建管道：设计了一个高质量的单轮和多轮数据集，涵盖了从基本推理到工具调用的各种任务分布和数据源。单轮数据集通过拒绝采样策略确保可靠的推理链，多轮数据集则通过迭代识别、裁剪和验证相关视频片段来模拟真实的工具辅助定位行为。

2、训练数据：SFT数据集包括单轮和多轮轨迹，覆盖定位和问答任务，视频时长多样。RL数据集结合了两种数据类型，确保可靠的任务覆盖和奖励信号。

3、视频Temp-Bench：引入了一个基准测试，将视频分为四个时长类别（0~3分钟、3~10分钟、10~20分钟和>20分钟），每个类别300个样本，总共1200个样本，用于评估模型在不同视频时长下的GQA性能。

四、结果分析

1、长视频理解：VideoTemp-o3在几乎所有长视频理解基准上取得了最先进的性能。例如，在VideoMME和LVBench上分别提高了2.4%和1.7%，表明其在长视频中的强多模态理解能力。

2、时间定位：VideoTemp-o3在时间定位方面也表现出色，甚至与专家定位模型（如TimeMaker）相当，表明可靠的定位是其实施思维视频的前提。

3、视频GQA：VideoTemp-o3在NextGQA和ReXTime上均取得了顶级性能，mIoU和答案准确性显著提高，表明改进的定位对更强的视频理解有贡献。

4、消融研究：消融研究表明，SFT训练中的定位数据和统一掩码策略对性能有显著提升，去除IoU奖励会导致性能下降。

五、论文评价

1、优点与创新

统一的代理视频框架：提出了VideoTemp-o3，一个统一的代理视频框架，结合了视频问答和时间定位任务。
按需视频裁剪：支持按需视频裁剪和迭代细化，直到收集到足够的证据来生成可靠的答案。
冷启动监督微调策略：开发了冷启动监督微调策略和定制的强化学习奖励，以增强模型的内部定位性能。
高质量数据集构建：引入了一个高质量的管道来构建大规模的长视频有问有答（GQA）数据集，确保裁剪片段与答案之间紧密对齐。
VideoTemp-Bench基准测试：引入了VideoTemp-Bench基准测试，用于评估不同视频时长下的GQA性能，并进行了深入分析。
多轮对话的统一掩码策略：在监督微调阶段，采用统一掩码策略，鼓励探索同时保留可靠的学习信号。
定制化奖励设计：设计了专门的奖励系统，包括准确性奖励、格式奖励和惩罚感知的IoU奖励，以显著改善定位精度和片段有问有答的准确性。

2、不足与反思

长视频的初始扫描稀疏性：对于非常长的视频，初始扫描仍然稀疏，可能错过关键证据，特别是在极短的事件中。
顺序推理的开销：定位-裁剪-回答过程引入了顺序推理的开销，数据构建管道仍然受益于强大的教师模型和经过验证的时间注释，这可能增加构建成本。
统一掩码策略的假设：统一掩码策略假设后续验证的回合比早期的探索回合更可靠；如果未来的数据构建可以为每个回合提供准确的监督，这种启发式方法可能需要调整。
未来工作：可以结合更广泛的外部工具，如搜索引擎和时空定位操作，使模型能够处理复杂和最新的任务。