当前位置: 首页 > news >正文

【复旦-AAAI26】Segment Anything Across Shots


文章:Segment Anything Across Shots: A Method and Benchmark

代码:https://henghuiding.com/SAAS/

单位:复旦大学


引言

在视频编辑、自动驾驶、人机交互等场景中,“视频目标分割”技术一直扮演着关键角色——给定视频第一帧的目标掩码,AI需要全程精准追踪并分割该目标。但现实中我们接触的视频大多是多镜头剪辑而成(比如电影切镜、vlog换场景),传统方法在镜头切换时往往“认不出”目标,性能大幅下滑,成为学术研究与实际应用之间的一道鸿沟。

一、问题背景:多镜头分割的核心痛点

传统视频目标分割(VOS)方法主要针对单镜头视频优化,而真实世界的多镜头视频(MVOS)存在三大挑战:

  1. 镜头切换断层:不同镜头中目标的外观、位置、背景可能发生剧烈变化,现有模型(如SAM2、XMem)性能会暴跌,SAM2-B+在多镜头场景下的J&F值甚至下降21.4%;

  2. 训练数据稀缺:多镜头视频的标注成本极高,目前仅有YouMVOS一个相关数据集,且存在标注未开源、镜头切换少、目标类别单一(以人类为主)等问题;

  3. 评估基准不足:缺乏能反映真实多镜头复杂度的测试数据集,无法公平衡量模型的跨镜头分割能力。

这些问题导致现有技术难以应用于视频编辑、多摄像头监控等实际场景,亟需针对性的解决方案。

二、方法创新:三大核心突破,搞定多镜头分割

为解决上述痛点,复旦团队提出“数据增强+专用模型+全新基准”的三位一体方案,核心创新包括:

1. 过渡模拟数据增强(TMA):单镜头数据也能练出多镜头能力

针对多镜头标注数据稀缺的问题,TMA策略通过在单镜头视频上模拟多种镜头切换效果,生成高质量的多镜头训练样本:

  • 支持四种核心过渡模式:包括画面翻转/缩放(模拟远景-特写切换)、同视频不同片段拼接(模拟时间跨度带来的姿态变化)、跨视频切回(模拟切走再切回场景)、目标复制平移(模拟延迟切入);

  • 无需依赖真实多镜头标注,仅用现有单镜头数据集就能让模型学习跨镜头适应能力,大幅缓解数据稀疏问题。

2. SAAS模型:精准识别+理解镜头切换

基于SAM2框架,团队设计了首个专门针对多镜头视频的半监督分割模型——Segment Anything Across Shots(SAAS),核心模块包括:

  • 过渡检测模块(TDM):用轻量级卷积金字塔实时判断当前是否发生镜头切换,引导模型启用不同分割策略;

  • 过渡理解模块(TCH):结合场景记忆库和相邻帧特征,解析切换类型并优化目标特征,搭配目标存在预测、边界框回归两个辅助目标提升准确性;

  • 局部记忆库(B_local):存储目标细粒度特征(如衣服花纹、物体标记),即使镜头切换也能通过细节精准识别目标。

3. Cut-VOS基准:首个开源的多镜头分割测试集

为公平评估模型性能,团队构建了全新的多镜头视频分割基准Cut-VOS:

  • 包含100个视频、174个目标、10.2K高质量掩码,覆盖11类目标(是YouMVOS的3倍);

  • 镜头切换频率达0.346次/秒(是YouMVOS的1.6倍),手动筛选9种复杂过渡类型(如延迟切入、场景突变、特写切换);

  • 完全开源标注,成为首个支持多镜头分割研究的完整基准。

三、实验结果:性能全面刷新SOTA

在YouMVOS和Cut-VOS两大基准上的测试显示,SAAS模型表现亮眼:

  1. 核心指标领先:SAAS-B+在YouMVOS上的J&F值达73.5%、跨镜头Jt值达68.9%,分别超越SAM2-B+ 5.9%和5.2%;在更复杂的Cut-VOS上,J&F值达60.7%、Jt值达53.1%,大幅领先现有方法;

  2. 模块有效性验证:消融实验表明,TMA策略、局部记忆库、过渡理解模块分别能提升2.8%、2.4%、4.9%的J&F值,三者结合效果最优;

  3. 泛化能力出色:在传统单镜头数据集(如DAVIS2017、YoutubeVOS)上,SAAS性能与SAM2相当,不会因多镜头优化而“偏科”。

四、优势与局限

核心优势

  1. 实用性强:首次实现多镜头场景下的高精度分割,填补了实际应用缺口,可直接用于视频编辑、自动驾驶多摄像头融合等场景;

  2. 成本可控:TMA策略降低了对多镜头标注数据的依赖,无需额外大规模标注就能训练;

  3. 生态完善:开源的Cut-VOS基准为后续研究提供了统一的评估标准,推动多镜头分割领域发展。

现存局限

  1. 面对目标极端外观变化(如同一人更换衣服、发型)时,仍难以精准匹配,因为TMA无法有效模拟此类场景;

  2. 对完全未见过的目标局部区域(如极端特写镜头),分割精度有待提升,需要更强的推理能力而非单纯依赖视觉特征匹配。

五、一句话总结

复旦团队通过TMA数据增强、SAAS专用模型和Cut-VOS基准,首次系统性解决了多镜头视频目标分割的核心难题,让AI在镜头切换时也能精准追踪目标,为视频智能编辑、多摄像头监控等实际应用提供了强有力的技术支撑。

http://www.jsqmd.com/news/74848/

相关文章:

  • D2DX终极指南:让《暗黑破坏神II》在现代PC上焕发新生
  • Wan2.2-T2V-A14B模型的性能压测与瓶颈定位方法论
  • Beyond Compare授权完全指南:从评估版到专业版的轻松升级
  • 3分钟搞定Windows HEIC缩略图:告别模糊图标的完美方案
  • n8n第九节 使用LangChain与Gemini构建带对话记忆的AI助手
  • LaTeX PowerPoint插件终极指南:让数学公式在演示文稿中完美呈现
  • 5分钟学会Beyond Compare密钥生成:简单快速激活终极指南
  • 猫抓浏览器扩展终极指南:网页媒体资源智能捕获利器
  • OpenVINO AI插件:Audacity智能音频处理完全指南
  • Wan2.2-T2V-A14B模型输出色彩空间管理的最佳实践
  • 腾讯混元3D世界模型再突破:HunyuanWorld-Voyager开启超长漫游新纪元
  • 3分钟极速掌握Godot游戏资源提取:PCK文件处理指南
  • 微信网页版访问限制的3种突破方法,你试过几种?
  • 企业数字化转型和数据驱动方法论(附下载)
  • Windows 11 LTSC系统微软商店一键安装终极指南
  • “Java面试必看!如何快速定位CPU消耗最大的线程?”
  • 37、计算机中的熵与算法复杂度解析
  • Wan2.2-T2V-A14B生成抽象艺术类视频的审美接受度调查
  • 环形数组的最大子数组和:Kadane 算法的巧妙扩展
  • 基于springboot的二手车交易系统的设计与实现毕业论文+PPT(附源代码+演示视频)
  • DXVK:连接Direct3D和Vulkan的终极跨平台方案
  • 如何实现高效的3D资产迁移:Daz转Blender完整指南
  • NTP时间同步服务技术解析:底层原理、配置与搭建指南
  • Wan2.2-T2V-A14B在轨道交通线路介绍视频中的站点衔接流畅性
  • OpenAI GPT-OSS-20B:Apache 2.0协议下的企业级大模型新标杆
  • 2025年12月换热器品牌用户推荐 - 2025年11月品牌推荐榜
  • 音乐文件解密全攻略:Unlock Music让加密音频重获自由
  • 2025年下半年江苏徐州热风炉品牌选购指南:五大优质供应商推荐 - 2025年11月品牌推荐榜
  • Wan2.2-T2V-A14B在海洋生态保护宣传视频中的生态系统完整性展现
  • 2025年下半年江苏徐州热风炉品牌推荐top5榜单分析 - 2025年11月品牌推荐榜