当前位置: 首页 > news >正文

运动引导掩码提升视频表征学习

近日,在某机构举办的国际计算机视觉大会上,其研究团队提出了一种创新的运动引导掩码算法,用于改进视频数据的掩码建模。该算法利用视频编码中已有的运动矢量信息,高效地追踪感兴趣区域在连续帧间的运动,从而生成更具语义一致性的掩码,迫使模型学习更鲁棒的视频表征。实验证明,该方法仅需之前最佳模型三分之一的数据量即可达到同等性能,并在多个下游任务中取得了高达5%的相对性能提升。

语义表征的挑战

近期的基础模型通过学习重建随机掩码的文本或图像取得了巨大成功,能够从无标注数据中学习强大的表征。然而,直接将此方法应用于视频数据并非易事。如果掩码是随机的,模型可能简单地通过参考相邻帧来填补空缺。另一方面,如果在连续帧中对固定区域进行掩码,由于相机运动,模型可能学会重建背景而非运动的人物或物体。这些“捷径”会降低学习到的表征质量,从而影响下游任务的表现。

运动引导掩码

视频序列中最有意义的元素通常是人物和物体。一个不能随时间跟踪这些语义单元的掩码可能会忽略有用信息,并导致学习到的表征包含更多噪声。因此,该工作的目标是产生一个能够随时间跟踪这些语义单元的“运动引导”掩码。

一种直观的方法是每帧运行目标检测器,随机选择一个目标,并在每帧中掩码其边界框。但这种方法计算成本极高。

幸运的是,现代视频压缩方案已经包含了可用于估计帧间运动的信息。该方法直接利用这些信息,显著降低了计算负担。

利用运动矢量

数字视频通常以每秒24到30帧的速度播放。现代视频编解码器利用视频内容通常逐帧渐变的特点进行压缩。编码后的视频由内编码帧、运动矢量(定义像素块在帧间的移动)和残差数据组成。由于运动矢量通常分配给8x8或16x16像素的块,其稀疏性使得编码视频文件的存储效率远高于完全解码的RGB帧。

该研究利用了现代视频编解码器的这一设计来获取高效的运动信息。运动矢量以二维方式编码像素块的偏移量。研究团队分析了流行的互联网视频数据集中前景和背景的平均运动,发现前景的运动通常更高。

因此,该算法使用运动矢量作为确定感兴趣掩码区域的代理。运动引导掩码算法会在每帧中运动最高的区域周围掩码一个矩形区域,并让模型重建这个被掩码的三维视频块。

实验与结果

在实验中,研究团队将运动引导掩码与六种先前的视频掩码方法进行了比较。所有先前的方法都使用随机掩码,这些掩码不具备时空连续性。消融研究也测试了其他具有不同时空连续性和运动引导程度的掩码方案,以探究运动引导对提升视频表征学习的作用。

结果表明,运动引导掩码在两个不同的数据集上均优于所有先前的视频掩码方案。它仅需之前最佳方法三分之一的数据量就能达到其性能水平。

随后,团队将使用该方法生成的表征与其他随机掩码基线方法在其他三个任务上进行了比较,获得了高达5%的相对性能提升。这表明运动引导掩码在捕捉视频内容的语义信息方面优于其他视频掩码技术。

总之,该研究提出的运动引导掩码算法是一种运动感知的掩码算法,它利用了流行视频格式中已有的高效运动信息来指导掩码生成,从而有效提升了视频表征学习的效果。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

http://www.jsqmd.com/news/442906/

相关文章:

  • 2026最新AI优化推荐!山东优质AI优化服务商权威榜单发布 - 十大品牌榜
  • AtCoder Weekday Contest 0012 Beta题解(AWC 0012 Beta A-E)
  • 2026年资深的金融证券律师排名,哪家口碑比较靠谱 - 工业品网
  • 写作压力小了!千笔写作工具,冠绝行业的AI论文写作软件
  • 医疗设备互联中的电磁干扰屏蔽设计
  • 20天 | 终于拿到阿里云ACP大模型证书了~
  • 3月实测!帮你找到市面上口碑好的岩棉板厂家公司,保温结构一体板/保温装饰一体板/岩棉板,岩棉板厂商推荐 - 品牌推荐师
  • Bootloader安全架构设计
  • 瓷砖实力强的厂家有哪些 北京地区性价比高且口碑好的品牌推荐 - mypinpai
  • 嵌入式C语言的增强机制
  • 新电脑需要下些什么软件?
  • 【开题答辩全过程】以 平价药店销售与管理系统为例,包含答辩的问题和答案
  • 2026年高性价比A3理光3300瓷像打印机品牌大盘点 - 工业品牌热点
  • 【开题答辩全过程】以 高校宿舍管理系统为例,包含答辩的问题和答案
  • 想转行做AI大模型算法工程师需要搞定哪些知识呢?
  • bcftools 对vcf文件的名称进行批量重命名
  • 普通人入职AI行业指南:半路转行,真的比科班差吗?
  • MySQL单表真能存21亿条数据吗?会有严重的性能问题吗?
  • 2026最新有赞小程序/GEO搜索优化/GEO优化/外呼/AI优化推荐:全域数字化赋能,这家实力突出 - 十大品牌榜
  • 想转行AI产品经理,90%的人第一步就走错了
  • 国家金融监督管理总局(金管局)国考计算机类专业科目:全知识点深度解析与备考指南
  • 2026年全国彩车彩船主题定制品牌推荐,靠谱的正规供应商有哪些 - myqiye
  • 2026年市面上口碑好的粒子钢压块成型液压机生产线厂家推荐榜单,粒子钢冷压成型/金属屑压块成型/液压金属打包/自动化生产线集成,粒子钢压块成型液压机制造企业怎么选 - 品牌推广师
  • (简洁版)国家金融监督管理总局(金管局)国考计算机类专业科目终极通关宝典(全考点覆盖+真题精析+备考策略)
  • 武商一卡通回收指南:快速、可靠的兑换流程揭秘 - 团团收购物卡回收
  • PCB顺序层压法哪个好?猎板AI精准掌控翘曲度
  • 2026最新GEO搜索优化推荐!山东青岛优质服务商权威榜单发布 - 十大品牌榜
  • 做海外人力资源服务的公司有哪些?澳洲名义雇主EOR服务商推荐 - 品牌2026
  • 闲置京东 E 卡怎么变现?手把手教你安全高效的变现方法 - 团团收购物卡回收
  • 2026最新有赞小程序推荐!山东优质服务商权威榜单发布 - 十大品牌榜