当前位置: 首页 > news >正文

2025_NIPS_EgoExoBench: A Benchmark for First- and Third-person View Video Understanding in MLLMs

文章核心总结

主要内容

该研究针对多模态大语言模型(MLLMs)在第一人称(自我中心视角)和第三人称(外部中心视角)视频跨视角推理能力的空白,提出了首个专门的基准测试集EgoExoBench。该基准包含7330个选择题,涵盖11个子任务,聚焦语义对齐、空间对应和时间推理三大核心挑战,基于6个公开配对视频数据集构建。通过对13个主流MLLMs的评估发现,现有模型在单视角任务中表现优异,但跨视角任务性能显著下降,与人类90.1%的准确率存在巨大差距,且链式思维(CoT)提示对跨视角推理帮助有限,而跨视角参考信息可提升部分任务表现。

创新点
  1. 首次构建跨视角视频理解基准,填补了MLLMs在第一、第三人称视频融合推理评估中的空白。
  2. 设计三层任务框架(语义匹配、视角转换、时间推理)和11个子任务,全面覆盖跨视角推理的核心维度。
  3. 结合标注衍生、LLM生成和人工标注三种方式构建高质量题库,并通过一致性验证和视觉依赖过滤确保可靠性。
  4. 系统评估主流MLLMs的跨视角能力,揭示现有模型在视觉-语言交织推理中的短板,为后续模型优化提供方向。

翻译部分(Markdown格式)

Abstract

人类智能的本质在于能够在第一人称(自我中心)和第三人称(外部中心)视角间迁移与整合知识,这使人能够从他人经验中学习,并将自身洞察传递给他人。尽管多模态大语言模

http://www.jsqmd.com/news/490775/

相关文章:

  • 告别绘图软件!Paperxie AI 科研绘图:10 次免费额度,让理工科论文可视化一步到位
  • Tower I3C Host Adapter 使用范例 (20)
  • 【C++】左值引用、右值引用
  • CS二开之睡眠混淆(五)BeaconGate,UDRL,Sleepmask组合拳
  • AI新范式 02|拆解世界模型:它是如何理解物理规律的?
  • WebRTC QoS方法之NetEQ在流量卡弱网应用下失效
  • Java基础-1
  • 2025_NIPS_Scaling RL to Long Videos
  • 【Dv3Admin】FastCRUD MD编辑器操作
  • open claw安装在windows wsl中教程
  • HDOJ 课程例题记录
  • 第三方 API 调用 OpenClaw 出现 LLM request timed out 的解决方案
  • openclaw+qwen(笔记,非教程)
  • 讲讲普通小轿车驾驶证报考流程及费用,西安哪家驾校好? - mypinpai
  • UE5C++Part2--几种常见的变量类型
  • 企业级RustDesk私有化部署:Docker Swarm集群方案与安全加固指南
  • (85页PPT)某著名企业贝因美IT规划咨询报告(附下载方式)
  • Simulink仿真漂移机理分析(二):相图分析
  • R轻松玩转Excel数据
  • 课程记录:Windows2
  • 高德地图混合部署实战:离线瓦片与在线API的智能切换策略
  • 西安国文驾校二轮摩托车考驾照口碑如何,值得推荐吗 - 工业品牌热点
  • 探讨专业的精密锻造公司,三邑锻造在全国排名第几? - 工业推荐榜
  • 【一篇即毕业系列】C++的引用从基础到通天
  • 仅剩72小时!生态环境部新发布的《污染预测模型R实现规范》(HJ 1308-2024)强制适配倒计时(含兼容性迁移速查表)
  • 2026 本科生论文工具盘点:9 款 AI 工具搞定初稿 / 绘图 / 排版 / AI 率
  • leetcode 1389. Create Target Array in the Given Order 按既定顺序创建目标数组-耗时100
  • 国内免费AI聊天网站大全:稳定直连与高效响应指南
  • 从零开始了解数据采集——制造业数字孪生
  • 2026年北京老人陪护企业怎么选择,北京吉至嘉家政是优选 - myqiye