当前位置：首页 > news >正文

2025_NIPS_EgoExoBench: A Benchmark for First- and Third-person View Video Understanding in MLLMs

news 2026/3/27 3:18:15

文章核心总结

主要内容

该研究针对多模态大语言模型（MLLMs）在第一人称（自我中心视角）和第三人称（外部中心视角）视频跨视角推理能力的空白，提出了首个专门的基准测试集EgoExoBench。该基准包含7330个选择题，涵盖11个子任务，聚焦语义对齐、空间对应和时间推理三大核心挑战，基于6个公开配对视频数据集构建。通过对13个主流MLLMs的评估发现，现有模型在单视角任务中表现优异，但跨视角任务性能显著下降，与人类90.1%的准确率存在巨大差距，且链式思维（CoT）提示对跨视角推理帮助有限，而跨视角参考信息可提升部分任务表现。

创新点

首次构建跨视角视频理解基准，填补了MLLMs在第一、第三人称视频融合推理评估中的空白。
设计三层任务框架（语义匹配、视角转换、时间推理）和11个子任务，全面覆盖跨视角推理的核心维度。
结合标注衍生、LLM生成和人工标注三种方式构建高质量题库，并通过一致性验证和视觉依赖过滤确保可靠性。
系统评估主流MLLMs的跨视角能力，揭示现有模型在视觉-语言交织推理中的短板，为后续模型优化提供方向。

翻译部分（Markdown格式）

Abstract

人类智能的本质在于能够在第一人称（自我中心）和第三人称（外部中心）视角间迁移与整合知识，这使人能够从他人经验中学习，并将自身洞察传递给他人。尽管多模态大语言模

http://www.jsqmd.com/news/490775/

相关文章：

告别绘图软件！Paperxie AI 科研绘图：10 次免费额度，让理工科论文可视化一步到位

Tower I3C Host Adapter 使用范例 (20)

【C++】左值引用、右值引用

CS二开之睡眠混淆（五）BeaconGate,UDRL,Sleepmask组合拳

AI新范式 02｜拆解世界模型：它是如何理解物理规律的？

WebRTC QoS方法之NetEQ在流量卡弱网应用下失效

2025_NIPS_Scaling RL to Long Videos

【Dv3Admin】FastCRUD MD编辑器操作

open claw安装在windows wsl中教程

HDOJ 课程例题记录

第三方 API 调用 OpenClaw 出现 LLM request timed out 的解决方案

openclaw+qwen(笔记，非教程)

讲讲普通小轿车驾驶证报考流程及费用，西安哪家驾校好？ - mypinpai

UE5C++Part2--几种常见的变量类型

企业级RustDesk私有化部署：Docker Swarm集群方案与安全加固指南

（85页PPT）某著名企业贝因美IT规划咨询报告（附下载方式）

Simulink仿真漂移机理分析（二）：相图分析

R轻松玩转Excel数据

课程记录：Windows2

高德地图混合部署实战：离线瓦片与在线API的智能切换策略

西安国文驾校二轮摩托车考驾照口碑如何，值得推荐吗 - 工业品牌热点

探讨专业的精密锻造公司，三邑锻造在全国排名第几？ - 工业推荐榜

【一篇即毕业系列】C++的引用从基础到通天

仅剩72小时！生态环境部新发布的《污染预测模型R实现规范》（HJ 1308-2024）强制适配倒计时（含兼容性迁移速查表）

2026 本科生论文工具盘点：9 款 AI 工具搞定初稿 / 绘图 / 排版 / AI 率

leetcode 1389. Create Target Array in the Given Order 按既定顺序创建目标数组-耗时100

国内免费AI聊天网站大全：稳定直连与高效响应指南

从零开始了解数据采集——制造业数字孪生

2026年北京老人陪护企业怎么选择，北京吉至嘉家政是优选 - myqiye