当前位置: 首页 > news >正文

VSI bench介绍

文章标题:Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

单位:纽约大学

团队:李飞飞,Saining Xie

文章提出了一个新的任务,就是给定一段视频,需要MLLM对该视频进行空间推理

包括:空间中的物体的距离,物体的个数,物体的尺度大小等等

文章结论证明显示的文字思维链不能提升模型效果,而隐式的cognition map可以增强模型的空间尺度理解能力

Visual-Spatial Intelligence

Visual-Spatial Intelligence -> VSI,基于视觉的空间智能

空间推理包括两个部分:第一个是视角变换,第二个是空间关系推理

VSI bench

本文提出的VSI bench 包括了5000个问题对。包含288个真实室内场景(288条video)

数据集来源为Scannet,Scannet++和ARKitScenes

ARKitScenes 150 samples

ScanNet++ 50 samples

ScanNet 88 samples

数据集被划分为了3个不同的任务种类,包括了8种不同的任务

1,空间布局:包括相对方向,相对距离,物体计数,路径规划

2,空间测量:物体的大小,房间的大小,绝对距离

3,时空理解: 需要知道物体出现的相对顺序

8种问题的模板:

数据集视频的时间在1分钟到5分钟不等,但对于大部分方法实际上只会使用抽取其中的32帧

评估方式

在VSI bench数据集中,问题的回答只有两种:选择题或者数字填空题:Multiple-Choice Answer (MCA) or Numerical Answer (NA) format

对于数字的回答,使用Mean Relative Accuracy (MRA)

VSI bench还有一个tiny的版本

a subset of 400 questions (50 per task)

benchmark:

实验

作者让Gemini-1.5 Pro通过文字的方式输出cognitive maps,来判断模型的mental representation。但这只是让模型显式的输出这个cognitive map,其实模型在推理时应该是在内部具备这个建模能力的。(思考:是否可以先显式的训练这部分的建模能力,然后再变成隐式的推理?

实验证明通过prompt Gemini-1.5 Pro在回答问题之前先generate cognitive map可以提升模型的性能

然而,如下表所示,在7B的模型上加入了cognitive map反而会掉点

虽然论文说的是输入video,但实际上处理时还是截取的其中的32帧(或者其他数量的帧数)

对于某些任务,输入vision和不输入vision基本上没有区别,说明数据集存在一定的局限性

把问题放到视频的前面会掉点。

在问题后面再次加入一次video会涨点,这说明模型还是需要推理能力的,而不是把视频看完一遍就直接输出答案

This finding suggests that, despite its remarkable capabilities, a powerful MLLM like Gemini still has suboptimal reasoning processes for Video QA.

http://www.jsqmd.com/news/339009/

相关文章:

  • 2026年最新《守望先锋2》下载与安装全指南:完整流程、配置优化与常见问题解析
  • 什么是大模型,智能体...?大模型100问,快速全面了解!
  • 宏智树 AI 破解文献综述困局:从 “文献堆砌” 到 “学术脉络深耕”
  • 2026高性价比AI语文课程大盘点!收费亲民+提分高效,家长闭眼入 - 品牌测评鉴赏家
  • 2026年最新小绿鲸英文文献阅读器下载与安装使用详解
  • 知识扩展-高精度空转(HD、Xenium、CosMx)banksy数据增强的意义
  • AI 人工智能领域,Claude 的优势凸显
  • 不用去桌球厅,这款3D桌球比玩真的还带感
  • 智能垃圾桶:AI Agent的自动分类系统
  • 数字营销的未来已来:Agentic AI技术全景解析
  • GJ504b 的 React 进阶之路:Day 3
  • 漏洞挖掘从入门到进阶(第三期)Web漏洞挖掘实战|XSS跨站脚本漏洞原理与绕过技巧
  • 牛只行为识别研究:基于YOLO13与UniRepLKNetBlock的智能分类系统_1
  • Rust 程序适配 OpenHarmony 实践:以 sd 器具为例
  • 【网络安全】我的故事:从“门外汉”到“守门人”
  • YOLO26涨点改进 | 全网独家首发,卷积创新改进篇 | TGRS 2025 | 引入MRCB多尺度感受野上下文提取模块,多种改进适用于复杂背景、小目标密集的红外或遥感图像目标检测场景,助力高效涨点
  • 【十叉树的先序遍历】字典序的第K小数字
  • 漏洞挖掘从入门到进阶(第一期)漏洞挖掘入门|定义、分类与标准化挖掘流程(附合法靶场清单)
  • TFTP(简单文件传输协议)
  • Flutter for OpenHarmony 实战:华容道游戏完整开发指南
  • 快速定位系统:实现空间精准感知的技术底座
  • YOLO26涨点改进 | 全网独家、特征融合创新篇 | TGRS 2026 | 引入MFPM多频感知融合模块,通过频率感知的判别过滤器,使融合特征“干净、聚焦”,适合红外、遥感小目标检测,有效涨点改进
  • 【收藏必备】率失真理论+最优传输:构建高质量教育知识图谱提升AI出题质量
  • 嵌入式编码器(Embedded Coder)
  • 学习笔记——Linux内核与嵌入式开发3
  • DeepSeek-OCR 2.0技术深度解析:AI如何模拟人类视觉逻辑,收藏级大模型架构创新
  • 收藏备用|零基础转型AI大模型,程序员小白必看四阶段学习路线图!
  • 【南洋理工-文碧汉-arXiv26】RSGround-R1:通过空间推理重新思考遥感视觉定位
  • 硬件支持包下载地址
  • 学习笔记——Linux内核与嵌入式开发2