当前位置: 首页 > news >正文

2025_NIPS_CHOICE: Benchmarking the Remote Sensing Capabilities of Large Vision-Language Models

一、文章主要内容

本文提出了首个用于系统评估大型视觉语言模型(VLMs)遥感能力的基准测试集CHOICE,聚焦“感知”和“推理”两大核心维度,细化为6个二级维度和23个三级任务,涵盖10,507个高质量问题。数据源自全球50个城市的多源卫星影像,通过标签驱动、基础模型辅助、人类与GPT-4协作三种方式构建,全程避免公开数据集以杜绝数据泄露。基于CHOICE对24个主流VLMs(通用域、遥感专用、闭源/开源)的评估显示,通用域VLMs在部分任务上表现优于遥感专用模型,开源模型具备替代闭源模型的潜力,但所有模型在细粒度感知和复杂推理任务上仍有显著不足。

二、核心创新点

  1. 首个层级化遥感基准:首次将VLMs遥感能力拆解为“感知-推理”二级核心维度,进一步细化为23个针对性任务,覆盖图像级理解、目标识别、变化检测、常识推理等关键场景。
  2. 无数据泄露的高质量数据:所有10,507个问题均基于全新采集的全球卫星影像构建,排除公开数据集,通过多阶段人工质控确保准确性和客观性。
  3. 多模态与多格式适配:支持选择题、边界框坐标、分割掩码等多种输出格式,适配LLM-based和CLIP-based两类VLMs的评估需求。
  4. 全面的模型评估与洞察:首次系统评估24个主流VLMs,揭示了遥感专用模型的领域知识优势、通用域模型的泛化能力,以及所有模型在细粒度感知和推理上的核心瓶颈。

三、关键部

http://www.jsqmd.com/news/633061/

相关文章:

  • StructBERT-中文-large镜像免配置部署:开箱即用的语义匹配方案
  • HunyuanVideo-Foley惊艳效果:沙漠风声+驼队行走视频同步生成作品
  • LongCat-Image-Editn从零部署:谷歌浏览器访问7860端口完整步骤详解
  • cartreader与KiCad:开源硬件设计工具在项目中的应用
  • 面试官: 高并发系统概念解析(答案深度解析)持续更新
  • Cosmos-Reason1-7B辅助C语言学习:代码解释与简单算法实现
  • Phi-4-mini-reasoning在医疗诊断逻辑树的应用:症状推理系统
  • 3步解锁《艾尔登法环》帧率限制:从60帧到144+的视觉革命
  • Pixel Mind Decoder 生成技术文档:基于代码注释的情绪可读性分析
  • Qwen-Image-Edit-2511新手入门:ComfyUI环境快速搭建,轻松实现图片智能编辑
  • 软件体验优化化的流程改进与界面设计
  • Java八股文实践篇:多线程并发调用Qwen3-ASR-0.6B API
  • 面试官: 高并发与多线程区别解析(答案深度解析)持续更新
  • 成本优化:TVA推动智能工厂降本增效的核心路径
  • Kandinsky-5.0-I2V-Lite-5s驱动动态数据可视化:算法结果的可视化视频生成
  • WarcraftHelper:为经典魔兽争霸III打造现代系统优化体验
  • Java的java.lang.StackWalker栈
  • 从‘头歌’实训出发:手把手教你用XPath和BeautifulSoup解析复杂网页数据(附避坑指南)
  • postgresql15 postgresql.cof-shared_buffers
  • 基于51单片机停车场设计
  • Nano-Banana应用案例:快速为网课制作高质量产品结构示意图
  • 魔兽争霸3终极优化指南:5步彻底解决卡顿与兼容性问题
  • 电路设计讲解(持续更新ing)
  • 最新 AGV 控制论文解析:Pure Pursuit 还能这样改?这篇 2026 论文把“切弯”问题讲透
  • MySQL 查询优化中索引的真正作用
  • 基于RexUniNLU的智能问答系统性能优化全记录
  • “龙虾热”能持续多久?
  • 如何用Next AI Draw.io实现零代码创建专业流程图?3分钟上手教程
  • 语音转文字太乱?BERT文本分割帮你自动整理段落
  • Phi-4-mini-reasoning在操作系统概念教学中的惊艳效果