当前位置：首页 > news >正文

2025_NIPS_CHOICE: Benchmarking the Remote Sensing Capabilities of Large Vision-Language Models

news 2026/6/3 8:10:41

一、文章主要内容

本文提出了首个用于系统评估大型视觉语言模型（VLMs）遥感能力的基准测试集CHOICE，聚焦“感知”和“推理”两大核心维度，细化为6个二级维度和23个三级任务，涵盖10,507个高质量问题。数据源自全球50个城市的多源卫星影像，通过标签驱动、基础模型辅助、人类与GPT-4协作三种方式构建，全程避免公开数据集以杜绝数据泄露。基于CHOICE对24个主流VLMs（通用域、遥感专用、闭源/开源）的评估显示，通用域VLMs在部分任务上表现优于遥感专用模型，开源模型具备替代闭源模型的潜力，但所有模型在细粒度感知和复杂推理任务上仍有显著不足。

二、核心创新点

首个层级化遥感基准：首次将VLMs遥感能力拆解为“感知-推理”二级核心维度，进一步细化为23个针对性任务，覆盖图像级理解、目标识别、变化检测、常识推理等关键场景。
无数据泄露的高质量数据：所有10,507个问题均基于全新采集的全球卫星影像构建，排除公开数据集，通过多阶段人工质控确保准确性和客观性。
多模态与多格式适配：支持选择题、边界框坐标、分割掩码等多种输出格式，适配LLM-based和CLIP-based两类VLMs的评估需求。
全面的模型评估与洞察：首次系统评估24个主流VLMs，揭示了遥感专用模型的领域知识优势、通用域模型的泛化能力，以及所有模型在细粒度感知和推理上的核心瓶颈。