当前位置：首页 > news >正文

2026 arXiv | HM-Bench：高光谱遥感领域多模态大模型综合基准测试

news 2026/4/27 9:33:26

文章目录

1.论文信息
2.论文主要贡献
3.论文创新点
4.研究方法
- 4.1 数据收集
- 4.2 任务分类与数据集分布
- 4.3 基准构建
5.实验分析
- 5.1 输入模态
- 5.2 评估模型
- 5.3 评估策略与指标
- 5.4 实验结果
- 5.5 额外模型性能
6.个人声明

1.论文信息

论文题目
HM-Bench: A Comprehensive Benchmark for Multimodal Large Language Models in Hyperspectral Remote Sensing
论文作者
Xinyu Zhang, Zurong Mai, Qingmei Li, Zjin Liao, Yibin Wen, Yuhang Chen, Xiaoya Fan, Chan Tsz Ho, Bi Tianyuan, Haoyuan Liang, Ruifeng Su, Zihao Qian, Juepeng Zheng, Jianxi Huang, Yutong Lu, Haohuan Fu
发表单位
中山大学、清华大学深圳国际研究生院、中国农业大学、西南交通大学、西南大学、国家超级计算深圳中心
2026 arXiv

2.论文主要贡献

提出首个高光谱遥感多模态大模型评测基准（HM-Bench）
构建了全球第一个专门面向高光谱图像（HSI）理解的多模态大模型评测基准，填补了现有遥感多模态基准无法处理高光谱数据的空白。
覆盖20 个公开高光谱数据集，涵盖农业、城市、自然、火星地貌等多场景；
包含13 类任务、6 个任务维度（感知 + 推理），共 2178 个独立样本块、19337 条问答对，全面评估模型的光谱 - 空间理解能力。
保留了完整的光谱指纹信息，与传统通过降维将高光谱图像数据简化为RGB图像的做法不同
图1：HM-Bench 相较于先前基准的优势概览，以及高光谱领域多模态大语言模型（MLLMs）的评估范式

现有基准的局限性：仅支持RGB/可见光谱，缺乏光谱推理能力，无针对高光谱图像能力的基准测试
现有多模态大语言模型：基于自然图像训练，无法直接处理原始高光谱立方体，高光谱图像理解仍未得到充分探索

高光谱立方体：三维数据张量（二维空间+一维光谱维度）H,W,B(光谱波段数）
HM-Bench 高光谱立方体->两种适合MLLM的格式：结构化文本报告+主成分分析(PCA)分量合成图像
三个能力：光谱感知、空间-光谱推理、输入模态对比

提出双模态统一评测框架，解决高光谱数据输入难题
针对多模态大模型无法直接处理原始高光谱立方体的问题，设计了标准化转换流水线：
将原始高光谱数据转为两种互补模态：PCA 降维合成图像（视觉模态）和结构化文本报告（文本模态）；
完成大规模实证评测，揭示当前模型的瓶颈与未来方向
在 HM-Bench 上系统评测了 18 个主流多模态模型（4 个闭源 + 14 个开源，含遥感专用模型），得出关键结论：
当前模型在高光谱任务上整体准确率偏低（最高约 43%），光谱推理、变化检测等复杂任务是主要瓶颈；
验证了图像模态输入普遍优于文本模态输入

3.论文创新点

提出了首个面向高光谱遥感场景的多模态大模型专用评测范式
突破了现有遥感多模态基准仅支持 RGB 数据的局限，构建了一套针对高光谱数据特性的标准化评测体系
设计了高光谱数据的双模态对齐与转换机制
解决了多模态大模型无法直接处理高维高光谱立方体的技术瓶颈，通过视觉降维合成与结构化文本建模，建立了高光谱数据向大模型可接受格式的标准化转换路径
揭示了多模态大模型在高光谱场景下的能力边界与优化方向
通过大规模实证评测，量化分析了不同模型、不同模态输入在高光谱任务上的性能差异与瓶颈

4.研究方法

图3：HM-Bench的分层任务分类法，展示了13项不同的高光谱成像遥感任务，这些任务按基础感知和高级专家推理维度进行分类，同时还包含了数据统计及典型的视觉问答(VQA)示例

4.1 数据收集

20个高保真度、公开可用的高光谱图像HSI数据集，场景类别广泛
实现了前所未有的平台覆盖范围：无人机->机载->星载->深空，从厘米级到十米级->对MLLM构成挑战

场景分类涵盖农业、城市与居住景观、自然地形与生态、外形地貌->防止过拟合
保留完整的高光谱立方体

4.2 任务分类与数据集分布

分层任务分类法：三层任务层级体系

6个能力维度：感知+推理
特征识别（光谱特征识别和土地覆盖分类）、目标量化（存在检测和计数）、空间定位（推理目标的相对空间方位和区域划定）、成分解读（光谱异常检测和光谱分离）、状态评估（植被健康判断和污染严重程度评估）、变化检测

13种具体任务类型

图2：HM-Bench 统计概览。
(a) 四种问题类型在六个核心任务场景中的量化分布。
(b) 该基准在六个评估维度上关于唯一图像与问答对的详细统计。(无人机：无人驾驶航空器。)Generation Paradigm:生成范式
基础感知任务：侧重于目标分类与计数
专家推理任务：深入解读不可见的空间-光谱信息

4.3 基准构建

图4：HM-Bench的整体整理与评估流程。该框架包含三个主要阶段：
（1）问题生成阶段，利用多模态大语言模型（MLLMs）合成问答对并通过人工检查进行优化；
Prompt中的non-hints：输入中“不提供任何引导信息的部分”
（2）输入模态阶段，将高维立方体解耦为两种互补的表示形式：主成分分析（PCA）分量合成图像和基于光谱-空间特征的结构化文本报告；

PCA分量合成图：将得到的多个主成分（PC）映射到RGB三个通道生成的伪彩色图像
把原来的B个波段->若干个主成分->提取12个最有用的（3×4网格布局）->作为RGB显示出来
->统一合成图像,统一格式以用于基于图像的评估

报告输入：数据基础：大小、范围、均值、标准差
空间区域：3×3 网格亮度& 异质性
文本报告的约束：只做基于证据的约束、禁止语义判断、禁止从指标到语义的直接映射

（3）多模态大语言模型（MLLMs）推理阶段，对各类模型进行基准测试，以评估它们在不同输入格式下对高光谱图像（HSI）的理解能力。

双范式生成策略：

规则驱动
无歧义答案确定有固定模板
a.逻辑触发与模板选择。
预处理过程中生成的统计特征值是模板调度的主要依据。
例如，若某土地覆被类别的总像素数或连通组件数为(N=0)，则将其标记为不存在；反之，若该数值为正数，会调用“目标计数”或“存在性验证”模板。
b.语义变量嵌入。由逻辑引擎计算得出的量化结果被视为动态变量，并嵌入到预定义的自然语言槽位中。
例如，在目标量化任务中，系统会将识别出的物体或不同区域的具体数量填充到模板中。在空间定位任务中，引擎会对比两个目标实体的几何质心(x, y)，计算出相对位移向量。随后该向量的方向会被自动映射为语义方向术语，并填充到方向描述模板中，以确保空间一致性。
c.基于阈值的硬逻辑判定。针对高光谱影像（HSI）的特定理化指标，基于规则的方法采用严格的物理阈值来确定实地真值标签。系统会计算光谱特征值是否处于预设区间内
例如，将 NDV I>0.6映射为“健康植被”，或将超过3σ准则的数值判定为“显著变化”，进而基于客观的光谱证据自动选择正确的单项选择题选项（A/B/C/D）
大模型驱动
灵活语义丰富没有固定模板->提取特定统计数据，构建专业级提示词

图7：来自BayArea_2013数据集的主成分分析合成图像示例。该图以3×4网格形式展示了高光谱立方体的前12个主成分。每个面板代表一个特定的成分图（标注有其解释方差），共同构成模型的视觉输入。

面向图像的提示词：对于PCA复合材料，提示词将输入描述为“前12个主成分的灰度可视化图”。指令强调视觉检查，指导模型分析空间纹理、形态和边界。

图8：与上述PCA合成图像来自同一数据块的结构化报告输入示例。

面向报告的提示词：对于结构化报告，提示词将输入定义为“定量光谱分析”。指令优先采用循证推理，要求模型结合提供的数值数据整合领域专业知识。

5.实验分析

5.1 输入模态

图像输入生成：
HSI立方体 (H×W×B)
↓ reshape
(H×W, B)
↓ PCA（光谱降维）
(H×W, k)
↓ reshape回去
(H, W, k)

5.2 评估模型

图5：在两种输入模态下于HM-Bench的13项任务中，5种代表性多模态大语言模型的性能对比：(a) 主成分分析组件合成图像与(b) 结构化文本报告。

5.3 评估策略与指标

策略单选题
指标准确率
任务层面：正确预测答案在任务中所占的比例
整体准确率：所有被评估问题的微平均表现（每个问题两次评估）

5.4 实验结果

HM-Bench对当前多模态大语言模型（MLLMs）构成了显著挑战。即便是表现最佳的模型InternVL3.5-14B，在图像输入下的准确率也仅为43.08%，报告输入下为39.52%，在高光谱成像（HSI）理解方面仍有很大的提升空间。

图像输入具备稳定优势。对于大多数模型，直接基于图像的预测比基于报告的预测具有更高的准确率。例如，GPT-5.4-mini 的准确率从 37.45% 提升至 42.35%，Qwen3-VL-4B 从 35.93% 提升至 40.96%，InternVL3.5-14B 从 39.52% 提升至 43.08%。这一趋势表明，仅靠文本先验信息不足以在 HM-Bench 上实现可靠的性能，扎实的视觉理解能力才是关键。（报告模态对部分模型仍保持中等竞争力，这说明精简的文本描述仍能为部分任务提供有效线索）

推理是主要的瓶颈。与感知导向型任务相比，推理子任务在各类模型上的表现显著更低且稳定性更差。具体而言，CAL 任务成为该基准测试中最具挑战性的任务之一，几乎所有模型在两种模态下的得分均低于20%。即便是最高成绩也仅达到20.41%（GPT-5.4-mini，报告）和19.22%（InternVL3.5-14B，报告）。尽管当前模型能够捕捉到一些表层模式，但在应对复杂临床推理所需的多步推理和知识整合方面仍存在较大困难。

开源模型在 HM-Bench 上的表现出色。在图像输入任务中，排名前三的模型为 InternVL3.5-14B（43.08%）、GPT-5.4-mini（42.35%）和 GLM-4.6V-flash（42.06%）；在报告输入任务中，InternVL3.5-14B 再次位列第一（39.52%），紧随其后的是 GeoLLaVA-8K（38.76%）和 Kimi-VL-A3B-Instruct（37.57%）。值得注意的是，多款开源模型的表现达到或超越了 Claude Sonnet 4.6、Gemini-2.5-pro 等闭源系统。可归因于三个因素。首先，HM-Bench 更侧重专业视觉识别能力而非通用世界知识，这对拥有更强大视觉-语言骨干网络或针对性视觉指令微调的模型更为有利。其次，该基准测试采用严格的选择题形式，输出内容简洁，这削弱了主要针对开放式对话和流畅性优化的模型的优势。第三，高光谱输入与通用预训练中占主导的自然图像和网络文本分布存在显著差异。因此，在通用领域任务中表现优异并不能保证在该基准测试中取得成功。

5.5 额外模型性能

表4：额外模型在图像和报告输入设置下于HM-Bench上的任务级性能对比。该基准包含13项任务，按三级分类体系组织，其中6项为感知任务，7项为推理任务。数值以准确率（%）呈现。

图9：二级任务中所有模型的性能对比：图像输入与报告输入。蓝色标记代表使用视觉数据时表现更优；红色标记表示借助结构化文本报告时表现更好。

图 9 通过散点图展示了六个二级任务的模型准确率。每个数据点代表一个模型在特定任务上的表现；位于恒等线（图中以蓝色标出的 y=x）上方的数据点表明模型在图像输入模式下表现更优，而位于该线下方（以红色标出）的数据点则说明模型更偏好报告输入。

输入模态与任务维度之间存在显著的性能差距。图像输入在感知和解释类任务（如FR、SL、SA）中通常占主导地位，其中数据点聚集在对角线(y=x)上方，凸显了基于主成分分析的视觉线索的有效性。相反，需要精确数值或时间推理的任务，如目标量化（TQ）和变化检测（CD），则表现出更高的模态互补性，许多模型在使用报告输入时表现更佳。

从维度来看，推理仍是主要的性能瓶颈。尽管感知类任务（FR、TQ、SL）能达到更高的绝对准确率，但推理类任务（CI、SA、CD）的准确率集中在较低区间。值得注意的是，CD 成为所有模型和模态下最具挑战性的任务，这表明多模态大语言模型（MLLMs）尽管配备了先进的视觉编码器，仍然缺乏高光谱变化检测中固有的复杂时间和光谱对比所需的强大逻辑框架