当前位置：首页 > news >正文

AAAI 2025 | VHM:面向遥感图像分析的通用可信视觉语言模型

news 2026/7/13 18:19:34

文章目录

1.论文信息
2.论文主要贡献
3.论文创新点
4.方法
- 4.1 VersaD
- - 4.1.1 数据集构建
  - 4.1.2 质量评估
  - 4.1.3 指令构建
- 4.2 HnstD
- - 4.2.1 数据集构建
  - 4.2.2 诚实回答
- 4.3 多功能且可靠的视觉语言模型
- - 4.3.1 模型架构
  - 4.3.2 训练策略
5.实验分析
- 5.1 数据集
- 5.2 多功能性评估
- - 5.2.1 VHM专属能力
  - 5.2.2 VLM通用能力
- 5.3 诚实性评估
- 5.4 消融实验验证
- - 5.4.1 训练策略
  - 5.4.2 富文本描述和稀疏内容描述
  - 5.4.3 多级别视觉表示和单级别视觉表示
6.个人声明

1.论文信息

论文题目：VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis
论文作者：Chao Pang, Xingxing Weng, Jiang Wu, Jiayu Li, Yi Liu, Jiaxing Sun3, Weijia, Shuai Wang, Litong Feng, Gui-Song Xia, Conghui He
发表单位：武汉大学计算机学院、武汉大学LIESMARS国家重点实验室、武汉大学数学与人工智能研究院、上海人工智能实验室、中山大学地理科学与规划学院、商汤科技研究院
发表会议：AAAI 2025
代码链接：https://github.com/opendatalab/VHM.

2.论文主要贡献

数据层面：构建了大规模的遥感图像-文本数据集VersaD，提升通用性，以及针对RS的诚实性数据集HnstD，具备诚实性
模型层面：开发了 VHM 模型，专为遥感图像分析设计的通用且可靠的视觉语言模型，通过两阶段训练与多尺度视觉表示融合，实现了在多种遥感任务上的 SOTA 性能，同时有效抑制了模型幻觉，增强了回答的可靠性

3.论文创新点

提出了两个专为遥感领域设计的数据集
VersaD：包含140 万条带丰富描述的遥感图像 - 文本对，解决了现有遥感图文数据描述简单、语义信息不足的问题，为模型提供了多任务通用的视觉 - 语言对齐能力
HnstD：首个遥感领域的 “诚实指令数据集”，不仅包含常规事实性问题，还引入了大量对象不存在的欺骗性问题，从数据层面解决了模型对无意义问题 “强行作答” 的 “幻觉” 问题
双阶段训练策略与多尺度视觉表示融合
采用“预训练 + 指令微调” 的两阶段训练框架，第一阶段利用 VersaD 对齐视觉与语言模态，第二阶段结合 HnstD 微调，同时融入多尺度视觉特征，让模型既能理解细节，又能把握全局场景
实现了“多功能性”和“诚实性”的双重突破
模型在遥感图像理解的多任务上实现了 SOTA 性能，同时对不存在的对象或无意义问题能诚实回答 “不知道”，大幅提升了模型在真实遥感场景中的可靠性

4.方法

图1：多功能性与真实性的示例。在图(a)中，红色加粗字体为说明文字中的关键信息。现有的用于视觉语言模型（VLM）预训练的数据集通常包含内容稀疏的说明文字，仅聚焦于少数突出的物体及其相互关系。相比之下，VersaD说明文字对图像属性、物体特征和场景背景进行了详细描述。这些内容丰富的说明文字有助于更全面地理解遥感（RS）图像，从而提升视觉语言模型完成各类遥感任务的能力。此外，用于视觉语言模型微调的指令数据集通常仅包含关于图像中现有物体的事实性问题（见图(a)中的橙色字体），这可能导致视觉语言模型在面对关于不存在物体的无意义查询时，为给出肯定回答而编造信息。相比之下，我们的HnstD数据集同时包含事实性问题和欺骗性问题，旨在让视觉语言模型具备真实性。

现存问题一：现有包含稀疏内容描述的图文严重阻碍了视觉-语言模型对遥感图像的全面理解，限制了其完成各类遥感图像分析任务的能力->通用性不足
现存问题二：当面对具有欺骗性问题时，视觉语言模型会通过虚假回答给出肯定的回应->真实性不足

通用性：在提示词中纳入元数据、目标属性、场景上下文要素，提升通用性
真实性：构建HnstD数据集，每个样本由一张RS图像搭配问答对，除存在性问题外每种类型问题分为事实性和欺骗性两类；
新任务：诚实回答

4.1 VersaD

4.1.1 数据集构建

近140万张遥感图像
用Gemini-Vision为其生成文本标注，提示词涵盖图像属性、物体属性、场景上下文

4.1.2 质量评估

You are a powerful remote sensing and aerial image captioner. Please create detailed captions describing the contents of the given image. The caption annotation procedure follows the principles of: Prompt-1: describing the image attributes, including satellite/aerial images, color/panchromatic images, and high/low resolution; Prompt-2: describing object attributes, including object quantity, color, material, shape, size, and spatial position (including absolute position in the image and relative position between objects); Prompt-3: generally, the annotation process involves first describing the overall scene of the image, followed by describing specific object. Prompt-4: Instead of describing the imaginary content, only describing the content one can determine confidently from the image. Do not describe the contents by itemizing them in list form. Minimize aesthetic descriptions as much as possible.
图2：用于生成内容丰富的字幕的提示词
你是一名专业的遥感和航拍图像描述标注人员。请生成详细的图像描述来阐述给定图像的内容。图像标注描述需遵循以下原则：提示一：描述图像属性，包括卫星/航拍图像、彩色/全色图像以及高/低分辨率；提示二：描述目标物体属性，包括物体数量、颜色、材质、形状、尺寸以及空间位置（包含图像中的绝对位置和物体间的相对位置）；提示三：标注流程通常为先描述图像整体场景，再描述具体物体；提示四：仅描述从图像中可确定的内容，不描述想象的内容。切勿以列表形式逐条描述内容，尽量减少美学性描述。

随机抽取进行人工质量检查，拆分句子分为三个档次：完全准确、不完全准确、完全不准确：69%、20%（54%）、11%->整体准确率达到百分之八十
性能优于在内容稀疏但标题准确的数据集上训练的模型，标题中丰富的内容可以弥补噪声带来的影响

4.1.3 指令构建

选取三个目标检测数据集：DOTA-v2、Fair1M和DIOR
随机抽取3万张遥感图像，借助GeminiVision和提示词为这些图像生成内容丰富的说明文字。基于这些内容丰富的说明文字和边界框标注，仅通过语言类Gemini生成多轮对话与推理数据->VersaD-Instruct数据集（2.6万张用于对话任务，4千张用于复杂推理任务）

4.2 HnstD

4.2.1 数据集构建

每个样本一张遥感图像搭配单轮对话，同时涵盖事实性问题和欺骗性问题

基于 DOTA-v2和 Fair1M构建
四类识别任务：目标物体的相对位置、目标是否存在、颜色以及绝对位置
除目标存在性任务外，其余所有任务均同时设有事实性问题和欺骗性问题
关于目标物体颜色的欺骗性问题源于物体本身不存在或物体出现在全色图像中这两种情况
关于相对位置和绝对位置的欺骗性问题则由物体不存在导致

图3：HnstD数据集中的样本

问题形式：目标存在性任务采用是非题形式，颜色任务采用开放式问题形式，相对位置和绝对位置任务采用包含五个候选答案的单选题
总包含超4.5 万组问答对，均经人工审核

4.2.2 诚实回答

评估诚实度
在定量评估方面，采用匹配策略计算存在性任务、相对位置任务和绝对位置任务的准确率
包含两类，其准确率（A c c AccAcc）为事实类问题（A c c f a c t Acc_{fact}Accfact）与欺骗性问题（A c c d e c Acc_{dec}Accdec）的平均值：
A c c = A c c f a c t + A c c d e c 2.0 , (1) Acc = \frac{Acc_{fact} + Acc_{dec}}{2.0}, \tag{1}Acc=2.0Accfact+Accdec,(1)
其中A c c f a c t Acc_{fact}Accfact（A c c d e c Acc_{dec}Accdec）为对应任务下准确率的平均值，表示回答正确的问题数量与事实类（欺骗性）问题总数的比值。
针对颜色任务，我们采用匹配策略和 ChatGPT-3.5 接口分别对事实类问题和欺骗性问题进行评估。由于颜色任务的欺骗性问题存在两种成因，该任务的准确率计算方式如下：
A c c = A c c f a c t + A c c d e c e x + A c c d e c e x + A c c d e c p a n 2.0 2.0 , (2) Acc = \frac{Acc_{fact} + \frac{Acc_{dec}^{ex} + Acc_{dec}^{ex} + Acc_{dec}^{pan}}{2.0}}{2.0}, \tag{2}Acc=2.0Accfact+2.0Accdecex+Accdecex+Accdecpan,(2)
其中A c c d e c e x Acc_{dec}^{ex}Accdecex和A c c d e c p a n Acc_{dec}^{pan}Accdecpan分别为源于全色图像中目标物体不存在与存在这两种情况的欺骗性问题的准确率，把两类成因的问题按照样本权重来计算，目标物体不存在的欺骗性问题样本数量是目标物体存在的欺骗性问题的2倍

表3：各类RS-Instruct数据集的信息

4.3 多功能且可靠的视觉语言模型

4.3.1 模型架构

三个主要组件：视觉编码器、投影层、大语言模型LLM
视觉编码器：将遥感图像压缩为更紧凑的视觉表征
大语言模型：接受视觉和文本两类信息以执行推理任务
投影层：LLM仅具备文本感知能力，弥合自然语言与图像之间的模态差距

选择预训练的CLIPLarge(视觉编码器)，负责把遥感图像转换成语义特征向量，后续通过一个两层 MLP 投影层，把 CLIP-Large 输出的特征映射到和 Vicuna-7B 语言模型兼容的维度，从而实现视觉 - 语言模态的融合。

4.3.2 训练策略

采用两阶段策略来训练VHM
预训练阶段：以LLaVA的预训练权重为基础，利用大规模VersaD数据集优化VHM的所有组件，将RS视觉知识融入模型中
监督微调阶段：使用 VersaDInstruct、VariousRS-Instruct 和 HnstD 三个指令数据集对压缩层、投影层进行有监督微调（SFT）

5.实验分析

5.1 数据集

采用多个遥感（RS）数据集，针对现有视觉语言模型（VLM）支持的各类任务开展对比实验。
包括五个场景分类数据集：NWPU、METERML、SIRI-WHU、AID、WHU-RS19
两个视觉问答数据集：RSVQA-LR 和 RSVQA-HR
一个视觉定位数据集：DIOR-RSVG

5.2 多功能性评估

5.2.1 VHM专属能力

表 4 列出了为遥感图像分析量身定制的视觉语言模型所具备的能力。

VHM 能够执行更多任务，例如建筑矢量化和多标签分类，这些任务对于自然资源监测至关重要。由于与 VHM 专属能力相关的任务涉及竞争对手不支持的开放式问题，我们仅使用 VariousRS-instruct 数据集的测试集对 VHM 的性能进行定量评估。

表 5 中VHM 在图像属性识别方面表现出色，准确率达到 95%
在图像模态任务中表现出色，在图像分辨率任务中的平均绝对误差为0.24
在向量构建和零样本多标签分类任务中也展现出了可靠的性能。

然而，它在准确计数物体和测量几何属性方面面临挑战，相应的平均绝对误差分别高达6.75和12.82。

总体而言，这些结果证实了视觉-语言模型（VLMs）在推动更多遥感（RS）图像分析任务发展方面的潜力。

建筑矢量化：把建筑轮廓转成矢量多边形，指标是考虑复杂度的交并比

5.2.2 VLM通用能力

表7
RSVQA-LR 是基于 Sentinel-2 低分辨率卫星影像构建的遥感视觉问答数据集
LR-rural：判断图象是农村还是城市场景
LR-presence：判断图像中是否存在指定地物
LR-compare：对图像中的不同区域进行对比

通用模型与遥感模型的差距巨大：Gemini-Vision 的平均分仅为 64.76，而遥感专用模型普遍在 84 分以上，最高达 92.49 分，差距近 30 分，直接证明了遥感领域预训练的必要性。

VHM 的定位与表现：VHM 并非所有任务都排名第一，但整体性能均衡，超过了此前的 LHRS-Bot，验证了其在低分辨率遥感视觉问答任务上的有效性。

不同模型的任务偏好：RSGPT 在农村分类上表现突出，GeoChat 擅长区域对比，而 VHM 则在多任务上表现更均衡。
表8
RSVQA-HR 是基于高分辨率卫星影像构建的遥感视觉问答数据集

通用 VLM（如 LLaVA-1.5、Gemini-Vision）在地物存在性判断上表现尚可，但对比推理能力弱；而遥感专用模型（GeoChat、EarthGPT、VHM）普遍在对比任务上表现更优，验证了遥感领域预训练的有效性。

VHM 的优势：VHM 以 73.75 的平均分领跑所有模型，尤其是在 HR-compare 任务上达到 83.50 的最高分，说明其在高分辨率遥感场景的关系推理、对比理解能力上表现出色，同时在存在性判断上也保持了稳定的性能。

任务偏好差异：LLaVA-1.5 擅长存在性判断，GeoChat 擅长对比推理，而 VHM 实现了两者的均衡与提升，综合性能最优

表9展示了在DIOR-RSVG数据集上视觉定位任务的结果
采用交并比（IoU）阈值0.5作为评估指标。
图像的原始尺寸为800×800
为适配视觉语言模型（VLMs）的输入进行下采样。下
采样比例越高，目标尺寸越小，其视觉特征也越少，这给目标的精准定位带来了挑战。
VHM在输入尺寸最小的336×336情况下，仍以11.59的优势超越了表现最佳的竞品。这一优势源于对底层特征中空间信息的利用设计。

图 4 展示了用户与 VHM 模型之间的对话示例。
VHM 能够对图像中的物体、场景及其属性（如颜色、形状、布局）给出细致描述，体现了它对输入遥感（RS）图像的深度理解能力
VHM 可以有效完成各类遥感图像分析任务，包括目标计数、相对位置识别和图像分辨率估计，同时给出真实可靠的回答

5.3 诚实性评估

表格 11：VLM 在诚实问答任务（HnstD）上的性能
（注：Fact. 代表事实性问题，Dec. 代表欺骗性问题；后缀 Ex 与 Pan 分别表示因 “目标不存在” 和 “目标在全色图像中存在” 引发的欺骗性问题）

5.4 消融实验验证

5.4.1 训练策略

我们将额外在 VersaD 上预训练的模型，与直接采用 LLaVA 预训练权重的模型进行对比。两个模型均在我们的 VariousRS-Instruct 和 HnstD 数据集上微调。为保证公平性，两者使用了相同的模型架构，且 LLaVA 采用单级别视觉表示。如表 10 所示，经过遥感数据预训练的模型在多个任务上显著优于基线模型，这证实了通过大规模遥感图文数据集融入遥感视觉知识的重要性

5.4.2 富文本描述和稀疏内容描述

图10 不同训练策略与预训练数据集的对比

遥感预训练的必要性
第一行（无 RS 预训练）与第二行（使用 VersaD 预训练）对比：仅增加遥感预训练，模型在所有任务上的性能均大幅提升，尤其是视觉定位任务，从 28.23 提升至 51.06，证明了融入遥感领域知识对 VLM 的重要性

多级别视觉表示的增益
第二行（单级别表示）与最后一行（多级别表示）对比：加入多级别视觉表示后，模型在 ** 场景分类（+0.08）和视觉定位（+8.46）** 任务上均有显著提升，视觉定位的提升明显，验证了多级别特征融合对空间细节感知的增强作用

不同预训练数据集的对比
相同的训练设置（RS 预训练 + 多级别表示）下，VersaD 在 ** 场景分类（84.79）和视觉定位（59.52）** 任务上全面优于 RS5M 系列和 SkyScript 数据集，仅在视觉问答任务上略低于 SkyScript，整体性能最优。说明 VersaD 数据集的质量和内容设计更适配遥感 VLM 的训练需求

5.4.3 多级别视觉表示和单级别视觉表示

将其与仅使用视觉编码器最后一层特征作为单级别图像特征的模型进行对比
两个模型均在 VersaD、VersaD-Instruct、VariousRS-Instruct 和 HnstD 上优化

基线模型：仅使用视觉编码器最后一层的特征作为图像表示
改进模型：融合了视觉编码器多个层级的特征，形成多级别视觉表示

多级别视觉表示在视觉定位任务上带来了约9.21%的显著提升，验证了低层特征中包含的空间细节信息对目标定位的重要性

多级别特征融合是针对性优化定位能力的有效手段，不会损害模型的通用能力