当前位置：首页 > news >正文

【CVPR26-王磊-空天院】GeoViS：面向遥感视觉定位的地理空间奖励视觉搜索

news 2026/7/22 14:20:05

文章：GeoViS: Geospatially Rewarded Visual Search for Remote Sensing Visual Grounding

代码：https://github.com/Zhang-Peirong/GeoVis

单位：中国科学院空天信息创新研究院、中国科学院大学、清华大学、国防科技大学、上海交通大学、重庆大学

一、问题背景

视觉定位是通过文本查询定位图像对应区域的核心视觉-语言理解能力，然而将其迁移至遥感影像面临两大核心挑战：

空间关系复杂：遥感影像为俯视视角，文本查询常包含多实体的相对位置、空间层级等复杂地理空间关系，传统单步预测方法缺乏层级空间建模，无法完成此类推理，而自然领域的多步推理方法又依赖大量人工标注奖励数据集，在遥感领域落地成本极高。
目标有效分辨率极低：遥感影像多为千米级尺度，飞机、船舶等目标仅占场景极小比例，与背景存在极端尺度差异；现有通过放大图像、分块处理的方法无法提升目标有效分辨率，导致小目标视觉细节丢失，精准定位难度大。

此外，现有遥感视觉定位的视觉搜索方法，要么依赖强检测器难以在遥感领域泛化，要么基于强化学习需要大量高质量标注数据，均无法适配遥感场景的实际需求。

二、方法创新

为解决上述问题，研究团队提出GeoViS（地理空间奖励视觉搜索）框架，将遥感视觉定位重构为层级视觉搜索+条件化视觉定位的两步渐进式搜索推理过程，并设计了统一的VisualRAG（视觉奖励-动作-定位）模型作为核心模块，实现了多能力的协同融合，核心创新点体现在三方面：

两阶段任务重构：摒弃传统单步预测思路，先通过地理空间奖励引导的层级搜索，从全局遥感影像中逐步锁定最可能包含目标的候选子区域，再以该区域为视觉线索进行条件化精确定位，既保留全局场景感知，又提升目标局部细节的感知能力。
VisualRAG模型统一三大核心能力：基于Qwen2.5-VL-3B-Instruct初始化的VisualRAG模型，集成了奖励评估、动作指导、精细定位三大功能，能量化候选区域与文本的语义-空间匹配度、为搜索预测最优缩放动作、结合全局与候选区域完成最终目标框预测，实现了探索、验证、定位的全流程协同。
地理空间奖励驱动的视觉搜索设计：将视觉搜索建模为马尔可夫决策过程，采用蒙特卡洛树搜索（MCTS）平衡区域探索与利用；动作空间设计放大/缩小操作模拟人类由粗到细的搜索行为，同时将文本查询解析为「目标对象+空间属性+关联参考」的结构化表示，为搜索提供可解释语义指导；奖励函数融合问答奖励（语义一致性）和IoU奖励（空间几何一致性），通过加权平衡实现更精准的搜索引导。

三、实验结果

研究团队在DIOR-RSVG、RSVG-HR、OPT-RSVG、VRSBench、GeoChat5个主流遥感视觉定位基准数据集开展了全面实验，以Pr@0.5/0.7（IoU阈值下的精度）、meanIoU（平均交并比）为核心评价指标，验证了GeoViS的优异性能：

SOTA性能突破：GeoViS在所有数据集上均实现当前最优性能，在DIOR-RSVG上Pr@0.5达79.8%，较通用多模态大模型提升近30%，较遥感专用大模型提升3%以上；在VRSBench上Pr@0.5达68.5%，超最强遥感专用大模型5%以上，在RSVG-HR、OPT-RSVG上也显著优于各类基线模型。
消融实验验证模块有效性：验证了局部视觉线索能显著提升目标有效分辨率，GeoViS的放大操作、问答奖励、IoU奖励等原子操作均能带来性能的逐步提升，且奖励函数中语义与空间权重的最优配比（α=0.1）能实现最佳搜索引导效果。
强跨数据集泛化能力：在DIOR-RSVG上训练的GeoViS，迁移至VRSBench、OPT-RSVG时，性能显著优于零样本和微调的基线模型，证明其学习到的视觉推理模式具有强可迁移性。
定性效果显著：相比单步推理的基线模型，GeoViS能有效处理长文本、复杂空间关系的查询，精准定位千米级影像中的小目标，解决了基线模型易误定位、无法理解空间关系的问题。

实验基于8张NVIDIA A800 GPU训练，采用LLaMA-Factory框架，模型训练与推理的超参数设置也为相关研究提供了可复现的参考。

四、优势与局限

核心优势

精准的地理空间理解能力：通过结构化文本解析和层级空间推理，能有效处理包含复杂地理空间关系的文本查询，适配遥感影像的俯视视角特性。
高效的小目标定位能力：通过渐进式视觉搜索动态提升目标有效分辨率，解决了遥感影像中目标尺度极小、细节丢失的核心问题。
强泛化与可解释性：统一的VisualRAG模型和原子操作设计，让模型具备跨数据集、跨场景的泛化能力，同时树形层级搜索过程具有清晰的可解释性。
低落地成本：无需依赖外部检测器或大量人工标注的强化学习数据集，可基于现有遥感基准数据集高效构建训练数据，适配遥感领域数据特点。
全流程协同统一：将奖励评估、动作指导、视觉定位融合在单一模型中，避免了多模块拼接的误差累积，提升了整体系统的稳定性。

现存局限

高分辨率影像处理效率待提升：面对超高清、超大尺度的遥感影像，蒙特卡洛树搜索的迭代过程会增加推理耗时，实时处理能力有待优化。
多目标联合定位能力不足：当前研究主要聚焦单目标视觉定位，对于包含多个关联目标的复杂查询，层级推理的效率和精度仍有提升空间。
对噪声查询的鲁棒性有限：面对遥感领域自动生成的噪声化、模糊化文本查询，模型的语义解析和搜索引导能力会受到一定影响。

五、一句话总结

中科院等多校联合提出的GeoViS框架，通过地理空间奖励引导的树形层级视觉搜索与条件化视觉定位的创新结合，以及统一的VisualRAG模型设计，有效解决了遥感影像视觉定位中复杂空间关系推理和小目标低有效分辨率的核心难题，在五大基准数据集上实现SOTA性能，为遥感多模态大模型的视觉定位提供了通用、可迁移的新范式。

查看全文

http://www.jsqmd.com/news/561830/