当前位置: 首页 > news >正文

【CVPR26-王磊-空天院】GeoViS:面向遥感视觉定位的地理空间奖励视觉搜索


文章:GeoViS: Geospatially Rewarded Visual Search for Remote Sensing Visual Grounding

代码:https://github.com/Zhang-Peirong/GeoVis

单位:中国科学院空天信息创新研究院、中国科学院大学、清华大学、国防科技大学、上海交通大学、重庆大学


一、问题背景

视觉定位是通过文本查询定位图像对应区域的核心视觉-语言理解能力,然而将其迁移至遥感影像面临两大核心挑战:

  1. 空间关系复杂:遥感影像为俯视视角,文本查询常包含多实体的相对位置、空间层级等复杂地理空间关系,传统单步预测方法缺乏层级空间建模,无法完成此类推理,而自然领域的多步推理方法又依赖大量人工标注奖励数据集,在遥感领域落地成本极高。

  2. 目标有效分辨率极低:遥感影像多为千米级尺度,飞机、船舶等目标仅占场景极小比例,与背景存在极端尺度差异;现有通过放大图像、分块处理的方法无法提升目标有效分辨率,导致小目标视觉细节丢失,精准定位难度大。

此外,现有遥感视觉定位的视觉搜索方法,要么依赖强检测器难以在遥感领域泛化,要么基于强化学习需要大量高质量标注数据,均无法适配遥感场景的实际需求。

二、方法创新

为解决上述问题,研究团队提出GeoViS(地理空间奖励视觉搜索)框架,将遥感视觉定位重构为层级视觉搜索+条件化视觉定位的两步渐进式搜索推理过程,并设计了统一的VisualRAG(视觉奖励-动作-定位)模型作为核心模块,实现了多能力的协同融合,核心创新点体现在三方面:

  1. 两阶段任务重构:摒弃传统单步预测思路,先通过地理空间奖励引导的层级搜索,从全局遥感影像中逐步锁定最可能包含目标的候选子区域,再以该区域为视觉线索进行条件化精确定位,既保留全局场景感知,又提升目标局部细节的感知能力。

  2. VisualRAG模型统一三大核心能力:基于Qwen2.5-VL-3B-Instruct初始化的VisualRAG模型,集成了奖励评估、动作指导、精细定位三大功能,能量化候选区域与文本的语义-空间匹配度、为搜索预测最优缩放动作、结合全局与候选区域完成最终目标框预测,实现了探索、验证、定位的全流程协同。

  3. 地理空间奖励驱动的视觉搜索设计:将视觉搜索建模为马尔可夫决策过程,采用蒙特卡洛树搜索(MCTS)平衡区域探索与利用;动作空间设计放大/缩小操作模拟人类由粗到细的搜索行为,同时将文本查询解析为「目标对象+空间属性+关联参考」的结构化表示,为搜索提供可解释语义指导;奖励函数融合问答奖励(语义一致性)IoU奖励(空间几何一致性),通过加权平衡实现更精准的搜索引导。

三、实验结果

研究团队在DIOR-RSVG、RSVG-HR、OPT-RSVG、VRSBench、GeoChat5个主流遥感视觉定位基准数据集开展了全面实验,以Pr@0.5/0.7(IoU阈值下的精度)、meanIoU(平均交并比)为核心评价指标,验证了GeoViS的优异性能:

  1. SOTA性能突破:GeoViS在所有数据集上均实现当前最优性能,在DIOR-RSVG上Pr@0.5达79.8%,较通用多模态大模型提升近30%,较遥感专用大模型提升3%以上;在VRSBench上Pr@0.5达68.5%,超最强遥感专用大模型5%以上,在RSVG-HR、OPT-RSVG上也显著优于各类基线模型。

  2. 消融实验验证模块有效性:验证了局部视觉线索能显著提升目标有效分辨率,GeoViS的放大操作、问答奖励、IoU奖励等原子操作均能带来性能的逐步提升,且奖励函数中语义与空间权重的最优配比(α=0.1)能实现最佳搜索引导效果。

  3. 强跨数据集泛化能力:在DIOR-RSVG上训练的GeoViS,迁移至VRSBench、OPT-RSVG时,性能显著优于零样本和微调的基线模型,证明其学习到的视觉推理模式具有强可迁移性。

  4. 定性效果显著:相比单步推理的基线模型,GeoViS能有效处理长文本、复杂空间关系的查询,精准定位千米级影像中的小目标,解决了基线模型易误定位、无法理解空间关系的问题。

实验基于8张NVIDIA A800 GPU训练,采用LLaMA-Factory框架,模型训练与推理的超参数设置也为相关研究提供了可复现的参考。

四、优势与局限

核心优势

  1. 精准的地理空间理解能力:通过结构化文本解析和层级空间推理,能有效处理包含复杂地理空间关系的文本查询,适配遥感影像的俯视视角特性。

  2. 高效的小目标定位能力:通过渐进式视觉搜索动态提升目标有效分辨率,解决了遥感影像中目标尺度极小、细节丢失的核心问题。

  3. 强泛化与可解释性:统一的VisualRAG模型和原子操作设计,让模型具备跨数据集、跨场景的泛化能力,同时树形层级搜索过程具有清晰的可解释性。

  4. 低落地成本:无需依赖外部检测器或大量人工标注的强化学习数据集,可基于现有遥感基准数据集高效构建训练数据,适配遥感领域数据特点。

  5. 全流程协同统一:将奖励评估、动作指导、视觉定位融合在单一模型中,避免了多模块拼接的误差累积,提升了整体系统的稳定性。

现存局限

  1. 高分辨率影像处理效率待提升:面对超高清、超大尺度的遥感影像,蒙特卡洛树搜索的迭代过程会增加推理耗时,实时处理能力有待优化。

  2. 多目标联合定位能力不足:当前研究主要聚焦单目标视觉定位,对于包含多个关联目标的复杂查询,层级推理的效率和精度仍有提升空间。

  3. 对噪声查询的鲁棒性有限:面对遥感领域自动生成的噪声化、模糊化文本查询,模型的语义解析和搜索引导能力会受到一定影响。

五、一句话总结

中科院等多校联合提出的GeoViS框架,通过地理空间奖励引导的树形层级视觉搜索与条件化视觉定位的创新结合,以及统一的VisualRAG模型设计,有效解决了遥感影像视觉定位中复杂空间关系推理和小目标低有效分辨率的核心难题,在五大基准数据集上实现SOTA性能,为遥感多模态大模型的视觉定位提供了通用、可迁移的新范式。

http://www.jsqmd.com/news/561830/

相关文章:

  • 告别单调任务栏:TranslucentTB打造个性化Windows桌面全攻略
  • OpenClaw二次开发指南:修改nanobot镜像适配自定义模型
  • 保姆级教程:Qwen-Image-2512-SDNQ网页版,小白也能生成专业级图片
  • 论文降重还在瞎折腾?这几款实测好用的工具真的省心
  • 从TJA1050到SIT1050T:手把手教你搞定CAN收发器外围电路与PCB布局避坑
  • 电子小白之三极管
  • 避坑指南:es-drager网格拖拽在低代码平台中的3个典型问题
  • 开源工具go-cursor-help:技术突破Cursor限制的效率提升方案
  • 2026论文神器实测:降重降AI全场景工具推荐
  • 告别一头雾水!手把手教你用DaVinci Configurator配置AUTOSAR XCP on CAN(附CANape连接避坑点)
  • 3分钟学会用Real-ESRGAN:让模糊图片秒变高清的GPU加速神器
  • 隐形猎手:揭秘“银狐木马”与现代反网络钓鱼防御战
  • IndexTTS-2-LLM语音合成应用:无障碍辅助与内容创作指南
  • 【OpenClaw】通过 Nanobot 源码学习架构---(1)总体
  • Cherry Studio与Ollama本地模型集成实战:解决502错误的完整方案
  • 2026年豆包GEO服务商选型指南:从技术底层到效果落地的靠谱选择逻辑 - 小白条111
  • PINN实战避坑指南:用DeepXDE求解纳维-斯托克斯方程时,我遇到的3个典型错误
  • OpCore Simplify:智能黑苹果配置工具的终极指南
  • 小白也能玩转DeepSeek-R1:纯CPU推理+清爽界面,3步搞定
  • 从JavaFX到OpenGL:用代码一步步理解参数曲线与曲面建模(附机器人手臂Demo)
  • Comsol 锂枝晶耦合应力模型探索
  • 2026年长沙GEO优化服务商推荐TOP3:从技术实力到效果落地的深度评估 - 小白条111
  • 三极管静态工作点选择避坑指南:从数据手册到实际电路设计
  • MySQL密码存储方案对比:从MD5到应用层加密的演进之路
  • 基于编码器-解码器神经网络的阵列综合技术复现与研究
  • PyTorch 2.7 CUDA镜像效果展示:GPU加速训练性能实测
  • 普通用户如何手动升级gmake(GNU Make)以解决编译依赖问题
  • 2026年AI搜索GEO优化工具公司及服务商选型指南:从技术底层到效果落地的5大核心维度解析 - 小白条111
  • H5扫码功能实战:如何在微信和原生浏览器中实现二维码解析(附完整代码)
  • 谷歌内部AI工具Agent Smith上线,助力工程开发效率提升