当前位置: 首页 > news >正文

AAAI2025 | 无人机地理定位新基准, 数据来自于游戏GTA V - MKT

AAAI2025 | 无人机地理定位新基准, 数据来自于游戏GTA V

image

 

image

 数据来源:

    • 利用《侠盗猎车手 V》(Grand Theft Auto V, GTA V)这款现代计算机游戏,模拟生成无人机视图(drone-view)和卫星视图(satellite-view)图像。
    • 选择GTA V作为模拟平台是由于其多样化的场景(如城市、山区、沙漠等),可为无人机任务提供逼真的视觉数据。
  • 无人机视图图像:
    • 包括 33,763 张无人机视图图像,覆盖了整个游戏地图中的多种场景,如城市、山地、沙漠、森林、田野和海岸。

    • 模拟多种飞行高度(80m ~ 650m)和无人机姿态(俯仰角 -100° ~ -80°,横滚角 -10° ~ 10°,偏航角 -180° ~ 180°)。

    • 图像分辨率为 1920 × 1440,并包含精确的GPS标签(用于后续定位误差评估)。

  • 卫星视图图像:
    • 采集自GTA V地图,分辨率约为 0.27米/像素。

    • 地图按 8 个层级的层次瓦片划分,共包含 14,640 个瓦片图像。

    • 每个瓦片大小为 256 × 256 像素,以支持不同飞行高度下的视图匹配。

数据涵盖多种复杂场景,包括:

  • 城市(urban)

  • 山区(mountain)

  • 沙漠(desert)

  • 森林(forest)

  • 田野(field)

  • 海岸(coast)

任务设计与数据标注:

  • 任务目标:通过无人机视图图像在卫星视图数据库中检索匹配的场景,推断无人机的GPS位置。
  • 部分匹配的定义:根据无人机视图和卫星视图的地面覆盖范围的交并比(Intersection over Union, IOU)进行标注:
  • 正匹配(Positive Pairs):IOU > 0.39,被认为是准确匹配,用于训练和评价。

  • 半正匹配(Semi-positive Pairs):0.14 < IOU ≤ 0.39,作为补充信息加入训练,反映实际中的部分匹配情况。
  • 评价方式:任务从传统的图像级别检索扩展为基于距离(米)的定位,评价模型在实际无人机定位场景中的性能。

方法

任务设计

  • 传统无人机地理定位任务通常假设无人机视图与卫星视图是一对一的完美匹配,但这种假设在实际场景中并不成立。

  • 本文提出了一种更实际的部分匹配任务,即无人机视图可能与多个卫星视图部分重叠,通过衡量视图之间的匹配程度完成定位。

图片

  • 贴近实际: 部分匹配任务更符合实际无人机地理定位的需求。

  • 鲁棒性强: 通过互斥采样和加权对比学习,提升了模型的训练效果和泛化能力。

  • 灵活性高: 方法适用于不同飞行条件、场景和高度,能够处理复杂多变的无人机定位任务。

加权对比学习方法 (Weighted-InfoNCE)

  • 传统的对比学习方法对所有正样本一视同仁,忽略了部分匹配的复杂性。

  • 本文根据无人机视图与卫星视图的交并比 (IOU) 为正样本分配权重,使得匹配程度高的样本对在学习中贡献更多,从而增强模型对部分匹配的理解。

  • 这种方法有效降低了部分匹配样本的偏差,提升了模型的训练稳定性。

特征提取与编码

  • 使用Vision Transformer (ViT) 作为特征编码器,提取无人机视图和卫星视图的高维特征。

  • 特征编码器共享权重,确保从不同视图中提取的特征具有一致性。

  • 使用了一些通用的增强技术(如翻转、旋转等),进一步提高模型的鲁棒性。

互斥采样机制 (Mutually Exclusive Sampling)

  • 在训练过程中,为确保批次内样本对之间的独立性,采用了互斥采样机制。

  • 具体来说,每次从样本集中选取一个样本对后,会移除该样本及其相关的其他样本,避免在同一批次中出现互相关联的样本对。

  • 这一机制减少了训练过程中可能引入的冗余信息,增强了模型的泛化能力。

多视角匹配

  • 数据中无人机视图与卫星视图的匹配不再是固定的中心对齐,而是根据地面覆盖范围的重叠程度动态计算匹配关系。

  • 将无人机视图分为正匹配、半正匹配和负匹配,根据这些匹配关系设计了一种更贴近实际应用场景的训练目标。

模型训练与推理训练阶段:

  • 模型通过对正样本和半正样本的对比学习,学习无人机视图与卫星视图之间的相似性。
  • 采用对称学习方法,确保无人机视图到卫星视图以及卫星视图到无人机视图的双向关系得到学习。

推理阶段:

  • 给定一张无人机视图,模型根据其特征在卫星视图数据库中检索匹配区域。
  • 检索结果不仅包括图像级别的匹配,还进一步计算地理位置的距离误差,完成精确定位。

精度

  • 实验设计:测试了模型在同一区域和跨区域场景中的表现,比较传统方法与本文方法的性能。

  • 实验结果:本文方法在检索和定位精度上优于现有方法,特别是在更接近实际场景的跨区域任务中。

  • 迁移能力:在真实数据集上的实验显示,GTA-UAV预训练模型具有更好的泛化性能和定位精度。

图片

图片

图片

更多图表分析可见原文

图片

 

  • 点此进入AAAI 2025遥感方向合集

  • 点此进入NeurIPS 2024遥感方向合集

公众号AI回复功能已启用,如需加群、投稿或合作,请微信联系小助手(备注:咨询/投稿/合作/加群,加群需姓名/昵称、单位和研究方向)。

公众号欢迎优秀作者投稿!投稿说明请查看:投稿说明

图片

 

往期推荐

NeurIPS24 | 无需复杂地图! 基于城市白模的无人机视觉定位新方法

2024-10-22

图片

论文赏读 | ECCV24 | 自然语言控制无人机根据图像导航和目标地理定位

2024-09-23

图片

 

图片

  欢迎关注  

 

分享遥感与深度学习领域的技术、论文、书籍、新鲜事。

 

 

欢迎加入遥感与深度学习交流群(点此加入)。

http://www.jsqmd.com/news/552187/

相关文章:

  • SAP系统SSL证书过期了别慌!手把手教你用STRUST导入新证书(以Concur为例)
  • SpringBoot 跨域问题(CORS)彻底解决方案
  • rosserial_mbed_lib:面向Cortex-M的ROS轻量通信协议栈
  • MSC间充质干细胞衰老机制分析及抗衰老策略【曼博生物】
  • 本地部署音效生成器 Moodist 并实现外部访问
  • 嵌入式Linux中pthread条件变量实践指南
  • OpenClaw资源监控:nanobot性能优化基础
  • OpenClaw性能对比测试:GLM-4.7-Flash在不同硬件下的任务表现
  • 给小智AI装上“手”和“脚”:手把手教你用MCP协议扩展ESP32的语音控制能力
  • 终极解决方案:一键安装所有Visual C++运行库的完整指南
  • 【FastAPI 2.0流式AI实战权威指南】:5大生产级异步响应模式、3类LLM流式集成陷阱与性能压测实测数据(含QPS提升217%关键代码)
  • 从零构建Tree-sitter解析器:WebAssembly实战指南
  • GHelper:解放你的ROG笔记本,告别臃肿控制软件的终极解决方案
  • 消息掌控者:RevokeMsgPatcher如何突破微信消息管理边界
  • 用到-数据集 ICCV2025 | LoD-Loc v2: 低细节城市模型下的建筑轮廓对齐高鲁棒无人机定位 - MKT
  • 单片机入门指南:从零基础到项目实践
  • Python气象分析新选择:MetPy数据处理与可视化实战指南
  • SimpleIMU库详解:MPU6050嵌入式驱动与姿态解算实战
  • C++ constexpr 模板优化机制详解
  • 嵌入式定时器注册机制设计与低耦合实现
  • LaTeX Workshop终极指南:在VS Code中高效排版LaTeX文档
  • GHelper:华硕笔记本高效性能优化完整指南
  • SCMPPI:监督式对比多模态框架用于预测蛋白质间相互作用
  • 逆变器环流分析:Matlab仿真与分析报告
  • Keil调试实战:如何精准测量51单片机延时函数耗时(附晶振配置技巧)
  • 2026智慧养老系统推荐榜聚焦养老院平台建设:智慧养老服务、智慧养老院系统、智能化养老设备、最近养老院、养老管理系统选择指南 - 优质品牌商家
  • C++的std--ranges硬件优化
  • 电磁波仿真避坑指南:MATLAB中常见参数设置错误及解决方案
  • 从PaddlePaddle 2.2.2平滑升级到2.4.2的实战指南
  • 告别手动输入!SQLPlus非交互模式执行SQL脚本的3种高效方法(附实例)