当前位置: 首页 > news >正文

CVPR 2026|AnyVisLoc:为真实低空无人机视觉定位建立统一基准

CVPR 2026|AnyVisLoc:为真实低空无人机视觉定位建立统一基准

AnyVisLoc 是第一个面向真实低空多视角无人机视觉定位的大规模数据集与评测基准。

它不再局限于传统的高空俯视图像,而是系统覆盖低空飞行、倾斜视角、多高度、多航向、多场景以及航空图与卫星图双参考源。对于无人机视觉定位、跨视角图像检索、图像匹配、视觉地理定位和三维位姿估计等方向而言,AnyVisLoc 提供了一套规模大、场景复杂、任务完整、挑战性强的研究平台。

相关论文Exploring the Best Way for UAV Visual Localization under Low-altitude Multi-view Observation Condition: A Benchmark已被CVPR 2026 Findings接收,完整数据集和测试代码现已公开。

  • GitHub 项目主页
  • 百度网盘下载(提取码:fcw8
  • 论文原文(CVPR 2026 Findings)

图 1 AnyVisLoc工作流

AnyVisLoc 解决了什么问题?

现有无人机定位数据集往往更关注高空、近似垂直俯视的理想情况,但真实无人机在低空执行巡检、导航、测绘或自主飞行任务时,拍摄视角通常更加复杂。

无人机可能以不同高度、不同俯仰角和不同航向观察同一片区域。低空图像中还会出现明显的建筑立面、透视变化、遮挡、尺度变化、光照差异、季节变化以及跨时间地物变化。

这意味着,低空无人机定位远不只是“在地图中找一张相似图片”。它同时涉及大范围地图检索、跨视角匹配、像素级对应、三维几何恢复以及高精度位姿估计。

AnyVisLoc 正是针对这些真实问题构建的。它将无人机图像检索、图像匹配和 PnP 定位统一到同一个评测框架中,使研究者能够真正检验算法在复杂低空环境中的定位能力。

数据规模与场景覆盖

AnyVisLoc 当前公开版本包含24 个场景和 20,077 张全分辨率 DJI 无人机图像

无人机飞行高度约覆盖6 米至 500 米,相机俯仰角约覆盖5° 至 90°,既包含垂直俯视图像,也包含大量具有明显透视变化的倾斜视角图像。

数据由多种 DJI 无人机采集,包括 Mavic 2、Mavic 3、Mavic 3 Pro、Phantom 3、Phantom 4、Phantom 4 RTK 和 Mini 4 Pro。

场景覆盖城市建筑群、城镇、乡村、校园、公园、地标建筑、农田、草地、山地以及多种混合环境,同时包含不同季节、天气和光照条件。

相比只在单一城市、固定高度或固定视角下采集的数据集,AnyVisLoc 更接近真实无人机系统在复杂环境中遇到的视觉变化,也更适合研究模型的跨场景泛化能力。


图 3:AnyVisLoc数据集中的无人机图像示例

航空图与卫星图双参考定位

AnyVisLoc 的另一个重要特点,是同时提供高分辨率航空参考图和卫星参考图,并配套相应的 DSM 高程数据。

航空影像具有更高的空间分辨率,可以支持更精细的图像匹配和更高精度的位姿估计,但通常需要提前进行航空摄影测量和地图重建。

卫星影像的获取范围更广,也更适合大规模部署,但卫星图与低空无人机图像之间往往存在巨大的视角差异、分辨率差异、时间差异和外观变化。卫星影像还可能存在建筑倾斜、局部配准误差、拼接伪影、模糊和地物变化。

因此,卫星参考定位并不是航空参考定位的简单替代,而是一个难度更高、也更有实际价值的研究方向。

AnyVisLoc 将这两种参考条件放在同一套数据和评测体系中,为研究高精度航空定位与大范围卫星定位提供了统一平台。


图 2:AnyVisLoc数据集中的基准图示例

一套完整的无人机视觉定位 Benchmark

AnyVisLoc 不只是发布了一批无人机图像,还提供了完整的视觉定位评测流程:

图像检索 → 像素匹配 → PnP 位姿估计

图像检索负责从大范围航空图或卫星图中寻找候选区域,像素匹配负责建立无人机图像与参考图之间的精细对应关系,最后结合 DSM 中的三维信息,通过 PnP 估计无人机位置与姿态。

公开基线涵盖 CAMP、RoMa、SuperPoint、LightGlue、GIM、MINIMA、ALIKED、DISK 等多种检索与匹配方法,并支持不同 PnP 求解方式。

这使得 AnyVisLoc 不仅可以用于比较完整定位系统,也可以单独研究图像检索、局部特征匹配、跨视角匹配和三维定位中的具体问题。

总结

AnyVisLoc 的价值不只是“数据量大”,更重要的是它将真实低空无人机视觉定位中的关键难点集中到了一套统一基准中:

低空、多视角、多高度、多航向、多场景、跨时间变化、航空与卫星双参考,以及从粗定位到精确位姿估计的完整流程。

对于无人机自主导航、视觉地理定位、跨视角检索、图像匹配、卫星图定位和三维视觉定位等研究方向,AnyVisLoc 都是一套非常值得关注的数据集与 benchmark。

http://www.jsqmd.com/news/1106065/

相关文章:

  • AI 辅助:前端框架反模式:过度封装、状态滥用与副作用失控
  • Linux服务器配置时间同步机制(内网环境将一台服务器作为时间同步节点)
  • MCP协议:AI模型标准化连接与安全实践指南
  • 美国要求OpenAI限制其最强大AI模型的访问权限
  • InfiniBand与以太网页故障处理机制对比分析
  • 【Springboot毕设全套源码+文档】基于springboot+协同过滤课程推荐的线上安全教育平的设计与实现(丰富项目+远程调试+讲解+定制)
  • STM32 printf 串口重定向代码完整解析
  • AI 效率工具产品化:从功能清单到 PMF 验证闭环
  • Vue3 全栈应用架构:组合式 API 不是把逻辑随便抽走
  • 从零实现一个自己的 Agent:从 Agent Loop 到自进化智能体
  • 数字座舱时代的车载软件界面需求
  • Go 并发编程:生产服务里 goroutine 要有退出路径
  • 维科精密泰国基地启动小批量生产,3.10亿元加码汽车电子精密部件
  • 42.llama_index-说明
  • 实战指南:如何用Silk-V3-Decoder解决微信QQ语音播放难题
  • 机器人(狗)、AGV/AMR自动乘梯简易方案(技术解析与补充
  • 极简架构设计:少一层抽象,少一类故障
  • python: Handshaking Pattern
  • 电池充放电测试该怎么测?从分体拼方案到回馈一体机,这篇文章讲透了
  • OpenHarmony 英语学习 App 实战:悬浮导航栏、沉浸光感与全新交互体验
  • 【信息科学与工程学】【制造工程】第八十三篇 计算机系统集成制造01
  • 字节豆包AI编程助手扩展:深度解析其代码能力边界与实战表现
  • EM3080-W与PIC32MZ的嵌入式条形码解码系统设计
  • 什么是数字工厂全要素智造中枢与适用于哪种企业
  • LeetCode 23.合并K个升序链表
  • Android 7系统日志(四)日志写入接口—Java层与Native层
  • Codex 插件生态全景:从官方工具到社区神器
  • 工程化应用基础设施:可观测性要覆盖 提示词、检索和执行
  • HBM Predictor安装与配置教程:简单5步搭建预测环境
  • Visa、Stripe等140余家机构联合推出Open USD稳定币,剑指Tether