【RT-DETR实战】094、无人机视角(UAV)目标检测改进实战:当RT-DETR遇上高空小目标
一、问题现场:为什么模型在无人机数据上“失明”了?
上周在客户现场调试,对方工程师指着屏幕上一片农田的航拍画面问我:“你们的检测模型在COCO上mAP有52%,怎么在我这无人机拍的田埂上,连个人影都框不出来?”
我凑近一看,画面里确实有几个农民在劳作,但在模型输出里,他们就像隐身了一样。把预测框置信度阈值从0.25降到0.01,终于出现了几个颤巍巍的框,但位置飘得离谱。
这不是偶然现象——我们拿到的测试集里,300米高空拍摄的车辆、行人、牲畜,模型漏检率超过40%。
问题很典型:RT-DETR在标准数据集上训练时,目标尺度分布相对集中,而无人机视角下,目标像素面积可能只有十几甚至几个像素,加上拍摄角度倾斜、背景纹理复杂,模型那套基于CNN特征金字塔+Transformer的架构,在特征提取阶段就已经“丢细节”了。
二、改进方向:不是简单调参,而是重构特征流
直接调高输入分辨率?试过,从640×640提到960×960,推理速度从28ms跳到65ms,边缘设备扛不住。
更关键的是,单纯上采样对小目标特征提升有限——底层CNN的stride=32的那层特征图上,4×4像素的目标早就被压缩成一个点了。
得动结构。我们的改进主线是:在保持RT-DETR实时性的前提下,增强浅层特征利用,并让Transformer头能更好地关注微小目标。
2.1 浅层特征注入:别让细节在第一层就消失
原版RT-DETR用C3-C4-C5三层特征图送入Transformer
