当前位置: 首页 > news >正文

低空安全刚需!西工大UAV-DETR反无人机小目标检测,参数减少40%,mAP50:95提升6.6个百分点

导读

反无人机检测正在成为低空安全领域的核心需求,但无人机目标尺寸小、背景复杂、尺度变化剧烈,传统检测器在这一场景下的精度和召回率往往难以兼顾。

西北工业大学团队提出UAV-DETR,在RT-DETR基础上做了四项针对性改造——用小波变换卷积替换骨干网络的标准卷积以保留小目标高频细节,用滑动窗口自注意力替换全局注意力以避免小目标特征被淹没,引入跨尺度特征融合模块增强多尺度表达,并设计InnerCIoU-NWD混合损失解决小框梯度不足的问题。在自建的14,713张反无人机数据集上,UAV-DETR以11.96M参数(比RT-DETR减少约40%)实现了62.56%的mAP50:95(比RT-DETR提升+6.61个百分点),Precision 96.82%、Recall 94.93%均为所有对比方法中最高。在公开基准DUT-ANTI-UAV上同样验证了一致的改进。


论文信息

  • 标题:UAV-DETR: DETR for Anti-Drone Target Detection

  • 作者:Jun Yang, Dong Wang, Hongxu Yin, Hongpeng Li, Jianxiong Yu

  • 机构:西北工业大学自动化学院

  • 代码:https://github.com/wd-sir/UAVDETR


一、反无人机检测难在哪?

无人机在低空空域的广泛应用带来了安全监管需求,反无人机目标检测是其中的关键技术环节。但这一任务面临几个特有的挑战:

小目标占比高。无人机在远距离监控画面中通常只占据极少像素,边界框面积小,传统基于IoU的损失函数对这类目标的梯度贡献不足,导致定位精度难以提升。

背景干扰严重。城市天际线、树林、复杂光照和天气条件下,无人机与背景的对比度低,全局注意力机制容易被大量背景token稀释,小目标的弱特征被淹没。

尺度变化剧烈。同一场景中可能同时出现近距离的大尺度无人机和远距离的极小目标,要求检测器具备强健的多尺度特征融合能力。

UAV-DETR正是针对这些问题,从骨干网络、编码器、特征融合和损失函数四个层面对RT-DETR进行改造。


二、UAV-DETR的四个核心改进

图片来源于原论文

2.1 WTConv Block:小波变换卷积骨干

传统卷积对小目标的高频结构细节(如旋翼轮廓、机臂边缘)的捕获能力有限。WTConv Block用小波变换卷积(Wavelet Transform Convolution)替换标准卷积:

  • 采用2D Haar小波变换对特征图进行递归分解,得到低频子带(物体整体形状)和高频子带(细节与纹理)

  • 深层分解对应更低的频率成分和更大的等效感受野

  • 双级联结构:语义细化阶段(不降采样,保留空间分辨率)+ 空间压缩阶段(降采样)

消融实验中,仅引入WTConv Block就将mAP50:95从55.95%提升至59.78%(+3.83个百分点),同时参数量从19.87M降至14.71M。

2.2 SWSA-IFI编码器:滑动窗口自注意力

RT-DETR原始的全局自注意力(AIFI)在反无人机场景中容易让小目标特征被大量背景信息稀释。SWSA的改进策略:

  • 1×1深度卷积生成Q/K/V,大幅减少参数

  • 窗口大小w > 步长s,重叠窗口保证空间连续性

  • 引入可学习相对位置编码(RPE)

消融显示加入SWSA-IFI后FLOPs从59.2G降至52.6G(为所有配置中最低),参数从14.71M降至11.45M。

2.3 ECFRFN:跨尺度特征融合

包含两个子模块:

  • SBA模块:内含RAU(Re-calibration Attention Unit),自适应校准不同尺度的特征

  • RepNCSPELAN4模块:训练时多分支拓扑,推理时重参数化为单个3×3卷积,不增加推理开销

消融中mAP50:95从59.51%提升至60.63%(+1.12个百分点),但FLOPs从52.6G增加至66.7G。

2.4 InnerCIoU-NWD混合损失

  • NWD:将边界框建模为2D高斯分布,即使不重叠也有非零梯度

  • InnerCIoU:对边界框缩放后计算CIoU,放大高IoU区域的有效梯度

  • 组合:L_box = λ · L_InnerCIoU + (1-λ) · L_NWD

消融显示mAP50提升+1.95个百分点,mAP50:95提升+1.93个百分点,是唯一一个在两个指标上都有明显正向贡献的组件。


三、实验结果:对比11个基线方法

数据集

自建反无人机数据集包含14,713张图像,融合开源档案和自采集真实数据,涵盖城市天际线、树林、不同光照/天气、单机和多机、极端尺度变化。训练:验证:测试 = 7:2:1。所有模型在RTX 3090上训练100 epochs。其中大部分模型从零训练(不使用预训练权重),但Faster R-CNN、SSD、DETR、Deformable DETR四个模型因从零训练收敛困难,使用了预训练权重初始化(论文中以_PT后缀标注)。

自建数据集主实验

模型

P(%)

R(%)

F1(%)

mAP50(%)

mAP75(%)

mAP50:95(%)

FLOPs(G)

Params

Faster R-CNN_PT

53.65

47.51

50.40

43.62

6.04

14.41

401.7

136.7M

SSD_PT

95.39

25.90

40.74

78.16

23.23

33.43

58.4

11.7M

YOLOv8m

94.74

87.43

90.94

93.06

67.54

60.21

78.7

25.8M

YOLOv10m

93.49

86.23

89.72

92.91

67.51

59.85

58.9

15.3M

YOLO11m

94.51

87.50

90.87

92.97

67.02

59.69

67.6

20.0M

YOLO12m

91.70

83.79

87.57

90.35

56.43

52.76

67.1

20.1M

Hyper-YOLOm

94.55

88.13

91.23

93.41

68.56

60.61

103.1

33.3M

DETR_PT

86.04

83.35

84.67

82.67

15.52

31.54

73.6

41.3M

Def-DETR_PT

92.24

72.59

81.24

78.26

32.30

38.28

157.4

39.8M

RT-DETR

96.28

93.63

94.94

95.45

58.55

55.95

56.9

19.9M

VRF-DETR

96.10

93.27

94.66

95.46

61.19

56.31

44.2

13.5M

UAV-DETR96.8294.9395.8796.5871.0862.56

66.7

11.96M

关键对比:

  • vs RT-DETR基线:mAP50:95 +6.61个百分点,mAP75 +12.53个百分点,参数减少约40%

  • vs YOLO系列最优Hyper-YOLOm:mAP50:95 +1.95个百分点,参数减少64%

  • vs VRF-DETR:mAP50:95 +6.25个百分点,但FLOPs 66.7G vs 44.2G,VRF-DETR计算量更低

DUT-ANTI-UAV公开基准

模型

P(%)

R(%)

F1(%)

mAP50(%)

Params

RT-DETR

89.80

87.60

88.69

92.20

19.9M

UAV-DETR91.2088.6089.8893.4011.96M

Precision +1.4个百分点,F1 +1.19个百分点,mAP50 +1.2个百分点。改进幅度小于自建数据集。

图片来源于原论文


四、消融实验:WTConv贡献最大,混合损失双指标提升幅度最均衡

配置

mAP50(%)

mAP50:95(%)

FLOPs(G)

Params(M)

RT-DETR基线

95.45

55.95

56.9

19.87

+WTConv Block

95.53

59.78

59.2

14.71

+SWSA-IFI

95.73

59.51

52.6

11.45

+ECFRFN

94.63

60.63

66.7

11.96

+InnerCIoU-NWD

96.5862.56

66.7

11.96

  • WTConv Block是mAP50:95提升最大的模块(+3.83个百分点),同时参数从19.87M降至14.71M

  • SWSA-IFI精度变化不大,但效率贡献显著:FLOPs降至52.6G,参数降至11.45M

  • ECFRFN提升mAP50:95 +1.12个百分点,但mAP50略降1.1个百分点

  • InnerCIoU-NWD在mAP50(+1.95)和mAP50:95(+1.93)两个指标上的提升幅度最大且最均衡(WTConv Block也同时提升了两个指标,但mAP50仅+0.08)


五、总结与思考

UAV-DETR以11.96M参数(减少约40%)实现了62.56%的mAP50:95(+6.61个百分点),在自建数据集和DUT-ANTI-UAV公开基准上均优于RT-DETR和多个YOLO变体。

几个值得关注的设计选择:

小波变换卷积的实用价值。WTConv Block是消融中贡献最大的模块,不仅提升精度还减少参数。将频域分析引入骨干网络,对小目标检测具有天然适配性——小目标的区分性信息往往集中在高频子带。这一思路对其他小目标检测任务(如遥感、医学影像)也有借鉴意义。

局部注意力 vs 全局注意力的权衡。SWSA-IFI的消融表明,在小目标主导的场景中,全局注意力并非最优选择。限制注意力范围不仅节省计算,还能防止小目标特征被稀释。

混合损失的互补性。NWD解决不重叠框的梯度消失(对训练早期有利),InnerCIoU强化高IoU区间的精细定位(对训练后期有利),两者互补效果明确。

需要注意的局限:自建数据集目前仅发布代码未公开数据,外部复现需依赖DUT-ANTI-UAV;大部分模型从零训练(4个收敛困难的模型使用了预训练权重),这一混合设置下的对比需要注意公平性;FLOPs(66.7G)高于VRF-DETR(44.2G)和RT-DETR(56.9G),在对计算量敏感的边缘部署场景中需要权衡。

http://www.jsqmd.com/news/584056/

相关文章:

  • HPMSM的飞轮储能并网控制simulink仿真 MATLAB R2021b搭建
  • 激光切管卡盘:优特卡如何助力管材加工效率升级
  • 从零基础到PLC工程师:2026苏州3个月速成学习路径全解析
  • 基于域名分流的智能DNS
  • 2026年比较好的影像测量仪实力工厂推荐 - 品牌宣传支持者
  • 车辆动力学模型:Carsim与Simulink联合仿真解析空间位姿及速度随时间变化的动态特征
  • 基础ret2libc
  • 3.3 “给 Agent 一台电脑“——MCP 协议与开发者工具链深度集成
  • OpenClaw任务监控:gemma-3-12b-it执行日志的可视化分析
  • 高端制造企业如何设计薪酬体系吸引和留住高技能人才?
  • Serie嵌入式时间序列库:面向LPWAN的轻量级压缩框架
  • 2026二手名表回收鉴定实战:机芯、外观等多维度鉴定要点解析
  • 12306高铁票API预定接口开发文档
  • 【图书推荐】《Python大数据分析师的算法手册》
  • 重磅发布|中国移动智慧城市低空应用人工智能安全白皮书来袭
  • OpenClaw技能市场:Top10 Qwen3.5-9B实用插件推荐
  • 代码随想录算法训练营第十七天| LeetCode 654 最大二叉树、LeetCode 617 合并二叉树、LeetCode 700 二叉搜索树中的搜索、LeetCode 98 验证二叉搜索树
  • idea低版本用高版本的jdk
  • 3.2 虚拟文件系统设计:工作空间隔离与产物版本管理的工程实践
  • COMSOL天然气水合物温压力化四场耦合模拟那些事儿
  • OpenClaw成本优化方案:千问3.5-27B自建接口替代OpenAI
  • 在银滩附近玩,周边有什么好吃的推荐?
  • 软考中级九大科目资料合集!当初翻遍全网整理的,现在一次性无偿分享
  • OpenClaw安全防护指南:Qwen3-14B私有镜像的权限管控策略
  • 北海哪里有本地人常去的、不宰客的海鲜大排档?
  • 如何通过AI销冠系统和AI提效软件系统赋能数字员工实现销售效率飞跃?
  • 大子刊nc复现:连续介质中束缚态驱动下的平面手征超表面,展示最大和可调谐的三次谐波、本征手性B...
  • Linux使用pidof命令来快速查找进程id
  • 安恒网络运维管理系统的设计与实现
  • 哪些降重软件可以同时降低查重率和AIGC疑似率?2026届TOP5硬核评测与选择建议