【2026】SARES-DEIM:稀疏混合专家与DETR结合的鲁棒SAR舰船检测
SARES-DEIM:稀疏混合专家与DETR结合的鲁棒SAR舰船检测
论文基本信息
英文标题:SARES-DEIM: Sparse Mixture-of-Experts Meets DETR for Robust SAR Ship Detection
中文标题:SARES-DEIM:稀疏混合专家与DETR结合的鲁棒SAR舰船检测
论文链接:https://arxiv.org/abs/2604.04127
发表信息:发表于IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing(JSTARS),10页,4图
作者信息:Fenghao Song, Shaojing Yang, Xi Zhou(云南师范大学)
摘要分析
该论文针对合成孔径雷达(SAR)图像中的舰船检测问题提出了创新的解决方案。SAR图像检测面临三大核心挑战:固有的相干散斑噪声、复杂的沿海杂波干扰以及大量小尺度目标的存在。传统检测器主要针对光学图像设计,在面对SAR特有的图像退化时表现出较差的鲁棒性,同时在空间下采样过程中容易丢失细粒度的舰船特征。
针对上述问题,论文提出了SARES-DEIM框架,这是一个基于DEtection TRansformer(DETR)范式的领域感知检测框架。其核心创新包括两个关键技术模块:
SARESMoE模块(SAR-aware Expert Selection Mixture-of-Experts):利用稀疏门控机制将特征选择性路由到专业的频域和小波域专家,实现了对散斑噪声和语义杂波的有效过滤,同时保持了较高的计算效率。
SDEP颈部结构(Space-to-Depth Enhancement Pyramid):通过Space-to-Depth卷积将浅层高分辨率空间信息无损注入检测金字塔,显著提升了小目标的定位精度。
在HRSID数据集上的实验结果表明,该方法达到了mAP50:95为76.4%、mAP50为93.8%的优异性能,超越了现有的YOLO系列和专用SAR检测器。
研究现状
YOLO系列与DETR风格检测器在SAR检测中的比较
当前SAR舰船检测主要遵循两种技术范式:
YOLO系列检测器作为一阶段检测器的代表,已被广泛应用于海上监视领域。这类方法通常依赖于预定义锚框和非极大值抑制(NMS)等密集先验来解析多个检测结果。虽然在某些场景下表现有效,但这种人工程设计组件在面对异构SAR传感器时往往泛化能力有限,在密集舰船聚集、散射信号重叠的复杂场景中可能导致严重的漏检问题。
DETR系列检测器通过将检测任务形式化为二分图匹配问题,消除了对锚框和NMS的依赖,提供了端到端的简化框架。DEIM和D-FINE等框架进一步发展了密集一对一匹配机制和基于分布的定位细化,为高精度目标检测建立了强有力的基线。然而,这些通用的DETR变体主要针对光学图像设计,对SAR目标的独特物理散射特性缺乏专门考虑。
特征融合与条件计算
有效的多尺度表示和自适应建模对于处理舰船的尺度变化和SAR背景的高度非均匀性至关重要。传统的特征金字塔结构(如FPN)虽然能有效聚合多尺度语义,但往往因激进的步长下采样而遭受结构信息损失。
自适应条件计算在图像编辑、布局一致性生成和细粒度服装合成等广泛视觉任务中展现了强大的有效性。混合专家(MoE)范式通过稀疏自适应路由为扩展模型容量提供了天然机制。然而,传统MoE门控通常仅依赖空间特征,可能忽略SAR目标独特的频域散射特性,导致在复杂海上场景中产生次优的专家选择。
创新点分析
1. 领域感知的专家选择机制(Domain-Aware Expert Selection)
论文指出,SAR检测的主要挑战在于异构海上场景中不同的表示需求。离岸目标需要鲁棒的频域滤波来抑制散斑,而近岸目标则需要高分辨率的空间辨识能力来区分船体与视觉上相似的港口基础设施。
基于这一洞察,论文采用分治策略,通过MoE哲学实现特征的自适应分解。SARESMoE模块通过引入专门的频域、空间域和小波域专家,配合稀疏路由机制,使模型能够根据局部散射上下文自适应地分解特征。这种稀疏激活不仅最小化了冗余计算,还通过领域特定的特征细化实现了对散斑噪声和语义杂波的同步抑制。
2. 物理可解释的专家设计(Physically-Explainable Expert Design)
论文设计了正交的专家架构,通过尺度感知分配策略进行分配:
P3层(小波与空间专家):浅层包含对散斑高度敏感的小型舰船。采用WTConv作为小波专家执行可学习的软阈值去噪,同时利用GhostNet模块作为空间专家来保留细粒度结构细节。
P4/P5层(频域与混合专家):深层需要全局频域滤波来处理复杂海杂波。采用FADC的频域选择机制构建频域专家,执行多尺度频域选择滤波来自适应抑制频谱杂波。混合专家则结合并行的频域和小波域分支来处理复杂多尺度散射场景。
3. Space-to-Depth增强金字塔颈部(SDEP Neck)
论文发现标准骨干网络的激进下采样通常会丢弃对小型舰船定位至关重要的细粒度线索。SDEP颈部通过Space-to-Depth卷积将高分辨率P2层(1/4尺度)的信息无损注入检测金字塔,建立了一种理论上无损的细节传输机制,确保了小目标结构完整性的保留。
4. 双分支融合路由机制(Dual-Branch Fusion Routing)
论文提出的SAR感知路由器采用双分支设计,同时整合频域和空域分析。这种协同设计通过紧密整合频谱能量分布和空间对比度的同时提取,显著抑制了误报,在异构海上场景中实现了精确的专家分配。
数据集分析
HRSID数据集
HRSID是高分辨率SAR舰船检测数据集,包含5,604个图像切片和16,951个舰船实例。这些图像切片从Sentinel-1和TerraSAR-X全景图像中裁剪得到,空间分辨率从1米到5米不等,涵盖了离岸和近岸等多种场景,为多尺度评估提供了丰富的测试条件。
SAR-Ship-Dataset
该数据集包含43,819个舰船切片,从102幅高分三号(Gaofen-3)和108幅Sentinel-1图像中提取。分辨率跨度从3米到25米,并包含多种极化模式,使其成为评估跨传感器自适应表示能力的理想测试平台。
两个数据集的对比分析
| 特性 | HRSID | SAR-Ship-Dataset |
|---|---|---|
| 图像切片数量 | 5,604 | 43,819 |
| 舰船实例数量 | 16,951 | - |
| 数据来源 | Sentinel-1, TerraSAR-X | Gaofen-3, Sentinel-1 |
| 分辨率范围 | 1-5米 | 3-25米 |
| 极化模式 | 多种 | 多种 |
| 场景类型 | 近岸、离岸 | 多传感器综合 |
两个数据集各有侧重:HRSID更适合评估高分辨率精细检测能力,而SAR-Ship-Dataset更适合评估跨传感器泛化性能。SARES-DEIM在两个数据集上都展现了优异的性能,表明其具有较强的领域适应能力。
算法结构分析
整体架构
SARES-DEIM采用端到端集合预测范式。首先,骨干网络提取多尺度特征图{F2, F3, F4, F5},其中Fℓ表示金字塔层级ℓ的特征,空间步长为sℓ=2^ℓ。
为适应SAR图像独特的散射特性,SARESMoE模块被集成到骨干网络的深层。该模块通过显著扩展模型处理非均匀背景的容量,实现样本自适应的表示学习。随后,SDEP颈部聚合这些多尺度特征,特别地,SDEP将高分辨率细粒度线索从F2显式注入检测金字塔,以提升小型舰船的定位精度,生成统一通道维度d的精炼特征集{P3, P4, P5}。
最后,DETR风格解码器处理N个目标查询,针对这些金字塔特征产生预测集。
SARESMoE模块详解
SARESMoE包含一个共享专家(用于维持一致的语义表示)和一组由SAR感知路由器管理的稀疏专家。
路由器机制:路由器通过全局平均池化生成全局上下文描述符,并将其投影到概率单纯形上。路由logits和概率的计算采用温度参数控制的Softmax函数,并使用Top-k门控策略配合重新归一化。
输出公式:最终输出结合了共享路径和稀疏路径,其中共享专家整合了受频域-空域注意力(FSA)启发的通道注意力机制,用于抑制常见背景噪声。
SDEP颈部详解
SDEP的核心是Space-to-Depth(SPD)操作,该操作将空间像素无损重排到通道维度。对于高分辨率骨干特征F2,SPD变换将其reshape为4C2×(H2/2)×(W2/2)的张量,其中每个2×2空间邻域被堆叠到通道轴上。该操作将空间分辨率减半以匹配P3步长,同时在扩展的通道维度中严格保留所有空间信息,避免了通常会破坏细粒度散射特征的损耗池化或步长卷积。
变换后,应用1×1卷积将扩展通道投影回目标维度d,并与P3特征融合。丰富的P3随后参与标准双向融合路径,产生最终金字塔{P3, P4, P5}。
实验结果分析
HRSID数据集上的性能对比
SARES-DEIM在HRSID上建立了新的最优性能,在所有评估指标上均排名第一。具体性能指标如下:
- mAP50:95:76.4%
- mAP50:93.8%
- 精确率:93.1%
- 召回率:88.0%
与各类检测器对比:
- 相比SAR专用方法SAR-D-FINE,mAP50:95提升4.4%(76.4% vs 72.0%)
- 相比CSCF-Net,mAP50提升2.3%(93.8% vs 91.5%)
- 相比DETR风格基线DEIM,mAP50:95提升3.4%
- 在所有YOLO系列检测器中也保持领先
SAR-Ship-Dataset上的性能对比
在高度多样化的SAR-Ship-Dataset上,SARES-DEIM展现了出色的跨多传感器场景鲁棒性:
- mAP50:95:71.7%
- mAP50:98.1%
- 精确率:96.7%
- 召回率:96.2%
相比YOLOv8和YOLOv11,mAP50:95分别提升5.5%和5.4%。与最强DETR风格基线DEIM相比,mAP50:95提升0.4%,表明SARESMoE和SDEP的改进可泛化到多传感器场景。
消融实验分析
模块级消融
SDEP的有效性:单独集成SDEP使mAP50:95提升1.9%(74.9% vs 73.0%),召回率提升2.9%,APsmall提升2.7%,证实了P2层高分辨率信息对小型舰船定位的关键作用。
SARESMoE的分层放置:在P3引入SARESMoE带来1.7%的mAP50:95提升(74.7% vs 73.0%)。仅在P3+P4而不包含P5会导致性能略微下降,只有当深层P5频域专家存在时,mAP50:95才能达到75.3%。
SDEP与SARESMoE的协同:完整SARES-DEIM模型达到最优mAP50:95(76.4%)和最高APsmall(77.0%),证实了两个模块的互补关系。
路由机制分析
朴素路由的影响:均匀门控(无路由器)仅获得75.0%的mAP50:95。标准MLP路由器虽将mAP50:95提升至75.2%,但精确率严重下降至86.6%。
单分支vs双分支:仅使用频域分支或仅使用空间分支分别获得75.3%和75.7%的mAP50:95,但精确率都约为87%。
双分支融合的优势:双分支融合实现93.1%的精确率和76.4%的mAP50:95,证实了频域和空域分析的同步提取对于异构海上场景精确专家分配至关重要。
SDEP融合策略分析
有损下采样的影响:使用标准步长下采样或条纹卷积时,虽然召回率略微提升,但精确率严重下降(至86.3%和86.8%),mAP50:95降至基线以下。
SDEP的优越性:Space-to-Depth变换完全恢复并超越了精确率,达到93.1%的峰值,同时获得最高的mAP50:95(76.4%)和召回率(88.0%)。
专家组成分析
均匀共享专家配置:所有稀疏专家全局替换为共享专家时,性能为74.5%,虽优于基线但仍比完整SARESMoE低0.8%,证实了专门异构专家的必要性。
P3层专家专化:仅使用空间专家导致mAP50:95下降1.5%,而仅使用小波专家虽召回率更高,但整体性能仍不及完整配置。
P4/P5层专家专化:P4层混合专家略优于频域专家(P4: 74.2% vs 73.9%),而P5层频域专家优于混合专家(74.6% vs 73.8%),表明深层全局频域滤波更为关键。
可视化分析
图1:SARES-DEIM整体架构
图1展示了SARES-DEIM的完整架构。架构的核心聚焦于领域特定的特征增强和高分辨率空间线索保留。从图中可以清晰看到SARESMoE模块如何集成到骨干网络的深层阶段,以及SDEP颈部如何将P2层的高分辨率信息注入到检测金字塔中。
架构流程概括如下:
- SAR图像输入骨干网络,提取多尺度特征{F2, F3, F4, F5}
- SARESMoE模块对深层特征进行领域感知的专家选择处理
- SDEP颈部通过Space-to-Depth变换将F2的细粒度信息注入P3
- 精炼的特征金字塔{P3, P4, P5}送入DETR解码器
- 最终输出舰船检测结果
图2:检测结果定性对比
图2展示了在HRSID数据集上的定性检测对比,采用3×6网格布局。行从上到下分别代表真值(GT)、DEIM基线和SARES-DEIM,六列展示了不同复杂度的海上样本。
观察到的关键现象:
标准海上场景:在大多数孤立目标和高密度目标场景中,基线和SARES-DEIM都展现出高召回率,成功捕获所有目标而未出现明显误检或漏检。然而,在定位精度上存在显著差异。得益于SDEP颈部保留高分辨率空间线索的能力,SARES-DEIM产生的边界框与目标船体具有更紧密的贴合度。
挑战性场景:在最具挑战性的近岸强散射和多舰重叠场景中,两个框架都遇到一定检测困难。SARES-DEIM虽在环境复杂性增加时出现个别目标漏检和误检,但展现出明显更强的鲁棒性。基线预测表现为频繁的由沿海基础设施触发的冗余误报,而SARES-DEIM有效抑制了这些杂波诱导误差。
边界框质量:SARES-DEIM的边界框与目标边界展现出更优的对齐度,黄色椭圆标注的漏检和红色椭圆标注的误检明显减少。
图3:专家级激活分析
图3展示了在HRSID上各专家配置的类激活映射(CAM)可视化。九种配置包括:均匀共享专家、P3/P4/P5各层专门专家、均匀门控基线和完整SARESMoE。
关键观察:
均匀共享专家:提供广泛、中等强度的激活,作为稳定的语义基础。然而在近岸区域响应不足,在沿海结构上保留残余激活,证实其作为基线语义提取器而非精确SAR感知滤波器的定位。
P3层专家专化:
- 空间专家描绘目标边界但遭受散射高频噪声
- 小波专家产生更清洁的热图,有效抑制散斑
P4层专家专化:
- 频域专家提供有效的中层频谱滤波
- 混合专家保留更多结构细节
P5层专家专化:频域专家通过抽象全局频谱正则化展现最强的背景抑制能力,优于更分散的混合专家。
均匀门控vs完整SARESMoE:均匀门控导致目标强度减弱和显著背景语义泄漏,而完整SARESMoE产生集中在舰船目标上、高强度、彻底抑制背景噪声的激活。
图4:模块级消融可视化
图4展示了对应关键配置的模块级消融可视化,每列展示检测边界框(顶部)和对应CAM热图(底部)。
四行配置对比:
基线(Row a):热图激活分散到周围海面和沿海背景,边界框相对宽松未能紧密包裹舰船,"语义泄漏"限制了mAP50:95性能。
基线+SARESMoE(Row b):杂波诱导的误报显著减少,热图显示更清洁的深蓝色海面。得益于纯化的特征表示,检测框展现出改进的目标边界对齐。
基线+SDEP(Row c):目标相关激活变得更集中和结构化,高分辨率空间细节被更精细地传递到解码器。边界框明显收紧,虽然缺少专家过滤导致一些背景噪声,但舰船目标定位明显细化。
完整SARES-DEIM(Row d):CAM热图实现最大目标聚焦,背景区域几乎零激活。检测输出获得最高IoU分数,边界框精确"包裹"目标。这一结果量化证实了两个模块的互补关系:SDEP确保精确结构基础的保留,SARESMoE作为选择性过滤器保护这些线索免受SAR特定噪声影响。
结论
SARES-DEIM通过重新审视复杂SAR环境中的表示瓶颈,提出了两个关键创新:
SARESMoE模块:通过动态路由特征到专门的频域和小波域专家,有效抑制相干散斑噪声和沿海杂波,通过扩展的模型容量增强特征表示。
SDEP颈部:利用Space-to-Depth卷积将高分辨率空间细节无损传输到预测头,克服了小目标普遍漏检的问题。
在HRSID和SAR-Ship-Dataset上的广泛评估证明了SARES-DEIM的有效性。在HRSID上,方法达到76.4%的mAP50:95和93.8%的mAP50,超越现有YOLO系列、DETR变体和SAR专用检测器,在所有评估指标上排名第一,为高精度海上监视建立了新的性能基线。
未来工作将把这种领域感知路由机制扩展到多模态(SAR-光学)融合场景,并进一步研究平衡跨不同部署平台表示能力与计算需求的架构优化。
技术细节汇总
| 组件 | 技术要点 |
|---|---|
| 基础框架 | DETR端到端检测范式 |
| 骨干网络 | 多尺度特征提取(F2-F5金字塔) |
| SARESMoE | 稀疏门控、频域/小波域专家、尺度感知分配 |
| SDEP | Space-to-Depth变换、无损下采样、P2→P3信息注入 |
| 训练配置 | AdamW优化器、300 epochs、batch size 8、640×640输入 |
| 评估指标 | mAP50:95, mAP50, Precision, Recall, APsmall |
