当前位置：首页 > news >正文

【YOLO11-MM 多模态目标检测】动态门控MCFGatedFusion特征融合【自研模块】、抛弃Concat、实现特征动态补偿

news 2026/3/27 5:24:08

摘要

本文提出了一种基于动态门控特征融合模块（MCFGatedFusion）的YOLO11-MM多模态目标检测框架改进方案。该模块通过可学习的门控机制实现红外与可见光特征的自适应融合，采用零初始化策略确保训练稳定性，支持add和concat两种融合模式。实验表明，该方法在FLIR、M3FD等数据集上有效提升了检测性能，同时保持较低计算开销。文章详细介绍了模块实现原理、代码集成步骤和训练配置，为多模态目标检测研究提供了实用的工程实践参考。

一、引言

本文围绕YOLO11-MM 多模态目标检测框架的结构改进与性能优化展开研究，重点探讨通过引入动态门控 MCFGatedFusion 特征融合模块，实现红外（Infrared）与可见光（Visible）特征之间的高效交互与深度融合，从而提升模型在复杂场景下的目标检测鲁棒性与整体准确性。

在具体实现层面，本文系统分析了MCFGatedFusion 在红外–可见光特征融合中的应用方式及其插入位置，旨在探索一种兼顾性能与效率的多模态融合策略。基于多组对比实验，本文采用中期融合（Middle Fusion）作为主要实现方案，并在特征金字塔的P4 与 P5 层进行高效融合，以充分利用中高层语义特征与跨模态互补信息。

需要特别说明的是，本文实验所采用的数据集为FLIR 数据集的子集，而非完整 FLIR 数据集。在进行实验复现或进一步扩展研究时，读者需注意数据划分与配置设置上的差异，以避免因数据规模或分布不一致而导致的结果偏差。希望本文的研究思路与工程实践经验，能够为多模态目标检测领域的研究者与工程实践者提供具有参考价值的技术借鉴与实现范式。

二、动态门控特征融合模块（ MCFGatedFusion）

一、核心思想（MCFGatedFusion × YOLO11-MM × 多模态融合）

动态门控特征融合模块MCFGatedFusion的核心思想是：通过可学习的门控机制，对副模态特征进行动态调制，在保持主模态特征稳定性的前提下，实现红外与可见光信息的自适应融合，从而避免传统 Concat 或直接相加带来的噪声放大问题。

在 YOLO11-MM 多模态目标检测框架中，MCFGatedFusion 通常将其中一路特征作为主模态（main branch），另一模态作为辅助模态（aux branch），通过一个轻量级卷积门控函数生成融合权重：

并与主模态特征进行加权融合：

其中门控卷积采用**零初始化（zero_init）**策略，使网络在训练初期等价于单模态结构，随后逐步学习引入副模态信息。这一设计在 FLIR、M3FD、LLVIP 等多模态数据集中尤为重要，可有效避免训练早期跨模态不对齐导致的不稳定问题。

二、突出贡献（MCFGatedFusion 在 YOLO11-MM 中的作用）

MCFGatedFusion 在 YOLO11-MM 框架中在于为多模态特征融合提供了一种“渐进式、可控、工程友好”的融合范式。与基于注意力或 Transformer 的融合方式不同，MCFGatedFusion 不追求复杂的全局建模，而是通过门控机制在局部特征层面实现精细调制，更符合检测网络对稳定性与效率的需求。

从工程实现角度看，该模块具有三点关键贡献：
1）零初始化门控设计：在训练初期显著降低副模态干扰，保证 YOLO11-MM 主干网络的收敛稳定性；
2）灵活的融合形式：支持add与concat两种模式，可根据不同检测层（如 P4 / P5）的语义需求进行配置；
3）低计算开销：仅引入少量卷积与 BN 操作，几乎不增加 FLOPs，适合在中期融合阶段大规模使用。

在 FLIR 数据集中，该模块有效缓解红外热噪声对可见光结构信息的干扰；

在 M3FD 遥感场景中，有助于抑制尺度差异带来的无关响应；

在 LLVIP 场景中，则提升了低照度条件下跨模态融合的稳定性。