当前位置：首页 > news >正文

ECCV 2026 | 从静态拟合到动态分配：AMG-Fuse 用模态贡献Mask破解恶劣天气下的融合难题

news 2026/6/29 18:59:01

导读

雨、雪、雾等恶劣天气会使可见光图像产生雨丝、雾化、过曝以及纹理缺失等问题，并且还会使红外图像中局部对比度降低。对于红外-可见光融合而言，困难之处不在于“把两幅图合并在一起”，而是在于如何进行退化恢复与跨模态互补。

本文提出的方法AMG-Fuse并没有直接使用“先恢复后融合”的两步法，而是在此基础上建立起了一个mask引导下的统一融合框架，在其中一方面用Pseudo Ground Truth来减小训练难度的同时另一方面又用mask去学习各个区域是应该更加相信可见光还是红外。

核心思想可以用一句话来概括：使用模态贡献Mask把伪标签中可见光部分与红外部分分开，并且不让网络记住伪融合图，在恶劣天气条件下能够实现动态地对两种模态进行分配。

核心信息

论文题目

Multi-modality Image Fusion under Adverse Weather: Mask-Guided Feature Restoration and Interaction（恶劣天气下的多模态图像融合：Mask 引导的特征恢复与交互）

作者

Xilai Li、Xiaosong Li*、Haishu Tan、Tao Ye、Huafeng Li、Hongbin Wang

单位

Foshan University；China University of Mining and Technology, Beijing；Kunming University of Science and Technology

代码

https://github.com/ixilai/AMG-Fuse

论文

https://arxiv.org/pdf/2606.26812

关键词

图像融合/恶劣天气/特征恢复/跨模态交互/Mask 引导学习

01｜问题：在恶劣天气的情况下，融合不等于融合

图1 清源监督和伪地面真值监督比较

伪GT不是万能解：IVIF中的模态偏差与动态分配之道

传统红外与可见光融合方法通常默认两模态均处于理想状态，通过L1损失约束融合结果同时逼近可见光和红外图。然而，在雨、雪、雾或夜间低照度等复杂场景下，可见光图像本身已严重退化，直接以退化源图像为监督目标，会使退化伪影“遗传”至融合结果，导致细节丢失与对比度失衡。

如图1 所示，在源图像直接监督下，网络需同时兼顾特征提取与退化去除，优化目标冲突，融合结果中常残留雨痕和色彩失真。为缓解此问题，研究者引入“伪GT”（Pseudo Ground Truth），由清晰源图像经现有融合方法预先生成作为监督目标。图1亦表明，伪GT监督能有效简化优化难度，帮助网络更快地保留全局结构与精细细节，此即引入伪GT的核心动机。

图2 由“伪真实标签”监督在干净场景下产生的模态差异的可视化

然而，伪GT并非完美解。直接以其为监督，虽能保证训练稳定性，却易使网络仅拟合伪GT的静态分布，而忽视红外模态的互补信息。如图2所示，伪GT监督会引入明显的模态偏差：红外热目标的贡献被显著低估，关键行人或车辆区域在融合结果中被弱化甚至丢失，模型未真正学会跨模态的动态分配机制。

针对上述局限，本文提出显式建模各区域对不同模态的依赖程度，并根据退化情况动态调整权重，即引入“模态贡献掩码（Mask）”。通过掩码解耦伪GT中的模态信息，引导网络学习动态跨模态交互，而非死记硬背伪目标分布，从而在退化场景下实现自适应的鲁棒融合。

关键矛盾

恶劣天气融合要同时做到两点：一是在退化的图像里恢复出清晰的特征；二是在红外和可见光之间提取到互相补充的信息。仅仅进行恢复是不够的，仅拟合伪标签也是不行的。

02｜Mask：由伪融合图逆向推理出各个模态所起的作用

图4 Modality-Contribution Mask 和可见光、红外特征分解

论文的主要切入点为：因为融合的结果可以看作是可见光与红外图像的叠加，所以能不能从融合结果里反推出每一个像素点上两种模态各自的贡献度呢？

作者将融合过程建模为近似的线性组合，Mask表示各像素可见光模态的贡献权重：融合结果在某区域更接近可见光，则Mask增大；反之则减小。

此举旨在解决伪GT作为静态黑箱输出，网络仅能拟合其外观而无法感知各模态贡献比例的问题。若不显式解耦，模型易陷入对伪GT的过拟合，丧失跨模态动态分配能力。为此，本文从线性组合假设出发，逆向推导出Mask的闭合近似解，作为可解释的模态分配先验，引导网络关注“各模态如何组合”，而非仅关注“组合结果是什么”。因此，Mask并非抽象注意力图，而是具有明确物理语义的模态分配图。

M为可见光部分所占的比例，1-M为红外部分所占的比例。

本文并没有直接用到(Fuse-IR)/(VI-IR)，而是把FUSE加到了分母里去，来解决由于可见光亮度差异以及分母趋近于零所引起的数值不稳定性问题。

为什么这一环节很重要呢？

Mask可以把Pseudo GT由一张图片分成可见光部分与红外部分。网络学到的不是“伪融合图是什么样子”，而在于“伪融合图里哪一部分是来自于哪一个模态”。

03｜AMG-Fuse：Mask 引导下的特征恢复和交互

图3 AMG-Fuse 整体结构图

AMG-Fuse 主要包括卷积层、残差块、HTB以及MCCA等部分。输入的退化可见光和红外图像首先进行特征提取，然后得到初步融合特征，在此基础上使用Mask-Guided Feature Extraction Module来实现特征恢复以及模态交互。

HTB 是指Histogram Transformer Block，在此过程中会按照像素强度来分层空间特征，并且在不同的强度区间内进行自注意机制，从而捕捉到相隔较远但是退化模式相同的雨、雪、雾等特征。

MCCA 为Masked-Cross-modal-Cross-attention。把红外特征、可见光特征当作Query，把融合后的特征当作Key和Value，并且使用Mask对Query进行加权，以此来告诉网络该区域是应该更加重视可见光纹理还是红外目标。

MCCA 的作用

并不是把两种模态直接拼接在一起，而是在Mask参与下进行跨模态注意，在融合的空间里实现解耦、选择和重组。

MFEM 目标

在同一个模块中完成退化特征恢复与跨模态信息交互的过程，并且不采用两阶段恢复-融合模式来防止错误传播。

04｜训练：伪标签并不是目的，而是一个过程

在训练过程中，作者首先利用已经在一个干净的多模态图像上训练好的融合模型来产生Pseudo Ground Truth，接着根据干净图像与伪融合图来计算出MPse，并且将伪标签中各个模态所起的作用拆分成FVI和FIR。

MGLS的作用就是限制网络输出中可见光部分与红外部分接近该分解的结果。这样就可以用上Pseudo GT稳定的监督来训练模型了，并且不会让模型只去学伪标签的静态像素分布。

FVI、FIR 为伪融合结果中被拆出的模态分配监督。

MGLS使网络学习伪GT背后模态的贡献方式，并不是仅仅去拟合最后的结果图。

图5 Mask×VisibleImage之后的退化抑制效果

而TDAS更多地关注于退化区。论文认为，如果Fuse为清楚融合图的话，那么Mdeg×VIDeg得到的可见光有效分量也应当尽可能地没有退化、清晰。所以作者引入了恢复模型R(.)，并希望VI_F和R(VI_F)要尽量接近。

当Mask选择的是清晰区域的时候，恢复网络前后的差别就比较小；而一旦选择了雨丝、雾化或者噪声等区域，则会出现较大的差异。

λ 会随训练轮数增加而递减，在模型初期利用伪标签进行稳定的学习，在后期主要依靠原始图像来约束。

05｜实验：雪、雨、雾以及实际环境都必须进行验证

图6 Snow/Rain/Haze/Clean 四个场景下的定性比较

论文选取了AWMM-100k中的Snow、Rain和Haze三种类型的天气作为样本，并且每个类型都用了1000张用于训练、150张用来做测试；另外还在真实的退化图片上进行泛化性的检验。在理想的条件下还可以用M3FD、MSRS、LLVIP来加以验证。

所用的方法有LRRNet、Text-DiFuse、EMMA、Text-IF、GIFNet、SAGE和AWFusion等。本文把大部分普通的融合方式都作为AdaIR恢复+融合来作比较。

表1 各种天气条件下定量比较的结果

从量化的结果来看，在三种恶劣天气条件下，AMG-Fuse 的大部分指标都排在了第二名的位置上，并且在雪天、雨天以及雾天的情况下相比于其他的方法分别提高了大约3.67%，3.86%，3.56%。

表2 真实场景下不同方法的定量比较结果

雪天结果

AdaIR 可以去除了雪花但是会使得细节变得不清晰，而 AMG-Fuse 能够更好地保持住重要的结构以及模态之间的互补信息。

雨天结果

去除了雨丝之后常常会出现比较平整的情况，并且有些方法无法很好地凸显出红外线；AMG-Fuse 对于可见光细节与红外纹理之间的关系处理得比较好。

雾天结果

由于雾的影响而造成深度相关的退化现象，在很多情况下都会出现对比度降低或者色彩失真的情况；AMG-Fuse可以很好地抑制住雾化，并且能够产生出自然、有纹理感的融合图像。

06｜消融与下游：Mask 并不是用来装饰的

图7 TDAS/MGLS/MCCA消融实验可视化

表3 各模块的消融实验定量测试结果

消融实验证明：移除TDAS之后，模型没有了恢复任务带来的退化感知约束，融合的结果在结构和视觉质量方面都降低了；移除了MGLS之后，模型更倾向于依靠Pseudo GT的静态分布，在复杂的区域中进行自适应模态分配的能力也减弱了。

去掉MCCA之后，Mask就不能很好地参与到跨模态交互中去，这说明Mask不仅仅用来产生中间的可视化结果，在特征的选择和融合重组过程中也起着作用。

论文也做了下游任务的验证，即目标检测与语义分割。因此，在评价融合图时不能只看一个视觉上的标准；对检测和分割而言，目标边界的清晰度、热目标明显的程度以及结构连贯性都非常重要。

图8 不同方法在目标检测任务上的定性比较结果

表4 在 M3FD 数据集上目标检测性能比较结果

值得注意的限制

论文还提到HTB会增大计算成本。对于224×224输入而言，AMG-Fuse 要求达到242.03G FLOPs和59.74M 参数，后面还需要继续进行轻量化工作。

07｜一句话概括

AMG-Fuse 的主要贡献并不是只提出了一个新融合网络，而是把在恶劣天气下进行多模态融合重新定义为：特征恢复与模态交互要一起完成。

用Pseudo Ground Truth来减小训练难度，并且用模态贡献Mask防止网络被假标签固定住；使用MGLS学习到伪标签中各个模态的分布情况，用TDAS使模型能够察觉并且抑制退化的部分。

也就是说，这篇论文的观点是：不能只教给网络学习“融合图是什么样子”，还要教会它哪些地方可以看见可见光、哪些地方只能看到红外线、哪些地方需要避开通路。

要记住的是

该工作的一个优点就是把Mask由普通的注意力权重提高到模态贡献先验，并且将它同时应用于训练监督以及特征交互之中。

对于图像融合的研究有所启发

在复杂的场景下进行融合，并不是仅仅使用一个大的网络就可以实现的，而要加入可以对模态贡献、退化分布以及任务目标做出有效先验的东西。

END

往期推荐

查看全文

http://www.jsqmd.com/news/1091194/

永不消亡的“数字幽灵”：为什么都2026年了，这个30年前的漏洞依然无处不在？

Netcatty 开源跨平台 SSH 运维客户端完整技术实操指南

5分钟掌握MGit：Android平台最强大的Git客户端全解析

优选冰雪传奇点卡版！原汁原味复古设定，打造纯净开荒体验

打破苹果生态壁垒：3步让Windows电脑成为AirPlay 2投屏中心

W55MH32L-EVB 上手测评：硬件 TCP/IP 加持的以太网单片机，MicroPython 零门槛开发

【云原生与DevOps】01-Docker从入门到实践：镜像、容器、网络三位一体

我把整个代码库喂给 Claude Code，工具超 50 个就静默丢失，这个坑太阴了

2.1 告别“单体应用”：为什么你的记账和炒股混在一起就是灾难

大模型幻觉怎么治？引用溯源兜底实操

PostgreSQL 索引里到底存了什么？

MSP430FR5969 LaunchPad开发板：FRAM与超低功耗设计实战指南

SpringBoot 配置文件详细指南

用 OllamaHub 让 Visual Studio Copilot 可以对接任意模型

超链接以字段（Field）的形式存储。每个超链接字段包含两个核心部分：

德州仪器DRV2667压电触觉驱动器评估与开发全攻略

2026高考志愿资料（本科+专科）免费分享

工业互联网组建与维护全域学习总结、技术体系探究与行业未来发展就业全景分析

很多人一提到“省钱”，第一反应就是别用最新模型。但从一条真实的开发账单看，影响成本的关键，未必只是模型新不新，而是这次请求里有没有把缓存价值吃满。

Shell 脚本从入门到写出第一个自动化脚本

【WorkBuddy专栏50】代码开发技术体系深度分析——前端、后端、全栈、移动端、数据工程，WB和CODEBUDDY谁更擅长？

Win11Debloat：如何用4个步骤让Windows 11运行速度快65%？

第01篇：从一颗芯片看透智能座舱——座舱MCU的“世界观”

基于物联网、时序模型、大模型和智能问数，设备预测性维护【智能体】应用案例

Web安全实战：路径遍历漏洞原理、复现与防御指南

VinXiangQi：基于YOLOv5的中国象棋智能辅助工具终极指南

基于微信小程序的贵阳市特色农产品交易系统的设计与实现

从多引擎探测到优化闭环

SpringBoot 本地项目部署云服务器 + 公网域名流程

用 Claude Opus 4.8 辅助故障复盘：从告警日志到可验证 RCA 的一套工作流

导读