当前位置: 首页 > news >正文

多模态与频域

WaveFusion: A Novel Wavelet Vision Transformer With Saliency-Guided Enhancement for Multimodal Image Fusion

2025年IEEE发表的一篇多模态图像融合方向的创新工作,结合了小波变换(Wavelet)、Vision Transformer(ViT) 和 显著性引导增强(Saliency-Guided Enhancement) 三大核心技术,旨在解决传统融合方法在细节丢失、伪影、模态不平衡等问题上的局限。


🔍 一、研究背景与问题

📌 多模态图像融合任务

  • 输入:如红外(IR)+可见光(VIS)、PET+CT、SAR+光学等。
  • 目标:生成一张信息丰富、细节清晰、模态互补的融合图像。
  • 挑战:
    • 不同模态空间分辨率/对比度差异大
    • 传统CNN方法局部感受野有限,难以建模长程依赖
    • 融合结果容易模糊、失真、边缘不清晰

🧠 二、WaveFusion核心创新点

模块 功能 创新点
Wavelet Decomposition 将图像分解为低频(结构)+高频(细节) 避免ViT直接处理全图带来的计算冗余
Saliency-Guided Enhancement 用显著性图指导融合权重分配 解决模态不平衡问题(如红外目标突出但背景弱)
Wavelet Vision Transformer(WVT) 在小波域中建模跨模态长程依赖 首次将ViT引入小波子带融合
Dual-Branch Fusion Strategy 分别处理低频(结构)与高频(纹理) 实现结构保留+细节增强的协同优化


🏗️ 三、网络结构概览

Input: IR + VIS ↓ Wavelet Decomposition(DWT) ↓ ┌──────────────┬──────────────┐ │ Low-Freq │ High-Freq │ ← 双分支处理 │ (LL) │ (LH/HL/HH) │ └──────────────┴──────────────┘ ↓ ↓ Saliency-Guided Saliency-Guided Enhancement Enhancement ↓ ↓ Wavelet Vision Wavelet Vision Transformer Transformer ↓ ↓ Cross-Modal Fusion + Attention ↓ Inverse DWT(IDWT) ↓ Output: Fused Image

🧪 四、实验结果(摘要)

数据集 指标 WaveFusion vs SOTA
MSRS(红外+可见光) Qabf↑ 0.85 vs 0.79(SwinFusion)
TNO SSIM↑ 0.92 vs 0.88(U2Fusion)
RoadScene VIF↑ 1.12 vs 0.98(DeFusion)

✅ 结论:在主观视觉质量与客观指标上均优于现有Transformer+CNN方法,尤其在边缘清晰、目标突出、背景自然方面表现突出。


📸 五、可视化效果(文字描述)

  • 红外图像:目标亮但背景模糊
  • 可见光图像:背景清晰但目标弱
  • WaveFusion融合结果:
    • 目标轮廓清晰(红外优势)
    • 纹理细节丰富(可见光优势)
    • 无伪影、无过曝、无模糊边缘

📁 六、代码与复现

  • 官方GitHub:

    🔗 https://github.com/fd-qhwang/WaveFusion

    ✅ 已开源(PyTorch实现,含预训练模型与测试脚本)

  • 支持任务:

    • 红外+可见光融合
    • 医学图像融合(PET+CT)
    • 可扩展至任意双模态

✅ 七、总结一句话

WaveFusion首次将小波变换与Vision Transformer深度融合,并通过显著性引导机制解决模态不平衡问题,在多模态图像融合任务中实现了结构保留与细节增强的双重突破,是当前Transformer+融合领域的强有力基线。


http://www.jsqmd.com/news/326616/

相关文章:

  • 工业触摸屏:投影电容式触摸屏(PCAP)原理详解
  • 【无人机控制】无人机集群完成污染物云团的追踪与监测任务,无人机动力学模型、机间通信协议、电池续航限制、云团扩散模型附Matlab代码
  • 多项式综合例题
  • MultiGeometricSynergy-AIPrognosy: 基于仿射几何、复流形几何、微分几何与谱几何4维空间协同感知的机械故障诊断方法(Python)
  • 开源链动2+1模式商城小程序在深度分销数字化转型中的应用研究
  • 深入解析:ShardingSphere数据库中间件:入门与使用
  • 01-NET10简介与环境搭建
  • 【小程序毕设源码分享】基于springboot+Android的考试模拟系统的设计与实现(程序+文档+代码讲解+一条龙定制)
  • 【小程序毕设源码分享】基于springboot+Android的建筑工地施工项目管理系统的设计与实现(程序+文档+代码讲解+一条龙定制)
  • 全网最全8个降AI率平台 千笔AI助你高效降AIGC
  • 02-CSharp基础语法快速入门
  • 【小程序毕设源码分享】基于springboot的博物馆预约管理小程序的设计与实现(程序+文档+代码讲解+一条龙定制)
  • 量子纠缠态与AI意识模型的探索
  • 为什么说量子AI是下一个“ChatGPT时刻“
  • 量子算法如何优化深度学习训练?
  • 深入浅出鞍点系统(Saddle Point Problems)
  • 手机在网状态查询接口对接详细流程 - 指南
  • delphi自带双列ListBox的Demo
  • 炒股不是表演,而是埋伏
  • 学霸同款8个降AIGC工具 千笔·降AIGC助手帮你降AI率
  • 开年必看!2026年1月催化燃烧厂商推荐,沸石转轮+CO/RTO/旋风除尘器/沸石转轮/活性炭箱,催化燃烧厂家有哪些
  • 北京儿童摄影品牌星级排名 | 5分制评分综合实力与口碑双认证
  • 电缆敷设机就找长云科技
  • 2026.1.31 网络流写题总结
  • 导师推荐!实力封神的AI论文网站 —— 千笔·专业学术智能体
  • 集信达短信平台-1
  • 家庭除螨怕刺激?除螨喷雾哪个牌子靠谱?2026十大除螨喷雾品牌排行榜,仙贝宁登顶销量冠军
  • AI革命下,华硕天选Air 2026如何成为“私人服务器”?
  • Java 反射详解
  • PHP 安全编程实战:防范 SQL 注入与 XSS 攻击的核心指南