当前位置: 首页 > news >正文

【YOLOv12多模态融合改进】| TGRS 2025 HFFE分层特征融合编码器 双模态注意力加权 + 跨尺度对齐融合,强化弱小目标多模态特征互补

一、本文介绍

本文记录的是利用分层特征融合模块HFFE改进YOLOv12的可见光-红外双模态目标检测

HFFE(Hierarchical Feature Fusion Encoder)通过可见光-红外特征分辨率对齐、空间注意力模态筛选与坐标注意力位置编码结合自适应完成深浅层双模态特征加权交互,打通可见光纹理与红外热辐射信息融合通路。本文利用HFFE模块,先通过双线性插值统一不同层级可见光、红外特征空间尺度,再借助空间注意力分别滤除两类模态无关背景,生成跨模态空间权重矩阵动态分配模态特征贡献,依托坐标注意力留存多模态小目标空间位置信息,针对性增强红外弱小目标热特征与可见光轮廓纹理,同步抑制可见光杂波、红外热云无效背景干扰在编码器分层融合阶段实现双模态细节与全局热语义高效互补,解决传统单尺度拼接带来的模态语义错位问题,大幅提升复杂暗光、海面云层场景下多模态红外小目标检测精度。


专栏目录:《多模态模型改进》目录一览 | 专栏介绍 ,多模态的全方位改进,提供多模态模型改进完整项目包-开箱即用

专栏地址:YOLO系列模型的多模态融合改进——极易上手、非常好发文的多模态改进教程!

文章目录

  • 一、本文介绍
  • 二、HFFE介绍
    • 2.1 设计出发点
    • 2.2 模块结构
    • 2.3 模块优势
  • 三、HFFE实现代码
  • 四、添加步骤
    • 4.1 修改一
    • 4.2 修改二
    • 4.3 修改三
  • 五、yaml模型文件
    • 5.1 中期融合⭐
    • 5.2 中-后期融合⭐
    • 5.3 后期融合⭐
  • 六、成功运行结果

二、HFFE介绍

2.1 设计出发点

可见光模态富含纹理、边缘细节,但低照度、云雾场景目标对比度极低;红外模态突出热辐射弱小目标,但缺失场景纹理与空间轮廓。传统同尺度跳跃连接仅简单拼接两类模态单层特征,存在三大缺陷:

  1. 高低层级、双模态特征语义鸿沟大,直接融合会引入可见光杂波与红外背景噪声;
  2. 无法自适应区分可见光纹理特征、红外热目标特征的贡献度,弱小目标易被可见光细节淹没;
  3. 缺少跨层级、跨模态双向交互,不能同步聚合浅层多模态细节与深层全局热语义。
    因此设计HFFE,依托空间+坐标双注意力实现可见光-红外多模态分层自适应融合,对齐不同尺度双模态特征、区分模态专属有效信息,抑制两类模态冗余背景干扰。

2.2 模块结构

HFFE(Hierarchical Feature Fusion Encoder)分层特征融合编码器:

  1. 多模态分辨率对齐:输入可见光浅层细节特征、红外深层语义特征,对高层红外特征双线性上采样匹配浅层可见光尺寸,消除模态尺度差;
  2. 双注意力精炼:分别对可见光、红外特征执行空间注意力SAM过滤背景,再生成跨模态空间权重矩阵SWM双向加权;
  3. 坐标注意力跨模态关联:编码可见光轮廓、红外热目标横竖空间位置,保留多模态小目标定位信息;
  4. 分层融合输出
http://www.jsqmd.com/news/1119497/

相关文章:

  • 扣子3.0来了:从“单兵作战“到“AI团队操作系统“,一个300+技能创作者的深度体感
  • HardFault 怎么定位?不用仿真器也能找到死机位置
  • TRAE Work(工作版)vs Code(编程 / 代码版)完整区别
  • 初探领域驱动设计(1)为复杂业务而生
  • SonicNote聆犀AI录音卡 × Obsidian × Claudian:三件套,录音即笔记,笔记即知识
  • Linux 扩展篇:VsCode安装配置
  • 机器学习建模_agent-data-ml-model
  • Python之struvolpy包语法、参数和实际应用案例
  • NVIDIA RTX Spark 与 Rubin 架构深度解析:AI Agent 时代端侧计算范式重构
  • 【安心陪诊 Agent】从 Web Demo 到 HAP 真机:安心陪诊 Agent 的工程落地路线
  • 永磁同步电机LADRC控制策略解析与Simulink实现
  • 永磁同步电机模糊PI控制与SVPWM技术详解
  • 计算机系统运维核心技术栈
  • 豆包 内容粘贴后符号丢失怎么办?AI 导出鸭三步修复粘贴格式与符号
  • 戴森球计划工厂蓝图库:3步打造高效星际工厂的革新性方案
  • 高频厚铜板VCP电镀工艺核心要点与解决方案
  • pytest-sugar插件深度解析:自定义主题、CI集成与Playwright测试优化
  • 【关注可白嫖源码】--课程设计--毕业设计--django大学生健康信息可视化管理系统[编号:project35522](案例分析)
  • 010-伟大的解释者
  • 【MATLAB例程|车联网6】考虑调头车流扰动与网联车辆实时感知信息的干线多交叉口 FAC-CV 全感应协调控制仿真与性能对比分析
  • Burp Suite插件实战指南:从信息收集到漏洞挖掘的效率提升
  • 2026信息系统与计算技术国际会议(ISCTech 2026)学术交流分享
  • 分布式系统网关和物联网网关
  • LangChain 框架上手难吗,看完这几个实战案例你就懂了
  • 软件测试入门——第二十课(接口测试基础)
  • 【JavaScript 标签(Label)完全指南:语法、使用场景、作用与意义|告别多层循环跳转难题(面试必刷)】
  • 【机器学习】万字长文详解集成学习 Ensemble Learning:从 Bagging、Boosting 到 Stacking 的全解析
  • 基于 Simulink 的直流微电网中双向 DC-DC 变换器下垂控制(Droop Control)仿真实战教程
  • Gemini 转 Word 工具推荐?AI 导出鸭硬核测评,告别格式乱码
  • 可白嫖源码---课程设计--毕业设计--springboot社区宠物服务系统[编号:project26105](案例分析)--附源码