当前位置：首页 > news >正文

顶刊TPAMI！打破“深度学习=黑盒“的范式！国防科大揭示红外弱小目标检测一关键归因

news 2026/7/3 19:53:10

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用！发论文/搞科研/涨薪，强烈推荐！

转载自：遥感与深度学习

在军事侦察、海上搜救、无人机监控等关键场景中，红外小目标检测技术是实现"千里眼"的核心能力。然而，现实情况令人沮丧：当目标信噪比极低时，现有算法常常失效——要么误将动态杂波或噪声当作目标，要么彻底漏检真正的威胁。更令人困惑的是，这些深度学习模型究竟是"看到了什么"才做出判断的？没人说得清楚。国防科技大学最新研究成果《Probing Deep into Temporal Profile Makes the Infrared Small Target Detector Much Better》（DeepPro）为这一系列难题提供了系统性的新答案。

题目：Probing Deep into Temporal Profile Makes the Infrared Small Target Detector Much Better

期刊：IEEE Transactions on Pattern Analysis and Machine Intelligence

论文：

https://arxiv.org/abs/2506.12766

项目：

https://tinalrj.github.io/DeepPro/

代码：

https://github.com/TinaLRJ/DeepPro

年份：2026

作者：李若敬，安玮，王应谦，应昕怡，戴一冕，王龙光，李淼，郭裕兰，刘丽

痛点：红外小目标检测的“三重挑战”

红外弱小目标检测（IRST）长期面临一个核心困境——精度、鲁棒性、效率三者难以兼得。论文指出，这一困境的根本原因在于目标与场景自身特性所带来的三大固有挑战：

高精度挑战
目标本身极小（通常仅占 ≤ 9×9 像素）、极暗（SNR ≤ 3），缺乏形状、纹理等充分的外观特征，难以构建有效的特征表征；同时，背景往往不平滑、不均匀，充斥着杂波和噪声，它们几乎占据整幅图像，且部分与目标高度相似，导致虚警难以抑制。
高鲁棒性挑战
在运动条件下，目标特性随时域演化——目标强度不断变化，其局部背景也在动态改变；此外，实际场景中包含多样的复杂背景（各具不同的杂波特性）和多种灰度分布截然不同的目标，这些复杂因素使得在多样化场景中持续、稳定地检测目标极为困难。
高效率挑战
红外弱小目标检测的应用需要实时处理海量数据流，而目标在空间域上又极其稀疏，因此很难平衡充分的特征提取与高效的计算。现有深度学习方法追求从空域和短时时空域中提取"更多"信息，不可避免地扩大感受野，造成严重计算冗余，更加损害了实时处理能力。

一个根本性问题浮现：在极端复杂场景下，到底哪个建模域能更好地呈现目标？哪种先验信息能更有效地捕获目标与背景之间的本质差异？

图1: 不同域中小目标可视化对比。在空域(c2)和短时时空域(c3)，弱小目标几乎不可见或与干扰无法区分；而在时域剖面(c4)中，目标信号清晰、完整且突出。

突破：从“黑盒炼丹”到“可解释探针”

研究者们往往依靠来自传统领域以及深度学习领域的知识，通过搭建复杂的网络结构期望提取“more”特征。然而，这一路线是否足够明智和高性价比？网络在拟合了大量数据后，到底依赖什么“more essential”信息进行决策？深入探究这些问题对我们理解网络、发现关键决策依据，和解决“三重挑战”问题很重要。

DeepPro 团队没有走“堆叠模块、增大模型”的老路，而是从归因与理论分析出发，首次在红外弱小目标检测领域构建了可解释性分析工具，系统性地回答了两个关键问题：

1. 训练好的网络究竟在“看”什么？

为探究拟合了大量数据的网络以什么信息为关键特征实现检测，团队构建了该领域首个预测归因（Attribution）工具，通过梯度归因揭示网络决策机制。归因分析给出了两点关键发现：

发现一
对网络预测影响最大的像素，集中在目标的时域剖面附近，并沿时间轴成呈圆柱状分布。这意味着网络在做出正确判断时，核心依赖的是目标的时域剖面信息。

图6: 现有网络对目标区域预测的归因可视化。归因结果直观揭示：网络最关注的是目标区域沿时间轴连续分布的像素，这正是时域剖面信息的核心体现。

发现二
时域剖面上参考帧的重要性随时间呈U型曲线变化。在一段时间内，远时刻信息也像近时刻信息一样重要。这说明时域剖面上信号的长期变化对红外小目标检测十分重要。

图7: 平均影响力随参考帧时间的变化。

核心洞察：两点发现共同指向一个结论——时域剖面信息是网络做出正确判断的关键依据。

2. 时域剖面上的“关键信息”是什么？

研究团队从信号处理角度深入分析了红外弱小目标在时域剖面（Temporal Profile）中的特性。时域剖面记录了固定空间位置上所有信号随时间的统计变化。关键发现如下：

全局时域显著性
当弱小目标穿越探测单元时，其强度随时间呈现"先增后减"的规律性波动——这是目标区别于随机噪声的本质特征。在 SNR ≤ 3 的极端条件下，目标在空域几乎不可见，但在时域剖面中依然清晰突出。

图4: 真实复杂场景下，不同 SNR 目标的空域与时域剖面对比。当 SNR < 3 时，空域目标几乎不可见，但时域剖面中目标信号依然显著。

相关性信息
时域剖面中包含目标信号和其他信号之间的相关性信息。即使在强干扰环境下，目标信号仍保持自相关性，并与杂波和噪声信号无关。

图5: 干扰下目标信号的时域剖面可视化图，和目标、噪声、动态杂波之间的相关性分析结果。不同程度干扰下，目标信号始终保持显著自相关性，并与其他信号无关。

因此，充分利用时域剖面上的这些特性能够支撑实现极弱小目标的高精度和高鲁棒检测。

方法：DeepPro——领域首个一维时域探针网络

基于上述归因发现和理论分析，DeepPro 团队将红外弱小目标检测任务重新建模为一维时序信号异常检测问题，并提出了领域内首个仅在时域进行计算的深度时域探针网络（Deep Temporal Probe Network,DeepPro）。

图9: DeepPro 整体框架。TPro（像素级时域探针机制）从时域剖面中提取关键特征，仅通过一维时域乘加运算完成目标检测。

核心创新：像素级时域探针机制（TPro）

图8: TPro 结构图。

TPro 的设计基于信号在时域剖面上的可区分性特性：

时域探针抽取完整时域特征
为输入特征图的每个空间位置抽取其时域特征（固定空间位置 × 时间维），通过时域探针从输入特征中拉取单个像素的完整时域特征，将高维时空内的检测问题转化为一维时序异常检测。
SCorM 提取时域相关性特征
在获得逐像素时域特征后，TPro 应用多个可学习的信号相关性矩阵（Signal Correlation Matrix, SCorM），从时域特征中提取信号间的相关性特征。SCorM 的作用在于：利用前述理论分析揭示的目标信号与噪声/杂波在时域剖面上的相关性差异（目标信号保持自相关性，且与噪声和杂波信号无关），通过学习到的相关性使目标特征被增强、背景特征被抑制，从而在极低 SNR 和强干扰条件下实现可靠的目标-背景分离。

整个 TPro 流程排除任何空间维度计算，所有乘加运算仅在一维时域完成，无需复杂的空间卷积或时空注意力，同时实现了极致的轻量化设计。

结果：精度、鲁棒性、效率全面超越

DeepPro 在多个红外数据集上进行了全面验证，包括 NUDT-MIRSDT、NUDT-MIRSDT-HiNo、IRSDT-simulation、IRSatVideo-LEO、RGBT-Tiny 五大数据集（涵盖仿真数据集和实测数据集，天基视角数据集和陆基、空基视角数据集，显著目标数据集和极低信噪比/高噪数据集）。以下是与现有最优方法的对比结果：

表2: 对比实验结果。

1. 低 SNR 场景下的检测性能

在NUDT-MIRSDT数据集（SNR ≤ 3 的弱小目标）上，DeepPro 的性能对比如表2（第一个子数据集）。

✨关键数据：DeepPro 在 SNR ≤ 3 的条件下实现了95.84% 的检测率和的虚警率，相比现有最优方法以更低虚警提升检测率超3 个百分点，检测性能远超对比方法。

2. 计算效率对比

模型参数量和推理速度（在大小图像上）对比结果如表2最后两列，以及不同模型的浮点计算量（在大小图像上）对比结果如下表所示。

表3: 更多对比结果以及计算量对比。

✨极致轻量化：DeepPro 参数量相比对比算法中最轻量的单帧方法（ACM）减少了87.6%，同时推理速度（FPS）达到184 帧每秒（提升13 帧每秒），仅次于单帧检测模型Res-UNet。DeepPro 在大小图像上的计算量仅为1.01GFLOPs，仅高于单帧算法ALCNet的计算量。

3. 鲁棒性验证：强噪声场景

在高噪数据集NUDT-MIRSDT-HiNo上，DeepPro 的性能对比如表2（最后一个数据集）。同时，在各种不同噪声强度条件下，DeepPro 的性能对比如下图。

图15: 不同噪声条件下不同网络性能对比。

✨复杂场景稳健：DeepPro 在强噪声干扰和复杂背景下依然保持最优检测性能。因此，我们的 DeepPro 对于不同的噪声强度具有更优的鲁棒性。

意义：打破范式，开辟新思路

DeepPro 的贡献远超一项“更好的检测算法”，它推动了该领域的范式转变：

🌟 新建模域：将红外弱小目标检测建模为一维时序信号异常检测问题，突破了现有深度模型在二维空间/时空联合建模的局限。

🔬 新洞察：通过领域首个可解释性分析工具，揭示了时域剖面信息是红外弱小目标检测的“更关键信息”（并不意味着否定空域信息或短时时空信息，DeepPro-Plus的更优表现充分证明了这一点），为后续算法设计提供了理论指导。

⚡ 新方法：提出了首个完全基于时域计算的目标检测网络，证明了"更本质"的特征比“更多次重要”的特征更有效。

📈 新性能：在精度、鲁棒性和效率三个维度上同时实现突破，突破了该领域长期存在的“三重挑战”问题。

更多图表分析可见原文

本文系学术转载，如有侵权，请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载566页课件PPT！大家赶紧学起来！

CVPR 2026 所有论文和代码下载

在CVer公众号后台回复：CVPR2026，即可下载CVPR 2026 所有论文和代码！

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群 CVer计算机视觉（知识星球）人数破万！如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料，一定要扫描下方二维码，加入CVer知识星球！最强助力你的科研和工作！ ▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号 整理不易，请点赞和在看

查看全文

http://www.jsqmd.com/news/759991/

ASN.1 Editor：专业级ASN.1编码数据可视化与编辑解决方案

视频字幕提取工具：本地化OCR识别，支持87种语言的字幕生成

为什么说，张琦和李一舟才是最强的AI老师？

别再只盯着Transformer了！用GhostNetV2的DFC注意力给CNN模型‘开天眼’

别再只用YOLOv8做检测了！手把手教你用它的姿态评估模型搞定工业圆孔定位

期刊投稿AI率超标被退稿怎么办？比话降AI不达标全额退检测费！ - 我要发一区

别再手动拧开关了！手把手教你用NI MAX和USB-GPIB转换头搞定仪器GPIB地址设置

Easysearch 正式支持插件开发：让你的搜索系统真正“为你所用”

Windows和Office永久激活终极指南：KMS智能激活工具完整教程

这些降AI率工具千万别用：5类不达标退款套路曝光警示！ - 我要发一区

去i迹降AI率怎么用？朱雀AIGC自媒体降AI 4步教程详解！ - 我要发一区

20260505

从蓝光到流媒体：H.264和H.265的‘权力交接’史，以及AV1、VVC谁会是下一个？

告别盲目筛选：如何用双抗药筛（Neo+Puro）高效拿到CRISPR基因敲除单克隆细胞株

详解传统RAG、Text2SQL、Graph RAG：适用场景与问题示例汇总

B站字幕下载终极指南：轻松获取CC字幕的完整教程

AI应用WebUI框架：从模型部署到交互界面的全栈解决方案

从工业机器人到机械臂：前向运动学（FK）在实际调试中的5个常见坑与避坑指南

为什么硕博生都在用比话降AI？知网AIGC急救3大核心原因！ - 我要发一区

UE5网络同步避坑指南：手把手教你正确使用Server、Client和NetMulticast RPC

嘎嘎降AI双引擎怎么开？多平台降AI率9步操作详细教程！ - 我要发一区

终极指南：如何用G-Helper快速修复ROG笔记本屏幕色彩失真问题

REFramework终极指南：5步解锁RE引擎游戏的完整自由定制体验

3步快速安装ViGEmBus驱动：解决Windows游戏控制器兼容性问题的终极指南

微信小程序中基于java后端实现官方的文本内容安全识别msgSecCheck

对比在 Taotoken 上调用不同模型的单次请求 token 消耗与费用

告别VideoCapture：手把手教你用海康SDK+C++为OpenCV项目接入工业相机

万方AI率60%怎么降？率零3.2元单价宿舍拼单实测94%达标率！ - 我要发一区

【Dify多模态开发黄金标准】：20年AI架构师亲授——为什么92%的团队在第3步就失败？

终极网易云音乐美化插件：打造沉浸式播放体验的完整指南