热红外视觉下的车辆/船舶重识别新方法:Vc-fes
在监控与海事安防等场景中,如何在**热红外图像**(灰度、无色彩、纹理弱)中准确识别同一辆车或同一艘船,是一个长期悬而未决的难题。近期发表于《International Journal of Machine Learning and Cybernetics》(2026年)的论文《Vc-fes: viewpoint-conditioned feature selection for vehicle re-identification in thermal vision》针对这一问题提出了一套完整的解决方案。
## 问题:热红外域重识别为什么难
传统的重识别(Re-ID)方法大多在RGB图像上训练,依赖颜色和纹理这类"跨视角通用"的线索来判断两张图片是否为同一目标。但在热红外图像中:
- 没有颜色信息,只剩灰度强度;
- 纹理细节被大幅削弱;
- 可获取的视角数量有限(不像RGB场景那样容易采集多角度样本)。
这导致同类目标(比如两艘外形相近的渔船)在缺乏颜色线索时高度相似,而同一目标从不同视角(前、侧、后)拍摄时特征差异又很大——这两个矛盾叠加,使得直接套用RGB域的重识别算法效果很差。
## 方法:视角条件化的特征选择
论文提出的核心思路是**将目标的前景图像按可见侧面(前、侧、后)拆分,分别提取特征并分空间比较**,再用各视角的"面积占比"作为置信度权重融合最终结果。整体流程分为两个子系统:
**1. 目标检测与跟踪**
基于 TraDeS 算法,针对热红外域做了适配与微调,先用转灰度的COCO数据预训练,再用新采集的热红外海事数据集及 Singapore Maritime Dataset 进行微调,使模型能够在缺乏颜色特征的情况下完成检测与跟踪。
**2. 视角条件化重识别**
- 首先用一个自建的编码器-解码器网络提取目标前景掩码(实验表明这一步比传统的 GrabCut 方法更适合热红外图像,尤其是在处理船体细小凸出部分和海面反光干扰时表现更好);
- 用预训练的 Dino-ViT 提取特征,并通过四个并行线性层将特征映射到"全局、前、侧、后"四个隐空间,每个空间用 ArcFace 损失增强类间可分性;
- 借助与 SPAN 模型类似的思路计算每个视角的**面积占比**(该视角前景掩码占总前景的比例),以此对各空间的 L2 距离加权求和,得到最终的置信度得分;
- 训练时联合使用身份分类损失和三元组损失。
这种设计的关键优势在于:当查询图像只能看到某一两个侧面时,面积占比会自动把不可见视角的权重降为零,避免了无效比较对最终结果的干扰。
## 数据集:首个公开的热红外海事重识别数据集
为验证方法,作者用 FLIR M232 热像仪自行采集了一个海事监控数据集,涵盖白天和夜晚场景,标注了船只、大型船舶、行人、水上摩托艇等4类目标的检测框,并整理出用于重识别评估的40艘小型船舶和32艘大型船舶的多视角图像子集。据作者所述,这是目前首个公开的热红外海事监控数据集,同时支持检测、跟踪与重识别三类任务的COCO格式标注。
## 结果
在跟踪任务上,改进后的 TraDeS 在热红外数据上取得了约 61.2% 的 MOTA,与其在RGB域的表现基本持平,同时保持 30fps 的处理速度,证明了域适配的有效性。
在重识别任务上,该方法在RGBNT100(热红外车辆数据集)和作者自建的海事数据集上分别以 mAP 提升 19.7% 和 12.8% 超过此前的最优方法(SPAN)。消融实验也表明:引入 ViT 特征提取、ArcFace 视角空间映射、以及多视角特征融合(相较仅用面积占比最大的单一视角)均能带来稳定的性能提升,尤其在热红外域收益最为明显。
## 链接
- 论文原文:https://link.springer.com/article/10.1007/s13042-026-03049-w
- 数据集主页:https://hevidra.github.io/
- 代码仓库:https://github.com/YasodGinige/VCFeS-Maritime-Surveillance
