《Improving RGB-infrared object detection with cascade alignment-guided transformer》论文分享(侵删)
原文链接:https://doi.org/10.1016/j.inffus.2024.102246
author={Maoxun Yuan and Xiaorong Shi and Nan Wang and Yinyan Wang and Xingxing Wei}
摘要
多光谱数据在目标检测中的融合,特别是可见光和红外图像,是近年来备受关注的课题。来自可见光(RGB)和红外(IR)图像的互补信息可以改善可变光照条件带来的挑战,使其成为许多领域的宝贵资源,包括RGB-IR目标检测、RGB-IR语义分割和RGB-IR人群计数。然而,现有的方法仍然存在弱对准和融合精度不高的问题。这两个问题对准确的目标检测提出了巨大的挑战。本文主要解决RGB-IR目标检测任务中的上述问题。具体地说,我们首先提出了一种平移比例旋转对齐(TSRA)模块来对齐区域建议中的两个通道特征。基于对齐区域特征,我们引入了互补融合变压器(CFT)模块来捕捉互补特征。这两个模块可以耦合在一个统一的感兴趣区域(ROI)检测头中,称为级联对准制导变压器(CAGT),以获得稳健的融合特征。最后,在CAGT的基础上,构建了一个用于RGB-IR目标检测的区域特征对齐与融合检测器CAGTDet。通过在无人机数据集上的综合实验,我们的方法有效地缓解了这两个问题的影响,得到了稳健的检测结果。此外,为了评估该方法的泛化能力,我们还在KAIST多光谱行人数据集中的自然图像上进行了实验。结果表明,我们的方法优于其他先进的方法。
1. Introduction
图1。RGB-IR目标探测中的弱不对准和融合不精确问题的例子。图(A)显示了无人机数据集的基本事实注释。红色和黄色框对应于两个通道中相同对象的注释。需要注意的是,虽然这些配对图像已经通过图像配准算法进行了处理,但是未对准仍然存在。子图(B)可视化了一个融合不精确问题的例子,其中显示融合的特征甚至比提取的可见特征更差。
空中目标检测是精准农业、救灾和紧急救援等各种现实应用中必不可少的一步。与通常从较低海拔视角拍摄的传统图像不同,航空图像提供了鸟瞰。这意味着这些图像中的对象通常是任意定向的。为了应对这些挑战,已经提出了几种面向最新技术的目标检测方法[4-7],并在复杂的航空图像数据集上取得了令人印象深刻的结果[1,8,9]。然而,这些方法是专门为可见光(RGB)图像设计的,无法解决夜间场景等照明条件有限带来的挑战。
红外摄像机已经被用来导航这些复杂的场景。这些相机能够探测热辐射,使它们即使在昏暗的光线下也能产生清晰的物体轮廓,使可见光(RGB)图像和红外(IR或T)图像兼容。可见光(RGB)和红外(IR)图像之间的这种兼容性在许多领域都有应用,例如RGB-IR车辆检测、RGB-IR行人检测和RGB-IR显著目标检测。然而,在这些任务中,有两大困难仍然没有解决。(1)图像不对准是RGBIR图像应用中的一大挑战。以前的工作[10,11]通常假设RGB和IR图像对在几何上是完全对齐的[12-14],并直接使用特征融合方法。然而,即使在执行了图像配准算法后,配对的图像也只是弱对齐,缺乏精确的对准。如图1(A)所示,以DroneVehicle[15]数据集为例,航空图像对中的对象由于其任意方向而经常在位置、比例和角度上发生变化。考虑到这三个偏差的相关性,这三个偏差中的一个偏差(位置、大小和角度)的变化将影响其他偏差。因此,航空RGB-IR图像对中的弱不对准问题是相当复杂的。(2)特征级融合是多通道任务中常用的融合策略之一。利用卷积神经网络(CNN)强大的特征提取能力,前人的工作[16,17]已经通过特征级联获得了可以接受的融合性能。然而,在一些极端情况下,这些方法存在融合不精确的问题,如图1(B)所示。融合后的特征甚至比从任一种模式提取的特征都差,导致下游任务的性能下降。
针对上述问题,本文围绕RGB-IR目标检测任务,在目标检测过程中实现区域级对齐和融合。我们的主要思想是通过预测区域提案在两种模式中的偏差并利用自我注意机制来实现互补融合来解决上述两个问题。为了解决弱对齐的挑战,我们引入了平移、缩放和旋转对齐(TSRA)模块。该模块被设计用来校准从两个通道提案中得出的感兴趣区域(ROI)特征。在本模块中,我们首先应用通道选择(MS)策略来选择高质量的标注作为参考包围盒。然后,我们对两个模式的区域特征进行通道校准(MC)过程,以执行特征对齐过程。为了进一步提高对齐过程的精度,我们还将其扩展为级联版本,以执行从粗略到精细的步骤。对于融合的不精确性问题,我们利用Transformer的长程依赖建模能力[18],引入互补融合变换(CFT)模块,对每对对齐的感兴趣区域进行感兴趣区域特征融合。在所提出的跨通道互补注意机制的帮助下,我们的CFT增强了通道本身的特征,同时捕获了来自另一通道的互补特征。在该模块中,我们还设计了目标区域感知损失来引导CFT缩短类内距离和扩大类间距离。这两个模块耦合在一个称为级联对齐制导Transformer(CAGT)的统一ROI头中,以获得最终稳健的ROI功能。
综上所述,本文主要做了以下几个方面的工作:
·提出了一种新的多模式检测头CAGT,用于解决区域级的弱对准和融合不精确问题。据我们所知,这是通过改进探测头来解决上述问题的第一项工作。
·为了解决上述两个问题,我们提出了平移、缩放和旋转对齐(TSRA)模块和互补融合变压器(CFT)模块。这两个模块耦合在目标检测头中,以获得最终的融合特征。
·为了评价方法的有效性,我们在此基础上构建了基于CAGT的RGB-IR目标检测方法。在DroneVehicle数据集和KAIST数据集上的大量实验表明,所提出的模型能够有效地解决弱对齐和融合不精确问题。
2. Related work
2.1. Cross-modal image alignment
图像对齐是将感测图像转换为参考图像,以便它们共享相同的坐标系以促进像素级匹配的过程。目前的方法通常分为两类:基于区域的方法和基于特征的方法。基于区域的方法[20,21]使用相似性度量函数对齐图像对,而基于特征的方法[22,23]涉及四个步骤:特征提取和匹配、变换模型估计和图像扭曲。鉴于深度学习在特征提取中的强大潜力,许多研究人员[24-26]已经开发出数据驱动的跨模式图像对齐策略。Dou等人。[24]提出了一种用于图像块匹配的多特征关系,该关系可以利用特征关系之间的优势互补。为了实现高精度、低成本的遥感图像配准,叶等人。[25]设计了一种无监督学习方法的多尺度框架,在多尺度上生成一条从粗到精的排列管道。最近,一种新的ShapeConv[26]被提出来捕捉复杂的特征交互以寻求良好的对应。虽然图像对准是各个领域中的关键过程,但它增加了额外的时间消耗,并且无法完全解决弱未对准问题。与这些方法相比,我们提出了一种专门针对RGB-IR目标检测任务的区域级对齐方法。
2.2. RGB-T transformer
transformer模型[18]最近显示了它在捕获远程依赖方面的优势。为了融合可见光和红外通道特征,已经探索了RGBT变压器[27-29]。VS等人。[30]将变压器引入可见光和红外图像融合中,设计了一种多尺度融合策略。TGFUSE[27]还提出了基于变换和生成式对抗网络的红外和可见光图像融合方法。除了将多模式转换器应用于像素级融合任务外,Liu等人还提出了一种新的算法。[29]利用RGBT图像对上的两个SWIN转换器进行RGB-T显著目标检测。类似地,酱等人也是如此。[31]提出了在RGB-T显著目标检测中利用MCNet提取共享通道特征的方法。此外,冯等人还提出了一种RGBT跟踪框架。[32]基于变压器框架。最近,利用RGB和红外图像进行跨通道的人重新识别任务也受到了广泛的关注。郑等人。[34]提出了一种基于视觉转换器的区分特征学习网络DFLN-VIT,用于跨通道人的再识别。此外,设计了一个结构感知的位置转换网络SPOT[35],用于学习语义感知的可共享情态特征,探索丰富的上下文和结构信息。由于这些模型在特征融合过程中忽略了模式之间的相关性,郑等人对此进行了研究。[36]针对这一问题,提出了一种新的多通道人名识别方法-变压器关系正则化方法。与上述方法不同的是,我们的方法是专门为RGB-T目标检测任务设计的,可以用来解决检测头中的弱对准和融合不精确问题。
2.3. Multispectral object detection
多光谱目标检测是目标检测的一个重要研究领域,取得了显著的研究成果。由于一些RGBT数据集[15,37]已经公布,越来越多的研究被提出利用对准的RGB和IR图像来提高探测器的性能。Wagner等人。[38]构建了第一个利用多通道图像进行融合的融合架构,提高了目标检测的可靠性。[12,39]设计了一种光照感知融合模块,用于动态融合RGB-IR特征。此外,Cian[17]还提出了利用不同通道的交互注意机制来融合特征。周等人。[40]通过设计一种称为DMAF的特征融合模块来解决通道不平衡问题。最近,多模式显著对象检测[41]受到越来越多的关注,并且已经开发了各种方法[13,42,43]。张某等人。[13]建立端到端多层次的显著目标检测框架。为了探索共享信息和特定通道的特性,提出了一种RGB-D显著目标检测的特异度保持网络(SPNET)[43]。此外,Zhang et al.[42]设计了第一个利用不确定性进行RGB-D显著检测的随机框架。与这些方法不同的是,我们的目标是解决弱对准和融合不精确的问题,并提出了TSRA模块和CFT模块来对准和融合ROI头部的RGB-IR特征。
3. Methodology
3.1. Translation-scale-rotation alignment module
我们提出的TSRA以插入式模式工作,因此可以集成到两级探测器的结构中,以有效地应对弱未对准的挑战。该模块主要由两部分组成:通道选择策略和通道校准过程。
图2.我们设计的评估方法概述,在后续步骤中概述:(A)原始边界框。(B)扩展包围盒。(C)裁剪物体。(D)两化进程。(E)将原始边界框映射到裁剪后的图像。(F)分数的计算。
Modality-Selection Strategy.
正如在[19]中所分析的,模式选择(MS)策略旨在从两个模式中选择最好的带注释的边界框作为参考模式,而不是简单地选择红外图像[40,44-46]。通过该操作,我们区分了参考包围盒和感测包围盒,以识别参考和感测特征。如图2所示,设计了一种用于RGB和IR图像的评价方法来确定感测和参考包围盒。具体地说,每个成对的边界框𝐵𝑟𝑔𝑏和𝐵𝑖𝑟最初被展开以包含整个对象。随后,我们从它们各自的原始图像中裁剪完整的对象𝐶𝑟𝑔𝑏和𝐶𝑖𝑟,并对它们进行彩色二值化𝐹𝑏。最后,我们通过评估它们各自的二值图像𝑆𝑟𝑔𝑏)和𝑆𝑖𝑟)来计算分数𝐹𝑏(𝐶𝑟𝑔𝑏和𝐹𝑏(𝐶𝑖𝑟)。然后选择分数最高的那个作为参考边界框(例如,如果𝑆𝑟𝑔𝑏>;𝑆𝑖𝑟,我们选择𝐵𝑟𝑔𝑏)。𝑆分数的计算如下:
其中𝑛和𝑁obj分别表示原始边界框和整个对象中的白色像素数。𝑁框表示原始边界框中的总像素数。𝑆为评估分数,范围为0到1。如果是理想的批注,则分数𝑆应接近1。
Modality-Calibration Process.
图3.通道校准(MC)过程的特定结构利用三组完全连接的层来预测位置、大小和角度上的偏差。这些建议是由定向RPN预测的。
参考文献[47,48],我们的方法引入了参考图像和感测图像的概念。如图3所示,通过应用旋转的RoIAlign操作从提取的特征中汇集输入特征𝜙𝑟和𝜙𝑠。然后,通过输入特征的减法运算得到新的特征地图𝜙𝑑,表示为𝜙𝑑=𝜙𝑠−𝜙𝑟。之后,在特征映射𝜙𝑑中捕获两个模态之间的表示。此外,使用表示为𝐹𝑖的三个线性层分支来预测位置偏差𝑝、角度偏差𝑟和尺寸偏差𝑠。因此,偏差表示可以表示为:
然后,将该预测偏差添加到原始建议𝑝(𝑥,𝑦,𝑤,ℎ,𝜃)以获得新的经调整的建议𝑝𝑠(𝑥+𝑡𝑥,𝑦+𝑡𝑦,𝑤+𝑠𝑤,ℎ+𝑠ℎ,𝜃+𝑟𝜃)。最后,通过旋转RoIAlign操作重新汇集特征,得到对齐的特征𝜙𝑎,表示为:
Multi-task Jitter.
图4多任务抖动方法的演示,其中红色框表示感测的边界框,而蓝色和绿色框描述抖动提议的实例。
受RoI jitter的启发[44],我们提出了一种新的多任务抖动(MJ)来提高MC过程的对准精度。如图4所示,多任务抖动被应用于所感测的提案以论证偏差。
其中𝑗𝑥,𝑗𝑦,𝑗𝑤,𝑗ℎ和𝑗𝜃分别表示检测到的抖动建议的位置、宽度、高度和角度。
Cascade Calibration Structure.
图5.级联通道的结构--校准过程。B和C分别代表类和包围盒,它们是分类和回归的结果。
由于单个MC操作可能不能在所有距离级别上完美地执行对准过程,因此MC过程可以被分解为从粗到细的对准步骤的序列。参考Cascade R-CNN[49]的体系结构,级联结构也可以用于我们的TSRA模块。所提出的级联TSRA模块𝑀‘的结构如图5所示,其公式如下:
其中𝑁是MC进程的次数,𝑀表示MC进程,𝑏表示由多任务抖动增强的提案。级联的TSRA模块通过迭代𝑁次的MC过程来提炼提议的𝑏,最终得到精确对齐的特征,从而达到更好的检测效果。请注意,在级联TSRA的第一步中,只使用一次多任务抖动来增加偏差,因为在其他步骤中使用此操作将导致级联结构的效率较低。
Loss function.
我们使用以下损失函数来评估预测偏差的精度:
其中𝑁𝑑𝑒𝑣表示积极提案的数量,𝑖表示一批提案的索引。𝑡𝑖,𝑠𝑖和𝑟𝑖表示预测的位置、大小和角度偏差。变量𝑔𝑖∈{0,1},其中如果𝑔𝑖建议为负,则𝑖=0,否则为正。𝑠∗𝑖,𝑡∗𝑖和𝑟∗𝑖表示𝑖TH感测边界框的相应地面实况偏差,表示如下:
在等式中(7),(𝑤𝑠,ℎ𝑠,𝑥𝑠,𝑦𝑠,𝜃𝑠)表示用于指示感测边界框的宽度、高度、位置和角度的堆叠向量,而(𝑤𝑟,ℎ𝑟,𝑥𝑟,𝑦𝑟,𝜃𝑟)表示基准边界框。
3.2. Complementary fusion transformer
图6.建议的CFT模块的具体结构。来自两个通道的ROI特征的输入被分成多个块。𝑐𝑙𝑎𝑠𝑠标记和𝑏𝑏𝑜𝑥标记是可学习的嵌入,伪装成学习融合的特征表示。
在TSRA模块的监督下,得到对齐的感兴趣区域特征,用于后续的感兴趣区域特征融合过程。我们的融合方案不是直接添加每个感兴趣区域对的特征,而是从感兴趣区域特征中探索上下文信息,并引入变换结构来优化计算所需的互补特征。如图6所示,我们将每对ROI特征𝜙𝑟和𝜙𝑎划分为𝑁𝑝块,并将平面化的块特征馈送到𝑁𝑝输入序列中,作为(𝜙1𝑟,…,𝜙𝑁𝑝𝑟)和(𝜙1𝑎,…,𝜙𝑁𝑝𝑎)。此外,参考文献[50],我们将𝑁𝑝位置嵌入𝐸𝑝𝑜𝑠添加到每对补丁特征上,并输入两个可学习的标记𝑐𝑙𝑎𝑠𝑠和𝑏𝑏𝑜𝑥,它们的输出状态𝑇𝑐𝑙𝑠和𝑇𝑏𝑏𝑜𝑥代表最终的融合ROI特征用于分类和回归。然后,这些输入序列被串联并投射到跨通道互补注意中。
Cross-modal Complementary Attention.
在MS策略的帮助下,参考特征的表示将比感知特征更好。因此,我们从检测到的特征中提取互补特征来增强参考特征的表示。为此,我们引入了一种新的注意力机制来融合每对感兴趣区域特征。具体地说,我们的机制操作于两个补丁特征的拼接关键字和值,如𝐾𝑐𝑎𝑡=𝐶𝑜𝑛𝑐𝑎𝑡(𝐾𝑟,𝐾𝑎),𝑉𝑐𝑎𝑡=𝐶𝑜𝑛𝑐𝑎𝑡(𝑉𝑟,𝑉𝑎),仅从参考补丁特征查询为𝑄𝑟。因此,该机构的输出特征可以计算为:
其中𝑇表示矩阵的转置运算,√𝑑是缩放参数。Query𝑄、Key𝐾、Value𝑉都是通过对对应的补丁特征进行线性变换得到的,公式如下:
其中,𝑊𝑞,𝑊𝑘和𝑊𝑣是查询、关键字和值的线性层的权重。
Object-Region-Aware Loss.
在多层感知器层之后,我们得到𝑐𝑙𝑎𝑠𝑠和𝑏𝑏𝑜𝑥的输出,并将它们分别馈送到另外两个独立的感知器层进行分类预测和bounding box预测。为了鼓励变换模型聚焦于前景区域,我们提出了目标区域感知损失来最大化类间距离和最小化类内距离。具体地,对于𝑐𝑙𝑎𝑠𝑠 tokens 𝑇𝑐𝑙𝑠的每个输出状态,我们通过平均𝑐𝑙𝑎𝑠𝑠 tokens 𝑇𝑐𝑙𝑠来获得前台和背景的中心特征:
其中,𝑛𝑓和𝑛𝑏表示带有GROUSTREAL注释的输出的数量,𝑇𝑐𝑙𝑠,1表示foreground 𝑐𝑙𝑎𝑠𝑠 token,𝑇𝑐𝑙𝑠,0表示background 𝑐𝑙𝑎𝑠𝑠 token。因此,foreground 𝑐𝑙𝑎𝑠𝑠 token和background 𝑐𝑙𝑎𝑠𝑠 token之间的距离可以表示为:
然后,每个令牌𝑇𝑐𝑙𝑠与中心特征(𝑇𝑓和𝑇𝑏)之间的距离可以表示为:
因此,我们在特征学习过程中对类内方差和类间距离进行了优化。最后,我们提出的对象区域感知损失𝐿𝑜𝑟𝑎可以定义为:
其中,𝑚 > 0是强制分隔前景和背景特征的边距。
3.3.基于CAGT的面向对象检测器
在以前的版本[19]中,结合TSRA模块TSFADet开发了一种两阶段目标检测方法。在此基础上,我们进一步构建了一个基于CAGT的检测器CAGTDet来评估我们提出的方法。CAGTDet由一个双流骨干网、一个面向区域的建议网络(Oriented RPN)和我们提出的CAGT组成。在这一部分中,我们将详细描述所提出的框架和总损失函数。
图7.我们建议的CAGTDet的总体结构。我们将CAGT注入到两阶段目标检测框架中,以对齐和融合ROI特征。
整体架构。如图7所示,我们显示了所提出的定向检测器的总体框架。我们的CAGTDet还建立在面向R-CNN[6]的结构之上,并采用双流主干网络来处理RGB-IR输入。遵循FPN结构[51],主干生成五个比例的特征地图。然后,这些特征被聚集,并接受定向RPN以输出区域建议。然后执行TSRA模块和CFT模块以对准和融合两个通道的ROI特征。最后,利用融合后的特征进行分类和回归。
Total Loss
用于训练探测器的总损耗如下:
其中𝐿𝑟𝑝𝑛,𝐿𝑐𝑙𝑠和𝐿𝑟𝑒𝑔保留与定向R-CNN中相同的公式[6]。在本文中,我们使用𝛼=𝛽=1在不同的损失函数之间取得平衡。
