CN116778177A

CN116778177A - 一种在可见光-红外图像弱对齐下的目标检测方法

Info

Publication number: CN116778177A
Application number: CN202310754391.5A
Authority: CN
Inventors: 王青旺; 池永柯; 沈韬; 刘佳丽; 欧阳俊林
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-09-19

Abstract

本发明涉及一种在可见光‑红外图像弱对齐下的目标检测方法，属于基于深度学习的图像处理技术领域。将可见光和红外图像输入到特征提取网络中，提取可见光和红外图像的全局特征；将可见光图像输入到光照感知模块中，提取光照信息；将可见光和红外图像特征输入到多尺度空间对齐模块中进行特征对齐，得到在同一潜在物理空间下对齐的可见光和红外图像特征；将可见光和红外图像特征输入到特征融合模块中，融合可见光和红外图像特征的目标互补信息，得到融合后的特征图；将光照信息和特征图输入到检测器进行目标检测。本发明能有效在特征层面对齐可见光和红外图像各维度特征，增强目标检测器对各维度信息不对齐的可见光和红外图像的检测鲁棒性。

Description

一种在可见光-红外图像弱对齐下的目标检测方法

技术领域

本发明涉及一种在可见光-红外图像弱对齐下的目标检测方法，属于基于深度学习的图像处理技术领域。

背景技术

以可见光和红外图像为多模态数据训练目标检测网络，是增强单模态目标检测算法在复杂环境下的鲁棒性的有效途径。但由于数据采集传感器时空同步不准、立体视差以及可见光和红外图像配准时存在误差等原因，同一个目标在可见光和红外图像中的位置并不是完全重合的，可见光和红外图像存在不对齐现象，这加深了模型挖掘可见光和红外图像互补信息困难度。

针对该问题，国内外相关研究者进行了多方面探究：图像不对齐问题的一个常见解决方法是进行图像配准，虽然图像配准技术已经成熟，但其主要是对图像进行低层次变换，图像预处理时间长、基于卷积神经网络的检测器无法以端到端方式进行训练是其主要缺点。由于深度学习技术的发展，图像配准的特征检测、特征描述过程可以使用深度学习方式来解决，使得获取到的特征具有通用性，令图像转换过程更具鲁棒性。此外，不仅仅局限于特征提取、特征描述过程，还有学者基于区域建议网络对齐区域建议框策略以对齐不同模态特征，缓解弱对齐图像对检测效果的负面影响。与上述基于区域建议网络对齐策略不同的是，Zhou等人通过在网络中设计可变形卷积模块去回归目标特征偏差；Kim等人通过使用多标签策略去促使模型学习到可见光和红外图像中关于目标更具差异性的特征；Shacht等人提出了可学习的形变对齐方法，实时校正模态间目标的位置偏移，其形变对齐过程由三个不同转换层组成，以由粗到细的方式进行特征对齐；2022年，Tu等人提出了一种新颖的深度相关网络，从空间、特征、语义层面考虑了模态之间的相关性，设计了模态对齐模块，通过隐式学习空间仿射变换并动态生成中间表示来鲁棒性地学习模态间的相关性；同年，Yuan等人设计了一个平移-尺度-旋转对齐模块，以预测可见光和红外图像中目标的偏差关系，并通过偏差关系校准可见光和红外图像特征图，以缓解弱对齐可见光和红外图像导致的模型检测效果差问题。

目前的大多数研究都是基于二阶段的Faster-RCNN策略，它首先使用双分支网络生成区域建议框，然后通过对齐区域建议框以达到可见光和红外特征对齐的目的，然而该类对齐算法推理速度慢，计算负荷大，这不利于实际应用。此外，上述研究没有充分考虑到可见光和红外图像目标大小、位置、角度和扭曲的不一致性，仅对某一问题进行探究是存在局限的。因此，如何将各维度信息对齐，为模型提供具有物理空间一致性的可见光和红外图像特征，缓解因可见光和红外图像多维度信息不对齐带来的模型目标检测性能影响是一个亟待解决问题。

发明内容

本发明要解决的技术问题是提供一种在可见光-红外图像弱对齐下的目标检测方法，用于对齐可见光和红外图像特征各维度信息，缓解可见光和红外图像目标多尺度不对齐对多维度信息有效匹配融合的影响，提升模型对不对齐可见光和红外图像的检测效果。

本发明的技术方案是：一种在可见光-红外图像弱对齐下的目标检测方法，具体步骤为：

Step1：将可见光和红外图像输入到特征提取网络中，提取可见光和红外图像的全局特征；

Step2：将可见光图像输入到光照感知模块中，提取光照信息；

Step3：将Step1得到的可见光和红外图像特征输入到多尺度空间对齐模块中进行特征对齐，得到在同一潜在物理空间下对齐的可见光和红外图像特征；

Step4：将Step3得到的可见光和红外图像特征输入到特征融合模块中，以融合可见光和红外图像特征的目标互补信息，得到融合后的特征图；

Step5：将Step2得到的光照信息和Step4得到的特征图输入到检测器进行目标检测。

进一步的，Step1中所述特征提取网络为基于SSD算法的主干网络，将SSD算法的主干网络复制为两个分支，一个分支提取可见光图像特征，另一个分支提取红外图像特征，具体为：

F_r＝SSD(rgb_images) (1)

F_t＝SSD(thermal_images) (2)

式中，SSD表示SSD算法的主干网络，rgb_images和ithermal_images分别表示可见光和红外图像，F_r和F_t分别表示提取到的可见光和红外图像特征。

进一步的，Step2中所述光照信息是指通过光照感知模块提取到的两个权重，其中光照感知模块由卷积层和全连接层组成，具体为：

W_s,W_l＝l_m(rgb_images) (3)

式中，l_m表示光照感知模块，W_s和W_l分别表示提取到的两个权重。

进一步的，Step3中所述多尺度空间对齐模块由图模型构建、图注意力网络、图数据转换和空间变换操作组成，通过将特征图划分为特征块方式构建相应图模型，然后使用图注意力网络更新图模型信息，最后将图数据转换为矩阵形式，使用空间变换操作对红外图像特征进行矫正处理。其中，图模型构建具体方式如下式：

式中，w'、h'和c分别表示特征块f_ri和f_ti的宽度、高度、通道数，通过选择适当的w'及h'值，确保特征图是完全可分的，F_{R_r}和F_{R_t}代表特征块集合。

然后，将得到的特征块转换为图模型节点特征形式，其可被下式表示：

式中，flatten(·)代表将特征块展平为向量操作，和/>分别代表由特征块f_ri和f_ti展平得到的向量，V_r和V_t分别表示相应图模型中所有图节点的集合，1×h'w'c表示图节点的特征数量，E_r和E_t分别表示相应图模型中图节点间边的集合，/>和G_t(V_t,E_t)分别代表由特征图F_r和F_t构造的图模型。

所述的更新图模型信息如下式：

式中，GAT(·)代表图注意力网络，G'_r(V'_r,E'_r)和G'_t(V'_t,E'_t)分别代表经图注意力网络更新后得到的可见光和红外图像特征图模型。

所述的将图数据转换成矩阵形式为先将图模型所有节点特征合并为向量，然后将向量转为矩阵形式，如下式：

M_r＝Trans_Add(V_r') (10)

M_t＝Trans_Add(V_t') (11)

式中，Trans_Add(·)代表将图模型所有节点特征合并操作及转换为矩阵操作，M_r和M_t分别代表最终建模得到的可见光和红外图像的偏差矩阵。

所述的空间变化操作如下式：

式中，F_t'代表经空间变换操作矫正操作得到的红外图像特征。

进一步的，Step4中所述特征融合模块加入通道注意力机制，具体为：

式中，CAM(·)表示通道注意力机制，代表逐元素相加操作，/>代表对特征图进行全局相乘操作，F'_{r_cam}和F'_{t_cam}表示融合后的可见光和红外图像特征。

所述通道注意力机制的计算公式如下：

式中，H和W分别表示特征图的高和宽，σ表示双曲正切激活函数。

进一步的，所述Step5具体为：

cls,conf,box＝d_m(W_s,W_l,F'_{r_cam},F'_{t_cam}) (17)

式中，d_m(·)表示检测器，cls,conf,box分别表示预测图像中目标的类别，置信度以及包围框的坐标。

所述可见光图像输入到光照感知模块是指将可见光图像尺寸修剪为56*56，再输入到光照感知模块中提取光照信息。

所述目标检测是指根据特定任务需求，对图像中所具有的目标进行检测，其预测的结果为目标在输入图像中所对应的包围框，输出结果包括分类和回归。

本发明的有益效果是：本发明利用基于深度学习的图像处理技术，以SSD为主干网络，通过引入多尺度空间对齐模块，将可见光和红外图像特征图划分为多种不同大小的特征块，以此构建多个图模型，再使用图注意力网络建模可见光和红外图像偏差关系，基于偏差关系将可见光和红外图像特征对齐在统一潜在物理空间下。最终缓解可见光和红外图像多尺度目标不对齐对多维度信息匹配融合的影响，提升模型对不对齐可见光和红外图像的检测效果。

附图说明

图1是本发明的流程图；

图2是本发明的网络框架图；

图3是本发明的多尺度空间对齐模块图；

图4是本发明的图偏置模块图；

图5是本发明的特征融合模块图；

图6是本发明的检测结果示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：本发明实施例采用改进的SSD算法，通过联合可见光和红外图像来训练该网络，实现在可见光和红外图像弱对齐的情况下，算法仍然具有高精度检测目标能力的目标。

为了有效对齐可见光和红外图像特征，本发明实施例采用SSD算法为主干网络，对网络作出改进。基于SSD算法主干网络加入多尺度空间对齐模块，建模可见光和红外图像偏差关系，将可见光和红外图像特征对齐在同一潜在物理空间下。然后将对齐处理后得到的特征图输入到密集特征融合模块中，以融合可见光和红外图像特征互补信息，检测流程图如图1所示，算法网络框架图如图2所示。该算法网络基于Tensorflow框架完成搭建及训练，训练数据集采用CVC-14行人检测数据集，训练过程中采用Adam优化方法，初始学习率为0.0001，每6轮将学习率下调10^-1，训练时长为30轮。

Step1：首先，将可见光和红外图像分别输入到特征提取模块中，提取可见光和红外图像的全局特征；所述特征提取模块为基于SSD算法的主干网络，将SSD算法的主干网络复制为两个分支，一分支提取可见光图像特征，另一分支提取红外图像特征。具体为：

F_r＝SSD(rgb_images) (1)

F_t＝SSD(thermal_images) (2)

式中，SSD表示SSD算法的主干网络，rgb_images和ithermal_images分别表示可见光和红外图像，其尺寸大小512*640*3，F_r和F_t分别表示提取到的可见光和红外图像特征，其大小为128*160*256。

Step2：光照信息作为一个先验条件，有利于检测器做出正确的检测结果，因此，网络引入光照感知模块，将可见光图像输入到光照感知模块中，提取光照信息，在后续的检测过程中，基于光照信息指导性做出检测；所述光照信息是指通过光照感知模块提取到的两个权重，具体为：

W_s,W_l＝l_m(rgb_images) (3)

式中，l_m表示光照感知模块，W_s和W_l分别表示提取到的两个权重，具体意义为光照条件好和光照条件差的权重，并且W_s和W_l的关系为：1＝W_s+W_l。

Step3：将步骤一得到的可见光和红外图像特征输入到多尺度空间对齐模块中进行特征对齐，得到在同一潜在物理空间下对齐的可见光和红外图像特征。所述多尺度空间对齐模块由图模型构建、图注意力网络、图数据转换和空间变换操作组成，通过将特征图划分为特征块方式构建相应图模型，然后使用图注意力网络更新图模型信息，最后将图数据转换为矩阵形式，使用空间变换操作对红外图像特征进行矫正处理，多尺度空间对齐模块结构图如图3和图4所示。其中，图模型构建具体方式如下式：

式中，w'_s、h'_s、c和n_s分别表示s尺度下特征块的宽度、高度、通道和数量，F_{R_r_s}和F_{R_t_s}分别表示s尺度下的可见光和红外图像特征块集合，f_{r_s_i}和f_{t_s_i}分别表示特征块集合F_{R_r_s}和F_{R_t_s}中的第i个特征块。本发明实施例以4×10、8×20、16×40三种不同尺度将特征图F_r和F_t进行划分。

式中，flatten(·)代表将特征块展平为向量操作，和/>分别表示由f_{r_s_i}和f_{t_s_i}转换得到的节点特征向量；V_{r_s}和V_{t_s}分别表示s尺度下相应图模型中所有图节点的集合；E_{r_s}和E_{t_s}分别代表相应图模型中图节点之间边的集合；G_{r_s}(V_{r_s},E_{r_s})和G_{t_s}(V_{t_s},E_{t_s})分别表示由特征图F_r和F_t在s尺度下构建的图模型。

所述的更新图模型信息如下式：

式中，GAT(·)代表图注意力网络，G'_{r_s}(V'_{r_s},E'_{r_s})和G'_{t_s}(V'_{t_s},E'_{t_s})分别代表经图注意力网络更新后得到的可见光和红外图像特征图模型。

M_{r_s}＝Trans_Add(V'_{r_s}) (10)

M_{t_s}＝Trans_Add(V'_{t_s}) (11)

式中，Trans_Add(·)代表将图模型所有节点特征合并操作及转换为矩阵操作，M_{r_s}和M_{t_s}分别代表最终建模得到的可见光和红外图像的偏差矩阵。

所述的空间变化操作如下式：

式中，F'_{t_s}代表经偏差矩阵变换操作得到的红外图像特征。

为了更稳健地对齐不同尺度的目标特征，本发明实施例合并了上述三个不同偏移矩阵变换后得到的红外特征图：F'_{t_1}、F'_{t_2}、F'_{t_3}。具体地，首先对进行全连接运算，以生成相应的权重W₁、W₂、W₃，以此权重衡量不同偏差矩阵对对齐红外特征图的贡献程度，如下式：

F'_t＝Add(W₁F'_{t_1},W₂F'_{t_2},W₃F'_{t_3}) (13)

式中，Add(·)代表相加操作，F_t'代表经已对齐可见光特征图。

Step4：将步骤三所得的可见光和红外图像特征输入到特征融合模块中，以融合可见光和红外图像特征的目标互补信息，得到融合后的特征图，特征融合模块结构图如图5所示；所述特征融合模块加入通道注意力机制。首先将可见光和红外图像特征进行逐元素相减的操作，相减后得到的特征就代表是可见光和红外图像特征的差异特征，将该差异特征视为互补信息。然后将该差异特征输入到通道注意力机制中，得到通道权重。最后将该通道权重与对应的可见光和红外图像特征相乘，从而放大差异特征，并与其另一模态特征相加得到最终融合后的特征。因此，经融合后得到的特征包含了与另一模态的差异特征，经此，达到融合互补信息的目的。具体的计算公式如下：

所述通道注意力机制的计算公式如下：

Step5：将步骤二得到的光照信息和步骤四得到的特征图输入到检测器进行目标检测，具体为：

cls,conf,box＝d_m(W_s,W_l,F'_{r_cam},F'_{t_cam}) (17)

最后，该网络的损失函数分为四部分：光照损失L_i、类别损失L_cls和回归框损失L_reg,其中光照损失L_i使用交叉熵损失，类别损失L_cls使用Focal loss，回归框损失L_reg使用smoothL1loss。最终的目标函数为：

L＝L_i+L_cls+L_reg (18)

通过优化L达到收敛状态，最终使用训练好的模型对可见光和红外图像进行目标检测。通过实验验证，本发明实施例在CVC-14行人检测数据集全集、白天、夜晚子集上的漏检率分别为22.59％、25.14％、17.23％，所取得的漏检率已达最低。从图6所示的检测结果示例图可观察到，与对比算法相比，本发明实施例具有更好的检测性能，可以准确地、不遗漏地检测到目标，即使本发明实施例和对比算法都检测到相同测试图像中的目标，但很明显，本发明实施例回归到的目标边界框更贴近目标。原因在于：对比算法融合了未对齐的可见光和红外图像特征，其获得的特征将在目标特征区域附近产生重影，使得目标区域变大，从而导致检测到的目标边界框偏大。然而，本发明实施例首先对齐可见光和红外图像特征，以使可见光和红外图像目标信息在空间上一致，融合后获得的特征避免了重影问题，因此，本发明实施例检测到的目标边界框更能准确地包围目标。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种在可见光-红外图像弱对齐下的目标检测方法，其特征在于：

2.根据权利要求1所述的在可见光-红外图像弱对齐下的目标检测方法，其特征在于：Step1中所述特征提取网络为基于SSD算法的主干网络，将SSD算法的主干网络复制为两个分支，一个分支提取可见光图像特征，另一个分支提取红外图像特征，具体为：

F_r＝SSD(rgb_images) (1)

F_t＝SSD(thermal_images) (2)

3.根据权利要求1所述的在可见光-红外图像弱对齐下的目标检测方法，其特征在于：Step2中所述光照信息是指通过光照感知模块提取到的两个权重，其中光照感知模块由卷积层和全连接层组成，具体为：

W_s,W_l＝l_m(rgb_images) (3)

4.根据权利要求1所述的在可见光-红外图像弱对齐下的目标检测方法，其特征在于：Step3中所述多尺度空间对齐模块由图模型构建、图注意力网络、图数据转换和空间变换操作组成，通过将特征图划分为特征块方式构建相应图模型，然后使用图注意力网络更新图模型信息，最后将图数据转换为矩阵形式，使用空间变换操作对红外图像特征进行矫正处理；其中，图模型构建具体方式如下式：

式中，w'、h'和c分别表示特征块f_ri和f_ti的宽度、高度、通道数，F_{R_r}和F_{R_t}代表特征块集合；

然后，将得到的特征块转换为图模型节点特征形式，如下式：

式中，flatten(·)代表将特征块展平为向量操作，和/>分别代表由特征块f_ri和f_ti展平得到的向量，V_r和V_t分别表示相应图模型中所有图节点的集合，1×h'w'c表示图节点的特征数量，E_r和E_t分别表示相应图模型中图节点间边的集合，G_r＝(V_r,E_r)和G_t(V_t,E_t)分别代表由特征图F_r和F_t构造的图模型；

所述的更新图模型信息如下式：

G′_r(V_r',E′_r)＝GAT(G_r＝(V_r,E_r)) (8)

G_t'(V_t',E′_t)＝GAT(G_r＝(V_r,E_r)) (9)

式中，GAT(·)代表图注意力网络，G′_r(V_r',E′_r)和G′_t(V_t',E′_t)分别代表经图注意力网络更新后得到的可见光和红外图像特征图模型；

M_r＝Trans_Add(V_r') (10)

M_t＝Trans_Add(V_t') (11)

式中，Trans_Add(·)代表将图模型所有节点特征合并操作及转换为矩阵操作，M_r和M_t分别代表最终建模得到的可见光和红外图像的偏差矩阵；

所述的空间变化操作如下式：

式中，F_t'代表经空间变换操作矫正得到的红外图像特征。

5.根据权利要求1所述的在可见光-红外图像弱对齐下的目标检测方法，其特征在于：Step4中所述特征融合模块加入通道注意力机制，具体为：

式中，CAM(·)表示通道注意力机制，代表逐元素相加操作，/>代表对特征图进行全局相乘操作，F′_{r_cam}和F′_{t_cam}分别表示融合后的可见光和红外图像特征；

所述通道注意力机制的计算公式如下：

6.根据权利要求1所述的在可见光-红外图像弱对齐下的目标检测方法，其特征在于：所述Step5具体为：

cls,conf,box＝d_m(W_s,W_l,F′_{r_cam},F′_{t_cam}) (17)

7.根据权利要求1或3所述的可见光-红外图像弱对齐下的目标检测方法，其特征在于：所述可见光图像输入到光照感知模块是指将可见光图像尺寸修剪为56*56，再输入到光照感知模块中提取光照信息。

8.根据权利要求1所述的可见光-红外图像弱对齐下的目标检测方法，其特征在于：所述目标检测是指根据特定任务需求，对图像中所具有的目标进行检测，其预测的结果为目标在输入图像中所对应的包围框，输出结果包括分类和回归。