CN112270366A

CN112270366A - 基于自适应多特征融合的微小目标检测方法

Info

Publication number: CN112270366A
Application number: CN202011204130.9A
Authority: CN
Inventors: 朱智勤; 张源川; 李嫄源; 冒睿睿; 李鹏华
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-01-26
Anticipated expiration: 2040-11-02
Also published as: CN112270366B

Abstract

本发明涉及一种基于自适应多特征融合的微小目标检测方法，属于目标检测领域。对提取后的特征先经过传统特征金字塔结果进行特征融合，在这基础上，本发明额外设计了一条路径进一步进行特征融合，再使用自适应多特征融合算法进行多尺度融合，使得微小目标的语义信息在多尺度特征层中进行传播，丰富微小目标的语义信息和纹理信息。同时，使用k‑means算法获得更加合理的先验框参数，加速网络收敛、提高模型精度。最后，对检测结果进行非极大值抑制，筛除重叠物体框。整个网络采用端到端的方式不断更新网络权值，直至收敛。最终，本发明自适应多特征融合的微小目标检测算法能够有效地完成微小目标检测。

Description

基于自适应多特征融合的微小目标检测方法

技术领域

本发明属于目标检测领域，涉及基于自适应多特征融合的微小目标检测方法。

背景技术

目标检测一直是计算机视觉与模式识别研究领域的重要研究方向，虽然近几年出现了很多基于目标检测的深度学习算法，也给目标检测带来了强大的改进，但是针对于图像中的微小目标(小于15*15像素)检测，还是存在许多需要改进的地方。在深度学习方法流行之前，对于不同尺度的目标，普遍都使用将原图构建出不同分辨率的图像金字塔，再对每层金字塔用固定输入分辨率的检测器来检测目标，以求在金字塔底部检测出小目标。但是对于一些复杂背景和大分辨率的图像来说，图像分辨率较大并且目标较小，这样使用图像金字塔会导致计算量和内存消耗过大等问题。近年来，用深度学习的方法进行目标检测已经取得了较多的成果，其中对于微小目标检测领域，主要分为几类方法：特征金字塔、超分辨率和GAN网络增强等方法。其中，超分辨率和GAN网络增强等方法在输入图像较大时会大大增加计算量和内存消耗，而特征金字塔的主要缺点是不同尺度特征之间的不一致性。为了解决上述问题，本发明发明了一种专门针对于微小目标的检测方法，在传统特征金字塔的基础上增加了新的路径来增强小目标的语义信息，并且对新路径的多尺度特征进行融合，称为自适应多特征融合网络(Adaptively Multi Feature Fusion Network)，该方法可以有效地解决特征金字塔内部的不一致性，从而提高对微小目标的检测效果。同时，本发明还设计了一种轻量级多级特征提取网络(Lightweight Multi-level Feature ExtractionNetwork)，可以简单有效地进行多尺度特征提取。整个网络模型由多级特征提取网络、多特征融合网络和检测网络组成，首先采用多级特征提取网络对输入图像进行特征提取，得到高层语义和低层语义特征；对得到的多尺度特征进行从上至下和从下至上的语义信息传播，并使用自适应多特征融合方法对不同尺度特征进行自适应融合，丰富微小目标的语义信息；再经过检测网络进行多尺度预测，并使用k-means方法产生目标提议框用于分类和回归任务。本发明发明了一种新的特征融合方法，可以直接应用于使用特征金字塔结构的检测器中，对图像中的微小目标检测具有更好的效果和鲁棒性。

发明内容

有鉴于此，本发明的目的在于提供一种基于自适应多特征融合的微小目标检测方法。

为达到上述目的，本发明提供如下技术方案：

基于自适应多特征融合的微小目标检测方法，该发发包括以下步骤：

1)使用提出的轻量级多级特征提取网络提取微小目标的高层语义和低层语义信息，整个特征提取网络由五个特征提取模块构成，每个特征提取模块由一个[3×3,2]的卷积网络和三个卷积块组成，并使用残差连接的方式提高网络的深度和特征提取能力；

2)将下采样率8，16和32的特征层经过特征金字塔结构，使用[1×1,1]的卷积网络处理维度，并使用双线性插值算法处理尺度问题，融合的方式采用通道上的连接，将特征维度提高；

3)在特征金字塔结构的基础上额外增加一条路径以丰富微小目标的语义信息和纹理信息，并使用[3×3,2]的卷积网络进一步提取特征和调整维度，融合的方式依然是通道相加；

4)再将两次融合后的特征经过自适应多特征融合网络，其中上采样使用双线性插值算法，下采样采用[3×3,2]的卷积网络和最大池化完成；同时，利用[1×1,1]的卷积网络进行维度匹配，使用输出通道为3的[1×1,1]卷积网络生成所需的权值参数，最后把权值参数乘到对应特征层中进行融合；

5)网络采用k-means算法得到先验框，根据数据集中物体的目标框尺度进行聚类，得到k个尺度的先验框，加速模型的收敛；

6)最后将融合后的特征分别经过[3×3,1]的卷积网络，达到检测的输出要求，并使用非极大值抑制算法进行结果筛选；整个网络采用端到端的方式进行训练，直至模型收敛。

所述1)中，使用轻量级多级特征提取网络提取输入图像的高层语义和低层语义信息，该网络由多个特征提取模块组成，具体结构如下：

a)每个特征提取模块由一个[3×3,2]的卷积网络和三个卷积块组成，其中3×3为卷积核大小，2为步长，用来完成下采样过程，下采样率为2；

b)特征提取模块中的每一个卷积块都由一个[1×1,1]的卷积网络和一个[3×3,1]的卷积网络组成，并使用对应元素相加的残差连接方式，以提高模型的非线性的能力和深度；

c)特征提取网络共有五个特征提取模块，下采样率为32(2^5)，并在下采样率为8，16，32的特征层，即对应第三、四和五个特征提取模块，输出特征图用于自适应多特征融合。

可选的，所述2)中，把下采样率为8，16和32的特征层分别记为p3，p4和p5，再将其经过特征金字塔结构，获得多尺度特征，具体步骤如下：

a)将p5层经过一个[1×1,1]的卷积网络，主要用于降维处理，并把输出维度调整为p4层的维度，记该层输出特征层为c5；

b)再经过一个上采样层，上采用使用双线性插值算法(本发明中上采样默认都使用双线性插值算法，除非特别声明)，经过上采样过后采样率会增大2倍(即p5经过上采样后的下采样率为16)；通过1×1卷积和上采样层后，输出的维度和下采样率已经和p4层匹配，所以就可以将p5层和p4层的特征图进行通道上的相加，得到融合后的特征图，再经过一个特征提取模块和一个1×1卷积，得到特征层c4；

c)同理，将c4经过一个上采样层，与p3层的特征图进行通道上的相加，得到融合后的特征图，再经过一个特征提取模块，得到特征层c3。

可选的，所述3)中，在传统特征金字塔的基础上，再增加一条从下至上的路径，用于丰富微小目标的语义信息，具体步骤如下：

a)将c3层经过一个[3×3,2]的卷积网络，进一步提取特征和调整输出维度，使之与c4层匹配，再与c4层的特征图进行通道上的相加，得到融合后的特征图，再经过一个特征提取模块，得到特征层c4′；

b)同理，将c4′经过一个[3×3,2]的卷积网络并与c5层进行特征融合，再经过一个特征提取模块，得到特征层c5′。

可选的，所述4)中，得到特征层c3，c4′和c5′用于后续的检测，具体步骤如下：

a)以c5′层作为融合层，故c4′层需经过一个2倍下采样，即使用[3×3,2]的卷积网络实现，c3层需经过一个4倍下采样，即先使用最大池化进行2倍下采样，再使用[3×3,2]的卷积网络；再将c5′层和经过处理后的c4′、c3层经过一个自适应融合网络，得到c5′层的融合结果F5；

b)以c4′层作为融合层，故c5′层需经过一个2倍上采样，c3层需经过一个2倍下采样，即使用[3×3,2]的卷积网络实现；同理，再将c4′层和经过处理后的c5′、c3层经过一个自适应融合网络，得到c4′层的融合结果F4；

c)以c3层作为融合层，故c5′层需经过一个4倍上采样，c4′层需经过一个2倍上采样；同理，经过一个自适应融合网络后得到c3层的融合结果F3。

可选的，所述5)中，自适应融合网络使用多个[1×1,1]的卷积网络组成，c5′层中，将c5′层和经过处理后的c4′、c3层分别经过一个[1×1,1]的卷积网络进行降维处理，再将这三个卷积后的特征图在通道上相加，然后再经过一个输出通道为3的[1×1,1]卷积网络，最后将c5′层和经过处理后的c4′、c3层分别乘以自适应融合网络得到的权值参数，再相加得到融合结果F5；以c4′或者c3层作为融合层时同理，用公式(1)来表示：

F^level＝α^level·x^3→level+β^level·x^4→level+γ^level·x^5→level (1)

式中，level表示当前融合层，x^n→level表示将不同下采样率的特征层调整到融合层分辨率后的特征层，level对应的融合层不需要调整，α^level、β^level和γ^level表示权值参数，其中α^level的定义由公式(2)表示：

式中，

和

为输出通道为3的[1×1,1]卷积网络后每个通道对应的权值，β^level和γ^level的定义同理。

可选的，所述6)中，经过自适应多特征融合网络后，得到三个融合后的特征层F5、F4和F3，用于后续的检测网络，在此之前，需要根据数据集计算得到检测网络所需的先验框参数；通过k-means算法计算得到的先验框参数可以比经验法设置的更加合理，从而加速网络的收敛，使得模型具有更好的性能，k-means计算公式如下所示：

式中，x⁽ⁱ⁾是数据集中目标框的尺度，i＝1,2,3,...,m；j是要得到k个尺度的先验框，默认k＝9，j＝1,2,3,...,k；μ_j表示聚类后的中心，如下式定义：

通过重复公式(3)和公式(4)的计算，直到算法收敛。

可选的，在所述6)后，还包括7)：得到先验框后，将特征层F5、F4和F3输入检测网络进行检测，检测网络由三个[3×3,1]的卷积网络构成，目的是进行维度匹配和降维处理，达到检测的输出要求，最后再将检测网络的识别结果进行非极大值抑制，得到最终的检测结果。

本发明的有益效果在于：

本发明是一种基于自适应多特征融合的微小目标检测方法，传统微小目标检测方法一般基于图像金字塔，而随着深度学习的发展，超分辨率和GAN网络增强等方法也逐渐在微小目标领域取得了较好的进展，但当输入图像过大、复杂背景或待检测物体数量过多时，以上方法会导致计算量增大、内存溢出等问题。本发明发明了一种自适应多特征融合的方法，不仅可以提高微小目标的识别结果，而且几乎不需要增加多余的内存消耗和时耗，同时本发明还设计了一种轻量级多级特征提取网络，可以在减少模型参数量和计算量的同时高效地提取图像特征，整个网络虽然大体上由三部分组成，但仍然是一个端到端的网络模型，可以轻松使用单GPU或者多GPU进行训练。

本发明使用轻量级多级特征提取网络提取输入图像的特征，使得到的特征图包含高层语义和低层语义的特征信息；接着先使用传统的特征金字塔结构进行一次路径增强，再在传统路径上再添加一条路径进行增强，使得目标特征信息更加丰富；然后使用自适应多特征融合的方法进行特征融合，使得微小目标的语义信息更加丰富，大大提高网络模型的召回率和正确率；接着再利用k-means算法根据数据集的目标尺寸计算得到检测网络所需的先验框参数，使得网络模型的收敛速度加快，提高模型泛化性能；最后再经过检测网络进行结果识别，采用端到端的方式不断更新网络权值，直至收敛。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为轻量级多级特征提取网络结构图；

图2为自适应多特征融合网络结构图；

图3为网络模型整体结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图3，为一种基于自适应多特征融合的微小目标检测方法，包括以下步骤：

1)使用轻量级多级特征提取网络提取输入图像的高层语义和低层语义信息，该网络由多个特征提取模块组成，具体结构如下：

c)特征提取网络共有五个特征提取模块，下采样率为32(2^5)，并在下采样率为8，16，32的特征层(即对应第三、四、五个特征提取模块)输出特征图用于自适应多特征融合。

2)把下采样率为8，16和32的特征层分别记为p3，p4和p5，再将其经过特征金字塔结构，进一步获得多尺度特征，具体步骤如下：

3)在传统特征金字塔的基础上，再增加一条从下至上的路径，用于丰富微小目标的语义信息，具体步骤如下：

4)经过以上操作后，得到特征层c3，c4′和c5′用于后续的检测，此时c3、c4′特征层的语义信息虽然经过了两次路径增强，但语义信息还是不如c5′层丰富。特征纹理信息为目标提供了准确的位置信息，语义信息的强弱可以帮助判断该物体是前景或背景或是什么类别的物体，下采样率较小的特征层具有较高的纹理信息，但语义信息不足，而下采样率较大的特征层具有较丰富的语义信息，但纹理信息不足。所以本发明发明了一种自适应多特征融合的方法，可以有效地丰富不同下采样率特征层中的不足信息，具体步骤如下：

5)自适应融合网络使用多个[1×1,1]的卷积网络组成，以c5′层作为融合层为例，将c5′层和经过处理后的c4′、c3层分别经过一个[1×1,1]的卷积网络进行降维处理，再将这三个卷积后的特征图在通道上相加，然后再经过一个输出通道为3的[1×1,1]卷积网络，最后将c5′层和经过处理后的c4′、c3层分别乘以自适应融合网络得到的权值参数，再相加得到融合结果F5；以c4′或者c3层作为融合层时同理。这个过程可以用公式(1)来表示：

F^level＝α^level·x^3→level+β^level·x^4→level+γ^level·x^5→level (1)

式中，level表示当前融合层，x^n→level表示将不同下采样率的特征层调整到融合层分辨率后的特征层(注：level对应的融合层不需要调整)，α^level、β^level和γ^level表示权值参数，其中α^level的定义由公式(2)表示：

式中，

和

6)经过自适应多特征融合网络后，得到三个融合后的特征层F5、F4和F3，用于后续的检测网络，在此之前，需要根据数据集计算得到检测网络所需的先验框参数。通过k-means算法计算得到的先验框参数可以比经验法设置的更加合理，从而加速网络的收敛，使得模型具有更好的性能，k-means计算公式如下所示：

式中，x⁽ⁱ⁾是数据集中目标框的尺度，i＝1,2,3,...,m；j是要得到k个尺度的先验框(默认k＝9)，j＝1,2,3,...,k；μ_j表示聚类后的中心，如下式定义：

通过重复公式(3)和公式(4)的计算，直到算法收敛。

7)得到先验框后，就可以将特征层F5、F4和F3输入检测网络进行检测，检测网络由三个[3×3,1]的卷积网络构成，目的是进行维度匹配和降维处理，达到检测的输出要求，最后再将检测网络的识别结果进行非极大值抑制，得到最终的检测结果。

1、利用轻量级多级特征提取网络提取输入图像的高层语义和低层语义特征，并保存最后三层特征层的中间结果，用于后续的特征融合；

2、首先进行一次传统的特征金字塔路径增强，在传统特征金字塔的基础上，再增加一条从下至上的路径，用于丰富微小目标的特性信息，最后使用自适应多特征融合的方法进行多层特征融合，进一步提高微小目标的语义信息；

3、使用k-means算法获得先验框参数，并经过检测网络和非极大值抑制方法得到图像的识别结果，整个网络采用端到端的训练方式，不断更新权值参数，直至网络收敛。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于自适应多特征融合的微小目标检测方法，其特征在于：该发发包括以下步骤：

2.根据权利要求1所述的基于自适应多特征融合的微小目标检测方法，其特征在于：所述1)中，使用轻量级多级特征提取网络提取输入图像的高层语义和低层语义信息，该网络由多个特征提取模块组成，具体结构如下：

3.根据权利要求2所述的基于自适应多特征融合的微小目标检测方法，其特征在于：所述2)中，把下采样率为8，16和32的特征层分别记为p3，p4和p5，再将其经过特征金字塔结构，获得多尺度特征，具体步骤如下：

4.根据权利要求3所述的基于自适应多特征融合的微小目标检测方法，其特征在于：所述3)中，在传统特征金字塔的基础上，再增加一条从下至上的路径，用于丰富微小目标的语义信息，具体步骤如下：

5.根据权利要求4所述的基于自适应多特征融合的微小目标检测方法，其特征在于：所述4)中，得到特征层c3，c4′和c5′用于后续的检测，具体步骤如下：

6.根据权利要求5所述的基于自适应多特征融合的微小目标检测方法，其特征在于：所述5)中，自适应融合网络使用多个[1×1,1]的卷积网络组成，c5′层中，将c5′层和经过处理后的c4′、c3层分别经过一个[1×1,1]的卷积网络进行降维处理，再将这三个卷积后的特征图在通道上相加，然后再经过一个输出通道为3的[1×1,1]卷积网络，最后将c5′层和经过处理后的c4′、c3层分别乘以自适应融合网络得到的权值参数，再相加得到融合结果F5；以c4′或者c3层作为融合层时同理，用公式(1)来表示：

F^level＝α^level·x^3→level+β^level·x^4→level+γ^level·x^5→level (1)

式中，

和

7.根据权利要求6所述的基于自适应多特征融合的微小目标检测方法，其特征在于：所述6)中，经过自适应多特征融合网络后，得到三个融合后的特征层F5、F4和F3，用于后续的检测网络，在此之前，需要根据数据集计算得到检测网络所需的先验框参数；通过k-means算法计算得到的先验框参数可以比经验法设置的更加合理，从而加速网络的收敛，使得模型具有更好的性能，k-means计算公式如下所示：

通过重复公式(3)和公式(4)的计算，直到算法收敛。

8.根据权利要求7所述的基于自适应多特征融合的微小目标检测方法，其特征在于：在所述6)后，还包括7)：得到先验框后，将特征层F5、F4和F3输入检测网络进行检测，检测网络由三个[3×3,1]的卷积网络构成，目的是进行维度匹配和降维处理，达到检测的输出要求，最后再将检测网络的识别结果进行非极大值抑制，得到最终的检测结果。