CN111914599B

CN111914599B - 一种基于语义信息多层特征融合的细粒度鸟类识别方法

Info

Publication number: CN111914599B
Application number: CN201910386030.3A
Authority: CN
Inventors: 何小海; 李国瑞; 吴晓红; 卿粼波; 滕奇志; 王正勇; 吴小强
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2022-09-02
Anticipated expiration: 2039-05-09
Also published as: CN111914599A

Abstract

本发明公开了一种基于语义信息多层特征融合的细粒度鸟类识别方法。该方法由区域定位网络，特征提取网络和一种跨层特征融合网络(Cross‑layer Feature Fusion Network，CFF‑Net)组成。首先，区域定位网络在没有局部语义标注的情况下，自动定位出局部有效信息区域；然后，特征提取网络提取局部区域图像特征和全局图像特征；最后，CFF‑Net对多个局部和全局的向量进行融合，提高最终分类性能。结果表明，本方法在Caltech‑UCSD Birds200‑2011(CUB200‑2011)鸟类公共数据集上，分类准确率高于目前主流的细粒度鸟类识别方法，表现出优异的分类性能。

Description

一种基于语义信息多层特征融合的细粒度鸟类识别方法

技术领域

本发明设计一种基于语义信息多层特征融合的细粒度鸟类识别方法。涉及计算机视觉，深度学习领域。

背景技术

细粒度图像识别已成为目前计算机视觉领域的重要研究方向，其目的是对属于同一基础类别的图像(如鸟，鱼，汽车等)进行更加细致的从属类别划分。由于从属类别内部之间差别细微，细粒度图像识别任务相较于传统通用图像识别任务难度更高。近年来，随着我国生态保护事业的蓬勃发展，物种监控图像视频剧增，生物种类识别的需求也剧增。细粒度鸟类种类识别成为其中重要的任务之一，其识别结果可以帮助生物学家有效监控鸟类种群分布及生态环境的变迁。

目前，针对细粒度图像识别任务，大多数研究都以卷积神经网络(convolutionalneural networks,CNN)为基础，主要分为两大类。基于强监督学习的细粒度图像识别任务，在模型训练时，为了获得更好的分类精度，除了使用图像的类别标注外，还使用了目标标注框和局部部位标注点等局部语义标注信息。主要方法包括Part-based R-CNNs、Mask-CNN等，相较于传统CNN方法，检测精度明显提高，模型泛化性能也明显提升。基于强监督学习的分类模型虽然取得了较为满意的分类精度，但由于标注信息代价昂贵，且不能保证局部语义标注是模型所需的有效信息，在一定程度上局限了算法的实际应用。因此，目前大多数研究基于弱监督学习的思想。其难点在于，模型训练时仅使用图像类别标注，不再使用局部语义标注，也能准确定位到局部关键区域，取得与基于强监督学习模型可比的分类精度。主要方法包括双线性模型(Bilinear-CNN)、HBP模型、NTS-Net等。但上述方法对局部图像和全局图像特征提取后，将特征向量简单进行级联后接全连接层进行分类，不能充分利用局部区域特征所表达信息，一定程度上局限了算法的实际应用。

发明内容

本发明旨在为解决上述问题而提供一种基于语义信息多层特征融合的细粒度鸟类识别方法。

本发明通过以下技术方案来实现上述目的：

一种基于语义信息多层特征融合的细粒度鸟类识别方法，包括以下步骤：

(1)在输入网络前对图像进行随机裁剪，随机水平翻转，归一化，得到448*448大小的输入图像数据；

(2)局部区域定位，从步骤(1)的全局图像中，定位出具有有效信息的关键局部区域，并为每一个区域信息量含量打分，经过非极大值抑制(Non-Maximum Suppression，NMS)方法选择后，保留得分最高的前Top-n个局部区域；

(3)特征提取，将ResNet-50作为基本特征提取网络，提取步骤(1)得到的全局图像特征和步骤(2)得到的局部区域图像特征；

(4)特征融合，将步骤(3)得到的全局图像特征和局部区域图像特征进行跨层特征融合，对融合后的特征图谱采用全局均值池化进行降维，将降维后的特征向量进行级联，接全连接层后进行分类。

附图说明

图1基于语义信息多层特征融合的细粒度鸟类识别方法模型图

图2区域定位网络核心原理图

图3跨层特征融合网络模型图

具体实施方式

下面结合附图对本发明做进一步说明：

图1中，基于语义信息多层特征融合的细粒度鸟类识别方法，包括以下步骤：

(2)区域定位网络，从步骤(1)的全局图像中，定位出具有有效信息的关键局部区域，并为每一个区域信息量含量打分，经过非极大值抑制(Non-Maximum Suppression，NMS)方法选择后，保留得分最高的前Top-n个局部区域；

(3)特征提取网络，将ResNet-50作为基本特征提取网络，提取步骤(1)得到的全局图像特征和步骤(2)得到的局部区域图像特征；

(4)跨层特征融合网络(Cross-layer Feature Fusion Network，CFF-Net)，将步骤(3)得到的全局图像特征和局部区域图像特征进行跨层特征融合，对融合后的特征图谱采用全局均值池化进行降维，将降维后的特征向量进行级联，接全连接层后进行分类。

具体地，所述步骤(1)中，图像归一化时采用的均值和标准差分别为0.485、0.456、0.406和0.229、0.224、0.225。

所述步骤(2)中，区域定位网络核心原理图如图2所示。锚点是RPN网络卷积层输出的特征图上的一个像素，每个锚点对应于原图有一组规定好的k₁个面积缩放比和k₂个宽高比。首先，以相应锚点为中心，生成k个锚点框，其中k为k₁和k₂乘积；然后将每一个以锚点为中心的3*3大小的窗口，输入到中间卷积层，卷积核大小为3*3*256，得到256维向量；接着将256维向量输入到分类卷积层，卷积核大小为1*1*256*2k，得到2k个置信度，分别代表每个锚点框是前景和背景的概率大小；最后将256维向量输入到回归卷积层，卷积核大小为1*1*256*4k，得到4k个锚点框的位置数据，每个锚点框的坐标由矩形框的左上角点的横坐标、纵坐标和矩形框的长、宽共4个数据组成。在本发明中，由于没有局部语义标注信息，删除网络回归层，不做位置的精细修正；修改分类层卷积核大小为1*1*256*k，得到k个置信度分数，将其定义为每个锚点框内所含有效信息的丰富程度。在网络的14*14、7*7、和4*4特征图谱层分别使用改进后的RPN网络，选定的基准锚点框大小分别修改为64*64、128*128、256*256。对每一层特征图谱，单独设置锚点框的面积比和宽高比，共产生1614个候选框坐标与对应的信息量得分。经NMS算法后，选取前4个得分最高的候选区域，作为局部区域，将其上采样到224*224大小，送入后续的特征提取网络，其中，NMS算法中IoU取值为0.3。

所述步骤(3)中，修改ResNet-50全局均值池化层输出参数为1，使其输出特征图谱大小为1*1*2048大小，最后调整成2048维向量；GAP层后增加一个dropout层，dropoutradio设为0.5，防止过拟合现象发生；修改FC层输出参数为200，使其最终输出为200维向量。特征提取网络层在训练时，加载在ImageNet图像库预训练好的模型参数，对网络进行微调(fine-tuning)，有效减少网络训练时间。

所述步骤(4)中，跨层特征融合网络模型如图3所示。区域定位网络定位出前M个局部信息区域，经特征提取网络后，形成局部特征图谱层，与全局特征图谱分别进行点乘操作，该过程可用以下公式表示：

F_k＝A_k⊙F(k＝1,2,...,M)

若点乘操作得到的是特征图谱层，则经全局均值池化层后得到特征向量，接着进行向量级联，最后接FC层进行分类，该过程可定义如下公式表示：

CFF-Net特征融合过程可用如下公式表示：

定量实验分析

为了验证CFF-Net的性能，本方法对ResNet不同特征图谱层和特征向量层分别做特征融合操作，融合方式如表1所示。方式1将全局图像输入的Conv_4层特征图谱和局部区域输入的Conv_3层特征图谱做特征做融合操作，得到的特征图谱大小为1048*28*28；方式3和方式4直接对特征向量做融合操作，得到的也是特征向量。

表1特征融合组合方式

表2展示了不同特征融合方式分类准确率比较：

表2不同融合方式准确率％

表3展示了不同方法在在鸟类数据集上的分类准确率，通过实验可以得出，使用本发明所描述的方法在鸟类数据集上表现优异的分类性能。

表3不同方法准确率％

Claims

1.一种基于语义信息多层特征融合的细粒度鸟类识别方法，其特征在于包括以下步骤：

(1)在输入网络前对图像进行随机裁剪，随机水平翻转，归一化，得到448*448大小的输入图像数据，其中图像归一化时采用的均值和标准差分别为0.485、0.456、0.406和0.229、0.224、0.225；

(2)局部区域定位，从步骤(1)的全局图像中，在没有人工局部语义标注的情况下，自动定位出局部有效信息区域，并为每一个区域信息量含量打分，利用非极大值抑制Non-Maximum Suppression，NMS算法进行选择，保留得分最高的前4个局部区域，NMS算法中的重叠面积阈值取0.3；

(3)特征提取，对传统的ResNet-50网络进行修改，设置全局均值池化层输出参数为1，使其输出特征图谱大小为1*1*2048大小，最后调整成2048维向量；为防止过拟合现象的发生，在GAP层后增加一个dropout层，dropout radio设为0.5；并修改FC层输出参数为200，使其最终输出为200维向量，将其作为基本特征提取网络，提取步骤(1)得到的全局图像特征和步骤(2)得到的局部区域图像特征；

(4)特征融合，将步骤(3)得到的全局图像特征和局部区域图像特征进行跨层特征融合，使用了一种跨层特征融合网络Cross-layer Feature Fusion Network，CFF-Net，首先利用CFF-Net网络定位出前Top-n个局部信息区域，经特征提取网络后，形成Top-n个局部特征图谱层，再与全局特征图谱分别进行点乘；若点乘操作得到的是特征图谱层，则经全局均值池化层后得到融合后的特征向量；最后将得到的特征向量进行级联，结合全局图像与局部区域特征信息，接全连接层后进行分类，

CFF-Net特征融合过程可用如上公式表示。