CN111914599B - 一种基于语义信息多层特征融合的细粒度鸟类识别方法 - Google Patents
一种基于语义信息多层特征融合的细粒度鸟类识别方法 Download PDFInfo
- Publication number
- CN111914599B CN111914599B CN201910386030.3A CN201910386030A CN111914599B CN 111914599 B CN111914599 B CN 111914599B CN 201910386030 A CN201910386030 A CN 201910386030A CN 111914599 B CN111914599 B CN 111914599B
- Authority
- CN
- China
- Prior art keywords
- local
- feature
- layer
- network
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于语义信息多层特征融合的细粒度鸟类识别方法。该方法由区域定位网络,特征提取网络和一种跨层特征融合网络(Cross‑layer Feature Fusion Network,CFF‑Net)组成。首先,区域定位网络在没有局部语义标注的情况下,自动定位出局部有效信息区域;然后,特征提取网络提取局部区域图像特征和全局图像特征;最后,CFF‑Net对多个局部和全局的向量进行融合,提高最终分类性能。结果表明,本方法在Caltech‑UCSD Birds200‑2011(CUB200‑2011)鸟类公共数据集上,分类准确率高于目前主流的细粒度鸟类识别方法,表现出优异的分类性能。
Description
技术领域
本发明设计一种基于语义信息多层特征融合的细粒度鸟类识别方法。涉及计算机视觉,深度学习领域。
背景技术
细粒度图像识别已成为目前计算机视觉领域的重要研究方向,其目的是对属于同一基础类别的图像(如鸟,鱼,汽车等)进行更加细致的从属类别划分。由于从属类别内部之间差别细微,细粒度图像识别任务相较于传统通用图像识别任务难度更高。近年来,随着我国生态保护事业的蓬勃发展,物种监控图像视频剧增,生物种类识别的需求也剧增。细粒度鸟类种类识别成为其中重要的任务之一,其识别结果可以帮助生物学家有效监控鸟类种群分布及生态环境的变迁。
目前,针对细粒度图像识别任务,大多数研究都以卷积神经网络(convolutionalneural networks,CNN)为基础,主要分为两大类。基于强监督学习的细粒度图像识别任务,在模型训练时,为了获得更好的分类精度,除了使用图像的类别标注外,还使用了目标标注框和局部部位标注点等局部语义标注信息。主要方法包括Part-based R-CNNs、Mask-CNN等,相较于传统CNN方法,检测精度明显提高,模型泛化性能也明显提升。基于强监督学习的分类模型虽然取得了较为满意的分类精度,但由于标注信息代价昂贵,且不能保证局部语义标注是模型所需的有效信息,在一定程度上局限了算法的实际应用。因此,目前大多数研究基于弱监督学习的思想。其难点在于,模型训练时仅使用图像类别标注,不再使用局部语义标注,也能准确定位到局部关键区域,取得与基于强监督学习模型可比的分类精度。主要方法包括双线性模型(Bilinear-CNN)、HBP模型、NTS-Net等。但上述方法对局部图像和全局图像特征提取后,将特征向量简单进行级联后接全连接层进行分类,不能充分利用局部区域特征所表达信息,一定程度上局限了算法的实际应用。
发明内容
本发明旨在为解决上述问题而提供一种基于语义信息多层特征融合的细粒度鸟类识别方法。
本发明通过以下技术方案来实现上述目的:
一种基于语义信息多层特征融合的细粒度鸟类识别方法,包括以下步骤:
(1)在输入网络前对图像进行随机裁剪,随机水平翻转,归一化,得到448*448大小的输入图像数据;
(2)局部区域定位,从步骤(1)的全局图像中,定位出具有有效信息的关键局部区域,并为每一个区域信息量含量打分,经过非极大值抑制(Non-Maximum Suppression,NMS)方法选择后,保留得分最高的前Top-n个局部区域;
(3)特征提取,将ResNet-50作为基本特征提取网络,提取步骤(1)得到的全局图像特征和步骤(2)得到的局部区域图像特征;
(4)特征融合,将步骤(3)得到的全局图像特征和局部区域图像特征进行跨层特征融合,对融合后的特征图谱采用全局均值池化进行降维,将降维后的特征向量进行级联,接全连接层后进行分类。
附图说明
图1基于语义信息多层特征融合的细粒度鸟类识别方法模型图
图2区域定位网络核心原理图
图3跨层特征融合网络模型图
具体实施方式
下面结合附图对本发明做进一步说明:
图1中,基于语义信息多层特征融合的细粒度鸟类识别方法,包括以下步骤:
(1)在输入网络前对图像进行随机裁剪,随机水平翻转,归一化,得到448*448大小的输入图像数据;
(2)区域定位网络,从步骤(1)的全局图像中,定位出具有有效信息的关键局部区域,并为每一个区域信息量含量打分,经过非极大值抑制(Non-Maximum Suppression,NMS)方法选择后,保留得分最高的前Top-n个局部区域;
(3)特征提取网络,将ResNet-50作为基本特征提取网络,提取步骤(1)得到的全局图像特征和步骤(2)得到的局部区域图像特征;
(4)跨层特征融合网络(Cross-layer Feature Fusion Network,CFF-Net),将步骤(3)得到的全局图像特征和局部区域图像特征进行跨层特征融合,对融合后的特征图谱采用全局均值池化进行降维,将降维后的特征向量进行级联,接全连接层后进行分类。
具体地,所述步骤(1)中,图像归一化时采用的均值和标准差分别为0.485、0.456、0.406和0.229、0.224、0.225。
所述步骤(2)中,区域定位网络核心原理图如图2所示。锚点是RPN网络卷积层输出的特征图上的一个像素,每个锚点对应于原图有一组规定好的k1个面积缩放比和k2个宽高比。首先,以相应锚点为中心,生成k个锚点框,其中k为k1和k2乘积;然后将每一个以锚点为中心的3*3大小的窗口,输入到中间卷积层,卷积核大小为3*3*256,得到256维向量;接着将256维向量输入到分类卷积层,卷积核大小为1*1*256*2k,得到2k个置信度,分别代表每个锚点框是前景和背景的概率大小;最后将256维向量输入到回归卷积层,卷积核大小为1*1*256*4k,得到4k个锚点框的位置数据,每个锚点框的坐标由矩形框的左上角点的横坐标、纵坐标和矩形框的长、宽共4个数据组成。在本发明中,由于没有局部语义标注信息,删除网络回归层,不做位置的精细修正;修改分类层卷积核大小为1*1*256*k,得到k个置信度分数,将其定义为每个锚点框内所含有效信息的丰富程度。在网络的14*14、7*7、和4*4特征图谱层分别使用改进后的RPN网络,选定的基准锚点框大小分别修改为64*64、128*128、256*256。对每一层特征图谱,单独设置锚点框的面积比和宽高比,共产生1614个候选框坐标与对应的信息量得分。经NMS算法后,选取前4个得分最高的候选区域,作为局部区域,将其上采样到224*224大小,送入后续的特征提取网络,其中,NMS算法中IoU取值为0.3。
所述步骤(3)中,修改ResNet-50全局均值池化层输出参数为1,使其输出特征图谱大小为1*1*2048大小,最后调整成2048维向量;GAP层后增加一个dropout层,dropoutradio设为0.5,防止过拟合现象发生;修改FC层输出参数为200,使其最终输出为200维向量。特征提取网络层在训练时,加载在ImageNet图像库预训练好的模型参数,对网络进行微调(fine-tuning),有效减少网络训练时间。
所述步骤(4)中,跨层特征融合网络模型如图3所示。区域定位网络定位出前M个局部信息区域,经特征提取网络后,形成局部特征图谱层,与全局特征图谱分别进行点乘操作,该过程可用以下公式表示:
Fk=Ak⊙F(k=1,2,...,M)
若点乘操作得到的是特征图谱层,则经全局均值池化层后得到特征向量,接着进行向量级联,最后接FC层进行分类,该过程可定义如下公式表示:
CFF-Net特征融合过程可用如下公式表示:
定量实验分析
为了验证CFF-Net的性能,本方法对ResNet不同特征图谱层和特征向量层分别做特征融合操作,融合方式如表1所示。方式1将全局图像输入的Conv_4层特征图谱和局部区域输入的Conv_3层特征图谱做特征做融合操作,得到的特征图谱大小为1048*28*28;方式3和方式4直接对特征向量做融合操作,得到的也是特征向量。
表1特征融合组合方式
表2展示了不同特征融合方式分类准确率比较:
表2不同融合方式准确率 %
表3展示了不同方法在在鸟类数据集上的分类准确率,通过实验可以得出,使用本发明所描述的方法在鸟类数据集上表现优异的分类性能。
表3不同方法准确率 %
Claims (1)
1.一种基于语义信息多层特征融合的细粒度鸟类识别方法,其特征在于包括以下步骤:
(1)在输入网络前对图像进行随机裁剪,随机水平翻转,归一化,得到448*448大小的输入图像数据,其中图像归一化时采用的均值和标准差分别为0.485、0.456、0.406和0.229、0.224、0.225;
(2)局部区域定位,从步骤(1)的全局图像中,在没有人工局部语义标注的情况下,自动定位出局部有效信息区域,并为每一个区域信息量含量打分,利用非极大值抑制Non-Maximum Suppression,NMS算法进行选择,保留得分最高的前4个局部区域,NMS算法中的重叠面积阈值取0.3;
(3)特征提取,对传统的ResNet-50网络进行修改,设置全局均值池化层输出参数为1,使其输出特征图谱大小为1*1*2048大小,最后调整成2048维向量;为防止过拟合现象的发生,在GAP层后增加一个dropout层,dropout radio设为0.5;并修改FC层输出参数为200,使其最终输出为200维向量, 将其作为基本特征提取网络,提取步骤(1)得到的全局图像特征和步骤(2)得到的局部区域图像特征;
(4)特征融合,将步骤(3)得到的全局图像特征和局部区域图像特征进行跨层特征融合,使用了一种跨层特征融合网络Cross-layer Feature Fusion Network,CFF-Net,首先利用CFF-Net网络定位出前Top-n个局部信息区域,经特征提取网络后,形成Top-n个局部特征图谱层,再与全局特征图谱分别进行点乘;若点乘操作得到的是特征图谱层,则经全局均值池化层后得到融合后的特征向量;最后将得到的特征向量进行级联,结合全局图像与局部区域特征信息,接全连接层后进行分类,
CFF-Net特征融合过程可用如上公式表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910386030.3A CN111914599B (zh) | 2019-05-09 | 2019-05-09 | 一种基于语义信息多层特征融合的细粒度鸟类识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910386030.3A CN111914599B (zh) | 2019-05-09 | 2019-05-09 | 一种基于语义信息多层特征融合的细粒度鸟类识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914599A CN111914599A (zh) | 2020-11-10 |
CN111914599B true CN111914599B (zh) | 2022-09-02 |
Family
ID=73242221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910386030.3A Active CN111914599B (zh) | 2019-05-09 | 2019-05-09 | 一种基于语义信息多层特征融合的细粒度鸟类识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914599B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749760A (zh) * | 2021-01-22 | 2021-05-04 | 淮阴师范学院 | 一种基于深度卷积网络的水鸟图像识别特征融合模型系统及方法 |
CN113420738B (zh) * | 2021-08-24 | 2021-11-09 | 中国地质大学(武汉) | 自适应网络遥感图像分类方法、计算机设备及存储介质 |
CN113850136A (zh) * | 2021-08-24 | 2021-12-28 | 中国船舶重工集团公司第七0九研究所 | 基于yolov5与BCNN的车辆朝向识别方法及系统 |
CN114842510A (zh) * | 2022-05-27 | 2022-08-02 | 澜途集思生态科技集团有限公司 | 基于ScratchDet算法的生态生物识别方法 |
CN115272763B (zh) * | 2022-07-27 | 2023-04-07 | 四川大学 | 一种基于细粒度特征融合的鸟类识别方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631469A (zh) * | 2015-12-18 | 2016-06-01 | 华南理工大学 | 一种多层稀疏编码特征的鸟类图像识别方法 |
CN107341517A (zh) * | 2017-07-07 | 2017-11-10 | 哈尔滨工业大学 | 一种基于深度学习层级间特征融合的多尺度小物体检测方法 |
CN108009637A (zh) * | 2017-11-20 | 2018-05-08 | 天津大学 | 基于跨层特征提取的像素级台标识别网络的台标分割方法 |
CN108171257A (zh) * | 2017-12-01 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 细粒度图像识别模型训练及识别方法、装置及存储介质 |
CN108229444A (zh) * | 2018-02-09 | 2018-06-29 | 天津师范大学 | 一种基于整体和局部深度特征融合的行人再识别方法 |
CN108509978A (zh) * | 2018-02-28 | 2018-09-07 | 中南大学 | 基于cnn的多级特征融合的多类目标检测方法及模型 |
CN109344821A (zh) * | 2018-08-30 | 2019-02-15 | 西安电子科技大学 | 基于特征融合和深度学习的小目标检测方法 |
CN109447115A (zh) * | 2018-09-25 | 2019-03-08 | 天津大学 | 基于多层语义监督式注意力模型的细粒度零样本分类方法 |
CN109685115A (zh) * | 2018-11-30 | 2019-04-26 | 西北大学 | 一种双线性特征融合的细粒度概念模型及学习方法 |
-
2019
- 2019-05-09 CN CN201910386030.3A patent/CN111914599B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631469A (zh) * | 2015-12-18 | 2016-06-01 | 华南理工大学 | 一种多层稀疏编码特征的鸟类图像识别方法 |
CN107341517A (zh) * | 2017-07-07 | 2017-11-10 | 哈尔滨工业大学 | 一种基于深度学习层级间特征融合的多尺度小物体检测方法 |
CN108009637A (zh) * | 2017-11-20 | 2018-05-08 | 天津大学 | 基于跨层特征提取的像素级台标识别网络的台标分割方法 |
CN108171257A (zh) * | 2017-12-01 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 细粒度图像识别模型训练及识别方法、装置及存储介质 |
CN108229444A (zh) * | 2018-02-09 | 2018-06-29 | 天津师范大学 | 一种基于整体和局部深度特征融合的行人再识别方法 |
CN108509978A (zh) * | 2018-02-28 | 2018-09-07 | 中南大学 | 基于cnn的多级特征融合的多类目标检测方法及模型 |
CN109344821A (zh) * | 2018-08-30 | 2019-02-15 | 西安电子科技大学 | 基于特征融合和深度学习的小目标检测方法 |
CN109447115A (zh) * | 2018-09-25 | 2019-03-08 | 天津大学 | 基于多层语义监督式注意力模型的细粒度零样本分类方法 |
CN109685115A (zh) * | 2018-11-30 | 2019-04-26 | 西北大学 | 一种双线性特征融合的细粒度概念模型及学习方法 |
Non-Patent Citations (2)
Title |
---|
基于多层特征融合可调监督函数卷积神经网络的人脸性别识别;石学超; 周亚同; 池越;《计算机应用研究》;20190301;第36卷(第3期);第940-944页 * |
基于深度卷积特征的细粒度图像分类研究综述;罗建豪,吴建鑫;《基于语义信息跨层特征融合的细粒度鸟类识别》;20170801;第43卷(第8期);第1306-1318页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111914599A (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914599B (zh) | 一种基于语义信息多层特征融合的细粒度鸟类识别方法 | |
KR102516360B1 (ko) | 타겟 검출 방법 및 장치 | |
CN107145889B (zh) | 基于具有RoI池化的双CNN网络的目标识别方法 | |
CN112052787B (zh) | 基于人工智能的目标检测方法、装置及电子设备 | |
Bautista et al. | Convolutional neural network for vehicle detection in low resolution traffic videos | |
WO2020221298A1 (zh) | 文本检测模型训练方法、文本区域、内容确定方法和装置 | |
CN109614979B (zh) | 一种基于选择与生成的数据增广方法及图像分类方法 | |
CN107358262B (zh) | 一种高分辨率图像的分类方法及分类装置 | |
CN112132197B (zh) | 模型训练、图像处理方法、装置、计算机设备和存储介质 | |
EP3620982B1 (en) | Sample processing method and device | |
CN111160407A (zh) | 一种深度学习目标检测方法及系统 | |
CN110929099B (zh) | 一种基于多任务学习的短视频帧语义提取方法及系统 | |
CN111950389B (zh) | 一种基于轻量级网络的深度二值特征人脸表情识别方法 | |
CN111768415A (zh) | 一种无量化池化的图像实例分割方法 | |
CN111104973B (zh) | 一种基于知识注意力的细粒度图像分类方法 | |
Souly et al. | Scene labeling using sparse precision matrix | |
CN114445651A (zh) | 一种语义分割模型的训练集构建方法、装置及电子设备 | |
CN110889360A (zh) | 一种基于切换卷积网络的人群计数方法及系统 | |
CN115240024A (zh) | 一种联合自监督学习和半监督学习的地外图片分割方法和系统 | |
CN107958219A (zh) | 基于多模型和多尺度特征的图像场景分类方法 | |
CN111161244A (zh) | 基于FCN+FC-WXGBoost的工业产品表面缺陷检测方法 | |
CN113177965A (zh) | 基于改进U-net网络的煤岩全组分提取方法及其应用 | |
Lou et al. | Smoke root detection from video sequences based on multi-feature fusion | |
CN111563440A (zh) | 一种基于异构卷积的多核迭代rpn的目标检测方法 | |
CN111091122A (zh) | 一种多尺度特征卷积神经网络的训练和检测方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |