CN109087315A

CN109087315A - 一种基于卷积神经网络的图像识别定位方法

Info

Publication number: CN109087315A
Application number: CN201810963632.6A
Authority: CN
Inventors: 曹天扬; 刘昶
Original assignee: Institute of Electronics of CAS
Current assignee: Institute of Electronics of CAS
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2018-12-25
Anticipated expiration: 2038-08-22
Also published as: CN109087315B

Abstract

本发明公开了一种基于卷积神经网络的图像识别定位方法，包括步骤：构建卷积神经网络；根据待识别图像构建待识别图像子集以及根据目标图像构建目标图像子集；构建联合训练集，所述联合训练集包括所述待识别图像子集和所述目标图像子集；以及根据所述联合训练集训练所述卷积神经网络，以从所述待识别图像中识别和定位所述目标图像。本发明提供的基于卷积神经网络的图像识别定位方法将目标图像与待识别图像混合在一起后，再对卷积神经网络进行训练，将训练和测试结合在一起，无需预先输入海量的待测试图像的训练数据。

Description

一种基于卷积神经网络的图像识别定位方法

技术领域

本发明涉及信息处理领域，具体涉及一种基于卷积神经网络的图像识别定位方法。

背景技术

现有技术中，常用的图像识别定位方法均是根据预先配置的大量的数据进行训练后，再对实际样本进行测试。但是在现实场景中，物体所在环境千差万别，即使性能最好的深度学习也不可能做到对所有环境都预先学习。因此在进行图像识别时，复杂的背景环境会产生大量与待识别物体相似的图像干扰。

而为了减少背景造成的干扰，待识别的特定物体需要被预先提取大量特征，比如3D特征。但3D特征的采集需要专用设备，使用限制较多。或者从多个角度、不同距离拍摄特定物体的多张照片以作为样本。无论是预先提取大量特征还是拍摄多张照片作为样本，都需要大量的预先工作、费时费力。

因此，有必要提出一种新的图像识别定位方法。

发明内容

有鉴于此，为了克服上述问题的至少一个方面，本发明的实施例提供一种基于卷积神经网络的图像识别定位方法，包括步骤：

构建卷积神经网络；

根据待识别图像构建待识别图像子集以及根据目标图像构建目标图像子集；

构建联合训练集，所述联合训练集包括所述待识别图像子集和所述目标图像子集；以及

根据所述联合训练集训练所述卷积神经网络，以从所述待识别图像中识别和定位所述目标图像。

进一步地，所述根据待识别图像构建待识别图像子集进一步包括：

确定所述目标图像颜色特征以及反射特征；

根据所述目标图像的颜色特征以及反射特征，对所述待识别图像进行分割；

提取所述待识别图像中与所述目标图像具有相同颜色特征和反射特征的区域的图像；

通过矩形掩膜对提取的区域的图像进行分割，以得到待识别图像的多个子图像；以及

所述待识别图像的多个子图像构成所述待识别图像子集。

进一步地，通过多个不同尺寸的矩形掩膜对所述提取的区域的图像进行分割。

进一步地，所述步骤根据所述目标图像的颜色特征以及反射特征，对所述待识别图像进行分割，进一步包括：

根据所述目标图像的RGB的方差，区分所述待识别图像的彩色区域、反射区域以及几乎无色区；

根据所述目标图像的色度图，选择对应所述目标图像面积最大的色度，并根据所述色度确定所述待识别图像中的待分割的第一区域，其中所述色度与所述待分割的第一区域所对应的色度近似；以及

根据所述反射区域的反射性质以及高亮度线，确定所述待识别图像中的待分割的第二区域，其中，所述第二区域的反射性质与所述目标图像的反射性质类似。

进一步地，根据目标图像构建目标图像子集进一步包括步骤：

对所述目标图像进行内部纹理放大，依次放大预设次数；

在每次放大后，删除放大图像的四周区域，保留中心区域，得到所述目标图像的多个子图像；以及

所述目标图像的多个子图像构成所述目标图像子集。

进一步地，所述中心区域的尺寸与所述目标图像的尺寸相似。

进一步地，所述预设次数为10-20次。

进一步地，所述构建联合训练集进一步包括：

将所述目标图像子集多次随机插入到所述待识别图像子集中，以构成所述联合训练集。

进一步地，所述卷积神经网络在训练过程中，通过建立识别模型实现对所述目标图像的识别和定位。

进一步地，所述卷积神经网络能够为不同的待识别图像单独建立所述识别模型。

进一步地，所述卷积神经网络能够自主判断所述识别模型的完成对所述目标图像的识别和定位的时刻，并输出所述目标图像在所述待识别图像中的位置。

进一步地，调节所述待识别图像的亮度。

与现有技术相比，本发明具有以下优点之一：

1、只需要一张要处识别特定物体的2D样本照片，无需预先输入海量的待测试环境的训练数据。

2、本发明提出的卷积神经网络可自主分析待识别图像中背景与目标之间的差异，在卷积神经网络训练完成时即可得到目标在测试图像所在的区域。

3、可以实时为每帧待识别图像都单独建立一个目标识别模型，不再为多变的背景所干扰。

4、卷积神经网络架构简单、运算量小，从输入待识别图像到完成识别只需不到5秒钟，而且在普通PC机上也可进行识别。

附图说明

通过下文中参照附图对本发明所作的描述，本发明的其它目的和优点将显而易见，并可帮助对本发明有全面的理解。

图1为本发明提出的基于卷积神经网络的图像识别定位方法流程图；

图2为CNN训练过程中输出结果示意图；

图3为含有颜色区域的分割效果示意图；

图4为反射区域的分割效果示意图；

图5为雪碧瓶示意图；

图6-图7为不同背景下对雪碧瓶的识别结果示意图；

图8为金属杯示意图；

图9-图10为不同背景下对金属杯的识别结果示意图；

图11为下载的食品nature valley sweet salty nut的示意图；

图12-图13为不同背景下对食品nature valley sweet salty nut的识别结果示意图；

图14可口可乐瓶示意图；

图15-图16为不同背景下对可口可乐瓶的识别结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一个实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

本发明实施例通过设计一个以误差训练特性和网络的加权结构特性为理论基础的构建卷积神经网络(CNN)，将训练和测试结合到一起，即直接将目标图像和待识别图像作为一个联合训练集输入到CNN，通过直接分析目标图像和待识别图像背景之间的差异，并在训练过程中建立了一个识别模型，能够从待识别图像中识别和定位目标，并且还能够自主判断识别模型的完成时刻，并在该时刻可以停止CNN训练，同时输出目标在待识别图像中的位置。

下面结合公式推导，证明本发明实施例提出的CNN能够实现上述功能。

深度学习是一种有监督的方法，其最大的特征就是能够根据样本数据输出结果与标签标记的真实值之间的误差建模。

令送入神经网络的数据包括三种：

样本(标记为1)，数目为m_{ins tan ce}，在本实施例中为目标图像；

背景(待识别图像中不包含样本的区域，标记为0)，数目为m_back；

目标(待识别图像中包含样本的区域，标记为0)，数目为m_{targ et}；

CNN在训练时，将根据这三类数据及它们的标记训练出一个模型，当输入为样本时，输出为1；输入为其它图像时、输出为0。但由于目标与样本是同一物体，尽管拍摄的角度和光照会造成一定差别、但仍具有很多相似的特征，当完成几轮训练后，目标的输出值将会逐渐接近样本的输出值，而不像背景的输出值一样一直下降，即会在训练CNN的某个阶段出现一个现象：样本输出>背景输出，目标输出>背景输出。这一性质非常有利于区分背景与目标。而且这一性质可以通过深度学习的误差训练特性和网络加权结构进行证明。

对于上述三类数据，令它们的误差分别为：err_{ins tan ce}，err_back，err_{targ et}。

对于深度学习，其本质都可表示为下列的三个过程的依次循环：

(1)误差计算：err_n-1＝y_n-1-y_label；

(2)参数矩阵更新：W_n＝f_w(W_n-1，err_n-1)；

(3)新的输出值y_n＝F(W_n，X)；

通过不断的训练，用每次新得到的y减去y_label获得误差，通过该误差修正参数矩阵W，然后再重新计算y。上述的三个过程可以合并表示为：

其中，f_w(W，err)表示误差err对参数矩阵W的修正，X是输入的图像包括样本、背景、目标，即

样本和背景属于不同物体、它们具备完全相反的特征值。因此对于深度学习建立的模型，如果将样本的输出训练的非常大，则背景输出会同步减小，err_{ins tan ce}和err_back都会下降，可见二者的误差是关联在一起。因此，二者可以合并为一类误差，用err_ins，bac表示、误差数目为m_ins，bac＝m_{ins tan ce}+m_back，即：

对于CNN，它的训练目标就是使err_ins，bac和err_aim都为最小值、使得网络的输出与标记值相符，即实现：

y-y_label＝0 (3)

其中，y_label＝[y_{label，sample} y_label，back y_label，aim]^T＝[1 0 0]^T

对于包括深度学习在内的机器学习算法，对消减误差的原则均为着重消除误差大、数量多的训练数据。而目标一般都比较小，所占的像素区域会远少于样本和背景，即m_ins，bac＞＞m_{trag et}，因此只要开始时各个误差值不是过于悬殊，则：

开始训练时，因此只要样本和背景的数量足够多，它们的误差就会远大于目标的误差。即可在最初的训练阶段先侧重于减少它们的误差，深度学习的公式可简化为：

而且目标和样本是同一物体，尽管受到拍照角度、光照等因素影响、临近景物反射光等因素的影响，目标和样本仍具有非常多的相似特征，随着训练次数的增加，目标输出值与样本接近、与背景差异加大，因为目标的标记为0，目标误差会越来越大。

这一阶段针对的是样本误差和背景误差的消除，本文简称为样本误差消除阶段。等到训练多次后，样本和背景的联合误差err_ins，bac会被消除的非常小，当减小到与目标误差接近时：

从此刻开始，CNN开始侧重于同时消除目标误差和样本误差、背景误差，直至误差err_{targ et}和err_ins，bac都为0。CNN的这一训练阶段本文称作目标误差消除阶段。

在样本误差消除阶段，样本和背景的误差都在快速的减少，样本输出值逐渐接近于1、背景输出值逐渐接近于0，即y_{ins tan ce}＞y_back。因为目标含有大量与样本相似的特征，因此输出y_traget也会逐渐变大，并且在该阶段中某段训练过程中还会出现y_{ins tan ce}＞y_{targ et}＞y_back的情况。推导过程如下：

对于目标，因为是在背景环境下拍摄的样本，背景中的景物光会叠加到样本上，相当于目标既包含了样本特征又包含了背景特征，归一化后，可以将目标输入表示：

x_{targ et}≈a·x_{ins tan ce}+b·x_back (7)

其中，a和b为样本信息和背景信息所占的比例。由于受到光照等因素的影响，测试图像的亮度可能会与样本图像的亮度相差很大，很容易造成误识别。因此为了准确识别目标，需要将二者亮度调节为一近似致。在本实施例中，可以通过调节地识别图像的亮度实现，为测试图像的每个像素都乘以比例因子r＝1/a+b，则可以将公式(7)的x_{ins tan ce}和x_back前边的系数都调节到0～1的范围内。亮度调节后，目标的特征变为x′_{t arg et}：

调节后目标的亮度特征与样本相接近。

对于CNN的核心环节卷积层，用函数F_Cov()表示，输入元素之间无相乘关系，相当于是各个输入元素的加权相加，所以对于目标，其输出为：

样本与背景之间的差异已经被充分学习，会出现卷积层样本输出y_{ins tan ce，Cov}大于背景输出y_back，Cov的情况，此时，因为则存在如下关系：

因此对于卷积层，可以证明y_{ins tan ce，Cov}＞y_{t arg et，Cov}＞y_back，Cov存在。

对于CNN的其它环节，主要是池化和激活函数，池化仅是对卷积层结果缩放，卷积层输出的特征y_{ins tan ce，Cov}＞y_{t arg et，Cov}＞y_back，Cov依然保留。激活函数多使用单调增函数f_mono()，对于卷积输入，单调增函数具有f_mono(y_{ins tan ce，Cov})＞f_mono(y_{targ et，Cov})＞f_mono(y_back，Cov)的性质。激活函数是CNN的最后一个环节，因此最终CNN会输出y_{ins tan ce}＞y_{targ et}＞y_back。

因此，可以证明在背景自适应CNN训练时，存在一个阶段，只要y_{ins tan ce}＞y_back，即可判断已经出现y_{ins tan ce}＞y_{targ et}＞y_back，此时训练集中(不含样本的那部分)最大值对应的子区域就是目标、目标识别定位得以实现。

在实际使用时，只要出现y_{ins tan ce}＞y_back即可终止训练，此时就可以对目标进行识别定位。如图2所示，为了观察方便，每次训练epoch都减去三者最小值的输出曲线。其中，图2(a)原始的三条输出曲线，从图中可以看出原始的未做任何处理的三条输出曲线基本是重合的，因此，为了能够清楚判断何时样本输出开始大于背景输出，目标输出也同时开始大于背景输出，对图像进行了处理。处理后的结果如图2(b)所示，图2(b)显示了前10次训练epoch的曲线变化，可以看出在第6次训练epoch时，样本输出开始大于背景输出、目标输出也同时开始大于背景输出，证明上述推导正确。

具体的，本发明的实施例提供的一种基于卷积神经网络的图像识别定位方法，可以包括步骤：

S1，构建卷积神经网络(CNN)。

S2，根据待识别图像构建待识别图像子集以及根据目标图像构建目标图像子集。

在构建待识别图像子集时，首先要确定目标图像颜色特征以及反射特征，然后在根据目标图像的颜色特征以及反射特征，对待识别图像进行分割，接着提取待识别图像中与目标图像具有相同颜色特征和反射特征的区域的图像，再通过矩形掩膜对提取的区域的图像进行分割，以得到待识别图像的多个子图像，待识别图像的多个子图像就构成待识别图像子集。

具体的，可以通过调用HSI及Phong特征对目标图像进行颜色分析，以找出其颜色特征和反射特征，判断目标属于彩色物体、反射物体还是几乎无色物体。在得到颜色特征和反射特征后再对待处理图像进行分割，并提取与目标图像具有相同颜色特征和反射特征的区域。这时可以通过一个矩形掩膜滑动扫描将提取的区域进行分割并一一取出，同时考虑到在待识别图像中目标的尺寸可能很小，因此选取多个不同尺寸的掩膜提取子图像，这些掩膜取出的子图像就构成待识别图像子集。

这样，在构建待识别图像子集时，根据目标图像的颜色特征消除待识别图像中与目标图像颜色完全不相似的区域，可以避免这些区域的纹理对识别造成干扰，而且经过分割后待识别图像的面积减小、数据量减小，可提高CNN的处理速度进而提高识别目标的速度。

由于CNN在本质上仍然是通过卷积运算实现对像素点RGB值的加权，而颜色特征是RGB模型的非常复杂的非线性变换、这是通过加权难以精确描述。比较常用的颜色特描述模型是非线性的HSI模型，HSI模型由色度H、饱和度S、亮度I三个量表示，其中色度代表了设什么颜色。RGB到HSI模型的变换是非线性变换：

色度H、饱和度S、亮度I三个量可以对颜色特征做出十分清晰的描述。

但仅有颜色特征还不足以描述一个物体，因为它不仅有自身颜色、还有周围物体通过反射，将颜色反射到它的表面。这种自身颜色和反射颜色的混合过程可以用Phong模型描述：

式中，I_a是环境光强、I_m是反射光强，K_d，K_s是漫反射和镜面反射系数，对于第m个光源，N、L、R、V是法线、入射光线、反射光线以及观察者视线的矢量。

I_aK_a是物体对环境光的吸收和反射。如果物体颜色很强，将只反射与自己颜色相同的色光，在照片中体现出它的本质颜色。K_dN·L_m是周围物体反射光强，L_m·N是点积，是对反射光强进行了衰减，表明周围物体的颜色会改变反射物体上的颜色，但颜色会变弱。K_s(R_m·V)ⁿ是高光反射，会造成高亮区域，对于R_m·V，当R和V夹角很小时，它明显高于周围。对于圆柱形的高亮区域是一条条亮线，球形高亮区域是亮斑点。

因此对于彩色区域和反射区域，可以通过HSI模型区分。对于彩色区域还可以通过色度H进一步划分为红橙黄绿青蓝紫等多种不同的颜色区。对于反射区域，可以通过反射所特有的高光区进行识别。

因为常见的物体大多具有彩色性质或反射性质，下面详细说明在本实施例中在构建待识别图像子集时，是如何根据目标图像的颜色特征以及反射特征，提取待识别图像中与目标图像具有相同颜色特征和反射特征的区域的图像。

首先，根据目标图像的RGB的方差，区分待识别图像的彩色区域、反射区域以及几乎无色区。

如果一个物体是彩色的，如果改变物体的色度，则变换回RGB模型后值域变化非常大、方差很大；如果一个物体本身的颜色很淡，其颜色主要来自于反射，这时如果改变反射物体的色度，主要影响RGB值的是饱和度和亮度，改变色度对RGB影响不大、方差很小。因此可以通过计算RGB的方差即可判断物体所包含彩色信息的程度。

因此，在本实施例中，将待识别图像变换为HSI模型，并在HSI模型中把各像素点的色度从0至1逐渐变化(步长为0.05)，然后再变换回RGB空间。最后根据目标图像的RGB的方差变化值，只需设置一个阈值即可将待识别图像的彩色区域、反射区域和几乎无色区域区分开。

HSI模型变换到RGB模型的公式为：

r＝3i-(x+y)

在根据目标图像的颜色特征对待识别图像进行区域分割时，可以根据目标图像的色度图，选择对应目标图像面积最大的色度，并根据色度确定待识别图像中的待分割的第一区域，其中色度与待分割的第一区域所对应的色度近似。

在本实施例中，可以先根据目标图像的色度图，筛选出对应的图像面积最大的色度，然后从待识别图像中找到与样本的色度近似的第一区域。含有颜色区域的细分效果如图3所示。

图3示出了根据待识别图像的彩色区域的分割结果。其中，图3(a)是原始图像，图3(b)是与识别目标绿色雪碧瓶色度相似的彩色区域，从图中可以清楚看出，根据目标图像的颜色特征对待识别图像进行分割后，可以减少后续需要进行CNN训练的子图像的数量。

在根据目标图像的反射特征对待识别图像进行区域分割时，可以根据反射区域的反射性质以及高亮度线，确定待识别图像中的待分割的第二区域，其中，第二区域的反射性质与目标图像的反射性质类似。

经过将待识别图像的彩色区域、反射区域和几乎无色区域区分开，可以得到反射区域和几乎无色区。而且由于只有反射表面才能形成高亮区域，因此可以采用形态学滤波策略，将高亮区域提取出来进行适当扩大即可得到反射区域，进而与无色区区分开。

下面简单介绍如何利用形态学滤波策略提取高亮区域。

在本实施例中，主要利用形态学的开运算和膨胀运算来提取高亮区域。

其中，形态学的开运算为

形态学的膨胀运算为

其中输入图像是A，滤波模块是B。首先，选择一个较小的B对待识别图像执行开运算，并扫描待识别图像，因为物体上的高光反射都是面积较大的区域，扫描时区域面积小于B的亮点是干扰点、予以消除。然后执行膨胀运算，此时选择一个面积很大的B，B扫描滤除亮点的待识别图像，将每个高光区向外部四周扩充、每个方向的扩充尺寸为B。提取扩大后的高光区即可得到待识别图像中的高亮的反射区域。

如图4所示，图4(b)为反射区域和几乎无色区域的提取效果，图4(c)为反射区域的提取效果。尽管识别出的反射区可能会在边缘处与实际区域有一定差异，但这些差异造成的干扰可以通过CNN予以消除。

这样，只对第一区域和第二区域进行分割并提取分割后图像作为子图像并构成待测试图像子集，可以减小由于待识别图像中与目标图像颜色完全不相似的区域对识别造成的干扰，进而提高CNN的处理速度以及识别目标的速度。

在进行物体识别时，不仅要利用目标的外形信息，还要使用目标图像内部的纹理，内部纹理是剔除那些外形与样本相似的物体的关键特征。因此在构建目标图像子集时，首先对目标图像进行内部纹理放大，并依次放大预设次数；在每次放大后，删除放大图像的四周区域，保留中心区域，得到目标图像的多个子图像，这样目标图像的多个子图像构成目标图像子集。优选的，中心区域的尺寸与目标图像的尺寸相似。优选的，预设次数为10-20次。

在进一步较佳实施例中，还可以通过改变待识别图像的亮度，将测试图像的亮度调整到与样本图像近似一致，进一步提高识别的准确度。

S3，构建联合训练集，联合训练集包括待识别图像子集和目标图像子集。

在本实施例中，通过将目标图像子集多次随机插入到测试图像子集中，即可构成输入CNN的联合训练集。

S4，根据联合训练集训练卷积神经网络，以从待识别图像中识别和定位目标图像。

具体的，卷积神经网络在训练过程中，通过建立识别模型实现对目标图像的识别和定位，卷积神经网络能够为不同的待识别图像单独建立识别模型，卷积神经网络能够自主判断识别模型的完成对目标图像的识别和定位的时刻，并输出目标图像在待识别图像中的位置。

下面结合具体的实验，对本发明实施例提出的基于卷积神经网络的图像识别定位方法进行测试。

需要说明的是，实验数据包括发明人自己的图像数据以及用于特定物体识别的常用数据库GMU Kitchen Scene Dataset中的图像数据。而且为了使测试更加接近真实的人类识别的过程，对于发明人自己的数据库，对于目标和待测试图像分别用不同的照相机拍摄；对于Kitchen Scene Dataset，则根据待识别物体的商标从其它网站上，下载到目标的照片，根据这些照片在待识别图像中识别和定位目标。

实验一

本实验是利用发明人自己的图像数据库进行的。

图6示出了对彩色目标“雪碧”瓶的实验结果。其中，图6(a)的曲线是目标图像输出刚超过待识别图像输出时的CNN训练输出曲线。目标被识别出的区域在图6(b)中用矩形框自动标识，如图6(c)示出了CNN从联合训练集中的识别出来的目标区域，由于在本申请示出的图6(c)为黑白色，无法准确判断实验结果，但是在彩色图片中，可以很清楚的看出识别出来的目标区域即为“雪碧”瓶所在区域。

在具体实验过程中，根据目标的颜色信息，基于HSI与Phong光学特征的CNN输入图像分割方法从待识别图像中分割出750个子图像块送入到CNN中。单个目标图像则分解为含有20个分别具有不同纹理放大倍数的目标图像子集，该目标图像子集每隔约70个测试图像子块就插入到测试图像子集中，插入的位置为图6(a)中的箭头标识处。

发明人在本实验的基础上改变待识别图像后，继续进行一次实验，结果如图7所示。图7示出了在另一待识别图像中的识别结果。联合训练集中共有215个子图像送入CNN进行训练。其中图7(a)中的曲线是目标图像输出刚超过待识别图像输出时的CNN训练输出曲线，在该实验中目标图像子集插入的位置为图7(a)中的箭头标识处。目标被识别出的区域在图7(b)中用矩形框自动标识，如图7(c)示出了CNN从联合训练集中的识别出来的目标区域，由于在本申请示出的图7(c)为黑白色，无法准确判断实验结果，但是在彩色图片中，可以很清楚的看出识别出来的目标区域即为“雪碧”瓶所在区域。

实验二

需要说明的是，本实验要识别的物体是一个金属杯子，其本身的颜色很淡，但是其上叠加了周围物体反射的多种颜色，如图8所示。将杯子放置到多种环境内进行识别测试，通过不同相机拍照，识别结果如图9～10所示。在图9、10中分别由325和116个子图像集被提取出来训练CNN，出现识别特征时刻的训练曲线如图9(a)和10(a)所示，在该实验中目标图像子集插入的位置为图9(a)和10(a)中的箭头标识处。对目标的识别定位结果如图9(b)和10(b)的矩形框标识所示，对应于定位区域识别出的目标区域如图9(c)和10(c)所示，由于在本申请示出的9(c)和10(c)为黑白色，无法准确判断实验结果，但是在彩色图片中，可以很清楚的看出识别出来的目标区域即为金属杯子所在区域。

实验三

为了与目前已有的识别方法进行对比，发明人利用常用的GMU Kitchen SceneDataset数据库进行了实验。而且由于之前的方法都要使用有多张照片或RGB-D深度相机照片拍摄的立体模型，本发明仅使用单张2D图像即可完成识别，因此为了更好体现出本发明方法的优越性，在实验部分采用了一种更加贴近人眼识别过程的测试方式。

根据GMU数据库中特定物体的上标，发明人在另外的网站下载到照片，并将下载到的照片进行处理后作为目标图像子集输入到CNN，经实验发现，本发明提出的方法仍能比较准确的识别定位特定物体。

图11是nature valley sweet salty nut的食品包装盒的照片，并将作为目标图像，该照片的下载地址为https://www.lelong.com.my/nature-valley-sweet-salty-nut-granola-bar-pe anut-pack-12-1-tseller38-F823774-2007-01-Sale-I.htm。

在不同场景中的识别结果如图12～13所示。如图12(a)和13(a)示出了出现识别特征时刻的训练曲线，在该实验中目标图像子集插入的位置为图12(a)和13(a)中的箭头标识处。对目标的识别定位结果如图12(b)和13(b)的矩形框标识所示，对应于定位区域识别出的目标区域如图12(c)和13(c)所示，由于在本申请示出的12(c)和13(c)为黑白色，无法准确判断实验结果，但是在彩色图片中，可以很清楚的看出识别出来的目标区域即为食品包装盒所在区域。

图14是下载的可口可乐瓶的图像，该目标图像的下载地址为http://www.paixin.com/photocopyright/155311782。

在不同场景中的识别结果如图15～16所示，如图15(a)和16(a)示出了出现识别特征时刻的训练曲线，在该实验中目标图像子集插入的位置为图15(a)和16(a)中的箭头标识处。对目标的识别定位结果如图15(b)和16(b)的矩形框标识所示，对应于定位区域识别出的目标区域如图15(c)和16(c)所示，由于在本申请示出的15(c)和16(c)为黑白色，无法准确判断实验结果，但是在彩色图片中，可以很清楚的看出识别出来的目标区域即为可口可乐瓶所在区域。

对于本发明的实施例，还需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合以得到新的实施例。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于卷积神经网络的图像识别定位方法，包括步骤：

构建卷积神经网络；

2.如权利要求1所述的方法，其特征在于，所述根据待识别图像构建待识别图像子集进一步包括：

确定所述目标图像颜色特征以及反射特征；

所述待识别图像的多个子图像构成所述待识别图像子集。

3.如权利要求2所述的方法，其特征在于，通过多个不同尺寸的矩形掩膜对所述提取的区域的图像进行分割。

4.如权利要求2所述的方法，其特征在于，所述步骤根据所述目标图像的颜色特征以及反射特征，对所述待识别图像进行分割，进一步包括：

5.如权利要求1所述的方法，其特征在于，根据目标图像构建目标图像子集进一步包括步骤：

对所述目标图像进行内部纹理放大，依次放大预设次数；

所述目标图像的多个子图像构成所述目标图像子集。

6.如权利要求5所述的方法，其特征在于，所述中心区域的尺寸与所述目标图像的尺寸相似。

7.如权利要求5或6所述的方法，其特征在于，所述预设次数为10-20次。

8.如权利要求1所述的方法，其特征在于，所述构建联合训练集进一步包括：

9.如权利要求1所述的方法，其特征在于，所述卷积神经网络在训练过程中，通过建立识别模型实现对所述目标图像的识别和定位。

10.如权利要求9所述的方法，其特征在于，所述卷积神经网络能够为不同的待识别图像单独建立所述识别模型。

11.如权利要求9所述的方法，其特征在于，所述卷积神经网络能够自主判断所述识别模型的完成对所述目标图像的识别和定位的时刻，并输出所述目标图像在所述待识别图像中的位置。

12.如权利要求1所述的方法，其特征在于，所述方法还包括步骤：

调节所述待识别图像的亮度。