WO2019148362A1

WO2019148362A1 - 物体检测方法和装置

Info

Publication number: WO2019148362A1
Application number: PCT/CN2018/074706
Authority: WO
Inventors: 白向晖; 谭志明
Original assignee: 富士通株式会社; 白向晖; 谭志明
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2019-08-08
Also published as: JP2021505992A; CN111095295A; CN111095295B; JP6984750B2

Abstract

一种物体检测方法和装置，其中，该方法包括：利用多个卷积层从输入图像中提取全局图像特征；利用该全局图像特征确定多个候选检测区域；根据该信息，利用该多个卷积层中预定数量的卷积层，提取对应该预定数量的卷积层的第一局部图像特征；根据该第一局部图像特征确定该多个候选检测区域中的每个候选检测区域的第二局部图像特征；其中，该多个候选检测区域中的一部分候选检测区域的第二局部图像特征是利用提取的对应该预定数量的卷积层中的至少两个卷积层的第一局部图像特征确定的；以及，根据该每个候选检测区域的第二局部图像特征进行物体检测，输出物体检测结果。由此，能够在提取局部图像特征时实现空间分辨率和语义信息的平衡，提高物体检测精度。

Description

物体检测方法和装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种物体检测方法和装置。

背景技术

目标检测技术是计算机视觉领域的重要研究分支，其目的在于找出图像中所有目标的位置，并确定每个目标的具体类别。传统的目标检测方法一般分为三个步骤：首先利用滑动窗口在图像上选择一些候选区域，然后提取这些候选区域的视觉特征，最后使用训练的分类器进行分类识别，得到目标检测结果。

近年来，深度学习被广泛的应用于计算机视觉领域，相较于传统的机器学习算法，深度学习在特征提取方面具有无可比拟的优越性，其中，卷积神经网络(Convolutional Neural Networks，CNN)是深度学习的一个重要算法，卷积神经网络的输入为原始图像，卷积层的卷积核以一定的大小和步幅对原始图像进行卷积运算得到特征图，下采样层对特征图进行采样处理，抽取特征图上一定区域内的最大值或平均值，经过多层卷积和下采样处理后，交由分类器进行分类处理，得到目标检测结果。

应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

深度学习应用于目标检测领域以来，体系架构不断发展完善，从CNN发展为基于区域的CNN(Region-based CNN，RCNN)，从RCNN进一步扩展出快速RCNN，例如Fast RCNN以及Faster RCNN。

在Faster RCNN中，其基本结构仍然是CNN，其通过在卷积神经网络最后一层特征图后添加一个区域推荐网络(Region Proposal Network，RPN)，通过该RPN训练得到候选区域，提取候选区域中的图像特征，使用分类器进行分类处理，得到目标检测结果。

在现有的目标检测方法中，先利用多个卷积层对输入图像进行卷积运算，得到特征图后，再利用RPN确定候选区域，返回最后一个具有较多语义信息的卷积层提取出候选区域内的特征，使用分类器进行分类处理，得到目标检测结果，但由于最后一个卷积层空间分辨率较小，因此该方法在检测输入图像中的小目标物体时，检测精度较低。

本发明实施例提出了一种物体检测方法和装置，能够在提取局部图像特征时实现空间分辨率和语义信息的平衡，提高物体检测精度。

本发明实施例的上述目的是通过如下技术方案实现的：

根据本发明实施例的第一个方面，提供了一种物体检测方法，该方法包括：

利用多个卷积层从输入图像中提取全局图像特征；

利用该全局图像特征确定多个候选检测区域；

根据该多个候选检测区域的信息，利用该多个卷积层中预定数量的卷积层，提取对应该预定数量的卷积层的第一局部图像特征；

根据该第一局部图像特征确定该多个候选检测区域中的每个候选检测区域的第二局部图像特征；其中，该多个候选检测区域中的一部分候选检测区域的第二局部图像特征是利用提取的对应该预定数量的卷积层中的至少两个卷积层的第一局部图像特征确定的；以及

根据该每个候选检测区域的第二局部图像特征进行物体检测，输出物体检测结果。

根据本发明实施例的第二个方面，提供了一种物体检测装置，该装置包括：

特征提取单元，其用于利用多个卷积层从输入图像中提取全局图像特征；

区域推荐单元，其用于利用该全局图像特征确定多个候选检测区域，将该多个候选检测区域的信息反馈给该特征提取单元；并且该特征提取单元还用于根据该信息，利用该多个卷积层中预定数量的卷积层，提取对应该预定数量的卷积层的第一局部图像特征；

处理单元，其用于根据该第一局部图像特征确定该多个候选检测区域中的每个候选检测区域的第二局部图像特征；其中，该多个候选检测区域中的一部分候选检测区域的第二局部图像特征是利用提取的对应该预定数量的卷积层中的至少两个卷积层的第一局部图像特征确定的；以及

检测单元，其用于根据该每个候选检测区域的第二局部图像特征进行物体检测，输出物体检测结果。

本发明实施例的有益效果在于，通过本实施例的方法和装置，在提取特征时，多个候选区域中的一部分候选检测区域的局部图像特征是利用至少两个卷积层提取的局部图像特征确定的，由此能够在提取局部图像特征时实现空间分辨率和语义信息的平衡，提高物体检测精度。

参照后文的说明和附图，详细公开了本发明的特定实施方式，指明了本发明的原理可以被采用的方式。应该理解，本发明的实施方式在范围上并不因而受到限制。在所附权利要求的条款的范围内，本发明的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

在本发明实施例的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。此外，在附图中，类似的标号表示几个附图中对应的部件，并可用于指示多于一种实施方式中使用的对应部件。

所包括的附图用来提供对本发明实施例的进一步的理解，其构成了说明书的一部分，用于例示本发明的实施方式，并与文字描述一起来阐释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本实施例1中物体检测装置示意图；

图2是本实施例1中一个卷积层的卷积运算示意图；

图3是本实施例1中确定候选检测区域示意图；

图4是本实施例2中物体检测方法流程图；

图5是本实施例2中物体检测结构示意图；

图6是本实施例2中物体检测结果示意图；

图7是本实施例3中电子设备构成示意图；

图8是本实施例3中电子设备硬件构成示意图。

具体实施方式

参照附图，通过下面的说明书，本发明的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本发明的特定实施方式，其表明了其中可以采用本发明的原则的部分实施方式，应了解的是，本发明不限于所描述的实施方式，相反，本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。下面结合附图对本发明的各种实施方式进行说明。这些实施方式只是示例性的，不是对本发明的限制。

实施例1

本实施例1提供一种物体检测装置。

图1是本实施例1的物体检测装置示意图，如图1所示，该装置包括：

特征提取单元101，其用于利用多个卷积层从输入图像中提取全局图像特征；

区域推荐单元102，其用于利用该全局图像特征确定多个候选检测区域，将该多个候选检测区域的信息反馈给该特征提取单元101；并且该特征提取单元101还用于根据该信息，利用该多个卷积层中预定数量的卷积层，提取对应该预定数量的卷积层的第一局部图像特征；

处理单元103，其用于根据该第一局部图像特征确定该多个候选检测区域中的每个候选检测区域的第二局部图像特征；其中，该多个候选检测区域中的一部分候选检测区域的第二局部图像特征是利用提取的对应该预定数量的卷积层中的至少两个卷积层的第一局部图像特征确定的；以及

检测单元104，其用于根据该每个候选检测区域的第二局部图像特征进行物体检测，输出物体检测结果。

由上述实施例可知，在提取特征时，多个候选区域中的一部分候选检测区域的局部图像特征是利用至少两个卷积层提取的局部图像特征确定的，由此能够在提取局部图像特征时实现空间分辨率和语义信息的平衡，提高物体检测精度。

在本实施例中，特征提取单元101可以使用卷积神经网络结构实现，其利用卷积神经网络结构中的多个(N)卷积层从输入图像中提取全局图像特征，其中，每个卷积层可以看作为一个滤波器，该滤波器参数可以称为卷积核，该卷积核可以根据需要设置为一个或至少两个，多个卷积层中每个卷积层对应的滤波器参数均不同，将输入图像转换为二维度的图像数据输入卷积层(滤波器)后，经过卷积运算来提取图像中的特征。

图2是一个卷积层的卷积运算示意图，如图2所示，该图像是5×5的图像，该卷积层对应一个3×3的卷积核

将该卷积核看作一个滑动窗口，在图像上依次滑动，并与对应的图像像素作乘积后求和，得到提取的全局图像特征。

在本实施例中，为了说明方便，以下将输入图像最先经过的卷积层称为第1层，以此类推，最后经过的卷积层称为第N层，即将多个卷积层依次编号为1,2，…，N，其中，编号小的卷积层是位置靠前的卷积层，编号大的卷积层是位置靠后的卷积层；输入图像经过第1个卷积层后，将提取的全局图像特征作为输入经过第2个卷积层，以此类推，直至经过第N个卷积层；其中，多个卷积层有深浅之分，该多个卷积层中位置靠前的卷积层比位置靠后的卷积层的空间分辨率高；位置靠前的卷积层比位置靠后的卷积层的语义信息少，通常，位置靠前的卷积层称为浅层，位置靠后的卷积层成为深层，即位于浅层的卷积核可以提取出边缘、颜色等图像特征，语义信息少，但空间分辨率高，随着层数的加深，非线性程度加强，卷积得到的图像特征可以是某些特定的形状，例如鼻子眼睛等，语义信息多，但空间分辨率低，其中，多个卷积层的空间分辨率可以按照倍数依次减少，例如第W-1个卷积层的空间分辨率是第W个卷积层的2倍(W大于等于2并且小于等于N)，但本实施例并不以此作为限制。

以上仅为示例性的说明如何利用卷积神经网络提取特征，但本实施例并不以此作为限制，该卷积神经网络的结构可以参考现有技术，例如可以是LeNet，AlexNet，ZF Net，GoogleLeNet，VGGNet，ResNet，DenseNet等，此处不再一一举例。

在本实施例中，N的大小可以根据需要确定，本实施例并不以此作为限制，例如N可以是5。

在本实施例中，区域推荐单元102可以使用现有的RPN结构实现，其利用特征提取单元101提取的该全局图像特征确定多个候选检测区域，其中，可以将多个卷积层中利用任意一个或任意两个以上的卷积层提取的全局图像特征输入至该RPN，本实施例并不以此作为限制，例如将第N个卷积层提取的全局图像特征输入至RPN，用于确定候选检测区域，这样由于第N个卷积层的语义信息较多，可以更加准确的确定候选检测区域，该RPN的具体实施方式可以参考现有技术，以下示例说明。

图3是利用该第N个卷积层提取的全局图像特征确定多个候选检测区域示意图，如图3所示，以第N个卷积层提取的全局图像特征上的每个点为中心，使用不同面积和长宽比的滑动窗口来采集全局图像特征特定区域内的特征，将不同窗口采集到的特征降维到固定维度，根据降维之后的特征，分类层给出每个滑动窗口内包含目标的得分，得分高的窗口作为正样本，得分低的就认为没有物体，被过滤掉，该分类层可以确定候选检测区域的中心锚(anchor)点以及候选检测区域的坐标，宽高；另一个全连接层用于确定候选检测区域是前景还是背景，该全连接层也可以利用卷积层实现，具体实现方式可以参考现有技术，此处不再赘述。

在本实施例中，根据上述算法，区域推荐单元102确定的候选检测区域为多个，其中，该多个候选检测区域可以按照区域大小等级划分为第一数量(M)个区域组，分别为第一区域组、第二区域组、…、第M区域组，不同区域组中的候选检测区域的大小等级不同，例如第一区域组中的候选检测区域都小于第二区域组中的候选检测区域，第二区域组中的候选检测区域都小于第三区域组中的候选检测区域，以此类推，第M-1区域组中的候选检测区域都小于第M区域组中的候选检测区域，其中，M大于等于2，每个区域组中包括至少一个候选检测区域，M的数量可以根据需要确定，例如，在M＝3时，即候选检测区域按照区域大小等级可以分为3个区域组，分别为大区域组，中区域组以及小区域组，在M＝5时，即候选检测区域按照区域大小等级可以分为5个区域组，分别为超大区域组，较大区域组，中区域组，较小区域组以及超小区域组，此处仅为示例说明，本实施例并不以此作为限制，其中，每个区域组中的候选检测区域的第二局部图像特征的确定方法相同。

在本实施例中，可以通过设定长宽阈值来划分M个区域组，例如M＝3时，可设定第一长阈值L1和第一宽阈值W1，以及第二长阈值L2和第二宽阈值W2，在根据RPN确定的候选检测区域的长和宽分别小于L1和W1时，确定该候选检测区域属于小区域组，长和宽分别大于L2和W2时，确定该候选检测区域属于大区域组，其他情况均属于中区域组，此处仅为示例说明，本实施例并不以此作为限制，例如也可以通过设定面积阈值来划分M个区域组，例如M＝3时，可设定第一面积阈值S1，以及第二面积阈值S2，在根据RPN确定的候选检测区域的面积小于S1时，确定该候选检测区域属于小区域组，面积大于S2时，确定该候选检测区域属于大区域组，其他情况属于中区域组，以上仅以M＝3为例说明如何划分区域组，M等于其他值时划分区域组的方式与M＝3类似，此处不再一一举例。

在本实施例中，在区域推荐单元102确定多个候选检测区域后，可以将该多个候选检测区域的信息反馈给该特征提取单元101；特征提取单元101还可以根据该信息，利用该多个卷积层中预定数量的卷积层，提取对应该预定数量的卷积层的第一局部图像特征；其中，该预定数量大于等于2且小于等于N；处理单元103根据该第一局部图像特征确定该多个候选检测区域中的每个候选检测区域的第二局部图像特征；其中，该多个候选检测区域中的一部分候选检测区域的第二局部图像特征是利用提取的对应该预定数量的卷积层中的至少两个卷积层的第一局部图像特征确定的；该多个候选检测区域中的另一部分候选检测区域的第二局部图像特征是利用提取的对应该预定数量的卷积层中的至少一个卷积层的第一局部图像特征确定的，其中，可以根据候选检测区域所属的区域组确定该候选检测区域是该一部分候选检测区域还是该另一部分候选检测区域，例如，可以将区域等级较小的一个区域组中的候选检测区域确定为该一部分候选区域，将区域等级较大的一个区域组中的候选检测区域确定为该另一部分候选检测区域，这样，由于该区域等级较小的一个区域组中的候选检测区域的第二局部图像特征是利用提取的对应至少两个卷积层的第一局部图像特征确定的，因此能够在提取第二局部图像特征时实现空间分辨率和语义信息的平衡，提高物体检测精度，尤其是小目标物体的检测精度。

在一个实施方式中，该特征提取单元101可以根据所有候选检测区域的信息，提取对应该预定数量的卷积层中每一个卷积层的第一局部图像特征，其中，针对每个区域组，特征提取单元101可以根据每个区域组中的候选检测区域的信息提取对应该预定数量的卷积层中每一个卷积层的第一局部图像特征，即利用该预定数量的卷积层中的每一个卷积层，提取对应该卷积层的所有区域组中的候选检测区域的第一局部图像特征，例如预定数量为Z个，利用Z个卷积层中的每一个卷积层，提取对应该卷积层的M个区域组中的候选检测区域的第一局部图像特征。

在该实施方式中，处理单元103从提取的对应该预定数量的卷积层中至少两个卷积层的第一局部图像特征确定该一部分候选检测区域的第二图像特征，从提取的对应该预定数量的卷积层中至少一个卷积层的第一局部图像特征确定该另一部分候选检测区域的第二图像特征，其中，针对该多个区域组中的第一区域组和第二区域组，该处理单元103确定该第一区域组中的候选检测区域的第二局部图像特征时所利用的该至少两个卷积层中的一个卷积层的位置比确定该第二区域组中的候选检测区域的第二局部图像特征时所利用的该至少两个卷积层中的一个卷积层的位置靠前，其中，该第一区域组中的候选检测区域小于该第二区域组中的候选检测区域。例如，处理单元103根据对应第3个和第5个卷积层的第一局部图像特征确定第一区域组中的候选检测区域的第二局部图像特征，根据对应第4个和第5个卷积层的第一局部图像特征确定第二区域组中的候选检测区域的第二局部图像特征，其中，该第3个卷积层的位置比该第4个卷积层的位置靠前。在该实施方式中，并不限定该至少两个卷积层中的其他卷积层的位置的关系，其可以相同，也可以不同。

在一个实施方式中，该特征提取单元101可以根据部分候选检测区域的信息，提取对应该预定数量的卷积层中每一个卷积层的第一局部图像特征，其中，针对一个区域组，特征提取单元101根据该区域组中的候选检测区域的信息提取对应该预定数量的卷积层中部分卷积层的第一局部图像特征，即利用该预定数量的卷积层中的部分卷积层，提取对应该部分卷积层的该区域组中的候选检测区域的第一局部图像特征。

在该实施方式中，针对该多个区域组中的第一区域组和第二区域组，该特征提取单元101根据该第一区域组的候选检测区域的信息提取对应第一预定卷积层的第一局部图像特征，根据该第二区域组的候选检测区域的信息提取对应第二预定卷积层的第一局部图像特征，其中，该第一预定卷积层中的一个卷积层的位置比该第二预定卷积层中的一个卷积层的位置靠前，其中，该第一区域组中的候选检测区域小于该第二区域组中的候选检测区域；处理单元103根据该第一预定卷积层的第一局部图像特征确定该第一区域组中的候选检测区域的第二局部图像特征，根据该第二预定卷积层的第一局部图像特征确定该第二区域组中的候选检测区域的第二局部图像特征。例如，该第一预定卷积层可以是第3个和第5个卷积层，该第二预定卷积层可以是第4个和第5个卷积层，根据该第一区域组的候选检测区域的信息提取对应第3个和第5个卷积层的第一局部图像特征，根据该第二区域组的候选检测区域的信息提取对应第4个和第5个卷积层的第一局部图像特征，其中，该第3个卷积层的位置比该第4个卷积层的位置靠前。在该实施方式中，并不限定该第一预定卷积层中的其他卷积层的位置与该第二预定卷积层中的其他卷积层的位置关系，其可以相同，也可以不同。

在本实施例中，根据上述实施方式，确定大小等级较小的区域组中的候选检测区域的第二局部图像特征时所利用的该至少两个卷积层中的一个卷积层的位置比确定大小等级较大的区域组中的候选检测区域的第二局部图像特征时所利用的该至少两个卷积层中的一个卷积层的位置靠前，由于位置靠前的卷积层提取的特征的空间分辨率大，因此，能够进一步提高小目标物体的检测精度。

在本实施例中，在利用提取的对应该预定数量的卷积层中的一个卷积层的第一局部图像特征确定候选检测区域的第二局部图像特征时，处理单元103将提取的对应该一个卷积层的第一局部图像特征直接作为另一部分候选检测区域的第二局部图像特征。

在本实施例中，在利用提取的对应该预定数量的卷积层中的至少两个卷积层的第一局部图像特征确定候选检测区域(该一部分和/或该另一部分)的第二局部图像特征时，处理单元103将该至少两个卷积层中的对应每一个卷积层的第一局部图像特征进行整合处理，得到该候选检测区域的第二局部图像特征，以下具体说明该整合处理。

在一个实施方式中，该处理单元103可以包括：

第一处理模块(未图示)，其用于将提取的对应位置靠后的至少一个卷积层的第一局部图像特征作上采样处理，使其与提取的对应位置最靠前的卷积层的第一局部图像特征的空间分辨率相同，并将处理后的提取的对应位置靠后的至少一个卷积层的第一局部图像特征与提取的对应位置最靠前的卷积层的第一局部图像特征进行相加处理，以得到对应该候选检测区域的第二局部图像特征。

在该实施方式中，在Q个卷积层中，将提取的对应位置靠后的Q-1个卷积层的第一局部图像特征分别作上采样处理后，使其与提取的对应位置最靠前的1个卷积层的第一局部图像特征的空间分辨率相同，并将上采样处理后的对应Q-1个卷积层的第一局部图像特征与对应位置最靠前的1个卷积层的第一局部图像特征进行叠加，例如在Q＝3时，对应位置最靠前的卷积层的第一局部图像特征的空间分辨率为(H/8，W/8)，对应位置靠后的两个卷积层的第一局部图像特征的空间分辨率分别为(H/16，W/16)以及(H/32，W/32)，则将空间分辨率分别为(H/16，W/16)以及(H/32，W/32)的第一局部图像特征进行上采样处理后，使其空间分辨率增大到(H/8，W/8)，这样3个卷积层处理后空间分辨率相同，即可以相加处理。

在一个实施方式中，该处理单元103可以包括：

第二处理模块(未图示)，其用于将提取的对应位置靠后的至少一个卷积层的第一局部图像特征作扩展处理，使其与提取的对应位置最靠前的卷积层的第一局部图像特征的空间分辨率相同，并将处理后的提取的对应位置靠后的卷积层的第一局部图像特征与提取的对应位置最靠前的卷积层的第一局部图像特征进行叠加卷积处理，以得到对应该候选检测区域的第二局部图像特征。

在该实施方式中，在Q个卷积层中，将提取的对应位置靠后的Q-1个卷积层的第一局部图像特征分别作扩展(enlarge)处理后，使其与提取的对应位置最靠前的1个卷积层的第一局部图像特征的空间分辨率相同，并将扩展处理后的对应Q-1个卷积层的第一局部图像特征与对应位置最靠前的1个卷积层的第一局部图像特征进行叠加卷积处理，例如在Q＝3时，对应位置最靠前的卷积层的第一局部图像特征的空间分辨率为(H/8，W/8)，对应位置靠后的两个卷积层的第一局部图像特征的空间分辨率分别为(H/16，W/16)以及(H/32，W/32)，则将空间分辨率分别为(H/16，W/16)以及(H/32，W/32)的候选检测区域内的第一局部图像特征进行扩展处理，使其空间分辨率增大到(H/8，W/8)，这样3个卷积层处理后空间分辨率相同，即可以叠加卷积处理，其中，该扩展处理是指以原有候选检测区域中心点为基准扩大原有的候选检测区域，以提取更多的第一局部图像特征，该卷积处理可以为不同于该多个卷积层的一个新的卷积层，对叠加后的特征进行降维处理。

在本实施例中，该处理单元703可以包括第一处理模块或第二处理模块，或者也可以同时包括第一处理模块和第二处理模块，例如针对区域等级较小的一个区域组中的候选检测区域使用第二处理模块处理，针对区域等级较大的一个区域组中的候选检测区域使用第一处理模块处理，但本实施例并不以此作为限制，需要说明的是，区域等级较小和区域等级较大是指两个区域组中的候选检测区域的相对比较结果。

在本实施例中，在该第一数量个区域组包括：大区域组、中区域组、小区域组时，特征提取单元101可以根据大区域组中的候选检测区域的信息，提取对应位置最靠后的卷积层的第一局部图像特征，根据中区域组中的候选检测区域的信息，提取对应位置最靠后的卷积层以及位置为倒数第三个的卷积层的第一局部图像特征，根据小区域组中的候选检测区域的信息，提取对应位置最靠后的卷积层以及位置为倒数第三个的卷积层的第一局部图像特征；处理单元103利用提取的对应该多个卷积层中的位置最靠后的卷积层的第一局部图像特征确定大区域组中的候选检测区域的第二局部图像特征；利用提取的对应该多个卷积层中的位置最靠后的卷积层提取的第一局部图像特征作上采样处理后与提取的对应位置为倒数第二个的卷积层的第一局部图像特征相加以确定中区域组中的候选检测区域的第二局部图像特征；利用提取的对应该多个卷积层中的位置最靠后的卷积层的第一局部图像特征作扩展处理后与提取的位置为倒数第三个的卷积层的第一局部图像特征叠加卷积以确定小区域组中的候选检测区域的第二局部图像特征。

例如在N＝5时，将大区域组中的候选检测区域的信息反馈给第5个卷积层(一个卷积层)，提取对应第5个卷积层的第一局部图像特征，以确定大区域组中的候选检测区域(另一部分候选检测区域)的第二局部图像特征，将中区域组中的候选检测区域的信息反馈给第4和第5个卷积层，提取对应第4和第5个卷积层的第一局部图像特征，将对应第5个卷积层的第一局部图像特征作上采样处理，使其与对应第4个卷积层的第一局部图像特征空间分辨率相同，并将上采样处理后的对应第5个卷积层的第一局部图像特征和对应第4个卷积层的第一局部图像特征(两个卷积层，此处示例为2，但可以为至少2个)相加，以确定中区域组中的候选检测区域(一部分候选检测区域)的第二局部图像特征，将小区域组中的候选检测区域的信息反馈给第3和第5个卷积层，提取对应第3和第5个卷积层的第一局部图像特征，将对应第5个卷积层的第一局部图像特征作扩展处理，使其与对应第3个卷积层的第一局部图像特征空间分辨率相同，并将扩展处理后的对应第5个卷积层的第一局部图像特征和对应第3个卷积层的第一局部图像特征叠加(两个卷积层，此处示例为2，但可以为至少2个)后经过一个新的卷积层，以确定小区域组中的候选检测区域(一部分候选检测区域)的第二局部图像特征。

在本实施例中，检测单元104可以基于RCNN结构进行物体检测，在多个候选检测区域根据区域大小等级划分为第一数量个区域组时，可以根据对应第一数量个区域组的候选检测区域的第二局部图像特征分别得到第一数量个检测结果，将该第一数量个检测结果相加，以输出该物体检测结果。例如可以设置与第一数量相同数量的RCNN，每一个RCNN分别对一个区域组中的候选检测区域提取的第二局部图像特征进行物体检测，将每一个RCNN的识别结果相加，以输出该物体检测结果，该物体检测结果中包括目标物体的类别以及具体的位置，例如M＝3时，设置3个RCNN，RCNN1，RCNN2，RCNN3，分别对大区域组中的候选检测区域的第二局部图像特征，中区域组中的候选检测区域的第二局部图像特征，小区域组中的候选检测区域的第二局部图像特征进行物体检测，RCNN1检测结果是物体1，RCNN2检测结果是物体2，RCNN3检测结果是物体3，另外，检测结果也可以包括对物体1，2，3的定位，最终的物体检测结果为输入图像中具有物体1，2，3。

在本实施例中，RCNN的具体实施方式可以参考现有技术，例如将提取的第二局部图像特征利用感兴趣区域池(ROI pooling)提取特征向量，输入至分类器，得到该候选检测区域的物体类别，完成物体检测以及定位，此处不再一一赘述。

通过本实施例的上述装置，在提取特征时，多个候选区域中的一部分候选检测区域的局部图像特征是利用至少两个卷积层提取的局部图像特征确定的，由此能够在提取局部图像特征时实现空间分辨率和语义信息的平衡，提高物体检测精度。

实施例2

本实施例2提供一种物体检测方法，由于该方法解决问题的原理与实施例1中的装置类似，因此其具体的实施可以参考实施例1中的装置的实施，内容相同之处，不再重复说明。

图4是本实施例2的物体检测方法流程图，如图4所示，该方法包括：

步骤401，利用多个卷积层从输入图像中提取全局图像特征；

步骤402，利用该全局图像特征确定多个候选检测区域；

步骤403，根据该多个候选检测区域的信息，利用该多个卷积层中预定数量的卷积层，提取对应该预定数量的卷积层的第一局部图像特征；

步骤404，根据该第一局部图像特征确定该多个候选检测区域中的每个候选检测区域的第二局部图像特征；其中，该多个候选检测区域中的一部分候选检测区域的第二局部图像特征是利用提取的对应该预定数量的卷积层中的至少两个卷积层的第一局部图像特征确定的；以及

步骤405，根据该每个候选检测区域的第二局部图像特征进行物体检测，输出物体检测结果。

在本实施例中，步骤401-405的具体实施方式可以参考实施例1中的物体检测装置100，重复之处不再赘述

在本实施例中，该多个卷积层中位置靠前的卷积层比位置靠后的卷积层的空间分辨率高；位置靠前的卷积层比位置靠后的卷积层的语义信息少。

在本实施例中，该多个候选检测区域中的另一部分候选检测区域的第二局部图像特征是利用提取的对应该预定数量的卷积层中的至少一个卷积层的第一局部图像特征确定的。

在本实施例中，该多个候选检测区域中的每个候选检测区域属于区域大小等级不同的第一数量个区域组中的一个区域组；针对该多个区域组中的第一区域组和第二区域组：

在一个实施方式中，在步骤403中，根据该第一区域组的候选检测区域的信息提取对应第一预定卷积层的第一局部图像特征，根据该第二区域组的候选检测区域的信息提取对应第二预定卷积层的第一局部图像特征，其中，该第一预定卷积层中的一个卷积层的位置比该第二预定卷积层中的一个卷积层的位置靠前，其中，该第一区域组中的候选检测区域小于该第二区域组中的候选检测区域；在步骤404中，根据该第一预定卷积层的第一局部图像特征确定该第一区域组中的候选检测区域的第二局部图像特征，根据该第二预定卷积层的第一局部图像特征确定该第二区域组中的候选检测区域的第二局部图像特征。

在一个实施方式中，在步骤404中，确定该第一区域组中的候选检测区域的第二局部图像特征时所利用的该至少两个卷积层中的一个卷积层的位置，比确定该第二区域组中的候选检测区域的第二局部图像特征时所利用的该至少两个卷积层中的一个卷积层的位置靠前，其中，该第一区域组中的候选检测区域小于该第二区域组中的候选检测区域。

在一个实施方式中，在利用提取的对应该预定数量的卷积层中的至少两个卷积层的第一局部图像特征确定候选检测区域的第二局部图像特征时，根据该第一局部图像特征确定该多个候选检测区域中的每个候选检测区域的第二局部图像特征包括：将提取的对应位置靠后的至少一个卷积层的第一局部图像特征作上采样处理，使其与提取的对应位置最靠前的卷积层的第一局部图像特征的空间分辨率相同，并将处理后的提取的对应位置靠后的至少一个卷积层的第一局部图像特征与提取的对应位置最靠前的卷积层的第一局部图像特征进行相加处理，以得到对应该候选检测区域的第二局部图像特征。

在一个实施方式中，在利用提取的对应该预定数量的卷积层中的至少两个卷积层的第一局部图像特征确定候选检测区域的第二局部图像特征时，根据该第一局部图像特征确定该多个候选检测区域中的每个候选检测区域的第二局部图像特征包括：将提取的对应位置靠后的至少一个卷积层的第一局部图像特征作扩展处理，使其与提取的对应位置最靠前的卷积层的第一局部图像特征的空间分辨率相同，并将处理后的提取的对应位置靠后的卷积层的第一局部图像特征与提取的对应位置最靠前的卷积层的第一局部图像特征进行叠加卷积处理，以得到对应该候选检测区域的第二局部图像特征。

在本实施例中，该第一数量个区域组包括：大区域组、中区域组、小区域组，根据该第一局部图像特征确定该多个候选检测区域中的每个候选检测区域的第二局部图像特征包括：利用提取的对应该多个卷积层中的位置最靠后的卷积层的第一局部图像特征确定大区域组中的候选检测区域的第二局部图像特征；利用提取的对应该多个卷积层中的位置最靠后的卷积层提取的第一局部图像特征作上采样处理后与提取的对应位置为倒数第二个的卷积层的第一局部图像特征相加，以确定中区域组中的候选检测区域的第二局部图像特征；利用提取的对应该多个卷积层中的位置最靠后的卷积层的第一局部图像特征作扩展处理后与提取的位置为倒数第三个的卷积层的第一局部图像特征叠加卷积，以确定小区域组中的候选检测区域的第二局部图像特征。

在本实施例中，在步骤405中，根据对应第一数量个区域组的候选检测区域的第二局部图像特征分别得到第一数量个检测结果，将该第一数量个检测结果相加，以输出该物体检测结果。

以下以M＝3，N＝5为例，结合附图5对本实施例中的物体检测方法进行说明。

在本实施例中，如图5所示，输入图像经过五个卷积层conv1-conv5(其中conv1-2未示出)后，可以提取全局图像特征，RPN根据该全局图像特征确定3个区域组，分别为大区域组组(large boxes)，小区域组(small boxes)，中区域组(medium boxes)，将large boxes的信息反馈给conv5提取large boxes的第一局部图像特征，得到large boxes中的候选检测区域的第二局部图像特征，直接输出至RCNN1；将medium boxes的信息反馈给conv4和conv5，分别提取第一局部图像特征，将conv5的第一局部图像特征进行上采样处理后，使其空间分辨率与conv4的第一局部图像特征的空间分辨率相同，二者相加后，得到medium boxes中的候选检测区域的第二局部图像特征，输出至RCNN2；将small boxes的信息反馈给conv3和conv5，分别提取第一局部图像特征，将conv5的第一局部图像特征进行扩展处理后，使其空间分辨率与conv3的第一局部图像特征的空间分辨率相同，二者叠加后经过一个新的卷积层convx处理，使得降维后的small boxes中的候选检测区域的第二局部图像特征输出至RCNN3。RCNN1，RCNN2，RCNN3分别对大区域组中的候选检测区域的第二局部图像特征，中区域组中的候选检测区域的第二局部图像特征，小区域组中的候选检测区域的第二局部图像特征进行分类识别检测，得到各自的检测结果，相加后，输出最终的物体检测结果，包括物体1和物体2以及物体1，2的位置。

图6是本实施例中的物体检测结果示意图，如图6所示，将大小等级不同的候选检测区域的第二局部图像特征分别输入不同RCNN，得到各自的识别结果都是人，例如一个RCNN识别的是电梯附近或广场远处的人(候选检测区域较小)，另一个RCNN识别的是广场近处平地附近的人(候选检测区域较大)相加后，输出最终的物体检测结果，包括输入图像中所有的人以及人的位置。

通过本实施例的上述方法，在提取特征时，多个候选区域中的一部分候选检测区域的局部图像特征是利用至少两个卷积层提取的局部图像特征确定的，由此能够在提取局部图像特征时实现空间分辨率和语义信息的平衡，提高物体检测精度。

实施例3

本实施例3提供了一种电子设备，图7是本实施例3的电子设备的示意图。如图7所示，电子设备700包括实施例1所述的物体检测装置100，该物体检测装置100的结构不再赘述。

本实施例3还提供了一种电子设备，由于该电子设备解决问题的原理与实施例2中的方法类似，因此其具体的实施可以参考实施例2中的方法的实施，内容相同之处，不再重复说明。

图8是本发明实施例3的电子设备的系统构成的示意框图。如图8所示，电子设备800可以包括中央处理器801和存储器802；该存储器802耦合到该中央处理器801。该图是示例性的；还可以使用其它类型的结构，来补充或代替该结构，以实现电信功能或其它功能。

如图8所示，该电子设备800还可以包括：输入单元803、显示器804、电源805。

在一个实施方式中，实施例1所述的物体检测装置的功能可以被集成到该中央处理器801中。其中，该中央处理器801可以被配置为：利用多个卷积层从输入图像中提取全局图像特征；利用该全局图像特征确定多个候选检测区域；根据该多个候选检测区域的信息，利用该多个卷积层中预定数量的卷积层，提取对应该预定数量的卷积层的第一局部图像特征；根据该第一局部图像特征确定该多个候选检测区域中的每个候选检测区域的第二局部图像特征；其中，该多个候选检测区域中的一部分候选检测区域的第二局部图像特征是利用提取的对应该预定数量的卷积层中的至少两个卷积层的第一局部图像特征确定的；以及，根据该每个候选检测区域的第二局部图像特征进行物体检测，输出物体检测结果。

在本实施例中，该多个候选检测区域中的每个候选检测区域属于区域大小等级不同的第一数量个区域组中的一个区域组；并且针对该第一数量个区域组中的第一区域组和第二区域组：

在一个实施方式中，该中央处理器801可以被配置为：根据该第一区域组的候选检测区域的信息提取对应第一预定卷积层的第一局部图像特征，根据该第二区域组的候选检测区域的信息提取对应第二预定卷积层的第一局部图像特征，其中，该第一预定卷积层中的一个卷积层的位置比该第二预定卷积层中的一个卷积层的位置靠前，其中，该第一区域组中的候选检测区域小于该第二区域组中的候选检测区域。

该中央处理器801还可以被配置为：根据该第一预定卷积层的第一局部图像特征确定该第一区域组中的候选检测区域的第二局部图像特征，根据该第二预定卷积层的第一局部图像特征确定该第二区域组中的候选检测区域的第二局部图像特征。

在一个实施方式中，该中央处理器801可以被配置为：确定该第一区域组中的候选检测区域的第二局部图像特征时所利用的该至少两个卷积层中的一个卷积层的位置比确定该第二区域组中的候选检测区域的第二局部图像特征时所利用的该至少两个卷积层中的一个卷积层的位置靠前，其中，该第一区域组中的候选检测区域小于该第二区域组中的候选检测区域。

在利用提取的对应该预定数量的卷积层中的至少两个卷积层的第一局部图像特征确定候选检测区域的第二局部图像特征时，在一个实施方式中，该中央处理器801可以被配置为：将提取的对应位置靠后的至少一个卷积层的第一局部图像特征作上采样处理，使其与提取的对应位置最靠前的卷积层的第一局部图像特征的空间分辨率相同，并将处理后的提取的对应位置靠后的至少一个卷积层的第一局部图像特征与提取的对应位置最靠前的卷积层的第一局部图像特征进行相加处理，以得到对应该候选检测区域的第二局部图像特征。

在利用提取的对应该预定数量的卷积层中的至少两个卷积层的第一局部图像特征确定候选检测区域的第二局部图像特征时，在一个实施方式中，该中央处理器801可以被配置为：将提取的对应位置靠后的至少一个卷积层的第一局部图像特征作扩展处理，使其与提取的对应位置最靠前的卷积层的第一局部图像特征的空间分辨率相同，并将处理后的提取的对应位置靠后的卷积层的第一局部图像特征与提取的对应位置最靠前的卷积层的第一局部图像特征进行叠加卷积处理，以得到对应该候选检测区域的第二局部图像特征。

在第一数量个区域组包括：大区域组、中区域组、小区域组，该中央处理器801可以被配置为：利用提取的对应该多个卷积层中的位置最靠后的卷积层的第一局部图像特征确定大区域组中的候选检测区域的第二局部图像特征；利用提取的对应该多个卷积层中的位置最靠后的卷积层提取的第一局部图像特征作上采样处理后与提取的对应位置为倒数第二个的卷积层的第一局部图像特征相加以确定中区域组中的候选检测区域的第二局部图像特征；利用提取的对应该多个卷积层中的位置最靠后的卷积层的第一局部图像特征作扩展处理后与提取的位置为倒数第三个的卷积层的第一局部图像特征叠加卷积以确定小区域组中的候选检测区域的第二局部图像特征。

在本实施例中，该中央处理器801可以被配置为：根据对应第一数量个区域组的候选检测区域的第二局部图像特征分别得到第一数量个检测结果，将该第一数量个检测结果相加，以输出该物体检测结果。

在另一个实施方式中，实施例1所述的物体检测装置100可以与该中央处理器801分开配置，例如可以将该物体检测装置100为与该中央处理器801连接的芯片，通过该中央处理器801的控制来实现该物体检测装置100的功能。

在本实施例中该电子设备800也并不是必须要包括图8中所示的所有部件。

如图8所示，该中央处理器801有时也称为控制器或操作控件，可以包括微处理器或其它处理器装置和/或逻辑装置，该中央处理器801接收输入并控制该电子设备800的各个部件的操作。

该存储器802，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。并且该中央处理器801可执行该存储器802存储的该程序，以实现信息存储或处理等。其它部件的功能与现有类似，此处不再赘述。该电子设备800的各部件可以通过专用硬件、固件、软件或其结合来实现，而不偏离本发明的范围。

本发明实施例还提供一种计算机可读程序，其中当在物体检测装置中执行该程序时，该程序使得计算机在该物体检测装置中执行如上面实施例2中的物体检测方法。

本发明实施例还提供一种存储有计算机可读程序的存储介质，其中该计算机可读程序使得计算机在物体检测装置中执行上面实施例2中的物体检测方法。

本发明以上的装置和方法可以由硬件实现，也可以由硬件结合软件实现。本发明涉及这样的计算机可读程序，当该程序被逻辑部件所执行时，能够使该逻辑部件实现上文所述的装置或构成部件，或使该逻辑部件实现上文所述的各种方法或步骤。本发明还涉及用于存储以上程序的存储介质，如硬盘、磁盘、光盘、DVD、flash存储器等。

结合本发明实施例描述的在物体检测装置中执行的物体检测方法可直接体现为硬件、由处理器执行的软件模块或二者组合。例如，图1中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合，既可以对应于计算机程序流程的各个软件模块，亦可以对应于各个硬件模块。这些软件模块，可以分别对应于图2所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。

软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息；或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在物体检测装置的存储器中，也可以存储在可插入物体检测装置的存储卡中。

针对图1描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件、或者其任意适当组合。针对图1描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，还可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。

以上结合具体的实施方式对本发明进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的精神和原理对本发明做出各种变型和修改，这些变型和修改也在本发明的范围内。

Claims

一种物体检测装置，其中，所述装置包括：

特征提取单元，其用于利用多个卷积层从输入图像中提取全局图像特征；

区域推荐单元，其用于利用所述全局图像特征确定多个候选检测区域，将所述多个候选检测区域的信息反馈给所述特征提取单元；并且所述特征提取单元还用于根据所述信息，利用所述多个卷积层中预定数量的卷积层，提取对应所述预定数量的卷积层的第一局部图像特征；

处理单元，其用于根据所述第一局部图像特征确定所述多个候选检测区域中的每个候选检测区域的第二局部图像特征；其中，所述多个候选检测区域中的一部分候选检测区域的第二局部图像特征是利用提取的对应所述预定数量的卷积层中的至少两个卷积层的第一局部图像特征确定的；以及

检测单元，其用于根据所述每个候选检测区域的第二局部图像特征进行物体检测，输出物体检测结果。
根据权利要求1所述的装置，其中，所述多个卷积层中位置靠前的卷积层比位置靠后的卷积层的空间分辨率高；位置靠前的卷积层比位置靠后的卷积层的语义信息少。
根据权利要求1所述的装置，其中，所述多个候选检测区域中的另一部分候选检测区域的第二局部图像特征是利用提取的对应所述预定数量的卷积层中的至少一个卷积层的第一局部图像特征确定的。
根据权利要求1所述的装置，其中，所述多个候选检测区域中的每个候选检测区域属于区域大小等级不同的第一数量个区域组中的一个区域组；

并且针对所述多个区域组中的第一区域组和第二区域组，所述特征提取单元根据所述第一区域组的候选检测区域的信息提取对应第一预定卷积层的第一局部图像特征，根据所述第二区域组的候选检测区域的信息提取对应第二预定卷积层的第一局部图像特征，其中，所述第一预定卷积层中的一个卷积层的位置比所述第二预定卷积层中的一个卷积层的位置靠前，其中，所述第一区域组中的候选检测区域小于所述第二区域组中的候选检测区域。
根据权利要求4所述的装置，其中，所述处理单元根据所述第一预定卷积层的第一局部图像特征确定所述第一区域组中的候选检测区域的第二局部图像特征，根据所述第二预定卷积层的第一局部图像特征确定所述第二区域组中的候选检测区域的第二局部图像特征。
根据权利要求1所述的装置，其中，所述多个候选检测区域中的每个候选检测区域属于区域大小等级不同的第一数量个区域组中的一个区域组，针对所述多个区域组中的第一区域组和第二区域组，所述处理单元确定所述第一区域组中的候选检测区域的第二局部图像特征时所利用的所述至少两个卷积层中的一个卷积层的位置比确定所述第二区域组中的候选检测区域的第二局部图像特征时所利用的所述至少两个卷积层中的一个卷积层的位置靠前，其中，所述第一区域组中的候选检测区域小于所述第二区域组中的候选检测区域。
根据权利要求1所述的装置，其中，在利用提取的对应所述预定数量的卷积层中的至少两个卷积层的第一局部图像特征确定候选检测区域的第二局部图像特征时，所述处理单元包括：

第一处理模块，其用于将提取的对应位置靠后的至少一个卷积层的第一局部图像特征作上采样处理，使其与提取的对应位置最靠前的卷积层的第一局部图像特征的空间分辨率相同，并将处理后的提取的对应位置靠后的至少一个卷积层的第一局部图像特征与提取的对应位置最靠前的卷积层的第一局部图像特征进行相加处理，以得到对应所述候选检测区域的第二局部图像特征。
根据权利要求1所述的装置，其中，在利用提取的对应所述预定数量的卷积层中的至少两个卷积层的第一局部图像特征确定候选检测区域的第二局部图像特征时，所述处理单元包括：

第二处理模块，其用于将提取的对应位置靠后的至少一个卷积层的第一局部图像特征作扩展处理，使其与提取的对应位置最靠前的卷积层的第一局部图像特征的空间分辨率相同，并将处理后的提取的对应位置靠后的卷积层的第一局部图像特征与提取的对应位置最靠前的卷积层的第一局部图像特征进行叠加卷积处理，以得到对应所述候选检测区域的第二局部图像特征。
根据权利要求1所述的装置，其中，所述多个候选检测区域中的每个候选检测区域属于区域大小等级不同的第一数量个区域组中的一个区域组，其中所述第一数量个区域组包括：大区域组、中区域组、小区域组，所述处理单元利用提取的对应所述多个卷积层中的位置最靠后的卷积层的第一局部图像特征确定大区域组中的候选检测区域的第二局部图像特征；

利用提取的对应所述多个卷积层中的位置最靠后的卷积层提取的第一局部图像特征作上采样处理后与提取的对应位置为倒数第二个的卷积层的第一局部图像特征相加以确定中区域组中的候选检测区域的第二局部图像特征；

利用提取的对应所述多个卷积层中的位置最靠后的卷积层的第一局部图像特征作扩展处理后与提取的位置为倒数第三个的卷积层的第一局部图像特征叠加卷积以确定小区域组中的候选检测区域的第二局部图像特征。
根据权利要求1所述的装置，其中，所述多个候选检测区域中的每个候选检测区域属于区域大小等级不同的第一数量个区域组中的一个区域组，所述检测单元根据对应第一数量个区域组的候选检测区域的第二局部图像特征分别得到第一数量个检测结果，将所述第一数量个检测结果相加，以输出所述物体检测结果。
一种物体检测方法，其中，所述方法包括：

利用多个卷积层从输入图像中提取全局图像特征；

利用所述全局图像特征确定多个候选检测区域；

根据所述多个候选检测区域的信息，利用所述多个卷积层中预定数量的卷积层，提取对应所述预定数量的卷积层的第一局部图像特征；

根据所述第一局部图像特征确定所述多个候选检测区域中的每个候选检测区域的第二局部图像特征；其中，所述多个候选检测区域中的一部分候选检测区域的第二局部图像特征是利用提取的对应所述预定数量的卷积层中的至少两个卷积层的第一局部图像特征确定的；以及

根据所述每个候选检测区域的第二局部图像特征进行物体检测，输出物体检测结果。
根据权利要求11所述的方法，其中，所述多个卷积层中位置靠前的卷积层比位置靠后的卷积层的空间分辨率高；位置靠前的卷积层比位置靠后的卷积层的语义信息少。
根据权利要求11所述的方法，其中，所述多个候选检测区域中的另一部分候选检测区域的第二局部图像特征是利用提取的对应所述预定数量的卷积层中的至少一个卷积层的第一局部图像特征确定的。
根据权利要求11所述的方法，其中，所述多个候选检测区域中的每个候选检测区域属于区域大小等级不同的第一数量个区域组中的一个区域组；

并且针对所述多个区域组中的第一区域组和第二区域组，提取对应所述预定数量的卷积层的第一局部图像特征包括：

根据所述第一区域组的候选检测区域的信息提取对应第一预定卷积层的第一局部图像特征，根据所述第二区域组的候选检测区域的信息提取对应第二预定卷积层的第一局部图像特征，其中，所述第一预定卷积层中的一个卷积层的位置比所述第二预定卷积层中的一个卷积层的位置靠前，其中，所述第一区域组中的候选检测区域小于所述第二区域组中的候选检测区域。
根据权利要求14所述的方法，其中，根据所述第一局部图像特征确定所述多个候选检测区域中的每个候选检测区域的第二局部图像特征包括：

根据所述第一预定卷积层的第一局部图像特征确定所述第一区域组中的候选检测区域的第二局部图像特征，根据所述第二预定卷积层的第一局部图像特征确定所述第二区域组中的候选检测区域的第二局部图像特征。
根据权利要求11所述的方法，其中，所述多个候选检测区域中的每个候选检测区域属于区域大小等级不同的第一数量个区域组中的一个区域组，针对所述多个区域组中的第一区域组和第二区域组，其中，确定所述第一区域组中的候选检测区域的第二局部图像特征时所利用的所述至少两个卷积层中的一个卷积层的位置比确定所述第二区域组中的候选检测区域的第二局部图像特征时所利用的所述至少两个卷积层中的一个卷积层的位置靠前，其中，所述第一区域组中的候选检测区域小于所述第二区域组中的候选检测区域。
根据权利要求11所述的方法，其中，在利用提取的对应所述预定数量的卷积层中的至少两个卷积层的第一局部图像特征确定候选检测区域的第二局部图像特征时，根据所述第一局部图像特征确定所述多个候选检测区域中的每个候选检测区域的第二局部图像特征包括：

将提取的对应位置靠后的至少一个卷积层的第一局部图像特征作上采样处理，使其与提取的对应位置最靠前的卷积层的第一局部图像特征的空间分辨率相同，并将处理后的提取的对应位置靠后的至少一个卷积层的第一局部图像特征与提取的对应位置最靠前的卷积层的第一局部图像特征进行相加处理，以得到对应所述候选检测区域的第二局部图像特征。
根据权利要求11所述的方法，其中，在利用提取的对应所述预定数量的卷积层中的至少两个卷积层的第一局部图像特征确定候选检测区域的第二局部图像特征时，根据所述第一局部图像特征确定所述多个候选检测区域中的每个候选检测区域的第二局部图像特征包括：

将提取的对应位置靠后的至少一个卷积层的第一局部图像特征作扩展处理，使其与提取的对应位置最靠前的卷积层的第一局部图像特征的空间分辨率相同，并将处理后的提取的对应位置靠后的卷积层的第一局部图像特征与提取的对应位置最靠前的卷积层的第一局部图像特征进行叠加卷积处理，以得到对应所述候选检测区域的第二局部图像特征。
根据权利要求11所述的方法，其中，所述多个候选检测区域中的每个候选检测区域属于区域大小等级不同的第一数量个区域组中的一个区域组，其中所述第一数量个区域组包括：大区域组、中区域组、小区域组，根据所述第一局部图像特征确定所述多个候选检测区域中的每个候选检测区域的第二局部图像特征包括：利用提取的对应所述多个卷积层中的位置最靠后的卷积层的第一局部图像特征确定大区域组中的候选检测区域的第二局部图像特征；

利用提取的对应所述多个卷积层中的位置最靠后的卷积层提取的第一局部图像特征作上采样处理后与提取的对应位置为倒数第二个的卷积层的第一局部图像特征相加以确定中区域组中的候选检测区域的第二局部图像特征；

利用提取的对应所述多个卷积层中的位置最靠后的卷积层的第一局部图像特征作扩展处理后与提取的位置为倒数第三个的卷积层的第一局部图像特征叠加卷积以确定小区域组中的候选检测区域的第二局部图像特征。
根据权利要求11所述的方法，其中，所述多个候选检测区域中的每个候选检测区域属于区域大小等级不同的第一数量个区域组中的一个区域组，根据对应第一数量个区域组的候选检测区域的第二局部图像特征分别得到第一数量个检测结果，将所述第一数量个检测结果相加，以输出所述物体检测结果。