CN110334769A

CN110334769A - 目标识别方法及装置

Info

Publication number: CN110334769A
Application number: CN201910614107.8A
Authority: CN
Inventors: 郭建亚; 李骊
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-10-15

Abstract

本申请实施例公开了一种目标识别方法及装置，采集目标区域的RGB图像和深度图像；对深度图像进行空洞填充，得到修复的深度图像；对修复的深度图像进行编码得到三通道深度图像；将RGB图像和三通道深度图像输入预先训练好的识别模型，得到RGB图像中的目标识别结果。本申请利用预先训练好的识别模型，结合RGB图像和深度图像进行目标识别，提高了目标识别的准确率。

Description

目标识别方法及装置

技术领域

本申请涉及图像处理技术领域，更具体地说，涉及一种目标识别方法及装置。

背景技术

目前的目标识别均是基于RGB图像实现的，通过从RGB图像中提取颜色特征、纹理特征和轮廓特征来识别目标。但由于成像时受到光照等环境因素的影响，现有的基于RGB图像的目标识别过程中所提取的特征并不能完整体现目标的可用特征信息，使得目标的识别准确率较低。

发明内容

本申请的目的是提供一种目标识别方法及装置，以提高目标识别的准确率，包括如下技术方案：

一种目标识别方法，包括：

采集目标区域的RGB图像和深度图像；

对所述深度图像进行空洞填充，得到修复的深度图像；

对所述修复的深度图像进行编码得到三通道深度图像；

将所述RGB图像和所述三通道深度图像输入预先训练好的识别模型，得到所述RGB图像中的目标识别结果；所述识别模型为，预先以若干标注的RGB图像以及与各标注的RGB图像对应的深度图像为样本训练得到。

上述方法，优选的，所述对所述深度图像进行空洞填充，得到修复的深度图像包括：

对所述深度图像进行二值化处理，得到掩模；

根据所述掩模确定所述深度图像中的空洞点；

对灰度化的所述RGB图像中的像素值进行聚类，得到聚类图像，所述聚类图像标识灰度化的所述RGB图像中像素值近似的像素点；

在灰度化的所述RGB图像中确定与所述空洞点对应的第一像素，以及与所述第一像素同类的所有第二像素，所述第二像素与所述深度图像中的非空洞点对应；

计算所述第一像素与各个第二像素间的距离；

将与所述第一像素间的距离最短的第二像素对应的深度值作为所述空洞点的填充值。

对所述深度图像进行二值化处理，得到掩模；

根据所述掩模确定深度图像中的空洞点；

在所述RGB图像中确定与所述空洞点对应的第一像素，以及所述第一像素的预设邻域内的第二像素，所述第二像素为所述预设邻域内的与非空洞点对应的像素；

计算所述第一像素与各个第二像素间的距离；

上述方法，优选的，所述识别模型包括：

深度网络单元和卷积神经网络单元；其中，

所述深度网络单元用于对所述三通道深度图像进行处理，以提取所述三通道深度图像的特征；

所述卷积神经网络单元用于对所述RGB图像进行处理，提取所述RGB图像的特征，对所述三通道深度图像的特征，以及所述RGB图像的特征进行处理，得到所述RGB图像中的目标识别结果。

上述方法，优选的，所述深度网络单元包括：三层多层感知机卷积层；

所述卷积神经网络单元包括：两层卷积池化层；与所述两层卷积池化层连接的两层第一Inception模块；与所述两层第一Inception模块连接的第一池化层；与所述第一池化层连接的五层第二Inception模块；与所述五层第二Inception模块连接的第二池化层；与所述第二池化层连接的两层第三Inception模块；与所述两层第三Inception模块连接的第三池化层；与所述第三池化层连接的信号丢失层；与所述信号丢失层连接的线性层；与所述线性层连接的分类层；与所述分类层连接的决策层；与所述决策层连接的输出层。

一种目标识别装置，包括：

采集模块，用于采集目标区域的RGB图像和深度图像；

填充模块，用于对所述深度图像进行空洞填充，得到修复的深度图像；

编码模块，用于对所述修复的深度图像进行编码得到三通道深度图像；

识别模块，用于将所述RGB图像和所述三通道深度图像输入预先训练好的识别模型，得到所述RGB图像中的目标识别结果；所述识别模型为，预先以若干标注的RGB图像以及与各标注的RGB图像对应的深度图像为样本训练得到。

上述装置，优选的，所述填充模块包括：

二值化单元，用于对所述深度图像进行二值化处理，得到掩模；

第一确定单元，用于根据所述掩模确定所述深度图像中的空洞点；

聚类单元，用于对灰度化的所述RGB图像中的像素值进行聚类，得到聚类图像，所述聚类图像标识灰度化的所述RGB图像中像素值近似的像素点；

第二确定单元，用于在灰度化的所述RGB图像中确定与所述空洞点对应的第一像素，以及与所述第一像素同类的所有第二像素，所述第二像素与所述深度图像中的非空洞点对应；

计算单元，用于计算所述第一像素与各个第二像素间的距离；

填充单元，用于将与所述第一像素间的距离最短的第二像素对应的深度值作为所述空洞点的填充值。

上述装置，优选的，所述填充模块包括：

第三确定单元，用于在所述RGB图像中确定与所述空洞点对应的第一像素，以及所述第一像素的预设邻域内的第二像素，所述第二像素为所述预设邻域内的与非空洞点对应的像素；

上述装置，优选的，所述识别模型包括：深度网络单元和卷积神经网络单元；其中，

上述装置，优选的，所述深度网络单元包括：三层多层感知机卷积层；

通过以上方案可知，本申请提供的一种目标识别方法及装置，采集目标区域的RGB图像和深度图像；对深度图像进行空洞填充，得到修复的深度图像；对修复的深度图像进行编码得到三通道深度图像；将RGB图像和三通道深度图像输入预先训练好的识别模型，得到RGB图像中的目标识别结果。本申请利用预先训练好的识别模型，结合RGB图像和深度图像进行目标识别，提高了目标识别的准确率，解决了现有的目标识别方法受光照等环境因素的影响而识别准确率低的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的目标识别方法的一种实现流程图；

图2为本申请实施例提供的对深度图像进行空洞填充，得到修复的深度图像的一种实现流程图；

图3为本申请实施例提供的识别模型的一种结构示意图；

图4为本申请实施例提供的Inception模块的一种示例图；

图5为本申请实施例提供的目标识别装置的一种结构示意图；

图6为本申请实施例提供的待进行目标识别的一帧图像；

图7为基于本申请实施例提供的目标识别方法对图6所示图像及对应的深度图像进行处理，得到的目标识别结果。

说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本申请实施例提供目标识别方法的一种实现流程图，可以包括：

步骤S101：采集目标区域的RGB图像和深度图像。

可以采用RGB-D深度相机采集目标区区的RGB图像和深度图像。基于RGB-D深度相机采集图像时，每采集一帧RGB图像，可以同时采集一帧深度图像。在进行显示时，仅显示RGB图像即可。

步骤S102：对深度图像进行空洞填充，得到修复的深度图像。

利用深度相机采集的深度图像中通常会存在空洞，需要对其进行修复。在一可选的实施例中，可以利用空洞周围的像素的深度值对空洞进行填充以对深度图进行修复。

步骤S103：对修复的深度图像进行编码得到三通道深度图像。

可选的，可以采用HHA编码方法对修复的深度图像进行编码，得到的三通道深度图像中的三通道可以是水平差异、对地高度和表面法向量的角度这三个通道。HHA编码方法强调了通道数据之间的互补信息。

步骤S104：将RGB图像和三通道深度图像输入预先训练好的识别模型，得到RGB图像中的目标识别结果；上述识别模型为，预先以若干标注了目标的RGB图像以及与各标注的RGB图像对应的深度图像为样本训练得到。

本申请实施例中，预先以通过RGB-D深度相机采集的若干对RGB图像和深度图像作为训练样本，以RGB图像对应的标注信息作为标签进行训练得到识别模型。RGB图像对应的标注信息可以包括与RGB图像中指定区域对应的文本标识。该文本标识可以不标识在RGB图像中，而是文本标识与RGB图像，以及该RGB的指定区域信息(该指定区域信息由RGB图像中的图形标识，例如，该指定区域信息可以为矩形框)关联存储，其中指定区域信息用于说明目标在RGB图像中的位置。

本申请提供的目标识别方法，利用预先训练好的识别模型，结合深度图像和RGB图像进行目标识别，提高了目标识别精度，解决了现有的目标识别方法受光照等环境因素的影响而识别准确率低的问题。

在一可选的实施例中，上述对深度图像进行空洞填充，得到修复的深度图像的一种实现流程图如图2所示，可以包括：

步骤S201：对深度图像进行二值化处理，得到掩模。

可选的，可以将深度图像中，深度值为零的点二值化为0，将深度值不为零的点二值化为255，用公式可以表示为：

mask表示掩模，A(i,j)表示(i,j)处的深度值。

步骤S202：根据掩模确定深度图像中的空洞点。

空洞点即为掩模中取值为0的点。

步骤S203：对灰度化的RGB图像中的像素值进行聚类，得到聚类图像，该聚类图像标识灰度化的RGB图像中像素值近似的像素点。

灰度化的RGB图像是指由RGB图像转换得到的灰度图像。可选的，可以采用K-means算法对灰度化的RGB图像中的像素值进行聚类。或者，可以采用其它聚类算法对灰度化的RGB图像中的像素值进行聚类，如层次聚类算法等。聚类图像表征灰度化的RGB图像中哪些像素的像素值是近似的。

步骤S204：在RGB图像中确定与空洞点对应的第一像素，以及与第一像素同类的所有第二像素，第二像素与深度图像中的非空洞点对应。

RGB图像中的像素与深度图中的像素是一一对应的。在属于同一聚类的像素中，既包括对应空洞点的第一像素，又包括对应非空洞点的第二像素。

步骤S205：计算第一像素与各个第二像素间的距离。

本申请实施例中，对于每一个空洞点对应的第一像素，通过像素值(即灰度值)，计算该第一像素与同一聚类中各个第二像素之间的距离，该距离可以是欧式距离，也可以是其它距离，例如余弦相似度距离等。

在一可选的实施例中，第一像素与第二像素间的距离可以是由第一像素与第二像素间的欧式距离和图像像素距离计算得到第一像素与第二像素间的综合距离。图像像素距离是指按像素度量两个像素间的距离。例如，

假设图像中a像素点的坐标是第10行第30列，b像素点的坐标是第13行第34列，则两个像素点在行方向上的距离是3，在列方向上的距离是4，则a像素点和b像素点的图像像素距离就是5。在得到a像素点和b像素点的欧式距离和图像像素距离后，可以将两者(即欧式距离和图像像素距离)之和作为a像素点和b像素点的综合距离，或者，将两者进行加权求和得到a像素点和b像素点的综合距离，或者，将两者分别开平方后求和得到a像素点和b像素点的综合距离。

步骤S206：将与第一像素间的距离最短的第二像素对应的深度值作为空洞点的填充值。也就是说，利用与第一像素间的距离最短的第二像素对应的深度值对空洞点进行填充。

在一可选的实施例中，上述对深度图像进行空洞填充，得到修复的深度图像的一种实现方式可以为：

对深度图像进行二值化处理，得到掩模。

根据掩模确定深度图像中的空洞点。

上述两个步骤的实现方式可以参看前述实施例，这里不再详述。

在RGB图像中确定与空洞点对应的第一像素，以及第一像素的预设邻域内的第二像素，第二像素为上述预设邻域内的与深度图像中的非空洞点对应的像素。

本实施例中，第二像素是第一像素的邻域中的像素。

计算第一像素与各个第二像素间的距离。该计算过程可以参看前述实施例，这里不再详述。

将与第一像素间的距离最短的第二像素对应的深度值作为空洞点的填充值。

在一可选的实施例中，上述识别模型的一种结构示意图如图3所示，可以包括：深度网络单元和卷积神经网络单元；其中，

深度网络单元(简称为NIN网络单元)用于对三通道深度图像进行处理，以提取三通道深度图像的特征。图3所示示例中，输入的三通道深度图像为HHA_Img，大小为300*300。

卷积神经网络单元(简称为CNN网络单元)用于对RGB图像进行处理，提取RGB图像的特征，对三通道深度图像的特征，以及RGB图像的特征进行处理，得到RGB图像中的目标识别结果。图3所示示例中，输入的RGB图像为RGB_Img，大小为300*300。

可选的，NIN网络单元包括三层多层感知机卷积层(即三层mlpconv网络层，图3中分别用NIN1、NIN2、NIN3标识)，mlpconv层实际上是先进行一次普通的卷积(convolution)再加传统的mlp(多层感知器)。多层感知器是一个2层(输入层+1个隐藏层)的感知机，它其实是对普通的卷积层输出的每一个特征层中的同一个位置的一个元素进行加权线性重组，这就相当于1X1卷积中对一个局部块的操作结果，然后对特征图中的每一个元素都进行这样的操作，这就相当于1X1卷积了。因为convolution是线性的，而mlp是非线性的，后者能够得到更高的抽象，因而泛化能力更强。在跨通道情况下，mlpconv等价于卷积层+1*1卷积层。

CNN网络单元包括两层卷积池化层；与所述两层卷积池化层连接的两层第一Inception模块；与所述两层第一Inception模块连接的第一池化层；与所述第一池化层连接的五层第二Inception模块；与所述五层第二Inception模块连接的第二池化层；与所述第二池化层连接的两层第三Inception模块；与所述两层第三Inception模块连接的第三池化层；与所述第三池化层连接的信号丢失层；与所述信号丢失层连接的线性层；与所述线性层连接的分类层；与所述分类层连接的决策层；与所述决策层连接的输出层。

以图3为例，图3中依次连接的7*7卷积层Conv_7*7，最大池化层maxpool，3*3卷积层Conv_3*3和最大池化层maxpool，构成了两层卷积池化层；依次连接的Inception(3a)和Inception(3b)构成两层第一Inception模块；与Inception(3b)连接的最大池化层maxpool构成第一池化层；依次连接的Inception(4a)-Inception(4e)构成五层第二Inception模块；与Inception(4e)连接的最大池化层maxpool构成第二池化层；依次连接的Inception(5a)和Inception(5b)构成两层第三Inception模块；与Inception(5b)连接的均值池化层avgpool构成第三池化层；dropout为信号丢失层；linear为线性层；softmax为分类层；detections为决策层；Non-Maximum Suppression为输出层。

Inception模块用于在多个尺寸上对上一层输出的特征同时进行卷积再聚合。具体的，Inception模块的一种示例图如图4所示，该示例中，Inception模块采用的卷积核大小采用1*1、3*3和5*5，采用不同大小的卷积核意味着不同大小的感受野，最后拼接意味着不同尺度特征的聚合，之所以卷积核大小采用1*1、3*3和5*5，主要是为了方便对齐。设定卷积步长stride＝1之后，只要分别设定边缘扩充参数pad＝0、1、2，那么卷积之后便可以得到相同维度的特征，然后这些特征就可以直接拼接在一起了，同时在网络中引用了3*3的池化层，网络越到后面，特征越抽象，而且每个特征所涉及的感受野也更大了，因此随着层数的增加，3x3和5x5卷积的比例也要增加，但是，使用5x5的卷积核仍然会带来巨大的计算量。为此，采用1x1卷积核来进行降维。

与方法实施例相对应，本申请还提供一种目标识别装置，本申请提供的目标识别装置的一种结构示意图如图5所示，可以包括：

采集模块51，填充模块52，编码模块53和识别模块54；其中，

采集模块51用于采集目标区域的RGB图像和深度图像；

填充模块52用于对所述深度图像进行空洞填充，得到修复的深度图像；

编码模块53用于对所述修复的深度图像进行编码得到三通道深度图像；

识别模块54用于将所述RGB图像和所述三通道深度图像输入预先训练好的识别模型，得到所述RGB图像中的目标识别结果；所述识别模型为，预先以若干标注的RGB图像以及与各标注的RGB图像对应的深度图像为样本训练得到。

本申请提供的目标识别装置，采集目标区域的RGB图像和深度图像；对深度图像进行空洞填充，得到修复的深度图像；对修复的深度图像进行编码得到三通道深度图像；将RGB图像和三通道深度图像输入预先训练好的识别模型，得到RGB图像中的目标识别结果。本申请利用预先训练好的识别模型，结合RGB图像和深度图像进行目标识别，提高了目标识别的准确率。

在一可选的实施例中，填充模块52可以包括：

在一可选的实施例中，编码模块53具体可以用于：对所述修复的深度图像进行HHA编码，得到三通道深度图像。

在一可选的实施例中，所述识别模型可以包括：深度网络单元和卷积神经网络单元；其中，

在一可选的实施例中，所述深度网络单元包括：三层多层感知机卷积层；

如图6-7所示，图6为待进行目标识别的一帧图像，基于本申请提供的目标识别方法对该帧图像以及该帧图像对应的深度图像进行处理，得到的目标识别结果如图7所示。该示例中，目标为椅子，训练识别模型时，利用包含椅子的训练样本进行训练得到椅子识别模型。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应当理解，本申请实施例中，从权、各个实施例、特征可以互相组合结合，都能实现解决前述技术问题。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种目标识别方法，其特征在于，包括：

采集目标区域的RGB图像和深度图像；

对所述深度图像进行空洞填充，得到修复的深度图像；

对所述修复的深度图像进行编码得到三通道深度图像；

2.根据权利要求1所述的方法，其特征在于，所述对所述深度图像进行空洞填充，得到修复的深度图像包括：

对所述深度图像进行二值化处理，得到掩模；

根据所述掩模确定所述深度图像中的空洞点；

计算所述第一像素与各个第二像素间的距离；

3.根据权利要求1所述的方法，其特征在于，所述对所述深度图像进行空洞填充，得到修复的深度图像包括：

对所述深度图像进行二值化处理，得到掩模；

根据所述掩模确定深度图像中的空洞点；

计算所述第一像素与各个第二像素间的距离；

4.根据权利要求1所述的方法，其特征在于，所述识别模型包括：

深度网络单元和卷积神经网络单元；其中，

5.根据权利要求4所述的方法，其特征在于，所述深度网络单元包括：三层多层感知机卷积层；

6.一种目标识别装置，其特征在于，包括：

采集模块，用于采集目标区域的RGB图像和深度图像；

7.根据权利要求6所述的装置，其特征在于，所述填充模块包括：

8.根据权利要求6所述的装置，其特征在于，所述填充模块包括：

9.根据权利要求6所述的装置，其特征在于，所述识别模型包括：深度网络单元和卷积神经网络单元；其中，

10.根据权利要求9所述的装置，其特征在于，所述深度网络单元包括：三层多层感知机卷积层；