CN108596193B

CN108596193B - 一种搭建针对人耳识别的深度学习网络结构的方法及系统

Info

Publication number: CN108596193B
Application number: CN201810392301.1A
Authority: CN
Inventors: 王雁刚; 陈晨
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2021-11-02
Anticipated expiration: 2038-04-27
Also published as: CN108596193A

Abstract

本发明公开了一种搭建针对人耳识别的深度学习网络结构的方法及系统，方法包括：对现有的人耳图像数据集进行扩充，针对扩充后的数据集计算以热图形式呈现的人耳特征点标签；针对扩充后的数据集及所得到的热图标签搭建卷积神经网络；利用该网络结构进行训练、得到模型。系统包括：数据扩充单元，热图标签单元，回归热图单元。本发明能够通过对现有的数据集进行扩充，解决了深度学习对大量训练数据的需求，深度学习网络能够提取人耳特征点，输出人耳特征点的热图结果。本发明通过对现有的数据集进行扩充，解决了深度学习对大量训练数据的需求；基于搭建针对人耳识别的深度学习网络结构，能够提取人耳特征点，输出人耳特征点的热图结果。

Description

一种搭建针对人耳识别的深度学习网络结构的方法及系统

技术领域

本发明属于计算机视觉及图形学技术领域，具体涉及一种搭建针对人耳识别的深度学习网络结构的方法及系统。

背景技术

在生物识别领域，由耳朵图像出发的自动身份识别代表了一个积极的研究领域，其可以作为自动识别系统中其他生物识别方式的补充，并在其他信息不可靠甚至不可用时提供身份提示。这项技术具有能够从远距离、以隐蔽的方式捕捉耳朵图像的能力，因此在监视和安全应用程序以及其他应用领域中成了一个有吸引力的选择。例如，在脸部识别技术可能与脸部侧面相矛盾的情况下，耳朵可以作为监视镜头中人的身份信息的来源。

近年来，这个领域已经做出了有意义的贡献，但仍然存在一些公开的研究问题，阻碍这项技术更广泛的(商业)部署，且现有的人耳识别技术并未达到良好的识别效果。另外，虽然基于神经网络的技术在计算机视觉和机器学习的其他领域正变得越来越流行，但是由于缺乏大规模的数据集，人耳识别尚未从这一领域的最新进展中受益。

发明内容

为解决上述问题，本发明公开了一种搭建针对人耳识别的深度学习网络结构的方法及系统，输出人耳特征点的热图结果，将网络的“思考过程”可视化。

为了达到上述目的，本发明提供如下技术方案：

一种搭建针对人耳识别的深度学习网络结构的方法，包括如下步骤:

步骤1，对现有的人耳图像数据集进行扩充；

步骤2，针对扩充后的人耳图像数据集计算以热图形式呈现的人耳特征点标签；

步骤3，针对扩充后的数据集搭建级联卷积神经网络，级联卷积神经网络学习步骤2得到的以热图形式呈现的人耳特征点标签；

步骤4，利用该网络结构进行训练、得到模型，从而实现通过深度学习网络提取人耳特征点，输出人耳特征点。

进一步的，所述步骤1中从人耳角度和人耳形状两方面对数据集进行扩充。

具体的，从人耳角度对数据集进行扩充具体包括以下过程：首先提取人耳特征点，然后将这些特征点和3D人耳模型建立对应关系，以此可以得到相机外参数，接着可以得到相机矩阵，从中提取出旋转矩阵，通过改变旋转矩阵，能够得到新的角度旋转矩阵，给定一副图像，可以合成不同角度的人耳图像。

具体的，从人耳形状对数据集进行扩充具体包括如下过程：首先通过3D人耳模型数据集获取多种高质量3D人耳扫描数据，接着将图像数据与不同3D人耳形状数据结合，生成同一个人不同耳朵形状的图像。

进一步的，所述步骤2中的人耳特征点标签是分别针对人耳图像中的每个特征点位置的热图。

进一步的，所述步骤3中级联卷积神经网络包括如下几层：

(1)输入层：用于接受图片输入；

(2)人耳轮廓框估计层：利用CNN检测出一个能够包含6个人耳轮廓点的矩形框，将框出的图片传入下一级CNN中；

(3)人耳轮廓点检测层：与人耳轮廓框估计层相连，根据矩形框检测其中6个轮廓点并将结果输出；

(4)人耳内部点边界框估计层：利用CNN检测出一个可以包含7个人耳内部关键点的矩形框，将框出的图片传入下一级CNN中；

(5)人耳内部关键点检测层：与人耳内部点边界框层相连，根据矩形框检测其中7个人耳内部关键点并将结果输出；

(6)人耳关键点合并层：将人耳轮廓点和人耳内部点关键点检测层结果合并；

(7)人耳关键点热图输出层：基于人耳关键点合并得到13个人耳关键点的热图并输出。

本发明还提供了一种搭建针对人耳识别的深度学习网络结构的系统，包括：

数据扩充单元，用于增加现有的人耳图像数据集中的图像数量；

热图标签单元，用于对扩充后的人耳图像数据集计算以热图形式呈现的人耳特征点标签；

回归热图单元，用于搭建一个回归人耳图像中的每个特征点位置的热图的级联卷积神经网络，级联卷积神经网络学习热图标签单元得到的人耳特征点标签，并对数据扩充单元扩充后的人耳图像数据集中数据进行训练输出人耳特征点的热图结果。

与现有技术相比，本发明具有如下优点和有益效果：

本发明通过对现有的数据集进行扩充，解决了深度学习对大量训练数据的需求；基于搭建针对人耳识别的深度学习网络结构，能够提取人耳特征点，输出人耳特征点的热图结果；由于回归人耳特征点的热图，相较于回归坐标点有更好的效果。

附图说明

图1为本发明提供的搭建针对人耳识别的深度学习网络结构的方法流程图。

图2为本发明中针对人耳识别的深度学习网络结构的示意图。

图3为本发明中提出的人耳13个特征点示意图。

图4为本发明中提出的热图高斯点示意图。

图5为本发明提供的搭建针对人耳识别的深度学习网络结构的系统架构图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明如图2所示的搭建针对人耳识别的深度学习网络结构方法，其流程如图1所示，包括如下步骤：

步骤S110，对现有的人耳图像数据集进行扩充。对现有公共数据库人耳图像，从人耳角度和耳朵形状2个方面合成新的人耳图像，极大的扩增数据量。

从人耳角度方面扩充数据集即通过3D人耳模型数据集合成图像看不见的角度，生成新的角度的人耳。需进行如下操作：首先通过人耳特征点检测获取人耳特征点，接着根据人耳特征点和开放的3D人耳模型数据集的人耳模板合成3D人耳。具体而言是，首先提取人耳特征点，然后将这些特征点和3D人耳模型建立对应关系。以此可以得到相机外参数，接着可以得到相机矩阵M，从中提取出旋转矩阵R，通过改变R，我们可以得到新的角度旋转矩阵R’，给定一副图像，可以合成角度θ＝{0°,±40°,±75°}的人耳图像。其中，3D人耳模型可从3D人耳数据集中获得。

从耳朵形状方面扩充数据集需进行如下操作：首先通过3D人耳模型数据集获取多种高质量3D人耳扫描数据，接着将图像数据与不同3D人耳形状数据结合，生成同一个人不同耳朵形状的图像。

步骤S120，针对扩充后的人耳图像数据集计算以热图形式呈现的人耳特征点标签。

该热图是一个固定尺寸的i×j×k维立方体(对于k＝13个特征点，可以为64×64×13)。在训练时间，真实标签是通过在真实人耳特征点位置放置具有固定方差的合成高斯圆分别为每个特征点合成的热图，如图4所示。

步骤S130，针对扩充后的数据集搭建级联卷积神经网络。

对于单张人耳图像，网络的目标是输出13个关键点的热图。其中包括6个人耳轮廓点(即附图3中的1-6特征点)和7个耳朵内部关键点(即附图3中的7-13特征点).

一个关键点对应一个热图,即生成一个高斯目标。耳朵关键点位置由热图表示，每个热图通过二维高斯分布对关键点位置进行编码。特别的，如果部分关键点缺失(例如，关键点被遮挡)，则将相应的热图被设置为零。当目标点为x₀,y₀，我们使用

来得到目标值，可见当x＝x₀,y＝y₀时，数值为1，周围距离越远数值越接近0。

该卷积神经网络的学习目标是(针对13个人耳特征点中的每一个)S120步骤得到的人耳特征点的热图。其输出是一个固定尺寸的i×j×k维立方体(对于k＝13个特征点，可以为64×64×13)。

我们将训练样例表示为(X，y)，其中y代表图像X中13个特征点的坐标。给定训练数据N＝{X，y}和回归器φ(conv8的输出)，训练目标成为估计网络权重λ：

其中，

它是一定σ的以为特征点y_k为中心的高斯函数。

整个级联卷积神经网络结构如图2所示，分为如下几层：

(1)输入层：负责接受图片输入；

(2)人耳轮廓框估计：利用CNN检测出一个可以包含6个人耳轮廓点的矩形框，将框出的图片传入下一级CNN中；

(3)人耳轮廓点检测：与人耳轮廓估计层相连，根据矩形框检测其中6个轮廓点并将结果输出；

(4)人耳内部点边界框估计：利用CNN检测出一个可以包含7个人耳内部关键点的矩形框，将框出的图片传入下一级CNN中；

(5)人耳内部关键点检测：与人耳内部点边界框层相连，根据矩形框检测其中7个人耳内部关键点并将结果输出；

(6)合并人耳关键点：将人耳轮廓点和人耳内部点关键点检测层结果合并；

(7)人耳关键点热图输出层：计算13个人耳关键点的热图并输出。

步骤S140，利用该网络结构对步骤S110扩充后的数据进行训练、得到模型，从而实现通过深度学习网络提取人耳特征点，输出人耳特征点的热图结果。

直接回归坐标是一个高度非线性和更难学习的映射，而回归热图的好处是双重的：首先，回归热图可以将网络的“思考过程”可视化。其次，通过设计，网络的输出可以是多模态的，即允许在多个空间位置处具有置信度，学习变得更容易。

利用该网络结构进行训练，可以提取人耳特征点，输出人耳特征点的热图结果，且能取得良好的效果。

基于上述步骤，本发明还提供了搭建针对手势检测的深度学习网络结构的系统，如图5所示，包括：

数据扩充单元，用于从耳朵角度和耳朵形状两方面增加现有的人耳图像数据集中的图像数量；

本领域的技术人员应该明白，上述的本发明的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种搭建针对人耳识别的深度学习网络结构的方法，其特征在于，包括如下步骤:

步骤1，对现有的人耳图像数据集进行扩充；

所述级联卷积神经网络包括如下几层：

(1)输入层：用于接受图片输入；

(7)人耳关键点热图输出层：基于人耳关键点合并得到13个人耳关键点的热图并输出；

2.根据权利要求1所述的搭建针对人耳识别的深度学习网络结构的方法，其特征在于，所述步骤1中从人耳角度和人耳形状两方面对数据集进行扩充。

3.根据权利要求2所述的搭建针对人耳识别的深度学习网络结构的方法，其特征在于，从人耳角度对数据集进行扩充具体包括以下过程：首先提取人耳特征点，然后将这些特征点和3D人耳模型建立对应关系，以此可以得到相机外参数，接着可以得到相机矩阵，从中提取出旋转矩阵，通过改变旋转矩阵，能够得到新的角度旋转矩阵，给定一副图像，可以合成不同角度的人耳图像。

4.根据权利要求2所述的搭建针对人耳识别的深度学习网络结构的方法，其特征在于，从人耳形状对数据集进行扩充具体包括如下过程：首先通过3D人耳模型数据集获取多种高质量3D人耳扫描数据，接着将图像数据与不同3D人耳形状数据结合，生成同一个人不同耳朵形状的图像。

5.根据权利要求1所述的搭建针对人耳识别的深度学习网络结构的方法，其特征在于，所述步骤2中的人耳特征点标签是分别针对人耳图像中的每个特征点位置的热图。

6.一种搭建针对人耳识别的深度学习网络结构的系统，其特征在于，包括：

热图标签单元，用于对扩充后的人耳图像数据集计算以热图形式呈现的人耳特征点标签；回归热图单元，用于搭建一个回归人耳图像中的每个特征点位置的热图的级联卷积神经网络，级联卷积神经网络学习热图标签单元得到的人耳特征点标签，并对数据扩充单元扩充后的人耳图像数据集中数据进行训练输出人耳特征点的热图结果；

所述级联卷积神经网络包括如下几层：

(1)输入层：用于接受图片输入；