WO2020248782A1

WO2020248782A1 - 一种亚洲人脸库智能建立方法

Info

Publication number: WO2020248782A1
Application number: PCT/CN2020/091145
Authority: WO
Inventors: 刘鹏; 张真; 汪良楠; 曹骝; 秦恩泉; 武郑浩; 夏如超
Original assignee: 南京云创大数据科技股份有限公司
Priority date: 2019-06-14
Filing date: 2020-05-20
Publication date: 2020-12-17
Also published as: CN110287835A

Abstract

一种亚洲人脸库智能建立方法，包括以下步骤：选取数据源；视频解码；人脸检测；去除模糊图片；整理与分类清晰数据集。所述方法避免了过多的财力、物力、人力花费，其建立的人脸数据集大多是多姿态、多背景，因此有助于模型泛化能力的提高。同时基于亚洲电影数量的优势，使建立百万级数据库成为可能。

Description

一种亚洲人脸库智能建立方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种亚洲人脸库智能建立方法。

背景技术

近年来，安防行业掀起了一波人脸识别的热潮，众多厂商纷纷推出了相应的产品，一时间，人脸识别成为了行业的热点。据统计，在2017年的中国国际社会公共安全博览会上至少有40家企业展示了自己的人脸识别产品。其中既有大华股份，海康威视这样的大安防厂商，也有汉王、银晨这样的智能化厂商。同时，众多媒体也接连报道了人脸识别技术在学术界和工业界取得的巨大成果：比如之前，腾讯在LFW人脸识别数据集上取得了较高的识别率，刷新了年初谷歌的记录；阿里巴巴集团执行主席马云在德国展会上演示了人脸识别与支付宝的结合应用，“刷脸支付”将走向生活。这些振奋人心的消息似乎在清楚地告诉我们，人脸识别已经从“梦想”照进“现实”。

然而，人脸的识别率主要由算法和人脸数据集所决定。对于算法来讲，目前统一指向深度学习模型，而当前人脸识别率较高的几个巨头公司的人脸识别模型已然成型或是公开，这一点可以实施拿来主义精神。不幸的是当下公开的人脸数据库几乎都是西方数据集，由于存在种族差异，使得训练好的模型对西方数据集较为适应，而对亚洲人脸识别的性能偏低。而国内巨头公司自己的人脸数据库又不愿公开，导致即使使用相同的算法，也难以达到预期的目标。因此，如何建立自己的亚洲人脸数据库成为当下公司的核心问题。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种低成本、低人力的亚洲人脸库智能建立方法。

为实现上述技术目的，本发明采取的技术方案为：

一种亚洲人脸库智能建立方法，包括以下步骤：

选取数据源；

视频解码；

人脸检测；

去除模糊图片；

整理与分类清晰数据集。

为优化上述技术方案，采取的具体措施还包括：

上述的数据源为亚洲电影。

上述的视频解码采用抽帧方式，用于降低视频数据的时间复杂度和空间复杂度；所述人脸检测采用改进的yolov3-tiny人脸检测算法。

所述设计人脸检测模型基于yolov3-tiny设计理念进行改进，具体为：

由于目标检测类别数较少，顾将卷积层的数量设定为八层；

其次在前期训练时，将改进的yolov3-tiny按分类方式进行训练，即在特征层后面利用

softmax进行两分类，得到初始化模型；

最后利用训练好的分类模型，初始化改进的yolov3-tiny进行大规模的人脸检测训练。

上述的去除模糊图片运用Sobel算子的纹理检测机制，利用快速卷积函数实现对每张人脸的纹理检测。

上述的整理与分类清晰数据集包括设计人脸特征提取模型、人脸数据类间聚类、人脸数据类内聚类、人脸数据类间合并、人脸数据二次清洗以及人工命名；

所述设计人脸特征提取模型基于残差网络ResNet-18进行改进，具体为：

在conv4_x增加一个block，在conv5_x增加两个block；

将每层的滤波器数量减少一半；

最后一层的损失层采用Triplet loss设计；

运用CASIA-WebFace数据集进行模型的训练，实现人脸特征的提取。

上述的人脸数据类间聚类采用K-Means聚类方式，实现对视频数据人脸混合集的聚类区分，最终生成K个人脸收集箱，其中K取值40。

上述的人脸数据类内聚类具体为：采用ResNet_clustering聚类算法对K个人脸收集箱分别进行主体类别筛查，清洗前一轮错分数据，其中K的个数由算法自适应确定。

上述的人脸数据类间合并具体为：通过对每个收集箱中样本求均值特征的方法对不同收集箱之间的相似度做判断，根据相似度阈值大小进行合理的合并，从而将不同收集箱的同一类人脸进行合并。

上述的人脸数据二次清洗包括以下步骤：

(1)计算人脸收集箱中的均值特征；

(2)计算收集箱中每一张人脸特征与人脸均值特征之间的距离并按距离大小排序；

(3)根据排序提取中值索引对应的人脸特征，若为偶数求二者均值；

(4)计算收集箱中所有人脸特征与中值人脸特征的距离，剔除距离大于判断阈值的人脸数据。

上述的人工命名为通过百度识别对收集箱进行ID命名，使得后续的人脸收集箱得到有效的合并。

本发明具有以下有益效果：

本发明方法避免了过多的财力、物力、人力花费，其建立的人脸数据集大多是多姿态、多背景，因此有助于模型泛化能力的提高。同时基于亚洲电影数量的优势，建立百万级数据库轻而易举。

附图说明

图1是本发明的流程示意图；

图2是本发明实施例的流程示意图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

如图1和图2所示，本发明的一种亚洲人脸库智能建立方法，包括以下步骤：

S1：选取数据源；

本发明实施例选取的数据源为亚洲电影，原因如下：(1)亚洲属于电影高产区域。如中国、韩国、日本均属于高产电影国，使得数量上有保障；(2)电影中场景变换频繁、演员类别数较多、人脸的姿态变化丰富，使得其在质量上有保证。

S2：视频解码；

视频解码主要作用于人脸检测，由于视频中图片帧数过多，冗余量过大，为了降低时间复杂度和空间复杂度，本发明实施例采取抽帧的方式进行视频解码，以电影为单位，按一秒抽取一帧的方式对电影视频进行解码操作，平均一部电影可以获取约7200张图片，时间约为8分钟。

S3：人脸检测；

当前人脸检测算法较为成熟，通过比较SeetaFace人脸检测和Dlib人脸检测的测试结果表明:由于二者的检测机理不同，当图像的分辨率高于800时，Dlib人脸检测的性能呈下降趋势。而亚洲人脸库的数据源取自电影，其分辨率往往较高，使得SeetaFace检测稍占有优势。实验结果测试如下：

SeetaFace参数设置：最小人脸设置为40×40、人脸的置信度为：4.f、尺度金字塔缩放因子：0.8f、滑动窗口的步长为：4，基于以上参数设置实现对图片中所有人脸的收集工作，平均处理一部1080p电影数据，需要20分钟，显得处理速度较慢，顾采用改进的yolov3-tiny算法。

实施例中，所述人脸检测采用改进的yolov3-tiny人脸检测算法对抽取的每一帧图片进行人脸检测，其处理一部1080p电影数据，花费的时间降为原来的四分之一左右。

S4：去除模糊图片；

基于电影数据的属性，在视频中动作、姿态往往连续变化，使得采集到的人脸存在运动模糊现象。采用模糊判断机制对人脸图片进行逐一过滤筛选。

实施例中，所述去除模糊图片采用运用Sobel算子的纹理检测机制，利用快速卷积函数实现对每张人脸的纹理检测，具体如下：

在检测之前将人脸图像A，归一化成大小为：150×150，以实现统一化判断标准。判断阈值设置为Tm，小于该阈值的人脸图像直接移除到模糊数据集中去以备后续开发，剩下基本为清晰度较高的人脸数据集。具体公式如下：

其中G _x,G _y分别代表横向以及纵向边缘检测图的图像灰度值。

图像中每一个像素横向以及纵向通过如下公式进行结合：

通常，为了提高效率采用不开平方的近似值即：

|G|＝|G _x|+|G _y| (2)

图像边缘二值化处理公式如下：

其中，T＝110为指定的阈值。

模糊度计算公式如下：

其中，FU为人脸图像的模糊度值，值越大图像的清晰度越高，若FU＜Tm则认为模糊人脸图像，直接剔除，相反保留。

S5：整理与分类清晰数据集。

实施例中，所述整理与分类清晰数据集包括设计人脸特征提取模型、人脸数据类间聚类、人脸数据类内聚类、人脸数据类间合并、人脸数据二次清洗以及人工命名；

所述设计人脸特征提取模型：

人脸特征提取是数据整理分类的关键，但是基于人脸数据库建立的需求，其对人脸的识别率要求不高。因此本发明实施例设计的深度卷积网络为残差学习网络(Residual Network)，包含24个卷积层。最后一层的损失层采用Triplet loss。训练数据集则采用公开的CASIA-WebFace数据集，其最终在LFW上测试的准确率为95.43％，对于人脸的分类来说足以。

具体地，人脸特征提取模型由残差网络ResNet-18进行改进而来，实现方法如下：

分别在conv4_x增加一个block，在conv5_x增加两个block，并且将每层的滤波器数量减少一半，损失层采用Triplet loss损失函数，输入的是150×150的三通道人脸图像。

该网络中卷积层的核大小为3×3，初始化方法为MSRA；第一个池化层核大小3×3，步长为2；紧接着三个池化层核大小为2×2，步长为2，且都采用最大池化，最后一个是全局平均池化层，核大小2×2，步长为2，最终输出的特征长度为128。模型训练采用CASIA-WebFace数据集，其最终在LFW上测试的准确率为95.43％。损失函数如下：

其中，

分别为正负样本的特征，α边缘超参数主要控制类内距和类间距。

所述人脸数据类间聚类：

模糊图像清洗后的数据集依旧是混合的人脸收集箱，如何将相同的人脸聚集到一起，不同的人脸分离开是此步骤的关键。本发明实施例采用特制的深度卷积网络对收集箱中的所有人脸进行特征提取，并采用K-Means的策略对所有人脸特征进行聚类操作，由于人脸的聚集以一部电影为一个单位，其K取值为40(经验值)。

具体的，基于一部电影的人脸图片集合约N张，采用ResNet_face模型对整个集合的人脸做特征提取，特征维度为128，即生成(N,128)的特征矩阵。随后将其进行K-Means聚类，其中K取值为40，最终生成40个人脸聚类的收集箱。K-Means成本函数如下：

其中，f _i为人脸的特征，μ _k为中心簇的特征。

所述人脸数据类内聚类：

K-Means聚类只是实现集合体不同类别的整体区分，或者说只是保证大多数相似的个体尽量聚集到同一个收集箱中即对应的40个收集箱。然而，每个类别的收集箱中人脸数据量较大、复杂度较高，关键依旧存在错分现象。为了摒弃这一现象，类内聚类必不可少。因此，本发明实施例采用ResNet_clustering聚类算法实现类内聚类。该过程中主要采用ResNet网络对收集箱中的人脸进行特征提取，同时以收集箱为单位，分别实现K-Means类内聚类。此次聚类过程中聚类中心K的大小不指定，由算法实现，最终过滤出包含样本数最多的簇作为收集箱的主体类别。

实施例如下：基于类间聚类得到的40个人脸收集箱，分别对每个人脸收集箱进行聚类，而聚类的中心由算法自适应确定，最终每个收集箱生成M个簇。对M个簇进行样本数量筛选，样本数最多的簇作为对应收集箱的主体类别。其中自适应算法采用的是二分K均值算法，即在聚类之前选出距离最远的两个样本，作为初始的两个聚类中心，之后从在这些簇中选取一个继续分裂，以此类推，当簇中最远的两个样本之间的距离小于阈值时即停止分裂。

所述人脸数据类间合并：

经过以上三轮操作，一部电影的人脸数据集基本成型。但是，由于电影中主角出场的次数较为频繁，外观、姿态、场景变化较大，因此极易将其聚类到不同的类别中，使得类间合并不可或缺。本发明实施例中该步骤的实现算法为：通过对每个收集箱中样本求均值特征的方法对不同收集箱之间的相似度做判断，根据相似度阈值大小进行合理的合并。

实施例如下：基于类内聚类得到的40个主体人脸收集箱，分别对每个收集箱中的人脸做特征提取，并求取均值特征即，mean_feature ₁,mean_feature ₂,…mean_feature ₄₀。随后对40个均值特征两两做欧氏距离，当距离小于dis时，将二者均值特征对应的收集箱进行合并。均值特征公式如下：

其中，i指的对应的收集箱，表示第i个收集箱中第n个样本的特征，f _i ⁿ指的是收集箱中样本的总数。

其中距离公式如下：

其中，D _ij指的是收集箱i与收集箱j之间的距离，128指的是特征的维度。

当D _ij≤dis，则将收集箱i与收集箱j进行合并，且dis＝0.31为指定阈值。

所述人脸数据二次清洗：

为了进一步保证数据集的干净程度，二次清洗是在前面的基础上对每一个收集箱进行类似的中值滤波操作。根据中值特征与各样本特征之间的距离大小进行合理的筛选。

具体的，基于类间合并得到的P个人脸收集箱进行二次清洗，采用的策略类似于中值滤波，其算法如下：

(1)计算人脸收集箱中的均值特征，采用公式(7)；

(2)计算收集箱中每一张人脸特征与人脸均值特征之间的距离并按距离大小排序，其中距离公式类似公式(8)；

(4)计算收集箱中所有人脸特征与中值人脸特征的距离，若距离大于0.41时(经验值)直接剔除。

对所有的收集箱分别完成以上四个步骤。

所述人工命名：

基于以上所有步骤，一部电影的人脸库整理分类基本完成，但是收集箱的ID都为虚拟的需要人工命名。实现的策略：通过随机抽取收集箱中的一张图片，运用百度识图的工具进行人脸识别，根据识别的具体结果给对应人脸收集箱命名。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

一种亚洲人脸库智能建立方法，其特征在于，包括以下步骤：

选取数据源；

视频解码；

人脸检测；

去除模糊图片；

整理与分类清晰数据集。
根据权利要求1所述的一种亚洲人脸库智能建立方法，其特征在于，所述数据源为亚洲电影。
根据权利要求1所述的一种亚洲人脸库智能建立方法，其特征在于，所述视频解码采用抽帧方式，用于降低视频数据的时间复杂度和空间复杂度；所述人脸检测采用改进的yolov3-tiny进行人脸检测模型设计，具体如下：

所述人脸检测模型，其卷积层的数量为八层；

在前期训练时，将改进的yolov3-tiny按分类方式进行训练，即在特征层后面利用softmax进行分类，得到初始化模型；

最后利用训练好的初始化模型，初始化改进的yolov3-tiny进行大规模的人脸检测训练。
根据权利要求1所述的一种亚洲人脸库智能建立方法，其特征在于，所述去除模糊图片运用Sobel算子的纹理检测机制，利用快速卷积函数实现对每张人脸的纹理检测。
根据权利要求1所述的一种亚洲人脸库智能建立方法，其特征在于，所述整理与分类清晰数据集包括设计人脸特征提取模型、人脸数据类间聚类、人脸数据类内聚类、人脸数据类间合并、人脸数据二次清洗以及人工命名；

所述设计人脸特征提取模型基于残差网络ResNet-18进行改进，具体为：

在conv4_x增加一个block，在conv5_x增加两个block；

每层的滤波器数量减少一半；

最后一层的损失层采用Triplet loss设计；

运用CASIA-WebFace数据集进行模型的训练，实现人脸特征的提取。
根据权利要求5所述的一种亚洲人脸库智能建立方法，其特征在于，所述人脸数据类间聚类采用K-Means聚类方式，实现对视频数据人脸混合集的聚类区分，最终生成K个人脸收集箱，其中K取值40。
根据权利要求5所述的一种亚洲人脸库智能建立方法，其特征在于，所述人脸数据类内聚类具体为：采用ResNet_clustering聚类算法对K个人脸收集箱分别进行主体类别筛查，清洗前一轮错分数据，其中K的个数由算法自适应确定。
根据权利要求5所述的一种亚洲人脸库智能建立方法，其特征在于，所述人脸数据类间合并具体为：通过对每个收集箱中样本求均值特征的方法对不同收集箱之间的相似度做判断，根据相似度阈值大小进行合理的合并，从而将不同收集箱的同一类人脸进行合并。
根据权利要求5所述的一种亚洲人脸库智能建立方法，其特征在于，所述人脸数据二次清洗包括以下步骤：

(1)计算人脸收集箱中的均值特征；

(2)计算收集箱中每一张人脸特征与人脸均值特征之间的距离并按距离大小排序；

(3)根据排序提取中值索引对应的人脸特征，若为偶数求二者均值；

(4)计算收集箱中所有人脸特征与中值人脸特征的距离，剔除距离大于判断阈值的人脸数据。
根据权利要求5所述的一种亚洲人脸库智能建立方法，其特征在于，所述人工命名为通过百度识别对收集箱进行ID命名，使得后续的人脸收集箱得到有效的合并。