WO2020029406A1

WO2020029406A1 - 人脸情绪识别方法、装置、计算机设备及存储介质

Info

Publication number: WO2020029406A1
Application number: PCT/CN2018/108251
Authority: WO
Inventors: 吴壮伟
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-08-07
Filing date: 2018-09-28
Publication date: 2020-02-13
Also published as: CN109190487A

Abstract

一种人脸情绪识别方法、装置、计算机设备及存储介质。该方法包括获取视频图像中每帧图像的能量特征向量；计算每个能量特征向量与标准能量特征向量之间的欧式距离值；根据欧式距离值筛选出关键帧图像；识别每个关键帧图像中的人脸情绪；根据所有关键帧图像中的人脸情绪获取视频图像对应的人脸情绪以完成人脸情绪的识别。

Description

人脸情绪识别方法、装置、计算机设备及存储介质

本申请要求于2018年8月7日提交中国专利局、申请号为201810892915.6、发明名称为“人脸情绪识别方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及一种人脸情绪识别方法、装置、计算机设备及存储介质。

背景技术

在人们的日常生活中，通过语言来传递的信息占7％，通过声音来传递的信息占38％，而通过面部表情来传递的信息则达到55％。由此可见人脸表情是人类交流的重要载体和非语言交流的一种重要方式，它可以很好地表达出人类的情感状态。

一般情况下，人类的情感状态会在一定程度上影响人类的行为活动。譬如，当司机处于愤怒、悲伤、焦虑等负面情绪时，就很容易忽略周围的路况、对应急事物的反应速度降低，导致交通事故发生率较高。基于这一点，可以通过对人脸情绪进行识别来指导司机等人员的行为。譬如，当通过对司机人脸情绪进行识别时，若识别出司机处于负面情绪，可以提示司机调整情绪状态以避免发生交通事故。因此，如何准确地识别出人脸情绪成为亟待解决的技术问题。

发明内容

本申请提供了一种人脸情绪识别方法、装置、计算机设备及存储介质，以准确地识别人脸情绪。

第一方面，本申请提供了一种人脸情绪识别方法，其包括：获取实时采集的视频图像；对所述视频图像中的所有帧图像进行小波变换以得到对应的能量特征向量；获取标准能量特征向量，并根据图像差分运算方法计算每个所述能量特征向量与所述标准能量特征向量之间的欧式距离值；判断多个所述欧式距离值中是否存在超过预设阈值的欧式距离值；若多个所述欧式距离值中存在超过所述预设阈值的欧式距离值，将超过所述预设阈值的欧式距离值的能量特征向量对应的图像作为关键帧图像，其中，所述关键帧图像的个数为至少一个；获取预先存储的情绪识别模型，并基于所述情绪识别模型识别每个所述关键帧图像中的人脸情绪；以及根据所有所述关键帧图像中的人脸情绪获取所述视频图像对应的人脸情绪，以完成人脸情绪的识别。

第二方面，本申请提供了一种人脸情绪识别装置，其包括：获取单元，用于获取实时采集的视频图像；变换单元，用于对所述视频图像中的所有帧图像进行小波变换以得到对应的能量特征向量；距离计算单元，用于获取标准能量特征向量，并根据图像差分运算方法计算每个所述能量特征向量与所述标准能量特征向量之间的欧式距离值；距离判断单元，用于判断多个所述欧式距离值中是否存在超过预设阈值的欧式距离值；关键帧获取单元，用于若多个所述欧式距离值中存在超过所述预设阈值的欧式距离值，将超过所述预设阈值的欧式距离值的能量特征向量对应的图像作为关键帧图像，其中，所述关键帧图像的个数为至少一个；情绪识别单元，用于获取预先存储的情绪识别模型，并基于所述情绪识别模型识别每个所述关键帧图像中的人脸情绪；以及情绪获取单元，用于根据所有所述关键帧图像中的人脸情绪获取所述视频图像对应的人脸情绪，以完成人脸情绪的识别。

第三方面，本申请又提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面提供的所述的人脸情绪识别方法。

第四方面，本申请还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行第一方面提供的所述的人脸情绪识别方法。

本申请提供一种人脸情绪识别方法、装置、计算机设备及存储介质。该方法可以准确地识别出人脸情绪。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种人脸情绪识别方法的示意流程图；

图2至图6均为本申请实施例提供的一种人脸情绪识别方法的另一示意流程图；

图7至图8均为本申请实施例提供的一种人脸情绪识别方法的具体示意流程图；

图9为本申请实施例提供的一种人脸情绪识别方法的另一示意流程图；

图10为本申请实施例提供的一种人脸情绪识别装置的示意性框图；

图11至图15均为本申请实施例提供的一种人脸情绪识别装置的另一示意性框图；

图16为本申请实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1是本申请实施例提供的一种人脸情绪识别方法的示意流程图。该人脸情绪识别方法可以应用于人脸情绪识别系统，该人脸情绪识别系统可以安装于手机、汽车等具备摄像功能的设备中。该人脸情绪识别系统可以作为独立的系统存在于设备中，也可以嵌入至设备的其他系统中。譬如，人脸情绪识别系统可内嵌至车驾驶系统中，以识别司机的情绪。又譬如，该人脸情绪识别系统可内嵌至手机的某个应用程序中，以辅助该应用程序实现人脸情绪识别功能等。如图1所示，该人脸情绪识别方法包括步骤S101～S107。

S101、获取实时采集的视频图像。

当用户开启人脸情绪识别系统以进行人脸情绪识别时，该人脸情绪识别系统所在的设备调用摄像头以对用户进行实时的图像采集。该设备通过摄像头获取实时采集的一定时间段内的视频图像。譬如，获取实时采集的10秒内的视频图像。可以理解的是，该视频图像将包括多帧图像。

由于该人脸情绪识别方法在进行人脸情绪识别时，需要使用到中性表情图像、标准能量特征向量、情绪识别模型等信息，因此，在用户使用该人脸情绪识别系统进行人脸情绪识别之前，即，在步骤S101之前，人脸情绪识别系统还需执行以下操作：

在一实施例中，如图2所示，图2为本申请实施例提供的一种人脸情绪识别方法的另一示意流程图。在步骤S101之前，还包括步骤S101a、S101b和S101c。

S101a、获取中性表情图像。

S101b、对所述中性表情图像进行小波变换以得到对应的标准能量特征向量。

S101c、存储所述中性表情图像和标准能量特征向量。

在图2所示的实施例中，在进行人脸情绪识别之前，需要预先准备好中性表情图像和标准能量特征向量。其中，该中性表情可以为用户在较为平稳的情绪下的面部表情。譬如，用户在拍摄证件照片时一般采用的表情可理解为中性表情。

当用户首次使用该人脸情绪识别系统时，设备可以发出语音提示或文字提示等以提示用户做好中性表情。在用户做好中性表情后，通过摄像头拍摄用户的中性表情的图像以获取到中性表情图像。

当然，也可以通过其他方式获取到中性表情图像。譬如，当用户首次使用该人脸情绪识别系统时，获取用户输入的证件照等中性表情图像。也就是说，用户将以往拍过的中性表情的图像传入人脸情绪识别系统所在的设备中作为中性表情图像。又譬如，当用户首次使用该人脸情绪识别系统时，获取用户输入的身份信息，然后根据身份信息从后台服务器中获取身份信息对应的证件照片作为中性表情图像，其中，该后台服务器可以为车载系统的后台服务器、手机应用程序的后台服务器、人脸情绪识别系统的后台服务器等等，该后台服务器可以存储用户的身份信息对应的证件照片，也可以在获取到身份信息后，调用第三方服务器或通过网络爬虫等技术从网络数据中获取用户的身份信息对应的证件照片等。在此不对中性表情图像的获取方式做限制。

当获取到中性表情图像后，对中性表情图像采用Gabor小波变换等方式进行小波变换以得到对应的标准能量特征向量，并存储该中性表情图像和对应的标准能量特征向量，以方便用户在使用该人脸情绪识别系统进行人脸情绪识别时，可以调用该中性表情图像和对应的标准能量特征向量进行人脸情绪识别。

在一实施例中，如图3所示，图3为本申请实施例提供的一种人脸情绪识别方法的另一示意流程图。在步骤S101之前，还包括步骤S101d和S101e。

S101d、获取情绪训练样本图像集，其中，所述情绪训练样本图像集包括多个情绪训练样本图像和所述情绪训练样本图像中人脸的情绪标签。

S101e、将所述情绪训练样本图像和对应的情绪标签输入至卷积神经网络模型中进行机器学习以得到情绪识别模型，并存储所述情绪识别模型。

在图3所示的实施例中，在进行人脸情绪识别之前，需要预先准备好情绪识别模型。具体地，人脸情绪识别系统需要获取情绪训练样本图像集。该情绪训练样本图像集包括大量的情绪训练样本图像和每个情绪训练样本图像对应的人脸的情绪标签。需要说明的是，每张情绪训练样本图像中人脸的情绪标签可以通过人工方式进行标记，也可以通过其他方法进行标记，在此不做具体限制。

在获得情绪训练样本图像集后，将情绪训练样本图像和对应的人脸的情绪标签输入至卷积神经网络(英文全称：Convolutional Neural Networks，简称：CNN)模型中进行机器学习，从而获得情绪识别模型，再将情绪识别模型存储在人脸情绪识别系统所在的设备中，以方便后续使用人脸情绪识别系统时，可以调用该情绪识别模型进行情绪识别。

在一实施例中，当用户开启人脸情绪识别系统以进行人脸情绪识别时，若人脸情绪识别系统所在的设备的摄像头不能很好地对用户进行实时的图像采集，譬如，摄像头的角度不对，使得实时采集的视频图像中没有采集到用户脸部信息，或者用户脸部信息只采集到一半，这样的视频图像在后续进行人脸情绪识别时，势必会降低人脸情绪识别的准确率。因此，为了确保后续在进行人脸情绪识别时，可以拍摄到较好的人脸的视频图像，提高后续人脸情绪识别的准确性，在获取实时采集的视频图像之前，还需要对摄像头进行校准的工作。

具体地，如图4所示，图4为本申请实施例提供的一种人脸情绪识别方法的另一示意流程图。在步骤S101之前，还包括步骤S101f、S101g、S101h和S101j。

S101f、获取实时采集的校准视频图像。

S101g、从所述校准视频图像中的多帧图像中按照预设规则抽取预设帧数的图像作为校准图像。

S101h、基于预先存储的人脸检测识别模型，判断每帧所述校准图像中是否均存在人脸信息。

S101j、若至少一帧所述校准图像中不存在人脸信息，发出提示信息以使得用户根据所述提示信息调整摄像头的角度，并在调整好所述摄像头的角度后，返回执行S101f的步骤，直至使得每帧所述校准图像中均存在人脸信息为止。

在图4所示的实施例中，人脸情绪识别系统需要获取实时采集的一段校准视频图像。可以理解的是，该校准视频图像包括多帧图像。然后按照预设抽取规则从校准视频图像的多帧图像中抽取出预设帧数的图像作为校准图像。

在一实施例中，该预设抽取规则可以为每间隔1秒钟抽取1张图像作为校准图像。预设帧数可以设置为100，该预设帧数可以根据实际需求进行设置，另外，该预设抽取规则也可以不局限于上述的规则，可以根据实际需求进行设置，在此不做限制。在获得多帧校准图像后，获取预先存储的人脸检测识别模型，该人脸检测识别模型是用来识别校准图像中是否存在人脸信息的。

若通过人脸检测识别模型判断出每个校准图像中均存在人脸信息，说明当前摄像头的角度良好，可以拍摄较好的人脸的视频图像，此时，可以执行步骤S101，即执行获取实时采集的视频图像的步骤。

若至少有一帧校准图像中不存在人脸信息，说明当前摄像头的角度不好，需要进行调整，此时可以通过语音方或显示方式等发出提示信息，以使得用户根据提示信息重新调整摄像头的角度，并在调整好摄像头角度后，重新返回执行S101f的步骤，即返回执行获取实时采集的校准视频图像的步骤，直至使得每帧所述校准图像中均存在人脸信息为止，从而完成对摄像头的角度校准。

由于在进行摄像头的角度校准时，需要使用到人脸检测识别模型，因此，该人脸检测识别模型需要预先生成并存储在人脸情绪识别系统所在的设备中。在一实施例中，如图5所示，图5为本申请实施例提供的一种人脸情绪识别方法的另一示意流程图。在步骤S101之前，还包括步骤S101k、S101m、S101n、和S101p。

S101k、获取训练样本图像集，其中，所述训练样本图像集包括多个训练样本图像和用于表征所述训练样本图像中是否存在人脸信息的人脸标签。

S101m、获取所述训练样本图像的人脸哈尔特征向量。

S101n、将所述训练样本图像对应的人脸哈尔特征向量以及人脸标签输入至基于决策树模型的Adaboost提升模型中进行训练，以得到人脸检测识别模型。

S101p、存储所述人脸检测识别模型。

在图5所示的实施例中，在进行人脸情绪识别之前，需要预先准备好人脸检测识别模型，以便于在进行摄像头角度校准时使用。具体地，首先获取训练样本图像集，该训练样本图像集中包括多个训练样本图像，以及每个训练样本图像对应的人脸标签。该人脸标签用于表征对应的人脸样本图像中是否存在人脸信息的。然后，对每个训练样本图像进行人脸的哈尔特征提取，以获取到每个训练样本图像对应的人脸哈尔特征向量。再将每个训练样本图像对应的人脸哈尔特征向量以及对应的人脸标签输入至基于决策树模型的Adaboost提升模型中进行训练，这就可以得到人脸检测识别模型。最后将该人脸检测识别模型存储在人脸情绪识别系统所在的设备中。

S102、对所述视频图像中的所有帧图像进行小波变换以得到对应的能量特征向量。

在步骤S101获得视频图像后，需要对视频图像中的所有帧图像进行小波变换，以获取到每帧图像对应的能量特征向量。在一实施例中，该小波变换可例如为Gabor小波变换，当然，该小波变换还可以采用其他方法，在此不做限制。

S103、获取标准能量特征向量，并根据图像差分运算方法计算每个所述能量特征向量与所述标准能量特征向量之间的欧式距离值。

该标准能量特征向量为预先采集的用户的中性表情图像进行小波变换后的能量特征向量。在本实施例中，该标准能量特征向量预先存储于人脸情绪识别系统所在的设备中。由于设备中预先存储了该标准能量特征向量，因此，获取标准能量特征向量，具体为获取预先存储的标准能量特征向量。

在获得标准能量特征向量后，将根据图像差分运算方法计算步骤S102中每个能量特征向量与标准能量特征向量之间的欧式距离值。

需要说明的是，在本实施例中，由于该标准能量特征向量是预先存储于人脸情绪识别系统所在的设备中，这样在步骤S103中就可以直接调用该标准能量特征向量，从而减小对人脸情绪识别系统所在的设备的CPU资源的占用，降低计算时间等。当然，在其他实施例中，人脸情绪识别系统所在的设备也可以只预先存储中性表情图像，这样，在步骤S103获取标准能量特征向量时，先获取预先存储的中性表情图像，然后再对中性表情图像进行小波变换以得到标准能量特征向量，在此不对计算标准能量特征向量的时间做限制。

S104、判断多个所述欧式距离值中是否存在超过预设阈值的欧式距离值。

在步骤S103计算出每个能量特征向量与标准能量特征向量之间的欧式距离值后，会得到多个欧式距离值，然后判断多个欧式距离值中是否存在超过预设阈值的欧式距离值。若存在超过预设阈值的欧式距离值，说明视频图像中的人脸表情与中性表情之间的差距较大，此时执行步骤S105。

在一实施例中，如图6所示，图6为本申请实施例提供的一种人脸情绪识别方法的另一示意流程图。当步骤S104判断出不存在超过预设阈值的欧式距离值时，说明当前的视频图像中人脸表情与中性表情差距较小，此时将执行步骤S108，即将所述标准能量特征向量对应的中性表情图像作为所述关键帧图像。然后再执行后续的步骤S106和S107等。当然，在其他实施例中，若步骤S104判断出不存在超过预设阈值的欧式距离值，也可以直接设置视频图像对应的人脸情绪为中性情绪，从而完成人脸情绪的识别。

S105、若多个所述欧式距离值中存在超过所述预设阈值的欧式距离值，将超过所述预设阈值的欧式距离值的能量特征向量对应的图像作为关键帧图像，其中，所述关键帧图像的个数为至少一个。

在本实施例中，超过预设阈值的欧式距离值的个数可以为一个，也可以为两个或更多个，此时关键帧图像的个数就为至少一个。

S106、获取预先存储的情绪识别模型，并基于所述情绪识别模型识别每个所述关键帧图像中的人脸情绪。

在本实施例中，该情绪识别模型为预先进行机器学习训练得到的用于识别人脸情绪的模型，该情绪识别模块可例如为卷积神经网络模型。人脸情绪识别系统所在的设备先获取该情绪识别模型，然后将关键帧图像作为输入值输入至情绪识别模型中，该情绪识别模型对关键帧图像进行情绪识别，以输出每个关键帧图像中的人脸情绪。

具体地，在一实施例中，如图7所示，图7为本申请实施例提供的一种人脸情绪识别方法的具体示意流程图。该步骤S106包括步骤S1061至S1063。

S1061、依次将每个所述关键帧图像作为输入值输入至所述情绪识别模型中。

S1062、获取所述情绪识别模型输出的每个所述关键帧图像在多种预设情绪上的概率值。

S1063、将每个所述关键帧图像对应的多个概率值中较大的概率值对应的情绪作为所述关键帧图像中的人脸情绪。

在图7所示的实施例中，依次将每个关键帧图像作为输入值输入至情绪识别模型中，然后情绪识别模型会输出每个关键帧图像在多种预设情绪上的概率值。譬如，多种预设情绪包括害怕、愤怒、悲哀、厌恶、高兴、惊奇和中性等7种预设的情绪。情绪识别模型会识别出每个关键帧图像中的人脸情绪在这7种预设表情上的概率，如，情绪识别模型识别出某个关键帧图像中的人脸情绪在上述7种预设情绪上的概率依次为10％、70％、15％、5％、0％、0％和0％。

然后，将每个关键帧图像对应的多个概率值中较大的概率值对应的情绪作为该关键帧图像中的人脸情绪。譬如，将概率值最大的70％的愤怒情绪作为某个关键帧图像对应的人脸情绪。

S107、根据所有所述关键帧图像中的人脸情绪获取所述视频图像对应的人脸情绪，以完成人脸情绪的识别。

具体地，在一实施例中，如图8所示，图8为本申请实施例提供的一种人脸情绪识别方法的具体示意流程图。该步骤S107包括步骤S1071至S1072。

S1071、对所有所述关键帧图像中的人脸情绪进行概率统计。

S1072、将出现概率较大的人脸情绪作为所述视频图像对应的人脸情绪，以完成人脸情绪的识别。

譬如，关键帧图像的个数为10个，通过情绪识别模型识别出8个关键帧图像的人脸情绪为愤怒，1个关键帧图像的人脸情绪为厌恶，一个关键帧图像的人脸情绪为害怕，通过对10个关键帧图像的人脸情绪进行概率统计，可以得出愤怒的人脸情绪出现的概率为80％，厌恶的人脸情绪出现的概率为10％，害怕的人脸情绪出现的概率为10％。这样就可以将出现概率较大的愤怒情绪作为整段视频图像对应的人脸情绪，从而完成在视频图像对应的时间段内人脸情绪的识别。

在一实施例中，如图9所示，图9为本申请实施例提供的一种人脸情绪识别方法的另一示意流程图。在步骤S107之后，还包括步骤S109至S112。

S109、将所述视频图像对应的时间段以及所述视频图像对应的人脸情绪记录至情绪列表中。

S110、根据所述情绪列表，统计预设时间段内的所有所述视频图像对应的人脸情绪中属于预设情绪类的人脸情绪的概率。

S111、判断属于预设情绪类的人脸情绪的概率是否超过预设概率值。

S112、若属于所述预设情绪类的人脸情绪的概率超过所述预设概率值，获取预设提示方式和预设提示信息，并根据所述预设提示方式向用户提示所述预设提示信息。

譬如，假设预设时间段为2分钟，预设情绪类为负面情绪类，该负面情绪类所包括的人脸情绪为害怕、愤怒、悲哀和厌恶四种。同时，假设情绪列表中2分钟内的视频图像的个数为100个，那么就会有100个人脸情绪，然后统计这100个人脸情绪中属于负面情绪类的人脸情绪所占的概率，比如概率为99％，当属于负面情绪类的人脸情绪所占的概率超过预设概率值80％时，说明用户在这2分钟内一直处于负面情绪中，此时将获取预设提示方式和预设提示信息，并根据预设提示方式向用户提示预设提示信息。其中，该预设提示方式可例如为语音提示方式、文字显示方式、语音提示与震动组合方式等等。该预设提示信息可例如为“您目前的情绪较低落，请注意安全驾驶”等。

本实施例中的人脸情绪识别方法，可以准确地识别出人脸情绪。

本申请实施例还提供一种人脸情绪识别装置，该人脸情绪识别装置用于执行前述任一项人脸情绪识别方法。具体地，请参阅图10，图10是本申请实施例提供的一种人脸情绪识别装置的示意性框图。人脸情绪识别装置300可以安装于汽车、手机等设备中。

如图10所示，人脸情绪识别装置300包括获取单元301、变换单元302、距离计算单元303、距离判断单元304、关键帧获取单元305、情绪识别单元306和情绪获取单元307。

获取单元301，用于获取实时采集的视频图像。

在一实施例中，如图11所示，图11为本申请实施例提供的一种人脸情绪识别装置的另一示意性框图。该人脸情绪识别装置300还包括存储单元308。

获取单元301，还用于获取中性表情图像。

变换单元302，还用于对所述中性表情图像进行小波变换以得到对应的标准能量特征向量。

存储单元308，用于存储所述中性表情图像和标准能量特征向量。

在一实施例中，如图12所示，图12为本申请实施例提供的一种人脸情绪识别装置的另一示意性框图。该人脸情绪识别装置300还包括情绪模型训练单元309。

获取单元301，还用于获取情绪训练样本图像集，其中，所述情绪训练样本图像集包括多个情绪训练样本图像和所述情绪训练样本图像中人脸的情绪标签。

情绪模型训练单元309，用于将所述情绪训练样本图像和对应的情绪标签输入至卷积神经网络模型中进行机器学习以得到情绪识别模型，并存储所述情绪识别模型。

在一实施例中，如图13所示，图13为本申请实施例提供的一种人脸情绪识别装置的另一示意性框图。该人脸情绪识别装置300还包括抽取单元310、人脸判断单元311和提示单元312。

获取单元301，还用于获取实时采集的校准视频图像。

抽取单元310，用于从所述校准视频图像中的多帧图像中按照预设规则抽取预设帧数的图像作为校准图像。

人脸判断单元311，用于基于预先存储的人脸检测识别模型，判断每帧所述校准图像中是否均存在人脸信息。

获取单元301，还用于若每帧所述校准图像中均存在人脸信息，获取实时采集的视频图像。

提示单元312，用于若至少一帧所述校准图像中不存在人脸信息，发出提示信息以使得用户根据所述提示信息调整摄像头的角度，并在调整好所述摄像头的角度后，获取单元301返回执行获取实时采集的校准视频图像的步骤，直至使得每帧所述校准图像中均存在人脸信息为止。

相应地，在一实施例中，如图14所示，图14为本申请实施例提供的一种人脸情绪识别装置的另一示意性框图。该人脸情绪识别装置300还包括向量获取单元313和人脸模型训练单元314。

获取单元301，还用于获取训练样本图像集，其中，所述训练样本图像集包括多个训练样本图像和用于表征所述训练样本图像中是否存在人脸信息的人脸标签。

向量获取单元313，用于获取所述训练样本图像的人脸哈尔特征向量。

人脸模型训练单元314，用于将所述训练样本图像对应的人脸哈尔特征向量以及人脸标签输入至基于决策树模型的Adaboost提升模型中进行训练，以得到人脸检测识别模型，以及存储所述人脸检测识别模型。

变换单元302，用于对所述视频图像中的所有帧图像进行小波变换以得到对应的能量特征向量。

距离计算单元303，用于获取标准能量特征向量，并根据图像差分运算方法计算每个所述能量特征向量与所述标准能量特征向量之间的欧式距离值。

距离判断单元304，用于判断多个所述欧式距离值中是否存在超过预设阈值的欧式距离值。

关键帧获取单元305，用于若多个所述欧式距离值中存在超过所述预设阈值的欧式距离值，将超过所述预设阈值的欧式距离值的能量特征向量对应的图像作为关键帧图像，其中，所述关键帧图像的个数为至少一个。

在一实施例中，关键帧获取单元305，还用于若多个所述欧式距离值中不存在超过所述预设阈值的欧式距离值，将所述标准能量特征向量对应的中性表情图像作为所述关键帧图像。

情绪识别单元306，用于获取预先存储的情绪识别模型，并基于所述情绪识别模型识别每个所述关键帧图像中的人脸情绪。

具体地，在一实施例中，该情绪识别单元306具体用于：依次将每个所述关键帧图像作为输入值输入至所述情绪识别模型中；获取所述情绪识别模型输出的每个所述关键帧图像在多种预设情绪上的概率值；以及将每个所述关键帧图像对应的多个概率值中较大的概率值对应的情绪作为所述关键帧图像中的人脸情绪。

情绪获取单元307，用于根据所有所述关键帧图像中的人脸情绪获取所述视频图像对应的人脸情绪，以完成人脸情绪的识别。

具体地，在一实施例中，该情绪获取单元307具体用于：对所有所述关键帧图像中的人脸情绪进行概率统计；以及将出现概率较大的人脸情绪作为所述视频图像对应的人脸情绪，以完成人脸情绪的识别。

在一实施例中，如图15所示，图15为本申请实施例提供的一种人脸情绪识别装置的另一示意性框图。该人脸情绪识别装置300还包括记录单元315、统计单元316、概率判断单元317和信息提示单元318。

记录单元315，用于将所述视频图像对应的时间段以及所述视频图像对应的人脸情绪记录至情绪列表中。

统计单元316，用于根据所述情绪列表，统计预设时间段内的所有所述视频图像对应的人脸情绪中属于预设情绪类的人脸情绪的概率。

概率判断单元317，用于判断属于预设情绪类的人脸情绪的概率是否超过预设概率值。

信息提示单元318，用于若属于所述预设情绪类的人脸情绪的概率超过所述预设概率值，获取预设提示方式和预设提示信息，并根据所述预设提示方式向用户提示所述预设提示信息。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述人脸情绪识别装置300和各单元的具体实现过程，可以参考前述人脸情绪识别方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

本实施例中的人脸情绪识别装置300可以准确地识别出人脸情绪。

上述人脸情绪识别装置可以实现为一种计算机程序的形式，该计算机程序可以在如图16所示的计算机设备上运行。

请参阅图16，图16是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是手机等终端，也可以是应用于汽车中的设备。

参阅图16，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种人脸情绪识别方法。该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种人脸情绪识别方法。该网络接口505用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备 500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：获取实时采集的视频图像；对所述视频图像中的所有帧图像进行小波变换以得到对应的能量特征向量；获取标准能量特征向量，并根据图像差分运算方法计算每个所述能量特征向量与所述标准能量特征向量之间的欧式距离值；判断多个所述欧式距离值中是否存在超过预设阈值的欧式距离值；若多个所述欧式距离值中存在超过所述预设阈值的欧式距离值，将超过所述预设阈值的欧式距离值的能量特征向量对应的图像作为关键帧图像，其中，所述关键帧图像的个数为至少一个；获取预先存储的情绪识别模型，并基于所述情绪识别模型识别每个所述关键帧图像中的人脸情绪；以及根据所有所述关键帧图像中的人脸情绪获取所述视频图像对应的人脸情绪，以完成人脸情绪的识别。

在一实施例中，处理器502在执行获取实时采集的视频图像之前，还实现如下功能：获取中性表情图像；对所述中性表情图像进行小波变换以得到对应的标准能量特征向量；以及存储所述中性表情图像和标准能量特征向量。

在一实施例中，处理器502在执行获取实时采集的视频图像之前，还实现如下功能：获取情绪训练样本图像集，其中，所述情绪训练样本图像集包括多个情绪训练样本图像和所述情绪训练样本图像中人脸的情绪标签；以及将所述情绪训练样本图像和对应的情绪标签输入至卷积神经网络模型中进行机器学习以得到情绪识别模型，并存储所述情绪识别模型。

在一实施例中，处理器502在执行获取实时采集的视频图像之前，还实现如下功能：获取训练样本图像集，其中，所述训练样本图像集包括多个训练样本图像和用于表征所述训练样本图像中是否存在人脸信息的人脸标签；获取所述训练样本图像的人脸哈尔特征向量；将所述训练样本图像对应的人脸哈尔特征向量以及人脸标签输入至基于决策树模型的Adaboost提升模型中进行训练，以得到人脸检测识别模型；以及存储所述人脸检测识别模型。

在一实施例中，处理器502在执行获取实时采集的视频图像之前，还实现如下功能：获取实时采集的校准视频图像；从所述校准视频图像中的多帧图像中按照预设规则抽取预设帧数的图像作为校准图像；基于预先存储的人脸检测识别模型，判断每帧所述校准图像中是否均存在人脸信息；若每帧所述校准图像中均存在人脸信息，执行获取实时采集的视频图像的步骤；若至少一帧所述校准图像中不存在人脸信息，发出提示信息以使得用户根据所述提示信息调整摄像头的角度，并在调整好所述摄像头的角度后，返回执行获取实时采集的校准视频图像的步骤，直至使得每帧所述校准图像中均存在人脸信息为止。

在一实施例中，处理器502在执行基于所述情绪识别模型识别每个所述关键帧图像中的人脸情绪时，具体实现如下功能：依次将每个所述关键帧图像作为输入值输入至所述情绪识别模型中；获取所述情绪识别模型输出的每个所述关键帧图像在多种预设情绪上的概率值；以及将每个所述关键帧图像对应的多个概率值中较大的概率值对应的情绪作为所述关键帧图像中的人脸情绪。

在一实施例中，处理器502在执行根据所有所述关键帧图像中的人脸情绪获取所述视频图像对应的人脸情绪，以完成人脸情绪的识别时，具体实现如下功能：对所有所述关键帧图像中的人脸情绪进行概率统计；以及将出现概率较大的人脸情绪作为所述视频图像对应的人脸情绪，以完成人脸情绪的识别。

应当理解，在本申请实施例中，处理器502可以是中央处理单元，该处理器502还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述人脸情绪识别方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一计算机可读存储介质中。该计算机程序被该计算机系统中的至少一个处理器执行，以实现包括如上述各人脸情绪识别方法的实施例的流程步骤。

该存储介质可以是U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，各个单元的划分仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种人脸情绪识别方法，其包括：

获取实时采集的视频图像；

对所述视频图像中的所有帧图像进行小波变换以得到对应的能量特征向量；

获取标准能量特征向量，并根据图像差分运算方法计算每个所述能量特征向量与所述标准能量特征向量之间的欧式距离值；

判断多个所述欧式距离值中是否存在超过预设阈值的欧式距离值；

若多个所述欧式距离值中存在超过所述预设阈值的欧式距离值，将超过所述预设阈值的欧式距离值的能量特征向量对应的图像作为关键帧图像，其中，所述关键帧图像的个数为至少一个；

获取预先存储的情绪识别模型，并基于所述情绪识别模型识别每个所述关键帧图像中的人脸情绪；以及

根据所有所述关键帧图像中的人脸情绪获取所述视频图像对应的人脸情绪，以完成人脸情绪的识别。
根据权利要求1所述的人脸情绪识别方法，其中，在所述获取实时采集的视频图像之前，还包括：获取中性表情图像；对所述中性表情图像进行小波变换以得到对应的标准能量特征向量；以及存储所述中性表情图像和标准能量特征向量。
根据权利要求1所述的人脸情绪识别方法，其中，在所述获取实时采集的视频图像之前，还包括：获取情绪训练样本图像集，其中，所述情绪训练样本图像集包括多个情绪训练样本图像和所述情绪训练样本图像中人脸的情绪标签；以及将所述情绪训练样本图像和对应的情绪标签输入至卷积神经网络模型中进行机器学习以得到情绪识别模型，并存储所述情绪识别模型。
根据权利要求1所述的人脸情绪识别方法，其中，在所述获取实时采集的视频图像之前，还包括：获取训练样本图像集，其中，所述训练样本图像集包括多个训练样本图像和用于表征所述训练样本图像中是否存在人脸信息的人脸标签；获取所述训练样本图像的人脸哈尔特征向量；将所述训练样本图像对应的人脸哈尔特征向量以及人脸标签输入至基于决策树模型的Adaboost提升模型中进行训练，以得到人脸检测识别模型；以及存储所述人脸检测识别模型。
根据权利要求4所述的人脸情绪识别方法，其中，在所述获取实时采集的视频图像之前，还包括：获取实时采集的校准视频图像；从所述校准视频图像中的多帧图像中按照预设规则抽取预设帧数的图像作为校准图像；基于预先存储的人脸检测识别模型，判断每帧所述校准图像中是否均存在人脸信息；若每帧所述校准图像中均存在人脸信息，执行获取实时采集的视频图像的步骤；若至少一帧所述校准图像中不存在人脸信息，发出提示信息以使得用户根据所述提示信息调整摄像头的角度，并在调整好所述摄像头的角度后，返回执行获取实时采集的校准视频图像的步骤，直至使得每帧所述校准图像中均存在人脸信息为止。
根据权利要求1所述的人脸情绪识别方法，其中，所述基于所述情绪识别模型识别每个所述关键帧图像中的人脸情绪，包括：依次将每个所述关键帧图像作为输入值输入至所述情绪识别模型中；获取所述情绪识别模型输出的每个所述关键帧图像在多种预设情绪上的概率值；以及将每个所述关键帧图像对应的多个概率值中较大的概率值对应的情绪作为所述关键帧图像中的人脸情绪。
根据权利要求1所述的人脸情绪识别方法，其中，所述根据所有所述关键帧图像中的人脸情绪获取所述视频图像对应的人脸情绪，以完成人脸情绪的识别，包括：对所有所述关键帧图像中的人脸情绪进行概率统计；以及将出现概率较大的人脸情绪作为所述视频图像对应的人脸情绪，以完成人脸情绪的识别。
根据权利要求2所述的人脸情绪识别方法，其中，在所述判断多个所述欧式距离值中是否存在超过预设阈值的欧式距离值之后，还包括：若多个所述欧式距离值中不存在超过所述预设阈值的欧式距离值，将所述标准能量特征向量对应的中性表情图像作为所述关键帧图像，并返回执行获取预先存储的情绪识别模型，并基于所述情绪识别模型识别每个所述关键帧图像中的人脸情绪的步骤。
根据权利要求2所述的人脸情绪识别方法，其中，在所述判断多个所述欧式距离值中是否存在超过预设阈值的欧式距离值之后，还包括：若多个所述欧式距离值中不存在超过所述预设阈值的欧式距离值，设置所述视频图像对应的人脸情绪为中性情绪，以完成人脸情绪的识别。
根据权利要求1所述的人脸情绪识别方法，其中，在所述根据所有所述关键帧图像中的人脸情绪获取所述视频图像对应的人脸情绪之后，还包括：将所述视频图像对应的时间段以及所述视频图像对应的人脸情绪记录至情绪列表中；根据所述情绪列表，统计预设时间段内的所有所述视频图像对应的人脸情绪中属于预设情绪类的人脸情绪的概率；判断属于所述预设情绪类的人脸情绪的概率是否超过预设概率值；若属于所述预设情绪类的人脸情绪的概率超过所述预设概率值，获取预设提示方式和预设提示信息，并根据所述预设提示方式向用户提示所述预设提示信息。
一种人脸情绪识别装置，其包括：

获取单元，用于获取实时采集的视频图像；

变换单元，用于对所述视频图像中的所有帧图像进行小波变换以得到对应的能量特征向量；

距离计算单元，用于获取标准能量特征向量，并根据图像差分运算方法计算每个所述能量特征向量与所述标准能量特征向量之间的欧式距离值；

距离判断单元，用于判断多个所述欧式距离值中是否存在超过预设阈值的欧式距离值；

关键帧获取单元，用于若多个所述欧式距离值中存在超过所述预设阈值的欧式距离值，将超过所述预设阈值的欧式距离值的能量特征向量对应的图像作为关键帧图像，其中，所述关键帧图像的个数为至少一个；

情绪识别单元，用于获取预先存储的情绪识别模型，并基于所述情绪识别模型识别每个所述关键帧图像中的人脸情绪；以及

情绪获取单元，用于根据所有所述关键帧图像中的人脸情绪获取所述视频图像对应的人脸情绪，以完成人脸情绪的识别。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如下步骤：获取实时采集的视频图像；对所述视频图像中的所有帧图像进行小波变换以得到对应的能量特征向量；获取标准能量特征向量，并根据图像差分运算方法计算每个所述能量特征向量与所述标准能量特征向量之间的欧式距离值；判断多个所述欧式距离值中是否存在超过预设阈值的欧式距离值；若多个所述欧式距离值中存在超过所述预设阈值的欧式距离值，将超过所述预设阈值的欧式距离值的能量特征向量对应的图像作为关键帧图像，其中，所述关键帧图像的个数为至少一个；获取预先存储的情绪识别模型，并基于所述情绪识别模型识别每个所述关键帧图像中的人脸情绪；以及根据所有所述关键帧图像中的人脸情绪获取所述视频图像对应的人脸情绪，以完成人脸情绪的识别。
根据权利要求12所述的计算机设备，其中，所述处理器执行获取实时采集的视频图像之前，还实现如下步骤：获取中性表情图像；对所述中性表情图像进行小波变换以得到对应的标准能量特征向量；以及存储所述中性表情图像和标准能量特征向量。
根据权利要求12所述的计算机设备，其中，所述处理器执行获取实时采集的视频图像之前，还实现如下步骤：获取情绪训练样本图像集，其中，所述情绪训练样本图像集包括多个情绪训练样本图像和所述情绪训练样本图像中人脸的情绪标签；以及将所述情绪训练样本图像和对应的情绪标签输入至卷积神经网络模型中进行机器学习以得到情绪识别模型，并存储所述情绪识别模型。
根据权利要求12所述的计算机设备，其中，所述处理器执行获取实时采集的视频图像之前，还实现如下步骤：获取训练样本图像集，其中，所述训练样本图像集包括多个训练样本图像和用于表征所述训练样本图像中是否存在人脸信息的人脸标签；获取所述训练样本图像的人脸哈尔特征向量；将所述训练样本图像对应的人脸哈尔特征向量以及人脸标签输入至基于决策树模型的Adaboost提升模型中进行训练，以得到人脸检测识别模型；以及存储所述人脸检测识别模型。
根据权利要求15所述的计算机设备，其中，所述处理器执行获取实时采集的视频图像之前，还实现如下步骤：获取实时采集的校准视频图像；从所述校准视频图像中的多帧图像中按照预设规则抽取预设帧数的图像作为校准图像；基于预先存储的人脸检测识别模型，判断每帧所述校准图像中是否均存在人脸信息；若每帧所述校准图像中均存在人脸信息，执行获取实时采集的视频图像的步骤；若至少一帧所述校准图像中不存在人脸信息，发出提示信息以使得用户根据所述提示信息调整摄像头的角度，并在调整好所述摄像头的角度后，返回执行获取实时采集的校准视频图像的步骤，直至使得每帧所述校准图像中均存在人脸信息为止。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如下步骤：获取实时采集的视频图像；对所述视频图像中的所有帧图像进行小波变换以得到对应的能量特征向量；获取标准能量特征向量，并根据图像差分运算方法计算每个所述能量特征向量与所述标准能量特征向量之间的欧式距离值；判断多个所述欧式距离值中是否存在超过预设阈值的欧式距离值；若多个所述欧式距离值中存在超过所述预设阈值的欧式距离值，将超过所述预设阈值的欧式距离值的能量特征向量对应的图像作为关键帧图像，其中，所述关键帧图像的个数为至少一个；获取预先存储的情绪识别模型，并基于所述情绪识别模型识别每个所述关键帧图像中的人脸情绪；以及根据所有所述关键帧图像中的人脸情绪获取所述视频图像对应的人脸情绪，以完成人脸情绪的识别。
根据权利要求17所述的计算机可读存储介质，其中，所述计算机程序当被处理器执行获取实时采集的视频图像之前，还使所述处理器执行如下步骤：获取中性表情图像；对所述中性表情图像进行小波变换以得到对应的标准能量特征向量；以及存储所述中性表情图像和标准能量特征向量。
根据权利要求17所述的计算机可读存储介质，其中，所述计算机程序当被处理器执行获取实时采集的视频图像之前，还使所述处理器执行如下步骤：获取情绪训练样本图像集，其中，所述情绪训练样本图像集包括多个情绪训练样本图像和所述情绪训练样本图像中人脸的情绪标签；以及将所述情绪训练样本图像和对应的情绪标签输入至卷积神经网络模型中进行机器学习以得到情绪识别模型，并存储所述情绪识别模型。
根据权利要求17所述的计算机可读存储介质，其中，所述计算机程序当被处理器执行获取实时采集的视频图像之前，还使所述处理器执行如下步骤：获取训练样本图像集，其中，所述训练样本图像集包括多个训练样本图像和用于表征所述训练样本图像中是否存在人脸信息的人脸标签；获取所述训练样本图像的人脸哈尔特征向量；将所述训练样本图像对应的人脸哈尔特征向量以及人脸标签输入至基于决策树模型的Adaboost提升模型中进行训练，以得到人脸检测识别模型；以及存储所述人脸检测识别模型。