CN112464865A

CN112464865A - 一种基于像素和几何混合特征的人脸表情识别方法

Info

Publication number: CN112464865A
Application number: CN202011439263.4A
Authority: CN
Inventors: 刘畅; 廣田薰; 王健; 戴亚平
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-03-09

Abstract

一种基于像素和几何混合特征的人脸表情识别方法，属于模式识别和情感识别领域。本发明实现方法为：读取表情数据集图像，进行人脸检测后裁剪人脸关键区域；设计基于人脸像素的特征提取器，利用带有空间注意力的卷积神经网络进行表情特征提取，其中，空间注意力模型通过自适应评估像素与表情的相关性进行权重分配；进行人脸关键点检测，将关键点按人脸五官区域进行分组，利用不同的LSTM对不同区域的关键点进行局部几何特征提取，局部特征通过注意力模型分配权重获得整体几何特征，能够自适应地强调具有显著特征区域的特征而抑制冗余区域的特征表达；将像素级特征和几何级特征融合获得混合特征，并使用Softmax进行分类，实现面部表情图像的高精度识别。

Description

一种基于像素和几何混合特征的人脸表情识别方法

技术领域

本发明涉及模式识别和情感计算领域，尤其涉及一种基于像素和几何混合特征的人脸表情识别方法。

背景技术

面部表情是人类认知情感状态的重要特征之一，在日常社会交际中传递关键的非语言特征信息。由于表情识别在情感计算、计算机视觉、医学评估和人机交互等多个研究领域中展现出巨大的应用潜力，引起了人们的广泛关注。近年来，随着深度学习的迅猛发展及其在机器视觉领域中的成功应用，大量基于静态表情图像的高精度表情识别方法不断涌现。然而，大多数方法都是在不考虑深层几何特征的情况下直接从图像中提取像素级人脸特征，但是深层几何特征表现为检测到的面部关键点的相对空间几何位置的变化，具有优异的可辨别性。除此之外，面部表情是由面部行为的变化引起的，它与某些区域密切相关，而不是整个面部，冗余的面部特征信息会影响表情识别的性能表现。

发明内容

为了解决上述问题，本发明充分利用面部区域的情感特征，提出了一种基于像素和几何混合特征的人脸表情识别方法。该方法使用卷积神经网络从人脸图像中提取像素级人脸特征，同时利用多个长短期记忆网络(LSTM，Long Short-TermMemory)探索面部关键点之间的相对空间位置关系对表情识别的影响。在处理面部关键点时，本发明首先提出一种深度几何特征描述子，通过深度学习的方法分别对图像中不同面部区域人脸关键点之间的坐标相关性进行深层几何级特征提取；然后在LSTMs中嵌入注意力模型，根据各个面部区域的关键点特征对表情贡献的不同将较大的权重分配给对应的与表情密切相关的局部深层几何级特征，并将重新标定权重中的特征串接为表征表情的整体深层几何人脸特征，从而实现局部-整体的几何特征提取；最后将像素级特征和几何级特征进行融合以获得更具有分辨性的混合情感特征，对其分类获得识别结果。该方法主要包括以下步骤：

步骤1：读取表情数据集图像，进行人脸检测后截取人脸关键区域，去除冗余区域；

步骤2：设计空间注意力模块，利用带有空间注意力模型的卷积神经网络对人脸关键区域进行像素级特征提取，其中，空间注意力模型得到的特征图每个值对应于人脸关键区域像素在空间位置的相对重要性，给予与表情表达相关的空间像素位置较大权重，而不相关的空间像素位置给予较小权重，从而提高与表情相关区域的特征表达，并且抑制无关区域的干扰；

步骤3：对人脸关键区域进行关键点检测，将人脸关键点按人脸五官区域进行分组，划分为多个局部面部区域，利用不同的LSTM分别对相应的局部面部区域内关键点特征进行提取，将每个LSTM提取的关键点特征级联后通过注意力模型，分配各个局部面部区域不同权重，能够自适应的强调具有显著特征区域的特征而抑制冗余区域的特征表达，最后经非线性函数激活后获得全局面部特征，即深层几何级特征；

步骤4：将像素级特征和几何级特征融合获得混合特征，利用交叉熵损失函数进行权值更新并使用Softmax对混合特征进行分类，获得面部表情图像的识别结果。

在所述步骤1中，数据集预处理过程包括以下步骤：

步骤1.1：读取表情数据集图像，对输入图像进行人脸检测获得人脸区域。

步骤1.2：截取人脸区域并归一化为统一尺寸获得人脸特征区域；

步骤1.3：按照步骤1.1、步骤1.2的操作处理数据集中全部用于实验(训练和验证)的图像，得到预处理之后的数据集。

在所述步骤2中，像素级特征提取过程包括以下步骤：

卷积神经网络通过堆叠的卷积结构进行特征提取，具有捕捉深层信息的能力。VGG网络模型是由多个VGG块组成的级联模型，每个VGG块由多个卷积层和一个用于下采样的最大池化层组成。本专利所设计使用的带有空间注意力模型的卷积神经网络受到VGG网络模型的启发，设计了空间注意力模块来减少情感不相关区域中冗余信息的影响。

当输入图像为N×N×M(其中，N为特征图大小，M为通道数量)时，具体包括以下步骤：

步骤2.1：将缩放为统一尺寸的人脸图像输入到第一个VGG块，该VGG块包含1个

的卷积层、1个

的卷积层和1个池化窗口大小为K_m×K_m的最大池化层组成；继续输入到第二个VGG块，该VGG块包含1个

的卷积层、1个

的卷积层和1个池化窗口大小为K_m×K_m的最大池化层组成；继续输入到第三个VGG块，该VGG块包含1个

的卷积层、2个

的卷积层和1个池化窗口大小为K_m×K_m的最大池化层组成；继续输入到第四个VGG块，该VGG块包含1个

的卷积层、3个

的卷积层和1个池化窗口大小为K_m×K_m的最大池化层组成；最后输入到第五个VGG块，该VGG块包含4个

的卷积层、1个池化窗口大小为K_m×K_m的最大池化层和1个池化窗口大小为K_a×K_a的平均池化层组成。此外，为了更好的发挥卷积神经网络的作用，在上述的每一个卷积层后添加BN层和Relu激活层。其中，在

中，上标i表示第i个卷积层，Kⁱ为卷积层的卷积核尺寸，

为卷积层的输入通道数量，

为卷积层的输出通道数量。

步骤2.2：将步骤2.1的输出输入到注意力模块，注意力模块包含1个

(其中，

为卷积层的输入通道数量)的卷积层、1个tanh激活层和1个L_in×L_out(其中，L_in为全连接层输入节点个数，L_out为全连接层输出节点个数)的全连接层。全连接层的输出即为提取到的像素级特征。

作为优选，输入图像为44×44×3时，具体包括以下步骤：

步骤2.1：将缩放为统一尺寸的人脸图像输入到第一个VGG块，该VGG块包含1个3×3×3×64的卷积层、1个3×3×64×64的卷积层和1个2×2的最大池化层组成；继续输入到第二个VGG块，该VGG块包含1个3×3×64×128的卷积层、1个3×3×128×128的卷积层和1个2×2的最大池化层组成；继续输入到第三个VGG块，该VGG块包含1个3×3×128×256的卷积层、2个3×3×256×256的卷积层和1个2×2的最大池化层组成；继续输入到第四个VGG块，该VGG块包含1个3×3×256×512的卷积层、3个3×3×512×512的卷积层和1个2×2的最大池化层组成；最后输入到第五个VGG块，该VGG块包含4个3×3×512×512的卷积层、1个2×2的最大池化层和1个1×1的平均池化层组成。此外，为了更好的发挥卷积神经网络的作用，在上述的每一个卷积层后添加BN层和Relu激活层。

步骤2.2：将步骤2.1的输出特征输入到注意力模块，注意力模块包含1个1×1×512×1的卷积层、一个tanh激活层和1个512×512的全连接层。全连接层的输出即为提取到的像素级特征。

在所述步骤3中，几何级特征提取过程包括以下步骤：

步骤3.1：对输入人脸图像进行关键点检测，将人脸关键点按人脸五官区域进行分组，确定N个相关局部面部区域(比如眉毛、眼睛和嘴巴等)的位置和形状，获取局部面部区域中各关键点的笛卡尔坐标信息。

步骤3.2：将笛卡尔坐标信息作为向量输入到对应每个面部区域设计的LSTM模型中来捕捉人脸关键点坐标间的相对位置依赖关系，从而提取深层几何特征，该过程可由以下公式递归表示：

i_t＝σ(W_viv_t+W_hih_t-1+W_cic_t-1+b_i) (1)

f_i＝σ(W_vfv_t+W_hfh_t-1+W_cfc_t-1+b_f) (2)

c_t＝f_tc_t-1+i_t tanh(W_vcv_t+W_hch_t-1+b_c) (3)

o_t＝σ(W_xov_t+W_hoh_t-1+W_coc_t-1+b_o) (4)

h_t＝tanh(c_t) (5)

其中，i_t、f_t和o_t分别是LSTM模型中输入门、忘记门、存储单元和输出门的激活向量。v_t和h_t分别是在第t个时间步骤的输入向量和隐藏向量。W_αβ表示α和β之间的权重矩阵。b_α是α的偏差，σ(·)表示Sigmoid函数σ(x)＝1/(1+e^-x)。每个LSTM的神经元个数等于输入面部关键点的数目。

步骤3.3：将不同局部面部区域的LSTM提取的几何特征h_l输入到注意力网络，通过输出注意力掩膜M_l来量化不同面部区域特征的重要性；其中，注意力掩膜M_l可由公式(6)表示：

M_l＝f_a(W_g*h_l+B_g) (6)

其中，其中W_g是注意网络的卷积核，B_g是相应的偏差，符号“*”表示卷积操作，f_a(·)是激活函数。注意力掩膜的每个位置的权重只与相应局部区域的特征有关，因此，每一个注意力权重大小都可以反映不同面部区域的重要程度，并且能够自适应的强调具有显著特征区域的特征而抑制冗余区域的特征表达。

步骤3.4：通过注意力网络赋予不同权重的每个区域的几何特征在经过非线性激活后获得最终几何级特征h_g，该过程如公式(7)所示：

其中，g(·)是Relu函数，符号

为元素数乘。

在所述步骤4中，混合特征获取和识别过程包括以下步骤：

步骤4.1：将提取的像素级特征和几何级特征进行拼接操作，获得混合特征；

步骤4.2：训练步骤2和步骤3网络结构的同时使用Softmax损失函数进行参数优化，使其代价函数最小，权值更新用到的交叉熵损失函数Loss_CE如公式(8)所示：

其中，Z为样本总数，C为分类类别总数，

为第k个样本的真实类别为c，

表示第k个样本预测为第c类的概率。

步骤4.3：使用Softmax分类器对混合特征进行分类预测，得到属于每一类情感类别的概率，概率值最大对应的情感类别即为输入的融合特征的情感识别结果。

有益效果：

1、本发明公开的一种基于像素和几何混合特征的人脸表情识别方法，对面部区域进行像素级特征和几何级特征提取，并合理的利用的注意力模块来反映不同面部区域的重要程度，通过拼接操作获得的融合特征具有更好的可分辨性，提高表情识别精度。

2、本发明公开的一种基于像素和几何混合特征的人脸表情识别方法，合理划分面部区域，并巧妙地运用多个LSTM模型对不同面部区域中关键点信息的坐标相关性进行学习，合理的使用注意力模型，获得更具分辨性的几何级特征，提高模型的情感特征表现能力。

附图说明

下面结合附图与实施例对本发明进一步说明，附图中：

图1为本发明实施例中一种基于像素和几何混合特征的人脸表情识别方法的流程图；

图2为本发明实施例中一种基于像素和几何混合特征的人脸表情识别方法的框架图；

图3为本发明实施例中一种基于像素和几何混合特征的人脸表情识别方法的深度卷积网络模型结构图。

图4为本发明实施例中一种基于像素和几何混合特征的人脸表情识别方法的提取的面部关键点示意图；

图5为本发明实施例中一种基于像素和几何混合特征的人脸表情识别方法的面部区域划分示意图；

图6为本发明实施例中一种基于像素和几何混合特征的人脸表情识别方法中的LSTM模块结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细描述：本发明的实施例提供了一种基于像素和几何混合特征的人脸表情识别方法。

图1为本发明实施例中一种基于像素和几何混合特征的人脸表情识别方法的流程图，图2为本发明实施例中一种基于像素和几何混合特征的人脸表情识别方法的框架图。一种基于像素和几何混合特征的人脸表情识别方法共分为四个部分，即数据集预处理，像素级特征提取，几何级特征提取以及特征融合与分类识别。具体步骤如下：

具体的，对CK+(The Extended Cohn-Kanade Dataset)数据集进行处理，获得人脸区域归一化统一尺寸44×44，与相对应的表情标签保存获得面部数据集。

步骤2：设计空间注意力模块，并利用带有空间注意力模型的卷积神经网络对人脸关键区域进行像素级特征提取。空间注意力模型得到的特征图每个值对应于人脸关键区域像素在空间位置的相对重要性，给予与表情表达相关的空间像素位置较大权重，而不相关的空间像素位置给予较小权重，提高与表情相关区域的特征表达；

具体的，将面部数据集分批输入到带有空间注意力模型的VGG网络模型中，其中VGG网络模型参数如图3所示，是由多个VGG块组成的级联模型。具体过程为：将缩放为统一尺寸的人脸图像输入到第一个VGG块，该VGG块包含1个3×3×3×64的卷积层、1个3×3×64×64的卷积层和1个2×2的最大池化层组成；继续输入到第二个VGG块，该VGG块包含1个3×3×64×128的卷积层、1个3×3×128×128的卷积层和1个2×2的最大池化层组成；继续输入到第三个VGG块，该VGG块包含1个3×3×128×256的卷积层、2个3×3×256×256的卷积层和1个2×2的最大池化层组成；继续输入到第四个VGG块，该VGG块包含1个3×3×256×512的卷积层、3个3×3×256×512的卷积层和1个2×2的最大池化层组成；继续输入到第五个VGG块，该VGG块包含4个3×3×512×512的卷积层、1个2×2的最大池化层和1×1的平均池化层组成。此外，为了更好的发挥卷积神经网络的作用，在上述的每一个卷积层后添加BN层和Relu激活层。最后输入到注意力模块，注意力模块包含1个1×1×512×1的卷积层、1个tanh激活层和1个512×512的全连接层。此时，全连接层的输出即为提取到的像素级特征。

具体的，对输入人脸图像进行关键点检测，获得68个关键点，提取的面部关键点示意图如图4所示；确定7个相关面部区域的位置和形状，获得面部区域中各关键点的笛卡尔坐标信息。划分示意图如图5所示，具体为：

(1)左眉：左眉区域的5个关键点。相应的二维坐标(x_1,k,y_1,k),k＝1,2,…,5共同作用形成一个十维特征向量(x_1,1,y_1,1,x_1,2,y_1,2,…,x_1,5,y_1,5)。

(2)右眉：右眉区域的5个关键点。相应的二维坐标(x_2,k,y_2,k),k＝1,2,…,5共同作用形成一个十维特征向量(x_2,1,y_2,1,x_2,2,y_2,2,…,x_2,5y_2,5)。

(3)左眼：左眼区域的6个关键点。相应的二维坐标(x_3,k,y_3,k),k＝1,2,…,6共同作用形成一个十二维特征向量(x_3,1,y_3,1,x_3,2,y_3,2,…,x_3,6,y_3,6)。

(4)右眼：右眼区域的6个关键点。相应的二维坐标(x_4,k,y_4,k),k＝1,2,…,6共同作用形成一个十二维特征向量(x_4,1,y_4,1,x_4,2,y_4,2,…,x_4,6,y_4,6)。

(5)鼻子：鼻子区域的9个关键点。相应的二维坐标(x_5,k,y_5,k),k＝1,2,…,9共同作用形成一个十八维特征向量(x_5,1,y_5,1,x_5,2,y_5,2,…,x_5,9,y_5,9)。

(6)嘴巴：左眉区域的5个关键点。相应的二维坐标(x_6,k,y_6,k),k＝1,2,…,20共同作用形成一个四十维特征向量(x_6,1,y_6,1,x_6,2,y_6,2,…,x_6,20,y_6,20)。

(7)轮廓：面部轮廓区域的17个关键点。相应的二维坐标(x_7,k,y_7,k),k＝1,2,…,17共同作用形成一个三十四维特征向量(x_7,1,y_7,1,x_7,2,y_7,2,…,x_7,17,y_7,17)。

将上述特征向量输入到针对每个面部区域设计LSTM模型中来捕捉关键点坐标间的相对空间位置依赖关系，从而提取到每个区域的几何特征。单个区域的LSTM模型示意图如图6所示。将不同局部面部区域的LSTM提取的几何特征输入到注意力网络，通过输出注意力掩膜来量化不同面部区域几何特征的重要性；通过注意力网络赋予不同权重的每个区域提取的几何特征在经过非线性激活后级联获得全局面部特征，即深度几何级特征。

步骤4：将像素级特征和几何级特征融合获得混合特征，利用交叉熵损失函数进行权值更新并使用Softmax对混合特征进行分类。

具体的，表情种类设为7类，即C＝7，对于CK+数据集表情标签为愤怒、蔑视、厌恶、恐惧、高兴、悲伤和惊讶，对于FER2013数据集情标签为愤怒、厌恶、恐惧、高兴、悲伤、惊讶和中立。使用交叉熵损失函数Loss_CE进行网络权值更新，利用Softmax对融合特征进行分类，获得7类表情概率，概率最大者为样本的表情识别结果。

通过上述步骤分别在CK+数据集和FER2013数据集进行验证，由于CK+数据集样本较少，对CK+数据集使用十折交叉验证的方法进行验证。行权值更新的优化方法是随机梯度下降(Stochastic Gradient Descent，SGD)算法，其中初始学习率为0.01，动量、重量衰减和批次大小设置为0.9、0.0005和32，为避免过拟合，Dropout率设置为0.5。对于FER2013数据集，总训练次数设置为200次，学习率在训练50次后开始下降，之后每训练5次学习率乘以0.85；对于CK数据集，总训练次数设置为100次，学习率在训练20次后开始下降，之后每训练3次学习率乘以0.85。在训练过程中使用数据增强算法，对训练图像进行扩充，提高模型泛化能力，最终在CK+数据集上获得95.15％的准确率，在FER2013数据集上获得73.53％的准确率。融合像素级特征和几何级特征提高了特征的可分辨性，相比于其他传统方法和深度学习方法取得更高的识别精度。

上述实施例为本发明较佳的识别方式，但本发明的实施方式并不受上述实施例的限制，凡是在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于像素和几何混合特征的人脸表情识别方法，其特征在于，包括以下步骤：

步骤2：设计空间注意力模块，利用带有空间注意力模型的卷积神经网络对人脸关键区域进行像素级特征提取，其中，空间注意力模型得到的特征图中每个值对应于人脸关键区域像素在空间位置的相对重要性，给予与表情表达相关的空间像素位置较大权重，而给予不相关的空间像素位置较小权重，从而提高与表情相关区域的特征表达，并且抑制无关区域的干扰；

步骤4：将像素级特征和几何级特征融合获得混合特征，利用交叉熵损失函数进行网络权值更新并使用Softmax对混合特征进行分类，得到面部表情图像的识别结果。

2.如权利要求1所述的一种基于像素和几何混合特征的人脸表情识别方法，其特征在于，步骤1中，对所述的数据集预处理步骤如下：

骤1.1：读取表情数据集图像，对输入图像进行人脸检测获得人脸区域。

3.如权利要求1所述的一种基于像素和几何混合特征的人脸表情识别方法，其特征在于，步骤2中，像素级特征提取步骤如下：