CN109243494B

CN109243494B - 基于多重注意力机制长短时记忆网络的儿童情感识别方法

Info

Publication number: CN109243494B
Application number: CN201811273105.9A
Authority: CN
Inventors: 梁瑞宇; 梁镇麟; 谢跃; 赵力; 唐闺臣
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2022-10-11
Anticipated expiration: 2038-10-30
Also published as: CN109243494A

Abstract

本发明公开了一种基于多重注意力机制长短时记忆网络的儿童情感识别方法，将测试集语音进行端点检测且分帧切割，提取时序相关特征；对于长度不同的提取时序相关特征建立长短时记忆网络的处理算法；将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门，输入门以及最终输出上；最后，将待测样本输入训练过程中的改进长短时记忆网络，可显著识别出其情感信息，本发明通过将注意力机制结合时序的深度引入长短时记忆网络的遗忘门，输出门，以及长短时记忆网络的最终输出上，在大量减少参数量的同时，提升了算法性能，增加了方法设计上的灵活性，且识别效率高，具有良好的应用前景。

Description

基于多重注意力机制长短时记忆网络的儿童情感识别方法

技术领域

本发明涉及情感识别技术领域，具体涉及一种基于多重注意力机制长短时记忆网络的儿童情感识别方法。

背景技术

通过情感识别方式，父母可以更好的感知儿童的情绪，从而减轻父母照顾儿童的压力，尤其可以提高年轻父母的生活幸福指数，并提高儿童的生活质量。

此外，对于只能通过哭泣的方式来向父母或者监护人来表达自己的需求的婴儿来说，对于其的情感识别方法意义更大。因为婴儿表达情感需求信息的方式有限，基本上只能通过哭和笑来表达需求和心情，但是其传递的信息可能比较丰富，比如饥饿、痛苦、困倦等。面对以上种种难题，当前比较好的解决方案是采取人机结合的方式，即通过对婴儿在不同需求下啼哭语音进行分析筛选出有效特征，并使用这些特征来进行相关模型的训练，然后将采集到的新的啼哭语音通过已训练好的分类模型来对哭声语音进行分类，从而达到智能识别的目的。

如专利号CN200810148844.5公开了一种儿童情感方法，包括训练语音库建立、分类器训练和情感识别，但是该方法采用的数据处理方法，所选特征和模式识别方法，存下以下问题，具体描述如下：

(1)语音存在长短问题，如果对语音求固定长度的特征，必定会流失时序上的有效数据信息；

(2)从分类算法看，该分类算法效果对特征依赖较大，算法本身不具有特征学习能力；

(3)尚缺乏统一的、成熟的儿童情感需求信息识别的特征描述和分类方法，同时也缺少相应鲁棒性比较好的特征描述及识别算法。

因此，如何克服上述现有的儿童情感识别方法中存在的语音长短不一，以及分类算法效率低等问题，是当前急需解决的。

发明内容

本发明的目的是克服现有的童情感识别方法中存在的语音长短不一，以及分类算法效率低等问题。本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法，通过将注意力机制结合时序的深度引入长短时记忆网络的遗忘门，输出门，以及长短时记忆网络的最终输出上，在大量减少参数量的同时，提升了算法性能，而且，还可以根据需要将深度注意门单独作用于长短时记忆网络的遗忘门，输出门或最终输出上，也可以组合实现，增加了方法设计上的灵活性，且识别效率高，具有良好的应用前景。

为了达到上述目的，本发明所采用的技术方案是：

一种基于多重注意力机制长短时记忆网络的儿童情感识别方法，包括以下步骤，

步骤(A)，将测试集语音进行端点检测并分帧，提取该测试集语音的时序相关特征，形成样本集；

步骤(B)，将样本集中所有不同帧数的时序相关特征进行补零，使得各时序相关特征的向量数量与样本集中最长时序相关特征的帧数相同，形成测试数据集合；

步骤(C)，建立长短时记忆网络，并结合不同时刻的细胞状态来计算注意力门，形成长短时记忆网络的改进型细胞更新方法；

步骤(D)，利用长短时记忆网络的改进型细胞更新方法计算长短时记忆网络三维输出的特征注意力，并和最后时刻的状态结合输入全连接层，构建训练集训练网络；

步骤(E)，根据训练集训练网络，每一步训练一个batch，每训练十步，就利用划分的测试集集合对该训练集训练网络的性能进行测试，并最终完成测试集的儿童情感识别。

前述的基于多重注意力机制长短时记忆网络的儿童情感识别方法，步骤(A)，将测试集语音进行端点检测并分帧，提取该测试集语音的时序相关特征，形成样本集，包括以下步骤，

(A1)，将测试集语音进行端点检测，用于消除静默段保证从有效的语音信息提取时序相关特征；

(A2)，将端点检测后的测试集语音按照640点为一帧进行分帧，帧间交叠50，划分为多个测试集语音帧数据；

(A3)，将每帧测试集语音帧数据提取93维的时序相关特征，形成样本集。

前述的基于多重注意力机制长短时记忆网络的儿童情感识别方法，(A3)，所述93维的时序相关特征，包括声音概率、谐噪比、基频、无声段的基频原始值、基频包络、连续周期之间的平均绝对差、连续周期之间的连续差的平均绝对差值、连续周期内插值峰值振幅的平均绝对差、谐波分量的均方根能量、噪声的均方根能量、响度、响度增量回归系数、15个美尔倒谱系数MFCC，15个MFCC的增量回归系数、26个美尔谱，8个对数美尔频段，8个线性预测编码系数、8个线谱对频率、过零率。

前述的基于多重注意力机制长短时记忆网络的儿童情感识别方法，步骤(C)，建立长短时记忆网络，并结合不同时刻的细胞状态来计算注意力门，形成长短时记忆网络的改进型细胞更新方法，该改进型细胞更新方法，关注前n个时刻的细胞状态的信息，其中，n的数值根据数据情况自定义，定义注意力门

如公式(1)所示，

其中，

V和Q均为对之前某一时刻的细胞状态来计算注意力门的参数共享的可训练矩阵，

代表多个细胞状态的集合，C_t-n代表当前时刻的前n个时刻的细胞状态，

代表多个细胞状态的对齐向量的集合，

代表当前时刻的前n个时刻的细胞状态的对齐向量，sigmod(x)函数的表示式为

因此，长短时记忆网络的改进型细胞更新方法的表达式，如公式(2)所示，

其中，sigmod(x)函数的表示式为

C_t为t时刻的细胞状态，h_t为t时刻的隐层输出，W_C、b_C分别为计算这一刻新的输入信息的权重和偏置，W_o、b_o分别为计算输出门的权重和偏置，*表示Hadamard乘积，i_t为输入门，o_t为输出门，x_t为当前输入，

为当前需要加入细胞状态的候选信息。

前述的基于多重注意力机制长短时记忆网络的儿童情感识别方法，步骤(D)，利用长短时记忆网络的改进型细胞更新方法计算长短时记忆网络三维输出的特征注意力，并和最后时刻的状态结合输入全连接层，构建训练集训练网络，包括以下步骤，

(D1)，对长短时记忆网络的输出H＝[h₁，...，h_t]^T的每个h_t去计算一个自注意对齐向量，如公式(3)所示，

score_t＝V_htanh(W_hh_t) (3)

其中，h_t是t时刻的隐层输出，V_h和W_h为对h_t计算自注意力对齐向量的可训练的矩阵；

(D2)，每个时刻的分数的实际对齐权重

的计算，如公式(4)所示，

其中，k为特征的维度；

(D3)，将每个时刻的分数的实际对齐权重

进行加权，如公式(5)所示，

其中，

为当前样本计算完特征注意力后输出的二维矩阵；

(D4)，长短时记忆网络三维输出的特征注意力模型O，如公式(6)所示，

(D5)，将长短时记忆网络三维输出的特征注意力模型O和最后时刻的状态结合输入全连接层，得到新的长短时记忆网络三维输出的特征注意力模型O′，如公式(7)所示，

O′＝concat(h_-1；O)

(7)

其中，h_-1表示最后时刻的状态，concat函数用于将两个矩阵按特征维度拼接在一起。

本发明的有益效果是：本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法，将测试集语音进行端点检测且分帧切割，提取时序相关特征；对于长度不同的提取时序相关特征建立长短时记忆网络的处理算法；将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门，输入门以及最终输出上；最后，将待测样本输入训练过程中的改进长短时记忆网络，可显著识别出其情感信息，本发明通过将注意力机制结合时序的深度引入长短时记忆网络的遗忘门，输出门，以及长短时记忆网络的最终输出上，在大量减少参数量的同时，提升了算法性能，而且，还可以根据需要将深度注意门单独作用于长短时记忆网络的遗忘门，输出门或最终输出上，也可以组合实现，增加了方法设计上的灵活性，且识别效率高，具有良好的应用前景。

附图说明

图1是本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法的流程图；

图2是本发明与其他算法平均识别率随训练时间变化的收敛曲线图；

图3是图2收敛后测试集识别结果的示意图；

图4是本发明与其他算法平均识别率随训练时间变化的收敛曲线图；

图5是图4收敛后测试集识别结果的示意图。

具体实施方式

下面将结合说明书附图，对本发明作进一步的说明。

如图1所示，本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法，包括以下步骤，

步骤(A)，将测试集语音进行端点检测并分帧，提取该测试集语音的时序相关特征，形成样本集，包括以下步骤，

(A3)，将每帧测试集语音帧数据提取93维的时序相关特征，形成样本集，所述93维的时序相关特征，包括声音概率、谐噪比、基频、无声段的基频原始值、基频包络、连续周期之间的平均绝对差、连续周期之间的连续差的平均绝对差值、连续周期内插值峰值振幅的平均绝对差、谐波分量的均方根能量、噪声的均方根能量、响度、响度增量回归系数、15个美尔倒谱系数MFCC，15个MFCC的增量回归系数、26个美尔谱，8个对数美尔频段，8个线性预测编码系数、8个线谱对频率、过零率，该93维的时序相关特征能够完整且准确的表示出每帧测试集语音帧数据的基本特征；

步骤(B)，将样本集中所有不同帧数的时序相关特征进行补零，使得各时序相关特征的向量数量与样本集中最长时序相关特征的帧数相同，形成测试数据集合，从而克服不同帧数的时序相关特征长度不一致的问题，在后续的训练集网络计算的循环之前，补零后语音数据的实际有效长度通过每帧数据的绝对值求和并判断是否为零来获得，并在长短时记忆网络中去根据实际长度决定是否计算下一个时刻信息；

步骤(C)，建立长短时记忆网络(LSTM)，并结合不同时刻的细胞状态来计算注意力门，形成长短时记忆网络的改进型细胞更新方法，该改进型细胞更新方法，关注前n个时刻的细胞状态的信息，其中，n的数值根据数据情况自定义，定义注意力门

如公式(1)所示，

其中，

V和Q为对之前某一时刻的细胞状态来计算注意力门的参数共享的可训练的矩阵，属于中间变量，

表示多个细胞状态的集合，C_t-n代表当前时刻的前n个时刻的细胞状态，

代表多个细胞状态的对齐向量的集合，

其中，sigmod(x)函数的表示式为

为当前需要加入细胞状态的候选信息；

步骤(D)，利用长短时记忆网络的改进型细胞更新方法计算长短时记忆网络三维输出的特征注意力，并和最后时刻的状态结合输入全连接层，构建训练集训练网络，包括以下步骤，

score_t＝V_htanh(W_hh_t) (3)

(D2)，每个时刻的分数的实际对齐权重

的计算，如公式(4)所示，

其中，k为特征的维度；

(D3)，将每个时刻的分数的实际对齐权重

进行加权，如公式(5)所示，

其中，

为当前样本计算完特征注意力后输出的二维矩阵；

O′＝concat(h_-1；O)

(7)

其中，h_-1表示最后时刻的状态，concat函数用于将两个矩阵按特征维度拼接在一起；

根据本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法，图2-图5为该方法在特征注意力上的情感识别性能的对比，对比方法包括传统长短时记忆网络(LSTM)，上述模型和特征注意力的结合(LSTM+c)，以及特征注意力结合最后一刻输出状态的结合(LSTM+sc，本发明的方法)，实验均采用单向两层LSTM堆叠结构，并使用了一个全连接层和一个softmax层作为训练模型，训练过程中，采用tanh作为激活函数，采用小批量梯度下降法，批量为64，对800个训练样本总共训练了1500个epochs，每次训练10个batch，通过对测试集打印一次测试的结果以验证模型的效果。为了保证对比有效性，以下实验的所有参数均完全相同(除了第一层全连接层，因为输入的维度不一样，但输出的维度是相同的)，参数设置如表1所示。

表1网络参数

由图2所示的准确率变化曲线可知，对比3类模型可知，提出的LSTM+c在训练集和测试集上收敛速度和识别效果均高于LSTM，而LSTM+sc更优于LSTM+c；

图3为不同方法收敛后在测试集识别结果，LSTM+sc模型和LSTM+c模型均只有一个异常值，远小于传统LSTM模型的8个异常值，而且，LSTM+sc模型收敛后的识别率的最大值为0.900，最小值为0.780，均值为0.837，三者均高于LSTM+c模型的0.890，0.765和0.829，以及LSTM模型的0.870，0.745和0.805；

图4-图5为上述方法在3种注意力门的深度n的情感识别性能对比，对比方法包括传统长短时记忆网络+特征全连层(LSTM+sc)、上述模型与不同n(1，2，3)的注意力门相结合，即对应模型分别为LSTM+sc+deepf_1，LSTM+sc+deepf_2，LSTM+sc+deepf_3，实验设置如上所示；

由图4所示的准确率变化曲线可知，提出的LSTM+sc+deepf_n在训练集和测试集上收敛速度和识别效果均高于LSTM+sc。LSTM+deepf_2性能优于LSTM+deepf_1，但LSTM+deepf_3性能比LSTM+deepf_2的差，和LSTM+deepf_1类似。

图5为不同方法收敛后在测试集识别结果，LSTM+sc+deepf_3模型、LSTM+sc+deepf_2模型和LSTM+sc+deepf_1模型的三项指标(识别率的最大值，最小值和均值)分别为(0.930，0.835，0.886)，(0.945，0.855，0.903)和(0.940，0.835，0.889)，相比较LSTM+sc模型的相同指标(0.900，0.780，0.837)均有提升，且在深度为2时，算法性能达到最佳。

综上所述，本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法，将测试集语音进行端点检测且分帧切割，提取时序相关特征；对于长度不同的提取时序相关特征建立长短时记忆网络的处理算法；将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门，输入门以及最终输出上；最后，将待测样本输入训练过程中的改进长短时记忆网络，可显著识别出其情感信息，本发明通过将注意力机制结合时序的深度引入长短时记忆网络的遗忘门，输出门，以及长短时记忆网络的最终输出上，在大量减少参数量的同时，提升了算法性能，提出了三种基本注意力长短时记忆网络模型，并将其模块化，使得不同的模块组合在一起以进一步提高性能，最终表现性能显著，根据需要将深度注意门单独作用于长短时记忆网络的遗忘门，输出门或最终输出上，也可以组合实现，增加了方法设计上的灵活性，且识别效率高，具有良好的应用前景。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于多重注意力机制长短时记忆网络的儿童情感识别方法，其特征在于：包括以下步骤，

步骤(A)，将测试集语音进行端点检测并分帧，提取该测试集语音的时序相关特征，形成样本集，

包括以下步骤，

(A3)，将每帧测试集语音帧数据提取93维的时序相关特征，形成样本集；

2.根据权利要求1所述的基于多重注意力机制长短时记忆网络的儿童情感识别方法，其特征在于：(A3)，所述93维的时序相关特征，该93维的时序相关特征能够完整且准确的表示出每帧测试集语音帧数据的基本特征，包括声音概率、谐噪比、基频、无声段的基频原始值、基频包络、连续周期之间的平均绝对差、连续周期之间的连续差的平均绝对差值、连续周期内插值峰值振幅的平均绝对差、谐波分量的均方根能量、噪声的均方根能量、响度、响度增量回归系数、15个美尔倒谱系数MFCC，15个MFCC的增量回归系数、26个美尔谱，8个对数美尔频段，8个线性预测编码系数、8个线谱对频率、过零率。

3.根据权利要求1所述的基于多重注意力机制长短时记忆网络的儿童情感识别方法，其特征在于：步骤(C)，建立长短时记忆网络，并结合不同时刻的细胞状态来计算注意力门，形成长短时记忆网络的改进型细胞更新方法，该改进型细胞更新方法，关注前n个时刻的细胞状态的信息，其中，n的数值根据数据情况自定义，定义注意力门