Nothing Special   »   [go: up one dir, main page]

CN109243494B - 基于多重注意力机制长短时记忆网络的儿童情感识别方法 - Google Patents

基于多重注意力机制长短时记忆网络的儿童情感识别方法 Download PDF

Info

Publication number
CN109243494B
CN109243494B CN201811273105.9A CN201811273105A CN109243494B CN 109243494 B CN109243494 B CN 109243494B CN 201811273105 A CN201811273105 A CN 201811273105A CN 109243494 B CN109243494 B CN 109243494B
Authority
CN
China
Prior art keywords
long
memory network
attention
time
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811273105.9A
Other languages
English (en)
Other versions
CN109243494A (zh
Inventor
梁瑞宇
梁镇麟
谢跃
赵力
唐闺臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN201811273105.9A priority Critical patent/CN109243494B/zh
Publication of CN109243494A publication Critical patent/CN109243494A/zh
Application granted granted Critical
Publication of CN109243494B publication Critical patent/CN109243494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多重注意力机制长短时记忆网络的儿童情感识别方法,将测试集语音进行端点检测且分帧切割,提取时序相关特征;对于长度不同的提取时序相关特征建立长短时记忆网络的处理算法;将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门以及最终输出上;最后,将待测样本输入训练过程中的改进长短时记忆网络,可显著识别出其情感信息,本发明通过将注意力机制结合时序的深度引入长短时记忆网络的遗忘门,输出门,以及长短时记忆网络的最终输出上,在大量减少参数量的同时,提升了算法性能,增加了方法设计上的灵活性,且识别效率高,具有良好的应用前景。

Description

基于多重注意力机制长短时记忆网络的儿童情感识别方法
技术领域
本发明涉及情感识别技术领域,具体涉及一种基于多重注意力机制长短时记忆网络的儿童情感识别方法。
背景技术
通过情感识别方式,父母可以更好的感知儿童的情绪,从而减轻父母照顾儿童的压力,尤其可以提高年轻父母的生活幸福指数,并提高儿童的生活质量。
此外,对于只能通过哭泣的方式来向父母或者监护人来表达自己的需求的婴儿来说,对于其的情感识别方法意义更大。因为婴儿表达情感需求信息的方式有限,基本上只能通过哭和笑来表达需求和心情,但是其传递的信息可能比较丰富,比如饥饿、痛苦、困倦等。面对以上种种难题,当前比较好的解决方案是采取人机结合的方式,即通过对婴儿在不同需求下啼哭语音进行分析筛选出有效特征,并使用这些特征来进行相关模型的训练,然后将采集到的新的啼哭语音通过已训练好的分类模型来对哭声语音进行分类,从而达到智能识别的目的。
如专利号CN200810148844.5公开了一种儿童情感方法,包括训练语音库建立、分类器训练和情感识别,但是该方法采用的数据处理方法,所选特征和模式识别方法,存下以下问题,具体描述如下:
(1)语音存在长短问题,如果对语音求固定长度的特征,必定会流失时序上的有效数据信息;
(2)从分类算法看,该分类算法效果对特征依赖较大,算法本身不具有特征学习能力;
(3)尚缺乏统一的、成熟的儿童情感需求信息识别的特征描述和分类方法,同时也缺少相应鲁棒性比较好的特征描述及识别算法。
因此,如何克服上述现有的儿童情感识别方法中存在的语音长短不一,以及分类算法效率低等问题,是当前急需解决的。
发明内容
本发明的目的是克服现有的童情感识别方法中存在的语音长短不一,以及分类算法效率低等问题。本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法,通过将注意力机制结合时序的深度引入长短时记忆网络的遗忘门,输出门,以及长短时记忆网络的最终输出上,在大量减少参数量的同时,提升了算法性能,而且,还可以根据需要将深度注意门单独作用于长短时记忆网络的遗忘门,输出门或最终输出上,也可以组合实现,增加了方法设计上的灵活性,且识别效率高,具有良好的应用前景。
为了达到上述目的,本发明所采用的技术方案是:
一种基于多重注意力机制长短时记忆网络的儿童情感识别方法,包括以下步骤,
步骤(A),将测试集语音进行端点检测并分帧,提取该测试集语音的时序相关特征,形成样本集;
步骤(B),将样本集中所有不同帧数的时序相关特征进行补零,使得各时序相关特征的向量数量与样本集中最长时序相关特征的帧数相同,形成测试数据集合;
步骤(C),建立长短时记忆网络,并结合不同时刻的细胞状态来计算注意力门,形成长短时记忆网络的改进型细胞更新方法;
步骤(D),利用长短时记忆网络的改进型细胞更新方法计算长短时记忆网络三维输出的特征注意力,并和最后时刻的状态结合输入全连接层,构建训练集训练网络;
步骤(E),根据训练集训练网络,每一步训练一个batch,每训练十步,就利用划分的测试集集合对该训练集训练网络的性能进行测试,并最终完成测试集的儿童情感识别。
前述的基于多重注意力机制长短时记忆网络的儿童情感识别方法,步骤(A),将测试集语音进行端点检测并分帧,提取该测试集语音的时序相关特征,形成样本集,包括以下步骤,
(A1),将测试集语音进行端点检测,用于消除静默段保证从有效的语音信息提取时序相关特征;
(A2),将端点检测后的测试集语音按照640点为一帧进行分帧,帧间交叠50,划分为多个测试集语音帧数据;
(A3),将每帧测试集语音帧数据提取93维的时序相关特征,形成样本集。
前述的基于多重注意力机制长短时记忆网络的儿童情感识别方法,(A3),所述93维的时序相关特征,包括声音概率、谐噪比、基频、无声段的基频原始值、基频包络、连续周期之间的平均绝对差、连续周期之间的连续差的平均绝对差值、连续周期内插值峰值振幅的平均绝对差、谐波分量的均方根能量、噪声的均方根能量、响度、响度增量回归系数、15个美尔倒谱系数MFCC,15个MFCC的增量回归系数、26个美尔谱,8个对数美尔频段,8个线性预测编码系数、8个线谱对频率、过零率。
前述的基于多重注意力机制长短时记忆网络的儿童情感识别方法,步骤(C),建立长短时记忆网络,并结合不同时刻的细胞状态来计算注意力门,形成长短时记忆网络的改进型细胞更新方法,该改进型细胞更新方法,关注前n个时刻的细胞状态的信息,其中,n的数值根据数据情况自定义,定义注意力门
Figure BDA0001846391210000051
如公式(1)所示,
Figure BDA0001846391210000052
其中,
Figure BDA0001846391210000053
V和Q均为对之前某一时刻的细胞状态来计算注意力门的参数共享的可训练矩阵,
Figure BDA0001846391210000054
代表多个细胞状态的集合,Ct-n代表当前时刻的前n个时刻的细胞状态,
Figure BDA0001846391210000055
代表多个细胞状态的对齐向量的集合,
Figure BDA0001846391210000056
代表当前时刻的前n个时刻的细胞状态的对齐向量,sigmod(x)函数的表示式为
Figure BDA0001846391210000057
因此,长短时记忆网络的改进型细胞更新方法的表达式,如公式(2)所示,
Figure BDA0001846391210000061
其中,sigmod(x)函数的表示式为
Figure BDA0001846391210000062
Ct为t时刻的细胞状态,ht为t时刻的隐层输出,WC、bC分别为计算这一刻新的输入信息的权重和偏置,Wo、bo分别为计算输出门的权重和偏置,*表示Hadamard乘积,it为输入门,ot为输出门,xt为当前输入,
Figure BDA0001846391210000063
为当前需要加入细胞状态的候选信息。
前述的基于多重注意力机制长短时记忆网络的儿童情感识别方法,步骤(D),利用长短时记忆网络的改进型细胞更新方法计算长短时记忆网络三维输出的特征注意力,并和最后时刻的状态结合输入全连接层,构建训练集训练网络,包括以下步骤,
(D1),对长短时记忆网络的输出H=[h1,...,ht]T的每个ht去计算一个自注意对齐向量,如公式(3)所示,
scoret=Vhtanh(Whht) (3)
其中,ht是t时刻的隐层输出,Vh和Wh为对ht计算自注意力对齐向量的可训练的矩阵;
(D2),每个时刻的分数的实际对齐权重
Figure BDA0001846391210000071
的计算,如公式(4)所示,
Figure BDA0001846391210000072
其中,k为特征的维度;
(D3),将每个时刻的分数的实际对齐权重
Figure BDA0001846391210000073
进行加权,如公式(5)所示,
Figure BDA0001846391210000076
其中,
Figure BDA0001846391210000074
为当前样本计算完特征注意力后输出的二维矩阵;
(D4),长短时记忆网络三维输出的特征注意力模型O,如公式(6)所示,
Figure BDA0001846391210000075
(D5),将长短时记忆网络三维输出的特征注意力模型O和最后时刻的状态结合输入全连接层,得到新的长短时记忆网络三维输出的特征注意力模型O′,如公式(7)所示,
O′=concat(h-1;O)
(7)
其中,h-1表示最后时刻的状态,concat函数用于将两个矩阵按特征维度拼接在一起。
本发明的有益效果是:本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法,将测试集语音进行端点检测且分帧切割,提取时序相关特征;对于长度不同的提取时序相关特征建立长短时记忆网络的处理算法;将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门以及最终输出上;最后,将待测样本输入训练过程中的改进长短时记忆网络,可显著识别出其情感信息,本发明通过将注意力机制结合时序的深度引入长短时记忆网络的遗忘门,输出门,以及长短时记忆网络的最终输出上,在大量减少参数量的同时,提升了算法性能,而且,还可以根据需要将深度注意门单独作用于长短时记忆网络的遗忘门,输出门或最终输出上,也可以组合实现,增加了方法设计上的灵活性,且识别效率高,具有良好的应用前景。
附图说明
图1是本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法的流程图;
图2是本发明与其他算法平均识别率随训练时间变化的收敛曲线图;
图3是图2收敛后测试集识别结果的示意图;
图4是本发明与其他算法平均识别率随训练时间变化的收敛曲线图;
图5是图4收敛后测试集识别结果的示意图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
如图1所示,本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法,包括以下步骤,
步骤(A),将测试集语音进行端点检测并分帧,提取该测试集语音的时序相关特征,形成样本集,包括以下步骤,
(A1),将测试集语音进行端点检测,用于消除静默段保证从有效的语音信息提取时序相关特征;
(A2),将端点检测后的测试集语音按照640点为一帧进行分帧,帧间交叠50,划分为多个测试集语音帧数据;
(A3),将每帧测试集语音帧数据提取93维的时序相关特征,形成样本集,所述93维的时序相关特征,包括声音概率、谐噪比、基频、无声段的基频原始值、基频包络、连续周期之间的平均绝对差、连续周期之间的连续差的平均绝对差值、连续周期内插值峰值振幅的平均绝对差、谐波分量的均方根能量、噪声的均方根能量、响度、响度增量回归系数、15个美尔倒谱系数MFCC,15个MFCC的增量回归系数、26个美尔谱,8个对数美尔频段,8个线性预测编码系数、8个线谱对频率、过零率,该93维的时序相关特征能够完整且准确的表示出每帧测试集语音帧数据的基本特征;
步骤(B),将样本集中所有不同帧数的时序相关特征进行补零,使得各时序相关特征的向量数量与样本集中最长时序相关特征的帧数相同,形成测试数据集合,从而克服不同帧数的时序相关特征长度不一致的问题,在后续的训练集网络计算的循环之前,补零后语音数据的实际有效长度通过每帧数据的绝对值求和并判断是否为零来获得,并在长短时记忆网络中去根据实际长度决定是否计算下一个时刻信息;
步骤(C),建立长短时记忆网络(LSTM),并结合不同时刻的细胞状态来计算注意力门,形成长短时记忆网络的改进型细胞更新方法,该改进型细胞更新方法,关注前n个时刻的细胞状态的信息,其中,n的数值根据数据情况自定义,定义注意力门
Figure BDA0001846391210000101
如公式(1)所示,
Figure BDA0001846391210000102
其中,
Figure BDA0001846391210000103
V和Q为对之前某一时刻的细胞状态来计算注意力门的参数共享的可训练的矩阵,属于中间变量,
Figure BDA0001846391210000104
表示多个细胞状态的集合,Ct-n代表当前时刻的前n个时刻的细胞状态,
Figure BDA0001846391210000105
代表多个细胞状态的对齐向量的集合,
Figure BDA0001846391210000106
代表当前时刻的前n个时刻的细胞状态的对齐向量,sigmod(x)函数的表示式为
Figure BDA0001846391210000107
因此,长短时记忆网络的改进型细胞更新方法的表达式,如公式(2)所示,
Figure BDA0001846391210000111
其中,sigmod(x)函数的表示式为
Figure BDA0001846391210000112
Ct为t时刻的细胞状态,ht为t时刻的隐层输出,WC、bC分别为计算这一刻新的输入信息的权重和偏置,Wo、bo分别为计算输出门的权重和偏置,*表示Hadamard乘积,it为输入门,ot为输出门,xt为当前输入,
Figure BDA0001846391210000113
为当前需要加入细胞状态的候选信息;
步骤(D),利用长短时记忆网络的改进型细胞更新方法计算长短时记忆网络三维输出的特征注意力,并和最后时刻的状态结合输入全连接层,构建训练集训练网络,包括以下步骤,
(D1),对长短时记忆网络的输出H=[h1,...,ht]T的每个ht去计算一个自注意对齐向量,如公式(3)所示,
scoret=Vhtanh(Whht) (3)
其中,ht是t时刻的隐层输出,Vh和Wh为对ht计算自注意力对齐向量的可训练的矩阵;
(D2),每个时刻的分数的实际对齐权重
Figure BDA0001846391210000121
的计算,如公式(4)所示,
Figure BDA0001846391210000122
其中,k为特征的维度;
(D3),将每个时刻的分数的实际对齐权重
Figure BDA0001846391210000123
进行加权,如公式(5)所示,
Figure BDA0001846391210000126
其中,
Figure BDA0001846391210000124
为当前样本计算完特征注意力后输出的二维矩阵;
(D4),长短时记忆网络三维输出的特征注意力模型O,如公式(6)所示,
Figure BDA0001846391210000125
(D5),将长短时记忆网络三维输出的特征注意力模型O和最后时刻的状态结合输入全连接层,得到新的长短时记忆网络三维输出的特征注意力模型O′,如公式(7)所示,
O′=concat(h-1;O)
(7)
其中,h-1表示最后时刻的状态,concat函数用于将两个矩阵按特征维度拼接在一起;
步骤(E),根据训练集训练网络,每一步训练一个batch,每训练十步,就利用划分的测试集集合对该训练集训练网络的性能进行测试,并最终完成测试集的儿童情感识别。
根据本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法,图2-图5为该方法在特征注意力上的情感识别性能的对比,对比方法包括传统长短时记忆网络(LSTM),上述模型和特征注意力的结合(LSTM+c),以及特征注意力结合最后一刻输出状态的结合(LSTM+sc,本发明的方法),实验均采用单向两层LSTM堆叠结构,并使用了一个全连接层和一个softmax层作为训练模型,训练过程中,采用tanh作为激活函数,采用小批量梯度下降法,批量为64,对800个训练样本总共训练了1500个epochs,每次训练10个batch,通过对测试集打印一次测试的结果以验证模型的效果。为了保证对比有效性,以下实验的所有参数均完全相同(除了第一层全连接层,因为输入的维度不一样,但输出的维度是相同的),参数设置如表1所示。
表1网络参数
Figure BDA0001846391210000131
Figure BDA0001846391210000141
由图2所示的准确率变化曲线可知,对比3类模型可知,提出的LSTM+c在训练集和测试集上收敛速度和识别效果均高于LSTM,而LSTM+sc更优于LSTM+c;
图3为不同方法收敛后在测试集识别结果,LSTM+sc模型和LSTM+c模型均只有一个异常值,远小于传统LSTM模型的8个异常值,而且,LSTM+sc模型收敛后的识别率的最大值为0.900,最小值为0.780,均值为0.837,三者均高于LSTM+c模型的0.890,0.765和0.829,以及LSTM模型的0.870,0.745和0.805;
图4-图5为上述方法在3种注意力门的深度n的情感识别性能对比,对比方法包括传统长短时记忆网络+特征全连层(LSTM+sc)、上述模型与不同n(1,2,3)的注意力门相结合,即对应模型分别为LSTM+sc+deepf_1,LSTM+sc+deepf_2,LSTM+sc+deepf_3,实验设置如上所示;
由图4所示的准确率变化曲线可知,提出的LSTM+sc+deepf_n在训练集和测试集上收敛速度和识别效果均高于LSTM+sc。LSTM+deepf_2性能优于LSTM+deepf_1,但LSTM+deepf_3性能比LSTM+deepf_2的差,和LSTM+deepf_1类似。
图5为不同方法收敛后在测试集识别结果,LSTM+sc+deepf_3模型、LSTM+sc+deepf_2模型和LSTM+sc+deepf_1模型的三项指标(识别率的最大值,最小值和均值)分别为(0.930,0.835,0.886),(0.945,0.855,0.903)和(0.940,0.835,0.889),相比较LSTM+sc模型的相同指标(0.900,0.780,0.837)均有提升,且在深度为2时,算法性能达到最佳。
综上所述,本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法,将测试集语音进行端点检测且分帧切割,提取时序相关特征;对于长度不同的提取时序相关特征建立长短时记忆网络的处理算法;将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门以及最终输出上;最后,将待测样本输入训练过程中的改进长短时记忆网络,可显著识别出其情感信息,本发明通过将注意力机制结合时序的深度引入长短时记忆网络的遗忘门,输出门,以及长短时记忆网络的最终输出上,在大量减少参数量的同时,提升了算法性能,提出了三种基本注意力长短时记忆网络模型,并将其模块化,使得不同的模块组合在一起以进一步提高性能,最终表现性能显著,根据需要将深度注意门单独作用于长短时记忆网络的遗忘门,输出门或最终输出上,也可以组合实现,增加了方法设计上的灵活性,且识别效率高,具有良好的应用前景。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (4)

1.基于多重注意力机制长短时记忆网络的儿童情感识别方法,其特征在于:包括以下步骤,
步骤(A),将测试集语音进行端点检测并分帧,提取该测试集语音的时序相关特征,形成样本集,
包括以下步骤,
(A1),将测试集语音进行端点检测,用于消除静默段保证从有效的语音信息提取时序相关特征;
(A2),将端点检测后的测试集语音按照640点为一帧进行分帧,帧间交叠50,划分为多个测试集语音帧数据;
(A3),将每帧测试集语音帧数据提取93维的时序相关特征,形成样本集;
步骤(B),将样本集中所有不同帧数的时序相关特征进行补零,使得各时序相关特征的向量数量与样本集中最长时序相关特征的帧数相同,形成测试数据集合;
步骤(C),建立长短时记忆网络,并结合不同时刻的细胞状态来计算注意力门,形成长短时记忆网络的改进型细胞更新方法;
步骤(D),利用长短时记忆网络的改进型细胞更新方法计算长短时记忆网络三维输出的特征注意力,并和最后时刻的状态结合输入全连接层,构建训练集训练网络;
步骤(E),根据训练集训练网络,每一步训练一个batch,每训练十步,就利用划分的测试集集合对该训练集训练网络的性能进行测试,并最终完成测试集的儿童情感识别。
2.根据权利要求1所述的基于多重注意力机制长短时记忆网络的儿童情感识别方法,其特征在于:(A3),所述93维的时序相关特征,该93维的时序相关特征能够完整且准确的表示出每帧测试集语音帧数据的基本特征,包括声音概率、谐噪比、基频、无声段的基频原始值、基频包络、连续周期之间的平均绝对差、连续周期之间的连续差的平均绝对差值、连续周期内插值峰值振幅的平均绝对差、谐波分量的均方根能量、噪声的均方根能量、响度、响度增量回归系数、15个美尔倒谱系数MFCC,15个MFCC的增量回归系数、26个美尔谱,8个对数美尔频段,8个线性预测编码系数、8个线谱对频率、过零率。
3.根据权利要求1所述的基于多重注意力机制长短时记忆网络的儿童情感识别方法,其特征在于:步骤(C),建立长短时记忆网络,并结合不同时刻的细胞状态来计算注意力门,形成长短时记忆网络的改进型细胞更新方法,该改进型细胞更新方法,关注前n个时刻的细胞状态的信息,其中,n的数值根据数据情况自定义,定义注意力门
Figure FDA0003793971340000031
如公式(1)所示,
Figure FDA0003793971340000032
其中,
Figure FDA0003793971340000033
V和Q均为对之前某一时刻的细胞状态来计算注意力门的参数共享的可训练矩阵,
Figure FDA0003793971340000034
代表多个细胞状态的集合,Ct-n代表当前时刻的前n个时刻的细胞状态,
Figure FDA0003793971340000035
代表多个细胞状态的对齐向量的集合,
Figure FDA0003793971340000036
代表当前时刻的前n个时刻的细胞状态的对齐向量,sigmod(x)函数的表示式为
Figure FDA0003793971340000037
因此,长短时记忆网络的改进型细胞更新方法的表达式,如公式(2)所示,
Figure FDA0003793971340000038
其中,sigmod(x)函数的表示式为
Figure FDA0003793971340000041
Ct为t时刻的细胞状态,ht为t时刻的隐层输出,WC、bC分别为计算这一刻新的输入信息的权重和偏置,Wo、bo分别为计算输出门的权重和偏置,*表示Hadamard乘积,it为输入门,ot为输出门,xt为当前输入,
Figure FDA0003793971340000042
为当前需要加入细胞状态的候选信息。
4.根据权利要求1所述的基于多重注意力机制长短时记忆网络的儿童情感识别方法,其特征在于:步骤(D),利用长短时记忆网络的改进型细胞更新方法计算长短时记忆网络三维输出的特征注意力,并和最后时刻的状态结合输入全连接层,构建训练集训练网络,包括以下步骤,
(D1),对长短时记忆网络的输出H=[h1,...,ht]T的每个ht去计算一个自注意对齐向量,如公式(3)所示,
scoret=Vhtanh(Whht) (3)
其中,ht是t时刻的隐层输出,Vh和Wh为对ht计算自注意力对齐向量的可训练的矩阵;
(D2),每个时刻的分数的实际对齐权重
Figure FDA0003793971340000043
的计算,如公式(4)所示,
Figure FDA0003793971340000051
其中,k为特征的维度;
(D3),将每个时刻的分数的实际对齐权重
Figure FDA0003793971340000052
进行加权,如公式(5)所示,
Figure FDA0003793971340000053
其中,
Figure FDA0003793971340000054
为当前样本计算完特征注意力后输出的二维矩阵;
(D4),长短时记忆网络三维输出的特征注意力模型O,如公式(6)所示,
Figure FDA0003793971340000055
(D5),将长短时记忆网络三维输出的特征注意力模型O和最后时刻的状态结合输入全连接层,得到新的长短时记忆网络三维输出的特征注意力模型O′,如公式(7)所示,
O′=concat(h-1;O) (7)
其中,h-1表示最后时刻的状态,concat函数用于将两个矩阵按特征维度拼接在一起。
CN201811273105.9A 2018-10-30 2018-10-30 基于多重注意力机制长短时记忆网络的儿童情感识别方法 Active CN109243494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811273105.9A CN109243494B (zh) 2018-10-30 2018-10-30 基于多重注意力机制长短时记忆网络的儿童情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811273105.9A CN109243494B (zh) 2018-10-30 2018-10-30 基于多重注意力机制长短时记忆网络的儿童情感识别方法

Publications (2)

Publication Number Publication Date
CN109243494A CN109243494A (zh) 2019-01-18
CN109243494B true CN109243494B (zh) 2022-10-11

Family

ID=65079083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811273105.9A Active CN109243494B (zh) 2018-10-30 2018-10-30 基于多重注意力机制长短时记忆网络的儿童情感识别方法

Country Status (1)

Country Link
CN (1) CN109243494B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263321B (zh) * 2019-05-06 2023-06-09 成都数联铭品科技有限公司 一种情感词典构建方法及系统
CN110223714B (zh) * 2019-06-03 2021-08-03 杭州哲信信息技术有限公司 一种基于语音的情绪识别方法
CN110400579B (zh) * 2019-06-25 2022-01-11 华东理工大学 基于方向自注意力机制和双向长短时网络的语音情感识别
CN110515456B (zh) * 2019-08-14 2022-09-23 东南大学 基于注意力机制的脑电信号情感判别方法及装置
CN112185423B (zh) * 2020-09-28 2023-11-21 南京工程学院 基于多头注意力机制的语音情感识别方法
CN112686194B (zh) * 2021-01-06 2023-07-18 中山大学 第一人称视角动作识别方法、系统及存储介质
CN112967739B (zh) * 2021-02-26 2022-09-06 山东省计算中心(国家超级计算济南中心) 一种基于长短期记忆网络的语音端点检测方法及系统
CN113284515B (zh) * 2021-04-19 2023-05-02 大连海事大学 一种基于物理波和循环网络的语音情感识别方法
CN113053418A (zh) * 2021-04-30 2021-06-29 南京工程学院 一种基于长短时记忆网络快速识别语音情感类别的方法
CN113628639A (zh) * 2021-07-06 2021-11-09 哈尔滨理工大学 一种基于多头注意力机制的语音情感识别方法
CN113488052B (zh) * 2021-07-22 2022-09-02 深圳鑫思威科技有限公司 无线语音传输和ai语音识别互操控方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104538028A (zh) * 2014-12-25 2015-04-22 清华大学 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
KR101715118B1 (ko) * 2016-10-26 2017-03-10 가천대학교 산학협력단 문서 감정 분류용 딥러닝 인코딩 장치 및 방법.
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN107293291A (zh) * 2016-03-30 2017-10-24 中国科学院声学研究所 一种基于自适应学习率的端到端的语音识别方法
CN108446275A (zh) * 2018-03-21 2018-08-24 北京理工大学 基于注意力双层lstm的长文本情感倾向性分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
CN104538028A (zh) * 2014-12-25 2015-04-22 清华大学 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN107293291A (zh) * 2016-03-30 2017-10-24 中国科学院声学研究所 一种基于自适应学习率的端到端的语音识别方法
KR101715118B1 (ko) * 2016-10-26 2017-03-10 가천대학교 산학협력단 문서 감정 분류용 딥러닝 인코딩 장치 및 방법.
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN108446275A (zh) * 2018-03-21 2018-08-24 北京理工大学 基于注意力双层lstm的长文本情感倾向性分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于LSTM长短期记忆网络的情感分析;张原溥;《电子世界》;20180908(第17期);全文 *
基于卷积神经网络和长短时记忆神经网络的非特定人语音情感识别算法;姚增伟等;《新型工业化》;20180220(第02期);全文 *
基于改进的LSTM深度神经网络语音识别研究;赵淑芳等;《郑州大学学报(工学版)》;20180719(第05期);全文 *

Also Published As

Publication number Publication date
CN109243494A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN109243494B (zh) 基于多重注意力机制长短时记忆网络的儿童情感识别方法
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
CN109243493B (zh) 基于改进长短时记忆网络的婴儿哭声情感识别方法
CN108899051B (zh) 一种基于联合特征表示的语音情感识别模型及识别方法
CN110853680B (zh) 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法
CN103280220B (zh) 一种实时的婴儿啼哭声识别方法
CN105761720B (zh) 一种基于语音属性分类的交互系统及其方法
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
Han et al. Speech emotion recognition with a resnet-cnn-transformer parallel neural network
CN102890930A (zh) 基于hmm/sofmnn混合模型的语音情感识别方法
CN106504772B (zh) 基于重要性权重支持向量机分类器的语音情感识别方法
CN115762536A (zh) 一种基于桥接Transformer的小样本优化鸟声识别方法
Jiang et al. An Improved Speech Segmentation and Clustering Algorithm Based on SOM and K‐Means
CN111899766B (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
CN110827857A (zh) 基于谱特征和elm的语音情感识别方法
CN102945673A (zh) 一种语音指令范围动态变化的连续语音识别方法
CN112071308A (zh) 一种基于语音合成数据增强的唤醒词训练方法
CN107871499A (zh) 语音识别方法、系统、计算机设备及计算机可读存储介质
CN109065073A (zh) 基于深度svm网络模型的语音情感识别方法
CN111081273A (zh) 一种基于声门波信号特征提取的语音情感识别方法
CN110265063A (zh) 一种基于固定时长语音情感识别序列分析的测谎方法
Cao et al. Speaker-independent speech emotion recognition based on random forest feature selection algorithm
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN108831486B (zh) 基于dnn与gmm模型的说话人识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant