CN107609572A - 基于神经网络和迁移学习的多模态情感识别方法、系统 - Google Patents
基于神经网络和迁移学习的多模态情感识别方法、系统 Download PDFInfo
- Publication number
- CN107609572A CN107609572A CN201710698379.1A CN201710698379A CN107609572A CN 107609572 A CN107609572 A CN 107609572A CN 201710698379 A CN201710698379 A CN 201710698379A CN 107609572 A CN107609572 A CN 107609572A
- Authority
- CN
- China
- Prior art keywords
- video
- emotion
- mrow
- probability
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 142
- 238000013526 transfer learning Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000007935 neutral effect Effects 0.000 title abstract description 4
- 238000013528 artificial neural network Methods 0.000 claims abstract description 70
- 230000008909 emotion recognition Effects 0.000 claims abstract description 66
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000013508 migration Methods 0.000 claims description 18
- 230000005012 migration Effects 0.000 claims description 18
- 230000000306 recurrent effect Effects 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000005284 excitation Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 241000282414 Homo sapiens Species 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 206010028813 Nausea Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000037396 body weight Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及多模态情感计算领域,提出了一种基于神经网络和迁移学习的多模态情感识别方法、系统,旨在解决情感数据难以获取且标注困难,使得相应识别模型不能够充分训练,造成多模态情感识别准确率不能满足需求的问题,该方法基于大规模数据训练深度神经网络并通过迁移学习获取音频特征提取器、视频特征提取器,进而对多模态情感数据进行音频特征、视频特征的提取,从而识别各语音情感类别的概率、各视频情感类别的概率,并通概率值判断最终情感类别。该方法可以有效的融合音视频两个模态,提高了多模态情感识别的准确率。
Description
技术领域
本发明属于多模态情感计算领域,具体地涉及一种基于神经网络和迁移学习的多模态情感识别方法、系统。
背景技术
情感计算就是试图赋予机器类人的观察、理解和生成各种情感的能力,其研究目的是探索和理解情感在生物体重所扮演的角色,并提出相应的模型和方法来建立起机器的情感能力,增强其自治性、适应能力和社交能力。情感计算是有表现力的人机交互和人工智能领域重点关注的研究方向,涉及到智能科学、数学、神经学、生理科学等多个领域。
情感识别主要包括特征提取和分类器分类两个步骤。情感特征目前没有统一的标准,只是将相关的特征组合在一起。语音情感特征(即音频特征)通常使用韵律、频谱和音质特征,视频情感特征(即视频特征)则是借用图像识别中的LBP、HOG、SIFT等,并且还会依据不同的场景不同的数据库差异巨大,因此阻碍了情感识别的发展。对于分类器部分,传统的分类器隐马尔可夫链(HMM)、随机森林和支持向量机(SVM)都得到了很好的应用,特别是SVM在小数据集上能取得较好的效果。随着深度神经网络在语音识别和图像识别领域取得的巨大成功,深度神经网路在情感计算领域也得到了应用和发展,并取得了不错的效果。但是,由于情感数据难以获取且标注困难,因此情感数据库的规模往往受到限制,这就导致了在训练深度神经网络的时候网络训练不够充分,无法实现在具有大数据优势的语音识别和图像识别领域的优良性能。
人类通过语音和图像等多模态可以表达情感状态,并且各个模态之间互补。因此,情感识别可以充分利用多模态信息来增加其正确率。但是如何有效地进行多模态融合也是具有挑战性的问题。目前主要有两种方式,一种是特征层融合,就是提取各个模态的特征,然后组合成特征向量送入到分类器进行分类,但是会存在各个模态的采样率不匹配和高维度特征的问题;二是决策层融合,就是分别提取各个模态的特征分别送入到分类器中进行识别,最后对各个模态识别的结果进行融合得到最终的结果,但是这是假设各个模态独立,无法对多模态进行充分地利用。因此,情感识别需要探索更为有效的融合方式。
发明内容
为了解决现有技术中的上述问题,即为了解决情感数据难以获取且标注困难,使得相应识别模型不能够充分训练,造成多模态情感识别准确率不能满足需求的问题,本发明的一方面,提出了一种基于神经网络和迁移学习的多模态情感识别方法,包括以下步骤:
步骤S1,基于录入的多模态情感数据,分别利用音频特征提取器、视频特征提取器对应提取音频特征、视频特征;
步骤S2,分别基于所述音频特征、所述视频特征,识别各语音情感类别的概率、各视频情感类别的概率;
步骤S3,进行语音情感类别概率差值与视频情感类别概率差值的比较,若所述语音情感类别概率差值大于等于所述视频情感类别概率差值,则选择语音情感类别中概率值最大的类别为最终情感类别,否则选择视频情感类别中概率值最大的类别为最终情感类别;
其中,
所述音频特征提取器,基于大规模的语音识别数据训练的深度神经网络,通过迁移学习获取;
所述视频特征提取器,基于大规模的人脸数据训练的深度神经网络,通过迁移学习获取;
所述语音情感类别概率差值为所述各语音情感类别的概率中最大两个概率值的差值;
所述视频情感类别概率差值为所述各视频情感类别的概率中最大两个概率值的差值。
优选地,步骤S2中所述各语音情感类别的概率、和/或所述各视频情感类别的概率的识别,所利用的识别模型为深度递归神经网络,其计算公式为:
yt=fout(Whyht+by)
ht=fact(Wmhmt+Whhht-1+bh)
其中,mt为音频特征向量或者视频特征向量,ht为隐含层向量,yt为输出向量,fact为隐含层的激励函数,fout为输出层的激励函数,Wmh为输入层与隐含层的系数,Whh为隐含层与隐含层间的系数,Why是隐含层与输出层间的系数,by为输出层偏差,bh为隐含层偏差。
优选地,步骤S3中所述最终情感类别,其识别公式为:
其中,为语音情感识别模块识别结果中最高的概率值,且分类结果为i;为语音情感识别模块识别结果中第二的概率值,且分类结果为j;视频情感识别模块识别结果中最高的概率值,且分类结果为m;为视频情感识别模块识别结果中第二的概率值,且分类结果为n;l为最终情感类别。
优选地,所述视频特征提取器,其获取过程中所采用的深度神经网络为深度递归神经网络。
本发明的另一方面,提出了一种基于神经网络和迁移学习的多模态情感识别系统,包括语音特征提取模块、视频特征提取模块、语音情感识别模块、视频情感识别模块、音视频融合模块;
所述语音特征提取模块,配置为通过音频特征提取器提取输入语音的音频特征;
所述视频特征提取模块,配置为通过视频特征提取器提取输入视频的视频特征;
所述语音情感识别模块,配置为利用所述语音特征提取模块输出的音频特征识别各语音情感类别的概率;
所述视频情感识别模块,配置为利用所述视频特征提取模块输出的视频特征识别各视频情感类别的概率;
所述音视频融合模块,配置为进行语音情感类别概率差值与视频情感类别概率差值的比较,若所述语音情感类别概率差值大于等于所述视频情感类别概率差值,则选择语音情感类别中概率值最大的类别为最终情感类别,否则选择视频情感类别中概率值最大的类别为最终情感类别;
其中,
所述音频特征提取器,基于大规模的语音识别数据训练的深度神经网络,通过迁移学习获取;
所述视频特征提取器,基于大规模的人脸数据训练的深度神经网络,通过迁移学习获取;
所述语音情感类别概率差值为所述各语音情感类别的概率中最大两个概率值的差值;
所述视频情感类别概率差值为所述各视频情感类别的概率中最大两个概率值的差值。
优选地,该系统还包括语音迁移学习模块、视频迁移学习模块;
所述语音迁移学习模块,配置为基于大规模的语音识别数据训练的深度神经网络,通过迁移学习获取所述音频特征提取器;
所述视频迁移学习模块,配置为基于大规模的人脸数据训练的深度神经网络,通过迁移学习获取所述视频特征提取器。
优选地,所述各语音情感类别的概率、和/或所述各视频情感类别的概率的识别,所利用的识别模型为深度递归神经网络,其计算公式为:
yt=fout(Whyht+by)
ht=fact(Wmhmt+Whhht-1+bh)
其中,mt为音频特征向量或者视频特征向量,ht为隐含层向量,yt为输出向量,fact为隐含层的激励函数,fout为输出层的激励函数,Wmh为输入层与隐含层的系数,Whh为隐含层与隐含层间的系数,Why是隐含层与输出层间的系数,by为输出层偏差,bh为隐含层偏差。
优选地,所述最终情感类别,其识别公式为:
其中,为语音情感识别模块识别结果中最高的概率值,且分类结果为i;为语音情感识别模块识别结果中第二的概率值,且分类结果为j;视频情感识别模块识别结果中最高的概率值,且分类结果为m;为视频情感识别模块识别结果中第二的概率值,且分类结果为n;l为最终情感类别。
优选地,所述视频特征提取器,其获取过程中所采用的深度神经网络为深度递归神经网络。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于神经网络和迁移学习的多模态情感识别方法。
本发明的第四方面,提出了一种处理装置,包括
处理器,适于执行各条程序;以及
存储设备,适于存储多条程序;
所述程序适于由处理器加载并执行以实现:
上述的基于神经网络和迁移学习的多模态情感识别方法。
从上述技术方案可以看出,本发明具有以下有益效果:
(1)本发明中,通过利用大规模的语音识别数据训练深度神经网络,迁移学习当作音频特征提取器提取鲁棒的高层音频情感特征,相比于传统的语音情感特征有助于语音情感识别模块的训练;
(2)本发明中,通过利用大规模的人脸数据训练深度卷积神经网络,迁移学习当作视频特征提取器提取鲁棒的高层视频情感特征,相比于传统的视频情感特征有助于视频情感识别模块的训练;
(3)本发明中,在语音情感识别模块和视频情感识别模块中采用深度递归神经网络,对情感的时序特征进行建模,有效利用其动态过程中的上下文信息进行情感状态识别;
(4)本发明中,在音视频融合模块,比较语音情感识别模块识别结果的前两个概率值之差与视频情感识别模块识别结果的前两个概率值之差,取较大的概率差值对应的识别结果,有效的融合音视频两个模态,提高了多模态情感识别的准确率。
附图说明
图1是本发明实施例基于神经网络和迁移学习的多模态情感识别方法的流程示意图;
图2是本发明实施例基于神经网络和迁移学习的多模态情感识别系统的框架示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明基于神经网络和迁移学习的多模态情感识别方法中,利用迁移学习通过语音识别大数据训练深度神经网络并迁移学习得到语音特征提取器,利用迁移学习通过人脸大数据训练深度卷积神经网络并迁移学习得到视频特征提取器,提取到的音频特征和视频特征分别送入到语音情感识别和视频情感识别,最终对得到的两个模态的结果进行音视频融合,有效地提高了多模态情感识别的准确率。
本发明的一种实施例的基于神经网络和迁移学习的多模态情感识别方法,如图1所示,包括以下步骤:
步骤S1,基于录入的多模态情感数据,分别利用音频特征提取器、视频特征提取器对应提取音频特征、视频特征;
步骤S2,分别基于所述音频特征、所述视频特征,识别各语音情感类别的概率、各视频情感类别的概率;
步骤S3,进行语音情感类别概率差值与视频情感类别概率差值的比较,若所述语音情感类别概率差值大于等于所述视频情感类别概率差值,则选择语音情感类别中概率值最大的类别为最终情感类别,否则选择视频情感类别中概率值最大的类别为最终情感类别。
本实施例中的音频特征提取器,基于大规模的语音识别数据训练的深度神经网络,通过迁移学习获取。具体描述如下:首先定义一个深度神经网络,用大规模的语音识别数据训练此深度神经网络,将训练好的深度神经网络当作音频特征提取器,在使用时,可以将语音wav文件输入到此训练好的深度神经网络得到音频情感特征。这个思路应用到了迁移学习的思路。
本实施例中的视频特征提取器,基于大规模的人脸数据训练的深度神经网络,通过迁移学习获取。具体描述如下:首先定义一个深度递归神经网络,用大规模的人脸数据训练此深度递归神经网络,将训练好的深度递归神经网络当作视频特征提取器,在使用时,可以将从视频中得到的图片输入到此训练好的深度递归神经网络得到视频情感特征。这个思路应用到了迁移学习的思路。因为在语音识别和人脸识别任务不同,所以选用不同的深度神经网络。
本实施例中的语音情感类别概率差值为所述各语音情感类别的概率中最大两个概率值的差值。
本实施例中的视频情感类别概率差值为所述各视频情感类别的概率中最大两个概率值的差值。
本实施例中的步骤S2中,各语音情感类别的概率、所述各视频情感类别的概率的识别,所利用的识别模型均可以采用深度递归神经网络,其计算如公式(1)、(2)所示:
yt=fout(Whyht+by) (1)
ht=fact(Wmhmt+Whhht-1+bh) (2)
其中,mt为音频特征向量或者视频特征向量,ht为隐含层向量,yt为输出向量,fact为隐含层的激励函数,fout为输出层的激励函数,Wmh为输入层与隐含层的系数,Whh为隐含层与隐含层间的系数,Why是隐含层与输出层间的系数,by为输出层偏差,bh为隐含层偏差。
本实施例的步骤S3中,最终情感类别的识别通过公式(3)来进行判断:
其中,为语音情感识别模块识别结果中最高的概率值,且分类结果为i;为语音情感识别模块识别结果中第二的概率值,且分类结果为j;视频情感识别模块识别结果中最高的概率值,且分类结果为m;为视频情感识别模块识别结果中第二的概率值,且分类结果为n;l为最终情感类别。融合时,比较语音情感识别模块识别结果的前两个概率值之差与视频情感识别模块识别结果的前两个概率值之差,取较大的概率差值对应的识别结果,有效的融合音视频两个模态,提高了多模态情感识别的准确率。
本实施例中,视频特征提取器的获取过程中所采用的深度神经网络为深度递归神经网络。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
本发明的基于神经网络和迁移学习的多模态情感识别系统,其主要的构成为语音特征提取模块、视频特征提取模块、语音情感识别模块、视频情感识别模块、音视频融合模块,还可以包括语音迁移学习模块、视频迁移学习模块。为了更好的对本发明的基于神经网络和迁移学习的多模态情感识别系统进行描述,通过包含完整构架的系统进行展开描述,如图2所示,包括语音迁移学习模块1、视频迁移学习模块2、语音特征提取模块3、视频特征提取模块4、语音情感识别模块5、视频情感识别模块6、音视频融合模块7。
所述语音迁移学习模块1与语音特征提取模块3相连接,为语音特征提取模块3提供音频特征提取器;所述视频迁移学习模块2与视频特征提取模块4相连接,为视频特征提取模块4提供视频特征提取器;所述语音特征提取模块3设置有输入语音的端口,其输出与语音情感识别模块5相连接;所述视频特征提取模块4设置有输入视频的端口,其输出与视频情感识别模块6相连接;语音情感识别模块5与视频情感识别模块6的输出端分别与音视频融合模块7的输入端相连接,将识别结果输送至音视频融合模块7进行处理,并通过其输出端输出结果作为所识别的最终情感类别。情感种类共有七类,分别为生气(angry),恶心(disgust),恐惧(fear),高兴(happy),悲伤(sad),惊喜(surprise)和中性(neutral),最终情感类别为其中之一。
语音迁移学习模块1,配置为基于大规模的语音识别数据训练的深度神经网络,通过迁移学习获取所述音频特征提取器。具体描述为:采用深度神经网络模型,并且利用大规模的语音识别数据来进行训练,将训练好的网络当作音频特征提取器,并提供给语音特征提取模块3。
语音特征提取模块3配置为通过音频特征提取器提取输入语音的音频特征。具体描述为:将语音文件分帧送入语音特征提取模块3,通过语音特征提取模块3中的音频特征提取器提取鲁棒的高层音频特征(语音情感特征)。
视频迁移学习模块2,配置为基于大规模的人脸数据训练的深度神经网络,通过迁移学习获取所述视频特征提取器。具体描述为:采用深度递归神经网络模型,并且利用大规模的人脸数据库来进行训练,将训练好的网络当作视频情感特征提取器,并提供给视频特征提取模块4。
视频特征提取模块4配置为通过视频特征提取器提取输入视频的视频特征。具体描述为:提取视频中的人脸图片送入视频特征提取模块4,通过视频特征提取模块4中的视频情感特征提取器提取鲁棒的高层视频特征(即视频情感特征)。
语音情感识别模块5,配置为利用所述语音特征提取模块3输出的音频特征识别各语音情感类别的概率;视频情感识别模块6,配置为利用所述视频特征提取模块4输出的视频特征识别各视频情感类别的概率;各语音情感类别的概率、所述各视频情感类别的概率的识别,所利用的识别模型均可以采用深度递归神经网络,其计算如公式(1)、(2)所示。
音视频融合模块7,配置为进行语音情感类别概率差值与视频情感类别概率差值的比较,若所述语音情感类别概率差值大于等于所述视频情感类别概率差值,则选择语音情感类别中概率值最大的类别为最终情感类别,否则选择视频情感类别中概率值最大的类别为最终情感类别;最终情感类别的识别通过公式(3)来进行判断。
视频特征提取器的获取过程中所采用的深度神经网络为深度递归神经网络。
本发明一种实施例的存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于神经网络和迁移学习的多模态情感识别方法。
本发明一种实施例的处理装置,包括处理器、存储设备;处理器,适于执行各条程序;存储设备,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于神经网络和迁移学习的多模态情感识别方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (11)
1.一种基于神经网络和迁移学习的多模态情感识别方法,其特征在于,包括以下步骤:
步骤S1,基于录入的多模态情感数据,分别利用音频特征提取器、视频特征提取器对应提取音频特征、视频特征;
步骤S2,分别基于所述音频特征、所述视频特征,识别各语音情感类别的概率、各视频情感类别的概率;
步骤S3,进行语音情感类别概率差值与视频情感类别概率差值的比较,若所述语音情感类别概率差值大于等于所述视频情感类别概率差值,则选择语音情感类别中概率值最大的类别为最终情感类别,否则选择视频情感类别中概率值最大的类别为最终情感类别;
其中,
所述音频特征提取器,基于大规模的语音识别数据训练的深度神经网络,通过迁移学习获取;
所述视频特征提取器,基于大规模的人脸数据训练的深度神经网络,通过迁移学习获取;
所述语音情感类别概率差值为所述各语音情感类别的概率中最大两个概率值的差值;
所述视频情感类别概率差值为所述各视频情感类别的概率中最大两个概率值的差值。
2.根据权利要求1所述的多模态情感识别方法,其特征在于,步骤S2中所述各语音情感类别的概率、和/或所述各视频情感类别的概率的识别,所利用的识别模型为深度递归神经网络,其计算公式为:
yt=fout(Whyht+by)
ht=fact(Wmhmt+Whhht-1+bh)
其中,mt为音频特征向量或者视频特征向量,ht为隐含层向量,yt为输出向量,fact为隐含层的激励函数,fout为输出层的激励函数,Wmh为输入层与隐含层的系数,Whh为隐含层与隐含层间的系数,Why是隐含层与输出层间的系数,by为输出层偏差,bh为隐含层偏差。
3.根据权利要求2所述的多模态情感识别方法,其特征在于,步骤S3中所述最终情感类别,其识别公式为:
<mrow>
<mi>l</mi>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>m</mi>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>(</mo>
<msubsup>
<mi>y</mi>
<mrow>
<mn>1</mn>
<mo>,</mo>
<mi>m</mi>
</mrow>
<mi>v</mi>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>y</mi>
<mrow>
<mn>2</mn>
<mo>,</mo>
<mi>n</mi>
</mrow>
<mi>v</mi>
</msubsup>
<mo>)</mo>
<mo>&GreaterEqual;</mo>
<mo>(</mo>
<msubsup>
<mi>y</mi>
<mrow>
<mn>1</mn>
<mo>,</mo>
<mi>i</mi>
</mrow>
<mi>a</mi>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>y</mi>
<mrow>
<mn>2</mn>
<mo>,</mo>
<mi>j</mi>
</mrow>
<mi>a</mi>
</msubsup>
<mo>)</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>i</mi>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>o</mi>
<mi>t</mi>
<mi>h</mi>
<mi>e</mi>
<mi>r</mi>
<mi>w</mi>
<mi>i</mi>
<mi>s</mi>
<mi>e</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
其中,为语音情感识别模块识别结果中最高的概率值,且分类结果为i;为语音情感识别模块识别结果中第二的概率值,且分类结果为j;视频情感识别模块识别结果中最高的概率值,且分类结果为m;为视频情感识别模块识别结果中第二的概率值,且分类结果为n;l为最终情感类别。
4.根据权利要求1-3任一项所述的多模态情感识别方法,其特征在于,所述视频特征提取器,其获取过程中所采用的深度神经网络为深度递归神经网络。
5.一种基于神经网络和迁移学习的多模态情感识别系统,其特征在于,包括语音特征提取模块、视频特征提取模块、语音情感识别模块、视频情感识别模块、音视频融合模块;
所述语音特征提取模块,配置为通过音频特征提取器提取输入语音的音频特征;
所述视频特征提取模块,配置为通过视频特征提取器提取输入视频的视频特征;
所述语音情感识别模块,配置为利用所述语音特征提取模块输出的音频特征识别各语音情感类别的概率;
所述视频情感识别模块,配置为利用所述视频特征提取模块输出的视频特征识别各视频情感类别的概率;
所述音视频融合模块,配置为进行语音情感类别概率差值与视频情感类别概率差值的比较,若所述语音情感类别概率差值大于等于所述视频情感类别概率差值,则选择语音情感类别中概率值最大的类别为最终情感类别,否则选择视频情感类别中概率值最大的类别为最终情感类别;
其中,
所述音频特征提取器,基于大规模的语音识别数据训练的深度神经网络,通过迁移学习获取;
所述视频特征提取器,基于大规模的人脸数据训练的深度神经网络,通过迁移学习获取;
所述语音情感类别概率差值为所述各语音情感类别的概率中最大两个概率值的差值;
所述视频情感类别概率差值为所述各视频情感类别的概率中最大两个概率值的差值。
6.根据权利要求5所述的多模态情感识别系统,其特征在于,该系统还包括语音迁移学习模块、视频迁移学习模块;
所述语音迁移学习模块,配置为基于大规模的语音识别数据训练的深度神经网络,通过迁移学习获取所述音频特征提取器;
所述视频迁移学习模块,配置为基于大规模的人脸数据训练的深度神经网络,通过迁移学习获取所述视频特征提取器。
7.根据权利要求6所述的多模态情感识别系统,其特征在于,所述各语音情感类别的概率、和/或所述各视频情感类别的概率的识别,所利用的识别模型为深度递归神经网络,其计算公式为:
yt=fout(Whyht+by)
ht=fact(Wmhmt+Whhht-1+bh)
其中,mt为音频特征向量或者视频特征向量,ht为隐含层向量,yt为输出向量,fact为隐含层的激励函数,fout为输出层的激励函数,Wmh为输入层与隐含层的系数,Whh为隐含层与隐含层间的系数,Why是隐含层与输出层间的系数,by为输出层偏差,bh为隐含层偏差。
8.根据权利要求7所述的多模态情感识别系统,其特征在于,所述最终情感类别,其识别公式为:
<mrow>
<mi>l</mi>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>m</mi>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>(</mo>
<msubsup>
<mi>y</mi>
<mrow>
<mn>1</mn>
<mo>,</mo>
<mi>m</mi>
</mrow>
<mi>v</mi>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>y</mi>
<mrow>
<mn>2</mn>
<mo>,</mo>
<mi>n</mi>
</mrow>
<mi>v</mi>
</msubsup>
<mo>)</mo>
<mo>&GreaterEqual;</mo>
<mo>(</mo>
<msubsup>
<mi>y</mi>
<mrow>
<mn>1</mn>
<mo>,</mo>
<mi>i</mi>
</mrow>
<mi>a</mi>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>y</mi>
<mrow>
<mn>2</mn>
<mo>,</mo>
<mi>j</mi>
</mrow>
<mi>a</mi>
</msubsup>
<mo>)</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>i</mi>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>o</mi>
<mi>t</mi>
<mi>h</mi>
<mi>e</mi>
<mi>r</mi>
<mi>w</mi>
<mi>i</mi>
<mi>s</mi>
<mi>e</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
其中,为语音情感识别模块识别结果中最高的概率值,且分类结果为i;为语音情感识别模块识别结果中第二的概率值,且分类结果为j;视频情感识别模块识别结果中最高的概率值,且分类结果为m;为视频情感识别模块识别结果中第二的概率值,且分类结果为n;l为最终情感类别。
9.根据权利要求5-8任一项所述的多模态情感识别系统,其特征在于,所述视频特征提取器,其获取过程中所采用的深度神经网络为深度递归神经网络。
10.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-4任一项所述的基于神经网络和迁移学习的多模态情感识别方法。
11.一种处理装置,包括
处理器,适于执行各条程序;以及
存储设备,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-4任一项所述的基于神经网络和迁移学习的多模态情感识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710698379.1A CN107609572B (zh) | 2017-08-15 | 2017-08-15 | 基于神经网络和迁移学习的多模态情感识别方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710698379.1A CN107609572B (zh) | 2017-08-15 | 2017-08-15 | 基于神经网络和迁移学习的多模态情感识别方法、系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107609572A true CN107609572A (zh) | 2018-01-19 |
CN107609572B CN107609572B (zh) | 2021-04-02 |
Family
ID=61064979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710698379.1A Active CN107609572B (zh) | 2017-08-15 | 2017-08-15 | 基于神经网络和迁移学习的多模态情感识别方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107609572B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108734208A (zh) * | 2018-05-15 | 2018-11-02 | 重庆大学 | 基于多模态深度迁移学习机制的多源异构数据融合系统 |
CN109147826A (zh) * | 2018-08-22 | 2019-01-04 | 平安科技(深圳)有限公司 | 音乐情感识别方法、装置、计算机设备及计算机存储介质 |
CN109242014A (zh) * | 2018-08-29 | 2019-01-18 | 沈阳康泰电子科技股份有限公司 | 一种基于多源微特征的深度神经网络心理语义标注方法 |
CN109389037A (zh) * | 2018-08-30 | 2019-02-26 | 中国地质大学(武汉) | 一种基于深度森林和迁移学习的情感分类方法 |
CN109447129A (zh) * | 2018-09-29 | 2019-03-08 | 平安科技(深圳)有限公司 | 一种多模式情绪识别方法、装置及计算机可读存储介质 |
CN109615077A (zh) * | 2018-10-17 | 2019-04-12 | 合肥工业大学 | 基于对话的情感状态建模和情感迁移方法及装置 |
CN110188343A (zh) * | 2019-04-22 | 2019-08-30 | 浙江工业大学 | 基于融合注意力网络的多模态情感识别方法 |
CN110309327A (zh) * | 2018-02-28 | 2019-10-08 | 北京搜狗科技发展有限公司 | 音频生成方法、装置以及用于音频的生成装置 |
CN110401847A (zh) * | 2019-07-17 | 2019-11-01 | 咪咕文化科技有限公司 | 云dvr视频的压缩存储方法、电子设备及系统 |
CN110675859A (zh) * | 2019-09-05 | 2020-01-10 | 华南理工大学 | 结合语音与文本的多情感识别方法、系统、介质及设备 |
CN110801227A (zh) * | 2019-12-09 | 2020-02-18 | 中国科学院计算技术研究所 | 基于可穿戴设备的立体色块障碍测试的方法和系统 |
CN111292765A (zh) * | 2019-11-21 | 2020-06-16 | 台州学院 | 一种融合多个深度学习模型的双模态情感识别方法 |
CN112347910A (zh) * | 2020-11-05 | 2021-02-09 | 中国电子科技集团公司第二十九研究所 | 一种基于多模态深度学习的信号指纹识别方法 |
CN112418172A (zh) * | 2020-12-11 | 2021-02-26 | 苏州元启创人工智能科技有限公司 | 基于多模信息智能处理单元的多模信息融合情感分析方法 |
CN112633263A (zh) * | 2021-03-09 | 2021-04-09 | 中国科学院自动化研究所 | 海量音视频情感识别系统 |
WO2021134277A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN113326868A (zh) * | 2021-05-06 | 2021-08-31 | 南京邮电大学 | 一种用于多模态情感分类的决策层融合方法 |
CN113903362A (zh) * | 2021-08-26 | 2022-01-07 | 电子科技大学 | 一种基于神经网络的语音情感识别方法 |
CN113033450B (zh) * | 2021-04-02 | 2022-06-24 | 山东大学 | 多模态连续情感识别方法、服务推理方法及系统 |
CN114724222A (zh) * | 2022-04-14 | 2022-07-08 | 浙江康旭科技有限公司 | 一种基于多模态的ai数字人情感分析方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101887721A (zh) * | 2010-07-19 | 2010-11-17 | 东南大学 | 一种基于心电信号与语音信号的双模态情感识别方法 |
CN102930298A (zh) * | 2012-09-02 | 2013-02-13 | 北京理工大学 | 基于多层增强hmm的语音-视觉融合的情感识别方法 |
CN105469065A (zh) * | 2015-12-07 | 2016-04-06 | 中国科学院自动化研究所 | 一种基于递归神经网络的离散情感识别方法 |
CN105976809A (zh) * | 2016-05-25 | 2016-09-28 | 中国地质大学(武汉) | 基于语音和面部表情的双模态情感融合的识别方法及系统 |
CN106019973A (zh) * | 2016-07-30 | 2016-10-12 | 杨超坤 | 一种具有情感识别功能的智能家居 |
CN106250855A (zh) * | 2016-08-02 | 2016-12-21 | 南京邮电大学 | 一种基于多核学习的多模态情感识别方法 |
CN106919251A (zh) * | 2017-01-09 | 2017-07-04 | 重庆邮电大学 | 一种基于多模态情感识别的虚拟学习环境自然交互方法 |
-
2017
- 2017-08-15 CN CN201710698379.1A patent/CN107609572B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101887721A (zh) * | 2010-07-19 | 2010-11-17 | 东南大学 | 一种基于心电信号与语音信号的双模态情感识别方法 |
CN102930298A (zh) * | 2012-09-02 | 2013-02-13 | 北京理工大学 | 基于多层增强hmm的语音-视觉融合的情感识别方法 |
CN105469065A (zh) * | 2015-12-07 | 2016-04-06 | 中国科学院自动化研究所 | 一种基于递归神经网络的离散情感识别方法 |
CN105976809A (zh) * | 2016-05-25 | 2016-09-28 | 中国地质大学(武汉) | 基于语音和面部表情的双模态情感融合的识别方法及系统 |
CN106019973A (zh) * | 2016-07-30 | 2016-10-12 | 杨超坤 | 一种具有情感识别功能的智能家居 |
CN106250855A (zh) * | 2016-08-02 | 2016-12-21 | 南京邮电大学 | 一种基于多核学习的多模态情感识别方法 |
CN106919251A (zh) * | 2017-01-09 | 2017-07-04 | 重庆邮电大学 | 一种基于多模态情感识别的虚拟学习环境自然交互方法 |
Non-Patent Citations (2)
Title |
---|
YING HUANG ET AL.: "Transfer Learning of Deep Neural Network for Speech Emotion Recognition", 《SPRINGERLINK》 * |
张石清: "基于语音和人脸的情感识别研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309327A (zh) * | 2018-02-28 | 2019-10-08 | 北京搜狗科技发展有限公司 | 音频生成方法、装置以及用于音频的生成装置 |
CN108734208A (zh) * | 2018-05-15 | 2018-11-02 | 重庆大学 | 基于多模态深度迁移学习机制的多源异构数据融合系统 |
CN109147826A (zh) * | 2018-08-22 | 2019-01-04 | 平安科技(深圳)有限公司 | 音乐情感识别方法、装置、计算机设备及计算机存储介质 |
CN109147826B (zh) * | 2018-08-22 | 2022-12-27 | 平安科技(深圳)有限公司 | 音乐情感识别方法、装置、计算机设备及计算机存储介质 |
CN109242014A (zh) * | 2018-08-29 | 2019-01-18 | 沈阳康泰电子科技股份有限公司 | 一种基于多源微特征的深度神经网络心理语义标注方法 |
CN109242014B (zh) * | 2018-08-29 | 2021-10-22 | 沈阳康泰电子科技股份有限公司 | 一种基于多源微特征的深度神经网络心理语义标注方法 |
CN109389037A (zh) * | 2018-08-30 | 2019-02-26 | 中国地质大学(武汉) | 一种基于深度森林和迁移学习的情感分类方法 |
CN109389037B (zh) * | 2018-08-30 | 2021-05-11 | 中国地质大学(武汉) | 一种基于深度森林和迁移学习的情感分类方法 |
CN109447129A (zh) * | 2018-09-29 | 2019-03-08 | 平安科技(深圳)有限公司 | 一种多模式情绪识别方法、装置及计算机可读存储介质 |
CN109447129B (zh) * | 2018-09-29 | 2023-04-18 | 平安科技(深圳)有限公司 | 一种多模式情绪识别方法、装置及计算机可读存储介质 |
CN109615077A (zh) * | 2018-10-17 | 2019-04-12 | 合肥工业大学 | 基于对话的情感状态建模和情感迁移方法及装置 |
CN110188343A (zh) * | 2019-04-22 | 2019-08-30 | 浙江工业大学 | 基于融合注意力网络的多模态情感识别方法 |
CN110188343B (zh) * | 2019-04-22 | 2023-01-31 | 浙江工业大学 | 基于融合注意力网络的多模态情感识别方法 |
CN110401847A (zh) * | 2019-07-17 | 2019-11-01 | 咪咕文化科技有限公司 | 云dvr视频的压缩存储方法、电子设备及系统 |
CN110675859A (zh) * | 2019-09-05 | 2020-01-10 | 华南理工大学 | 结合语音与文本的多情感识别方法、系统、介质及设备 |
CN110675859B (zh) * | 2019-09-05 | 2021-11-23 | 华南理工大学 | 结合语音与文本的多情感识别方法、系统、介质及设备 |
CN111292765A (zh) * | 2019-11-21 | 2020-06-16 | 台州学院 | 一种融合多个深度学习模型的双模态情感识别方法 |
CN110801227A (zh) * | 2019-12-09 | 2020-02-18 | 中国科学院计算技术研究所 | 基于可穿戴设备的立体色块障碍测试的方法和系统 |
CN110801227B (zh) * | 2019-12-09 | 2021-07-20 | 中国科学院计算技术研究所 | 基于可穿戴设备的立体色块障碍测试的方法和系统 |
WO2021134277A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN112347910A (zh) * | 2020-11-05 | 2021-02-09 | 中国电子科技集团公司第二十九研究所 | 一种基于多模态深度学习的信号指纹识别方法 |
CN112418172A (zh) * | 2020-12-11 | 2021-02-26 | 苏州元启创人工智能科技有限公司 | 基于多模信息智能处理单元的多模信息融合情感分析方法 |
CN112633263A (zh) * | 2021-03-09 | 2021-04-09 | 中国科学院自动化研究所 | 海量音视频情感识别系统 |
CN113033450B (zh) * | 2021-04-02 | 2022-06-24 | 山东大学 | 多模态连续情感识别方法、服务推理方法及系统 |
CN113326868B (zh) * | 2021-05-06 | 2022-07-15 | 南京邮电大学 | 一种用于多模态情感分类的决策层融合方法 |
CN113326868A (zh) * | 2021-05-06 | 2021-08-31 | 南京邮电大学 | 一种用于多模态情感分类的决策层融合方法 |
CN113903362A (zh) * | 2021-08-26 | 2022-01-07 | 电子科技大学 | 一种基于神经网络的语音情感识别方法 |
CN113903362B (zh) * | 2021-08-26 | 2023-07-21 | 电子科技大学 | 一种基于神经网络的语音情感识别方法 |
CN114724222A (zh) * | 2022-04-14 | 2022-07-08 | 浙江康旭科技有限公司 | 一种基于多模态的ai数字人情感分析方法 |
CN114724222B (zh) * | 2022-04-14 | 2024-04-19 | 康旭科技有限公司 | 一种基于多模态的ai数字人情感分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107609572B (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609572B (zh) | 基于神经网络和迁移学习的多模态情感识别方法、系统 | |
CN112651448B (zh) | 一种面向社交平台表情包的多模态情感分析方法 | |
CN109409222B (zh) | 一种基于移动端的多视角人脸表情识别方法 | |
CN110188343B (zh) | 基于融合注意力网络的多模态情感识别方法 | |
CN110046656B (zh) | 基于深度学习的多模态场景识别方法 | |
CN108596039B (zh) | 一种基于3d卷积神经网络的双模态情感识别方法及系统 | |
CN111061843B (zh) | 一种知识图谱引导的假新闻检测方法 | |
CN106056207B (zh) | 一种基于自然语言的机器人深度交互与推理方法与装置 | |
CN105122279B (zh) | 在识别系统中保守地适配深度神经网络 | |
CN111161715B (zh) | 一种基于序列分类的特定声音事件检索与定位的方法 | |
CN111046673B (zh) | 一种用于防御文本恶意样本的对抗生成网络的训练方法 | |
CN114973062B (zh) | 基于Transformer的多模态情感分析方法 | |
CN112818861A (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN109165563A (zh) | 行人再识别方法和装置、电子设备、存储介质、程序产品 | |
KR20210052036A (ko) | 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법 | |
CN114330334A (zh) | 一种基于知识图谱和跨模态注意力的多模态反讽检测方法 | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 | |
Rwelli et al. | Gesture based Arabic sign language recognition for impaired people based on convolution neural network | |
CN117668292A (zh) | 一种跨模态敏感信息识别方法 | |
Devi et al. | Dive in Deep Learning: Computer Vision, Natural Language Processing, and Signal Processing | |
CN110633689B (zh) | 基于半监督注意力网络的人脸识别模型 | |
CN111653270A (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
US20080232682A1 (en) | System and method for identifying patterns | |
CN114898775A (zh) | 一种基于跨层交叉融合的语音情绪识别方法及系统 | |
Bharti et al. | Automated speech to sign language conversion using Google API and NLP |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |