CN116933051A - 一种用于模态缺失场景的多模态情感识别方法及系统 - Google Patents
一种用于模态缺失场景的多模态情感识别方法及系统 Download PDFInfo
- Publication number
- CN116933051A CN116933051A CN202310840266.6A CN202310840266A CN116933051A CN 116933051 A CN116933051 A CN 116933051A CN 202310840266 A CN202310840266 A CN 202310840266A CN 116933051 A CN116933051 A CN 116933051A
- Authority
- CN
- China
- Prior art keywords
- features
- mode
- feature
- text
- missing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 36
- 230000000007 visual effect Effects 0.000 claims abstract description 91
- 230000004927 fusion Effects 0.000 claims abstract description 78
- 230000008451 emotion Effects 0.000 claims abstract description 47
- 230000007246 mechanism Effects 0.000 claims abstract description 30
- 238000013507 mapping Methods 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims description 71
- 230000006870 function Effects 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 18
- 238000012217 deletion Methods 0.000 claims description 13
- 230000037430 deletion Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及情感识别技术领域,尤其涉及一种用于模态缺失场景的多模态情感识别方法及系统,包括:获取缺失情况特征和多模态联合特征;利用自注意力机制对各模态高级特征、多模态联合特征和缺失情况特征进行缺失模态特征重构,得到多模态重构特征;将重构视觉特征、重构音频特征映射到重构文本特征空间,并利用多模态门控融合机制进行两两模态间的特征融合,得到文本视觉融合特征和文本音频融合特征,以进行情感类别分类,得到情感类别预测结果。本发明通过重构缺失的多模态数据以及考虑各模态之间的语义特征差异性,增强了模态缺失场景下的分类鲁棒性,提高了情感分类的准确率,在实际应用中具有良好的发展前景。
Description
技术领域
本发明涉及情感识别技术领域,尤其涉及一种用于模态缺失场景的多模态情感识别方法及系统。
背景技术
随着社交媒体、网络直播和在线短视频等应用的蓬勃发展,人们产生和传播信息的速度越来越快,在这些应用中,用户产生的大量视觉、音频和文本数据都携带着有关情感和情绪的信息,然而,传统的情感识别方法常常只基于其中的一种或几种数据源,忽视了多种数据源融合的重要性,针对这一问题,多模态情感识别技术应运而生,其中,多模态情感识别是一种通过获取视觉、音频和文本的多模态信号,综合多种信号实现情感识别的方法,由于相比于单一模态,多模态表征可以捕捉信息更全面、更精准的感知与理解,因此,多模态情感识别越来越成为一个研究热点,研究人员逐步探索视觉、音频、文本等多模态手段的融合,探讨如何在不同应用场景下更好地应用多模态情感识别技术,在视频监控、互联网广告、智能客服等领域的应用中,多模态情感识别技术展示了广阔的发展前景,但是,传统的多模态情感识别方法的提出与设计,是基于多模态数据源都是完整的这一前提,然而,由于实际存在数据采集的硬件故障或者网络传输质量的波动等不确定因素,可能导致一个或者两个模态的数据发生丢失,这种情况就被称为模态缺失,因此,如何在模态缺失的情况下对一段输入视频样本进行有效地情感识别,成为了一个新的具有挑战性的研究方向。
目前对于模态缺失下的多模态情感识别方法主要分为以下两类:
1)采用通过数据插值或者生成式网络来对缺失模态的数据进行恢复的方法,这种方法采用的生成式网络对训练数据量有较高的要求,在训练数据有限的情况下网络难以收敛,造成缺失模态数据的生成效果较差;
2)采用基于特征融合的方法,具体是将提取的多个模态的特征进行特征融合得到联合表征,并利用联合表征进行情感分类,这种基于特征融合方法的困难之处在于输入样本中存在模态缺失,难以直接学习到鲁棒的联合表征,同时这种方法也没有考虑到各个模态的贡献不同这一因素,简单地将多个模态的特征融合,忽略了不同模态的语义丰富的差异性,导致情感分类的准确率较低。
发明内容
本发明提供了一种用于模态缺失场景的多模态情感识别方法及系统,解决的技术问题是,现有的基于模态缺失的多模态情感识别方法不仅需要较大的训练数据量,而且忽略了不同模态的语义丰富的差异性。
为解决以上技术问题,本发明提供了一种用于模态缺失场景的多模态情感识别方法及系统。
第一方面,本发明提供了一种用于模态缺失场景的多模态情感识别方法,所述方法包括以下步骤:
对原始视频样本进行特征提取,得到初级特征,并对所述初级特征进行缺失情况编码,得到缺失情况特征;
根据所述初级特征提取出各模态高级特征,并将各模态高级特征进行拼接融合,得到多模态联合特征;
利用自注意力机制对所述各模态高级特征、所述多模态联合特征和所述缺失情况特征进行缺失模态特征重构,得到多模态重构特征;其中,所述多模态重构特征包括重构视觉特征、重构音频特征和重构文本特征;
将所述重构视觉特征、所述重构音频特征通过线性层映射到所述重构文本特征空间,并利用多模态门控融合机制进行两两模态间的特征融合,得到文本视觉融合特征和文本音频融合特征;
根据所述文本视觉融合特征和所述文本音频融合特征进行情感类别分类,得到情感类别预测结果。
在进一步的实施方案中,所述初级特征包括初级视觉特征、初级音频特征和初级文本特征,所述各模态高级特征包括高级视觉特征、高级音频特征和高级文本特征,所述根据所述初级特征提取出各模态高级特征的步骤包括:
将所述初级视觉特征通过长短期记忆网络进行编码,得到视觉编码输出序列,对所述视觉编码输出序列进行最大池化,得到高级视觉特征;
将所述初级音频特征通过长短期记忆网络进行编码,得到音频编码输出序列,对所述音频编码输出序列进行最大池化,得到高级音频特征;
将所述初级文本特征通过文本分类网络进行编码,得到高级文本特征。
在进一步的实施方案中,所述缺失情况特征的表达式为:
fi=MLP([Iv,Ia,It])
式中,fi表示缺失情况特征;MLP表示多层感知机;Iv表示视觉模态的存在性;Ia表示音频模态的存在性;It表示文本模态的存在性。
在进一步的实施方案中,所述利用自注意力机制对所述各模态高级特征、所述多模态联合特征和所述缺失情况特征进行缺失模态特征重构,得到多模态重构特征的步骤包括:
将所述各模态高级特征、所述多模态联合特征和所述缺失模态特征进行拼接,得到输入特征序列;
将所述输入特征序列经线性层映射为查询矩阵特征、键矩阵特征和值矩阵特征;
根据所述查询矩阵特征和所述键矩阵特征,计算得到自注意力矩阵;
将所述自注意力矩阵和所述值矩阵特征进行点积运算,得到多模态重构特征。
在进一步的实施方案中,所述自注意力矩阵的计算公式为:
式中,A′表示自注意力矩阵;softmax表示归一化操作;T表示转置符号;K表示键矩阵特征;Q表示查询矩阵特征;dim表示用于编码所述查询矩阵特征、所述键矩阵特征和所述值矩阵特征的线性层网络维度。
在进一步的实施方案中,用于训练缺失模态特征重构的损失函数为重构损失函数,用于训练情感类别分类的损失函数为分类交叉熵损失函数,其中,所述重构损失函数的计算公式为:
式中,表示重构损失函数;MSE表示重构特征和预训练特征的均方误差;f′s表示多模态重构特征;/>表示预先获取的预训练特征;v表示视觉模态;a表示音频模态;t表示文本模态。
在进一步的实施方案中,所述文本视觉融合特征的计算公式为:
ht,v=z*ht+(1―z)*hv
ht=tanh(Wt·f′t)
式中,ht,v表示文本视觉融合特征;z表示文本模态和视觉模态的相对重要程度;Wt表示文本模态的权重矩阵;f′t表示重构文本特征;Wv表示视觉模态的权重矩阵;表示重构视觉特征通过线性层映射到重构文本特征空间后的视觉特征;Wz表示相对重要程度权重矩阵。
第二方面,本发明提供了一种用于模态缺失场景的多模态情感识别系统,所述系统包括:
缺失情况编码模块,用于对原始视频样本进行特征提取,得到初级特征,并对所述初级特征进行缺失情况编码,得到缺失情况特征;
高级特征提取模块,用于根据所述初级特征提取出各模态高级特征,并将各模态高级特征进行拼接融合,得到多模态联合特征;
缺失模态重构模块,用于利用自注意力机制对所述各模态高级特征、所述多模态联合特征和所述缺失情况特征进行缺失模态特征重构,得到多模态重构特征;其中,所述多模态重构特征包括重构视觉特征、重构音频特征和重构文本特征;
特征映射融合模块,用于将所述重构视觉特征、所述重构音频特征通过线性层映射到所述重构文本特征空间,并利用多模态门控融合机制进行两两模态间的特征融合,得到文本视觉融合特征和文本音频融合特征;
情感分类识别模块,用于根据所述文本视觉融合特征和所述文本音频融合特征进行情感类别分类,得到情感类别预测结果。
同时,第三方面,本发明还提供了一种计算机设备,包括处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述计算机设备执行实现上述方法的步骤。
第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明提供了一种用于模态缺失场景的多模态情感识别方法及系统,所述方法包括编码缺失情况特征和多模态联合特征,采用自注意力机制将各模态高级特征、多模态联合特征和缺失情况特征进行缺失模态特征重构,得到多模态重构特征;将重构视觉特征、重构音频特征映射到重构文本特征空间,并利用多模态门控融合机制进行两两模态间的特征融合,得到文本视觉融合特征和文本音频融合特征;根据文本视觉融合特征和文本音频融合特征进行情感类别分类,得到情感类别预测结果。与现有技术相比,该方法以自注意力机制实现缺失模态特征重构,将多模态联合特征编码以及多模态缺失情况编码作为缺失模态特征重构的额外输入信息,从而辅助缺失模态特征重构,提高模态缺失场景下的分类鲁棒性;同时本发明利用多模态门控融合机制动态地进行两两模态融合,充分考虑了模态之间重要性的差异,提高了情感分类识别的准确率。
附图说明
图1是本发明实施例提供的用于模态缺失场景的多模态情感识别方法流程示意图;
图2是本发明实施例提供的多模态情感识别过程具体示例图;
图3是本发明实施例提供的缺失模态特征重构过程示意图;
图4是本发明实施例提供的多模态门控融合机制结构示意图;
图5是本发明实施例提供的用于模态缺失场景的多模态情感识别系统框图;
图6是本发明实施例提供的计算机设备的结构示意图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
参考图1,本发明实施例提供了一种用于模态缺失场景的多模态情感识别方法,如图1所示,该方法包括以下步骤:
S1.对原始视频样本进行特征提取,得到初级特征,并对所述初级特征进行缺失情况编码,得到缺失情况特征;其中,所述初级特征包括初级视觉特征、初级音频特征和初级文本特征。
具体地,在获取到原始视频样本之后,为了使原始视频样本能够输入到神经网络,原始视频样本需要经过初步的特征提取,得到帧级别的初级特征,即首先从原始视频样本中检测并截取面部表情帧,然后采用在Facial Expression Recognition Plus(FER+)语料库上预训练的DenseNet提取初级视觉特征xv,其维度是其中,T为输入语句视频片段的帧数,/>为初级视觉特征的维度;采用OpenSMILE工具提取帧级别的初级音频特征xa,其维度是/>采用预训练的BERT-Large模型来提取初级文本特征xt,其维度是
本实施例假设输入中有一个或两个模态发生缺失,则对于三模态输入来说,总共有6种可能的缺失模式,而缺失情况编码则是指每种缺失模式下的数字编码,比如:若多模态输入(包含视觉模态、音频模态和文本模态的多模态)中音频模态发生了缺失,则该多模态输入对应的缺失模态编码可以用[1,0,1]表示,即,在缺失情况编码中,本实施例优先采用0表示模态缺失,1表示模态存在,以图2所示的音频模态缺失为例,网络的多模态输入为[xv,xa(miss),xt],该多模态输入对应的缺失情况编码为[1,0,1],将该缺失情况编码输入到一个多层感知机进行编码,得到一个维度为d的缺失情况特征fi,并将缺失情况特征fi作为特征重构输入中的额外信息,辅助发生缺失的模态特征的重构,在本实施例中,所述缺失情况特征的表达式为:
fi=MLP([Iv,Ia,It])
式中,fi表示缺失情况特征;MLP表示多层感知机;Iv表示视觉模态的存在性,若视觉模态存在,则编码为1;若视觉模态不存在,则编码为0;Ia表示音频模态的存在性,若音频模态存在,则编码为1;若音频模态不存在,则编码为0;It表示文本模态的存在性,若文本模态存在,则编码为1;若文本模态不存在,则编码为0;v表示视觉模态;a表示音频模态;t表示文本模态。
需要说明的是,在网络训练过程中,由于网络的输入需要模拟模态缺失的情况,因此,本实施例根据已有的多模态情感识别数据集进行手动构造,得到含有模态缺失的多模态情感识别数据集,假设原始数据集的一个经过初级特征提取的一个输入样本,针对一种或者两种模态发生缺失的情况,本实施例可以分别构造出6种含有模态缺失的输入模式,即:
其中,i表示原始数据集的第i个样本;yi表示该样本对应的真实情感类别;miss表示对应的模态在输入中为缺失状态。
S2.根据所述初级特征提取出各模态高级特征,并将各模态高级特征进行拼接融合,得到多模态联合特征。
在本实施例中,初级特征是帧级别的序列特征,对于任意模态,一段语句视频片段可提取到长度为T的序列,序列中前后帧之间通常存在上下文的关联,需要进一步对初级特征编码得到各模态高级特征,各模态高级特征包括高级视觉特征、高级音频特征和高级文本特征,所述根据所述初级特征提取出各模态高级特征的步骤包括:
为了捕获图像序列的前后文关联信息,将所述初级视觉特征xv通过长短期记忆网络LSTM进行编码,得到视觉编码输出序列,将所述视觉编码输出序列经过max-pooling层进行最大池化,得到高级视觉特征fv,其维度为d;
将所述初级音频特征通过长短期记忆网络LSTM进行编码,得到音频编码输出序列,对所述音频编码输出序列经过max-pooling层进行最大池化,得到高级音频特征fa,其维度也为d;
将所述初级文本特征通过文本分类网络textCNN进行编码,得到高级文本特征ft,其维度也为d。
然后本实施例将高级视觉特征、高级音频特征和高级文本特征沿着特征维度进行拼接,得到维度为dm=dv+da+dt=3d的拼接特征,再将拼接特征输入到一个多层感知机中进行融合,得到多模态联合特征fm,多模态联合特征fm的计算公式为:
fm=MLP(Concat([fv,fa,ft]))
需要说明的是,经过上述处理过程得到的多模态联合特征fm能够将已有模态的信息融合入单一的特征中,相当于多个模态的全局共享信息,本实施例将fm作为后续缺失模态特征重构输入中的额外信息,能够辅助发生缺失的模态特征的重构,提高模态缺失场景下的分类鲁棒性。
S3.利用自注意力机制对所述各模态高级特征、所述多模态联合特征和所述缺失情况特征进行缺失模态特征重构,得到多模态重构特征;其中,所述多模态重构特征包括重构视觉特征、重构音频特征和重构文本特征。
在本实施例中,所述利用自注意力机制对所述各模态高级特征、所述多模态联合特征和所述缺失情况特征进行缺失模态特征重构,得到多模态重构特征的步骤包括:
将所述各模态高级特征、所述多模态联合特征和所述缺失模态特征进行拼接,得到输入特征序列;
将所述输入特征序列经线性层映射为查询矩阵特征、键矩阵特征和值矩阵特征;
根据所述查询矩阵特征和所述键矩阵特征,计算得到自注意力矩阵;
将所述自注意力矩阵和所述值矩阵特征进行点积运算,得到多模态重构特征。
具体地,如图3所示,本实施例采用自注意力机制进行缺失模态特征重构,需要说明的是,自注意力机制可以捕捉一个序列的内部相关性,将发生模态缺失的高级特征、多模态联合特征和缺失情况特征进行拼接,得到输入特征序列F=[fv,fa,ft,fm,fi],输入特征序列F经过一层线性层映射成为查询矩阵特征Q、键矩阵特征K和值矩阵特征V,其中,Q=Wq·F,K=Wk·F,V=Wv·F,Wq、Wk、Wv分别是可学习的线性层网络参数,为了便于理解,将对查询矩阵特征Q、键矩阵特征K(Key)和值矩阵特征V(Value)进行具体说明,所述查询矩阵特征Q(Query)是由输入特征序列计算得到的矩阵,其用于计算序列中每个元素和其他元素之间的相似性得分;键矩阵特征K是由输入特征序列计算得到的矩阵,其用于与查询矩阵进行点积运算,得到每个序列元素的权重;值矩阵特征V为输入特征序列的表示形式,其用于计算每个序列元素的加权和,值矩阵特征V通常用来表示对应的输入特征或者是隐藏状态。
然后本实施例通过查询矩阵特征Q和键矩阵特征K,计算得到自注意力矩阵A′,所述自注意力矩阵A′的计算公式为:
式中,A′表示自注意力矩阵;softmax表示归一化操作;T表示转置符号;K表示键矩阵特征;Q表示查询矩阵特征;dim表示用于编码所述查询矩阵特征、所述键矩阵特征和所述值矩阵特征的线性层网络维度。
需要说明的是,本实施例中的自注意力矩阵用来表示输入特征序列F的自相关性,即每个特征与序列中所有特征之间的相似性得分,以结合值矩阵特征V进行点积运算,得到多模态重构特征,所述多模态重构特征的计算公式为:
F′=VA′
式中,F′表示多模态重构特征;V表示值矩阵特征;A′表示自注意力矩阵。
在本实施例中,多模态重构特征F′的维度与输入特征序列一致,可以将F′表示为F’=[f′v,f′a,f′t,f′m,f′i],与输入特征序列相对应,并将前三个重构特征[f′v,f′a,f′t]作为重构视觉特征、重构音频特征和重构文本特征,本实施例经过自注意力机制的运算,输出的多模态重构特征中每个特征都由输入特征序列中的每个特征加权求和得到,而自注意力矩阵A′作为权重是根据输入特征序列内部的特征交互动态计算得到,由于输入特征序列由三个模态的高级特征、多模态联合特征fm、缺失情况特征fi构造而成,因此,输出的多模态重构特征中每个特征的生成都会考虑到上述所有信息,其中,本实施例用于训练缺失模态特征重构的损失函数为重构损失函数,所述重构损失函数的计算公式为:
式中,表示重构损失函数;MSE表示重构特征和预训练特征的均方误差;f′s表示多模态重构特征;/>表示预先获取的预训练特征,在本实施例中,预训练特征提取自一组预训练的特征提取器,该特征提取器采用由LSTM和TextCNN组成的网络结构,但是该特征提取器采用的是完整的多模态输入,在提取到各单模态的高级特征后,直接进行拼接并输入到一个线性层进行分类预训练,从而用于得到预训练特征,进而根据重构特征与预训练特征计算均方误差,用以衡量重构的优劣程度,其中,均方误差越小,特征重构效果越好,网络的训练目标之一就是要降低均方误差。
需要说明的是,单模态的高级特征提供了模态专有的信息(模态独有信息),比如:视觉的表情变化、音频的语音语调、文本的语气助词等;多模态联合特征fm提供了模态之间共享(通用信息)信息,比如:模态所包含的情感倾向信息;而缺失情况特征fi则提供了输入数据中发生缺失的模态信息,由于多模态之间存在一定的相互关系,缺失模态的重构依赖于现有的模态,向重构网络显式地指示输入数据中模态的缺失情况,将会引导自注意力矩阵A′的学习,从而使缺失模态特征重构更加专注于缺失模态特征的生成,进而提高缺失模态重构的效果。
S4.将所述重构视觉特征、所述重构音频特征通过线性层映射到所述重构文本特征空间,并利用多模态门控融合机制进行两两模态间的特征融合,得到文本视觉融合特征和文本音频融合特征。
如图4所示,为了减少三个模态之间的语义差异,提升后续的多模态融合效果,本实施例将重构视觉特征f′v和重构音频特征f′a经过一个线性层映射到重构文本特征空间,映射后的重构视觉特征和重构音频特征表示为和/>映射后的重构视觉特征和映射后的重构音频特征计算公式分别为:
式中,表示映射后的重构视觉特征;/>表示映射后的重构音频特征。
在重构视觉特征和重构音频特征被映射到重构文本特征空间后,利用多模态门控融合单元来挖掘模态之间的重要程度的差异性,动态地进行两两模态之间的特征融合,对于文本视觉融合特征、文本音频融合特征的计算方式可以分别表示为ht,v 以文本模态和视觉模态的融合为文本音频融合特征为例,多模态门控融合单元的计算方式如下:
ht,v=z*ht+(1―z)*hv
ht=tanh(Wt·f′t)
式中,ht,v表示文本视觉融合特征;z表示文本模态和视觉模态的相对重要程度,本实施例优先将其取值范围设为[0,1];Wt表示文本模态的权重矩阵;f′t表示重构文本特征;Wv表示视觉模态的权重矩阵;表示重构视觉特征通过线性层映射到重构文本特征空间后的视觉特征;Wz表示相对重要程度权重矩阵。
需要说明的是,在图4中,tanh表示线性映射运算+tanh激活函数运算;σ表示sigmoid激活函数;1-表示1减去其所指向单元的值。
S5.根据所述文本视觉融合特征和所述文本音频融合特征进行情感类别分类,得到情感类别预测结果。
具体地,本实施例将文本视觉融合特征ht,v、文本音频融合特征ht,a经过拼接后,经过线性层和softmax函数进行情感类别分类,得到预测的情感类别概率分布p,预测概率最大的对应类别即为最终的情感类别预测结果。
p=softmax(Linear(ht,v,ht,a))
在本实施例中,在整个网络进行训练过程中,用于训练情感类别分类的损失函数为分类交叉熵损失函数,分类交叉熵损失函数的表达式为:
式中,表示分类交叉熵损失函数;N表示数据集中样本的数量;i表示当前计算的是第i个样本;H表示交叉熵函数;p表示模型预测的情感类别概率分布;q表示样本真实的one-hot概率分布。
本实施例通过重构损失函数以及分类交叉熵损失函数作为整个网络的训练损失,并采用Adam优化器来学习网络中的可学习参数,在网络完成训练后,若有一段视频需要识别,本实施例将其预处理为视觉、音频、文本三个模态,然后提取各个模态的高级特征,若某个或某两个模态发生缺失,则其相应的高级特征则使用零向量填充代替,从而实现对一个可能发生模态缺失的视频样本进行情绪识别。
本发明实施例提供了一种用于模态缺失场景的多模态情感识别方法,所述方法将缺失情况特征和多模态联合特征作为基于自注意力机制的缺失模态特征重构的额外输入信息,以辅助缺失模态特征重构得到多模态重构特征,并在完成缺失模态特征重构后进行特征空间的映射,将重构视觉特征和重构音频特征映射到重构文本特征空间,从而通过多模态门控融合机制动态地进行模态之间的两两融合,得到最终的融合表征以进行情感分类。相比于传统的多模态情感识别方法,本发明实施例采用的基于自注意力机制的缺失模态特征重构方法,能够更好地恢复缺失模态的特征语义,提高了模态缺失场景下的分类鲁棒性;同时通过多模态门控融合机制能够更好地捕获模态之间的语义差异性,提高最终的情感分类准确率,具有良好推广应用价值。
需要说明的是,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在一个实施例中,如图5所示,本发明实施例提供了一种用于模态缺失场景的多模态情感识别系统,所述系统包括:
缺失情况编码模块101,用于对原始视频样本进行特征提取,得到初级特征,并对所述初级特征进行缺失情况编码,得到缺失情况特征;
高级特征提取模块102,用于根据所述初级特征提取出各模态高级特征,并将各模态高级特征进行拼接融合,得到多模态联合特征;
缺失模态重构模块103,用于利用自注意力机制对所述各模态高级特征、所述多模态联合特征和所述缺失情况特征进行缺失模态特征重构,得到多模态重构特征;其中,所述多模态重构特征包括重构视觉特征、重构音频特征和重构文本特征;
特征映射融合模块104,用于将所述重构视觉特征、所述重构音频特征通过线性层映射到所述重构文本特征空间,并利用多模态门控融合机制进行两两模态间的特征融合,得到文本视觉融合特征和文本音频融合特征;
情感分类识别模块105,用于根据所述文本视觉融合特征和所述文本音频融合特征进行情感类别分类,得到情感类别预测结果。
关于一种用于模态缺失场景的多模态情感识别系统的具体限定可以参见上述对于一种用于模态缺失场景的多模态情感识别方法的限定,此处不再赘述。本领域普通技术人员可以意识到,结合本申请所公开的实施例描述的各个模块和步骤,能够以硬件、软件或者两者结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本发明实施例提供了一种用于模态缺失场景的多模态情感识别系统,所述系统通过缺失情况编码模块和高级特征提取模块获取缺失情况特征和多模态联合特征;通过缺失模态重构模块将缺失情况特征和多模态联合特征作为基于自注意力机制的缺失模态特征重构的额外输入信息,以辅助缺失模态特征重构得到多模态重构特征;通过特征映射融合模块和情感分类识别模块动态地进行文本-音频、文本-视觉之间的模态两两融合,充分挖掘模态之间重要性的差异,提高最终的情感分类准确率。本系统利用多模态门控融合模块挖掘文本-音频、文本-视觉之间的模态差异性进行动态地特征融合,并将缺失情况特征和多模态联合特征作为额外的输出,提高缺失模态特征重构效果,使输入用于情感分类的特征包含更丰富的信息,提高了情感分类的准确度。
图6是本发明实施例提供的一种计算机设备,包括存储器、处理器和收发器,它们之间通过总线连接;存储器用于存储一组计算机程序指令和数据,并可以将存储的数据传输给处理器,处理器可以执行存储器存储的程序指令,以执行上述方法的步骤。
其中,存储器可以包括易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者;处理器可以是中央处理器、微处理器、特定应用集成电路、可编程逻辑器件或其组合。通过示例性但不是限制性说明,上述可编程逻辑器件可以是复杂可编程逻辑器件、现场可编程逻辑门阵列、通用阵列逻辑或其任意组合。
另外,存储器可以是物理上独立的单元,也可以与处理器集成在一起。
本领域普通技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有相同的部件布置。
在一个实施例中,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
本发明实施例提供的一种用于模态缺失场景的多模态情感识别方法及系统,其一种用于模态缺失场景的多模态情感识别方法能够捕获不同模态之间的深层模态差异性,并提供缺失情况特征和多模态联合特征辅助缺失模态特征重构,提高了模态缺失场景下的情感分类准确率和鲁棒性。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如SSD)等。
本领域技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种用于模态缺失场景的多模态情感识别方法,其特征在于,包括以下步骤:
对原始视频样本进行特征提取,得到初级特征,并对所述初级特征进行缺失情况编码,得到缺失情况特征;
根据所述初级特征提取出各模态高级特征,并将各模态高级特征进行拼接融合,得到多模态联合特征;
利用自注意力机制对所述各模态高级特征、所述多模态联合特征和所述缺失情况特征进行缺失模态特征重构,得到多模态重构特征;其中,所述多模态重构特征包括重构视觉特征、重构音频特征和重构文本特征;
将所述重构视觉特征、所述重构音频特征通过线性层映射到所述重构文本特征空间,并利用多模态门控融合机制进行两两模态间的特征融合,得到文本视觉融合特征和文本音频融合特征;
根据所述文本视觉融合特征和所述文本音频融合特征进行情感类别分类,得到情感类别预测结果。
2.如权利要求1所述的一种用于模态缺失场景的多模态情感识别方法,其特征在于,所述初级特征包括初级视觉特征、初级音频特征和初级文本特征,所述各模态高级特征包括高级视觉特征、高级音频特征和高级文本特征,所述根据所述初级特征提取出各模态高级特征的步骤包括:
将所述初级视觉特征通过长短期记忆网络进行编码,得到视觉编码输出序列,对所述视觉编码输出序列进行最大池化,得到高级视觉特征;
将所述初级音频特征通过长短期记忆网络进行编码,得到音频编码输出序列,对所述音频编码输出序列进行最大池化,得到高级音频特征;
将所述初级文本特征通过文本分类网络进行编码,得到高级文本特征。
3.如权利要求1所述的一种用于模态缺失场景的多模态情感识别方法,其特征在于,所述缺失情况特征的表达式为:
fi=MLP([Iv,Ia,It])
式中,fi表示缺失情况特征;MLP表示多层感知机;Iv表示视觉模态的存在性;Ia表示音频模态的存在性;It表示文本模态的存在性。
4.如权利要求1所述的一种用于模态缺失场景的多模态情感识别方法,其特征在于,所述利用自注意力机制对所述各模态高级特征、所述多模态联合特征和所述缺失情况特征进行缺失模态特征重构,得到多模态重构特征的步骤包括:
将所述各模态高级特征、所述多模态联合特征和所述缺失模态特征进行拼接,得到输入特征序列;
将所述输入特征序列经线性层映射为查询矩阵特征、键矩阵特征和值矩阵特征;
根据所述查询矩阵特征和所述键矩阵特征,计算得到自注意力矩阵;
将所述自注意力矩阵和所述值矩阵特征进行点积运算,得到多模态重构特征。
5.如权利要求4所述的一种用于模态缺失场景的多模态情感识别方法,其特征在于,所述自注意力矩阵的计算公式为:
式中,A′表示自注意力矩阵;softmax表示归一化操作;T表示转置符号;K表示键矩阵特征;Q表示查询矩阵特征;dim表示用于编码所述查询矩阵特征、所述键矩阵特征和所述值矩阵特征的线性层网络维度。
6.如权利要求1所述的一种用于模态缺失场景的多模态情感识别方法,其特征在于,用于训练缺失模态特征重构的损失函数为重构损失函数,用于训练情感类别分类的损失函数为分类交叉熵损失函数,其中,所述重构损失函数的计算公式为:
式中,表示重构损失函数;MSE表示重构特征和预训练特征的均方误差;f′s表示多模态重构特征;/>表示预先获取的预训练特征;v表示视觉模态;a表示音频模态;t表示文本模态。
7.如权利要求1所述的一种用于模态缺失场景的多模态情感识别方法,其特征在于,所述文本视觉融合特征的计算公式为:
ht,v=z*ht+(1-z)*hv
ht=tanh(Wt·f′t)
式中,ht,v表示文本视觉融合特征;z表示文本模态和视觉模态的相对重要程度;Wt表示文本模态的权重矩阵;f′t表示重构文本特征;Wv表示视觉模态的权重矩阵;表示重构视觉特征通过线性层映射到重构文本特征空间后的视觉特征;Wz表示相对重要程度权重矩阵。
8.一种用于模态缺失场景的多模态情感识别系统,其特征在于,所述系统包括:
缺失情况编码模块,用于对原始视频样本进行特征提取,得到初级特征,并对所述初级特征进行缺失情况编码,得到缺失情况特征;
高级特征提取模块,用于根据所述初级特征提取出各模态高级特征,并将各模态高级特征进行拼接融合,得到多模态联合特征;
缺失模态重构模块,用于利用自注意力机制对所述各模态高级特征、所述多模态联合特征和所述缺失情况特征进行缺失模态特征重构,得到多模态重构特征;其中,所述多模态重构特征包括重构视觉特征、重构音频特征和重构文本特征;
特征映射融合模块,用于将所述重构视觉特征、所述重构音频特征通过线性层映射到所述重构文本特征空间,并利用多模态门控融合机制进行两两模态间的特征融合,得到文本视觉融合特征和文本音频融合特征;
情感分类识别模块,用于根据所述文本视觉融合特征和所述文本音频融合特征进行情感类别分类,得到情感类别预测结果。
9.一种计算机设备,其特征在于:包括处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述计算机设备执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被运行时,实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310840266.6A CN116933051A (zh) | 2023-07-10 | 2023-07-10 | 一种用于模态缺失场景的多模态情感识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310840266.6A CN116933051A (zh) | 2023-07-10 | 2023-07-10 | 一种用于模态缺失场景的多模态情感识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116933051A true CN116933051A (zh) | 2023-10-24 |
Family
ID=88383665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310840266.6A Pending CN116933051A (zh) | 2023-07-10 | 2023-07-10 | 一种用于模态缺失场景的多模态情感识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116933051A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576571A (zh) * | 2024-01-16 | 2024-02-20 | 汉中中园农业科技发展(集团)有限公司 | 基于图像和文本的多模态果蔬叶片病害识别方法及系统 |
CN117763446A (zh) * | 2023-12-25 | 2024-03-26 | 苏州大学 | 一种多模态情感识别方法及装置 |
CN117789075A (zh) * | 2023-12-01 | 2024-03-29 | 淘宝(中国)软件有限公司 | 基于端云协同的视频处理方法、系统、设备及存储介质 |
CN118245846A (zh) * | 2024-04-19 | 2024-06-25 | 烟台大学 | 面向不确定模态缺失的多模态意图识别方法及系统 |
-
2023
- 2023-07-10 CN CN202310840266.6A patent/CN116933051A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117789075A (zh) * | 2023-12-01 | 2024-03-29 | 淘宝(中国)软件有限公司 | 基于端云协同的视频处理方法、系统、设备及存储介质 |
CN117763446A (zh) * | 2023-12-25 | 2024-03-26 | 苏州大学 | 一种多模态情感识别方法及装置 |
CN117576571A (zh) * | 2024-01-16 | 2024-02-20 | 汉中中园农业科技发展(集团)有限公司 | 基于图像和文本的多模态果蔬叶片病害识别方法及系统 |
CN117576571B (zh) * | 2024-01-16 | 2024-04-26 | 汉中中园农业科技发展(集团)有限公司 | 基于图像和文本的多模态果蔬叶片病害识别方法及系统 |
CN118245846A (zh) * | 2024-04-19 | 2024-06-25 | 烟台大学 | 面向不确定模态缺失的多模态意图识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110737801B (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
CN113762322B (zh) | 基于多模态表示的视频分类方法、装置和设备及存储介质 | |
CN113642604B (zh) | 一种基于云边协同的音视频辅助触觉信号重建方法 | |
CN116933051A (zh) | 一种用于模态缺失场景的多模态情感识别方法及系统 | |
CN116720004B (zh) | 推荐理由生成方法、装置、设备及存储介质 | |
CN113723166A (zh) | 内容识别方法、装置、计算机设备和存储介质 | |
CN113836992B (zh) | 识别标签的方法、训练标签识别模型的方法、装置及设备 | |
CN115131638B (zh) | 视觉文本预训练模型的训练方法、装置、介质和设备 | |
CN112651940B (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
WO2023226239A1 (zh) | 对象情绪的分析方法、装置和电子设备 | |
CN117391051B (zh) | 一种融合情感的共同注意网络多模态虚假新闻检测方法 | |
CN117574904A (zh) | 基于对比学习和多模态语义交互的命名实体识别方法 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN117251791B (zh) | 基于图的全局语义感知的多模态反讽检测方法 | |
CN114140885A (zh) | 一种情感分析模型的生成方法、装置、电子设备以及存储介质 | |
CN115169472A (zh) | 针对多媒体数据的音乐匹配方法、装置和计算机设备 | |
CN118093936B (zh) | 视频标签处理方法、装置、计算机设备和存储介质 | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
CN117765450B (zh) | 一种视频语言理解方法、装置、设备及可读存储介质 | |
CN117540007B (zh) | 基于相似模态补全的多模态情感分析方法、系统和设备 | |
CN118194238A (zh) | 一种多语种多模态情感识别方法、系统及设备 | |
CN118132803A (zh) | 一种零样本视频时刻检索方法、系统、设备及介质 | |
CN115640418B (zh) | 基于残差语义一致性跨域多视角目标网站检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |