Nothing Special   »   [go: up one dir, main page]

CN113326868A - 一种用于多模态情感分类的决策层融合方法 - Google Patents

一种用于多模态情感分类的决策层融合方法 Download PDF

Info

Publication number
CN113326868A
CN113326868A CN202110490342.6A CN202110490342A CN113326868A CN 113326868 A CN113326868 A CN 113326868A CN 202110490342 A CN202110490342 A CN 202110490342A CN 113326868 A CN113326868 A CN 113326868A
Authority
CN
China
Prior art keywords
emotion
mode
emotion classification
classification
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110490342.6A
Other languages
English (en)
Other versions
CN113326868B (zh
Inventor
卢官明
马银蓉
卢峻禾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110490342.6A priority Critical patent/CN113326868B/zh
Publication of CN113326868A publication Critical patent/CN113326868A/zh
Application granted granted Critical
Publication of CN113326868B publication Critical patent/CN113326868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于多模态情感分类的决策层融合方法,该方法包括:将多模态情感数据集中的样本分成训练集和测试集;分别构建各种模态的情感分类模型,使用训练集中对应模态的样本分别对各种模态的情感分类模型进行训练;使用训练好的各种模态的情感分类模型分别对测试集中对应模态的样本进行情感分类,统计分类结果,得到各种模态的情感分类混淆矩阵;使用训练好的各种模态的情感分类模型分别对被测样本的对应模态进行情感分类;利用分类混淆矩阵对被测样本的各种模态的情感分类结果进行决策层融合,得到被测样本的情感类别。本发明充分利用了不同模态信息差异性的先验知识以及模态之间的互补性,可以有效提升多模态情感分类的准确率和鲁棒性。

Description

一种用于多模态情感分类的决策层融合方法
技术领域
本发明涉及模式识别与情感计算技术领域,特别是一种用于多模态情感分类的决策层融合方法。
背景技术
社交媒体是各种产品和用户服务意见的巨大来源,当用户在网络上针对某件商品发表评论时,他会不经意地表现出对这种商品的满意程度,也就是评论过程中表 达的情感。对于商家来说,希望尽可能快速地了解用户群体对商品的态度,以便及 时调整营销策略或者改进商品质量,从而提高用户对商品的满意程度。
以往对情感分类的研究大多集中在通过单一模态的信息来识别人类情感状态,比如基于语音的情感分类、基于面部表情的情感分类等。由于单一的语音或表情信 息所表达的情感信息是不完整的,且容易受到外界各种因素的影响,例如面部表情 识别容易受遮挡和光照变化的影响,而基于语音的情感分类容易受环境噪音干扰和 不同受试者的声音差异的影响。所以,单模态情感分类存在准确率低、鲁棒性差的 缺点。因此,越来越多的研究人员将目光转向基于多模态信息融合的情感分类研究, 期望能够利用各种模态信息之间的互补性,来构建鲁棒的情感分类模型,以达到更 高的情感分类准确率。
目前,海量社交媒体数据的形态不再局限于单一的文本模态,更多的是融合了 文本、语音、短视频的多模态数据。在多种模态数据同时存在的情况下,多模态情 感分类在网络营销、电子商务、舆情监控、商品推荐等方面有广阔的应用前景。
如何将不同模态的信息进行有效的融合是多模态情感分类的关键,同时也是多模态情感分类的一大难点。在进行多模态情感分类研究中,比较常用的信息融合策 略有特征层融合和决策层融合。特征层融合是指将多种模态的情感特征组合起来, 形成一个融合特征向量。特征层融合方法考虑了不同模态特征的互补性,但没有考 虑不同模态特征在情感分类中的差异性。决策层融合通常基于各模态单独识别的结 果,再依据相关规则,如均值(Mean)规则、求和(Sum)规则、最大值(Max) 规则、少数服从多数的投票表决机制等,做出决策判断,得到最终的识别结果。相 比之下,决策层融合方法根据不同模态信息的贡献不同,考虑了不同模态信息的差 异性。当然,基于决策层融合的多模态情感分类性能不仅与单模态的情感分类准确 率有关,还依赖于决策层融合方法的性能。如何确定不同模态情感分类结果的权值, 以体现不同模态在情感分类中的差异性,仍然是面临挑战的开放课题。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种用于多模态情 感分类的决策层融合方法,利用各种模态的情感分类混淆矩阵对被测样本的相应模 态的情感类别预测概率向量进行加权融合,得到多模态情感类别预测概率向量,可 以有效提升多模态情感分类的准确率和鲁棒性。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种用于多模态情感分类的决策层融合方法,包括以下步骤:
步骤(1)、建立包括m种模态的多模态情感数据集,多模态情感数据集中的样 本包括第一至第m种模态的样本,将多模态情感数据集中的样本分成训练集和测试 集,其中,m为大于1的整数;
步骤(2)、分别构建m个单模态的情感分类模型,采用训练集中第s模态的样 本训练第s模态的情感分类模型,s=1,2…m,得到训练好的第一至第m模态的情感 分类模型;
步骤(3)、使用训练好的第s模态的情感分类模型对测试集中第s模态的样本 进行情感分类,统计分类结果,得到第s模态的情感分类混淆矩阵C(s),即
Figure BDA0003051763840000021
其中,
Figure BDA0003051763840000022
代表第i类情感类别的第s模态的样本被第s模态的情感分类模型判 决为第j类情感类别的概率,i=1,2,…,k,j=1,2,…,k,k为情感类别总数;
步骤(4)、使用训练好的第s模态的情感分类模型对被测样本的第s模态进行 情感分类,输出第s模态的情感类别预测概率向量
Figure BDA0003051763840000023
其中,
Figure BDA0003051763840000024
表示被测样本第s模态的情感类别为第i类的预测概率,i=1,2,…,k,上标T表示向 量的转置;
步骤(5)、利用步骤(3)得到各类模态的情感分类混淆矩阵,对被测样本的 各种模态的情感类别预测概率向量进行加权融合,得到被测样本的情感类别预测相 对概率向量,输出最终的情感类别。
作为本发明所述的一种用于多模态情感分类的决策层融合方法进一步优化方案,步骤(5)具体的步骤如下:
对第s模态的情感分类混淆矩阵C(s)主对角线上的元素的数值进行归一化,得 到被测样本的第s模态被判决为第i类情感类别的权重系数
Figure BDA0003051763840000031
Figure BDA0003051763840000032
对被测样本的第一模态至第m模态的情感类别预测概率向量进行加权融合,得 到被测样本的情感类别预测相对概率向量p,即
Figure BDA0003051763840000033
其中,pi为第i类情感类别预测相对概率;
比较向量p中每一维度的数值大小,其中数值最大的维度所对应的类别就是被 测样本的情感类别。
作为本发明所述的一种用于多模态情感分类的决策层融合方法进一步优化方案,在步骤(1)中,按照n-折交叉验证法,将多模态情感数据集中的每一情感类 别的样本随机均分成n组,每次将其中1组的所有情感类别的样本构成测试集,剩 下的(n-1)组的所有情感类别的样本构成训练集,组成1个{训练集,测试集}组 合,重复n次,得到n个不同的{训练集,测试集}组合,其中,n为取值在2~20 之间的正整数。
作为本发明所述的一种用于多模态情感分类的决策层融合方法进一步优化方案,在步骤(2)中,每次用其中1个{训练集,测试集}组合中的训练集对各种 模态的情感分类模型进行1次训练,其中,第一模态的情感分类模型用训练集中第 一模态的样本进行训练,第二模态的情感分类模型用训练集中第二模态的样本进行 训练,……,依此类推,第m模态的情感分类模型用训练集中第m模态的样本进行 训练;使用n个不同{训练集,测试集}组合中的训练集分别对各种模态的情感分 类模型训练n次,得到n个训练好的第一模态的情感分类模型、n个训练好的第二 模态的情感分类模型、……、以及n个训练好的第m模态的情感分类模型。
作为本发明所述的一种用于多模态情感分类的决策层融合方法进一步优化方案,在步骤(3)中,使用n个训练好的第一模态的情感分类模型分别对相应{训练 集,测试集}组合的测试集中第一模态的样本进行情感分类,最后对n次分类结果 一起进行统计,得到第一模态的情感分类混淆矩阵C(1);使用n个训练好的第二模 态的情感分类模型分别对相应{训练集,测试集}组合的测试集中第二模态的样本 进行情感分类,最后对n次分类结果一起进行统计,得到第二模态的情感分类混淆 矩阵C(2);……,依此类推,使用n个训练好的第m模态的情感分类模型分别对相 应{训练集,测试集}组合的测试集中第m模态的样本进行情感分类,最后对n次 分类结果一起进行统计,得到第m模态的情感分类混淆矩阵C(m)
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明在决策层对多种模态的分类结果进行加权融合时,利用各种模态 的情感分类混淆矩阵的先验知识来确定加权的权重值,对被测样本的相应模态的情 感类别预测概率向量进行加权融合,综合考虑了各种模态对情感分类结果的贡献程 度,可以克服采用D-S证据理论判决规则进行融合时因基本概率分配函数的微小变 化而导致融合结果截然不同的不稳定性,以及在处理完全冲突或高度冲突证据时产 生有悖于常理的结果等问题,能有效提升多模态情感分类的准确率和鲁棒性。
(2)本发明采用融合多种模态的信息进行情感分类,克服了单模态情感分类 的局限性;特别是在正话反说、反讽等情境下具有较高的准确率和鲁棒性。
附图说明
图1是本发明实施例的方法流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施 例对本发明进行详细描述。
在以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之 类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚, 在没有这些具体细节的其他实施例中也可以实现本申请。
如图1所示,本发明实施例提供的一种用于多模态情感分类的决策层融合方法,主要包括如下步骤:
(1)建立包含m种模态的多模态情感数据集,将多模态情感数据集中的样本 分成训练集和测试集,在本实施例中,令m=3。
本实施例使用卡耐基梅隆大学的MOSI(Multi-modal Opinion-level SentimentIntensity)数据集,该数据集采集自93个针对不同话题发表评论的短视频,以话语(utterance)为单元将每个短视频分割成若干个语义单元,共包含2199个语义单 元,每个语义单元都有一个与之对应的情感类别标签。情感类别标签的取值为-3到 3之间的正整数,其中,-3表示非常消极,-2表示比较消极,-1表示有点消 极,0表示中性,1表示有点积极,2表示比较积极,3表示非常积极。在本实施 例中,将标签为-3和-2的语义单元的情感类别标注为消极,将标签为-1、0和1 的语义单元的情感类别标注为中性,将标签为2和3的语义单元的情感类别标注为 积极,即令情感类别总数k=3,第1类情感类别为消极,第2类情感类别为中性,第 3类情感类别为积极。然后,按照n-折(n-fold)交叉验证法,在本实施例中,令n=5, 将2199个语义单元中的每一情感类别的样本随机均分成5组,每次将其中1组的 所有情感类别的样本构成测试集,剩下的4组的所有情感类别的样本构成训练集, 组成1个{训练集,测试集}组合,其中,训练集包含1760个语义单元,具体包 含500个情感类别为消极的语义单元、684个情感类别为中性的语义单元和576个 情感类别为积极的语义单元;测试集包含439个语义单元,具体包含125个情感类 别为消极的语义单元、171个情感类别为中性的语义单元和143个情感类别为积极 的语义单元。重复5次,得到5个不同的{训练集,测试集}组合。
我们将每个语义单元作为一个视频样本,并分别使用ffmpy3和SpeechRecognition工具库从这些语义单元中生成对应的语音样本和文本样本。在本 实施例中,第一模态对应语音模态,第二模态对应面部表情模态,第三模态对应文 本模态。
(2)构建语音情感分类模型,使用训练集中的语音样本对语音情感分类模型 进行训练,得到训练好的语音情感分类模型;构建表情情感分类模型,使用训练集 中的视频样本对表情情感分类模型进行训练,得到训练好的表情情感分类模型;构 建文本情感分类模型,使用训练集中的文本样本对文本情感分类模型进行训练,得 到训练好的文本情感分类模型,具体过程包括以下子步骤:
(2.1)构建一种基于长短期记忆(Long Short-Term Memory,LSTM)网络和卷 积神经网络(Convolutional Neural Networks,CNN)的语音情感分类模型,用训练 集中的语音样本对语音情感分类模型进行训练,得到训练好的语音情感分类模型。 首先,对语音样本进行预加重、分帧、加窗等预处理,帧长取25ms,帧移设置为 15ms;然后,对预处理之后的各帧语音信号提取梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)序列,并将之作为LSTM网络的输入,通过LSTM网络 提取语音信号的长时域上下文特征;之后,将LSTM网络的各个输出单元的输出向 量依次推叠起来,形成一个二维信号,经归一化后输入到CNN,利用CNN提取更 抽象的情感特征向量;最后,采用softmax分类器对情感特征向量进行分类,实现 语音情感分类。
在对语音情感分类模型进行训练时,每次用其中1个{训练集,测试集}组合 的训练集中的语音样本训练1次,得到1个训练好的语音情感分类模型。依次使用 5个不同{训练集,测试集}组合中的训练集对语音情感分类模型训练5次,得到 5个训练好的语音情感分类模型。
(2.2)构建一种基于卷积神经网络(CNN)和长短期记忆(LSTM)网络的表情 情感分类模型,用训练集中的视频样本对表情情感分类模型进行训练,得到训练好 的表情情感分类模型。首先对视频样本以每隔2帧截取1帧的方式进行帧采样操作, 截取32帧图像,如果截取的帧数不足32帧,则采取“复制拷贝”方式补足32帧; 然后,将截取的每帧图像大小调整为224×224像素,并使用在ImageNet上预训练 好的VGG-16基础网络进行特征提取,从VGG-16的最后一个全连接层输出512维的 静态表情特征向量;之后,将每帧图像的静态表情特征向量输入到LSTM中,进一 步处理时间域的特征,提取动态表情特征向量;最后,采用softmax分类器对动态 表情特征向量进行分类,实现表情情感分类。
在对表情情感分类模型进行训练时,每次用其中1个{训练集,测试集}组合 的训练集中的视频样本训练1次,得到1个训练好的表情情感分类模型。依次使用 5个不同{训练集,测试集}组合中的训练集对表情情感分类模型训练5次,得到 5个训练好的表情情感分类模型。
(2.3)构建一种融合注意力机制的双向LSTM网络的文本情感分类模型,用训 练集中的文本样本对文本情感分类模型进行训练,得到训练好的文本情感分类模型。 首先对文本样本进行截长补短操作,对超过16个单词的文本样本进行截断,少于 16个单词的样本添加特殊字符[defa],使得文本样本的长度统一为16个单词;然后 使用Google开源的预训练BERT模型提取768维的句子向量;之后,将提取的768 维句子向量输入一种融合注意力机制的双向LSTM(Bi-LSTM)网络进行学习,提取 文本信息的情感特征向量;最后,采用softmax分类器对情感特征向量进行分类, 实现文本情感分类。
在对文本情感分类模型进行训练时,每次用其中1个{训练集,测试集}组合 的训练集中的文本样本训练1次,得到1个训练好的文本情感分类模型。依次使用 5个不同{训练集,测试集}组合中的训练集对文本情感分类模型训练5次,得到 5个训练好的文本情感分类模型。
(3)使用5个训练好的语音情感分类模型分别对相应{训练集,测试集}组 合的测试集中语音样本进行情感分类,最后对5次分类结果一起进行统计,得到语 音情感分类混淆矩阵C(1),即
Figure BDA0003051763840000071
其中,
Figure BDA0003051763840000072
代表第i类情感类别的语音样本被语音情感分类模型判决为第j类情 感类别的概率,i=1,2,3,j=1,2,3,第1类情感类别为消极,第2类情感类别为中 性,第3类情感类别为积极;
使用5个训练好的表情情感分类模型分别对相应{训练集,测试集}组合的测 试集中视频样本进行情感分类,最后对5次分类结果一起进行统计,得到表情情感 分类混淆矩阵C(2),即
Figure BDA0003051763840000073
其中,
Figure BDA0003051763840000074
代表第i类情感类别的视频样本被表情情感分类模型判决为第j类情 感类别的概率,i=1,2,3,j=1,2,3,第1类情感类别为消极,第2类情感类别为中 性,第3类情感类别为积极;
使用5个训练好的文本情感分类模型分别对相应{训练集,测试集}组合的测 试集中文本样本进行情感分类,最后对5次分类结果一起进行统计,得到文本情感 分类混淆矩阵C(3),即
Figure BDA0003051763840000081
其中,
Figure BDA0003051763840000082
代表第i类情感类别的文本样本被文本情感分类模型判决为第j类情 感类别的概率,i=1,2,3,j=1,2,3,第1类情感类别为消极,第2类情感类别为中 性,第3类情感类别为积极。
(4)使用训练好的语音情感分类模型对被测样本的语音模态进行情感分类, 输出语音情感类别预测概率向量
Figure BDA0003051763840000083
其中,
Figure BDA0003051763840000084
表示被测样本语音模态的情感类别为第i类的预测概率,i=1,2,3,第1类情感 类别为消极,第2类情感类别为中性,第3类情感类别为积极,上标T表示向量的 转置;
使用训练好的表情情感分类模型对被测样本的表情模态进行情感分类,输出表情情感类别预测概率向量
Figure BDA0003051763840000085
其中,
Figure BDA0003051763840000086
表 示被测样本表情模态的情感类别为第i类的预测概率,i=1,2,3,第1类情感类别为 消极,第2类情感类别为中性,第3类情感类别为积极;
使用训练好的文本情感分类模型对被测样本的文本模态进行情感分类,输出文本情感类别预测概率向量
Figure BDA0003051763840000087
其中,
Figure BDA0003051763840000088
表 示被测样本文本模态的情感类别为第i类的预测概率,i=1,2,3,第1类情感类别为 消极,第2类情感类别为中性,第3类情感类别为积极。
(5)利用情感分类混淆矩阵的先验知识对被测样本的各种模态的情感类别预 测概率向量进行加权融合,得到被测样本的情感类别预测相对概率向量,输出最终 的情感类别,具体的步骤如下:
对语音情感分类混淆矩阵C(1)主对角线上的元素的数值进行归一化,代入
Figure BDA0003051763840000089
得到
Figure BDA0003051763840000091
Figure BDA0003051763840000092
Figure BDA0003051763840000093
对表情情感分类混淆矩阵C(2)主对角线上的元素的数值进行归一化,代入
Figure BDA0003051763840000094
得到
Figure BDA0003051763840000095
Figure BDA0003051763840000096
Figure BDA0003051763840000097
对文本情感分类混淆矩阵C(3)主对角线上的元素的数值进行归一化,代入
Figure BDA0003051763840000098
得到
Figure BDA0003051763840000101
Figure BDA0003051763840000102
Figure BDA0003051763840000103
对被测样本的语音情感类别预测概率向量、表情情感类别预测概率向量、文本 情感类别预测概率向量进行加权融合,得到被测样本的情感类别预测相对概率向量 p,即
Figure BDA0003051763840000104
比较向量p中每一维度的数值大小,其中数值最大的维度所对应的类别就是被 测样本的情感类别。在本实施例中,第1类情感类别预测相对概率p1=0.58,p1的 数值最大,所以,判决被测样本的情感类别为消极。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或 替换,都应涵盖在本发明的保护范围内。

Claims (5)

1.一种用于多模态情感分类的决策层融合方法,其特征在于,包括以下步骤:
步骤(1)、建立包括m种模态的多模态情感数据集,多模态情感数据集中的样本包括第一至第m种模态的样本,将多模态情感数据集中的样本分成训练集和测试集,其中,m为大于1的整数;
步骤(2)、分别构建m个单模态的情感分类模型,采用训练集中第s模态的样本训练第s模态的情感分类模型,s=1,2…m,得到训练好的第一至第m模态的情感分类模型;
步骤(3)、使用训练好的第s模态的情感分类模型对测试集中第s模态的样本进行情感分类,统计分类结果,得到第s模态的情感分类混淆矩阵C(s),即
Figure FDA0003051763830000011
其中,
Figure FDA0003051763830000012
代表第i类情感类别的第s模态的样本被第s模态的情感分类模型判决为第j类情感类别的概率,i=1,2,…,k,j=1,2,…,k,k为情感类别总数;
步骤(4)、使用训练好的第s模态的情感分类模型对被测样本的第s模态进行情感分类,输出第s模态的情感类别预测概率向量
Figure FDA0003051763830000013
其中,
Figure FDA0003051763830000014
表示被测样本第s模态的情感类别为第i类的预测概率,i=1,2,…,k,上标T表示向量的转置;
步骤(5)、利用步骤(3)得到各类模态的情感分类混淆矩阵,对被测样本的各种模态的情感类别预测概率向量进行加权融合,得到被测样本的情感类别预测相对概率向量,输出最终的情感类别。
2.根据权利要求1所述的一种用于多模态情感分类的决策层融合方法,其特征在于,步骤(5)具体的步骤如下:
对第s模态的情感分类混淆矩阵C(s)主对角线上的元素的数值进行归一化,得到被测样本的第s模态被判决为第i类情感类别的权重系数
Figure FDA0003051763830000015
Figure FDA0003051763830000021
对被测样本的第一模态至第m模态的情感类别预测概率向量进行加权融合,得到被测样本的情感类别预测相对概率向量p,即
Figure FDA0003051763830000022
其中,pi为第i类情感类别预测相对概率;
比较向量p中每一维度的数值大小,其中数值最大的维度所对应的类别就是被测样本的情感类别。
3.根据权利要求1所述的一种用于多模态情感分类的决策层融合方法,其特征在于,在步骤(1)中,按照n-折交叉验证法,将多模态情感数据集中的每一情感类别的样本随机均分成n组,每次将其中1组的所有情感类别的样本构成测试集,剩下的(n-1)组的所有情感类别的样本构成训练集,组成1个{训练集,测试集}组合,重复n次,得到n个不同的{训练集,测试集}组合,其中,n为取值在2~20之间的正整数。
4.根据权利要求3所述的一种用于多模态情感分类的决策层融合方法,其特征在于,在步骤(2)中,每次用其中1个{训练集,测试集}组合中的训练集对各种模态的情感分类模型进行1次训练,其中,第一模态的情感分类模型用训练集中第一模态的样本进行训练,第二模态的情感分类模型用训练集中第二模态的样本进行训练,……,依此类推,第m模态的情感分类模型用训练集中第m模态的样本进行训练;使用n个不同{训练集,测试集}组合中的训练集分别对各种模态的情感分类模型训练n次,得到n个训练好的第一模态的情感分类模型、n个训练好的第二模态的情感分类模型、……、以及n个训练好的第m模态的情感分类模型。
5.根据权利要求4所述的一种用于多模态情感分类的决策层融合方法,其特征在于,在步骤(3)中,使用n个训练好的第一模态的情感分类模型分别对相应{训练集,测试集}组合的测试集中第一模态的样本进行情感分类,最后对n次分类结果一起进行统计,得到第一模态的情感分类混淆矩阵C(1);使用n个训练好的第二模态的情感分类模型分别对相应{训练集,测试集}组合的测试集中第二模态的样本进行情感分类,最后对n次分类结果一起进行统计,得到第二模态的情感分类混淆矩阵C(2);……,依此类推,使用n个训练好的第m模态的情感分类模型分别对相应{训练集,测试集}组合的测试集中第m模态的样本进行情感分类,最后对n次分类结果一起进行统计,得到第m模态的情感分类混淆矩阵C(m)
CN202110490342.6A 2021-05-06 2021-05-06 一种用于多模态情感分类的决策层融合方法 Active CN113326868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110490342.6A CN113326868B (zh) 2021-05-06 2021-05-06 一种用于多模态情感分类的决策层融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110490342.6A CN113326868B (zh) 2021-05-06 2021-05-06 一种用于多模态情感分类的决策层融合方法

Publications (2)

Publication Number Publication Date
CN113326868A true CN113326868A (zh) 2021-08-31
CN113326868B CN113326868B (zh) 2022-07-15

Family

ID=77414176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110490342.6A Active CN113326868B (zh) 2021-05-06 2021-05-06 一种用于多模态情感分类的决策层融合方法

Country Status (1)

Country Link
CN (1) CN113326868B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114841293A (zh) * 2022-07-04 2022-08-02 国网信息通信产业集团有限公司 一种面向电力物联网的多模态数据融合分析方法与系统
CN115455129A (zh) * 2022-10-14 2022-12-09 阿里巴巴(中国)有限公司 Poi处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609572A (zh) * 2017-08-15 2018-01-19 中国科学院自动化研究所 基于神经网络和迁移学习的多模态情感识别方法、系统
CN107832663A (zh) * 2017-09-30 2018-03-23 天津大学 一种基于量子理论的多模态情感分析方法
CN108596039A (zh) * 2018-03-29 2018-09-28 南京邮电大学 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN110287389A (zh) * 2019-05-31 2019-09-27 南京理工大学 基于文本、语音和视频融合的多模态情感分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609572A (zh) * 2017-08-15 2018-01-19 中国科学院自动化研究所 基于神经网络和迁移学习的多模态情感识别方法、系统
CN107832663A (zh) * 2017-09-30 2018-03-23 天津大学 一种基于量子理论的多模态情感分析方法
CN108596039A (zh) * 2018-03-29 2018-09-28 南京邮电大学 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN110287389A (zh) * 2019-05-31 2019-09-27 南京理工大学 基于文本、语音和视频融合的多模态情感分类方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114841293A (zh) * 2022-07-04 2022-08-02 国网信息通信产业集团有限公司 一种面向电力物联网的多模态数据融合分析方法与系统
CN115455129A (zh) * 2022-10-14 2022-12-09 阿里巴巴(中国)有限公司 Poi处理方法、装置、电子设备及存储介质
CN115455129B (zh) * 2022-10-14 2023-08-25 阿里巴巴(中国)有限公司 Poi处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113326868B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN111275085B (zh) 基于注意力融合的在线短视频多模态情感识别方法
CN112818861B (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN114973062B (zh) 基于Transformer的多模态情感分析方法
Tu et al. Interpretable Objective Assessment of Dysarthric Speech Based on Deep Neural Networks.
CN110021308A (zh) 语音情绪识别方法、装置、计算机设备和存储介质
Rathor et al. A robust model for domain recognition of acoustic communication using Bidirectional LSTM and deep neural network.
CN112861945B (zh) 一种多模态融合谎言检测方法
US20200134455A1 (en) Apparatus and method for training deep learning model
CN109766557A (zh) 一种情感分析方法、装置、存储介质及终端设备
Hongdan et al. An intelligent music genre analysis using feature extraction and classification using deep learning techniques
CN113326868B (zh) 一种用于多模态情感分类的决策层融合方法
CN112329438A (zh) 基于域对抗训练的自动谎言检测方法及系统
Ai et al. A Two-Stage Multimodal Emotion Recognition Model Based on Graph Contrastive Learning
CN115858728A (zh) 一种基于多模态数据的情感分析方法
Gandhi et al. Multimodal sentiment analysis: review, application domains and future directions
Xu Intelligent automobile auxiliary propagation system based on speech recognition and AI driven feature extraction techniques
CN116976505A (zh) 基于信息共享的解耦注意网络的点击率预测方法
Ilias et al. Context-aware attention layers coupled with optimal transport domain adaptation and multimodal fusion methods for recognizing dementia from spontaneous speech
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
Lee Deep structured learning: architectures and applications
Liu et al. Audio and video bimodal emotion recognition in social networks based on improved alexnet network and attention mechanism
US20230121404A1 (en) Searching for normalization-activation layer architectures
Koti et al. Speech Emotion Recognition using Extreme Machine Learning
CN115758218A (zh) 一种基于长短时特征和决策融合的三模态情感分析方法
CN117150320A (zh) 对话数字人情感风格相似度评价方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant