CN113077823A - 一种基于深度自编码器子域自适应跨库语音情感识别方法 - Google Patents
一种基于深度自编码器子域自适应跨库语音情感识别方法 Download PDFInfo
- Publication number
- CN113077823A CN113077823A CN202110316366.XA CN202110316366A CN113077823A CN 113077823 A CN113077823 A CN 113077823A CN 202110316366 A CN202110316366 A CN 202110316366A CN 113077823 A CN113077823 A CN 113077823A
- Authority
- CN
- China
- Prior art keywords
- self
- domain
- loss
- features
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000008451 emotion Effects 0.000 claims abstract description 15
- 230000002996 emotional effect Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000013507 mapping Methods 0.000 abstract 1
- 238000005457 optimization Methods 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 7
- 238000013526 transfer learning Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 208000013875 Heart injury Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 108020001568 subdomains Proteins 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于深度自编码器子域自适应跨库语音情感识别方法,本发明包括以下步骤:首先,源域和目标域提取的高维语音特征分别输入两个深度自编码网络,将高维特征映射到低维特征空间中,压缩特征中的冗余信息;其次,将低维特征输入基于MMD的子域自适应模型中,实现了不同情感类别空间中的特征分布对齐,并将对齐后的特征输入softmax分类器进行分类;最后,将带标签源域数据计算的交叉熵loss和MMD loss添加进自编码网络进行有监督地优化训练,确保跨语料库语音情感识别系统的准确率。本发明提出的方法可以学习更多不同领域的共同情感特征,模型在不同的语料库中具有很好的鲁棒性和泛化性。
Description
技术邻域
本发明属于语音信号处理技术领域,具体涉及到一种基于深度自编码器子域自适应跨库语音情感识别方法。
背景技术
语音作为人类交流最自然便利的方式之一。语音信号除了承载语义信息外,还承载着诸如性别、情感状态等其他信息,当人类语音交流时,两个人很容易感受到彼此的情感状态。情感是人类具有标志性的自然属性,在人们日常生产生活过程中扮演着重要的角色,并且对人类的行为判断产生一定的影响。人工智能的本质是使计算机模拟人类的思考判断,并作出相应的类人行为。人工智能想要从低级智能向高级智能发展,那么赋予计算机情感的感知将是必不可少的。
传统语音情感识别的研究都是在同一个语音数据库上进行训练和测试,训练集和测试集具有同样的特征空间分布,往往可以达到较高的识别率。在实际语音情感识别系统中,一方面训练集和测试集往往来自不同的语料库,由于不同语料库的情感获取方法、情感种类以及录音环境有所不同,此时训练集和测试集存在分布差异,从而导致基于同分布假设的传统语音情感识别方法不能够很好地解决跨库识别问题;另一方面随着大数据时代的到来,数据的暴增而人工标注的昂贵,迁移学习对跨语料库的运用受到了越来越多研究者们的重视,利用已标注过的数据来帮助目标数据的训练己成为语音情感识别一个重要的研宄方向。
迁移学习是机器学习领域近年来一个比较热门的研究领域,主要通过迁移当前领域已有知识来解决目标领域中数据仅有少量标签甚至没有标签的学习问题,在很多应用领域得到了广泛的研究如文本分类与聚类、图像分类、传感器定位、协同过滤等。受到迁移学习在这些领域成功应用的启发,在语音情感识别的跨库研究中使用迁移学习。而域自适应的引入己被证明可以显著减少不同领域之间特征分布的差异性,但相比于使用单一数据库进行语音情感识别率来说,跨库语音情感识别的识别率显得非常不理想,所以寻找更加有效的迁移方法来提高跨库语音情感识别的识别率显得尤为重要。
因此本发明主要关注于不同语料库之间的跨库语音情感识别,使用两个深度自编码器,并且交叉使用激活函数以获取更匹配的特征,以及引入基于MMD的子域自适应算法,使其可以对齐以类别划分的子域之间的特征分布,减少不同域之间的分布差异,实现更为有效的跨库语音情感识别。
发明内容
为了解决不同语料数据库之间特征分布差异的问题,更好地将带标记源域数据的知识迁移到无标记目标域,实现无标记数据的准确分类,提出了一种用于跨库语音情感识别深度自编码器子域自适应方法。具体步骤如下:
(1)语音预处理:将源域语料库中的语音数据按对应的情感分类标记数字标签,而目标域数据库不做标签处理,之后对其进行分帧及加窗,为下一步提取特征做准备。
(2)语音特征提取:对步骤(1)预处理完毕后的语音数据,提取语音情感特征,该特征包括但不限于MFCC、短时平均过零率、基频、均值、标准差、最大最小值等。
(3)特征压缩:将步骤(2)得到的语音特征输入两个深度自编码器,其中一个自编码器提取源域数据特征,进行有监督学习,另一个为辅助性自编码器,用来无监督学习目标域数据特征。假设自编码的输入为x,编码阶段的输入用y 表示,relu()和elu()为非线性激活函数,则编码过程表示如下:
y=f(wx+b) (6)
从而获取源域和目标域在低维空间中的情感表示。
(4)特征分布对齐:将步骤(3)得到的低维特征输入子域自适应模块,该模块度量了在考虑不同样本权重的情况下,源域相关子域经验分布核均值嵌入与目标域核均值嵌入之间的Hilbert Schmidt范数,实现了源域和目标域在不同情感空间中的特征分布对齐。该算法实现如下,
(5)训练模型:整个网络训练是通过梯度下降法不断优化训练的,由带标签数据计算的交叉熵作为分类loss,两个自编码器的重构loss,以及域自适应层中基于MMD度量准则的子域自适应loss组成总的损失函数一起优化训练网络参数。整个网络的损失函数表示为:
loss=loss重构1+loss重构2+loss分类+lossMMD (10)
(6)重复步骤(3)、(4),迭代训练网络模型。
(7)利用步骤(6)训练好的网络模型,使用sofmatx分类器识别步骤(2) 中的目标域数据集,最终实现语音情感在跨语料库条件下的情感识别。
附图说明
如附图所示,图1为一种基于深度自编码器子域自适应跨库语音情感识别方法模型框架图,图2为子域情感特征对齐示意图。
具体实施方式
下面结合具体实施方式对本发明做更进一步的说明。
(1)语音特征是进行跨库情感识别的关键,我们使用的语音特征是2010年国际语音情感识别挑战赛的标准特征集,这个特征集包含了声学特征中使用最为广泛的特征和函数。我们使用开源工具包Opensmile从语音中提取这些特征,每条语音提取出的特征都为1582维,所以使用EMO-DB数据库的5类情感语音共有368条语音,数据总量为368*1582;eNTERFACE数据库的5类情感语音共有 1072条语音,数据总量为1072*1582。
(2)标签问题。本发明网络模型是基于有监督学习的跨库语音情感识别,网络训练过程中,训练集使用真实的标签,并将其类别标签one-hot向量形式,与最后经softmax输出的概率做互熵损失,计算出分类损失loss。计算自适应loss 时,并没有使用目标域的类别标签,而是使用目标域类别的概率分布作为目标域的标签,即为伪标签。
(3)将步骤(1)得到的源域和目标域数据集特征分别输入两个深度自动编码器模型提取高级情感特征。两个自编码器采用相同的结构,编码部分包含5 层隐层神经网络,除了第3层使用ELU之外,其余隐层均使用ReLU激活函数,而解码部分则都是采用ReLU激活函数。激活函数的交叉使用一方面在一定程度上缓解了ReLU导致过多的神经元失活,丢失情感信息的弊端,另一方面使用ELU 函数可以使得数据输出均值均接近于零,加快网络收敛速度。
(4)网络训练过程设置学习率为0.01,batch size设置为350,解码隐层神经节点依次设置为1300、1000、700、500、50,每次训练10000epochs。
(5)为了进一步验证该算法的有效性,分别采用2种方案进行测试。在方案1中,将eNTERFACE数据库(类别标签已知)作为训练库,并将EMO-DB数据库(类别标签未知)作为测试库;在方案2中,将EMO-DB数据库(类别标签已知)作为训练库,并将eNTERFACE数据库(类别标签未知)作为测试库。选择2个数据库共有的生气、厌恶、害怕、高兴、伤心等5类基本情感进行实验评价。将所提算法与MMD+AE及AE模型在相同的价标准下作对比,其中MMD+AE 是在该发明网络模型的基础上使用了传统的基于MMD的域自适应,而AE则是仅使用深度自编码器。不同方法在eNTERFACE语料库、EMO-DB语料库的识别准确度如表1所示。
表一 不同方法得到的准确率
AE | AE+MMD | ours | |
E-B | 48.10% | 49.18% | 55.16% |
B-E | 36.85% | 38.34% | 40.67% |
平均 | 42.48% | 43.76% | 47.92% |
表中E为eNTERFACE语料库,B为EMO-DB语料库。从实验结果上看,我们提出的方法比AE和AE+MMD分别提升了5.44%和4.16%,证明了我们的模型可以学习到更多领域间的共同特征,能够有效地完成迁移学习,实现从带标记数据中跨邻域识别无标记数据的情感类别。
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。
Claims (1)
1.一种基于深度自编码器子域自适应跨库语音情感识别方法,其特征在于,包括以下步骤:
(1)语音预处理:将源域语料库中的语音数据按对应的情感分类标记数字标签,而目标域数据库不做标签处理,之后对其进行分帧及加窗,为下一步提取特征做准备;
(2)语音特征提取:对步骤(1)预处理完毕后的语音数据,提取语音情感特征,该特征包括但不限于MFCC、短时平均过零率、基频、均值、标准差、最大最小值等;
(3)特征压缩:将步骤(2)得到的语音特征输入两个深度自编码器,其中一个自编码器提取源域数据特征,进行有监督学习,另一个为辅助性自编码器,用来无监督学习目标域数据特征;假设自编码的输入为x,编码阶段的输入用y表示,relu()和elu()为非线性激活函数,则编码过程表示如下:
y=f(wx+b) (1)
从而获取源域和目标域在低维空间中的情感表示;
(4)特征分布对齐:将步骤(3)得到的低维特征输入子域自适应模块,该模块度量了在考虑不同样本权重的情况下,源域相关子域经验分布核均值嵌入与目标域核均值嵌入之间的Hilbert Schmidt范数,实现了源域和目标域在不同情感空间中的特征分布对齐;该算法实现如下:
(5)训练模型:整个网络训练是通过梯度下降法不断优化训练的,由带标签数据计算的交叉熵作为分类loss,两个自编码器的重构loss,以及域自适应层中基于MMD度量准则的子域自适应loss组成总的损失函数一起优化训练网络参数;整个网络的损失函数表示为:
loss=loss重构1+loss重构2+loss分类+lossMMD (5)
(6)重复步骤(3)、(4),迭代训练网络模型;
(7)利用步骤(6)训练好的网络模型,使用sofmatx分类器识别步骤(2)中的目标域数据集,最终实现语音情感在跨语料库条件下的情感识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110316366.XA CN113077823B (zh) | 2021-03-24 | 2021-03-24 | 一种基于深度自编码器子域自适应跨库语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110316366.XA CN113077823B (zh) | 2021-03-24 | 2021-03-24 | 一种基于深度自编码器子域自适应跨库语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113077823A true CN113077823A (zh) | 2021-07-06 |
CN113077823B CN113077823B (zh) | 2024-05-03 |
Family
ID=76610373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110316366.XA Active CN113077823B (zh) | 2021-03-24 | 2021-03-24 | 一种基于深度自编码器子域自适应跨库语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113077823B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628640A (zh) * | 2021-07-15 | 2021-11-09 | 河南工业大学 | 一种基于样本均衡和最大均值差异的跨库语音情感识别方法 |
CN113851148A (zh) * | 2021-09-23 | 2021-12-28 | 河南工业大学 | 一种基于迁移学习和多损失动态调整的跨库语音情感识别方法 |
CN113870900A (zh) * | 2021-09-25 | 2021-12-31 | 河南工业大学 | 一种基于多任务学习和子域自适应的跨库语音情感识别方法 |
CN113934814A (zh) * | 2021-08-01 | 2022-01-14 | 北京工业大学 | 古诗文主观题自动评分方法 |
CN115240649A (zh) * | 2022-07-19 | 2022-10-25 | 于振华 | 一种基于深度学习的语音识别方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN110390955A (zh) * | 2019-07-01 | 2019-10-29 | 东南大学 | 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法 |
CN111048117A (zh) * | 2019-12-05 | 2020-04-21 | 南京信息工程大学 | 一种基于目标适应子空间学习的跨库语音情感识别方法 |
CN112397092A (zh) * | 2020-11-02 | 2021-02-23 | 天津理工大学 | 基于领域自适应子空间的无监督跨库语音情感识别方法 |
CN112489689A (zh) * | 2020-11-30 | 2021-03-12 | 东南大学 | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 |
-
2021
- 2021-03-24 CN CN202110316366.XA patent/CN113077823B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN110390955A (zh) * | 2019-07-01 | 2019-10-29 | 东南大学 | 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法 |
CN111048117A (zh) * | 2019-12-05 | 2020-04-21 | 南京信息工程大学 | 一种基于目标适应子空间学习的跨库语音情感识别方法 |
CN112397092A (zh) * | 2020-11-02 | 2021-02-23 | 天津理工大学 | 基于领域自适应子空间的无监督跨库语音情感识别方法 |
CN112489689A (zh) * | 2020-11-30 | 2021-03-12 | 东南大学 | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 |
Non-Patent Citations (3)
Title |
---|
姜芃旭 等: "一种基于卷积神经网络特征表征的语音情感识别方法", 《电子器件》, vol. 42, no. 4, pages 998 - 1001 * |
宋鹏 等: "基于特征迁移学习方法的跨库语音情感识别", 《清华大学学报(自然科学版)》, vol. 56, no. 11, pages 1179 - 1183 * |
钟昕孜 等: "基于自编码器的语音情感识别方法研究", 《电子设计工程》, vol. 28, no. 6, pages 69 - 73 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628640A (zh) * | 2021-07-15 | 2021-11-09 | 河南工业大学 | 一种基于样本均衡和最大均值差异的跨库语音情感识别方法 |
CN113934814A (zh) * | 2021-08-01 | 2022-01-14 | 北京工业大学 | 古诗文主观题自动评分方法 |
CN113934814B (zh) * | 2021-08-01 | 2024-05-28 | 北京工业大学 | 古诗文主观题自动评分方法 |
CN113851148A (zh) * | 2021-09-23 | 2021-12-28 | 河南工业大学 | 一种基于迁移学习和多损失动态调整的跨库语音情感识别方法 |
CN113870900A (zh) * | 2021-09-25 | 2021-12-31 | 河南工业大学 | 一种基于多任务学习和子域自适应的跨库语音情感识别方法 |
CN115240649A (zh) * | 2022-07-19 | 2022-10-25 | 于振华 | 一种基于深度学习的语音识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113077823B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113077823B (zh) | 一种基于深度自编码器子域自适应跨库语音情感识别方法 | |
CN112115238B (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN112581979B (zh) | 一种基于语谱图的语音情绪识别方法 | |
CN110298037A (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110516696A (zh) | 一种基于语音和表情的自适应权重双模态融合情感识别方法 | |
CN108319666A (zh) | 一种基于多模态舆情分析的供电服务评估方法 | |
CN112908341B (zh) | 基于多任务自注意力机制的语言学习者声纹识别方法 | |
CN111324765A (zh) | 基于深度级联跨模态相关性的细粒度草图图像检索方法 | |
CN111177376A (zh) | 一种基于bert与cnn层级连接的中文文本分类方法 | |
CN113239690A (zh) | 基于Bert与全连接神经网络融合的中文文本意图识别方法 | |
CN111462752B (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN110751044A (zh) | 基于深度网络迁移特征与增广自编码的城市噪声识别方法 | |
CN111949790A (zh) | 基于lda主题模型与分层神经网络的情感分类方法 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN109036468A (zh) | 基于深度信念网络和核非线性psvm的语音情感识别方法 | |
CN109871449A (zh) | 一种基于语义描述的端到端的零样本学习方法 | |
CN113851148A (zh) | 一种基于迁移学习和多损失动态调整的跨库语音情感识别方法 | |
CN114004220A (zh) | 一种基于cpc-ann的文本情绪原因识别方法 | |
Huang et al. | Speech emotion recognition using convolutional neural network with audio word-based embedding | |
CN109614490A (zh) | 基于lstm的金融新闻倾向性分析方法 | |
CN114927144A (zh) | 一种基于注意力机制和多任务学习的语音情感识别方法 | |
CN112233668B (zh) | 一种基于神经网络的语音指令及身份识别方法 | |
CN112364654B (zh) | 一种面向教育领域的实体和关系联合抽取方法 | |
Yuan | [Retracted] A Classroom Emotion Recognition Model Based on a Convolutional Neural Network Speech Emotion Algorithm | |
CN113380418A (zh) | 一种通过对话文本分析识别抑郁症的系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |