Nothing Special   »   [go: up one dir, main page]

CN113611293A - 一种蒙古语数据集扩充方法 - Google Patents

一种蒙古语数据集扩充方法 Download PDF

Info

Publication number
CN113611293A
CN113611293A CN202110955831.4A CN202110955831A CN113611293A CN 113611293 A CN113611293 A CN 113611293A CN 202110955831 A CN202110955831 A CN 202110955831A CN 113611293 A CN113611293 A CN 113611293A
Authority
CN
China
Prior art keywords
mongolian
audio
region
data set
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110955831.4A
Other languages
English (en)
Other versions
CN113611293B (zh
Inventor
李晋益
马志强
张俊鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202110955831.4A priority Critical patent/CN113611293B/zh
Publication of CN113611293A publication Critical patent/CN113611293A/zh
Application granted granted Critical
Publication of CN113611293B publication Critical patent/CN113611293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种生成蒙古语音频的扩充方法,应用于语音识别技术领域,首先获取包含指定地区特征的蒙古语文本、指定地区特征以及带有真实音频的指定地区特征的蒙古语音频;然后构建指定地区对抗生成网络模型;最后对所述指定地区对抗生成网络模型进行对抗训练,并将所述带有真实音频的指定地区特征的蒙古语音频输入到经过训练的所述对抗生成网络模型进行处理,生成蒙古语扩充数据集。本发明将指定地区的蒙古语数据进行扩充,解决了收集蒙古语语料的经济成本高、时间消耗大和地区不均匀问题。

Description

一种蒙古语数据集扩充方法
技术领域
本发明涉及语音识别技术领域,更具体的说是涉及一种蒙古语数据集扩充方法。
背景技术
数据扩充是指原始数据集通过不同方法扩大数据集容量,得到更为适合当前应用环境的新数据集。训练语音识别模型需要充足的数据集,而数据扩充是在短时间内获取充足的有标注蒙古语数据集的可行方法之一。近年来,开源的有标注蒙古语数据集量级非常小,研究者通常需要在高校和企业的支持下采集数据。但是,采集数据集是一项经济成本高且时间消耗大的工作。想要在短时间内获得充足的数据量,数据扩充方法显得格外重要。
目前,语音扩充方法根据实现技术的不同分为两类。
(1)通过算法修改原始音频或语音特征进行扩充,如语速扰动、声带长度归一化、音频遮蔽。该类方法可以立刻生成音频,但为了取得优秀的生成音频通常需要人工不断调整。
(2)通过生成技术合成音频进行扩充,如噪音音频生成、房间模拟音频生成。该类方法通过合成技术生成新音频。研究主要集中在为现有音频添加特定任务需要的环境信息,但合成技术通常要求原始数据较为充足。
综上所述,现有的蒙古语数据集中有标注的蒙古语音频匮乏,且地区分布不均衡。语音识别模型使用当前蒙古语数据集会导致过拟合数据占比大的地区,基于注意力机制的序列到序列模型会过拟合。
因此,如何提供一种蒙古语数据集扩充方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种蒙古语数据集扩充方法,利用指定地区的生成对抗模型,得到蒙古语扩充数据集,平衡数据集地区分布,提高蒙古语语音识别模型的识别准确率。
为了实现上述目的,本发明提供如下技术方案:
一种蒙古语数据集扩充方法,包括:
获取包含指定地区特征的蒙古语文本、指定地区特征以及带有真实音频的指定地区特征的蒙古语音频;
构建指定地区对抗生成网络模型;
对所述指定地区对抗生成网络模型进行对抗训练,并将所述带有真实音频的指定地区特征的蒙古语音频输入到经过训练的所述对抗生成网络模型进行处理,生成蒙古语扩充数据集。
优选的,所述指定地区对抗生成网络模型包括:条件语音生成器以及多项融合判别器,所述条件语音生成器与所述多项融合判别器连接,所述条件语音生成器由合成器以及声码器组成;
其中,
所述生成器:根据所述蒙古语文本及所述指定地区特征得到构建蒙古语梅尔频谱图;
所述声码器:与所述生成器连接,根据所述蒙古语梅尔频谱图生成指定地区蒙古语音频;
所述多项融合判别器:根据所述蒙古语梅尔频谱图以及所述指定地区特征判别指定地区蒙古语音频是否为真实数据,生成所述蒙古语扩充数据集。
优选的,所述合成器包括依次连接的因果卷积层、编码层、注意力层、解码层和反卷积层;
其中,
所述因果卷积层用于降低所述蒙古语文本、所述指定地区特征以及所述蒙古语音频梅尔频谱图之间的信息量差;
所述编码层、所述注意力层及所述解码层用于从时间维度上映射输入特征和输出梅尔频谱图之间的关系;
所述反卷积层用于提升所述蒙古语音频梅尔频谱图的清晰度。
优选的,所述生成器根据指定地区特征和蒙古语文本得到蒙古语梅尔频谱图的分布,公式如下:
Figure BDA0003220218420000031
式中,z为指定地区特征,t蒙古语文本,x为蒙古语梅尔频谱图,p(x|z·t)为蒙古语梅尔频谱图的分布;
对蒙古语梅尔频谱图的分布进行建模,得到蒙古语梅尔频谱图特征,计算公式如下:
Figure BDA0003220218420000032
式中,*表示卷积操作,Wconv表示卷积核参数,Wenc表示LSTM编码参数,c表示注意力上下文,Watt表示注意力权重,g表示LSTM解码操作,
Figure BDA0003220218420000033
表示反卷积参数,
Figure BDA0003220218420000034
表示模型计算得到的蒙古语梅尔频谱图特征。
优选的,所述多项融合判别器由地区分类器以及清晰度分类器组成,所述地区分类器用于判别蒙古语音频发音地区,所述清晰度分类器用于判别蒙古语音频清晰度,得到判别结果,具体包括:
对所述带有真实音频的指定地区特征的蒙古语音频利用所述地区分类器以及清晰度分类器分别进行蒙古语音频发音地区以及蒙古语音频清晰度判别,若判别为真则加入真实蒙古语数据集X,若判别为假则舍弃,形成蒙古语扩充数据集。
优选的,所述地区分类器判别蒙古语音频发音地区的包括:
对所述蒙古语梅尔频谱图进行二维卷积计算,得到卷积特征;
对所述卷积特征进行池化处理;
根据卷积特征进行分类;
对每个地区分类计算概率值,取最大概率地区作为蒙古语音频发音地区判别结果,计算公式如下:
Figure BDA0003220218420000041
式中,x表示蒙古语梅尔频谱图,*表示卷积操作,Wconv表示卷积核参数,pool表示池化操作,Wfc表示全连接层参数,
Figure BDA0003220218420000044
表示地区分类判别的地区。
优选的,所述清晰度分类器判别蒙古语音频清晰度包括:
对所述蒙古语梅尔频谱图进行二维卷积计算,得到卷积特征;
对所述卷积特征进行池化处理;
根据卷积特征进行分类;
对蒙古语音频清晰度计算分值,分值范围为[-1,1],当分值高于设定的分值界限则认为符合清晰度要求,反之不符合,计算公式如下:
Figure BDA0003220218420000042
式中,x表示蒙古语梅尔频谱图,*表示卷积操作,Wconv表示卷积核参数,pool表示池化操作,Wfc表示全连接层参数,
Figure BDA0003220218420000043
表示清晰度分类判别的清晰度。
优选的,所述多项融合判别器进行对抗训练的具体过程包括:
所述多项融合判别器使用真实的蒙古语数据集和多项融合判别器的随机参数WD训练;
所述条件语音生成器使用蒙古语数据集和条件语音生成器的随机参数WG训练;
根据条件语音生成器损失函数进行反向传播,更新条件语音生成器的随机参数WG;根据多项融合判别器损失函数进行反向传播,更新多项融合判别器的随机参数WD,循环n轮次。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种蒙古语数据集扩充方法,该对抗生成网络模型的生成器使用条件语音生成器,判别器由多相融合判断器组成。条件语音生成器根据蒙古语文本和指定地区特征生成蒙古语音频和梅尔频谱图。多项融合判别器根据梅尔频谱图和指定地区特征判别地区特征和清晰度。经过条件语音生成器和多项融合判断器相互对抗学习,最终条件生成器合成的指定地区蒙古语音频被多项融合判别器判定为真实数据。扩充数据集由所有被多项融合判别器判定为真的生成蒙古语音频组成。本发明将指定地区的蒙古语数据进行扩充,解决了收集蒙古语语料的经济成本高、时间消耗大和地区不均匀问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的蒙古语数据集扩充方法流程示意图;
图2为本实施例提供的对抗生成网络模型的结构示意图;
图3为本实施例提供的指定地区的生成对抗网络示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见附图1所示,本发明实施例公开了一种蒙古语数据集扩充方法,包括:
获取包含指定地区特征的蒙古语文本、指定地区特征以及带有真实音频的指定地区特征的蒙古语音频;
构建指定地区对抗生成网络模型;
对指定地区对抗生成网络模型进行对抗训练,并将带有真实音频的指定地区特征的蒙古语音频输入到经过训练的对抗生成网络模型进行处理,生成蒙古语扩充数据集。
具体的,蒙古语文本中的地区特征与蒙古语音频中的地区特征一致,均代表要扩充的目标地区特征。
参见附图2所示,在一个具体实施例中,指定地区对抗生成网络模型主要包括条件语音生成器和多项融合判别器,条件语音生成器与多项融合判别器连接,其中,条件语音生成器由合成器以及声码器组成,多项融合判别器由地区分类器以及清晰度分类器组成。
参见附图3所示,为本实施例提供的指定地区的生成对抗网络示意图,在一个具体实施例中,条件语音生成器构建指定地区条件下蒙古语文本和蒙古语音频之间的映射,考虑到蒙古语音频信息与蒙古语文本的信息量差,合成器构建蒙古语文本及地区特征与蒙古语梅尔频谱图之间的映射,声码器构建蒙古语梅尔频谱图与蒙古语音频之间的映射。在多项融合判别器中,多项融合判别器构建蒙古语梅尔频谱图与指定地区蒙古语音频分类的映射,为了完成判别蒙古语音频发音地区任务和判别蒙古语音频清晰度任务,多项融合判别器分为地区分类器和清晰度分类器,将条件语音生成器和多项融合判别器之间的对抗学习。条件语音生成器合成具有地区特征的蒙古语音频,而多项融合判别器去除不具备指定地区特点和足够清晰度的蒙古语音频,从而生成蒙古语扩充数据集。
在一个具体实施例中,条件语音生成器由合成器和声码器组成,合成器包括因果卷积层、LSTM编码层、注意力层、LSTM解码层和反卷积层组成。声码器采用Griffin-Lim算法将梅尔频谱图转换为蒙古语音频。
具体的,为了最大限度的还原音频,梅尔频谱图需要转换为时频谱。
在一个具体实施例中,条件语音生成器合成器在特定地区特征和蒙古语文本的条件下,对蒙古语梅尔频谱图的分布进行建模。其公式为:
Figure BDA0003220218420000071
式中,z为特定地区特征,t为蒙古语文本,x蒙古语梅尔频谱图,p(x|z·t)为蒙古语梅尔频谱图x的分布。
在一个具体实施例中,将获取的包含指定地区特征的蒙古语文本以及指定地区特征拼接成编码共同作为合成器的输入,合成器包括因果卷积层、LSTM编码层、注意力层、LSTM解码层和反卷积层组成。
具体的,因果卷积层可以降低蒙古语文本及地区特征和蒙古语音频梅尔频谱图之间的信息量差。
具体的,LSTM编码层、注意力层和LSTM解码层从时间维度上映射输入特征和输出梅尔频谱图之间的关系。
具体的,反卷积层能提升梅尔频谱图的清晰度。
具体的,计算公式为:
Figure BDA0003220218420000072
式中,*表示卷积操作,Wconv表示卷积核参数,Wenc表示LSTM编码参数,c表示注意力上下文,Watt表示注意力权重,g表示LSTM解码操作,
Figure BDA0003220218420000073
表示反卷积参数,
Figure BDA0003220218420000074
表示模型计算得到的蒙古语梅尔频谱图特征。
具体的,上述各层的初始参数均为随机生成,为了取得更好的建模效果还需要进行梯度下降算法(Gradient Descent Algorithm)修正模型参数。梯度下降算法需要的损失函数L的公式为:
Figure BDA0003220218420000081
在一个具体实施例中,声码器采用Griffin-Lim算法将梅尔频谱图转换为蒙古语音频。
具体的,为了最大限度的还原音频,梅尔频谱图需要转换为时频谱(Spectrogram)。时频谱保留每一帧的频率分布,但缺乏相位信息,即缺乏讯号波形变化信息。设P为相位谱,S为时频谱,X为语音波形信息,f代表傅里叶变换,f-1是逆时傅里叶变换。具体算法步骤如下:
(1)随机初始化相位谱P;
(2)用时频谱S与相位谱P经过逆傅里叶变换f-1合成新的语音波形信息X;
(3)用合成音频做傅里叶变换f,得到新的时频谱Snew和相位谱Pnew
(4)丢弃新的时频谱Snew,用原时频谱S和新的相位谱Pnew合成新的语音波形信息X;
(5)重复若干轮步骤(3)到(4),输出最后一轮得到的音频波形信息X;
在一个具体实施例中,为了完成判别蒙古语音频发音地区任务和判别蒙古语音频清晰度能力,多项融合判别器分为地区分类器和清晰度分类器。
具体的,地区分类器首先对梅尔频谱图进行二维卷积计算,得到卷积特征,每次卷积运算后,卷积特征应用修正线性单元(ReLU)转换将非线性规律引入模型中。接着,池化操作降低卷积特征的采样率,从而减少特征图的位数,同时仍保留关键的特征信息。然后,全连接层根据卷积提出的特征进行分类。最后,激活函数softmax对每一个地区分类计算概率值,取最大概率地区作为判定结果。
具体计算公式为:
Figure BDA0003220218420000091
式中,x表示蒙古语梅尔频谱图,*表示卷积操作,Wconv表示卷积核参数,pool表示池化操作,Wfc表示全连接层参数,
Figure BDA0003220218420000092
表示地区分类器判定的地区。
在一个具体实施例中,清晰度分类器和地区分类器设计类似,但最后激活函数换为sigmoid对蒙古语音频清晰度计算分值,分值范围为[-1,1]。当分值高于设定的分值界限则认为符合清晰度要求,反之不符合。
具体计算公式为:
Figure BDA0003220218420000093
式中,x表示蒙古语梅尔频谱图,*表示卷积操作,Wconv表示卷积核参数,pool表示池化操作,Wfc表示全连接层参数,
Figure BDA0003220218420000094
表示清晰度分类判别的清晰度,
Figure BDA0003220218420000095
表示清晰度分类器判定的清晰度。
具体的,多项融合判别器先计算地区分类器,地区分类正确才计算清晰度分类器,否则直接返回不通过。若清晰度分类器结果
Figure BDA0003220218420000096
高于设定要求y,返回通过;否则仍返回不通过。于是,多相融合判别器的损失函数公式为:
Figure BDA0003220218420000097
在一个具体实施例中,指定地区对抗生成网络模型进行对抗训练的最终目标是:
Figure BDA0003220218420000098
式中,D为多项融合判别器,G为条件语音生成器,X为真实的蒙古音频,XC表示作为条件语音生成器中表示条件的地区信息,Z代表指定地区的语音特征,WD表示训练多项融合判别器时的随机初始化参数,WG表示训练条件语音生成器时的随机初始化参数。
具体的,多项融合判别器D使用真实的蒙古语数据X集和随机参数WD训练。
条件语音生成器G使用蒙古语数据集X和随机参数WG训练,通过指定地区特征z得到蒙古语扩充数据集Y,并被标注为假。根据条件语音生成器损失LossG进行反向传播,更新参数WG,其中,损失公式为
Figure BDA0003220218420000101
多项融合判别器D对蒙古语扩充数据集Y区分,若判别为真,则加入数据集X;否则抛弃对应项。根据多项融合判别器损失LossD进行反向传播,更新多参数WD,循环n轮次。将蒙古语数据X中标注为假的数据为蒙古语扩充数据集YZ
在一个具体实施例中,由于现有数据集中包头市的蒙古语音频较少,因此,从现有的包头市蒙古语音频中提取包头市的地区特征,将该地区特征重构后与蒙古语本发明结合得到带包头市地区特征的文本,并送入条件语音生成器中的合成器生成带包头市地区特征的蒙古语频谱图,接着利用声码器将其转化成语音。生成对抗网络中的多项融合判别器利用真实的包头市蒙古语音频来判别生成的包头市蒙古语音频是否清晰,是否具有包头市的地区特征,通过计算对抗损失,不断调整条件语音生成器,使其生成带包头市地区特征的蒙古语音频,最终实现数据集扩充。
经由上述的技术方案可知,与现有技术相比,本发明提出的数据扩充方法能够平衡数据集地区分布,从而提高蒙古语语音识别模型的识别准确率。解决了当前蒙古语数据集中有标注的蒙古语音频匮乏,且地区分布不均衡的问题。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种蒙古语数据集扩充方法,其特征在于,包括:
获取包含指定地区特征的蒙古语文本、指定地区特征以及带有真实音频的指定地区特征的蒙古语音频;
构建指定地区对抗生成网络模型;
对所述指定地区对抗生成网络模型进行对抗训练,并将所述带有真实音频的指定地区特征的蒙古语音频输入到经过训练的所述对抗生成网络模型进行处理,生成蒙古语扩充数据集。
2.根据权利要求1所述的一种蒙古语数据集扩充方法,其特征在于,所述指定地区对抗生成网络模型包括:条件语音生成器以及多项融合判别器,所述条件语音生成器与所述多项融合判别器连接,所述条件语音生成器由合成器以及声码器组成;
其中,
所述生成器:根据所述蒙古语文本及所述指定地区特征得到构建蒙古语梅尔频谱图;
所述声码器:与所述生成器连接,根据所述蒙古语梅尔频谱图生成指定地区蒙古语音频;
所述多项融合判别器:根据所述蒙古语梅尔频谱图以及所述指定地区特征判别指定地区蒙古语音频是否为真实数据,生成所述蒙古语扩充数据集。
3.根据权利要求2所述的一种蒙古语数据集扩充方法,其特征在于,所述合成器包括依次连接的因果卷积层、编码层、注意力层、解码层和反卷积层;
其中,
所述因果卷积层用于降低所述蒙古语文本、所述指定地区特征以及所述蒙古语音频梅尔频谱图之间的信息量差;
所述编码层、所述注意力层及所述解码层用于从时间维度上映射输入特征和输出梅尔频谱图之间的关系;
所述反卷积层用于提升所述蒙古语音频梅尔频谱图的清晰度。
4.根据权利要求2所述的一种蒙古语数据集扩充方法,其特征在于,所述生成器根据指定地区特征和蒙古语文本得到蒙古语梅尔频谱图的分布,公式如下:
Figure FDA0003220218410000021
式中,z为指定地区特征,t蒙古语文本,x为蒙古语梅尔频谱图,p(x|z·t)为蒙古语梅尔频谱图的分布;
对蒙古语梅尔频谱图的分布进行建模,得到蒙古语梅尔频谱图特征,计算公式如下:
Figure FDA0003220218410000022
式中,*表示卷积操作,Wconv表示卷积核参数,Wenc表示LSTM编码参数,c表示注意力上下文,Watt表示注意力权重,g表示LSTM解码操作,
Figure FDA0003220218410000023
表示反卷积参数,
Figure FDA0003220218410000024
表示模型计算得到的蒙古语梅尔频谱图特征。
5.根据权利要求2所述的一种蒙古语数据集扩充方法,其特征在于,所述多项融合判别器由地区分类器以及清晰度分类器组成,所述地区分类器用于判别蒙古语音频发音地区,所述清晰度分类器用于判别蒙古语音频清晰度,得到判别结果,具体包括:
对所述带有真实音频的指定地区特征的蒙古语音频利用所述地区分类器以及清晰度分类器分别进行蒙古语音频发音地区以及蒙古语音频清晰度判别,若判别为真则加入真实蒙古语数据集X,若判别为假则舍弃,形成蒙古语扩充数据集。
6.根据权利要求5所述的一种蒙古语数据集扩充方法,其特征在于,所述地区分类器判别蒙古语音频发音地区的包括:
对所述蒙古语梅尔频谱图进行二维卷积计算,得到卷积特征;
对所述卷积特征进行池化处理;
根据卷积特征进行分类;
对每个地区分类计算概率值,取最大概率地区作为蒙古语音频发音地区判别结果,计算公式如下:
Figure FDA0003220218410000031
式中,x表示蒙古语梅尔频谱图,*表示卷积操作,Wconv表示卷积核参数,pool表示池化操作,Wfc表示全连接层参数,
Figure FDA0003220218410000032
表示地区分类判别的地区。
7.根据权利要求5所述的一种蒙古语数据集扩充方法,其特征在于,所述清晰度分类器判别蒙古语音频清晰度包括:
对所述蒙古语梅尔频谱图进行二维卷积计算,得到卷积特征;
对所述卷积特征进行池化处理;
根据卷积特征进行分类;
对蒙古语音频清晰度计算分值,分值范围为[-1,1],当分值高于设定的分值界限则认为符合清晰度要求,反之不符合,计算公式如下:
Figure FDA0003220218410000033
式中,x表示蒙古语梅尔频谱图,*表示卷积操作,Wconv表示卷积核参数,pool表示池化操作,Wfc表示全连接层参数,
Figure FDA0003220218410000034
表示清晰度分类判别的清晰度。
8.根据权利要求5所述的一种蒙古语数据集扩充方法,其特征在于,所述多项融合判别器进行对抗训练的具体过程包括:
所述多项融合判别器使用真实的蒙古语数据集和多项融合判别器的随机参数WD训练;
所述条件语音生成器使用蒙古语数据集和条件语音生成器的随机参数WG训练;
根据条件语音生成器损失函数进行反向传播,更新条件语音生成器的随机参数WG;根据多项融合判别器损失函数进行反向传播,更新多项融合判别器的随机参数WD,循环n轮次。
CN202110955831.4A 2021-08-19 2021-08-19 一种蒙古语数据集扩充方法 Active CN113611293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110955831.4A CN113611293B (zh) 2021-08-19 2021-08-19 一种蒙古语数据集扩充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110955831.4A CN113611293B (zh) 2021-08-19 2021-08-19 一种蒙古语数据集扩充方法

Publications (2)

Publication Number Publication Date
CN113611293A true CN113611293A (zh) 2021-11-05
CN113611293B CN113611293B (zh) 2022-10-11

Family

ID=78341361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110955831.4A Active CN113611293B (zh) 2021-08-19 2021-08-19 一种蒙古语数据集扩充方法

Country Status (1)

Country Link
CN (1) CN113611293B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115171651A (zh) * 2022-09-05 2022-10-11 中邮消费金融有限公司 一种儿化音合成方法、装置、电子设备及存储介质
CN116564276A (zh) * 2023-04-23 2023-08-08 内蒙古工业大学 一种基于双判别器生成对抗网络的蒙古语语音识别方法
CN116705001A (zh) * 2023-05-04 2023-09-05 内蒙古工业大学 一种蒙古语语音数据选择方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598221A (zh) * 2019-08-29 2019-12-20 内蒙古工业大学 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN111986646A (zh) * 2020-08-17 2020-11-24 云知声智能科技股份有限公司 一种基于小语料库的方言合成方法及系统
CN112133326A (zh) * 2020-09-08 2020-12-25 东南大学 一种基于对抗神经网络的枪声数据增广与检测方法
CN112652309A (zh) * 2020-12-21 2021-04-13 科大讯飞股份有限公司 一种方言语音转换方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598221A (zh) * 2019-08-29 2019-12-20 内蒙古工业大学 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN111986646A (zh) * 2020-08-17 2020-11-24 云知声智能科技股份有限公司 一种基于小语料库的方言合成方法及系统
CN112133326A (zh) * 2020-09-08 2020-12-25 东南大学 一种基于对抗神经网络的枪声数据增广与检测方法
CN112652309A (zh) * 2020-12-21 2021-04-13 科大讯飞股份有限公司 一种方言语音转换方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王海文,邱晓晖: "一种基于生成时对抗网络的图像数据扩充方法", 《计算机技术与发展》 *
郭家兴: "《硕士学位论文》", 15 February 2021, 哈尔滨工业大学 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115171651A (zh) * 2022-09-05 2022-10-11 中邮消费金融有限公司 一种儿化音合成方法、装置、电子设备及存储介质
CN116564276A (zh) * 2023-04-23 2023-08-08 内蒙古工业大学 一种基于双判别器生成对抗网络的蒙古语语音识别方法
CN116564276B (zh) * 2023-04-23 2024-06-25 内蒙古工业大学 一种基于双判别器生成对抗网络的蒙古语语音识别方法
CN116705001A (zh) * 2023-05-04 2023-09-05 内蒙古工业大学 一种蒙古语语音数据选择方法及系统

Also Published As

Publication number Publication date
CN113611293B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN113611293B (zh) 一种蒙古语数据集扩充方法
CN110853680B (zh) 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法
CN104424943B (zh) 语音处理系统和方法
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
US20180061439A1 (en) Automatic audio captioning
EP0847041B1 (en) Method and apparatus for speech recognition performing noise adaptation
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
US5903863A (en) Method of partitioning a sequence of data frames
CN103578462A (zh) 语音处理系统
EP0755046A2 (en) Speech recogniser using a hierarchically structured dictionary
CN115662435B (zh) 一种虚拟教师拟真化语音的生成方法及终端
CN102663432A (zh) 结合支持向量机二次识别的模糊核聚类语音情感识别方法
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN110047501A (zh) 基于beta-VAE的多对多语音转换方法
CN111241820A (zh) 不良用语识别方法、装置、电子装置及存储介质
Jagadeeshwar et al. ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN
Djeffal et al. Noise-robust speech recognition: A comparative analysis of LSTM and CNN approaches
CN102063897B (zh) 一种用于嵌入式语音合成系统的音库压缩及使用方法
CN117877529A (zh) 一种基于双特征的语音情感识别方法及系统
CN108847251A (zh) 一种语音去重方法、装置、服务器及存储介质
CN117497008A (zh) 基于声门振动序列动态建模的语音情感识别方法和工具
CN111968669A (zh) 一种多元混合声信号分离方法及装置
CN116645956A (zh) 语音合成方法、语音合成系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant