CN112992119B - 基于深度神经网络的口音分类方法及其模型 - Google Patents
基于深度神经网络的口音分类方法及其模型 Download PDFInfo
- Publication number
- CN112992119B CN112992119B CN202110052375.2A CN202110052375A CN112992119B CN 112992119 B CN112992119 B CN 112992119B CN 202110052375 A CN202110052375 A CN 202110052375A CN 112992119 B CN112992119 B CN 112992119B
- Authority
- CN
- China
- Prior art keywords
- accent
- neural network
- loss
- deep neural
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 35
- 230000008569 process Effects 0.000 claims abstract description 32
- 238000001228 spectrum Methods 0.000 claims abstract description 21
- 102100032202 Cornulin Human genes 0.000 claims abstract description 14
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims abstract description 14
- 238000013145 classification model Methods 0.000 claims abstract description 9
- 230000002401 inhibitory effect Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 60
- 238000013527 convolutional neural network Methods 0.000 claims description 23
- 230000010354 integration Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 238000009826 distribution Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度神经网络的口音分类方法,包括:提取原始音频的帧级频域特征,构建2D语音频谱作为网络输入X;构建一个多任务权值共享的基于CRNNs的前端编码器来提取频谱X的局部序列描述符{P1,…,PT'};在训练过程中,前端编码器后增设语音识别任务分支网络,用来抑制口音识别中的过拟合现象;构建用于口音识别任务的核心分支网络,首先将所有局部序列描述符整合成一个全局口音特征;然后在预测过程中引入判别性损失函数;最后通过基于softmax的分类层对全局口音特征进行分类,实现口音预测。还公开了一种高度可判别性的基于深度神经网络的口音分类模型,对来自不同区域群体的说话人能给出一个可靠的口音预测。
Description
技术领域
本发明涉及深度学习领域,特别是涉及一种基于深度神经网络的口音分类方法及其模型。
背景技术
口音是在某一语言下说话人的多样性发音行为,该不同的发音方式可归因于说话人的社会环境,居住区域等等。然而各种各样的口音会对语音控制的相关技术的泛化性提出挑战,例如自动语音识别。口音识别技术可用于针对性解决口音相关问题或者预测说话人区域身份,在近些年来被广泛深入研究。随着深度学习技术的日益发展,越来越多的图像或者语音的识别问题采用训练人工神经网络模型得以很好解决。同人脸识别、说话人识别等工作类似,实现口音识别任务的核心内容可总结如下:(1)使用CNN和RNN网络来提取输入频谱的局部特征;(2)将局部特征整合成一个定长的且全局口音特征;(3)对于识别任务,我们希望口音特征具有良好的判别性,因此选择合适的判别性损失函数来进行特征学习是至关重要。
在深度学习领域中,受到了人类视觉神经系统的启发,CNN使用卷积核来代替人类中的视野,这样既能够降低计算量,又能够有效的保留图像的特征,同时对图片的处理更加地高效,AlexNet、VGG、ResNet等CNN网络广泛应用于图像识别任务中提取不同局部特征。RNN是一种用于处理序列数据的神经网络,相比一般的神经网络来说,它能够处理序列变化的数据,LSTM,GRU,SRU等特殊的RNN通过改进可以捕捉长期的依赖关系,被广泛应用于序列到序列或者序列分类等问题中。卷积循环网络(CRNN)将CNN和RNN二者结合用于处理基于图像的序列问题,例如光学字符识别(OCR)、声音事件检测、语音识别等任务。通过CNN/RNN提取的局部特征在神经网络的分类层前需要重构成1维向量,在图像识别任务中常见的作法是进行平铺,但是该方法会生成较大维度特征向量进而增加训练参数。在图像检索任务中,NetVLAD将局部特征通过k个类心软对齐后聚集得到一个全局特征。对于序列特征常见的多对一特征融合方法有平均/标准差池化,RNN等。此外,损失函数在深度特征学习中扮演着至关重要的角色,它决定着网络的学习准则和特征的表征性能。在诸多分类任务中,人们希望获取一个优异判别性的特征空间,即类内样本特征差异尽可能小,类间样本特征差异尽可能大。softmax是一个最常见分类损失函数,但是其所追求成功分类的概率空间并不意味也是一个良好的度量空间,因此很多softmax的变体被提出。早期对损失函数改进有对特征和类属权值进行L2归一化,后来AM-Softmax、CosFace、ArcFace等损失函数进一步在角度空间添加margin来加强特征的判别性。
不考虑信道,背景噪声等外部因素,面向说话人识别的深度网络将说话人语音中性别,语速,发音等音色信息浓缩成个体级的特征。但是口音属于在同一区域下一群说话人的发音习惯,因此口音识别比说话人识别更具挑战性在于学习一个群体级特征。特别是在越来越多说话人倾向标准式发音的语音场景下,口音的侦测与识别愈加困难。另外,因为口音识别任务训练过程容易产生过拟合现象,这往往由于不准确的学习过程造成。
因此亟需提供一种新型的基于深度神经网络的口音分类方法及其模型来解决上述问题。
发明内容
本发明所要解决的技术问题是提供一种基于深度神经网络的口音分类方法及其模型,借鉴和吸收深度学习领域中人脸识别和说话人识别人物中的一些核心方法来解决口音识别问题;此外针对训练过程中的过拟合现象,还提出采用语音识别辅助任务来缓和该问题。
为解决上述技术问题,本发明采用的第一个技术方案是:提供一种基于深度神经网络的口音分类方法,包括以下步骤:
S1:提取原始音频的帧级频域特征,并构建2D语音频谱作为网络输入X;
S2:构建一个多任务权值共享的基于CRNNs的前端编码器来提取频谱X的局部序列描述符{P1,...,PT′};
S3:在训练过程中,在前端编码器后增设语音识别任务分支网络,用来纠正训练过程中学习方向即抑制口音识别中的过拟合现象;
S4:构建用于口音识别任务的核心分支网络,将所有局部序列描述符整合成一个全局口音特征;
S5:在预测过程中引入判别性损失函数,用于增强全局口音特征的判别能力;
S6:通过基于softmax的分类层对全局口音特征进行分类,实现口音预测。
在本发明一个较佳实施例中,步骤S1的具体步骤为:对于一段语音信号,在每帧语音信号内提取MFCC或者FBANK频域特征来构建2D语音频谱,然后扩张通道维度用于CNN运算。
在本发明一个较佳实施例中,所述基于CRNNs的前端编码器包括卷积神经网络(CNNs)、循环神经网络(RNNs)、位于CNNs与RNNs之间的序列共享的全连接层(FC);
所述CNNs中每层会对上一层特征图进行池化并增加特征图数目;
所述全连接层(FC)用来降低帧级维度;
所述RNNs用来进一步提取局部序列描述子{P1,...,PT′}。
在本发明一个较佳实施例中,所述语音识别任务分支网络包括编码器RNNs层、解码器;
所述RNNs层用来对共享局部序列描述符继续抽取高级语义特征;
所述解码器采用的类型包括CTC、Attention、CTC/Attention、Transformer。
在本发明一个较佳实施例中,在步骤S4中,对局部序列描述符的整合方式包括平均池化、RNN、聚集描述向量VLAD。
在本发明一个较佳实施例中,在步骤S5中,所述判别性损失函数的基本形式是soffmax的变体函数+用于多分类任务的交叉熵函数;
所述交叉熵函数为:
其中M表示类别数目,N表示为样本个数,yic表示样本i是否为类c的标签,pic表示样本i为类c的概率;
所述soffmax的变体函数包括CosFace、ArcFace、Circle-Loss。
为解决上述技术问题,本发明采用的第二个技术方案是:提供一种基于深度神经网络的口音识分类模型,主要包括:
语音输入模块,用于提取原始音频的帧级频域特征,并构建2D语音频谱作为网络输入X;
基于CRNNs的前端编码器,用于提取频谱X的局部序列描述符{P1,...,PT′};
语音识别任务分支网络,位于所述前端编码器之后,用来纠正训练过程中学习方向即抑制口音识别中的过拟合现象;
用于口音识别任务的核心分支网络,用于将所有局部序列描述符整合成一个全局口音特征、在全局口音特征后增设判别性损失函数来增强全局口音特征的判别能力、在全局口音特征后添加基于softmax的分类层用于口音预测;
分类结果输出模块,用于输出所述用于口音识别任务的核心分支网络的判别性损失函数和基于softmax的口音分类层,以及所述语音识别任务分支网络中的解码器。
在本发明一个较佳实施例中,所述分类结果输出模块在训练过程中的损失权权重分配为:
Loss=α*Lossasr+(1-α)*Lossdisc+β*Lossclassifier
其中Lossasr、Lossdisc、Lossclassifier分别是语音识别、判别性损失、口音分类的损失函数,α和β是损失权重系数。
本发明采用的第三个技术方案是:提供一种基于深度神经网络的口音分类设备,包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于深度神经网络的口音分类方法程序;
所述基于深度神经网络的口音分类方法程序被所述处理器执行时实现如上所述的基于深度神经网络的口音分类方法的步骤。
本发明采用的第四个技术方案是:提供一种计算机介质,所述计算机介质上存储有基于深度神经网络的口音分类方法程序;
所述基于深度神经网络的口音分类方法程序被所述处理器执行时实现如上所述的基于深度神经网络的口音分类方法的步骤。
本发明的有益效果是:
(1)一种端到端的网络模型
在人脸识别(或说话人识别)任务中,识别采用的方法是用训练好的模型提取不同输入样本的嵌入式特征,并计算他们的欧氏距离或者余弦相似度来预测样本身份,本发明提出的网络模型是在嵌入式口音特征后追加一层分类层实现端到端的训练和预测;
(2)高度判别性的口音特征学习
通过深度神经网络学习一个具有判别性的口音特征空间,即相同口音特征差异较小,不同口音特征差异较大,本发明提出的深度模型中尝试了人脸识别领域中流行的几款损失函数:CosFace、ArcFace、Circle-Loss。相比较传统的基于Softmax的特征学习,取得了更加判别性的特征空间。在一个包含有8个国家口音英语数据集中,本发明训练的深度模型使用不同的损失函数下,最佳结果分别为:Softmax(77.3%),CosFace (80.3%),ArcFace(79.4%),Circle-Loss(81.7%);
(3)有效的过拟合抑制方法
在口音识别网络的训练过程中,由于原始频谱中包含说话人丰富的音色信息,在捕捉口音证据的过程中网络容易陷入错误的学习方向。同时口音是一种说话相关的音色,因此在训练过程中,本发明引入语音识别辅助任务来构建多任务模型,促进前端编码器学习更准确的语音特征,来抑制口音识别训练过程中存在的过拟合现象。在基于Softmax损失函数的特征学习过程中,通过添加基于CTC的语音识别辅助任务,本发明在英语口音分类测试集上的口音识别精度从74.8%上升到77.3%。
附图说明
图1是本发明基于深度神经网络的口音分类模型一较佳实施例的网络架构图;
图2是三种特征融合方式的示意图;
图3是本发明所述网络模型在口音分类竞赛上的实验结果示意图;
图4是在训练过程中添加语音识别辅助任务的提升效果图;
图5是基于Softmax和CosFace损失函数下所学习的二维(2D)口音特征分布图;
图6基于ArcFace损失函数下所学习的二维(2D)口音特征分布图;
图7基于Softmax、CosFace、ArcFace、Circle-Loss损失函数下所学习的三维(3D)单位口音特征分布图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1,本发明实施例包括:
一种基于深度神经网络的口音分类方法,包括以下步骤:
S1:提取原始音频的帧级频域特征,并构建2D语音频谱作为网络输入X;
关于输入频谱图X的预处理,对于一段语音信号,在每帧内提取语音识别任务中常见的MFCC或者FBANK频域特征来构建2D频谱,然后扩张一个维度用于CNN运算。
S2:构建一个多任务权值共享的基于CRNNs的前端编码器来提取频谱X的局部序列描述符{P1,...,PT′};
对于输入的语音频谱X,采用CRNNs前端编码器来提取谱图的局部特征,所述基于卷积循环网络(CRNNs)的前端编码器包括卷积神经网络(CNNs)、循环神经网络(RNNs)、位于CNNs与RNNs之间的序列共享的全连接层(FC)。在CRNNs编码器中,可采用一些深度学习中流行的模块,例如VGG,ResNet等CNN网络和LSTM,GRU等RNN网络。其中CNNs中每层会对上一层特征图进行池化并增加特征图数目,经过CNNs计算得到的3D张量,合并前两个维度(时间和特征)重构成2D序列张量用于循环网络建模,然后添加序列共享的全连接层(FC)来降低帧级维度,最后添加RNNs来进一步提取局部序列描述子{P1,...,PT′}。
例如,本示例中分别采用深度学习中的流行的残差网络(ResNet)和双向GRU网络(Bi-GRU),各层的输出尺寸如下:
网络层 | 输出张量尺寸 |
X | TxDx1 |
ResNet | (T/32)x(D/32)xN |
Reshape | (TxD/322)xN |
FC | (TxD/322)xH |
Bi-GRU | (TxD/322)xH |
其中N表示CNNs输出后张量的特征图数目,H表示描述子特征维度。
S3:由于口音识别任务的训练过程容易陷入过拟合现象,这往往是因为说话人语音中的众多音色属性所导致的同果但不同因的决策路径。因为口音是一种说话相关的音色,在训练过程中,在前端编码器后增设语音识别(ASR)任务分支网络作为辅助分支,用来纠正训练过程中学习方向即抑制口音识别中的过拟合现象;
具体的,在ASR分支中,首先会添加RNNs层来对共享局部描述子继续抽取高级语义特征,然后采用端到端ASR模型中几款流行的解码器,例如有CTC、Attention、CTC/Attention、Transformer等等。
本示例中,对于ASR分支中的解码器,使用端到端ASR任务中常用的CTC损失函数。具体来说,输入频谱经过RNN编码和softmax激活后得到输出序列π={π1,...,πn},其标签为l={l1,...,lm},(m<n),l和π的映射规则为:l=F(π),每帧的后验分布为{ys|s∈S},S是包括<blank>符号的全体token集合,表示t时刻输出πt的概率。根据条件独立假设,某个输出序列(对其结果)为π的概率为:
进而标签l的后验概率表示为全部对齐结果之和:
可以看到在CTC算法中,对于一个时间片长度为T的N分类任务,所有可能的路径数为TN,此天文级的计算量无法直接作为优化目标,所以在CTC中采用了动态规划的思想来对查找路径进行剪枝。
S4:构建用于口音识别任务的核心分支网络,将所有局部序列描述符(即局部描述子)整合成一个全局口音特征Q;这里的多对一特征融合方法可使用平均池化、RNN、聚集描述向量(VLAD)等。对于局部描述子的整合方式有:
(1)平均池化:计算全体描述子的均值统计作为单个全局表征。
(2)RNN:例如LSTM或者GRU等循环网络,我们将局部描述子按照时序依次输入RNN中,并将最后时间步的输出作为整合结果。
(3)VLAD:VLAD是常用于图像检索任务中的特征提取方法,假设对于一个样本提取NxD特征(N为局部特征的任意数目,D为局部特征维度),将所有样本的局部特征进行聚类,获得K个聚类中心{Ck}。VLAD通过下面方式将NxD特征转化为KxD形状固定的全局特征。
式中,xi表示第i个局部特征,ck表示第k个聚类中心,xi和ck都是D维特征。ak(xi)是一个符号函数,即对于不属于ck的特征xi的权重为ak(xi)=0,反之ak(xi)=1。
在深度学习中,NetVLAD将ak(xi)近似成软对齐权重:
其中{wk}、{bk}、{ck}是网络需要学习的参数。对于每一类心的对齐结果会进行L2范数归一化,接下来为了减小聚集特征维度,在聚集特征后添加一层全连接层。
结合图2,说明了本实施例中局部特征融合的方式。平均池化层在神经网络中是一种常见的池化方式,它会计算全部局部特征的均值作为整合结果。因为通过CRNN学习得到的局部特征之间满足序列性,因此可以采用基于RNN的多对一方法进行整合,即依次输入每一步的局部特征,并将最后的时间步的输出作为整合结果。此外,还可以采用在图像检索中流行的图像编码方法即聚集描述特征向量(VLAD),其大体思路是对样本的任意数量局部描述符计算一个定长的全局特征,具体做法是,首先对样本集的局部特征聚类得到K个聚类中心,然后将某样本的局部特征在这些聚类中心中进行对齐(NetVLAD采用的是软对齐),计算每个聚心与所有对齐特征残差结果之和并作L2归一化作为该聚心上对齐结果,合并全部聚心的对齐结果做为一个全局描述特征。
S5:由于口音特征是一种在同一语言下说话人的群体表征,往往倾向标准式发音的发音方式会弱化不同区域说话人的口音差异,这会造成模糊的口音鉴别。在预测过程中,为了增强全局口音特征的判别能力,引入近几年来深度人脸识别工作中流行的几款判别性损失函数,例如有Softmax,CosFace,ArcFace,Circle-Loss等;
对于判别式损失函数,其基本形式是softmax的变体函数+交叉熵函数:
首先用于多分类任务交叉熵函数为:
其中M表示类别数目,N表示为样本个数,yic表示样本i是否为类c的标签,pic表示样本i为类c的概率。
在深度特征学习中,损失函数扮演极其重要的角色。softmax是分类任务中的常见函数,其优化目标是构建一个最大似然概率空间使所有样本分类正确。不考虑偏置条件下,其表达式为:
但是softmax中追求正确的分类不代表着获取一个具有良好泛化性能的度量空间。因此,softmax函数的相关改进变体函数在深度人脸识别领域中被广泛研究,其中有:
(1)CosFace:CosFace对softmax进行了改进,即对特征和权值进行L2归一化,并在角度空间添加margin:
其中θk,i表示类权值wk和特征xi之间的夹角,yi是xi的正确分类,超参数γ和m分别是缩放因子和margin。
(2)ArcFace:类似于CosFace中的加性margin,ArcFace将间距移至cos算子内部:
其中θk,i表示类权值wk和特征xi之间的夹角,yi是xi的正确分类,超参数γ和m分别是缩放因子和margin。
(3)Circle-Loss:Circle-Loss对两种基本范式下(基于类别和基于样本对)的深度特征学习损失函数提出一个统一的视角,即学习目标为最大化同类相似度sp和最小化异类相似度sn,也就是最小化(sn-sp)。给定特征空间某一样本x,假定其存在K个同类相似度得分得分和L个异类相似度得分/>Circle-Loss提出一个统一的损失函数:
其中γ是缩放因子,m表示用于相似度分离的margin。为了改善传统损失函数在最小化(sn-sp)过程中的不流利的优化和模糊的收敛状态,Circle-Loss被提出:
其中Δn和Δp分别是和/>的特有margin,根据统一公式,Circle-Loss将优化目标/>泛化为/> 和/>是在梯度下降过程中自我调节系数:
其中On和Op分别是和/>的最优值,[·]+表示relu激活函数。Circle-Loss进一步通过以下方式简化超参数:Op=1+m,On=1-m,Δp=1-m,Δn=m,其中m是一个margin超参。
S6:为满足端到端口音预测,通过基于softmax的分类层对全局口音特征Q进行分类,实现口音预测。对于softmax分类层,在预测过程中会赋予较小的损失权重,来减少其对口音特征的判别性能影响。
本发明本实施例还提供一种基于深度神经网络的口音分类模型,主要包括:
语音输入模块,用于提取原始音频的帧级频域特征,并构建2D语音频谱作为网络输入X;
基于CRNNs的前端编码器,用于提取频谱X的局部序列描述符{P1,...,PT′},计算得到T个局部特征;
语音识别任务分支网络,位于所述前端编码器之后,用来纠正训练过程中学习方向即抑制口音识别中的过拟合现象,其中采用的解码器是基于CTC算法;
用于口音识别任务的核心分支网络,其中封装了:(i)用于整合全部局部描述符至单个全局口音特征的特征融合方法;(ii)对于该全局口音特征,然后增设判别性损失函数来优化口音特征空间,即增强不同口音之间的特征差异和缩小同一口音下的特征差异;(iii)此外,在全局口音特征后添加基于softmax的分类层用于口音预测;
分类结果输出模块,用于输出所述用于口音识别任务的核心分支网络的判别性损失函数和基于softmax的口音分类层,以及所述语音识别任务分支网络中的解码器。
因此该网络模型有三个输出,具体来说分别是:(1)口音识别分支中的判别性损失函数和基于softmax的口音分类层;(2)ASR分支中的解码器。训练过程中的损失权权重分配方案如下:
Loss=α*Lossasr+(1-α)*Lossdisc+β*Lossclassifier
其中Lossasr、Lossdisc、Lossclassifier分别是ASR、判别性损失、口音分类的损失函数,α和β是损失权重系数。
完成训练后的多任务模型,只保留前端编码器和口音识别分支作为实现口音预测的模型。本发明的深度口音识别网络架构,提出了一种高度可判别性的口音分类模型,对来自不同区域群体的说话人能给出一个可靠的口音预测。
本示例的一种基于深度神经网络的口音分类模型,可执行本发明所提供的一种基于深度神经网络的口音分类方法,可执行方法示例的任何组合实施步骤,具备该方法相应的功能和有益效果。
参见图3,说明了本实施例中在Interspeech2020口音英语识别挑战赛(AESRC2020)的口音识别赛道上的实验结果。实验结果根据是否使用ASR预训练任务来初始化编码器权重分成两个部分。在编码器未初始化下,如果直接训练口音分类模型,本发明提出的网络和AESRC2020的baseline系统都陷入严重的过拟合现象,但是通过在训练过程添加基于CTC的语音识别任务,本发明提出的网络在口音分类上的精度得到大大的提升。在编码器初始化下,本发明提出的网络和baseline模型的过拟合现象都得到了很好的改善,本发明提出的方法仍高于baseline结果。因此沿用CTC辅助任务依然能够很好的抑制过拟合现象,其中采用Bi-GRU的整合方式和Circle-Loss损失函数取得了最好的识别精度。
参见图4,说明了本实施例中在训练过程采用基于CTC语音识别辅助任务的改善效果(编码器未初始化),左图给出损失函数值的动态变化,右图给出识别精度的动态变化,其中实线表示训练集结果,虚线表示验证集结果,圆点线条表示不采用基于CTC辅助任务结果,叉点线条表示采用基于CTC辅助任务结果。口音作为一种说话相关的音色,可以看到加入语音识别相关任务能够很好的改善口音识别中的过拟合现象,开集上的识别精度得到了很好的改善。
参见图5,说明了本实施例中Softmax和不同超参margin(m)下CosFace损失函数的2D口音特征的训练结果,其中第一行表示训练集上特征分布,第二行表示验证集上的特征分布,8国口音分类任务下的口音特征分布呈现8个聚簇。可以看到,基于Softmax训练得到的特征点判别性有限,其在验证集上存在较多模糊身份的特征。在CosFace损失函数下,随着margin增大,同类口音的特征更加紧凑,异类口音特征的差异拉开,其在验证集上的判别情况更加清晰。
参见图6,说明了本实施例中不同超参margin(m)下ArcFace损失函数的二维(2D)口音特征的训练结果,其中第一行表示训练集上特征分布,第二行表示验证集上的特征分布,8国口音分类任务下的口音特征分布呈现8个聚簇。在ArcFace损失函数s训练下,随着margin增大,同类口音的特征更加紧凑,异类口音特征的差异拉开,其在验证集上的判别情况更加清晰。
参见图7,说明了本实施例中Softmax,CosFace(m=0.2),ArcFace(m=0.3),Circle-Loss(m=0.2)损失函数的三维(3D)单位特征的训练结果,这些特征分布在球面,其中第一行表示训练集上特征分布,第二行表示验证集上的特征分布,8国口音分类任务下的口音特征分布呈现8个聚簇。可以看到,基于Circle-Loss损失函数训练得到的特征拥有最紧凑的分布,这可归因于其在优化的流畅性和确切的收敛状态上的一系列改进。
本发明实施例还提供一种基于深度神经网络的口音分类设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于深度神经网络的口音分类方法程序;所述基于深度神经网络的口音分类方法程序被所述处理器执行时实现如上所述的基于深度神经网络的口音分类方法的步骤。
本发明实施例还提供一种计算机介质,所述计算机介质上存储有基于深度神经网络的口音分类方法程序;所述基于深度神经网络的口音分类方法程序被所述处理器执行时实现如上所述的基于深度神经网络的口音分类方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种基于深度神经网络的口音分类方法,其特征在于,包括以下步骤:
S1:提取原始音频的帧级频域特征,并构建2D语音频谱作为网络输入X;
S2:构建一个多任务权值共享的基于CRNNs的前端编码器来提取频谱的局部序列描述符{P1,...,PT’};
S3:在训练过程中,在前端编码器后增设语音识别任务分支网络,用来纠正训练过程中学习方向即抑制口音识别中的过拟合现象;
S4:构建用于口音识别任务的核心分支网络,将所有局部序列描述符整合成一个全局口音特征;
S5:在预测过程中引入判别性损失函数,用于增强全局口音特征的判别能力;
S6:通过基于softmax的分类层对全局口音特征进行分类,实现口音预测。
2.根据权利要求1所述的基于深度神经网络的口音分类方法,其特征在于,步骤S1的具体步骤为:对于一段语音信号,在每帧语音信号内提取MFCC或者FBANK频域特征来构建2D语音频谱,然后扩张通道维度用于CNN运算。
3.根据权利要求1所述的基于深度神经网络的口音分类方法,其特征在于,所述基于CRNNs的前端编码器包括卷积神经网络CNNs、循环神经网络RNNs、位于CNNs与RNNs之间的序列共享的全连接层FC;
所述CNNs中每层会对上一层特征图进行池化并增加特征图数目;
所述全连接层FC用来降低帧级维度;
所述RNNs用来进一步提取局部序列描述符{P1,...,PT’}。
4.根据权利要求1所述的基于深度神经网络的口音分类方法,其特征在于,所述语音识别任务分支网络包括编码器RNNs层、解码器;
所述RNNs层用来对共享局部序列描述符继续抽取高级语义特征;
所述解码器采用的类型包括CTC、Attention、CTC/Attention、Transformer。
5.根据权利要求1所述的基于深度神经网络的口音分类方法,其特征在于,在步骤S4中,对局部序列描述符的整合方式包括平均池化、RNN、聚集描述向量VLAD。
6.根据权利要求1所述的基于深度神经网络的口音分类方法,其特征在于,在步骤S5中,所述判别性损失函数的基本形式是softmax的变体函数+用于多分类任务的交叉熵函数;
所述交叉熵函数为:
其中M表示类别数目,N表示为样本个数,yic表示样本i是否为类c的标签,pic表示样本i为类c的概率;
所述softmax的变体函数包括CosFace、ArcFace、Circle-Loss。
7.一种基于深度神经网络的口音分类模型,其特征在于,主要包括:
语音输入模块,用于提取原始音频的帧级频域特征,并构建2D语音频谱作为网络输入X;
基于CRNNs的前端编码器,用于提取频谱的局部序列描述符{P1,...,PT’};
语音识别任务分支网络,位于所述前端编码器之后,用来纠正训练过程中学习方向即抑制口音识别中的过拟合现象;
用于口音识别任务的核心分支网络,用于将所有局部序列描述符整合成一个全局口音特征、在全局口音特征后增设判别性损失函数来增强全局口音特征的判别能力、在全局口音特征后添加基于softmax的分类层用于口音预测;
分类结果输出模块,用于输出所述用于口音识别任务的核心分支网络的判别性损失函数和基于sofimax的口音分类层,以及所述语音识别任务分支网络中的解码器。
8.根据权利要求7所述的基于深度神经网络的口音分类模型,其特征在于,所述分类结果输出模块在训练过程中的损失权权重分配为:
Loss=α*Lossasr+(1-a)*Lossdisc+β*Lossclassifier
其中Lossasr、Lossdisc、Lossclassifier分别是语音识别、判别性损失、口音分类的损失函数,α和β是损失权重系数。
9.一种基于深度神经网络的口音分类设备,其特征在于,包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于深度神经网络的口音分类方法程序;
所述基于深度神经网络的口音分类方法程序被所述处理器执行时实现如权利要求1至6任一项所述的基于深度神经网络的口音分类方法的步骤。
10.一种计算机介质,其特征在于,所述计算机介质上存储有处理器可执行的基于深度神经网络的口音分类方法程序;
所述基于深度神经网络的口音分类方法程序被所述处理器执行时实现如权利要求1至6任一项所述的基于深度神经网络的口音分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110052375.2A CN112992119B (zh) | 2021-01-14 | 2021-01-14 | 基于深度神经网络的口音分类方法及其模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110052375.2A CN112992119B (zh) | 2021-01-14 | 2021-01-14 | 基于深度神经网络的口音分类方法及其模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112992119A CN112992119A (zh) | 2021-06-18 |
CN112992119B true CN112992119B (zh) | 2024-05-03 |
Family
ID=76344391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110052375.2A Active CN112992119B (zh) | 2021-01-14 | 2021-01-14 | 基于深度神经网络的口音分类方法及其模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112992119B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930982A (zh) * | 2019-10-31 | 2020-03-27 | 国家计算机网络与信息安全管理中心 | 一种多口音声学模型及多口音语音识别方法 |
CN113495974B (zh) * | 2021-07-23 | 2024-02-02 | 山东新一代信息产业技术研究院有限公司 | 一种声音分类处理方法、装置、设备及介质 |
CN113625144B (zh) * | 2021-08-11 | 2024-06-25 | 北京信息科技大学 | Igbt故障预测方法和系统 |
CN113673643A (zh) * | 2021-08-19 | 2021-11-19 | 江苏农牧人电子商务股份有限公司 | 一种对农产品供货监管的方法和系统 |
CN115273827B (zh) * | 2022-06-24 | 2024-06-21 | 天津大学 | 多口音语音识别的具有域对抗训练的自适应注意力方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578775A (zh) * | 2017-09-07 | 2018-01-12 | 四川大学 | 一种基于深度神经网络的多任务语音分类方法 |
CN108012121A (zh) * | 2017-12-14 | 2018-05-08 | 安徽大学 | 一种边缘计算和云计算融合的实时视频监控方法及系统 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN108717856A (zh) * | 2018-06-16 | 2018-10-30 | 台州学院 | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 |
CN108776835A (zh) * | 2018-05-28 | 2018-11-09 | 嘉兴善索智能科技有限公司 | 一种深度神经网络训练方法 |
CN108806667A (zh) * | 2018-05-29 | 2018-11-13 | 重庆大学 | 基于神经网络的语音与情绪的同步识别方法 |
CN109961017A (zh) * | 2019-02-26 | 2019-07-02 | 杭州电子科技大学 | 一种基于卷积循环神经网络的心音信号分类方法 |
CN110534132A (zh) * | 2019-09-23 | 2019-12-03 | 河南工业大学 | 一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法 |
CN110633792A (zh) * | 2019-10-22 | 2019-12-31 | 西安交通大学 | 端到端基于卷积循环神经网络的轴承健康指标构建方法 |
CN110782872A (zh) * | 2019-11-11 | 2020-02-11 | 复旦大学 | 基于深度卷积循环神经网络的语种识别方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106887225B (zh) * | 2017-03-21 | 2020-04-07 | 百度在线网络技术(北京)有限公司 | 基于卷积神经网络的声学特征提取方法、装置和终端设备 |
US11238845B2 (en) * | 2018-11-21 | 2022-02-01 | Google Llc | Multi-dialect and multilingual speech recognition |
-
2021
- 2021-01-14 CN CN202110052375.2A patent/CN112992119B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578775A (zh) * | 2017-09-07 | 2018-01-12 | 四川大学 | 一种基于深度神经网络的多任务语音分类方法 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN108012121A (zh) * | 2017-12-14 | 2018-05-08 | 安徽大学 | 一种边缘计算和云计算融合的实时视频监控方法及系统 |
CN108776835A (zh) * | 2018-05-28 | 2018-11-09 | 嘉兴善索智能科技有限公司 | 一种深度神经网络训练方法 |
CN108806667A (zh) * | 2018-05-29 | 2018-11-13 | 重庆大学 | 基于神经网络的语音与情绪的同步识别方法 |
CN108717856A (zh) * | 2018-06-16 | 2018-10-30 | 台州学院 | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 |
CN109961017A (zh) * | 2019-02-26 | 2019-07-02 | 杭州电子科技大学 | 一种基于卷积循环神经网络的心音信号分类方法 |
CN110534132A (zh) * | 2019-09-23 | 2019-12-03 | 河南工业大学 | 一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法 |
CN110633792A (zh) * | 2019-10-22 | 2019-12-31 | 西安交通大学 | 端到端基于卷积循环神经网络的轴承健康指标构建方法 |
CN110782872A (zh) * | 2019-11-11 | 2020-02-11 | 复旦大学 | 基于深度卷积循环神经网络的语种识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于一维卷积神经网络的车载语音识别研究;朱锡祥等;微电子学与计算机;第34卷(第11期);第21-25页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112992119A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112992119B (zh) | 基于深度神经网络的口音分类方法及其模型 | |
Afouras et al. | Asr is all you need: Cross-modal distillation for lip reading | |
Meng et al. | Speech emotion recognition from 3D log-mel spectrograms with deep learning network | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
Stafylakis et al. | Combining residual networks with LSTMs for lipreading | |
Tzirakis et al. | End-to-end multimodal emotion recognition using deep neural networks | |
US11210470B2 (en) | Automatic text segmentation based on relevant context | |
Ariav et al. | An end-to-end multimodal voice activity detection using wavenet encoder and residual networks | |
CN111626063A (zh) | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 | |
Ohi et al. | Deep speaker recognition: Process, progress, and challenges | |
CN107564513A (zh) | 语音识别方法及装置 | |
CN108804453A (zh) | 一种视音频识别方法及装置 | |
Lucey et al. | Integration strategies for audio-visual speech processing: applied to text-dependent speaker recognition | |
CN114465737A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN114048290A (zh) | 一种文本分类方法及装置 | |
Shi et al. | Visual speaker authentication by ensemble learning over static and dynamic lip details | |
CN113870863B (zh) | 声纹识别方法及装置、存储介质及电子设备 | |
Ivanko et al. | An experimental analysis of different approaches to audio–visual speech recognition and lip-reading | |
Goh et al. | Audio-visual speech recognition system using recurrent neural network | |
Huang et al. | CALLip: Lipreading using contrastive and attribute learning | |
CN114220438A (zh) | 基于bottleneck和通道切分的轻量级说话人识别方法及系统 | |
CN111462762B (zh) | 一种说话人向量正则化方法、装置、电子设备和存储介质 | |
Sheng et al. | Importance-aware information bottleneck learning paradigm for lip reading | |
Churaev et al. | Multi-user facial emotion recognition in video based on user-dependent neural network adaptation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |