CN112364993A - 模型联合训练方法、装置、计算机设备和存储介质 - Google Patents
模型联合训练方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112364993A CN112364993A CN202110044163.XA CN202110044163A CN112364993A CN 112364993 A CN112364993 A CN 112364993A CN 202110044163 A CN202110044163 A CN 202110044163A CN 112364993 A CN112364993 A CN 112364993A
- Authority
- CN
- China
- Prior art keywords
- network
- feature matrix
- model
- training
- dimensional feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000011159 matrix material Substances 0.000 claims abstract description 135
- 230000009467 reduction Effects 0.000 claims abstract description 62
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 17
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本申请提供一种模型联合训练方法、装置、计算机设备和存储介质,包括:构建音频训练数据的第一声学特征矩阵;将所述第一声学特征矩阵输入至编码网络得到第一高维特征矩阵;将所述第一高维特征矩阵输入至解码网络得到第二声学特征矩阵;将所述第二声学特征矩阵输入至所述编码网络得到第二高维特征矩阵;将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中,并基于反向传播算法,调整所述编码网络、解码网络以及分类网络的网络参数,得到训练完成的唤醒模型以及降噪模型。本申请中,解码网络输出第二声学特征矩阵增加了训练样本的数据量,联合训练唤醒模型以及降噪模型,效果比单独训练模型时的效果好,且训练速度快,训练成本低。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种模型联合训练方法、装置、计算机设备和存储介质。
背景技术
目前训练唤醒模型和降噪模型,一般基于采集的干净语音数据集以及采集的噪声数据集。在训练的时候,进行模拟真实场景的数据增强技术来增加训练数据的多样性,提升模型在真实场景的抗噪能力。
想要得到一个效果好的降噪模型,训练时需要的训练数据实际上要比训练唤醒模型需要的数据多的多。当训练数据有限时,只有带噪语音或者只有少量的干净语音时,无法得到一个好的降噪模型;直接训练唤醒模型能够取得的效果比较有限,唤醒模型的效果也很难进一步提升。
发明内容
本申请的主要目的为提供一种模型联合训练方法、装置、计算机设备和存储介质,旨在克服目前训练数据少时训练得到的模型效果差的缺陷。
为实现上述目的,本申请提供了一种模型联合训练方法,包括以下步骤:
构建音频训练数据的第一声学特征矩阵;
将所述第一声学特征矩阵输入至编码网络得到第一高维特征矩阵;
将所述第一高维特征矩阵输入至解码网络得到第二声学特征矩阵;
将所述第二声学特征矩阵输入至所述编码网络得到第二高维特征矩阵;
将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中,并基于反向传播算法,调整所述编码网络、解码网络以及分类网络的网络参数,得到训练完成的唤醒模型以及降噪模型;其中,所述编码网络与所述分类网络构成唤醒模型,所述编码网络与所述解码网络构成降噪模型。
进一步地,所述分类网络包括全连接层以及softmax函数,所使用的损失函数是交叉熵损失函数。
进一步地,所述将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中,并基于反向传播算法,调整所述编码网络、解码网络以及分类网络的网络参数,得到训练完成的唤醒模型以及降噪模型的步骤,包括:
将所述第一高维特征矩阵以及第二高维特征矩阵输入至所述全连接层计算之后,基于所述损失函数计算交叉熵损失值;
使用梯度下降的反向传播算法,调整所述编码网络、解码网络以及分类网络的网络参数,以最小化所述交叉熵损失值;
当迭代训练之后,所述交叉熵损失值不再下降时,模型收敛得到训练完成的所述的唤醒模型以及降噪模型。
进一步地,所述音频训练数据包括正样本音频以及负样本音频;
所述构建音频训练数据的第一声学特征矩阵的步骤之前,包括:
获取噪声语音,作为所述负样本音频;
获取纯净唤醒语音;其中,所述纯净唤醒语音为不带噪声且携带有唤醒词的纯净语音;
按照预设的信噪比,将所述纯净唤醒语音与所述噪声语音进行混合,得到带噪的唤醒语音,作为所述正样本音频。
本申请还提供了一种模型联合训练装置,包括:
构建单元,用于构建音频训练数据的第一声学特征矩阵;
第一编码单元,用于将所述第一声学特征矩阵输入至编码网络得到第一高维特征矩阵;
解码单元,用于将所述第一高维特征矩阵输入至解码网络得到第二声学特征矩阵;
第二编码单元,用于将所述第二声学特征矩阵输入至所述编码网络得到第二高维特征矩阵;
训练单元,用于将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中,并基于反向传播算法,调整所述编码网络、解码网络以及分类网络的网络参数,得到训练完成的唤醒模型以及降噪模型;其中,所述编码网络与所述分类网络构成唤醒模型,所述编码网络与所述解码网络构成降噪模型。
进一步地,所述分类网络包括全连接层以及softmax函数,所使用的损失函数是交叉熵损失函数。
进一步地,所述训练单元,具体用于:
将所述第一高维特征矩阵以及第二高维特征矩阵输入至所述全连接层计算之后,基于所述损失函数计算交叉熵损失值;
使用梯度下降的反向传播算法,调整所述编码网络、解码网络以及分类网络的网络参数,以最小化所述交叉熵损失值;
当迭代训练之后,所述交叉熵损失值不再下降时,模型收敛得到训练完成的所述的唤醒模型以及降噪模型。
进一步地,所述音频训练数据包括正样本音频以及负样本音频;所述装置还包括:
第一获取单元,用于获取噪声语音,作为所述负样本音频;
第二获取单元,用于获取纯净唤醒语音;其中,所述纯净唤醒语音为不带噪声且携带有唤醒词的纯净语音;
混合单元,用于按照预设的信噪比,将所述纯净唤醒语音与所述噪声语音进行混合,得到带噪的唤醒语音,作为所述正样本音频。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请提供的模型联合训练方法、装置、计算机设备和存储介质,包括:构建音频训练数据的第一声学特征矩阵;将所述第一声学特征矩阵输入至编码网络得到第一高维特征矩阵;将所述第一高维特征矩阵输入至解码网络得到第二声学特征矩阵;将所述第二声学特征矩阵输入至所述编码网络得到第二高维特征矩阵;将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中,并基于反向传播算法,调整所述编码网络、解码网络以及分类网络的网络参数,得到训练完成的唤醒模型以及降噪模型。本申请中,解码网络输出第二声学特征矩阵增加了训练样本的数据量,联合训练唤醒模型以及降噪模型;两个模型共用一个编码网络,使其具备了从带噪音频中更准确提取目标信息的能力,效果比单独训练模型时的效果好,且训练速度快,训练成本低。
附图说明
图1 是本申请一实施例中模型联合训练方法步骤示意图;
图2 是本申请一实施例中模型联合训练方法原理示意图;
图3是本申请一实施例中模型联合训练装置结构框图;
图4 是本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种模型联合训练方法,包括以下步骤:
步骤S1,构建音频训练数据的第一声学特征矩阵;
步骤S2,将所述第一声学特征矩阵输入至编码网络得到第一高维特征矩阵;
步骤S3,将所述第一高维特征矩阵输入至解码网络得到第二声学特征矩阵;
步骤S4,将所述第二声学特征矩阵输入至所述编码网络得到第二高维特征矩阵;
步骤S5,将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中,并基于反向传播算法,调整所述编码网络、解码网络以及分类网络的网络参数,得到训练完成的唤醒模型以及降噪模型;其中,所述编码网络与所述分类网络构成唤醒模型,所述编码网络与所述解码网络构成降噪模型。
在本实施例中,上述模型联合训练方法应用于训练数据少的场景中,提升训练后模型的效果。在训练得到唤醒模型的同时,得到具有一定降噪效果的降噪模型,为训练数据不足的情况下构建降噪模型提供了可行的方案。其中,上述训练数据少指的是纯净的唤醒语音少或者没有纯净的唤醒语音。
具体地,如上述步骤S1所述的,上述音频训练数据为音频数据,通常为带噪的唤醒语音数据,该音频数据标注有对应的标签,用于训练神经网络模型。在输入值神经网络模型训练之前,需要构建上述音频训练数据的第一声学特征矩阵,通常可采用线性变换网络进行特征矩阵的提取。
如上述步骤S2所述的,上述编码网络(kws net)为神经网络,其用于提取音频高维特征矩阵,该编码网络输入的是音频的声学特征矩阵,输出是高维空间的特征矩阵。
如上述步骤S3所述的,上述解码网络(decode_net)为神经网络,其用于将高维特征矩阵解码为声学特征矩阵,经过上述解码网络之后,生成一个新的声学特征矩阵,即上述第二声学特征矩阵。可以理解的是,结合图2所示,在本实施例中,上述编码网络作为降噪模型以及唤醒网络的共同部分,其中,唤醒模型的编码网络在处理输入数据时主要提取带噪声音中的与语音内容相关的信息,降噪模型的编码网络在处理输入数据时主要是分离出目标声音特征,然后根据目标声音特征生成目标语音。二者相同点是都需要提取目标语音的特征信息,那么降噪模型的编码网络在处理带噪音频时会保留语音的信息,解码网络生成的音频经过唤醒网络后也能够唤醒。
如上述步骤S4所述的,由于解码网络生成的音频经过唤醒网络后也能够唤醒;因此,可以将上述经过解码网络解码得到的第二声学特征矩阵也作为一个训练数据,将其输入至所述编码网络得到第二高维特征矩阵。
如上述步骤S5所述的,将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中,并基于反向传播算法,不断调整所述编码网络、解码网络以及分类网络的网络参数(网络权值),得到训练完成的唤醒模型以及降噪模型。
在本实施例中,上述编码网络与所述分类网络构成唤醒模型,上述编码网络与所述解码网络构成降噪模型;在迭代训练上述编码网络、解码网络以及分类网络之后,模型收敛之后,便可以得到上述唤醒模型以及降噪模型。在本实施例中,解码网络输出第二声学特征矩阵增加了训练样本的数据量,联合训练唤醒模型以及降噪模型;两个模型共用一个编码网络,使其具备了从带噪音频中更准确提取目标信息的能力,效果比单独训练模型时的效果好,且训练速度快,训练成本低。
综上,为本申请实施例中的模型联合训练方法,适用于训练数据量不足的场景,即没有足够的数据构建降噪模型来辅助提升唤醒模型的效果时,使唤醒网络和降噪网络共用一个编码网络,直接在带噪的唤醒语音训练数据和噪声数据集上对两个网络进行联合训练,通过这种训练方式,使得编码网络具备了从带噪语音中准确提取目标信息的能力,从而使得模型效果比单独训练时更好,且训练速度快,训练成本低。此外使用唤醒模型的损失函数在训练唤醒模型的时候,顺带把降噪模型也训练了,得到的降噪模型在没有纯净语音的情况下也有一定的降噪效果,为数据不足的情况下构建降噪模型提供了可行的方案。
在一实施例中,所述编码网络包括DNN、CNN、RNN等神经网络中的任意一种或多种,上述网络均可以实现声学特征矩阵的编码,在此不做限定。
在一实施例中,所述解码网络包括DNN、CNN、RNN等神经网络中的任意一种或多种,上述网络均可以实现高维特征矩阵的解码,在此不做限定。
在一实施例中,所述分类网络包括全连接层以及softmax函数,所使用的损失函数是交叉熵损失函数。
在本实施例中,唤醒模型的分类网络是一般分类模型,目标是类别标签,在解码网络中由于其输出的音频要作为样本再次输入到编码网络分类模型中,所以目标依然是类别标签,因此两个网络联合训练只有一个损失函数,即一般分类模型常用的交叉熵损失函数,公式为:
Total_loss = ce_loss;
在一实施例中,所述将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中,并基于反向传播算法,调整所述编码网络、解码网络以及分类网络的网络参数,得到训练完成的唤醒模型以及降噪模型的步骤,包括:
将所述第一高维特征矩阵以及第二高维特征矩阵输入至所述全连接层计算之后,基于所述损失函数计算交叉熵损失值;
使用梯度下降的反向传播算法,调整所述编码网络、解码网络以及分类网络的网络参数,以最小化所述交叉熵损失值;
当迭代训练之后,所述交叉熵损失值不再下降时,模型收敛得到训练完成的所述的唤醒模型以及降噪模型。
在本实施例的迭代训练过程中,预测出分类结果,并通过损失函数计算预测出的分类结果与真实标签之间的交叉熵损失值。进而,采用梯度下降的反向传播算法,不断调整编码网络、解码网络以及分类网络的网络参数,即网络权值,以使得最后通过损失函数计算的交叉熵损失值最小化,当该交叉熵损失值不再下降时,模型收敛,此时得到训练完成的所述的唤醒模型以及降噪模型。
在一实施例中,所述音频训练数据包括正样本音频以及负样本音频;
所述构建音频训练数据的第一声学特征矩阵的步骤之前,包括:
获取噪声语音,作为所述负样本音频;
获取带噪的唤醒语音,作为所述正样本音频。
在一实施例中,所述获取带噪的唤醒语音,作为所述正样本音频的步骤,包括:
获取纯净唤醒语音;其中,所述纯净唤醒语音为不带噪声且携带有唤醒词的纯净语音;
将所述纯净唤醒语音与所述噪声语音进行混合,得到所述带噪的唤醒语音,作为所述正样本音频。
参照图3,本申请一实施例中还提供了一种模型联合训练装置,包括:
构建单元10,用于构建音频训练数据的第一声学特征矩阵;
第一编码单元20,用于将所述第一声学特征矩阵输入至编码网络得到第一高维特征矩阵;
解码单元30,用于将所述第一高维特征矩阵输入至解码网络得到第二声学特征矩阵;
第二编码单元40,用于将所述第二声学特征矩阵输入至所述编码网络得到第二高维特征矩阵;
训练单元50,用于将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中,并基于反向传播算法,调整所述编码网络、解码网络以及分类网络的网络参数,得到训练完成的唤醒模型以及降噪模型;其中,所述编码网络与所述分类网络构成唤醒模型,所述编码网络与所述解码网络构成降噪模型。
在本实施例中,上述模型联合训练装置应用于训练数据少的场景中,提升训练后模型的效果。在训练得到唤醒模型的同时,得到具有一定降噪效果的降噪模型,为训练数据不足的情况下构建降噪模型提供了可行的方案。其中,上述训练数据少指的是纯净的唤醒语音少或者没有纯净的唤醒语音。
具体地,如上述构建单元10所述的,上述音频训练数据为音频数据,通常为带噪的唤醒语音数据,该音频数据标注有对应的标签,用于训练神经网络模型。在输入值神经网络模型训练之前,需要构建上述音频训练数据的第一声学特征矩阵,通常可采用线性变换网络进行特征矩阵的提取。
如上述第一编码单元20所述的,上述编码网络(kws net)为神经网络,其用于提取音频高维特征矩阵,该编码网络输入的是音频的声学特征矩阵,输出是高维空间的特征矩阵。
如上述解码单元30所述的,上述解码网络(decode_net)为神经网络,其用于将高维特征矩阵解码为声学特征矩阵,经过上述解码网络之后,生成一个新的声学特征矩阵,即上述第二声学特征矩阵。可以理解的是,结合图2所示,在本实施例中,上述编码网络作为降噪模型以及唤醒网络的共同部分,其中,唤醒模型的编码网络在处理输入数据时主要提取带噪声音中的与语音内容相关的信息,降噪模型的编码网络在处理输入数据时主要是分离出目标声音特征,然后根据目标声音特征生成目标语音。二者相同点是都需要提取目标语音的特征信息,那么降噪模型的编码网络在处理带噪音频时会保留语音的信息,解码网络生成的音频经过唤醒网络后也能够唤醒。
如上述第二编码单元40所述的,由于解码网络生成的音频经过唤醒网络后也能够唤醒;因此,可以将上述经过解码网络解码得到的第二声学特征矩阵也作为一个训练数据,将其输入至所述编码网络得到第二高维特征矩阵。
如上述训练单元50所述的,将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中,并基于反向传播算法,不断调整所述编码网络、解码网络以及分类网络的网络参数(网络权值),得到训练完成的唤醒模型以及降噪模型。
在本实施例中,上述编码网络与所述分类网络构成唤醒模型,上述编码网络与所述解码网络构成降噪模型;在迭代训练上述编码网络、解码网络以及分类网络之后,模型收敛之后,便可以得到上述唤醒模型以及降噪模型。在本实施例中,解码网络输出第二声学特征矩阵增加了训练样本的数据量,联合训练唤醒模型以及降噪模型;两个模型共用一个编码网络,使其具备了从带噪音频中更准确提取目标信息的能力,效果比单独训练模型时的效果好,且训练速度快,训练成本低。
综上,为本申请实施例中的模型联合训练装置,适用于训练数据量不足的场景,即没有足够的数据构建降噪模型来辅助提升唤醒模型的效果时,使唤醒网络和降噪网络共用一个编码网络,直接在带噪的唤醒语音训练数据和噪声数据集上对两个网络进行联合训练,通过这种训练方式,使得编码网络具备了从带噪语音中准确提取目标信息的能力,从而使得模型效果比单独训练时更好,且训练速度快,训练成本低。此外使用唤醒模型的损失函数在训练唤醒模型的时候,顺带把降噪模型也训练了,得到的降噪模型在没有纯净语音的情况下也有一定的降噪效果,为数据不足的情况下构建降噪模型提供了可行的方案。
在一实施例中,所述编码网络包括DNN、CNN、RNN等神经网络中的任意一种或多种。
在一实施例中,所述解码网络包括DNN、CNN、RNN等神经网络中的任意一种或多种。
在一实施例中,所述分类网络包括全连接层以及softmax函数,所使用的损失函数是交叉熵损失函数。
在一实施例中,所述训练单元50,具体用于:
将所述第一高维特征矩阵以及第二高维特征矩阵输入至所述全连接层计算之后,基于所述损失函数计算交叉熵损失值;
使用梯度下降的反向传播算法,调整所述编码网络、解码网络以及分类网络的网络参数,以最小化所述交叉熵损失值;
当迭代训练之后,所述交叉熵损失值不再下降时,模型收敛得到训练完成的所述的唤醒模型以及降噪模型。
在一实施例中,所述音频训练数据包括正样本音频以及负样本音频;
所述模型联合训练装置,还包括:
第一获取单元,用于获取噪声语音,作为所述负样本音频;
第二获取单元,用于获取带噪的唤醒语音,作为所述正样本音频。
在一实施例中,所述第二获取单元,具体用于:
获取纯净唤醒语音;其中,所述纯净唤醒语音为不带噪声且携带有唤醒词的纯净语音;
将所述纯净唤醒语音与所述噪声语音进行混合,得到所述带噪的唤醒语音,作为所述正样本音频。
在本实施例中,上述模型联合训练装置中的各个单元的具体实现,请参照上述方法实施例中所述,在此不再进行赘述。
参照图4,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储模型等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型联合训练方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种模型联合训练方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,为本申请实施例中提供的模型联合训练方法、装置、计算机设备和存储介质,包括:构建音频训练数据的第一声学特征矩阵;将所述第一声学特征矩阵输入至编码网络得到第一高维特征矩阵;将所述第一高维特征矩阵输入至解码网络得到第二声学特征矩阵;将所述第二声学特征矩阵输入至所述编码网络得到第二高维特征矩阵;将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中,并基于反向传播算法,调整所述编码网络、解码网络以及分类网络的网络参数,得到训练完成的唤醒模型以及降噪模型。本申请中,解码网络输出第二声学特征矩阵增加了训练样本的数据量,联合训练唤醒模型以及降噪模型;两个模型共用一个编码网络,使其具备了从带噪音频中更准确提取目标信息的能力,效果比单独训练模型时的效果好,且训练速度快,训练成本低。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种模型联合训练方法,其特征在于,包括以下步骤:
构建音频训练数据的第一声学特征矩阵;
将所述第一声学特征矩阵输入至编码网络得到第一高维特征矩阵;
将所述第一高维特征矩阵输入至解码网络得到第二声学特征矩阵;
将所述第二声学特征矩阵输入至所述编码网络得到第二高维特征矩阵;
将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中,并基于反向传播算法,调整所述编码网络、解码网络以及分类网络的网络参数,得到训练完成的唤醒模型以及降噪模型;其中,所述编码网络与所述分类网络构成唤醒模型,所述编码网络与所述解码网络构成降噪模型。
2.根据权利要求1所述的模型联合训练方法,其特征在于,所述分类网络包括全连接层以及softmax函数,所使用的损失函数是交叉熵损失函数。
3.根据权利要求2所述的模型联合训练方法,其特征在于,所述将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中,并基于反向传播算法,调整所述编码网络、解码网络以及分类网络的网络参数,得到训练完成的唤醒模型以及降噪模型的步骤,包括:
将所述第一高维特征矩阵以及第二高维特征矩阵输入至所述全连接层计算之后,基于所述损失函数计算交叉熵损失值;
使用梯度下降的反向传播算法,调整所述编码网络、解码网络以及分类网络的网络参数,以最小化所述交叉熵损失值;
当迭代训练之后,所述交叉熵损失值不再下降时,模型收敛得到训练完成的所述的唤醒模型以及降噪模型。
4.根据权利要求1所述的模型联合训练方法,其特征在于,所述音频训练数据包括正样本音频以及负样本音频;
所述构建音频训练数据的第一声学特征矩阵的步骤之前,包括:
获取噪声语音,作为所述负样本音频;
获取纯净唤醒语音;其中,所述纯净唤醒语音为不带噪声且携带有唤醒词的纯净语音;
按照预设的信噪比,将所述纯净唤醒语音与所述噪声语音进行混合,得到带噪的唤醒语音,作为所述正样本音频。
5.一种模型联合训练装置,其特征在于,包括:
构建单元,用于构建音频训练数据的第一声学特征矩阵;
第一编码单元,用于将所述第一声学特征矩阵输入至编码网络得到第一高维特征矩阵;
解码单元,用于将所述第一高维特征矩阵输入至解码网络得到第二声学特征矩阵;
第二编码单元,用于将所述第二声学特征矩阵输入至所述编码网络得到第二高维特征矩阵;
训练单元,用于将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中,并基于反向传播算法,调整所述编码网络、解码网络以及分类网络的网络参数,得到训练完成的唤醒模型以及降噪模型;其中,所述编码网络与所述分类网络构成唤醒模型,所述编码网络与所述解码网络构成降噪模型。
6.根据权利要求5所述的模型联合训练装置,其特征在于,所述分类网络包括全连接层以及softmax函数,所使用的损失函数是交叉熵损失函数。
7.根据权利要求6所述的模型联合训练装置,其特征在于,所述训练单元,具体用于:
将所述第一高维特征矩阵以及第二高维特征矩阵输入至所述全连接层计算之后,基于所述损失函数计算交叉熵损失值;
使用梯度下降的反向传播算法,调整所述编码网络、解码网络以及分类网络的网络参数,以最小化所述交叉熵损失值;
当迭代训练之后,所述交叉熵损失值不再下降时,模型收敛得到训练完成的所述的唤醒模型以及降噪模型。
8.根据权利要求5所述的模型联合训练装置,其特征在于,所述音频训练数据包括正样本音频以及负样本音频;所述装置还包括:
第一获取单元,用于获取噪声语音,作为所述负样本音频;
第二获取单元,用于获取纯净唤醒语音;其中,所述纯净唤醒语音为不带噪声且携带有唤醒词的纯净语音;
混合单元,用于按照预设的信噪比,将所述纯净唤醒语音与所述噪声语音进行混合,得到带噪的唤醒语音,作为所述正样本音频。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110044163.XA CN112364993B (zh) | 2021-01-13 | 2021-01-13 | 模型联合训练方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110044163.XA CN112364993B (zh) | 2021-01-13 | 2021-01-13 | 模型联合训练方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364993A true CN112364993A (zh) | 2021-02-12 |
CN112364993B CN112364993B (zh) | 2021-04-30 |
Family
ID=74534933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110044163.XA Active CN112364993B (zh) | 2021-01-13 | 2021-01-13 | 模型联合训练方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364993B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114512136A (zh) * | 2022-03-18 | 2022-05-17 | 北京百度网讯科技有限公司 | 模型训练、音频处理方法、装置、设备、存储介质及程序 |
CN116074150A (zh) * | 2023-03-02 | 2023-05-05 | 广东浩博特科技股份有限公司 | 智能家居的开关控制方法、装置以及智能家居 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463953A (zh) * | 2017-07-21 | 2017-12-12 | 上海交通大学 | 在标签含噪情况下基于质量嵌入的图像分类方法及系统 |
CN109977212A (zh) * | 2019-03-28 | 2019-07-05 | 清华大学深圳研究生院 | 对话机器人的回复内容生成方法和终端设备 |
CN110009025A (zh) * | 2019-03-27 | 2019-07-12 | 河南工业大学 | 一种用于语音测谎的半监督加性噪声自编码器 |
CN110503981A (zh) * | 2019-08-26 | 2019-11-26 | 苏州科达科技股份有限公司 | 无参考音频客观质量评价方法、装置及存储介质 |
CN110619885A (zh) * | 2019-08-15 | 2019-12-27 | 西北工业大学 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
-
2021
- 2021-01-13 CN CN202110044163.XA patent/CN112364993B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463953A (zh) * | 2017-07-21 | 2017-12-12 | 上海交通大学 | 在标签含噪情况下基于质量嵌入的图像分类方法及系统 |
CN110009025A (zh) * | 2019-03-27 | 2019-07-12 | 河南工业大学 | 一种用于语音测谎的半监督加性噪声自编码器 |
CN109977212A (zh) * | 2019-03-28 | 2019-07-05 | 清华大学深圳研究生院 | 对话机器人的回复内容生成方法和终端设备 |
CN110619885A (zh) * | 2019-08-15 | 2019-12-27 | 西北工业大学 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
CN110503981A (zh) * | 2019-08-26 | 2019-11-26 | 苏州科达科技股份有限公司 | 无参考音频客观质量评价方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
MUN S 等: "Deep neural network based learning and transferring mid-level audio features for acoustic scene classification", 《2017IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS SPEECH AND SIGNAL PROCESSING(ICASSP)》 * |
夏清 等: "基于深度学习的数字几何处理与分析技术研究进展", 《计算机研究与发展》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114512136A (zh) * | 2022-03-18 | 2022-05-17 | 北京百度网讯科技有限公司 | 模型训练、音频处理方法、装置、设备、存储介质及程序 |
CN114512136B (zh) * | 2022-03-18 | 2023-09-26 | 北京百度网讯科技有限公司 | 模型训练、音频处理方法、装置、设备、存储介质及程序 |
CN116074150A (zh) * | 2023-03-02 | 2023-05-05 | 广东浩博特科技股份有限公司 | 智能家居的开关控制方法、装置以及智能家居 |
CN116074150B (zh) * | 2023-03-02 | 2023-06-09 | 广东浩博特科技股份有限公司 | 智能家居的开关控制方法、装置以及智能家居 |
Also Published As
Publication number | Publication date |
---|---|
CN112364993B (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Matsubara et al. | Head network distillation: Splitting distilled deep neural networks for resource-constrained edge computing systems | |
CN112435656B (zh) | 模型训练方法、语音识别方法、装置、设备及存储介质 | |
CN112712813B (zh) | 语音处理方法、装置、设备及存储介质 | |
CN109523014B (zh) | 基于生成式对抗网络模型的新闻评论自动生成方法及系统 | |
CN110119447B (zh) | 自编码神经网络处理方法、装置、计算机设备及存储介质 | |
CN112214604A (zh) | 文本分类模型的训练方法、文本分类方法、装置及设备 | |
CN112364993B (zh) | 模型联合训练方法、装置、计算机设备和存储介质 | |
CN112331183B (zh) | 基于自回归网络的非平行语料语音转换方法及系统 | |
CN111428771B (zh) | 视频场景分类方法、装置和计算机可读存储介质 | |
CN111583911B (zh) | 基于标签平滑的语音识别方法、装置、终端及介质 | |
CN112735389A (zh) | 基于深度学习的语音训练方法、装置、设备以及存储介质 | |
CN112365885A (zh) | 唤醒模型的训练方法、装置和计算机设备 | |
CN110069611B (zh) | 一种主题增强的聊天机器人回复生成方法及装置 | |
CN111598213A (zh) | 网络训练方法、数据识别方法、装置、设备和介质 | |
CN113128232A (zh) | 一种基于albert与多重词信息嵌入的命名实体识别方法 | |
CN107463928A (zh) | 基于ocr和双向lstm的文字序列纠错算法、系统及其设备 | |
CN112149651A (zh) | 一种基于深度学习的人脸表情识别方法、装置及设备 | |
CN114360502A (zh) | 语音识别模型的处理方法、语音识别方法及装置 | |
CN113052257A (zh) | 一种基于视觉转换器的深度强化学习方法及装置 | |
CN113626610A (zh) | 知识图谱嵌入方法、装置、计算机设备和存储介质 | |
CN110955765A (zh) | 智能助理的语料构建方法、装置、计算机设备和存储介质 | |
WO2022246986A1 (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
WO2022121188A1 (zh) | 关键词检测方法、装置、设备和存储介质 | |
Naik et al. | Indian monsoon rainfall classification and prediction using robust back propagation artificial neural network | |
CN109033413B (zh) | 一种基于神经网络的需求文档和服务文档匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Model joint training method, device, computer equipment, and storage medium Granted publication date: 20210430 Pledgee: Shenzhen Shunshui Incubation Management Co.,Ltd. Pledgor: SHENZHEN YOUJIE ZHIXIN TECHNOLOGY Co.,Ltd. Registration number: Y2024980029366 |