CN112364993A

CN112364993A - 模型联合训练方法、装置、计算机设备和存储介质

Info

Publication number: CN112364993A
Application number: CN202110044163.XA
Authority: CN
Inventors: 徐泓洋; 王广新; 杨汉丹
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-02-12
Anticipated expiration: 2041-01-13
Also published as: CN112364993B

Abstract

本申请提供一种模型联合训练方法、装置、计算机设备和存储介质，包括：构建音频训练数据的第一声学特征矩阵；将所述第一声学特征矩阵输入至编码网络得到第一高维特征矩阵；将所述第一高维特征矩阵输入至解码网络得到第二声学特征矩阵；将所述第二声学特征矩阵输入至所述编码网络得到第二高维特征矩阵；将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中，并基于反向传播算法，调整所述编码网络、解码网络以及分类网络的网络参数，得到训练完成的唤醒模型以及降噪模型。本申请中，解码网络输出第二声学特征矩阵增加了训练样本的数据量，联合训练唤醒模型以及降噪模型，效果比单独训练模型时的效果好，且训练速度快，训练成本低。

Description

模型联合训练方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种模型联合训练方法、装置、计算机设备和存储介质。

背景技术

目前训练唤醒模型和降噪模型，一般基于采集的干净语音数据集以及采集的噪声数据集。在训练的时候，进行模拟真实场景的数据增强技术来增加训练数据的多样性，提升模型在真实场景的抗噪能力。

想要得到一个效果好的降噪模型，训练时需要的训练数据实际上要比训练唤醒模型需要的数据多的多。当训练数据有限时，只有带噪语音或者只有少量的干净语音时，无法得到一个好的降噪模型；直接训练唤醒模型能够取得的效果比较有限，唤醒模型的效果也很难进一步提升。

发明内容

本申请的主要目的为提供一种模型联合训练方法、装置、计算机设备和存储介质，旨在克服目前训练数据少时训练得到的模型效果差的缺陷。

为实现上述目的，本申请提供了一种模型联合训练方法，包括以下步骤：

构建音频训练数据的第一声学特征矩阵；

将所述第一声学特征矩阵输入至编码网络得到第一高维特征矩阵；

将所述第一高维特征矩阵输入至解码网络得到第二声学特征矩阵；

将所述第二声学特征矩阵输入至所述编码网络得到第二高维特征矩阵；

将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中，并基于反向传播算法，调整所述编码网络、解码网络以及分类网络的网络参数，得到训练完成的唤醒模型以及降噪模型；其中，所述编码网络与所述分类网络构成唤醒模型，所述编码网络与所述解码网络构成降噪模型。

进一步地，所述分类网络包括全连接层以及softmax函数，所使用的损失函数是交叉熵损失函数。

进一步地，所述将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中，并基于反向传播算法，调整所述编码网络、解码网络以及分类网络的网络参数，得到训练完成的唤醒模型以及降噪模型的步骤，包括：

将所述第一高维特征矩阵以及第二高维特征矩阵输入至所述全连接层计算之后，基于所述损失函数计算交叉熵损失值；

使用梯度下降的反向传播算法，调整所述编码网络、解码网络以及分类网络的网络参数，以最小化所述交叉熵损失值；

当迭代训练之后，所述交叉熵损失值不再下降时，模型收敛得到训练完成的所述的唤醒模型以及降噪模型。

进一步地，所述音频训练数据包括正样本音频以及负样本音频；

所述构建音频训练数据的第一声学特征矩阵的步骤之前，包括：

获取噪声语音，作为所述负样本音频；

获取纯净唤醒语音；其中，所述纯净唤醒语音为不带噪声且携带有唤醒词的纯净语音；

按照预设的信噪比，将所述纯净唤醒语音与所述噪声语音进行混合，得到带噪的唤醒语音，作为所述正样本音频。

本申请还提供了一种模型联合训练装置，包括：

构建单元，用于构建音频训练数据的第一声学特征矩阵；

第一编码单元，用于将所述第一声学特征矩阵输入至编码网络得到第一高维特征矩阵；

解码单元，用于将所述第一高维特征矩阵输入至解码网络得到第二声学特征矩阵；

第二编码单元，用于将所述第二声学特征矩阵输入至所述编码网络得到第二高维特征矩阵；

训练单元，用于将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中，并基于反向传播算法，调整所述编码网络、解码网络以及分类网络的网络参数，得到训练完成的唤醒模型以及降噪模型；其中，所述编码网络与所述分类网络构成唤醒模型，所述编码网络与所述解码网络构成降噪模型。

进一步地，所述训练单元，具体用于：

进一步地，所述音频训练数据包括正样本音频以及负样本音频；所述装置还包括：

第一获取单元，用于获取噪声语音，作为所述负样本音频；

第二获取单元，用于获取纯净唤醒语音；其中，所述纯净唤醒语音为不带噪声且携带有唤醒词的纯净语音；

混合单元，用于按照预设的信噪比，将所述纯净唤醒语音与所述噪声语音进行混合，得到带噪的唤醒语音，作为所述正样本音频。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请提供的模型联合训练方法、装置、计算机设备和存储介质，包括：构建音频训练数据的第一声学特征矩阵；将所述第一声学特征矩阵输入至编码网络得到第一高维特征矩阵；将所述第一高维特征矩阵输入至解码网络得到第二声学特征矩阵；将所述第二声学特征矩阵输入至所述编码网络得到第二高维特征矩阵；将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中，并基于反向传播算法，调整所述编码网络、解码网络以及分类网络的网络参数，得到训练完成的唤醒模型以及降噪模型。本申请中，解码网络输出第二声学特征矩阵增加了训练样本的数据量，联合训练唤醒模型以及降噪模型；两个模型共用一个编码网络，使其具备了从带噪音频中更准确提取目标信息的能力，效果比单独训练模型时的效果好，且训练速度快，训练成本低。

附图说明

图1 是本申请一实施例中模型联合训练方法步骤示意图；

图2 是本申请一实施例中模型联合训练方法原理示意图；

图3是本申请一实施例中模型联合训练装置结构框图；

图4 是本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例中提供了一种模型联合训练方法，包括以下步骤：

步骤S1，构建音频训练数据的第一声学特征矩阵；

步骤S2，将所述第一声学特征矩阵输入至编码网络得到第一高维特征矩阵；

步骤S3，将所述第一高维特征矩阵输入至解码网络得到第二声学特征矩阵；

步骤S4，将所述第二声学特征矩阵输入至所述编码网络得到第二高维特征矩阵；

步骤S5，将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中，并基于反向传播算法，调整所述编码网络、解码网络以及分类网络的网络参数，得到训练完成的唤醒模型以及降噪模型；其中，所述编码网络与所述分类网络构成唤醒模型，所述编码网络与所述解码网络构成降噪模型。

在本实施例中，上述模型联合训练方法应用于训练数据少的场景中，提升训练后模型的效果。在训练得到唤醒模型的同时，得到具有一定降噪效果的降噪模型，为训练数据不足的情况下构建降噪模型提供了可行的方案。其中，上述训练数据少指的是纯净的唤醒语音少或者没有纯净的唤醒语音。

具体地，如上述步骤S1所述的，上述音频训练数据为音频数据，通常为带噪的唤醒语音数据，该音频数据标注有对应的标签，用于训练神经网络模型。在输入值神经网络模型训练之前，需要构建上述音频训练数据的第一声学特征矩阵，通常可采用线性变换网络进行特征矩阵的提取。

如上述步骤S2所述的，上述编码网络（kws net）为神经网络，其用于提取音频高维特征矩阵，该编码网络输入的是音频的声学特征矩阵，输出是高维空间的特征矩阵。

如上述步骤S3所述的，上述解码网络（decode_net）为神经网络，其用于将高维特征矩阵解码为声学特征矩阵，经过上述解码网络之后，生成一个新的声学特征矩阵，即上述第二声学特征矩阵。可以理解的是，结合图2所示，在本实施例中，上述编码网络作为降噪模型以及唤醒网络的共同部分，其中，唤醒模型的编码网络在处理输入数据时主要提取带噪声音中的与语音内容相关的信息，降噪模型的编码网络在处理输入数据时主要是分离出目标声音特征，然后根据目标声音特征生成目标语音。二者相同点是都需要提取目标语音的特征信息，那么降噪模型的编码网络在处理带噪音频时会保留语音的信息，解码网络生成的音频经过唤醒网络后也能够唤醒。

如上述步骤S4所述的，由于解码网络生成的音频经过唤醒网络后也能够唤醒；因此，可以将上述经过解码网络解码得到的第二声学特征矩阵也作为一个训练数据，将其输入至所述编码网络得到第二高维特征矩阵。

如上述步骤S5所述的，将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中，并基于反向传播算法，不断调整所述编码网络、解码网络以及分类网络的网络参数（网络权值），得到训练完成的唤醒模型以及降噪模型。

在本实施例中，上述编码网络与所述分类网络构成唤醒模型，上述编码网络与所述解码网络构成降噪模型；在迭代训练上述编码网络、解码网络以及分类网络之后，模型收敛之后，便可以得到上述唤醒模型以及降噪模型。在本实施例中，解码网络输出第二声学特征矩阵增加了训练样本的数据量，联合训练唤醒模型以及降噪模型；两个模型共用一个编码网络，使其具备了从带噪音频中更准确提取目标信息的能力，效果比单独训练模型时的效果好，且训练速度快，训练成本低。

综上，为本申请实施例中的模型联合训练方法，适用于训练数据量不足的场景，即没有足够的数据构建降噪模型来辅助提升唤醒模型的效果时，使唤醒网络和降噪网络共用一个编码网络，直接在带噪的唤醒语音训练数据和噪声数据集上对两个网络进行联合训练，通过这种训练方式，使得编码网络具备了从带噪语音中准确提取目标信息的能力，从而使得模型效果比单独训练时更好，且训练速度快，训练成本低。此外使用唤醒模型的损失函数在训练唤醒模型的时候，顺带把降噪模型也训练了，得到的降噪模型在没有纯净语音的情况下也有一定的降噪效果，为数据不足的情况下构建降噪模型提供了可行的方案。

在一实施例中，所述编码网络包括DNN、CNN、RNN等神经网络中的任意一种或多种，上述网络均可以实现声学特征矩阵的编码，在此不做限定。

在一实施例中，所述解码网络包括DNN、CNN、RNN等神经网络中的任意一种或多种，上述网络均可以实现高维特征矩阵的解码，在此不做限定。

在一实施例中，所述分类网络包括全连接层以及softmax函数，所使用的损失函数是交叉熵损失函数。

在本实施例中，唤醒模型的分类网络是一般分类模型，目标是类别标签，在解码网络中由于其输出的音频要作为样本再次输入到编码网络分类模型中，所以目标依然是类别标签，因此两个网络联合训练只有一个损失函数，即一般分类模型常用的交叉熵损失函数，公式为：

Total_loss = ce_loss；

在一实施例中，所述将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中，并基于反向传播算法，调整所述编码网络、解码网络以及分类网络的网络参数，得到训练完成的唤醒模型以及降噪模型的步骤，包括：

在本实施例的迭代训练过程中，预测出分类结果，并通过损失函数计算预测出的分类结果与真实标签之间的交叉熵损失值。进而，采用梯度下降的反向传播算法，不断调整编码网络、解码网络以及分类网络的网络参数，即网络权值，以使得最后通过损失函数计算的交叉熵损失值最小化，当该交叉熵损失值不再下降时，模型收敛，此时得到训练完成的所述的唤醒模型以及降噪模型。

在一实施例中，所述音频训练数据包括正样本音频以及负样本音频；

获取噪声语音，作为所述负样本音频；

获取带噪的唤醒语音，作为所述正样本音频。

在一实施例中，所述获取带噪的唤醒语音，作为所述正样本音频的步骤，包括：

将所述纯净唤醒语音与所述噪声语音进行混合，得到所述带噪的唤醒语音，作为所述正样本音频。

参照图3，本申请一实施例中还提供了一种模型联合训练装置，包括：

构建单元10，用于构建音频训练数据的第一声学特征矩阵；

第一编码单元20，用于将所述第一声学特征矩阵输入至编码网络得到第一高维特征矩阵；

解码单元30，用于将所述第一高维特征矩阵输入至解码网络得到第二声学特征矩阵；

第二编码单元40，用于将所述第二声学特征矩阵输入至所述编码网络得到第二高维特征矩阵；

训练单元50，用于将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中，并基于反向传播算法，调整所述编码网络、解码网络以及分类网络的网络参数，得到训练完成的唤醒模型以及降噪模型；其中，所述编码网络与所述分类网络构成唤醒模型，所述编码网络与所述解码网络构成降噪模型。

在本实施例中，上述模型联合训练装置应用于训练数据少的场景中，提升训练后模型的效果。在训练得到唤醒模型的同时，得到具有一定降噪效果的降噪模型，为训练数据不足的情况下构建降噪模型提供了可行的方案。其中，上述训练数据少指的是纯净的唤醒语音少或者没有纯净的唤醒语音。

具体地，如上述构建单元10所述的，上述音频训练数据为音频数据，通常为带噪的唤醒语音数据，该音频数据标注有对应的标签，用于训练神经网络模型。在输入值神经网络模型训练之前，需要构建上述音频训练数据的第一声学特征矩阵，通常可采用线性变换网络进行特征矩阵的提取。

如上述第一编码单元20所述的，上述编码网络（kws net）为神经网络，其用于提取音频高维特征矩阵，该编码网络输入的是音频的声学特征矩阵，输出是高维空间的特征矩阵。

如上述解码单元30所述的，上述解码网络（decode_net）为神经网络，其用于将高维特征矩阵解码为声学特征矩阵，经过上述解码网络之后，生成一个新的声学特征矩阵，即上述第二声学特征矩阵。可以理解的是，结合图2所示，在本实施例中，上述编码网络作为降噪模型以及唤醒网络的共同部分，其中，唤醒模型的编码网络在处理输入数据时主要提取带噪声音中的与语音内容相关的信息，降噪模型的编码网络在处理输入数据时主要是分离出目标声音特征，然后根据目标声音特征生成目标语音。二者相同点是都需要提取目标语音的特征信息，那么降噪模型的编码网络在处理带噪音频时会保留语音的信息，解码网络生成的音频经过唤醒网络后也能够唤醒。

如上述第二编码单元40所述的，由于解码网络生成的音频经过唤醒网络后也能够唤醒；因此，可以将上述经过解码网络解码得到的第二声学特征矩阵也作为一个训练数据，将其输入至所述编码网络得到第二高维特征矩阵。

如上述训练单元50所述的，将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中，并基于反向传播算法，不断调整所述编码网络、解码网络以及分类网络的网络参数（网络权值），得到训练完成的唤醒模型以及降噪模型。

综上，为本申请实施例中的模型联合训练装置，适用于训练数据量不足的场景，即没有足够的数据构建降噪模型来辅助提升唤醒模型的效果时，使唤醒网络和降噪网络共用一个编码网络，直接在带噪的唤醒语音训练数据和噪声数据集上对两个网络进行联合训练，通过这种训练方式，使得编码网络具备了从带噪语音中准确提取目标信息的能力，从而使得模型效果比单独训练时更好，且训练速度快，训练成本低。此外使用唤醒模型的损失函数在训练唤醒模型的时候，顺带把降噪模型也训练了，得到的降噪模型在没有纯净语音的情况下也有一定的降噪效果，为数据不足的情况下构建降噪模型提供了可行的方案。

在一实施例中，所述编码网络包括DNN、CNN、RNN等神经网络中的任意一种或多种。

在一实施例中，所述解码网络包括DNN、CNN、RNN等神经网络中的任意一种或多种。

在一实施例中，所述训练单元50，具体用于：

所述模型联合训练装置，还包括：

第一获取单元，用于获取噪声语音，作为所述负样本音频；

第二获取单元，用于获取带噪的唤醒语音，作为所述正样本音频。

在一实施例中，所述第二获取单元，具体用于：

在本实施例中，上述模型联合训练装置中的各个单元的具体实现，请参照上述方法实施例中所述，在此不再进行赘述。

参照图4，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储模型等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型联合训练方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种模型联合训练方法。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，为本申请实施例中提供的模型联合训练方法、装置、计算机设备和存储介质，包括：构建音频训练数据的第一声学特征矩阵；将所述第一声学特征矩阵输入至编码网络得到第一高维特征矩阵；将所述第一高维特征矩阵输入至解码网络得到第二声学特征矩阵；将所述第二声学特征矩阵输入至所述编码网络得到第二高维特征矩阵；将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中，并基于反向传播算法，调整所述编码网络、解码网络以及分类网络的网络参数，得到训练完成的唤醒模型以及降噪模型。本申请中，解码网络输出第二声学特征矩阵增加了训练样本的数据量，联合训练唤醒模型以及降噪模型；两个模型共用一个编码网络，使其具备了从带噪音频中更准确提取目标信息的能力，效果比单独训练模型时的效果好，且训练速度快，训练成本低。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种模型联合训练方法，其特征在于，包括以下步骤：

构建音频训练数据的第一声学特征矩阵；

2.根据权利要求1所述的模型联合训练方法，其特征在于，所述分类网络包括全连接层以及softmax函数，所使用的损失函数是交叉熵损失函数。

3.根据权利要求2所述的模型联合训练方法，其特征在于，所述将所述第一高维特征矩阵以及第二高维特征矩阵分别输入至分类网络中，并基于反向传播算法，调整所述编码网络、解码网络以及分类网络的网络参数，得到训练完成的唤醒模型以及降噪模型的步骤，包括：

4.根据权利要求1所述的模型联合训练方法，其特征在于，所述音频训练数据包括正样本音频以及负样本音频；

获取噪声语音，作为所述负样本音频；

5.一种模型联合训练装置，其特征在于，包括：

构建单元，用于构建音频训练数据的第一声学特征矩阵；

6.根据权利要求5所述的模型联合训练装置，其特征在于，所述分类网络包括全连接层以及softmax函数，所使用的损失函数是交叉熵损失函数。

7.根据权利要求6所述的模型联合训练装置，其特征在于，所述训练单元，具体用于：

8.根据权利要求5所述的模型联合训练装置，其特征在于，所述音频训练数据包括正样本音频以及负样本音频；所述装置还包括：

第一获取单元，用于获取噪声语音，作为所述负样本音频；

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。