WO2020083110A1

WO2020083110A1 - 一种语音识别、及语音识别模型训练方法及装置

Info

Publication number: WO2020083110A1
Application number: PCT/CN2019/111905
Authority: WO
Inventors: 王珺; 苏丹; 俞栋
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-10-25
Filing date: 2019-10-18
Publication date: 2020-04-30
Also published as: CN110428808A; CN110288979A; US20210043190A1; CN110176226B; CN110176226A; CN110364144B; CN110288979B; EP3767619A4; CN110428808B; US11798531B2; EP3767619A1; CN110288978A; CN110288978B; CN110364144A

Abstract

一种语音识别方法、语音识别模型训练方法及装置，该语音识别方法包括：从混合语音中识别出目标词语音，并基于该目标词语音获得目标词语音的锚提取特征，将该目标词语音的锚提取特征作为目标语音的锚提取特征（100）；根据该目标语音的锚提取特征，获得目标语音的掩码（110）；根据该目标语音的掩码，识别出目标语音（120）。

Description

一种语音识别、及语音识别模型训练方法及装置

本申请要求于2018年10月25日提交中国专利局、申请号为201811251081.7、申请名称为“一种语音识别、及语音识别模型训练方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及一种语音识别、及语音识别模型训练方法及装置。

背景技术

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

在智能语音交互场景中，尤其是远讲条件下，通常会出现不同说话人的语音混叠的情况，目前针对混合语音中目标说话人的语音提取的研究越来越受到重视。

现有技术中，语音识别方法主要为，采用深度吸引子网络，为混合语音中每个说话人的语音生成一个吸引子，然后通过计算嵌入向量离这些吸引子的距离，来估计每个吸引子对应的时频窗口归属于相应说话人的掩码(mask)权重，从而根据掩码权重，将各个说话人的语音区分开。

但是，现有技术中的语音识别方法，需要预先知道或估计混合语音中说话人的数目，从而将不同说话人的语音区分开来，但是现有技术中不能跟踪和提取某一目标说话人的语音。

发明内容

本申请实施例提供一种语音识别、及语音识别模型训练方法及装置、电子设备及存储介质，以解决现有技术中语音识别准确性较低，并且不能跟踪和识别某一目标说话人的语音的问题。

本申请实施例提供的具体技术方案如下：

本申请一个实施例提供了一种语音识别方法，由电子设备执行，包括：

从混合语音中识别出目标词语音，并基于所述目标词语音获得目标词语音的锚提取特征，将所述目标词语音的锚提取特征作为目标语音的锚提取特征；

根据所述目标语音的锚提取特征，获得所述目标语音的掩码；

根据所述目标语音的掩码，识别出所述目标语音。

本申请另一个实施例提供了一种语音识别模型训练方法，由电子设备执行，所述语音识别模型包括目标语音提取模块和目标词判断模块，该方法包括：

获取语音样本集；其中，所述语音样本集为以下任意一种或组合：干净目标词语音样本集、受干扰目标词语音的正负样本集、受干扰命令语音样本集；

训练目标语音提取模块，其中，所述目标语音提取模块的输入为所述语音样本集，输出为识别出的目标语音，所述目标语音提取模块的目标函数为识别出的目标语音与干净目标语音之间的损失函数最小化；

训练目标词判断模块，其中，所述目标词判断模块的输入为所述目标语音提取模块输出的目标语音，输出为目标词判断概率，所述目标词判断模块的目标函数为目标词判断结果的交叉熵损失函数最小化。

本申请另一个实施例提供了一种语音识别装置，包括：

第一获得模块，用于从混合语音中识别出目标词语音，并基于所述目标词语音获得目标词语音的锚提取特征，将所述目标词语音的锚提取特征作为目标语音的锚提取特征；

第二获得模块，用于根据所述目标语音的锚提取特征，获得所述目标语音的掩码；

识别模块，用于根据所述目标语音的掩码，识别出所述目标语音。

本申请另一个实施例提供了一种语音识别模型训练装置，所述语音识别模型包括目标语音提取模块和目标词判断模块，该装置包括：

获取模块，用于获取语音样本集；其中，所述语音样本集为以下任意一种或组合：干净目标词语音样本集、受干扰目标词语音的正负样本集、受干扰命令语音样本集；

训练模块，用于训练目标语音提取模块，其中，所述目标语音提取模块的输入为所述语音样本集，输出为识别出的目标语音，所述目标语音提取模块的目标函数为识别出的目标语音与干净目标语音之间的损失函数最小化；并训练目标词判断模块，其中，所述目标词判断模块的输入为所述目标语音提取模块输出的目标语音，输出为目标词判断概率，所述目标词判断模块的目标函数为目标词判断结果的交叉熵损失函数最小化。

本申请另一个实施例提供了一种电子设备，包括：

至少一个存储器，用于存储计算机可读程序指令；

至少一个处理器，用于调用所述存储器中存储的计算机可读程序指令，按照获得的计算机可读程序指令执行上述任一种语音识别方法或者语音识别模型训练方法。

本申请另一个实施例提供了一种计算机可读存储介质，其上存储有计算机可读程序指令，所述计算机可读程序指令被处理器加载并执行上述任一种语音识别方法或者语音识别模型训练方法。

本申请实施例中，根据混合语音中的目标词语音，来确定目标词语音对应的目标语音的锚提取特征，从而根据目标语音的锚提取特征，得到目标语音的掩码并根据掩码识别出目标语音。进一步地，可以根据目标词来识别和跟踪特定的目标语音，不需要预先知道或估计混合语音中说话人的数目，只需计算目标语音的锚提取特征即可，提高了语音识别的准确性及效率。

附图简要说明

图1为本申请实施例中一种语音识别方法的流程图；

图2为本申请实施例中另一种语音识别方法的流程图；

图3为本申请实施例中语音识别系统的框架图；

图4为本申请实施例中目标语音提取模块的实现方案的结构框架图；

图5为本申请实施例中目标词判断模块的实现方案的结构框架图；

图6为本申请实施例中基于干净目标词语音的训练方案的结构框架图；

图7为本申请实施例中基于受干扰目标词语音在原始嵌入空间的训练方案的结构框架图；

图8为本申请实施例中基于受干扰目标词语音在规整嵌入空间的训练方案的结构框架图；

图9为本申请实施例中语音识别方法的测试方案的结构框架图；

图10为本申请实施例中语音识别方法的测试流程的示意图；

图11为本申请实施例中语音识别装置的结构示意图；

图12为本申请实施例中语音识别模型训练装置的结构示意图；

图13为本申请实施例中一种电子设备的结构示意图；

图14为本申请实施例中终端的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、语音识别等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

为便于对本申请实施例的理解，下面先对几个概念进行简单介绍：

唤醒词：表示唤醒人工智能(Artificial Intelligence，AI)设备的词语，使AI设备处于唤醒状态。

嵌入向量：本申请实施例中表示语音信号映射到某一维度嵌入空间中的固定长度的向量表示。

规整嵌入向量：本申请实施例中表示经过两次嵌入空间映射后的向量表示。

锚提取特征：为一种语音信号的语音特征表示。

掩码(mask)：信号掩码可以理解为一个"位图"，其中每一位都对应着一种信号，可以用于屏蔽相应的信号。

另外，本申请实施例中，使用上标“n(noisy)”表示受干扰语音，“c(clean wakeup-word)”表示干净语音；“nw(noisy wakeup-word)”表示受干扰目标词语音，“cw(clean wakeup-word)”表示干净目标词语音；“nc(noisy command)”表示受干扰命令语音，“cc(clean command)”表示干净命令语音。输入频谱X _f,t是对数域的短时傅立叶变换，f表示频谱维度的序列号，t表示时间维度的帧序列号。

在本申请的一种技术方案中，针对混合语音识别，需要预先知道或估计混合语音中说话人的数目，从而将不同说话人的语音区分开，但是这种技术方案不能直接跟踪或识别某一特定目标说话人的语音，也不能针对性地提取混合语音中目标说话人的语音。

并且，该技术方案中针对每个说话人计算的吸引子，采用单层嵌入空间进行训练学习，得到的吸引子分布相对松散不稳定，降低了语音识别的准确性。在本申请的另一种技术方案中还提供了一种后期(K均值)K-means聚类方法，可以使获得的吸引子分布相对集中，但是这种技术方案需要使用多帧语音信号聚类，因此不能支持逐帧实时处理，降低了语音识别的效率。

通常在人机交互场景中，例如，智能音响、智能电视盒子的人机交互场景等，每次交互都是由目标说话人的一个目标词接一个命令语音输入构成，因此，本申请主要在于结合目标词进行多任务训练，基于目标词确定目标语音特征。本申请实施例中认为说出目标词的人为目标说话人，该目标词语音的特征即为目标语音特征，从而通过识别目标词来确定和跟踪目标语音，并提取后续接收到的受干扰命令语音，即混合语音中的目标语音，而不需要预知混合语音中说话人的数目。这样，不仅能够有效识别和跟踪某一特定目标语音，而且本申请实施例中采用双层嵌入空间进行计算和提取，得到的目标语音特征即锚提取特征更加集中和稳定，从而使得对混合语音中目标语音的识别和提取的准确性更高。

本申请实例中的语音识别方法可以由智能终端执行，也可以在智能终端接收到混合语音后，发送给服务器，并由服务器进行语音识别，并将语音识别结果发送给智能终端。智能终端与服务器之间可以通过互联网相连，实现相互之间的通信。服务器可以是提供相应网络服务的后台服务器。对于由哪种设备执行语音识别方法，本申请实施例中并不进行限制。

并且，本申请实施例中，主要是针对目标词语音的训练和对目标语音的学习，例如目标词语音为唤醒词语音。当然，也可以基于其它适应语音或关键词进行训练和对目标语音进行学习和识别，本申请实例中并不进行限制。本申请实施例主要是以唤醒词为例进行说明和介绍的。

参阅图1所示，为本申请实施例中的语音识别方法的流程图，该方法包括：

步骤100：从混合语音中识别出目标词语音，并基于目标词语音获得目标词语音的锚提取特征，将目标词语音的锚提取特征作为目标语音的锚提取特征。

执行步骤100时，具体包括步骤a1～a2：

步骤a1，从混合语音中识别出目标词语音。

具体为，确定混合语音的每个时频窗口对应的嵌入向量；根据确定的各嵌入向量和预设锚提取特征，确定各嵌入向量分别对应的目标词标注信息。

步骤a2，基于目标词语音获得目标词语音的锚提取特征，将目标词语音的锚提取特征作为目标语音的锚提取特征。

具体为，根据各嵌入向量、预设锚提取特征和对应的目标词标注信息，获得目标语音的锚提取特征。

步骤110：根据目标语音的锚提取特征，获得目标语音的掩码。

步骤120：根据目标语音的掩码，识别出目标语音。

这样，本申请实施例中，在混合语音中识别出目标词语音，学习目标词语音的语音特征，将目标词语音的语音特征作为目标语音的语音特征，即得到目标语音的锚提取特征，进而就可以根据目标语音的锚提取特征，计算目标语音的掩码，并识别出目标语音。

具体地，参阅图2所示，为本申请实施例中另一种语音识别方法的流程图，该方法包括：

步骤200：确定混合语音的每个时频窗口对应的嵌入向量。

执行步骤200时，具体包括步骤b1～b2：

步骤b1，对混合语音进行短时傅里叶变换，获得混合语音的频谱。

其中，短时傅里叶变换的主要原理是将信号加滑动时间窗，并对窗内信号做傅立叶变换，得到信号的时变频谱。

步骤b2，基于预先训练的深度神经网络，将混合语音的频谱映射到固定维度的原始嵌入空间中，获得混合语音的每个时频窗口对应的嵌入向量。

例如，经过短时傅里叶变换后的混合语音的频谱为X _f,t，经过深度神经网络映射为K维嵌入空间的嵌入向量V _f,t，例如K＝40，其中，f表示频谱维度的序列号，t表示时间维度的帧序列号。

其中，深度神经网络例如为长短期记忆网络(Long Short-Term Memory，LSTM)，本申请实施例中并不进行限制。例如深度神经网络由4层双向LSTM层构成，每层LSTM有600个节点，具体的参数设置可以根据实际情况进行设置和调整。当然，本申请实施例中并不具体限定深度神经网络的模型类型和拓扑结构，其也可以为各种其它有效的新型的模型结构，例如，卷积网络(Convolutional Neural Network，CNN)和其它网络结构相结合的模型，或者其它网络结构，例如时延网络、闸控卷积神经网络等。本申请实施例中，可以根据实际应用对模型内存占用的限制和对检测准确率的要求，对深度神经网络的拓扑结构加以拓展或简化。

本申请实施例中，嵌入向量表示语音信号映射到某一维度空间中的固定长度的向量表示，嵌入向量V _f,t∈R ^k。

步骤210：根据确定的各嵌入向量和预设锚提取特征，确定各嵌入向量分别对应的目标词标注信息，并根据各嵌入向量、预设锚提取特征和对应的目标词标注信息，获得目标语音的锚提取特征。

执行步骤210时，具体包括步骤c1～c2：

步骤c1，根据确定的各嵌入向量和预设锚提取特征，确定各嵌入向量分别对应的目标词标注信息。

具体为：分别将各嵌入向量和预设锚提取特征进行合并；将各合并后的向量输入到预先训练的第一前向网络；获得第一前向网络对各合并后的向量进行识别后输出的各嵌入向量对应的目标词标注信息，其中，不包括目标词语音的嵌入向量对应的目标词标注信息取值为0，包括目标词语音的嵌入向量对应的目标词标注信息取值为1。

例如，各嵌入向量为V _f,t，预设锚提取特征为

将V _f,t和

合并为2K维向量，输入到第一前向网络中，并预测对应的目标词标注信息，记为Y _f,t，从而可以获得各嵌入向量是否属于目标语音的标注信息。

这样，通过估计混合语音中的目标词标记信息，就可以从混合语音中识别出目标词语音。

其中，预设锚提取特征为通过预先训练获得的干净目标词语音样本集中各用户的干净目标词语音样本对应的锚提取特征的质心的平均值，即为通过预先训练获得的干净目标词语音样本集的平均锚提取特征，具体的预设锚提取特征的训练将在下文再进行具体介绍。

这样，本申请实施例中在使用该语音识别方法时，不需要重新估计锚提取特征，也不需要聚类，因此，可以支持逐帧实时处理。并且，由于本申请实施例中通过训练获得的锚提取特征更加集中和稳定，因此在语音识别应用中使用的锚提取特征也就更加准确，从而使得后续的目标语音的锚提取特征的计算更加准确，也就提高了目标语音识别和提取的准确性。

步骤c2，根据各嵌入向量、预设锚提取特征和对应的目标词标注信息，获得目标语音的锚提取特征。

具体地，根据各嵌入向量、预设锚提取特征和对应的目标词标注信息，获得目标词语音的锚提取特征，将目标词语音的锚提取特征作为目标语音的锚提取特征。这里为了方便描述，本实施例将获得锚提取特征描述为直接获得目标语音的锚提取特征。为了便于介绍和叙述，在下文中的相关描述中，也描述为直接获得目标语音的锚提取特征。

本申请实施例中，根据各嵌入向量、预设锚提取特征和对应的目标词标注信息，计算得到的实际为目标词语音的锚提取特征。由于目标语音与目标词语音的语音特征相符合，因此本申请实施例可以通过目标词语音学习并跟踪目标语音。因此，本申请实施例可以将目标词语音的锚提取特征作为目标语音的锚提取特征。

例如，各嵌入向量为V _f,t，预设锚提取特征为

目标词标注信息为Y _f,t，目标语音的锚提取特征为A ^nw，则

其中，α为调节参数，α越大，则说明计算出的锚提取特征越偏向于估计的目标语音的锚提取特征，反之α越小，则说明锚提取特征越偏向于预设锚提取特征。

这样，本申请实施例中还可以通过调整α的取值，更新该目标语音的锚提取特征，从而提高目标语音的锚提取特征的准确性。

步骤220：根据各嵌入向量和目标语音的锚提取特征，获得各嵌入向量对应的规整嵌入向量，并根据各规整嵌入向量和预设规整锚提取特征，获得目标语音的掩码。

执行步骤220时，具体包括步骤d1～d2：

步骤d1，根据各嵌入向量和目标语音的锚提取特征，获得各嵌入向量对应的规整嵌入向量。

具体为：1)分别将各嵌入向量和目标语音的锚提取特征进行合并，获得各合并后的2K维向量；其中，嵌入向量和目标语音的锚提取特征分别为K维向量。

2)将各合并后的2K维向量输入到预先训练的第二前向网络。

3)基于第二前向网络，将各合并后的2K维向量再次映射到固定维度的规整嵌入空间中，获得第二前向网络输出的相应的K维向量，并将输出的K维向量作为相应的嵌入向量的规整嵌入向量；其中，第二前向网络用于将原始嵌入空间映射到规整嵌入空间。

例如，各嵌入向量为V _f,t，目标语音的锚提取特征为A ^nw，则获得的各规整嵌入向量为：

其中，f(·)表示通过深度神经网络学习到的非线性映射函数，其作用是将原始嵌入空间映射到新的规整嵌入空间。

其中，第二前向网络的参数也可以根据实际情况进行设置，例如设置为2层的前向网络，每层的节点数是256，输入为2K维向量，输出为K维向量。当然，也可以根据实际应用对模型内存占用的限制和对检测准确率的要求，对前向网络的拓扑结构加以拓展或简化，本申请实施例中并不对此进行限制。

本申请实施例中，规整嵌入向量表示经过两次嵌入空间映射后的向量，并且第一次映射基于混合语音频谱，第二次映射基于第一次映射后的嵌入向量和计算出的目标语音的锚提取特征。

这样，本申请实施例中将混合语音经过两次嵌入空间映射，即基于双层嵌入空间，最终将混合语音映射到规整嵌入空间，从而可以实现在规整嵌入空间，根据目标语音的规整锚提取特征，对目标语音的掩码进行计算。通过规整可以减少干扰影响，使得目标语音的规整锚提取特征的分布更加集中和稳定，从而提高了识别出的目标语音的准确性。

步骤d2，根据各规整嵌入向量和预设规整锚提取特征，获得目标语音的掩码。

其中，预设规整锚提取特征表示通过预先训练获得的干扰语音样本集中各用户的干扰语音样本对应的规整锚提取特征的质心的平均值，即通过预先训练获得受干扰目标词语音的正负样本集或受干扰命令语音样本集的目标语音的规整锚提取特征的平均值。预设规整锚提取特征的训练将在下文再进行具体介绍。

具体为：分别计算各规整嵌入向量和预设规整锚提取特征之间的距离，根据各距离的取值获得目标语音的掩码。

进一步地，将各距离的取值映射到[0,1]范围内，并根据映射后的各距离的取值构成目标语音的掩码。

例如，预设规整锚提取特征为

各规整嵌入向量为

则计算的目标语音的掩码(mask)为：

其中，Sigmoid为S型函数，用于将变量映射到[0,1]之间，即用于将本申请实施例中的各距离的取值映射到[0,1]范围内，这样是为了便于后续目标语音的提取。

步骤230：根据目标语音的掩码，识别出目标语音。

例如，混合语音的频谱为X _f,t，目标语音的掩码为

则识别出的目标语音为：

由于目标语音的掩码是根据各规整嵌入向量与目标语音的规整锚提取特征的内积计算得到的，因此内积取值越大，说明规整嵌入向量与目标语音的规整锚提取特征的距离越小，该时频窗口归属于目标语音的概率越大，则计算出的掩码对应该时频窗口的值越大，计算出对应的

的值也越大，表示该时频窗口被提取的越多，从而最终计算出的目标语音也就越接近于实际的目标说话人的语音。

本申请实施例中，识别目标语音时，可以是从当前输入的混合语音中识别，也可以在设备处于唤醒状态后，从后续接收到的混合命令语音中识别出目标语音，本申请实施例中语音识别方法都是可以适用的。

进一步地，本申请实施例中在识别出目标语音后，还可以动态调整目标语音的锚提取特征。例如，若目标词为唤醒词，识别出唤醒词语音并对设备进行唤醒后，识别在设备唤醒状态中混合语音中的目标语音，从而提高在整个设备唤醒状态中，对目标语音识别的准确性。具体地，本申请实施例提供了一种可能的实施方式，将识别出的目标语音输入到预先训练的目标词判断模块，判断目标语音中是否包括目标词语音，然后根据判断结果，调整目标语音的锚提取特征，并根据调整后的目标语音的锚提取特征，识别目标语音。

其中，根据判断结果，调整目标语音的锚提取特征，具体为：若判断结果为目标语音中包括目标词语音，则调整预设调节参数，使计算出的目标语音的锚提取特征中的预设锚提取特征的权重减小；若判断结果为目标语音中不包括目标词语音，则调整预设调节参数，使计算出的目标语音的锚提取特征中的预设锚提取特征的权重增加。

具体地，可以调整上述目标语音的锚提取特征

中的α的取值。在该目标语音的锚提取特征的计算方式中，若判断目标语音中包括目标词语音，则说明估计的目标语音接近于实际的目标语音，可以调大α的取值，使预设锚提取特征的权重减小，估计出的目标语音的锚提取特征的权重增大；若判断目标语音中不包括目标词语音，则说明估计的目标语音不准确，可以调小α的取值，使预设锚提取特征的权重增加，估计出的目标语音的锚提取特征的权重减小。

由于目标语音的锚提取特征是基于估计出的目标词标注信息计算得到的，因此目标词语音的识别也是估计得到的。因为目标词语音识别，即目标词标注信息可能会出现误差，因此可能会降低目标语音的锚提取特征的准确性。因此，本申请实施例中，若目标词语音识别正确，则在智能终端未处于唤醒状态时，识别出的目标语音必定会包括目标词语音，有时可能也会包括命令语音，例如，用户可能同时说出目标词和命令指示的场景。因此，对识别出的目标语音再进行目标词判断，即判断识别出的目标语音是否包括目标词语音，还可以提高目标词识别的准确性。若确定目标语音中包括目标词语音，则可以确定之前的目标词标注信息是正确的，根据目标词标注信息得到的目标语音的锚提取特征也是准确的，因此，可以调大α的取值，使预设锚提取特征的权重减小，估计出的目标语音的锚提取特征的权重增大。并且，由于确定目标语音中包括目标词语音，智能终端进入唤醒状态之后，就可以基于调整后的目标语音的锚提取特征，从之后的混合命令语音中识别出目标语音，从而提取出的目标语音更加准确。

本申请实施例中，通过对最后重建出的目标语音进行目标词判断，并根据判断结果来调整α的取值，从而可以动态调整目标语音的锚提取特征。这样，在对设备唤醒状态之后接收到的混合语音中的目标语音进行识别时，可以基于调整后的目标语音的锚提取特征进行，从而可以提高目标语音识别的准确性。

本申请实施例中，智能终端在唤醒时和处于唤醒状态后，可以基于调整后的目标语音的锚提取特征来识别目标语音。智能终端再次进入休眠状态后，则会将调整后的目标语音的锚提取特征恢复为初始的预设锚提取特征，然后重新计算目标语音的锚提取特征，并可以再次调整该计算出的目标语音的锚提取特征。

本申请实施例中的语音识别方法可以应用于智能音箱、智能电视盒子、在线语音交互系统、智能语音助手、车载智能语音设备、同声传译等多个项目和产品应用中。本申请实施例中的语音识别方法可以应用于各远场人机语音交互场景，并可以对目标词语音和目标语音的锚提取特征进行优化和训练，从而在应用时可以根据目标词语音来确定目标语音的锚提取特征，并识别出目标语音，而不需要预先知道或估计混合语音中说话人的数目。并且，本申请实施例中的语音识别方法可以适用于目标词语音或其它关键词语音长度非常短的情况，也可以有效地跟踪目标语音并学习其语音特征，其适用范围更广。本申请实施例中，通过规整计算，可以消除干扰影响，而且经过规整后的锚提取特征具有更加稳定和集中的优势。因此，在实际应用时，可以基于学习到的预设锚提取特征和预设规整锚提取特征，对混合语音进行逐帧实时处理，重建目标说话人的语音。通过本申请实施例，可以重建得到高质量的目标说话人语音，提高了重建出的目标语音的信号失真比(SDR)和主观语音质量评估(PESQ)指标等性能，显著地改善了唤醒和自动语音识别系统的准确率。

基于上述实施例，下面对本申请实施例中语音识别的训练过程进行具体说明。

通常训练过程是在后台服务器执行。由于各个模块的训练可能比较复杂，计算量较大，因此，可以由后台服务器实现训练过程，从而可以将训练好的模型和结果应用到各个智能终端，实现语音识别。

参阅图3所示，为本申请实施例中语音识别系统的框架图。本申请实施例中，语音识别训练主要包括2大任务。第一个任务为重建目标说话人的干净语音，即目标语音提取模块，用于通过训练获得基于目标词的目标语音的锚提取特征，并从混合语音中识别出目标语音；第二个任务为目标词判断，即目标词判断模块，用于对重建出的目标语音，判断其是否包括目标词语音，从而提高目标词标注信息的准确性。本申请实施例中，提供了一种语音识别模块的训练方法，具体为：

步骤f1，获取语音样本集。其中，语音样本集为以下任意一种或组合：干净目标词语音样本集、受干扰目标词语音的正负样本集、受干扰命令语音样本集。

步骤f2，训练目标语音提取模块。其中，目标语音提取模块的输入为语音样本集，输出为识别出的目标语音，目标语音提取模块的目标函数为识别出的目标语音与干净目标语音之间的损失函数最小化。

步骤f3，训练目标词判断模块。其中，目标词判断模块的输入为目标语音提取模块输出的目标语音，输出为目标词判断概率，目标词判断模块的目标函数为目标词判断结果的交叉熵损失函数最小化。

本申请实施例中，主要通过对目标语音提取模块的训练和目标词判断模块的训练，可以同时优化识别目标词语音的准确性和目标语音的锚提取特征的准确性，从而可以根据目标词语音特征来提高识别目标词语音特征对应的目标语音的准确性。本申请实施例对步骤f2和f3的执行顺序没有限制。

基于上述实施例中的图3，可知本申请实施例中的语音识别训练模型主要包括目标语音提取模块和目标词判断模块两部分，下面分别进行介绍。

第一部分：目标语音提取模块。

参阅图4所示，为本申请实施例中的目标语音提取模块的实现方案的结构框架图。本申请实施例中语音识别的训练过程和实际语音识别的应用过程是类似的，目标语音提取模块的训练过程，可以使用不同的语音信号样本集进行交替训练。图4中包括了几种不同的信号样本集，分别为干净目标词语音样本集、受干扰目标词语音的正负样本集、受干扰命令语音样本集。本申请实施例给出了一个目标语音提取模块的整体的实现方案，具体为1)～5)：

1)干净目标词语音样本集中至少包括干净目标词语音样本和对应的目标词标注信息，受干扰目标词语音的正负样本集中至少包括受干扰目标词语音的正负样本和对应的目标词标注信息，受干扰命令语音样本集中至少包括受干扰命令语音样本和对应的目标词标注信息。

其中，干净目标词语音样本的目标词标注信息的确定方式为：

针对干净目标词语音样本，去除低能量频谱窗口噪声以得到更准确的标注

具体地：将干净目标词语音样本的输入频谱

与一定阈值Γ比较，若确定某一时频窗口的频谱幅度与输入频谱的最高幅度的差值小于该阈值，则该时频窗口对应的目标词标注信息

的取值为0，否则，

的取值为1，即

本申请实施例中，阈值Γ的取值为40dB，当然也可以根据实际情况和需求设置其它取值。

受干扰目标词语音的正负样本的目标词标注信息的确定方式为：

针对受干扰目标词语音的正负样本，通过比较其频谱幅度与其中的目标说话人的干净目标词语音的频谱幅度，来计算目标词标注。本申请实施例中提供了一种可能的实施方式，若确定受干扰目标词语音样本中目标说话人的干净目标词语音的频谱幅度的占比大于预设比例阈值，则确定该受干扰目标词语音样本的目标词标注

的取值为1，否则确定该受干扰目标词语音样本的目标词标注

的取值为0。

例如，如果预设比例阈值为1/2，则若其中干净目标词语音的频谱幅度大于受干扰目标词语音样本的频谱幅度的1/2，则标注

等于“1”，其表示对应的时频信号属于目标说话人，否则，标注

等于“0”，其表示对应的时频信号属于干扰信号，即

同样地，可以计算得到训练阶段的受干扰命令语音样本的目标词标注信息

2)首先，针对图4中干净唤醒词语音样本，例如编号1对应的干净目标词语音样本的频谱

经深度神经网络映射为K维嵌入空间的嵌入向量(embedding)

其中，

例如，该深度神经网络由4层双向LSTM层构成，每层LSTM有600个结点，K＝40。各图中的虚线框表示各个LSTM网络共享同一套参数模型，可以设置相同的参数。

根据干净目标词语音样本的嵌入向量

和对应的目标词标注信息

计算干净目标词语音样本的锚提取特征，具体为：

然后，对干净目标词语音样本集中所有说话人的干净目标词语音样本的锚提取特征A ^cw求平均，获得干净目标词语音样本集的平均锚提取特征

3)首先，针对图4中编号2对应的受干扰目标词语音样本的频谱

经深度神经网络，例如SLTM网络，映射为K维嵌入空间的嵌入向量(embedding)

然后，将受干扰目标词语音样本的嵌入向量

与上述干净目标词语音样本集的平均锚提取特征

合并为2K维输入向量，经过前向网络1，预测其目标词标注信息

并根据标注

嵌入向量

平均锚提取特征

计算目标说话人即目标语音在原始嵌入空间的锚提取特征A ^nw，具体为：

其中，α为调节参数，可以通过训练动态进行调整，从而可以动态调整目标语音的锚提取特征，以提高其准确性。

4)首先，针对图4中受干扰目标词语音样本的频谱

或受干扰命令语音样本的频谱

以

为例进行说明，

经深度神经网络LSTM映射为K维嵌入空间的嵌入向量(embedding)

然后，将

与上述2)和3)计算获得的干净目标词语音样本的锚提取特征A ^cw或受干扰目标词语音样本中目标语音的锚提取特征A ^nw分别进行后续训练。

本申请实施例中，图4中干净目标词语音信号流1和受干扰目标词语音信号流2交替训练，得到不同训练过程的目标语音的锚提取特征，完成在原始嵌入空间，即第一层嵌入空间中目标语音的锚提取特征的计算。输出的目标语音的锚提取特征再分别用于规整嵌入空间，即第二层嵌入空间中目标语音的规整锚提取特征的计算和目标语音的掩码计算和提取，具体地包括步骤(1)～(3)：

步骤(1)，根据受干扰命令语音样本的嵌入向量

和目标语音的锚提取特征，计算对应的规整嵌入向量。

具体为：将嵌入向量和目标语音的锚提取特征进行合并，获得各合并后的2K维向量，并将各合并后的2K维向量输入到前向网络2中，基于前向网络2，将各合并后的2K维向量再次映射到固定维度的嵌入空间中，获得前向网络2输出的相应的K维向量，将输出的K维向量作为相应的嵌入向量的规整嵌入向量，即

其中，前向网络2为两层的前向网络，每层的结点数是256，输入是2K维向量，输出是K维的规整嵌入向量

为规整嵌入向量，f(□)表示通过深度神经网络学习到的非线性映射函数，其用于将原始嵌入空间映射到新的规整嵌入空间。

步骤(2)，根据规整嵌入向量

和受干扰命令语音样本中目标说话人标注信息，即目标词标注信息

重新估计目标语音的规整锚提取特征，具体为：

其中，

为目标语音的规整锚提取特征。

步骤(3)，根据目标语音的规整锚提取特征

和规整嵌入向量

计算得到目标语音的掩码(mask)，具体为：

其中，

为目标语音的掩码，

为规整嵌入向量与目标语音的规整锚提取特征的内积，表示各规整嵌入向量与目标语音的规整锚提取特征之间的距离，Sigmoid为S型函数，用于将计算出的内积值映射到[0,1]之间。

最后，根据目标语音的掩码，从受干扰目标词语音样本或受干扰命令语音样本中识别出目标语音，即获得的目标语音的掩码后的(masked)频谱为

5)本申请实施例中，上述4)中是在规整嵌入空间重新估计目标语音的规整锚提取特征，并计算目标语音的掩码，从而估计的锚提取特征的分布更加稳定集中。同时，本申请实施例中也可以在原始嵌入空间计算目标语音的掩码，并可以在一定程度上识别出某一特定目标语音，具体为：根据上述3)计算获得的目标语音的锚提取特征A ^nw和嵌入向量V _f,t，计算得到目标语音的掩码，即：

M _f,t＝Sigmoid(A ^nw×V _f,t)，其中，M _f,t为目标语音的掩码。

则获得的目标语音为X _f,t×M _f,t。

第二部分：目标词判断模块。

参阅图5所示，为本申请实施例中目标词判断模块的实现方案的结构框架图。本申请实施例中的目标词判断模块用于对重建获得的目标语音进行是否包括目标词的概率判断，该模块的输入为通过目标语音提取模块输出的掩码后的(masked)频谱特征

输出为是否是目标词的判断概率。

具体为：根据目标词长度设置目标词的观察窗长度T，窗移T’；根据T，分别对输入的

的各观察窗的频谱进行判断。

其中，T与目标词的长短有关，例如T取1.5s，T’取100ms。本申请实施例中，在训练时可以设置更短的T，以实现对目标语音频谱的逐帧判断。这样，可以通过长度较短的目标词语音，有效地跟踪并学习目标语音的特征，从而可以识别出受干扰语音中的目标语音，因此本申请实施例更适用于实际应用场景中目标词长度较短的情况。

如图5所示，可以将各观察窗的输入特征依次经过卷积网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、全连接网络、softmax层，最后输出是否为目标词的预测概率。具体网络参数可以根据实际应用场景中对计算和内存资源的限制进行权衡调整，本申请实施例中给出如下一种可能的示例，包括1)～4)：

1)一个CNN，其滤波器通道个数取值为32～256，卷积核大小在时间维度取值为5～40，在频谱维度取值为1～20，卷积步幅在时间维度取值为4～20，在频谱维度取值为1～10。

2)一个RNN，RNN的隐单元可以是LSTM单元或门控循环单元(Gated Recurrent Unit，GRU)，隐单元个数为8～128。

3)一个全连接网络，结点个数可以为32～128。

4)softmax层，其输出是否为目标词的预测概率。

本申请实施例中的目标词判断模块不必全部使用上述的各个网络，也可以只使用其中某个网络进行训练。相比于相关技术，本申请实施例中给出的目标词判断模块的结构和性能更好，从而可以提高预测的准确性。

这样，本申请实施例中，通过目标语音提取模块和目标词判断模块可以同时优化目标词语音识别和目标语音的特征学习，并可以有效地学习到目标词对应的目标语音的锚提取特征，从而在实际测试和使用时，可以将学习到的目标语音的锚提取特征作为预设锚提取特征，而不需要再重新估计锚提取特征，从而可以对获得的语音信号进行逐帧实时处理，并重建得到高质量的目标语音。

基于上述实施例的图3、图4和图5，本申请实施例中可以根据不同的训练样本集，分别交替进行训练，因此，训练过程具体地还可以分为几个不同的训练阶段。第一个训练阶段为：基于干净目标词语音的训练，第二个训练阶段为：基于受干扰目标词语音在原始嵌入空间的训练，第三个训练阶段为：基于受干扰目标词语音在规整嵌入空间的训练。下面分别进行介绍：

第一个训练阶段：参阅图6所示，为本申请实施例中基于干净目标词语音的训练方案的框架图，具体的各个参数的计算方法和上述图4对应的实施例相同。

输入为干净目标词语音样本、受干扰目标词语音的正负样本或受干扰命令语音样本；训练目标为同时优化目标语音重建任务和目标词判断任务，因此训练目标函数包括：最小化识别出的目标语音与干净目标语音之间的损失函数L ₁，以及最小化检测目标词判断结果的交叉熵损失函数L ₂，以降低目标词判断的错误率。

其中，损失函数L ₁为重建的目标语音与干净目标语音的频谱之间的误差：

目标词判断结果的交叉熵损失函数L ₂(Cross Entropy,CE)函数，其中，计算该交叉熵损失函数时需要的目标词判断结果，即“是/否目标词”的标注可以通过使用一个高斯混合模型(Gaussian Mixed Model，GMM)/隐马尔可夫模型(Hidden Markov Model，HMM)的自动语音识别(Automatic Speech Recognition，ASR)系统对干净目标唤醒语音进行帧级别的对齐得到。

训练获得目标语音的方法和上述图4对应的实施例的描述相同，这里简单介绍如下：

首先，获取干净目标词语音样本，以及受干扰目标词语音的正负样本或受干扰命令语音样本。

然后，分别确定干净目标词语音样本的每个时频窗口对应的嵌入向量

以及受干扰目标词语音的正负样本的每个时频窗口对应的嵌入向量

受干扰命令语音样本的每个时频窗口对应的嵌入向量

然后，根据干净目标词语音样本的目标词标注信息

和各嵌入向量

获得干净目标词语音样本的锚提取特征A ^cw。

进一步地，本申请实施例中还可以对干净目标词语音样本集中所有说话人的干净目标词语音样本的锚提取特征A ^cw求平均，获得干净目标词语音样本集的平均锚提取特征

然后，根据干净目标词语音样本的锚提取特征A ^cw和受干扰目标词语音样本的嵌入向量

或者根据干净目标词语音样本的锚提取特征A ^cw和受干扰命令语音样本的嵌入向量

获得受干扰目标词语音样本对应的规整嵌入向量，或受干扰命令语音样本对应的规整嵌入向量

然后，根据受干扰目标词语音样本的标注信息

或受干扰命令语音样本的标注信息

以及规整嵌入向量

获得目标语音的规整锚提取特征

然后，根据目标语音的规整锚提取特征

和规整嵌入向量

获得目标语音的掩码

然后，根据目标语音的掩码，从受干扰目标词语音样本或受干扰命令语音样本中识别出目标语音，即masked频谱

这样，即得到训练的第一个任务的结果，目标函数为最小化识别出的目标语音与干净目标语音之间的损失函数。

最后，将识别出的目标语音输入到目标词判断模块，判断是否有目标词，目标函数为目标词判断结果的交叉熵损失函数最小化。

第二个训练阶段：参阅图7所示，为本申请实施例中基于受干扰目标词语音在原始嵌入空间的训练方案的框架图，具体的各个参数的计算方法和上述图4对应的实施例相同。

输入为受干扰目标词语音的正负样本和/或受干扰命令语音样本；训练目标与上述第一个阶段基本相同，即包括：最小化识别出的目标语音与干净目标语音之间的损失函数L ₁，以及最小化检测目标词判断结果的交叉熵损失函数L ₂。

第二阶段主要是用于优化原始嵌入空间中相关的网络参数，因此重建出的目标语音为在原始嵌入空间中得到的，即获得的目标语音信号为

即第二阶段的

计算L ₂的目标词判断模块的输入即为

其中，第二阶段中的平均锚提取特征为对训练样本集中所有说话人在第一个阶段得到的干净目标词语音样本的锚提取特征求平均来计算得到的。

具体地：首先，获取受干扰目标词语音的正负样本和/或受干扰命令语音样本，并分别确定受干扰目标词语音的正负样本的每个时频窗口对应的嵌入向量，以及受干扰命令语音样本的每个时频窗口对应的嵌入向量。

然后，根据干净目标词语音样本集的平均锚提取特征和受干扰目标词语音样本的嵌入向量，确定受干扰目标词语音样本的各嵌入向量对应的目标词标注信息。

然后，根据受干扰目标词语音样本的各嵌入向量、平均锚提取特征和对应的目标词标注信息，获得目标语音的锚提取特征。

然后，根据目标语音的锚提取特征和受干扰目标词语音样本的各嵌入向量，或根据目标语音的锚提取特征和受干扰命令语音样本的各嵌入向量，获得目标语音的掩码。

然后，根据目标语音的掩码，从受干扰目标词语音样本或受干扰命令语音样本中识别出目标语音。

第三个训练阶段：参阅图8所示，为本申请实施例中基于受干扰目标词语音在规整嵌入空间的训练方案的框架图，具体的各个参数的计算方法和上述图4对应的实施例相同。

该第三阶段训练的输入为受干扰目标词语音的正负样本和/或受干扰命令语音样本；训练目标与上述第一个阶段相同，即包括：最小化识别出的目标语音与干净目标语音之间的损失函数L ₁，以及最小化检测目标词判断结果的交叉熵损失函数L ₂。

第三个训练阶段主要是用于优化规整嵌入空间相关的网络参数。其中，第三个训练阶段中的平均锚提取特征为对训练集中所有说话人在第一个阶段得到的干净目标词语音样本的锚提取特征求平均来计算得到的。

然后，根据目标语音的锚提取特征和受干扰目标词语音样本的各嵌入向量，或者根据目标语音的锚提取特征和受干扰命令语音样本的各嵌入向量，获得受干扰目标词语音样本对应的规整嵌入向量，或受干扰命令语音样本对应的规整嵌入向量。

然后，根据对应的目标词标注信息和各规整嵌入向量，获得目标语音的规整锚提取特征，并根据各规整嵌入向量和目标语音的规整锚提取特征，获得目标语音的掩码。

本申请实施例中上述三个阶段的训练可以依次、交替或迭代进行，各训练过程的实现示例中均可以采用自适应时刻估计方法(Adaptive Moment Estimation，ADAM)优化算法。

下面采用具体应用场景，对本申请实施例中的语音识别方法进行说明。上述三个阶段的训练完成后，需要对训练结果进行测试，具体地参阅图9所示，为本申请实施例中语音识别方法的测试方案的框架图。

测试过程和实际应用过程类似，即与上述图2对应的实施例类似。在测试过程中，受干扰语音，即输入的混合语音中，目标语音的标注是不可知的，包括

或

因此，本申请实施例中，采用训练集中所有说话人的干净目标词语音样本对应的锚提取特征的质心作为测试时的预设锚提取特征，即将第一个训练阶段训练得到的干净目标词语音样本集的平均锚提取特征

作为测试过程中的预设锚提取特征；并采用训练集中所有说话人的受干扰目标词语音样本的规整锚提取特征的质心作为测试时的预设规整锚提取特征，即将第三个训练阶段训练得到的受干扰目标词语音的正负样本集或受干扰命令语音样本集的目标语音的规整锚提取特征的平均值，作为测试过程中的预设规整锚提取特征。

具体为：首先，获取混合语音X _f,t，并通过LSTM获得该混合语音在原始空间对应的嵌入向量V _f,t。

然后，根据预设锚提取特征

和嵌入向量V _f,t，经过前向网络1，预测得到嵌入向量对应的目标词标注信息

并根据

和V _f,t，计算得到目标语音的锚提取特征A ^nw。

然后，根据嵌入向量V _f,t和目标语音的锚提取特征A ^nw，经前向网络2，计算得到嵌入向量对应的规整嵌入向量

然后，根据规整嵌入向量

和预设规整锚提取特征

计算得到目标语音的掩码(mask)

然后，根据目标语音的掩码

从输入的混合语音中识别出目标语音，即掩码后的(masked)频谱

即重建出目标说话人的目标语音。

最后，将

输入到目标词判断模块，进行目标词判断预测；若包括目标词，则设备进入目标词对应的状态，例如唤醒状态；若不包括目标词，则设备仍处于未唤醒状态，并根据判断结果动态调整计算出的目标语音的锚提取特征A ^nw，以提高设备在唤醒状态中对输入的混合语音中目标语音的识别和跟踪的准确性。

具体地，参阅图10所示，为本申请实施例中语音识别方法的测试流程的示意图，以目标词为唤醒词为例进行说明，该方法包括：

步骤1000：输入混合语音。

步骤1001：将输入的混合语音，经过目标语音提取模块，识别出目标语音。

步骤1002：将目标语音提取模块输出的目标语音，输入到目标词判断模块。

步骤1003：判断是否包括目标词，若是，则执行步骤1004，否则，则执行步骤1005。

步骤1004：调整预设调节参数，使计算出的目标语音的锚提取特征中的预设锚提取特征的权重减小。

这时，如果判断包括目标词，则说明设备已进入唤醒状态，则在后续目标语音提取模块中，可以根据目标词语音跟踪对应的目标语音，不断调整目标语音的锚提取特征，并根据调整后的新的目标语音的锚提取特征，识别出后续混合命令语音中的目标命令语音，从而提高目标语音识别的准确性。

步骤1005：调整预设调节参数，使计算出的目标语音的锚提取特征中的预设锚提取特征的权重增加。

这时，如果判断出不包括目标词，则可能设备还未处于唤醒状态，未检测到目标词语音，则目标语音的锚提取特征可能比初始的预设锚提取特征更加准确，因此在后续计算时，尽量使用该预设锚提取特征进行计算。

这样，本申请实施例中，测试时不需要重新估计锚提取特征，也不需要采用现有技术中的k-means聚类算法，因此，可以支持对输入的混合语音的逐帧实时处理，并且可以基于目标词，跟踪和识别对应的目标说话人的目标语音。

基于上述实施例，参阅图11所示，本申请实施例中的语音识别装置具体包括：

第一获得模块1100，用于从混合语音中识别出目标词语音，并基于所述目标词语音获得目标词语音的锚提取特征，将所述目标词语音的锚提取特征作为目标语音的锚提取特征；

第二获得模块1110，用于根据所述目标语音的锚提取特征，获得所述目标语音的掩码；

识别模块1120，用于根据所述目标语音的掩码，识别出所述目标语音。

本申请实施例中，第一获得模块1100具体用于：确定混合语音的每个时频窗口对应的嵌入向量；根据确定的各嵌入向量和预设锚提取特征，确定所述各嵌入向量分别对应的目标词标注信息；根据所述各嵌入向量、所述预设锚提取特征和所述对应的目标词标注信息，获得目标词语音的锚提取特征，将所述目标词语音的锚提取特征作为目标语音的锚提取特征。

本申请实施例中，所述第二获得模块1110具体用于：根据所述各嵌入向量和所述目标语音的锚提取特征，获得所述各嵌入向量对应的规整嵌入向量；根据各规整嵌入向量和预设规整锚提取特征，获得所述目标语音的掩码。

本申请实施例中，确定混合语音的每个时频窗口对应的嵌入向量时，第一获得模块1100具体用于：

对所述混合语音进行短时傅里叶变换，获得所述混合语音的频谱；

将所述混合语音的频谱映射到固定维度原始嵌入空间中，获得所述混合语音的每个时频窗口对应的嵌入向量。

可本申请实施例中，根据确定的各嵌入向量和预设锚提取特征，确定所述各嵌入向量分别对应的目标词标注信息时，第一获得模块1100具体用于：

分别将各嵌入向量和预设锚提取特征进行合并；

将各合并后的向量输入到预先训练的第一前向网络；

获得所述第一前向网络对各合并后的向量进行识别后输出的各嵌入向量对应的目标词标注信息，其中，不包括目标词语音的嵌入向量对应的目标词标注信息取值为0，包括目标词语音的嵌入向量对应的目标词标注信息取值为1。

本申请实施例中，根据所述各嵌入向量和所述目标语音的锚提取特征，获得所述各嵌入向量对应的规整嵌入向量时，所述第二获得模块1110具体用于：

分别将所述各嵌入向量和所述目标语音的锚提取特征进行合并，获得各合并后的2K维向量；其中，所述嵌入向量和所述目标语音的锚提取特征分别为K维向量；

将各合并后的2K维向量输入到预先训练的第二前向网络；

基于所述第二前向网络，将各合并后的2K维向量再次映射到固定维度的规整嵌入空间中，获得所述第二前向网络输出的相应的K维向量，并将输出的K维向量作为相应的嵌入向量的规整嵌入向量；其中，第二前向网络用于将原始嵌入空间映射到规整嵌入空间。

本申请实施例中，根据各规整嵌入向量和预设规整锚提取特征，获得所述目标语音的掩码时，第二获得模块1110具体用于：分别计算各规整嵌入向量和预设规整锚提取特征之间的距离，根据各距离的取值获得所述目标语音的掩码。

本申请实施例中，该语音识别装置进一步包括：

调整模块1130，用于将识别出的目标语音输入到预先训练的目标词判断模块，判断所述目标语音中是否包括目标词语音，若判断包括目标词语音，则调整预设调节参数，使计算出的目标语音的锚提取特征中所述预设锚提取特征的权重减小，若判断不包括目标词语音，则调整预设调节参数，使计算出的目标语音的锚提取特征中所述预设锚提取特征的权重增加；根据调整后的目标语音的锚提取特征，识别目标语音。

基于上述实施例，参阅图12所示，为本申请实施例中语音识别模型训练装置的结构示意图，其中，语音识别模型包括目标语音提取模块和目标词判断模块，该训练装置包括：

获取模块1200，用于获取语音样本集；其中，所述语音样本集为以下任意一种或组合：干净目标词语音样本集、受干扰目标词语音的正负样本集、受干扰命令语音样本集；

训练模块1210，用于训练目标语音提取模块，其中，所述目标语音提取模块的输入为所述语音样本集，输出为识别出的目标语音，所述目标语音提取模块的目标函数为识别出的目标语音与干净目标语音之间的损失函数最小化；并用于训练目标词判断模块，其中，所述目标词判断模块的输入为所述目标语音提取模块输出的目标语音，输出为目标词判断概率，所述目标词判断模块的目标函数为目标词判断结果的交叉熵损失函数最小化。

本申请实施例中，若所述语音样本集为：干净目标词语音样本集，以及受干扰目标词语音的正负样本集或受干扰命令语音样本集，其中，干净目标词语音样本集中至少包括干净目标词语音和对应的目标词标注信息，受干扰目标词语音的正负样本集中至少包括受干扰目标词语音和对应的目标词标注信息，受干扰命令语音样本集中至少包括受干扰命令语音和对应的目标词标注信息，则训练目标语音提取模块时，训练模块1210具体用于：

获取干净目标词语音样本，以及受干扰目标词语音的正负样本或受干扰命令语音样本，并分别确定所述干净目标词语音样本的每个时频窗口对应的嵌入向量、所述受干扰目标词语音的正负样本的每个时频窗口对应的嵌入向量，以及所述受干扰命令语音样本的每个时频窗口对应的嵌入向量；

根据所述干净目标词语音样本的目标词标注信息和各嵌入向量，获得所述干净目标词语音样本的锚提取特征，并根据所述干净目标词语音样本集中各干净目标词语音样本的锚提取特征，获得所述干净目标词语音样本集的平均锚提取特征；

根据所述干净目标词语音样本的锚提取特征和受干扰目标词语音样本的嵌入向量，或者根据所述干净目标词语音样本的锚提取特征和受干扰命令语音样本的嵌入向量，获得所述受干扰目标词语音样本对应的规整嵌入向量，或所述受干扰命令语音样本对应的规整嵌入向量；

根据对应的目标词标注信息和各规整嵌入向量，获得目标语音的规整锚提取特征，并根据各规整嵌入向量和所述目标语音的规整锚提取特征，获得目标语音的掩码；

根据所述目标语音的掩码，从所述受干扰目标词语音样本或所述受干扰命令语音样本中识别出所述目标语音。

本申请实施例中，若所述语音样本集为受干扰目标词语音的正负样本集和/或受干扰命令语音样本集，则训练目标语音提取模块时，训练模块1210具体用于：

获取受干扰目标词语音的正负样本和/或受干扰命令语音样本，并分别确定所述受干扰目标词语音的正负样本的每个时频窗口对应的嵌入向量，以及所述受干扰命令语音样本的每个时频窗口对应的嵌入向量；

根据所述干净目标词语音样本集的平均锚提取特征和受干扰目标词语音样本的嵌入向量，确定受干扰目标词语音样本的各嵌入向量对应的目标词标注信息；

根据所述受干扰目标词语音样本的各嵌入向量、所述平均锚提取特征和对应的目标词标注信息，获得目标语音的锚提取特征；

根据目标语音的锚提取特征和受干扰目标词语音样本的各嵌入向量，或根据目标语音的锚提取特征和受干扰命令语音样本的各嵌入向量，获得所述目标语音的掩码；

本申请实施例中，若所述语音样本集为受干扰目标词语音的正负样本集或受干扰命令语音样本集，则训练目标语音提取模块时，训练模块1210具体用于：

根据所述目标语音的锚提取特征和受干扰目标词语音样本的各嵌入向量，或者根据所述目标语音的锚提取特征和受干扰命令语音样本的各嵌入向量，获得所述受干扰目标词语音样本对应的规整嵌入向量，或所述受干扰命令语音样本对应的规整嵌入向量；

本申请实施例中，所述预设锚提取特征为通过预先训练获得的所述干净目标词语音样本集的平均锚提取特征；

所述预设规整锚提取特征为通过预先训练获得的受干扰目标词语音的正负样本集或受干扰命令语音样本集的目标语音的规整锚提取特征的平均值。

基于上述实施例，参阅图13所示，为本申请实施例中一种电子设备的结构示意图。

本申请实施例提供了一种电子设备，该电子设备可以包括处理器1310(Center Processing Unit，CPU)、存储器1320、输入设备1330和输出设备1340等，输入设备1330可以包括键盘、鼠标、触摸屏等，输出设备1340可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。该电子设备可以为终端(例如智能终端)或服务器等。

存储器1320可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器1310提供存储器1320中存储的计算机可读程序指令和数据。在本申请实施例中，存储器1320可以用于存储本申请实施例中语音识别方法的程序指令。

处理器1310可以调用存储器1320存储的计算机可读程序指令，并按照获得的程序指令执行本申请实施例中任一种语音识别方法以及任一种语音识别模型训练方法。

为便于说明，本申请中的实施例以包括触摸屏的便携式多功能装置1400作示例性说明。本领域技术人员可以理解的，本申请中的实施例同样适用于其他装置，例如手持设备、车载设备、可穿戴设备、计算设备，以及各种形式的用户设备(User Equipment，UE)，移动台(Mobile station，MS)，终端(terminal)，终端设备(Terminal Equipment)等等。

图14示出了根据一些实施例的包括触摸屏的便携式多功能装置1400的框图。所述装置1400可以包括输入单元1430、显示单元1440、重力加速度传感器1451、接近光传感器1452、环境光传感器1453、存储器1420、处理器1490、射频单元1410、音频电路1460、扬声器1461、麦克风1462、WiFi(wireless fidelity，无线保真)模块1470、蓝牙模块1480、电源1493、外部接口1497等部件。

本领域技术人员可以理解，图14仅仅是便携式多功能装置的举例，并不构成对便携式多功能装置的限定，该装置可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

所述输入单元1430可用于接收输入的数字或字符信息，以及产生与所述便携式多功能装置的用户设置以及功能控制有关的键信号输入。具体地，输入单元1430可包括触摸屏1431以及其他输入设备1432。所述触摸屏1431可收集用户在其上或附近的触摸操作(比如用户使用手指、关节、触笔等任何适合的物体在触摸屏上或在触摸屏附近的操作)，并根据预先设定的程序驱动相应的连接装置。触摸屏可以检测用户对触摸屏的触摸动作，将所述触摸动作转换为触摸信号发送给所述处理器1490，并能接收所述处理器1490发来的命令并加以执行；所述触摸信号至少包括触点坐标信息。所述触摸屏1431可以提供所述装置1400和用户之间的输入界面和输出界面。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触摸屏。除了触摸屏1431，输入单元1430还可以包括其他输入设备。具体地，其他输入设备1432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

所述显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及装置1400的各种菜单。进一步的，触摸屏1431可覆盖显示面板，当触摸屏1431检测到在其上或附近的触摸操作后，传送给处理器1490以确定触摸事件的类型，随后处理器1490根据触摸事件的类型在显示面板上提供相应的视觉输出。在本实施例中，触摸屏与显示单元可以集成为一个部件而实现装置1400的输入、输出、显示功能；为便于描述，本申请实施例以触摸屏代表触摸屏和显示单元的功能集合；在某些实施例中，触摸屏与显示单元也可以作为两个独立的部件。

所述重力加速度传感器1451可检测各个方向上(一般为三轴)加速度的大小，同时，所述重力加速度传感器1451还可用于检测终端静止时重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。

装置1400还可以包括一个或多个接近光传感器1452，用于当所述装置1400距用户较近时(例如当用户正在打电话时靠近耳朵)关闭并禁用触摸屏以避免用户对触摸屏的误操作；装置1400还可以包括一个或多个环境光传感器1453，用于当装置1400位于用户口袋里或其他黑暗区域时保持触摸屏关闭，以防止装置1400在锁定状态时消耗不必要的电池功耗或被误操作，在一些实施例中，接近光传感器和环境光传感器可以集成在一颗部件中，也可以作为两个独立的部件。至于装置1400还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。虽然图14示出了接近光传感器和环境光传感器，但是可以理解的是，其并不属于装置1400的必须构成，完全可以根据需要在不改变申请的本质的范围内而省略。

所述存储器1420可用于存储指令和数据，存储器1420可主要包括存储指令区和存储数据区，存储数据区可存储关节触摸手势与应用程序功能的关联关系；存储指令区可存储操作系统、至少一个功能所需的指令等；所述指令可使处理器1490执行本申请实施例中的语音识别方法。

处理器1490是装置1400的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1420内的指令以及调用存储在存储器1420内的数据，执行装置1400的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1490可包括一个或多个处理单元；优选的，处理器1490可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1490中。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，他们也可以在独立的芯片上分别实现。在本申请实施例中，处理器1490还用于调用存储器中的指令以实现本申请实施例中的语音识别方法。

所述射频单元1410可用于收发信息或通话过程中信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1490处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，射频单元1410还可以通过无线通信与网络设备和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

音频电路1460、扬声器1461、麦克风1462可提供用户与装置1400之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号，传输到扬声器1461，由扬声器1461转换为声音信号输出；另一方面，麦克风1462将收集的声音信号转换为电信号，由音频电路1460接收后转换为音频数据，再将音频数据输出处理器1490处理后，经射频单元1410以发送给比如另一终端，或者将音频数据输出至存储器1420以便进一步处理，音频电路也可以包括耳机插孔1463，用于提供音频电路和耳机之间的连接接口。

WiFi属于短距离无线传输技术，装置1400通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图14示出了WiFi模块1470，但是可以理解的是，其并不属于装置1400的必须构成，完全可以根据需要在不改变申请的本质的范围内而省略。

蓝牙是一种短距离无线通讯技术。利用蓝牙技术，能够有效地简化掌上电脑、笔记本电脑和手机等移动通信终端设备之间的通信，也能够成功地简化以上这些设备与因特网(Internet)之间的通信，装置1400通过蓝牙模块1480使装置1400与因特网之间的数据传输变得更加迅速高效，为无线通信拓宽道路。蓝牙技术是能够实现语音和数据无线传输的开放性方案。虽然图14示出了WiFi模块1470，但是可以理解的是，其并不属于装置1400的必须构成，完全可以根据需要在不改变申请的本质的范围内而省略。

装置1400还包括给各个部件供电的电源1493(比如电池)，优选的，电源可以通过电源管理系统1494与处理器1490逻辑相连，从而通过电源管理系统1494实现管理充电、放电、以及功耗管理等功能。

装置1400还包括外部接口1497，所述外部接口可以是标准的Micro USB接口，也可以使多针连接器，可以用于连接装置1400与其他装置进行通信，也可以用于连接充电器为装置1400充电。

尽管未示出，装置1400还可以包括摄像头、闪光灯等，在此不再赘述。

基于上述实施例，本申请实施例中，提供了一种计算机可读存储介质，其上存储有计算机可读程序指令，所述计算机可读程序指令被处理器执行时实现上述任意方法实施例中的语音识别方法以及语音识别模型训练方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的易失性或非易失性计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

一种语音识别方法，由电子设备执行，包括：

从混合语音中识别出目标词语音，并基于所述目标词语音获得目标词语音的锚提取特征，将所述目标词语音的锚提取特征作为目标语音的锚提取特征；

根据所述目标语音的锚提取特征，获得所述目标语音的掩码；

根据所述目标语音的掩码，识别出所述目标语音。
如权利要求1所述的方法，其中，所述从混合语音中识别出目标词语音，并基于所述目标词语音获得目标词语音的锚提取特征，将所述目标词语音的锚提取特征作为目标语音的锚提取特征，具体包括：

确定所述混合语音的每个时频窗口对应的嵌入向量；

根据确定的各嵌入向量和预设锚提取特征，确定所述各嵌入向量分别对应的目标词标注信息；

根据所述各嵌入向量、所述预设锚提取特征和所述对应的目标词标注信息，获得目标词语音的锚提取特征，将所述目标词语音的锚提取特征作为目标语音的锚提取特征。
如权利要求2所述的方法，其中，所述根据所述目标语音的锚提取特征，获得所述目标语音的掩码，具体包括：

根据所述各嵌入向量和所述目标语音的锚提取特征，获得所述各嵌入向量对应的规整嵌入向量；

根据各规整嵌入向量和预设规整锚提取特征，获得所述目标语音的掩码。
如权利要求2所述的方法，其中，所述确定所述混合语音的每个时频窗口对应的嵌入向量，具体包括：

对所述混合语音进行短时傅里叶变换，获得所述混合语音的频谱；

将所述混合语音的频谱映射到固定维度的原始嵌入空间中，获得所述混合语音的每个时频窗口对应的嵌入向量。
如权利要求2所述的方法，其中，所述根据确定的各嵌入向量和预设锚提取特征，确定所述各嵌入向量分别对应的目标词标注信息，具体包括：

分别将各嵌入向量和预设锚提取特征进行合并；

将各合并后的向量输入到预先训练的第一前向网络；

获得所述第一前向网络对各合并后的向量进行识别后输出的各嵌入向量对应的目标词标注信息，其中，不包括目标词语音的嵌入向量对应的目标词标注信息取值为0，包括目标词语音的嵌入向量对应的目标词标注信息取值为1。
如权利要求3所述的方法，其中，所述根据所述各嵌入向量和所述目标语音的锚提取特征，获得所述各嵌入向量对应的规整嵌入向量，具体包括：

分别将所述各嵌入向量和所述目标语音的锚提取特征进行合并，获得各合并后的2K维向量；其中，所述嵌入向量和所述目标语音的锚提取特征分别为K维向量；

将各合并后的2K维向量输入到预先训练的第二前向网络；

基于所述第二前向网络，将各合并后的2K维向量再次映射到固定维度的规整嵌入空间中，获得所述第二前向网络输出的相应的K维向量，并将输出的K维向量作为相应的嵌入向量的规整嵌入向量；其中，第二前向网络用于将原始嵌入空间映射到规整嵌入空间。
如权利要求3所述的方法，其中，所述根据各规整嵌入向量和预设规整锚提取特征，获得所述目标语音的掩码，具体包括：

分别计算各规整嵌入向量和预设规整锚提取特征之间的距离，根据各距离的取值获得所述目标语音的掩码。
如权利要求1所述的方法，其中，进一步包括：

将识别出的目标语音输入到预先训练的目标词判断模块，判断所述目标语音中是否包括目标词语音，若判断包括目标词语音，则调整预设调节参数，使计算出的目标语音的锚提取特征中所述预设锚提取特征的权重减小，若判断不包括目标词语音，则调整预设调节参数，使计算出的目标语音的锚提取特征中所述预设锚提取特征的权重增加；

根据调整后的目标语音的锚提取特征，识别目标语音。
一种语音识别模型训练方法，由电子设备执行，其中，所述语音识别模型包括目标语音提取模块和目标词判断模块，该方法包括：

获取语音样本集；其中，所述语音样本集为以下任意一种或组合：干净目标词语音样本集、受干扰目标词语音的正负样本集、受干扰命令语音样本集；

训练目标语音提取模块，其中，所述目标语音提取模块的输入为所述语音样本集，输出为识别出的目标语音，所述目标语音提取模块的目标函数为识别出的目标语音与干净目标语音之间的损失函数最小化；

训练目标词判断模块，其中，所述目标词判断模块的输入为所述目标语音提取模块输出的目标语音，输出为目标词判断概率，所述目标词判断模块的目标函数为目标词判断结果的交叉熵损失函数最小化。
一种语音识别装置，包括：

第一获得模块，用于从混合语音中识别出目标词语音，并基于所述目标词语音获得目标词语音的锚提取特征，将所述目标词语音的锚提取特征作为目标语音的锚提取特征；

第二获得模块，用于根据所述目标语音的锚提取特征，获得所述目标语音的掩码；

识别模块，用于根据所述目标语音的掩码，识别出所述目标语音。
如权利要求10所述的装置，其中，第一获得模块具体用于：

确定所述混合语音的每个时频窗口对应的嵌入向量；

根据确定的各嵌入向量和预设锚提取特征，确定所述各嵌入向量分别对应的目标词标注信息；

根据所述各嵌入向量、所述预设锚提取特征和所述对应的目标词标注信息，获得目标词语音的锚提取特征，将所述目标词语音的锚提取特征作为目标语音的锚提取特征。
如权利要求11所述的装置，其中，所述第二获得模块具体用于：

根据所述各嵌入向量和所述目标语音的锚提取特征，获得所述各嵌入向量对应的规整嵌入向量；

根据各规整嵌入向量和预设规整锚提取特征，获得所述目标语音的掩码。
如权利要求10所述的装置，其中，进一步包括：

调整模块，用于将识别出的目标语音输入到预先训练的目标词判断模块，判断所述目标语音中是否包括目标词语音，若判断包括目标词语音，则调整预设调节参数，使计算出的目标语音的锚提取特征中所述预设锚提取特征的权重减小，若判断不包括目标词语音，则调整预设调节参数，使计算出的目标语音的锚提取特征中所述预设锚提取特征的权重增加；根据调整后的目标语音的锚提取特征，识别目标语音。
一种语音识别模型训练装置，其中，所述语音识别模型包括目标语音提取模块和目标词判断模块，该装置包括：

获取模块，用于获取语音样本集；其中，所述语音样本集为以下任意一种或组合：干净目标词语音样本集、受干扰目标词语音的正负样本集、受干扰命令语音样本集；

训练模块，用于训练目标语音提取模块，其中，所述目标语音提取模块的输入为所述语音样本集，输出为识别出的目标语音，所述目标语音提取模块的目标函数为识别出的目标语音与干净目标语音之间的损失函数最小化；并训练目标词判断模块，其中，所述目标词判断模块的输入为所述目标语音提取模块输出的目标语音，输出为目标词判断概率，所述目标词判断模块的目标函数为目标词判断结果的交叉熵损失函数最小化。
一种电子设备，包括：

至少一个存储器，用于存储计算机可读程序指令；

至少一个处理器，用于调用所述存储器中存储的计算机可读程序指令，按照获得的计算机可读程序指令执行如权利要求1-8任一项所述的语音识别方法或者如权利要求9所述的语音识别模型训练方法。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机可读程序指令，所述计算机可读程序指令被处理器加载并执行如权利要求1-8任一项所述的语音识别方法或者如权利要求9所述的语音识别模型训练方法。