CN110288978A

CN110288978A - 一种语音识别模型训练方法及装置

Info

Publication number: CN110288978A
Application number: CN201910756949.7A
Authority: CN
Inventors: 王珺; 苏丹; 俞栋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2019-09-27
Anticipated expiration: 2038-10-25
Also published as: CN110428808A; CN110288979A; WO2020083110A1; US20210043190A1; CN110176226B; CN110176226A; CN110364144B; CN110288979B; EP3767619A4; CN110428808B; US11798531B2; EP3767619A1; CN110288978B; CN110364144A

Abstract

本发明涉及计算机技术领域，主要涉及人工智能中语音技术、自然语言处理技术、机器学习，尤其涉及一种语音识别模型训练方法及装置，该方法包括，获取语音样本集，所述语音样本集为以下任意一种或组合：干净目标词语音样本集、受干扰目标词语音的正负样本集、受干扰命令语音样本集，训练目标语音提取模块和训练目标词判断模块，可以通过同时优化识别目标词语音的准确性和目标语音的锚提取特征的准确性，从而可以根据目标词语音的特征，提高识别目标词语音特征对应的目标语音的准确性。

Description

一种语音识别模型训练方法及装置

本发明申请是申请日为2018年10月25日、申请号为201811251081.7发明名称为 “一种语音识别、及语音识别模型训练方法及装置”的发明申请的分案申请。

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音识别模型训练方法及装置。

背景技术

实际中，在智能语音交互场景中，尤其是远讲条件下，通常会出现不同说话人语音混叠的情况，目前针对混合语音中目标说话人的语音提取研究越来越受到重视。

现有技术中，语音识别方法主要为，采用深度吸引网络，为混合语音中每个说话人的语音生成一个吸引子，然后通过计算嵌入向量离这些吸引子的距离，来估计对应的时频窗口归属于相应说话人的掩码(mask)权重，从而根据掩码权重，将各个说话人的语音区分开。

但是，现有技术中的语音识别方法，需要预先知道或估计混合语音中说话人的数目，将不同说话人的语音区分开来，但不能跟踪和提取某一目标说话人的语音。

发明内容

本发明实施例提供一种语音识别模型训练方法及装置，以解决现有技术中语音识别准确性较低，并且不能跟踪和识别某一目标说话人的问题。

本发明实施例提供的具体技术方案如下：

本发明一个实施例提供了一种语音识别方法，包括：

从混合语音中识别出目标词语音，并基于所述目标词语音获得目标词语音的锚提取特征，将所述目标词语音的锚提取特征作为目标语音的锚提取特征；

根据所述目标语音的锚提取特征，获得所述目标语音的掩码；

根据所述目标语音的掩码，识别出所述目标语音。

本发明另一个实施例提供了一种语音识别模型训练方法，所述语音识别模型包括目标语音提取模块和目标词判断模块，该方法包括：

获取语音样本集；其中，所述语音样本集为以下任意一种或组合：干净目标词语音样本集、受干扰目标词语音的正负样本集、受干扰命令语音样本集；

训练目标语音提取模块，其中，所述目标语音提取模块输入为所述语音样本集，输出为识别出的目标语音，所述目标语音提取模块的目标函数为识别出的目标语音与干净目标语音之间的损失函数最小化；

并训练目标词判断模块，其中，所述目标词判断模块的输入为所述目标语音提取模块输出的目标语音，输出为目标词判断概率，所述目标词判断模块的目标函数为目标词判断结果的交叉熵损失函数最小化。

本发明另一个实施例提供了一种语音识别装置，包括：

第一获得模块，用于从混合语音中识别出目标词语音，并基于所述目标词语音获得目标词语音的锚提取特征，将所述目标词语音的锚提取特征作为目标语音的锚提取特征；

第二获得模块，用于根据所述目标语音的锚提取特征，获得所述目标语音的掩码；

识别模块，用于根据所述目标语音的掩码，识别出所述目标语音。

本发明另一个实施例提供了一种语音识别模型训练装置，所述语音识别模型包括目标语音提取模块和目标词判断模块，该装置包括：

获取模块，用于获取语音样本集；其中，所述语音样本集为以下任意一种或组合：干净目标词语音样本集、受干扰目标词语音的正负样本集、受干扰命令语音样本集；

训练模块，用于训练目标语音提取模块，其中，所述目标语音提取模块输入为所述语音样本集，输出为识别出的目标语音，所述目标语音提取模块的目标函数为识别出的目标语音与干净目标语音之间的损失函数最小化；并训练目标词判断模块，其中，所述目标词判断模块的输入为所述目标语音提取模块输出的目标语音，输出为目标词判断概率，所述目标词判断模块的目标函数为目标词判断结果的交叉熵损失函数最小化。

本发明另一个实施例提供了一种电子设备，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行上述任一种语音识别方法。

本发明另一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种语音识别方法的步骤。

本发明实施例中，从混合语音中识别出目标词语音，并基于所述目标词语音获得目标词语音的锚提取特征，将所述目标词语音的锚提取特征作为目标语音的锚提取特征；根据所述目标语音的锚提取特征，获得所述目标语音的掩码；根据所述目标语音的掩码，识别出所述目标语音，这样，根据混合语音中的目标词语音，来确定目标词语音对应的目标语音的锚提取特征，从而根据目标语音的锚提取特征，得到目标语音的掩码并识别出目标语音，可以根据目标词来识别和跟踪特定的目标语音，不需要预先知道或估计混合语音中说话人的数目，只需计算目标语音的锚提取特征即可，提高语音识别准确性，提升用户体验。

附图说明

图1为本发明实施例中一种语音识别方法流程图；

图2为本发明实施例中另一种语音识别方法流程图；

图3为本发明实施例中语音识别系统框架图；

图4为本发明实施例中目标语音提取模块的实现方案结构框架图；

图5为本发明实施例中目标词判断模块的实现方案结构框架图；

图6为本发明实施例中基于干净目标词语音的训练方案结构框架图；

图7为本发明实施例中基于受干扰目标词语音在原始嵌入空间的训练方案结构框架图；

图8为本发明实施例中基于受干扰目标词语音在规整嵌入空间的训练方案结构框架图；

图9为本发明实施例中语音识别方法测试方案结构框架图；

图10为本发明实施例中语音识别方法测试流程示意图；

图11为本发明实施例中语音识别装置结构示意图；

图12为本发明实施例中语音识别模型训练装置结构示意图；

图13为本发明实施例中一种电子设备的结构示意图；

图14为本发明实施例中终端结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面先对几个概念进行简单介绍：

唤醒词：表示唤醒人工智能(Artificial Intelligence，AI)设备的词语，使AI设备处于唤醒状态。

嵌入向量：本发明实施例中表示语音信号映射到某一维度嵌入空间中的固定长度的向量表示。

规整嵌入向量：本发明实施例中表示经过两次嵌入空间映射后的向量表示。

锚提取特征：为一种语音信号的语音特征表示。

掩码(mask)：信号掩码可以理解为一个"位图"，其中每一位都对应着一种信号，可以用于屏蔽相应的信号。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。例如，本申请实施例中，根据语音技术中语音识别技术，可以对混合语音或语音样本进行频域分析、特征提取和识别等。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。例如，本申请实施例中可以根据自然语音处理中机器人问答等技术，在人机交互场景中对输入的语音进行理解等。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。例如，本申请实施例中通过深度学习技术，可以训练深度神经网络、前向网络等，获得嵌入向量、规整嵌入向量等。

另本发明实施例中，使用上标“n(noisy)”表示受干扰语音，“c(clean wakeup-word)”表示干净语音；“nw(noisy wakeup-word)”表示受干扰目标词语音，“cw(cleanwakeup-word)”表示干净目标词语音；“nc(noisy command)”表示受干扰命令语音，“cc(clean command)”表示干净命令语音。输入频谱X_f,t是对数域的短时傅立叶变换，f表示频谱维度的序列号，t表示时间维度的帧序列号。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案主要涉及人工智能的语音技术、自然语音处理、机器学习等技术，具体通过如下实施例进行说明：

目前，现有技术中针对混合语音识别，需要预先知道或估计混合语音中说话人的数目，从而将不同说话人的语音区分开，但是现有技术中不能直接跟踪或提取某一特定目标说话人的语音，不能针对性地提取混合语音中目标说话人的语音。

并且，现有技术中针对每个说话人计算的吸引子，采用单层嵌入空间进行训练学习，得到的吸引子分布相对松散不稳定，降低了准确性，现有技术中还提供了一种后期(K均值)K-means聚类方法，可以使获得的吸引子分布相对集中，但是需要使用多帧语音信号聚类，因此不能支持逐帧实时处理，降低了效率。

实际中，通常在人机交互场景中，例如，智能音响、智能电视盒子的人机交互场景等，每次交互时都会由目标说话人的一个目标词接一个命令语音输入构成，因此，本发明主要在于结合目标词进行多任务训练，基于目标词确定目标语音特征，本发明实施例中认为说目标词的为目标说话人，该目标词语音特征即为目标语音特征，从而通过识别目标词来确定和跟踪目标语音，并提取在后续接收到的受干扰命令语音，即混合语音中的目标语音，不需要预知混合语音中说话人的数目，不仅能够有效识别和跟踪某一特定目标语音，而且本发明实施例中采用双层嵌入空间进行计算和提取，得到的目标语音特征即锚提取特征更加集中和稳定，从而使得对混合语音中目标语音的识别和提取准确性更高。

需要说明的是，本发明实施例中，本发明实例中语音识别方法可以由智能终端执行，也可以智能终端接收到混合语音后，发送给服务器，并由服务器进行语音识别，并将语音识别结果发送给智能终端，智能终端与服务器之间可以通过互联网相连，实现相互之间的通信，服务器可以认为是提供相应网络服务的后台服务器，对于这两种方式，本发明实施例中并不进行限制。

并且，本发明实施例中，主要是针对目标词语音的训练和对目标语音的学习，例如目标词语音为唤醒词语音，当然，也可以基于其它适应语音或关键词，进行训练和对目标语音学习和识别，本发明实例中并不进行限制，本发明实施例中主要是以唤醒词为例进行说明和介绍的。

参阅图1所示，为本发明实施例中，语音识别方法的流程图，该方法包括：

步骤100：从混合语音中识别出目标词语音，并基于目标词语音获得目标词语音的锚提取特征，将目标词语音的锚提取特征作为目标语音的锚提取特征。

执行步骤100时，具体包括：

首先，从混合语音中识别出目标词语音。

具体为，确定混合语音的每个时频窗口对应的嵌入向量；根据确定的各嵌入向量和预设锚提取特征，确定各嵌入向量分别对应的目标词标注信息。

然后，基于目标词语音获得目标词语音的锚提取特征，将目标词语音的锚提取特征作为目标语音的锚提取特征。

具体为，根据各嵌入向量、预设锚提取特征和对应的目标词标注信息，获得目标语音的锚提取特征。

步骤110：根据目标语音的锚提取特征，获得目标语音的掩码。

步骤120：根据目标语音的掩码，识别出目标语音。

这样，本发明实施例中，在混合语音中估计出目标词语音，学习目标词语音的语音特征，将目标词语音的语音特征作为目标语音的语音特征，即得到目标语音的锚提取特征，进而就可以根据目标语音的锚提取特征，计算目标语音掩码，并识别出目标语音。

具体地，参阅图2所示，为本发明实施例中，另一种语音识别方法的流程图，该方法包括：

步骤200：确定混合语音的每个时频窗口对应的嵌入向量。

执行步骤200时，具体包括：

首先，对混合语音进行短时傅里叶变换，获得混合语音的频谱。

其中，短时傅里叶变换主要原理是将信号加滑动时间窗，并对窗内信号做傅立叶变换，得到信号的时变频谱，可以使用现有技术中短时傅里叶变换进行计算，这里就不再详述了。

然后，基于预先训练的深度神经网络，将混合语音的频谱映射到固定维度原始嵌入空间中，获得混合语音的每个时频窗口对应的嵌入向量。

例如，经过短时傅里叶变换后的混合语音的频谱为X_f,t，经过深度神经网络映射为K维嵌入空间的嵌入向量V_f,t，例如K＝40，其中，f表示频谱维度的序列号，t表示时间维度的帧序列号。

其中，深度神经网络例如为长短期记忆网络(Long Short-Term Memory，LSTM)，本发明实施例中并不进行限制，例如深度神经网络由4层双向LSTM层构成，每层LSTM有600个节点，具体的参数设置可以根据实际情况进行设置和调整，当然，本发明实施例中并不具体限定深度神经网络的模型类型和拓扑结构，也可以为各种其它有效的新型的模型结构，例如，卷积网络(Convolutional Neural Network，CNN)和其它网络结构相结合的模型，或者其它网络结构，例如时延网络、闸控卷积神经网络等，可以根据实际应用对模型内存占用的限制和对检测准确率的要求，对深度神经网络的拓扑结构加以拓展或简化。

本发明实施例中，嵌入向量表示语音信号映射到某一维度空间中的固定长度的向量表示，嵌入向量V_f,t∈R^k。

步骤210：根据确定的各嵌入向量和预设锚提取特征，确定各嵌入向量分别对应的目标词标注信息，并根据各嵌入向量、预设锚提取特征和对应的目标词标注信息，获得目标语音的锚提取特征。

执行步骤210时，具体包括：

首先，根据确定的各嵌入向量和预设锚提取特征，确定各嵌入向量分别对应的目标词标注信息。

具体为：分别将各嵌入向量和预设锚提取特征进行合并；将各合并后的向量输入到预先训练的第一前向网络；获得第一前向网络对各合并后的向量进行识别后输出的各嵌入向量对应的目标词标注信息，其中，不包括目标词语音的嵌入向量对应的目标词标注信息取值为0，包括目标词语音的嵌入向量对应的目标词标注信息取值为1。

例如，各嵌入向量为V_f,t，预设锚提取特征为将V_f,t和合并为2K维向量，输入到第一前向网络中，预测对应的目标词标注信息，记为Y_f,t，从而可以获得各嵌入向量是否属于目标语音的标注信息。

这样，通过估计混合语音中的目标词标记信息，就可以从混合语音中识别出目标词语音。

其中，预设初始锚提取特征为预先训练获得的干净目标词语音样本集中各用户的干净目标词语音样本对应的锚提取特征的质心的平均值，即为预先训练获得的干净目标词语音样本集的平均锚提取特征，具体的预设锚提取特征的训练将在下文再进行具体介绍。

这样，本发明实施例中在使用该语音识别方法时，不需要重新估计锚提取特征，也不需要聚类，因此，可以支持逐帧实时处理，并且由于本发明实施例中训练获得的锚提取特征更加集中和稳定，因此在语音识别应用中使用的锚提取特征也就更加准确，从而使得后续的目标语音锚提取特征的计算更加准确，也就提高了目标语音识别和提取的准确性。

然后，根据各嵌入向量、预设锚提取特征和对应的目标词标注信息，获得目标语音的锚提取特征。

即根据各嵌入向量、预设锚提取特征和对应的目标词标注信息，获得目标词语音的锚提取特征，将目标词语音的锚提取特征作为目标语音的锚提取特征，这里为了方便描述，描述为直接获得目标语音的锚提取特征，其具体的计算方式是一样的，仅是为了便于介绍和叙述，在下文中的相关描述时，也描述为直接获得目标语音的锚提取特征。

本发明实施例中，根据各嵌入向量、预设锚提取特征和对应的目标词标注信息，计算得到的实际为目标词语音的锚提取特征，由于目标语音与目标词语音的语音特征相符合，本发明实施例中主要实现了通过目标词语音学习并跟踪目标语音，因此，将目标词语音的锚提取特征作为目标语音的锚提取特征。

例如，各嵌入向量为V_f,t，预设锚提取特征为目标词标注信息为Y_f,t，目标语音的锚提取特征为A^nw，则

其中，α为调节参数，α越大，则说明计算出的锚提取特征越偏向于估计的目标语音的锚提取特征，反之α越小，则说明锚提取特征越偏向于预设锚提取特征。

这样，本发明实施例中还可以通过调整α取值，更新该目标语音的锚提取特征，从而提高目标语音的锚提取特征准确性。

步骤220：根据各嵌入向量和目标语音的锚提取特征，获得各嵌入向量对应的规整嵌入向量，并根据各规整嵌入向量和预设规整锚提取特征，获得目标语音的掩码。

执行步骤220时，具体包括：

首先，根据各嵌入向量和目标语音的锚提取特征，获得各嵌入向量对应的规整嵌入向量。

具体为：1)分别将各嵌入向量和目标语音的锚提取特征进行合并，获得各合并后的2K维向量；其中，嵌入向量和目标语音的锚提取特征分别为K维向量。

2)将各合并后的2K维向量输入到预先训练的第二前向网络。

3)基于第二前向网络，将各合并后的2K维向量再次映射到固定维度规整嵌入空间中，获得第二前向网络输出相应的K维向量，并将输出的K维向量作为相应的嵌入向量的规整嵌入向量；其中，第二前向网络用于将原始嵌入空间映射到规整嵌入空间。

例如，各嵌入向量为V_f,t，目标语音的锚提取特征为A^nw，则获得的各规整嵌入向量为：

其中，f(·)表示通过深度神经网络学习到的非线性映射函数，其作用是将原始嵌入空间映射到新的规整的嵌入空间。

其中，第二前向网络的参数设置也可以根据实际情况进行设置，例如为2层的前向网络，每层的节点数是256，输入为2K维向量，输出为K维向量，当然，也可以根据实际应用对模型内存占用的限制和对检测准确率的要求，对前向网络的拓扑结构加以拓展或简化，本发明实施例中并不进行限制。

本发明实施例中，规整嵌入向量表示经过两次嵌入空间映射后的向量，并且第一次映射基于混合语音频谱，第二次映射基于第一次映射后的嵌入向量和计算出的目标语音的锚提取特征。

这样，本发明实施例中将混合语音经过两次嵌入空间映射，即基于双层嵌入空间，最终将混合语音映射到规整嵌入空间，从而可以实现在规整嵌入空间，根据目标语音的规整锚提取特征，对目标语音的掩码的计算，通过规整减少干扰影响，目标语音的规整锚提取特征分布更加集中和稳定，提高了识别出的目标语音的准确性。

然后，根据各规整嵌入向量和预设规整锚提取特征，获得目标语音的掩码。

其中，预设规整锚提取特征表示预先训练获得的干扰语音样本集中各用户的干扰语音样本对应的规整锚提取特征的质心的平均值，即预先训练获得受干扰目标词语音的正负样本集或受干扰命令语音样本集的目标语音的规整锚提取特征平均值，具体的预设规整锚提取特征的训练将在下文再进行具体介绍。

具体为：分别计算各规整嵌入向量和预设规整锚提取特征之间的距离，根据各距离取值获得目标语音的掩码。

进一步地，将各距离取值映射到[0,1]范围，并根据映射后的各距离取值构成目标语音的掩码。

例如，预设规整锚提取特征为各规整嵌入向量为则计算的目标语音的掩码(mask)为：

其中，Sigmoid为S型函数，用于将变量映射到0,1之间，即用于将本发明实施例中的各距离的取值映射到[0,1]范围内，这样是为了便于后续目标语音的提取。

步骤230：根据目标语音的掩码，识别出目标语音。

例如，混合语音的频谱为X_f,t，目标语音的掩码为则识别出的目标语音为：

由于目标语音的掩码是根据各规整嵌入向量与目标语音的规整锚提取特征的内积距离来计算得到的，内积取值越大，说明规整嵌入向量与目标语音的规整锚提取特征的距离越小，该时频窗口归属于目标语音的概率越大，则计算出的掩码对应该时频窗口的值越大，计算出对应的取值也越大，表示该时频窗口被提取的越多，从而最终计算出的目标语音也就越接近与实际的目标说话人的语音。

需要说明的是，识别目标语音时，可以是从当前输入的混合语音中识别，也可以在处于唤醒状态后，从后续接收到的混合命令语音中识别出目标语音，本发明实施例中语音识别方法都是可以适用的。

进一步地，本发明实施例中在识别出目标语音后，还可以动态调整目标语音的锚提取特征，例如，若目标词为唤醒词，识别出唤醒词语音并进行唤醒后，识别在唤醒状态中混合语音中的目标语音，从而提高在整个唤醒状态中，对目标语音识别的准确性，具体地提供了一种可能的实施方式，根据识别出的目标语音，输入到预先训练的目标词判断模块，判断目标语音中是否包括目标词语音，根据判断结果，调整目标语音的锚提取特征，并根据调整后的目标语音的锚提取特征，识别目标语音。

其中，根据判断结果，调整目标语音的锚提取特征，具体为：若判断包括目标词语音，则调整预设调节参数，使计算出的目标语音的锚提取特征中预设锚提取特征权重减小，若判断不包括目标词语音，则调整预设调节参数，使计算出的目标语音的锚提取特征中预设锚提取特征权重增加。

即调整上述目标语音的锚提取特征中的α的取值，在该目标语音的锚提取特征的计算方式中，若判断包括目标词，则说明估计的目标语音接近于实际的目标语音，调大α取值，使预设锚提取特征权重减小，估计出的目标语音的锚提取特征权重更大，若判断不包括目标词，则说明估计的目标语音不准确，调小α取值，使预设锚提取特征权重增加，估计出的目标语音的锚提取特征权重减小。

这是因为，由于目标语音的锚提取特征是基于估计出的目标词标注信息计算得到的，目标词语音的识别也是估计得到的，目标词语音识别，即目标词标注信息可能会出现误差，可能会降低目标语音的锚提取特征的准确性，因此，本发明实施例中，考虑到若识别正确，则在智能终端未处于唤醒状态时，识别出的目标语音必定会包括目标词语音，可能也会包括命令语音，例如，用户可能同时说出目标词和命令指示的场景，因此，对识别出的目标语音再进行目标词判断，判断是否识别出的目标语音是否包括目标词，还可以提高目标词识别的准确性，若确定包括，则可以确定之前的目标词标注信息是正确的，根据目标词标注信息得到的目标语音的特征也是准确的，因此，调大α取值，使预设锚提取特征权重减小，估计出的目标语音的锚提取特征权重更大，并且由于确定包括目标词，之后智能终端进入唤醒状态，就可以基于调整后的目标语音的锚提取特征，从之后的混合命令语音中识别出目标语音，提取出的目标语音更加准确。

这样，本发明实施例中还可以对最后重建出的目标语音进行目标词判断，根据判断结果来调整α取值，从而动态调整目标语音的锚提取特征，对唤醒状态中之后接收到的混合语音中目标语音进行识别时，可以基于调整后的目标语音的锚提取特征，可以提高目标语音识别的准确性。

并且值得说明的是，本发明实施例中，智能终端在唤醒时和处于唤醒状态后，可以基于调整后的目标语音的锚提取特征，来识别目标语音，到智能终端再次进入休眠状态，则会将调整后的目标语音的锚提取特征恢复为初始的预设锚提取特征，重新计算目标语音的锚提取特征，并可以再次进行调整该计算出的目标语音的锚提取特征。

本发明实施例中语音识别方法，可以应用于智能音箱、智能电视盒子、在线语音交互系统、智能语音助手、车载智能语音设备、同声传译等多个项目和产品应用中，应用于各远场人机语音交互场景，对目标词语音和目标语音的锚提取特征的优化和训练，从而在应用时，可以根据目标词语音来确定目标语音的锚提取特征，并识别出目标语音，不需要预先知道或估计混合语音中说话人的数目，并且，本发明实施例中，可以适用于目标词语音或其它关键词语音长度非常短的情况，也可以有效跟踪目标语音并学习其语音特征，适用范围更广，本发明实施例中，通过规整计算，可以消除干扰影响，经过规整后的锚提取特征具有相对更加稳定和集中的优势，从而在实际应用时，可以基于学习到的预设锚提取特征和预设规整锚提取特征，对混合语音进行逐帧实时处理，重建目标说话人的语音，可以重建得到高质量的目标说话人语音，提高了重建出的目标语音的信号失真比(SDR)和主观语音质量评估(PESQ)指标等的性能，显著地改善唤醒和自动语音识别系统的准确率，提升用户体验。

基于上述实施例，下面对本发明实施例中语音识别的训练过程进行具体说明：

需要说明的是，通常训练过程是在后台服务器执行，由于各个模块训练可能比较复杂，计算量较大，因此，由后台服务器实现训练过程，从而可以将训练好的模型和结果应用到各个智能终端，实现语音识别。

参阅图3所示，为本发明实施例中语音识别系统框架图。本发明实施例中语音识别训练主要分为2大任务，第一个任务为重建目标说话人的干净语音，即目标语音提取模块，主要为训练获得基于目标词的目标语音的锚提取特征，从混合语音中识别出目标语音；第二个任务为目标词判断，即目标词判断模块，主要为对重建出的目标语音，判断是否包括目标词语音，提高目标词标注信息的准确性。本发明实施例中，提供了一种语音识别模块训练方法，具体为：

首先，获取语音样本集；其中，语音样本集为以下任意一种或组合：干净目标词语音样本集、受干扰目标词语音的正负样本集、受干扰命令语音样本集。

然后，训练目标语音提取模块，其中，目标语音提取模块输入为语音样本集，输出为识别出的目标语音，目标语音提取模块的目标函数为识别出的目标语音与干净目标语音之间的损失函数最小化。

并同时训练目标词判断模块，其中，目标词判断模块的输入为目标语音提取模块输出的目标语音，输出为目标词判断概率，目标词判断模块的目标函数为目标词判断结果的交叉熵损失函数最小化。

本发明实施例中，主要通过对目标语音提取模块的训练和目标词判断模块的训练，可以同时优化识别目标词语音的准确性和目标语音的锚提取特征的准确性，从而可以根据目标词语音特征，来提高识别目标词语音特征对应的目标语音的准确性。

基于上述实施例中图3，可知本发明实施例中语音识别训练模型主要包括目标语音提取模块和目标词判断模块两部分，下面分别进行介绍。

第一部分：目标语音提取模块。

参阅图4所示，为本发明实施例中目标语音提取模块的实现方案结构框架图，本发明实施例中语音识别的训练过程和实际语音识别应用过程是类似的，目标语音提取模块的训练过程，可以使用不同的语音信号样本集进行交替训练，图4中包括了几种不同的信号样本集，分别为干净目标词语音样本集、受干扰目标词语音的正负样本集、受干扰命令语音样本集，并给出了一个整体的实现方案，具体为：

1)干净目标词语音样本集中至少包括干净目标词语音和对应的目标词标注信息，受干扰目标词语音的正负样本集中至少包括受干扰目标词语音和对应的目标词标注信息，受干扰命令语音样本集中至少包括受干扰命令语音和对应的目标词标注信息。

其中，干净目标词语音样本的目标词标注信息的确定方式为：

针对干净目标词语音样本，去除低能量频谱窗口噪声以得到更准确的标注具体地：将干净目标词语音样本的输入频谱与一定阈值Γ比较，若确定某一时频窗口的频谱幅度与输入频谱的最高幅度的差值小于该阈值，则该时频窗口对应的有监督的目标词标注信息取值为0，否则，取值为1，即

较佳的，Γ取值为40dB，当然也可以根据实际情况和需求设置其它取值。

受干扰目标词语音的正负样本的目标词标注信息的确定方式为：

针对受干扰目标词语音的正负样本，通过比较其频谱幅度与其中的目标说话人的干净目标词语音频谱幅度，来计算目标词标注，本发明实施例中提供了一种可能的实施方式，若确定受干扰目标词语音样本中目标说话人的干净目标词语音频谱幅度的占比大于预设比例阈值，则确定该受干扰目标词语音样本的目标词标注取值为1，否则确定该受干扰目标词语音样本的目标词标注取值为0。

例如，预设比例阈值为1/2，即若其中干净目标词语音频谱大于受干扰目标词语音样本频谱的1/2，则标注等于“1”，表示对应的时频信号属于目标说话人，否则，标注等于“0”，表示对应的时频信号属于干扰信号，即

同样地，可以计算得到训练阶段的受干扰命令语音样本的目标词标注信息

2)首先，针对图4中①对应的干净目标词语音样本的频谱经深度神经网络映射为K维嵌入空间的嵌入向量(embedding)其中，

例如，该深度神经网络由4层双向LSTM层构成，每层LSTM有600个结点，较佳的，K＝40。需要说明的是，各图中的虚线框表示各个LSTM网络共享同一套参数模型，可以设置相同的参数。

根据干净目标词语音样本的嵌入向量和对应的目标词标注信息计算干净目标词语音样本的锚提取特征，具体为：

然后，根据干净目标词语音样本集中所有说话人的干净目标词语音样本的锚提取特征A^cw求平均，获得干净目标词语音样本集的平均锚提取特征

3)首先，针对图4中②对应的受干扰目标词语音样本的频谱经深度神经网络，例如SLTM网络，映射为K维嵌入空间的嵌入向量(embedding)

然后，根据受干扰目标词语音样本的嵌入向量与上述干净目标词语音样本集的平均锚提取特征合并为2K维输入向量，经过前向网络1，预测其目标词标注信息并根据标注嵌入向量平均锚提取特征计算目标说话人即目标语音在原始嵌入空间的锚提取特征A^nw，具体为：

其中，α为调节参数，可以通过训练动态进行调整，从而可以动态调整目标语音的锚提取特征，提高其准确性。

4)首先，针对图4中受干扰目标词语音样本频谱或受干扰命令语音样本频谱以为例进行说明，经深度神经网络LSTM映射为K维嵌入空间的嵌入向量(embedding)

然后，将与上述2)和3)计算获得的干净目标词语音样本的锚提取特征A^cw或受干扰目标词语音样本中目标语音的锚提取特征A^nw分别进行后续训练。

本发明实施例中，图4中干净目标词语音信号流①和受干扰目标词语音信号流②交替训练，得到不同训练过程的目标语音的锚提取特征，完成在原始嵌入空间，即第一层嵌入空间中目标语音的锚提取特征的计算，输出的目标语音的锚提取特征再分别用于规整嵌入空间，即第二层嵌入空间中目标语音的规整锚提取特征的计算和目标语音的掩码计算和提取，具体地：

(1)根据受干扰命令语音样本的嵌入向量和目标语音的锚提取特征，计算对应的规整嵌入向量。

具体为：将嵌入向量和目标语音的锚提取特征进行合并，获得各合并后的2K维向量，并将各合并后的2K维向量输入到前向网络2中，基于前向网络2，将各合并后的向量再次映射到固定维度嵌入空间中，获得前向网络2输出的相应的K维向量，将输出的K维向量作为相应的嵌入向量的规整嵌入向量，即

其中，前向网络2为两层的前向网络，每层的结点数是256，输入是2K维，输出是K维的规整嵌入向量为规整嵌入向量，f(·)表示通过深度神经网络学习到的非线性映射函数，其用于将原始嵌入空间映射到新的规整嵌入空间。

(2)根据规整嵌入向量和受干扰命令语音样本中目标说话人标注信息，即目标词标注信息重新估计目标语音的规整锚提取特征，具体为：

其中，为目标语音的规整锚提取特征。

(3)根据目标语音的规整锚提取特征和规整嵌入向量计算得到目标语音的掩码(mask)，具体为：

其中，为目标语音的掩码，为规整嵌入向量与目标语音的规整锚提取特征的内积，表示各规整嵌入向量与目标语音的规整锚提取特征之间的距离，Sigmoid为S型函数，用于将计算出的内积值映射到0,1之间。

最后，根据目标语音的掩码，从受干扰目标词语音样本或受干扰命令语音样本中识别出目标语音，即获得的目标语音的掩码后的masked频谱为

5)本发明实施例中，上述4)中是在规整嵌入空间重新估计目标语音的规整锚提取特征，并计算目标语音的掩码，估计的锚提取特征分布更加稳定集中，同时，本发明实施例中也可以在原始嵌入空间来计算目标语音的掩码，也可以在一定程度上识别出某一特定目标语音，具体为：根据上述3)计算获得的目标语音的锚提取特征A^nw和嵌入向量V_f,t，计算得到目标语音的掩码，即：

M_f,t＝Sigmoid(A^nw×V_f,t)

其中，M_f,t为目标语音的掩码。

则获得的目标语音为X_f,t×M_f,t。

第二部分：目标词判断模块。

参阅图5所示，为本发明实施例中目标词判断模块的实现方案结构框架图，本发明实施例中目标词判断模块主要是用于对重建获得的目标语音进行是否包括目标词的概率判断，该模块输入为通过目标语音提取模块输出得到的masked频谱特征输出为是否是目标词的判断概率。

具体为：根据目标词长度，设置目标词的观察窗长T，窗移T’，根据T，分别对输入的的各观察窗的频谱进行判断。

其中，T与目标词的长短有关，例如T取1.5s，T’取100ms，本发明实施例中在训练时可以设置更短的T，实现对目标语音频谱的逐帧判断，这样可以通过长度较短的目标词语音，有效跟踪并学习目标语音的特征，从而可以识别出受干扰语音中的目标语音，更适用于实际应用场景中目标词长度较短的情况。

如图5所示，可以将各观察窗的输入特征依次经过卷积网络(ConvolutionalNeural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、全连接网络、softmax层，最后输出是否为目标词的预测概率，其具体网络参数可以根据实际应用场景中对计算和内存资源的限制进行权衡调整，本发明实施例中仅给出一种可能的示例：

1)一个CNN，其滤波器通道个数取值32～256，卷积核大小在时间维度取值5～40，在频谱维度取值1～20，卷积步幅在时间维度取值4～20，在频谱维度取值1～10。

2)一个RNN，RNN的隐单元可以是LSTM单元或门控循环单元(Gated RecurrentUnit，GRU)，隐单元个数取8～128。

3)一个全连接网络，结点个数可以取32～128。

4)softmax层，其输出是否为目标词的预测概率。

需要说明的是，本发明实施例中目标词判断模块中经由的各个网络也并不是全部必须的，可以只使用其中某个网络进行训练，本发明实施例中给出的目标词判断模块的结构，性能更好，可以提高预测的准确性，并且对于其中具体的计算和训练，可以采用现有技术中各个网络的训练方法，本发明实施例中就不再进行详述了。

这样，本发明实施例中通过目标语音提取模块和目标词判断模块，同时优化目标词语音识别和目标语音的特征学习，可以有效学习到目标词对应的目标语音的锚提取特征，从而在实际测试和使用时，可以将学习到的目标语音的锚提取特征作为预设锚提取特征，不需要再重新估计锚提取特征，从而可以对获得的语音信号进行逐帧实时处理，并重建得到高质量的目标语音。

基于上述实施例的图3、图4和图5可知，本发明实施例中可以根据不同的训练样本集，分别交替进行训练，因此，具体地还可以分为几个不同的训练阶段，第一个训练阶段为：基于干净目标词语音的训练，第二个训练阶段为：基于受干扰目标词语音在原始嵌入空间的训练，第三个训练阶段为：基于受干扰目标词语音在规整嵌入空间的训练。下面分别进行介绍：

第一个训练阶段：参阅图6所示，为本发明实施例中基于干净目标词语音的训练方案框架图，具体的各个参数的计算方法和上述图4对应的实施例相同。

输入为干净目标词语音样本、受干扰目标词语音的正负样本或受干扰命令语音样本；训练目标为同时优化目标语音重建任务和目标词判断任务，因此训练目标函数包括最小化识别出的目标语音与干净目标语音之间的损失函数L₁，以及最小化检测目标词判断结果的交叉熵损失函数L₂，降低目标词判断的错误率。

其中，损失函数L₁为重建的目标语音与干净目标语音频谱之间的误差：

目标词判断结果的交叉熵损失函数L₂(Cross Entropy,CE)函数，其中，计算该交叉熵损失函数时需要的目标词判断结果，即“是/否目标词”的标注可以通过使用一个高斯混合模型(Gaussian Mixed Model，GMM)/隐马尔可夫模型(Hidden Markov Model，HMM)自动语音识别(Automatic Speech Recognition，ASR)系统对干净目标唤醒语音进行帧级别的对齐得到。

具体地训练获得目标语音和上述图4对应的实施例描述相同，这里仅简单介绍下：

首先，获取干净目标词语音样本，以及受干扰目标词语音的正负样本或受干扰命令语音样本。

然后，分别确定干净目标词语音样本的每个时频窗口对应的嵌入向量以及受干扰目标词语音的正负样本的每个时频窗口对应的嵌入向量受干扰命令语音样本的每个时频窗口对应的嵌入向量

然后，根据干净目标词语音样本的目标词标注信息和各嵌入向量获得干净目标词语音样本的锚提取特征A^cw。

进一步地，本发明实施例中还可以根据干净目标词语音样本集中所有说话人的干净目标词语音样本的锚提取特征A^cw求平均，获得干净目标词语音样本集的平均锚提取特征

然后，根据干净目标词语音样本的锚提取特征A^cw和受干扰目标词语音样本的嵌入向或者根据干净目标词语音样本的锚提取特征A^cw和受干扰命令语音样本的嵌入向量获得受干扰目标词语音样本对应的规整嵌入向量，或受干扰命令语音样本对应的规整嵌入向量

然后，根据受干扰目标词语音样本的标注信息或受干扰命令语音样本的标注信息以及规整嵌入向量获得目标语音的规整锚提取特征

然后，根据目标语音的规整锚提取特征和规整嵌入向量获得目标语音的掩码

然后，根据目标语音的掩码，从受干扰目标词语音样本或受干扰命令语音样本中识别出目标语音，即masked频谱

即得到训练的第一个任务的结果，目标函数为最小化识别出的目标语音与干净目标语音之间的损失函数。

最后，将识别出的目标语音，输入到目标词判断模块，判断是否有目标词，目标函数为目标词判断结果的交叉熵损失函数最小化。

第二个训练阶段：参阅图7所示，为本发明实施例中基于受干扰目标词语音在原始嵌入空间的训练方案框架图，具体的各个参数的计算方法和上述图4对应的实施例相同。

输入为受干扰目标词语音的正负样本和/或受干扰命令语音样本；训练目标与上述第一个阶段基本相同，即包括最小化识别出的目标语音与干净目标语音之间的损失函数L₁，以及最小化检测目标词判断结果的交叉熵损失函数L₂。

需要说明的是，第二阶段主要是用于优化原始嵌入空间中相关的网络参数，因此重建出的目标语音为在原始嵌入空间中得到的，即获得的目标语音信号为即第二阶段的计算L₂的目标词判断模块的输入即为

其中，第二阶段中的平均锚提取特征为由训练样本集所有说话人在第一个阶段得到的干净目标词语音样本的锚提取特征求平均计算得到的。

具体地：首先，获取受干扰目标词语音的正负样本和/或受干扰命令语音样本，并分别确定受干扰目标词语音的正负样本的每个时频窗口对应的嵌入向量，以及受干扰命令语音样本的每个时频窗口对应的嵌入向量。

然后，根据干净目标词语音样本集的平均锚提取特征和受干扰目标词语音样本的嵌入向量，确定受干扰目标词语音样本的各嵌入向量对应的目标词标注信息。

然后，根据受干扰目标词语音样本的各嵌入向量、平均锚提取特征和对应的目标词标注信息，获得目标语音的锚提取特征。

然后，根据目标语音的锚提取特征和受干扰目标词语音样本的各嵌入向量，或根据目标语音的锚提取特征和受干扰命令语音样本的各嵌入向量，获得目标语音的掩码。

然后，根据目标语音的掩码，从受干扰目标词语音样本或受干扰命令语音样本中识别出目标语音。

第三个训练阶段：参阅图8所示，为本发明实施例中基于受干扰目标词语音在规整嵌入空间的训练方案框架图，具体的各个参数的计算方法和上述图4对应的实施例相同。

该第三阶段训练的输入为受干扰目标词语音的正负样本和/或受干扰命令语音样本；训练目标与上述第一个阶段相同，即包括最小化识别出的目标语音与干净目标语音之间的损失函数L₁，以及最小化检测目标词判断结果的交叉熵损失函数L₂。

需要说明的是，第三个训练阶段主要是用于优化规整嵌入空间相关的网络参数。其中，第三个训练阶段中的平均锚提取特征为由训练集所有说话人在第一个阶段得到的干净目标词语音样本的锚提取特征求平均计算得到的。

然后，根据目标语音的锚提取特征和受干扰目标词语音样本的各嵌入向量，或者根据目标语音的锚提取特征和受干扰命令语音样本的各嵌入向量，获得受干扰目标词语音样本对应的规整嵌入向量，或受干扰命令语音样本对应的规整嵌入向量。

然后，根据对应的目标词标注信息和各规整嵌入向量，获得目标语音的规整锚提取特征，并根据各规整嵌入向量和目标语音的规整锚提取特征，获得目标语音的掩码。

本发明实施例中上述三个阶段的训练可以依次交替迭代训练，各训练过程的实现示例中均可以采用自适应时刻估计方法(Adaptive Moment Estimation，ADAM)优化算法。

下面采用具体应用场景，对本发明实施例中语音识别方法进行说明，上述三个阶段训练完成后，需要对训练结果进行测试，具体地参阅图9所示，为本发明实施例中语音识别方法测试方案框架图。

测试过程和实际应用过程类似，即与上述图2对应的实施例类似，在测试过程中，受干扰语音即输入的混合语音中目标语音的标注是不可知的，包括或因此，本发明实施例中，采用训练集中所有说话人的干净目标词语音样本对应的锚提取特征的质心作为测试时预设锚提取特征，即将第一个训练阶段训练得到的干净目标词语音样本集中平均锚提取特征作为测试过程中预设锚提取特征；并采用训练集中所有说话人的受干扰目标词语音样本的规整锚提取特征的质心作为测试时预设规整锚提取特征，即将第三个训练阶段训练得到的受干扰目标词语音的正负样本集或受干扰命令语音样本集的目标语音的规整锚提取特征平均，作为测试过程中预设规整锚提取特征。

具体为：首先，获取混合语音X_f,t，并通过LSTM获得该混合语音在原始空间对应的嵌入向量V_f,t。

然后，根据预设锚提取特征和嵌入向量V_f,t，经过前向网络1，预测得到嵌入向量对应的目标词标注信息并根据和V_f,t，计算得到目标语音的锚提取特征A^nw。

然后，根据嵌入向量V_f,t和目标语音的锚提取特征A^nw，经前向网络2，计算得到嵌入向量对应的规整嵌入向量

然后，根据规整嵌入向量和预设规整锚提取特征计算得到目标语音的mask

然后，根据目标语音的掩码从输入的混合语音中识别出目标语音，即maskde频谱即重建出目标说话人的目标语音。

最后，将输入到目标词判断模块，进行目标词判断预测，若包括目标词，进入目标词对应状态，例如唤醒状态，若不包括目标词，则仍处于未唤醒状态，并根据判断结果动态调整计算出的目标语音的锚提取特征A^nw，以提高在唤醒状态中对输入混合语音中目标语音的识别和跟踪的准确性。

具体地，参阅图10所示，为本发明实施例中语音识别方法测试流程示意图，以目标词为唤醒词为例进行说明，该方法包括：

步骤1000：输入混合语音。

步骤1001：将输入的混合语音，经过目标语音提取模块，识别出目标语音。

步骤1002：将目标语音提取模块输出的目标语音，输入到目标词判断模块。

步骤1003：判断是否包括目标词，若是，则执行步骤1004，否则，则执行步骤1005。

步骤1004：调整预设调节参数，使计算出的目标语音的锚提取特征中预设锚提取特征权重减小。

这时，判断包括目标词，说明已进入唤醒状态，则在后续目标语音提取模块中，可以根据目标词语音跟踪对应的目标语音，不断调整目标语音的锚提取特征，并根据调整后的新的目标语音的锚提取特征，识别出后续混合命令语音中的目标命令语音，提高目标语音识别的准确性。

步骤1005：调整预设调节参数，使计算出的目标语音的锚提取特征中预设锚提取特征权重增加。

这时，判断出不包括目标词，则可能还未处于唤醒状态，未检测到目标词语音，则目标语音的锚提取特征可能一开始的预设锚提取特征更加准确，因此在后续计算时，尽量使用接近该预设锚提取特征进行计算。

这样，本发明实施例中，测试时不需要重新估计锚提取特征，也不需要采用现有技术中的k-means聚类算法，因此，可以支持对输入混合语音的逐帧实时处理，并且可以基于目标词，跟踪和识别对应的目标说话人的目标语音。

基于上述实施例，参阅图11所示，本发明实施例中，语音识别装置具体包括：

第一获得模块1100，用于从混合语音中识别出目标词语音，并基于所述目标词语音获得目标词语音的锚提取特征，将所述目标词语音的锚提取特征作为目标语音的锚提取特征；

第二获得模块1110，用于根据所述目标语音的锚提取特征，获得所述目标语音的掩码；

识别模块1120，用于根据所述目标语音的掩码，识别出所述目标语音。

可选的，第一获得模块1100具体用于：确定混合语音的每个时频窗口对应的嵌入向量；根据确定的各嵌入向量和预设锚提取特征，确定所述各嵌入向量分别对应的目标词标注信息；根据所述各嵌入向量、所述预设锚提取特征和所述对应的目标词标注信息，获得目标词语音的锚提取特征，将所述目标词语音的锚提取特征作为目标语音的锚提取特征；

可选的，所述第二获得模块1110具体用于：根据所述各嵌入向量和所述目标语音的锚提取特征，获得所述各嵌入向量对应的规整嵌入向量；根据各规整嵌入向量和预设规整锚提取特征，获得所述目标语音的掩码。

可选的，确定混合语音的每个时频窗口对应的嵌入向量时，第一获得模块1100具体用于：

对所述混合语音进行短时傅里叶变换，获得所述混合语音的频谱；

将所述混合语音的频谱映射到固定维度原始嵌入空间中，获得所述混合语音的每个时频窗口对应的嵌入向量。

可选的，根据确定的各嵌入向量和预设锚提取特征，确定所述各嵌入向量分别对应的目标词标注信息时，第一获得模块1100具体用于：

分别将各嵌入向量和预设锚提取特征进行合并；

将各合并后的向量输入到预先训练的第一前向网络；

获得所述第一前向网络对各合并后的向量进行识别后输出的各嵌入向量对应的目标词标注信息，其中，不包括目标词语音的嵌入向量对应的目标词标注信息取值为0，包括目标词语音的嵌入向量对应的目标词标注信息取值为1。

可选的，根据所述各嵌入向量和所述目标语音的锚提取特征，获得所述各嵌入向量对应的规整嵌入向量时，所述第二获得模块1110具体用于：

分别将所述各嵌入向量和所述目标语音的锚提取特征进行合并，获得各合并后的2K维向量；其中，所述嵌入向量和所述目标语音的锚提取特征分别为K维向量；

将各合并后的2K维向量输入到预先训练的第二前向网络；

基于所述第二前向网络，将各合并后的2K维向量再次映射到固定维度规整嵌入空间中，获得所述第二前向网络输出的相应的K维向量，并将输出的K维向量作为相应的嵌入向量的规整嵌入向量；其中，第二前向网络用于将原始嵌入空间映射到规整嵌入空间。

可选的，根据各规整嵌入向量和预设规整锚提取特征，获得所述目标语音的掩码时，第二获得模块1110具体用于：分别计算各规整嵌入向量和预设规整锚提取特征之间的距离，根据各距离取值获得所述目标语音的掩码。

可选的，进一步包括：

调整模块1130，用于根据识别出的目标语音，输入到预先训练的目标词判断模块，判断所述目标语音中是否包括目标词语音，若判断包括目标词语音，则调整预设调节参数，使计算出的目标语音的锚提取特征中所述预设锚提取特征权重减小，若判断不包括目标词语音，则调整预设调节参数，使计算出的目标语音的锚提取特征中所述预设锚提取特征权重增加；根据调整后的目标语音的锚提取特征，识别目标语音。

基于上述实施例，参阅图12所示，为本发明实施例中语音识别模型训练装置结构示意图，其中，语音识别模型包括目标语音提取模块和目标词判断模块，该装置包括：

获取模块1200，用于获取语音样本集；其中，所述语音样本集为以下任意一种或组合：干净目标词语音样本集、受干扰目标词语音的正负样本集、受干扰命令语音样本集；

训练模块1210，用于训练目标语音提取模块，其中，所述目标语音提取模块输入为所述语音样本集，输出为识别出的目标语音，所述目标语音提取模块的目标函数为识别出的目标语音与干净目标语音之间的损失函数最小化；并训练目标词判断模块，其中，所述目标词判断模块的输入为所述目标语音提取模块输出的目标语音，输出为目标词判断概率，所述目标词判断模块的目标函数为目标词判断结果的交叉熵损失函数最小化。

可选的，若所述语音样本集为：干净目标词语音样本集，以及受干扰目标词语音的正负样本集或受干扰命令语音样本集，其中，干净目标词语音样本集中至少包括干净目标词语音和对应的目标词标注信息，受干扰目标词语音的正负样本集中至少包括受干扰目标词语音和对应的目标词标注信息，受干扰命令语音样本集中至少包括受干扰命令语音和对应的目标词标注信息；

则训练目标语音提取模块时，训练模块1210具体用于：

获取干净目标词语音样本，以及受干扰目标词语音的正负样本或受干扰命令语音样本，并分别确定所述干净目标词语音样本的每个时频窗口对应的嵌入向量、所述受干扰目标词语音的正负样本的每个时频窗口对应的嵌入向量，以及所述受干扰命令语音样本的每个时频窗口对应的嵌入向量；

根据所述干净目标词语音样本的目标词标注信息和各嵌入向量，获得所述干净目标词语音样本的锚提取特征，并根据所述干净目标词语音样本集中各干净目标词语音样本的锚提取特征，获得所述干净目标词语音样本集的平均锚提取特征；

根据所述干净目标词语音样本的锚提取特征和受干扰目标词语音样本的嵌入向量，或者根据所述干净目标词语音样本的锚提取特征和受干扰命令语音样本的嵌入向量，获得所述受干扰目标词语音样本对应的规整嵌入向量，或所述受干扰命令语音样本对应的规整嵌入向量；

根据对应的目标词标注信息和各规整嵌入向量，获得目标语音的规整锚提取特征，并根据各规整嵌入向量和所述目标语音的规整锚提取特征，获得目标语音的掩码；

根据所述目标语音的掩码，从所述受干扰目标词语音样本或所述受干扰命令语音样本中识别出所述目标语音。

可选的，若所述语音样本集为受干扰目标词语音的正负样本集和/或受干扰命令语音样本集；

则训练目标语音提取模块时，训练模块1210具体用于：

获取受干扰目标词语音的正负样本和/或受干扰命令语音样本，并分别确定所述受干扰目标词语音的正负样本的每个时频窗口对应的嵌入向量，以及所述受干扰命令语音样本的每个时频窗口对应的嵌入向量；

根据所述干净目标词语音样本集的平均锚提取特征和受干扰目标词语音样本的嵌入向量，确定受干扰目标词语音样本的各嵌入向量对应的目标词标注信息；

根据所述受干扰目标词语音样本的各嵌入向量、所述平均锚提取特征和对应的目标词标注信息，获得目标语音的锚提取特征；

根据目标语音的锚提取特征和受干扰目标词语音样本的各嵌入向量，或根据目标语音的锚提取特征和受干扰命令语音样本的各嵌入向量，获得所述目标语音的掩码；

可选的，若所述语音样本集为受干扰目标词语音的正负样本集或受干扰命令语音样本集；

则训练目标语音提取模块时，训练模块1210具体用于：

根据所述目标语音的锚提取特征和受干扰目标词语音样本的各嵌入向量，或者根据所述目标语音的锚提取特征和受干扰命令语音样本的各嵌入向量，获得所述受干扰目标词语音样本对应的规整嵌入向量，或所述受干扰命令语音样本对应的规整嵌入向量；

可选的，所述预设锚提取特征为预先训练获得的所述干净目标词语音样本集的平均锚提取特征；

所述预设规整锚提取特征为预先训练获得受干扰目标词语音的正负样本集或受干扰命令语音样本集的目标语音的规整锚提取特征平均值。

基于上述实施例，参阅图13所示，本发明实施例中，一种电子设备的结构示意图。

本发明实施例提供了一种电子设备，该电子设备可以包括处理器1310(CenterProcessing Unit，CPU)、存储器1320、输入设备1330和输出设备1340等，输入设备1330可以包括键盘、鼠标、触摸屏等，输出设备1340可以包括显示设备，如液晶显示器(LiquidCrystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器1320可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器1310提供存储器1320中存储的程序指令和数据。在本发明实施例中，存储器1320可以用于存储本发明实施例中语音识别方法的程序。

处理器1310通过调用存储器1320存储的程序指令，处理器1310用于按照获得的程序指令执行本发明实施例中任一种语音识别方法。

为便于说明，本发明中的实施例以包括触摸屏的便携式多功能装置1400作示例性说明，本领域技术人员可以理解的，本发明中的实施例同样适用于其他装置，例如手持设备、车载设备、可穿戴设备、计算设备，以及各种形式的用户设备(User Equipment，UE)，移动台(Mobile station，MS)，终端(terminal)，终端设备(Terminal Equipment)等等。

图14示出了根据一些实施例的包括触摸屏的便携式多功能装置1400的框图，所述装置1400可以包括输入单元1430、显示单元1440、重力加速度传感器1451、接近光传感器1452、环境光传感器1453、存储器1420、处理器1490、射频单元1410、音频电路1460、扬声器1461、麦克风1462、WiFi(wireless fidelity，无线保真)模块1470、蓝牙模块1480、电源1493、外部接口1497等部件。

本领域技术人员可以理解，图14仅仅是便携式多功能装置的举例，并不构成对便携式多功能装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

所述输入单元1430可用于接收输入的数字或字符信息，以及产生与所述便携式多功能装置的用户设置以及功能控制有关的键信号输入。具体地，输入单元1430可包括触摸屏1431以及其他输入设备1432。所述触摸屏1431可收集用户在其上或附近的触摸操作(比如用户使用手指、关节、触笔等任何适合的物体在触摸屏上或在触摸屏附近的操作)，并根据预先设定的程序驱动相应的连接装置。触摸屏可以检测用户对触摸屏的触摸动作，将所述触摸动作转换为触摸信号发送给所述处理器1490，并能接收所述处理器1490发来的命令并加以执行；所述触摸信号至少包括触点坐标信息。所述触摸屏1431可以提供所述装置1400和用户之间的输入界面和输出界面。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触摸屏。除了触摸屏1431，输入单元1430还可以包括其他输入设备。具体地，其他输入设备1432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

所述显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及装置1400的各种菜单。进一步的，触摸屏1431可覆盖显示面板，当触摸屏1431检测到在其上或附近的触摸操作后，传送给处理器1490以确定触摸事件的类型，随后处理器1490根据触摸事件的类型在显示面板上提供相应的视觉输出。在本实施例中，触摸屏与显示单元可以集成为一个部件而实现装置1400的输入、输出、显示功能；为便于描述，本发明实施例以触摸屏代表触摸屏和显示单元的功能集合；在某些实施例中，触摸屏与显示单元也可以作为两个独立的部件。

所述重力加速度传感器1451可检测各个方向上(一般为三轴)加速度的大小，同时，所述重力加速度传感器1451还可用于检测终端静止时重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。

装置1400还可以包括一个或多个接近光传感器1452，用于当所述装置1400距用户较近时(例如当用户正在打电话时靠近耳朵)关闭并禁用触摸屏以避免用户对触摸屏的误操作；装置1400还可以包括一个或多个环境光传感器1453，用于当装置1400位于用户口袋里或其他黑暗区域时保持触摸屏关闭，以防止装置1400在锁定状态时消耗不必要的电池功耗或被误操作，在一些实施例中，接近光传感器和环境光传感器可以集成在一颗部件中，也可以作为两个独立的部件。至于装置1400还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。虽然图14示出了接近光传感器和环境光传感器，但是可以理解的是，其并不属于装置1400的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

所述存储器1420可用于存储指令和数据，存储器1420可主要包括存储指令区和存储数据区，存储数据区可存储关节触摸手势与应用程序功能的关联关系；存储指令区可存储操作系统、至少一个功能所需的指令等；所述指令可使处理器1490执行本发明实施例中的语音识别方法。

处理器1490是装置1400的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1420内的指令以及调用存储在存储器1420内的数据，执行装置1400的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1490可包括一个或多个处理单元；优选的，处理器1490可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1490中。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，他们也可以在独立的芯片上分别实现。在本发明实施例中，处理器1490还用于调用存储器中的指令以实现本发明实施例中的语音识别方法。

所述射频单元1410可用于收发信息或通话过程中信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1490处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，射频单元1410还可以通过无线通信与网络设备和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，GSM)、通用分组无线服务(General PacketRadio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

音频电路1460、扬声器1461、麦克风1462可提供用户与装置1400之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号，传输到扬声器1461，由扬声器1461转换为声音信号输出；另一方面，麦克风1462将收集的声音信号转换为电信号，由音频电路1460接收后转换为音频数据，再将音频数据输出处理器1490处理后，经射频单元1410以发送给比如另一终端，或者将音频数据输出至存储器1420以便进一步处理，音频电路也可以包括耳机插孔1463，用于提供音频电路和耳机之间的连接接口。

WiFi属于短距离无线传输技术，装置1400通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图14示出了WiFi模块1470，但是可以理解的是，其并不属于装置1400的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

蓝牙是一种短距离无线通讯技术。利用蓝牙技术，能够有效地简化掌上电脑、笔记本电脑和手机等移动通信终端设备之间的通信，也能够成功地简化以上这些设备与因特网(Internet)之间的通信，装置1400通过蓝牙模块1480使装置1400与因特网之间的数据传输变得更加迅速高效，为无线通信拓宽道路。蓝牙技术是能够实现语音和数据无线传输的开放性方案。虽然图14示出了WiFi模块1470，但是可以理解的是，其并不属于装置1400的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

装置1400还包括给各个部件供电的电源1493(比如电池)，优选的，电源可以通过电源管理系统1494与处理器1490逻辑相连，从而通过电源管理系统1494实现管理充电、放电、以及功耗管理等功能。

装置1400还包括外部接口1497，所述外部接口可以是标准的Micro USB接口，也可以使多针连接器，可以用于连接装置1400与其他装置进行通信，也可以用于连接充电器为装置1400充电。

尽管未示出，装置1400还可以包括摄像头、闪光灯等，在此不再赘述。

基于上述实施例，本发明实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的语音识别方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音识别模型训练方法，其特征在于，所述语音识别模型包括目标语音提取模块和目标词判断模块，该方法包括：

将所述语音样本集输入到目标语音提取模块进行训练，确定受干扰目标词语音的正负样本或受干扰命令语音样本的每个时频窗口对应的嵌入向量；

获得干净目标词语音样本的锚提取特征或受干扰目标词语音的正负样本中目标语音的锚提取特征，作为目标语音的锚提取特征；

根据所述目标语音的锚提取特征和确定的各嵌入向量，获得所述目标语音的掩码，根据所述目标语音的掩码，识别出所述目标语音，输出识别出的目标语音，其中，所述目标语音提取模块的目标函数为识别出的目标语音与干净目标语音之间的损失函数最小化；

将所述目标语音提取模块输出的目标语音输入到目标词判断模块进行训练，判断所述目标语音中是否有目标词，输出为目标词判断概率，其中，所述目标词判断模块的目标函数为目标词判断结果的交叉熵损失函数最小化。

2.如权利要求1所述的方法，其特征在于，获得干净目标词语音样本的锚提取特征，具体包括：

获取干净目标词语音样本；

确定所述干净目标词语音样本的每个时频窗口对应的嵌入向量；

根据所述干净目标词语音样本的各嵌入向量和对应的目标词标注信息，获得所述干净目标词语音样本的锚提取特征。

3.如权利要求2所述的方法，其特征在于，获得受干扰目标词语音的正负样本中目标语音的锚提取特征，具体包括：

确定所述受干扰目标词语音的正负样本的每个时频窗口对应的嵌入向量；

获得干净目标词语音样本集中每个干净目标词语音样本的锚提取特征的平均锚提取特征；

根据所述受干扰目标词语音的正负样本的各嵌入向量和所述平均锚提取特征，确定所述受干扰目标词语音的正负样本对应的目标词标注信息；

根据所述受干扰目标词语音的正负样本的各嵌入向量、所述平均锚提取特征和确定对应的目标词标注信息，获得所述受干扰目标词语音的正负样本中目标语音的锚提取特征。

4.如权利要求1所述的方法，其特征在于，根据所述目标语音的锚提取特征和确定的各嵌入向量，获得所述目标语音的掩码，具体包括：

根据确定的各嵌入向量和所述目标语音的锚提取特征，获得所述受干扰目标词语音的正负样本或所述受干扰命令语音样本的各嵌入向量对应的规整嵌入向量；

根据所述受干扰目标词语音的正负样本或所述受干扰命令语音样本中的目标词标注信息，以及各对应的规整嵌入向量，确定所述目标语音的规整锚提取特征；

根据所述目标语音的规整锚提取特征和所述各对应的规整嵌入向量，获得所述目标语音的掩码。

5.如权利要求4所述的方法，其特征在于，根据所述目标语音的锚提取特征和确定的各嵌入向量，获得所述目标语音的掩码，具体包括：

分别计算各整嵌入向量和所述目标语音的规整锚提取特征之间的距离，根据各距离取值获得所述目标语音的掩码；

根据所述目标语音的规整锚提取特征和所述各对应的规整嵌入向量，获得所述目标语音的掩码，具体包括：

分别计算各对应的规整嵌入向量和所述目标语音的规整锚提取特征之间的距离，根据各距离取值获得所述目标语音的掩码。

6.一种语音识别模型训练装置，其特征在于，所述语音识别模型包括目标语音提取模块和目标词判断模块，该装置包括：

训练模块用于：将所述语音样本集输入到目标语音提取模块进行训练，确定受干扰目标词语音的正负样本或受干扰命令语音样本的每个时频窗口对应的嵌入向量；

7.如权利要求6所述的装置，其特征在于，获得干净目标词语音样本的锚提取特征时，训练模块具体用于：

获取干净目标词语音样本；

8.如权利要求7所述的装置，其特征在于，获得受干扰目标词语音的正负样本中目标语音的锚提取特征时，训练模块具体用于：

9.如权利要求6所述的装置，其特征在于，根据所述目标语音的锚提取特征和确定的各嵌入向量，获得所述目标语音的掩码时，训练模块具体用于：

10.如权利要求9所述的装置，其特征在于，根据所述目标语音的锚提取特征和确定的各嵌入向量，获得所述目标语音的掩码时，训练模块具体用于：

根据所述目标语音的规整锚提取特征和所述各对应的规整嵌入向量，获得所述目标语音的掩码时，训练模块具体用于：