CN110364143A

CN110364143A - 语音唤醒方法、装置及其智能电子设备

Info

Publication number: CN110364143A
Application number: CN201910747867.6A
Authority: CN
Inventors: 苏丹; 陈杰; 王珺; 俞栋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2019-10-22
Anticipated expiration: 2039-08-14
Also published as: CN110364143B

Abstract

公开了一种基于人工智能的语音唤醒方法、装置及其智能电子设备。该语音唤醒方法包括：获取语音数据的音频特征集合；基于所述音频特征集合，检测语音唤醒关键词；以及在检测到语音唤醒关键词的情况下，利用二分类网络对所述音频特征集合进行唤醒判决。

Description

语音唤醒方法、装置及其智能电子设备

技术领域

本公开涉及语音识别领域，更具体地涉及一种基于人工智能的语音唤醒方法、装置及其智能电子设备。

背景技术

语音唤醒是指用户通过语音来与电子设备进行交互并实现电子设备从休眠状态到激活状态的转换。目前，在低成本的电子设备中，往往采用相对简单的唤醒检测网络，其误唤醒率相对较高。另一方面，为了提供较高的唤醒检测精度，则需要采用复杂的唤醒检测网络，这对电子设备的计算能力提出了更高要求，并不能普遍用于各种电子设备中。

发明内容

本公开的实施例提供了基于人工智能的语音唤醒方法、装置及其智能电子设备。

本公开的实施例提供了一种基于人工智能的语音唤醒方法，其包括：获取语音数据的音频特征集合；基于该音频特征集合，检测语音唤醒关键词；以及在检测到语音唤醒关键词的情况下，利用二分类网络对该音频特征集合进行唤醒判决。

本公开的实施例还提供了一种语音唤醒装置，其包括：语音数据提取模块，用于获取语音数据的音频特征集合；第一处理模块，用于基于该音频特征集合，检测语音唤醒关键词；和第二处理模块，用于在检测到语音唤醒关键词的情况下，利用二分类网络对该音频特征集合进行唤醒判决。

本公开的实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述的方法中的步骤。

本公开的实施例还提供了一种智能电子设备，该智能电子设备包括：语音采集单元，用于采集语音数据；处理器；存储器，其上存储有计算机指令，在该计算机指令被该处理器执行时实现上述方法。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的描述中所需要使用的附图作简单的介绍。下面描述中的附图仅仅是本公开的示例性实施例。

图1是示出根据本公开实施例的语音唤醒场景的示意图。

图2是示出根据本公开实施例的语音唤醒方法的流程图。

图3是示出根据本公开实施例的语音唤醒方法的示意图。

图4是示出根据本公开实施例的语音唤醒方法的又一示意图。

图5是示出根据本公开实施例的语音唤醒装置的示意图。

图6是示出根据本公开实施例的智能电子设备的结构图。

图7是示出一种用于语音唤醒的终端双模型系统的示意图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

在本说明书和附图中，具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示，且对这些步骤和元素的重复描述将被省略。同时，在本公开的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性或排序。

为便于描述本公开，以下介绍与本公开有关的概念。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。目前，自动语音识别技术已经被广泛地应用于各个领域中。语音唤醒检测技术作为自动语音识别技术的分支之一也已经被广泛地应用于各种智能电子设备之中，以作为唤醒这些智能电子设备的常用方式之一。

图1是示出根据本公开实施例的语音唤醒检测的场景100的示意图。

参考图1，在场景100中，用户A和用户B都通过语音与智能设备101对话而进行实现与智能设备101交互。

智能设备101可以任何的智能设备，例如，智能电子设备(例如，智能音箱、智能电视、智能网关等)、智能手机和智能车载设备等。智能设备101还可以是能够在上述设备中搭载的语音助手装置、语音助手软件等。智能设备101在识别到用户说出了正确的语音唤醒关键词时，可以根据语音唤醒关键词的内容执行各种操作。例如，当用户说出正确的语音唤醒关键词(例如，图1中的用户A说出“小叮当”)时，智能设备101可以识别到用户说出了正确的语音唤醒关键词，并从休眠状态激活至运行状态。而当用户说出错误的语音唤醒关键词(例如，图1中的用户B说出“再见”)时，智能设备101则继续保持休眠状态。

通常需要采用语音唤醒检测技术来实现上述的场景100。语音唤醒检测(也被称为关键词定位(keyword spotting，KWS))技术是指在一段语音数据中检测出其是否包括一个特定的语音片段。通常，这一特定语音片段包括语音唤醒关键词，例如图1中的“小叮当”。

能够实现语音唤醒技术的各种系统包括深度关键词系统(Deep Kws System)、关键词/过滤器隐马尔科夫模型系统、终端双模型系统和云端二级模型系统等。在实际的工业应用上都存在各自的缺陷。

例如，深度关键词系统是单模型结构的，并采用深度神经网络来获取平衡的唤醒性能。由于该系统只使用了单模型结构，因此其性能在远场、带噪等复杂应用场景下很难达到足够的识别率。

图7示出了一种用于语音唤醒的终端双模型系统700的示意图。如图7所示的终端双模型系统利用了两个复杂的神经网络进行大量的计算来获取相对准确的唤醒结果。终端双模型系统包括低计算量模块701和精确计算模块702。低计算量模块701包括MFCC特征计算模块、特征缓存模块、小型深度神经网络(小型DNN)模块、第一隐马尔科夫得分(第一HMM得分)模块。其中，小型深度神经网络模块分别用于初步判断输入语音是否与语音唤醒关键词相关，并输出第一关联概率。第一隐马尔科夫得分模块根据第一关联概率确定第一置信度。精确计算模块702包括大型深度神经网络(大型DNN)模块和第二隐马尔科夫得分(第二HMM得分)模块。在低计算量模块701检测到用户说出了语音唤醒关键词后，将特征缓存模块中的特征数据输入至精确计算模块702中的大型深度神经网络模块。大型深度神经网络模块再次判断输入语音是否与语音唤醒关键词相关，并输出第二关联概率至第二隐马尔科夫得分模块以获得第二置信度。因为终端双模型系统700在终端上采用两个串联的复杂的神经网络，并且第二级神经网络比第一级神经网络的计算量更大，需要更多的计算资源，对智能电子设备的要求较高。

云端二级模型系统也是利用上述的两个神经网络来进行唤醒判决的，为减轻终端侧的计算量，其将系统的复杂的二级神经网络放置了在云端。但是由于该系统需要网络与云端进行验证，存在响应延迟的技术问题。

本公开提出一种改进的基于人工智能的语音唤醒方法，该方法通过采用二分类网络作为第二级神经网络，能够减少计算量、缩短延迟并提高智能设备响应的正确率。

图2是示出根据本公开实施例的语音唤醒方法200的流程图。

根据本公开的实施例的语音唤醒方法200可以应用于任何的智能设备中，也可以在云端执行然后将判决结果返回至待唤醒设备中。下面，以图1中的智能设备101为例进行说明。

首先，在步骤S201，获取语音数据的音频特征集合。

具体地，上述语音数据可以包括以各种形式被捕捉的声音并将其转换为以数字文件形式存储的声音数据，例如，通过智能设备101的麦克风周期性捕捉的声音数据等。语音数据可以被缓存在智能设备101的存储器中以进行下一步分析。语音数据可以以.mp3、.wav、.voc和.au格式等进行编码或存储。本公开不对语音数据的格式进行任何限制。

上述的音频特征集合中的各个元素是指可以从语音数据中提取的音频特征数据。为了表征语音数据和识别该语音数据，通常需要对该语音数据的声音频率、音量、情绪、音高、能量等数据进行分析。这些数据均可以被称为该语音数据的“音频特征数据”。

为了便于语音数据的分析，上述的音频特征数据进一步地可以是利用各种语音特征提取模型而获取的。语音特征提取模型包括但不限于FBANK(又称FilterBank)或MFCC等。通过FBANK语音特征提取模型提取出的音频特征数据又称为FBANK语音特征数据。本公开将以FBANK语音特征数据为例进行说明，但是本公开并不受此限制。FBANK语音特征提取模型可以以类似于人耳对其听到的声音进行处理的方式来提取音频特征。FBANK语音特征提取模型通过对已分帧的语音数据进行傅里叶变换、能量谱计算和Mel滤波等操作，可以获取能够表征每一帧语音数据的数组(也被称为FBank特征向量)。该数组即为FBANK音频特征数据。

在步骤S202，基于音频特征集合，检测语音唤醒关键词。

具体地，可以通过进一步分析音频特征集合中的各个音频特征数据来检测语音数据中是否包括语音唤醒关键词。语音唤醒关键词可以是用户预先设置的任意关键词或智能设备101中的默认关键词，例如图1中的“小叮当”。可以事先确定包括语音唤醒关键词的语音数据的语音特征数据。然后将音频特征集合中的音频特征数据与这些预先确定的语音特征数据进行比较，从而确定音频特征集合是否与语音唤醒关键词相匹配。例如，可以预先确定“小叮当”这句话的FBANK语音特征数据，然后将该FBANK语音特征数据与步骤S201中获取的音频特征集合进行比对，从而确定是否检测到语音唤醒关键词。

上述检测语音唤醒关键词的步骤还包括利用关键词检测网络来确定这些音频特征集合是否与语音唤醒关键词相匹配。该关键词检测网络可以是各种模型结构的，例如DNN、CNN或LSTM等。该关键词检测网络可以是利用声学模型，该声学模型利用音素标签来确定音频特征集合是否与语音唤醒关键词相匹配。音素是指根据语音的自然属性划分出来的最小语音单位，其是根据音节里的发音动作而确定的。例如，如汉语音节ā(啊)就包括一个音素，ài(爱)则包括两个音素。由于，语音唤醒关键词可以被划分为多个音素，从而可以利用多个音素标签来表示语音唤醒关键词的语音特征。关键词检测网络系统可以依次计算音频特征集合中各个音频数据特征与语音唤醒关键词音素标签相比较的关联概率。将这些关联概率进行汇总统计，从而得到语音数据中包括语音唤醒关键词的置信度。置信度高于预定阈值即表示检测到了语音关键词。

当然，关键词检测网络还可以是能够识别语音唤醒关键词的其他神经网络，例如，隐马尔可夫神经网络(HMM)和高斯混合神经网络(CMM)等。

在步骤S203，在检测到语音唤醒关键词的情况下，利用二分类网络对所述音频特征集合进行唤醒判决。

具体地，上述二分类网络(也可以被称为二元分类模型)是指将输入分成两类(也即，输出为0或1)的神经网络。在检测到语音唤醒关键词的情况下，上述的二分类网络被激活，从而对音频特征集合中进行进一步的判决。二分类网络的模型参数量远小于上述的关键词检测网络模型的模型参数量，因此可以降低系统的计算量。二分类网络对音频特征集合的唤醒判决可以在云端执行，也可以在终端执行，本公开对此不做限制。

更具体地，上述的二分类网络可以包括多个层：输入层、至少一个隐藏层和输出层。每个隐藏层中包括多个节点。节点可以是神经元(cell)或感知器，每个节点可以有多个输入。输出层包括小于等于2的节点。每个节点对其的任意输入可以有不同的权重和偏置。而权重和偏置的值是通过样本数据进行训练得到的。

二分类网络可以是全连接的神经网络。全连接的神经网络是指：在神经网络的相邻两层中的各个节点都是连接的。例如，输入层中的各个节点与最靠近输入层的隐藏层的各个节点均连接。各个相邻的隐藏层中的各个节点也是相互连接的。最靠近输出层的隐藏层中的各个节点也与输出层的两个节点相连接。使用全连接的神经网络可以从更多的角度分析输入的音频特征数据，从而获得更准确的判决结果。

具体地，可以将该音频特征集合中的多个音频特征数据合成为代表音频特征数据，利用所述全连接神经网络对代表音频特征数据进行唤醒判决。“代表音频特征数据”表示能够表征/代表该音频特征集合的音频特征数据。例如，“代表音频特征数据”可以是在音频特征集合中选取预定数量的音频特征数据按时间先后顺序拼接在一起而形成的音频特征数据。“代表音频特征数据”也可以将音频特征集合中的各个元素进行其他二次处理后而提取的音频特征数据。本公开不限定“代表音频特征数据”的具体形式，只要能够表征该音频特征集合即可。

将代表音频特征数据输入至全连接神经网络的输入层，经过至少一个隐藏层，输出层可以输出表示不唤醒智能设备的“0”和表示唤醒智能设备的“1”。输出层也可以输出一个大于等于0并小于1的实数。当该实数的值大于预定阈值时则表示唤醒智能电子设备。由此，二分类网络完成对音频特征集合进行的唤醒判决。

在语音数据被判决为唤醒的情况下，可以唤醒智能设备101。例如，当二分类网络位于云端时，云服务器可以通过有线网络和/或无线网络向智能设备101发送信号，来触发智能设备101从休眠状态到工作状态的转换。当二分类网络位于智能设备101时，唤醒判决可以直接激活智能设备101以从休眠状态转换到工作状态。当语音数据被判决为不唤醒的情况下，智能设备101可以保持休眠状态或不进行任何操作。

由此，根据本公开实施例的语音唤醒方法200通过二分类网络实现了在较小模型参数量的情况下能够有效地抑制掉大部分的误唤醒，从而显著地减少计算量、缩短延迟并提高智能设备响应的正确率。相比于仅使用复杂的单模型神经网络或使用多个相同框架的复杂神经网络模型的通常的语音唤醒技术而言，语音唤醒方法200在远场、高噪音等复杂应用场景下可以达到工业应用的水准，在低延迟的情况下正确地唤醒设备，提高智能设备整体的易用性。

图3是示出根据本公开实施例的语音唤醒方法200的示意图。

如图3所示，获取语音数据301的音频特征集合302可以包括获取语音数据的每一帧音频特征数据。

具体地，参照图3，可以一定的时间区间将语音数据301划分为多个帧。通常情况下，包含完整语音唤醒关键词的语音数据的时长为2至5秒。可以以每10毫秒为一帧，将语音数据301分成多个帧。为了更接近人耳对语音数据的处理方式，相邻的两帧的语音数据之间可以有重叠部分。例如第一帧语音数据可以是该语音数据的第0毫秒至第10毫秒的数据，第二帧语音数据可以是该语音数据的第8毫秒至第18毫秒的数据。

然后，可以对每一帧语音数据进行处理以获取该语音数据每一帧的音频特征数据(如图3的步骤①)。例如，可以利用上述的FBANK模型来获取每一帧的FBANK音频特征数据。每一帧音频特征数据可以是一个L维的数组，其中L大于等于1。可选地，L等于13。音频特征集合302里可以包括多个连续的帧的音频特征数据。

继续参考图3，可以按照预定缓存规则，缓存所获取的每一帧音频特征数据(如图3的步骤②)。例如，可以将每一帧音频特征数据依次输入至缓存303中。其中，预定缓存规则包括但不限于：按照先入先出规则，缓存预定数量的连续的帧的音频特征数据；或在检测到预定音素标签后，缓存预定数量的连续的帧的音频特征数据。可选地，缓存303的大小能够刚好覆盖识别语音唤醒关键词所需的大小。例如，假设识别语音唤醒关键词“小叮当”大约需要M帧的音频特征数据，则缓存303的大小可以为M*L比特。

缓存303可以将第一帧至第N帧音频特征数据依次输入至关键词检测网络304(如图3的步骤③)。为获得更准确的结果，关键词检测网络304可以是一个复杂的深度神经网络。具体地，如图3所示，关键词检测网络304可以包括一个或多个隐藏层。每个隐藏层中包括多个神经元(cell)，每个神经元可以有多个输入。例如，最接近输入层的隐藏层中的神经元输入可以是L维的音频特征数据中任意维数的数据。每个神经元对每个输入有权重和偏置。权重和偏置的值是通过大量的样本数据训练得到的。图3中的关键词检测网络304仅仅是示例，其还可以具有其他结构。本公开并不对关键词检测网络304的结构、各个层中的节点数量以及节点之间的连接方式进行限制。

上述的关键词检测网络304将缓存中的每一帧音频特征数据与语音唤醒关键词的音素标签相比较，以确定该帧音频特征数据与所述音素标签的关联概率。关键词检测网络304可以一次处理一帧的音频特征数据，也可以一次处理多帧的音频特征数据。以一次处理一帧的音频特征数据为例进行说明。关键词检测网络304可以计算第j帧音频特征数据与第i个音素标签之间相关联的概率P_ij，也即关联概率P_ij。其中，i和j均为大于等于0的整数。例如，关键词检测网络304在处理语音唤醒关键词“小叮当”的第一帧音频特征数据时，可以将该语音唤醒关键词的第一个音素标签“x”与第一帧音频特征数据相比较，并输出第一音素标签“x”与第一帧音频特征数据相关联的概率P₁₁。

由于关联概率P_ij通常含有噪声，因此在计算语音唤醒关键词的置信度之前可以采用平滑窗来对其进行平滑处理。例如，可以采用以下公式(1)来处理关联概率P_ij以得到平滑后的关联概率P_ij’。

在公式(1)中，k表示在h_smooth和j之间的任意值，h_smooth表示在该平滑窗中第一帧数据的索引/帧号。h_smooth可以用以下公式(2)进行计算：

h_smooth＝max{1，j-w_smooth+1} (2)

上述w_smooth是指平滑窗的大小。例如当平滑窗的大小为6帧、j＝10、i＝9时，平滑后的关联概率P_ij’是第5帧的音频特征数据至第10帧的音频特征数据分别与第9个音素标签关联的概率的平均值，此时h_smooth等于5。通过平滑处理将减少连续的多个帧的关键概率之间的噪声，使得置信度更加准确。

然后，关键词检测网络304可以将平滑后的关联概率P_ij’逐个依次输入至置信度计算窗口305(如图3的步骤④)，而不需一次性的计算所有的关联概率P_ij’。关键词检测网络304可以计算在第j帧时，检测到该语音唤醒词的置信度。假设置信度计算窗口305的窗口大小为w_max，w_max大于1。具体地，置信度计算窗口305可以利用如下公式(3)：

来计算在音频特征集合304中检测到语音唤醒关键词的置信度。在上述公式(3)中，n表示当前计算的音素标签的索引。例如，假设语音唤醒关键词有30个音素标签，而目前正在处理第25个音素标签，则此时n等于25。m表示h_max和j之间的任意值。h_max表示在置信度计算窗口中的第一帧的索引/帧号，h_max可以用如下公式(4)获得：

h_max＝max{1，j-w_max+1} (4)

根据上述公式(1)到公式(4)，置信度计算窗口305通常前几帧时输出的置信度较小。因为此时还没有将音频特征集合中的数据与语音唤醒关键词的大部分音素标签进行比较。随着进行比较的音频特征数据的增加，置信度将不断变化。如果语音数据中包括语音唤醒关键词，置信度计算窗口305输出的置信度可能会随着进行比较的音频特征数据的增加而增加。当置信度达到某一特定阈值时，即判定检测到了该语音唤醒关键词。例如在公式(3)中，假设一共有30个音素标签，可能存在当n＝25时置信度已经超过了阈值的情况。此时可以不再计算第26-30个音素标签与音频特征数据之间的关联概率，而直接判断检测到了语音唤醒关键词。如果语音数据中不包括语音唤醒关键词，置信度计算窗口305输出的置信度将始终不能达到特定阈值，从而将判定没有检测到语音唤醒关键词。

上述关键词检测网络304和置信度计算窗口305可以并行计算以减少延迟。

如上所述，在检测到语音唤醒关键词后，即可激活二分类网络306来对音频特征集合302进行唤醒判决。具体地，在置信度大于阈值时，置信度计算窗口305可以向缓存303发送一特定信号(如图3的步骤⑤)。缓存303将其已缓存的音频特征数据发送到二分类网络306(如图3的步骤⑥)。具体地，假设在第j帧时，置信度计算窗口306输出的置信度大于阈值。此时，可以将缓存中第j-p帧至第j+p帧(p为大于等于0的自然数)的音频特征数据合成为代表音频特征数据，并将其输入至二分类网络306。当然，也可以将缓存中所有的音频特征数输入至二分类网络306。二分类网络306可以依照上述的方法判断是否唤醒智能设备101。

图3中的二分类网络306是以全连接网络的方式示出的，其仅是作为示例，本领域技术人员应当确定二分类网络306还可以是其他的结构，例如包括多个隐藏层，本公开并不对其结构做任何限制。

图4是示出根据本公开实施例的语音唤醒方法200的又一示意图。

参考图4，本公开的语音唤醒方法200可以由两个模块来实现，也即高唤醒率模块401和低误唤醒率模块402。

高唤醒率模块401包括FBANK特征计算模块、特征缓存模块、关键词检测网络、后验处理模块。其中，FBANK特征计算模块用于计算音频输入的FBANK特征，例如实现图3中的步骤①。特征缓存模块用于存储所计算的FBANK特征，例如实现图3中的步骤②。关键词检测网络用于检测语音唤醒关键词，该关键词检测网络可以类似于图3中的关键词检测网络304。后验处理模块用于进一步处理关键词检测网络输出的关联概率(由于该关联概率是在给定条件/输入的情况下计算的，该关联概率也称为后验概率)，其可以类似于图3中的置信度计算窗口305。

具体地，高唤醒率模块401中使用关键词检测网络来实现唤醒词检测，并且可以实现较高的唤醒率。为此，训练该关键词检测网络的音频数据样本可以是清晰且信噪比较高的。假设使用第一语音数据样本集来训练该关键词检测网络，并且对第一语音数据样本集中的各个语音数据样本的信噪比求平均值，其结果可以是第一平均信噪比。第一平均信噪比可以相对较高。例如，第一语音数据样本集可以包括使用者在安静环境中清晰地说出语音唤醒关键词的样本A，例如使用者说出“小叮当”的语音数据样本。为了与样本A明显的区分，第一语音数据样本集还可以包括使用者在安静环境中清晰地说出随机抽取的非语音唤醒关键词的样本B，例如，使用者说出“再见”、“你好”、“天气真好”这一类单词的语音数据样本。

利用上述的第一语音数据样本集训练的关键词检测网络在处理低信噪比的输入数据时可能会出现高误唤醒率的情况。“误唤醒率”是指将不包含语音唤醒关键词的语音数据识别为包含语音唤醒关键词的概率。例如，当处理的语音数据具有大量的音乐或电视噪音时，关键词检测网络可能会将不包含语音唤醒关键词的语音数据错误识别包含该语音唤醒关键词。例如，将包含“再见叮当”的语音数据错误的识别为包含“小叮当”的语音数据。为此，可以利用低误唤醒率模块402对该语音数据进行唤醒判决，来降低语音唤醒方法200的误唤醒率。

低误唤醒率模块402包括二分类网络和阈值判决模块。该二分类网络类似于图3中的二分类网络306。阈值判决模块则用于基于二分类网络的输出来确定是否唤醒智能电子设备。

低误唤醒率模块402使用二分类网络来实现对上述语音数据的唤醒判决，以实现低误唤醒率。该二分类网络利用第二语音数据样本集来进行训练，第二语音数据样本集具有第二平均信噪比。第二平均信噪比小于第一平均信噪比。例如，第二语音数据样本集中的数据样本可以是第一语音数据样本集中的样本数据与各种噪音数据合成的语音数据样本。噪音数据可以是强噪音数据，也可以是真实的音乐、电视背景音数据等。第二语音数据样本集也可以包括使用者在嘈杂环境中说出语音唤醒关键词的样本A’。当然，第二语音数据样本集还可以包括使用者在嘈杂环境中说出随机的非语音唤醒关键词的样本B’。

在完成关键词检测网络的训练之后，可以将事先已经标记了是否包含语音唤醒关键词的第二语音数据样本集输入关键词检测网络。根据关键词检测网络的输出，将第二语音数据样本集分类中的语音数据样本为正样本语音数据和负样本语音数据。正样本语音数据是关键词检测网络正确识别的语音数据，而负样本语音数据是关键词检测网络错误识别的语音数据。利用该正样本语音数据和负样本语音数据来训练二分类网络。

训练完成后的二分类网络可以对关键词检测网络的输出结果进行优化，也即对关键词检测网络的结果进行正确性的判断，从而实现在保证较高的唤醒率的情况下有效地抑制掉大部分的误唤醒。同时，由于二分类网络是轻量级的神经网络，其并不会带来过大的系统开销，从而实现在不影响系统性能的情况下，显著提升唤醒性能。

图5是示出根据本公开实施例的语音唤醒装置500的示意图。

根据本公开的实施例的语音唤醒装置500包括语音数据提取模块501、第一处理模块502和第二处理模块503。其中，语音数据提取模块501用于获取语音数据的音频特征集合。第一处理模块502用于基于所述音频特征集合，检测语音唤醒关键词。第二处理模块503用于在检测到语音唤醒关键词的情况下，利用二分类网络对所述音频特征集合进行唤醒判决。

语音唤醒装置500还包括：唤醒模块504，其用于在所述语音数据被判决为唤醒的情况下，唤醒智能电子设备。

在语音唤醒装置500中的二分类网络包括全连接神经网络。其中，在检测到语音唤醒关键词的情况下，利用二分类网络对所述音频特征集合进行唤醒判决包括：在检测到语音唤醒关键词的情况下，激活全连接神经网络，将音频特征集合中的多个音频特征数据合成为代表音频特征数据，利用全连接神经网络对所述代表音频特征数据进行唤醒判决。

语音唤醒装置500通过串联的第一处理模块502和第二处理模块503分别进行语音唤醒关键词的检测和唤醒判决。相比于通常的语音唤醒技术，可以取得更高的唤醒率并显著地降低误唤醒。

具体地，第一处理模块502可以使用上述的关键词检测网络来进行语音唤醒关键词的检测。该关键词检测网络采用声学模型与输入语音数据之间的关联概率(也称为，声学模型后验概率)和置信度计算来对输入的语音进行唤醒判决。

可选地，关键词检测网络在进行声学模型后验概率计算和置信度计算时可以缓存固定窗大小的音频特征数据。在当所计算的置信度达到特定阈值时，确定检测到语音唤醒关键词。之后，第一处理模块502可以将所缓存的固定窗口大小的音频特征数据发送给第二处理模块503。

第二处理模块503在收到第一处理模块502发送的音频特征数据后可以使用二分类网络来进行唤醒判决。

如上所述，第二处理模块503中的二分类网络可以是用加入了大量的音乐、电视等噪声数据的样本数据进行判断的。由于上述的二分类网络是轻量级的网络，该二分类网络可以在保证不会对系统带来过大的附加开销的情况下，显著提高系统的误唤醒性能。

图6是示出根据本公开实施例的智能电子设备600的结构图。

参见图6，智能电子设备600可以包括处理器601、存储器602和语音采集单元604。处理器601、存储器602和语音采集单元604都可以通过总线503相连。智能电子设备600可以是智能音响、智能电视、智能机顶盒或智能手机等。

处理器601可以根据存储在存储器602中的程序执行各种动作和处理。具体地，处理器601可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X86架构或ARM架构的。

存储器602存储有计算机指令，在计算机指令被处理器601执行时实现上述语音唤醒方法200。存储器602可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

语音采集单元604可以是能够将声音信号转换为电信号的能量转换单元，例如麦克风。语音采集单元604可以以各种形式进行声电转换：电动式(动圈式、铝带式)，电容式(直流极化式)、压电式(晶体式、陶瓷式)、以及电磁式、碳粒式、半导体式等。语音采集单元采集的电信号可以以数字文件的方式存储于存储器602中。

本公开还提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现语音唤醒方法200。类似地，本公开实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。应注意，本文描述的计算机可读存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本公开实施例的语音唤醒方法、装置、计算机可读存储介质和智能电子设备，可以解决目前的语音唤醒技术中的计算量大、延迟大或响应缓慢等技术问题，提供语音唤醒技术的易用性。

需要说明的是，附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

一般而言，本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

在上面详细描述的本发明的示例实施例仅仅是说明性的，而不是限制性的。本领域技术人员应该理解，在不脱离本发明的原理和精神的情况下，可对这些实施例或其特征进行各种修改和组合，这样的修改应落入本发明的范围内。

Claims

1.一种基于人工智能的语音唤醒方法，其包括：

获取语音数据的音频特征集合；

基于所述音频特征集合，检测语音唤醒关键词；以及

在检测到语音唤醒关键词的情况下，利用二分类网络对所述音频特征集合进行唤醒判决。

2.如权利要求1所述的基于人工智能的语音唤醒方法，其中，所述二分类网络包括全连接神经网络，

其中，在检测到语音唤醒关键词的情况下，利用二分类网络对所述音频特征集合进行唤醒判决包括：

在检测到语音唤醒关键词的情况下，激活所述全连接神经网络，

将所述音频特征集合中的多个音频特征数据合成为代表音频特征数据，利用所述全连接神经网络对所述代表音频特征数据进行唤醒判决。

3.如权利要求1所述的基于人工智能的语音唤醒方法，其中，获取语音数据的音频特征集合包括：

获取语音数据的每一帧音频特征数据；以及

按照预定缓存规则，缓存所获取的每一帧音频特征数据，

其中，音频特征集合包括多个连续的帧的音频特征数据。

4.如权利要求3所述的基于人工智能的语音唤醒方法，其中，所述语音唤醒关键词包括多个音素标签，并且基于所述音频特征集合检测语音唤醒关键词包括：

利用关键词检测网络，将缓存中的每一帧音频特征数据与所述语音唤醒关键词的音素标签相比较，以确定该帧音频特征数据与所述音素标签的关联概率；

根据所述关联概率，确定在所述音频特征集合中检测到所述语音唤醒关键词的置信度。

5.如权利要求3所述的基于人工智能的语音唤醒方法，其中，所述预定缓存规则包括以下至少一项：

按照先入先出规则，缓存预定数量的连续的帧的音频特征数据；

在检测到预定音素标签后，缓存预定数量的连续的帧的音频特征数据。

6.如权利要求4所述的基于人工智能的语音唤醒方法，其中，

在所述关键词检测网络训练完成之后，再训练所述二分类网络。

7.如权利要求6所述的基于人工智能的语音唤醒方法，其中，

所述关键词检测网络是利用第一语音数据样本集训练的；

其中，第一语音数据样本集具有第一平均信噪比，并且，第一语音数据样本集中的至少一部分是包括所述语音唤醒关键词的语音数据。

8.如权利要求7所述的基于人工智能的语音唤醒方法，其中：

所述二分类网络是利用第二语音数据样本集训练的；

其中，第二语音数据样本集具有第二平均信噪比，并且第一平均信噪比高于第二平均信噪比。

9.如权利要求1所述的基于人工智能的语音唤醒方法，其中：

在所述语音数据被判决为唤醒的情况下，唤醒智能电子设备。

10.一种语音唤醒装置，其包括：

语音数据提取模块，用于获取语音数据的音频特征集合；

第一处理模块，用于基于所述音频特征集合，检测语音唤醒关键词；和

第二处理模块，用于在检测到语音唤醒关键词的情况下，利用二分类网络对所述音频特征集合进行唤醒判决。

11.如权利要求10所述的语音唤醒装置，其还包括：

唤醒模块，用于在所述语音数据被判决为唤醒的情况下，唤醒智能电子设备。

12.如权利要求10所述的语音唤醒装置，其中，

所述二分类网络包括全连接神经网络，

13.一种智能电子设备，包括：

语音采集单元，用于采集语音数据；

处理器，

存储器，其上存储有计算机指令，在所述计算机指令被所述处理器执行时实现如权利要求1-9中的任一项所述的方法。

14.如权利要求13所述的智能电子设备，其中，所述智能电子设备为智能音响、智能电视、智能机顶盒或智能手机。

15.一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求1-9中的任一项所述的方法。