CN105869637B

CN105869637B - 语音唤醒方法和装置

Info

Publication number: CN105869637B
Application number: CN201610357702.4A
Authority: CN
Inventors: 袁斌
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-05-26
Filing date: 2016-05-26
Publication date: 2019-10-15
Anticipated expiration: 2036-05-26
Also published as: US20190139545A1; US10867602B2; CN105869637A; WO2017202016A1

Abstract

本申请提出一种语音唤醒方法和装置，该语音唤醒方法包括：获取待处理的语音信号；根据预先生成的搜索空间，对所述语音信号进行解码，得到语音识别结果，其中，所述搜索空间包括反模型所在路径，所述反模型包括第一反模型，所述第一反模型根据对唤醒词的分词结果训练生成；当获取到所述语音识别结果的前面的预设个数的字时，判断所述预设个数的字中是否包含唤醒词中的至少部分字；如果不包含，则直接确定不唤醒，结束对所述语音信号的解码。该方法能够降低误唤醒率和降低功耗等。

Description

语音唤醒方法和装置

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音唤醒方法和装置。

背景技术

语音唤醒技术是一种具有开关入口属性的功能。用户通过语音唤醒，可以发起人机交互的操作，即机器只有被用户所说的唤醒词唤醒，才会对用户接下来的语音指令进行识别。

相关技术中存在一些语音唤醒技术，但都存在一定的问题，比如误唤醒率高、抗噪能力差、需要全程联网、功耗高、唤醒词数量仅为一个、唤醒灵敏度低等。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种语音唤醒方法。

本申请的另一个目的在于提出一种语音唤醒装置。

为达到上述目的，本申请第一方面实施例提出的语音唤醒方法，包括：获取待处理的语音信号；根据预先生成的搜索空间，对所述语音信号进行解码，得到语音识别结果，其中，所述搜索空间包括反模型所在路径，所述反模型包括第一反模型，所述第一反模型根据对唤醒词的分词结果训练生成；当获取到所述语音识别结果的前面的预设个数的字时，判断所述预设个数的字中是否包含唤醒词中的至少部分字；如果不包含，则直接确定不唤醒，结束对所述语音信号的解码。

为达到上述目的，本申请第二方面实施例提出的语音唤醒装置，包括：获取模块，用于获取待处理的语音信号；解码模块，用于根据预先生成的搜索空间，对所述语音信号进行解码，得到语音识别结果，其中，所述搜索空间包括反模型所在路径，所述反模型包括第一反模型，所述第一反模型根据对唤醒词的分词结果训练生成；判断模块，用于当获取到所述语音识别结果的前面的预设个数的字时，判断所述预设个数的字中是否包含唤醒词中的至少部分字；第一处理模块，用于如果不包含，则直接确定不唤醒，结束对所述语音信号的解码。

本申请实施例至少在一定程度上具有如下技术效果之一：

通过采用根据唤醒词的分词结果训练得到的第一反模型，可以降低误唤醒率。

通过在语音识别结果的前面预设个数的字不包含唤醒词的至少部分内容时，直接确定不唤醒，并结束语音解码，可以降低功耗。

通过对语音信号进行音频处理，可以提高抗噪能力。

通过对语料的聚类结果进行训练生成反模型，可以减小该反模型的规模，从而可以应用在终端本地，以解决需要全程联网的问题。

通过设置多个唤醒词，可以实现通过任一个唤醒词的唤醒。

通过对唤醒词所在路径的加权处理，可以提高唤醒灵敏度。

通过在解码时直接结束异常路径的搜索，可以降低功耗。

通过在搜索空间中包括反模型和唤醒词串联的路径，可以在用户夹杂唤醒词的一句话中依然成功完成唤醒，提高唤醒精度。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一个实施例提出的语音唤醒方法的流程示意图；

图2是本申请另一个实施例提出的语音唤醒方法的流程示意图；

图3是本申请实施例中搜索空间的示意图；

图4是本申请一个实施例提出的语音唤醒装置的结构示意图；

图5是本申请一个实施例提出的语音唤醒装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

如上所示，相关技术中的语音唤醒技术存在一定的问题。本申请将基于如下思路分别解决上述技术问题。

(1)构建一个新的反模型，该反模型是通过对唤醒词的分词结果进行训练后生成的。可以避免被唤醒词的部分内容唤醒，以解决误唤醒率高的问题。

(2)对用户输入的语音信号进行音频处理。音频处理例如降噪、信号增强等处理，以解决抗噪能力差的问题。

(3)构建一个新的反模型，该反模型是根据对语料的聚类结果进行训练生成。可以减小该反模型的规模，从而可以应用在终端本地，以解决需要全程联网的问题。

(4)根据语音识别结果的前几个字直接确定不唤醒。不需要等待全部语音解码完成，可以降低功耗。另外，在解码过程中，如果发现异常路径可以直接结束该路径的搜索，也可以降低功耗。

(5)不限制唤醒词数量，可以是多个。

(6)对唤醒词所在路径进行加权处理，可以使得唤醒词更易走到唤醒词所在路径，以提高唤醒灵敏度。

需要说明的是，虽然上述对应每个技术问题对其主要思路进行了说明，但是，为了解决技术问题，具体的技术方案不限于上述的主要思路，还可以与其他特征相互结合，这些不同技术特征之间的结合依然属于本申请的保护范围。

需要说明的是，虽然上述给出了几种要解决的技术问题，但是，本申请并不限于仅能解决上述技术问题，应用本申请给出的技术方案还可以解决的其他技术问题依然属于本申请的保护范围。

需要说明的是，本申请的每个实施例不限于能够全部完美解决所有的技术问题，而在至少在一定程度上解决至少一个技术问题。

需要说明的是，虽然上述给出了本申请的主要思路，以及后续实施例会对一些特别点进行说明。但是，本申请的创新点并不限于上述的主要思路及特别点所涉及的内容，并不排除本申请中一些并未特殊说明的内容依然可能会包含本申请的创新点。

可以理解的是，虽然上述进行了一些说明，但依然不排除其他可能方案，因此，与后续本申请给出的实施例相同、相似、等同等情况的技术方案依然属于本申请的保护范围。

下面将结合具体实施例对本申请的技术方案进行说明。

本申请的语音唤醒技术可以具体应用于离线场景，即在终端本地应用。当然，可以理解的是，本申请的语音唤醒技术也可以应用在服务端，以实现在线语音唤醒。

本申请中涉及的终端可以是移动终端、车载终端、机载终端、桌面电脑等各种能够应用语音唤醒技术的终端。

图1是本申请一个实施例提出的语音唤醒方法的流程示意图。

本实施例可以至少在一定程度上解决误唤醒率高和功耗高的问题。

如图1所示，本实施例的流程包括：

S11：获取待处理的语音信号。

初始的语音信号是由用户输入的。

本实施例中，为了提高抗噪性，可以对用户输入的语音信号进行音频处理，以得到待处理的语音信号。具体内容可以参见后续描述。

S12：根据预先生成的搜索空间，对所述语音信号进行解码，得到语音识别结果，其中，所述搜索空间包括反模型所在路径，所述反模型包括第一反模型，所述第一反模型根据对唤醒词的分词结果训练生成。

其中，当获取到待处理的语音信号后，可以对该语音信号进行特征提取，获取声学特征，之后采用声学特征在搜索空间中进行最优路径搜索，将最优路径对应的文本确定为语音识别结果。

搜索空间中包括多条路径，具体可以包括：唤醒词所在路径、反模型所在路径，其中，反模型是用于在语音解码时将非唤醒词引导到反模型所在路径。

本实施例中，一个反模型称为第一反模型，该第一反模型是根据对唤醒词的分词结果进行训练生成的。例如，唤醒词是“百度一下”(唤醒词可设置)，则可以先对该唤醒词进行分词，分词原则可以是分为首字、当大于三个字时再两两分词，如分词结果是“百”、“百度”和“一下”，则可以将“百度”和“一下”作为训练数据参与反模型的训练，以得到第一反模型。

通过第一反模型，则“百+非‘度一下’”，或者，“百度+非‘一下’”将走到反模型所在路径，避免误唤醒。

S13：当获取到所述语音识别结果的前面的预设个数的字时，判断所述预设个数的字中是否包含唤醒词中的至少部分字。

其中，预设个数的字例如为3个，则当获取到语音信号对应的前3个字时，可以判断这前3个字中是否包含唤醒词中的至少部分字。例如，唤醒词是“百度一下”，则判断前3个字中是否是“百度一”，或者，判断前3个字中的后两个字是否是“百度”，或者，判断前3个字中的最后一个字是否是“百”。

S14：如果不包含，则直接确定不唤醒，结束对所述语音信号的解码。

例如，如果前3个字不是“百度一”，且，前3个字中的后两个字不是“百度”，且，前3个字中的最后一个字不是“百”，则直接确定不唤醒，不执行唤醒操作。

另外，当根据前3个字确定不唤醒时，还直接结束对语音信号的解码，即由于语音信号是一段信号，除了前3个字还可以有后续的一个或多个字。本实施例中，当识别出前3个字，并且根据前3个字确定不唤醒时，不需要再继续识别后续的字，而直接结束对这段语音信号的识别，从而可以降低功耗。

本实施例中，通过采用根据唤醒词的分词结果训练得到的第一反模型，可以降低误唤醒率。通过在语音识别结果的前面预设个数的字不包含唤醒词的至少部分内容时，直接确定不唤醒，并结束语音解码，可以降低功耗。

图2是本申请另一个实施例提出的语音唤醒方法的流程示意图。

本实施例可以至少在一定程度上解决误唤醒率高、功耗高、全程联网、抗噪能力差、唤醒词数量仅为一个、唤醒灵敏度差等问题。

可以理解的是，本实施例给出了一个相对解决较全面问题的技术方案，但是，本申请不限于本实施例的方案，还可以将解决不同技术问题的技术特征单独组成技术方案，或者，将不同技术特征进行其他方式的任意多个的组合以得到新的技术方案。

如图2所示，本实施例的流程包括：

S201：构图生成搜索空间。

其中，参见图3，搜索空间可以包括多条路径，包括唤醒词所在路径31和反模型所在路径32。

本实施例中，为了解决用户一句话中夹杂唤醒词的问题，搜索空间中还包括唤醒词和反模型串联所在的路径33。

进一步的，该路径33上经过唤醒词后可以直接进入静音(SIL)状态，或者经过反模型再进入SIL状态。

本实施例中，为了提高唤醒灵敏度，还可以对唤醒词所在路径进行加权，即对唤醒词所在路径的权重在原始基础上进行增加，以使唤醒词更容易进入到唤醒词所在路径。

唤醒词可以设置为一个或多个。

上述的反模型可以包括第一反模型和第二反模型，具体可以由第一反模型和第二反模型并联而成，或者，加权并联等。

如上所示，第一反模型是对唤醒词的分词结果进行训练后生成的。

本实施例中，第二反模型不是直接对语料进行训练生成，而是对语料的聚类结果进行训练后生成的，以降低第二反模型的规模，更利于应用于终端本地。

具体的，可以利用一些常用的语音语料，对发音的音节进行聚类，如聚类成26个，则对应26个字，之后可以根据这26个字训练生成第二反模型，该第二反模型是一个精简模型。

通过上述流程可以完成搜索空间的生成。

可以理解的是，搜索空间可以是在语音唤醒之前预先生成的。

当需要进行语音唤醒时，还执行如下步骤：

S202：接收用户输入的语音信号。

例如，用户对终端说了一段话。

可以理解的是，在接收语音信号之前还可以进行一些初始化流程。例如，可以设置唤醒词、生成搜索空间，并对音频处理模块进行初始化等。

S203：对所述语音信号进行音频处理。

本实施例中的音频处理可以具体包括：降噪和语音增强处理。

其中，降噪又可以分为对低频噪声的降噪，以及对非低频噪声的降噪。

具体的，空调、车载发动机等噪声均属于低频噪声，可以采用高通滤波技术消除低频噪声。

背景的音乐或者人声等噪声属于非低频噪声，可以采用噪声抑制(NoiseSuppression，NS)技术消除非低频噪声。

受到硬件麦克风不同增益的影响，有些语音信号的音量可能会处于一个较低的水平，因此，可以采用自动增益控制(Automatic Gain Control，AGC)技术进行语音增强，以将音量过低的音频信号的能量增强到可进行识别的水平。

S204：对音频处理后的语音信号进行语音活动检测(voice activity detection，VAD)。

通过VAD可以得到待处理的语音信号。

S205：根据搜索空间，对待处理的语音信号进行解码，得到语音识别结果。

在解码时，可以先对语音信号提取声学特征，再将声学特征在搜索空间中进行搜索，得到最优路径作为语音识别结果。具体的，搜索算法可以是viterbi搜索算法。

本实施例中，在搜索过程中如果发现某条路径是异常路径，则可以直接结束对该路径的搜索，这样可以缩小搜索范围、提高搜索效率，降低功耗。在异常路径的判断时，以声学模型是隐马尔可夫模型(Hidden Markov Model，HMM)为例，如果在一条路径上搜索时得到相邻状态的声学模型的得分的差值大于预设值，则可以将这条路径确定为异常路径。

进一步的，如果在一段VAD检测的语音当中包含一个以上的唤醒词，可以会在检测唤醒词之后，立刻对VAD进行重置，重新开始进行唤醒词检测过程，以免在一段VAD当中只能命中一个唤醒词的现象发生。

S206：当获取到语音识别结果的前3个字时，判断前3个字中是否包含唤醒词中的至少部分字，若是，执行S207，否则执行S209。

S207：继续语音识别，判断整个语音识别结果中是否包含唤醒词，若是，执行S208，否则执行S209。

S208：执行唤醒操作。

S209：不唤醒。

其中，当连接S207时，在确定不唤醒时，还直接结束对语音信号的解码。

S210：资源释放。

当不唤醒或唤醒后，可以进行资源释放。

资源释放主要功能是对初始化加载的各类资源所占用的内存进行释放，并完成唤醒模块的重置工作，清除历史缓存数据等内容。

本实施例中，通过采用根据唤醒词的分词结果训练得到的第一反模型，可以降低误唤醒率。通过在语音识别结果的前面预设个数的字不包含唤醒词的至少部分内容时，直接确定不唤醒，并结束语音解码，可以降低功耗。通过对语音信号进行音频处理，可以提高抗噪能力。通过对语料的聚类结果进行训练生成反模型，可以减小该反模型的规模，从而可以应用在终端本地，以解决需要全程联网的问题。通过设置多个唤醒词，可以实现通过任一个唤醒词的唤醒。通过对唤醒词所在路径的加权处理，可以提高唤醒灵敏度。通过在解码时直接结束异常路径的搜索，可以降低功耗。通过在搜索空间中包括反模型和唤醒词串联的路径，可以在用户夹杂唤醒词的一句话中依然成功完成唤醒，提高唤醒精度。

图4是本申请一个实施例提出的语音唤醒装置的结构示意图。

如图4所示，该装置40包括：获取模块41、解码模块42、判断模块43和第一处理模块44。

获取模块41，用于获取待处理的语音信号；

解码模块42，用于根据预先生成的搜索空间，对所述语音信号进行解码，得到语音识别结果，其中，所述搜索空间包括反模型所在路径，所述反模型包括第一反模型，所述第一反模型根据对唤醒词的分词结果训练生成；

判断模块43，用于当获取到所述语音识别结果的前面的预设个数的字时，判断所述预设个数的字中是否包含唤醒词中的至少部分字；

第一处理模块44，用于如果不包含，则直接确定不唤醒，结束对所述语音信号的解码。

一些实施例中，参见图5，所述获取模块41包括：

接收子模块411，用于接收用户输入的语音信号；

音频处理子模块412，用于对所述语音信号进行音频处理；

端点检测子模块413，用于对音频处理后的语音信号进行VAD，得到待处理的语音信号。

一些实施例中，音频处理子模块412具体用于：

对所述语音信号进行高通滤波，以去除低频噪声；

对所述语音信号进行噪声抑制，以去除非低频噪声；

对所述语音信号进行AGC，以增强语音信号的强度。

一些实施例中，参见图5，该装置40还包括：

第二处理模块45，用于如果所述预设个数的字中包含唤醒词中的至少部分字，则继续进行语音解码得到所述语音信号对应的整个语音识别结果；如果所述整个语音识别结果中包含唤醒词，则执行唤醒操作。

一些实施例中，所述反模型还包括：第二反模型，所述第二反模型根据语料的聚类结果训练生成。

一些实施例中，所述搜索空间还包括：唤醒词所在路径，所述唤醒词所在路径的权重进行了加权处理。

一些实施例中，所述搜索空间还包括：反模型和唤醒词串联所在路径。

一些实施例中，所述解码模块42具体用于：在解码时，如果发现异常路径，则直接结束对所述路径的搜索。

一些实施例中，所述唤醒词为多个。

可以理解的是，本实施例的装置与上述方法实施例对应，具体内容可以参见方法实施例的相关描述，在此不再详细说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音唤醒方法，其特征在于，包括：

获取待处理的语音信号；

根据预先生成的搜索空间，对所述语音信号进行解码，得到语音识别结果，其中，所述搜索空间包括反模型所在路径，所述反模型包括第一反模型，所述第一反模型根据对唤醒词的分词结果训练生成；

当获取到所述语音识别结果的前面的预设个数的字时，判断所述预设个数的字中是否包含唤醒词中的至少部分字；

如果不包含，则直接确定不唤醒，结束对所述语音信号的解码；

所述反模型还包括：第二反模型，所述第二反模型根据语料的聚类结果训练生成。

2.根据权利要求1所述的方法，其特征在于，所述获取待处理的语音信号，包括：

接收用户输入的语音信号；

对所述语音信号进行音频处理；

对音频处理后的语音信号进行VAD，得到待处理的语音信号。

3.根据权利要求2所述的方法，其特征在于，所述对所述语音信号进行音频处理，包括：

对所述语音信号进行高通滤波，以去除低频噪声；

对所述语音信号进行噪声抑制，以去除非低频噪声；

对所述语音信号进行AGC，以增强语音信号的强度。

4.根据权利要求1所述的方法，其特征在于，还包括：

如果所述预设个数的字中包含唤醒词中的至少部分字，则继续进行语音解码得到所述语音信号对应的整个语音识别结果；

如果所述整个语音识别结果中包含唤醒词，则执行唤醒操作。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述搜索空间还包括：唤醒词所在路径，所述唤醒词所在路径的权重进行了加权处理。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述搜索空间还包括：反模型和唤醒词串联所在路径。

7.根据权利要求1-4任一项所述的方法，其特征在于，在解码时，如果发现异常路径，则直接结束对所述路径的搜索。

8.根据权利要求1-4任一项所述的方法，其特征在于，所述唤醒词为多个。

9.一种语音唤醒装置，其特征在于，包括：

获取模块，用于获取待处理的语音信号；

解码模块，用于根据预先生成的搜索空间，对所述语音信号进行解码，得到语音识别结果，其中，所述搜索空间包括反模型所在路径，所述反模型包括第一反模型，所述第一反模型根据对唤醒词的分词结果训练生成；

判断模块，用于当获取到所述语音识别结果的前面的预设个数的字时，判断所述预设个数的字中是否包含唤醒词中的至少部分字；

第一处理模块，用于如果不包含，则直接确定不唤醒，结束对所述语音信号的解码；

10.根据权利要求9所述的装置，其特征在于，所述获取模块包括：

接收子模块，用于接收用户输入的语音信号；

音频处理子模块，用于对所述语音信号进行音频处理；

端点检测子模块，用于对音频处理后的语音信号进行VAD，得到待处理的语音信号。

11.根据权利要求9所述的装置，其特征在于，还包括：

第二处理模块，用于如果所述预设个数的字中包含唤醒词中的至少部分字，则继续进行语音解码得到所述语音信号对应的整个语音识别结果；如果所述整个语音识别结果中包含唤醒词，则执行唤醒操作。

12.根据权利要求9-11任一项所述的装置，其特征在于，所述解码模块具体用于：在解码时，如果发现异常路径，则直接结束对所述路径的搜索。