CN111028842A

CN111028842A - 触发语音交互响应的方法及设备

Info

Publication number: CN111028842A
Application number: CN201911261477.4A
Authority: CN
Inventors: 罗骏
Original assignee: Shanghai Xinyi Intelligent Technology Co Ltd
Current assignee: Shanghai Xinyi Intelligent Technology Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-04-17
Anticipated expiration: 2039-12-10
Also published as: CN111028842B

Abstract

本申请提供了一种触发语音交互响应的方法及设备，能够接收用户语音并识别出关键词，再获取该关键词对应的唇部变化图像序列，进一步对该唇部变化图像序列与该关键词进行匹配，得到匹配置信度，如果匹配置信度符合预先定义的语音交互响应规则，则触发语音交互响应，从而提高了响应的准确率，降低了语音交互响应的误触发率，提升了用户体验。

Description

触发语音交互响应的方法及设备

技术领域

本申请涉及语音识别领域，尤其涉及一种触发语音交互响应的方法及设备。

背景技术

当前，在语音对话系统中触发系统响应的技术主要有唤醒词技术和关键词技术，使用唤醒词技术的语音对话系统仅仅在检测到唤醒词之后才进行响应，关注的是唤醒词是否作为引导词位于语音的开头，往往还需要根据语音识别结果中唤醒词的置信度做拒识评价，如果评价分数过低则拒绝进行响应，唤醒词例如Amazon的“Alex”，小米的“小爱同学”等。

随着技术的发展以及用户对更加自然的人机对话方式的需求，关键词技术应运而生，使用关键词技术的语音对话系统可根据用户语音中的关键词自动判断出是否需要进行响应和进行怎样的响应。关键词技术还可以对语音识别的结果做进一步的语义分析，再根据语义分析的结果判断是否进行响应，例如，对于车载语音对话系统，系统需要判断当前的指令是否与车载系统相关，如调节温度、设定导航等等，对于这一类的指令需要做出响应，其他的内容例如用户对话聊天则可以忽略。

由于实际的声学环境比较复杂，噪声环境下唤醒词的语音识别准确度大大降低，置信度估计也受到很大影响；另外，在关键词的语音识别结果不准确的情况下，语义分析的可靠性也受到影响，因此，唤醒词技术和关键词技术都存在误触发率较高的问题，难以在及时响应的前提下降低误触发率。

另外，还有方案通过采集用户的嘴唇变化图像并将该图像与预设的嘴唇变化图像进行匹配，如果匹配则可以唤醒语音交互功能。该方案的问题在于仅仅与预设图像进行对比，从而灵活性不高。

发明内容

本申请的一个目的是提供一种触发语音交互响应的方法及设备，用于解决现有语音识别技术中误触发率高的问题。

为实现上述目的，本申请提供了一种触发语音交互响应的方法，其中，该方法包括：

接收用户语音，并对所述用户语音进行关键词语音识别；

若识别到关键词，获取与所述关键词对应的唇部变化图像序列；

确定所述唇部变化图像序列与所述关键词的匹配置信度；

若所述匹配置信度满足预设的语音交互响应规则，则触发语音交互响应。

进一步地，对所述用户语音进行关键词语音识别，包括：

将所述用户语音与预设的关键词语音识别模型匹配，确定所述用户语音中是否有关键词。

进一步地，所述关键词语音识别模型的语法规则基于上下文无关文法建立。

进一步地，获取与所述关键词对应的唇部变化图像序列，包括：

获取所述关键词在所述用户语音中的开始时间和结束时间；

获取与所述用户语音同步采集的唇部变化图像序列；

获取所述唇部变化图像序列中所述开始时间和所述结束时间之间的唇部变化图像序列。

进一步地，确定所述唇部变化图像序列与所述关键词的匹配置信度，包括：

获取所述关键词的文本；

将所述唇部变化图像序列与所述关键词的文本进行匹配，获取相应的匹配置信度。

进一步地，将所述唇部变化图像序列与所述关键词的文本进行匹配，获取相应的匹配置信度，包括：

对所述关键词的文本进行序列标注，获取序列标注后的关键词文本；

对所述唇部变化图像序列与所述序列标注后的关键词文本进行匹配，获取相应的匹配置信度。

进一步地，所述匹配置信度P通过如下公式进行计算：

其中，P(W)为将所述唇部变化图像序列与关键词的文本进行比对得到的似然概率，∑P(W_i)为对所述唇部变化图像序列进行解码得到多种解码结果的似然概率之和。

进一步地，若所述匹配置信度满足预设的语音交互响应规则，则触发语音交互响应，包括：

若所述匹配置信度超过预设的语音交互响应阈值，则触发语音交互响应。

另一方面，本申请还提供了一种设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，处理器执行计算机程序指令，使该设备执行前述触发语音交互响应的方法。

本申请还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述触发语音交互响应的方法。

与现有技术相比，本申请提供的方案能够接收用户语音并识别出关键词，再获取该关键词对应的唇部变化图像序列，进一步对该唇部变化图像序列与该关键词进行匹配，得到匹配置信度，如果匹配置信度符合预先定义的语音交互响应规则，则触发语音交互响应，从而提高了响应的准确率，降低了语音交互响应的误触发率，提升了用户体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请的一些实施例提供的一种触发语音交互响应的方法的流程图。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、网络设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

图1演示了本申请的一些实施例提供的一种触发语音交互响应的方法，该方法具体包括如下步骤：

步骤S101，接收用户语音，并对所述用户语音进行关键词语音识别；

步骤S102，若识别到关键词，获取与所述关键词对应的唇部变化图像序列；

步骤S103，确定所述唇部变化图像序列与所述关键词的匹配置信度；

步骤S104，若所述匹配置信度满足预设的语音交互响应规则，则触发语音交互响应。

该方法尤其适合用于语音交互系统对接收的用户语音判断是否进行响应的场景，能够对用户语音进行语音识别并确定语音中是否有关键词，如果识别出关键词则再将关键词对应的唇部变化图像与该关键词进行匹配，在匹配置信度满足预先定义的语音交互响应规则时，触发相应的语音交互响应。

在步骤S101中，首先接收用户语音，再对接收的用户语音进行关键词语音识别。在此，关键词包括可用于激活语音交互响应的预先定义的词语，该预先定义的词语通常出现在用户语音的中间或末尾；关键词还可以包括唤醒词，唤醒词是用户语音的开始词语，语音交互系统可在识别出唤醒词后激活语音交互响应。在此，关键词以文本形式进行定义，并可通过表示音素的隐含马尔可夫模型及可以把关键词翻译为音素(或音标)的字典模型得到关键词的模型表示。

本申请的一些实施例中，对用户语音进行关键词语音识别，可使用如下方法：将用户语音与预设的关键词语音识别模型匹配，确定用户语音中是否有关键词。在此，语音交互系统已经预先建立了关键词语音识别模型，该模型定义了可用于激活语音交互的关键词，并且可对用户语音中的关键词进行识别。优选地，关键词语音识别模型的语法规则可基于上下文无关文法建立，使用该文法可使得语音中的词语被其它词语任意替代而不需要考虑该词语在语音中的上下文，语音识别时只会在该语法规则限定的范围内进行搜索。选择上下文无关文法可使得关键词语音识别模型实现比较简单，同时也具有足够强的语音识别能力。

另外，关键词语音识别模型是经过训练后得到的模型，模型的构建可通过将大量预先标注有其中关键词的用户语音作为训练数据输入初始模型，并通过持续训练来调整模型参数，训练结束后得到最终的关键词语音识别模型。在此，可通过训练深度神经网络或训练循环神经网络的参数来得到表示音素的参数模型。

本申请的一些实施例中，关键词语音识别模型的语法规则可包括唤醒词，具体形式可例如为：唤醒词+<…>，其中<…>表示任意语音，可以匹配任何文字信息，在此唤醒词可为语音形式，也可为文本形式。

本申请的一些实施例中，关键词语音识别模型的语法规则可包括可用于激活语音交互响应的预先定义的词语，具体形式可例如为：<…>+<关键词1>+<…>|<…>+<关键词2>+<…>|…，其中<…>表示任意语音，可以匹配任何文字信息，关键词1、关键词2等可为语音形式，也可为文本形式。“|”表示“或”关系，即识别结果可以是若干可能路径的组合。关键词可例如为“播放音乐”/“调整温度”等。识别出关键词之后，再基于关键词进行语义解析。如果用户语音识别结果中不包括关键词，或语义解析后包含关键词的结果置信度太低，则停止后续的处理。

在此，对用户语音进行识别得到文字，可使用多种方法，例如隐含马尔可夫模型(Hidden Markov Model，HMM)、连接时序分类模型(Connectionist TemporalClassification，CTC)、序列到序列方法(Sequence-to-Sequence)等；可通过隐含马尔可夫模型对音素进行建模，根据语法规则及词典构建搜索网络，再通过有限状态自动机模型做解码；也可通过连接时序分类模型对字符做解码；还可以通过序列到序列方法直接将语音序列转换为文本序列等。

在步骤S102中，若识别到关键词，获取与关键词对应的唇部变化图像序列。在此，通过语音识别模型识别出关键词，该关键词可能是正确的可触发语音交互响应的关键词，也可能是受到噪声干扰导致错误的语音识别得到的关键词。为避免错误的触发语音交互响应，可对该关键词进行下一步的确认。

本申请的一些实施例中，获取与所述关键词对应的唇部变化图像序列，可具备包括如下步骤：

1)获取所述关键词在所述用户语音中的开始时间和结束时间；

2)获取与所述用户语音同步采集的唇部变化图像序列；

3)获取所述唇部变化图像序列中所述开始时间和所述结束时间之间的唇部变化图像序列。

在此，通过获取与识别出的关键词相对应的唇部变化图像序列来进一步进行确认。在对用户语音进行识别得到关键词时，同时可得到该关键词在用户语音中相应的开始时间和结束时间，开始时间标记该关键词的开始，结束时间标记该关键词的结束，例如，识别得到的关键词及相应时间可为：Alexa[start:50ms，end:600ms]<…>[start:650ms，end:1000ms]。另外，语音交互系统在采集用户语音时同步对用户的唇部变化情况进行采集，例如可通过摄像头、摄像机等图像采集设备对准用户唇部采集唇部变化图像。在此，采集的用户唇部变化情况可以为唇部变化视频，也可以是由多张唇部变化图像组成的唇部变化图像序列，如果为唇部变化视频，可将唇部变化视频分拆成为唇部变化图像序列。唇部变化图像也对应有相应的拍摄时间，从而可获取一段时间内的唇部变化图像序列。由于用户语音和唇部变化图像序列是同步采集，因此关键词对应的开始时间和结束时间也是关键词对应的唇部变化情况的开始时间和结束时间，可根据关键词的开始时间和结束时间在全部唇部变化图像序列中截取该关键词对应的唇部变化图像序列。

在步骤S103中，确定唇部变化图像序列与关键词的匹配置信度。本申请的一些实施例中，可具体包括如下步骤：获取该关键词的文本；将唇部变化图像序列与该关键词的文本进行匹配，获取相应的匹配置信度。具体来说，将唇部变化图像序列与关键词的文本进行匹配，获取相应的匹配置信度，包括如下步骤：对关键词的文本进行序列标注，获取序列标注后的关键词文本；对唇部变化图像序列与序列标注后的关键词文本进行匹配，获取相应的匹配置信度。序列标注的输入是一个序列，输出也是一个序列。在此，可将关键词的文本翻译为图像识别可理解的序列标注，例如音标序列，再将唇部变化图像序列与序列标注后的文本对齐并计算相应的匹配置信度，这里的匹配置信度可理解为后验概率。

在此，唇部变化图像序列与关键词的文本进行匹配，通过预先训练的模型进行，该模型可根据预设的关键词与对应的唇部变化图像序列进行训练，从而确定模型参数。

本申请的一些实施例中，匹配置信度P可通过如下公式进行计算：

其中，P(W)为将所述唇部变化图像序列与关键词的文本进行比对得到的似然概率，∑P(W_i)为对所述唇部变化图像序列进行解码得到多种解码结果的似然概率之和，W为关键词。具体来说，∑P(W_i)是对唇部变化图像序列进行无限定解码所得到的所有可能解码结果的似然概率之和，在此，无限定解码指的是不限定识别文法，即唇部变化图像序列的识别结果可以是任意的音素/文字序列。类似于语音识别中对音频流进行解码，对唇部变化图像序列进行无限定解码可以得到多个可能的识别结果，每个结果有相应的概率量度P(W_i)。对唇部变化图像序列进行解码可采用类似语音识别的技术，例如通过连接时序分类模型(CTC)或其它方法进行解码等。

在步骤S104中，若该匹配置信度满足预设的语音交互响应规则，则触发语音交互响应。具体来说，预设的语音交互响应规则可定义为与预设语音交互响应阈值进行比较，如果匹配置信度超过预设的语音交互响应阈值，则触发语音交互响应。触发语音交互响应可包括多种后续的处理流程，如触发更加复杂的识别文法及自然语言处理系统，记录对话状态，从而可以进行多轮的人机对话过程等。

本申请的一些实施例还提供了一种设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，使该设备执行前述触发语音交互响应的方法。

本申请的一些实施例还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述触发语音交互响应的方法。

本申请的方案不是仅仅使用语音识别技术或唇部变化识别技术，而是通过语音识别技术做第一步的唤醒判断，只有在语音置信度超过一定阈值的前提下，再通过唇部变化识别做进一步的确认，从而降低了嘈杂环境下语音交互系统的误触发率。另外，与现有唇部变化识别技术不同的是，本申请方案提供了将唇部变化图像转化为文字序列并给出相应置信度度量的功能，从而不需要预设图像，只需要预设的关键词文本，从而提高了配置灵活性。

综上所述，本申请提供的方案能够接收用户语音并识别出关键词，再获取该关键词对应的唇部变化图像序列，进一步对该唇部变化图像序列与该关键词进行匹配，得到匹配置信度，如果匹配置信度符合预先定义的语音交互响应规则，则触发语音交互响应，从而提高了响应的准确率，降低了语音交互响应的误触发率，提升了用户体验。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该设备运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种触发语音交互响应的方法，其中，该方法包括：

接收用户语音，并对所述用户语音进行关键词语音识别；

确定所述唇部变化图像序列与所述关键词的匹配置信度；

2.根据权利要求1所述的方法，其中，对所述用户语音进行关键词语音识别，包括：

3.根据权利要求2所述的方法，其中，所述关键词语音识别模型的语法规则基于上下文无关文法建立。

4.根据权利要求1所述的方法，其中，获取与所述关键词对应的唇部变化图像序列，包括：

获取所述关键词在所述用户语音中的开始时间和结束时间；

获取与所述用户语音同步采集的唇部变化图像序列；

5.根据权利要求1所述的方法，其中，确定所述唇部变化图像序列与所述关键词的匹配置信度，包括：

获取所述关键词的文本；

6.根据权利要求5所述的方法，其中，将所述唇部变化图像序列与所述关键词的文本进行匹配，获取相应的匹配置信度，包括：

7.根据权利要求6所述的方法，其中，所述匹配置信度P通过如下公式进行计算：

8.根据权利要求1所述的方法，其中，若所述匹配置信度满足预设的语音交互响应规则，则触发语音交互响应，包括：

9.一种设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，使该设备执行权利要求1至8中任一项所述的方法。

10.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至8中任一项所述的方法。