CN114694638A

CN114694638A - 一种语音唤醒方法、终端及存储介质

Info

Publication number: CN114694638A
Application number: CN202210410539.9A
Authority: CN
Inventors: 蒋非颖; 刘爱锋
Original assignee: Shenzhen Weiai Intelligent Co ltd
Current assignee: Shenzhen Weiai Intelligent Co ltd
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2022-07-01

Abstract

本申请提供一种语音唤醒方法，应用于一终端，所述终端上设有麦克风阵列和唤醒引擎，包括：通过所述麦克风阵列实时采集音频声源，对所述音频声源做回声消除，确定消除后的多路音频；计算所述多路音频的到来角；识别所述多路音频的到来角信息中出现到来角角度‑时间变化包络；所述唤醒引擎识别唤醒词；所述唤醒引擎唤醒所述终端。本申请还提供一种终端，包括存储器与处理器，所述存储器用于存储至少一条程序指令，所述处理器用于通过加载并执行所述至少一条程序指令以实现如上所述的语音唤醒方法。本发明还提供存储介质，所述存储介质上存储有程序指令；所述程序指令被处理器执行时实现如上所述的语音唤醒方法。

Description

一种语音唤醒方法、终端及存储介质

技术领域

本申请涉及语音唤醒技术领域，具体涉及一种语音唤醒方法、终端及存储介质。

背景技术

唤醒词广泛使用在语音识别的智能设备中。对唤醒词识别引擎性能的影响因素主要是识别率和误识别率，这两者是互相联系的，要想得到更高的识别率，误识别率往往也相应升高。追求的效果是识别率高并且误识别率低。

在智能设备播放音乐，新闻等点播内容时进行打断唤醒，此时有较大的回声干扰，严重影响唤醒词识别，当前一般使用回声消除(AEC)来消除回声的干扰，AEC的性能极大的影响打断唤醒的效果。

AEC的抑制能力是有限的，即使在良好的声学设计的系统中，当前AEC广泛采用的自适应线性滤波技术加残余回声后处理技术一般也只能对声学回声提供20-40dB的抑制。然而智能设备为了满意的响度经常会使用大功率喇叭，并且由于尺寸限制，喇叭还会很靠近麦克风，而同时往往要求远场唤醒。造成系统的信回比很小，回声能量远大于信号能量。

在实际设备中，由于成本和尺寸等限制，回声通路往往存在严重的非线性情况，通常由于低成本的喇叭，麦克风性能不佳，设备结构共振等因素引起。而目前AEC主要消除线性回声，对非线性回声的消除不理想，非线性回声会有较大残留。

所以在上述情况下，AEC有时无法较好的消除回声，导致AEC之后还有较强残留回声，这些残留回声会导致语音唤醒引擎的唤醒率降低，误唤醒率增加。

前面的叙述在于提供一般的背景信息，并不一定构成现有技术。

发明内容

本申请的目的在于，提供一种提高识别率的语音唤醒方法、终端及存储介质。

本发明提供一种语音唤醒方法，应用于一终端，所述终端上设有麦克风阵列和唤醒引擎，包括：

通过所述麦克风阵列实时采集音频声源，对所述音频声源做回声消除，确定消除后的多路音频；

计算所述多路音频的到来角；

识别所述多路音频的到来角信息中出现到来角角度-时间变化包络；

所述唤醒引擎识别唤醒词；

所述唤醒引擎唤醒所述终端。

进一步地，所述唤醒引擎唤醒所述终端，包括：

当识别到所述多路音频的到来角信息中出现到来角角度-时间变化包络，所述唤醒引擎在该时间区间内接收到的所述多路音频中识别所述唤醒词，所述唤醒引擎在识别到所述唤醒词后唤醒所述终端。

进一步地，所述唤醒引擎唤醒所述终端，包括：

当所述唤醒引擎识别到所述唤醒词后，确认所述多路音频的到来角信息中出现到来角角度-时间变化包络，所述唤醒引擎唤醒唤醒所述终端。

进一步地，还包括：

对比所述多路音频在回声消除前后的到来角置信度差异。

进一步地，所述唤醒引擎唤醒所述终端，包括：

当所述唤醒引擎识别到所述唤醒词后，对比所述多路音频在回声消除前后的到来角置信度差异，当出现到来角置信度差异包络时，确认所述多路音频的到来角信息中出现到来角角度-时间变化包络后唤醒所述终端。

进一步地，还包括：

在计算所述多路音频的到来角后，对所述多路音频的到来角做平滑处理。

进一步地，所述到来角角度-时间变化包络为：在到来角序列中，检测到到来角的角度变化超过第一预设值并持续第一预设时间后到来角回到第一预设值内，提取此角度变化-维持-返回的时间段，称其为到来角角度-时间变化包络。

进一步地，所述到来角置信度差异包络为：在到来角置信度序列中，检测到到来角置信度的变化超过第二预设值并持续第二预设时间后到来角置信度回到第二预设值内，提取此置信度变化-维持-返回的时间段，称其为到来角置信度差异包络。

本发明还提供一种终端，包括存储器与处理器，所述存储器用于存储至少一条程序指令，所述处理器用于通过加载并执行所述至少一条程序指令以实现如上所述的语音唤醒方法。

本发明还提供存储介质，所述存储介质上存储有程序指令；所述程序指令被处理器执行时实现如上所述的语音唤醒方法。

本发明提供的语音唤醒方法，通过识别到来角角度-时间变化包络来提高唤醒引擎的识别率，由于回声的角度由喇叭相对麦克风的位置，以及房间声学特性确定，它往往比较固定或随时间缓慢变化、相对平稳，而唤醒词的角度大部分时候和回声的角度不一致并随唤醒词出现和消失，当唤醒词出现时语音到来角可以看到比较明显的短时到来角角度-时间变化包络，它从回声的角度过度到唤醒词的角度，持续短时间后，又回到残留回声角度。当回音和语音角度相近或相同的情况下，唤醒词到来角与回音的到来角相近，通过比对回音消除前后的到来角置信度的差异来辅助区分回声和语音，回声成分在回声消除后被降低，相应的回声消除前后其到来角置信度会有明显降低，而唤醒词语音成分不会被消除，置信度不会明显改变。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种语音唤醒方法的流程图；

图2是本发明第二实施例提供的一种语音唤醒方法的流程图；

图3是本发明第三实施例提供的一种语音唤醒方法的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素，此外，本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义，也可能具有不同含义，其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。

应当理解，尽管在本文可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本文范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语"如果"可以被解释成为"在……时"或"当……时"或"响应于确定"。再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

应该理解的是，虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本申请的说明，其本身没有特定的意义。因此，“模块”、“部件”或者“单元”可以混合地使用。

后续描述中将以终端为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本申请的实施方式的构造也能够应用于固定类型的终端。

第一实施例

请参考图1，本发明第一实施例提供一种语音唤醒方法，应用于一终端，该终端上设有麦克风阵列和唤醒引擎。

该语音唤醒方法包括如下步骤：

S11：通过所麦克风阵列实时采集音频声源，对音频声源做回声消除，确定消除后的多路音频；

S12：计算多路音频的到来角，对多路音频的到来角做平滑处理；

S13：识别多路音频的到来角信息中是否出现到来角角度-时间变化包络；

S14：当多路音频的到来角信息中出现到来角角度-时间变化包络时，唤醒引擎在在该时间区间内接收到的多路音频中识别唤醒词；

S15：当唤醒引擎识别到唤醒词后唤醒终端。

对于步骤S11，对所述音频声源做回声消除，确定消除后的多路音频。对于声学回声消除，消除算法有2类，包括回声抑制和声学回声消除。回声抑制算法是较早的一种回声控制算法。回声抑制是一种非线性的回声消除。它通过简单的比较器将准备由扬声器播放的声音与当前话筒拾取的声音的电平进行比较，如果前者高于某个阈值，那么就允许传至扬声器，而且话筒被关闭，以阻止它拾取扬声器播放的声音而引起远端回声。如果话筒拾取的声音电平高于某个阈值，扬声器被禁止，以达到消除回声的目的。由于回声抑制是一种非线性的回声控制方法，会引起扬声器播放的不连续，影响回声消除的效果，随着高性能的回声消除器的出现。声学回声消除算法是对扬声器信号与由它产生的多路径回声的相关性为基础，建立远端信号的语音模型，利用它对回声进行估计，并不断地修改滤波器的系数，使得估计值更加逼近真实的回声。然后，将回声估计值从话筒的输入信号中减去，从而达到消除回声的目的。

对于步骤S12，计算多路音频的到来角是对多路音频逐帧计算到来角，得到到来角序列。由于回声的角度由喇叭相对麦克风的位置，以及房间声学特性确定，它往往比较固定或随时间缓慢变化、相对平稳，而唤醒词的角度大部分时候和回声的角度不一致并随唤醒词出现和消失，语音到来角经过平滑后，当唤醒词出现时语音到来角可以看到比较明显的短时到来角角度-时间变化包络，它从回声的角度过度到唤醒词的角度，持续短时间后，又回到残留回声角度。其中，对多路音频的到来角做平滑处理，指的是一种时间上的平均操作，可以减小离群值的影响，可以用一种无限冲击响应滤波器来实现。

对于步骤S13和S14，以每帧多路音频的到来角的值为纵坐标，时间为横坐标建立方程，在没有出现唤醒词的情况下，这个方程曲线基本在一个特定角度，例如30度附近小幅摆动。在到来角序列中，检测到到来角的角度变化超过第一预设值并持续第一预设时间后到来角回到第一预设值内，提取此角度变化-维持-返回的时间段，称其为到来角角度-时间变化包络。在本实施例中，可以将第一预设值设为90度，第一预设时间设为1秒，即将达到90度持续一秒钟的时间段称为到来角角度-时间变化包络。当然，在其他实施例中，预设值也可以根据实际情况设定。

对于步骤S14，当出现到来角角度-时间变化包络，即说明麦克风阵列识别到了语音信息，这种情境下唤醒引擎才从音频中识别唤醒词，避免了回音将终端误唤醒，显著降低误唤醒率。

本实施例还提供一种终端，包括存储器与处理器，存储器用于存储至少一条程序指令，处理器用于通过加载并执行上述至少一条程序指令以实现如上所述的语音唤醒方法。终端可以以各种形式来实施。例如，本申请中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等智能终端，以及诸如数字TV、台式计算机等固定终端。

本实施例还提供一种存储介质，存储介质上存储有程序指令，程序指令被处理器执行时实现如上所述的语音唤醒方法。

第二实施例

请参考图2，本发明第二实施例提供一种语音唤醒方法，应用于一终端，该终端上设有麦克风阵列和唤醒引擎。

该语音唤醒方法包括如下步骤：

S21：通过麦克风阵列实时采集音频声源，对音频声源做回声消除，确定消除后的多路音频；

S22：唤醒引擎识别多路音频中的唤醒词；

S23：当唤醒引擎识别到唤醒词时，计算多路音频的到来角，对多路音频的到来角做平滑处理；

S24：当识别到多路音频的到来角信息中出现到来角角度-时间变化包络时，唤醒引擎唤醒终端。

对于步骤S22至S24，先由唤醒引擎识别唤醒词后，再识别到来角角度-时间变化包络来确定是否为误唤醒，提高语音唤醒的识别率。

第三实施例

请参考图3，本发明第三实施例提供一种语音唤醒方法，应用于一终端，该终端上设有麦克风阵列和唤醒引擎。

该语音唤醒方法包括如下步骤：

S31：通过麦克风阵列实时采集音频声源，对音频声源做回声消除，确定消除后的多路音频；

S32：唤醒引擎识别多路音频中的唤醒词；

S33：唤醒引擎在识别到唤醒词时对比多路音频字回声消除前后的到来角置信度的差异；

S341：当出现到来角置信度差异包络时，唤醒引擎唤醒终端；

S342：当未出现到来角置信度差异包络时，计算多路音频的到来角，对多路音频的到来角做平滑处理，当识别到多路音频的到来角信息中出现到来角角度-时间变化包络的起伏超过预设值时，唤醒引擎唤醒终端。

对于步骤S33和S341，计算回声消除前后的到来角置信度的差异可以用来辅助区分回声和语音。回声成分在回声消除后被降低，相应的，回声消除前后其到来角置信度会有明显降低。而唤醒词语音成分不会被消除，置信度不会明显改变。这个特性可以在回声和语音角度相近或相同的情况下检测唤醒词语音。

逐帧计算到来角置信度，在到来角置信度序列中，检测到到来角置信度的变化超过第二预设值并持续第二预设时间后到来角置信度回到第二预设值内，提取此置信度变化-维持-返回的时间段，称其为到来角置信度差异包络。置信度差异的临界值可根据实际场景设置，例如第二预设值为0.3，第二预设时间为1秒，即在回声消除前后，临界值减少了0.3以上，也就是30％以上，且持续了一秒，则该段音频大概率不是唤醒词。

同时含有唤醒词与回声的语音端，回声消除后，到来角置信度还可能会升高。所以上述方法中到来角置信度差异包络里的到来角置信度变化指的是到来角置信度降低的情况。

对于步骤至S342，只有在唤醒词引擎检测到唤醒词，并且唤醒词置信度低于某一门限(即此唤醒词存疑)，才进一步计算是否有符合的唤醒词角度-时间包络存在，不存在则判断为误唤醒。在其他实施例中，置信度也可以由其他参数代替，例如声学得分(表示检测到的唤醒词和模型之间的声学契合度)。

可以理解，上述场景仅是作为示例，并不构成对于本申请实施例提供的技术方案的应用场景的限定，本申请的技术方案还可应用于其他场景。例如，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例设备中的单元可以根据实际需要进行合并、划分和删减。

在本申请中，对于相同或相似的术语概念、技术方案和/或应用场景描述，一般只在第一次出现时进行详细描述，后面再重复出现时，为了简洁，一般未再重复阐述，在理解本申请技术方案等内容时，对于在后未详细描述的相同或相似的术语概念、技术方案和/或应用场景描述等，可以参考其之前的相关详细描述。

在本申请中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本申请技术方案的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本申请记载的范围。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，被控终端，或者网络设备等)执行本申请每个实施例的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络，或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、存储盘、磁带)、光介质(例如，DVD)，或者半导体介质(例如固态存储盘Solid State Disk(SSD))等。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音唤醒方法，应用于一终端，所述终端上设有麦克风阵列和唤醒引擎，其特征在于，包括：

计算所述多路音频的到来角；

所述唤醒引擎识别唤醒词；

所述唤醒引擎唤醒所述终端。

2.如权利要求1所述的语音唤醒方法，其特征在于，所述唤醒引擎唤醒所述终端，包括：

3.如权利要求1所述的语音唤醒方法，其特征在于，所述唤醒引擎唤醒所述终端，包括：

4.如权利要求3所述的语音唤醒方法，其特征在于，还包括：

对比所述多路音频在回声消除前后的到来角置信度差异。

5.如权利要求4所述的语音唤醒方法，其特征在于，所述唤醒引擎唤醒所述终端，包括：

6.如权利要求1所述的语音唤醒方法，其特征在于，还包括：

7.如权利要求1至6任一所述的语音唤醒方法，其特征在于，所述到来角角度-时间变化包络为：在到来角序列中，检测到到来角的角度变化超过第一预设值并持续第一预设时间后到来角回到第一预设值内，提取此角度变化-维持-返回的时间段，称其为到来角角度-时间变化包络。

8.如权利要求1至6任一所述的语音唤醒方法，其特征在于，所述到来角置信度差异包络为：在到来角置信度序列中，检测到到来角置信度的变化超过第二预设值并持续第二预设时间后到来角置信度回到第二预设值内，提取此置信度变化-维持-返回的时间段，称其为到来角置信度差异包络。

9.一种终端，其特征在于，包括存储器与处理器，所述存储器用于存储至少一条程序指令，所述处理器用于通过加载并执行所述至少一条程序指令以实现如权利要求1所述的语音唤醒方法。

10.一种存储介质，其特征在于，所述存储介质上存储有程序指令；所述程序指令被处理器执行时实现如权利要求1所述的语音唤醒方法。