CN111179931A

CN111179931A - 用于语音交互的方法、装置及家用电器

Info

Publication number: CN111179931A
Application number: CN202010006005.0A
Authority: CN
Inventors: 张海萍; 马路; 黄华; 赵培; 陈鹏; 苏腾荣
Original assignee: Qingdao Haier Technology Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2020-05-19
Anticipated expiration: 2040-01-03
Also published as: CN111179931B

Abstract

本申请涉及智能家电技术领域，公开一种用于语音交互的方法，包括：对唤醒语音进行回声消除并获取干扰噪音能量；根据所述干扰噪音能量对回声消除后的唤醒语音进行去干扰能量处理；获得去干扰能量后的唤醒语音的能量均峰值；对所述能量均峰值进行能量归一化处理。该方法通过对唤醒语音进行回声消除，并对回声消除后的唤醒语音进行去干扰能量处理，能够得到相对干净的唤醒语音能量；通过计算唤醒语音的能量均峰值，达到分布式竞争响应的目的，能够提高分布式竞争响应决策中能量特征计算的准确度。本申请还公开一种用于语音交互的装置及家用电器。

Description

用于语音交互的方法、装置及家用电器

技术领域

本申请涉及智能家电技术领域，例如涉及一种用于语音交互的方法、装置及家用电器。

背景技术

目前，随着智能家居中智能设备的日益增多，多设备在语音交互时需要竞争响应才能避免“一呼百应”的问题。但是家庭环境中各种干扰噪音繁多，除了稳态噪音，还有大量非稳态噪音，包括智能设备播放的音乐、语音类自噪音等。这类噪声能量大且不规律，从而影响分布式语音交互设备竞争响应决策中所依赖的能量特征计算的准确度。

在实现本公开实施例的过程中，发现相关技术中至少存在如下问题：采用唤醒语音特定频域中的能量均峰值打分，能相对提升抗噪能力，但对于智能家居环境中分布式竞争响应的大量强干扰非稳态噪音却无能为力，这类噪声能量大且不规律，影响了能量特征计算的准确度。

发明内容

为了对披露的实施例的一些方面有基本的理解，下面给出了简单的概括。所述概括不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围，而是作为后面的详细说明的序言。

本公开实施例提供了一种用于语音交互的方法、装置及家用电器，以解决目前分布式竞争响应决策中能量特征计算的准确度较低的技术问题。

在一些实施例中，所述用于语音交互的方法，包括：对唤醒语音进行回声消除并获取干扰噪音能量；根据所述干扰噪音能量对回声消除后的唤醒语音进行去干扰能量处理；获得去干扰能量后的唤醒语音的能量均峰值；对所述能量均峰值进行能量归一化处理。

在一些实施例中，所述用于语音交互的装置包括：包括处理器和存储有程序指令的存储器，该处理器被配置为在执行所述程序指令时，执行上述的用于语音交互的方法。

在一些实施例中，所述家用电器包括上述的用于语音交互的装置。

本公开实施例提供的用于语音交互的方法、装置及家用电器，可以实现以下技术效果：通过对唤醒语音进行回声消除，并对回声消除后的唤醒语音进行去干扰能量处理，能够得到相对干净的唤醒语音能量；通过计算唤醒语音的能量均峰值，达到分布式竞争响应的目的，能够提高分布式竞争响应决策中能量特征计算的准确度。

以上的总体描述和下文中的描述仅是示例性和解释性的，不用于限制本申请。

附图说明

一个或多个实施例通过与之对应的附图进行示例性说明，这些示例性说明和附图并不构成对实施例的限定，附图中具有相同参考数字标号的元件示为类似的元件，附图不构成比例限制，并且其中：

图1是本公开实施例提供的一个用于语音交互的方法的示意图；

图2是本公开实施例提供的另一个用于语音交互的方法的示意图；

图3是本公开实施例提供的另一个用于语音交互的装置的示意图。

具体实施方式

为了能够更加详尽地了解本公开实施例的特点与技术内容，下面结合附图对本公开实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本公开实施例。在以下的技术描述中，为方便解释起见，通过多个细节以提供对所披露实施例的充分理解。然而，在没有这些细节的情况下，一个或多个实施例仍然可以实施。在其它情况下，为简化附图，熟知的结构和装置可以简化展示。

本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开实施例的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。

除非另有说明，术语“多个”表示两个或两个以上。

本公开实施例中，字符“/”表示前后对象是一种“或”的关系。例如，A/B表示：A或B。

术语“和/或”是一种描述对象的关联关系，表示可以存在三种关系。例如，A和/或B，表示：A或B，或，A和B这三种关系。

结合图1所示，本公开实施例提供一种用于语音交互的方法，包括：

S101.对唤醒语音进行回声消除并获取干扰噪音能量；

S102.根据干扰噪音能量对回声消除后的唤醒语音进行去干扰能量处理；

S103.获得去干扰能量后的唤醒语音的能量均峰值；

S104.对能量均峰值进行能量归一化处理。

通过对唤醒语音进行回声消除，并对回声消除后的唤醒语音进行去干扰能量处理，能够得到相对干净的唤醒语音能量；通过计算唤醒语音的能量均峰值，达到分布式竞争响应的目的，能够提高分布式竞争响应决策中能量特征计算的准确度。

可选地，对唤醒语音进行回声消除，包括：获取唤醒语音和唤醒语音对应的参考信号；根据唤醒语音对应的参考信号对唤醒语音进行回声消除。

通过对唤醒语音进行回声消除，能够对大量强干扰、非稳态噪音进行了回声消除，同时，能更好地对播放端的设备自噪音进行消除。

可选地，获取干扰噪音能量包括：获取环境噪声和环境噪声对应的参考信号；根据环境噪声对应的参考信号对环境噪声进行回声消除，根据回声消除后的环境噪声获得干扰噪音能量。

通过对干扰噪音进行回声消除，这样，能更好地消除环境中的强干扰的噪音，对各种环境噪音能量的智能减除，不同于传统的信号降噪方法。

可选地，根据回声消除后的环境噪声获得干扰噪音能量，包括：提取回声消除后的环境噪声的能量特征；根据能量预测模型和能量特征预测回声消除后的唤醒语音的干扰噪音能量。

这样，通过对唤醒语音进行干扰噪音能量的预测，得到唤醒语音的干扰噪音能量。

可选地，能量预测模型根据回声消除后的环境噪声建立得到。

可选地，用于语音交互的方法，还包括：提取环境干扰噪音的功率谱特征；根据功率谱特征更新能量预测模型。

可选地，根据干扰噪音能量对回声消除后的唤醒语音进行去干扰能量处理，包括：获得回声消除后的唤醒语音的平均能量及干预阀值，获取阀值干预后的唤醒语音平均能量值；从唤醒语音平均能量值减去干扰噪音能量。

这样，根据唤醒语音的预测结果，对唤醒语音进行去干扰能量处理，得到相对干净的唤醒语音能量。

可选地，获得去干扰能量后的唤醒语音的能量均峰值，包括：在设定频域范围内对去干扰能量后的唤醒语音的能量求平均值，得到唤醒语音能量均值；对去干扰能量后的唤醒语音中超过唤醒语音能量均值的能量求平均值，得到去干扰能量后的唤醒语音的能量均峰值。

通过设定频域范围，计算频域范围内唤醒语音的能量均峰值，达到分布式竞争响应的目的，提高了分布式竞争响应决策中能量特征计算的准确度。

可选地，设定频域范围根据唤醒语音的频谱特征对去干扰能量后的唤醒语音的频域范围进行设定和调整得到。

结合图2所示，本公开实施例提供另一种用于语音交互的方法，包括：

S201.采集到包括唤醒词的唤醒语音以及之前干扰噪音的一段语音。具体的，采集信号：采集一段语音放到缓冲区，包括唤醒词的唤醒语音、唤醒词之前的环境干扰噪音以及与它们相对应的回声参考信号。

S202.提取唤醒词之前的环境干扰噪音、唤醒语音、与唤醒语音之前的环境干扰噪音和唤醒语音相对应的回声参考信号。具体的，提取信号：拆分并提取相同时间长度的唤醒语音、唤醒语音之前的环境干扰噪音、与唤醒语音之前的环境干扰噪音和唤醒语音相对应的回声参考信号。

S203.利用播放端的参考信号，对唤醒语音之前的环境干扰噪音和唤醒语音分别进行回声消除，消除设备播放自噪音，比如TTS(Text To Speech,即从文本到语音)播放和音乐类播放。可选的，回声消除的方法采用基于深度学习的回声消除方法，回声消除的方法不限于传统的信号处理方法。

S204.对消除回声后的环境干扰噪音进行特征提取，并根据能量预测模型预测唤醒语音处的干扰噪音能量。具体为：环境噪音能量估计，对缓冲区内的设定时间内的唤醒语音之前的环境干扰噪音的能量进行估计，提取能量特征和功率谱特征，同时计算环境干扰噪音的平均能量并进行阀值干预计算；再根据环境干扰噪音能量特征和能量预测模型来预测唤醒语音所在位置处的不同语音帧的干扰噪音能量，并根据功率谱特征同时更新能量预测模型。可选的，能量预测模型的构建方法采用基于深度学习的方法来训练模型参数，能量预测模型的构建方法不限于信号处理方法。

S205.对唤醒语音按桢、有条件地减除干预的干扰噪音能量。具体为干扰能量处理：对缓冲区内的跟干扰信号长度一致的唤醒语音进行平均能量计算，并进行阀值干预计算，这个阀值干预系数与干扰噪音的阀值保持一致，得到阀值干预后的唤醒语音平均能量值，并据此构建判定条件；再依据该判定条件，对每帧唤醒语音来判定是否从唤醒音频能量中减去预测的干扰噪音能量，以及减去干扰噪音能量的设定比例并进行相应的能量减除工作。可选的，减去的这个比例可以根据产品来设定和调整。

S206.对去除干扰噪音能量后的唤醒语音，限定频率范围进行频域能量均峰值计算。具体为：对减除噪音能量的唤醒语音，先对其在限定频域范围内的能量求平均，得到能量均值；再对超过能量均值的能量求平均得到能量均峰值。其中限定的频域范围是根据唤醒语音的频谱特征进行设定和调整。

S207.根据不同的设备类型进行能量值归一化，并传递给分布式语音唤醒进行决策。具体的：归一化是指消除不同设备不同麦克风之间的麦克风灵敏度差异，实现同一空间不同智能设备的分布式竞争响应。由于不同设备的麦克风选型和声学结构差异，麦克风灵敏度差异会导致能量计算不准确，要进行唤醒语音频域能量均峰值归一化处理。当然，归一化的系数要经过前期实验室测定和计算来取得并集成到算法。可选的，实验室测定方法用所有设备麦克跟标准麦克校准的办法，采集数据并进行后期计算来得到不同智能设备的归一化系数。

为了提高唤醒语音能量均峰值的准确性，进而提高分布式竞争响应精度，通过消除强干扰的环境噪音和自身音源的信号预处理技术，即：能采集到包括唤醒语音以及之前只有干扰噪音在内的一段语音，从缓冲区分别拆出环境噪声和带唤醒语音的信号以及响应的参考信号。分别进行回声消除后，再进行噪音信号特征提取和估计并建立噪音能量模型，然后从唤醒音频能量中减去噪声和干扰能量，进而计算特定频域范围的能量均峰值且进行打分。

本实施例利用环境噪音参考信号和设备播放参考信号，从唤醒语音能量中消除环境声源能量和自身播放音频能量，即利用唤醒语音之前的环境干扰噪音和相对应的回声参考信号，从唤醒语音能量中消除环境干扰噪音能量及自身播放音频能量，得到相对干净的唤醒语音能量，进而计算唤醒语音能量的均峰值，并进行不同设备的能量归一化处理，达到分布式竞争响应的目的。分布式竞争响应是采用唤醒语音特定频域中的能量均峰值打分判定，为了提高能量计算准确性，除了对自身播放信号进行回声消除，其他部分是对各种环境噪音能量的智能减除，不是传统的信号降噪方法。

本实施例的用于提高分布式竞争响应环境鲁棒性的方法，具备更好的抗干扰能力：从唤醒语音能量中消除环境干扰信号和自身播放信号的能量，更好的进行分布式竞争，更适合实际应用。同时，本方法的计算量较小，能更好地应用分布式响应竞争，而分布式竞争响应需要速度，传统数字信号处理产生庞大的计算量导致系统延，会造成比较差的客户体验。

结合图3所示，本公开实施例提供一种用于语音交互的装置，包括处理器(processor)100和存储器(memory)101。可选地，该装置还可以包括通信接口(Communication Interface)102和总线103。其中，处理器100、通信接口102、存储器101可以通过总线103完成相互间的通信。通信接口102可以用于信息传输。处理器100可以调用存储器101中的逻辑指令，以执行上述实施例的用于语音交互的方法。

此外，上述的存储器101中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器101作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令/模块。处理器100通过运行存储在存储器101中的程序指令/模块，从而执行功能应用以及数据处理，即实现上述实施例中用于语音交互的方法。

存储器101可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器101可以包括高速随机存取存储器，还可以包括非易失性存储器。

采用本公开实施例提供的用于语音交互的装置，能够通过对唤醒语音进行回声消除，并对回声消除后的唤醒语音进行去干扰能量处理，能够得到相对干净的唤醒语音能量；通过计算唤醒语音的能量均峰值，达到分布式竞争响应的目的，能够提高分布式竞争响应决策中能量特征计算的准确度。

本公开实施例提供了一种家用电器，包含上述的用于语音交互的装置。该家用电器能够通过对唤醒语音进行回声消除，并对回声消除后的唤醒语音进行去干扰能量处理，能够得到相对干净的唤醒语音能量；通过计算唤醒语音的能量均峰值，达到分布式竞争响应的目的，能够提高分布式竞争响应决策中能量特征计算的准确度。

本公开实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行上述用于语音交互的方法。

本公开实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述用于语音交互的方法。

上述的计算机可读存储介质可以是暂态计算机可读存储介质，也可以是非暂态计算机可读存储介质。

本公开实施例的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括一个或多个指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质，包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

以上描述和附图充分地示出了本公开的实施例，以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的部件和功能是可选的，并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且，本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地，如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外，当用于本申请中时，术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中，每个实施例重点说明的可以是与其他实施例的不同之处，各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言，如果其与实施例公开的方法部分相对应，那么相关之处可以参见方法部分的描述。

本领域技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能，但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本文所披露的实施例中，所揭露的方法、产品(包括但不限于装置、设备等)，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，可以仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外，在本公开实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中，不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生，有时不同的操作或步骤之间不存在特定的顺序。例如，两个连续的操作或步骤实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种用于语音交互的方法，其特征在于，包括：

对唤醒语音进行回声消除并获取干扰噪音能量；

根据所述干扰噪音能量对回声消除后的唤醒语音进行去干扰能量处理；

获得去干扰能量后的唤醒语音的能量均峰值；

对所述能量均峰值进行能量归一化处理。

2.根据权利要求1所述的方法，其特征在于，对唤醒语音进行回声消除，包括：

获取唤醒语音和所述唤醒语音对应的参考信号；

根据所述唤醒语音对应的参考信号对所述唤醒语音进行回声消除。

3.根据权利要求1所述的方法，其特征在于，所述获取干扰噪音能量包括：

获取环境噪声和所述环境噪声对应的参考信号；

根据所述环境噪声对应的参考信号对所述环境噪声进行回声消除，根据回声消除后的环境噪声获得干扰噪音能量。

4.根据权利要求3所述的方法，其特征在于，所述根据回声消除后的环境噪声获得干扰噪音能量，包括：

提取所述回声消除后的环境噪声的能量特征；

根据能量预测模型和所述能量特征预测回声消除后的唤醒语音的干扰噪音能量。

5.根据权利要求4所述的方法，其特征在于，所述能量预测模型根据回声消除后的环境噪声建立得到。

6.根据权利要求5所述的方法，其特征在于，还包括：

提取环境干扰噪音的功率谱特征；

根据所述功率谱特征更新所述能量预测模型。

7.根据权利要求1所述的方法，其特征在于，所述根据所述干扰噪音能量对回声消除后的唤醒语音进行去干扰能量处理，包括：

获得回声消除后的唤醒语音的平均能量及干预阀值，获取阀值干预后的唤醒语音平均能量值；

从所述唤醒语音平均能量值减去所述干扰噪音能量。

8.根据权利要求1所述的方法，其特征在于，所述获得去干扰能量后的唤醒语音的能量均峰值，包括：

在设定频域范围内对去干扰能量后的唤醒语音的能量求平均值，得到唤醒语音能量均值；

对去干扰能量后的唤醒语音中超过所述唤醒语音能量均值的能量求平均值，得到去干扰能量后的唤醒语音的能量均峰值。

9.根据权利要求8所述的方法，其特征在于，所述设定频域范围根据唤醒语音的频谱特征对去干扰能量后的唤醒语音的频域范围进行设定和调整得到。

10.一种用于语音交互的装置，包括处理器和存储有程序指令的存储器，其特征在于，所述处理器被配置为在执行所述程序指令时，执行如权利要求1至7任一项所述的用于语音交互的方法。

11.一种家用电器，其特征在于，包括如权利要求8所述的用于语音交互的装置。