CN110148405A

CN110148405A - 语音指令处理方法及装置、电子设备及存储介质

Info

Publication number: CN110148405A
Application number: CN201910286565.3A
Authority: CN
Inventors: 王永亮; 任伟
Original assignee: Beijing Wutong Chelian Technology Co Ltd
Current assignee: Beijing Wutong Chelian Technology Co Ltd
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2019-08-20
Anticipated expiration: 2039-04-10
Also published as: CN110148405B

Abstract

本发明实施例公开一种语音指令处理方法及装置、电子设备及存储介质。所述语音指令处理方法包括：若语音输入包含有语音指令时，确定所述语音输入包含所述语音指令的识别概率；获取语音指令的当前灵敏度，其中，所述灵敏度与所述语音指令的使用率正相关；结合所述识别概率与所述当前灵敏度，确定是否执行所述语音指令。

Description

语音指令处理方法及装置、电子设备及存储介质

技术领域

本发明涉及信息技术领域，尤其涉及一种语音指令处理方法及装置、电子设备及存储介质。

背景技术

随着语音技术的发展，很多电子设备都可以识别语音，用户通过语音输入，就可以控制电子设备执行特定的操作；电子设备通过语音采集得到的用户指令称之为语音指令。利用语音识别模型识别出采集的语音输入中包含有语音指令中，会根据识别出该语音输入包含该语音指令的概率，确定是否执行该语音指令，但是实际使用过程中发现，有时候，电子设备会存在语音指令的误响应现象，或者，迟迟不响应用户特意输入的语音指令的情况。

发明内容

有鉴于此，本发明实施例期望提供一种语音指令处理方法及装置、电子设备及存储介质。

本发明的技术方案是这样实现的：

一种语音指令处理方法，包括：

若语音输入包含有语音指令时，确定所述语音输入包含所述语音指令的识别概率；

获取语音指令的当前灵敏度，其中，所述灵敏度与所述语音指令的使用率正相关；

结合所述识别概率与所述当前灵敏度，确定是否执行所述语音指令。

基于上述方案，所述结合所述识别概率与所述当前灵敏度，确定是否执行所述语音指令，包括：

根据所述识别概率及所述当前灵敏度，确定所述执行参量；

比较所述执行参量与执行门限；

若所述执行参量不小于所述执行门限，确定执行所述语音指令。

基于上述方案，在获取所述当前灵敏度之前，所述方法还包括：

根据所述语音指令的识别概率和历史灵敏度，确定调整参量；

确定所述调整参量与调整门限的比较结果；

结合所述语音指令的使用率及所述比较结果，调整所述历史灵敏度得到所述当前灵敏度。

基于上述方案，所述结合所述语音指令的使用率及所述比较结果，调整所述历史灵敏度得到所述当前灵敏度，包括以下至少之一：

若所述语音指令的使用率指示所述语音指令为高频指令，且若所述比较结果表明所述调整门限小于所述执行门限，增大所述历史灵敏度得到所述当前灵敏度；

若所述语音指令的使用率指示所述语音指令为低频指令，若所述比较结果表明所述调整门限不小于所述执行门限，减小所述历史灵敏度得到所述当前灵敏度。

基于上述方案，所述结合所述语音指令的使用率及所述比较结果，调整所述历史灵敏度得到所述当前灵敏度，包括：

根据所述语音指令执行的误操作率，并结合所述语音指令的使用率和所述比较结果，调整所述历史灵敏度得到所述当前灵敏度。

基于上述方案，所述根据所述语音指令执行的误操作率，并结合所述语音指令的使用率和所述比较结果，调整所述历史灵敏度得到所述当前灵敏度，包括以下至少之一：

若所述语音指令的误操作率低于误操作率门限，结合所述语音指令的使用率和所述比较结果，调整所述历史灵敏度得到所述当前灵敏度；

若所述语音指令的误操作率不低于所述误操作率门限，减小所述历史灵敏度得到所述当前灵敏度。

基于上述方案，所述方法还包括：

确定目标用户的用户属性；

根据用户属性，确定所述目标用户所属用户类型使用所述语音指令的所述使用率。

基于上述方案，所述确定目标用户的用户属性，包括：

确定所述目标用户的性别属性；

确定所述目标用户的年龄属性；

确定所述目标用户的职业属性；

确定所述目标用户的受教育程度属性。

基于上述方案，所述方法还包括：

获取目标用户的生物特征；

根据所述生物特征，统计所述目标用户个体使用所述语音指令的所述使用率。

一种语音指令处理装置，包括：

第一确定模块，用于若语音输入包含语音指令时，确定所述语音输入包含所述语音指令的识别概率；

获取模块，用于获取语音指令的当前灵敏度，其中，所述灵敏度与所述语音指令的使用率正相关；

第二确定模块，用于结合所述识别概率与所述当前灵敏度，确定是否执行所述语音指令。

一种电子设备，其特征在于，包括：

音频采集模组，

存储器；

处理器，分别与所述音频采集模组及所述存储器连接，用于通过执行位于所述存储器上的计算机可执行指令，能够实现前述任意技术方案提供的语音指令处理方法。

一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被执行后，能够实现前述任意技术方案提供的语音指令处理方法。

本发明实施例提供的技术方案，若识别出采集的语音输入中包括语音指令时，会同步确定出被识别出语音指令的识别概率，然后结合与该语音指令的使用率正相关的当前灵敏度，共同确定是否执行该语音指令。如此，若一条语音指令的使用率越大，则该语音指令的当前灵敏度越高，如此，则执行该语音指令的概率就越高，而若一条语音指令的使用率越小，则该语音指令的当前灵敏度就越低，反之，执行该语音指令的概率就越低，如此，实现了不用使用率的语音指令的不同当前灵敏度的配置，相对于不为语音指令配置当前灵敏度，单纯依赖识别概率确定是否执行该语音指令，一方面可以减少高频使用的语音指令而言，可以提升高频使用的语义指令的响应当前灵敏度，从而减少迟迟得不到响应的现象；另一方面，可以减少低频使用的语音指令，在用户闲谈时被认定为语音指令导致的误操作。

附图说明

图1为本发明实施例提供的第一种语音指令处理方法的流程示意图；

图2为本发明实施例提供的确定当前灵敏度的流程示意图；

图3为本发明实施例提供的一种语音指令处理装置的结构示意图；

图4为本发明实施例提供的另一种语音指令处理装置的结构示意图；

图5为本发明实施例提供的第二种语音指令处理方法的流程示意图；

图6为本发明实施例提供的第三种语音指令处理方法的流程示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。

如图1所示，本实施例提供一种语音指令处理方法，包括：

步骤S110：若语音输入包含有语音指令时，确定所述语音输入包含所述语音指令的识别概率；

步骤S120：获取语音指令的当前灵敏度，其中，所述当前灵敏度与所述语音指令的使用率正相关；

步骤S130：结合所述识别概率与所述当前灵敏度，确定是否执行所述语音指令。

本实施例提供的语音指令处理方法，可以用于各种能够响应语音指令语音设备中。

例如，该语音设备可为车载设备等。

语音设备包括语义采集模组，例如，麦克风等，可以采集语音输入。

语义设备采集到语音输入之后，会由语音识别引擎进行语音识别，确定出该语音输入内是否包含语音指令。

该语音指令可为各种控制电子设备以语音形式输入的指令，包括但不限于：唤醒指令、非唤醒指令。

所述唤醒指令，用于唤醒电子设备；

所述非唤醒指令，用于控制被唤醒的电子设备执行特定操作的操作指令。

在本实施例中，语音识别引擎识别出采集到的音频信号类型的语音输入，得到与语音输入对应的文本信息；通过关键字词匹配和/或正则表达式等方式，确定出该语音输入中是否包含有语音指令；当然此处是语音识别引擎识别出某一个语音输入中包括有对应的语音指令，还会

与此同时，语音识别引擎确定出该语音指令被包含在所述语音输入中的置信度，该置信度可以概率表示，在本实施例中称之为识别概率。

通常识别概率越高，则表示语音识别引擎认定该语音输入包括该语音指令的概率越高。

在本实施例中，电子设备还会获取到该语音指令的当前灵敏度，不同的语音指令具有不同的当前灵敏度，且这种当前灵敏度是与语音指令的使用率正相关的。

例如，一台电子设备设置了有多个唤醒指令，分别是唤醒指令A、唤醒指令B及唤醒指令C；用户比较喜好用唤醒指令C唤醒设备，则对应的唤醒指令C的使用率就更高，在本实施例中，所述使用率包括但不限于使用频次、使用概率。此时，为唤醒指令C设置高于唤醒指令A和唤醒指令B的当前灵敏度。

所述使用概率可为：单一唤醒指令的使用次数与所有唤醒指令的使用次数的比值。

步骤S130中，会结合识别概率和当前灵敏度，确定是否需要执行该语音指令，不再是单一的根据识别概率确定是否执行该语音指令，或者，基于所有语音指令统一的当前灵敏度来确定是否执行该语音指令，如此，可以区分高频使用的语音指令，和低频使用的语音指令，减少高频使用语音指令得不到响应的现象，也同时减少对低频使用的语音语料过于灵敏响应的显现，提升电子设备对语音指令响应的整体正确率。

在一些实施例中，所述步骤S130可包括：

根据所述识别概率及所述当前灵敏度，确定所述执行参量；

比较所述执行参量与执行门限；

在本实施例中，可以以所述识别概率及所述当前灵敏度作为已知量，代入预定函数关系，从而计算得到所述执行参量。

计算所述执行参量的方式有多种，包括但不限于以下至少之一：

计算所述识别概率和所述当前灵敏度的乘积，该乘积即为所述执行参量；

计算所述识别概率和所述当前灵敏度的加权求和，该加权求和即为所述执行参量；若所述识别概率和所述当前灵敏度的权值相同，则该加权求和即为所述识别概率和当前灵敏度的算术平均值。

在另一些实施例中，所述根据识别概率和当前灵敏度确定执行参量还可包括如下至少之一：

确定所述识别概率所在的概率级别，若该概率级别高于预定等级，直接比较当前灵敏度和灵敏度阈值，若当前灵敏度大于灵敏度阈值则执行所述语音指令；否则不执行该语音指令；

确定所述当前灵敏度所在的当前灵敏度级别，根据该识别概率与该当前灵敏度级别对应的概率阈值，若识别概率大于该当前灵敏度级别对应的概率阈值则执行所述语音指令，否则不执行该语音指令。

将所述执行参量与所述执行门限进行比较，若执行参量大于或等于执行门限，电子设备会执行该语音指令；若所述执行参量小于所述执行门限，电子设备不再执行该语音指令。

本实施例提供的方法，还包括提前确定所述当前灵敏度的步骤。在所述步骤S120中为获取预先确定的所述当前灵敏度。所述步骤S120可包括以下至少之一：

本地读取预先存储的所述当前灵敏度；

从远程服务器读取所述当前灵敏度。

具体地，如图2所示，确定所述当前灵敏度的步骤可包括：

步骤S201：根据所述语音指令的识别概率和历史灵敏度，确定调整参量；

步骤S202：确定所述调整参量与调整门限的比较结果；

步骤S203：结合所述语音指令的使用率及所述比较结果，调整所述历史灵敏度得到所述当前灵敏度。

在本实施例中，语音识别引擎一旦引擎结构和参数确定，对对应一条足够清晰的语音指令的识别概率是相对稳定。在一些实施例中，该识别概率可为满足清晰条件的语音识别指令的识别概率。在另一些实施例中，该识别概率可为确定所述调整参量时，基于统计概率得到语音识别引擎对所述语音指令的识别概率均值等。

在本实施例中，所述历史灵敏度为当前灵敏度之前的一个灵敏度；当前灵敏度为根据历史灵敏度确定的。

总之，在本实施例中，结合识别概率和历史明敏度，得到调整参量，此处的调整参量的确定方式可以与前述的执行参量的确定方式相同。

在本实施例中，计算得到所述调整参量之后，将该调整参量与所述调整门限进行比较。在一些实施例中，所述调整门限可与前述的执行门限相同；在另一些实施例中，所述调整门限可与前述的执行门限不同。例如，该调整门限可略高于所述执行门限等，从而减少过度频繁的调整灵敏度，影响电子设备对语音指令响应的鲁棒性。

在一些实施例中，电子设备会在满足调整条件时，会执行所述步骤S201至步骤S203从而得到所述当前灵敏度。

所述满足调整条件包括但不限于以下至少之一：

距离上一次灵敏度调整的时长达到调整周期；

当前时间为预先设定的调整事件；

电子设备采集的语音指令达到预定条数。

若检测到满足所述调整条件，则会启动灵敏度的调整，将历史灵敏度更新为适用于下一次调整之前使用的所述当前灵敏度。

在一些实施例中，所述步骤S203可包括以下至少之一：

若所述语音指令的使用率指示所述语音指令为高频指令，且若所述比较结果表明所述调整门限小于所述执行门限，增大所述语音指令的当前灵敏度；

在本实施例中，所述使用率指示所述语音指令为高频指令或低频指令，可包括以下至少之一：

例如，所述使用率大于使用率阈值，则确定该语音指令为高频指令，否则可认为低频指令；

再例如，通过各语音指令的使用率排序，若排序靠前的N位的语音指令设置判定高频指令，剩余的语音指令判定为低频指令。

总之，在本实施例中，为了实现当前灵敏度与使用率正相关，在进行当前灵敏度调整时，会根据使用率判定出对应的语音指令是否为高频指令。

在初始时刻，对于所有的语音指令的灵敏度可以设置成相同的取值，例如，1或者0.5；后续通过结合使用率的灵敏度调整，使得不同的语音指令的当前灵敏度呈现动态的变化。

在一些实施例中，所述步骤S203还可包括：

若所述语音指令的使用率指示所述语音指令为中频指令，将中频指令的历史灵敏度作为调整后的当前灵敏度。

在一些实施例中，所述步骤S203可包括：

在本实施例中，还会统计确定响应的语音指令的误响应概率。此处的误响应概率为：指定时间段内该语音指令的错误响应次数，与该语音指令的总响应次数的比值。

例如，一个唤醒指令被执行后电子设备被唤醒，被唤醒的电子设备可能从灭屏切换到亮屏状态，或者，从休眠状态切换到激活状态。若电子设备被唤醒后，电子设备未进一步接收到用户指令(该用户指令可为语音指令和/或手动指令)等，可认为本次唤醒是误响应。

例如，针对非唤醒指令，若电子设备执行了非唤醒指令对应的操作，但是后续检测到用户立即关闭该操作所带来的功能的关闭操作或退出操作，则认为本次响应是误响应。

在一些实施例中，所述步骤S203可包括以下至少之一：

在本实施例中，若语音指令的误操作率低于误操作率门限，说明该语音指令的误响应的次数少，但是可能有需要调高灵敏度的需求，例如，提高灵敏度以进一步提升电子设备对高频指令的响应灵敏度，再例如，降低低频指令的灵敏度，以进一步降低误操作率。故在本实施例中，在语音指令的误操作率小于对应的误操作门限，则会进入到结合使用率和前述的比较结果，进行当前灵敏度的调整。

若某一个语音指令的误操作率比较高，例如，高于或等于所述误操作率门限，说明该语音指令的灵敏度过高，故需要对历史灵敏度进行降低处理，得到降低后的当前灵敏度。

在一些实施例中，所述方法还包括：

确定目标用户的用户属性；

在本实施例中，该用户属性可为各种能够描述用户特点的信息。

所述确定目标用户的用户属性可包括以下至少之一：

图像采集目标用户的图像，并通过图像分析获得所述用户属性；

根据采集的目标用户的语音，进行语音初步分析获得所述用户属性；

从目标用户的语音中提取声纹特征，基于声纹特征查询目标用户的个人画像，获得所述用户属性。

总之，获得所述用户属性的方式有很多种，具体不局限于上述任意一种。

具体地如，所述确定目标用户的用户属性，包括：

确定所述目标用户的性别属性；

确定所述目标用户的年龄属性；

确定所述目标用户的职业属性；

确定所述目标用户的受教育程度属性。

在本实施例中会根据目标用户的用户属性，确定出目标用户属性所对应的用户类型使用语音指令的使用率，该使用率为基于与目标用户属于同一个类型的大量用户的统计得到的。

例如，男性和女性喜欢使用不同的唤醒指令唤醒电子设备；如此，可以基于性别属性得到女性整体所对应的使用率及男性整体所对应的使用率。

再例如，若采集到目标用户的多个用户属性，可以结合这些用户属性综合确定所述使用率。

在一些实施例中，所述使用率的取值为0到1之间。确定每一个用户属性所定的使用率参量；求取同一个目标用户的多个用户属性所对应的使用率参量的加权平均等，最终作为该目标用户所属类型的使用率。

在另一些实施例中，获取每一个目标用户预定个数用户属性，并确定出这些用户属性的使用率参量，求取这些使用率参量的乘积。

总之，确定所述用户属性的方式很多种，此处就不再一一举例了。

在本实施例中，至少根据用户属性进行分用户类型的使用率的区分，如此不用单一用户逐一统计各个语音指令的使用率。

在一些实施例中，所述方法还包括：

获取目标用户的生物特征；

在本实施例中，该生物特征包括但不限于以下至少之一：

声纹特征，与目标用户的发生的声学特征密切相关，可以唯一标识一个用户；

指纹特征，

脸部特征；

虹膜特征。

总之，在本实施例中，会获取所述生物特征，从而知道该目标用户的身份信息，然后结合该身份信息就可以知道该目标用户个体使用语音指令的使用率。

优选地，所述获取目标用户的生物特征，可包括：从所述语音输入中提取所述声纹特征。

在本实施例中，由于基于生物特征的提取，获得的是目标用户个体的使用率，如此，针对不同的单个用户可以实现语音指令的当前灵敏度的个性设置。

如图3所示，本实施例提供一种语音指令处理装置，包括：

第一确定模块101，用于若语音输入包含语音指令时，确定所述语音输入包含所述语音指令的识别概率；

获取模块102，用于获取语音指令的当前灵敏度，其中，所述当前灵敏度与所述语音指令的使用率正相关；

第二确定模块103，用于结合所述识别概率与所述当前灵敏度，确定是否执行所述语音指令。

在一些实施例中，所述第一确定模块101、获取模块102及第二确定模块103可为程序模块，所述程序模块被处理器执行后，能够确定识别概率、获取当前灵敏度及并确定是否执行所述语音指令。

在一些实施例中个，所述第二确定模块103，具体用于根据所述识别概率及所述当前灵敏度，确定所述执行参量；比较所述执行参量与执行门限；若所述执行参量不小于所述执行门限，确定执行所述语音指令。

在一写实施例中，在获取所述当前灵敏度之前，所述装置还包括：

第三确定模块，用于根据所述语音指令的识别概率和历史灵敏度，确定调整参量；

第四确定模块，用于确定所述调整参量与调整门限的比较结果；

调整模块，用于结合所述语音指令的使用率及所述比较结果，调整所述历史灵敏度得到所述当前灵敏度。

在一些实施例中，所述调整模块，具体用于执行以下至少之一：

在一些实施例中，所述调整模块，具体用于根据所述语音指令执行的误操作率，并结合所述语音指令的使用率和所述比较结果，调整所述历史灵敏度得到所述当前灵敏度。

在一些实施例中，所述装置还包括：

第五确定模块，用于确定目标用户的用户属性；

第六确定模块，用于根据用户属性，确定所述目标用户所属用户类型使用所述语音指令的所述使用率。

在一些实施例中，所述第五确定模块，具体用于确定所述目标用户的性别属性；确定所述目标用户的年龄属性；确定所述目标用户的职业属性；确定所述目标用户的受教育程度属性。

在一些实施例中，所述装置还包括：

生物特征模块，用于获取目标用户的生物特征；

统计模块，用于根据所述生物特征，统计所述目标用户个体使用所述语音指令的所述使用率。

以下结合上述任意实施例提供几个具体示例：

示例1：

本方案在于对一台汽车的使用者，通过声纹特征和用户基本信息进行分类，确定每个用户所属群体，比如，男/女、儿童/成人、年龄、职业。不同群体使用某个唤醒词或某个命令词的频率不尽相同，从而判断该群体使用这些语料的热度。一旦用户所属群体被确定，语料使用的偏好也可锁定，从而动态的调整当前灵敏度sensitivity，即，使用率高同时唤醒失误率高，调高该词的当前灵敏度；使用率低，调低该词当前灵敏度。该方案提供更智能化、更个性化的语音与车辆控制的交互体验，其核心在于设计一个基于不同群体的唤醒词或命令词的唤醒难易度决策模型。

如图4所示，本示例提供一种语音指令处理装置，包括：

音频采集器：通过车内麦克风录入用户的音频语料，需要对原始数据做预处理，比如，降噪、消回声。

特征提取模型：基于声纹识别技术，使用唤醒词进行声纹认证，通过音特征提取(比如MFCC特征提取算法)分类不同用户，比如，男或女、儿童或成人。进一步，通过用户基本信息获取更多的信息，比如，年龄、职业。

用户字典：统计不同群体所说每条语料(唤醒词或命令词)的次数。该字典作为在线服务，存储在服务器，目的是为了用户身份切换后，可以从服务器获取对应群体的配置信息。

语音识别引擎：识别出语音，本方案重点在识别唤醒词和自定义的指令词。

语音检测模型(vad)：检测车内是否有声音、标记声音的开始与结束。

当前灵敏度决策模型：通过统计不同群体使用每个唤醒词或者指令词的频率，从而动态调整每个词语的当前灵敏度。参考图5所示，本示例提供的语音指令处理方法，可具体如下：

语音输入；

确定是否是首次登陆；

若是，提取声纹特征识别用户信息得到用户分类，并认证登陆，读取用户基本的配置信息；

若否，识别录入的语音是否有唤醒指令，该唤醒指令为能够唤醒电子设备的语音语料；

判断是否唤醒成功；

若是，确定用户所属分类下使用频次加1；

若否，确定连续n次唤醒失败，其中，n为不小于2的正整数；

若否，返回语音录入；

若是，为语音指令添加难唤醒标记，这里的难唤醒标记为指示唤醒程度的唤醒标记之一；后续，在调整当前灵敏度时，可以根据唤醒标记进行调整。例如，对应的唤醒指令为高频指令，且唤醒标记指示为难唤醒标记，则提高历史唤醒灵敏度得到提高后的当前灵敏度；若对应的唤醒指令为高频指令，且唤醒标记为易唤醒指令，则可以直接将历史唤醒灵敏度得到当前灵敏度。

进一步判断是否为高使用率的语音指令；

若是，适当增加灵敏度；

若否，不更新该灵敏度；

周期性检测用户所在分类下语料，包括但不限于：定期更新用户所属分类的语音指令的使用率；

判断是否低使用率，

若否，不更新该灵敏度；

若是，降低灵敏度。

具体如，对于任何一条语料x，保留模型命中为唤醒的概率为、当前灵敏度为sensitivity、门限为Threshold。

增加定义一个下限门限为min_threshold。

如果用户使用的语料x被唤醒成功，即p(x)*sensitivity≥threshold,则

该语料使用的次数m加1，即m_x＝m_x+1，更新用户字典对应的条目。一个用户往往属于多分类，即男/女、儿童/成人、年龄、职业。所以不同的分类下，语料使用的次数m均加1。比如：

m_x|男＝m_x|男+1

m_x|儿童＝m_x|儿童+1

m_x|程序员＝m_x|程序员+1

如果用户使用的语料x未被唤醒成功，即p(x)*sensitivity＜threshold,则需要判定唤醒难易度，如下规则：

连续n次(建议n＝3,不做限制)，min_threshold≤p(x)*sensitivity＜Threshold，并且声学模型判定为这n次语料，发音接近，则该用户使用该语料x在当前门限Threshold下被标记为难唤醒；否则，为易唤醒。

不同分类下，语料x的使用次数m_x做归一化处理，使用sigmoid函数，如下：

目的：计算语料x的使用频率归一化到0～1之间，即：使用次数越多越接近1，使用次数越低越接近0。

指定用户会有多分类属性，比如，使用率为y＝y_男×y_儿童×y_程序员

使用率高同时唤醒失误率高的语料x，即y≥y_high(y_high定义为高频门限),并且标记是难唤醒，则适当增加当前灵敏度，即sensitivity＝sensitivity+α，可选地，

周期性的检索用户字典，建议用户选择在语音助手闲置时检索数据字典，动态调整当前灵敏度。已知用户所属分类，计算每个语料x的使用率，即

y＝y_男×y_儿童×y_程序员

对于使用率低的语料x，即y＜y_low(y_low定义为低频门限)，则适当降低其当前灵敏度，即sensitivity＝sensitivity-β，可选地，

通过唤醒词的音频文件，提取声纹特征，以及用户基本信息，识别用户所在分类，特别适用于语音交互使用习惯；

当前灵敏度决策模型，基于不同用户的分类字典，根据用户使用唤醒词或者命令词的热度，以及唤醒难度，动态的调整该用户下语料的唤醒当前灵敏度。

同一台汽车的使用者，通过声纹特征和基本信息进行分类，确定所在分类的用户进行语音交互使用语料的习惯，确定语料的偏好，从而更快、更准确的提供的语音唤醒和应答交互。

基于用户对语料的使用热度，动态调整其当前灵敏度：越被使用的语料，越容易唤醒；越低频使用的语料，越难唤醒。总体达到了，增强语料的交互体验，降低语音误唤醒率。

示例2：

本示例提供一台汽车的使用者，通过声纹特征进行分类，确定每个用户使用某个唤醒词或某个命令词的频率，从而判断该用户使用这些词语的热度，确定其偏好，从而动态的调整当前灵敏度sensitivity，即，使用率高同时唤醒失误率高，调高该词的当前灵敏度；使用率低，调低该词当前灵敏度。该方案提供更智能化、更个性化的语音与车辆控制的交互体验，其核心在于设计一个基于不同用户的不同唤醒词或命令词的唤醒难易度决策模型。

音频采集器：通过车内麦克风录入用户的音频语料，需要对原始数据做预处理，比如降噪、消回声。

声纹特征提取模型：基于声纹识别技术，采集用户所说的唤醒词音频文件，通过音特征提取(比如MFCC特征提取算法)分类不同用户。通常使用唤醒词进程声纹认证。

用户字典：统计不同用户所说每条语料(唤醒词或命令词)的次数，以及其当前灵敏度。该字典可以存储在本地车载系统中，也可以作为在线服务，存储在服务器，目的是为了用户身份切换后，可以从服务器获取用户的配置信息。

当前灵敏度决策模型：通过统计用户使用每个唤醒词或者指令词的频率，从而动态调整每个词语的当前灵敏度。参考图6所示，本示例提供的语音指令处理方法，可具体如下：

语音输入；

确定是否是首次登陆；

若是，提取声纹特征识别用户身份，并认证登陆，读取用户字典中的配置信息；

判断是否唤醒成功；

若是，确定用户所述分类下使用频次加1；

若否，确定连续n次唤醒失败，其中，n为不小于2的正整数；

若否，返回语音录入；

若是，为语音指令添加难唤醒标记，这里的难唤醒标记为指示唤醒程度的唤醒标记之一；后续，在调整当前灵敏度时，可以根据唤醒标记进行调整。例如，对应的唤醒指令为高频指令，且唤醒标记指示为难唤醒标记，则提高历史唤醒灵敏度得到提高后的当前灵敏度；若对应的唤醒指令为高频指令，且唤醒标记为易唤醒指令，则可以直接将历史唤醒灵敏度当做当前灵敏度。

进一步判断是否为高使用率的语音指令；

若是，适当增加灵敏度；

若否，不更新该灵敏度；

周期性检测用户字典中每一个语料，包括但不限于：定期更新用户所属分类的语音指令的使用率；

判断是否低使用率，

若否，不更新该灵敏度；

若是，降低灵敏度。

具体如，对于任何一条语料x，保留模型命中为唤醒的概率为：

p(x)、0＜x＜1，当前灵敏度为sensitivity、门限为Threshold。此处一个所述语料可为语音输入中一条语音指令。

增加定义一个下限门限为min_threshold。

该语料使用的次数m加1，即m_x＝m_x+1，更新用户字典对应的条目。

连续n次(n＝3,但具体取值n的取值不做限制)，min_threshold≤p(x)*sensitivity＜Threshold，并且声学模型判定为这n次语料，发音接近，则该用户使用该语料x在Threshold下被标记为难唤醒，否则，为易唤醒。

语料x的使用次数m_x做归一化处理，使用sigmoid函数，如下：

目的：计算语料x的使用频率，有多有少，归一化到0～1之间，即：使用次数越多越接近1，使用次数越低越接近0。

对于指定用户所属，使用率高同时唤醒失误率高的语料x，即y≥y_high(y_high定义为高频门限)并且标记是难唤醒，则适当增加当前灵敏度，即sensitivity＝sensitivity+α，可选地，更新用户数据字典对应的条目。

周期性的检索用户字典，建议用户选择在语音助手闲置时检索数据字典，动态调整当前灵敏度。对于指定用户所属，每个使用率低的语料x，即y＜y_low(y_low定义为低频门限)，则适当降低其当前灵敏度，即sensitivity＝sensitivity-β,建议

通过唤醒词的音频文件，提取声纹特征，识别不同的用户，特别适用于语音交互使用习惯；

当前灵敏度决策模型，基于不同用户的数据字典，根据用户使用唤醒词或者命令词的热度，以及唤醒难度，动态的调整该用户下语料的唤醒当前灵敏度。

同一台汽车的使用者，通过声纹特征进行分类，确定每个用户进行语音交互使用语料的习惯，确定语料的偏好，从而更快、更准确的提供的语音唤醒和应答交互。

本实施例还提供一种电子设备，包括：

音频采集模组，

存储器；

处理器，分别与所述音频采集模组及所述存储器连接，用于通过执行位于所述存储器上的计算机可执行指令，能够根据所述音频采集模组所采集的音频实现前述任意技术方案提供的声源定位方法，例如，如图1、图2、图5及图6所示方法的至少其中之一。

所述音频采集模组对应于前述第一采集模组和第二采集模组，包括但不限于麦克风。

所述存储器可为各种包括计算机存储介质的存储器件，该计算机存储介质可为非瞬间存储介质。

所述处理器可为各种类型的处理器，例如，中央处理器、微处理器、可编程阵列或者数字信号处理等。

所述处理器可以通过总线等结构，分别与所述音频采集模组及存储器连接，控制所述音频采集模组及所述存储器的工作状态。

本实施例还提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被处理器执行后，能够实现前述任意技术方案提供的声源定位方法，例如，如图1、图2、图5及图6所示方法的至少其中之一。

该计算机存储介质可包括非瞬间存储介质，例如，闪存(flash)等。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音指令处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述结合所述识别概率与所述当前灵敏度，确定是否执行所述语音指令，包括：

根据所述识别概率及所述当前灵敏度，确定所述执行参量；

比较所述执行参量与执行门限；

3.根据权利要求1所述的方法，其特征在于，在获取所述当前灵敏度之前，所述方法还包括：

确定所述调整参量与调整门限的比较结果；

4.根据权利要求3所述的方法，其特征在于，所述结合所述语音指令的使用率及所述比较结果，调整所述历史灵敏度得到所述当前灵敏度，包括以下至少之一：

5.根据权利要求3所述的方法，其特征在于，所述结合所述语音指令的使用率及所述比较结果，调整所述历史灵敏度得到所述当前灵敏度，包括：

6.根据权利要求5所述的方法，其特征在于，

所述根据所述语音指令执行的误操作率，并结合所述语音指令的使用率和所述比较结果，调整所述历史灵敏度得到所述当前灵敏度，包括以下至少之一：

7.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

确定目标用户的用户属性；

8.根据权利要求7所述的方法，其特征在于，所述确定目标用户的用户属性，包括：

确定所述目标用户的性别属性；

确定所述目标用户的年龄属性；

确定所述目标用户的职业属性；

确定所述目标用户的受教育程度属性。

9.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

获取目标用户的生物特征；

10.一种语音指令处理装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：

音频采集模组，

存储器；

处理器，分别与所述音频采集模组及所述存储器连接，用于通过执行位于所述存储器上的计算机可执行指令，能够根据所述音频采集模组所采集的音频实现权利要求1至9任一项提供的方法。

12.一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被执行后，能够实现权利要求1至9任一项提供的方法。