CN109616126A

CN109616126A - 一种语音数据处理方法、装置、存储介质及终端

Info

Publication number: CN109616126A
Application number: CN201811490162.2A
Authority: CN
Inventors: 韩雪; 张新; 毛跃辉; 廖湖锋; 廖海霖
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2019-04-12

Abstract

本发明公开了一种语音数据处理方法、装置、存储介质及终端，该方法包括：获取语音控制指令；识别所述语音控制指令对应的用户身份；将所述语音控制指令所对应的文本指令与识别出的用户身份进行关联存储。通过上述方式解决了现有的语音控制指令无法追溯所导致的安全性较低的问题，达到了语音控制指令可追溯的技术效果。

Description

一种语音数据处理方法、装置、存储介质及终端

技术领域

本发明属于互联网技术领域，具体涉及一种语音数据处理方法、装置、存储介质及终端。

背景技术

目前，语音产品越来越流行，人们在日常生活中可以使用语音对智能产品进行控制，这种控制方式可以带来很大的便利。进一步的，这种语音控制方式因为一般都不存在身份验证的过程，因此，无法查看历史操作记录，就产生了安全隐患。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本发明的目的在于，针对上述缺陷，提供一种语音数据处理方法、装置、存储介质及终端，以解决现有技术中语音操作记录不可追溯的问题，达到了对语音操作记录有效追溯的技术效果。

本发明提供一种语音数据处理方法，包括：

获取语音控制指令；

识别所述语音控制指令对应的用户身份；

将所述语音控制指令所对应的文本指令与识别出的用户身份进行关联存储。

在一个实施方式中，识别所述语音控制指令对应的用户身份，包括：

获取所述语音控制指令中的声纹特征；

将所述声纹特征在预设的声纹库中进行匹配，以确定出所述语音控制指令对应的用户身份。

在一个实施方式中，将所述语音控制指令所对应的文本指令与识别出的用户身份进行关联存储，包括：

将所述语音控制指令转换为文本指令；

响应于所述文本指令，执行与所述文本指令匹配的响应操作；

记录所述文本指令、所述用户身份和操作结果。

在一个实施方式中，在响应于所述文本指令，执行与所述文本指令匹配的响应操作的过程中，还包括：

匹配不出与所述文本指令匹配的响应操作的情况下，确定所述文本指令为无效指令；

记录所述无效指令和所述用户身份。

在一个实施方式中，在将所述语音控制指令所对应的文本指令与识别出的用户身份进行关联存储之后，所述方法还包括：

获取历史操作记录查询请求；

响应于所述查询请求，显示查询结果，其中，所述查询结果中包括以下至少之一：文本指令、文本指令下发时间、文本指令对应的用户身份、执行结果。

确定所述文本指令是否为收藏指令；

在确定所述文本指令为收藏指令的情况下，将所述收藏指令所请求收藏的目标对象增加至所述用户身份关联的收藏夹中。

与上述方法相匹配，本发明另一方面提供一种语音数据处理装置，包括：

第一获取模块，用于获取语音控制指令；

识别模块，用于识别所述语音控制指令对应的用户身份；

存储模块，用于将所述语音控制指令所对应的文本指令与识别出的用户身份进行关联存储。

在一个实施方式中，所述识别模块包括：

获取单元，用于获取所述语音控制指令中的声纹特征；

确定单元，用于将所述声纹特征在预设的声纹库中进行匹配，以确定出所述语音控制指令对应的用户身份。

在一个实施方式中，所述存储模块包括：

转换单元，用于将所述语音控制指令转换为文本指令；

执行单元，用于响应于所述文本指令，执行与所述文本指令匹配的响应操作；

第一记录单元，用于记录所述文本指令、所述用户身份和操作结果。

在一个实施方式中，所述存储模块还包括：

确定单元，用于在匹配不出与所述文本指令匹配的响应操作的情况下，确定所述文本指令为无效指令；

第二记录单元，用于记录所述无效指令和所述用户身份。

在一个实施方式中，上述装置还包括：

第二获取模块，用于在将所述语音控制指令所对应的文本指令与识别出的用户身份进行关联存储之后，获取历史操作记录查询请求；

显示模块，用于响应于所述查询请求，显示查询结果，其中，所述查询结果中包括以下至少之一：文本指令、文本指令下发时间、文本指令对应的用户身份、执行结果。

在一个实施方式中，上述装置还包括：

确定模块，用于在将所述语音控制指令所对应的文本指令与识别出的用户身份进行关联存储之后，确定所述文本指令是否为收藏指令；

添加模块，用于在确定所述文本指令为收藏指令的情况下，将所述收藏指令所请求收藏的目标对象增加至所述用户身份关联的收藏夹中。

与上述装置相匹配，本发明再一方面提供一种终端，包括：上述的语音数据处理装置。

与上述装置相匹配，本发明再一方面提供一种存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行上述的语音数据处理方法。

与上述装置相匹配，本发明再一方面提供一种终端，包括：处理器，用于执行多条指令；存储器，用于存储多条指令；其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行上述的语音数据处理方法。

由此，本发明的方案，获取语音控制指令，识别出语音控制指令对应的用户身份，然后将语音控制指令所对应的文本指令与识别出的用户身份进行关联存储，这样就可以对语音控制指令进行追溯，例如，知道哪些用户进行了哪些控制。通过上述方式解决了现有的语音控制指令无法追溯所导致的安全性较低的问题，达到了语音控制指令可追溯的技术效果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的语音数据处理方法的一实施例的流程示意图；

图2为本发明的指令识别结果可视化的方法流程图；

图3为本发明的历史操作记录可视化的方法流程图；

图4为本发明的收藏列表可视化的方法流程图；

图5为本发明的语音数据处理装置的一实施例的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种语音数据处理装置的控制方法，如图1所示本发明的方法的一实施例的流程示意图。该语音数据处理装置的控制方法可以包括：

步骤101：获取语音控制指令；

步骤102：识别所述语音控制指令对应的用户身份；

步骤103：将所述语音控制指令所对应的文本指令与识别出的用户身份进行关联存储。

实际的，在进行用户身份识别的时候，可以是基于声纹库的，即，可以预先设置一个声纹库或者是实时更新形成一个声纹库，在获取到语音控制指令之后，可以基于声纹库匹配出该语音控制指令对应的用户身份。即，上述步骤102识别所述语音控制指令对应的用户身份，可以包括：获取所述语音控制指令中的声纹特征；将所述声纹特征在预设的声纹库中进行匹配，以确定出所述语音控制指令对应的用户身份。

为了实现语音控制指令的可追溯，可以将语音控制指令转换为文本指令，然后基于文本进行存储，从而可以将文本指令与用户身份等进行关联存储，从而可以知道哪个时间等，哪个用户进行了哪种控制。相应的，将所述语音控制指令所对应的文本指令与识别出的用户身份进行关联存储，可以包括：

S1：将所述语音控制指令转换为文本指令；

S2：响应于所述文本指令，执行与所述文本指令匹配的响应操作；

S3：记录所述文本指令、所述用户身份和操作结果。

考虑到有时候有些用户因为发音等不准，导致语音控制指令无法被识别和执行，为了使得用户可以知道自己哪些发音有问题，以便下次注意和调整，提升语音控制指令的准确性。在实现的时候，在响应于所述文本指令，执行与所述文本指令匹配的响应操作的过程中，还可以在匹配不出与所述文本指令匹配的响应操作的情况下，确定所述文本指令为无效指令；记录所述无效指令和所述用户身份。因为进行了记录，因此用户可以查询无效指令，以便确定哪些发音是有问题的。

因为上述对语音控制指令与用户身份进行了关联存储，为对语音控制指令的查询提供了可能，因此，在将所述语音控制指令所对应的文本指令与识别出的用户身份进行关联存储之后，可以获取历史操作记录查询请求；响应于所述查询请求，显示查询结果，其中，所述查询结果中可以包括但不限于以下至少之一：文本指令、文本指令下发时间、文本指令对应的用户身份、执行结果。

以语音设备为智能音箱为例，智能音箱在播放音乐、故事、小品、新闻等的时候，有时是设备主动推送的内容，用户可能是第一次接触该内容。在播报过程中，用户如果遇到喜欢的音乐、感兴趣的新闻等，可以对这些内容进行收藏操作。

在播报过程中，可以对语音产品下达“收藏该音乐”、“收藏正在播放的音乐/歌手/新闻/故事/英文文章”等语音指令，就可以将正在播报的内容添加到收藏列表。每一个收藏夹从属于一个用户，用户可以在控制终端上查看自己的收藏列表，从而进一步了解自己收藏内容的详细内容。具体的，在将所述语音控制指令所对应的文本指令与识别出的用户身份进行关联存储之后，可以确定所述文本指令是否为收藏指令；在确定所述文本指令为收藏指令的情况下，将所述收藏指令所请求收藏的目标对象增加至所述用户身份关联的收藏夹中。

经大量的试验验证，采用本实施例的技术方案，获取语音控制指令，识别出语音控制指令对应的用户身份，然后将语音控制指令所对应的文本指令与识别出的用户身份进行关联存储，这样就可以对语音控制指令进行追溯，例如，知道哪些用户进行了哪些控制。通过上述方式解决了现有的语音控制指令无法追溯所导致的安全性较低的问题，达到了语音控制指令可追溯的技术效果。

下面结合一个具体实施例对上述方法进行说明，然而值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

在本例中提供了一种语音产品任务可视化的方法，将识别出的语音指令的文本(该文本对应的可能是可执行指令，也可能是不可执行指令)，执行过的语音指令的指令，以及指令所对应的控制用户显示在控制终端上。通过上述方式实现了语音产品的可视化控制，从而可以提高语音产品使用的安全性和可控性。

具体的，语音产品的控制可视化，可以包括但不限于以下至少之一：指令识别结果的可视化、历史操作记录的可视化和收藏列表的可视化。

下面对上述几种可视化内容和场景说明如下：

1)指令识别结果可视化：

如图2所示，语音产品在识别出用户语音指令对应的文本文字后，不管该指令是否为有效指令，都将对应的文本文字记录在控制终端上。在记录过程中，首先，根据用户的声纹信息在用户声纹库中匹配该用户声纹。

如果匹配成功，则确定用户身份识别成功，直接将语音指令对应的文本文字与识别出的用户身份信息保存在识别结果库中。

如果在声纹库中未匹配到该用户的声纹，则将该用户暂时命名为“用户1”，然后，将语音指令对应的文本文字与该“用户1”的身份信息保存在识别结果库中。

用户可以在控制终端中查看识别结果库，在查看过程中，用户也可以对自动命名的用户名重新命名，例如，可以将“用户1”改为“小明”。

通过上述方式，用户还可以在识别结果库中查看无效指令对应的文本识别结果，以实现针对性地纠错。那么用户在下次下达指令的时候，可以基于查看的结果，注意易错词语的发音，从而有助于提高语音识别的正确性。

2)历史操作记录可视化：

如图3所示，在得到识别结果库后，如果该识别结果为有效指令，则设备执行该指令，并将该识别结果与对应用户信息保存在历史操作记录中。用户可以在历史操作记录中看到语音产品的历史任务执行记录与下达该控制指令的用户，从而可以提升语音产品的安全性。

3)收藏列表可视化：

如图4所示，以语音设备为智能音箱为例，智能音箱在播放音乐、故事、小品、新闻等的时候，有时是设备主动推送的内容，用户可能是第一次接触该内容。在播报过程中，用户如果遇到喜欢的音乐、感兴趣的新闻等，可以对这些内容进行收藏操作。

在播报过程中，可以对语音产品下达“收藏该音乐”、“收藏正在播放的音乐/歌手/新闻/故事/英文文章”等语音指令，就可以将正在播报的内容添加到收藏列表。

在建立收藏夹之前，先在用户声纹库中匹配用户声纹识别出用户身份，在得到用户身份之后，对该用户建立收藏夹，每一个收藏夹从属于一个用户，用户可以在控制终端上查看自己的收藏列表，从而进一步了解自己收藏内容的详细内容。在播报过程中，用户也可以对语音产品进行控制，从而控制语音产品播放自己收藏列表中的内容。

根据本发明的实施例，还提供了对应于语音数据处理装置的控制方法的一种语音数据处理装置的控制装置。参见图5所示本发明的装置的一实施例的结构示意图。该语音数据处理装置可以包括：

第一获取模块501，用于获取语音控制指令；

识别模块502，用于识别所述语音控制指令对应的用户身份；

存储模块503，用于将所述语音控制指令所对应的文本指令与识别出的用户身份进行关联存储。

在一个实施方式中，识别模块502可以包括：获取单元，用于获取所述语音控制指令中的声纹特征；确定单元，用于将所述声纹特征在预设的声纹库中进行匹配，以确定出所述语音控制指令对应的用户身份。

在一个实施方式中，上述存储模块503可以包括：转换单元，用于将所述语音控制指令转换为文本指令；执行单元，用于响应于所述文本指令，执行与所述文本指令匹配的响应操作；第一记录单元，用于记录所述文本指令、所述用户身份和操作结果。

在一个实施方式中，上述存储模块503还可以包括：确定单元，用于在匹配不出与所述文本指令匹配的响应操作的情况下，确定所述文本指令为无效指令；第二记录单元，用于记录所述无效指令和所述用户身份。

在一个实施方式中，上述装置还可以包括：第二获取模块，用于在将所述语音控制指令所对应的文本指令与识别出的用户身份进行关联存储之后，获取历史操作记录查询请求；显示模块，用于响应于所述查询请求，显示查询结果，其中，所述查询结果中包括以下至少之一：文本指令、文本指令下发时间、文本指令对应的用户身份、执行结果。

在一个实施方式中，上述装置还可以包括：确定模块，用于在将所述语音控制指令所对应的文本指令与识别出的用户身份进行关联存储之后，确定所述文本指令是否为收藏指令；添加模块，用于在确定所述文本指令为收藏指令的情况下，将所述收藏指令所请求收藏的目标对象增加至所述用户身份关联的收藏夹中。

由于本实施例的装置所实现的处理及功能基本相应于前述图1至图4所示的方法的实施例、原理和实例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

经大量的试验验证，采用本发明的技术方案，获取语音控制指令，识别出语音控制指令对应的用户身份，然后将语音控制指令所对应的文本指令与识别出的用户身份进行关联存储，这样就可以对语音控制指令进行追溯，例如，知道哪些用户进行了哪些控制。通过上述方式解决了现有的语音控制指令无法追溯所导致的安全性较低的问题，达到了语音控制指令可追溯的技术效果。

根据本发明的实施例，还提供了对应于语音数据处理装置的控制装置的一种终端。该终端可以包括：以上所述的语音数据处理装置的控制装置。

由于本实施例的终端所实现的处理及功能基本相应于前述图5所示的装置的实施例、原理和实例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

根据本发明的实施例，还提供了对应于语音数据处理装置的控制方法的一种存储介质。该存储介质，可以包括：所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行以上所述的语音数据处理装置。

由于本实施例的存储介质所实现的处理及功能基本相应于前述图1至图4所示的方法的实施例、原理和实例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

根据本发明的实施例，还提供了对应于语音数据处理装置的控制方法的一种终端。该终端，可以包括：处理器，用于执行多条指令；存储器，用于存储多条指令；其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行以上所述的语音数据处理装置的处理方法。

由于本实施例的终端所实现的处理及功能基本相应于前述图1至图4所示的方法的实施例、原理和实例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

综上，本领域技术人员容易理解的是，在不冲突的前提下，上述各有利方式可以自由地组合、叠加。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种语音数据处理方法，其特征在于，包括：

获取语音控制指令；

识别所述语音控制指令对应的用户身份；

2.根据权利要求1所述的方法，其特征在于，识别所述语音控制指令对应的用户身份，包括：

获取所述语音控制指令中的声纹特征；

3.根据权利要求1或2所述的方法，其特征在于，将所述语音控制指令所对应的文本指令与识别出的用户身份进行关联存储，包括：

将所述语音控制指令转换为文本指令；

记录所述文本指令、所述用户身份和操作结果。

4.根据权利要求3所述的方法，其特征在于，在响应于所述文本指令，执行与所述文本指令匹配的响应操作的过程中，还包括：

记录所述无效指令和所述用户身份。

5.根据权利要求1至4中任一项所述的方法，其特征在于，在将所述语音控制指令所对应的文本指令与识别出的用户身份进行关联存储之后，所述方法还包括：

获取历史操作记录查询请求；

6.根据权利要求1至5中任一项所述的方法，其特征在于，在将所述语音控制指令所对应的文本指令与识别出的用户身份进行关联存储之后，所述方法还包括：

确定所述文本指令是否为收藏指令；

7.一种语音数据处理装置，其特征在于，包括：

第一获取模块，用于获取语音控制指令；

识别模块，用于识别所述语音控制指令对应的用户身份；

8.根据权利要求7所述的装置，其特征在于，所述识别模块包括：

获取单元，用于获取所述语音控制指令中的声纹特征；

9.根据权利要求7或8所述的装置，其特征在于，所述存储模块包括：

转换单元，用于将所述语音控制指令转换为文本指令；

10.根据权利要求9所述的装置，其特征在于，所述存储模块还包括：

第二记录单元，用于记录所述无效指令和所述用户身份。

11.根据权利要求7至10中任一项所述的装置，其特征在于，还包括：

12.根据权利要求7至11中任一项所述的装置，其特征在于，还包括：

13.一种终端，其特征在于，包括：如权利要求7至12中任一项所述的语音数据处理装置。

14.一种存储介质，其特征在于，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如权利要求1至6中任一项所述的语音数据处理方法。

15.一种终端，其特征在于，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如权利要求1至6中任一项所述的语音数据处理方法。