CN108932945A

CN108932945A - 一种语音指令的处理方法及装置

Info

Publication number: CN108932945A
Application number: CN201810233853.8A
Authority: CN
Inventors: 钱希; 杨琛
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2018-12-04
Anticipated expiration: 2038-03-21
Also published as: CN108932945B

Abstract

本申请公开了一种语音指令的处理方法及装置，所述方法包括：接收来自终端包含用户原始意图的语音指令；对所述语音指令进行语音识别，生成所述语音指令的文本信息；对所述文本信息进行解析，确定所述文本信息所对应的解析意图；根据所述解析意图检索执行所述语音指令所需的资源，并将所述资源发送至所述终端；确定所述原始意图未得到满足，将所述语音指令、文本信息和解析意图标注为错误样本保存至错误样本库。所述方法根据人机交互的反应模式决定是否获取错误样本，无需用户手动进行错误标注的操作，增加了获取到错误样本的可能性。

Description

一种语音指令的处理方法及装置

技术领域

本申请涉及语音交互智能设备技术领域，特别是涉及一种语音指令的处理方法及装置。

背景技术

随着人工智能技术的发展，市场上出现了品种繁多的智能设备，常见的有智能设备包括智能手机、智能音箱、智能电视、智能机器人等。为了提升用户的使用体验，很多智能设备都提供语音输入和语音输出的功能。这些智能设备的语音交互系统根据用户输入的语音指令确定用户的意图，以便为用户提供各种服务。

常见的语音交互系统中，通常分为三大部分来对用户输入的指令进行处理。首先由语音识别系统ASR(Automatic speech recognition)将用户输入的语音指令转换为文字；然后由语义解析系统NLP(Natural language processing)解析文字所代表的意图；最后通过请求各种资源来执行实现意图要完成的任务。

其中，语音识别系统和自然语言处理系统都需要大量的标注数据来进行训练。在错误样本检测上线以后，还需要不断对用户输入进行人工标注，以提高错误样本检测模型的准确性。在现有技术中大多是由用户通过主动的人机交互方式自主标注错误样本。由于用户输入的语音指令并没有标准模式，对应同一原始意图可能会有各种各样、千差万别的语音指令，搜集大量的标注数据，尤其是那些被错误识别的标注数据，通常能给错误样本检测模型的性能带来较大的提高。但现有技术中，需要用户切换到其他交互系统中主动进行错误样本的标注，因为操作繁琐造成大部分用户放弃完成数据标注的动作，因此实际上很难获取到用户主动提交的数据，不得不耗费大量的人力物力收集错误样本存入错误样本库中，这导致现有的语音交互系统中的训练错误样本检测模型无法实现用户体验的快速提升。

发明内容

为了解决现有技术中存在的问题，本申请实施例提供了一种语音指令的处理方法、装置、智能设备和计算机可读存储介质，以解决从人机交互操作中自动获取错误标注样本的问题，从而快速提高语音交互系统的用户体验。

本申请实施例一方面提供一种语音指令的处理方法，所述方法包括：

接收来自终端包含用户原始意图的语音指令；

对所述语音指令进行语音识别，生成所述语音指令的文本信息；

对所述文本信息进行解析，确定所述文本信息所对应的解析意图；

根据所述解析意图检索执行所述语音指令所需的资源，并将所述资源发送至所述终端；

确定所述原始意图未得到满足，将所述语音指令、文本信息和解析意图标注为错误样本保存至错误样本库。

可选地，所述确定所述原始意图未得到满足包括：

在预设时间周期内重复接收到同一用户的解析意图相同的语音指令；或者

接收到来自所述终端将所述语音指令、文本信息和解析意图标注为错误样本的信息。

可选地，以决策树的方式确定是否在预设时间周期内重复接收到同一用户的解析意图相同的语音指令。

可选地，所述方法还包括：

保存与所述解析意图相对应的资源检索的记录；

如果基于所述检索记录按照预设规则确定所述解析意图未得到满足的原因是资源检索导致的，则将所述错误样本从所述错误样本库中剔除。

可选地，所述方法还包括：

保存与所述解析意图相对应的资源检索的记录；

计算所述资源检索与所述解析意图的匹配度，并将计算得到的匹配度的值保存在检索记录中；

所述匹配度的值小于预设阈值，则将所述错误样本从所述错误样本库中剔除。

本申请实施例另一方面还提供一种语音指令的处理方法，所述方法包括：

采集包含用户的原始意图的语音指令并将所述语音指令发送至服务器；

从服务器端获取执行所述语音指令所需的资源；

确定所述原始意图未得到满足，向所述服务器发送将所述语音指令和基于所述语音指令进行语音识别获得的文本信息以及对所述文本信息进行解析获得的解析意图标注为错误样本的信息。

可选地，在获取执行所述语音指令所需要的资源后，所述方法还包括：

基于获取到的所述资源提供所述语音指令对应的执行动作的信息；

所述确定所述原始意图未得到满足包括：

捕捉到放弃执行所述语音指令对应的执行动作的指示。

可选地，在获取执行所述语音指令所需要资源后，所述方法还包括：

基于获取到的所述资源执行所述语音指令对应的执行动作；

所述确定所述原始意图未得到满足包括：

捕捉到在预定时间阈值内终止所述语音指令对应的执行动作的指示。

本申请实施例另一方面还提供一种语音指令的处理装置，所述装置包括：接收模块、语音识别模块、解析模块、资源检索模块、第一错误样本检测模块和错误样本库；其中，所述接收模块被配置为接收来自终端包含用户原始意图的语音指令；所述语音识别模块被配置为对所述语音指令进行语音识别，生成所述语音指令的文本信息；所述解析模块被配置为对所述文本信息进行解析，确定所述文本信息所对应的解析意图；所述资源检索模块被配置为根据所述解析意图检索执行所述语音指令所需的资源，并将所述资源发送至所述终端；所述第一错误样本检测模块被配置为确定所述原始意图未得到满足，将所述语音指令、文本信息和解析意图标注为错误样本保存至错误样本库；所述错误样本库被配置为存储所述错误样本。

可选地，所述第一错误样本检测模块确定所述原始意图未得到满足包括：

可选地，所述第一错误样本检测模块被配置为以决策树的方式确定是否在预设时间周期内重复接收到同一用户的解析意图相同的语音指令。

可选地，所述第一错误样本检测模块还被配置为：

保存与所述解析意图相对应的资源检索的记录；

可选地，所述第一错误样本检测模块还被配置为：

保存与所述解析意图相对应的资源检索的记录；

可选地，所述装置包括：采集模块、执行模块和第二错误样本检测模块；所述采集模块被配置为采集包含用户的原始意图的语音指令并将所述语音指令发送至服务器；所述执行模块被配置为从服务器端获取执行所述语音指令所需的资源；所述第二错误样本检测模块被配置为确定所述原始意图未得到满足，向所述服务器发送将所述语音指令和基于所述语音指令进行语音识别获得的文本信息以及对所述文本信息进行解析获得的解析意图标注为错误样本的信息。

可选地，所述执行模块还被配置为在获取执行所述语音指令所需要的资源后，

所述确定所述原始意图未得到满足包括：

捕捉到放弃执行所述语音指令对应的执行动作的指示。

可选地，所述执行模块还被配置为在获取执行所述语音指令所需要资源后，基于获取到的所述资源执行所述语音指令对应的执行动作；

所述确定所述原始意图未得到满足包括：

本申请实施例另一方面还提供一种智能设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现如上所述的语音指令的处理方法。

本申请的实施例另一方面还提供一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如上所述的语音指令的处理方法。

本申请提供的语音指令的处理方法及装置，能够从人机交互操作中自动获取那些被错误识别的数据，将其标注为错误样本保存至错误样本库中，这不仅极大减少了标注错误样本所消耗的人力成本，而且显著提高了错误样本检测模型的优化效率，进而有效改善了语音交互系统的用户体验。

附图说明

图1是本申请一实施例的服务器端的语音指令的处理方法的流程示意图；

图2是本申请另一实施例的服务器端的语音指令的处理方法的流程示意图；

图3是本申请一实施例的决策树的结构示意图；

图4是本申请另一实施例的服务器端的语音指令的处理方法的流程示意图；

图5是本申请另一实施例的服务器端的语音指令的处理方法的流程示意图；

图6是本申请一实施例的客户端的语音指令的处理方法的流程示意图；

图7是本申请另一实施例的客户端的语音指令的处理方法的流程示意图；

图8是本申请另一实施例的客户端的语音指令的处理方法的流程示意图；

图9是本申请一实施例的服务器端的语音指令的处理装置的结构示意图；

图10是本申请一实施例的语音指令的处理装置的结构示意图；

图11是本申请一具体实施例的智能设备的结构示意图；

具体实施方式

下面结合附图通过实施例来阐述本申请的细节，这样更有利于理解本申请的内容，但本申请能够以多种不同于具体实施例的方式来实施，本领域技术人员可以在不违背本申请内涵的情况下结合现有技术做类似推广，因此本申请不受以下公开的具体实施方式的限制。

在本申请中，“第一”、“第二”、“第三”、“第四”等仅用于彼此的区分，而非表示重要程度及顺序、以及互为存在的前提等。

在本申请中，提供了一种语音指令的处理方法、装置、智能设备和存储介质，在下面的实施例中逐一进行详细说明。

在本申请一实施例中公开了一种服务器端的语音指令的处理方法，参见图1，所述方法包括：

步骤101：接收来自终端包含用户原始意图的语音指令；

步骤102：对所述语音指令进行语音识别，生成所述语音指令的文本信息；

步骤103：对所述文本信息进行解析，确定所述文本信息所对应的解析意图；

步骤104：根据所述解析意图检索执行所述语音指令所需的资源，并将所述资源发送至所述终端；

步骤105：确定所述原始意图未得到满足，将所述语音指令、文本信息和解析意图标注为错误样本保存至错误样本库。

上述方法根据人机交互的反应模式确定是否获取错误样本，不再需要用户手动进行错误标注的操作，从而增加了获取到错误样本的可能性。

在根据本申请的一个实施例中，步骤105中确定所述原始意图未得到满足包括：

以第一种情况为例，假设用户想要购买一家知名Pizza店的名叫“垃圾桶”的Pizza，于是其通过手机输入语音指令“外卖一个垃圾桶Pizza”，服务器端接收到该语音指令后在语音识别的过程中出现了错误，将语音指令转换为文本信息“妈妈一个垃圾桶Pizza”，并根据这一错误的文本信息容解析出错误的意图去搜索匹配的垃圾清运服务公司。由于解析意图与用户意图不符，无法满足用户请求，用户很可能会尝试再次输入语音指令“外卖一个垃圾桶Pizza”，这次服务器在语音识别过程中将语音指令正确换转为文本信息“外卖一个垃圾桶Pizza”，根据文本信息的内容解析出正确的意图，搜索到出售Pizza/披萨/比萨的餐馆清单并提供到店的地图路线。用户在提供的餐馆清单中找到了那家知名Pizza店的地址和电话等信息，并成功订购了一个名叫“垃圾桶”的Pizza。在这个过程中，被错误识别的语音指令“外卖一个垃圾桶Pizza”、文本信息“妈妈一个垃圾桶Pizza”和解析意图“搜索匹配的垃圾清运服务公司”被标注为错误样本保存至错误样本库中，用于完善错误样本检测模型的准确性。降低此后发生错误识别或解析的可能性。

该实施例中提供了一种服务器端确定所述原始意图未得到满足的判断方式，即通过检测某一代表相同解析意图的语音指令是否由同一用户在短时间内重复上传来确定是否采集错误样本，该方法省略了用户手动进行错误标注反馈的繁琐步骤，使错误样本获取的可能性大大提高。

第二种情况，若服务器端接收到来自终端的将所述语音指令、文本信息和解析意图标注为错误样本的信息，则确定用户的原始意图未得到满足，将所述语音指令、文本信息和解析意图标注为错误样本保存至错误样本库。

在根据本申请的另一个实施例中，如图2所示，其中步骤201至204与如图1所示方法中的步骤101至104完全相同，步骤205中以决策树的方式构建可学习的检测模型，用于检测是否在预设时间周期内重复接收到同一用户的解析意图相同的语音指令，从而确定所述原始意图是否得到满足，在原始意图未得到满足的情况下将所述语音指令、文本信息和解析意图标注为错误样本保存至错误样本库。

在机器学习中决策树是一种预测模型，它表示对象属性和对象值之间的一种映射，决策树中的每一个节点表示对象属性的判断条件，其分支表示符合节点条件的对象。决策树的叶子节点表示对象所属的预测结果。

图3示出一具体实施例中的决策树的结构示意图，用于检测是否在预设时间周期内重复接收到同一用户的解析意图相同的语音指令，进而确定是否将当前的语音指令、文本信息和解析意图标注为错误样本保存至错误样本库。

在这个结构的决策树中判断依据的属性有三个：

第一、是否重复接收到相同意图的指令；

第二、所述相同意图的指令是否来自于相同用户；

第三、两分钟内是否重复2次以上。

决策树中的每一个节点表示对象属性的判断条件，其分支表示符合节点条件的对象。例如：服务器重复接收到相同意图的语音指令、所述指令来自于相同用户、2分钟内重复了3次。通过决策树的根节点判断，该情况符合右边分支(YES)；再判断是否来自于相同用户，符合右边分支(YES)；然后判断2分钟内是否重复2次以上，符合右边分支(YES)，当前情况就落在“原始意图未得到满足”的叶子节点上，将当前的语音指令、文本信息和解析意图标注为错误样本保存至错误样本库。

所述决策树的构建可以采用ID3算法(Iterative Dichotomiser 3)、C4.5算法或CART算法等。

所述ID3算法是一种贪心算法，用来构造决策树。ID3算法起源于概念学习系统，以信息熵的下降速度为选取测试属性的标准，即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准，然后继续这个过程，直到生成的决策树能完美分类训练样例。

所述C4.5算法与ID3算法都是利用贪心算法进行求解，两者的不同之处在于分类决策的依据不同。在以信息增益进行分类决策时，偏向于取值较多的特征，C4.5就是基于信息增益比的分类决策方法。因此，C4.5算法在结构与递归上与ID3完全相同，区别就在于选取决断特征时选择信息增益比最大的。

所述CART算法又称为分类回归树算法，所述分类回归树是二叉树，因此CART算法的二分法可以简化决策树的规模，提高生成决策树的效率。

决策树算法的最大优势就是能够实现模型的自学习，只需要对训练实例进行较好的标注，就能够训练出效果很好的错误样本检测模型。

在决策树的维度较深的情况下，很容易出现过拟合的现象，所谓过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计的核心任务之一。为了防止过拟合，除了通过限定决策树维度的剪枝方法以外，还可以构建大量的决策树组成随机森林来防止过拟合，避免决策树泛化能力弱的缺点。换言之，单棵决策树可能存在过拟合，但通过广度的增加就能够消除过拟合现象。随机森林技术能够较好地处理高纬度数据，在多特征的情况下能够快速完成训练。此外，随机森林在训练过程中能够检测到特征之间的相互影响从而预测出样本是否归属于错误样本。

因此，可通过随机森林的方式优化可学习的检测模型对错误样本进行过滤。

一种典型的构建随机森林的方法包括：

-从样本集中随机选取n个样本；

-从所有属性中随机选取K个属性，选择最佳分割属性作为节点建立决策树；

重复以上两个步骤m次，建立m棵决策树；

这m棵决策树形成随机森林，通过投票的方式表决结果，决定数据属于哪一类。所述投票机制有一票否决制、少数服从多数、加权多数等。

通过决策树或随机森林技术，可通过对用户日常使用的习惯模式建模，从错误样本库中剔除一些特殊用户，例如测试人员，操作所产生的错误样本。

下面以一个具体应用为例，阐述随机森林技术在本申请中的作用，其中：

用户类别分为：测试人员和普通用户。

随机森林中每一棵决策树对应一个用于分类的特征，假如总特征个数为3个森林中就对应有3棵决策树，此处的决策树采用分类回归树。

表1中示出针对特征“每日使用语音指令的平均时长”进行分类的第一棵决策树的参数：

表2中示出针对特征“每日上传语音指令的平均数量”进行分类的第二棵决策树的参数：

上传语音的数量	测试人员	普通用户
			每日大于等于500条	75％	1％
每日大于等于100条	85％	8％
			每日小于等于50条	15％	75％
每日小于等于10条	1％	35％

表1中示出针对特征“每日标注错误的平均数量”进行分类的第三棵决策树的参数：

上传语音的数量	测试人员	普通用户
			每日超过100条	80％	2％
每日大于等于50条	92％	15％
			每日小于等于20条	30％	55％
每日小于等于10条	1％	30％

根据上述三棵决策树的分类结果，可以针对某个特定用户的信息建立用户分类的分布情况：

特征	特征值	测试人员	普通用户
				每日使用语音指令的平均时长	7	95％	5％
每日上传语音指令的平均数量	100	85％	8％
				每日标注错误的平均数量	50	92％	15％

最终得出结论，该用户有约91％的概率是测试人员，约9％的概率为普通用户，所以最终认定该用户属于测试人员，从错误样本库中剔除该用户操作所产生的错误样本。

在根据本申请的另一个实施例中，所述方法包括：

步骤401：接收来自终端包含用户原始意图的语音指令；

步骤402：对所述语音指令进行语音识别，生成所述语音指令的文本信息；

步骤403：对所述文本信息进行解析，确定所述文本信息所对应的解析意图；

步骤404：根据所述解析意图检索执行所述语音指令所需的资源，并将所述资源发送至所述终端，保存与所述解析意图相对应的资源检索的记录；

步骤405：确定所述原始意图未得到满足，将所述语音指令、文本信息、解析意图标注为错误样本保存至错误样本库；

步骤406：如果基于所述检索记录按照预设规则确定所述解析意图未得到满足的原因是资源检索导致的，则将所述错误样本从所述错误样本库中剔除。

资源检索原因导致的解析意图未得到满足的情况包括：

网络连接错误导致无法获得资源检索结果；

检索的方式错误导致错误的资源检索结果；或

因为检索库的局限性导致无法获得需要的资源检索结果。

由于用户意图未被满足的情况既可能是语音识别错误或语义解释过程中产生的，也可能是由于资源检索失败或错误导致的，因此，在进行错误样本保存时，同时保存资源检索的记录，就能在后续通过人工复检等方式，将这类语音识别和语义解析正确而仅仅因为检索失败或错误导致的用户意图未被满足的干扰错误样本从错误样本库中剔除，从而提高错误样本检测模型的准确性。

在一个具体的应用中，服务器接收到用户输入的语音指令“播放电影《AABBCC》”，通过语音识别得到所述语音指令的文本信息“播放电影《AABBCC》”，解析该文本信息后，进行资源检索时并未找到名为《AABBCC》的电影视频资源，后续用户重复输入语音指令，但由于检索不到匹配的电影视频资源，用户意图始终无法得到满足，因此语音指令“播放电影《AABBCC》”、与该语音指令相对应的文本信息和解析意图以及与所述解析意图相对应的资源检索的记录都被标注为错误样本保存至错误样本库中。显然，在语音识别和语义解析的环节中并未出现错误，因此，该错误样本可通过人工筛查从错误样本库中被剔除。

在根据本申请的另一个实施例中，为避免人工筛查的繁琐，在检索记录中保存资源与请求的匹配度从而实现干扰错误数据样本的自动筛查，所述方法包括：

步骤501：接收来自终端包含用户原始意图的语音指令；

步骤502：对所述语音指令进行语音识别，生成所述语音指令的文本信息；

步骤503：对所述文本信息进行解析，确定所述文本信息所对应的解析意图；

步骤504：根据所述解析意图检索执行所述语音指令所需的资源，并将所述资源发送至所述终端，保存与所述解析意图相对应的资源检索的记录；

步骤505：计算所述资源检索与所述解析意图的匹配度，并将计算得到的匹配度的值保存在检索记录中；

步骤506：确定所述原始意图未得到满足，将所述语音指令、文本信息和解析意图标注为错误样本保存至错误样本库；

步骤507：所述匹配度的值小于预设阈值，则将所述错误样本从所述错误样本库中剔除。

通过上述步骤，能够将由于资源检索的原因导致不能满足用户意图而标注的错误样本筛查出来，并从错误样本库中将其剔除，进一步提高错误样本检测模型的准确性。

在可选的实施例中，可以在将所述由于资源检索的原因导致不能满足用户意图而标注的错误样本保存至错误样本库之前就将其过滤掉。

计算资源检索与解析意图的匹配度的方式有很多种，以下用一个具体应用来举例说明。假如用户想去一家名为“棒棒糖”的KTV唱歌想要搜索相关信息，为此用户输入语音指令“棒棒糖KTV唱歌”，对该语音指令进行语音识别得到了相应的文本信息为“棒棒糖KTV唱歌”，根据对文本信息的拆分得到三个关键字“棒棒糖”、“KTV”和“唱歌”，根据关键词获得解析意图为搜索名称中包含关键词“棒棒糖”的KTV。但由于并没有一家名为“棒棒糖”的KTV，因此只能提供以下4种检索结果作为反馈：

1.提供名称中不包含关键词“棒棒糖”的能唱歌的场所的信息；

2.打电话给包含关键词“棒棒糖”和/或“KTV”和/或“唱歌”的联系人；

3.在日历中加入“棒棒糖KTV唱歌”的日程；

4.播放包括关键词“棒棒糖”和/或“KTV”的歌曲。

显然不管提供上述四种反馈中的哪一种都无法满足用户的原始意图，但由于资源检索与所述解析意图的匹配度不高，假设第一种情形计算出的匹配度数值为50％，第二种情形计算出的匹配度为40％，第三种情形计算出的匹配度为30％，第四种情形计算出的匹配度为15％，均小于预设阈值70％，此时即使服务器多次重复接收到同一用户发送的这一相同语音指令，最终都会因为资源检索与所述解析意图的匹配度的值小于预设阈值，而将相应的错误样本从所述错误样本库中剔除。

匹配度的计算依赖于资源检索的类型，以检索一首歌曲为例。语音指令是播放歌曲S1，S1代表歌曲名称的字符串。但在语音识别或语义解析中出现了错误，导致最终获得的解析意图中包含的歌曲名称为字符串S2，S1与S2分别对应拼音字符串P1和P2，通过公式M＝1-d/max(len(p1)，len(p2))计算以字符串S2作为检索条件的匹配度的值，其中M为匹配度，d为P1和P2的编辑距离，len(P1)为拼音字符串P1的长度，len(P2)为拼音字符串P2的长度，max(len(P1),len(P2))在两者中取字符串长度较大的数值。

在本申请一实施例中，公开了一种客户端的语音指令的处理方法，参见图6，所述方法包括：

步骤601：采集包含用户的原始意图的语音指令并将所述语音指令发送至服务器；

步骤602：从服务器端获取执行所述语音指令所需的资源；

步骤603：确定所述原始意图未得到满足，向所述服务器发送将所述语音指令和基于所述语音指令进行语音识别获得的文本信息以及对所述文本信息进行解析获得的解析意图标注为错误样本的信息。

上述方法根据人机交互的反应模式决定是否获取错误样本，无需用户手动进行错误标注的操作，增加了获取到错误样本的可能性。

可选的，在根据本申请的另一实施例中提供了另一种客户端的语音指令的处理方法，参见图7，所述方法包括：

步骤701：采集包含用户的原始意图的语音指令并将所述语音指令发送至服务器；

步骤702：从服务器端获取执行所述语音指令所需的资源；

步骤703：基于获取到的所述资源提供所述语音指令对应的执行动作的信息；

步骤704：捕捉到放弃执行所述语音指令对应的执行动作的指示，确定所述原始意图未得到满足，向所述服务器发送将所述语音指令和基于所述语音指令进行语音识别获得的文本信息以及对所述文本信息进行解析获得的解析意图标注为错误样本的信息。

上述方法中基于获取到的所述资源向用户提供反馈信息，通过所述反馈信息告知用户客户端所要进行的后续动作。所述反馈信息可以是文字反馈也可以是通过TTS(文本转语音Text To Speech)技术实现的语音反馈，通过常用的文字语音转换单元能够实现文本信息到音频信息的转化。用户看到或听到所述反馈信息，就能够判断出请求能否得到满足。通常，用户只有在意图得不到满足的情况下，才会主动放弃后续动作的执行，因此如果客户端接收到用户放弃执行后续动作的指示，即可推定客户端获取到的执行所述语音指令所需要的资源并不能满足用户的实际请求，此时将所述语音指令和基于所述语音指令进行语音识别获得的文本信息以及对所述文本信息进行解析获得的解析意图标注为错误样本保存至错误样本库，不仅省略了用户手动标注错误样本的繁琐过程，而且在完全符合用户的常规操作习惯的状态下自动采集错误样本，这大大提高了获取到有效错误样本的概率。

在根据本申请的另一个实施例中提供了一种客户端的语音指令的处理方法，参见图8，所述方法包括：

步骤801：采集包含用户的原始意图的语音指令并将所述语音指令发送至服务器；

步骤802：从服务器端获取执行所述语音指令所需的资源；

步骤803：基于获取到的所述资源执行所述语音指令对应的执行动作；

步骤804：捕捉到在预定时间阈值内终止所述语音指令对应的执行动作的指示，确定所述原始意图未得到满足，向所述服务器发送将所述语音指令和基于所述语音指令进行语音识别获得的文本信息以及对所述文本信息进行解析获得的解析意图标注为错误样本的信息。

例如，采集用户输入的语音指令“播放视频《ABCC》”，并将所述语音指令上传到服务器端；由服务器端进行语音识别时发生错误，将语音指令识别为错误的文本信息“播放视频《ADCC》”，根据错误的文本信息解析出的解析意图为播放名为《ADCC》的视频，并根据最终确定的解析意图检索执行所述解析意图所需要的视频资源《ADCC》；客户端获取到《ADCC》的视频资源后开始播放，此时用户发现播放的视频并不是其请求播放的《ABCC》因此在视频播放5秒钟就发出了终止了播放的指示，客户端捕捉到用户的这一指示，由此确定用户的原始意图未得到满足，将所述语音指令“播放视频《ABCC》”和基于所述语音指令进行语音识别获得的文本信息“播放视频《ADCC》”以及对所述文本信息进行解析获得的解析意图“播放名为《ADCC》的视频”标注为错误样本保存至错误样本库。

上述方法中也选取了一种符合用户的常规操作习惯的方式实现了错误样本的自动采集，省略了用户手动标注错误样本的繁琐过程，提高了获取到有效的错误样本的概率。

本申请一实施例公开了一种服务器端的语音指令的处理装置，参见图9，所述装置包括：接收模块901、语音识别模块902、解析模块903、资源检索模块904、第一错误样本检测模块905和错误样本库906；其中，所述接收模块901被配置为接收来自终端包含用户原始意图的语音指令；所述语音识别模块902被配置为对所述语音指令进行语音识别，生成所述语音指令的文本信息；所述解析模块903被配置为对所述文本信息进行解析，确定所述文本信息所对应的解析意图；所述资源检索模块904被配置为根据所述解析意图检索执行所述语音指令所需的资源，并将所述资源发送至所述终端；所述第一错误样本检测模块905被配置为确定所述原始意图未得到满足，将所述语音指令、文本信息和解析意图标注为错误样本保存至错误样本库906；所述错误样本库906被配置为存储所述错误样本。

通过上述装置能够根据人机交互的反应模式决定是否获取错误样本，无需用户手动进行错误标注的操作，增加了获取到错误样本的可能性。

在根据本申请的另一实施例中，所述第一错误样本检测模块905确定所述原始意图未得到满足包括：

该装置的检测模块905通过捕捉同一用户在短时间内重复上传的代表相同解析意图的语音指令来确定采集错误样本的时机，省略了用户手动进行错误标注反馈的繁琐步骤，使错误样本获取的可能性大大提高。另一种判断方式是用于将满足客户端确定所述原始意图未得到满足的判断标准的错误样本保存到错误样本库中。

在根据本申请的另一实施例中，所述第一错误样本检测模块被配置为以决策树的方式构建可学习的检测模型，用于检测是否在预设时间周期内重复接收到同一用户的解析意图相同的语音指令，从而确定所述原始意图是否得到满足，在原始意图未得到满足的情况下将所述语音指令、文本信息和解析意图标注为错误样本保存至错误样本库。

决策树算法的最大优势就是能够实现模型的自学习，只需要对训练实例进行较好的标注，就能可通过随机森林的方式优化可学习的检测模型对错误样本进行过滤。

随机森林算法能够防止过拟合，解决决策树泛化能力弱的缺点。

在根据本申请的另一实施例中，所述第一错误样本检测模块905还被配置为：

保存与所述解析意图相对应的资源检索的记录；

由于用户意图未被满足的情况也可能是由于资源检索失败或错误导致的，因此，配置有如上所述的第一错误样本检测模块905的装置在进行错误样本保存时，同时保存资源检索的记录，就能在后续通过人工复检等方式，将这类语音识别和语义解析正确而仅仅因为检索失败或错误导致的用户意图未被满足的干扰错误样本从错误样本库中剔除，从而提高了错误样本检测模型的准确性。

根据本申请的另一实施例，所述第一错误样本检测模块905还被配置为：

保存与所述解析意图相对应的资源检索的记录；

配置有如上所述的第一错误样本检测模块905的装置能够将由于资源检索的原因导致不能满足用户意图而标注的错误样本筛查出来，并从错误样本库中将其剔除，进一步提高错误样本检测模型的准确性。

在根据本申请的一个实施例中公开了一种客户端的语音指令的处理装置，如图10所示，所述装置包括：采集模块1001、执行模块1002和第二错误样本检测模块1003；所述采集模块1001被配置为采集包含用户的原始意图的语音指令并将所述语音指令发送至服务器；所述执行模块1002被配置为从服务器端获取执行所述语音指令所需的资源；所述第二错误样本检测模块1003被配置为确定所述原始意图未得到满足，向所述服务器发送将所述语音指令和基于所述语音指令进行语音识别获得的文本信息以及对所述文本信息进行解析获得的解析意图标注为错误样本的信息。

为了方便描述客户端与服务器端配合工作的原理，在图10中还示出了与客户端的语音指令的处理装置配合工作的服务器端的语音指令的处理装置的结构组成。其中，所述接收模块1004被配置为接收终端所述采集模块1001发送的包含用户原始意图的语音指令；所述语音指令被传送给语音识别模块1005进行语音识别，生成所述语音指令的文本信息；所述文本信息被传送给解析模块1006确定所述文本信息所对应的解析意图；之后，资源检索模块1007根据所述解析意图检索执行所述语音指令所需的资源，并将所述资源发送至所述终端的执行模块1002；终端的所述执行模块1002从服务器端获取执行所述语音指令所需的资源之后由所述第二错误样本检测模块1003确定用户的原始意图是否得到满足，若确定所述原始意图未得到满足则向服务器发送将所述语音指令和基于所述语音指令进行语音识别获得的文本信息以及对所述文本信息进行解析获得的解析意图标注为错误样本的信息。其中所述第一错误样本检测模块1003能够保存与所述解析意图相对应的资源检索的记录；如果基于所述检索记录按照预设规则确定所述解析意图未得到满足的原因是资源检索导致的，则将所述错误样本从所述错误样本库1009中剔除。

所述错误样本库1009一般设置在服务器端，当然也不排除在客户端针对特定用户设置专属错误样本库的可能。

上述装置能够根据人机交互的反应模式决定是否获取错误样本，无需用户手动进行错误标注的操作，增加了获取到错误样本的可能性。

根据本申请的一个实施例，所述执行模块1002还被配置为在获取执行所述语音指令所需要的资源后，基于获取到的所述资源提供所述语音指令对应的执行动作的信息；

所述确定所述原始意图未得到满足包括：

捕捉到放弃执行所述语音指令对应的执行动作的指示。

配置了上述执行模块1002的装置不仅省略了用户手动标注错误样本的繁琐过程，而且在完全符合用户的常规操作习惯的状态下自动采集错误样本，这大大提高了获取到有效错误样本的概率。

根据本申请的另一个实施例，所述执行模块1002还被配置为在获取执行所述语音指令所需要的资源后，基于，基于获取到的所述资源执行所述语音指令对应的执行动作；

所述确定所述原始意图未得到满足包括：

配置了上述的执行模块1002的装置也能够以一种符合用户的常规操作习惯的方式实现错误样本的自动采集，省略了用户手动标注错误样本的繁琐过程，提高了获取到有效的错误样本的概率。

在根据本申请的一个实施例中提供了一种如图11所示的智能设备1100，包括但不限于存储器1101、处理器1102及存储在存储器1101上并可在处理器1102上运行的计算机指令，所述处理器1102执行所述指令时实现如前所述的语音指令的处理方法。

上述为本实施例的一种智能设备的示意性方案。需要说明的是，该智能设备的技术方案与前述的语音指令的处理方法属于同一构思，所述智能设备的技术方案未详细描述的细节内容，均可以参见上述语音指令的处理方法的技术方案的描述。

在根据本申请的一个实施例中提供了一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时实现权如前所述的语音指令的处理方法。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与前述的语音指令的处理方法属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述语音指令的处理方法的技术方案的描述。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该申请仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种语音指令的处理方法，其特征在于，所述方法包括：

接收来自终端包含用户原始意图的语音指令；

2.根据权利要求1所述的方法，其特征在于，所述确定所述原始意图未得到满足包括：

在预设时间周期内重复接收到同一用户的解析意图相同的语音指令；或者接收到来自所述终端将所述语音指令、文本信息和解析意图标注为错误样本的信息。

3.根据权利要求2所述的方法，其特征在于，以决策树的方式确定是否在预设时间周期内重复接收到同一用户的解析意图相同的语音指令。

4.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

保存与所述解析意图相对应的资源检索的记录；

5.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

保存与所述解析意图相对应的资源检索的记录；

6.一种语音指令的处理方法，其特征在于，所述方法包括：

从服务器端获取执行所述语音指令所需的资源；

7.根据权利要求6所述的方法，其特征在于，在获取执行所述语音指令所需要的资源后，所述方法还包括：

所述确定所述原始意图未得到满足包括：

捕捉到放弃执行所述语音指令对应的执行动作的指示。

8.根据权利要求6所述的方法，其特征在于，在获取执行所述语音指令所需要资源后，所述方法还包括：

基于获取到的所述资源执行所述语音指令对应的执行动作；

所述确定所述原始意图未得到满足包括：

9.一种语音指令的处理装置，其特征在于，所述装置包括：采集模块、执行模块和第二错误样本检测模块；所述采集模块被配置为采集包含用户的原始意图的语音指令并将所述语音指令发送至服务器；所述执行模块被配置为从服务器端获取执行所述语音指令所需的资源；所述第二错误样本检测模块被配置为确定所述原始意图未得到满足，向所述服务器发送将所述语音指令和基于所述语音指令进行语音识别获得的文本信息以及对所述文本信息进行解析获得的解析意图标注为错误样本的信息。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至5或6至8中任一项所述的语音指令的处理方法。