CN112466296A

CN112466296A - 语音交互的处理方法、装置、电子设备及存储介质

Info

Publication number: CN112466296A
Application number: CN202011246776.3A
Authority: CN
Inventors: 白锦峰; 王知践; 高聪
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-03-09
Also published as: US12112746B2; KR20210088464A; JP7262532B2; US20220005474A1; JP2021179642A

Abstract

本申请公开了一种语音交互的处理方法、装置、电子设备及存储介质，涉及智能语音和深度学习等人工智能技术领域。具体实现方案为：若检测到用户的语音指令不是高频指令时，采用预先训练的完整性检测模型，预测用户的语音指令的第一完整度；基于第一完整度和预设完整度阈值，配置在用户的语音指令结束后，响应用户的语音指令的操作的等待时长；控制语音交互设备基于等待时长对所述用户的语音指令进行响应。本申请的技术方案，不用在用户的语音指令一结束，便立马响应，避免语音交互设备出现“抢话”现象，可以配置响应用户的语音指令的操作的等待时长，并基于等待时长对用户的语音指令进行响应，能够有效地增强语音交互设备的智能性。

Description

语音交互的处理方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及智能语音和深度学习等人工智能技术领域，尤其涉及一种语音交互的处理方法、装置、电子设备及存储介质。

背景技术

目前，市面上的基于语音交互的产品大多都是基于一次唤醒一次交互的方式。该交互方式是唤醒词检测技术和产品策略结合下的产物，其主要特点是：每当有用户喊完激活该语音交互设备的唤醒词之后，内置的唤醒词检测模块会检测到该唤醒词信号，开始启动识别聆听，当检测到语音尾点或者达到预先设定的时长结束聆听。然后将聆听过程中收到的语音进行识别，并基于语音识别的结果对用户的需求进行响应，从而达到响应用户需求的过程。

基于以上所述，可以知道现有技术中的产品策略上认为唤醒词结束后的数秒到十数秒内为聆听过程，该过程中用户向语音交互设备发出唤醒词之后的语音指令，语音交互设备基于该语音指令响应本次唤醒后的用户需求。

发明内容

本申请提供了一种语音交互的处理方法、装置、电子设备及存储介质。

根据本申请的一方面，提供了一种语音交互的处理方法，其中所述方法包括：

若检测到用户的语音指令不是高频指令时，采用预先训练的完整性检测模型，预测所述用户的语音指令的第一完整度；

基于所述第一完整度和预设完整度阈值，配置在所述用户的语音指令结束后，响应所述用户的语音指令的操作的等待时长；

控制语音交互设备基于所述等待时长对所述用户的语音指令进行响应。

根据本申请的另一方面，提供了一种语音交互的处理方法，其中所述方法包括：

接收用户的语音指令；

向云端服务器上传所述用户的语音指令；

接收所述云端服务器基于所述用户的语音指令生成的控制命令；所述控制指令中携带所述云端配置的、在所述用户的语音指令结束后响应所述用户的语音指令的操作的等待时长；

根据所述控制指令中的所述等待时长，对所述用户的语音指令进行响应。

根据本申请的再一方面，提供了一种云端服务器，其中所述云端服务器包括：

预测模块，用于若检测到用户的语音指令不是高频指令时，采用预先训练的完整性检测模型，预测所述用户的语音指令的第一完整度；

配置模块，用于基于所述第一完整度和预设完整度阈值，配置在所述用户的语音指令结束后，响应所述用户的语音指令的操作的等待时长；

控制模块，用于控制语音交互设备基于所述等待时长对所述用户的语音指令进行响应。

根据本申请的又一方面，提供了一种语音交互设备，其中所述设备包括：

接收模块，用于接收用户的语音指令；

上传模块，用于向云端服务器上传所述用户的语音指令；

所述接收模块，还用于接收所述云端服务器基于所述用户的语音指令生成的控制命令；所述控制指令中携带所述云端配置的、在所述用户的语音指令结束后响应所述用户的语音指令的操作的等待时长；

响应模块，用于根据所述控制指令中的所述等待时长，对所述用户的语音指令进行响应。

根据本申请的再另一方面，提供了一种语音机交互系统，其中，所述系统包括语音交互设备和云端服务器；所述云端服务器与所述语音交互设备通信连接；

其中所述云端服务器采用如上所述的云端服务器；所述语音交互设备采用如上所述的语音交互设备。

根据本申请的再又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本申请的又另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本申请的技术，不用在用户的语音指令一结束，便立马响应，避免语音交互设备出现“抢话”现象，可以配置响应用户的语音指令的操作的等待时长，并控制语音交互设备基于等待时长对用户的语音指令进行响应，能够有效地增强语音交互设备的智能性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是本实施例的语音交互的处理方法的应用场景示意图；

图3是根据本申请第二实施例的示意图；

图4是根据本申请第三实施例的示意图；

图5是根据本申请第四实施例的示意图；

图6是根据本申请第五实施例的示意图；

图7是根据本申请第六实施例的示意图；

图8是根据本申请第七实施例的示意图；

图9是根据本申请第八实施例的示意图；

图10是用来实现本申请实施例的语音交互的处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请第一实施例的示意图；如图1所示，本实施例提供一种语音交互的处理方法，具体可以包括如下步骤：

S101、若检测到用户的语音指令不是高频指令时，采用预先训练的完整性检测模型，预测用户的语音指令的第一完整度；

S102、基于第一完整度和预设完整度阈值，配置在用户的语音指令结束后，响应用户的语音指令的操作的等待时长；

S103、控制语音交互设备基于等待时长对用户的语音指令进行响应。

本实施例的语音交互的处理方法的执行主体为云端服务器，即本实施例在云端服务器侧实现对语音交互的处理。而语音交互设备侧按照常规的处理方式，配合云端服务器实现语音交互处理即可。

图2是本实施例的语音交互的处理方法的应用场景示意图。如图2所示，在语音交互中，用户可以向语音交互设备发起唤醒词的语音以及用户的语音指令。语音交互设备检测到唤醒词之后，被唤醒。并可以对唤醒词之后的用户的语音指令进行监听，并上传给云端服务器。由云端服务器基于接收到的用户的语音指令进行语音交互处理。

本实施例的技术方案应用于语音交互设备检测到用户发起的唤醒词，并已经唤醒之后，基于用户的语音指令，实现的语音交互方案。

具体地，云端服务器接收到语音交互设备发送的用户的语音指令后，首先需要检测该用户的语音指令是否为高频指令。例如，本实施例中可以预先设置有高频指令库，其中采集有所有的高频指令，具体的高频指令的内容与语音交互设备的应用场景相关，如若语音交互设备为智能音箱时，对应的高频指令可以包括：开始、暂停、关闭、上一首、下一首、声音大一点、声音小一点等等。而若语音交互设备为智能家居设备时，对应的高频指令可以包括：打开灯、关闭灯、打开空调、关闭空调、温度高一点、温度第一点等等。若语音交互设备为智能车载设备时，对应的高频指令可以包括：打开窗户、关闭窗户、打开音乐、关闭音乐、打开导航、关闭导航等等。

在每一种场景下，高频指令库中的高频指令可以为语音指令或者也可以为对语音指令进行语音识别后的文字指令。语音交互设备可以基于高频指令库检测用户的语音指令是否为高频指令的检测过程中，若高频指令为语音指令，可以直接将用户的语音指令分别与高频指令库中的每一个高频指令进行比对，若相同，则确定该用户的语音指令为高频指令，否则若用户的语音指令与高频指令库中的所有的高频指令都不相同，则该用户的语音指令为非高频指令。同理，若高频指令库中的高频指令为文字形式时，可以先对用户的语音指令进行语音识别得到相应的文字形式的用户指令，然后将文字形式的用户指令分别与高频指令库中各高频指令进行对比，以检测该文字形式的用户指令是否为高频指令；比对原理相同，在此不再赘述。

若检测到用户的语音指令不是高频指令时，本实施例中可以采用预先训练的完整性检测模型，预测用户的语音指令的第一完整度。具体实现时，可以将用户的语音指令或者用户的语音指令的文字形式输入至该完整性检测模型中，该完整性检测模型可以预测该用户的语音指令的语义的完整度，得到第一完整度。例如，该第一完整度根据需求可以设置至0-1之间，其数值越高表示用户的语音指令的语义完整性越好，反之，数值越低表示用户的语音指令的语义完整性越差。

本实施例的完整性检测模型可以为一个神经网络模型，在训练之前，可以预先采集数条训练样本，每条训练样本中可以包括一条训练用户的语音指令和人工标注的该训练用户的语音指令的完整度。例如，可以采集一些完整度好的训练用户的语音指令，并标注其完整度为1，作为训练正样本。同时还可以采集一些完整度非常差的训练用户的语音指令，并标注其完整度为0，作为训练负样本。训练时，将各条训练样本输入至完整性检测模型中，该完整性检测模型可以基于输入的训练样本中的训练用户的语音指令，预测该训练用户的语音指令的完整度。然后比对预测的训练用户的语音指令的完整度和标注的训练用户的语音指令的完整度是否一致，若不一致，调整完整度检测模型的参数，使得预测的训练用户的语音指令的完整度趋向于标注的训练用户的语音指令的完整度。采用数条训练样本，按照上述方式不断地对完整度检测模型进行训练，直至在连续预设轮数的训练中，预测的训练用户的语音指令的完整度与标注的训练用户的语音指令的完整度始终一致，此时，训练结束，确定完整度检测模型的参数，进而确定完整度检测模型。

本实施例中，获取到用户的语音指令的第一完整度之后，可以基于第一完整度和预设完整度阈值，配置在用户的语音指令结束后，响应用户的语音指令的操作的等待时长。也意味着，本实施例中，第一完整度和预设完整度阈值的不同大小关系，可以配置不同的等待时长，并控制语音交互设备基于等待时长对用户的语音指令进行响应。而不同于现有技术中用户的语音指令一结束，便立马响应，会导致用户在语音交互过程中，若出现短暂的停顿，也会被响应，导致语音交互设备出现“抢话”现象，而不能准确地响应用户的语音指令的操作。

本实施例的语音交互的处理方法，若检测到用户的语音指令不是高频指令时，通过采用预先训练的完整性检测模型，预测用户的语音指令的第一完整度；基于第一完整度和预设完整度阈值，配置在用户的语音指令结束后，响应用户的语音指令的操作的等待时长；并控制语音交互设备基于等待时长对用户的语音指令进行响应，而不用在用户的语音指令一结束，便立马响应，避免语音交互设备出现“抢话”现象，可以配置响应用户的语音指令的操作的等待时长，并控制语音交互设备基于等待时长对用户的语音指令进行响应，能够有效地增强语音交互设备的智能性。

图3是根据本申请第二实施例的示意图；如图3所示，本实施例的语音交互的处理方法，在上述图1所示实施例的技术方案的基础上，进一步更加详细地介绍本申请的技术方案。如图3所示，本实施例的语音交互的处理方法，具体可以包括如下步骤：

S301、接收语音交互设备上传的用户的语音指令；

在语音交互设备侧，该用户的语音指令为语音交互设备监听到用户发起的。

S302、基于预设的高频指令库，检测用户的语音指令是否为高频指令；若不是，执行步骤S303；否则，若是，执行步骤S307；

S303、采用预先训练的完整性检测模型，预测用户的语音指令的第一完整度；执行步骤S304；

该第一完整度即表示用户的语音指令的完整度。

S304、判断第一完整度是否大于或者等于预设完整度阈值，若是，执行步骤S305；否则执行步骤S306；

本实施例的预设完整度阈值可以根据实际经验来设置，具体数值在此不做限定。

S305、配置在用户的语音指令结束后，响应用户的语音指令的操作的等待时长为第一等待时长；执行步骤S308；

例如，本实施例的第一等待时长可以基于实际经验设置一个不太长也不太短的合理的时长，如可以设置为300ms、320ms或者其他时间长度，在此不做限定。

S306、配置在用户的语音指令结束后，响应用户的语音指令的操作的等待时长为第二等待时长，第二等待时长大于第一等待时长；执行步骤 S315；

同理，本实施例的第二等待时长也可以基于实际经验设置，如可以设置为800ms、7800ms或者其他时间长度，总之大于第一等待时长即可，具体时长在此不做限定。

本实施例中，基于第一完整度和预设完整度阈值的不同的大小关系，合理配置不同的等待时长，以有效地增强语音交互的智能性。

S307、配置在用户的语音指令结束后，响应用户的语音指令的操作的等待时长为第三等待时长，第三等待时长小于第一等待时长；执行步骤S322；

同理，本实施例的第三等待时长也可以基于实际经验设置，如可以设置为160ms、180ms或者其他时间长度，总之小于第一等待时长即可，具体时长在此不做限定。

S308、检测接收到用户的语音指令之后的等待时长是否达到第一等待时长，若达到，控制语音交互设备基于第一等待时长对用户的语音指令进行响应，结束；若未达到，执行步骤S309；

S309、检测是否接收到用户的补充语音指令；若未接收到，返回步骤 S308继续检测；若接收到，执行步骤S310；

需要说明的是，接收的该用户的补充语音指令仍为语音交互设备监听到，并上传给云端服务器的。

S310、基于预设的高频指令库，检测用户的补充语音指令是否为高频指令；若不是，执行步骤S311；否则，若是，执行步骤S323；

S311、采用完整性检测模型，预测用户的语音指令和用户的补充语音指令构成的结合指令的第二完整度；执行步骤S312；

该过程与上述实施例中采用完整性检测模型，预测用户的语音指令的第一完整度的实现过程相同，在此不再赘述。

S312、判断第二完整度是否大于第一完整度，若是，执行步骤S313；否则，暂不执行任何操作，继续保持步骤S305配置的第一等待时长；并返回步骤S308继续检测；

S313、基于第二完整度和预设完整度阈值，更新配置在用户的补充语音指令结束后，响应操作的等待时长；执行步骤S314；

具体地，在该分支中，由于上述步骤S304-S305中第一完整度已经大于预设完整度阈值，而第二完整度又大于第一完整度，所以该分支中的第二完整度一定是大于预设完整度阈值的，所以此时对应的更新配置，具体可以包括如下步骤：

(a1)删除在用户的语音指令结束后，响应用户的语音指令的操作的等待时长的配置，即上述第一等待时长的配置；

(b1)基于第二完整度大于预设完整度阈值，配置在用户的补充语音指令结束后，响应结合指令操作的等待时长为第一等待时长。

即等待时长还是第一等待时长，只是之前是在用户的语音指令之后开始计时，而更新后是从用户的补充语音指令结束后开始计时。

实际应用中的用户的“快速”发问指的是在语音交互中，用户准确、快速地表达问题，并期望快速获取到响应。“犹豫”发问指的是在语音交互中，用户通过犹豫的方式、分片段地描述问题，使得问题描述的更加完整，以期望获取到更加准确地响应。本实施例的该技术方案，通过配置在用户的语音指令结束后，响应用户的语音指令的操作的等待时长，可以实现基于用户的“快速”发问的响应；而通过更新配置信息，使得用户的“犹豫”发问的至少两个片段问题作为一个完整的问题，进行响应，能够使得快速“发问”和“犹豫”发问达到平衡，有效地提高语音交互的智能性。

S314、检测接收到用户的补充语音指令之后的等待时长是否达到第一等待时长，若达到，控制语音交互设备基于第一等待时长对结合指令进行响应，结束；若未达到，返回步骤S314继续检测。

需要说明的是，步骤S314中以用户仅补充了一次补充语音指令为例。实际应用中，在用户的补充语音指令之后的等待时长未达到第一等待时长的过程，还有可能会继续接收到用户的下一条补充语音指令，并依次类推也可以按照该逻辑重复补充多次语音指令，即可以实现一次唤醒后的多次交互操作。详细再增加上述步骤S308-S313的相关操作即可，在此不再赘述。

S315、检测接收到用户的语音指令之后的等待时长是否达到第二等待时长，若达到，控制语音交互设备基于第二等待时长对用户的语音指令进行响应，结束；若未达到，执行步骤S316；

S316、检测是否接收到用户的补充语音指令；若未接收到，返回步骤 S315继续检测；若接收到，执行步骤S317；

S317、基于预设的高频指令库，检测用户的补充语音指令是否为高频指令；若不是，执行步骤S318；否则，若是，执行步骤S323；

S318、采用完整性检测模型，预测用户的语音指令和用户的补充语音指令构成的结合指令的第二完整度；执行步骤S319；

S319、判断第二完整度是否大于第一完整度，若是，执行步骤S320；否则，暂不执行任何操作，继续保持步骤S306配置的第二等待时长；并返回步骤S315继续检测；

S320、基于第二完整度和预设完整度阈值，更新配置在用户的补充语音指令结束后，响应操作的等待时长；执行步骤S321；

具体地，在该分支中，由于上述步骤S304和S306中第一完整度小于预设完整度阈值，而第二完整度又大于第一完整度，至于第二完整度是否大于第一完整度阈值，并不得而知。所以该分支中，还需要判断第二完整度是否大于预设完整度阈值，才可以更新配置，具体可以包括如下步骤：

(a2)删除在用户的语音指令结束后，响应用户的语音指令的操作的等待时长的配置，即上述第二等待时长的配置；

(b2)判断第二完整度是否大于预设完整度阈值，若是，配置在用户的补充语音指令结束后，响应结合指令操作的等待时长为第一等待时长；否则配置在用户的补充语音指令结束后，响应结合指令操作的等待时长为第二等待时长。

S321、检测接收到用户的补充语音指令之后的等待时长是否达到配置的等待时长，若达到，控制语音交互设备基于配置的等待时长对结合指令进行响应，结束；若未达到，返回步骤S321继续检测。

S322、检测接收到用户的语音指令之后的等待时长是否达到第三等待时长，若达到，控制语音交互设备基于第三等待时长对用户的语音指令进行响应，结束；若未达到，返回步骤S322继续检测。

由于此时用户的语音指令为高频指令，且第三等待时长较短，该过程中不用再检测用户的补充语音指令。

或者可选地，在该步骤S322之后，也可以在用户的语音指令之后的等待时长未达到第三等待时长时，检测是否接收到下一个高频指令，若接收到，则按照同样的方式，配置下一个高频指令的响应的等待时长为第三等待时长，实现原理同上，此时相当于在前一个高频指令对应的响应操作还未执行时，又接收到新的高频指令时，不再执行前一个高频执行的响应操作，而准备执行新的高频指令的响应操作。

S323、更新配置在用户的补充语音指令结束后，响应操作的等待时长；执行步骤S324；

由于此时接收到的用户的补充语音指令为高频指令，此时对应的更新配置，具体可以包括如下步骤：

(a3)删除在用户的语音指令结束后，响应用户的语音指令的操作的等待时长的配置，即上述第一等待时长的配置；

(b3)配置在用户的补充语音指令结束后，响应用户的补充语音指令的操作的等待时长为第三等待时长。

即此时不再响应用户的语音指令的操作，而直接配置响应用户的补充语音指令的操作的等待时长，而准确地响应用户的补充语音指令。同理，该方案能够平衡快速“发问”和“犹豫”发问的响应，有效地提高语音交互的智能性。

S324、检测接收到用户的补充语音指令之后的等待时长是否达到第三等待时长，若达到，控制语音交互设备基于第三等待时长对用户的补充语音指令进行响应，结束；若未达到，返回步骤S324继续检测。

将上述步骤S305、步骤S306和步骤S307进行对比，可以发现，若用户的语音指令为高频指令时，由于高频指令为非常明确的指令，完整性非常高，可以设置最短的等待时长如第三等待时长，配置最短的等待时长，以进行最快速的响应。而若用户的语音指令的第一完整度较好，即大于预设完整度阈值，此时，可以认为该用户的语音指令完整性还比较好，可以认为其属于完整的，可以设置稍短一点点的等待时长如第一等待时长，以对用户的语音指令进行响应。而若用户的语音指令的第一完整度较差，即小于预设完整度阈值，此时，可以认为该用户的语音指令的完整性比较差，可以认为其不太完整，可以设置稍长一点点的等待时长如第二等待时长，对用户的语音指令进行响应，以检测用户是否还需要补充语音指令，弥补语音指令的完整性，以更加有效地对用户的语音指令进行响应。例如，在用户的问题描述过程中，存在犹豫的情况，由于犹豫过程中存在用户的语音指令的短暂停顿，此时语音交互设备可以分段地采集用户的语音指令和补充的语音指令，并采用本实施例的方案，可以实现一次唤醒多次交互，以对用户的语音指令进行准确地响应，能够有效地平衡用户的“快速”发问和“犹豫”发问，针对不同情况，配置不同的等待时长，以针对性地进行响应，增强语音交互设备的智能性。

本实施例的处理过程中，高频指令的检测和完整度预测存在一定的优先级顺序，对于任何一个用户的语音指令，都先检测该用户的语音指令是否为高频指令，若不是，再预测该用户的语音指令的完整度。

本实施例中是将完整度分两段来处理，如第一完整度基于完整度阈值来分段。实际应用中，可以根据实际需求，将完整度进行更加精细地分类处理，如设置两个不同的完整度阈值，如第一完整度阈值和第二完整度阈值，第一完整度阈值大于第二完整度阈值。若第一完整度大于或者等于第一完整度阈值，则配置响应用户的语音指令的操作的等待时长为第四等待时长，而第一完整度小于第一完整度阈值且大于或者等于第二完整度阈值时，配置响应用户的语音指令的操作的等待时长为第五等待时长，若第一完整度小于第二完整度阈值时，配置响应用户的语音指令的操作的等待时长为第五等待时长，等等。依次类推，还可以进行更加精细的分类，配置更多不同分类下的等待时长，在此不再一一举例赘述。

本实施例的语音交互的处理方法，通过采用上述技术方案，能够有效地平衡用户的“快速”发问和“犹豫”发问，实现用户与语音交互设备之间的一次唤醒，多次交互的交互方式，能够有效地提高语音交互的智能性，增强用户的使用体验。

图4是根据本申请第三实施例的示意图；如图4所示，本实施例提供一种语音交互的处理方法，具体可以包括如下步骤：

S401、接收用户的语音指令；

S402、向云端服务器上传用户的语音指令；

S403、接收云端服务器基于用户的语音指令生成的控制命令；该控制指令中携带云端配置的、在用户的语音指令结束后响应用户的语音指令的操作的等待时长；

S404、根据控制指令中的等待时长，对用户的语音指令进行响应。

本实施例的语义交互的处理方法的执行主体为语音交互设备，该语音交互设备即为位于终端侧的设备。例如，该语音交互设备可以为智能音箱、智能家居设备、智能车载设备等等。

在语音交互的场景中，用户发出语音指令后，首先由语音交互设备采集并接收到用户的语音指令。但是本实施例的场景中，语音交互设备可以不直接对该用户的语义指令进行处理，而是直接向云端服务器上传用户的语音指令。对应地，云端服务器接收到用户的语音指令后，可以采用上述图1所示实施例的方式，基于用户的语音指令，进行处理，如若检测到用户的语音指令不是高频指令时，采用预先训练的完整性检测模型，预测用户的语音指令的第一完整度；基于第一完整度和预设完整度阈值，配置在用户的语音指令结束后，响应用户的语音指令的操作的等待时长；或者也可以按照图3所示实施例配置在用户的语音指令结束后，响应用户的语音指令的操作的等待时长，并在下发给语音交互设备的控制指令中携带云端配置的、在用户的语音指令结束后响应用户的语音指令的操作的等待时长。具体地配置等待时长的过程详细也可以参考上述图1或者图3所示实施例的记载，在此不再赘述。

本实施例的语音交互的处理方法，通过接收用户的语音指令；向云端服务器上传用户的语音指令；接收云端服务器基于用户的语音指令生成的控制命令；该控制指令中携带云端配置的、在用户的语音指令结束后响应用户的语音指令的操作的等待时长；根据控制指令中的等待时长，对用户的语音指令进行响应，本实施例的技术方案，不用在用户的语音指令一结束，便立马响应，避免语音交互设备出现“抢话”现象，可以根据云端服务器配置的响应用户的语音指令的操作的等待时长，对用户的语音指令进行响应，能够有效地增强语音交互设备的智能性。

图5是根据本申请第四实施例的示意图；如图5所示，本实施例具体介绍一种语音交互的处理方法的示例，以用户的语音输入依次为：我想听 /歌星A/歌曲X/下一首为例。

下面采用上述本申请实施例的技术方案，描述该示例的语音交互过程。

如图5所示，首先，云端服务器接收到语音交互设备上传的用户的第一段语音指令“我想听”。云端服务器先检测该第一段语音指令是否为高频指令，若不是，采用完整性检测模型预测该第一段语音指令的完整度，如记为第一完整度。接下来判断第一完整度是否大于或者等于预设完整度阈值，例如，本实施例中检测到该第一完整度小于预设完整度阈值，此时，对应地，可以配置在用户的第一段语音指令结束后，响应用户的第一段语音指令的操作的等待时长为第二等待时长。

进一步地，如图5所示，在第一段语音指令结束之后，等待时长还未达到第二等待时长的过程中，云端服务器再次接收到语音交互设备上传的用户的第二段语音指令“歌星A”。此时，云端服务器先检测该“歌星A”是否为高频指令，经检测，其不是高频指令。然后可以认为该第二段语音指令为第一段语音指令的补充指令，此时可以将第一段语音指令和第二段语音指令一起构成一个结合指令“我想听歌星A”。并采用完整性检测模型预测该结合指令的完整度，如记为第二完整度。接下来，判断第二完整度是否大于第一完整度，经检测，该第二完整度确实大于第一完整度。进一步判断该第二完整度是否大于或者等于预设完整度阈值，例如，本实施例中，经判断，确定该第二完整度正好大于预设完整度阈值。此时删除原来的配置，即在用户的第一段语音指令结束后，响应用户的第一段语音指令的操作的等待时长为第二等待时长的配置，更新的配置为在用户的第二段语音指令结束后，响应第一段语音指令和第二段语音指令的结合指令的操作的等待时长为第一等待时长。

再进一步地，如图5所示，在第二段语音指令结束之后，等待时长还未达到第一等待时长的过程中，云端服务器再次接收到语音交互设备上传的用户的第三段语音指令“歌曲X”。此时，云端服务器先检测该“歌曲 X”是否为高频指令，经检测，其不是高频指令。然后可以认为该第三段语音指令为第一段语音指令和第二段语音指令之后的补充指令，此时可以将第一段语音指令、第二段语音指令和第三段语音指令一起构成一个结合指令“我想听歌星A歌曲X”，即表示歌曲X为歌星A的一首歌。并采用完整性检测模型预测该结合指令的完整度，如记为第三完整度。接下来，判断第三完整度是否大于第二完整度，经检测，该第三完整度确实大于第二完整度。由于第二完整度大于预设完整度阈值，该第三完整度大于第二完整度，必然大于预设完整度阈值。所以，此时可以删除原来的配置，即在用户的第二段语音指令结束后，响应用户的第一段语音指令和第二段语音指令的结合指令的操作的等待时长为第一等待时长的配置，更新的配置为在用户的第三段语音指令结束后，响应第一段语音指令、第二段语音指令和第三段语音指令的结合指令的操作的等待时长为第一等待时长。

又进一步地，如图5所示，在第三段语音指令结束之后，等待时长还未达到第一等待时长的过程中，云端服务器再次接收到语音交互设备上传的用户的第四段语音指令“下一首”。此时，云端服务器先检测该“下一首”是否为高频指令，经检测，其属于高频指令。即该高频指令为一个独立的指令，不与前面的极端语音指令结合构成结合指令。此时，不需要再进行完整度预测。直接删除原来的配置，即在用户的第三段语音指令结束后，响应用户的第一段语音指令、第二段语音指令和第三段语音指令的结合指令的操作的等待时长为第一等待时长的配置，更新的配置为在用户的第四段语音指令结束后，响应第四段语音指令的操作的等待时长为第三等待时长。

本实施例的语音交互的处理方法，通过采用上述实现方式，能够有效地平衡用户的“快速”发问和“犹豫”发问，实现用户与语音交互设备之间的一次唤醒，多次交互的交互方式，能够有效地提高语音交互的智能性，增强用户的使用体验。

图6是根据本申请第五实施例的示意图；如图6所示，本实施例提供一种云端服务器600，包括：

预测模块601，用于若检测到用户的语音指令不是高频指令时，采用预先训练的完整性检测模型，预测用户的语音指令的第一完整度；

配置模块602，用于基于第一完整度和预设完整度阈值，配置在用户的语音指令结束后，响应用户的语音指令的操作的等待时长；

控制模块603，用于控制语音交互设备基于等待时长对用户的语音指令进行响应。

本实施例的云端服务器600，通过采用上述模块实现语音交互的处理的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图7是根据本申请第六实施例的示意图；如图7所示，本实施例的云端服务器700，在上述图6所示实施例的技术方案的基础上，进一步更加详细地介绍本申请的技术方案。本实施例的云端服务器700中的预测模块 701、配置模块702和控制模块703，分别与上述图6所示实施例中的云端服务器600中的预测模块601、配置模块602和控制模块603的功能相同，

进一步地，本实施例的云端服务器700中，配置模块702，具体用于：

若第一完整度大于或者等于预设完整度阈值，配置在用户的语音指令结束后，响应用户的语音指令的操作的等待时长为第一等待时长。

进一步可选地，本实施例的云端服务器700中，配置模块702，还用于：

若第一完整度小于预设完整度阈值，配置在用户的语音指令结束后，响应用户的语音指令的操作的等待时长为第二等待时长，第二等待时长大于第一等待时长。

进一步可选地，如图7所示，本实施例的云端服务器700中，还包括接收模块704；

接收模块704，用于在用户的语音指令结束后的等待时长内，接收用户的补充语音指令；

预测模块701，还用于若检测到用户的补充语音指令不是高频指令时，采用完整性检测模型，预测用户的语音指令和用户的补充语音指令构成的结合指令的第二完整度；

配置模块702，还用于若第二完整度大于第一完整度，基于第二完整度和预设完整度阈值，更新配置在用户的补充语音指令结束后，响应操作的等待时长。

进一步可选地，本实施例的云端服务器700中，配置模块702，用于：

删除在用户的语音指令结束后，响应用户的语音指令的操作的等待时长的配置；

基于第二完整度和预设完整度阈值，配置在用户的补充语音指令结束后，响应结合指令操作的等待时长。

进一步可选地，本实施例的云端服务器700中，配置模块，用于：

若第二完整度大于或者等于预设完整度阈值，配置在用户的补充语音指令结束后，响应结合指令操作的等待时长为第一等待时长；或者

若第二完整度小于预设完整度阈值，配置在用户的补充语音指令结束后，响应结合指令操作的等待时长为第二等待时长；第二等待时长大于第一等待时长。

进一步可选地，本实施例的云端服务器700中，配置模块702，还用于若检测到用户的语音指令或者用户的补充语音指令是高频指令时，配置在用户的语音指令或者用户的补充语音指令结束后，响应用户的语音指令或者用户的补充语音指令的操作的等待时长为第三等待时长，第三等待时长小于第一等待时长；

控制模块703，还用于控制语音交互设备基于第三等待时长对用户的语音指令或者用户的补充语音指令进行响应。

本实施例的云端服务器700，通过采用上述模块实现语音交互的处理的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图8是根据本申请第七实施例的示意图；如图8所示，本实施例提供一种语音交互设备800，包括：

接收模块801，用于接收用户的语音指令；

上传模块802，用于向云端服务器上传用户的语音指令；

接收模块801，还用于接收云端服务器基于用户的语音指令生成的控制命令；控制指令中携带云端配置的、在用户的语音指令结束后响应用户的语音指令的操作的等待时长；

响应模块803，用于根据控制指令中的等待时长，对用户的语音指令进行响应。

本实施例的语音交互设备800，通过采用上述模块实现语音交互的处理的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图9是根据本申请第八实施例的示意图；如图9所示，本实施例提供一种语音交互系统900，包括：包括语音交互设备901和云端服务器902； 902与语音交互设备901通信连接；

其中云端服务器902采用如上图6或者图7所述的云端服务器；语音交互设备901采用如上图8所示实施例的语音交互设备。且具体可以采用上述图1-图5所示实施例的语音交互的处理方法实现语音交互处理，详细可以参考上述相关实施例的记载，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图10所示，是本申请实施例的实现语音交互的处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示，该电子设备包括：一个或多个处理器1001、存储器1002，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器 1001为例。

存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音交互的处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音交互的处理方法。

存储器1002作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音交互的处理方法对应的程序指令/模块(例如，附图6、附图7、附图8 和附图9所示的相关模块)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音交互的处理方法。

存储器1002可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据实现语音交互的处理方法的电子设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1002可选包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至实现语音交互的处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现语音交互的处理方法的电子设备还可以包括：输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置 1004可以通过总线或者其他方式连接，图10中以通过总线连接为例。

输入装置1003可接收输入的数字或字符信息，以及产生与实现语音交互的处理方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED) 显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。

根据本申请实施例的技术方案，而不用在用户的语音指令一结束，便立马响应，避免语音交互设备出现“抢话”现象，可以配置响应用户的语音指令的操作的等待时长，并控制语音交互设备基于等待时长对用户的语音指令进行响应，能够有效地增强语音交互设备的智能性。

根据本申请实施例的技术方案，能够有效地平衡用户的“快速”发问和“犹豫”发问，实现用户与语音交互设备之间的一次唤醒，多次交互的交互方式，能够有效地提高语音交互的智能性，增强用户的使用体验。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音交互的处理方法，其中所述方法包括：

2.根据权利要求1所述的方法，其中，基于所述第一完整度和预设完整度阈值，配置在所述用户的语音指令结束后，响应所述用户的语音指令的操作的等待时长，包括：

若所述第一完整度大于或者等于所述预设完整度阈值，配置在所述用户的语音指令结束后，响应所述用户的语音指令的操作的等待时长为第一等待时长。

3.根据权利要求1所述的方法，其中，基于所述第一完整度和预设完整度阈值，配置在所述用户的语音指令结束后，响应所述用户的语音指令的操作的等待时长，还包括：

若所述第一完整度小于预设完整度阈值，配置在所述用户的语音指令结束后，响应所述用户的语音指令的操作的等待时长为第二等待时长，所述第二等待时长大于所述第一等待时长。

4.根据权利要求1-3任一所述的方法，其中，基于所述第一完整度和预设完整度阈值，配置在所述用户的语音指令结束后，响应所述用户的语音指令的操作的等待时长之后，控制语音交互设备基于所述等待时长对所述用户的语音指令进行响应之前，所述方法还包括：

在所述用户的语音指令结束后的所述等待时长内，接收用户的补充语音指令；

若检测到所述用户的补充语音指令不是高频指令时，采用所述完整性检测模型，预测所述用户的语音指令和所述用户的补充语音指令构成的结合指令的第二完整度；

若所述第二完整度大于所述第一完整度，基于所述第二完整度和预设完整度阈值，更新配置在所述用户的补充语音指令结束后，响应操作的等待时长。

5.根据权利要求4所述的方法，其中，基于所述第二完整度和预设完整度阈值，更新配置在所述用户的补充语音指令结束后，响应操作的等待时长，包括：

删除在所述用户的语音指令结束后，响应所述用户的语音指令的操作的等待时长的配置；

基于所述第二完整度和预设完整度阈值，配置在所述用户的补充语音指令结束后，响应所述结合指令操作的等待时长。

6.根据权利要求5所述的方法，其中，基于所述第二完整度和预设完整度阈值，配置在所述用户的补充语音指令结束后，响应所述结合指令操作的等待时长，包括：

若所述第二完整度大于或者等于所述预设完整度阈值，配置在所述用户的补充语音指令结束后，响应所述结合指令操作的等待时长为第一等待时长；或者

若所述第二完整度小于所述预设完整度阈值，配置在所述用户的补充语音指令结束后，响应所述结合指令操作的等待时长为第二等待时长；所述第二等待时长大于所述第一等待时长。

7.根据权利要求4所述的方法，其中，所述方法还包括：

若检测到所述用户的语音指令或者所述用户的补充语音指令是高频指令时，配置在所述用户的语音指令或者所述用户的补充语音指令结束后，响应所述用户的语音指令或者所述用户的补充语音指令的操作的等待时长为第三等待时长，所述第三等待时长小于所述第一等待时长；

控制所述语音交互设备基于所述第三等待时长对所述用户的语音指令或者所述用户的补充语音指令进行响应。

8.一种语音交互的处理方法，其中所述方法包括：

接收用户的语音指令；

向云端服务器上传所述用户的语音指令；

9.一种云端服务器，其中所述云端服务器包括：

10.根据权利要求9所述的云端服务器，其中，所述配置模块，用于：

11.根据权利要求9所述的云端服务器，其中，所述配置模块，还用于：

12.根据权利要求9-12任一所述的云端服务器，其中，所述云端服务器还包括接收模块；

所述接收模块，用于在所述用户的语音指令结束后的所述等待时长内，接收用户的补充语音指令；

所述预测模块，还用于若检测到所述用户的补充语音指令不是高频指令时，采用所述完整性检测模型，预测所述用户的语音指令和所述用户的补充语音指令构成的结合指令的第二完整度；

所述配置模块，还用于若所述第二完整度大于所述第一完整度，基于所述第二完整度和预设完整度阈值，更新配置在所述用户的补充语音指令结束后，响应操作的等待时长。

13.根据权利要求12所述的云端服务器，其中，所述配置模块，用于：

14.根据权利要求13所述的云端服务器，其中，所述配置模块，用于：

15.根据权利要求12所述的云端服务器，其中：

所述配置模块，还用于若检测到所述用户的语音指令或者所述用户的补充语音指令是高频指令时，配置在所述用户的语音指令或者所述用户的补充语音指令结束后，响应所述用户的语音指令或者所述用户的补充语音指令的操作的等待时长为第三等待时长，所述第三等待时长小于所述第一等待时长；

所述控制模块，还用于控制所述语音交互设备基于所述第三等待时长对所述用户的语音指令或者所述用户的补充语音指令进行响应。

16.一种语音交互设备，其中所述设备包括：

接收模块，用于接收用户的语音指令；

上传模块，用于向云端服务器上传所述用户的语音指令；

17.一种语音机交互系统，其中，所述系统包括语音交互设备和云端服务器；所述云端服务器与所述语音交互设备通信连接；

其中所述云端服务器采用如上权利要求9-15任一所述的云端服务器；所述语音交互设备采用如上权利要求16所述的语音交互设备。

18.一种电子设备，其中，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项、或者权利要求8所述的方法。

19.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-7中任一项、或者权利要求8所述的方法。