CN108182942B

CN108182942B - 一种支持不同虚拟角色交互的方法和装置

Info

Publication number: CN108182942B
Application number: CN201711464018.7A
Authority: CN
Inventors: 陈长海
Original assignee: Rockchip Electronics Co Ltd
Current assignee: Rockchip Electronics Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2021-11-26
Anticipated expiration: 2037-12-28
Also published as: CN108182942A

Abstract

本发明公开了一种支持不同虚拟角色交互的方法和装置，所述装置包括终端和服务器，所述终端包括第一通信单元、第一处理单元、第一存储单元、语音播放单元；所述第一存储单元包括多个第一存储模块；所述服务器包括第二处理单元、第二通信单元和第二存储单元，所述第二存储单元包括多个第二存储模块。通过设置不同的存储单元，对于各个角色的语音数据进行分门别类的存储，同时在每次语音结束后，将本次语音通话数据和第二存储模块中的历史角色语音信息进行统计学习，生成新的角色语音信息，并新的角色语音信息更新至第一存储模块和第二存储模块中，使得智能语音回复更加符合用户的需求，有效提升了用户的感官体验。

Description

一种支持不同虚拟角色交互的方法和装置

技术领域

本发明涉及人机交互领域，尤其涉及一种支持不同虚拟角色交互的方法和装置。

背景技术

智能语音交互是近几年的热点，亚马逊、谷歌等国际大公司先后都推出了智能语音相关产品(如智能音箱)，作为推进各自进军人工智能领域的入口，国内企业(如京东、百度、阿里巴巴)等公司在智能语音领域也有布局。然而，截至目前为止，不管是智能音箱还是其他的智能交互产品，主要还是以单一的内容回复或单一的角色交互为主。尽管谷歌公司还推出了可以面向多用户的智能语音功能，其能够识别不同人的声音，对待同一个问题针对不同人可以给出对应的答案回复，但仍局限于单一角色而言，如果多个用户所提问的问题千差万别，智能机器人说回复的语音往往存在着文不对题、答非所问等现象，极大影响了用户感官体验。

发明内容

为此，需要提供一种支持不同虚拟角色交互的技术方案，用以解决现有技术中由于智能语音交互角色单一、功能有限，导致语音回复不准确、用户体验差等问题。

为实现上述目的，发明人提供了一种支持不同虚拟角色交互的装置，所述装置包括终端和服务器；所述终端与服务器连接；所述终端包括第一通信单元、第一处理单元、第一存储单元、语音播放单元；所述第一存储单元包括多个第一存储模块；第一处理单元分别与第一通信单元、第一存储单元、语音播放单元连接；所述服务器包括第二处理单元、第二通信单元和第二存储单元，所述第二处理单元分别与第二通信单元、第二存储单元连接，所述第一通信单元和第二通信单元连接，所述第二存储单元包括多个第二存储模块；

所述第一处理单元用于依次获取多个角色的关键词信息，根据关键词信息与角色信息的对应关系，通过第一通信单元获取第二通信单元发送的角色信息，并依次角色信息存储至第一存储模块中，每一第一存储模块对应存储一角色信息；所述关键词信息包括角色ID，所述角色信息包括角色语音信息；

所述第一处理单元还用于获取用户输入的第一语音信息，对第一语音信息进行语音识别，确定该语音信息对应的角色ID，获取该角色ID的角色语音信息；以及用于接收用户输入的第二语音信息，并对第二语音信息进行语义分析，根据角色语音信息生成取第二语音信息对应的语音回复信息，并通过语音播放单元发出所述语音回复信息；

所述第一处理单元还用于在接收到语音结束指令时，通过第一通信单元发送本次语音通话数据至第二通信单元，所述语音通话数据包括本次通话的所有第二语音信息以及语音回复信息；

所述第二处理单元用于将本次语音通话数据和第二存储模块中的历史角色语音信息进行统计学习，生成新的角色语音信息，并新的角色语音信息更新至第二存储模块中，以及用于将新的角色语音信息通过第二通信单元发送至第一通信单元；

所述第一处理单元用于通过第一通信单元接收新的角色语音信息，并将其存储于对应的第一存储模块中。

进一步地，所述语音回复信息包括语音内容信息和语音配置信息，所述语音播放单元用于根据所述语音配置信息播放所述语音内容信息。

进一步地，所述第一存储模块中还存储有预设角色唤醒信息，所述第一处理单元用于接收角色唤醒信息，当判定接收到的角色唤醒信息与预设角色唤醒信息匹配时，从第一存储模块中获取角色语音信息。

进一步地，所述第一处理单元还用于接收角色操作指令，根据角色操作指令对第一存储模块中的角色语音信息执行相应操作，所述角色操作指令包含有待操作的角色ID。

发明人还提供了一种支持不同虚拟角色交互的方法，所述方法应用于支持不同虚拟角色交互的装置，所述装置包括终端和服务器；所述终端与服务器连接；所述终端包括第一通信单元、第一处理单元、第一存储单元、语音播放单元；所述第一存储单元包括多个第一存储模块；第一处理单元分别与第一通信单元、第一存储单元、语音播放单元连接；所述服务器包括第二处理单元、第二通信单元和第二存储单元，所述第二处理单元分别与第二通信单元、第二存储单元连接，所述第一通信单元和第二通信单元连接，所述第二存储单元包括多个第二存储模块；所述方法包括以下步骤：

第一处理单元依次获取多个角色的关键词信息，根据关键词信息与角色信息的对应关系，通过第一通信单元获取第二通信单元发送的角色信息，并依次角色信息存储至第一存储模块中，每一第一存储模块对应存储一角色信息；所述关键词信息包括角色ID，所述角色信息包括角色语音信息；

第一处理单元获取用户输入的第一语音信息，对第一语音信息进行语音识别，确定该语音信息对应的角色ID，获取该角色ID的角色语音信息；以及接收用户输入的第二语音信息，并对第二语音信息进行语义分析，根据角色语音信息生成取第二语音信息对应的语音回复信息，并通过语音播放单元发出所述语音回复信息；

第一处理单元在接收到语音结束指令时，通过第一通信单元发送本次语音通话数据至第二通信单元，所述语音通话数据包括本次通话的所有第二语音信息以及语音回复信息；

第二处理单元将本次语音通话数据和第二存储模块中的历史角色语音信息进行统计学习，生成新的角色语音信息，并新的角色语音信息更新至第二存储模块中，以及用于将新的角色语音信息通过第二通信单元发送至第一通信单元；

第一处理单元通过第一通信单元接收新的角色语音信息，并将其存储于对应的第一存储模块中。

进一步地，所述语音回复信息包括语音内容信息和语音配置信息，所述方法包括：

语音播放单元根据所述语音配置信息播放所述语音内容信息。

进一步地，所述第一存储模块中还存储有预设角色唤醒信息，所述方法包括：

第一处理单元接收角色唤醒信息，当判定接收到的角色唤醒信息与预设角色唤醒信息匹配时，从第一存储模块中获取角色语音信息。

进一步地，所述方法包括：

第一处理单元接收角色操作指令，根据角色操作指令对第一存储模块中的角色语音信息执行相应操作，所述角色操作指令包含有待操作的角色ID。

区别于现有技术，上述技术方案所述的支持不同虚拟角色交互的方法和装置，所述装置包括终端和服务器，所述终端包括第一通信单元、第一处理单元、第一存储单元、语音播放单元；所述第一存储单元包括多个第一存储模块；所述服务器包括第二处理单元、第二通信单元和第二存储单元，所述第二存储单元包括多个第二存储模块。通过设置不同的存储单元，对于各个角色的语音数据进行分门别类的存储，同时在每次语音结束后，将本次语音通话数据和第二存储模块中的历史角色语音信息进行统计学习，生成新的角色语音信息，并新的角色语音信息更新至第一存储模块和第二存储模块中，使得智能语音回复更加符合用户的需求，有效提升了用户的感官体验。

附图说明

图1为本发明一实施例涉及的支持不同虚拟角色交互的装置的示意图；

图2为本发明一实施例涉及的终端与智能云端的连接示意图；

图3为本发明一实施例涉及的支持不同虚拟角色交互的方法的流程图；

附图标记说明：

101、终端；

111、第一通信单元；112、第一处理单元；113、第一存储单元；1131、第一存储模块；114、语音播放单元；

102、服务器；

121、第二处理单元；122、第二通信单元；123、第二存储单元；1231、第二存储模块。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，为本发明一实施例涉及的支持不同虚拟角色交互的装置的示意图。所述装置包括终端101和服务器102；所述终端101与服务器102连接；所述终端101包括第一通信单元111、第一处理单元112、第一存储单元113、语音播放单元114；所述第一存储单元113包括多个第一存储模块1131；第一处理单元112分别与第一通信单元111、第一存储单元113、语音播放单元114连接；所述服务器102包括第二处理单元121、第二通信单元122和第二存储单元123，所述第二处理单元121分别与第二通信单元122、第二存储单元123连接，所述第一通信单元111和第二通信单元122连接，所述第二存储单元123包括多个第二存储模块1231。

所述终端为具有数据处理功能和语音播放功能的电子设备，如手机、平板、个人计算机等，所述服务器可以选用云端服务器。所述第一通信单元和第二通信单元可以通过蓝牙、WIFI等进行通信。所述第一处理单元和第二处理单元为具有数据处理功能的电子元件，如CPU、DSP、MCU处理器等。所述第一存储单元和第二存储单元为具有数据存储功能的电子元件，如硬盘、软盘、U盘等，第一存储模块为第一存储单元的子模块，第二存储模块为第二存储单元的子模块，语音播放单元可以为麦克风。

所述第一处理单元112用于依次获取多个角色的关键词信息，根据关键词信息与角色信息的对应关系，通过第一通信单元111获取第二通信单元122发送的角色信息，并依次角色信息存储至第一存储模块1131中，每一第一存储模块对1131应存储一角色信息。关键词信息可以通过接收用户输入的信息获得，也可以是提供几个备选的关键词信息给用户选择，通过检测用户的选择指令而确定。

所述角色信息包括角色语音信息，服务器可以事先存储许多不同关键词信息对应的语音机器人的初始语音包。所述关键词信息包括角色ID、角色所属的类型等，例如用户给角色1起名为“小明”，并设定其所属的类型为“擅长体育类型”，那么第一处理器将从服务器获取到“擅长体育类型”相关的机器人语音包，并将其存储于角色1对应的第一存储模块1131中，例如可以存储于图1中的第一存储模块A中。当然，用户也可以给角色2起名为“小红”，并设定其所属的类型为“擅长文学类型”，那么第一处理器将从服务器获取到“擅长文学类型”相关的机器人初始语音包，并将其存储于角色2对应的第一存储模块1131中，例如可以存储于图1中的第一存储模块B中。同理，用户可以通过上述方法从服务器获取不同智能语音交互机器人的初始语音包，并分门别类进行存储，以便随时调用获取。

所述第一处理单元112还用于获取用户输入的第一语音信息，对第一语音信息进行语音识别，确定该语音信息对应的角色ID，获取该角色ID的角色语音信息；以及用于接收用户输入的第二语音信息，并对第二语音信息进行语义分析，根据角色语音信息生成取第二语音信息对应的语音回复信息，并通过语音播放单元发出所述语音回复信息。所述第一语音信息为唤醒相应角色的语音信息，可以为用户事先设定好的关键词信息，例如用户可以通过对终端呼叫“小明”，终端在对用户输入的语音进行分析后，将调取第一存储模块A中的数据以便后续调用。当然，用户也可以通过提问一些有针对性的问题，例如当第一处理单元分析出用户的第一语音信息包含有体育相关的词汇或者问题时，也可以自动唤醒角色1，以便更有针对性的与用户进行交互。第二语音信息为用户正常进行的语音数据，用户可以以提问或聊天的方式与终端进行交互，第一处理单元通过对第二语音信息进行语义分析，根据角色语音信息生成取第二语音信息对应的语音回复信息，并通过语音播放单元发出所述语音回复信息。由于对角色进行了分门别类，使得每个角色回答用户疑问时更具针对性，回答的内容更加符合用户需求，有效提升了用户体验。

所述第一处理单元112还用于在接收到语音结束指令时，通过第一通信单元111发送本次语音通话数据至第二通信单元，所述语音通话数据包括本次通话的所有第二语音信息以及语音回复信息；所述第二处理单元122用于将本次语音通话数据和第二存储模块1231中的历史角色语音信息进行统计学习，生成新的角色语音信息，并新的角色语音信息更新至第二存储模块1231中，以及用于将新的角色语音信息通过第二通信单元122发送至第一通信单元111；所述第一处理单元112用于通过第一通信单元111接收新的角色语音信息，并将其存储于对应的第一存储模块1131中。

语音结束指令可以通过用户结束本次语音通话时触发，也可以通过关闭终端时触发。如图2所示，终端中的角色A的语音数据存储于智能云端(相当于服务器)的角色A服务云(相当于第二存储模块)，每次用户结束与角色A语音通话后，将本次通话的所有语音数据(包括接收到用户输入的语音数据以及语音回复语音)压缩打包发送至云智能云端，智能云端会将语音数据与角色A服务云中存储的数据进行综合分析，生成新的角色语音信息，并将新的角色A对应的语音数据更新至第二存储模块中。具体地，服务器可以对历史角色语音信息(即本次语音通话之前已经事先存储于第二存储模块中本次通话角色对应的语音信息)与本次语音通话数据配置不同的权重值，从而综合分析得到新的语音信息，权重值可以根据时间戳确定，一般地，最近一次语音通话数据的权重值要高于时间更往前通话的权重值。例如针对用户最佳的10次提问(问题为同一个)，前5次角色A回答的语音数据为“D”，后5次角色A回答的语音数据为“E”，那么在更新后的角色A的语音信息中，由于次数相同且“E”的权重值更大，因而当用户再次提问相同问题时，将选用“E”作为语音回复数据进行播放。再比如针对相同的一个问题，前9次角色A回答的语音数据为“D”，后1次角色A回答的语音数据为“E”，尽管最后一次的回答的权重值更大，但由于前9次的回答都是“D”，在用户没有提出明确否定回答不正确的前提下，无疑“D”更适合作为本次提问的回答，因而在更新后的角色A的语音信息中，针对这一问题会选用“D”作为语音回复信息进行播放。播放的方式包括听筒播放、麦克风播放等。这样，通过服务器的实时调整计算，语音机器人通过智能学习，使得语言回复信息更加让用户满意，提升用户感官体验。

在某些实施例中，所述语音回复信息包括语音内容信息和语音配置信息，所述语音播放单元用于根据所述语音配置信息播放所述语音内容信息。所述语音配置信息包括语气信息、音色信息等。用户在设定某个角色的关键词信息时，可以一并设定该角色说话时的音色、语气等，从而使得语音回复信息以预设的语音配置信息进行播放，提升用户体验。当然，用户也可以对用户输入语音的语气和语调进行分析，选择相对应的语气和语调来播放语音内容信息，例如用户输入的第二语音信息声调较高，则可以选用声调较为温柔的语气播放语音内容信息，从而有效提升用户体验。

在某些实施例中，所述第一存储模块中还存储有预设角色唤醒信息，所述第一处理单元用于接收角色唤醒信息，当判定接收到的角色唤醒信息与预设角色唤醒信息匹配时，从第一存储模块中获取角色语音信息。除了角色ID之外，用户可以根据实际需要设定角色唤醒信息，从而更加便捷地唤醒角色进行语音交互。预设角色唤醒信息可以包括文字信息、语音信息、人脸信息等等。

在某些实施例中，所述第一处理单元还用于接收角色操作指令，根据角色操作指令对第一存储模块中的角色语音信息执行相应操作，所述角色操作指令包含有待操作的角色ID。所述角色操作指令包括对角色进行增、删、改、查等指令，从而便于对多个角色进行管理。

如图3所示，发明人提供了一种支持不同虚拟角色交互的方法，所述方法应用于支持不同虚拟角色交互的装置，所述装置包括终端和服务器；所述终端与服务器连接；所述终端包括第一通信单元、第一处理单元、第一存储单元、语音播放单元；所述第一存储单元包括多个第一存储模块；第一处理单元分别与第一通信单元、第一存储单元、语音播放单元连接；所述服务器包括第二处理单元、第二通信单元和第二存储单元，所述第二处理单元分别与第二通信单元、第二存储单元连接，所述第一通信单元和第二通信单元连接，所述第二存储单元包括多个第二存储模块；所述方法包括以下步骤：

首先进入步骤S301第一处理单元依次获取多个角色的关键词信息，根据关键词信息与角色信息的对应关系，通过第一通信单元获取第二通信单元发送的角色信息，并依次角色信息存储至第一存储模块中，每一第一存储模块对应存储一角色信息；所述关键词信息包括角色ID，所述角色信息包括角色语音信息；

而后进入步骤S302第一处理单元获取用户输入的第一语音信息，对第一语音信息进行语音识别，确定该语音信息对应的角色ID，获取该角色ID的角色语音信息；以及接收用户输入的第二语音信息，并对第二语音信息进行语义分析，根据角色语音信息生成取第二语音信息对应的语音回复信息，并通过语音播放单元发出所述语音回复信息；

而后进入步骤S303第一处理单元在接收到语音结束指令时，通过第一通信单元发送本次语音通话数据至第二通信单元，所述语音通话数据包括本次通话的所有第二语音信息以及语音回复信息；

而后进入步骤S304第二处理单元将本次语音通话数据和第二存储模块中的历史角色语音信息进行统计学习，生成新的角色语音信息，并新的角色语音信息更新至第二存储模块中，以及将新的角色语音信息通过第二通信单元发送至第一通信单元；

而后进入步骤S305第一处理单元通过第一通信单元接收新的角色语音信息，并将其存储于对应的第一存储模块中。

上述方法通过设置不同的存储单元，对于各个角色的语音数据进行分门别类的存储，同时在每次语音结束后，将本次语音通话数据和第二存储模块中的历史角色语音信息进行统计学习，生成新的角色语音信息，并新的角色语音信息更新至第一存储模块和第二存储模块中，使得智能语音回复更加符合用户的需求，有效提升了用户的感官体验。

在某些实施例中，所述语音回复信息包括语音内容信息和语音配置信息，所述方法包括：语音播放单元根据所述语音配置信息播放所述语音内容信息。所述语音配置信息包括语气信息、音色信息等。用户在设定某个角色的关键词信息时，可以一并设定该角色说话时的音色、语气等，从而使得语音回复信息以预设的语音配置信息进行播放，提升用户体验。当然，用户也可以对用户输入语音的语气和语调进行分析，选择相对应的语气和语调来播放语音内容信息，例如用户输入的第二语音信息声调较高，则可以选用声调较为温柔的语气播放语音内容信息，从而有效提升用户体验。

在某些实施例中，所述第一存储模块中还存储有预设角色唤醒信息，所述方法包括：第一处理单元接收角色唤醒信息，当判定接收到的角色唤醒信息与预设角色唤醒信息匹配时，从第一存储模块中获取角色语音信息。除了角色ID之外，用户可以根据实际需要设定角色唤醒信息，从而更加便捷地唤醒角色进行语音交互。预设角色唤醒信息可以包括文字信息、语音信息、人脸信息等等。

在某些实施例中，所述方法包括：第一处理单元接收角色操作指令，根据角色操作指令对第一存储模块中的角色语音信息执行相应操作，所述角色操作指令包含有待操作的角色ID。所述角色操作指令包括对角色进行增、删、改、查等指令，从而便于对多个角色进行管理。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种支持不同虚拟角色交互的装置，其特征在于，所述装置包括终端和服务器；所述终端与服务器连接；所述终端包括第一通信单元、第一处理单元、第一存储单元、语音播放单元；所述第一存储单元包括多个第一存储模块；第一处理单元分别与第一通信单元、第一存储单元、语音播放单元连接；所述服务器包括第二处理单元、第二通信单元和第二存储单元，所述第二处理单元分别与第二通信单元、第二存储单元连接，所述第一通信单元和第二通信单元连接，所述第二存储单元包括多个第二存储模块；

所述第一处理单元还用于获取用户输入的第一语音信息，对第一语音信息进行语音识别，确定该语音信息对应的角色ID，获取该角色ID的角色语音信息；以及用于接收用户输入的第二语音信息，并对第二语音信息进行语义分析，根据角色语音信息生成与第二语音信息对应的语音回复信息，并通过语音播放单元发出所述语音回复信息；

所述第二处理单元用于将本次语音通话数据和第二存储模块中的历史角色语音信息进行统计学习，生成新的角色语音信息，并新的角色语音信息更新至第二存储模块中，以及用于将新的角色语音信息通过第二通信单元发送至第一通信单元；所述“第二处理单元用于将本次语音通话数据和第二存储模块中的历史角色语音信息进行统计学习，生成新的角色语音信息”具体包括：第二处理单元对历史角色语音信息与本次语音通话数据配置不同的权重值，从而综合分析得到新的语音信息；所述权重值根据时间戳确定，最近一次语音通话数据的权重值要高于时间更往前的语音通话数据的权重值；

2.如权利要求1所述的支持不同虚拟角色交互的装置，其特征在于，所述语音回复信息包括语音内容信息和语音配置信息，所述语音播放单元用于根据所述语音配置信息播放所述语音内容信息。

3.如权利要求1所述的支持不同虚拟角色交互的装置，其特征在于，所述第一存储模块中还存储有预设角色唤醒信息，所述第一处理单元用于接收角色唤醒信息，当判定接收到的角色唤醒信息与预设角色唤醒信息匹配时，从第一存储模块中获取角色语音信息。

4.如权利要求1所述的支持不同虚拟角色交互的装置，其特征在于，所述第一处理单元还用于接收角色操作指令，根据角色操作指令对第一存储模块中的角色语音信息执行相应操作，所述角色操作指令包含有待操作的角色ID。

5.一种支持不同虚拟角色交互的方法，其特征在于，所述方法应用于支持不同虚拟角色交互的装置，所述装置包括终端和服务器；所述终端与服务器连接；所述终端包括第一通信单元、第一处理单元、第一存储单元、语音播放单元；所述第一存储单元包括多个第一存储模块；第一处理单元分别与第一通信单元、第一存储单元、语音播放单元连接；所述服务器包括第二处理单元、第二通信单元和第二存储单元，所述第二处理单元分别与第二通信单元、第二存储单元连接，所述第一通信单元和第二通信单元连接，所述第二存储单元包括多个第二存储模块；所述方法包括以下步骤：

第一处理单元获取用户输入的第一语音信息，对第一语音信息进行语音识别，确定该语音信息对应的角色ID，获取该角色ID的角色语音信息；以及接收用户输入的第二语音信息，并对第二语音信息进行语义分析，根据角色语音信息生成与第二语音信息对应的语音回复信息，并通过语音播放单元发出所述语音回复信息；

第二处理单元将本次语音通话数据和第二存储模块中的历史角色语音信息进行统计学习，生成新的角色语音信息，并新的角色语音信息更新至第二存储模块中，以及用于将新的角色语音信息通过第二通信单元发送至第一通信单元；所述“第二处理单元用于将本次语音通话数据和第二存储模块中的历史角色语音信息进行统计学习，生成新的角色语音信息”具体包括：第二处理单元对历史角色语音信息与本次语音通话数据配置不同的权重值，从而综合分析得到新的语音信息；所述权重值根据时间戳确定，最近一次语音通话数据的权重值要高于时间更往前的语音通话数据的权重值；

6.如权利要求5所述的支持不同虚拟角色交互的方法，其特征在于，所述语音回复信息包括语音内容信息和语音配置信息，所述方法包括：

7.如权利要求5所述的支持不同虚拟角色交互的方法，其特征在于，所述第一存储模块中还存储有预设角色唤醒信息，所述方法包括：

8.如权利要求5所述的支持不同虚拟角色交互的方法，其特征在于，所述方法包括：