CN116756285A

CN116756285A - 虚拟机器人的互动方法、设备和存储介质

Info

Publication number: CN116756285A
Application number: CN202310736256.8A
Authority: CN
Inventors: 杜平杰; 殷雅俊
Original assignee: Beijing Huafang Technology Co ltd
Current assignee: Beijing Huafang Technology Co ltd
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-09-15

Abstract

本发明提供一种虚拟机器人的互动方法、设备和存储介质，方法包括：响应于用户触发的虚拟机器人互动请求，实时采集用户直播间的多模态数据。而后，对采集到的数据进行处理，以将多模态数据转换为统一格式的文本信息，所述文本信息用于统一表征多模态数据的特征信息。接着，根据所述文本信息，生成响应文本。基于所述响应文本，确定互动信息，并基于所述互动信息控制虚拟机器人执行互动操作。在上述方案中，通过对直播间的多模态数据进行分析处理，以充分挖掘直播间信息，使得虚拟机器人可以结合各种直播间信息自动与用户进行智能互动，不仅可以降低用户操作难度，还可以提升直播间活跃度，极大地提升了主播直播积极性与观众体验。

Description

虚拟机器人的互动方法、设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种虚拟机器人的互动方法、设备和存储介质。

背景技术

随着科技的快速发展以及人们生活水平的提高，网络直播也逐渐成为人们娱乐生活的重要途径之一，深受年轻人的喜爱。对于直播来说，冷场是一个非常影响主播情绪和观众体验的情况。传统的直播助手机器人只能执行一些简单的指令，例如播放音效、提醒关注等，无法有效地根据直播间内容跟主播进行互动，缺乏智能交互和个性化服务的能力，无法真正帮助主播提升直播间互动和活跃度。此外，传统机器人还需要手动配置各种规则和指令，主播接入门槛较高。

发明内容

本发明实施例提供一种虚拟机器人的互动方法、设备和存储介质，用以解决直播间活跃度不够的问题，通过虚拟机器人，非常智能地与主播之间进行互动，以提升直播间活跃度。

第一方面，本发明实施例提供一种虚拟机器人的互动方法，所述方法包括：

响应于用户触发的虚拟机器人互动请求，实时采集所述用户直播间的多模态数据；

确定所述多模态数据对应的文本信息，所述文本信息用于统一表征多模态数据的特征信息；

根据所述文本信息，生成响应文本；

基于所述响应文本，确定互动信息，并基于所述互动信息控制所述虚拟机器人执行互动操作。

第二方面，本发明实施例提供一种虚拟机器人的互动装置，所述装置包括：

响应模块，用于响应于用户触发的虚拟机器人互动请求，实时采集所述用户直播间的多模态数据；

确定模块，用于确定所述多模态数据对应的文本信息，所述文本信息用于统一表征多模态数据的特征信息；

生成模块，用于根据所述文本信息，生成响应文本；

执行模块，用于基于所述响应文本，确定互动信息，并基于所述互动信息控制所述虚拟机器人执行互动操作。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器、通信接口；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如第一方面所述的虚拟机器人的互动方法。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第一方面所述的虚拟机器人的互动方法。

在本发明实施例提供的虚拟机器人的互动方案中，在对用户触发的虚拟机器人互动请求进行处理时，可以先响应于该用户触发的虚拟机器人互动请求，实时采集该用户直播间的不同模态类型的数据，例如直播视频数据、直播音频数据、弹幕信息、打赏信息等。而后，对采集到的数据进行处理，以将多模态数据转换为统一形式的文本信息，该文本信息用于统一表征多模态数据的特征信息。接着，根据该文本信息，生成响应文本。基于响应文本，确定互动信息，并基于互动信息控制虚拟机器人执行互动操作。

在上述方案中，通过对直播间的多模态数据进行分析处理，以充分挖掘直播间信息，使得虚拟机器人可以结合各种直播间信息自动与用户进行智能互动，不仅可以降低用户操作难度，还可以提升直播间活跃度，极大地提升了主播直播积极性与观众体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种虚拟机器人的互动方法的流程图；

图2为本发明实施例提供的一种基于响应文本，确定互动信息的流程图；

图3为本发明实施例提供一种确定所述指令信息对应的指令操作的流程图；

图4为本发明实施例提供的一种云端服务模式下确定虚拟机器人互动过程的示意图；

图5为本发明实施例提供的一种虚拟机器人互动装置的结构示意图；

图6为本实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

需要说明的是，本发明实施例中所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

随着互联网技术的迅猛发展，网络直播作为一个新的技术领域进入大众视野，用户可以在各自的终端上观看到直播间主播的精彩表演，并可以与主播实时互动。在主播的直播间内的互动较少，气氛较差时，往往需要主播进行气氛调动或通过主播的助手机器人进行气氛调动。

现有的直播助手机器人只能执行一些简单的指令，例如播放音效、提醒关注等，无法有效地根据直播间内容跟主播进行互动，缺乏智能交互和个性化服务的能力，无法真正帮助主播提升直播间互动和活跃度。此外，传统机器人还需要手动配置各种规则和指令，主播接入门槛较高，从而影响了主播的使用。

为了解决上述技术问题，本发明实施例提供了一种新的虚拟机器人的互动方案。在该互动方案中，结合用户直播间的多种数据源，充分挖掘直播间信息，确定虚拟机器人的互动信息，来跟用户进行实时交互，例如虚拟机器人可以结合直播内容与主播用户进行聊天，还可以根据用户设定对直播内容进行点评、调侃和夸耀等；同时还能够根据观众反馈，在聊天中自然地进行打赏感谢和弹幕回应，即通过虚拟机器人，非常智能地与主播之间进行互动，可以提升直播间互动和活跃度。

下面结合附图，对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

图1为本发明实施例提供的一种虚拟机器人的互动方法的流程图。如图1所示，本实施例提供了一种虚拟机器人的互动方法，该方法的执行主体可以为服务端，可以理解的是，该服务端可以实现为软件、或者软件和硬件的组合，具体的，该方法包括如下步骤：

101、响应于用户触发的虚拟机器人互动请求，实时采集用户直播间的多模态数据。

102、确定多模态数据对应的文本信息，文本信息用于统一表征多模态数据的特征信息。

103、根据文本信息，生成响应文本。

104、基于响应文本，确定互动信息，并基于互动信息控制虚拟机器人执行互动操作。

在本发明实施例中，当用户触发虚拟机器人互动请求之后，服务端响应于该用户触发的虚拟机器人互动请求，实时采集该用户直播间的多模态数据。其中，虚拟机器人互动请求中可以包括用户标识，根据用户标识，实时采集该用户直播间的多模态数据。可选地，多模态数据可以包括直播视频数据、直播音频数据、打赏信息、弹幕信息等不同模态类型的数据，其具体所包括的数据类型以及数据数量，可以根据实际需求进行设定。

为了便于后续对采集到的多模态数据进行分析处理，可以先将各种不同模态类型的数据均转换为统一形式表示。那么，在获取到该用户直播间的多模态数据之后，可以对多模态数据进行处理，以确定多模态数据对应的文本信息。其中，文本信息用于统一表征多模态数据的特征信息。

例如，多模态数据可以包括视频数据、音频数据、打赏信息、弹幕信息，可以将音频数据转换为与其对应的文本信息，其中，文本信息可以用于描述该直播视频数据中所包括的直播内容。将音频数据转换为与其对应的文本信息，该文本信息可以用于描述该音频数据所包括的文字内容。将打赏信息转换为与其对应的文本信息，该文本信息可以用于描述观众打赏情况以及观众反馈信息。将弹幕信息转化为其对应的文本信息，该文本信息可以用于描述观众反馈信息。

在一可选实施例中，若采集到的多模态数据中包括用户音频数据，可以通过语音识别模型来确定该用户音频数据对应的文本信息。具体的，将用户音频数据输入至语音识别模型，以获得用户音频数据对应的文本信息。例如，利用语音识别模型，将主播的聊天音频转换成聊天文字，以获得主播说话文本。

其中，语音识别模型中主要包括编码器、编码器。编码器主要用于将用户的音频数据转换为用于进行语音识别的向量表示。解码器主要用于完成语音到文字的识别，以识别出音频数据中用户所说的全部文字，最终输出用户对应的语音识别结果即获得该用户音频数据对应的文本信息。可选地，编码器中可以包括级联的多个编码器，每个编码器中可以包括两个子层：注意力层和前馈神经网络层。解码器中可以包括级联的多个解码器，每个解码器中包括注意力层和前馈神经网络层。其中，编码器中所包含的编码器的数量可以根据实际需求进行设定，同样地，解码器中所包含的编码器的数量可以根据实际需求进行设定，在此不做限定。另外，这里的解码器中的注意力层可以包括自注意力层和注意力层。

在一可选实施例中，若采集到的多模态数据中包括直播视频数据，可以通过图像识别模型来确定直播视频数据对应的文本信息。具体的，将直播视频数据输入至图像识别模型，以获得直播视频数据对应的文本信息，文本信息用于描述直播视频数据中所包括的直播内容。或者按照预设周期对采集到的直播视频数据进行截图处理，将处理后获得的多张图像输入至图像识别模型中，以获得该直播视频数据对应的文本信息。或者按照预设周期对用户直播内容进行截图，获得多张图像，将多张图像输入至图像识别模型中，以获得该直播视频数据对应的文本信息。例如，按照预设周期定期对主播的直播进行截图，使用视觉语言预训练模型(BLIP-2模型)生成截图对应的文字描述，以获得直播视频内容描述文本。

其中，图像识别模型主要包括图像编码器、文本编码器、图像-文本编码器以及图像-文本解码器。图像编码器主要用于提取图像特征信息，将用户的直播视频数据转换为用于进行图像识别的向量表示。文本编码器主要用于提取文本特征信息，将图像识别的向量表示转换为用于进行文字识别的向量表示。图像-文本编码器用于预测图像-文本对是正匹配还是负匹配。图像-文本解码器用于生成给定图像的文本描述。BLIP的预训练任务主要包括：对输出的图像特征和文本特征进行对比学习、判断图文是否一致、文本生成。三个预训练任务统一进行训练，能够更加充分地利用收集到的图文多模态数据，也能使得BLIP模型能够同时满足图文理解任务与图文生成任务。

在一可选实施例中，若采集到的多模态数据中包括观众互动数据，可以通过第一语言识别模型来确定观众互动数据对应的文本信息。具体的，将观众互动数据输入至第一语言识别模型，以获得观众互动数据对应的文本信息，文本信息用于描述观众反馈信息。其中，观众互动数据可以包括观众打赏信息、弹幕信息。其中，第一语言识别模型具体可以为生成式预训练Transformer模型(Generative Pre-trained Transformer，简称GTP模型)，采用无监督的预训练和有监督的模型微调。例如，使用GTP模型，将观众打赏礼物信息和观众弹幕信息转换为文本描述，并对观众反馈信息进行总结归纳，以获得观众反馈总结文本。

由上述描述可知：文本信息可以包括主播说话文本、直播视频内容描述文本、观众反馈总结文本，这些文本可以反映用户当前直播间信息。那么，就可以根据获取到的文本信息，确定当前虚拟机器人所对应的响应文本。

具体的，在本发明实施例中，在获取到多模态数据对应的文本信息之后，对该文本信息进行分析处理，以确定出虚拟机器人所对应的响应文本。其中，响应文本可以包括对话信息和指令信息。也就是说，可以首先根据当前直播情况，确定虚拟机器人当前所对应的响应方式以及当前响应内容。若根据当前获取到的文本信息，确定出当前虚拟机器人进行对话响应，那么接着确定当前对话响应所对应的具体对话信息。若根据当前获取到的文本信息，确定当前虚拟机器人进行指令响应，那么接着确定当前指令响应所对应的具体指令信息。另外，在实际应用中，根据当前获取到的文本信息，确定出当前虚拟机器人需要同时进行对话响应和指令响应，那么可以接着确定当前对话响应所对应的具体对话信息以及当前指令响应所对应的具体指令信息。

其中，对话信息可以包括与主播进行实时对话内容、对直播内容进行点评、调侃和夸耀、对打赏观众进行感谢和弹幕信息进行回应等内容。例如，对采集到的多模态数据进行处理后，获得的文本信息为“今天天气怎么样”。那么可以生成对话信息“今天天气还不错哦”。

其中，指令信息可以包括音效播放指令、音量调节指令、背景音乐切换指令等。例如，对采集到的多模态数据进行处理后，获得的文本信息为“播放的音乐声音较大”。那么可以生成指令信息“音量调低”。

在一可选实施例中，可以通过第二语言识别模型来确定文本信息对应的响应文本，具体的，将文本信息输入至第二语言识别模型，以获得文本信息对应的对话信息和/或指令信息。其中，对话信息用于指示虚拟机器人执行与对话信息对应的操作，指令信息用于指示虚拟机器人执行与指令信息对应的操作。另外，第二语言识别模型具体可以为生成式预训练Transformer模型(Generative Pre-trained Transformer，简称GTP模型)，采用无监督的预训练和有监督的模型微调。例如，使用GTP模型，对文本信息进行分析处理，以生成响应文本。具体的，GPT模型在对文本信息进行分析时，以主播说话文本为主，以直播视频内容描述文本和观众反馈总结文本为辅，生成实时的对话信息和/或指令信息。也就是说，在语言识别模型中，主播说话文本占有较高的权重，直播视频内容描述文本和观众反馈总结文本占有较低的权重。

当确定出当前虚拟机器人所对应的响应文本之后，接着基于响应文本，确定互动信息，并基于该互动信息控制虚拟机器人执行互动操作。其中，不同的响应文本对应有不同的互动信息，例如，当响应文本为对话信息时，利用语音合成技术将对话信息转化为语音，以使得虚拟机器人进行语音播放。当响应文本为指令信息时，则将指令信息转化为指令操作，以使得虚拟机器人执行该指令操作。这样虚拟机器人就可以结合直播内容跟主播进行人性化的聊天，可以根据主播设定对直播内容进行点评、调侃和夸耀，根据观众反馈，在聊天中自然地进行打赏感谢和弹幕回应，提升了用户体验和用户粘性；同时还可以根据根据直播内容或者主播对话自动生成操作指令，以使得虚拟机器人执行相应的操作，降低主播操作难度。

另外，还可以设置虚拟机器人播放的语音风格，可以使得虚拟机器人可以以不同风格类型的人声与主播进行聊天或者与观众进行互动应答，以增加直播趣味性，以吸引更多的观众观看该用户直播。

在本发明实施例中，通过对直播间的多模态数据进行分析处理，以充分挖掘直播间信息，使得虚拟机器人可以结合各种直播间信息自动与用户进行智能互动，不仅可以降低用户操作难度，还可以提升直播间活跃度，极大地提升了主播直播积极性与观众体验。

上述实施例中介绍的虚拟机器人的互动方案的执行主体为服务端。在实际应用中，该虚拟机器人的互动方法的执行主体也可以是虚拟机器人，该虚拟机器人可以实现为软件、或者软件和硬件的组合，对其执行主体不做限定，可以根据实际需求进行设定。那么若该方法的执行主体为虚拟机器人时，当用户虚拟机器人互动请求之后，虚拟机器人响应于该用户触发的虚拟机器人互动请求，实时采集该用户直播间的多模态数据。对多模态数据进行处理，以确定多模态数据对应的文本信息。其中，文本信息用于统一表征多模态数据的特征信息。而后，对该文本信息进行分析处理，以确定出虚拟机器人所对应的响应文本。接着，基于响应文本，确定互动信息，并基于该互动信息执行相应的互动操作。

其中，本发明实施例中涉及到的具体的实施过程可以参考上述实施例中内容，在此不再赘述。

上述各个实施例介绍了确定虚拟机器人所执行互动操作的具体实现过程。在实际应用中，为了增加直播互动性和趣味性，用户可以对机器人进行人设信息设定，基于不同人设信息，生成不同的语音信息，结合图2对基于响应文本，确定互动信息，并基于互动信息控制虚拟机器人执行互动操作的处理过程进行示例性说明。

图2为本发明实施例提供的一种基于响应文本，确定互动信息的流程图；如图2所示，其中，响应文本包括对话信息，本发明实施例提供了一种基于响应文本，确定互动信息的具体实现方式，该方法包括如下步骤：

201、确定虚拟机器人的人设信息。

202、基于人设信息，确定对话信息对应的语音信息，并控制虚拟机器人播放语音信息。

在本发明实施例中，当生成的响应文本为对话信息时，可以结合虚拟机器人的人设信息，生成互动信息。具体的，首先确定虚拟机器人的人设信息，基于人设信息，确定对话信息对应的语音信息，并控制虚拟机器人播放语音信息。

其中，用户可以根据直播内容预先设定虚拟机器人的人设信息，也可以由服务端根据当前直播内容设定虚拟机器人的人设信息。其中，人设信息可以包括年龄、性格、说话风格、地域等，将根据设定的人设信息，生成不同风格的对话反馈，使得虚拟机器人可以采用不同风格类型的人声播放语音信息。

本发明实施例，通过确定虚拟机器人的人设信息，而后基于人设信息，确定对话信息对应的语音信息，并控制虚拟机器人播放语音信息，增加直播互动性和趣味性。

上述实施例介绍了基于生成的对话信息，确定互动信息的实施方式，然而在实际应用中，根据文本信息，还可以生成指令信息，基于该指令信息，确定互动信息，以使得虚拟机器人执行相应的指令操作。具体的，确定指令信息对应的指令操作，并控制虚拟机器人执行指令操作。其中，操作信息可以包括音效播放指令、音量调节指令、背景音乐切换指令等。

在传统的直播中，主播通常需要手动触发音效播放指令、音量调节指令、背景音乐切换指令等，然而在某些场景下，例如在跳舞场景、户外场景、游戏场景等下，主播不便触发操作指令，无法及时进行氛围音效的播放、音量调节等。然而，采用本发明实施例提供的虚拟机器人的互动方法，可以根据直播内容自动生成指令信息，以使得虚拟机器人可以自动执行相应的指令操作，不再需要用户进行触发，可以减少用户操作，解放了用户的双手。

另外，在实际应用中，人工选择音效的过程存在主观因素，无法保证音效的适宜性，经常无法实现最佳效果。为了解决上述问题，本发明实施例采用了AI技术，结合多模态数据自动选择匹配的音效播放，实现了更加高效和智能的直播内容活跃气氛控制。为了便于确定匹配的预设音效的过程，结合附图3对结合多模态数据确定预设音效，以控制虚拟机器人自动播放预设音效的具体过程进行示例性说明。

图3为本发明实施例提供一种确定所述指令信息对应的指令操作的流程图；如图3所示，其中，指令信息包括音效播放指令，本发明实施例提供了一种确定所述指令信息对应的指令操作的具体实现方式，该方法包括如下步骤：

301、获取当前周期内的直播视频数据和直播音频数据。

302、确定直播视频数据对应的视频特征和直播音频数据对应的音频特征。

303、基于音频特征和视频特征，确定当前直播间对应的直播场景、直播风格、用户情绪。

304、基于直播场景、直播风格、用户情绪，从音效特征库中确定与当前直播相匹配的预设音效，并控制虚拟机器人播放预设音效。

在实际应用中，根据文本信息，确定出相应的指令信息之后，确定该指令信息对应的指令操作。需要注意的是：若确定出的具体指令信息为音效播放指令，那么在确定该音效播放指令对应的指令操作之前，可以先从音效特征库中确定虚拟机器人待播放的预设音效。

其中，服务端可以预先构建音效特征库。具体的，首先获取多个预设音效，确定各个预设音效所适应的直播场景、用户情绪、直播风格、直播时长等信息。并使用音频特征提取模型，提取各个预设音效的音频特征，以获得各个音效对应的音频特征。接着结合各个预设音效所适应的直播场景、用户情绪、直播风格、直播时长，构建音频特征与直播场景、用户情绪、直播风格、直播时长等组合信息的对应关系，基于该对应关系，创建音效特征库。

而后，可以结合直播内容，从音效特征库中确定出与当前直播内容相匹配的预设音效，并控制虚拟机器人自动播放预设音效。具体的，首先获取当前周期内的直播视频数据和直播音频数据。由于用户的直播内容可能每时每刻都在变化，那么为了更好地确定出符合用户当前直播内容，使得选取出的预设音效达到最佳的效果，那么可以获取当前周期内的用户直播间的直播视频数据和直播音频数据。

接着，确定直播视频数据对应的视频特征以及直播音频数据对应的音频特征。在一可选实施例中，可以使用3D卷积神经网络对采集到的直播视频数据进行处理，以提取视频数据中的时间特征和空间特征，将提取到的时间特征和空间特征确定为该直播视频数据对应的视频特征。可以使用语音识别模型，将直播音频数据转化为文字信息，使用Transformer模型进行文本特征提取，以获得该直播音频数据对应的音频特征。

在确定出音频特征和视频特征之后，基于音频特征和视频特征，确定当前直播间对应的直播场景、直播风格、用户情绪。而后，基于直播场景、直播风格、用户情绪，从音效特征库中确定与当前直播相匹配的预设音效，这样确定出的预设音效与用户当前直播内容更匹配，以达到最佳效果，使得现场氛围更加活跃、生动，进而提升了观众用户的体验。最后，控制虚拟机器人播放预设音效。

本发明实施例，通过对多模态数据进行特征提取，并将特征信息以及情感进行分析，实现了对直播内容的全面分析，能够准确把握直播内容的氛围和情感，可以选择合适的预设音效进行播放，提高了直播内容的质量和观看体验。并且用户可播放的预设音效从原来的几十个扩大到数千个，同时解放了主播的双手，让直播拥有更多可能性。

另外，本发明实施例提供的虚拟机器人的互动方法可以在云端来执行，在云端可以部署有若干计算节点(云服务器)，每个计算节点中都具有计算、存储等处理资源。在云端，可以组织由多个计算节点来提供某种服务，当然，一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口，用户调用该服务接口以使用相应的服务。

针对本发明实施例提供的方案，云端可以提供有虚拟机器人的互动服务的服务接口，用户通过终端设备调用该服务接口，以向云端触发虚拟机器人互动服务请求，该请求中包括用户标识，云端确定响应该请求的计算节点，利用该计算节点中的处理资源执行如下步骤：

根据所述文本信息，生成响应文本；

上述执行过程可以参考前述其他实施例中的相关说明，在此不赘述。

为便于理解，结合图4来示例性说明。用户可以通过图4中示意的终端设备E1调用虚拟机器人的互动服务，以实时采集该用户直播间的多模态数据，并对多模态数据进行分析处理，以获得虚拟机器人所对应的互动操作。用户调用该服务的服务接口包括软件开发工具包(Software Development Kit，简称SDK)、应用程序接口(Application ProgrammingInterface，简称API)等形式。图4中示意的是API接口的情形。在云端，如图4中所示，假设由服务集群E2提供虚拟机器人的互动服务，服务集群E2中包括至少一个计算节点。服务集群E2收到该请求后，执行前述实施例中的步骤，以确定虚拟机器人所要执行的互动操作，并反馈给终端设备E1。

以下将详细描述本发明的一个或多个实施例的虚拟机器人的互动装置。本领域技术人员可以理解，这些装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图5为本发明实施例提供的一种虚拟机器人的互动装置的结构示意图，如图5所示，该装置包括：响应模块11、确定模块12、生成模块13、执行模块14。

响应模块11，用于响应于用户触发的虚拟机器人互动请求，实时采集所述用户直播间的多模态数据。

确定模块12，用于确定所述多模态数据对应的文本信息，所述文本信息用于统一表征多模态数据的特征信息。

生成模块13，用于根据所述文本信息，生成响应文本。

执行模块14，用于基于所述响应文本，确定互动信息，并基于所述互动信息控制所述虚拟机器人执行互动操作。

可选地，所述多模态数据包括用户音频数据，所述确定模块12具体可以用于：将所述用户音频数据输入至语音识别模型，以获得所述用户音频数据对应的文本信息。

可选地，所述多模态数据包括直播视频数据，所述确定模块12具体可以用于：将所述直播视频数据输入至图像识别模型，以获得所述直播视频数据对应的文本信息，所述文本信息用于描述所述直播视频数据中所包括的直播内容。

可选地，所述多模态数据包括观众互动数据，所述确定模块12具体可以用于：将所述观众互动数据输入至第一语言识别模型，以获得所述观众互动数据对应的文本信息，所述文本信息用于描述观众反馈信息。

可选地，所述生成模块13具体可以用于：将所述文本信息输入至第二语言识别模型，以获得所述文本信息对应的对话信息和/或指令信息，所述对话信息用于指示所述虚拟机器人执行与所述对话信息对应的操作，指令信息用于指示所述虚拟机器人执行与所述指令信息对应的操作。

可选地，所述执行模块14具体可以用于：确定所述虚拟机器人的人设信息；基于所述人设信息，确定所述对话信息对应的语音信息，并控制所述虚拟机器人播放所述语音信息。

可选地，所述执行模块14具体可以用于：确定所述指令信息对应的指令操作，并控制所述虚拟机器人执行所述指令操作。

可选地，所述指令信息包括音效播放指令，所述执行模块14具体可以用于：获取当前周期内的直播视频数据和直播音频数据；确定所述直播视频数据对应的视频特征和所述直播音频数据对应的音频特征；基于所述音频特征和所述视频特征，确定当前直播间对应的直播场景、直播风格、用户情绪；基于所述直播场景、直播风格、用户情绪，从音效特征库中确定与当前直播相匹配的预设音效，并控制所述虚拟机器人播放所述预设音效。

图5所示装置可以执行前述实施例中语音识别方法中的步骤，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

本发明实施例还提供一电子设备，如图6所示，该电子设备可以包括：处理器21、存储器22、通信接口23。其中，存储器22上存储有可执行代码，当所述可执行代码被处理器21执行时，使处理器21实现如前述实施例中的虚拟机器人的互动方法。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如前述实施例中提供的虚拟机器人的互动方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种虚拟机器人的互动方法，其特征在于，包括：

根据所述文本信息，生成响应文本；

2.根据权利要求1所述的方法，其特征在于，所述多模态数据包括用户音频数据，所述确定所述多模态数据对应的文本信息，包括：

将所述用户音频数据输入至语音识别模型，以获得所述用户音频数据对应的文本信息。

3.根据权利要求1所述的方法，其特征在于，所述多模态数据包括直播视频数据，所述确定所述多模态数据对应的文本信息，包括：

将所述直播视频数据输入至图像识别模型，以获得所述直播视频数据对应的文本信息，所述文本信息用于描述所述直播视频数据中所包括的直播内容。

4.根据权利要求1所述的方法，其特征在于，所述多模态数据包括观众互动数据，所述确定所述多模态数据对应的文本信息，包括：

将所述观众互动数据输入至第一语言识别模型，以获得所述观众互动数据对应的文本信息，所述文本信息用于描述观众反馈信息。

5.根据权利要求1所述的方法，其特征在于，所述根据所述文本信息，生成响应文本，包括：

将所述文本信息输入至第二语言识别模型，以获得所述文本信息对应的对话信息和/或指令信息，所述对话信息用于指示所述虚拟机器人执行与所述对话信息对应的操作，指令信息用于指示所述虚拟机器人执行与所述指令信息对应的操作。

6.根据权利要求5所述的方法，其特征在于，所述基于所述响应文本，确定互动信息，并基于所述互动信息控制所述虚拟机器人执行互动操作，包括：

确定所述虚拟机器人的人设信息；

基于所述人设信息，确定所述对话信息对应的语音信息，并控制所述虚拟机器人播放所述语音信息。

7.根据权利要求5所述的方法，其特征在于，所述基于所述响应文本，确定互动信息，并基于所述互动信息控制所述虚拟机器人执行互动操作，包括：

确定所述指令信息对应的指令操作，并控制所述虚拟机器人执行所述指令操作。

8.根据权利要求7所述的方法，其特征在于，所述指令信息包括音效播放指令，所述确定所述指令信息对应的指令操作，并控制所述虚拟机器人执行所述指令操作，包括：

获取当前周期内的直播视频数据和直播音频数据；

确定所述直播视频数据对应的视频特征和所述直播音频数据对应的音频特征；

基于所述音频特征和所述视频特征，确定当前直播间对应的直播场景、直播风格、用户情绪；

基于所述直播场景、直播风格、用户情绪，从音效特征库中确定与当前直播相匹配的预设音效，并控制所述虚拟机器人播放所述预设音效。

9.一种电子设备，其特征在于，包括：存储器、处理器、通信接口；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至8中任一项所述的虚拟机器人的互动方法。

10.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至8中任一项所述的虚拟机器人的互动方法。