CN110162668B

CN110162668B - 交互方法、装置、计算机可读存储介质和计算机设备

Info

Publication number: CN110162668B
Application number: CN201910171651.XA
Authority: CN
Inventors: 陈姿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2023-11-14
Anticipated expiration: 2039-03-07
Also published as: CN110162668A

Abstract

本申请涉及一种交互方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取语音交互信息；确定所述语音交互信息所指向的查询意图；定位当前播放的媒体文件所对应的媒体文件标识和播放进度；按照所述查询意图，在所述媒体文件标识相应的、且在所述播放进度之前的剧情信息中进行查询得到查询结果；输出所述查询结果。本申请提供的方案可以提高交互效率。

Description

交互方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种交互方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着网络技术的发展，互联网得到了广泛的应用，已经成人们工作、生活中不可缺少的一部分。比如，人们可以通过视频平台观看电视剧或者电影等视频。人们在观影过程中可能会进行剧情查询。

然而，目前基于剧情查询的交互方式通常需要用户手动暂停当前播放的视频，打开浏览器手动搜索，操作繁琐，存在交互效率低下的问题。

发明内容

基于此，有必要针对基于剧情查询的交互效率低下的技术问题，提供一种交互方法、装置、计算机可读存储介质和计算机设备。

一种交互方法，包括：

获取语音交互信息；

确定所述语音交互信息所指向的查询意图；

定位当前播放的媒体文件所对应的媒体文件标识和播放进度；

按照所述查询意图，在所述媒体文件标识相应的、且在所述播放进度之前的剧情信息中进行查询得到查询结果；

输出所述查询结果。

一种交互装置，包括：

获取模块，用于获取语音交互信息；

确定模块，用于确定所述语音交互信息所指向的查询意图；

定位模块，用于定位当前播放的媒体文件所对应的媒体文件标识和播放进度；

查询模块，用于按照所述查询意图，在所述媒体文件标识相应的、且在所述播放进度之前的剧情信息中进行查询得到查询结果；

输出模块，用于输出所述查询结果。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述交互方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述交互方法的步骤。

上述交互方法、装置、计算机可读存储介质和计算机设备，可直接获取语音交互信息，自动确定语音交互信息所指向的查询意图，定位当前播放的媒体文件所对应的媒体文件标识和播放进度，从而可以按照查询意图，在媒体文件标识相应的、且在播放进度之前的剧情信息中进行查询得到查询结果并输出。这样既避免了繁琐的手动操作带来的耗时，提高了交互效率；而且查询结果是根据播放进度之前的剧情信息得到的，不会存在剧透，有较高的实用性。

附图说明

图1为一个实施例中交互方法的应用环境图；

图2为一个实施例中交互方法的流程示意图；

图3为一个实施例中在终端界面中语音助手的虚拟形象的示意图；

图4为一个实施例中在终端界面中展示文本格式的查询结果的界面示意图；

图5为一个实施例中按照目标角色查询意图查询的业务流程图；

图6为一个实施例中将角色标识与视频帧关联的时序图；

图7为一个实施例中训练和使用角色分类模型的示意图；

图8为一个实施例中交互方法的时序图；

图9为一个实施例中交互装置的结构框图；

图10为另一个实施例中交互装置的结构框图；

图11为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中交互方法的应用环境图。参照图1，该交互方法应用于交互系统。该交互系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端，移动终端具体可以电视、手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110和服务器120均可单独用于执行该交互方法。终端110可直接执行该交互方法，直接播放视频；终端110上也可安装有应用(Application,APP)，终端110可以根据用户指令运行该应用，通过该应用执行该交互方法，以及通过该应用播放视频。其中，应用是具有视频播放功能的计算机应用程序。

如图2所示，在一个实施例中，提供了一种交互方法。本实施例主要以该方法应用于计算机设备来举例说明，该计算机设备具体可以是上述图1中的终端110或服务器120。参照图2，该交互方法具体包括如下步骤：

S202，获取语音交互信息。

其中，语音交互信息是计算机设备通过声音采集装置采集用户语音得到的数据，是用户与计算机设备进行交互的数据。

具体地，当计算机设备为终端时，终端可通过内置或者外部连接的声音采集装置采集用户语音得到的语音交互信息。终端也可接收其他终端发送的语音交互信息，从而获取到语音交互信息。比如，物联网中智能家居之间的语音数据传输等。当计算机设备为服务器时，服务器可接收终端发送的语音交互信息，从而获取到语音交互信息。

在一个实施例中，计算机设备为终端，S202包括：在产生唤醒指令时，展示语音助手的虚拟形象；通过语音助手获取语音交互信息。

其中，唤醒指令是启动语音助手的计算机程序。唤醒指令可通过多种形式触发。

具体地，唤醒指令具体可以是语音唤醒指令。终端可通过内置或者外部连接的声音采集装置采集用户语音，对用户语音进行文本转化，并检测转化得到的文本数据中是否包括预设的唤醒词。终端在检测到唤醒词后可触发唤醒指令，终端在未检测到唤醒词时，可继续进行声音采集。终端可在触发唤醒指令后，可启动语音助手并展示语音助手的虚拟形象。

其中，语音助手的虚拟形象可以是二维虚拟形象也可以是三维虚拟形象。二维虚拟形象可以是在终端界面中显示的角色形象或者控件样式形象等。角色形象比如，三维虚拟形象可以是在终端界面中显示的虚拟形象，也可以是在现实空间中投影的虚拟形象。语音助手的虚拟形象可通过用户自定义设置。

图3示出了一个实施例中在终端界面中语音助手的虚拟形象的示意图。参考图3，可以看到终端正在播放视频，在唤醒指令时，展示语音助手的虚拟形象310。可以理解，图3以后文中所示的界面图仅用于举例说明，实际场景中具体使用的界面图可以包括比图中所示更多或更少的内容。

在另外的实施例中，唤醒指令也可通过对预定义的物理按钮的点击操作触发，或者通过晃动操作触发，或者预设肢体动作等。

进一步地，终端可在启动语音助手后，通过语音助手调用声音采集装置采集用户语音，获取采集到的用户语音作为语音交互信息。

在一个实施例中，终端在产生唤醒指令时，并不展示语音助手的虚拟形象，而是在通过语音助手获取语音交互信息后，将语音交互信息转化为文本数据，然后展示展示语音助手的虚拟形象，并展示转化得到得的文本数据。再参考图3，该界面图还包括将语音交互信息转化得到的文本数据320。

上述实施例中，用户在与计算机设备交互时，展示语音助手的虚拟形象，从而可以提高语音交互时输出方式的灵活性，提升用户的交互体验。

S204，确定语音交互信息所指向的查询意图。

其中，查询意图是指进行查询的目的。语音交互信息在包括不同的内容时可以指向不同的查询意图。查询意图可以是角色查询意图也可以是剧情查询意图等。计算机设备可以分析语音交互信息得到语音交互信息所指向的查询意图。

举例说明，比如，语音交互信息为“孙悟空是谁”，计算机设备可分析该语音交互信息是角色查询意图，且意图查询的角色是“孙悟空”。再比如，语音交互信息为“前两集讲了啥”，计算机设备可分析该语音交互信息是剧情查询意图，且意图查询的剧情是当前播放剧集前两集的剧情。

S206，定位当前播放的媒体文件所对应的媒体文件标识和播放进度。

其中，媒体文件可以是视频文件、动画文件或者音频文件等。媒体文件标识具体可以是媒体文件名称，比如电视剧剧名“西游记”等，播放进度具体可以是媒体文件序号，比如电视剧集数“第十集”等。媒体文件标识具体也可以是媒体文件名称和媒体文件序号的组合，比如“西游记第十集”，播放进度具体可以是当前媒体文件当前播放至的时间节点，比如“32:12”等。当然，媒体文件标识也可通过其他字符序列表示。

具体地，当计算机设备为终端时，终端可以在获取到语音交互信息时，实时获取终端当前播放的媒体文件的播放进度，并获取当前播放的媒体文件的媒体文件标识。在另外的实施例中，终端可根据用户操作暂停当前播放的媒体文件，从而读取当前暂停位置的播放进度。

当计算机设备为服务器时，可以接收终端上传的终端当前播放的媒体文件所对应的媒体文件标识和播放进度；也可以获取终端当前登录的用户标识，进而查询与该用户标识对应的当前播放的媒体文件所对应的媒体文件标识和播放进度。可以理解，终端在播放视频时，可将当前播放的媒体文件所对应的媒体文件标识和播放进度同步至服务器。

S208，按照查询意图，在媒体文件标识相应的、且在播放进度之前的剧情信息中进行查询得到查询结果。

其中，剧情信息可以是文本数据也可以是语音数据等。查询结果也可以是文本数据或者语音数据等。可以理解，剧情信息在存储时是按照进度分布的。这样计算机设备在查询时，可以根据剧情信息的进度分布确定在播放进度之前的剧情信息，继而进行查询。

举例说明，比如二十五集电视连续剧“西游记”的剧情信息，可按集数存储，即每集对应的剧情信息与对应集的集数存储。如，第一集：XXX…XXXX。第二集：XXX…XXXX。第三集：XXX…XXXX。…其中，每集的剧情信息可以继续按照时间节点进行划分。

再举例说明，假设用户观看的电视剧为《西游记》，且当前观看视频的播放进度为第十集12:34。那么媒体文件标识相应的、且在播放进度之前的剧情信息，即为《西游记》第一集0:0至第十集12:34之间的剧情信息。

S210，输出查询结果。

具体的，当计算机设备为终端时，终端可直接输出查询结果，即在终端界面展示文本格式的查询结果和/或通过内置或者外部连接的扬声器播放语音格式的查询结果。当计算设备为服务器时，服务器查询结果输出至终端，再由终端向用户输出查询结果。

在一个实施例中，查询结果为文本查询结果。S210包括：合成与文本查询结果对应的语音查询结果；输出语音查询结果。

具体地，计算机设备在获取到文本查询结果后，可基于自动语音合成系统进行语音合成。计算机设备可先对目标文本进行语言学分析，以确定句子的层结构和每个字的音素组成，包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等。计算机设备可再将处理好的文本采用自动语音合成系统合成声音，得到语音查询结果。其中，自动语音合成系统是用于进行语音合成的系统，具体可以是TTS(Text To Speech从文本到语音)参数合成系统。计算机设备采用自动语音合成系统合成声音，具体可以是按照TTS韵律特征将处理好的文本转化成语音波形，得到语音查询结果。

进一步地，计算机设备在进行语音合成时，对于不同的查询结果可按照不同的音色类别转化为语音查询结果。比如，诙谐幽默的剧情可以按照轻快类型的音色转化为语音查询结果，悲惨不幸的剧情可以按照沉重类型的音色转化为语音查询结果等。

在本实施例中，通过语音格式播放查询结果，使得用户无需再分心查看屏幕上文本格式显示的查询结果，提高了交互实用性。

在一个实施例中，S210包括：通过语音助手语音播报查询结果。

具体地，终端可通过语音助手调用扬声器语音播报查询结果。当语音助手的虚拟形象为角色形象时，终端通过语音助手语音播报查询结果时，控制语音助手的虚拟形象进行运动。比如进行唇部运动以模拟自然人说话的场景等。

在本实施例中，用户在与计算机设备交互时，展示语音助手的虚拟形象，并通过语音助手语音播报查询结果，从而可以提高语音交互时输出方式的灵活性，提升用户的交互体验。

在一个实施例中，计算机设备可以既通过语音助手语音播放查询结果，还可在终端界面中展示文本格式的查询结果。举例说明，图4示出了一个实施例中在终端界面中展示文本格式的查询结果的界面示意图。可以看到，终端在视频界面展示有语音助手的虚拟形象410和文本格式显示的查询结果420，同时还可通过扬声器播放语音格式的查询结果。

上述交互方法，可直接获取语音交互信息，自动确定语音交互信息所指向的查询意图，定位当前播放的媒体文件所对应的媒体文件标识和播放进度，从而可以按照查询意图，在媒体文件标识相应的、且在播放进度之前的剧情信息中进行查询得到查询结果并输出。这样既避免了繁琐的手动操作带来的耗时，提高了交互效率；而且查询结果是根据播放进度之前的剧情信息得到的，不会存在剧透，有较高的实用性。

在一个实施例中，S204包括：当语音交互信息中指定目标角色标识时，确定语音交互信息所指向的查询意图为精确目标角色查询意图。S206包括：当与媒体文件标识相应的、且在播放进度之前的剧情信息中存在与目标角色标识对应的剧情信息时，则按照目标角色查询意图，在与媒体文件标识和目标角色标识分别相应的、且在播放进度之前的剧情信息中进行查询得到查询结果。

其中，目标角色标识是作为查询目标的角色的标识。可以理解，媒体文件中可包括一个或多个角色，比如电视剧《西游记》中可包括角色唐僧、孙悟空、猪八戒以及沙和尚等。角色标识用于标识该角色，具体可以是该角色的角色名称，或者其他的字符序列等。可以理解，这里的精确角色查询意图，表示需要进行查询的目标是明确的。

具体地，计算机设备在获取到语音交互信息后，可将语音交互信息转化为文本数据，并继续查看该文本数据中是否包括角色标识。计算机设备在文本数据中查找到角色标识时，即将该角色标识作为语音交互信息中指定的目标角色标识，继而确定语音交互信息所指向的查询意图为精确目标角色查询意图。也就是说用户意图查询该角色的剧情信息。

在一个具体的实施例中，计算机设备中可事先与媒体文件标识存储有角色标识，角色标识所标识的角色存在于对应存储的媒体文件标识所标识的媒体文件中。这样，计算机设备在将语音交互信息转化为文本数据，可将该文本数据与当前播放的媒体文件的媒体文件标识对应存储角色标识进行比对，以查看该文本数据中是否包括角色标识。

举例说明，比如，计算机设备将语音交互信息进行文本转化得到的文本数据为“沙和尚是谁”，并在“沙和尚是谁”中查找到角色标识“沙和尚”，则将“沙和尚”作为语音交互信息中指定的目标角色标识；再比如，计算机设备将语音交互信息进行文本转化得到的文本数据为“红孩儿的妈妈是谁”，并在“红孩儿的妈妈是谁”中查找到角色标识“红孩儿的妈妈”，则将“红孩儿的妈妈”作为语音交互信息中指定的目标角色标识。

进一步地，计算机设备可继续查查看与媒体文件标识相应的、且在播放进度之前的剧情信息中是否存在与目标角色标识对应的剧情信息。当与媒体文件标识相应的、且在播放进度之前的剧情信息中存在与目标角色标识对应的剧情信息时，判定截止到当前的播放进度，该目标角色标识所标识的角色已经出场，则在与媒体文件标识和目标角色标识分别相应的、且在播放进度之前的剧情信息中进行查询得到查询结果。

这样，计算机设备进行查询的剧情信息的范围仅为当前的播放进度之前的剧情信息，这样既可与用户基于剧情进行交互，又不会产生剧透，提高了交互的实用性与合理性。

举例说明，计算机设备将语音交互信息进行文本转化得到的文本数据为“沙和尚是谁”，并判定截止到当前的播放进度，“沙和尚”已经出场，则查询得到查询结果“沙僧，又叫沙和尚、沙悟净，原为天宫玉皇大帝的卷帘大将，因为失手不小心打破了琉璃盏，触犯天条，被贬出天界，在人间流沙河兴风作浪，危害一方，专吃过路人。后经观音点化，赐法号悟净，一心归佛，同八戒、悟空一同保大唐高僧西天拜佛求取真经，在本剧中第x集出现”。

在一个实施例中，计算机设备在则按照目标角色查询意图，在与媒体文件标识和目标角色标识分别相应的、且在播放进度之前的剧情信息中进行查询前，还可从由语音交互信息转化得到的文本数据中提取关键词，确定需要查询的内容，从而查询到得到相应的查询结果。

举例说明，比如计算机设备将语音交互信息进行文本转化得到的文本数据为“孙悟空是被谁困在五指山”，将“孙悟空”作为语音交互信息中指定的目标角色标识，并提取关键词“被谁”、“困在”和“五指山”，这样，当孙悟空被困在五指山的剧情已经发生时，计算机设备可查询到将孙悟空困在五指山的角色。

在一个实施例中，该交互方法还包括：当与媒体文件标识相应的、且在播放进度之前的剧情信息中不存在与目标角色标识对应的剧情信息时，则得到表示未知的查询结果。

具体地，计算机设备在与媒体文件标识相应的、且在播放进度之前的剧情信息中不存在与目标角色标识对应的剧情信息时，即判定截止到当前的播放进度，该目标角色标识所标识的角色尚未出场，此时则不再进行继续查询操作，可以直接得到表示未知的查询结果。

举例说明，计算机设备将语音交互信息进行文本转化得到的文本数据为“沙和尚是谁”，并判定截止到当前的播放进度，“沙和尚”尚未出场，则直接得到查询结果“我不知道”。

在本实施例中，当截止到当前的播放进度，该目标角色标识所标识的角色尚未出场即不再继续查询，既节省了计算机设备的运算资源，又避免了剧透。

举例说明，图5示出了一个实施例中按照目标角色查询意图查询的业务流程图。参考图5，S501，终端可根据用户指令播放视频用户观看视频。S502，用户在观看视频的过程中发出语音指令，终端获取语音交互信息，如“红孩儿的妈妈是谁”。由于“红孩儿的妈妈是谁”中指定目标角色标识“红孩儿的妈妈”，终端即确定语音交互信息所指向的查询意图为精确目标角色查询意图，继而判断与媒体文件标识相应的、且在播放进度之前的剧情信息中是否存在与目标角色标识对应的剧情信息。如S503，判断与该视频相应的、且在播放进度之前的剧情信息中是否存在与红孩儿妈妈对应的剧情。当与媒体文件标识相应的、且在播放进度之前的剧情信息中存在与目标角色标识对应的剧情信息时，终端则按照目标角色查询意图，在与媒体文件标识和目标角色标识分别相应的、且在播放进度之前的剧情信息中进行查询得到查询结果。如S504，在与该视频相应的、且在播放进度之前的剧情信息中查找得到查找结果“红孩儿得妈妈是铁扇公主，在第N集出现”。当与媒体文件标识相应的、且在播放进度之前的剧情信息中不存在与目标角色标识对应的剧情信息时，终端则直接得到表示未知的查询结果。如S505，得到查询结果“我不知道”。

上述实施例中，计算机设备进行查询的剧情信息范围仅为当前的播放进度之前的剧情信息，而且当截止到当前的播放进度，该目标角色标识所标识的角色尚未出场即不进行查询，直接得到表示位置的查询结果，这样既可与用户基于剧情进行交互，又不会产生剧透，提高了交互的实用性与合理性。

在一个实施例中，该交互方法还包括：获取与媒体文件标识相应的剧情信息；确定剧情信息所包括的多个角色；从剧情信息中提取多个角色各自相应、且按进度分布的剧情信息；将多个角色各自相应的剧情信息与相应角色的角色标识对应存储。

可以理解，这里的剧情信息按照进度分布，表示剧情信息中包括的剧情均对应存在剧情发生的时间节点。这样计算机设备在剧情信息中进行查询时，可以更准确的定位当前的播放进度之前的剧情信息。剧情发生的时间节点可以是媒体文件序号(如电视剧集数)，也可以精确到每个媒体文件中的时间节点等。

比如，对于电视剧《西游记》的剧情信息包括：第N集XX:XX如来佛祖将孙悟空困在五指山，或者第N集XX:XX唐僧将孙悟空救出五指山等。

具体地，计算机设备可获取与媒体文件标识相应的剧情信息，确定剧情信息所包括的各个角色。对于确定的每一个角色，计算机设备可从剧情信息中提取出于该角色相对应的剧情信息，并将提取的剧情信息按照进度排布，这样即可分别得到各个角色各自相应、且按进度分布的剧情信息。计算机设备可再将每个角色对应的剧情信息与该角色的角色标识对应存储。

举例说明，对于电视剧《西游记》，计算机设备可获取该电视剧的全部剧情信息，《西游记》中可包括唐僧、孙悟空、猪八戒以及沙和尚等多个角色。计算机设备可为这些角色一一提取相对应的剧情信息，分布进行存储。

在一个具体的实施例中，计算机设备可通过NLP(Natural Language Processing，自然语音处理)算法提取每个角色的剧情信息、以及该集剧情信息，保存在对应的集数。

在本实施例中，事先按照角色将相应的剧情信息按照进度进行存储，这样在目标角色查询时，即可快速在该角色相应的剧情信息中进行查询，缩小了查询的范围，提高了交互效率。

在一个实施例中，S204包括：当语音交互信息中指定目标角色、但不包括目标角色的目标角色标识时，确定语音交互信息所指向的查询意图为模糊角色查询意图。S206包括：根据播放进度定位当前播放的视频帧；从视频帧中识别出目标角色得到目标角色标识；按照模糊角色查询意图，在与媒体文件标识和目标角色标识分别相应的、且在播放进度之前的剧情信息中进行查询得到查询结果。

可以理解，这里的模糊角色查询意图与前述实施例中的精确角色查询意图相应，表示需要进行查询的目标需要通过识别确定。

具体地，计算机设备在获取到语音交互信息后，可将语音交互信息转化为文本数据，并继续查看该文本数据中是否包括角色指代词。计算机设备在文本数据中查找到角色指代词且未查找到角色标识时，即将该角色指代词指代的角色作为目标角色，进而对该角色进行识别得到目标角色标识。

进一步地，计算机设备可根据当前的播放进度定位当前播放至的视频帧，从该视频帧中识别出目标角色得到目标角色标识，再按照模糊角色查询意图，在与媒体文件标识和目标角色标识分别相应的、且在播放进度之前的剧情信息中进行查询得到查询结果。

举例说明，用户在观看视频的过程中可产生语音交互信息Voice1，比如用户说话以进行语音提问等。计算机设备则可获取该语音交互信息Voice1，将Voice1转化为文本数据，再继续查看该文本数据中是否包括角色指代词以及是否包括角色标识，从而根据查看结果确定用户的查询意图。假设，由Voice1进行文本转化得到的文本数据为“这个人是谁”，显然“这个人是谁”中存在角色指代词“这个人”但不存在“角色标识”。那么，计算机设备即可判定用户的查询意图为模糊角色查询意图，则以“这个人”作为Voice1中指定的需要识别出的目标角色。进一步地，计算机设备则可根据当前的播放进度定位当前播放至的视频帧，“这个人”是当前视频帧中的哪个角色，即将该角色的标识作为目标角色标识，再按照模糊角色查询意图，在与媒体文件标识和目标角色标识分别相应的、且在播放进度之前的剧情信息中进行查询得到查询结果。

在一个实施例中，计算机设备在得到目标角色标识后，也可直接输出该目标角色标识。

在一个实施例中，在当前播放至的视频帧中包括多个角色时，语音交互信息可包括角色特征，这样计算机设备可在视频帧中定位进行识别的目标角色。计算机设备也可根据用户操作在视频帧中定位进行识别的目标角色。

上述实施例中，需要进行查询的目标需要进行识别时，从当前的播放进度位置的视频帧中进行角色识别后再进行查询，提高了交互的实用性。

在一个实施例中，从视频帧中识别出目标角色得到目标角色标识，包括：提取语音交互信息所指定的目标角色特征；从视频帧关联的角色标识中，筛选对应的角色特征与目标角色特征匹配的目标角色标识；视频帧关联的角色标识分别对应存储有角色特征。

其中，角色特征是反映角色特性的数据。角色特征可以是角色位置特征、角色性别特征或者角色装饰特征等。比如“这个男孩是谁”所指定的目标角色特征是性别男，或者“这个穿红裙子的人是谁”所指定的目标角色特征是角色装饰红裙子，或者“右边的这个人是谁”所指定的目标角色特征是角色位置右边等。可以理解，在本实施例中，媒体文件为视频文件。

具体地，计算机设备可事先对媒体文件中包括的视频帧进行角色识别，并将识别出的角色的角色特征和角色标识与相应的视频帧关联。这样，计算机设备在根据播放进度定位当前播放的视频帧、且提取语音交互信息所指定的目标角色特征后，可将定位的视频帧关联的角色的角色特征与提取的目标角色特征进行匹配，在匹配成功时，获取匹配成功的角色特征所对应的角色的角色标识作为目标角色标识。

在一个实施例中，该交互方法还包括：对媒体文件所包括的各视频帧进行角色识别，提取识别出的角色所对应的角色特征并确定识别出的角色所对应的角色标识；将从各视频帧中识别出的角色所对应的角色标识和角色特征对应存储，并将从各视频帧中识别出的角色所对应的角色标识与相应视频帧关联。

具体地，计算机设备可获取媒体文件以及媒体文件所涉及角色的模板图像，根据模板图像有监督地训练出角色分类模型。在训练完成分类角色模型后，将媒体文件所包括的各视频帧进行预处理，然后将在预处理后的视频帧中定位面部区域，截取面部图像，输入分类角色模型进行角色分类，得到该角色对应的角色标识，再确定该角色的角色特征，将角色标识和角色特征与相应的视频帧关联。这里的训练过程可具体参考后续实施例。这里的预处理可以包括去噪处理。

图6示出了一个实施例中将角色标识与视频帧关联的时序图。参考图6，运营用户通过所在终端执行S601将媒体文件和媒体文件包括的角色的模板图像上传至服务器。服务器则先执行S602根据角色的模板图像有监督地训练得到角色分类模型；然后执行S603通过角色分类模型对媒体文件所包括的各视频帧进行角色识别，得到各角色对应的角色标识，并提取各角色的角色特征(比如角色面部区域位置等)；再执行S604将角色标识和角色特征与相应的视频帧关联。服务器还可执行S605将角色标识和角色特征与相应的视频帧的关联关系下发至用户所在终端，这样再服务器和用户所在终端均可进行查询。

上述实施例中，事先对视频文件中包括的视频帧涉及的角色进行识别，将识别出的角色的角色标识与角色特征与相应的视频帧关联，这样在实际交互过程中，即可直接进行角色特征对比，而不再需要实时进行识别，极大地提高了交互效率。

在一个实施例中，从视频帧中识别出目标角色得到目标角色标识，包括：确定视频帧中的面部区域；按照面部区域在视频帧中截取面部图像；将面部图像输入角色分类模型，通过角色分类模型输出识别出的角色所对应的角色标识。

其中，面部区域是角色面部在视频帧中的位置。面部区域可以是自然人面部区域，或者虚拟对象面部区域，或者动物面部区域等。

具体地，计算机设备在每获取到一帧视频帧时，即在获取的视频帧中检测面部区域。若计算机设备未在该视频帧中检测到面部区域时，则结束对该视频帧的处理；继续获取下一帧视频帧进行面部区域检测。若计算机设备在该视频帧中检测到面部区域时，则确定该视频帧中的面部区域，按照面部区域在视频帧中截取面部图像，将将面部图像输入角色分类模型，通过角色分类模型输出识别出的角色所对应的角色标识。

在一个实施例中，该交互方法还包括：获取媒体文件所涉及的角色的模板图像；以模板图像所属角色的角色标识作为相应的训练标签；将模板图像输入角色分类模型得到识别结果；按照识别结果与训练标签的差异，调整角色分类模型的模型参数并继续训练，直至满足训练停止条件时结束训练。

其中，角色分类模型是经过训练后具有角色分类能力的机器学习模型。机器学习英文全称为Machine Learning，简称ML。机器学习模型可通过样本学习具备特征提取与特征识别能力。机器学习模型可采用神经网络模型、支持向量机或者逻辑回归模型等。

具体地，计算机设备可将各角色的模板图像作为训练样本，对每个训练样本添加训练标签。训练标签为训练样本所属角色的角色标识。这样，计算机设备即可将训练样本输入初始化的角色分类模型，根据角色分类模型的分类结果与输入的训练样本的训练标签进行对比，并朝向减小两者差异的方向调整角色分类模型的模型参数。

其中，训练停止条件可以是达到预设迭代次数，也可以是训练出的机器学习模型达到分类性能指标。分类性能指标可以是分类正确率达到第一预设阈值，也可以是分类错误率低于第二预设阈值。

在另外的实施例中，计算机设备还可从训练样本中划分出部分训练样本用作测试样本。测试样本是用于在模型训练后进行模型矫正的样本。采用测试样本对训练得到的角色分类模型进行校准，具体可以是将测试样本输入训练得到的角色分类模型，将该角色分类模型的输出与测试样本的训练标签进行对比，若两者之间的差值落在允许的误差范围内，则完成对角色分类模型的校准，若两者之间的差值落在允许的误差范围外，则对角色分类模型进行参数调整，减少两者之间的差值，以完成对角色分类模型的校准。

计算机设备还可根据角色分类模型的实际输出和预期输出建立代价函数，采用随机梯度下降法最小化代价函数，更新第一识别模型的模型参数。代价函数比如方差代价函数或者交叉熵代价函数等。

图7示出了一个实施例中训练和使用角色分类模型的示意图。参考图7，在训练阶段，获取角色的模板图像作为训练样本，对训练样本进行预处理后确定训练样本中的面部区域，按照面部区域在训练样本中截取面部图像样本，将训练样本所属角色的角色标识作为训练标签，将面部图像样本输入角色分类模型，训练角色分类模型。在使用阶段，获取媒体文件的视频帧，对视频帧进行预处理后确定视频帧中的面部区域，按照面部区域在视频帧中截取面部图像，将面部图像输入角色分类模型得到分类结果。

上述实施例中，事先训练好角色分类模型，在实际交互过程中，实时通过训练好的角色分类模型识别出用户意图查询的角色，继而查询与识别出的角色相应的剧情反馈给用户，实现了与用户之间基于剧情的交互。

在一个实施例中，S204包括：当语音交互信息中指定目标集数时，确定语音交互信息所指向的查询意图为剧情查询意图。S206包括：按照剧情查询意图，在与媒体文件标识相应的、且在播放进度之前的剧情信息中查询与目标集数相应的剧情信息得到查询结果。

其中，目标集数是媒体文件的分段序号。可以理解，媒体文件可以是按序排列的媒体文件序列中的其中一个。比如，电视剧《西游记》包括二十五个按序排列的视频文件，每个视频文件对应一个集数。

具体地，计算机设备在获取到语音交互信息后，可将语音交互信息转化为文本数据，并继续查看该文本数据中是否包括媒体文件的分段序号，即集数。计算机设备在文本数据中查找到媒体文件的分段序号时，即将该媒体文件的分段序号作为语音交互信息中指定的目标集数，继而确定语音交互信息所指向的查询意图为精确剧情查询意图。也就是说用户意图查询某一时间段的剧情信息。

可以理解，计算机设备上存储的剧情信息包括剧情和该剧情发生的时间节点，该时间节点可以是媒体文件的分段序号。这样，计算机设备在进行剧情查询时，即可快速定位与媒体文件标识相应的、且在播放进度之前的剧情信息中与目标集数相应的剧情信息得到查询结果。

举例说明，计算机设备将语音交互信息进行文本转化得到的文本数据为“前面两集讲的什么”，且当前播放到《西游记》第十集。这样，计算机设备根据“前面两集”确定用户意图进行剧情查询，且该前面两集是第八集和第九集，即查找《西游记》第八集和第九集的剧情。

在本实施例中，计算机设备进行查询的剧情信息的范围仅为当前的播放进度之前的剧情信息，这样既可与用户基于剧情进行交互，又不会产生剧透，提高了交互的实用性与合理性。

图8示出了一个实施例中交互方法的时序图。参考图8，该交互方法所应用的硬件环境包括开发人员对应的第一终端，用户对应的第二终端和服务器。

准备阶段，第一终端可先执行S801将各视频文件以及各视频文件所对应的角色的模板图像上传至服务器。服务器则根据角色的模板图像有监督地训练得到角色分类模型，并通过训练得到的角色分类模型对视频文件所包括的各视频帧进行角色识别，提取识别出的角色所对应的角色特征并确定识别出的角色所对应的角色标识。这样，服务器即可将从各视频帧中识别出的角色所对应的角色标识和角色特征对应存储，并执行S802将从各视频帧中识别出的角色所对应的角色标识与相应视频帧关联。第一终端还可执行S803将各视频文件的剧情信息上传至服务器。服务器从而确定剧情信息所包括的多个角色，从剧情信息中提取多个角色各自相应、且按进度分布的剧情信息，执行S804将多个角色各自相应的剧情信息与相应角色的角色标识对应存储。

交互阶段，第二终端可根据用户指令执行S805播放视频文件。用户可在观看视频文件时触发唤醒指令。第二终端可将执行S806发送唤醒指令至服务器，服务器则可执行S807反馈交互引导信息，如“你可以提问XXX是在第几集出现的”。用户可继续发出语音指令，第二终端则可获取语音交互信息，执行S808上传语音交互信息至服务器。服务器再确定语音交互信息所指向的查询意图，定位第二终端当前播放的视频文件所对应的视频文件标识和播放进度，执行S809按照查询意图，在视频文件标识相应的、且在播放进度之前的剧情信息中进行查询得到查询结果，执行S810反馈查询结果至第二终端。第二终端执行S811可在终端界面上展示查询结果，还可以通过语音播报该查询结果。其中，确定语音交互信息所指向的查询意图以及查询的详细过程可参考前述实施例中的描述，在此不再赘述。

应该理解的是，虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图9所示，在一个实施例中，提供了一种交互装置900。参照图9，该交互装置900包括：获取模块901、确定模块902、定位模块903、查询模块904和输出模块905。

获取模块901，用于获取语音交互信息。

确定模块902，用于确定语音交互信息所指向的查询意图。

定位模块903，用于定位当前播放的媒体文件所对应的媒体文件标识和播放进度。

查询模块904，用于按照查询意图，在媒体文件标识相应的、且在播放进度之前的剧情信息中进行查询得到查询结果。

输出模块905，用于输出查询结果。

在一个实施例中，获取模块901还用于在产生唤醒指令时，展示语音助手的虚拟形象；通过语音助手获取语音交互信息。输出模块905还用于通过语音助手语音播报查询结果。

在一个实施例中，确定模块902还用于当语音交互信息中指定目标角色标识时，确定语音交互信息所指向的查询意图为精确目标角色查询意图。查询模块904还用于当与媒体文件标识相应的、且在播放进度之前的剧情信息中存在与目标角色标识对应的剧情信息时，则按照目标角色查询意图，在与媒体文件标识和目标角色标识分别相应的、且在播放进度之前的剧情信息中进行查询得到查询结果。

在一个实施例中，查询模块904还用于当与媒体文件标识相应的、且在播放进度之前的剧情信息中不存在与目标角色标识对应的剧情信息时，则得到表示未知的查询结果。

如图10所示，在一个实施例中，交互装置900还包括准备模块906，用于获取与媒体文件标识相应的剧情信息；确定剧情信息所包括的多个角色；从剧情信息中提取多个角色各自相应、且按进度分布的剧情信息；将多个角色各自相应的剧情信息与相应角色的角色标识对应存储。

在一个实施例中，确定模块902还用于当语音交互信息中指定目标角色、但不包括目标角色的目标角色标识时，确定语音交互信息所指向的查询意图为模糊角色查询意图。查询模块904还用于根据播放进度定位当前播放的视频帧；从视频帧中识别出目标角色得到目标角色标识；按照模糊角色查询意图，在与媒体文件标识和目标角色标识分别相应的、且在播放进度之前的剧情信息中进行查询得到查询结果。

在一个实施例中，查询模块904还用于提取语音交互信息所指定的目标角色特征；从视频帧关联的角色标识中，筛选对应的角色特征与目标角色特征匹配的目标角色标识；视频帧关联的角色标识分别对应存储有角色特征。

在一个实施例中，准备模块906还用于对媒体文件所包括的各视频帧进行角色识别，提取识别出的角色所对应的角色特征并确定识别出的角色所对应的角色标识；将从各视频帧中识别出的角色所对应的角色标识和角色特征对应存储，并将从各视频帧中识别出的角色所对应的角色标识与相应视频帧关联。

在一个实施例中，查询模块904还用于确定视频帧中的面部区域；按照面部区域在视频帧中截取面部图像；将面部图像输入角色分类模型，通过角色分类模型输出识别出的角色所对应的角色标识。

在一个实施例中，准备模块906还用于获取媒体文件所涉及的角色的模板图像；以模板图像所属角色的角色标识作为相应的训练标签；将模板图像输入角色分类模型得到识别结果；按照识别结果与训练标签的差异，调整角色分类模型的模型参数并继续训练，直至满足训练停止条件时结束训练。

在一个实施例中，确定模块902还用于当语音交互信息中指定目标集数时，确定语音交互信息所指向的查询意图为剧情查询意图。查询模块904还用于按照剧情查询意图，在与媒体文件标识相应的、且在播放进度之前的剧情信息中查询与目标集数相应的剧情信息得到查询结果。

在一个实施例中，查询结果为文本查询结果。输出模块905还用于合成与文本查询结果对应的语音查询结果；输出语音查询结果。

上述交互装置900，可直接获取语音交互信息，自动确定语音交互信息所指向的查询意图，定位当前播放的媒体文件所对应的媒体文件标识和播放进度，从而可以按照查询意图，在媒体文件标识相应的、且在播放进度之前的剧情信息中进行查询得到查询结果并输出。这样既避免了繁琐的手动操作带来的耗时，提高了交互效率；而且查询结果是根据播放进度之前的剧情信息得到的，不会存在剧透，有较高的实用性。

图11示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图11所示，该计算机设备1100包括通过系统总线1101连接的处理器1102、存储器1103和网络接口1104。其中，存储器1103包括非易失性存储介质和内存储器。该计算机设备1100的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器1102执行时，可使得处理器1102实现交互方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器1102执行时，可使得处理器1102执行交互方法。本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的交互装置可以实现为一种计算机程序的形式，计算机程序可在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成该交互装置的各个程序模块，比如，图9所示的获取模块901、确定模块902、定位模块903、查询模块904和输出模块905。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的交互方法中的步骤。

例如，图11所示的计算机设备可以通过如图9所示的交互装置900中的获取模块901获取语音交互信息。通过确定模块902确定语音交互信息所指向的查询意图。通过定位模块903定位当前播放的媒体文件所对应的媒体文件标识和播放进度。通过查询模块904按照查询意图，在媒体文件标识相应的、且在播放进度之前的剧情信息中进行查询得到查询结果。通过输出模块905输出查询结果。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述交互方法的步骤。此处交互方法的步骤可以是上述各个实施例的交互方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述交互方法的步骤。此处交互方法的步骤可以是上述各个实施例的交互方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种交互方法，包括：

获取语音交互信息；

确定所述语音交互信息所指向的查询意图；在所述语音交互信息中指定目标角色标识时，所述查询意图为精确目标角色查询意图，所述精准目标角色查询是指意图查询所述目标角色标识所对应的角色的剧情信息；在所述语音交互信息中指定目标角色，但不包括目标角色标识时，确定所述查询意图为模糊角色查询意图，所述模糊角色查询意图是指意图查询所述目标角色的剧情信息；在所述语音交互信息中指定目标集数时，确定所述查询意图为剧情查询意图，所述剧情查询意图是指意图查询一个时间段的剧情信息；

按照所述查询意图，在所述媒体文件标识相应的、且在所述播放进度之前的剧情信息中进行查询，得到查询结果；

输出所述查询结果。

2.根据权利要求1所述的方法，其特征在于，所述获取语音交互信息包括：

在产生唤醒指令时，展示语音助手的虚拟形象；

通过所述语音助手获取语音交互信息；

所述输出所述查询结果，包括：

通过所述语音助手语音播报所述查询结果。

3.根据权利要求1所述的方法，其特征在于，所述确定所述语音交互信息所指向的查询意图，包括：

所述按照所述查询意图，在所述媒体文件标识相应的、且在所述播放进度之前的剧情信息中进行查询，得到查询结果，包括：

在所述语音交互信息所指向的查询意图为精确目标角色查询意图的情况下，当与所述媒体文件标识相应的、且在所述播放进度之前的剧情信息中存在与所述目标角色标识对应的剧情信息时，则

按照所述目标角色查询意图，在与所述媒体文件标识和所述目标角色标识分别相应的、且在所述播放进度之前的剧情信息中进行查询，得到查询结果。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

当与所述媒体文件标识相应的、且在所述播放进度之前的剧情信息中不存在与所述目标角色标识对应的剧情信息时，则得到表示未知的查询结果。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取与所述媒体文件标识相应的剧情信息；

确定所述剧情信息所包括的多个角色；

从所述剧情信息中提取所述多个角色各自相应、且按进度分布的剧情信息；

将所述多个角色各自相应的剧情信息与相应角色的角色标识对应存储。

6.根据权利要求1所述的方法，其特征在于，

所述按照所述查询意图，在所述媒体文件标识相应的、且在所述播放进度之前的剧情信息中进行查询得到查询结果，包括：

在所述语音交互信息所指向的查询意图为模糊角色查询意图的情况下，根据所述播放进度定位当前播放的视频帧；

从所述视频帧中识别出所述目标角色得到目标角色标识；

按照所述模糊角色查询意图，在与所述媒体文件标识和所述目标角色标识分别相应的、且在所述播放进度之前的剧情信息中进行查询得到查询结果。

7.根据权利要求6所述的方法，其特征在于，所述从所述视频帧中识别出所述目标角色得到目标角色标识，包括：

提取所述语音交互信息所指定的目标角色特征；

从所述视频帧关联的角色标识中，筛选对应的角色特征与所述目标角色特征匹配的目标角色标识；所述视频帧关联的角色标识分别对应存储有角色特征。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

对所述媒体文件所包括的各视频帧进行角色识别，提取识别出的角色所对应的角色特征并确定识别出的角色所对应的角色标识；

将从各所述视频帧中识别出的角色所对应的角色标识和角色特征对应存储，并将从各所述视频帧中识别出的角色所对应的角色标识与相应视频帧关联。

9.根据权利要求6所述的方法，其特征在于，所述从所述视频帧中识别出所述目标角色得到目标角色标识，包括：

确定所述视频帧中的面部区域；

按照所述面部区域在所述视频帧中截取面部图像；

将所述面部图像输入角色分类模型，通过所述角色分类模型输出识别出的角色所对应的角色标识。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

获取所述媒体文件所涉及的角色的模板图像；

以所述模板图像所属角色的角色标识作为相应的训练标签；

将所述模板图像输入所述角色分类模型得到识别结果；

按照所述识别结果与所述训练标签的差异，调整所述角色分类模型的模型参数并继续训练，直至满足训练停止条件时结束训练。

11.根据权利要求1所述的方法，其特征在于，所述确定所述语音交互信息所指向的查询意图，包括：

在所述语音交互信息所指向的查询意图为剧情查询意图的情况下，按照所述剧情查询意图，在与所述媒体文件标识相应的、且在所述播放进度之前的剧情信息中查询与所述目标集数相应的剧情信息得到查询结果。

12.根据权利要求1所述的方法，其特征在于，所述查询结果为文本查询结果；所述输出所述查询结果，包括：

合成与所述文本查询结果对应的语音查询结果；

输出所述语音查询结果。

13.一种交互装置，包括：

获取模块，用于获取语音交互信息；

确定模块，用于确定所述语音交互信息所指向的查询意图；在所述语音交互信息中指定目标角色标识时，所述查询意图为精确目标角色查询意图，所述精准目标角色查询是指意图查询所述目标角色标识所对应的角色的剧情信息；在所述语音交互信息中指定目标角色，但不包括目标角色标识时，确定所述查询意图为模糊角色查询意图，所述模糊角色查询意图是指意图查询所述目标角色的剧情信息；在所述语音交互信息中指定目标集数时，确定所述查询意图为剧情查询意图，所述剧情查询意图是指意图查询一个时间段的剧情信息；

输出模块，用于输出所述查询结果。

14.根据权利要求13所述的装置，其特征在于，所述获取模块还用于在产生唤醒指令时，展示语音助手的虚拟形象；通过所述语音助手获取语音交互信息；所述输出模块还用于通过所述语音助手语音播报所述查询结果。

15.根据权利要求13所述的装置，其特征在于，所述查询模块还用于在所述语音交互信息所指向的查询意图为精确目标角色查询意图的情况下，当与所述媒体文件标识相应的、且在所述播放进度之前的剧情信息中存在与所述目标角色标识对应的剧情信息时，则按照所述目标角色查询意图，在与所述媒体文件标识和所述目标角色标识分别相应的、且在所述播放进度之前的剧情信息中进行查询，得到查询结果。

16.根据权利要求15所述的装置，其特征在于，所述查询模块还用于当与所述媒体文件标识相应的、且在所述播放进度之前的剧情信息中不存在与所述目标角色标识对应的剧情信息时，则得到表示未知的查询结果。

17.根据权利要求15所述的装置，其特征在于，所述交互装置还包括准备模块，用于获取与所述媒体文件标识相应的剧情信息；确定所述剧情信息所包括的多个角色；从所述剧情信息中提取所述多个角色各自相应、且按进度分布的剧情信息；将所述多个角色各自相应的剧情信息与相应角色的角色标识对应存储。

18.根据权利要求13所述的装置，其特征在于，所述查询模块还用于在所述语音交互信息所指向的查询意图为模糊角色查询意图的情况下，根据所述播放进度定位当前播放的视频帧；从所述视频帧中识别出所述目标角色得到目标角色标识；按照所述模糊角色查询意图，在与所述媒体文件标识和所述目标角色标识分别相应的、且在所述播放进度之前的剧情信息中进行查询得到查询结果。

19.根据权利要求18所述的装置，其特征在于，所述查询模块还用于提取所述语音交互信息所指定的目标角色特征；从所述视频帧关联的角色标识中，筛选对应的角色特征与所述目标角色特征匹配的目标角色标识；所述视频帧关联的角色标识分别对应存储有角色特征。

20.根据权利要求19所述的装置，其特征在于，所述交互装置还包括准备模块，用于对所述媒体文件所包括的各视频帧进行角色识别，提取识别出的角色所对应的角色特征并确定识别出的角色所对应的角色标识；将从各所述视频帧中识别出的角色所对应的角色标识和角色特征对应存储，并将从各所述视频帧中识别出的角色所对应的角色标识与相应视频帧关联。

21.根据权利要求18所述的装置，其特征在于，所述查询模块还用于确定所述视频帧中的面部区域；按照所述面部区域在所述视频帧中截取面部图像；将所述面部图像输入角色分类模型，通过所述角色分类模型输出识别出的角色所对应的角色标识。

22.根据权利要求21所述的装置，其特征在于，所述交互装置还包括准备模块，用于获取所述媒体文件所涉及的角色的模板图像；以所述模板图像所属角色的角色标识作为相应的训练标签；将所述模板图像输入所述角色分类模型得到识别结果；按照所述识别结果与所述训练标签的差异，调整所述角色分类模型的模型参数并继续训练，直至满足训练停止条件时结束训练。

23.根据权利要求13所述的装置，其特征在于，所述查询模块还用于在所述语音交互信息所指向的查询意图为剧情查询意图的情况下，按照所述剧情查询意图，在与所述媒体文件标识相应的、且在所述播放进度之前的剧情信息中查询与所述目标集数相应的剧情信息得到查询结果。

24.根据权利要求13所述的装置，其特征在于，所述查询结果为文本查询结果；所述输出模块还用于合成与所述文本查询结果对应的语音查询结果；输出所述语音查询结果。

25.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。

26.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。