CN107818180B

CN107818180B - 视频关联方法、视频显示方法、装置及存储介质

Info

Publication number: CN107818180B
Application number: CN201711202454.7A
Authority: CN
Inventors: 任金鹏
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2021-07-06
Anticipated expiration: 2037-11-27
Also published as: CN107818180A

Abstract

本公开实施例提供了一种视频关联方法、视频显示方法、装置及存储介质，涉及多媒体技术领域，所述方法包括：提取第一视频中的至少一个目标图像帧；对目标图像帧进行图像识别，得到目标图像元素；获取目标图像元素对应的标签，对第一视频中的目标图像帧标注标签；将第一视频和第二视频进行关联，第二视频的至少一个图像帧也标注有该标签。本公开达到了将视频以图像元素为粒度进行分类的效果，提高了视频的聚类精度，且用户仅需通过对标签进行选择，即可查看通过该标签进行关联的视频，避免了繁琐的搜索过程，减少了用户查看相关视频的步骤。

Description

视频关联方法、视频显示方法、装置及存储介质

技术领域

本公开涉及多媒体技术领域，特别涉及一种视频关联方法、视频显示方法、装置及存储介质。

背景技术

视频应用程序是用户观看视频的应用程序，当用户对一个视频进行观看时，对该视频中的某一内容感兴趣时，可以在该视频应用程序中观看与这一内容关联的相关视频。

相关技术中，提供的观看相关视频的方法为，用户根据在视频中观看的感兴趣的内容，在搜索框中输入与该内容对应的关键词并进行搜索，得到的搜索结果中展示有与该关键词对应的视频，用户可以在展示的视频中选择想要观看的视频进行观看，如：用户在观看视频A后，对视频A中出现的“XX慈善款项链”很感兴趣，想要观看其它与该项链相关的视频，于是在搜索框中输入“XX慈善款项链”，并在搜索结果中，对视频B进行观看，该视频B的标题为“女星C戴XX慈善款项链出席活动”。

发明内容

本公开实施例提供了一种视频关联方法及装置，可以解决用户在观看视频之前需要针对感兴趣的内容在搜索栏中进行搜索，搜索过程较为繁琐，用户对相关视频进行观看之前的步骤较多的问题。所述技术方案如下：

根据本公开的第一方面，提供了一种视频关联方法，所述方法包括：

提取第一视频中的至少一个目标图像帧；

对所述目标图像帧进行图像识别，得到目标图像元素；

获取所述目标图像元素对应的标签，对所述第一视频中的所述目标图像帧标注标签；

将所述第一视频和第二视频进行关联，所述第二视频的至少一个图像帧标注有所述标签。

在一个可选的实施例中，所述对所述目标图像帧进行图像识别，得到所述目标图像元素，包括：

从所述目标图像帧中识别得到至少两个图像元素，所述图像元素的类型包括：物体、人物、动物、植物、建筑、文字、符号中的至少一种；

从所述至少两个图像元素中确定所述目标图像元素。

在一个可选的实施例中，所述从所述至少两个图像元素中确定所述目标图像元素，包括：从所述至少两个图像元素中，确定显示面积最大的图像元素作为所述目标图像元素；或，从所述至少两个图像元素中，确定与所述目标图像帧的中心点具有最近距离的图像元素，作为所述目标图像元素；或，从所述至少两个图像元素中，确定标签热度最高的图像元素作为所述目标图像元素。

在一个可选的实施例中，所述从所述至少两个图像元素中确定所述目标图像元素，还包括：

根据每个所述图像元素的显示面积计算第一权重值；根据每个所述图像元素与所述目标图像帧的中心点的距离计算第二权重值；根据所述第一权重值和所述第二权重值，计算每个所述图像元素对应的第三权重值；将所述至少两个图像元素中，所述第三权重值最大的图像元素确定为所述目标图像元素。

在一个可选的实施例中，所述提取第一视频中的至少一个目标图像帧，还包括：

提取所述第一视频中的关键帧，将所述关键帧确定为所述目标图像帧。

根据本公开的第二方面，提供了一种视频显示方法，所述方法包括：

在播放窗口中播放第一视频，所述第一视频中包括至少一个目标图像帧，所述目标图像帧标注有与目标图像元素对应的标签；

显示所述目标图像帧对应的所述标签；

接收到对所述标签的第一控制操作；

根据所述第一控制操作显示第二视频的视频信息，所述第二视频的至少一个图像帧标注有所述标签。

在一个可选的实施例中，所述显示所述目标图像帧对应的所述标签，包括：

在播放至所述目标图像帧时，在所述目标图像帧上显示所述目标图像元素对应的所述标签；或，在所述播放窗口的一侧显示所述目标图像帧对应的所述标签，所述播放窗口的一侧包括：所述播放窗口的左侧、所述播放窗口的右侧、所述播放窗口的上侧以及所述播放窗口的下侧中的任意一侧；或，当所述第一视频播放结束后，在所述播放窗口中叠加显示所述目标图像帧对应的所述标签。

在一个可选的实施例中，所述在所述目标图像帧上显示所述目标图像帧对应的所述标签，包括：

在所述目标图像帧的所述目标图像元素上，显示所述标签。

在一个可选的实施例中，所述在所述目标图像帧上显示所述目标图像帧对应的所述标签之后，还包括：

在所述播放窗口中，从所述目标图像帧开始显示的预设时长内显示所述标签。

在一个可选的实施例中，所述显示所述目标图像帧对应的所述标签之后，还包括：

接收到对所述标签的第二控制操作；

根据所述第二控制操作，在所述播放窗口上叠加显示所述标签对应的词汇解释界面。

根据本公开的第三方面，提供了一种视频关联装置，所述装置包括：

提取模块，被配置为提取第一视频中的至少一个目标图像帧；

识别模块，被配置为对所述目标图像帧进行图像识别，得到目标图像元素；

获取模块，被配置为获取所述目标图像元素对应的标签，对所述第一视频中的所述目标图像帧标注标签；

关联模块，被配置为将所述第一视频和第二视频进行关联，所述第二视频的至少一个图像帧标注有所述标签。

在一个可选的实施例中，所述识别模块，还被配置为从所述目标图像帧中识别得到至少两个图像元素，所述图像元素的类型包括：物体、人物、动物、植物、建筑、文字、符号中的至少一种；

所述识别模块，还用从所述至少两个图像元素中确定所述目标图像元素。

在一个可选的实施例中，所述识别模块，包括：

确定单元，被配置为从所述至少两个图像元素中，确定显示面积最大的图像元素作为所述目标图像元素；或，所述确定单元，还被配置为从所述至少两个图像元素中，确定与所述目标图像帧的中心点具有最近距离的图像元素，作为所述目标图像元素；或，所述确定单元，还被配置为从所述至少两个图像元素中，确定标签热度最高的图像元素作为所述目标图像元素。

在一个可选的实施例中，所述识别模块，还包括：

计算单元，被配置为根据每个所述图像元素的显示面积计算第一权重值；

所述计算单元，还被配置为根据每个所述图像元素与所述目标图像帧的中心点的距离计算第二权重值；

所述计算单元，还被配置为根据所述第一权重值和所述第二权重值，计算每个所述图像元素对应的第三权重值；

所述确定单元，还被配置为将所述至少两个图像元素中，所述第三权重值最大的图像元素确定为所述目标图像元素。

在一个可选的实施例中，所述提取模块，还被配置为提取所述第一视频中的关键帧，将所述关键帧确定为所述目标图像帧。

根据本公开的第四方面，提供了一种视频显示装置，所述装置包括：

播放模块，被配置为在播放窗口中播放第一视频，所述第一视频中包括至少一个目标图像帧，所述目标图像帧标注有与目标图像元素对应的标签；

显示模块，被配置为显示所述目标图像帧对应的所述标签；

接收模块，被配置为接收到对所述标签的第一控制操作；

所述显示模块，还被配置为根据所述第一控制操作显示第二视频的视频信息，所述第二视频的至少一个图像帧标注有所述标签。

在一个可选的实施例中，所述显示模块，还被配置为在播放至所述目标图像帧时，在所述目标图像帧上显示所述目标图像元素对应的所述标签；

所述显示模块，还被配置为在所述播放窗口的一侧显示所述目标图像帧对应的所述标签，所述播放窗口的一侧包括：所述播放窗口的左侧、所述播放窗口的右侧、所述播放窗口的上侧以及所述播放窗口的下侧中的任意一侧；

所述显示模块，还被配置为当所述第一视频播放结束后，在所述播放窗口中叠加显示所述目标图像帧对应的所述标签。

在一个可选的实施例中，所述显示模块，还被配置为在所述目标图像帧的所述目标图像元素上，显示所述标签。

在一个可选的实施例中，所述显示模块，还被配置为在所述播放窗口中，从所述目标图像帧开始显示的预设时长内显示所述标签。

在一个可选的实施例中，所述接收模块，还被配置为接收到对所述标签的第二控制操作；

所述显示模块，还被配置为根据所述第二控制操作，在所述播放窗口上叠加显示所述标签对应的词汇解释界面。

根据本公开的第五方面，提供了一种服务器，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如本公开实施例的第一方面及其可选实施例任一所述的视频关联方法。

根据本公开的第六方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如本公开实施例的第一方面及其可选实施例任一所述的视频关联方法。

根据本公开的第七方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如本公开实施例的第二方面及其可选实施例任一所述的视频显示方法。

根据本公开的第八方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如本公开实施例的第二方面及其可选实施例任一所述的视频显示方法。

本公开实施例提供的技术方案的有益效果至少包括：

通过对视频中的目标图像帧进行图像识别，得到图像元素，进而对目标图像帧标注标签，并根据标签将视频相关联，达到了将视频以图像元素为粒度进行分类的效果，提高了视频的聚类精度，且用户仅需通过对标签进行选择，即可查看通过该标签进行关联的视频，避免了繁琐的搜索过程，减少了用户查看相关视频的步骤。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并于说明书一起用于解释本公开的原理。

图1是本公开一个示例性实施例提供的视频关联系统的结构示意图；

图2是本公开一个示例性的实施例提供的视频关联方法的流程图；

图3是本公开另一个示例性的实施例提供的视频关联方法的流程图；

图4是本公开一个示例性的实施例提供的视频显示方法的流程图；

图5是本公开另一个示例性的实施例提供的视频显示方法的流程图；

图6是本公开一个示例性的实施例提供的视频显示方法的用户界面示意图；

图7是本公开另一个示例性的实施例提供的视频显示方法的用户界面示意图；

图8是本公开另一个示例性的实施例提供的视频显示方法的用户界面示意图；

图9A是本公开另一个示例性的实施例提供的视频显示方法的用户界面示意图；

图9B是本公开另一个示例性的实施例提供的视频显示方法的用户界面示意图；

图10是本公开一个示例性的实施例提供的视频关联装置的结构框图；

图11是本公开一个示例性的实施例提供的视频显示装置的结构框图；

图12是本公开一个示例性的实施例提供的服务器的结构框图；

图13是本公开一个示例性的实施例提供的终端的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

首先对本公开涉及的若干个名词进行介绍：

视频：视频是指将一系列静态影像以预设频率连续播放的影像格式。

可选地，视频中还包括在线视频，该在线视频是指存储在服务器中，需要终端与服务器通过通信网络相连从服务器中获取的视频，终端在从服务器中获取到该在线视频后可对该在线视频进行观看。

可选地，该在线视频还包括在线短视频，该在线短视频是指时长小于或者等于预设时长的在线视频，如：当预设时长为20秒时，则时长为10秒的在线视频即可认为是在线短视频。

目标图像帧：该目标图像帧为在视频中用于进行图像识别的图像帧，可选地，该目标图像帧中包括至少一个图像元素。

图像元素：该图像元素是指在视频的图像帧中可以通过图像识别技术得到的元素，可选地，该图像元素可以是物体、人物、动物、植物、建筑、文字、符号中的至少一种。

标签：标签用于标识图像元素的类别，可选地，在本公开实施例中，该标签用于标注目标图像帧中的目标图像元素的类别。

图1是本公开一个示例性实施例提供的视频关联系统的结构示意图，如图1所示，该视频关联系统包括：服务器11，终端12以及通信网络13。

服务器11用于根据图像帧上标注的标签将多个视频进行关联。可选地，服务器11中存储有提供给用户进行观看的视频，以及图像元素与标签的对应关系，通过对视频中的图像帧进行图像识别，可以得到图像帧中的图像元素所对应的标签，可选地，上述视频和可以是短视频，即视频时长小于预设时长的视频。

服务器11与终端12通过通信网络13进行连接，其中，该通信网络13可以是有线网络，也可以是无线网络。

终端12用于对服务器11中存储的视频进行播放，并将标签显示在播放窗口中。可选地，该终端12中安装有视频应用程序，终端可以通过该视频应用程序对服务器11中存储的视频进行播放。

图2是本公开一个示例性的实施例提供的视频关联方法的流程图，以其应用在如图1所示的服务器11中为例进行说明，如图2所示，该视频关联方法包括：

步骤201，服务器提取第一视频中的至少一个目标图像帧。

可选地，服务器提取第一视频中的至少一个目标图像帧的方式包括如下方式中的至少一种：

第一，提取第一视频中的所有关键帧作为目标图像帧；

关键帧是指在视频的图像帧中，角色在运动或变化中，以及物体在运动或者变化中的关键动作所处的一帧，而在两帧关键帧之间的图像帧可以将其定义为过渡帧。

第二，随机提取第一视频中的预设数量的图像帧为目标图像帧

第三，将第一视频中从第一帧图像帧开始，对每隔预设帧数的图像帧进行提取，并将提取得到的图像帧作为目标图像帧。

步骤202，服务器对目标图像帧进行图像识别，得到目标图像元素。

可选地，该目标图像帧中包括至少一个图像元素，服务器通过对该目标图像帧进行图像识别，得到目标图像元素。

可选地，当一个目标图像帧中包括多个图像元素时，可以获取该多个图像元素中的一个图像元素作为目标图像元素，也可以获取该多个图像元素中的预设数量的图像元素作为目标图像元素，还可以获取该多个图像元素中的所有图像元素作为目标图像元素，本公开实施例对此不加以限定。

步骤203，服务器获取目标图像元素对应的标签，对第一视频中的目标图像帧标注标签。

可选地，服务器中存储有图像元素与标签的对应关系，服务器根据图像识别得到的目标图像元素在该对应关系中查找对应的标签，并对目标图像元素所在的目标图像帧标注该标签。

可选地，当该目标图像帧为关键帧时，服务器可以对该关键帧以及与该关键帧对应的过渡帧均标注该目标图像元素对应的标签。

可选地，由于一个视频可以包括多个目标图像帧，每个目标图像帧对应至少一个标签，所以一个视频可以对应多个标签。

步骤204，服务器将第一视频和第二视频进行关联。

可选地，该第二视频的至少一个图像帧标注有上述标签。即第一视频中的至少一个目标图像帧和第二视频中的至少一个图像帧中标注有同一个标签，服务器将标注有同一个标签的两个图像帧对应的两个视频进行关联。

可选地，第二视频是一个或多个。

可选地，用户在终端可以对标签进行选择，以查看通过该标签进行关联的视频。

综上所述，通过对视频中的目标图像帧进行图像识别，得到图像元素，进而对目标图像帧标注标签，并根据标签将视频相关联，达到了将视频以图像元素为粒度进行分类的效果，提高了视频的聚类精度，且用户仅需通过对标签进行选择，即可查看通过该标签进行关联的视频，避免了繁琐的搜索过程，减少了用户查看相关视频的步骤。

图3是本公开另一个示例性的实施例提供的视频关联方法的流程图，以其应用在如图1所示的服务器11中为例进行说明，如图3所示，该视频关联方法包括：

步骤301，服务器提取第一视频中的关键帧，将关键帧确定为目标图像帧。

可选地，该第一视频中包括至少一帧关键帧，服务器将该第一视频中的关键帧进行提取，并将提取得到的关键帧确定为目标图像帧。

可选地，服务器可以对第一视频中的所有关键帧进行提取，也可以对第一视频中的部分关键帧进行提取。示意性的，当第一视频的视频时长小于预设时长时，对该第一视频的所有关键帧进行提取，当第一视频的视频时长大于预设时长时，随机提取该第一视频中预设数量的关键帧。

步骤302，服务器从目标图像帧中识别得到至少两个图像元素。

可选地，该图像元素的类型包括：物体、人物、动物、植物、建筑、文字、符号中的至少一种。

当该目标图像帧中包括至少两个图像元素时，服务器从该目标图像帧中识别出该至少两个图像元素。

可选地，服务器中预先存储有用于进行图像识别的神经网络模型，通过该神经网络模型，服务器从目标图像帧中对图像元素进行识别。

步骤303，服务器从至少两个图像元素中确定目标图像元素。

可选地，服务器从至少两个图像元素中确定目标图像元素的方式，包括如下方式中的至少一种：

第一，从至少两个图像中，确定显示面积最大的图像元素作为目标图像元素；

可选地，该显示面积为图像元素在目标图像帧中进行显示时，在目标图像帧中占据的面积，即若由于目标图像帧的尺寸、裁剪、图像层叠加等因素的影响，图像元素的部分显示在目标图像帧中，而其它部分被裁剪或者被其它图像元素遮挡时，仅计算能够正确显示在目标图像帧中的图像元素的面积大小，并选择面积最大的图像元素作为目标图像元素。显示面积可以采用像素点个数来计算。

第二，从至少两个图像元素中，确定与目标图像帧的中心点具有最近距离的图像元素，作为目标图像元素；

可选地，可以确定每个图像元素的中心点，并计算图像元素的中心点与目标图像帧的中心点之间的距离值，将该距离值最小的图像元素确定为目标图像元素。

可选地，每个图像元素的中心点的确定方式包括但不限于如下方式中的任意一种：

1、绘制包括该图像元素的最小矩形框，确定该最小矩形框的中心点为该图像元素的中心点；

2、将该图像元素的左顶点(即最靠近目标图像帧的左上角的点)和右端点(即最靠近目标图像帧的右下角的点)相连，并将连线的中点确定为中心点，可选地，当该图像元素包括多个左顶点时，在该多个左顶点中随机确定一点为左顶点，当该图像元素包括多个右端点时，在该多个左顶点中随机确定一点为右端点；

3、在该图像元素中随机确定一点为中心点。

第三，从至少两个图像元素中，确定标签热度最高的图像元素作为目标图像元素；

可选地，获取至少两个图像元素中每个图像元素对应的标签，以及标签对应的热度值，将标签对应的热度值最高的图像元素确定为目标图像元素。

可选地，服务器中存储有标签以及该标签对应的热度值的对应关系，并且以预设的频率对该标签的热度值进行更新；该热度值通过标签的点击率以及标签所在的目标图像帧的播放率进行计算。示意性的，可以将获取的标签的点击率以及目标图像帧的播放率相加，得到该标签的热度值。

值得注意的是，服务器还可以对标签按热度值从大到小进行排序，用户可以通过终端对该排序进行查看。

第四，根据每个图像元素的显示面积计算第一权重值，根据每个图像元素与目标图像帧的中心点的距离计算第二权重值，根据第一权重值和第二权重值，计算每个图像元素对应的第三权重值，将至少两个图像元素中，第三权重值最大的图像元素确定为目标图像元素。

可选地，可以将第一权重值和第二权重值按照预设比例进行相加，得到第三权重值。

示意性的，从目标图像帧中识别得到图像元素A和图像元素B，其中，图像元素A对应的第一权重值为80，对应的第二权重值为50，图像元素B对应的第一权重值为45，对应的第二权重值为90，将第一权重值和第二权重值按照4:6相加，即图像元素A对应的第三权重值为：

80×0.4+50×0.6＝62

图像元素B对应的第三权重值为：

45×0.4+90×0.6＝72

故确定图像元素B为目标图像元素。

步骤304，服务器获取目标图像元素对应的标签，对第一视频中的目标图像帧标注标签。

可选地，服务器对目标图像帧进行标签标注时，可以仅对该目标图像帧进行标注，以示该目标图像帧中包括该标签对应的图像元素，也可以对该标签在目标图像帧中的显示位置，以及该标签在第一视频中的显示时长进行标注，其中，该标签在目标图像中的显示位置可以以坐标的方式，根据目标图像元素的坐标进行标注，如：根据目标图像元素的坐标向左偏移两个单位，以及向上偏移两个单位。

示意性的，以该目标图像帧的左上角为原点绘制直角坐标系，确定目标图像元素的坐标为(20,20)，进而确定该目标图像元素对应的标签的坐标为(18,18)，以及确定该标签的显示时长为3秒，在对目标图像帧进行标签标注时，同时将该标签的显示位置(18，18)以及显示时长3秒也进行标注。

步骤305，服务器将第一视频和第二视频进行关联。

可选地，该第二视频的至少一个图像帧标注有上述标签。即第一视频中的至少一个目标图像帧和第二视频中的至少一个图像帧中标注有同一个标签，即服务器将标注有同一个标签的两个图像帧对应的两个视频进行关联。

综上所述，通过对视频中的目标图像帧进行图像识别，得到图像元素，进而对目标图像帧标注标签，并根据标签将视频相关联，达到了将视频以图像元素为粒度进行分类的效果，提高了视频的聚类精度，且用户仅需通过对标签进行选择，即可查看通过该标签进行关联的视频，避免了繁琐的搜索过程，减少了用户查看相关视频的步骤；

通过对关键帧进行提取，避免了对目标图像帧进行提取时，提取的多个目标图像帧中识别得到的图像元素相同，而造成对相同的图像元素进行多次识别的问题。

图4是本公开一个示例性的实施例提供的视频显示方法的流程图，以该视频显示方法应用于如图1所示的终端12中为例进行说明，如图4所示，该视频显示方法包括：

步骤401，在播放窗口中播放第一视频。

可选地，该第一视频中包括至少一个目标图像帧，该目标图像帧标注有与目标图像元素对应的标签。

示意性的，在播放窗口中播放的第一视频中包括目标图像帧A，该目标图像帧中A包括目标图像元素“机器人”，故该目标图像帧A标注有标签“机器人”。

步骤402，显示目标图像帧对应的标签。

可选地，该显示目标图像帧的方式包括但不限于如下方式中的至少一种：

第一，在播放至目标图像帧时，在目标图像帧上显示目标图像元素对应的标签；可选地，可以在该目标图像帧的目标图像元素上显示该标签。

第二，在播放窗口的一侧显示目标图像帧对应的标签；

该播放窗口的一侧包括：播放窗口的左侧、播放窗口的右侧、播放窗口的上侧以及播放窗口的下侧中的任意一侧。

第三，当第一视频播放结束后，在播放窗口中叠加显示目标图像帧对应的标签。

可选地，当第一视频播放结束后，在播放窗口中叠加显示一个界面元素，并在该界面元素中显示目标图像帧对应的标签。

步骤403，接收到对标签的第一控制操作。

可选地，该第一操作可以是在该标签上的点击操作、滑动操作、长按操作、压力触控操作中的任意一种。

步骤404，根据第一控制操作显示第二视频的视频信息。

可选地，该第二视频中的至少一个图像帧标注有该标签。

该第二视频中的图像帧标注的标签与上述第一视频中目标图像帧对应的标签，以及接收到的第一控制操作对应的标签，为完全相同的标签。

可选地，该第二视频的视频信息包括：该第二视频的标题、第二视频的上传时间、第二视频中的图像帧标注的标签、第二视频的封面图像中的至少一种。

综上所述，在播放第一视频时显示目标图像帧对应的标签，或播放第一视频结束后显示目标图像帧对应的标签，用户可以通过对标签进行选择，查看通过该标签进行关联的视频，避免了用户需要通过繁琐的过程对标签对应的视频进行检索以及查看，减少了用户通过第一视频查看第二视频的步骤。

图5是本公开另一个示例性的实施例提供的视频显示方法的流程图，以该视频显示方法应用于如图1所示的终端12中为例进行说明，如图5所示，该视频显示方法包括：

步骤501，在播放窗口中播放第一视频。

步骤502，播放至目标图像帧时，在目标图像帧中显示目标图像元素对应的标签。

可选地，在目标图像帧上显示目标图像帧对应的标签之后，还可以在播放窗口中，从目标图像帧开始显示的预设时长内显示标签，也可以在播放窗口中显示标签直至播放窗口中播放至下一个目标图像帧，即当该目标图像帧是关键帧时，在该关键帧所对应的过渡帧中显示该标签。上述预设时长为预先设置好的，可以由开发人员进行设置，也可以由用户自行进行设置。本公开实施例对此不加以限定。

可选地，可在播放的目标图像帧中仅显示该目标图像帧中的目标图像元素对应的标签，也可以在该目标图像帧中显示该第一视频中所有目标图像帧对应的标签，本公开实施例对此不加以限定。

可选地，当在目标图像帧中仅显示该目标图像帧中的目标图像元素对应的标签时，可以在该目标图像帧的目标图像元素上显示标签，或者，可以在目标图像元素的预设范围内显示该标签。

示意性的，以在目标图像帧中仅显示该目标图像帧对应的标签，且在目标图像元素的左上方显示该标签为例进行说明，如图6所示，在播放窗口61中播放第一视频，当播放至目标图像帧时，在目标图像帧中显示目标图像元素62的标签“#机器人”，且该标签显示在目标图像元素62的左上方。

步骤503，在播放窗口的一侧显示目标图像帧对应的标签。

可选地，该播放窗口的一侧包括：播放窗口的左侧、播放窗口的右侧、播放窗口的上侧以及播放窗口的下侧中的任意一侧。

可选地，在播放窗口的一侧显示的标签可以是随着第一视频的播放显示实时变化的标签，如：第一视频共20秒，从第1秒至第6秒在播放窗口的一侧显示第1个标签，从第7秒至第15秒显示第2个标签，从第8秒至第20秒显示第3个标签；在播放窗口的一侧显示的标签也可以是该第一视频中的目标图像帧对应的所有标签。

示意性的，以该第一视频中共有三个目标图像帧对应有三个标签为例，如图7展示了上述4种情况分别对应的标签的显示界面，其中，显示界面71是标签显示在播放窗口61的左侧对应的显示界面，显示界面72是标签显示在播放窗口61的上侧对应的显示界面，显示界面73是标签显示在播放窗口61的右侧对应的显示界面，显示界面74是标签显示在播放窗口61的下侧对应的显示界面。

步骤504，当第一视频播放结束后，在播放窗口中叠加显示目标图像帧对应的标签。

示意性的，如图8所示，第一视频播放结束后，在播放窗口61中叠加显示一个界面元素81，并在该界面元素81中显示第一视频中的目标图像帧对应的标签。

值得注意的是，上述步骤502至步骤504为三个独立的步骤，即可以仅执行该三个步骤中的任意一个，也可以将该三个步骤任意结合执行，本公开实施例对此不加以限定。

步骤505，接收到对标签的第一控制操作。

步骤506，根据第一控制操作显示第二视频的视频信息。

可选地，该第二视频中的至少一个图像帧标注有该标签，即第二视频中的至少一个图像帧标注有上述第一控制操作对应的标签，值得注意的是，上述第二视频为泛指，即所有满足上述条件(即包括至少一个图像帧标注有该标签)的都可以是第二视频。

示意性的，请结合图9A，用户在播放窗口61中对标签“#机器人”进行点击后，在用户界面91中显示第二视频的信息，该第二视频为通过标签“#机器人”与第一视频关联的视频，如图9A所示，与该第一视频通过标签“#机器人”进行关联的包括两个第二视频。

值得注意的是，用户还可以对第二视频进行选择，当第二视频被选择时，终端可以在播放窗口中播放该第二视频的视频图像，可选地，终端可以将第二视频从第一帧开始进行播放，也可以从第一控制操作对应的标签所对应的图像帧进行播放。

步骤507，接收到对标签的第二控制操作。

可选地，该第二操作可以是在该标签上的点击操作、滑动操作、长按操作、压力触控操作中的任意一种，且该第二操作为与第一操作不同的操作。

步骤508，根据第二控制操作，在播放窗口叠加显示标签对应的词汇解释界面。

可选地，该词汇解释界面可以是由第三方搜索引擎提供的词汇解释窗口，也可以是由第三方搜索程序提供的词汇解释界面，还可以是服务器中存储的与该标签对应的词汇解释，本公开实施例对此不加以限定。

示意性的，如图9B所示，用户在播放窗口61中对标签“#机器人”进行第二控制操作(如：长按操作)后，在播放窗口61中叠加显示界面元素92，在该界面元素92中显示与标签“机器人”对应的词汇解释。

可选地，终端可以首先在服务器中查找是否有该标签对应的词汇解释，当服务器中为存储有该标签对应的词汇解释时，再通过第三方搜索引擎或者第三方搜索程序进行该标签对应的词汇解释的搜索。

综上所述，本实施例提供的视频显示方法，在播放第一视频时显示目标图像帧对应的标签，或播放第一视频结束后显示目标图像帧对应的标签，用户可以通过对标签进行选择，查看通过该标签进行关联的视频，避免了用户需要通过繁琐的过程对标签对应的视频进行检索以及查看，减少了用户通过第一视频查看第二视频的步骤；

进一步地，本实施例还通过将标签显示在目标图像帧中、播放窗口的一侧以及播放结束后的播放窗口中，用户可以随时对感兴趣的标签进行控制操作，以便查看与该标签对应的第二视频；

进一步地，本实施例还通过在目标图像元素上显示对应的标签，能够让用户直观的了解显示的标签是哪一个图像元素对应的标签，避免由于标签的显示位置于目标图像元素五对应关系而导致用户对标签对应的图像元素不清楚的情况；

进一步地，本实施例还通过在预设时长内显示标签，增加了用户对该标签的反应时间，避免了由于标签的显示时间过短而导致用户无法及时对感兴趣的标签进行进一步操作；

进一步地，本实施例还通过第二控制操作显示标签对应的词汇解释，用户可以对不了解的标签进行词汇解释的查看。

图10示出了本公开一个示例性的实施例提供的视频关联装置的结构框图，如图10所示，该视频关联装置包括：提取模块1001、识别模块1002、获取模块1003以及关联模块1004；

提取模块1001，被配置为提取第一视频中的至少一个目标图像帧；

识别模块1002，被配置为对所述目标图像帧进行图像识别，得到目标图像元素；

获取模块1003，被配置为获取所述目标图像元素对应的标签，对所述第一视频中的所述目标图像帧标注标签；

关联模块1004，被配置为将所述第一视频和第二视频进行关联，所述第二视频的至少一个图像帧标注有所述标签。

在一个可选的实施例中，所述识别模块1002，还被配置为从所述目标图像帧中识别得到至少两个图像元素，所述图像元素的类型包括：物体、人物、动物、植物、建筑、文字、符号中的至少一种；

所述识别模块1002，还用从所述至少两个图像元素中确定所述目标图像元素。

在一个可选的实施例中，所述识别模块1002，包括：

确定单元，被配置为从所述至少两个图像元素中，确定显示面积最大的图像元素作为所述目标图像元素；

或，

所述确定单元，还被配置为从所述至少两个图像元素中，确定与所述目标图像帧的中心点具有最近距离的图像元素，作为所述目标图像元素；

或，

所述确定单元，还被配置为从所述至少两个图像元素中，确定标签热度最高的图像元素作为所述目标图像元素。

在一个可选的实施例中，所述识别模块1002，还包括：

在一个可选的实施例中，所述提取模块1001，还被配置为提取所述第一视频中的关键帧，将所述关键帧确定为所述目标图像帧。

图11示出了本公开一个示例性的实施例提供的视频显示装置的结构框图，如图11所示，该视频显示装置包括：播放模块1101、显示模块1102以及接收模块1103；

播放模块1101，被配置为在播放窗口中播放第一视频，所述第一视频中包括至少一个目标图像帧，所述目标图像帧标注有与目标图像元素对应的标签；

显示模块1102，被配置为显示所述目标图像帧对应的所述标签；

接收模块1103，被配置为接收到对所述标签的第一控制操作；

所述显示模块1102，还被配置为根据所述第一控制操作显示第二视频的视频信息，所述第二视频的至少一个图像帧标注有所述标签。

在一个可选的实施例中，所述显示模块1102，还被配置为在播放至所述目标图像帧时，在所述目标图像帧上显示所述目标图像元素对应的所述标签；

所述显示模块1102，还被配置为在所述播放窗口的一侧显示所述目标图像帧对应的所述标签，所述播放窗口的一侧包括：所述播放窗口的左侧、所述播放窗口的右侧、所述播放窗口的上侧以及所述播放窗口的下侧中的任意一侧；

所述显示模块1102，还被配置为当所述第一视频播放结束后，在所述播放窗口中叠加显示所述目标图像帧对应的所述标签。

在一个可选的实施例中，所述显示模块1102，还被配置为在所述目标图像帧的所述目标图像元素上，显示所述标签。

在一个可选的实施例中，所述显示模块1102，还被配置为在所述播放窗口中，从所述目标图像帧开始显示的预设时长内显示所述标签。

在一个可选的实施例中，所述接收模块1103，还被配置为接收到对所述标签的第二控制操作；

所述显示模块1102，还被配置为根据所述第二控制操作，在所述播放窗口上叠加显示所述标签对应的词汇解释界面。

图12是根据一示意性实施例示出的服务器的框图。该服务器1200可以包括以下一个或多个组件：处理组件1202，存储器1204，电源组件1206，多媒体组件1208，音频组件1210，输入/输出(I/O)接口1212，传感器组件1214，以及通信组件1216。

处理组件1202通常控制服务器1200的整体操作，诸如与显示，数据通信，相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1218来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1202可以包括一个或多个模块，便于处理组件1202和其他组件之间的交互。例如，处理组件1202可以包括多媒体模块，以方便多媒体组件1208和处理组件1202之间的交互。

存储器1204被配置为存储各种类型的数据以支持在服务器1200的操作。这些数据的示例包括用于在服务器1200上操作的任何应用程序或方法的指令，消息，图片，视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1206为服务器1200的各种组件提供电力。电源组件1206可以包括电源管理系统，一个或多个电源，及其他与为服务器1200生成、管理和分配电力相关联的组件。

多媒体组件1208包括在服务器1200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1208包括一个前置摄像头和/或后置摄像头。当服务器1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1210被配置为输出和/或输入音频信号。例如，音频组件1210包括一个麦克风(MIC)，当服务器1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中，音频组件1210还包括一个扬声器，用于输出音频信号。

I/O接口1212为处理组件1202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

传感器组件1214包括一个或多个传感器，用于为服务器1200提供各个方面的状态评估。例如，传感器组件1214可以检测到服务器1200的打开/关闭状态，组件的相对定位，例如组件为服务器1200的显示器和小键盘，传感器组件1214还可以检测服务器1200或服务器1200一个组件的位置改变，用户与服务器1200接触的存在或不存在，服务器1200方位或加速/减速和服务器1200的温度变化。传感器组件1214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1216被配置为便于服务器1200和其他设备之间有线或无线方式的通信。服务器1200可以接入基于通信标准的无线网络，如Wi-Fi，2G或3G，或它们的组合。在一个示意性实施例中，通信组件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示意性实施例中，通信组件1216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示意性实施例中，服务器1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述视频关联方法。

在示意性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1204，上述指令可由服务器1200的处理器1218执行以完成上述视频关联方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图13是根据一示意性实施例示出的终端的框图。该终端1300可以包括以下一个或多个组件：处理组件1302，存储器1304，电源组件1306，多媒体组件1308，音频组件1310，输入/输出(I/O)接口1312，传感器组件1314，以及通信组件1316。

处理组件1302通常控制终端1300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1302可以包括一个或多个处理器1318来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1302可以包括一个或多个模块，便于处理组件1302和其他组件之间的交互。例如，处理组件1302可以包括多媒体模块，以方便多媒体组件1308和处理组件1302之间的交互。

存储器1304被配置为存储各种类型的数据以支持在终端1300的操作。这些数据的示例包括用于在终端1300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1306为终端1300的各种组件提供电力。电源组件1306可以包括电源管理系统，一个或多个电源，及其他与为终端1300生成、管理和分配电力相关联的组件。

多媒体组件1308包括在终端1300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1308包括一个前置摄像头和/或后置摄像头。当终端1300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1310被配置为输出和/或输入音频信号。例如，音频组件1310包括一个麦克风(MIC)，当终端1300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中，音频组件1310还包括一个扬声器，用于输出音频信号。

I/O接口1312为处理组件1302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1314包括一个或多个传感器，用于为终端1300提供各个方面的状态评估。例如，传感器组件1314可以检测到终端1300的打开/关闭状态，组件的相对定位，例如组件为终端1300的显示器和小键盘，传感器组件1314还可以检测终端1300或终端1300一个组件的位置改变，用户与终端1300接触的存在或不存在，终端1300方位或加速/减速和终端1300的温度变化。传感器组件1314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1316被配置为便于终端1300和其他设备之间有线或无线方式的通信。终端1300可以接入基于通信标准的无线网络，如Wi-Fi，2G或3G，或它们的组合。在一个示意性实施例中，通信组件1316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示意性实施例中，通信组件1316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示意性实施例中，终端1300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述视频显示方法。

在示意性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1304，上述指令可由终端1300的处理器1318执行以完成上述视频显示方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如图1至图3任一所示的视频关联方法。

本公开实施例还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如图4至图9B任一所示的视频显示方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频关联方法，其特征在于，所述方法包括：

提取第一视频中的至少一个目标图像帧；

对所述目标图像帧进行图像识别，得到目标图像元素；

获取所述目标图像元素对应的标签，对所述第一视频中的所述目标图像帧标注标签，所述标签用于标识所述目标图像元素的类别；

将所述第一视频和第二视频通过所述标签进行关联，所述第二视频的至少一个图像帧标注有所述标签，播放窗口中显示所述第一视频，且所述标签被选择时，显示通过所述标签关联的所述第二视频。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标图像帧进行图像识别，得到所述目标图像元素，包括：

从所述至少两个图像元素中确定所述目标图像元素。

3.根据权利要求2所述的方法，其特征在于，所述从所述至少两个图像元素中确定所述目标图像元素，包括：

从所述至少两个图像元素中，确定显示面积最大的图像元素作为所述目标图像元素；

或，

从所述至少两个图像元素中，确定与所述目标图像帧的中心点具有最近距离的图像元素，作为所述目标图像元素；

或，

从所述至少两个图像元素中，确定标签热度最高的图像元素作为所述目标图像元素。

4.根据权利要求2所述的方法，其特征在于，所述从所述至少两个图像元素中确定所述目标图像元素，还包括：

根据每个所述图像元素的显示面积计算第一权重值；

根据每个所述图像元素与所述目标图像帧的中心点的距离计算第二权重值；

根据所述第一权重值和所述第二权重值，计算每个所述图像元素对应的第三权重值；

将所述至少两个图像元素中，所述第三权重值最大的图像元素确定为所述目标图像元素。

5.根据权利要求1至3任一所述的方法，其特征在于，所述提取第一视频中的至少一个目标图像帧，还包括：

6.一种视频显示方法，其特征在于，所述方法包括：

在播放窗口中播放第一视频，所述第一视频中包括至少一个目标图像帧，所述目标图像帧标注有与目标图像元素对应的标签，所述标签用于标识所述目标图像元素的类别；

显示所述目标图像帧对应的所述标签；

接收到对所述标签的第一控制操作；

根据所述第一控制操作显示第二视频的视频信息，所述第二视频的至少一个图像帧标注有所述标签，所述第一视频和所述第二视频通过所述标签进行关联。

7.根据权利要求6所述的方法，其特征在于，所述显示所述目标图像帧对应的所述标签，包括：

在播放至所述目标图像帧时，在所述目标图像帧上显示所述目标图像元素对应的所述标签；

或，

在所述播放窗口的一侧显示所述目标图像帧对应的所述标签，所述播放窗口的一侧包括：所述播放窗口的左侧、所述播放窗口的右侧、所述播放窗口的上侧以及所述播放窗口的下侧中的任意一侧；

或，

当所述第一视频播放结束后，在所述播放窗口中叠加显示所述目标图像帧对应的所述标签。

8.根据权利要求7所述的方法，其特征在于，所述在所述目标图像帧上显示所述目标图像帧对应的所述标签，包括：

在所述目标图像帧的所述目标图像元素上，显示所述标签。

9.根据权利要求7所述的方法，其特征在于，所述在所述目标图像帧上显示所述目标图像帧对应的所述标签之后，还包括：

10.根据权利要求6所述的方法，其特征在于，所述显示所述目标图像帧对应的所述标签之后，还包括：

接收到对所述标签的第二控制操作；

11.一种视频关联装置，其特征在于，所述装置包括：

获取模块，被配置为获取所述目标图像元素对应的标签，对所述第一视频中的所述目标图像帧标注标签，所述标签用于标识所述目标图像元素的类别；

关联模块，被配置为将所述第一视频和第二视频通过所述标签进行关联，所述第二视频的至少一个图像帧标注有所述标签，播放窗口中显示所述第一视频，且所述标签被选择时，显示通过所述标签关联的所述第二视频。

12.根据权利要求11所述的装置，其特征在于，所述识别模块，还被配置为从所述目标图像帧中识别得到至少两个图像元素，所述图像元素的类型包括：物体、人物、动物、植物、建筑、文字、符号中的至少一种；

13.根据权利要求12所述的装置，其特征在于，所述识别模块，包括：

或，

14.根据权利要求12所述的装置，其特征在于，所述识别模块，还包括：

15.根据权利要求11至13任一所述的装置，其特征在于，所述提取模块，还被配置为提取所述第一视频中的关键帧，将所述关键帧确定为所述目标图像帧。

16.一种视频显示装置，其特征在于，所述装置包括：

播放模块，被配置为在播放窗口中播放第一视频，所述第一视频中包括至少一个目标图像帧，所述目标图像帧标注有与目标图像元素对应的标签，所述标签用于标识所述目标图像元素的类别；

显示模块，被配置为显示所述目标图像帧对应的所述标签；

接收模块，被配置为接收到对所述标签的第一控制操作；

所述显示模块，还被配置为根据所述第一控制操作显示第二视频的视频信息，所述第二视频的至少一个图像帧标注有所述标签，所述第一视频和所述第二视频通过所述标签进行关联。

17.根据权利要求16所述的装置，其特征在于，所述显示模块，还被配置为在播放至所述目标图像帧时，在所述目标图像帧上显示所述目标图像元素对应的所述标签；

18.根据权利要求17所述的装置，其特征在于，所述显示模块，还被配置为在所述目标图像帧的所述目标图像元素上，显示所述标签。

19.根据权利要求17所述的装置，其特征在于，所述显示模块，还被配置为在所述播放窗口中，从所述目标图像帧开始显示的预设时长内显示所述标签。

20.根据权利要求16所述的装置，其特征在于，所述接收模块，还被配置为接收到对所述标签的第二控制操作；

21.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至5任一所述的视频关联方法。

22.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至5任一所述的视频关联方法。

23.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求6至10任一所述的视频显示方法。

24.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求6至10任一所述的视频显示方法。