CN106874827A

CN106874827A - 视频识别方法和装置

Info

Publication number: CN106874827A
Application number: CN201510925602.2A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2015-12-14
Filing date: 2015-12-14
Publication date: 2017-06-20

Abstract

本公开是关于一种视频识别方法和装置，通过获取目标视频；根据第一预设帧间隔，对目标视频进行划分，得到多个视频片断；根据第二预设帧间隔，从每个视频片断中提取出第一帧图像；将包含有人脸信息的第一帧图像提取出来，得到第二人脸帧图像；基于预设识别模型，对第二人脸帧图像中的人脸身份进行识别，确定第二人脸帧图像中包含的人脸标识；根据人脸标识与第二人脸帧图像的对应关系，根据第二人脸帧图像与第二人脸帧图像所归属的视频片断的对应关系，形成人脸标识、第二人脸帧图像、视频片断的三方对应关系表。从而可以根据确定出的视频片断与人脸标识的对应关系，为用户推送仅包含有其所希望观看的演员出场的视频片断。

Description

视频识别方法和装置

技术领域

本公开涉及图像处理技术领域，尤其涉及一种视频识别方法和装置。

背景技术

随着社会的快速发展，科学技术的不断进步，人们所能触及到的信息呈现几何式的增长，人们越来越需要借助信息搜索技术在海量的信息中挖掘出有效信息。

目前的信息搜索技术对于文字的搜索效果较好，可以快速定位到包含有用户预设关键词的文章，但是对于一段视频而言，若用户希望观看仅包含自己喜爱演员出场的视频片断，则只能通过拖动视频进度按钮或按下视频快进键进行查找，费时费力，且定位不准确。

发明内容

为了解决现有技术中，对视频中演员出场时间段无法定位的问题，本公开提供一种视频识别方法和装置，通过对视频进行片断划分，并在划分后的视频片断中进行人脸识别，确定出视频片断与人脸身份的对应关系，从而可以为用户推送仅包含有其所希望观看的演员出场的视频片断，该方法有效且快速实现人脸识别，人脸视频片断定位，提升用户观赏视频的用户体验。

本公开提供一种视频识别方法和装置，所述技术方案如下：

根据本公开实施例的第一方面，提供一种视频识别方法，包括：

获取目标视频；

根据第一预设帧间隔，对所述目标视频进行划分，得到多个视频片断；

根据第二预设帧间隔，从每个所述视频片断中提取出第一帧图像；

检测所述第一帧图像中是否包含人脸信息，将包含有人脸信息的第一帧图像提取出来，得到第二人脸帧图像；

基于预设识别模型，对所述第二人脸帧图像中的人脸身份进行识别，确定所述第二人脸帧图像中包含的人脸标识；

根据所述人脸标识与所述第二人脸帧图像的对应关系，根据所述第二人脸帧图像与所述第二人脸帧图像所归属的视频片断的对应关系，形成所述人脸标识、所述第二人脸帧图像、所述视频片断的三方对应关系表。

根据本公开实施例的第二方面，提供一种视频识别装置，包括：

第一获取模块，用于获取目标视频；

第一划分模块，用于根据第一预设帧间隔，对所述目标视频进行划分，得到多个视频片断；

第二划分模块，用于根据第二预设帧间隔，从每个所述视频片断中提取出第一帧图像；

检测模块，用于检测所述第一帧图像中是否包含人脸信息，将包含有人脸信息的第一帧图像提取出来，得到第二人脸帧图像；

识别模块，用于基于预设识别模型，对所述第二人脸帧图像中的人脸身份进行识别，确定所述第二人脸帧图像中包含的人脸标识；

匹配模块，用于根据所述人脸标识与所述第二人脸帧图像的对应关系，根据所述第二人脸帧图像与所述第二人脸帧图像所归属的视频片断的对应关系，形成所述人脸标识、所述第二人脸帧图像、所述视频片断的三方对应关系表。

本公开的实施例提供的方法及装置可以包括以下有益效果：通过获取目标视频；根据第一预设帧间隔，对目标视频进行划分，得到多个视频片断；根据第二预设帧间隔，从每个视频片断中提取出第一帧图像；检测第一帧图像中是否包含人脸信息，将包含有人脸信息的第一帧图像提取出来，得到第二人脸帧图像；基于预设识别模型，对第二人脸帧图像中的人脸身份进行识别，确定第二人脸帧图像中包含的人脸标识；根据人脸标识与第二人脸帧图像的对应关系，根据第二人脸帧图像与第二人脸帧图像所归属的视频片断的对应关系，形成人脸标识、第二人脸帧图像、视频片断的三方对应关系表。从而可以根据确定出的视频片断与人脸标识的对应关系，为用户推送仅包含有其所希望观看的演员出场的视频片断，该方法有效且快速实现人脸识别，人脸视频片断定位，提升用户观赏视频的用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种视频识别方法的流程图；

图2是根据另一示例性实施例示出的一种视频识别方法的流程图；

图3是图2所示实施例的一种视频划分方式的示意图；

图4是根据一示例性实施例示出的一种视频识别装置的流程图；

图5是根据另一示例性实施例示出的一种视频识别装置的流程图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频识别方法的流程图，如图1所示，本实施例的视频识别方法可以应用于视频提供商的视频服务器中也可以应用于接收视频方的终端(客户端设备)中，以下以应用于视频服务器中来举例说明，本实施例的方法包括以下步骤：

该视频处理方法包括以下步骤：

在步骤101中，获取目标视频。

具体的，视频本质上是由一系列的静态影像连接而成，通常来说连续的图像变化每秒超过24帧画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面，看上去是平滑连续的视觉效果，这样连续的画面叫做视频。通过对构成目标视频的连续的帧图像进行人脸图像的识别，可以实现对目标视频中出现的演员的识别。

在步骤102中，根据第一预设帧间隔，对目标视频进行划分，得到多个视频片断。

具体的，如前所述，视频流之所以可以由一帧帧的静态画面构成，主要是因为人眼对于快速变化的单幅静态画面的识别能力有限，因此由静态画面组成的视频，人眼看上去可以是平滑连续的视觉效果。因此，可以根据一定间隔区间内包含的静态画面数量，将目标视频划分为一个个的视频片断，并且从用户观看视频的观感效果来说，第一预设帧间隔可以以分钟为单位，如0.5分钟、1分钟，这样当从目标视频中提取出包含有用户喜爱演员出场的视频片断时，每段视频的流动性较好，没有一帧帧画面的跳跃感与突兀感。

在步骤103中，根据第二预设帧间隔，从每个视频片断中提取出第一帧图像。

具体的，即使将完整视频进行分段处理后，每段视频片断内包含的帧图像的数量依旧很大，如前所述一秒钟的视频中可以包含有几十帧的静态图像，若对每个视频片断中的每帧图像都进行人脸识别操作，运算量巨大，识别速率不高。因此，可以在每个视频片断中抽取出一些特定的帧图像，对这些特定的帧图像进行扫描，得到图像中所包含的人脸特征信息，对特定帧图像的提取可以根据处理器的处理性能进行划分，若处理器的处理性能高，第二预设帧间隔可以较小，由于第一帧图像中可能包含有人脸信息，也可能未包含人脸信息，若第二预设帧间隔小则提高了从视频片断中提取到包含有人脸信息的帧图像的几率。优选的，第一预设帧间隔大于第二预设帧间隔。

在步骤104中，检测第一帧图像中是否包含人脸信息，将包含有人脸信息的第一帧图像提取出来，得到第二人脸帧图像。

具体的，检测第一帧图像中是否包含人脸信息是指在该图像中以一定的策略进行搜索，以确定其中是否含有人脸信息，其中的人脸信息可以是单张人脸信息或多张人脸信息，并在该帧图像中对人脸信息出现的位置进行标定，以确认各个人脸信息在帧图像中的坐标位置。对第一帧图像进行筛选，将包含有人脸信息的第一帧图像提取出来，得到第二人脸帧图像。

在步骤105中，基于预设识别模型，对第二人脸帧图像中的人脸身份进行识别，确定第二人脸帧图像中包含的人脸标识。

具体的，现有技术中存在多种用于对图像中的人脸身份进行识别的算法，基于不同的算法，可以得到不同的识别模型，例如，采集大量人脸图片作为样本数据，利用人工神经网络对样本数据进行训练，得到具有人工智能学习能力的神经网络模型，再采用该训练好的人工神经网络模型对待识别的人脸图像进行识别，得到识别结果。该训练好的人工神经网络模型即为预设识别模型。对所有第二人脸帧图像进行预处理后，作为输入数据输入到该预设识别模型中，可以得到每张第二人脸帧图像中出现的人脸图像的识别结果，即得到第二人脸帧图像中包含的人脸标识，人脸标识可以为视频中演员的名字。

在步骤106中，根据人脸标识与第二人脸帧图像的对应关系，根据第二人脸帧图像与第二人脸帧图像所归属的视频片断的对应关系，形成人脸标识、第二人脸帧图像、视频片断的三方对应关系表。

具体的，通过该三方对应关系表，可以对某一特定人脸标识进行快速定位，以获取到包含有该特定人脸标识的视频片断，从而将这些包含有特定人脸标识的视频片断提取并连续播放，以达到用户仅观看自己喜爱演员出场的视频片断的目的。

本实施例中，通过获取目标视频；根据第一预设帧间隔，对目标视频进行划分，得到多个视频片断；根据第二预设帧间隔，从每个视频片断中提取出第一帧图像；检测第一帧图像中是否包含人脸信息，将包含有人脸信息的第一帧图像提取出来，得到第二人脸帧图像；基于预设识别模型，对第二人脸帧图像中的人脸身份进行识别，确定第二人脸帧图像中包含的人脸标识；根据人脸标识与第二人脸帧图像的对应关系，根据第二人脸帧图像与第二人脸帧图像所归属的视频片断的对应关系，形成人脸标识、第二人脸帧图像、视频片断的三方对应关系表。从而可以根据确定出的视频片断与人脸标识的对应关系，为用户推送仅包含有其所希望观看的演员出场的视频片断，该方法有效且快速实现人脸识别，人脸视频片断定位，提升用户观赏视频的用户体验。

图2是根据另一示例性实施例示出的一种视频识别方法的流程图，如图2所示，本实施例的视频处理方法可以应用于视频提供商的视频服务器中也可以应用于接收视频方的终端(客户端设备)中，以下以应用于视频服务器中来举例说明，本实施例的方法包括以下步骤：

在步骤201中，获取目标视频。

在步骤202中，根据第一预设帧间隔，对目标视频进行划分，得到多个视频片断。

在步骤203中，根据第二预设帧间隔，从每个视频片断中提取出第一帧图像。

其中，第一预设帧间隔大于第二预设帧间隔。优选的，第二预设帧间隔为5帧静态画面。

在步骤204中，检测第一帧图像中是否包含人脸信息，将包含有人脸信息的第一帧图像提取出来，得到第二人脸帧图像。

在步骤205中，从目标视频的描述信息中获取与目标视频对应的目标人脸标识。

具体的，描述信息指对于该目标视频的节目介绍，通常会包含视频中主要演员的演员表，该演员表中的演员名称可以被作为人脸标识，根据该人脸标识对目标视频进行识别，以确定哪些视频片断中包含该人脸标识。在一幅帧图像中，可能包含有多个人脸标识，对每个人脸标识均进行标定，相较于仅对图像中的指定人脸标识进行标定，两者的处理效率有很大的不同。因此，通过对目标人脸标识进行获取，可以加快在目标视频中定位目标人脸的效率。

在步骤206中，根据目标人脸标识从识别模型数库中调取与目标人脸标识对应的第一预设识别模型。

在步骤207中，基于第一预设识别模型，对第二人脸帧图像中的人脸身份进行识别，在第二人脸帧图像中确定第三人脸帧图像，第三人脸帧图像为包含有目标人脸标识的第二人脸帧图像。

具体的，第一预设识别模型为具有针对性的识别模型，其可以更有针对性地识别出给定的目标人脸。例如，用100位明星的10万张照片训练得到识别模型，训练后该识别模型可以对该100位明星的其他照片进行快速识别。也可以用10位明星或1位明星的10万或其他数量的照片训练得到相应的识别模型，通常来说，在相同训练条件下，识别模型所适用的范围越窄，其对人脸识别的准确度越高。因此，通过根据目标人脸标识从识别模型数库中调取与目标人脸标识对应的第一预设识别模型，并基于该特定的第一预设识别模型，对第二人脸帧图像中的人脸身份进行识别，从而可以在第二人脸帧图像中确定出包含目标人脸标识的第三人脸帧图像。从而使得对目标人脸的识别准确度提高。

在步骤208中，根据目标人脸标识与第三人脸帧图像的对应关系，根据第三人脸帧图像与第三人脸帧图像所归属的视频片断的对应关系，形成目标人脸标识、第三人脸帧图像、视频片断的三方对应关系表。

可选的，在步骤206、根据目标人脸标识从识别模型数库中调取与目标人脸标识对应的第一预设识别模型之前，还可以包括：

根据目标人脸标识，从图片数库中调取与目标人脸标识对应的目标人脸图片数据包；

采用目标人脸图片数据包作为训练样本，训练得到与目标人脸标识对应的第一预设识别模型。

具体的，目标人脸图片数据包中包含有预设数量的与该目标人脸标识对应的人脸图像，即训练样本；通常来说训练样本的数量越多训练得到的识别模型的识别准确率越高，但训练样本的具体数量还需要根据采用的算法属性而定。其中，训练算法可以采用深度卷积神经网络。

可选的，形成人脸标识、第二人脸帧图像、视频片断的三方对应关系表之后，还包括：

接收终端发送的视频推送请求，视频推送请求中包含：待推送的人脸标识；

根据待推送的人脸标识在三方对应关系表进行查找，将与待推送的人脸标识对应的视频片断推送给终端。

具体的，用户可以在终端(手机、PAD等)上安装适用于该视频识别方法的应用APP，输入其所希望观看的演员的名字，云端根据该演员的名字，在预先对目标视频分析得到的三方对应关系表中为用户确定与该演员名字对应的视频片断，并推送给终端，使用户可以仅观看该目标视频中有其喜爱演员出场的片断，提高观赏效果。

下面举例说明该视频识别方法对视频中特定演员的定位过程：请参照图3，在图3中，首先对目标视频(例如“奔跑吧兄弟”)进行视频片断划分，如图3中A1～A6所示，划分为6个视频片断；从该目标视频的描述信息中(如演职员介绍、影片介绍等)获取该目标视频中所包含的主要演员信息；(例如包含“杨颖”、“邓超”、“郑凯”等)；在数据库中调取与演员标识对应的人脸图片数据包，例如调取有关“杨颖”的海量图片；将有关“杨颖”的海量图片作为训练样本，训练得到能够识别目标人脸是否为“杨颖”的识别模型。由于每个视频片断是由一个个的帧图像构成，且通常来说一秒钟的视频中就包含了几十帧，根据视频的清晰度不同，高清视频中包含的帧图像数量更多，因此若对目标视频中的每帧图像进行人脸检测，浪费资源，且效率不高；同时对于用户来说观看自己喜欢演员的出场画面，以分钟为截断单位比较合理，以秒进行视频跳转，影响观看感受。因此，视频片断的长度优选的可以定位在半分钟、一分钟。对于从视频片断中提取出的用于检测人脸信息的第一帧图像也不必每帧必检，可以采用预设步长的第二预设帧间隔进行提取并检测。如图3中B所示，每个视频片断中提取出一定数量的帧图像作为待检测的第一帧图像B。对提取出的第一帧图像B进行人脸检测，检测算法可以采用AdaBoost迭代算法，该算法可以有效提高人脸图像的检出效率，同时提高检测的准确性。如图3中C所示，将第一帧图像B中检出包含人脸图像的第二人脸帧图像C提取出来，用于进行人脸识别。将第二人脸帧图像C分别输入到之前得到的“杨颖”、“邓超”、“郑凯”各自的识别模型中进行识别，得到如图3所示的第三人脸帧图像D1、D2、D3、D4，其中D1中包含“杨颖”、D2中包含“邓超”、D3中包含“杨颖”和“邓超”、D4中包含“邓超”、“郑凯”等识别结果。如表1所示：确定出第三人脸帧图像与视频片断的对应关系，形成目标人脸标识、第三人脸帧图像与视频片断的三方对应关系表。

表1、目标人脸标识、第三人脸帧图像与视频片断的三方对应关系表

若接收到用户选择观看有“杨颖”出现的视频片断的推送请求，则可以为其连续播放A2和A3视频片断，从而快速为用户定位到其所希望看到的演员的视频。

综上，本实施例通过对视频进行片断划分，并在划分后的视频片断中，针对特定人脸进行特定人脸识别模型建立，并基于该特定人脸识别模型对各个视频片断中的特定人脸进行识别，有效提高识别效率，可以为用户快速推送仅包含有其所希望观看的演员出场的视频片断，该方法有效且快速实现人脸识别，人脸视频片断定位，提升用户观赏视频的用户体验。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图4是根据一示例性实施例示出的一种视频识别装置的流程图，如图4所示，该视频识别装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该视频处理装置可以包括：

第一获取模块41，用于获取目标视频。第一划分模块42，用于根据第一预设帧间隔，对目标视频进行划分，得到多个视频片断。第二划分模块43，用于根据第二预设帧间隔，从每个视频片断中提取出第一帧图像。检测模块44，用于检测第一帧图像中是否包含人脸信息，将包含有人脸信息的第一帧图像提取出来，得到第二人脸帧图像。识别模块45，用于基于预设识别模型，对第二人脸帧图像中的人脸身份进行识别，确定第二人脸帧图像中包含的人脸标识。匹配模块46，用于根据人脸标识与第二人脸帧图像的对应关系，根据第二人脸帧图像与第二人脸帧图像所归属的视频片断的对应关系，形成人脸标识、第二人脸帧图像、视频片断的三方对应关系表。

图5是根据另一示例性实施例示出的一种视频识别装置的流程图，该视频识别装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。基于上述装置实施例，第一预设帧间隔大于第二预设帧间隔。

可选的，该视频识别装置还包括：

第二获取模块47，用于从目标视频的描述信息中获取与目标视频对应的目标人脸标识。

相应的，识别模块45包括：

调取子模块451，用于根据目标人脸标识从识别模型数库中调取与目标人脸标识对应的第一预设识别模型。

识别子模块452，用于基于第一预设识别模型，对第二人脸帧图像中的人脸身份进行识别。

确定子模块453，用于在第二人脸帧图像中确定第三人脸帧图像，第三人脸帧图像为包含有目标人脸标识的第二人脸帧图像。

相应的，匹配模块46，具体用于根据目标人脸标识与第三人脸帧图像的对应关系，根据第三人脸帧图像与第三人脸帧图像所归属的视频片断的对应关系，形成目标人脸标识、第三人脸帧图像、视频片断的三方对应关系表。

可选的，该视频识别装置还包括：

图片获取模块48，用于根据目标人脸标识，从图片数库中调取与目标人脸标识对应的目标人脸图片数据包。

训练模块49，用于采用目标人脸图片数据包作为训练样本，训练得到与目标人脸标识对应的第一预设识别模型。

可选的，该视频识别装置还包括：

接收模块50，用于接收终端发送的视频推送请求，视频推送请求中包含：待推送的人脸标识。

查找模块51，用于根据待推送的人脸标识在三方对应关系表进行查找，将与待推送的人脸标识对应的视频片断推送给终端。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频识别方法，其特征在于，所述方法包括：

获取目标视频；

2.根据权利要求1所述的方法，其特征在于，所述第一预设帧间隔大于所述第二预设帧间隔。

3.根据权利要求1所述的方法，其特征在于，所述基于预设识别模型，对所述第二人脸帧图像中的人脸身份进行识别，确定所述第二人脸帧图像中包含的人脸标识之前，还包括：

从所述目标视频的描述信息中获取与所述目标视频对应的目标人脸标识；

相应的，所述基于预设识别模型，对所述第二人脸帧图像中的人脸身份进行识别，确定所述第二人脸帧图像中包含的人脸标识包括：

根据所述目标人脸标识从识别模型数库中调取与所述目标人脸标识对应的第一预设识别模型，基于所述第一预设识别模型，对所述第二人脸帧图像中的人脸身份进行识别，在所述第二人脸帧图像中确定第三人脸帧图像，所述第三人脸帧图像为包含有所述目标人脸标识的第二人脸帧图像；

相应的，所述根据所述人脸标识与所述第二人脸帧图像的对应关系，根据所述第二人脸帧图像与所述第二人脸帧图像所归属的视频片断的对应关系，形成所述人脸标识、所述第二人脸帧图像、所述视频片断的三方对应关系表包括：

根据所述目标人脸标识与所述第三人脸帧图像的对应关系，根据所述第三人脸帧图像与所述第三人脸帧图像所归属的视频片断的对应关系，形成所述目标人脸标识、所述第三人脸帧图像、所述视频片断的三方对应关系表。

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标人脸标识从识别模型数库中调取与所述目标人脸标识对应的第一预设识别模型之前，还包括：

根据所述目标人脸标识，从图片数库中调取与所述目标人脸标识对应的目标人脸图片数据包；

采用所述目标人脸图片数据包作为训练样本，训练得到与所述目标人脸标识对应的所述第一预设识别模型。

5.根据权利要求1～4任一项所述的方法，其特征在于，所述形成所述人脸标识、所述第二人脸帧图像、所述视频片断的三方对应关系表之后，还包括：

接收终端发送的视频推送请求，所述视频推送请求中包含：待推送的人脸标识；

根据所述待推送的人脸标识在所述三方对应关系表进行查找，将与所述待推送的人脸标识对应的视频片断推送给所述终端。

6.一种视频识别装置，其特征在于，所述装置包括：

第一获取模块，用于获取目标视频；

7.根据权利要求6所述的装置，其特征在于，所述第一预设帧间隔大于所述第二预设帧间隔。

8.根据权利要求6所述的装置，其特征在于，还包括：

第二获取模块，用于从所述目标视频的描述信息中获取与所述目标视频对应的目标人脸标识；

相应的，所述识别模块包括：

调取子模块，用于根据所述目标人脸标识从识别模型数库中调取与所述目标人脸标识对应的第一预设识别模型；

识别子模块，用于基于所述第一预设识别模型，对所述第二人脸帧图像中的人脸身份进行识别；

确定子模块，用于在所述第二人脸帧图像中确定第三人脸帧图像，所述第三人脸帧图像为包含有所述目标人脸标识的第二人脸帧图像；

相应的，所述匹配模块，具体用于根据所述目标人脸标识与所述第三人脸帧图像的对应关系，根据所述第三人脸帧图像与所述第三人脸帧图像所归属的视频片断的对应关系，形成所述目标人脸标识、所述第三人脸帧图像、所述视频片断的三方对应关系表。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

图片获取模块，用于根据所述目标人脸标识，从图片数库中调取与所述目标人脸标识对应的目标人脸图片数据包；

训练模块，用于采用所述目标人脸图片数据包作为训练样本，训练得到与所述目标人脸标识对应的所述第一预设识别模型。

10.根据权利要求6～9任一项所述的装置，其特征在于，所述装置还包括：

接收模块，用于接收终端发送的视频推送请求，所述视频推送请求中包含：待推送的人脸标识；

查找模块，用于根据所述待推送的人脸标识在所述三方对应关系表进行查找，将与所述待推送的人脸标识对应的视频片断推送给所述终端。