CN105354543A

CN105354543A - 视频处理方法及装置

Info

Publication number: CN105354543A
Application number: CN201510719389.XA
Authority: CN
Inventors: 张涛; 陈志军; 汪平仄
Original assignee: Xiaomi Inc
Current assignee: Beijing Xiaomi Technology Co Ltd; Xiaomi Inc
Priority date: 2015-10-29
Filing date: 2015-10-29
Publication date: 2016-02-24

Abstract

本公开是关于一种视频处理方法及装置，其中方法是通过对待处理目标视频中的检测帧进行人脸检测，定位检测帧中的人脸图像；再通过基于检测得到的人脸信息对待处理目标视频中的跟踪帧进行人脸跟踪，确定跟踪帧中是所包含的人脸信息；将包含有人脸信息的检测帧和跟踪帧从目标视频中提取出来，并基于预先得到的识别模型，对提取出的待识别帧图像进行人脸识别，并对识别结果进行筛选，得到最终人脸识别结果。从而实现了将最终人脸识别结果向用户显示，以提示用户视频中所出现演员的信息，该方法有效提高人脸识别效率。

Description

视频处理方法及装置

技术领域

本公开涉及图像处理技术领域，尤其涉及一种视频处理方法及装置。

背景技术

随着智能终端的普及程度越来越高，娱乐文化产业的蓬勃发展，用户可以随时随地利用智能终端欣赏到丰富多彩的视频节目。

用户观看视频节目的初衷往往是由于对某些娱乐明星、演员的个人喜好，从用户感受的角度来说，用户一般会希望尽可能多的找到与自己喜好的明星有关的视频节目。

然而目前的视频节目，若视频介绍中提供了演职员信息，则用户可以知道视频中是否包含自己喜爱的演员；若视频介绍中没有提供演职员信息，则用户无法获知视频中是否存在自己喜爱的演员。此外，对于很多观众来说，仅通过演职员信息中的演员名字很难将名字与演员的面孔对号入座。

发明内容

本公开提供一种视频处理方法及装置，通过对构成视频的各个帧图像进行人脸图像的提取，并基于识别模型自动对视频中的人脸进行识别，实现提示用户视频中所出现演员的信息，该方法能够有效提高人脸识别效率。

为克服相关技术中存在的问题，本公开提供一种视频处理方法及装置，所述技术方案如下：

根据本公开实施例的第一方面，提供一种视频处理方法，包括：

获取待处理的目标视频，所述目标视频中包含：检测帧和跟踪帧；

对所述检测帧进行人脸检测，获取所述检测帧中所包含的人脸图像的检测数据；所述检测数据包含：区分不同人脸图像的人脸标识；

根据所述人脸标识，对所述跟踪帧进行人脸跟踪，确定所述跟踪帧中是否包含与所述人脸标识对应的人脸图像；

从所述检测帧和所述跟踪帧中提取包含有所述人脸标识的帧，得到待识别帧图像；

基于预先得到的识别模型，对所述待识别帧图像进行人脸识别，得到每帧中人脸图像的人脸识别结果；

对所述待识别帧图像的所有人脸识别结果进行筛选，得到所述目标视频中出现的人脸图像的最终识别结果。

进一步地，所述检测帧为对所述目标视频进行预设间隔划分后，各个划分点所对应的帧；

所述跟踪帧为所述目标视频中除去所述检测帧外的视频帧。

进一步地，所述对所述检测帧进行人脸检测，获取所述检测帧中所包含的人脸图像的检测数据，包括：

按时间先后的顺序，对所述目标视频中的当前检测帧进行人脸检测，获取所述当前检测帧中所包含的人脸图像的检测数据；所述检测数据包含：当前检测帧对应的人脸标识；

所述方法还包括：将所述当前检测帧对应的人脸标识与已获取的人脸标识进行比对，将新增加的人脸标识进行存储，得到待跟踪人脸标识；

相应的，所述根据所述人脸标识，对所述跟踪帧进行人脸跟踪，确定所述跟踪帧中是否包含与所述人脸标识对应的人脸图像，包括：

根据已存储的所述待跟踪人脸标识对所述当前检测帧与下一个检测帧之间的所述跟踪帧进行人脸跟踪，确定所述跟踪帧中是否包含与所述待跟踪人脸标识对应的人脸图像；

更新所述下一个检测帧为所述当前检测帧，返回执行所述对所述目标视频中的当前检测帧进行人脸检测的步骤。

对所述目标视频中的所有检测帧进行人脸检测，获取所述所有检测帧中所包含的人脸图像的检测数据；所述检测数据包含：与所述所有检测帧对应的所有的人脸标识；

根据所述所有的人脸标识，对所述跟踪帧进行人脸跟踪，确定所述跟踪帧中是否包含与所述所有的人脸标识对应的人脸图像。

进一步地，所述方法还包括：

采用预设数量人脸图像的训练样本对深度卷积神经网络进行训练，得到所述预先得到的识别模型。

进一步地，所述采用预设数量人脸图像的训练样本对所述深度卷积神经网络进行训练，得到所述预先得到的识别模型，包括：

对所述训练样本进行归一化处理，得到标准尺寸的样本数据；

对所述标准尺寸的样本数据进行计算，得到ZCA矩阵和均值矩阵；

基于所述ZCA矩阵和均值矩阵，对所述训练样本进行预处理，得到预处理后的输入数据；所述预处理包括：ZCA白化处理；

将所述输入数据输入所述深度卷积神经网络中进行训练，得到训练完毕的所述预先得到的识别模型。

进一步地，所述基于预先得到的识别模型，对所述待识别帧图像进行人脸识别，得到每帧中人脸图像的人脸识别结果，包括：

对所述待识别帧图像进行预处理，得到归一化待识别人脸图像；

将所述归一化待识别人脸图像输入到所述预先得到的识别模型中，进行特征提取，得到对应于每个待识别帧图像的待识别人脸的高维特征向量；

利用预存的参照人脸的线性判别式分析LDA投影矩阵对所述待识别人脸的高维特征向量进行降维处理，得到待识别人脸的降维特征向量；

对所述待识别人脸的降维特征向量进行余弦距离度量，将所述度量后的结果与预设阈值进行比较；

若所述度量后的结果大于所述预设阈值，识别所述待识别帧图像与人脸数据库中预存的参照人脸特征相匹配；

若所述度量后的结果小于等于所述预设阈值，识别所述待识别帧图像与人脸数据库中预存的参照人脸特征不匹配。

进一步地，所述人脸数据库中预存有参照人脸的人脸特征数据，所述参照人脸的人脸特征数据包括：所述参照人脸的LDA投影矩阵；所述方法还包括：

对所述参照人脸的参照人脸图像进行预处理，得到归一化参照人脸图像；

将所述归一化参照人脸图像输入到所述预先得到的识别模型中，进行特征提取，得到对应于每个所述参照人脸图像的高维特征向量；

对所述参照人脸图像的高维特征向量进行LDA训练，得到参照人脸图像的降维特征向量；

根据所述参照人脸图像的降维特征向量，生成所述参照人脸的LDA投影矩阵。

进一步地，所述对所述检测帧进行人脸检测包括：

采用AdaBoost迭代算法对所述检测帧进行人脸检测。

进一步地，所述预设间隔为预设等间隔或预设不等间隔。

根据本公开实施例的第二方面，提供一种视频处理装置，包括：

第一获取模块，用于获取待处理的目标视频，所述目标视频中包含：检测帧和跟踪帧；

检测模块，用于对所述第一获取模块获取到的所述检测帧进行人脸检测；

第二获取模块，用于获取所述检测模块检测到的所述检测帧中所包含的人脸图像的检测数据；所述检测数据包含：区分不同人脸图像的人脸标识；

跟踪模块，用于根据所述人脸标识，对所述跟踪帧进行人脸跟踪；

确定模块，用于确定所述跟踪模块跟踪的所述跟踪帧中是否包含与所述人脸标识对应的人脸图像；

提取模块，用于从所述检测帧和所述跟踪帧中提取包含有所述人脸标识的帧，得到待识别帧图像；

识别模块，用于基于预先得到的识别模型，对所述待识别帧图像进行人脸识别，得到每帧中人脸图像的人脸识别结果；

筛选模块，用于对所述待识别帧图像的所有人脸识别结果进行筛选，得到所述目标视频中出现的人脸图像的最终识别结果。

所述跟踪帧为所述目标视频中除去所述检测帧外的视频帧。

进一步地，所述检测模块包括：第一检测子模块；

所述第一检测子模块，用于按时间先后的顺序，对所述目标视频中的当前检测帧进行人脸检测；

所述第二获取模块包括：第一获取子模块；

所述第一获取子模块，用于获取所述当前检测帧中所包含的人脸图像的检测数据；所述检测数据包含：当前检测帧对应的人脸标识；

所述装置还包括：

存储模块，用于将所述当前检测帧对应的人脸标识与已获取的人脸标识进行比对，将新增加的人脸标识进行存储，得到待跟踪人脸标识；

相应的，所述跟踪模块包括：第一跟踪子模块；

所述第一跟踪子模块，用于根据所述存储模块已存储的所述待跟踪人脸标识对所述当前检测帧与下一个检测帧之间的所述跟踪帧进行人脸跟踪，确定所述跟踪帧中是否包含与所述待跟踪人脸标识对应的人脸图像；

更新模块，用于更新所述下一个检测帧为所述当前检测帧，返回所述第一检测子模块。

进一步地，所述检测模块包括：第二检测子模块；

所述第二检测子模块，用于对所述目标视频中的所有检测帧进行人脸检测；

所述第二获取模块包括：第二获取子模块；

所述第二获取子模块，用于获取所述所有检测帧中所包含的人脸图像的检测数据；所述检测数据包含：与所述所有检测帧对应的所有的人脸标识；

相应的，所述跟踪模块包括：第二跟踪子模块；

所述第二跟踪子模块，用于根据所述所有的人脸标识，对所述跟踪帧进行人脸跟踪，确定所述跟踪帧中是否包含与所述所有的人脸标识对应的人脸图像。

进一步地，所述装置还包括：

训练模块，用于采用预设数量人脸图像的训练样本对所述识别模块采用的深度卷积神经网络进行训练，得到所述预先得到的识别模型。

进一步地，所述训练模块包括：

第一归一化子模块，用于对所述训练样本进行归一化处理，得到标准尺寸的样本数据；

计算子模块，用于对所述标准尺寸的样本数据进行计算，得到ZCA矩阵和均值矩阵；

预处理子模块，用于基于所述ZCA矩阵和均值矩阵，对所述训练样本进行预处理，得到预处理后的输入数据；所述预处理包括：ZCA白化处理；

训练子模块，用于将所述输入数据输入所述深度卷积神经网络中进行训练，得到训练完毕的所述预先得到的识别模型。

进一步地，所述识别模块包括：

第二归一化子模块，用于对所述待识别帧图像进行预处理，得到归一化待识别人脸图像；

特征提取子模块，用于将从所述第二归一化子模块得到的所述归一化待识别人脸图像输入到所述预先得到的识别模型中，进行特征提取，得到对应于每个待识别帧图像的待识别人脸的高维特征向量；

降维处理子模块，用于利用预存的参照人脸的线性判别式分析LDA投影矩阵对所述待识别人脸的高维特征向量进行降维处理，得到待识别人脸的降维特征向量；

度量子模块，用于对所述待识别人脸的降维特征向量进行余弦距离度量；

比较子模块，用于将所述度量子模块度量得到的所述度量后的结果与预设阈值进行比较；

识别子模块，用于在所述度量后的结果大于所述预设阈值的情况下，识别所述待识别帧图像与人脸数据库中预存的参照人脸特征相匹配；在所述度量后的结果小于等于所述预设阈值的情况下，识别所述待识别帧图像与人脸数据库中预存的参照人脸特征不匹配。

进一步地，所述人脸数据库中预存有参照人脸的人脸特征数据，所述参照人脸的人脸特征数据包括：所述参照人脸的LDA投影矩阵；所述装置还包括：

归一化模块，用于对所述参照人脸的参照人脸图像进行预处理，得到归一化参照人脸图像；

特征提取模块，用于将所述归一化参照人脸图像输入到所述预先得到的识别模型中，进行特征提取，得到对应于每个所述参照人脸图像的高维特征向量；

降维处理模块，用于对所述参照人脸图像的高维特征向量进行LDA训练，得到参照人脸图像的降维特征向量；

生成模块，用于根据所述参照人脸图像的降维特征向量，生成所述参照人脸的LDA投影矩阵。

进一步地，所述检测模块包括：第三检测子模块；

所述第三检测子模块，用于采用AdaBoost迭代算法对所述检测帧进行人脸检测。

进一步地，所述预设间隔为预设等间隔或预设不等间隔。

根据本公开实施例的第三方面，提供一种视频处理装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器用于：

本公开的实施例提供的方法及装置可以包括以下有益效果：

(1)在一个实施例中，通过对待处理目标视频中的检测帧进行人脸检测，定位检测帧中的人脸图像；再通过基于检测得到的人脸信息对待处理目标视频中的跟踪帧进行人脸跟踪，确定跟踪帧中是所包含的人脸信息；将包含有人脸信息的检测帧和跟踪帧从目标视频中提取出来，并基于预先得到的识别模型，对提取出的待识别帧图像进行人脸识别，并对识别结果进行筛选，得到最终人脸识别结果。从而实现了将最终人脸识别结果向用户显示，以提示用户视频中所出现演员的信息，该方法有效提高人脸识别效率。

(2)在另一个实施例中，通过将目标视频划分为检测帧和跟踪帧，其中，检测帧为对目标视频进行预设间隔划分后，各个划分点所对应的帧；跟踪帧为目标视频中除去检测帧外的视频帧。从而对目标视频进行全面的人脸图像定位，为识别提供尽可能多的待识别数据，提高识别的精准性。

(3)在另一个实施例中，对目标视频中包含有人脸图像的帧图像的提取可以采取下面的方式：通过按时间先后的顺序，对目标视频中的当前检测帧进行人脸检测，获取当前检测帧中所包含的人脸图像，并以人脸标识进行标定；再将当前检测帧对应的人脸标识与已获取的人脸标识进行比对，将新增加的人脸标识进行存储，得到待跟踪人脸标识；根据已存储的待跟踪人脸标识对当前检测帧与下一个检测帧之间的跟踪帧进行人脸跟踪，确定跟踪帧中是否包含与待跟踪人脸标识对应的人脸图像；再更新下一个检测帧为当前检测帧，返回执行对目标视频中的当前检测帧进行人脸检测的步骤。从而在目标视频中以各个帧出现的先后顺序逐帧进行检测或跟踪，使得人脸图像的定位筛选过程简单、快速，提高人脸图像定位筛选的效率。

(4)在另一个实施例中，对目标视频中包含有人脸图像的帧图像的提取可以采取下面的方式：对目标视频中的所有检测帧进行人脸检测，获取所有检测帧中所包含的人脸图像的检测数据；检测数据包含：与所有检测帧对应的所有的人脸标识；根据所有的人脸标识，对跟踪帧进行人脸跟踪，确定跟踪帧中是否包含与所有的人脸标识对应的人脸图像。从而根据从全部检测帧中定位出的人脸标识信息对所有跟踪帧进行人脸图像跟踪，可以从目标视频中定位出尽可能多的人脸图像，为后续的识别过程提供尽可能多的待识别数据，有助于提高识别的精准性。

(5)在另一个实施例中，识别模型采用深度卷积神经网络，并采用预设数量人脸图像的训练样本对该深度卷积神经网络进行训练，得到用于识别人脸图像的识别模型。该训练过程和训练算法可以有效提高人脸图像识别的准确度。

(6)在另一个实施例中，对训练样本进行归一化处理，得到标准尺寸的样本数据；对标准尺寸的样本数据进行计算，得到ZCA矩阵和均值矩阵；基于ZCA矩阵和均值矩阵，对训练样本进行预处理，得到预处理后的输入数据；预处理包括：ZCA白化处理；将输入数据输入深度卷积神经网络中进行训练，得到训练完毕的预先得到的识别模型。通过上述一系列的训练过程，得到识别准确度高的识别模型，使该识别模型具备较强的人工智能识别能力。

(7)在另一个实施例中，对待识别帧图像进行预处理，得到归一化待识别人脸图像；将归一化待识别人脸图像输入到预先得到的识别模型中，进行特征提取，得到对应于每个待识别帧图像的待识别人脸的高维特征向量；利用预存的参照人脸的线性判别式分析LDA投影矩阵对待识别人脸的高维特征向量进行降维处理，得到待识别人脸的降维特征向量；对待识别人脸的降维特征向量进行余弦距离度量，将度量后的结果与预设阈值进行比较；若度量后的结果大于预设阈值，识别待识别帧图像与人脸数据库中预存的参照人脸特征相匹配；若度量后的结果小于等于预设阈值，识别待识别帧图像与人脸数据库中预存的参照人脸特征不匹配。该识别过程简单、快速，可以有效提高识别的精准性。

(8)在另一个实施例中，人脸数据库中预存有参照人脸的人脸特征数据，参照人脸的人脸特征数据包括：参照人脸的LDA投影矩阵；对参照人脸的参照人脸图像进行预处理，得到归一化参照人脸图像；将归一化参照人脸图像输入到预先得到的识别模型中，进行特征提取，得到对应于每个参照人脸图像的高维特征向量；对参照人脸图像的高维特征向量进行LDA训练，得到参照人脸图像的降维特征向量；根据参照人脸图像的降维特征向量，生成参照人脸的LDA投影矩阵。通过利用训练好的识别模型对参照人脸进行人脸特征识别，使得参照人脸的特征数据可靠、有效，具有参考价值，为后续的待识别人脸图像提供了准确可靠的参照标准。

(9)在另一个实施例中，采用AdaBoost迭代算法对检测帧进行人脸检测，其中，AdaBoost是英文"AdaptiveBoosting"自适应增强的缩写，是一种机器学习方法，能够准确检测得到人脸图像的坐标位置，为后续的图像尺寸归一化提供方便。

(10)在另一个实施例中，预设间隔可以设置为预设等间隔或预设不等间隔，从而可以根据人脸图像的检出情况灵活标定目标视频中的检测帧的数量，以间接提高识别的精准度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种视频处理方法的流程图；

图2是根据另一示例性实施例示出的一种视频处理方法的流程图；

图3是根据另一示例性实施例示出的一种视频处理方法的流程图；

图4是根据一示例性实施例示出的一种视频处理装置的流程图；

图5是根据另一示例性实施例示出的一种视频处理装置的流程图；

图6是根据一示例性实施例示出的一种视频处理装置600的框图；

图7是根据一示例性实施例示出的一种视频处理装置700的框图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在具体介绍本公开各实施例前，首先对本公开的主要思路进行概要说明：为了对视频中出现的演员进行自动识别，需要从视频中提取帧图像，并进一步提取出包含有人脸图像的帧图像，再对这些帧图像利用预设算法进行人脸图像识别，识别出视频中的演员信息。具体来说，本公开实施例基于预先得到的识别模型、人脸检测及跟踪技术来确定视频中的演员信息，进而将识别出的演员信息向观看视频的用户呈现。

图1是根据一示例性实施例示出的一种视频处理方法的流程图，如图1所示，本实施例的视频处理方法可以应用于视频提供商的视频服务器中也可以应用于接收视频方的终端(客户端设备)中，以下以应用于视频服务器中来举例说明，本实施例的方法包括以下步骤：

该视频处理方法包括以下步骤：

在步骤101中，获取待处理的目标视频，目标视频中包含：检测帧和跟踪帧。

具体的，目标视频可以为一部节目的完整视频，或部分视频。目标视频是由一帧一帧的静态图像连接而成，通过对构成目标视频的帧图像进行人脸图像的识别，可以实现对目标视频中出现的演员的识别。但是通常一秒钟的视频中就会包含几十帧的图像信息，若对目标视频中的每帧图像都进行人脸识别操作，运算量巨大，识别效率不高。因此，可以在目标视频中抽取出一些特定的帧图像，对这些抽取出的特定帧图像进行扫描，得到图像中所包含的人脸特征信息，这些被扫描的帧图像就是检测帧；对于那些没有进行扫描检测的帧图像，可以采用特征跟踪的方式，在跟踪帧中查找之前在检测帧中扫描得到的人脸特征。从而可以得到目标视频中包含有人脸图像的帧信息，为下面的人脸识别做准备。

在步骤102中，对检测帧进行人脸检测，获取检测帧中所包含的人脸图像的检测数据。

具体的，通过对检测帧进行扫描，判断该检测帧中是否存在人脸信息。若存在，记录人脸图像的检测数据，检测数据包含：区分不同人脸图像的人脸标识。在一帧图像中有可能包含单人的人脸信息，也有可能包含多人的人脸信息，通过人脸标识可以有效区分扫描出的不同人脸。

在步骤103中，根据人脸标识，对跟踪帧进行人脸跟踪，确定跟踪帧中是否包含与人脸标识对应的人脸图像。

具体的，如前所述，根据检测帧中扫描得到的人脸特征，基于人脸标识在跟踪帧中追踪是否存在检测帧中出现过的人脸。

在步骤104中，从检测帧和跟踪帧中提取包含有人脸标识的帧，得到待识别帧图像。

具体的，当在检测帧和跟踪帧中找到人脸图像，则将包含有人脸图像的检测帧和跟踪帧从目标视频中提取出来，作为识别人脸图像所对应人脸身份的待识别帧图像。

在步骤105中，基于预先得到的识别模型，对待识别帧图像进行人脸识别，得到每帧中人脸图像的人脸识别结果。

具体的，现有技术中存在多种用于图像识别的算法，基于不同的算法，可以预先计算得到用于特定场景下的图像识别模型，例如，可以利用人工神经网络对样本图像数据进行训练，得到具有人工智能学习能力的神经网络模型，再采用该训练好的人工神经网络模型对待识别图像进行识别，得到识别结果。本实施例中的特定场景，是对图像中的人脸进行身份识别，识别模型的功能就是对输入的未知人脸图像进行计算，得到该未知人脸图像所对应人物的身份信息。

在步骤106中，对待识别帧图像的所有人脸识别结果进行筛选，得到目标视频中出现的人脸图像的最终识别结果。

具体的，对每帧待识别图像中的人脸识别结果进行记录，然后，按照一定的规则进行筛选，例如同一人脸标识识别出不同的识别结果；例如人脸标识A对应的识别结果有人物B和人物C，则可以根据B和C的识别结果的数量进行排序，排名第一的为最终的人脸标识A对应的人物识别结果；或者，同一识别结果对应不同的人脸标识；例如识别结果为演员D，但其所对应的人脸标识有E和F，则也可以根据人脸标识E和F的数量进行排序，取排名第一的人脸标识为与演员D对应的人脸标识。

本实施例中，通过对待处理目标视频中的检测帧进行人脸检测，定位检测帧中的人脸图像；再通过基于检测得到的人脸信息对待处理目标视频中的跟踪帧进行人脸跟踪，确定跟踪帧中是否所包含的人脸信息；将包含有人脸信息的检测帧和跟踪帧从目标视频中提取出来，并基于预先得到的识别模型，对提取出的待识别帧图像进行人脸识别，并对识别结果进行筛选，得到最终人脸识别结果。从而实现了将最终人脸识别结果向用户显示，以提示用户视频中所出现演员的信息，该方法有效提高人脸识别效率。

图2是根据另一示例性实施例示出的一种视频处理方法的流程图，如图2所示，本实施例的视频处理方法可以应用于视频提供商的视频服务器中也可以应用于接收视频方的终端(客户端设备)中，以下以应用于视频服务器中来举例说明，本实施例的方法包括以下步骤：

在步骤201中，获取待处理的目标视频，目标视频中包含：检测帧和跟踪帧。

可选的，检测帧为对目标视频进行预设间隔划分后，各个划分点所对应的帧；跟踪帧为目标视频中除去检测帧外的视频帧。该预设间隔可以为预设等间隔或预设不等间隔；若为预设等间隔，优选的，间隔帧数为5帧。

具体的，可以根据各个检测帧中的人脸图像检出率自适应地调整各个检测帧的间隔，以提供尽可能丰富的包含人脸图像的待识别帧图像。

在步骤202中，按时间先后的顺序，对目标视频中的当前检测帧进行人脸检测，获取当前检测帧中所包含的人脸图像的检测数据。

可选的，对检测帧进行人脸检测可以包括：采用AdaBoost迭代算法对检测帧进行人脸检测。检测数据包含：区分不同人脸图像的人脸标识，具体包含：当前检测帧对应的人脸标识。

具体的，AdaBoost迭代算法的核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。从而排除一些不必要的训练数据特征，仅保留关键的训练数据，进行有效提高人脸图像的检出效率，同时提高检测的准确性。

在步骤203中，将当前检测帧对应的人脸标识与已获取的人脸标识进行比对，将新增加的人脸标识进行存储，得到待跟踪人脸标识。

具体的，通过对各个检测帧不断的检测，逐渐丰富人脸标识的个数，例如在当前检测帧中扫描出人脸甲，在下一个检测帧中扫描出人脸甲和人脸乙，则待跟踪人脸标识就有甲和乙，对之后的跟踪帧就可以跟踪甲和乙两张人脸图像。

在步骤204中，根据已存储的待跟踪人脸标识对当前检测帧与下一个检测帧之间的跟踪帧进行人脸跟踪，确定跟踪帧中是否包含与待跟踪人脸标识对应的人脸图像。

在步骤205中，更新下一个检测帧为当前检测帧，返回执行步骤202的方法。

具体的，例如针对一段目标视频，对目标视频的第一帧图像，采用Adaboost技术进行人脸检测，若该第一帧图像中有人脸图像，则记录该人脸图像的检测数据，若不包含人脸图像，可以继续检测第二帧图像，直到按照视频帧的先后顺序，找到第一个包含有人脸图像的帧图像，记录扫描该帧图像后得到的人脸检测数据，例如，人脸标识、该人脸图像的位置信息等。以该包含有人脸图像的视频帧作为首帧，对该首帧后的第二帧图像，不进行人脸检测，只采用粒子滤波技术进行人脸跟踪，如果该第二帧图像存在人脸图像，则进行人脸跟踪，若该第二帧图像不存在人脸图像，则不进行处理。随后可以每间隔5帧，重新启动一下人脸检测，这样可以保证新进来的人脸图像不会被漏掉。除上述方法外，也可以以目标视频的第一帧图像作为首帧，不论其内是否包含有人脸图像，按照预设的检测帧的间隔次序进行帧图像的扫描检测，然后带着逐渐扫描得到的越来越丰富的人脸检测数据对两个检测帧之间的各个跟踪帧进行人脸跟踪。

在步骤206中，从检测帧和跟踪帧中提取包含有人脸标识的帧，得到待识别帧图像。

具体的，在上述步骤202至步骤205的检测和跟踪过程中，记录下所有人脸图像出现的帧数。累计出现帧数大于一定值时，譬如好几分钟的视频，可以收集大概几百帧以上的人脸图像，将这些帧存储下来，这些帧就是待识别帧图像，之后可以采用预先得到的识别模型和人脸数据库中收集的明星人脸对这些待识别帧图像进行比对和识别。

在步骤207中，基于预先得到的识别模型，对待识别帧图像进行人脸识别，得到每帧中人脸图像的人脸识别结果。

具体的，识别模型可以为深度卷积神经网络。则该方法还包括：采用预设数量人脸图像的训练样本对深度卷积神经网络进行训练，得到预先得到的识别模型。

深度学习(DeepLearning)是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。深度学习的概念由Hinton等人于2006年提出。基于深信度网(DBN)提出非监督贪心逐层训练算法，为解决深层结构相关的优化难题带来希望，随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法，它利用空间相对关系减少参数数目以提高训练性能。

卷积神经网络(ConvolutionalNeuralNetworks，简称：CNN)是人工神经网络的一种，深度卷积神经网络就是一种深度的监督学习下的机器学习模型，已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。当网络的输入是多维图像时，该优点表现得更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。

可选的，预设数量人脸图像的训练样本可以由M类人脸图像，每类人脸图像由N张人脸图像构成；其中M、N为自然数。

例如，在采用训练样本对深度卷积神经网络进行训练的阶段，可以准备大量的人脸图像数据。并对这些人脸图像进行标识标定。譬如：张三的所有人脸图像的标号都为1；李四的所有人脸图像的标号都为2；然后准备譬如20000类的人脸图像接近60万张；相当于20000个人，每个人的人脸图像30张。此时，M为20000；N为30；预设数量人脸图像的训练样本为60万张人脸图像。

可选的，该预先得到的识别模型可以通过以下步骤获取得到，包括：对训练样本进行归一化处理，得到标准尺寸的样本数据；对标准尺寸的样本数据进行计算，得到ZCA矩阵和均值矩阵；基于ZCA矩阵和均值矩阵，对训练样本进行预处理，得到预处理后的输入数据；预处理包括：ZCA白化处理；将输入数据输入深度卷积神经网络中进行训练，得到训练完毕的该预先得到的识别模型。

其中，PCA是主成分分析，即PrincipalComponentAnalysis，简称“PCA”或者主元分析。ZCA是正则化PCA，ZCA白化是在PCA白化的基础上做了一个旋转操作，使得白化之后的数据更加的接近原始数据。ZCA白化首先通过PCA去除了各个特征之间的相关性，然后是输入特征具有单位方差，此时得到PCA白化后的处理结果，然后再把数据旋转回去，得到ZCA白化的处理结果，结果通常以矩阵形式体现，得到ZCA矩阵。继续以上面的60万个训练样本为例，利用这些数据，训练ZCA矩阵P和均值矩阵E，并利用ZCA矩阵P和E对所有的训练数据进行预处理，然后再利用CNN网络进行训练，该CNN网络的结构可以参考ImageNet的网络结构图，但需要对ImageNet中的部分参数进行修改。ImageNet是一个计算机视觉系统识别项目，是目前世界上图像识别最大的数据库，是美国哈佛的计算机科学家，模拟人类的识别系统建立的，能够从图片识别物体。其中的参数修改，譬如输入图像参数为100×100像素；最终输出类别参数为20000；中间的其他数据参数也会略有一些调整，具体的调整数据由本领域技术人员根据识别的具体需要进行设定，本公开对此不作限制。这样就完成了CNN深度学习模型以及网络的训练。再对60万张图像，采用训练好的CNN模型，去掉最后的输出层，得到4096维的特征值向量，相当于利用之前训练的CNN网络进行了特征提取的工作；并对60万个4096维的特征值向量进行线性判别式分析(LinearDiscriminantAnalysis，简称：LDA)训练，LDA是模式识别的经典算法，其基本思想是将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果，投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离，即模式在该空间中有最佳的可分离性。因此，它是一种有效的特征抽取方法。从而由4096维的特征值向量得到最终的200维向量。并保存该LDA的投影矩阵P。

进一步地，步骤207具体可以包括以下步骤：

步骤一、对待识别帧图像进行预处理，得到归一化待识别人脸图像。

步骤二、将归一化待识别人脸图像输入到预先得到的识别模型中，进行特征提取，得到对应于每个待识别帧图像的待识别人脸的高维特征向量。

步骤三、利用预存的参照人脸的线性判别式分析LDA投影矩阵对待识别人脸的高维特征向量进行降维处理，得到待识别人脸的降维特征向量。

步骤四、对待识别人脸的降维特征向量进行余弦距离度量，将度量后的结果与预设阈值进行比较；若度量后的结果大于预设阈值，识别待识别帧图像与人脸数据库中预存的参照人脸特征相匹配；若度量后的结果小于等于预设阈值，识别待识别帧图像与人脸数据库中预存的参照人脸特征不匹配。

其中，步骤四中的人脸数据库中预存有参照人脸的人脸特征数据，该参照人脸的人特征数据包括：参照人脸的LDA投影矩阵。则该视频处理方法还包括：对参照人脸的参照人脸图像进行预处理，得到归一化参照人脸图像；将归一化参照人脸图像输入到预先得到的识别模型中，进行特征提取，得到对应于每个参照人脸图像的高维特征向量；对参照人脸图像的高维特征向量进行LDA训练，得到参照人脸图像的降维特征向量；根据参照人脸图像的降维特征向量，生成参照人脸的LDA投影矩阵。

具体的，上述基于预先得到的识别模型，对待识别帧图像进行人脸识别以及对参照人脸进行识别并保存参照人脸特征数据的过程都属于对训练好的CNN网络的使用阶段，简单来说，对步骤207中预先得到的识别模型，即训练好的CNN网络，若新进来两个人脸图像进行比对，首先也需要对人脸图像归一化到标准尺寸100×100，然后进行ZCA预处理，利用训练得到的CNN网络模型对预处理后的数据进行处理，得到两个4096维的特征值向量。再利用LDA的投影矩阵P对这两个4096维的特征值向量进行降维，然后得到2个200维的特征值向量。再对这两个200维的特征值向量进行余弦距离度量，并采用一定的阈值进行分割，大于该阈值的可以认为这两张图像属于同一个人脸，否则为不同人脸。并且是否为同一个人脸的比对标准就是根据人脸数据库中预存的参照人脸的人脸特征数据进行比对的。

在步骤208中，对待识别帧图像的所有人脸识别结果进行筛选，得到目标视频中出现的人脸图像的最终识别结果。

具体的，对待识别帧图像的每帧识别结果都记录下来，然后按照一定的规则进行筛选，可以按照排名先后的顺序，将排名第一的结果选出；或者将超过预设识别阈值的结果选出，再进行投票，投票数最多的，即为最终的、最准确的识别结果。并可以在显示屏幕的一角将该识别结果展示出来，使对演员人脸及其名字难以对应的用户也能实时地知道视频的主要演员信息。例如，展示明星甲的照片并注明该明星的名字，其中，明星甲的照片可以选用待识别帧图像中的一幅或从人脸数据库中选择一张明星甲对应的照片。

综上，本实施例利用了人脸检测跟踪技术，对视频中的一些主要演员进行人脸提取分析，然后利用深度学习的人脸识别技术对这些主要人脸进行识别，最终利用多帧投票技术得到最准确的识别结果。然后将这些视频演员的识别结果可以展示在屏幕中。

图3是根据另一示例性实施例示出的一种视频处理方法的流程图，如图3所示，本实施例的视频处理方法可以应用于视频提供商的视频服务器中也可以应用于接收视频方的终端(客户端设备)中，以下以应用于视频服务器中来举例说明，本实施例的方法包括以下步骤：

在步骤301中，获取待处理的目标视频，所述目标视频中包含：检测帧和跟踪帧；

在步骤302中，对目标视频中的所有检测帧进行人脸检测，获取所有检测帧中所包含的人脸图像的检测数据。

所述检测数据包含：区分不同人脸图像的人脸标识，具体包含：与所有检测帧对应的所有的人脸标识。

在步骤303中，根据所有的人脸标识，对跟踪帧进行人脸跟踪，确定跟踪帧中是否包含与所有的人脸标识对应的人脸图像。

具体的，本实施例与上一实施例的区别在于对检测帧的检测顺序不同，上一实施例中是按照检测帧存在于目标视频中的先后顺序进行人脸图像的扫描检测；本实施例是将目标视频进行预设的划分，然后将定位出的检测帧中的全部人脸图像信息获取到，再用全部的人脸图像信息对跟踪帧依次进行跟踪操作。该方法可以从目标视频中获得相对多的人脸图像，从而为后续的识别过程提供尽可能多的待识别数据，有助于提高识别的精准性。

在步骤304中，从检测帧和跟踪帧中提取包含有人脸标识的帧，得到待识别帧图像。

在步骤305中，基于预先得到的识别模型，对待识别帧图像进行人脸识别，得到每帧中人脸图像的人脸识别结果。

在步骤306中，对待识别帧图像的所有人脸识别结果进行筛选，得到目标视频中出现的人脸图像的最终识别结果。

该实施例的其他方法步骤与上一实施例类似，其原理和实施方法请参照前述实施例，在此不再赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图4是根据一示例性实施例示出的一种视频处理装置的流程图，如图4所示，该视频处理装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该视频处理装置可以包括：

第一获取模块401，用于获取待处理的目标视频，目标视频中包含：检测帧和跟踪帧。

检测模块402，用于对第一获取模块获取到的检测帧进行人脸检测。

第二获取模块403，用于获取检测模块402检测到的检测帧中所包含的人脸图像的检测数据；检测数据包含：区分不同人脸图像的人脸标识。

跟踪模块404，用于根据人脸标识，对跟踪帧进行人脸跟踪。

确定模块405，用于确定跟踪模块404跟踪的跟踪帧中是否包含与人脸标识对应的人脸图像。

提取模块406，用于从检测帧和跟踪帧中提取包含有人脸标识的帧，得到待识别帧图像。

识别模块407，用于基于预先得到的识别模型，对待识别帧图像进行人脸识别，得到每帧中人脸图像的人脸识别结果。

筛选模块408，用于对待识别帧图像的人脸识别结果进行筛选，得到目标视频中出现的人脸图像的最终识别结果。

本实施例中，通过检测模块对待处理目标视频中的检测帧进行人脸检测，并由第二获取模块获取检测帧中的人脸图像；再通过跟踪模块基于检测得到的人脸信息对待处理目标视频中的跟踪帧进行人脸跟踪，由确定模块确定跟踪帧中是否所包含的人脸信息；利用提取模块将包含有人脸信息的检测帧和跟踪帧从目标视频中提取出来，并通过识别模块基于预先得到的识别模型，对提取出的待识别帧图像进行人脸识别，并利用筛选模块对识别结果进行筛选，得到最终人脸识别结果。从而实现了将最终人脸识别结果为用户显示，以提示用户视频中所出现演员的信息，该方法有效提高人脸识别效率。

图5是根据另一示例性实施例示出的一种视频处理装置的流程图，该视频处理装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。基于上述装置实施例，检测帧为对目标视频进行预设间隔划分后，各个划分点所对应的帧；跟踪帧为目标视频中除去检测帧外的视频帧。

可选的，检测模块402可以包括：第一检测子模块4021。

第一检测子模块4021，用于按时间先后的顺序，对目标视频中的当前检测帧进行人脸检测。

第二获取模块403可以包括：第一获取子模块4031。

第一获取子模块4031，用于获取当前检测帧中所包含的人脸图像的检测数据；检测数据包含：当前检测帧对应的人脸标识。

该装置还包括：

存储模块409，用于将当前检测帧对应的人脸标识与已获取的人脸标识进行比对，将新增加的人脸标识进行存储，得到待跟踪人脸标识。

相应的，跟踪模块404包括：第一跟踪子模块4041。

第一跟踪子模块4041，用于根据存储模块409已存储的待跟踪人脸标识对当前检测帧与下一个检测帧之间的跟踪帧进行人脸跟踪，确定跟踪帧中是否包含与待跟踪人脸标识对应的人脸图像。

该装置还包括：

更新模块410，用于更新下一个检测帧为当前检测帧，返回第一检测子模块4021。

可选的，检测模块402包括：第二检测子模块4022。

第二检测子模块4022，用于对目标视频中的所有检测帧进行人脸检测。

第二获取模块403包括：第二获取子模块4032。

第二获取子模块4032，用于获取所有检测帧中所包含的人脸图像的检测数据；检测数据包含：与所有检测帧对应的所有的人脸标识。

相应的，跟踪模块404包括：第二跟踪子模块4042；

第二跟踪子模块4042，用于根据所有的人脸标识，对跟踪帧进行人脸跟踪，确定跟踪帧中是否包含与所有的人脸标识对应的人脸图像。

可选的，识别模块407采用的识别模型为深度卷积神经网络。

该装置还包括：训练模块411，用于采用预设数量人脸图像的训练样本对识别模块407采用的深度卷积神经网络进行训练，得到预先得到的识别模型。

可选的，训练模块411包括：

第一归一化子模块4111，用于对训练样本进行归一化处理，得到标准尺寸的样本数据。

计算子模块4112，用于对标准尺寸的样本数据进行计算，得到ZCA矩阵和均值矩阵。

预处理子模块4113，用于基于ZCA矩阵和均值矩阵，对训练样本进行预处理，得到预处理后的输入数据；预处理包括：ZCA白化处理。

训练子模块4114，用于将输入数据输入深度卷积神经网络中进行训练，得到训练完毕的预先得到的识别模型。

可选的，识别模块407包括：

第二归一化子模块4071，用于对待识别帧图像进行预处理，得到归一化待识别人脸图像。

特征提取子模块4072，用于将从第二归一化子模块4071得到的归一化待识别人脸图像输入到预先得到的识别模型中，进行特征提取，得到对应于每个待识别帧图像的待识别人脸的高维特征向量。

降维处理子模块4073，用于利用预存的参照人脸的线性判别式分析LDA投影矩阵对待识别人脸的高维特征向量进行降维处理，得到待识别人脸的降维特征向量。

度量子模块4074，用于对待识别人脸的降维特征向量进行余弦距离度量。

比较子模块4075，用于将度量子模块度量得到的度量后的结果与预设阈值进行比较。

识别子模块4076，用于在度量后的结果大于预设阈值的情况下，识别待识别帧图像与人脸数据库中预存的参照人脸特征相匹配；在度量后的结果小于等于预设阈值的情况下，识别待识别帧图像与人脸数据库中预存的参照人脸特征不匹配。

可选的，人脸数据库中预存有参照人脸的人脸特征数据，参照人脸的人脸特征数据包括：参照人脸的LDA投影矩阵。

该装置还包括：

归一化模块412，用于对参照人脸的参照人脸图像进行预处理，得到归一化参照人脸图像。

特征提取模块413，用于将归一化参照人脸图像输入到预先得到的识别模型中，进行特征提取，得到对应于每个参照人脸图像的高维特征向量。

降维处理模块414，用于对参照人脸图像的高维特征向量进行LDA训练，得到参照人脸图像的降维特征向量。

生成模块415，用于根据参照人脸图像的降维特征向量，生成参照人脸的LDA投影矩阵。

可选的，预设数量人脸图像的训练样本由M类人脸图像，每类人脸图像由N张人脸图像构成；其中M、N为自然数。

可选的，检测模块402包括：第三检测子模块4023；

第三检测子模块4023，用于采用AdaBoost迭代算法对检测帧进行人脸检测。

可选的，预设间隔为预设等间隔或预设不等间隔；若为预设等间隔，间隔帧数为5帧。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种视频处理装置600的框图。例如，视频处理装置600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理，路由器，协调器等。

参照图6，装置600可以包括以下一个或多个组件：处理组件602，存储器604，电力组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制装置600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在装置600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件606为装置600的各种组件提供电力。电力组件606可以包括电源管理系统，一个或多个电源，及其他与为装置600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当装置600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当装置600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为装置600提供各个方面的状态评估。例如，传感器组件614可以检测到装置600的打开/关闭状态，组件的相对定位，例如所述组件为装置600的显示器和小键盘，传感器组件614还可以检测装置600或装置600一个组件的位置改变，用户与装置600接触的存在或不存在，装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由装置600的处理器620执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种网络接入方法，所述方法包括：

存储器604，用于存储处理器620的可执行指令；处理器620，用于获取待处理的目标视频，目标视频中包含：检测帧和跟踪帧；对检测帧进行人脸检测，获取检测帧中所包含的人脸图像的检测数据；检测数据包含：区分不同人脸图像的人脸标识；根据人脸标识，对跟踪帧进行人脸跟踪，确定跟踪帧中是否包含与人脸标识对应的人脸图像；从检测帧和跟踪帧中提取包含有人脸标识的帧，得到待识别帧图像；基于预先得到的识别模型，对待识别帧图像进行人脸识别，得到每帧中人脸图像的人脸识别结果；对待识别帧图像的所有人脸识别结果进行筛选，得到目标视频中出现的人脸图像的最终识别结果。

图7是根据一示例性实施例示出的一种视频处理装置700的框图。例如，装置700可以被提供为一服务器。参照图7，装置700包括处理组件722，其进一步包括一个或多个处理器(图中未示出)，以及由存储器732所代表的存储器资源，用于存储可由处理组件722的执行的指令，例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件722被配置为执行指令，以执行上述视频处理方法。

装置700还可以包括一个电源组件726被配置为执行装置700的电源管理，一个有线或无线网络接口750被配置为将装置700连接到网络，和一个输入输出(I/O)接口758。装置700可以操作基于存储在存储器732的操作系统，例如WindowsServerTM，MacOSXTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

所述检测帧为对所述目标视频进行预设间隔划分后，各个划分点所对应的帧；

所述跟踪帧为所述目标视频中除去所述检测帧外的视频帧。

3.根据权利要求2所述的方法，其特征在于，

所述对所述检测帧进行人脸检测，获取所述检测帧中所包含的人脸图像的检测数据，包括：

4.根据权利要求2所述的方法，其特征在于，

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述采用预设数量人脸图像的训练样本对所述深度卷积神经网络进行训练，得到所述预先得到的识别模型，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于预先得到的识别模型，对所述待识别帧图像进行人脸识别，得到每帧中人脸图像的人脸识别结果，包括：

8.根据权利要求7所述的方法，其特征在于，所述人脸数据库中预存有参照人脸的人脸特征数据，所述参照人脸的人脸特征数据包括：所述参照人脸的LDA投影矩阵；所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述对所述检测帧进行人脸检测包括：

采用AdaBoost迭代算法对所述检测帧进行人脸检测。

10.根据权利要求2所述的方法，其特征在于，所述预设间隔为预设等间隔或预设不等间隔。

11.一种视频处理装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，

所述跟踪帧为所述目标视频中除去所述检测帧外的视频帧。

13.根据权利要求12所述的装置，其特征在于，

所述检测模块包括：第一检测子模块；

所述第二获取模块包括：第一获取子模块；

所述装置还包括：

相应的，所述跟踪模块包括：第一跟踪子模块；

14.根据权利要求12所述的装置，其特征在于，

所述检测模块包括：第二检测子模块；

所述第二获取模块包括：第二获取子模块；

相应的，所述跟踪模块包括：第二跟踪子模块；

15.根据权利要求11所述的装置，其特征在于，所述装置还包括：

16.根据权利要求15所述的装置，其特征在于，所述训练模块包括：

17.根据权利要求11所述的装置，其特征在于，所述识别模块包括：

18.根据权利要求17所述的装置，其特征在于，所述人脸数据库中预存有参照人脸的人脸特征数据，所述参照人脸的人脸特征数据包括：所述参照人脸的LDA投影矩阵；所述装置还包括：

19.根据权利要求11所述的装置，其特征在于，所述检测模块包括：第三检测子模块；

20.根据权利要求12所述的装置，其特征在于，所述预设间隔为预设等间隔或预设不等间隔。

21.一种视频处理装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器用于：