WO2018133666A1

WO2018133666A1 - 视频目标跟踪方法和装置

Info

Publication number: WO2018133666A1
Application number: PCT/CN2018/070090
Authority: WO
Inventors: 余三思
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-01-17
Filing date: 2018-01-03
Publication date: 2018-07-26
Also published as: TW201828158A; CN106845385A; TWI677825B

Abstract

一种视频目标跟踪的方法和装置，该方法可应用于终端或服务器，包括：获取视频流，根据人脸检测算法识别人脸区域，得到第一视频帧对应的第一待跟踪目标(S210)；对第一待跟踪目标通过基于深度神经网络的人脸特征提取得到第一人脸特征，将所述第一人脸特征存入第一待跟踪目标对应的特征库(S220)；在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标，对当前待跟踪目标通过基于深度神经网络的人脸特征提取得到第二人脸特征，根据第二人脸特征和所述特征库将当前待跟踪目标与第一待跟踪目标进行特征匹配，以从第一视频帧开始跟踪第一待跟踪目标，在跟踪过程中根据提取的更新的人脸特征更新特征库(S230)。

Description

视频目标跟踪方法和装置

本申请要求于2017年1月17日提交中国专利局、申请号为201710032132.6，发明名称为“视频目标跟踪的方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频目标跟踪方法和装置。

背景技术

目标跟踪技术一直以来都是计算机视觉和图像处理领域的热点，被广泛应用在智能监控、智能交通、视觉导航、人机交互、国防侦察等领域。

目标跟踪算法通常使用一种或数种简单的传统特征匹配算法来区分目标，如利用图像本身的颜色、形状等特征。

发明内容

本申请实施例提供一种视频目标跟踪方法和装置，能够提高跟踪的连续性和鲁棒性。

本申请实施例提供一种视频目标跟踪的方法，应用于终端或服务器，所述方法包括：

获取视频流，根据人脸检测算法识别人脸区域，得到第一视频帧对应的第一待跟踪目标；

对所述第一待跟踪目标通过基于深度神经网络的人脸特征提取得到第一人脸特征，并将所述第一人脸特征存入所述第一待跟踪目标对应的特征库；

在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标，对所述当前待跟踪目标通过基于深度神经网络的人脸特征提取得到第二人脸特征，根据所述第二人脸特征和所述特征库将所述当前待跟踪目标与第一待跟踪目标进行特征匹配，以从所述第一视频帧开始跟踪所述第一待跟踪目标，在跟踪过程中根据提取的更新的人脸特征更新所述特征库。

本申请实施例还提供一种视频目标跟踪装置，所述装置包括：

处理器以及与所述处理器相连接的存储器，所述存储器中存储有可由所述处理器执行的机器可读指令模块；所述机器可读指令模块包括：

检测模块，用于获取视频流，根据人脸检测算法识别人脸区域，得到第一视频帧对应的第一待跟踪目标；

人脸特征提取模块，用于对所述第一待跟踪目标通过基于深度神经网络的人脸特征提取得到第一人脸特征，并将所述第一人脸特征存入所述第一待跟踪目标对应的特征库；

所述检测模块还用于在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标；

所述人脸特征提取模块还用于对所述当前待跟踪目标通过基于深度神经网络的人脸特征提取得到第二人脸特征；

跟踪模块，用于根据所述第二人脸特征和所述特征库将所述当前待跟踪目标与第一待跟踪目标进行特征匹配，以从所述第一视频帧开始跟踪所述第一待跟踪目标；

学习模块，用于在跟踪过程中根据提取的更新的人脸特征更新所述特征库。

本申请实施例还提供一种非易失性计算机可读存储介质，所述存储介质中存储有机器可读指令，所述机器可读指令可以由处理器执行以完成以下操作：

附图说明

图1为本申请一个实施例中视频目标跟踪方法的应用环境图；

图2为本申请一个实施例中图1中终端的内部结构图；

图3为本申请一个实施例中图1中服务器的内部结构图；

图4为本申请一个实施例中视频目标跟踪方法的流程图；

图5为本申请一个实施例中得到当前待跟踪目标的流程图；

图6为本申请一个实施例中更新特征库的流程图；

图7为本申请一个实施例中视频目标跟踪算法与模板匹配算法匹配对比示意图；

图8为本申请一个实施例中得到当前待跟踪目标的另一流程图；

图9为本申请一个实施例中视频目标跟踪方法对应的目标跟踪系统示意图；

图10为本申请一个实施例中视频目标跟踪算法得到的视频跟踪结果示意图；

图11为本申请一个实施例中TLD跟踪算法得到的视频跟踪结果示意图；

图12为本申请一个实施例中视频目标跟踪装置的结构示意图；

图13为本申请一个实施例中视频目标跟踪装置的另一结构示意图；

图14为本申请一个实施例中视频目标跟踪装置的另一结构示意图；

图15为本申请一个实施例中视频目标跟踪装置的另一结构示意图；

图16为本申请一个实施例中视频目标跟踪装置的另一结构示意图。

具体实施方式

图1为本申请一个实施例中视频目标跟踪方法运行的应用环境图。如图1所示，该应用环境包括终端110、服务器120、以及视频采集装置130，其中，终端110、服务器120、视频采集装置130通过网络140进行通信。

在本申请一些实施例中，终端110可为智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。视频采集装置130可为摄像头，布置在建筑物入口处等位置。网络140可以是有线网络也可以是无线网络。在本申请一些实施例中，视频采集装置130可将采集的视频流发送至终端110或服务器120，终端110或服务器120可对视频流进行目标跟踪。在本申请另一些实施例中，视频采集装置130也可直接对视频流进行目标跟踪，并将跟踪结果发送至终端110进行显示。

在本申请一个实施例中，图1中的终端110的内部结构如图2所示，该终端110包括通过系统总线1101连接的处理器1102、图形处理单元1103、存储介质1104、内存1105、网络接口1106、显示屏幕1107和输入设备1108。其中，终端110的存储介质1104存储有操作系统11041以及第一视频目标跟踪装置11042，该装置11042用于实现一种适用于终端110的视频目标跟踪方法。处理器1102用于提供计算和控制能力，支撑整个终端110的运行。终端110中的图形处理单元1103用于至少提供显示界面的绘制能力。内存1105为存储介质1104中的第一视频目标跟踪装置11042的运行提供环境。网络接口1106用于与视频采集装置130进行网络通信，如接收视频采集装置130采集的视频流等。显示屏幕1107用于显示跟踪结果等。输入设备1108用于接收用户输入的命令或数据等。对于带触摸屏的终端110，显示屏幕1107和输入设备1108可为触摸屏。图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端110的限定，具体的终端110可以包括比图2中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本申请一个实施例中，图1中服务器120的内部结构如图3所示，该服务器120包括通过系统总线1201连接的处理器1202、存储介质1203、内存1204和网络接口1205。其中，该服务器120的存储介质1203存储有操作系统12031、数据库12032、第二视频目标跟踪装置12033。数据库12032用于存储数据。第二视频目标跟踪装置12033用于实现一种适用于服务器120的视频目标跟踪方法。该服务器120的处理器1202用于提供计算和控制能力，支撑整个服务器120的运行。该服务器120的内存1204为存储介质1203中的第二视频目标跟踪装置12033的运行提供环境。该服务器120的网络接口1205用于与外部的视频采集装置130通过网络连接通信，比如接收视频采集装置130发送的视频流等。

如图4所示，在本申请一个实施例中，提供了一种视频目标跟踪方法，其应用于上述应用环境中的终端110、服务器120或视频采集装置130，该方法可由本申请任一实施例提供的视频目标跟踪装置执行，包括如下步骤：

步骤S210，获取视频流，根据人脸检测算法识别人脸区域，得到第一视频帧对应的第一待跟踪目标。

具体的，视频流可由分布在建筑物入口处的视频采集装置采集得到。如果视频目标跟踪方法应用于视频采集装置，则可直接从视频采集装置的存储器中获得到视频流。如果视频目标跟踪方法应用于终端或服务器，则视频采集装置可实时将采集到的视频流发送至终端或服务器。

人脸检测是指对于任意一幅给定的图像，采用一定的策略对其进行搜索以确定其中是否含有人脸，如果是，则返回人脸的位置、大小和姿态。在本申请一些实施例中，可通过推荐框的方式显示人脸区域(如图10中所示的矩形框)，得到第一视频帧对应的第一待跟踪目标。通过不断地对视频流进行人脸检测，直到检测到有人脸出现，将人脸区域确定为第一待跟踪目标。由于一帧中可能检测到多个人脸，故第一待跟踪目标可能为多个。如果有多个第一待跟踪目标，则可通过不同的标识信息标识不同的人脸区域，如通过不同颜色的推荐框标识不同的人脸区域。人脸检测算法可根据需要自定义，如采用NPD(Normalized Pixel Difference，归一化的像素差异特征)人脸检测算法，或将NPD人脸检测算法与其它算法结合以提高确定待跟踪目标的准确性。

步骤S220，对第一待跟踪目标通过基于深度神经网络的人脸特征提取得到第一人脸特征，并将所述第一人脸特征存入第一待跟踪目标对应的特征库。

具体的，深度神经网络是一种深度学习下的机器学习模型。深度学习是机器学习的分支，是使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度神经网络可采用VGG(Visual Geometry Group)网络结构，通过VGG网络结构比通过特征匹配算法进行区分目标的召回率和准确率高。

为第一待跟踪目标分配一个目标标识并建立特征库，为所述目标标识和特征库建立关联关系并保存所述关联关系。当第一待跟踪目标为多个时，可为每个第一待跟踪目标分配目标标识并建立特征库，为每个第一待跟踪目标和其对应的第一人脸特征建立关联关系，将所述关联关系以及第一人脸特征存储至该第一待跟踪目标对应的特征库。通过引用人脸特征进行特征匹配，可解决目标跟踪算法由于没有较好地利用人脸特征，故而频繁出现跟错、跟偏和跟丢后无法重新正确找回跟踪目标的问题。

步骤S230，在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标，对当前待跟踪目标通过基于深度神经网络的人脸特征提取得到第二人脸特征，根据第二人脸特征和特征库将当前待跟踪目标与第一待跟踪目标进行特征匹配，以从第一视频帧开始跟踪第一待跟踪目标，在跟踪过程中根据提取的更新的人脸特征更新特征库。

具体的，将第二人脸特征与特征库中第一待跟踪目标对应的各个第一人脸特征进行特征匹配。特征匹配的具体算法可自定义，如可直接计算人脸特征对应的矢量的欧式距离，根据欧式距离判断是否能匹配成功。如果第二人脸特征与第一人脸特征匹配成功，则确定当前待跟踪目标为第一待跟踪目标的连续运动目标。如果当前待跟踪目标有多个，则每个当前待跟踪目标组成当前待跟踪目标集合，将当前待跟踪目标集合中的各个当前待跟踪目标对应的第二人脸特征分别与特征库中各个历史待跟踪目标对应的人脸特征进行匹配，如果匹配成功，则将历史待跟踪目标的目标标识作为当前待跟踪目标的目标标识，当前待跟踪目标的位置为历史待跟踪目标运动后的位置。

在本申请一些实施例中，可在跟踪过程中根据提取的更新的人脸特征更新特征库，如在光照连续变化或侧脸时，会得到第一待跟踪目标在其它帧的更新的人脸特征，如果该更新的人脸特征与第一人脸特征存在差异，可将存在差异的更新的人脸特征加入第一待跟踪目标对应的特征库，并为该更新的人脸特征与第一待跟踪目标的目标标识建立关联关系，并将所述关联关系存储在特征库中，从而在第一待跟踪目标在其它帧中存在更大角度的侧脸或更大光强的光线变化时，可将当前待跟踪目标对应的第二人脸特征与第一待跟踪目标的更新的人脸特征进行特征匹配，比直接与第一人脸特征进行特征匹配时的差异小，从而加大特征匹配成功的概率，减小目标跟踪过程对跟踪目标的变化、倾斜、遮盖、光照变化的敏感度，提高跟踪的连续性和鲁棒性。且通过特征库可保存大量第一待跟踪目标在不同帧对应的人脸特征，在第一待跟踪目标消失后又出现的情况下，可利用第一待跟踪目标对应的特征库中之前已保存的第一待跟踪目标消失前的人脸特征进行特征匹配，从而对间断出现的目标达到良好的跟踪效果。更新特征库是通过跟踪和检测来更新一个正负样本库，相当于一个半在线的跟踪算法，相比于完全离线的跟踪算法有更好的召回率，相比于完全在线的跟踪算法则能表现出更高的准确率。

在本申请实施例中，通过获取视频流，根据人脸检测算法识别人脸区域，得到第一视频帧对应的第一待跟踪目标，对第一待跟踪目标通过基于深度神经网络的人脸特征提取得到第一人脸特征，将所述第一人脸特征加入特征库，在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标，对当前待跟踪目标通过基于深度神经网络的人脸特征提取得到第二人脸特征，根据第二人脸特征和所述特征库将当前待跟踪目标与第一待跟踪目标进行特征匹配，以从第一视频帧开始跟踪第一待跟踪目标，在跟踪过程中根据提取的更新的人脸特征更新特征库，通过引用基于深度神经网络的人脸特征进行特征匹配，可解决目标跟踪算法由于没有较好地利用人脸特征，频繁出现跟错、跟偏和跟丢后无法重新正确找回跟踪目标的问题，从而节省了终端或服务器设备的资源，提升了终端或服务器的处理器的处理速度。同时，特征库在跟踪过程中不断更新，可保存待跟踪目标在不同状态下对应的不同人脸特征，从而提高人脸特征匹配的成功率，减小目标跟踪过程对跟踪目标的变化、倾斜、遮盖、光照变化的敏感度，提高跟踪的连续性和鲁棒性，进而提升了终端或服务器的处理器的处理速度。

在本申请一个实施例中，上述方法还包括：根据每个待跟踪目标的人脸状态通过人脸识别算法识别得到每个待跟踪目标对应的人脸身份信息，通过图像特征提取算法得到人脸身份信息对应的目标特征。

在本申请一些实施例中，人脸状态是指人脸的偏转角度状态。当检测到人脸为正脸时，可通过人脸识别算法识别得到对应的人脸身份信息。人脸身份信息用于描述人脸对应的身份。人脸识别是指将提取的人脸图像的特征数据与数据库中存储的特征模板比如人脸特征模板进行搜索匹配，根据相似程度确定人脸身份信息。如在对进入企业的员工进行人脸识别时，在数据库中提前存储了企业中各个员工的特征模板，例如人脸特征模板，从而通过将当前提取的人脸图像的特征数据与数据库中存储的人脸特征模板比对得到员工的人脸身份信息。人脸身份信息的具体内容可根据需要自定义，如员工名字、工号、所属部门等。

图像特征提取算法是根据图像本身的特征，如颜色特征、纹理特征、形状特征、空间关系特征等提取特征数据，得到目标特征，其中，所述目标特征是提取得到的所有特征数据的集合。为目标特征与人脸身份信息建立关联关系，如衣服颜色、衣服纹理、人体形状，身高比例等特征，并将关联关系存储在数据库中。这样，当人脸存在偏转、遮盖时，可通过其它的目标特征进行身份的识别和确定人脸区域。在本申请一个实施例中，如图5所示，步骤S230中在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标的步骤包括：

步骤S231，判断当前视频帧根据人脸检测算法是否识别到人脸区域，如果没有识别到人脸区域，则根据图像特征提取算法获取当前视频帧对应的当前图像特征。

具体的，如果根据人脸检测算法在当前视频帧中没有识别到人脸区域，也有可能是由于人脸偏侧导致检测失败，此时需要根据图像特征提取算法获取当前视频帧对应的当前图像特征。

步骤S232，将当前图像特征与目标特征对比得到匹配的目标人脸身份信息，根据目标人脸身份信息得到当前视频帧对应的当前待跟踪目标。

具体的，由于之前已经将目标特征与人脸身份信息关联，此时可将当前图像特征与目标特征对比，计算相似度，如果相似度超过阈值，则匹配成功，可获取匹配的目标特征对应的目标人脸身份信息，从而根据目标人脸身份信息得到当前视频帧对应的当前待跟踪目标。然后，通过人脸身份信息将当前待跟踪目标与第一待跟踪目标进行匹配，从而实现对第一待跟踪目标的跟踪。

本申请实施例中，将人脸身份信息引入目标跟踪，在人脸识别的同时结合图像特征，在人脸检测算法无法识别人脸区域时也能达到对目标的跟踪，进一步提高跟踪的连续性和鲁棒性。

在本申请一个实施例中，步骤S220可包括：获取第一待跟踪目标对应的第一人脸身份信息，建立第一人脸身份信息对应的第一人脸特征集合，将第一人脸特征加入所述第一人脸特征集合并将所述第一人脸特征集合存储至第一待跟踪目标对应的特征库。

具体的，可对第一待跟踪目标进行人脸识别得到第一待跟踪目标对应的第一人脸身份信息。第一人脸特征集合用于存储第一待跟踪目标在运动过程中不同状态下的第一人脸特征，不同状态包括不同角度、不同光照、不同遮盖范围等。将人脸特征提取后得到的第一人脸特征加入第一人脸特征集合，并为所述第一人脸特征集合与第一人脸身份信息建立关联关系，将所述关联关系以及第一人脸特征集合存储至第一待跟踪目标对应的特征库。

在本申请一个实施例中，如图6所示，步骤S230中在跟踪过程中根据提取的更新的人脸特征更新特征库的步骤可包括：

步骤S233，获取当前待跟踪目标对应的当前人脸身份信息，从特征库获取当前人脸身份信息对应的第一人脸特征集合。

具体的，在一个实施例中，可通过对当前待跟踪目标进行人脸识别得到当前待跟踪目标对应的当前人脸身份信息。在另外一个实施例中，也可通过对当前待跟踪目标应用图像特征提取算法得到当前待跟踪目标对应的当前图像特征，再将当前图像特征与目标特征进行匹配，将匹配的目标特征对应的人脸身份信息作为当前人脸身份信息，从而在当前待跟踪目标无法识别到人脸区域时也能得到当前人脸身份信息。根据人脸身份信息与人脸特征集合的关联对应关系，得到当前人脸身份信息对应的第一人脸特征集合，表明当前待跟踪目标与第一待跟踪目标是同一目标。

步骤S234，计算第一人脸特征集合中的第一人脸特征与第二人脸特征的差异量，如果差异量超过预设阈值，则在第一人脸特征集合中增加第二人脸特征。

具体的，可自定义算法计算第二人脸特征与第一人脸特征集合中的第一人脸特征的差异量。如果第一人脸特征集合中的第一人脸特征为多个，则分别计算第二人脸特征与每个第一人脸特征的差异量，得到多个差异量。差异量表明了第二人脸特征与特征库中已经保存的同一跟踪目标的人脸特征之间的差异，差异越大表明跟踪目标的人脸状态变化越大。如果差异量超过预设阈值，则在第一人脸特征集合中增加第二人脸特征，增加的第二人脸特征可用于后续进行的特征匹配。在人脸特征集合中存储的人脸特征越多，就越能表征同一跟踪目标在不同状态下的特征，只要其中任何一个特征能在特征匹配时匹配成功，就认为当前待跟踪目标与第一待跟踪目标的匹配成功，从而加大了匹配成功的概率，减小目标跟踪过程对跟踪目标的变化、倾斜、遮盖、光照变化的敏感度，提高跟踪的连续性和鲁棒性。

在本申请一个实施例中，步骤S220可包括：对第一待跟踪目标通过深度神经网络进行人脸特征提取得到第一特征矢量。

具体的，对深度神经网络进行训练后得到人脸特征提取模型，输入第一待跟踪目标对应的像素值，则得到第一特征矢量，第一特征矢量的维度由人脸特征提取模型决定。

步骤S230包括：对当前待跟踪目标通过深度神经网络进行人脸特征提取得到第二特征矢量，计算第一特征矢量与第二特征矢量的欧氏距离，如果欧氏距离小于预设阈值，则确定第一待跟踪目标与当前待跟踪目标特征匹配成功。

具体的，输入当前待跟踪目标对应的像素值至上述人脸特征提取模型，则可得到第二特征矢量。第一特征矢量与第二特征矢量的欧氏距离代表了当前待跟踪目标与第一待跟踪目标的相似度。如果欧氏距离小于预设阈值，则确定当前待跟踪目标与第一待跟踪目标特征匹配成功，表明当前待跟踪目标与第一待跟踪目标是同一目标，达到跟踪目的。

在本申请一个实施例中，深度神经网络的网络结构可以为11层网络层，包括堆栈式的卷积神积网络和完全连接层，堆栈式的卷积神积网络由多个卷积层和maxpool层组成，具体网络结构为：

conv3-64*2+LRN+max pool

conv3-128+max pool

conv3-256*2+max pool

conv3-512*2+max pool

FC2048

FC1024，

其中conv3表示半径为3的卷积层，LRN表示LRN层，max pool表示maxpool层，FC表示完全连接层。

具体的，此网络结构为简化的深度神经网络VGG网络结构，其中64*2表示2个64组，LRN层是一种帮助训练的无参数层，FC2048表示输出为2048维度矢量的完全连接层，最后一个完全连接层FC1024的输出为特征提取得到的人脸特征，是1024维矢量。通过简化的VGG网络结构得到的优化后的人脸特征在测试集的随机块匹配上的表现远优于TLD(Tracking-Learning-Detection，单目标长时间跟踪)中的匹配模块的匹配表现，且大大提高了人脸特征提取的效率，达到跟踪算法所要求的实时性。在本申请一个实施例中，可控制待跟踪目标的分辨率为112*112像素，以减少计算复杂度。图7为此VGG网络结构对应的人脸特征提取算法VGG-S与模板匹配算法match template的匹配比对示意图。如图7所示，横坐标代表召回率，纵坐标代表准确率，可见此VGG网络结构对应的人脸特征提取算法在进行特征匹配时有更好的准确率，提高了目标跟踪的正确率。

在本申请一个实施例中，步骤S230中在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标的步骤可包括：基于归一化的像素差异特征和人体半身识别算法在当前视频帧中识别人脸区域，得到当前视频帧对应的当前待跟踪目标。

具体的，基于归一化的像素差异特征(Normalized Pixel Difference，NPD)进行人脸检测，将得到的返回值作为人脸区域推荐框，如可基于NPD特征使用AdaBoost构造强分类器用以识别和区分人脸。人体半身识别算法可根据需要定义，可进行上半身检测，根据上半身检测筛选人脸区域推荐框，可过滤掉部分识别错误的人脸区域推荐框，极大地提高了人脸区域检测的召回率和准确率，提升了目标跟踪的整体表现。

在本申请一个实施例中，如图8所示，步骤S230中在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标的步骤可包括：

步骤S235，基于归一化的像素差异特征识别人脸区域，在当前视频帧得到第一推荐区域。

步骤S236，根据光流分析算法计算得到所述第一待跟踪目标在当前视频帧对应的第二推荐区域。

具体的，光流分析算法假设一个像素I(x,y,t)在第一帧的光强度，它移动了(dx,dy)的距离到下一帧，用了dt时间。因为像素点是一样的，光强度也没有发生变化。根据历史第一待跟踪目标的运动轨迹采用光流分析原理计算得到第一待跟踪目标对应的向量速度模型，向向量速度模型输入当前视频帧和当前视频帧的前一帧以及第一待跟踪目标在前一帧的位置，可得到第一待跟踪目标在当前视频帧对应的第二推荐区域，即第一待跟踪目标在当前视频帧可能出现的位置。

步骤S237，根据第一推荐区域和第二推荐区域得到当前待跟踪目标。

具体的，根据光流分析算法得出的第二推荐区域为第一待跟踪目标基于历史运动速度可能运动至的区域，可根据第二推荐区域的位置排除与第二推荐区域位置距离超过预设范围的第一推荐区域，从而得到当前待跟踪目标。也可将第一推荐区域和第二推荐区域全部作为当前待跟踪目标。如果第一待跟踪目标为多个，则每个第一待跟踪目标分别有对应的第二推荐区域。

本实施例中，将归一化的像素差异特征与光流分析算法结合得到当前待跟踪目标，因为先验信息的加入使得后续进行特征匹配时准确率提高。

在一个实施例中，步骤S237可包括：根据帧间相关性进行运动预测得到预期运动范围，根据预期运动范围筛选第一推荐区域和第二推荐区域得到当前待跟踪目标。

具体的，帧间相关性利用历史位置信息和运动轨迹来预测目标在下一帧或数帧内的位置，相当于利用先验信息来调整NPD算法的可信度。将预期运动范围外的第一推荐区域和第二推荐区域过滤掉，得到当前待跟踪目标，减少了后续计算特征匹配的匹配数量，提高了匹配效率和准确率。

在本申请一个实施例中，视频目标跟踪方法可通过如图9所示的三个模块完成视频目标跟踪，包括跟踪模块310、检测模块320、以及学习模块330。具体地，获取视频流，根据人脸检测算法识别人脸区域，得到第一视频帧对应的第一待跟踪目标，从第一待跟踪目标所在的视频帧开始跟踪，跟踪模块310对第一待跟踪目标通过基于深度神经网络的人脸特征提取得到第一人脸特征，并将所述第一人脸特征加入特征库，学习模块330根据跟踪情况更新特征库，检测模块320不断从当前视频帧中查找更好的当前待跟踪目标，以防跟错和跟丢，跟踪模块310根据更新的特征库将当前待跟踪目标和第一待跟踪目标进行匹配，以跟踪第一待跟踪目标。

在本申请一个实施例中，采用上述视频目标跟踪方法得到的跟踪区域示意图可如图10所示，采用TLD跟踪算法得到的跟踪区域示意图可如图11所示。通过对比可以发现，在人脸偏侧时，本申请实施例提出的视频目标跟踪方法的跟踪区域比TLD跟踪算法的跟踪区域更为精确，且TLD跟踪算法在人脸完全偏转时会出现跟踪失败的现象，而本申请实施例提出的视频目标跟踪方法在人脸完全偏转时仍然能够跟踪成功。正确率和召回率相比于TLD跟踪算法均有提升，具体数据如下：

1.无人头检测版本：准确率提升5个百分点左右，错误率降低100％，目标跟踪丢失率下降25％。

2.有人头检测版本：准确率提升1个百分点左右，错误率降低100％，目标跟踪丢失率下降15％。

在性能方面，在640*480的分辨率下，3.5G主频的CPU和Nvidia Geforce Gtx 775m的机器，单帧处理时间在40ms左右，帧率在25FPS以上。

上述视频目标跟踪方法比传统方法更精准，给后续的人员人流统计、身份识别和行为分析等需求提供了可能和便利，性能上的良好表现也满足了在线处理的需求，提高了监控分析系统的准确性、拓展性和适用性，进而提高了硬件处理器的处理速度，提高了处理器的处理性能。

在本申请一个实施例中，如图12所示，提供了一种视频目标跟踪装置，该装置可包括：

检测模块410，用于获取视频流，根据人脸检测算法识别人脸区域，得到第一视频帧对应的第一待跟踪目标。

人脸特征提取模块420，用于对所述第一待跟踪目标通过基于深度神经网络的人脸特征提取得到第一人脸特征，并将所述第一人脸特征存入所述第一待跟踪目标对应的特征库。

检测模块410还用于在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标。

人脸特征提取模块420还用于对当前待跟踪目标通过基于深度神经网络的人脸特征提取得到第二人脸特征。

跟踪模块430，用于根据第二人脸特征和所述特征库将当前待跟踪目标与第一待跟踪目标进行特征匹配，以从第一视频帧开始跟踪第一待跟踪目标。

学习模块440，用于在跟踪过程中根据提取的更新的人脸特征更新所述特征库。

在本申请一个实施例中，如图13所示，该装置还包括：

特征身份处理模块450，用于根据待跟踪目标的人脸状态通过人脸识别算法识别得到对应的人脸身份信息，根据图像特征提取算法得到人脸身份信息对应的目标特征，并为所述目标特征和人脸身份信息建立关联关系。

检测模块410可包括：

图像特征提取单元411，用于判断在当前视频帧根据人脸检测算法是否识别到人脸区域，如果没有识别到人脸区域，则根据图像特征提取算法获取当前视频帧对应的当前图像特征。

身份匹配单元412，用于基于所述关联关系，将当前图像特征与目标特征对比得到匹配的目标人脸身份信息。

第一跟踪目标确定单元413，用于根据目标人脸身份信息得到当前视频帧对应的当前待跟踪目标。

在本申请一个实施例中，人脸特征提取模块420还用于获取第一待跟踪目标对应的第一人脸身份信息，建立第一人脸身份信息对应的第一人脸特征集合，将第一人脸特征加入第一人脸特征集合并将所述第一人脸特征集合存储至所述特征库。

学习模块440还用于获取当前待跟踪目标对应的当前人脸身份信息，从特征库获取当前人脸身份信息对应的第一人脸特征集合，计算第一人脸特征集合中的第一人脸特征与第二人脸特征的差异量，如果差异量超过预设阈值，则在第一人脸特征集合中增加第二人脸特征。

在本申请一个实施例中，检测模块410还用于基于归一化的像素差异特征和人体半身识别算法在当前视频帧中识别人脸区域，得到当前视频帧对应的当前待跟踪目标。

在本申请一个实施例中，如图14所示，检测模块410可包括：

第一推荐单元414，用于基于归一化的像素差异特征识别人脸区域，在当前视频帧得到第一推荐区域。

第二推荐单元415，根据光流分析算法计算得到第一待跟踪目标在当前视频帧对应的第二推荐区域。

第二跟踪目标确定单元416，用于根据第一推荐区域和第二推荐区域得到当前待跟踪目标。

在本申请一个实施例中，第二跟踪目标确定单元416还用于根据帧间相关性进行运动预测得到预期运动范围，根据预期运动范围筛选第一推荐区域和第二推荐区域得到当前待跟踪目标。

在本申请一个实施例中，深度神经网络的网络结构为11层网络层，包括堆栈式的卷积神积网络和完全连接层，堆栈式的卷积神积网络由多个卷积层和maxpool层组成，具体网络结构为：

conv3-64*2+LRN+max pool

conv3-128+max pool

conv3-256*2+max pool

conv3-512*2+max pool

FC2048

FC1024，

在本申请一个实施例中，人脸特征提取模块420还用于对第一待跟踪目标通过深度神经网络进行人脸特征提取得到第一特征矢量，对当前待跟踪目标通过深度神经网络进行人脸特征提取得到第二特征矢量。

跟踪模块430还用于计算第一特征矢量与第二特征矢量的欧氏距离，如果所述欧氏距离小于预设阈值，则确定所述第一待跟踪目标与当前待跟踪目标特征匹配成功。

图15是本申请实施例提供的视频目标跟踪装置的另一结构示意图。如图15所示，该视频目标跟踪装置包括：处理器510，与所述处理器510相连接的存储器520，以及用于发送和接收数据的端口530。所述存储器520中存储有可由所述处理器510执行的机器可读指令模块，所述所述机器可读指令模块包括：

检测模块521，用于获取视频流，根据人脸检测算法识别人脸区域，得到第一视频帧对应的第一待跟踪目标。

人脸特征提取模块522，用于对所述第一待跟踪目标通过基于深度神经网络的人脸特征提取得到第一人脸特征，并将所述第一人脸特征存入所述第一待跟踪目标对应的特征库。

检测模块521还用于在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标。

人脸特征提取模块522还用于对当前待跟踪目标通过基于深度神经网络的人脸特征提取得到第二人脸特征。

跟踪模块523，用于根据第二人脸特征和所述特征库将当前待跟踪目标与第一待跟踪目标进行特征匹配，以从第一视频帧开始跟踪第一待跟踪目标。

学习模块524，用于在跟踪过程中根据提取的更新的人脸特征更新所述特征库。

在本申请一个实施例中，如图16所示，所述机器可读指令模块还可包括：

特征身份处理模块525，用于根据待跟踪目标的人脸状态通过人脸识别算法识别得到对应的人脸身份信息，根据图像特征提取算法得到人脸身份信息对应的目标特征，并为所述目标特征和人脸身份信息建立关联关系。

在本申请实施例中，上述检测模块521、人脸特征提取模块522、跟踪模块523、学习模块524以及特征身份处理模块525的具体功能和实现方式可参照前述的模块410至450的相关描述，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述程序可存储于一非易失性计算机可读取存储介质中，如本申请实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

通过以上的实施例的描述，本领域的技术人员可以清楚地了解到本申请实施例可借助软件加必需的通用硬件平台的方式来实现，即通过机器可读指令来指令相关的硬件来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请的保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

一种视频目标跟踪方法，应用于终端或服务器，所述方法包括：

获取视频流，根据人脸检测算法识别人脸区域，得到第一视频帧对应的第一待跟踪目标；

对所述第一待跟踪目标通过基于深度神经网络的人脸特征提取得到第一人脸特征，并将所述第一人脸特征存入所述第一待跟踪目标对应的特征库；

在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标，对所述当前待跟踪目标通过基于深度神经网络的人脸特征提取得到第二人脸特征，根据所述第二人脸特征和所述特征库将所述当前待跟踪目标与第一待跟踪目标进行特征匹配，以从所述第一视频帧开始跟踪所述第一待跟踪目标，在跟踪过程中根据提取的更新的人脸特征更新所述特征库。
根据权利要求1所述的方法，所述方法还包括：

根据待跟踪目标的人脸状态通过人脸识别算法识别得到对应的人脸身份信息，根据图像特征提取算法得到所述人脸身份信息对应的目标特征，并为所述目标特征和人脸身份信息建立关联关系；

所述在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标的步骤包括：

判断在当前视频帧根据人脸检测算法是否识别到人脸区域，如果没有识别到人脸区域，则根据图像特征提取算法获取当前视频帧对应的当前图像特征；

基于所述关联关系，将所述当前图像特征与所述目标特征对比得到匹配的目标人脸身份信息；

根据所述目标人脸身份信息得到当前视频帧对应的当前待跟踪目标。
根据权利要求1所述的方法，所述对所述第一待跟踪目标通过基于深度神经网络的人脸特征提取得到第一人脸特征，并将所述第一人脸特征存入所述第一待跟踪目标对应的特征库的步骤包括：

获取第一待跟踪目标对应的第一人脸身份信息；

建立所述第一人脸身份信息对应的第一人脸特征集合，将所述第一人脸特征加入所述第一人脸特征集合并将所述第一人脸特征集合存储至所述特征库；

所述在跟踪过程中根据提取的更新的人脸特征更新所述特征库的步骤包括：

获取当前待跟踪目标对应的当前人脸身份信息；

从所述特征库获取所述当前人脸身份信息对应的第一人脸特征集合；

计算所述第一人脸特征集合中的第一人脸特征与所述第二人脸特征的差异量，如果所述差异量超过预设阈值，则在所述第一人脸特征集合中增加所述第二人脸特征。
根据权利要求1所述的方法，所述在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标的步骤包括：

基于归一化的像素差异特征和人体半身识别算法在当前视频帧中识别人脸区域，得到当前视频帧对应的当前待跟踪目标。
根据权利要求1所述的方法，所述在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标的步骤包括：

基于归一化的像素差异特征识别人脸区域，在当前视频帧得到第一推荐区域；

根据光流分析算法计算得到所述第一待跟踪目标在当前视频帧对应的第二推荐区域；

根据所述第一推荐区域和所述第二推荐区域得到所述当前待跟踪目标。
根据权利要求5所述的方法，所述根据所述第一推荐区域和所述第二推荐区域得到所述当前待跟踪目标的步骤包括：

根据帧间相关性进行运动预测得到预期运动范围，根据所述预期运动范围筛选所述第一推荐区域和所述第二推荐区域得到所述当前待跟踪目标。
根据权利要求1至6任一项所述的方法，所述深度神经网络的网络结构为11层网络层，包括堆栈式的卷积神积网络和完全连接层，所述堆栈式的卷积神积网络由多个卷积层和maxpool层组成，具体网络结构为：

conv3-64*2+LRN+max pool

conv3-128+max pool

conv3-256*2+max pool

conv3-512*2+max pool

conv3-512*2+max pool

FC2048

FC1024，

其中conv3表示半径为3的卷积层，LRN表示LRN层，max pool表示maxpool层，FC表示完全连接层。
根据权利要求1至6任一项所述的方法，所述对所述第一待跟踪目标通过基于深度神经网络的人脸特征提取得到第一人脸特征，并将所述第一人脸特征存入所述第一待跟踪目标对应的特征库的步骤包括：

对所述第一待跟踪目标通过深度神经网络进行人脸特征提取得到第一特征矢量；

所述对所述当前待跟踪目标通过基于深度神经网络的人脸特征提取得到第二人脸特征，根据所述第二人脸特征和所述特征库将所述当前待跟踪目标与第一待跟踪目标进行特征匹配，以从所述第一视频帧开始跟踪所述第一待跟踪目标的步骤包括：

对所述当前待跟踪目标通过深度神经网络进行人脸特征提取得到第二特征矢量；

计算所述第一特征矢量与第二特征矢量的欧氏距离，如果所述欧氏距离小于预设阈值，则确定所述第一待跟踪目标与当前待跟踪目标特征匹配成功。
一种视频目标跟踪装置，所述装置包括：

处理器以及与所述处理器相连接的存储器，所述存储器中存储有可由所述处理器执行的机器可读指令模块；所述机器可读指令模块包括：

检测模块，用于获取视频流，根据人脸检测算法识别人脸区域，得到第一视频帧对应的第一待跟踪目标；

人脸特征提取模块，用于对所述第一待跟踪目标通过基于深度神经网络的人脸特征提取得到第一人脸特征，并将所述第一人脸特征存入所述第一待跟踪目标对应的特征库；

所述检测模块还用于在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标；

所述人脸特征提取模块还用于对所述当前待跟踪目标通过基于深度神经网络的人脸特征提取得到第二人脸特征；

跟踪模块，用于根据所述第二人脸特征和所述特征库将所述当前待跟踪目标与第一待跟踪目标进行特征匹配，以从所述第一视频帧开始跟踪所述第一待跟踪目标；

学习模块，用于在跟踪过程中根据提取的更新的人脸特征更新所述特征库。
根据权利要求9所述的装置，所述装置还包括：

特征身份处理模块，用于根据待跟踪目标的人脸状态通过人脸识别算法识别得到对应的人脸身份信息，根据图像特征提取算法得到所述人脸身份信息对应的目标特征，并为所述目标特征和人脸身份信息建立关联关系；

所述检测模块包括：

图像特征提取单元，用于判断在当前视频帧根据人脸检测算法是否识别到人脸区域，如果没有识别到人脸区域，则根据图像特征提取算法获取当前视频帧对应的当前图像特征；

身份匹配单元，用于基于所述关联关系，将所述当前图像特征与所述目标特征对比得到匹配的目标人脸身份信息；

第一跟踪目标确定单元，用于根据所述目标人脸身份信息得到当前视频帧对应的当前待跟踪目标。
根据权利要求9所述的装置，所述人脸特征提取模块还用于获取第一待跟踪目标对应的第一人脸身份信息，建立所述第一人脸身份信息对应的第一人脸特征集合，将所述第一人脸特征加入所述第一人脸特征集合并将所述第一人脸特征集合存储至所述特征库；

所述学习模块还用于获取当前待跟踪目标对应的当前人脸身份信息，从所述特征库获取所述当前人脸身份信息对应的第一人脸特征集合，计算所述第一人脸特征集合中的第一人脸特征与所述第二人脸特征的差异量，如果所述差异量超过预设阈值，则在所述第一人脸特征集合中增加所述第二人脸特征。
根据权利要求9所述的装置，所述检测模块还用于基于归一化的像素差异特征和人体半身识别算法在当前视频帧中识别人脸区域，得到当前视频帧对应的当前待跟踪目标。
根据权利要求9所述的装置，所述检测模块包括：

第一推荐单元，用于基于归一化的像素差异特征识别人脸区域，在当前视频帧得到第一推荐区域；

第二推荐单元，根据光流分析算法计算得到所述第一待跟踪目标在当前视频帧对应的第二推荐区域；

第二跟踪目标确定单元，用于根据所述第一推荐区域和所述第二推荐区域得到所述当前待跟踪目标。
根据权利要求13所述的装置，所述第二跟踪目标确定单元还用于根据帧间相关性进行运动预测得到预期运动范围，根据所述预期运动范围筛选所述第一推荐区域和所述第二推荐区域得到所述当前待跟踪目标。
根据权利要求9至14任一项所述的装置，所述人脸特征提取模块还用于对所述第一待跟踪目标通过深度神经网络进行人脸特征提取得到第一特征矢量，对所述当前待跟踪目标通过深度神经网络进行人脸特征提取得到第二特征矢量；

所述跟踪模块还用于计算所述第一特征矢量与第二特征矢量的欧氏距离，如果所述欧氏距离小于预设阈值，则确定所述第一待跟踪目标与当前待跟踪目标特征匹配成功。
一种非易失性计算机可读存储介质，所述存储介质中存储有机器可读指令，所述机器可读指令可以由处理器执行以完成以下操作：

获取视频流，根据人脸检测算法识别人脸区域，得到第一视频帧对应的第一待跟踪目标；

对所述第一待跟踪目标通过基于深度神经网络的人脸特征提取得到第一人脸特征，并将所述第一人脸特征存入所述第一待跟踪目标对应的特征库；

在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标，对所述当前待跟踪目标通过基于深度神经网络的人脸特征提取得到第二人脸特征，根据所述第二人脸特征和所述特征库将所述当前待跟踪目标与第一待跟踪目标进行特征匹配，以从所述第一视频帧开始跟踪所述第一待跟踪目标，在跟踪过程中根据提取的更新的人脸特征更新所述特征库。
如权利要求16所述的非易失性计算机可读存储介质，所述机器可读指令可以由所述处理器执行以完成以下操作：

根据待跟踪目标的人脸状态通过人脸识别算法识别得到对应的人脸身份信息，根据图像特征提取算法得到所述人脸身份信息对应的目标特征，并为所述目标特征和人脸身份信息建立关联关系；

所述在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标的步骤包括：

判断在当前视频帧根据人脸检测算法是否识别到人脸区域，如果没有识别到人脸区域，则根据图像特征提取算法获取当前视频帧对应的当前图像特征；

基于所述关联关系，将所述当前图像特征与所述目标特征对比得到匹配的目标人脸身份信息；

根据所述目标人脸身份信息得到当前视频帧对应的当前待跟踪目标。
如权利要求16所述的非易失性计算机可读存储介质，所述对所述第一待跟踪目标通过基于深度神经网络的人脸特征提取得到第一人脸特征，并将所述第一人脸特征存入所述第一待跟踪目标对应的特征库的步骤包括：

获取第一待跟踪目标对应的第一人脸身份信息；

建立所述第一人脸身份信息对应的第一人脸特征集合，将所述第一人脸特征加入所述第一人脸特征集合并将所述第一人脸特征集合存储至所述特征库；

所述在跟踪过程中根据提取的更新的人脸特征更新所述特征库的步骤包括：

获取当前待跟踪目标对应的当前人脸身份信息；

从所述特征库获取所述当前人脸身份信息对应的第一人脸特征集合；

计算所述第一人脸特征集合中的第一人脸特征与所述第二人脸特征的差异量，如果所述差异量超过预设阈值，则在所述第一人脸特征集合中增加所述第二人脸特征。
如权利要求16所述的非易失性计算机可读存储介质，所述在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标的步骤包括：

基于归一化的像素差异特征和人体半身识别算法在当前视频帧中识别人脸区域，得到当前视频帧对应的当前待跟踪目标。
如权利要求16所述的非易失性计算机可读存储介质，所述在当前视频帧根据人脸检测算法识别人脸区域，得到当前视频帧对应的当前待跟踪目标的步骤包括：

基于归一化的像素差异特征识别人脸区域，在当前视频帧得到第一推荐区域；

根据光流分析算法计算得到所述第一待跟踪目标在当前视频帧对应的第二推荐区域；

根据所述第一推荐区域和所述第二推荐区域得到所述当前待跟踪目标。
如权利要求20所述的非易失性计算机可读存储介质，所述根据所述第一推荐区域和所述第二推荐区域得到所述当前待跟踪目标的步骤包括：

根据帧间相关性进行运动预测得到预期运动范围，根据所述预期运动范围筛选所述第一推荐区域和所述第二推荐区域得到所述当前待跟踪目标。
根据权利要求16至21任一项所述的非易失性计算机可读存储介质，所述对所述第一待跟踪目标通过基于深度神经网络的人脸特征提取得到第一人脸特征，并将所述第一人脸特征存入所述第一待跟踪目标对应的特征库的步骤包括：

对所述第一待跟踪目标通过深度神经网络进行人脸特征提取得到第一特征矢量；

所述对所述当前待跟踪目标通过基于深度神经网络的人脸特征提取得到第二人脸特征，根据所述第二人脸特征和所述特征库将所述当前待跟踪目标与第一待跟踪目标进行特征匹配，以从所述第一视频帧开始跟踪所述第一待跟踪目标的步骤包括：

对所述当前待跟踪目标通过深度神经网络进行人脸特征提取得到第二特征矢量；

计算所述第一特征矢量与第二特征矢量的欧氏距离，如果所述欧氏距离小于预设阈值，则确定所述第一待跟踪目标与当前待跟踪目标特征匹配成功。