CN113129332A

CN113129332A - 执行目标对象跟踪的方法和装置

Info

Publication number: CN113129332A
Application number: CN202010044865.3A
Authority: CN
Inventors: 陈一伟; 徐静涛; 俞佳茜; 俞炳仁; 韩在濬; 李贤廷; 崔昌圭; 王强; 谭航凯
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2021-07-16
Also published as: KR20210092672A

Abstract

公开了一种执行目标对象跟踪的方法和装置，所述方法包括：获取图像中的目标对象区域图像的第一深度特征和搜索区域图像的第二深度特征；根据第一深度特征与第二深度特征获得全局响应图，并根据全局响应图获得第一阶段目标对象包围框预测结果；根据第一阶段目标对象包围框预测结果对第二深度特征进行更新；基于第一深度特征获得多个局部特征块，根据所述多个局部特征块与更新后的第二深度特征获得局部响应图，并根据局部响应图获得第二阶段目标对象包围框预测结果。

Description

执行目标对象跟踪的方法和装置

技术领域

本发明总体上涉及计算机视觉领域，更具体地，涉及一种执行目标对象跟踪的方法和装置。

背景技术

基于视觉的目标跟踪技术(Visual object tracking)是计算机视觉中的一个重要方向，其具体任务是在一个视频序列中，根据第一帧图像和给定的目标对象包围框(Bounding box)，在后续帧图像持续预测目标对象的包围框。目标对象可以是某个物体或物体部分。由于给定信息少，场景复杂等，使得基于视觉的目标跟踪任务极具挑战性。复杂场景主要包括目标对象部分或全部被遮挡、目标对象形状变化、目标对象快速运动、帧图像模糊、场景光线变化、视频视角变化较大等情况。目标跟踪方法可以建立目标对象在不同时刻中的关联，因此在计算机视觉领域有广泛的应用，尤其在部分视频应用中，包括相机追焦、动作识别、赛事直播、安防监控、人机交互等。

然而，目前已有的目标跟踪方法都只采用了一阶段网络，而且仅在一阶段网络中对目标对象的特征和搜索区域特征进行一次相关操作，只考虑了目标对象的全局特征相关性，而这将导致目标跟踪准确性下降。鉴于此，需要能够提高目标根据准确性的目标跟踪方法和装置。

发明内容

针对目标跟踪准确性不高的问题，本发明提出块相关与全局相关相结合在两阶段框架下的目标对象跟踪方法和系统。

根据本发明的一方面，提供了一种利用级联网络进行目标对象跟踪的方法，所述方法可包括：获取图像中的目标对象区域图像的第一深度特征和搜索区域图像的第二深度特征；根据第一深度特征与第二深度特征获得全局响应图，并根据全局响应图获得第一阶段目标对象包围框预测结果；根据第一阶段目标对象包围框预测结果对第二深度特征进行更新；基于第一深度特征获得多个局部特征块，根据所述多个局部特征块与更新后的第二深度特征获得局部响应图，并根据局部响应图获得第二阶段目标对象包围框预测结果。

根据示例性实施例，基于第一深度特征获得多个局部特征块可包括：将第一深度特征或通过对第一深度特征进行进一步特征提取而获得的第三深度特征进行分块来获得多个局部特征块；根据所述多个局部特征块与更新后的第二深度特征获得局部响应图可包括：对所述多个局部特征块与更新后的第二深度特征或通过对更新后的第二深度特征进行进一步特征提取而获得的第四深度特征进行块相关来获得局部响应图。

根据示例性实施例，对所述多个局部特征块与更新后的第二深度特征或通过对更新后的第二深度特征进行进一步特征提取而获得的第四深度特征进行块相关来获得局部响应图可包括：对所述多个局部特征块中的每个局部特征块与更新后的第二深度特征或第四深度特征进行块相关来获得多个局部子响应图，并且对所述多个局部子响应图进行融合来获得所述局部响应图。

根据示例性实施例，根据局部响应图获得第二阶段目标对象包围框预测结果可包括：根据所述局部响应图预测第二阶段目标对象包围框的位置偏移和尺寸偏移，并且根据预测出的位置偏移和尺寸偏移获得第二阶段目标对象包围框预测结果。

根据示例性实施例，对所述多个局部子响应图进行融合来获得所述局部响应图包括：将所述多个局部特征块中的每个局部特征块分类为目标对象特征块或背景特征块；将与目标对象特征块对应的局部子响应图和与背景特征块对应的子响应图进行融合来获得所述局部响应图。

根据示例性实施例，将所述多个局部特征块中的每个局部特征块分类为目标对象特征块或背景特征块包括：以目标对象子图像上标定的初始目标对象包围框作为分类依据，根据每个局部特征块与初始目标对象包围框之间的重叠区域占所述每个局部特征块的比值，将所述每个局部特征块分类为目标对象特征块或背景特征块。

根据示例性实施例，第一阶段目标对象包围框预测结果和第二阶段目标对象包围框预测结果均包括目标对象包围框的位置信息和尺寸信息，位置偏移可以是第二阶段目标对象包围框的中心位置坐标与第一阶段目标对象包围框的中心位置坐标之间的坐标偏移，尺寸偏移可以是第二阶段目标对象包围框与预先指定的目标对象包围框之间的尺寸偏移，其中，根据预测出的位置偏移和尺寸偏移获得第二阶段目标对象包围框预测结果可包括：当坐标偏移的绝对值之和大于预设阈值时，将第一阶段目标对象包围框预测结果作为第二阶段目标对象包围框预测结果；当坐标偏移的绝对值之和小于或等于所述预设阈值时，通过将第一阶段目标对象包围框的中心位置与预测出的位置偏移相加并且将预先指定的目标对象包围框的尺寸与预测出的尺寸偏移相加来获得第二阶段目标对象包围框预测结果。

根据示例性实施例，根据全局响应图获得第一阶段目标对象包围框预测结果可包括：将全局响应图中分值最大的位置作为第一阶段目标对象包围框预测结果中包括的位置信息，并将在当前帧图像之前的图像上预测出的目标对象包围框的尺寸作为第一阶段目标对象包围框预测结果中包括的尺寸信息。

根据示例性实施例，将第一深度特征或通过对第一深度特征进行进一步特征提取而获得的第三深度特征进行分块来获得多个局部特征块可包括：按照以下三种划分方式之一将第一深度特征或第三深度特征进行分块：各局部特征块之间彼此不重叠的划分方式；相邻局部特征块之间彼此重叠的划分方式；基于预定的块分布的划分方式。

根据本发明的另一方面，提供了一种执行目标对象跟踪的装置，所述装置可包括：第一阶段跟踪器，被配置为：获取图像中的目标对象区域图像的第一深度特征和搜索区域图像的第二深度特征；根据第一深度特征与第二深度特征获得全局响应图，并根据全局响应图获得第一阶段目标对象包围框预测结果；根据第一阶段目标对象包围框预测结果对第二深度特征进行更新；第二阶段跟踪器，被配置为：基于第一深度特征获得多个局部特征块，根据所述多个局部特征块与更新后的第二深度特征获得局部响应图，并根据局部响应图获得第二阶段目标对象包围框预测结果。

根据本发明的另一方面，提供了一种电子设备，所述电子设备可包括处理器和存储器，其中，所述存储器中存储有程序指令，其中，当所述程序指令被处理器执行时，促使处理器执行如上所述的目标跟踪方法。

根据本发明的另一方面，提供了一种计算机可读记录介质，其中，所述计算机可读记录介质上记录有程序指令，其中，当所述程序指令被处理器执行时，促使处理器执行如上所述的目标跟踪方法。

根据本发明的目标跟踪方法和目标跟踪系统，由于利用级联网络将全局相关和块相关相结合进行两阶段跟踪，因此，不仅可以有效地提高目标跟踪准确性，而且具有轻量级、低计算消耗的特点，能够对目标对象进行高精度、稳定的实时跟踪。

附图说明

从下面结合附图对本申请实施例的详细描述中，本申请的这些和/或其他方面和优点将变得更加清楚并更容易理解，其中：

图1是常用目标跟踪装置进行目标对象跟踪的流程示意图；

图2是现有目标跟踪方法的示意图；

图3示出根据本发明的目标跟踪方法的构思的简要示意图；

图4示出根据本发明的目标跟踪方法的构思的详细示意图；

图5是示出根据本发明的目标跟踪方法的流程图；

图6是根据本发明的全局相关操作的示意图；

图7是根据本发明的目标跟踪方法的第一阶段操作的示意图；

图8是根据本发明的块划分方式的示意图；

图9是根据本发明的块相关操作的示意图；

图10是根据本发明的干扰抑制与响应图融合的示意图；

图11是根据本发明的自适应预测的示意图；

图12是根据本发明的目标跟踪方法的第二阶段操作的示意图；

图13是根据本发明的网络训练示意图；

图14示出本发明提出的结合干扰抑制的块相关方法与全局相关方法和块相关方法的效果差异对比；

图15是根据本发明的目标跟踪装置的框图。

具体实施方式

在描述本发明构思和本发明的示例性实施例之前，为便于更好地理解本发明，现在首先对目标跟踪系统和现有技术中的目标跟踪方法进行简要说明。

图1是常用目标跟踪装置进行目标对象跟踪的流程示意图。如图1所示，通常，可采用单目摄像头采集视频序列的第一帧图像，通过手动标注或者视觉目标检测技术(Visualobject detection)获得目标对象的包围框，进行目标跟踪装置的初始化。在视频序列的后续帧图像中，根据前一帧图像的预测结果选取搜索区域，利用图像特征进行目标对象的跟踪。

目标对象的特征表示(Feature representation)是影响目标跟踪系统性能的关键。现有目标跟踪方法中主要采用了手工特征(Hand-crafted feature)和深度特征(Deepfeature)。常用的手工特征包括方向梯度直方图(HOG)、尺度不变特征(SIFT)、灰度特征(Gray)等。深度特征是通过参数模型在大量样本的训练学习所获得，与手工特征相比具有更强的可区分性和鲁棒性。近几年来，随着基于深度特征的目标跟踪方法的突破，其在鲁棒性(Robustness)和准确性(Accuracy)上已经超过的基于手工特征的传统方法，尤其是利用卷积神经网络(Convolutional neural network，简称CNN)得到的深度特征。

在已有的基于深度特征的目标跟踪方法中，有些采用了孪生网络(Siamesenetwork)作为目标跟踪网络的基础框架。孪生网络使用同样的网络参数分别提取第一帧图像的目标对象图像特征和当前帧图像中搜索区域图像特征，保证所提取的特征在同一特征空间中，然后利用两种特征的相关性，得到搜索区域图像中目标对象的响应图。在大规模数据集上进行训练后，在精度与鲁棒性上取得了较好的结果。现有基于孪生网络的目标跟踪方法，可以分为无包围框回归和有包围框回归两类。

无包围框回归方法通过孪生网络提取第一帧目标对象图像和当前帧的搜索区域图像在同一特征空间的特征，利用相关操作获得代表目标对象图像与搜索区域图像之间匹配程度的响应图。取响应图中最大值对应的位置作为当前帧图像中目标对象的中心位置。针对目标尺寸变化，采用多尺度测试，取响应最大的尺度下的目标对象包围框作为当前帧图像中目标对象的包围框。

有包围框回归方法对无包围框回归方法进行了改进。图2是使用有包围框回归的现有目标对象跟踪方法的示意图。如图2所示，该方法对相关操作获得的位置响应信息进一步扩展。比如利用区域生成网络(Region proposal network,RPN)同时得到多个备选框的分类(区分目标对象和非目标对象)和包围框坐标回归结果，选取分类概率最大的备选框作为当前帧图像中的目标对象。由于有包围框坐标回归的学习，这种方式的目标跟踪精度较高。

采用无包围框回归的目标跟踪方案，由于不需要额外的网络进行包围框坐标回归学习，模型可以较为轻量，参数较少，但精度较低。并且多尺度测试会降低模型轻量的优点(每一个尺度下需要进行一次测试)。采用有包围框回归的目标跟踪技术方案，例如结合区域生成网络，可以较大地提升跟踪器的性能，但其参数量较大，使得系统的实时性降低。

另外上述两类目标跟踪方法，都只采用了一阶段网络，并且仅在一阶段网络中对目标对象的特征和搜索区域特征进行一次相关操作，只考虑了目标对象的全局特征相关性。这样的处理方式存在以下技术缺陷：一方面，由于在网络训练中存在正负样本不均衡的情况，使得一阶段网络倾向于抑制负样本的影响，对正样本的信息利用得并不够充分，使得跟踪的准确性降低。并且由于跟踪是在视频图像帧之间对目标对象进行的，使得跟踪器易受到累计误差的影响。在背景复杂、光线或目标形状变化过大的情况下，若缺少对目标周围信息的挖掘，跟踪的性能会下降。另一方面，只采用了目标对象全局的特征对目标对象进行整体跟踪，这种做法忽视了目标对象的局部信息，在目标发生形变等情况下会使得跟踪不够准确。

为此，本发明提出了一种新的目标跟踪方法来提高目标跟踪的准确性。

下面，将参照图3至图14详细描述本发明的进行目标对象跟踪的构思和示例性实施例。

图3示出根据本发明的目标跟踪方法的构思的简要示意图。本发明的目标跟踪方法包括两个阶段。如图3所示，在确定了目标对象区域图像和搜索区域图像的情况下，首先进行第一阶段跟踪来获得粗略的初步目标跟踪结果。然后，进行第二阶段跟踪得到精确的最终目标跟踪结果。

图4示出根据本发明的目标跟踪方法的构思的详细示意图。具体地，如图4所示，在本发明的目标跟踪方法包括两个阶段。第一阶段进行粗略跟踪，在该阶段中，在确定了目标对象区域图像和搜索区域图像的情况下，分别提取目标对象区域图像和搜索区域图像的全局特征，并对提取的全局特征进行全局相关(Global correlation)计算，得到全局响应图，然后进行粗略匹配来得到粗略的预测结果。第二阶段是精细跟踪，进一步根据目标对象的局部图像特征与更新后的搜索区域图像特征获得局部响应图(例如，对目标对象的局部图像特征与更新后的搜索区域图像特征进行块相关来获得局部响应图)，，进而根据局部响应图获得最终的目标跟踪结果。

接下来，将参照图5至图13详细说明根据本发明的目标跟踪方法。图5是示出根据本发明的目标跟踪方法的流程图。参照图5，在步骤S510，获取图像中的目标对象区域图像的第一深度特征和搜索区域图像的第二深度特征。例如，首先，可获取视频序列，然后，利用第一神经网络，提取视频序列的第一帧图像中的目标对象区域图像的第一深度特征，并提取视频序列的当前帧图像中的搜索区域图像的第二深度特征。这里，目标对象区域图像可以是通过根据手动标定的初始目标对象包围框对第一帧图像进行裁剪而获得的，或者，目标对象子图像也可以是通过根据利用目标对象检测确定的初始目标对象包围框对第一帧图像进行裁剪而获得的，本发明对此并无限制。此外，这里的第一深度特征是目标对象区域图像的全局特征，第二深度特征是搜索区域图像的全局特征。作为示例，以上提及的第一神经网络可以是孪生卷积网络，但不限于此。

在步骤S520，根据第一深度特征与第二深度特征获得全局响应图，并根据全局响应图获得第一阶段目标对象包围框预测结果。具体地，全局响应图是通过对第一深度特征与第二深度特征进行全局相关计算而获得的。为方便理解，先对相关操作进行简要介绍。在图像任务中，应用相关操作可以获得代表两图像的相似程度的响应图Y，其中，值越大，表示在搜索区域图像Z中该对应位置与目标对象区域图像X的相似程度越高。相关计算如下式所示：

Y＝corr(X,Z)

其中h,w表示图像X的尺寸，i,j,u,v分别为图像中的坐标。图6是根据本发明的全局相关操作的示意图。下面参照图6对本发明的全局相关操作进行简要说明。如图6所示，全局相关是对目标对象区域图像的整个图像特征(在图6中被称为“目标对象图像特征F_T”)与搜索区域子图像的整个图像特征(在图6中被称为“搜索区域图像特征F_St”)执行相关操作。通过全局相关操作，可获得全局响应图。在本发明中，第一阶段目标对象包围框预测结果可包括目标对象包围框的位置信息和尺寸信息。具体地，在步骤S520中，根据全局响应图获得第一阶段目标对象包围框预测结果可包括：将全局响应图中分值最大的位置作为第一阶段目标对象包围框预测结果中包括的位置信息，并将在当前帧图像之前的图像上预测出的目标对象包围框的尺寸作为第一阶段目标对象包围框预测结果中包括的尺寸信息。在步骤S530，根据第一阶段目标对象包围框预测结果对第二深度特征进行更新，从而获得更新后的第二深度特征。具体地，可根据第一阶段目标对象包围框预测结果对搜索区域子图像进行裁剪来得到缩小后的搜索区域子图像，并利用第一卷积网络提取缩小后的搜索区域子图像的第二深度特征，作为所述更新后的第二深度特征。

以上步骤S510至S530是根据本发明的目标跟踪方法在第一阶段跟踪中执行的操作。

为了更直观地理解根据本发明的目标跟踪方法在第一阶段的操作，下面参照图7再对目标跟踪方法的第一阶段的操作进行简要描述。如图7所示，在第一阶段跟踪中，主要包括三部分：特征提取(对应以上的步骤S510)、全局相关(对应以上的步骤S520)、特征图裁剪(对应以上的步骤S530)。根据示例性实施例，首先，在特征提取部分，可利用例如卷积神经网络对目标对象区域图像与搜索区域图像分别进行特征提取。在特征提取时，可采用轻量级的卷积神经网络φ₁提取图像特征。针对输入的目标对象区域图像Z与搜索区域图像X，可利用卷积神经网络φ₁获得目标对象区域图像的深度特征φ₁(Z)与搜索区域图像的深度特征φ₁(X)。在所采用的孪生卷积网络中，两个分支的参数共享，以保证将图像映射到相同的特征空间。

接着，在全局相关部分，对提取的特征进行全局相关操作获得全局响应图，并处理响应图获得第一阶段预测结果(即，以上提及的第一阶段目标对象包围框预测结果)。全局相关操作可以获得整张目标对象区域图像与搜索区域图像的全局位置(相似程度)响应图f，f可被表示如下：

f＝corr(φ₁(Z)，φ₁(X))

在获得全局响应图之后，可选取全局响应图中响应分值最大的位置作为目标对象包围框的第一阶段预测位置，包围框尺寸选取当前帧图像的上一帧图像预测的目标对象包围框的尺寸，这样便可以得到第一阶段目标对象包围框预测结果P₁＝(x₁,y₁,w₁,h₁)，其中，x₁和y₁分别是第一阶段目标对象包围框的中心位置的横坐标和纵坐标，w₁和h₁分别是第一阶段目标对象包围框的宽和高。

最后，在特征图裁剪部分，根据第一阶段预测出的目标包围框的中心位置与尺寸，对搜索区域图像X进行裁剪，获得区域范围更小的搜索区域图像X’，并提取该搜索区域图像的第二深度特征来获得更新后的第二深度特征φ₁(X’)，以供第二阶段使用。

下面，返回参照图5，继续对根据本发明的目标跟踪方法的第二阶段的操作进行描述。在步骤S540，基于第一深度特征获得多个局部特征块，根据所述多个局部特征块与更新后的第二深度特征获得局部响应图，并根据局部响应图获得第二阶段目标对象包围框预测结果。例如，可将第一深度特征或通过对第一深度特征进行进一步特征提取而获得的第三深度特征进行分块来获得多个局部特征块。作为示例，可利用第二神经网络对第一深度特征和更新后的第二深度特征进行进一步特征提取，来获得目标对象图像的第三深度特征和搜索区域图像的第四深度特征。这里，第三深度特征是对第一深度特征进行进一步卷积操作而获得的深度特征，第四深度特征是对更新后的第二深度特征进行进一步卷积操作而得到的深度特征。

作为示例，将第一深度特征或通过对第一深度特征进行进一步特征提取而获得的第三深度特征进行分块以获得多个局部特征块可以是按照以下三种划分方式之一将第一深度特征或第三深度特征进行分块：各局部特征块之间彼此不重叠的划分方式；相邻局部特征块之间彼此重叠的划分方式；基于预定的块分布的划分方式。这里，预定的块分布既可以是人为指定的块分布，也可以是学习的块分布。基于人为指定的块分布可以是根据指定的特定分布进行块划分。例如，当指定的块分布是高斯分布时，块的分布更加靠近中心。此外，这里提及的学习的块分布可以是通过以下方式得到的块分布：将特定分布的参数(例如高斯分布的均值与方差)作为优化的目标，在训练中不断进行调整，直到找到最合适的参数，进而学习出对应的块分布。图8是根据本发明的块划分方式的示意图，其中具体示出了以上三种划分方式。

如上所述，在获得了多个局部特征块之后，可根据所述多个局部特征块与更新后的第二深度特征获得局部响应图，并根据局部响应图获得第二阶段目标对象包围框预测结果。根据示例性实施例，可对所述多个局部特征块与更新后的第二深度特征或通过对更新后的第二深度特征进行进一步特征提取而获得的第四深度特征进行块相关来获得局部响应图。具体地，首先，可对所述多个局部特征块中的每个局部特征块与更新后的第二深度特征或第四深度特征进行块相关来获得多个局部子响应图。然后，对所述多个局部子响应图进行融合来获得所述局部响应图。图9是根据本发明的块相关操作的示意图。如图9所示，块相关是在对目标对象特征(以上提及的第一深度特征或第三深度特征)进行分块后，对多个局部特征块中的每个局部特征块与搜索区域图像特征(以上提及的更新后的第二深度特征或第四深度特征)分别执行相关操作，得到多个局部子响应图，随后可进行响应图融合来获得融合后的局部响应图。根据本发明示例性实施例，对所述多个局部子响应图进行融合来获得所述局部响应图可包括：将所述多个局部特征块中的每个局部特征块分类为目标对象特征块或背景特征块，并且将与目标对象特征块对应的局部子响应图和与背景特征块对应的子响应图进行融合来获得所述局部响应图。按照这样的融合方式，可以进一步提高目标跟踪方法的稳定性和精度。这是因为，目标对象子图像中除了目标对象同时还存在部分背景区域，而背景区域的特征会影响目标跟踪方法的稳定性与精度。而通过将多个局部特征块分类为目标对象特征块和背景特征块之后再进行融合，可以有效地减少背景的干扰。

图10是根据本发明的干扰抑制和响应图融合的示意图。如图10所示，作为示例，在进行局部特征块分类时，可以以目标对象区域图像上标定的初始目标对象包围框作为分类依据，根据每个局部特征块与初始目标对象包围框之间的重叠区域占所述每个局部特征块的比值，将所述每个局部特征块分类为目标对象特征块或背景特征块。例如，以目标对象区域图像上标定的初始目标对象包围框作为分类依据，当局部特征块有p％以上的区域在包围框内则为目标对象特征块，而当局部特征块与包围框重叠的部分小于p％则为背景特征块，这里，p可以是预先设定的阈值。在分类之后，例如可利用下面的等式将与目标对象特征块对应的局部子响应图和与背景特征块对应的子响应图进行融合来获得所述局部响应图：

其中，

其中，S为所述局部响应图，s_o为与目标对象特征块对应的局部子响应图，s_b为与背景特征块对应的子响应图，n_o为目标对象特征块的数量，n_b为背景特征块的数量。

在获得局部响应图之后，接下来，根据局部响应图获得第二阶段目标对象包围框预测结果。具体地，可根据所述局部响应图预测第二阶段目标对象包围框的位置偏移和尺寸偏移，并且根据预测出的位置偏移和尺寸偏移获得第二阶段目标对象包围框预测结果。例如，可利用第三神经网络处理所述局部响应图，来预测第二阶段目标对象包围框的位置偏移和尺寸偏移。第三神经网络可不同于以上提及的第一神经网络和第二神经网络。这里，第二目标对象包围框预测结果可包括目标对象包围框的位置信息和尺寸信息。在下文中，以上过程可被称为自适应预测过程。图11是根据本发明的自适应预测的示意图。如图11所示，在自适应预测过程中，可首先利用卷积网络处理局部响应图S，预测第二阶段包围框的偏移D＝(d_x,d_y,d_w,d_h)，该偏移包括位置偏移和尺寸偏移。根据示例性实施例，位置偏移可以是第二阶段目标对象包围框的中心位置坐标与第一阶段目标对象包围框的中心位置坐标之间的坐标偏移，尺寸偏移可以是第二阶段目标对象包围框与预先指定的目标对象包围框之间的尺寸偏移。在获得偏移之后，根据预测出的位置偏移和尺寸偏移获得第二阶段目标对象包围框预测结果。具体地，当坐标偏移的绝对值之和大于预设阈值时，将第一阶段目标对象包围框预测结果作为第二阶段目标对象包围框预测结果；然而，当坐标偏移的绝对值之和小于或等于所述预设阈值时，通过将第一阶段目标对象包围框的中心位置与预测出的位置偏移相加并且将预先指定的目标对象包围框的尺寸与预测出的尺寸偏移相加来获得第二阶段目标对象包围框预测结果。例如，如果第一阶段目标对象包围框预测结果为P₁＝(x₁,y₁,w₁,h₁)并且预先指定的目标对象包围框的尺寸为(w₀,h₀)(即，宽为w₀，高为h₀)，则第二阶段目标对象包围框预测结果可以是P₂＝(x₁₊d_x,y₁₊d_y,w₀₊d_w,h₀₊d_h)。

至此，便完成了根据本发明的目标跟踪方法的第二阶段的操作。为便于更直观地理解在第二阶段的操作，下面参照图12再对目标跟踪方法的第二阶段的操作进行简要描述。如图12所示，在通过第一阶段的操作获得了目标对象子图像的深度特征φ₁(Z)与更新后的深度特征φ₁(X’)之后，可将其输入卷积网络进一步提取特征，然后对提取出的特征进行块相关操作。之后，可进行干扰抑制和子响应图融合来获得局部响应图，最后通过自适应预测来获得第二阶段目标对象包围框预测结果P₂。

根据本发明，可利用级联网络(包括以上提及的第一神经网络、第二神经网络和第三神经网络)通过图5所示的方法进行目标对象跟踪，并且该级联网络可以是采用多监督信号进行训练的。这里，所述多监督信号包括全局响应图、局部响应图和目标包围框。下面，对级联网络的训练做简要介绍。本领域技术人员清楚的是训练过程与预测过程所执行的操作是相同的，不同之处在于训练时的输入是目标对象区域图像(也可被称为“模板图像”)和搜索区域图像和搜索区域图像上的已知包围框，输出可以是在搜索区域图像上所预测的目标包围框、全局响应图与局部响应图。以上三者被作为监督信号，通过迭代循环学习，优化损失函数至收敛，来学习网络中的参数。具体地，在采用多监督信号进行训练时，首先进行第一阶段跟踪获得全局响应图，其中，在全局响应图中，离中心位置距离小于某一阈值的设为+1，大于某一阈值的设为-1。接下来，在进行第二阶段跟踪。具体地，首先，可获得搜索区域图像上目标的分割结果(可以采用分割算法或者手动标注)，其次，在分割结果上进行距离变换，并且对距离变化图做数值归一化获得局部响应图的监督信号。最后，通过自适应位置预测获得精细预测结果。在训练过程中，将全局响应图、局部响应图和目标包围框作为监督信号，通过迭代循环学习，不断优化损失函数至收敛，来学习级联网络中的参数。例如，训练过程可以是：首先，将同一视频序列中抽取的图像对(包含模板图像与搜索区域图像)输入一阶段跟踪网络，获得一阶段输出的结果(全局响应图预测与粗预测框)。采用二分类交叉熵损失函数(Binary Cross Entroy)计算全局响应图预测与真值的损失Loss0(损失，可以理解为差异，损失为零即无差异)。然后，基于粗预测框的预测结果，裁剪一阶段特征(在图13中被称为“共享特征”)作为第二阶段跟踪网络的输入并生成局部响应图的真值。接着，获得二阶段的输出(局部响应图预测与精细预测框)。之后，采用KL散度(Kullback-leiblerDivergence)衡量局部响应图预测与真值的损失Loss1。接下来，采用L1距离衡量精细预测框与真实框的损失Loss2。最后，优化损失(Loss＝Loss0+(a1)*Loss1+(a2)*Loss2)至收敛，来学习网络的参数，其中，a1、a2为各损失的权重。

在训练结束后可对级联网络进行测试，具体地，给定第一帧图像和目标对象包围框之后，输入到级联网络中进行初始化，得到目标图像特征，之后持续输入后续帧图像，可实时得到目标对象的跟踪结果。

以上，已经对本发明的目标跟踪方法进行了介绍。本发明提出块相关与全局相关相结合在两阶段框架下的目标对象跟踪方法，首次采用块相关提取局部信息用于目标对象包围框的调整，相比现有目标跟踪方法具有轻量级、低计算消耗的特点。根据本发明的目标跟踪方法可在移动设备上对目标对象进行高精度、稳定的实时跟踪。

另外，如上所述，本发明的目标跟踪方法还采用了结合干扰抑制的块相关方法。图14示出本发明采用的结合干扰抑制的块相关方法与全局相关方法和块相关方法的效果差异。如图14所示，通过对目标跟踪过程中的全局相关响应图(即，以上提及的全局响应图)、块相关响应图(即，以上提及的局部响应图)以及块相关基础上结合干扰抑制的结果进行对比分析，可以发现本发明采用的结合干扰抑制的块相关方法可以对跟踪目标的细节信息进行有效的提取，从而可进一步提高跟踪准确性。

图15是根据本发明的执行目标对象跟踪的装置(以上，为描述方便，将其称为“目标跟踪装置”)的框图。参照图15，目标跟踪装置1500可包括第一阶段跟踪器1510和第二阶段跟踪器1520。具体地，第一阶段跟踪器1510可被配置为：获取图像中的目标对象区域图像的第一深度特征和搜索区域图像的第二深度特征；根据第一深度特征与第二深度特征获得全局响应图，并根据全局响应图获得第一阶段目标对象包围框预测结果；根据第一阶段目标对象包围框预测结果对第二深度特征进行更新。第二阶段跟踪器1530可被配置为：基于第一深度特征获得多个局部特征块，根据所述多个局部特征块与更新后的第二深度特征获得局部响应图，并根据局部响应图获得第二阶段目标对象包围框预测结果。由于以上已经在描述根据本发明的目标跟踪方法的过程中，对上述操作所涉及的内容进行了介绍，因此这里为简洁起见不再赘述。

以上已经参照图1至图15描述了根据本发明的实施例的目标跟踪方法和目标跟踪装置。然而，应理解的是：图15所示的装置中的各个单元(例如，第一阶段跟踪器1510和第二阶段跟踪器1520)可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些单元可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。作为示例，参照图15描述的装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行程序指令的装置，但不限于此。

需要说明的是，尽管以上在描述目标跟踪装置1500时将其划分为用于分别执行相应处理的单元，然而，本领域技术人员清楚的是，各单元执行的处理也可以在目标跟踪装置不进行任何具体单元划分或者各单元之间并无明确划界的情况下执行。此外，以上参照图15描述的装置并不限于包括以上描述的单元，而是还可以根据需要增加一些其他单元(例如，存储单元、数据处理单元等)，或者以上单元也可被组合。

此外，根据本发明的目标跟踪方法可被记录在计算机可读记录介质中。具体地，根据本发明，可提供一种记录有程序指令的计算机可读记录介质，当所述程序指令被处理器执行时，可促使处理器执行如上所述的目标跟踪方法。计算机可读记录介质的示例可包括磁介质(例如硬盘、软盘和磁带)；光学介质(例如CD-ROM和DVD)；磁光介质(例如，光盘)；以及特别配制用于存储并执行程序指令的硬件装置(例如，只读存储器(ROM)、随机存取存储器(RAM)、闪存等)。此外，根据本发明，还可提供一种包括处理器和存储器的电子装置，所述存储器中存储有程序指令，其中，当所述程序指令被处理器执行时，促使处理器执行如上所述的目标跟踪方法。程序指令的示例包括例如由编译器产生的机器码和包含可使用解释器由计算机执行的高级代码的文件。

另外，根据本申请示例性实施例的目标跟踪方法中的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。

尽管已经参照本发明的示例性实施例具体显示和描述了本发明，但是本领域的技术人员应该理解，在不脱离由权利要求限定的本发明的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种执行目标对象跟踪的方法，包括：

获取图像中的目标对象区域图像的第一深度特征和搜索区域图像的第二深度特征；

根据第一深度特征与第二深度特征获得全局响应图，并根据全局响应图获得第一阶段目标对象包围框预测结果；

根据第一阶段目标对象包围框预测结果对第二深度特征进行更新；

基于第一深度特征获得多个局部特征块，根据所述多个局部特征块与更新后的第二深度特征获得局部响应图，并根据局部响应图获得第二阶段目标对象包围框预测结果。

2.如权利要求1所述的方法，其中，基于第一深度特征获得多个局部特征块包括：将第一深度特征或通过对第一深度特征进行进一步特征提取而获得的第三深度特征进行分块来获得多个局部特征块，

根据所述多个局部特征块与更新后的第二深度特征获得局部响应图包括：对所述多个局部特征块与更新后的第二深度特征或通过对更新后的第二深度特征进行进一步特征提取而获得的第四深度特征进行块相关来获得局部响应图。

3.如权利要求2所述的方法，其中，对所述多个局部特征块与更新后的第二深度特征或通过对更新后的第二深度特征进行进一步特征提取而获得的第四深度特征进行块相关来获得局部响应图包括：对所述多个局部特征块中的每个局部特征块与更新后的第二深度特征或第四深度特征进行块相关来获得多个局部子响应图，并且对所述多个局部子响应图进行融合来获得所述局部响应图；

其中，根据局部响应图获得第二阶段目标对象包围框预测结果包括：根据所述局部响应图预测第二阶段目标对象包围框的位置偏移和尺寸偏移，并且根据预测出的位置偏移和尺寸偏移获得第二阶段目标对象包围框预测结果。

4.如权利要求3所述的方法，其中，对所述多个局部子响应图进行融合来获得所述局部响应图包括：

将所述多个局部特征块中的每个局部特征块分类为目标对象特征块或背景特征块；

将与目标对象特征块对应的局部子响应图和与背景特征块对应的子响应图进行融合来获得所述局部响应图。

5.如权利要求4所述的方法，其中，将所述多个局部特征块中的每个局部特征块分类为目标对象特征块或背景特征块包括：

以目标对象子图像上标定的初始目标对象包围框作为分类依据，根据每个局部特征块与初始目标对象包围框之间的重叠区域占所述每个局部特征块的比值，将所述每个局部特征块分类为目标对象特征块或背景特征块。

6.如权利要求3所述的方法，其中，第一阶段目标对象包围框预测结果和第二阶段目标对象包围框预测结果均包括目标对象包围框的位置信息和尺寸信息，位置偏移是第二阶段目标对象包围框的中心位置坐标与第一阶段目标对象包围框的中心位置坐标之间的坐标偏移，尺寸偏移是第二阶段目标对象包围框与预先指定的目标对象包围框之间的尺寸偏移，

其中，根据预测出的位置偏移和尺寸偏移获得第二阶段目标对象包围框预测结果包括：

当坐标偏移的绝对值之和大于预设阈值时，将第一阶段目标对象包围框预测结果作为第二阶段目标对象包围框预测结果；

当坐标偏移的绝对值之和小于或等于所述预设阈值时，通过将第一阶段目标对象包围框的中心位置与预测出的位置偏移相加并且将预先指定的目标对象包围框的尺寸与预测出的尺寸偏移相加来获得第二阶段目标对象包围框预测结果。

7.如权利要求6所述的方法，其中，根据全局响应图获得第一阶段目标对象包围框预测结果包括：

将全局响应图中分值最大的位置作为第一阶段目标对象包围框预测结果中包括的位置信息，并将在当前帧图像之前的图像上预测出的目标对象包围框的尺寸作为第一阶段目标对象包围框预测结果中包括的尺寸信息。

8.如权利要求2所述的方法，其中，将第一深度特征或通过对第一深度特征进行进一步特征提取而获得的第三深度特征进行分块来获得多个局部特征块包括：按照以下三种划分方式之一将第一深度特征或第三深度特征进行分块：

各局部特征块之间彼此不重叠的划分方式；

相邻局部特征块之间彼此重叠的划分方式；

基于预定的块分布的划分方式。

9.一种执行目标对象跟踪的装置，包括：

第一阶段跟踪器，被配置为：获取图像中的目标对象区域图像的第一深度特征和搜索区域图像的第二深度特征；根据第一深度特征与第二深度特征获得全局响应图，并根据全局响应图获得第一阶段目标对象包围框预测结果；根据第一阶段目标对象包围框预测结果对第二深度特征进行更新；

第二阶段跟踪器，被配置为：基于第一深度特征获得多个局部特征块，根据所述多个局部特征块与更新后的第二深度特征获得局部响应图，并根据局部响应图获得第二阶段目标对象包围框预测结果。

10.一种电子设备，包括处理器和存储器，其中，所述存储器中存储有程序指令，其中，当所述程序指令被处理器执行时，促使处理器执行如权利要求1-8中的任一项所述的方法。

11.一种计算机可读记录介质，其中，所述计算机可读记录介质上记录有程序指令，其中，当所述程序指令被处理器执行时，促使处理器执行如权利要求1-8中的任一项所述的方法。