CN109785385B

CN109785385B - 视觉目标跟踪方法及系统

Info

Publication number: CN109785385B
Application number: CN201910058977.1A
Authority: CN
Inventors: 王金桥; 赵飞; 唐明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2021-01-29
Anticipated expiration: 2039-01-22
Also published as: CN109785385A

Abstract

本发明涉及一种视觉目标跟踪方法及系统，所述视觉目标跟踪方法包括：获取多个历史目标模板及待跟踪目标的当前视频序列的历史位置信息；根据各所述历史目标模板，从所述待跟踪目标的当前视频序列中确定多组目标模板图像及搜索区域；根据目标定位模型，及每组目标模板图像及搜索区域，预测所述目标模板图像在搜索区域中的预测位置信息；基于动作网络模型，根据所述目标模板图像的预测位置信息及所述历史位置信息，确定所述目标模板图像的目标位置预测收益值；比较各个目标模板图像的目标位置预测收益值，确定目标位置预测收益值最大的目标模板图像的预测位置信息，从而能够精准确定待跟踪目标的当前帧图像的预测位置信息。

Description

视觉目标跟踪方法及系统

技术领域

本发明涉及图像处理技术领域，特别是涉及一种视觉目标跟踪方法及系统。

背景技术

视觉目标跟踪是计算机视觉中的一个重要的研究方向。在一个视频序列的每一帧中，跟踪算法需要确定待跟踪目标的位置和尺度信息。由于待跟踪物体的表观特征仅由第一帧给定，且跟踪过程中会出现光照变化、尺度变化、遮挡、运动模糊等多种因素影响，因此跟踪算法不仅需要对环境变化具有极强的鲁棒性，而且要对待跟踪目标的表观特征进行有较强判别力的建模。在这种条件下，传统的基于手工特征的目标跟踪算法表现欠佳。

近年来，深度学习在计算机视觉的多个方向取得了巨大成功。其中，深度卷积神经网络利用大量训练数据和误差的反向传播算法自动地学习得到具有较强判别力的特征。同时，基于深度神经网络的强化学习算法在复杂环境中展现出了很大的潜力。即深度神经网络不仅可以用于图像的特征提取，而且可以拟合复杂的决策函数。

现有的基于深度学习或强化学习的视觉目标跟踪算法尚有以下不足：首先，基于强化学习的目标跟踪算法只能通过多个离散的动作回归跟踪结果，不仅跟踪效率低，而且离散的动作导致跟踪精度较差；其次，已有的基于深度学习的跟踪算法在训练阶段仅仅利用离散的两帧图像进行训练，而没有在连续的视频序列上进行训练，这样会导致跟踪算法的累计误差较大，不能进行长时间的跟踪；最后，这些跟踪算法没有有效的目标模板更新策略，随着跟踪时间的变长，累计误差逐渐增加，最终导致跟踪失败。

发明内容

为了解决现有技术中的上述问题，即为了提高目标跟踪精度，本发明提供了一种视觉目标跟踪方法及系统。

为实现上述目的，本发明提供了如下方案：

一种视觉目标跟踪方法，所述视觉目标跟踪方法包括：

获取多个历史目标模板及待跟踪目标的当前视频序列的历史位置信息；

根据各所述历史目标模板，从所述待跟踪目标的当前视频序列中确定多组目标模板图像及搜索区域；

根据目标定位模型，及每组目标模板图像及搜索区域，预测所述目标模板图像在搜索区域中的预测位置信息；

基于动作网络模型，根据所述目标模板图像的预测位置信息及所述历史位置信息，确定所述目标模板图像的目标位置预测收益值；

比较各个目标模板图像的目标位置预测收益值，确定目标位置预测收益值最大的目标模板图像的预测位置信息，用于跟踪待跟踪目标的当前帧图像。

可选的，所述视觉目标跟踪方法还包括：

根据预测位置信息，从当前帧图像中提取预测目标模板；

将预测目标模板替换目标位置预测收益值最小的目标模板图像对应的目标模板，以更新历史目标模板。

可选的，所述目标定位模型的构建方法包括：

对待跟踪目标的历史视频序列进行目标位置标注，获取待跟踪目标的目标跟踪数据集；

根据所述目标跟踪数据集，确定用于训练连体网络的训练数据；

对所述训练数据进行连体网络训练，得到目标定位模型。

可选的，所述对待跟踪目标的历史视频序列进行目标位置标注，获取待跟踪目标的目标跟踪数据集，具体包括：

从所述历史视频序列中提取多帧图像；

从每帧图像中确定对应的目标矩形框，每个目标矩形框为包含待跟踪目标的最小矩形框；

根据各个目标矩形框，得到目标跟踪数据集；所述目标跟踪数据集包括多对由设定矩形框的左上角坐标信息和右下角坐标信息形成的坐标对。

可选的，所述根据所述目标跟踪数据集，确定用于训练连体网络的训练数据，具体包括：

根据目标跟踪数据集，确定各个目标矩形框的目标区域和搜索区域；

针对每个目标矩形框，以所述搜索区域为基准，在所述目标区域中生成高斯形状的目标响应图；

根据所述目标响应图，确定真值样本；所述训练数据包括多个真值样本。

可选的，所述对所述训练数据进行连体网络训练，得到目标定位模型，具体包括：

针对每个目标矩形框，将目标区域的目标图像和搜索区域的搜索图像进行像素缩放，得到一对缩放后的目标图像和缩放后的搜索图像；

将每对缩放后的目标图像和缩放后的搜索图像进行的RGB三通道变化，得到一对彩色图像；

分别对该对彩色图像进行减均值操作，得到一对减值彩色图像；

对各对减值彩色图像进行深度网络进行训练，得到深度网络输出值；

通过损失函数对深度网络输出值和真值样本，计算误差；

根据误差，采用反向传播算法，得到目标定位模型；所述目标定位模型根据输入的目标模板图像和搜索区域，确定所述目标模板图像在搜索区域中的预测位置信息。

可选的，所述目标定位模型包括两个结构相同、参数共享的第一子网络和一个反卷积第一子网络；

两个所述第一子网络的输出端并联连接后与所述反卷积第一子网络的输入端连接；

两个所述第一子网络的输出合并后作为所述反卷积第一子网络的输入；所述反卷积第一子网络的输出为预测位置信息，用于表征目标的中心位置和尺度信息。

可选的，所述动作网络模型的构建方法包括：

根据待跟踪目标的目标跟踪数据集，确定多个短视频序列；每个短视频序列包括多帧位置图像，每帧位置图像包含待跟踪物体的位置信息；

根据各所述短视频序列及所述目标定位模型进行网络训练，确定动作网络模型。

可选的，所述动作网络模型包括多个权值共享的第二子网络；

各所述第二子网络的输入为预测位置信息及多个历史位置信息，输出为目标位置预测收益值。

为解决上述技术问题，本发明还提供了如下方案：

一种视觉目标跟踪系统，所述视觉目标跟踪系统包括：

获取单元，用于获取多个历史目标模板及待跟踪目标的当前视频序列的历史位置信息；

第一确定单元，用于根据各所述历史目标模板，从所述待跟踪目标的当前视频序列中确定多组目标模板图像及搜索区域；

预测单元，用于根据目标定位模型，及每组目标模板图像及搜索区域，预测所述目标模板图像在搜索区域中的预测位置信息；

第二确定单元，用于基于动作网络模型，根据所述目标模板图像的预测位置信息及所述历史位置信息，确定所述目标模板图像的目标位置预测收益值；

跟踪单元，用于比较各个目标模板图像的目标位置预测收益值，确定目标位置预测收益值最大的目标模板图像的预测位置信息，用于跟踪待跟踪目标的当前帧图像。

根据本发明的实施例，本发明公开了以下技术效果：

本发明基于目标定位模型及动作网络模型，可根据历史目标模板及历史位置信息，得到多个预测位置信息，进而确定对应的目标位置预测收益值，通过比较目标位置预测收益值大小，从而能够精准确定待跟踪目标的当前帧图像的预测位置信息。

附图说明

图1为本发明视觉目标跟踪方法的流程图；

图2为本发明视觉目标跟踪方法的实施例示意图；

图3a为卷积模块结构示意图；

图3b为反卷积模块结构示意图；

图4为目标定位模型的结构示意图；

图5为本发明视觉目标跟踪系统的模块结构示意图。

符号说明：

获取单元—1，第一确定单元—2，预测单元—3，第二确定单元—4，跟踪单元—5。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明提供一种视觉目标跟踪方法，基于目标定位模型及动作网络模型，可根据历史目标模板及历史位置信息，得到多个预测位置信息，进而确定对应的目标位置预测收益值，通过比较目标位置预测收益值大小，从而能够精准确定待跟踪目标的当前帧图像的预测位置信息。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1及图2所示，本发明视觉目标跟踪方法包括：

步骤100：获取多个历史目标模板及待跟踪目标的当前视频序列的历史位置信息。

步骤200：根据各所述历史目标模板，从所述待跟踪目标的当前视频序列中确定多组目标模板图像及搜索区域。

步骤300：根据目标定位模型，及每组目标模板图像及搜索区域，预测所述目标模板图像在搜索区域中的预测位置信息。

步骤400：基于动作网络模型，根据所述目标模板图像的预测位置信息及所述历史位置信息，确定所述目标模板图像的目标位置预测收益值。

步骤500：比较各个目标模板图像的目标位置预测收益值，确定目标位置预测收益值最大的目标模板图像的预测位置信息，用于跟踪待跟踪目标的当前帧图像。

优选地，本发明视觉目标跟踪方法还包括：

步骤600：根据预测位置信息，从当前帧图像中提取预测目标模板；

步骤700：将预测目标模板替换目标位置预测收益值最小的目标模板图像对应的目标模板，以更新历史目标模板。

进一步地，在步骤300中，所述目标定位模型的构建方法包括：

步骤301：对待跟踪目标的历史视频序列进行目标位置标注，获取待跟踪目标的目标跟踪数据集。

步骤302：根据所述目标跟踪数据集，确定用于训练连体网络的训练数据。

步骤303：对所述训练数据进行连体网络训练，得到目标定位模型。

其中，在步骤301中，所述对待跟踪目标的历史视频序列进行目标位置标注，获取待跟踪目标的目标跟踪数据集，具体包括：

步骤3011：从所述历史视频序列中提取多帧图像。

步骤3012：从每帧图像中确定对应的目标矩形框，每个目标矩形框为包含待跟踪目标的最小矩形框。

步骤3013：根据各个目标矩形框，得到目标跟踪数据集。

所述目标跟踪数据集包括多对由设定矩形框的左上角坐标信息和右下角坐标信息形成的坐标对。

其中，包含待跟踪目标的视频序列的来源可以为很多方式，比如从网络上收集、或自行拍摄；本实施例中采用手工标注的方式对各待跟踪目标进行位置标注。

在步骤302中，所述根据所述目标跟踪数据集，确定用于训练连体网络的训练数据，具体包括：

步骤3021：根据目标跟踪数据集，确定各个目标矩形框的目标区域和搜索区域。

步骤3022：针对每个目标矩形框，以所述搜索区域为基准，在所述目标区域中生成高斯形状的目标响应图。

步骤3023：根据所述目标响应图，确定真值样本；所述训练数据包括多个真值样本。

在本实施例中，目标区域的尺寸大小设定为目标大小的四倍，且目标物体被固定地放置于目标区域的中心位置。在搜索区域中，将搜索区域的长宽尺寸设定为目标物体的1.4至3.3倍，通过这一设定可有助于目标定位模型对于在跟踪过程中目标物体的尺度变化具有更强的鲁棒性，且对于目标物体的长宽比例的改变同样具有很强的鲁棒性；以搜索区域的搜索图像为基准，在目标区域生成高斯形状的目标响应，其它区域为背景，响应为零。

利用生成的训练数据，训练基于连体网络的目标定位模型，并输出训练好的目标定位模型。训练过程中设置初始学习率为1e-4、批量大小为50、网络的最大训练轮数为1M。

其中，在步骤303中，所述对所述训练数据进行连体网络训练，得到目标定位模型，具体包括：

步骤3031：针对每个目标矩形框，将目标区域的目标图像和搜索区域的搜索图像进行像素缩放，得到一对缩放后的目标图像和缩放后的搜索图像。

步骤3032：将每对缩放后的目标图像和缩放后的搜索图像进行的RGB三通道变化，得到一对彩色图像。

步骤3033：分别对该对彩色图像进行减均值操作，得到一对减值彩色图像。

步骤3034：对各对减值彩色图像进行深度网络进行训练，得到深度网络输出值。

步骤3035：通过损失函数对深度网络输出值和真值样本，计算误差。

其中所述损失函数为均方差损失。

步骤3036：根据误差，采用反向传播算法，得到目标定位模型。

所述目标定位模型可根据输入的目标模板图像和搜索区域，确定所述目标模板图像在搜索区域中的预测位置信息。

通过训练，目标定位模型可以依据输入的目标模板图像和搜索区域，精确地对搜索区域中的目标进行定位。即根据响应图中最大响应值的位置确定待跟踪目标在搜索区域中的位置，同时根据响应图的形状大小确定目标的长和宽。

其中，目标中心位置即响应图中响应最大点C所在的位置。目标宽度的确定方式为：穿过元素C的x方向上响应值大于阈值0.1的最远的两点间的距离。同理，目标的高度即为y方向上的响应值大于阈值0.1的最远的两点间的距离。

具体地，所述目标定位模型包括两个结构相同、参数共享的第一子网络和一个反卷积第一子网络。

两个所述第一子网络的输出端并联连接后与所述反卷积第一子网络的输入端连接。

其中，结构相同、参数共享的两个子网络包括8个卷积模块(如图4所示)，每个卷积模块包含32、64、128、256、512、512、512、512个特征图。反卷积子网络包括8个反卷积模块，反卷积子网络的反卷积模块包含512、256、128、64、32、16、8、1个特征图。

如图3a所示，每个卷积块包含1个输入层、3个卷积层、2个批归一化层、2个非线性函数、1个元素相加层和1个输出层。如图3b所示，每个反卷积块包含1个输入层、1个卷积层、2个卷积层、2个批归一化层、2个非线性函数、1个元素相加层和1个输出层。

其中的批归一化层(Batch Normalization，BN)包含一个batch norm步骤和一个scale步骤。batch norm负责对输入做0均值1方差的归一化，scale则负责对输入做缩放和平移。batch norm的均值和方差来自于输入，而scale层的缩放和平移参数需要从训练数据中学习。批规范化层通过对网络输入做归一化，有效的消除了网络内部的协变量转移，加快了网络的收敛，同时也是一种正则化机制，有效的防止了网络过拟合。这里的非线性函数采用的是ReLu(Rectified Linear Units)激活函数，该激活函数是一种常用的有效的非线性激活函数，在此不再赘述。

在步骤400中，所述动作网络模型的构建方法包括：

步骤401：根据待跟踪目标的目标跟踪数据集，确定多个短视频序列。

每个短视频序列包括多帧位置图像，每帧位置图像包含待跟踪物体的位置信息。在本实施例中，每个短视频序列包含至少50帧、至多100帧图像。

步骤402：根据各所述短视频序列及所述目标定位模型进行网络训练，确定动作网络模型。

其中，所述动作网络模型包括多个权值共享的第二子网络。

且每个子网络包含2个全连接层，神经元个数分别为64和32。所有子网络的输出拼接为一个向量，输入一个神经元个数为64的全连接层，输出为n个节点。其中，n的值为8，m的值为12。

在网络训练阶段，首先对强化学习涉及到的元素进行如下定义：定义智能体(agent)为目标定位模型，定义环境(env)为当前视频帧和保存的所有目标模板，定义状态(s)为保存的历史坐标和所有目标模板对应的目标预测坐标，定义动作(a)为从目标模板中选择最佳模板，定义奖励(r)为预测目标位置(bbx_pre)和样本真值(bbx_gt)之间的交并比(IoU)，即

动作值Q^π(s，a)表示依据策略π在状态s选择动作a的期望。V^π(s)表示在状态s选择策略π的期望。在训练过程中，依据动作网络的输出的概率分布选择动作。

训练时，首先利用env获取状态s_t；利用公式(1)得到奖励r。利用动作网络更新env；利用env得到下一个状态s_t+1；得到TD误差，即

td＝r+γ·V^π(s_t；θ_c)-V^π(s_t+1；θ_c) (2)；

其中，γ等于0.9。计算动作网络的梯度，即

计算判别网络的梯度，即

最后，利用动作网络和判别网络的梯度分别更新这两个网络。

本发明针对单目标跟踪问题，设计了基于连体网络的深度神经网络以及基于多层感知机的actor-critic(动作-判别)网络结构。通过离线的监督学习，基于连体网络的深度神经网络可以在搜索区域内精确定位目标位置，同时准确预测目标的长宽；通过在线更新连体网络的反卷积部分的参数，可以大幅提升网络的预测精度。通过基于时间差分误差的强化学习，actor网络可以准确预测不同目标模板在跟踪过程中的价值函数，从而可以在跟踪过程中学习鲁棒的目标模板更新策略，同时，在训练过程中critic网络可以对actor网络做出的策略进行评价，从而使得actor网络学到更为鲁棒的目标模板更新策略。该方法在单目标视觉跟踪任务中具有很高的跟踪性能。

此外，本发明还提供一种视觉目标跟踪系统，以提高目标跟踪精度。

如图5所示，本发明视觉目标跟踪系统包括获取单元1、第一确定单元2、预测单元3、第二确定单元4及跟踪单元5。

其中，所述获取单元1用于获取多个历史目标模板及待跟踪目标的当前视频序列的历史位置信息。

所述第一确定单元2用于根据各所述历史目标模板，从所述待跟踪目标的当前视频序列中确定多组目标模板图像及搜索区域。

所述预测单元3用于根据目标定位模型，及每组目标模板图像及搜索区域，预测所述目标模板图像在搜索区域中的预测位置信息。

所述第二确定单元4用于基于动作网络模型，根据所述目标模板图像的预测位置信息及所述历史位置信息，确定所述目标模板图像的目标位置预测收益值。

所述跟踪单元5用于比较各个目标模板图像的目标位置预测收益值，确定目标位置预测收益值最大的目标模板图像的预测位置信息，用于跟踪待跟踪目标的当前帧图像。

优选地，本发明视觉目标跟踪系统还包括提取单元和更新单元。所述提取单元用于根据预测位置信息，从当前帧图像中提取预测目标模板；所述更新单元用于将预测目标模板替换目标位置预测收益值最小的目标模板图像对应的目标模板，以更新历史目标模板

相对于现有技术，本发明视觉目标跟踪系统与上述视觉目标跟踪方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种视觉目标跟踪方法，其特征在于，所述视觉目标跟踪方法包括：

2.根据权利要求1所述的视觉目标跟踪方法，其特征在于，所述视觉目标跟踪方法还包括：

根据目标位置预测收益值最大的目标模板图像的预测位置信息，从当前帧图像中提取预测目标模板；

3.根据权利要求1所述的视觉目标跟踪方法，其特征在于，所述目标定位模型的构建方法包括：

对所述训练数据进行连体网络训练，得到目标定位模型。

4.根据权利要求3所述的视觉目标跟踪方法，其特征在于，所述对待跟踪目标的历史视频序列进行目标位置标注，获取待跟踪目标的目标跟踪数据集，具体包括：

从所述历史视频序列中提取多帧图像；

5.根据权利要求4所述的视觉目标跟踪方法，其特征在于，所述根据所述目标跟踪数据集，确定用于训练连体网络的训练数据，具体包括：

6.根据权利要求5所述的视觉目标跟踪方法，其特征在于，所述对所述训练数据进行连体网络训练，得到目标定位模型，具体包括：

通过损失函数对深度网络输出值和真值样本，计算误差；

7.根据权利要求1-6中任一项所述的视觉目标跟踪方法，其特征在于，所述目标定位模型包括两个结构相同、参数共享的第一子网络和一个反卷积第一子网络；

8.根据权利要求3所述的视觉目标跟踪方法，其特征在于，所述动作网络模型的构建方法包括：

9.根据权利要求1所述的视觉目标跟踪方法，其特征在于，所述动作网络模型包括多个权值共享的第二子网络；

10.一种视觉目标跟踪系统，其特征在于，所述视觉目标跟踪系统包括：