CN113052871B

CN113052871B - 一种基于智能选择策略的目标检测与自动跟踪方法

Info

Publication number: CN113052871B
Application number: CN201911371576.8A
Authority: CN
Inventors: 钟叶秀; 丘森辉; 罗晓曙; 赵书林
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2025-01-07
Anticipated expiration: 2039-12-26
Also published as: CN113052871A

Abstract

本发明公开了一种基于智能选择策略的目标检测与自动跟踪算法，属于计算机视觉领域，该方法由多尺度检测网络，智能选择策略，模板匹配网络和预测模块构成。首先采用多尺度检测网络对目标进行实时检测，然后根据智能选择策略，对检测候选框进行目标选择，其能根据不同的需求设置不同的影响因子，具有较高的灵活性和扩展性。最后，再通过模板匹配网络对感兴趣的目标进行实时的跟踪。同时，为了解决目标被遮挡或暂时消失的问题，本发明提出了一种预测模块对目标进行预测，最后通过定量评估测试表明，在复杂背景环境下，本发明提出的算法实现了目标的实时检测，智能选取以及自动跟踪等功能，对计算机视觉领域的发展具有较好的促进作用和参考价值。

Description

一种基于智能选择策略的目标检测与自动跟踪方法

技术领域

本发明涉及领域，尤其涉及一种基于智能选择策略的目标检测与自动跟踪算法。

背景技术

视觉目标检测与跟踪是计算机视觉领域的一个研究热点，其在云台跟踪、无人飞行器、智能视频监控和智能交通系统等领域具有较高的应用价值。由于传统的单目标跟踪算法不能检测和智能选择感兴趣的目标，且多目标跟踪算法还存在漏检和误检等缺点。因此，需要设计一种基于智能选择策略的目标检测与自动跟踪算法，实现对目标的实时检测，智能选取以及自动跟踪等功能，对计算机视觉领域的发展具有较好的促进作用和参考价值。

发明内容

本发明的目的在于提供一种基于智能选择策略的目标检测与自动跟踪算法，解决传统的单目标跟踪算法不能检测和智能选择感兴趣的目标，且多目标跟踪算法还存在漏检和误检等缺点的技术问题。经测试和实验表明：与现有的目标跟踪方法相比，本发明提出的算法实现了目标的实时检测，智能选取以及自动跟踪等功能，能够适应各种复杂的应用场合。

一种基于智能选择策略的目标检测与自动跟踪算法，所述算法包括如下步骤：

步骤1：构建目标检测与跟踪网络模型，网络模型由多尺度检测网络、智能选择策略、模板匹配网络和预测模块组成；

步骤2：训练目标检测与跟踪网络模型，分别在COCO数据集和ImageNet数据集上对多尺度检测网络以及模板匹配网络进行训练；

步骤3：测试目标检测与跟踪网络模型，利用上述已经训练好的目标检测与跟踪网络模型，进行目标检测和跟踪测试，实现对目标的智能选择和自动实时跟踪。

进一步地，所述步骤1中，所述多尺度检测网络由darknet-53网络和三个预测层组成，用于对输入的视频图像进行特征提取及目标的预测和定位，多尺度检测网络完成对输入的视频图像预测后，智能选择策略对目标进行选择，智能选择策略选择目标的原则由四个因素组成，其分别是：目标类别、目标面积、目标检测精度和目标运动速度，智能选择策略框定感兴趣目标后，将感兴趣目标输入给模板匹配网络并对其进行实时跟踪，模板匹配网络由两个子网组成，模板匹配网络共享相同的参数，且两个子网的作用分别是对目标图像和搜索图像的特征进行提取，在复杂背景下，当目标发生形变、被遮挡时，预测模块预测目标的状态和位置。

进一步地，所述darknet-53网络共有53层卷积层，其分别是由1x1和3x3卷积层组成，Darknet-53的性能反映在网络基本单元的差异上，其采用ResNet作为跳层连接方式，其性能完全优于resnet-152和resnet-101，多尺度检测通过三个不同尺度预测层的预测方法，增强对不同大小的物体和被阻挡物体的检测，同时，darknet-53引入跳层连接的方法来增强收敛，并采用随机多尺度训练的方法来增强鲁棒性。

进一步地，所述智能选择策略的选择原理如下式：

f(x)＝max[ω₁c_i+ω₂s_i+ω₃a_i+ω₄v_i] (1)

其中，c_i为目标类别，s_i为目标面积，a_i为目标检测精度，v_i为目标运动速度，以上四个因素分别被赋予四个相应的参数，其分别是ω₁，ω₂，ω₃和ω₄，其可根据具体要求自由设置各自的参数值，具有高度的灵活性和扩展性，智能选择策略计算视频图像中每个目标的值，其中分值最高的目标即本策略选择的感兴趣目标。

进一步地，所述模板匹配网络由子网组成，子网包括目标子网和搜索子网，分别对目标图像和搜索图像进行特征提取，并共享相同的权重和偏置，其中，目标子网和搜索子网均采用的是基于瓶颈残差块的内部裁剪单元，内部裁剪单元在块内部裁剪出受填充补零影响的特征，防止卷积滤波器学习位置偏差，其中，残差单元是模板匹配网络的关键模块，其由3个堆叠的卷积层和三层快捷连接组成，这三层快捷连接分别是1*1，3*3和1*1卷积，其中1*1卷积层负责减少然后恢复尺寸，使3*3卷积层成为具有较小输入和输出尺寸的瓶颈，

进一步地，所述预测模块由状态预测子网和状态更新子网组成，其中，状态预测子网根据前一个时间的后验估计来估计当前时间的状态，并获得当前时间的先验估计，然后，使用当前时间的测量值来校正预测阶段的估计，并获得当前时间的后验估计。

进一步地，所述步骤2中的多尺度检测网络的训练过程为：

将输入图像的尺寸设置为416*416*3，并将其输入到多尺度检测网络，通过特征提取网络对其提取特征；把该输入图像被划分为s*s网格，每个网格单元将预测三个边界框，将与有标注数据的交并比最大的边框来预测该目标。

进一步地，所述步骤2中的模板匹配网络的训练过程为：

从ImageNet数据集中选取样本对，从同一视频的两个帧中提取目标图像和搜索图像，其中目标图像的尺寸为127*127*3，搜索图像的尺寸为255*255*3；

然后，将成对的目标图像和搜索图像输入到模板匹配网络对应的子网，以获得目标特征层和搜索特征层，将目标特征层和搜索特征层卷积的结果与标签真实值进行相似度匹配；

同时，利用目标损失函数计算上述匹配结果与标签真实值之间的误差，并将该误差逐层反向传播至输入层；

最后，基于小批量随机梯度下降优化算法调整网络中的权重和偏置，以获取最优的误差值，从而完成一次网络模型训练；

重复上述步骤，直至目标损失函数的误差值收敛于最小值；

边界框坐标的公式如下：

b_x＝σ(t_x)+c_x (12)

b_y＝σ(t_y)+c_y (13)

其中，(c_x,c_y)表示网格左上角的坐标，(σ(t_x)，σ(t_y))表示偏移量，(p_w，p_h)表示先验框的宽度和高度，(b_x,b_y,b_w,b_h)表示最终预测得到边界框的坐标。

进一步地，所述步骤3的具体过程为：

(1)将摄像机获取的原始视频序列输入到已经训练得到的目标检测与跟踪网络模型的检测器中，以获取检测结果；

(2)将上述检测器的结果输入到智能选择策略结构中，以获取感兴趣的目标；

(3)将上述获取的感兴趣目标输入到模板匹配网络的目标子网中，并将原始视频序列下一帧输入到模板匹配网络的搜索子网中；

(4)若上述输出的结果得分小于阈值，则将其输入到预测模块中，并将其输出的结果输入到模板匹配网络的目标子网中，原始视频序列中的下一帧输入到模板匹配网络的搜索子网中；

(5)重复上述(3)到(4)步骤，实现对目标的智能选择和自动实时跟踪。

进一步地，所述智能选择策略的过程为：

首先，给类别一个权重，不同的类别以匹配不同的值，根据感兴趣的类别分配更高的值，假设我们对瓶子感兴趣，则分配给瓶子的值是所有类别中最大的分值，可以根据不同的需求自由分配每个类别的值，将类别分值的方程式设置为

其中c(x_i)代表第i类目标的值；

将类别进行排序并分别给各个别类赋予分值；

检测到的多个目标中，由于每个目标的面积不同，对每个目标的面积赋予第二权重，权重与目标区域面积的乘积是选择目标的第二个因素，目标区域的大小设置为

s_i＝ω_i·h_i (3)

其中，ω_i代表目标边界框的宽度，h_i代表目标边界框的高度，

选择最佳的目标，对目标的准确性给予第三权重，权重与准确性的乘积是目标的第三个因素，表明对目标的准确性更高；

通过多尺度检测对前三个帧的检测，对目标的速度赋予第四权重，表明目标越快，对其越感兴趣，速度方程设置为

其中，d_i是从第一帧到第十帧的距离，Δt代表从第一帧到第十帧的时间，分别设置为

Δt＝t₂-t₁ (6)

其中x_i第一帧目标的坐标和时间为(x₁,y₁)_i和t₁，第十帧目标的坐标和时间为(x₂,y₂)_i和t₂。

本发明采用了上述技术方案，本发明具有以下技术效果：

(1)本发明提出了新颖的目标检测与跟踪网络模型，由于该模型采用了性能较好的检测器和跟踪器，因此该网络模型具有实时检测并自动跟踪的性能；

(2)本发明提出了一种智能选择策略，该策略可实现自动获取感兴趣的目标，且其可根据需求设置相应的参数，具有高度的灵活性和可扩展性；

(3)本发明提出了预测模块，使得本发明能够在目标被遮挡时具有较准确的跟踪结果，为此，基于上述创新点和优点本发明所设计的基于智能选择策略的目标检测和自动跟踪算法具有较高的应用价值。

附图说明

图1是本发明的的网络结构图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，举出优选实施例，对本发明进一步详细说明。然而，需要说明的是，说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解，即便没有这些特定的细节也可以实现本发明的这些方面。

如图1所示，本发明一种基于智能选择策略的目标检测与自动跟踪算法，所述跟踪方法包括如下步骤：

一、构建目标检测与跟踪网络模型：

(1)本发明构建的目标检测与跟踪网络模型主要由多尺度检测网络,智能选择策略，模板匹配网络和预测模块组成。其中，多尺度检测网络主要有darknet-53网络和三个预测层组成，其作用是对输入的视频图像进行特征提取及目标的预测和定位。

(2)多尺度检测网络完成对输入的视频图像预测后，本发明将构建的智能选择策略对其进行目标选择，该策略选择目标的原则由四个因素组成，其分别是：目标类别，目标面积，目标检测精度和目标运动速度。

(3)智能选择策略框定感兴趣目标后，本发明将感兴趣目标输入给模板匹配网络并对其进行实时跟踪。其中，模板匹配网络由子网组成，该模板匹配网络共享相同的参数，且两个子网的作用分别是对目标图像和搜索图像的特征进行提取。

(4)在复杂背景下，当目标发生形变、被遮挡等时，本发明采用预测模块预测目标的状态和位置。

其中：

所述的多尺度检测网络主要由darknet-53网络和三个预测层组成。其中darknet-53网络共有53层卷积层，其分别是由1*1和3*3卷积层组成。Darknet-53的性能反映在网络基本单元的差异上，其采用ResNet作为跳层连接方式，其性能完全优于resnet-152和resnet-101。多尺度检测通过三个不同尺度预测层的预测方法，有效地增强了对不同大小的物体和被阻挡物体的检测效果。同时，darknet-53引入了跳层连接的方法来增强收敛效果，并采用随机多尺度训练的方法来增强鲁棒性。

所述的智能选择策略公式如(1)所示：

f(x)＝max[ω₁c_i+ω₂s_i+ω₃a_i+ω₄v_i] (1)

所述的智能选择策略主要由目标类别，目标面积，目标检测精度和目标运动速度四个因素组成。其中，以上四个因素分别被赋予四个相应的参数，其分别是ω₁，ω₂，ω₃和ω₄，其可根据具体要求自由设置各自的参数值，具有高度的灵活性和可扩展性。本发明提出的智能选择策略计算视频图像中每个目标的值，其中分值最高的目标即本策略选择的感兴趣目标。

其中，智能选择策略的原理如下：

1)首先，给类别一个权重。本发明设置了不同的类别以匹配不同的值，因此我们可以根据感兴趣的类别分配更高的值。例如，假设我们对瓶子感兴趣，则分配给瓶子的值是所有类别中最大的分值。同样，假设我们感兴趣的目标是汽车，则分配给汽车的值最大。显然，该方法具有高度的灵活性，并且可以根据不同的需求自由分配每个类别的值。本发明将类别分值的方程式设置为

其中c(x_i)代表第i类目标的值。

本发明将类别分类如下：

本发明将类别进行排序并分别给各个别类赋予分值，根据公式(2)。其中，number代表总类别的数量，根据COCO数据集可知，共有80种类别，从0开始对其进行排序；category代表类别，value代表类别的分值。

2)在多尺度检测网络检测到的多个目标中，由于每个目标的面积不同，因此，本文对每个目标的面积赋予第二权重。权重与目标区域面积的乘积是选择目标的第二个因素，这意味着我们对大面积目标更加感兴趣。目标区域的大小设置为

s_i＝ω_i·h_i (3)

其中，ω_i代表目标边界框的宽度，h_i代表目标边界框的高度。

3)为了进一步选择最佳的目标，我们对目标的准确性给予第三权重。权重与准确性的乘积是我们选择关注目标的第三个因素，这表明我们对目标的准确性更高。

4)通过多尺度检测对前三个帧的检测，我们可以计算每个目标的速度，因此我们对目标的速度赋予第四权重，这表明目标越快，我们对其越感兴趣。

速度方程设置为

Δt＝t₂-t₁ (6)

所述的模板匹配网络由子网组成，它们分别被称为目标子网和搜索子网，其分别对目标图像和搜索图像进行特征提取，并共享相同的权重和偏置。其中，目标子网和搜索子网均采用的是基于“瓶颈”残差块的内部裁剪(CIR)单元。CIR单元在块内部裁剪出受填充补零(padding)影响的特征，从而防止卷积滤波器学习位置偏差。其中，残差单元是模板匹配网络的关键模块，其由3个堆叠的卷积层和绕过它们的快捷连接组成，这三层快捷连接分别是1*1,3*3和1*1个卷积，其中1*1卷积层负责减少然后恢复尺寸，使3*3卷积层成为具有较小输入和输出尺寸的瓶颈。

所述的预测模块主要由状态预测子网和状态更新子网组成。其中，状态预测子网根据前一个时间的后验估计来估计当前时间的状态，并获得当前时间的先验估计。然后，使用当前时间的测量值来校正预测阶段的估计，并获得当前时间的后验估计。

其中，状态预测方程设置为

其中，代表上一次系统的先验状态估计，x_t-1表示已知观测值时步骤t-1的后验状态估计，代表系统对上一次的最优预测，λ_t-1表示系统的控制量,Q和P代表系统参数。

其中，状态更新方程设置为

其中，R_t代表增益，z_t代表测量值，H代表转换状态空间的矩阵,代表先验估计误差的协方差,且A_t-1代表后估计误差在t-1时刻的协方差，B代表测量噪声的协方差，F代表噪声协方差,I代表单位矩阵。

二、训练目标检测与跟踪网络模型：

由于多尺度检测网络和模板匹配网络是两个不同功能的模块且使用不同的训练集。因此，本发明分别训练多尺度检测网络以及模板匹配网络。

1、训练多尺度检测网络：

(1)首先，本发明将输入图像的尺寸设置为416*416*3，并将其输入到多尺度检测网络；

(2)接着，通过特征提取网络对其提取特征；

(3)然后，该输入图像被划分为s*s网格，每个网格单元将预测三个边界框；

(4)最后，将与ground truth的IOU最大的bounding box来预测该目标。

2、训练模板匹配网络：

(1)首先，本发明从ImageNet数据集中选取样本对，从同一视频的两个帧中提取目标图像和搜索图像。其中目标图像的尺寸为127*127*3，搜索图像的尺寸为255*255*3；

(2)然后，将成对的目标图像和搜索图像输入到模板匹配网络对应的子网，以获得目标特征层和搜索特征层。将目标特征层和搜索特征层卷积的结果与标签真实值进行相似度匹配；

(3)同时，利用目标损失函数计算上述匹配结果与标签真实值之间的误差，并将该误差逐层反向传播至输入层；

(4)最后，基于小批量随机梯度下降优化算法调整网络中的权重和偏置，以获取最优的误差值，从而完成一次网络模型训练；

(5)重复上述步骤，直至目标损失函数的误差值收敛于最小值。

其中：

所述的边界框坐标的公式如下：

b_x＝σ(t_x)+c_x (12)

b_y＝σ(t_y)+c_y (13)

三、测试目标检测与跟踪网络模型：

利用上述已经训练好的目标检测与跟踪网络模型，进行目标跟踪测试，具体步骤如下：

(1)将摄像机获取的原始视频序列输入到本发明已经训练得到的目标检测与跟踪网络模型的检测器中，以获取检测结果；

(5)重复上述(3)到(4)步骤，从而实现对目标的智能选择和自动实时跟踪。

本发明提出了一种基于智能选择策略的目标检测与自动跟踪算法。该方法由多尺度检测网络，智能选择策略，模板匹配网络和预测模块构成。本文首先采用多尺度检测网络对目标进行实时检测，然后根据智能选择策略，对检测候选框进行目标选择，其能根据不同的需求设置不同的影响因子，具有较高的灵活性和扩展性。最后，再通过模板匹配网络对感兴趣的目标进行实时的跟踪。同时，为了解决目标被遮挡或暂时消失的问题，本发明加入了预测模块，当目标匀速运动被遮挡时，该算法可预测目标后面几个时刻的状态和位置，有效地解决目标被遮挡以及暂时消失的问题。通过定量评估测试表明，在复杂背景环境下，本发明提出的算法实现了目标的实时检测，智能选取以及自动跟踪等功能，对计算机视觉领域的发展具有较好的促进作用和参考价值。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于智能选择策略的目标检测与自动跟踪方法，其特征在于：所述方法包括如下步骤：

步骤3：测试目标检测与跟踪网络模型，利用上述已经训练好的目标检测与跟踪网络模型，进行目标检测和跟踪测试，实现对目标的智能选择和自动实时跟踪；

所述步骤1中，所述多尺度检测网络由darknet-53网络和三个预测层组成，用于对输入的视频图像进行特征提取及目标的预测和定位，多尺度检测网络完成对输入的视频图像预测后，智能选择策略对目标进行选择，智能选择策略选择目标的原则由四个因素组成，其分别是：目标类别、目标面积、目标检测精度和目标运动速度，智能选择策略框定感兴趣目标后，将感兴趣目标输入给模板匹配网络并对其进行实时跟踪，模板匹配网络由两个子网组成，模板匹配网络共享相同的参数，且两个子网的作用分别是对目标图像和搜索图像的特征进行提取，在复杂背景下，当目标发生形变、被遮挡时，预测模块预测目标的状态和位置；

所述步骤3的具体过程为：

2.根据权利要求1所述的一种基于智能选择策略的目标检测与自动跟踪方法，其特征在于：所述darknet-53网络共有53层卷积层，其分别是由1*1和3*3卷积层组成，Darknet-53的性能反映在网络基本单元的差异上，其采用ResNet作为跳层连接方式，多尺度检测通过三个不同尺度预测层的预测方法，增强对不同大小的物体和被阻挡物体的检测，同时，darknet-53引入跳层连接的方法来增强收敛，并采用随机多尺度训练的方法来增强鲁棒性。

3.根据权利要求1所述的一种基于智能选择策略的目标检测与自动跟踪方法，其特征在于：所述智能选择策略的选择原理如下式：

f(x)＝max[ω₁c_i+ω₂s_i+ω₃a_i+ω₄v_i] (1)

4.根据权利要求1所述的一种基于智能选择策略的目标检测与自动跟踪方法，其特征在于：所述模板匹配网络由子网组成，子网包括目标子网和搜索子网，分别对目标图像和搜索图像进行特征提取，并共享相同的权重和偏置，其中，目标子网和搜索子网均采用的是基于瓶颈残差块的内部裁剪单元，内部裁剪单元在块内部裁剪出受填充补零影响的特征，防止卷积滤波器学习位置偏差，其中，残差单元是模板匹配网络的关键模块，其由3个堆叠的卷积层和三层快捷连接组成，这三层快捷连接分别是1*1，3*3和1*1卷积，其中1*1卷积层负责减少然后恢复尺寸，使3*3卷积层成为具有较小输入和输出尺寸的瓶颈。

5.根据权利要求1所述的一种基于智能选择策略的目标检测与自动跟踪方法，其特征在于：所述预测模块由状态预测子网和状态更新子网组成，其中，状态预测子网根据前一个时间的后验估计来估计当前时间的状态，并获得当前时间的先验估计，然后，使用当前时间的测量值来校正预测阶段的估计，并获得当前时间的后验估计。

6.根据权利要求1所述的一种基于智能选择策略的目标检测与自动跟踪方法，其特征在于：所述步骤2中的多尺度检测网络的训练过程为：

7.根据权利要求1所述的一种基于智能选择策略的目标检测与自动跟踪方法，其特征在于：所述步骤2中的模板匹配网络的训练过程为：

重复上述步骤，直至目标损失函数的误差值收敛于最小值；

边界框坐标的公式如下：

b_x＝σ(t_x)+c_x (12)

b_y＝σ(t_y)+c_y (13)

8.根据权利要求3所述的一种基于智能选择策略的目标检测与自动跟踪方法，其特征在于：所述智能选择策略的过程为：

其中c(x_i)代表第i类目标的值；

将类别进行排序并分别给各个别类赋予分值；

s_i＝ω_i·h_i (3)

Δt＝t₂-t₁ (6)

其中x_i第一帧目标的坐标和时间为(x₁,y₁)i和t₁，第十帧目标的坐标和时间为(x₂,y₂)i和t₂。