CN114972418B

CN114972418B - 基于核自适应滤波与yolox检测结合的机动多目标跟踪方法

Info

Publication number: CN114972418B
Application number: CN202210356521.5A
Authority: CN
Inventors: 杨静; 刘尚
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2023-11-21
Anticipated expiration: 2042-03-30
Also published as: CN114972418A

Abstract

本发明公开了一种基于核自适应滤波与YOLOX检测结合的机动多目标跟踪方法。首先，使用基于YOLOX的目标检测网络对视频序列当前帧目标进行初步检测得到检测结果；进一步使用核自适应滤波器作为非线性跟踪器，以目标的历史位置和尺寸状态信息为输入，对目标当前帧的位置和尺寸的状态信息进行预测，得到预测结果；然后利用运动相似度与外观相似度对检测结果和预测结果进行第一重匹配；对未匹配成功的结果采用颜色空间特征相似度进行第二重匹配；为了进一步增强匹配准确性，对还未匹配成功的结果继续采用完全交并比指标CIoU进行第三重匹配，完成对当前帧的所有目标的跟踪，不断循环以上过程完成对整个视频序列中的多目标的持续检测及跟踪。

Description

基于核自适应滤波与YOLOX检测结合的机动多目标跟踪方法

技术领域

本发明涉及计算机视觉技术领域，更具体的说是涉及一种基于核自适应滤波与YOLOX检测结合的机动多目标跟踪方法。

背景技术

目前，随着人们对智能安防与交通安全的需求不断增加，目标跟踪技术在视频监控以及自动驾驶等领域的发展也逐渐加快。以上领域的场景中通常存在多个机动目标，仅仅对单帧图像进行目标检测或者是对视频序列所有帧使用单目标跟踪的效果都无法满足实际需求。这是因为对单一帧进行目标检测只能实现识别而不能建立前后帧目标的关联关系；在相邻图像之间进行单目标跟踪，只能实现单一目标的跟踪预测而不能进行识别。因此目前常用的多目标跟踪方法大多是和检测器相结合，这些方法主要分为两类：一是基于初始标注框的跟踪，另一种是基于检测的跟踪。基于初始标注框的跟踪方法需要在视频序列的初始帧中手动标注目标进行初始化，然后在帧间运行检测器完成目标检测，在检测的同时去找寻与初始化的标注最相似的区域作为跟踪的依据，但是此种方法的缺点也相对明显，基于手动标注初始帧的方式导致跟踪方法只能对初始帧中出现的目标进行跟踪，而多目标跟踪本身就存在新旧目标出现消失的场景，所以该方法对后续中间帧进入视野的目标自然无法处理，同时如果初始帧手动标注出现遗漏会造成跟踪结果的不稳定。二是基于检测的跟踪方法，该方法包括当前帧独立的目标检测过程、跟踪器对目标下一帧位置预测过程以及基于特征匹配的数据关联过程，最终可以对检测结果与跟踪的轨迹进行正确匹配连接。基于检测的跟踪方法的特点是跟踪目标的数量以及类型比较依赖于检测的效果，当检测效果相对比较差的时候，跟踪方法的性能较差，但是可以通过训练更有效的目标检测网络增强检测的准确性、引入非线性估计精度更高的滤波模型提高目标预测精度以及优化检测结果与跟踪结果的关联策略提高数据匹配精度，最终可以提高基于检测的多目标跟踪方法性能，降低方法的不稳定性。

为了实现对机动多目标的正确跟踪，重点要解决目标尺寸小、相互遮挡以及运动模式多变等问题。结合基于检测的多目标跟踪框架，需要从以下几个方面对跟踪方法进行增强：①目标检测器：提升外观、运动等特征的建模精度，增强对不同帧图像中同一目标的识别能力。但是基于深度学习的目标检测网络一般参数量比较大，要实现精准的预测需要比较长的推理时间，对多目标跟踪方法的实时性影响比较大，因此需要采用轻量且高效的目标检测网络模型。②目标运动跟踪器：特征不够明显的目标在进行复杂运动时需要跟踪器具有更高的预测精度，因此跟踪器需要具有高效通用的非线性逼近能力。③数据关联匹配：在进行前后帧的数据关联时需要保证方法的匹配精度以及效率，匹配精度的提高依赖于更有效的关联指标以及跟踪框、检测框对应区域特征向量提取精度；匹配效率的提高需要优化数据关联逻辑，减少对同一个目标的无用判断。只有加强以上三个环节，才能够高效地解决目标在遮挡、背景复杂、特征不明显场景下的跟踪精度问题。

因此，如何实现对机动多目标的正确跟踪是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于核自适应滤波与YOLOX检测结合的机动多目标跟踪方法，使用目标检测网络YOLOX对视频序列当前帧目标进行初步检测得到检测结果。进一步使用核自适应滤波器作为跟踪器，以目标的历史位置尺寸信息为输入，对目标当前帧的状态信息进行非线性预测，得到预测结果。然后利用运动相似度与外观相似度对检测、跟踪结果进行第一重匹配。对未匹配成功的结果采用颜色空间特征相似度进行第二重匹配。为了增强匹配准确性，采用CIoU指标对还未匹配成功的结果进行第三重匹配，完成对当前帧目标的跟踪，不断循环以上过程完成整个视频序列的目标跟踪。

为了实现上述目的，本发明采用如下技术方案：

基于核自适应滤波与YOLOX检测结合的机动多目标跟踪方法，包括以下步骤：

步骤1：输入待跟踪视频序列，通过YOLOX目标检测网络对待跟踪视频序列的当前帧进行目标检测，确定目标在当前帧中的目标状态信息，并生成检测框；所述目标状态信息包括位置与尺寸信息；具体实现过程包括训练与应用两个阶段，其中训练阶段是离线完成的，构建并训练YOLOX目标检测网络，应用阶段使用离线训练得到的YOLOX目标检测网络进行当前帧的检测，各阶段对应的实现步骤如下：

在训练阶段，构建YOLOX目标检测网络，利用视频序列生成目标检测数据集并对YOLOX网络进行训练，步骤如下所示：

步骤11：YOLOX训练数据集的准备；

根据训练视频序列获取YOLOX目标检测网络的目标检测数据集；所述目标检测数据集包括训练集和测试集；所述训练视频序列为带有标注已知跟踪结果的视频序列，可选取不同拍摄视角、不同尺度以及不同背景下的视频序列进行标注，从而使得方法能够对多种类别的目标进行跟踪，同时保证在不同场景下的跟踪精度；在进行检测模型的计算时，为了衡量模型的泛化能力，利用测试集将训练得到的网络进行训练；

步骤12：根据所述训练集利用深度学习框架构建YOLOX目标检测网络；

以YOLOX-S网络为例，使用深度学习框架构建YOLOX目标检测网络结构；

YOLOX-S网络由四部分组成，包括：

前置处理层：经过前置处理层的数据集的图像首先通过随机缩放、随机裁剪以及随机排布的方式进行拼接，增强网络对小目标的检测效果，处理后图像会被处理成640×640大小；

特征提取主干网络层：包含Focus、空间金字塔池化(Spatial Pyramid Pooling，SPP)等结构，有助于提高特征提取的效率；

多尺度特征融合层：采用特征金字塔网络(Feature Pyramid Network，FPN)结合路径聚合网络(Path Aggregation Network，PAN)结构进行不同层的特征融合，其中FPN是通过自顶向下的方式将高层的特征信息通过上采样的方式进行传递融合，PAN则把浅层的定位信息传导到深层，增强多个尺度上的定位能力；

输出层：有三个解耦的预测输出分支，分别是类别输出(Class Output)、前景判断输出(Object Output)以及坐标信息输出(Regression Output)，将特征融合后获得的三个不同尺寸特征图通过张量叠加(Concat)与转置(Transpose)操作，获得YOLOX-S网络的输出结果，即目标的位置类别信息，进而完成YOLOX-S目标检测网络搭建；

步骤13：网络参数更新；利用所述测试集计算所述YOLOX目标检测网络的损失函数，并利用反向传播算法更新所述YOLOX目标检测网络的网络参数，优化所述YOLOX目标检测网络；

在完成YOLOX-S目标检测网络的搭建基础上，利用YOLOX-S目标检测网络的实际输出与目标检测数据集中记载的图像的真实标注值计算损失函数，包括置信度损失Loss_confidence、中心坐标损失Loss_xy、边界框宽高损失Loss_wh与类别损失Loss_class，损失函数设定完毕后，使用反向传播算法更新YOLOX-S目标检测网络的网络参数；

在应用阶段，利用已建立YOLOX-S目标检测网络对待跟踪视频序列进行目标检测，将当前帧图像送入训练完成的YOLOX-S目标检测网络，可以得到当前帧中的目标位置与尺寸信息，进而生成检测框；

步骤2：进行下一帧预测，根据为上一帧中不同匹配状态的检测目标分配的核自适应滤波器，构建目标多模态运动状态预测模型，将历史帧的目标状态信息输入目标多模态运动状态预测模型，预测当前帧的目标在下一帧的所述目标状态信息，并生成跟踪框；

对于出现在第一帧(或者小于等于k帧时)的目标，为其分配输入仅为上一帧的核自适应滤波器，这样在前k帧依旧是整体的算法流程，但是因为刚出现的目标的运动模态往往是难以确定的，所以当历史数据足够多时，为目标分配输入为前k帧的核自适应滤波器，而且第一帧的结果其实就是检测结果，并且为每个目标分配ID；核自适应滤波器是预训练好的，第一帧相当于步骤4当中的UD状态，全部分配不同模态的核自适应滤波器进行目标在下一帧的预测；

具体实现过程包括训练与应用两个阶段，其中训练阶段是离线完成的，构建并训练基于核自适应滤波器的目标多模态运动状态预测模型；应用阶段使用离线训练得到的基于核自适应滤波器的目标多模态运动状态预测模型进行当前帧的预测，各阶段对应的实现步骤如下：

在训练阶段，步骤如下所示；

步骤21：利用训练视频序列生成核自适应滤波器的多目标跟踪数据集，建立基于核自适应滤波的目标多模态运动状态预测模型；

核自适应滤波器具有非线性映射能力和动态递归特性，在非线性时间序列预测中能够取得较好的效果，将核自适应滤波器引入目标跟踪，可以依据目标历史跟踪轨迹的位置与尺寸信息来预测当前时刻的状态信息，假设核自适应滤波器在当前时刻n的输入X(n)由目标在前k个时刻的目标状态信息构成：

其中x(n-1)＝[x(n-1),y(n-1),w(n-1),h(n-1)]^T为n-1时刻的目标状态信息，(x(n-1),y(n-1))为n-1时刻目标框的中心坐标，w(n-1),h(n-1))表示n-1时刻目标框的宽和高，核自适应滤波器输出为用来估计n时刻的目标状态信息x(n)；k取值为小于n的正整数，因为视频序列帧之间时间间隔相同，所以帧数与时刻具有对应关系；

为了估计输入X(n)与输出关系，核自适应滤波器通过学习非线性映射f(·)构建相应的输出f(X(n))作为n时刻状态信息x(n)对应的估计值/>f(·)可以表示成如下的线性形式

其中Ω表示再生希尔伯特空间(RKHS)中的权重矢量，为输入空间/>到RKHS空间的非线性映射，Ω可以进一步表示成如下的线性组合形式

m为核自适应滤波字典现存节点个数，a_l为第l个字典节点的权重系数，结合RKHS空间的性质进一步可以得到n时刻输入X(n)对应的输出为：

其中κ(·,X(l))是以X(l)为中心的核函数，能够将输入映射到高维空间，常用的核函数有线性核、多项式核、高斯核、拉普拉斯核以及Sigmoid核等；

核自适应滤波采用的是在线逐渐逼近的方式，即每到来一组新的数据，相应的映射f(·)都会增加一个维度进行调整，并且更新权向量Ω，根据更新权重向量方法的不同可以将核自适应滤波器分为核递归最小二乘算法(Kernel Recursive Least Squares，KRLS)、核最小均方算法(Kernel Least Mean Square，KLMS)以及核仿射投影算法(KernelAffine Projection，KAPA)等；其中KRLS是一个拥有递归构造的基于最小均方误差回归器，具有较高的收敛速度和自适应跟踪性能；KLMS在有限训练数据的情况下，无需添加额外的正则化项来惩罚解范数，其优势在于拥有更好的泛化能力；KAPA继承了KLMS简单且在线的特性，但降低了其梯度噪声，进而提高了预测性能；综合考虑方法的预测精度与模型泛化能力，选择KLMS作为跟踪器来实现目标跟踪；

其他具有通用预测能力的滤波模型也可以作为跟踪器嵌入到本发明当中，结合检测器完成目标在前后帧的跟踪；

步骤22：核自适应滤波器训练数据集的准备；

获取多目标跟踪数据集，对多目标跟踪数据集进行标注，手动标注目标位置、尺寸、所属ID、类别以及置信度等指标，形成标注文件，从标注文件中计算图像中每个目标连续多帧的检测框的中心位置以及尺寸大小，提取训练视频序列当中的不同目标的标注结果，再根据目标的运动模态来生成多组训练集与测试集，组成多模态运动数据集；

步骤23：设定核自适应滤波参数，使用多模态运动数据集对基于核自适应滤波器的目标多模态运动状态预测模型进行混合训练，提升目标多模态运动状态预测模型泛化性能；

将核自适应滤波器在步骤22得到的多模态运动数据集进行混合训练，提升基于核自适应滤波与YOLOX检测结合的机动多目标跟踪方法非线性预测的鲁棒性与泛化性能；合理设置核自适应滤波器的步长参数μ、核函数的参数、训练的batchsize、迭代次数以及收敛条件等参数；

根据每一步迭代的误差e来更新核自适应滤波器的权重矢量Ω，进而不断更新调整映射f(·)，映射将输入X(t)映射到特征空间结果为/>则第t次迭代的误差e(t)与权重更新结果Ω(t)分别为：

e(t)＝x(t)-f(X(t)) (4)

当核自适应滤波器满足预设的收敛条件时，保存当前模型参数，得到训练好的核自适应滤波器；直接利用训练好的核自适应滤波器构建目标多模态运动状态预测模型；

步骤24：根据输入的待跟踪训练视频序列，利用已经完成训练的基于核自适应滤波的目标多模态运动状态预测模型，对当前帧的目标状态信息进行预测估计，将前k帧的目标状态信息作为输入送入目标多模态运动状态预测模型，可以得到目标在当前帧中的位置与尺寸信息的估计值，进而生成跟踪框；

步骤3：采用多重匹配策略对所述检测框和所述跟踪框进行前后帧数据关联计算，获得匹配结果；

步骤31：前k帧中已经完成跟踪目标的目标状态信息作为核自适应滤波器输入，并预测对应目标在当前帧的跟踪框，计算当前帧检测框与预测的跟踪框之间的运动相似度与外观相似度，对所述运动相似度和所述外观相似度进行数据融合得到第一重匹配权重，并利用所述第一重匹配权重基于匈牙利算法进行第一重匹配；

步骤311：计算当前帧检测框与由前k帧预测得到的跟踪框之间的平方马氏距离作为运动匹配度：

其中，d¹(i,j)为第j个检测框和第i个跟踪框之间的运动匹配度；d_j为由YOLOX-S目标检测网络检测得到的第j个目标检测框的边框位置与尺寸信息；为由目标多模态运动状态预测模型预测估计得到的第i个目标跟踪框的位置与尺寸信息，使用4维向量[x,y,w,h]来表示预测与检测到的位置与尺寸信息；S_i为目标多模态运动状态预测模型预测得到的第i个跟踪目标位置与尺寸信息的协方差矩阵；

步骤312：计算外观与运动特征判别矩阵B⁽¹⁾，用以判断检测框与跟踪框是否能进行匹配，其第i行第j列的元素B⁽¹⁾(i,j)表示第i个检测框与第j个跟踪框是否能够匹配

其中，t⁽¹⁾为对应置信区间的阈值，阈值越小，则匹配成功门槛更高，只有平方马氏距离比较小的检测框与跟踪框才能成功匹配，但是容易出现漏跟的情况；反之阈值越大，则会出现较多的错跟情况，因此要合理设置阈值t⁽¹⁾；若B⁽¹⁾(i,j)＝1则表示第i个检测框与第j个跟踪框匹配关联成功，否则表明关联失败；

步骤313：提取当前帧检测框与由前k帧预测得到的跟踪框之间的外观信息特征：

使用行人重识别网络(ReID)提取固定长度的外观特征向量表示第i个跟踪框的前面第k帧的外观特征向量，将前k帧的目标跟踪框提取的外观特征向量形成集合，记为P_i：

其中，集合P_i内最多存储第i个目标距离当前帧前M_k帧的特征信息；计算第j个检测结果与第i个目标的最近M_k个成功关联的轨迹跟踪结果之间的外观特征向量间的最小余弦距离d²(i,j)，用来衡量两帧之间第j个检测框与第i个目标跟踪框的外观匹配度：

步骤314：计算关联匹配度矩阵C：

使用运动匹配度d¹(i,j)和外观匹配度d²(i,j)的线性加权作为最终的度量方式来进行跟踪框与检测框的匹配；第j个检测框与第i个跟踪框关联匹配度的计算式如下：

C(i,j)＝γd¹(i,j)+(1-γ)d²(i,j) (10)

其中，C(i,j)表示第i个跟踪框与第j个检测框的第一重匹配权重，作为关联匹配度矩阵C的第i行第j列的元素。C(i,j)越小则两者越相似，反之则越不相似；γ为调整不同匹配度量权值的比例系数，范围为0到1；当权重系数γ取1时，即表示仅靠运动特征进行跟踪匹配；当权重系数γ取0时，表示仅靠外观特征进行匹配；在不同跟踪场景下权重最优值γ不同，一般来讲，对于特征不明显、机动大等场景下需要适当增大权重系数γ；

步骤315：基于匈牙利算法进行第一重匹配：

设定是当前帧跟踪目标的集合，/>是当前帧检测目标的集合，A_max为最大保留时长；矩阵C存放当前帧目标跟踪框与检测框之间的匹配权重，关联集合/>初始化为空集合，将找不到匹配目标的检测物体集合/>初始化为/>基于匈牙利算法进行第一重匹配，统计跟踪框与检测框的匹配状态，三种状态分别为：成功匹配的跟踪框与检测框(Matched Tracksand Detections，MTD)、未能成功匹配到跟踪框的检测框(Unmatched Detections，UD)和未能成功匹配到检测框的跟踪框(UnmatchedTracks，UT)；

步骤32：提取第一重匹配中未能正确匹配的跟踪框、检测框所包含图像的方向梯度直方图和HSV色彩空间的融合特征，并作为颜色空间特征向量；根据所述颜色空间特征向量计算跟踪框和检测框之间余弦相似度矩阵，获得颜色空间判别矩阵，并作为第二重匹配权重，进行第二重匹配；

步骤321：计算跟踪框以及检测框所包含图像的方向梯度直方图(HistogramofOriented Gradients，HOG)和HSV(色调(Hue),饱和度(Saturation),明度(Value))色彩空间的融合特征：

颜色空间向量p可以由从HSV色彩空间提取的特征向量p_hist与方向梯度直方图HOG提取的特征向量p_thog来线性融合得到：

p＝αp_hist+(1-α)p_thog (11)

其中，α代表p_hist与p_thog的融合权重，范围为0到1；

步骤322：计算颜色空间特征向量的余弦相似度矩阵Q：

假设跟踪框i与检测框j提取的颜色空间特征向量分别为pⁱ与p^j，计算跟踪框i与检测框j之间的颜色空间特征向量的余弦相似度作为余弦相似度矩阵Q的第i行第j列元素Q(i,j)：

步骤323：遍历步骤31未能正确匹配的UD与UT状态下的跟踪框与检测框，根据得到的跟踪框i与检测框j的相似度Q(i,j)计算颜色空间判别矩阵B⁽²⁾，其元素B⁽²⁾(i,j)用以判断第j个目标边框与第i个跟踪框是否能够完成第二重匹配；

其中，t⁽²⁾为对应的判定阈值，范围为0到1，阈值越大，则匹配成功门槛更高，只有颜色空间相似度匹配置信度比较高的匹配对才能成功匹配，但是容易出现漏跟的情况；反之阈值越小，则会出现较多的错跟情况，所以要合理设置阈值t⁽²⁾；若B⁽²⁾(i,j)＝1则表示关联成功，否则表明关联失败，关联完成后统计跟踪框与检测框状态；

步骤33：计算第二重匹配中未能正确匹配的跟踪框和检测框之间的CIoU指标，并作为第三重匹配权重进行第三重匹配：

步骤331：计算跟踪框以及检测框之间的CIoU指标：

设跟踪框B^p与检测框B^g的左上角坐标分别为与/>右下角坐标分别为/>与/>宽和高分别为(w^p,h^p)与(w^g,h^g)，B^p和B^g的面积分别为A^p与A^g，两者的重叠面积为I，同时包含B^p和B^g的最小矩形区域的对角线长度为c，两者坐标中心的欧式距离为ρ，则交并比IoU指标可以表示为:

计算跟踪框和检测框的长宽比一致性系数v：

进一步计算长宽比的平衡参数β：

则可计算跟踪框和检测框之间的CIoU指标为：

步骤332：根据步骤33中未能正确匹配的UD与UT状态下的跟踪框与检测框，计算CIoU指标矩阵O，它的第i行第j列元素O(i,j)为第j个目标边框与第i个跟踪框之间CIoU指标；计算CIoU指标判别矩阵B⁽³⁾，B⁽³⁾(i,j)用以判断第j个目标边框与第i个跟踪框是否能够进行第三重匹配

其中，t⁽³⁾为对应的判定阈值，阈值越大，则匹配成功门槛更高，只有置信度比较高的匹配对才能成功匹配，但是容易出现漏跟的情况；反之阈值越小，则会出现较多的误跟情况，所以要合理设置阈值t⁽³⁾；若B⁽³⁾(i,j)＝1则表示关联成功，否则表明关联失败，关联完成后统计跟踪框与检测框状态，获得检测框与跟踪框的匹配结果；

步骤4：利用所述匹配结果更新自适应滤波跟踪器的输入以及目标状态信息，获得目标轨迹状态信息，所述轨迹状态信息包括目标位置与尺寸信息、分配核自适应滤波器信息；核自适应滤波器的更新就是更新对应目标的输入，经过步骤3完成当前帧的目标关联匹配，更新完的核自适应滤波器作用于下一帧的步骤2的检测框；待跟踪视频序列的第一帧只进行检测，并作为第一帧的跟踪结果呈现，不经历步骤2-3，第一帧经过步骤4中的核自适应滤波器只针对第一帧当中所有检测出来的目标进行分配，然后进行循环，到第二帧就正常了；轨迹状态信息包含两部分，第一是目标位置与尺寸信息(包含当前帧的)，第二是目标的分配的ID信息，统计轨迹状态信息是为了计算跟踪指标MOTA MOTP ID Switch；

步骤41：处理MTD状态：

将处于MTD状态的检测框信息加入对应核自适应滤波器的输入集合，用于预测目标在下一帧的位置与尺寸信息；

步骤42：处理UT状态：

UT状态被认为是失配，max_age表示一个跟踪框的最大存活周期，T_lost表示跟丢累计时间，初始化为0；如果发生失配，T_lost加1，否则T_lost置0，如果T_lost>max_age，相应目标的ID将被删除，同时将该检测目标所分配的核自适应滤波器删除；

步骤43：处理UD状态：

UD状态说明当前的检测框是新出现目标，没有任何一个已有目标的跟踪框能与之匹配，为其分配新的核自适应滤波器用于后续的预测跟踪；

步骤5：提取所述待跟踪视频序列的下一帧，并重复所述步骤1-4，经过三重匹配，下一帧的目标匹配结果都会被处理。不断重复以上步骤直至提取完所述待跟踪视频序列的所有帧，可以完成整个视频序列的多目标跟踪功能，完成对所述待跟踪视频序列中每一个当前帧的检测框与前一帧得到的跟踪框的关联匹配，以及获得目标状态信息。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于核自适应滤波与YOLOX检测结合的机动多目标跟踪方法，针对基于检测的机动多目标跟踪方法在小目标、快速移动、背景复杂等场景下跟踪效果依然较差的问题，从提高多目标跟踪方法在机动大、背景复杂以及特征不明显等场景下的快速性与准确性出发，针对目标检测器、目标运动跟踪器和数据关联匹配的三个关键环节进行了相应改进。本发明引入YOLOX目标检测网络当中的YOLOX-S模型来说明本发明方法提高检测的快速性和准确性的效果，YOLOX-S在网络参数比较少的条件下具有出色的目标检测精度，YOLOX-S多尺度特征融合部分采用FPN与PAN结构对不同层次的特征进行更有效的融合，有助于提升网络在目标位置、类别置信度方面的预测准确度；针对线性滤波模型在预测非线性的运动模态存在估计精度不足的问题，引入具有通用非线性映射的能力的核自适应滤波器作为跟踪器，核自适应滤波具有更强的非线性预测能力，能够提升机动大场景下跟踪方法对目标复杂运动的预测精度；针对关联匹配方法的匹配精度问题，从HSV色彩空间和梯度方向直方图这两个维度对图像进行特征提取并融合，计算跟踪框与检测框之间余弦相似度作为权重用于数据的关联匹配，同时引入CIoU指标代替IoU指标，考虑了目标中心点的距离以及宽高比对目标交叠的影响，能够更有效地判断跟踪框与检测框是否能够正确关联，确保在互相遮挡、尺寸变化以及背景复杂情况下多目标的跟踪精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的本发明机动多目标跟踪方法流程图；

图2附图为本发明提供的目标检测数据集概要示意图；

图3附图为本发明提供的YOLOX-S网络结构示意图；

图4附图为本发明提供的YOLOX-S网络训练图示意图；

图5附图为本发明提供的YOLOX-S网络目标检测效果示意图；

图6附图为本发明提供的KLMS训练过程示意图；

图7附图为本发明提供的本发明在第430和441帧的黑夜密集多目标场景下跟踪结果示意图；

图8附图为本发明提供的原始DeepSORT方法在第430和441帧的黑夜密集多目标场景下跟踪结果示意图；

图9附图为本发明提供的本发明在红外场景下第231和239帧跟踪结果示意图；

图10附图为本发明提供的原始DeepSORT方法在红外场景下第231和239帧跟踪结果示意图；

图11附图为本发明提供的本发明在机动大场景下第163和175帧的跟踪结果示意图；

图12附图为本发明提供的原始DeepSORT方法在大机动场景下的第163和175帧的跟踪结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于核自适应滤波与YOLOX检测结合的机动多目标跟踪方法，流程图如图1所示。

以YOLOX检测中的YOLOX-S目标检测网络为例进行实例说明。

S1：构建YOLOX-S目标检测网络对当前帧图像进行检测，确定目标在当前帧中的位置与尺寸信息，生成检测框，本步骤的具体实现过程包括训练与应用两个阶段，其中训练阶段是离线完成的，应用阶段使用离线训练得到的检测模型进行当前帧的检测，各阶段对应的实现步骤如下：

在训练阶段，构建YOLOX-S目标检测网络，利用训练视频序列生成目标检测数据集并对YOLOX-S网络进行训练，如S11-S13所示：

S11：YOLOX-S训练数据集的准备

对VisDrone2019与MSCOCO数据集当中不同视角与场景下的小目标图片进行标注，将MSCOCO和VisDrone2019数据集进行混合训练，同时对训练数据集特征增强，增强具体措施为：

(1)以0.5的概率随机对训练集图像进行选取，然后对其进行裁剪，裁剪比例最小值和最大值分别设为0.5和1；

(2)以0.3的概率随机对训练集图像进行选取，然后对其进行对比度变换，在图像的HSV颜色空间，改变饱和度S和V亮度分量，保持色调H不变。对每个像素的S和V分量进行指数运算(指数因子在0.25到4之间)，增加光照变化；

(3)以0.2的概率随机对训练集图像进行选取，然后利用双线性差值对其进行尺度放大，放大倍数设置为1-3；

(4)以0.5的概率随机对训练集图像进行选取进行图片水平翻转；

目标检测训练集与测试集的数据构成如表1所示，数据集概要为如图2所示；

表1目标检测数据集构成

数据	数据构成	样本数量
			训练集	MSCOCO+VisDrone2019训练集	35789
测试集	MSCOCO+VisDrone2019测试集	5148

S12：使用pytorch深度学习框架搭建YOLOX-S网络模型；

网络架构分为图像输入层、特征主干提取网络层、多尺度特征融合层以及输出层四部分。每一帧图像经过一个完整的目标检测过程，通过YOLOX-S网络最后融合输出三个不同维度的特征图；

其中类别输出是对目标框类别进行预测，默认是80个类别，经过Sigmoid激活函数处理后，输出尺寸为20×20×80；

前景判断输出主要判断目标框是前景还是背景，因此经过Sigmoid处理后变为20×20×1大小；

坐标信息输出主要对目标框的坐标信息(x,y,w,h)进行预测，输出维度为20×20×4；

三个分支的输出经过Concat与Transpose操作，得到85×8400的特征信息，8400是预测框个数数据，85是每一个预测框的尺寸与类别信息，YOLOX-S的结构图如图3所示；

S13：YOLOX-S训练：

通过YOLOX-S的实际输出与图像的真实标注值计算损失函数，包括置信度损失Loss_confidence、中心坐标损失Loss_xy、边界框宽高损失Loss_wh与类别损失Loss_class，使用反向传播方法更新YOLOX-S网络参数。采用迁移学习的方式来训练模型，先使用MS COCO数据集对YOLOX-S的骨干网络进行预训练，再用上述数据集进行微调式训练，为加速训练收敛，动量衰减参数设为0.9；为防止训练过拟合发生，权重衰减系数设为0.005，初始学习率设为0.001，当迭代到100个epoch时学习率衰减为初始值的1/10，迭代到150epoch时学习率再衰减为初始值的1/100，同时在训练过程当中选择多尺度训练方式，每10次迭代就随机调整训练样本的尺寸，总共训练300个epoch，训练过程以及最终的识别效果如图4和图5所示；图4是YOLOX-S检测器的学习训练过程，最终的检测精度mAP为88.26％；图5为YOLOX-S网络目标检测结果，场景是操场活动，可以看到除了在地上盘地而坐的极少数目标没有检测出来，其余都正常检出；

在应用阶段，利用已建立YOLOX-S目标检测网络模型，对待跟踪的应用视频序列进行目标检测，如S14所示：

S14：将当前帧图像送入训练完成的YOLOX-S网络，可以得到目标在当前帧中的位置与尺寸信息，进而生成检测框；

S2：为当前帧每一个检测目标分配核自适应滤波器，根据之前多帧的目标位置与尺寸信息预测目标在下一帧的位置与尺寸信息，生成跟踪框；

本步骤具体实现过程包括训练与应用两个阶段，其中训练阶段是离线完成的，应用阶段使用离线训练得到的基于核自适应滤波器的目标状态预测模型进行当前帧的预测，各阶段对应的实现步骤如下：

在训练阶段，利用视频序列生成数据集，基于核自适应滤波的建立目标多模态运动的状态预测模型，如S21-S23所示：

S21：建立基于KLMS的目标多模态运动状态预测模型；

综合考量跟踪方法的推理速度与精度，核自适应滤波器选用KLMS，k值设置为3，权向量初始值设为0，即Ω(0)＝0，核函数选用高斯核函数：

KLMS第t次迭代的输入为X(t)，则第t次迭代的权向量Ω(t)更新规则为：

相应的KLMS输出为

其中a_l(t-1)表示第t-1次迭代时第l个字典节点对应的系数；

S22：核自适应滤波器训练数据集的准备；

根据目标的运动状态将数据集分为直行数据集与转弯数据集，直行训练数据集与测试数据集的长度分别为4000与250，转弯数据集的训练与测试数据集的长度分别为4000与250，数据集划分为直行训练集、转弯训练集、直行测试集和转弯测试集，如表2到表5所示；

表2直行训练集

表3转弯训练集

表4直行测试集

表5转弯测试集

S23：基于核自适应滤波的跟踪器(目标多模态运动状态预测模型)的训练；

将KLMS在直行数据集与转弯数据集进行混合训练，提升非线性预测的鲁棒性泛化性能；并且初始权重Ω(0)＝0，设置KLMS的步长参数μ＝0.6，高斯核的核宽度参数σ₁＝1，训练的batchsize设为4，迭代的epoch为1000；根据每一步迭代的误差来更新KLMS的权重Ω，当KLMS满足预设的收敛条件时，迭代终止；

当迭代epoch大于800并且第m步迭代的测试集误差的增加量超过设定阈值δ，即：

迭代次数到达预设次数；

保存当前模型参数，得到训练好的核自适应滤波器，KLMS的训练过程如图6所示；图6为KLMS学习学习过程，横坐标为迭代次数，纵坐标为KLMS在测试集上的均方根误差；

在应用阶段，根据输入的待跟踪训练视频序列，利用已经完成训练的基于KLMS建立的目标多模态运动状态预测模型，对当前帧的目标状态进行预测估计，如步骤24所示：

S24：将前k帧的目标状态作为输入送入目标多模态运动状态预测模型，可以得到目标在当前帧中的位置与尺寸信息的估计值，进而生成跟踪框；

S3：数据关联匹配；

S31：计算运动匹配度与外观匹配度，进行第一重匹配；

计算当前帧检测框与由前k帧预测得到的跟踪框之间的平方马氏距离作为运动匹配度

其中，d¹(i,j)为第j个检测框和第i个跟踪框之间的运动匹配度；d_j为由YOLOX目标检测网络检测得到的第j个目标检测框的位置与尺寸信息；为由目标多模态运动状态预测模型预测估计得到的第i个目标跟踪框的位置与尺寸信息，使用4维向量[x,y,w,h]来表示预测与检测到的位置与尺寸信息；S_i为目标多模态运动状态预测模型预测得到的第i个跟踪目标位置与尺寸信息的协方差矩阵；

计算外观与运动特征判别变量矩阵B⁽¹⁾，B⁽¹⁾(i,j)判断第j个检测框与第i个跟踪框是否可以匹配：

t⁽¹⁾为对应置信区间的阈值，取t⁽¹⁾＝9.4877，B⁽¹⁾(i,j)＝1则表示关联成功，否则表明关联失败；

使用行人重识别网络提取固定长度为128的外观特征向量表示第i个跟踪目标的前面第k帧的外观特征向量，将前边一段时间保留的目标跟踪框提取的外观特征向量形成集合，记为P_i：

综合考虑保留的特征数量对计算复杂度的影响，取M_k＝90。

计算P_i集合中特征向量与当前帧第j个检测结果的外观特征向量间的最小余弦距离d²(i,j):

计算运动匹配度d¹(i,j)和外观匹配度d²(i,j)的线性加权和，作为关联匹配度矩阵C的第i行第j个元素，不同场景下运动匹配度与外观匹配度的的最优权重会有差异，经过实验验证，普通场景取γ＝0.5，红外场景取γ＝0.8，机动大场景取γ＝0.7：

C(i,j)＝γd¹(i,j)+(1-γ)d²(i,j) (10)

利用匈牙利算法对检测框与跟踪框进行第一重匹配，具体过程为：

1)初始化：将关联集合初始化为{}，将找不到匹配的物体检测集合/>初始化为

2)开始循环；

3)从刚匹配成功的跟踪框循环遍历到最多已经有A_max次没有匹配的跟踪框，优先选择刚完成匹配的跟踪框与检测框进行匹配，生成跟踪框集合

4)逐一计算第i个目标跟踪框历史中的所有特征向量与第j个物体检测框之间的最小余弦距离；

5)更新加入匹配成功的检测框与跟踪框；

6)从中去除已经匹配成功的物体检测框j；

7)停止循环，得到与/>目标被连续z帧跟踪到才认为跟踪成功；

取A_max＝3，即如果某个目标超过3个连续帧没有成功匹配，那么会放弃对该目标的匹配，经过上述的级联匹配，统计跟踪框与检测框的匹配状态；

S32：计算颜色空间特征相似度，进行检测框与预测框的第二重匹配；

提取检测框与跟踪框对应区域的颜色空间向量：

颜色空间向量p可以由从HSV色彩空间与提取的特征向量p_hist与方向梯度直方图HOG提取的特征向量p_thog来线性融合得到

p＝αp_hist+(1-α)p_thog (11)

其中，α为融合权重，取α为0.7使融合后的特征中p_hist与p_thog所占比例为7:3；

计算跟踪框i与检测框j之间的颜色空间特征向量的余弦相似度作为Q的第i行第j列元素Q(i,j)：

得到余弦相似度矩阵Q；

进行颜色空间匹配：

遍历S31未能正确匹配的UD与UT状态下的跟踪框与检测框，根据得到的跟踪框与检测框的特征向量余弦相似度Q(i,j)，计算颜色空间判别矩阵B⁽²⁾，其元素B⁽²⁾(i,j)用以判断第j个目标边框与第i个跟踪框是否能够进行第二重匹配；

若B⁽²⁾(i,j)＝1则表示关联成功，否则表明关联失败，综合漏检与误检情况，取阈值t⁽²⁾＝0.6，完成匹配之后统计检测框与跟踪框状态；

S33：计算跟踪框以及检测框之间的CIoU指标，完成第三次匹配；

计算CIoU指标：

设跟踪框B^p与检测框B^g的左上角上标分别为与/>右下角坐标分别为/>与/>B^p和B^g的面积分别为A^p与A^g，两者的重叠面积为I，宽和高分别为(w^p,h^p)与(w^g,h^g)，同时包含B^p和B^g的最小矩形区域的对角线长度为c，两者坐标中心的欧式距离为ρ，则IoU指标可以表示为:

计算跟踪框和检测框的长宽比一致性系数v：

进一步计算长宽比的平衡参数β：

则可计算跟踪框和检测框之间的CIoU指标为：

进行CIoU匹配：

根据S32中未能正确匹配的UD与UT状态下的跟踪框与检测框，计算CIoU指标矩阵O，计算CIoU指标判别向量B⁽³⁾，B⁽³⁾(i,j)用以判断第j个目标边框与第i个跟踪框是否能够进行第三重匹配；

通过对漏检与误检个数进行统计，选择匹配效果最好的阈值t⁽³⁾，当前数据集最优的阈值为t⁽³⁾＝0.45。采用最优匹配阈值进行匹配后，当前帧不同状态的检测框与跟踪框进行统计，更新匹配结果，待S4使用；

S4：根据检测框与跟踪框的匹配结果更新核自适应滤波跟踪器以及目标轨迹的状态；

S41：处理MTD状态：

将处于MTD状态的检测框信息加入对应核自适应滤波器的输入集合，用于预测目标在下一帧的位置尺寸信息；

S42：处理UT状态：

UT状态被认为是失配，取max_age＝3，如果失配，T_lost加1，否则T_lost置0，如果T_lost>max_age，相应目标的ID将被删除，同时将该目标所分配的核自适应滤波器删除；

S43：处理UD状态：

UD状态说明检测框是新出现目标，没有任何一个已有目标的跟踪框能与之匹配，为之分配新的核自适应滤波器用于后续的预测跟踪；

S5：循环操作，重复S1到S4，完成待跟踪视频序列下一帧的多目标跟踪；经过三重匹配，当前帧的目标匹配结果都会被处理，重复以上步骤可以完成整个视频序列的多目标跟踪功能。

本发明方法与原始DeepSORT(Simple Online and Realtime Tracking with aDeep Association Metric)方法进行多目标跟踪对比，对比场景分别选取普通场景、红外场景取和机动大场景，其中跟踪指标的对比数据分别如下表6-8所示，目标跟踪效果分别如图7-12所示。

表6普通多人场景下的跟踪指标对比

表7红外场景下的跟踪指标对比

表8大机动场景下的跟踪指标对比

表6到表8统计了本发明与原始DeepSORT方法在不同场景下的多项跟踪指标，其中MOTA反映目标跟踪准确性，取值越大则代表跟踪效果越好；MT表示匹配成功时长高于80％的轨迹占比，取值越大则代表跟踪效果越好；IDs指标表示跟踪过程中目标ID跳变次数，取值越小则代表跟踪效果越好；FPS指标代表方法的每秒钟处理的视频帧数，取值越大则代表实时性越好。可以看到，在三种对比场景下下，本发明的跟踪指标相对于原始DeepSORT方法均具有不同程度提升，尤其是在夜晚光线不足或者机动大的场景下，本发明的目标跟踪指标的提升会更加明显。

图7-8分别为本发明与原始DeepSORT方法在夜晚密集多目标场景下第430帧与441帧的目标跟踪效果；比较两图的跟踪效果可知，与本发明相比，图8中采用原始DeepSORT方法的ID为194的目标在经过遮挡与交叠之后出现了ID跳变的情况，目标ID由194变成188，并且在对图像右上角的小目标进行跟踪的过程中，出现大面积跟丢情况。

图9-10分别为本发明与原始DeepSORT方法在红外场景下第231帧与239帧的目标追踪效果图；比较两图的跟踪效果可知，与本发明相比，原始DeepSORT方法在跟踪ID为126的目标时遇到遮挡与交叠之后出现了ID跳变的情况，目标ID由126变成148；且同样对图像上方小目标的跟丢情况更严重。

图11-12分别为本发明目标追踪效果图与原始DeepSORT方法在大机动场景下第163帧与175帧的目标追踪效果图。比较两图的跟踪效果可知，与本发明相比，原始DeepSORT方法在跟踪ID为64的目标出现了漏跟情况，而本发明则正常跟踪。

对图7到图12的分析可知，在特征不明显的场景下，由于检测器检测效果比较差，置信度较小，此时主要靠跟踪器的预测信息来进行跟踪；又因为核自适应滤波的非线性预测能力优于DeepSORT方法所采用的卡尔曼滤波，同时本发明从HSV色彩空间和梯度方向直方图这两个维度对图像进行特征提取并融合，提升了前后帧关联匹配精度，同时引入CIoU指标代替IoU指标，考虑了目标中心点的距离以及宽高比对目标交叠的影响，能够更有效地判断跟踪框与检测框是否能够正确关联，确保在互相遮挡、尺寸变化以及背景复杂情况下目标的跟踪精度，所以整体跟踪效果更好。

本发明的基于核自适应滤波与YOLOX检测结合的机动多目标跟踪方法，相对于原始DeepSORT方法，具备以下更优效果：

(1)本发明的目标检测效率高：本发明中的检测器使用YOLOX-S目标检测网络模型，在网络参数规模比较小的条件下具有出色的目标检测精度；

(2)本发明的目标跟踪精度高：本发明引入核自适应滤波作为跟踪器，与基于卡尔曼滤波的跟踪器相比，具有更强的非线性预测能力，能够提升对目标在机动大、密集以及特征不明显情况下的运动状态的预测估计精度；

(3)本发明的匹配计算量小，优化了检测框与跟踪框的匹配逻辑，降低了匹配的复杂度；

(4)本发明提升了检测框与跟踪框的匹配精度，一是使用CIoU代替IoU，不仅考虑了检测框与跟踪框的重叠面积，还考虑了两者中心点的距离以及宽高比对目标交叠的影响；二是引入HSV色彩空间和梯度方向直方图HOG进行目标的特征提取，增强了方法在颜色空间的特征提取能力；

(5)本发明具有多类别的目标跟踪能力，通过不同的数据集来训练检测器，可以实现多种场景、多种类型目标的准确跟踪；

(6)本发明通过调整运动匹配度与外观匹配度的权重，提升对特征不明显的小目标的跟踪精度。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于核自适应滤波与YOLOX检测结合的机动多目标跟踪方法，其特征在于，包括以下步骤：

步骤1：通过YOLOX目标检测网络对待跟踪视频序列的当前帧进行目标检测，确定目标在当前帧中的目标状态信息，并生成检测框；

步骤2：进行下一帧预测，根据为上一帧中不同匹配状态的检测目标分配的核自适应滤波器，构建目标多模态运动状态预测模型，将历史帧的目标状态信息输入所述目标多模态运动状态预测模型，来预测当前帧的目标在下一帧的所述目标状态信息，并生成跟踪框；

步骤33：计算第二重匹配中未能正确匹配的跟踪框和检测框之间的CIoU指标，并作为第三重匹配权重进行第三重匹配；

步骤34：获得经过三重匹配后的最终匹配结果；

步骤4：利用所述匹配结果更新核自适应滤波器的输入以及所述目标状态信息；

步骤5：提取所述待跟踪视频序列的下一帧，并重复所述步骤1-4直至提取完所述待跟踪视频序列的所有帧，完成所述待跟踪视频序列的多目标跟踪。

2.根据权利要求1所述的基于核自适应滤波与YOLOX检测结合的机动多目标跟踪方法，其特征在于，所述步骤1包括训练与应用两个阶段，其中训练阶段构建并训练YOLOX目标检测网络，是离线完成的，应用阶段使用离线训练得到的YOLOX目标检测网络进行当前帧的检测；具体过程为：

步骤11：根据训练视频序列生成目标检测数据集，并将所述目标检测数据集划分为训练集和测试集；

步骤13：利用所述测试集计算所述YOLOX目标检测网络的损失函数，并利用反向传播算法更新所述YOLOX目标检测网络的网络参数，优化所述YOLOX目标检测网络；

步骤14：将待跟踪视频序列的当前帧图像送入训练完成的YOLOX目标检测网络中，得到当前帧中目标状态信息，进而生成检测框。

3.根据权利要求1所述的基于核自适应滤波与YOLOX检测结合的机动多目标跟踪方法，其特征在于，所述步骤2具体实现过程包括训练与应用两个阶段，其中训练阶段是离线完成的，构建并训练基于核自适应滤波器的目标多模态运动状态预测模型；应用阶段使用离线训练得到的目标多模态运动状态预测模型进行当前帧的预测；具体过程为：

步骤22：对所述多目标跟踪数据集进行标注，生成标注文件，利用标注文件计算每个目标连续多帧的检测框的中心位置以及尺寸大小，提取所述训练视频序列中的不同目标的标注结果，再根据目标的运动模态生成多组训练集与测试集，组成多模态运动数据集；

步骤23：设定核自适应滤波参数，使用多模态运动数据集对基于核自适应滤波器的目标多模态运动状态预测模型进行混合训练；

步骤24：根据输入的待跟踪训练视频序列，利用基于核自适应滤波器的目标多模态运动状态预测模型，对当前帧的目标状态信息进行预测估计，将前k帧的目标状态信息输入目标多模态运动状态预测模型，得到目标在当前帧中的位置与尺寸信息的估计值，进而生成跟踪框。

4.根据权利要求3所述的基于核自适应滤波与YOLOX检测结合的机动多目标跟踪方法，其特征在于，所述步骤21中建立基于核自适应滤波的目标多模态运动状态预测模型的过程包括：

步骤211：预设核自适应滤波器在当前时刻n的输入X(n)由目标在前k个时刻的目标状态信息构成：

其中，x(n-1)＝[x(n-1),y(n-1),w(n-1),h(n-1)]^T为n-1时刻的目标状态信息；(x(n-1),y(n-1))为n-1时刻目标框的中心坐标；(w(n-1),h(n-1))表示n-1时刻目标框的宽和高；核自适应滤波器输出为用来估计n时刻的目标状态信息x(n)；k取值为小于m的正整数；

步骤212：采用核自适应滤波器通过学习非线性映射f(·)构建相应的输出f(X(n))作为n时刻状态信息x(n)对应的估计值f(·)表示成如下的线性形式：

其中Ω表示再生希尔伯特空间中的权重矢量；为输入空间/>到再生希尔伯特空间/>的非线性映射；再生希尔伯特空间中的权重矢量进一步表示成如下的线性组合形式：

m为核自适应滤波器字典现存节点个数；a_l为第l个字典节点的权重系数；

步骤213：结合再生希尔伯特空间的性质得到n时刻输入X(n)对应的输出为：

其中κ(·,X(l))是以X(l)为中心的核函数，常用核函数包括线性核、多项式核、高斯核、拉普拉斯核或Sigmoid核。

5.根据权利要求4所述的基于核自适应滤波与YOLOX检测结合的机动多目标跟踪方法，其特征在于，所述步骤23中预设核自适应滤波器的步长参数μ、核函数的参数、训练的batchsize、迭代次数和收敛条件；

根据每一步迭代的误差e来更新核自适应滤波器的权重矢量Ω，不断更新调整非线性映射映射f(·)，非线性映射将输入X(t)映射到特征空间结果为/>则第t次迭代的误差e(t)与权重更新结果Ω(t)分别为：

e(t)＝x(t)-f(X(t)) (4)

当核自适应滤波器满足预设的收敛条件时，保存当前模型参数，得到训练好的核自适应滤波器。

6.根据权利要求1所述的基于核自适应滤波与YOLOX检测结合的机动多目标跟踪方法，其特征在于，所述步骤31的具体实现过程为：

步骤311：计算当前帧检测框与由上一帧预测得到的跟踪框之间的平方马氏距离作为运动匹配度：

步骤312：计算外观与运动特征判别矩阵B⁽¹⁾，用以判断检测框与跟踪框是否能进行匹配，其第i行第j列元素B⁽¹⁾(i,j)表示第i个检测框与第j个跟踪框是否能够匹配

其中，t⁽¹⁾为对应置信区间的阈值，若B⁽¹⁾(i,j)＝1则表示第i个检测框与第j个跟踪框匹配关联成功，否则表明关联失败；

步骤313：提取当前帧检测框与由前k帧预测得到的跟踪框之间的外观信息特征；

使用行人重识别网络提取固定长度的外观特征向量表示第i个跟踪框的前面第k帧的外观特征向量，将前k帧的目标跟踪框提取的外观特征向量形成集合，记为P_i：

集合P_i内最多存储第i个目标距离当前帧前M_k帧的特征信息；计算第j个检测结果与第i个目标的最近M_k个成功关联的轨迹跟踪结果之间的外观特征向量间的最小余弦距离d²(i,j)，用来衡量两帧之间第j个检测框与第i个目标跟踪框的外观匹配度：

步骤314：计算关联匹配度矩阵C：

C(i,j)＝γd¹(i,j)+(1-γ)d²(i,j) (10)

其中，C(i,j)表示第i个跟踪框与第j个检测框的第一重匹配权重，作为关联匹配度矩阵C的第i行第j列的元素，C(i,j)越小则两者越相似，反之则越不相似；γ为调整不同匹配度量权值的比例系数，范围为0到1；当权重系数γ取1时，即表示仅靠运动特征进行跟踪匹配；当权重系数γ取0时，表示仅靠外观特征进行匹配；

步骤315：基于匈牙利算法进行第一重匹配：

设定是当前帧跟踪目标的集合，/>是当前帧检测目标的集合，A_max为最大保留时长；关联匹配度矩阵C存放当前帧目标跟踪框与检测框之间的匹配权重，关联集合/>初始化为空集合，将找不到匹配目标的检测物集合/>初始化为/>基于匈牙利算法进行第一重匹配，统计跟踪框与检测框的匹配状态，三种状态分别为：成功匹配的跟踪框与检测框MTD、未能成功匹配到跟踪框的检测框UD和未能成功匹配到检测框的跟踪框UT。

7.根据权利要求6所述的基于核自适应滤波与YOLOX检测结合的机动多目标跟踪方法，其特征在于，所述步骤32的具体实现过程为：

步骤321：计算跟踪框以及检测框所包含图像的方向梯度直方图和HSV色彩空间的融合特征，构成颜色空间特征向量；

颜色空间特征向量p由从HSV色彩空间提取的特征向量p_hist与方向梯度直方图提取的特征向量p_thog进行线性融合得到，公式表示为：

p＝ap_hist+(1-α)P_thog (11)

其中，α代表p_hist与p_thog的融合权重，范围为0到1；

步骤322：计算颜色空间特征向量的余弦相似度矩阵Q；

跟踪框i与检测框j提取的颜色空间特征向量分别为pⁱ与p^j，计算跟踪框i与检测框j之间的颜色空间特征向量的余弦相似度作为余弦相似度矩阵Q的第i行第j列元素Q(i,j)：

步骤323：遍历步骤31未能正确匹配的UD与UT状态下的跟踪框与检测框，根据得到的跟踪框i与检测框j的相似度Q(i,j)计算颜色空间判别矩阵B⁽²⁾，其元素B⁽²⁾(i,j)用以判断第j个目标边框与第i个跟踪框是否能够完成第二重匹配

其中，t⁽²⁾为对应的判定阈值，范围为0到1；若B⁽²⁾(i,j)＝1则表示关联成功，否则表明关联失败，关联完成后统计跟踪框与检测框状态。

8.根据权利要求7所述的基于核自适应滤波与YOLOX检测结合的机动多目标跟踪方法，其特征在于，所述步骤33的具体实现过程为：

步骤331：计算跟踪框和检测框之间的CIoU指标：

跟踪框B^p与检测框B^g的左上角坐标分别为与/>右下角坐标分别为与/>宽和高分别为(w^p,h^p)与(w^g,h^g)，B^p和B^g的面积分别为A^p与A^g，两者的重叠面积为I，同时包含B^p和B^g的最小矩形区域的对角线长度为c，两者坐标中心的欧式距离为ρ，则交并比IoU指标表示为:

计算跟踪框和检测框的长宽比一致性系数v：

计算长宽比的平衡参数β：

则跟踪框和检测框之间的CIoU指标为：

步骤332：根据步骤33中未能正确匹配的UD与UT状态下的跟踪框与检测框，计算CIoU指标矩阵O，其第i行第j列元素O(i,j)为第j个目标检测框与第i个跟踪框之间CIoU指标；

计算CIoU指标判别矩阵B⁽³⁾，B⁽³⁾(i,j)用以判断第i个检测框与第j个跟踪框是否能够进行第三重匹配；

其中，t⁽³⁾为对应的判定阈值；若B⁽³⁾(i,j)＝1则表示关联成功，否则表明关联失败，关联完成后统计跟踪框与检测框状态，获得检测框与跟踪框的匹配结果。

9.根据权利要求6所述的基于核自适应滤波与YOLOX检测结合的机动多目标跟踪方法，其特征在于，所述步骤4中根据匹配结果进行目标检测框处理；

步骤41：处理MTD状态：

将处于MTD状态的目标检测框的信息加入对应核自适应滤波器的输入集合，用于预测目标在下一帧的位置与尺寸信息；

步骤42：处理UT状态：

UT状态被认为是失配，max_age表示一个跟踪框的最大存活周期；T_lost表示跟丢累计时间，初始化为0；如果发生失配，T_lost加1，否则T_lost置0，如果T_lost>max_age，相应目标的ID将被删除，同时将该目标所分配的核自适应滤波器删除；

步骤43：处理UD状态：

UD状态说明当前的检测框是新出现目标，没有任何一个已有目标的跟踪框能与之匹配，为其分配新的核自适应滤波器用于后续的预测跟踪。