CN116152289A

CN116152289A - 一种目标对象的跟踪方法、相关装置、设备以及存储介质

Info

Publication number: CN116152289A
Application number: CN202111371200.4A
Authority: CN
Inventors: 付灿苗; 孙冲; 李琛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2023-05-23

Abstract

本申请公开了一种基于人工智能技术实现的目标对象跟踪方法，具体涉及图像识别领域，应用场景至少包括各类终端，如：手机、电脑、车载终端等。本申请包括若前一个图像帧中检测出目标对象，则从当前图像帧中提取原始检测图像；通过特征提取网络获取目标特征图；针对每个特征图，根据特征图中设置的锚点获取锚点框；基于锚点框所对应的特征，通过对象检测网络获取可选边界框参数；确定T组边界框参数；根据T组边界框参数确定当前图像帧中针对目标对象的跟踪结果。本申请还提供了装置、设备及存储介质。本申请不仅降低了数据处理量，提升目标跟踪效率，而且在图像检测过程中达到更好的识别效果，从而有利于提升目标跟踪的准确性。

Description

一种目标对象的跟踪方法、相关装置、设备以及存储介质

技术领域

本申请涉及计算机视觉技术，尤其涉及一种目标对象的跟踪方法、相关装置、设备以及存储介质。

背景技术

目标跟踪是计算机视觉中的一个重要研究方向，有着广泛的应用。随着计算机技术的发展，出现越来越多的用户和计算机之间进行交互的场景。在交互的场景中，通常需要对目标对象进行定位跟踪，然后再依据跟踪到的目标对象执行不同的交互动作。

目前，通常采用传统的跟踪算法对目标对象进行跟踪。例如，使用核相关滤波(kernel correlation filter，KCF)算法实现目标跟踪。KCF算法的优势在于速度非常快，因此，该算能够支持在大部分的移动端运行，其推理时间可以达到毫秒级别。

然而，发明人发现现有方案中至少存在如下问题，KCF算法难以识别出物体的形变。假设初始图像帧中有一个正方形的物体，在后续的跟踪中该物体变换为矩形，此时，KCF算法很难自适应的去把一个正方形修正为矩形，因此，导致目标跟踪的准确性较低。

发明内容

本申请实施例提供了一种目标对象的跟踪方法、相关装置、设备以及存储介质。一方面，降低了数据处理量，提升目标跟踪效率。另一方面，在图像检测过程中达到更好的识别效果，从而有利于提升目标跟踪的准确性。

有鉴于此，本申请一方面提供一种目标对象的跟踪方法，包括：

若在当前图像帧的前一个图像帧中检测出目标对象，则根据前一个图像帧所对应的目标边界框，从当前图像帧中提取原始检测图像，其中，原始检测图像包括目标对象；

基于原始检测图像，通过特征提取网络获取目标特征图，其中，目标特征图包括K个特征点，且目标特征图被划分为N个特征图，每个特征图中设置有一个锚点，K为大于1的整数，N为大于或等于1且小于K的整数；

针对每个特征图，根据特征图中设置的锚点获取锚点框；

针对每个特征图，基于锚点框所对应的特征，通过对象检测网络获取至少一组可选边界框参数，其中，每组可选边界框参数包括可选边界框的坐标参数以及尺寸参数；

根据每个特征图的至少一组可选边界框参数确定T组边界框参数，其中，每组边界框参数包括边界框的坐标参数以及尺寸参数，T为大于或等于1的整数；

根据T组边界框参数确定当前图像帧中针对目标对象的跟踪结果。

本申请另一方面提供一种目标对象的跟踪方法，包括：

基于原始检测图像，通过特征提取网络获取目标特征图；

基于目标特征图，通过对象检测网络获取第一偏移量以及第二偏移量，其中，第一偏移量为左上偏移量，且第二偏移量为右下偏移量，或，第一偏移量为右上偏移量，且第二偏移量为左下偏移量；

根据第一偏移量以及第二偏移量，确定当前图像帧中针对目标对象的跟踪结果。

本申请另一方面提供一种目标对象跟踪装置，包括：

获取模块，用于若在当前图像帧的前一个图像帧中检测出目标对象，则根据前一个图像帧所对应的目标边界框，从当前图像帧中提取原始检测图像，其中，原始检测图像包括目标对象；

获取模块，还用于基于原始检测图像，通过特征提取网络获取目标特征图，其中，目标特征图包括K个特征点，且目标特征图被划分为N个特征图，每个特征图中设置有一个锚点，K为大于1的整数，N为大于或等于1且小于K的整数；

获取模块，还用于针对每个特征图，根据特征图中设置的锚点获取锚点框；

获取模块，还用于针对每个特征图，基于锚点框所对应的特征，通过对象检测网络获取至少一组可选边界框参数，其中，每组可选边界框参数包括可选边界框的坐标参数以及尺寸参数；

确定模块，用于根据每个特征图的至少一组可选边界框参数确定T组边界框参数，其中，每组边界框参数包括边界框的坐标参数以及尺寸参数，T为大于或等于1的整数；

跟踪模块，用于根据T组边界框参数确定当前图像帧中针对目标对象的跟踪结果。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，目标对象跟踪装置还包括识别模块；

识别模块，用于若在当前图像帧的前一个图像帧中未检测出目标对象，则对当前图像帧进行对象识别；

识别模块，还用于若未获取到当前图像帧的前一个图像帧，则对当前图像帧进行对象识别。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，

获取模块，具体用于对原始检测图像进行尺寸调整，得到待处理图像；

若待处理图像的尺寸与预设尺寸匹配失败，则对待处理图像进行填充，得到满足预设尺寸的目标检测图像；

基于目标检测图像，通过特征提取网络输出目标特征图。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，每组可选边界框参数还包括置信度参数，至少一组可选边界框参数包括多组可选边界框参数；

确定模块，具体用于针对每个特征图，从多组可选边界框参数中选择具有最大置信度参数的可选边界框参数，其中，每组可选边界框参数用于确定一个可选边界框；

针对每个特征图，根据具有最大置信度参数的可选边界框参数，确定初始可选边界框；

针对每个特征图，遍历其余的可选边界框，若存在可选边界框与初始可选边界框之间的重叠面积大于或等于面积阈值，则删除可选边界框，直至得到剩余的可选边界框，其中，其余的可选边界框表示除了初始可选边界框之外的可选边界框；

针对每个特征图，将剩余的可选边界框所对应的可选边界框参数作为边界框参数。

跟踪模块，具体用于根据T组边界框参数确定T个边界框；

根据T个边界框确定最左侧顶点、最右侧顶点、最上侧顶点以及最下侧顶点；

根据最左侧顶点、最右侧顶点、最上侧顶点以及最下侧顶点，确定左上顶点坐标、左下顶点坐标、右上顶点坐标以及右下顶点坐标；

根据左上顶点坐标、左下顶点坐标、右上顶点坐标以及右下顶点坐标，确定针对目标对象的跟踪结果。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，目标对象跟踪装置还包括训练模块；

获取模块，还用于获取图像样本，其中，图像样本包括目标对象；

获取模块，还用于基于图像样本，通过特征提取网络获取样本特征图，其中，样本特征图包括K个特征点，样本特征图被划分为N个待训练特征图，每个待训练特征图中设置有一个锚点；

获取模块，还用于针对每个待训练特征图，根据待训练特征图中设置的锚点获取锚点框；

获取模块，还用于针对每个待训练特征图，基于锚点框所对应的特征以及真实边界框参数，通过对象检测网络获取至少一组可选边界框参数，其中，每组可选边界框参数包括待训练边界框的坐标参数以及尺寸参数；

确定模块，还用于针对每个待训练特征图，从至少一组可选边界框参数中确定预测边界框参数；

训练模块，用于针对每个待训练特征图，根据预测边界框参数以及真实边界框参数，采用损失函数对特征提取网络以及对象检测网络的模型参数进行更新。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，目标对象跟踪装置还包括检测模块；

检测模块，用于采用预设跟踪算法对当前图像帧进行检测，得到目标对象的第一中心位置参数，其中，预设跟踪算法为核相关滤波算法、在线实时跟踪算法、背景感知相关滤波算法或多实例在线学习算法；

跟踪模块，具体用于根据T组边界框参数，确定目标对象的第二中心位置参数；

根据第一中心位置参数以及第二中心位置参数，确定当前图像帧中针对目标对象的跟踪结果。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，目标对象为人手；

目标对象跟踪装置还包括启动模块、生成模块以及触发模块；

启动模块，用于响应针对视频拍摄控件的操作，启动终端设备的摄像头装置；

获取模块，还用于通过摄像头装置采集连续M个图像帧，其中，M为大于或等于1的整数；

获取模块，还用于根据T组边界框参数确定当前图像帧中针对目标对象的跟踪结果之后，获取连续M个图像帧中针对人手的跟踪结果；

生成模块，用于根据连续M个图像帧对应的跟踪结果以及当前图像帧对应的跟踪结果，生成针对人手的移动轨迹；

触发模块，用于若移动轨迹与预设轨迹匹配成功，则触发与预设轨迹对应的功能。

启动模块，还用于响应针对视频拍摄控件的操作，启动终端设备的摄像头装置；

获取模块，还用于根据连续M个图像帧对应的跟踪结果以及当前图像帧对应的跟踪结果，获取轨迹长度；

触发模块，还用于若轨迹长度大于或等于长度阈值，则触发与预设轨迹对应的功能。

本申请另一方面提供一种目标对象跟踪装置，包括：

获取模块，还用于基于原始检测图像，通过特征提取网络获取目标特征图；

获取模块，还用于基于目标特征图，通过对象检测网络获取第一偏移量以及第二偏移量，其中，第一偏移量为左上偏移量，且第二偏移量为右下偏移量，或，第一偏移量为右上偏移量，且第二偏移量为左下偏移量；

跟踪模块，用于根据第一偏移量以及第二偏移量，确定当前图像帧中针对目标对象的跟踪结果。

基于目标检测图像，通过特征提取网络输出目标特征图。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，第一偏移量为左上偏移量，且第二偏移量为右下偏移量，其中，左上偏移量包括左上顶点距离初始左上顶点的横向偏移量以及纵向偏移量，右下偏移量包括右下顶点距离初始右下顶点的横向偏移量以及纵向偏移量；

目标对象跟踪装置还包括训练模块；

获取模块，还用于基于图像样本，通过特征提取网络获取样本特征图；

获取模块，还用于基于样本特征图，通过对象检测网络获取左上预测偏移量以及右下预测偏移量；

训练模块，用于基于样本特征图，根据左上预测偏移量、右下预测偏移量、左上真实偏移量以及右下真实偏移量，采用损失函数对特征提取网络以及对象检测网络的模型参数进行更新。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，第一偏移量为右上偏移量，且第二偏移量为左下偏移量，其中，右上偏移量包括右上顶点距离初始右上顶点的横向偏移量以及纵向偏移量，左下偏移量包括左下顶点距离初始左下顶点的横向偏移量以及纵向偏移量；

获取模块，还用于基于样本特征图，通过对象检测网络获取右上预测偏移量以及左下预测偏移量；

训练模块，还用于基于样本特征图，根据右上预测偏移量、左下预测偏移量、右上真实偏移量以及左下真实偏移量，采用损失函数对特征提取网络以及对象检测网络的模型参数进行更新。

跟踪模块，具体用于根据第一偏移量以及第二偏移量，确定目标对象的第二中心位置参数；

获取模块，还用于根据第一偏移量以及第二偏移量，确定当前图像帧中针对目标对象的跟踪结果之后，获取连续M个图像帧中针对人手的跟踪结果；

本申请另一方面提供一种计算机设备，包括：存储器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请另一方面提供一种终端设备，包括：存储器、处理器以及总线系统；

其中，存储器用于存储程序；

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种目标对象的跟踪方法，首先获取当前图像帧，然后判断在当前图像帧的前一个图像帧中是否检测出目标对象，若是，则根据前一个图像帧的目标边界框，从当前图像帧中提取原始检测图像。接下来，通过特征提取网络获取原始检测图像的目标特征图，进而可通过对象检测网络获取目标特征图对应的T组边界框参数，最后，结合T组边界框参数确定当前图像帧中针对目标对象的跟踪结果。通过上述方式，一方面，从当前图像帧中提取包含有目标对象的原始检测图像用于后续检测，相比于直接对整个当前图像帧进行检测，降低了数据处理量，与此同时，将目标特征图拆分为多个特征图分别进行检测，能够把跟踪看成是一个小规模的检测问题，从而解决被跟踪物体尺度变化和位移变化的问题，提升目标跟踪效率。另一方面，采用对象检测网络对原始检测图像进行边界框检测，相比于传统跟踪算法，能够基于学习到的目标对象的特征，在图像检测过程中达到更好的识别效果，从而有利于提升目标跟踪的准确性。

附图说明

图1为本申请实施例中目标对象跟踪方法的一个场景示意图；

图2为本申请实施例中目标对象跟踪方法的另一个场景示意图；

图3为本申请实施例中目标对象跟踪方法的一个流程示意图；

图4为本申请实施例中基于锚点机制实现对象检测的一个示意图；

图5为本申请实施例中基于帧间控制进行目标对象跟踪的一个示意图；

图6为本申请实施例中对原始检测图像进行尺寸调整的一个示意图；

图7为本申请实施例中基于锚点机制生成跟踪结果的一个示意图；

图8为本申请实施例中融合得到跟踪结果的一个示意图；

图9为本申请实施例中基于运动轨迹触发应用功能的一个示意图；

图10为本申请实施例中基于移动距离触发应用功能的一个示意图；

图11为本申请实施例中目标对象跟踪方法的另一个流程示意图；

图12为本申请实施例中基于单一边框实现对象检测的一个示意图；

图13为本申请实施例中基于单一边框实现对象检测的另一个示意图；

图14为本申请实施例中目标对象跟踪装置的一个示意图；

图15为本申请实施例中目标对象跟踪装置的另一个示意图；

图16为本申请实施例中终端设备的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

目标跟踪是计算机视觉(computer vision，CV)领域的一个重要分支，是模式识别、图像处理和机器学习等学科的交叉研究，有着广泛的应用，例如，视频监控、虚拟现实、人机交互、图像理解以及无人驾驶等。本申请提供了一种目标对象的跟踪方法，能够兼顾跟踪效率和跟踪准确性，适用于移动端应用。

以跟踪的目标对象为人手为例，作为人手相关算法移动端应用的基础，包括人手关键点检测，人手手势识别，人手三维姿态估计等。在当前的短视频和小视频时代，用户在使用时，经常会有很多手势交互的动作用以来触发各种特效挂件和其他的玩法。因此，开发一种移动端高速且准确的跟踪算法十分重要。对于一些应用产品而言，可能需要适配的手机从低端机到高端机有很广泛的分布，需要在最低端的手机上能够达到实时跟踪的效果，且尽可能少的占用手机的计算资源和提高手机的续航。基于这个前提，既要实现速度快且稳定性好的跟踪算法，又要能够做到低延时和低功耗，从而能够很好地嵌入到终端设备的跟踪系统，提升整体的稳定性和用户体验。

本申请提出了一种目标对象的跟踪方法，该方法应用于目标对象跟踪系统，目标对象跟踪系统包括终端设备，或者，目标对象跟踪系统包括终端设备以及服务器。本申请以运行于终端设备为例进行说明，终端设备上部署有客户端。客户端可以通过浏览器的形式运行于终端设备上，也可以通过独立的应用程序(application，APP)的形式运行于终端设备上等，对于客户端的具体展现形式，此处不做限定。终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表、车载设备、可穿戴设备等，但并不局限于此。

示例性地，在单人交互场景中可实现目标跟踪，为了便于说明，请参阅图1，图1为本申请实施例中目标对象跟踪方法的一个场景示意图，如图所示，在终端设备上显示有互动提示，用户可跟随互动提示执行相应的动作。由终端设备通过摄像头采集视频，并对视频中的图像帧进行分析，达到跟踪人手的目的。

示例性地，在多人交互场景中可实现目标跟踪，为了便于说明，请参阅图2，图2为本申请实施例中目标对象跟踪方法的另一个场景示意图，如图所示，在终端设备上显示有互动提示，用户甲和用户乙可分别跟随互动提示执行相应的动作。由终端设备通过摄像头采集视频，并对视频中的图像帧进行分析，达到跟踪人手的目的。

本申请提出了一种目标对象的跟踪方法具体涉及到人工智能(artificialintelligence，AI)领域中的CV技术和机器学习(machine learning，ML)技术。其中，CV是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，CV研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的AI系统。CV技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(optical character recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。ML是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。ML是AI的核心，是使计算机具有智能的根本途径，其应用遍及AI的各个领域。ML和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，AI是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。AI也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。AI基础技术一般包括如传感器、专用AI芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。AI软件技术主要包括CV技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

随着AI技术研究和进步，AI技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，AI技术将在更多的领域得到应用，并发挥越来越重要的价值。

结合上述介绍，本申请实施例提供的方案涉及AI的CV和ML等技术，下面将对本申请中目标对象的跟踪方法进行介绍，请参阅图3，本申请实施例中目标对象跟踪方法的一个实施例包括：

110、若在当前图像帧的前一个图像帧中检测出目标对象，则根据前一个图像帧所对应的目标边界框，从当前图像帧中提取原始检测图像，其中，原始检测图像包括目标对象；

在一个或多个实施例中，目标对象跟踪装置获取当前图像帧以及当前图像帧的前一个图像帧，并判断前一个图像帧中是否检测出目标对象(例如，人手)，如果检测出目标对象，则可以基于前一个图像帧的跟踪结果(即，目标边界框)确定当前图像帧中目标对象的大致范围。

具体地，假设目标边界框的尺寸为500×500，在一种实现方式中，以目标边界框的中心点为中心，取出一个800×800的区域作为原始检测图像。在另一种实现方式中，可基于目标边界框所在的位置和尺寸，结合目标对象的移动速度和移动方向，预估一个区域作为原始检测图像，此处不做限定。

需要说明的是，目标对象跟踪装置可部署于终端设备，或，部署于由终端设备和服务器组成的系统，本申请以部署于目标对象跟踪装置部署于终端设备为例进行说明。

120、基于原始检测图像，通过特征提取网络获取目标特征图，其中，目标特征图包括K个特征点，且目标特征图被划分为N个特征图，每个特征图中设置有一个锚点，K为大于1的整数，N为大于或等于1且小于K的整数；

在一个或多个实施例中，可采用训练好的特征提取网络，对原始检测图像进行特征提取，由此得到目标特征图。以目标特征图的尺寸为40×40为例，则目标特征图包括1600个特征点。通过特征提取网络提取原始检测图像的特征，即得到目标特征图。将目标特征图划分为N个特征图(例如，N等于9)，并对每个特征图分别进行检测。

130、针对每个特征图，根据特征图中设置的锚点获取锚点框；

在一个或多个实施例中，在每个特征图中心位置设置一个锚点(anchor)，根据锚点即可得到锚点框，即可得到N个锚点框。

140、针对每个特征图，基于锚点框所对应的特征，通过对象检测网络获取至少一组可选边界框参数，其中，每组可选边界框参数包括可选边界框的坐标参数以及尺寸参数；

在一个或多个实施例中，对于每个特征图而言，将其中锚点框所选特征作为对象检测网络的输入，由此得到至少一组可选边界框参数(例如，9组可选边界框参数)，其中，每组可选边界框参数包括可选边界框的坐标参数以及尺寸参数。

具体地，为了便于理解，请参阅图4，图4为本申请实施例中基于锚点机制实现对象检测的一个示意图，如图所示，目标特征图被划分为9个特征图(即，3×3的网格)，每个特征图中心位置设置一个锚点，根据锚点即可得到锚点框。将锚点框选中的特征作为对象检测网络的输入，由对象检测网络输出至少一组可选边界框参数，例如，输出9组可选边界框参数，每组可选边界框参数包括可选边界框的坐标参数以及尺寸参数。

150、根据每个特征图的至少一组可选边界框参数确定T组边界框参数，其中，每组边界框参数包括边界框的坐标参数以及尺寸参数，T为大于或等于1的整数；

在一个或多个实施例中，对于每个特征图而言，从至少一组可选边界框参数中选择符合要求的可选边界框参数作为输出的边界框参数。最终，基于N个特征图总共得到T组边界框参数，类似地，每组边界框参数包括边界框的坐标参数以及尺寸参数。

160、根据T组边界框参数确定当前图像帧中针对目标对象的跟踪结果。

在一个或多个实施例中，根据T组边界框参数即可确定目标对象在原始检测图像中的位置，进而可确定目标对象在当前图像帧中的跟踪结果。其中，跟踪结果可表示为一个包含目标对象的边界框。如果当前图像帧中未检测到目标对象，跟踪结果可表示为未跟踪到目标对象。

本申请提供的特征提取网络和对象检测网络总共约占50千字节(kilobyte，KB)的存储空间，可实现1.4M浮点操作/秒(floating point operations per second，FLOPs)。相对于超实时性单目标跟踪网络(Siamese Region Proposal Network，Siamese RPN)等算，有3到4个数量级的加速，在低端机上(例如，A53机器)的耗时能够压缩到1毫秒以内，极大了加速了移动端的跟踪算法，并且有效的为下游算法预留了更多的功耗和时间。

本申请实施例中，提供了一种目标对象的跟踪方法。通过上述方式，一方面，从当前图像帧中提取包含有目标对象的原始检测图像用于后续检测，相比于直接对整个当前图像帧进行检测，降低了数据处理量，与此同时，将目标特征图拆分为多个特征图分别进行检测，能够把跟踪看成是一个小规模的检测问题，从而解决被跟踪物体尺度变化和位移变化的问题，提升目标跟踪效率。另一方面，采用对象检测网络对原始检测图像进行边界框检测，相比于传统跟踪算法，能够基于学习到的目标对象的特征，在图像检测过程中达到更好的识别效果，从而有利于提升目标跟踪的准确性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的另一个可选实施例中，还可以包括：

若在当前图像帧的前一个图像帧中未检测出目标对象，则对当前图像帧进行对象识别；

若未获取到当前图像帧的前一个图像帧，则对当前图像帧进行对象识别。

在一个或多个实施例中，介绍了一种基于帧间控制实现目标跟踪的方式。由前述实施例可知，如果当前图像帧属于视频中的第一帧图像，那么可采用检测算法检测当前图像帧中是否存在目标对象。

具体地，为了便于理解，请参阅图5，图5为本申请实施例中基于帧间控制进行目标对象跟踪的一个示意图，如图所示，假设当前图像帧存在前一个图像帧，在步骤A1中，基于帧间控制判断前一个图像帧是否检测出目标对象，若上一帧存在目标对象对应的边界框，则执行步骤A2，即进行目标对象的跟踪。若上一帧存在目标对象对应的边界框，则执行步骤A3，即采用检测算法检测当前图像帧进行目标对象的检测，根据检测到的目标对象重置跟踪器。重置跟踪器是指清空跟踪器中的参数，基于检测结果更新跟踪器中的参数。

其中，跟踪器包括包括特征提取网络和对象检测网络，此外，跟踪器还可以包括跟踪算法，例如，KCF算法等。

其次，本申请实施例中，提供了一种基于帧间控制实现目标跟踪的方式，通过上述方式，仅对上一帧为空的图像进行检测，避免对每帧图像都进行检测，从而能够减少图像检测所消耗的算力和资源。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的另一个可选实施例中，基于原始检测图像，通过特征提取网络获取目标特征图，具体可以包括：

对原始检测图像进行尺寸调整，得到待处理图像；

基于目标检测图像，通过特征提取网络输出目标特征图。

在一个或多个实施例中，介绍了一种对原始检测图像进行尺寸变换的方式。由前述实施例可知，原始检测图像是从当前图像帧中取出一部分图像，基于此，可对原始检测图像进行调整尺寸(resize)和填充(padding)处理，得到统一尺寸且保真的目标检测图像。

具体地，请参阅图6，图6为本申请实施例中对原始检测图像进行尺寸调整的一个示意图，如图所示，假设原始检测图像的尺寸为450×1200，将原始检测图像的长度和宽度分别缩为原来的1/3，即得到待处理图像，其中，待处理图像为150×400。假设预设尺寸为400×400，在待处理图像的尺寸与预设尺寸匹配失败的情况下，将采用填充的方式对待处理图像进行处理，由此得到满足预设尺寸的目标检测图像。将目标检测图像作为特征提取网络的输入，通过特征提取网络输出目标特征图。

可以理解的是，特征提取网络包括卷积层、池化层和全连接层，本申请不对网络层的数量进行限定。

其次，本申请实施例中，提供了一种对原始检测图像进行尺寸变换的方式，通过上述方式，一方面能缩小原始检测图像的尺寸，从而减少数据处理量，有利于提升跟踪效率，节省终端设备的算力。另一方面，通过填充能够实现图像的保真，达到更好的检测效果。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的另一个可选实施例中，每组可选边界框参数还包括置信度参数，至少一组可选边界框参数包括多组可选边界框参数；

根据每个特征图的至少一组可选边界框参数确定T组边界框参数，具体可以包括：

针对每个特征图，从多组可选边界框参数中选择具有最大置信度参数的可选边界框参数，其中，每组可选边界框参数用于确定一个可选边界框；

在一个或多个实施例中，介绍了一种采用非极大值抑制(non maximumsuppression，NMS)筛选出边界框的方式。由前述实施例可知，对于每个特征图而言，可包括多组可选边界框参数，一组可选边界框参数对应于一个可选边界框，且可选边界框参数还包括置信度参数。

具体地，以N个特征图中的任意一个特征图为例，假设针对特征图得到9组可选边界框参数，即存在9个可选边界框。首先，从这9个可选边界框中取出具有最大置信度参数的可选边界框作为初始可选边界框，遍历其余的8个可选边界框，分别判断每个可选边界框与初始可选边界框之间的重叠面积(即，交并比)是否大于或等于面积阈值，对于大于或等于面积阈值的可选边界框，直接删除，保留剩下的可选边界框。基于此，从剩下的可选边界框中再选择最大置信度参数的可选边界框作为初始可选边界框，然后重复上述过程，最终得到剩余的可选边界框。

由此，将剩余的可选边界框作为该特征图输出的边界框，并得到相应的边界框参数。

再次，本申请实施例中，提供了一种采用NMS筛选出边界框的方式，通过上述方式，能够准确地筛选出包含目标对象的边界框，从而提升检测的可靠性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的另一个可选实施例中，根据T组边界框参数确定当前图像帧中针对目标对象的跟踪结果，具体可以包括：

根据T组边界框参数确定T个边界框；

在一个或多个实施例中，介绍了一种基于多个边界框确定跟踪结果的方式。由前述实施例可知，将目标特征图划分为N个特征图之后，可针对每个特征图得到其对应的边界框，结合各个边界框构建一个最终的边界框作为针对目标对象的跟踪结果。

具体地，为了便于理解，请参阅图7，图7为本申请实施例中基于锚点机制生成跟踪结果的一个示意图，如图所示，假设目标特征图被划分为9个特征图，每个特征图均检测到一个边界框，即T等于N。从这T个边界框中确定最左侧顶点(即，图示中的A点)、最右侧顶点(即，图示中的B点)、最上侧顶点(即，图示中的C点)以及最下侧顶点(即，图示中的D点)。基于此，根据最左侧顶点、最右侧顶点、最上侧顶点以及最下侧顶点可构建一个矩形框，从而得到左上顶点(即，图示中的E点)坐标、左下顶点(即，图示中的F点)坐标、右上顶点(即，图示中的G点)坐标以及右下顶点(即，图示中的H点)坐标。由此，得到针对目标对象的跟踪结果。

再次，本申请实施例中，提供了一种基于多个边界框确定跟踪结果的方式，通过上述方式，能够综合T个边界框的结果生成一个更准确的边界框，从而实现目标跟踪。

获取图像样本，其中，图像样本包括目标对象；

基于图像样本，通过特征提取网络获取样本特征图，其中，样本特征图包括K个特征点，样本特征图被划分为N个待训练特征图，每个待训练特征图中设置有一个锚点；

针对每个待训练特征图，根据待训练特征图中设置的锚点获取锚点框；

针对每个待训练特征图，基于锚点框所对应的特征以及真实边界框参数，通过对象检测网络获取至少一组可选边界框参数，其中，每组可选边界框参数包括待训练边界框的坐标参数以及尺寸参数；

针对每个待训练特征图，从至少一组可选边界框参数中确定预测边界框参数；

针对每个待训练特征图，根据预测边界框参数以及真实边界框参数，采用损失函数对特征提取网络以及对象检测网络的模型参数进行更新。

在一个或多个实施例中，介绍了一种训练对象检测网络的方式。由前述实施例可知，可获取包含有目标对象(例如，人手)的图像样本，在图像样本中可标注出目标对象所在的框。将图像样本作为特征提取网络的输入，由此输出样本特征图。类似地，将样本特征图划分为N个待训练特征图(例如，3×3的待训练特征图)，并对每个待训练特征图分别进行检测。每个待训练特征图中心位置可设置一个锚点，并得到对应的锚点框，基于该锚点框可取出锚点框所对应的特征。

在训练对象检测网络的过程中，可采用边框回归(bounding box regression)的方法来回归每个锚点对应的锚点框。基于此，将锚点框所对应的特征以及真实边界框(ground truth)参数作为对象检测网络的输入，由此输出至少一组可选边界框参数，从至少一组可选边界框参数中确定预测边界框参数。

具体地，假设锚点框的参数为(Px,Py,Pw,Ph)，真实边界框参数为(Gx,Gy,Gw,Gh)，预测边界框参数为(G'x,G'y,G'w,G'h)，由此，需要寻找一种映射f，使得：

f(Px,Py,Pw,Ph)＝(G'x,G'y,G'w,G'h)；

并使得：

(G'x,G'y,G'w,G'h)≈(Gx,Gy,Gw,Gh)；

将锚点框变换为预测边界框的过程为先平移，再缩放尺度。可采用Smooth L1损失函数或者L2损失函数，分别计算预测值跟真实值之间的损失值，其中，真实值是指基于真实边界框参数和锚点框的参数确定的平移量和尺度缩放量。最终，结合损失值之和，对特征提取网络以及对象检测网络的模型参数进行更新。

再次，本申请实施例中，提供了一种训练对象检测网络的方式，通过上述方式，采用回归锚点框的思路对对象检测网络进行训练，训练过程较为简易。

采用预设跟踪算法对当前图像帧进行检测，得到目标对象的第一中心位置参数，其中，预设跟踪算法为核相关滤波算法、在线实时跟踪算法、背景感知相关滤波算法或多实例在线学习算法；

根据T组边界框参数确定当前图像帧中针对目标对象的跟踪结果，具体可以包括：

根据T组边界框参数，确定目标对象的第二中心位置参数；

在一个或多个实施例中，介绍了一种结合预设跟踪算法实现融合定位的方式。由前述实施例可知，预设跟踪算法能够快速地实现目标跟踪，能够在目标对象快速运动的情况下进行跟踪。但由于预设跟踪算法的准确性较低，因此，可将预设跟踪算法得到的跟踪结果作为对象检测网络输出结果的运动补偿。

具体地，为了便于理解，请参阅图8，图8为本申请实施例中融合得到跟踪结果的一个示意图，如图所示，F1用于指示采用预设跟踪算法确定的边界框。F2用于指示采用预设跟踪算法确定边界框的中心点。F3用于指示基于T组边界框参数确定的边界框。F4用于指示基于T组边界框参数确定边界框的中心点。

假设F2所指示的中心点对应的第一中心位置参数为(x1,y1)，F4所指示的中心点对应的第二中心位置参数为(x2,y2)，且假设第一中心位置参数的权重设置为0.2，第二中心位置参数的权重设置为0.8，基于此，结合第一中心位置参数和第二中心位置参数，确定最终得到的边界框中心位置参数为(x3,y3)，即：

x3＝0.2*x1+0.8*x2；

y3＝0.2*y1+0.8*y2；

可见，预设跟踪算法相当于为对象检测网络输出结果做了一个偏移。

需要说明的是，预设跟踪算法包含但不仅限于核相关滤波(kernel correlationfilter，KCF)算法，简单在线实时跟踪(simple online and realtime tracking，SORT)算法，背景感知相关滤波(background-aware correlation filters，BACF)算法以及多实例在线学习(multi instance learning，MIL)算法等。

其次，本申请实施例中，提供了一种结合预设跟踪算法实现融合定位的方式，通过上述方式，考虑到在目标对象快速运动的情况下，容易出现目标跟丢的情形，因此，需要频繁地调用检测功能，从而导致终端设备的功耗变高。因此，结合预设跟踪算法能够快速地定位到目标对象的位置，减少检测功能的调用频率，有利于减低终端设备的功耗。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的另一个可选实施例中，目标对象为人手；

还可以包括：

响应针对视频拍摄控件的操作，启动终端设备的摄像头装置；

通过摄像头装置采集连续M个图像帧，其中，M为大于或等于1的整数；

根据T组边界框参数确定当前图像帧中针对目标对象的跟踪结果之后，还可以包括：

获取连续M个图像帧中针对人手的跟踪结果；

根据连续M个图像帧对应的跟踪结果以及当前图像帧对应的跟踪结果，生成针对人手的移动轨迹；

若移动轨迹与预设轨迹匹配成功，则触发与预设轨迹对应的功能。

在一个或多个实施例中，介绍了一种基于运动轨迹触发相应功能的方式。由前述实施例可知，终端设备可通过摄像头装置采集视频，并对视频中的图像帧进行分析，进而提取人手的运动轨迹。

具体地，为了便于理解，请参阅图9，图9为本申请实施例中基于运动轨迹触发应用功能的一个示意图，如图所示，以目标对象为人手作为示例。当用户点击“启动摄像头”的控件时，即触发针对视频拍摄控件的操作，于是，终端设备开启摄像头装置并采集视频。假设通过摄像头装置采集到连续M个图像帧，并通过连续M个图像帧中每一帧的跟踪结果，可获取人手移动轨迹，由此，可将人手移动轨迹与预设轨迹匹配进行匹配。

如果移动轨迹与预设轨迹匹配成功，则触发与预设轨迹对应的功能，例如，为用提供相应的奖励，或，显示相应的特效，或，开启某一项特定功能等，此处不做限定。

其次，本申请实施例中，提供了一种基于运动轨迹触发相应功能的方式，通过上述方式，在短视频编辑或短视频特效等产品中，基于对人手的跟踪结果可确定运动轨迹，根据运动轨迹可触发相应的功能。可见，本申请提供的方案能够很好的泛化到各类移动端物体的跟踪任务中，针对不同姿态，角度和遮挡的对象具有较为鲁棒的处理，从而达到提升用户体验的目的。

获取连续M个图像帧中针对人手的跟踪结果；

根据连续M个图像帧对应的跟踪结果以及当前图像帧对应的跟踪结果，获取轨迹长度；

若轨迹长度大于或等于长度阈值，则触发与预设轨迹对应的功能。

在一个或多个实施例中，介绍了一种基于移动距离触发相应功能的方式。由前述实施例可知，终端设备可通过摄像头装置采集视频，并对视频中的图像帧进行分析，进而提取人手的运动轨迹。

具体地，为了便于理解，请参阅图10，图10为本申请实施例中基于移动距离触发应用功能的一个示意图，如图所示，以目标对象为人手作为示例。当用户点击“启动摄像头”的控件时，即触发针对视频拍摄控件的操作，于是，终端设备开启摄像头装置并采集视频。假设通过摄像头装置采集到连续M个图像帧，并通过连续M个图像帧中每一帧的跟踪结果，可确定一条连续的运动轨迹，由此，可计算出该运动轨迹的轨迹长度。

如果轨迹长度大于或等于长度阈值，则触发与预设轨迹对应的功能，例如，为用提供相应的奖励，或，显示相应的特效，或，开启某一项特定功能等，此处不做限定。

其次，本申请实施例中，提供了一种基于移动距离触发相应功能的方式，通过上述方式，在短视频编辑或短视频特效等产品中，基于对人手的跟踪结果可确定移动距离，根据移动距离可触发相应的功能。可见，本申请提供的方案能够很好的泛化到各类移动端物体的跟踪任务中，针对不同姿态，角度和遮挡的对象具有较为鲁棒的处理，从而达到提升用户体验的目的。

结合上述介绍，下面将对本申请中目标对象的跟踪方法进行介绍，请参阅图11，本申请实施例中目标对象跟踪方法的另一个实施例包括：

210、若在当前图像帧的前一个图像帧中检测出目标对象，则根据前一个图像帧所对应的目标边界框，从当前图像帧中提取原始检测图像，其中，原始检测图像包括目标对象；

在一个或多个实施例中，如前述实施例中步骤110所描述的内容，此处不再赘述。

220、基于原始检测图像，通过特征提取网络获取目标特征图；

在一个或多个实施例中，如前述实施例中步骤320所描述的内容，此处不再赘述。

230、基于目标特征图，通过对象检测网络获取第一偏移量以及第二偏移量，其中，第一偏移量为左上偏移量，且第二偏移量为右下偏移量，或，第一偏移量为右上偏移量，且第二偏移量为左下偏移量；

在一个或多个实施例中，将目标特征图作为对象检测网络，可通过对象检测网络输出第一偏移量以及第二偏移量。

示例性地，一种情况为，第一偏移量为左上偏移量，第二偏移量为右下偏移量，其中，左上偏移量包括左上顶点距离初始左上顶点的横向偏移量以及纵向偏移量，右下偏移量包括右下顶点距离初始右下顶点的横向偏移量以及纵向偏移量。

示例性地，另一种情况为，第一偏移量为右上偏移量，第二偏移量为左下偏移量，其中，右上偏移量包括右上顶点距离初始右上顶点的横向偏移量以及纵向偏移量，左下偏移量包括左下顶点距离初始左下顶点的横向偏移量以及纵向偏移量。

240、根据第一偏移量以及第二偏移量，确定当前图像帧中针对目标对象的跟踪结果。

在一个或多个实施例中，根据第一偏移量(x1,y1)以及初始顶点的坐标参数(n1,m1)，得到一组边界框参数(x1,y1,n1,m1)。类似地，根据第二偏移量(x2,y2)以及对角初始顶点的坐标参数(n2,m2)，得到另一组边界框参数(x2,y2,n2,m2)。

示例性地，两个对角顶点可以是左上顶点和右下顶点，下面将结合图示进行说明。

具体地，为了便于理解，请参阅图12，图12为本申请实施例中基于单一边框实现对象检测的一个示意图，如图所示，基于原始检测图像可得到相应的目标特征图，将目标特征图输入至对象检测网络，通过对象检测网络输出a点的偏移量(即，左上偏移量)和b点的偏移量(即，右下偏移量)。其中，左上偏移量包括左上顶点(即，a点)距离初始左上顶点(即，c点)的横向偏移量(即，x1)以及纵向偏移量(即，y1)，右下偏移量包括右下顶点(即，b点)距离初始右下顶点(即，d点)的横向偏移量(即，x2)以及纵向偏移量(即，y2)。

基于此，可构建如图12所示的二维坐标系，根据左上偏移量(x1,y1)以及初始左上顶点的坐标参数(n1,m1)，得到一组边界框参数(x1,y1,n1,m1)。类似地，根据右下偏移量(x2,y2)以及初始右下顶点的坐标参数(n2,m2)，得到另一组边界框参数(x2,y2,n2,m2)。

示例性地，两个对角顶点可以是右上顶点和左下顶点，下面将结合图示进行说明。

具体地，为了便于理解，请参阅图13，图13为本申请实施例中基于单一边框实现对象检测的另一个示意图，如图所示，基于原始检测图像可得到相应的目标特征图，将目标特征图输入至对象检测网络，通过对象检测网络输出a点的偏移量(即，左下偏移量)和b点的偏移量(即，右上偏移量)。其中，左下偏移量包括左下顶点(即，a点)距离初始左下顶点(即，c点)的横向偏移量(即，x1)以及纵向偏移量(即，y1)，右上偏移量包括右上顶点(即，b点)距离初始右上顶点(即，d点)的横向偏移量(即，x2)以及纵向偏移量(即，y2)。

基于此，可构建如图13所示的二维坐标系，根据左下偏移量(x1,y1)以及初始左下顶点的坐标参数(n1,m1)，得到一组边界框参数(x1,y1,n1,m1)。类似地，根据右上偏移量(x2,y2)以及初始右上顶点的坐标参数(n2,m2)，得到另一组边界框参数(x2,y2,n2,m2)。

本申请实施例中，提供了一种目标对象的跟踪方法。通过上述方式，只需对角顶点的偏移量即可确定边界框的位置，从而能够简化模型学习的复杂度，因此，可进一步的降低模型的复杂度，进而达到加速跟踪的效果。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的另一个可选实施例中，第一偏移量为左上偏移量，且第二偏移量为右下偏移量，其中，左上偏移量包括左上顶点距离初始左上顶点的横向偏移量以及纵向偏移量，右下偏移量包括右下顶点距离初始右下顶点的横向偏移量以及纵向偏移量；

还可以包括：

获取图像样本，其中，图像样本包括所述目标对象；

基于图像样本，通过特征提取网络获取样本特征图；

基于样本特征图，通过对象检测网络获取左上预测偏移量以及右下预测偏移量；

基于样本特征图，根据左上预测偏移量、右下预测偏移量、左上真实偏移量以及右下真实偏移量，采用损失函数对特征提取网络以及对象检测网络的模型参数进行更新。

在一个或多个实施例中，介绍了一种训练对象检测网络的方式。由前述实施例可知，需要对对象检测网络进行训练，使其能够拟合出更准确的结果。可以理解的是，特征提取网络以及对象检测网络采用联合训练的方式。

具体地，下面将以一个图像样本为例进行介绍，在实际训练中，采用类似方式对其他图像样本进行处理。图像样本中存在目标对象，且，可以通过人工标注的方式圈出包含有目标对象的边界框。将图像样本输入至特征提取网络，由特征提取网络输出样本特征图。基于此，将样本特征图作为对象检测网络的输入，即可得到左上预测偏移量以及右下预测偏移量。由于已预先在图像样本中标定了边界框，因此，可在样本特征图中确定左上真实偏移量以及右下真实偏移量。

基于此，可采用如下方式计算同一个顶点(例如，左上顶点或右下顶点)在位置上的损失值：

其中，L表示损失值。n表示图像样本的总数。y_i表示第i个图像样本对应真实偏移量(左上真实偏移量或右下真实偏移量)中的横向偏移量或纵向偏移量。f(x_i)表示第i个图像样本对应预测偏移量(左上预测偏移量或右下预测偏移量)中的横向偏移量或纵向偏移量。

最后，结合损失值对特征提取网络以及对象检测网络的模型参数进行更新。

再次，本申请实施例中，提供了一种训练对象检测网络的方式，通过上述方式，一方面，可采用L1损失回归左上顶点和右下顶点的偏移量，L1损失有利于优化小扰动，且回归偏移量较回归类似尺寸而言，更为简单和有效。另一方面，易于构造训练样本，可以大量的生成样本用于训练整个模型。本方案可泛化到移动端绝大多数跟踪任务。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的另一个可选实施例中，第一偏移量为右上偏移量，且第二偏移量为左下偏移量，其中，右上偏移量包括右上顶点距离初始右上顶点的横向偏移量以及纵向偏移量，左下偏移量包括左下顶点距离初始左下顶点的横向偏移量以及纵向偏移量；

还可以包括：

获取图像样本，其中，图像样本包括所述目标对象；

基于图像样本，通过特征提取网络获取样本特征图；

基于样本特征图，通过对象检测网络获取右上预测偏移量以及左下预测偏移量；

基于样本特征图，根据右上预测偏移量、左下预测偏移量、右上真实偏移量以及左下真实偏移量，采用损失函数对特征提取网络以及对象检测网络的模型参数进行更新。

在一个或多个实施例中，介绍了一种训练对象检测网络的方式。由前述实施例可知，图像样本中存在目标对象，可通过人工标注的方式圈出包含有目标对象的边界框。将图像样本输入至特征提取网络，由此得到样本特征图。基于此，将样本特征图作为对象检测网络的输入，即可得到右上预测偏移量以及左下预测偏移量。由于已预先在图像样本中标定了边界框，因此，可在样本特征图中确定右上真实偏移量以及左下真实偏移量。

基于此，可采用如下方式计算同一个顶点(例如，左下顶点或右上顶点)在位置上的损失值：

其中，L表示损失值。n表示图像样本的总数。y_i表示第i个图像样本对应真实偏移量(左下真实偏移量或右上真实偏移量)中的横向偏移量或纵向偏移量。f(x_i)表示第i个图像样本对应预测偏移量(左下预测偏移量或右上预测偏移量)中的横向偏移量或纵向偏移量。

再次，本申请实施例中，提供了一种训练对象检测网络的方式，通过上述方式，一方面，可采用L1损失回归右上顶点和左下顶点的偏移量，L1损失有利于优化小扰动，且回归偏移量较回归类似尺寸而言，更为简单和有效。另一方面，易于构造训练样本，可以大量的生成样本用于训练整个模型。本方案可泛化到移动端绝大多数跟踪任务。

可选地，在上述图11对应的各个实施例的基础上，本申请实施例提供的另一个可选实施例中，还可以包括：

根据第一偏移量以及第二偏移量，确定当前图像帧中针对目标对象的跟踪结果，包括：

根据第一偏移量以及第二偏移量，确定目标对象的第二中心位置参数；

具体地，为了便于理解，请再次参阅图8，如图所示，F1用于指示采用预设跟踪算法确定的边界框。F2用于指示采用预设跟踪算法确定边界框的中心点。F3用于指示基于第一偏移量以及第二偏移量确定的边界框。F4用于指示基于第一偏移量以及第二偏移量确定边界框的中心点。

x3＝0.2*x1+0.8*x2；

y3＝0.2*y1+0.8*y2；

需要说明的是，预设跟踪算法包含但不仅限于KCF算法，SORT算法，BACF算法以及MIL算法等。

可选地，在上述图11对应的各个实施例的基础上，本申请实施例提供的另一个可选实施例中，目标对象为人手；

还可以包括：

根据第一偏移量以及第二偏移量，确定当前图像帧中针对目标对象的跟踪结果之后，还可以包括：

获取连续M个图像帧中针对人手的跟踪结果；

具体地，为了便于理解，请再次参阅图9，如图所示，以目标对象为人手作为示例。当用户点击“启动摄像头”的控件时，即触发针对视频拍摄控件的操作，于是，终端设备开启摄像头装置并采集视频。假设通过摄像头装置采集到连续M个图像帧，并通过连续M个图像帧中每一帧的跟踪结果，可获取人手移动轨迹，由此，可将人手移动轨迹与预设轨迹匹配进行匹配。

获取连续M个图像帧中针对人手的跟踪结果；

具体地，为了便于理解，请再次参阅图10，如图所示，以目标对象为人手作为示例。当用户点击“启动摄像头”的控件时，即触发针对视频拍摄控件的操作，于是，终端设备开启摄像头装置并采集视频。假设通过摄像头装置采集到连续M个图像帧，并通过连续M个图像帧中每一帧的跟踪结果，可确定一条连续的运动轨迹，由此，可计算出该运动轨迹的轨迹长度。

下面对本申请中的目标对象跟踪装置进行详细描述，请参阅图14，图14为本申请实施例中目标对象跟踪装置的一个实施例示意图，目标对象跟踪装置30包括：

获取模块310，用于若在当前图像帧的前一个图像帧中检测出目标对象，则根据前一个图像帧所对应的目标边界框，从当前图像帧中提取原始检测图像，其中，原始检测图像包括目标对象；

获取模块310，还用于基于原始检测图像，通过特征提取网络获取目标特征图，其中，目标特征图包括K个特征点，且目标特征图被划分为N个特征图，每个特征图中设置有一个锚点，K为大于1的整数，N为大于或等于1且小于K的整数；

获取模块310，还用于针对每个特征图，根据特征图中设置的锚点获取锚点框；

获取模块310，还用于针对每个特征图，基于锚点框所对应的特征，通过对象检测网络获取至少一组可选边界框参数，其中，每组可选边界框参数包括可选边界框的坐标参数以及尺寸参数；

确定模块320，用于根据每个特征图的至少一组可选边界框参数确定T组边界框参数，其中，每组边界框参数包括边界框的坐标参数以及尺寸参数，T为大于或等于1的整数；

跟踪模块330，用于根据T组边界框参数确定当前图像帧中针对目标对象的跟踪结果。

可选地，在上述图14所对应的实施例的基础上，本申请实施例提供的目标对象跟踪装置30的另一实施例中，目标对象跟踪装置30还包括识别模块340；

识别模块340，用于若在当前图像帧的前一个图像帧中未检测出目标对象，则对当前图像帧进行对象识别；

识别模块340，还用于若未获取到当前图像帧的前一个图像帧，则对当前图像帧进行对象识别。

可选地，在上述图14所对应的实施例的基础上，本申请实施例提供的目标对象跟踪装置30的另一实施例中，

获取模块310，具体用于对原始检测图像进行尺寸调整，得到待处理图像；

基于目标检测图像，通过特征提取网络输出目标特征图。

可选地，在上述图14所对应的实施例的基础上，本申请实施例提供的目标对象跟踪装置30的另一实施例中，每组可选边界框参数还包括置信度参数，至少一组可选边界框参数包括多组可选边界框参数；

确定模块320，具体用于针对每个特征图，从多组可选边界框参数中选择具有最大置信度参数的可选边界框参数，其中，每组可选边界框参数用于确定一个可选边界框；

跟踪模块330，具体用于根据T组边界框参数确定T个边界框；

可选地，在上述图14所对应的实施例的基础上，本申请实施例提供的目标对象跟踪装置30的另一实施例中，目标对象跟踪装置30还包括训练模块350；

获取模块310，还用于获取图像样本，其中，图像样本包括目标对象；

获取模块310，还用于基于图像样本，通过特征提取网络获取样本特征图，其中，样本特征图包括K个特征点，样本特征图被划分为N个待训练特征图，每个待训练特征图中设置有一个锚点；

获取模块310，还用于针对每个待训练特征图，根据待训练特征图中设置的锚点获取锚点框；

获取模块310，还用于针对每个待训练特征图，基于锚点框所对应的特征以及真实边界框参数，通过对象检测网络获取至少一组可选边界框参数，其中，每组可选边界框参数包括待训练边界框的坐标参数以及尺寸参数；

确定模块320，还用于针对每个待训练特征图，从至少一组可选边界框参数中确定预测边界框参数；

训练模块350，用于针对每个待训练特征图，根据预测边界框参数以及真实边界框参数，采用损失函数对特征提取网络以及对象检测网络的模型参数进行更新。

可选地，在上述图14所对应的实施例的基础上，本申请实施例提供的目标对象跟踪装置30的另一实施例中，目标对象跟踪装置30还包括检测模块360；

检测模块360，用于采用预设跟踪算法对当前图像帧进行检测，得到目标对象的第一中心位置参数，其中，预设跟踪算法为核相关滤波算法、在线实时跟踪算法、背景感知相关滤波算法或多实例在线学习算法；

跟踪模块330，具体用于根据T组边界框参数，确定目标对象的第二中心位置参数；

可选地，在上述图14所对应的实施例的基础上，本申请实施例提供的目标对象跟踪装置30的另一实施例中，目标对象为人手；

目标对象跟踪装置30还包括启动模块370、生成模块380以及触发模块390；

启动模块370，用于响应针对视频拍摄控件的操作，启动终端设备的摄像头装置；

获取模块310，还用于通过摄像头装置采集连续M个图像帧，其中，M为大于或等于1的整数；

获取模块310，还用于根据T组边界框参数确定当前图像帧中针对目标对象的跟踪结果之后，获取连续M个图像帧中针对人手的跟踪结果；

生成模块380，用于根据连续M个图像帧对应的跟踪结果以及当前图像帧对应的跟踪结果，生成针对人手的移动轨迹；

触发模块390，用于若移动轨迹与预设轨迹匹配成功，则触发与预设轨迹对应的功能。

启动模块370，还用于响应针对视频拍摄控件的操作，启动终端设备的摄像头装置；

获取模块310，还用于根据连续M个图像帧对应的跟踪结果以及当前图像帧对应的跟踪结果，获取轨迹长度；

触发模块390，还用于若轨迹长度大于或等于长度阈值，则触发与预设轨迹对应的功能。

下面对本申请中的目标对象跟踪装置进行详细描述，请参阅图15，图15为本申请实施例中目标对象跟踪装置的另一个实施例示意图，目标对象跟踪装置40包括：

获取模块410，用于若在当前图像帧的前一个图像帧中检测出目标对象，则根据前一个图像帧所对应的目标边界框，从当前图像帧中提取原始检测图像，其中，原始检测图像包括目标对象；

获取模块410，还用于基于原始检测图像，通过特征提取网络获取目标特征图；

获取模块410，还用于基于目标特征图，通过对象检测网络获取第一偏移量以及第二偏移量，其中，第一偏移量为左上偏移量，且第二偏移量为右下偏移量，或，第一偏移量为右上偏移量，且第二偏移量为左下偏移量；

跟踪模块420，用于根据第一偏移量以及第二偏移量，确定当前图像帧中针对目标对象的跟踪结果。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的目标对象跟踪装置40的另一实施例中，目标对象跟踪装置40还包括识别模块430；

识别模块430，用于若在当前图像帧的前一个图像帧中未检测出目标对象，则对当前图像帧进行对象识别；

识别模块430，还用于若未获取到当前图像帧的前一个图像帧，则对当前图像帧进行对象识别。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的目标对象跟踪装置40的另一实施例中，

获取模块410，具体用于对原始检测图像进行尺寸调整，得到待处理图像；

基于目标检测图像，通过特征提取网络输出目标特征图。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的目标对象跟踪装置40的另一实施例中，第一偏移量为左上偏移量，且第二偏移量为右下偏移量，其中，左上偏移量包括左上顶点距离初始左上顶点的横向偏移量以及纵向偏移量，右下偏移量包括右下顶点距离初始右下顶点的横向偏移量以及纵向偏移量；

目标对象跟踪装置40还包括训练模块440；

获取模块410，还用于获取图像样本，其中，图像样本包括目标对象；

获取模块410，还用于基于图像样本，通过特征提取网络获取样本特征图；

获取模块410，还用于基于样本特征图，通过对象检测网络获取左上预测偏移量以及右下预测偏移量；

训练模块440，用于基于样本特征图，根据左上预测偏移量、右下预测偏移量、左上真实偏移量以及右下真实偏移量，采用损失函数对特征提取网络以及对象检测网络的模型参数进行更新。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的目标对象跟踪装置40的另一实施例中，第一偏移量为右上偏移量，且第二偏移量为左下偏移量，其中，右上偏移量包括右上顶点距离初始右上顶点的横向偏移量以及纵向偏移量，左下偏移量包括左下顶点距离初始左下顶点的横向偏移量以及纵向偏移量；

获取模块410，还用于基于样本特征图，通过对象检测网络获取右上预测偏移量以及左下预测偏移量；

训练模块440，还用于基于样本特征图，根据右上预测偏移量、左下预测偏移量、右上真实偏移量以及左下真实偏移量，采用损失函数对特征提取网络以及对象检测网络的模型参数进行更新。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的目标对象跟踪装置40的另一实施例中，目标对象跟踪装置40还包括检测模块450；

检测模块450，用于采用预设跟踪算法对当前图像帧进行检测，得到目标对象的第一中心位置参数，其中，预设跟踪算法为核相关滤波算法、在线实时跟踪算法、背景感知相关滤波算法或多实例在线学习算法；

跟踪模块420，具体用于根据第一偏移量以及第二偏移量，确定目标对象的第二中心位置参数；

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的目标对象跟踪装置40的另一实施例中，目标对象为人手；

目标对象跟踪装置40还包括启动模块460、生成模块470以及触发模块480；

启动模块460，用于响应针对视频拍摄控件的操作，启动终端设备的摄像头装置；

获取模块410，还用于通过摄像头装置采集连续M个图像帧，其中，M为大于或等于1的整数；

获取模块410，还用于根据第一偏移量以及第二偏移量，确定当前图像帧中针对目标对象的跟踪结果之后，获取连续M个图像帧中针对人手的跟踪结果；

生成模块470，用于根据连续M个图像帧对应的跟踪结果以及当前图像帧对应的跟踪结果，生成针对人手的移动轨迹；

触发模块480，用于若移动轨迹与预设轨迹匹配成功，则触发与预设轨迹对应的功能。

启动模块460，还用于响应针对视频拍摄控件的操作，启动终端设备的摄像头装置；

获取模块410，还用于根据连续M个图像帧对应的跟踪结果以及当前图像帧对应的跟踪结果，获取轨迹长度；

触发模块480，还用于若轨迹长度大于或等于长度阈值，则触发与预设轨迹对应的功能。

本申请实施例还提供了另一种目标对象跟踪装置，如图16所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图16示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图16，手机包括：射频(Radio Frequency，RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(wireless fidelity，WiFi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解，图16中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图16对手机的各个构成部件进行具体的介绍：

RF电路710可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器780处理；另外，将设计上行的数据发送给基站。通常，RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器720可用于存储软件程序以及模块，处理器780通过运行存储在存储器720的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元730可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元730可包括触控面板731以及其他输入设备732。触控面板731，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板731可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器780，并能接收处理器780发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731，输入单元730还可以包括其他输入设备732。具体地，其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板741。进一步的，触控面板731可覆盖显示面板741，当触控面板731检测到在其上或附近的触摸操作后，传送给处理器780以确定触摸事件的类型，随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图16中，触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器750，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板741的亮度，接近传感器可在手机移动到耳边时，关闭显示面板741和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路760、扬声器761，传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号，传输到扬声器761，由扬声器761转换为声音信号输出；另一方面，传声器762将收集的声音信号转换为电信号，由音频电路760接收后转换为音频数据，再将音频数据输出处理器780处理后，经RF电路710以发送给比如另一手机，或者将音频数据输出至存储器720以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图16示出了WiFi模块770，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器780是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器780可包括一个或多个处理单元；可选的，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器780中。

手机还包括给各个部件供电的电源790(比如电池)，可选的，电源可以通过电源管理系统与处理器780逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

上述实施例中由终端设备所执行的步骤可以基于该图16所示的终端设备结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种目标对象的跟踪方法，其特征在于，包括：

若在当前图像帧的前一个图像帧中检测出目标对象，则根据所述前一个图像帧所对应的目标边界框，从所述当前图像帧中提取原始检测图像，其中，所述原始检测图像包括所述目标对象；

基于所述原始检测图像，通过特征提取网络获取目标特征图，其中，所述目标特征图包括K个特征点，且所述目标特征图被划分为N个特征图，每个特征图中设置有一个锚点，所述K为大于1的整数，所述N为大于或等于1且小于所述K的整数；

针对所述每个特征图，根据特征图中设置的锚点获取锚点框；

针对所述每个特征图，基于锚点框所对应的特征，通过对象检测网络获取至少一组可选边界框参数，其中，每组可选边界框参数包括可选边界框的坐标参数以及尺寸参数；

根据所述每个特征图的至少一组可选边界框参数确定T组边界框参数，其中，每组边界框参数包括边界框的坐标参数以及尺寸参数，所述T为大于或等于1的整数；

根据所述T组边界框参数确定所述当前图像帧中针对所述目标对象的跟踪结果。

2.根据权利要求1所述的跟踪方法，其特征在于，所述方法还包括：

若在所述当前图像帧的前一个图像帧中未检测出所述目标对象，则对所述当前图像帧进行对象识别；

若未获取到所述当前图像帧的前一个图像帧，则对所述当前图像帧进行对象识别。

3.根据权利要求1所述的跟踪方法，其特征在于，所述基于所述原始检测图像，通过特征提取网络获取目标特征图，包括：

对所述原始检测图像进行尺寸调整，得到待处理图像；

若所述待处理图像的尺寸与预设尺寸匹配失败，则对所述待处理图像进行填充，得到满足所述预设尺寸的目标检测图像；

基于所述目标检测图像，通过所述特征提取网络输出所述目标特征图。

4.根据权利要求1所述的跟踪方法，其特征在于，所述每组可选边界框参数还包括置信度参数，所述至少一组可选边界框参数包括多组可选边界框参数；

所述根据所述每个特征图的至少一组可选边界框参数确定T组边界框参数，包括：

针对所述每个特征图，从所述多组可选边界框参数中选择具有最大置信度参数的可选边界框参数，其中，所述每组可选边界框参数用于确定一个可选边界框；

针对所述每个特征图，根据所述具有最大置信度参数的可选边界框参数，确定初始可选边界框；

针对所述每个特征图，遍历其余的可选边界框，若存在可选边界框与所述初始可选边界框之间的重叠面积大于或等于面积阈值，则删除所述可选边界框，直至得到剩余的可选边界框，其中，所述其余的可选边界框表示除了所述初始可选边界框之外的可选边界框；

针对所述每个特征图，将所述剩余的可选边界框所对应的可选边界框参数作为边界框参数。

5.根据权利要求1所述的跟踪方法，其特征在于，所述根据所述T组边界框参数确定所述当前图像帧中针对所述目标对象的跟踪结果，包括：

根据所述T组边界框参数确定T个边界框；

根据所述T个边界框确定最左侧顶点、最右侧顶点、最上侧顶点以及最下侧顶点；

根据所述最左侧顶点、所述最右侧顶点、所述最上侧顶点以及所述最下侧顶点，确定左上顶点坐标、左下顶点坐标、右上顶点坐标以及右下顶点坐标；

根据所述左上顶点坐标、所述左下顶点坐标、所述右上顶点坐标以及所述右下顶点坐标，确定针对所述目标对象的跟踪结果。

6.根据权利要求1所述的跟踪方法，其特征在于，所述方法还包括：

获取图像样本，其中，所述图像样本包括所述目标对象；

基于所述图像样本，通过所述特征提取网络获取样本特征图，其中，所述样本特征图包括K个特征点，所述样本特征图被划分为N个待训练特征图，每个待训练特征图中设置有一个锚点；

针对所述每个待训练特征图，根据待训练特征图中设置的锚点获取锚点框；

针对所述每个待训练特征图，基于锚点框所对应的特征以及真实边界框参数，通过所述对象检测网络获取至少一组可选边界框参数，其中，每组可选边界框参数包括待训练边界框的坐标参数以及尺寸参数；

针对所述每个待训练特征图，从至少一组可选边界框参数中确定预测边界框参数；

针对所述每个待训练特征图，根据预测边界框参数以及真实边界框参数，采用损失函数对所述特征提取网络以及所述对象检测网络的模型参数进行更新。

7.根据权利要求1所述的跟踪方法，其特征在于，所述方法还包括：

采用预设跟踪算法对所述当前图像帧进行检测，得到所述目标对象的第一中心位置参数，其中，所述预设跟踪算法为核相关滤波算法、在线实时跟踪算法、背景感知相关滤波算法或多实例在线学习算法；

所述根据所述T组边界框参数确定所述当前图像帧中针对所述目标对象的跟踪结果，包括：

根据所述T组边界框参数，确定所述目标对象的第二中心位置参数；

根据所述第一中心位置参数以及所述第二中心位置参数，确定所述当前图像帧中针对所述目标对象的跟踪结果。

8.根据权利要求1至7中任一项所述的跟踪方法，其特征在于，所述目标对象为人手；

所述方法还包括：

通过所述摄像头装置采集连续M个图像帧，其中，所述M为大于或等于1的整数；

所述根据所述T组边界框参数确定所述当前图像帧中针对所述目标对象的跟踪结果之后，所述方法还包括：

获取所述连续M个图像帧中针对所述人手的跟踪结果；

根据所述连续M个图像帧对应的跟踪结果以及所述当前图像帧对应的跟踪结果，生成针对所述人手的移动轨迹；

若所述移动轨迹与预设轨迹匹配成功，则触发与所述预设轨迹对应的功能。

9.根据权利要求1至7中任一项所述的跟踪方法，其特征在于，所述目标对象为人手；

所述方法还包括：

获取所述连续M个图像帧中针对所述人手的跟踪结果；

根据所述连续M个图像帧对应的跟踪结果以及所述当前图像帧对应的跟踪结果，获取轨迹长度；

若所述轨迹长度大于或等于长度阈值，则触发与所述预设轨迹对应的功能。

10.一种目标对象的跟踪方法，其特征在于，包括：

基于所述原始检测图像，通过特征提取网络获取目标特征图；

基于所述目标特征图，通过所述对象检测网络获取第一偏移量以及第二偏移量，其中，所述第一偏移量为左上偏移量，且所述第二偏移量为右下偏移量，或，所述第一偏移量为右上偏移量，且所述第二偏移量为左下偏移量；

根据所述第一偏移量以及所述第二偏移量，确定所述当前图像帧中针对所述目标对象的跟踪结果。

11.根据权利要求10所述的跟踪方法，其特征在于，所述第一偏移量为左上偏移量，且所述第二偏移量为右下偏移量，其中，所述左上偏移量包括左上顶点距离初始左上顶点的横向偏移量以及纵向偏移量，所述右下偏移量包括右下顶点距离初始右下顶点的横向偏移量以及纵向偏移量；

所述方法还包括：

获取图像样本，其中，所述图像样本包括所述目标对象；

基于所述图像样本，通过所述特征提取网络获取样本特征图；

基于所述样本特征图，通过所述对象检测网络获取左上预测偏移量以及右下预测偏移量；

基于所述样本特征图，根据所述左上预测偏移量、所述右下预测偏移量、左上真实偏移量以及右下真实偏移量，采用损失函数对所述特征提取网络以及所述对象检测网络的模型参数进行更新。

12.根据权利要求10所述的跟踪方法，其特征在于，所述第一偏移量为右上偏移量，且所述第二偏移量为左下偏移量，其中，所述右上偏移量包括右上顶点距离初始右上顶点的横向偏移量以及纵向偏移量，所述左下偏移量包括左下顶点距离初始左下顶点的横向偏移量以及纵向偏移量：

所述方法还包括：

获取图像样本，其中，所述图像样本包括所述目标对象；

基于所述样本特征图，通过所述对象检测网络获取右上预测偏移量以及左下预测偏移量；

基于所述样本特征图，根据所述右上预测偏移量、所述左下预测偏移量、右上真实偏移量以及左下真实偏移量，采用损失函数对所述特征提取网络以及所述对象检测网络的模型参数进行更新。

13.根据权利要求10所述的跟踪方法，其特征在于，所述方法还包括：

所述根据所述第一偏移量以及所述第二偏移量，确定所述当前图像帧中针对所述目标对象的跟踪结果，包括：

根据所述第一偏移量以及所述第二偏移量，确定所述目标对象的第二中心位置参数；

14.根据权利要求10至13中任一项所述的跟踪方法，其特征在于，所述目标对象为人手；

所述方法还包括：

所述根据所述第一偏移量以及所述第二偏移量，确定所述当前图像帧中针对所述目标对象的跟踪结果之后，所述方法还包括：

获取所述连续M个图像帧中针对所述人手的跟踪结果；

15.根据权利要求10至13中任一项所述的跟踪方法，其特征在于，所述目标对象为人手；

所述方法还包括：

获取所述连续M个图像帧中针对所述人手的跟踪结果；

16.一种目标对象跟踪装置，其特征在于，包括：

获取模块，用于若在当前图像帧的前一个图像帧中检测出目标对象，则根据所述前一个图像帧所对应的目标边界框，从所述当前图像帧中提取原始检测图像，其中，所述原始检测图像包括所述目标对象；

所述获取模块，还用于基于所述原始检测图像，通过特征提取网络获取目标特征图，其中，所述目标特征图包括K个特征点，且所述目标特征图被划分为N个特征图，每个特征图中设置有一个锚点，所述K为大于1的整数，所述N为大于或等于1且小于所述K的整数；

所述获取模块，还用于针对所述每个特征图，根据特征图中设置的锚点获取锚点框；

所述获取模块，还用于针对所述每个特征图，基于锚点框所对应的特征，通过对象检测网络获取至少一组可选边界框参数，其中，每组可选边界框参数包括可选边界框的坐标参数以及尺寸参数；

确定模块，用于根据所述每个特征图的至少一组可选边界框参数确定T组边界框参数，其中，每组边界框参数包括边界框的坐标参数以及尺寸参数，所述T为大于或等于1的整数；

跟踪模块，用于根据所述T组边界框参数确定所述当前图像帧中针对所述目标对象的跟踪结果。

17.一种目标对象跟踪装置，其特征在于，包括：

所述获取模块，还用于基于所述原始检测图像，通过特征提取网络获取目标特征图；

所述获取模块，还用于基于所述目标特征图，通过所述对象检测网络获取第一偏移量以及第二偏移量，其中，所述第一偏移量为左上偏移量，且所述第二偏移量为右下偏移量，或，所述第一偏移量为右上偏移量，且所述第二偏移量为左下偏移量；

跟踪模块，用于根据所述第一偏移量以及所述第二偏移量，确定所述当前图像帧中针对所述目标对象的跟踪结果。

18.一种终端设备，其特征在于，包括：存储器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，所述处理器用于根据程序代码中的指令执行权利要求1至9中任一项所述的跟踪方法，或，执行权利要求10至15中任一项所述的跟踪方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

19.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至9中任一项所述的跟踪方法，或，执行权利要求10至15所述的跟踪方法。

20.一种计算机程序产品，包括计算机程序和指令，其特征在于，该计算机程序/指令被处理器执行时实现如权利要求1至9中任一项所述的跟踪方法，或，实现如权利要求10至15所述的跟踪方法。