CN118247812A

CN118247812A - 视频目标识别方法及装置

Info

Publication number: CN118247812A
Application number: CN202410451857.9A
Authority: CN
Inventors: 李越豪; 鉴海防; 王洪昌; 朱文旗
Original assignee: Institute of Semiconductors of CAS
Current assignee: Institute of Semiconductors of CAS
Priority date: 2024-04-15
Filing date: 2024-04-15
Publication date: 2024-06-25

Abstract

本发明提供一种视频目标识别方法及装置，涉及视频目标识别技术领域，可解决数据标注难、标注成本高、标注数据匮乏的问题。该方法包括：响应于输入原始视频，确定多个关键帧和待处理帧，待处理帧为任意两个相邻关键帧之间的连续帧，每个关键帧包含至少一个待识别目标。对待识别目标进行标注，得到第一目标包围框。根据第一目标包围框，采用预先训练的目标跟踪模型识别待处理帧内的跟踪目标，跟踪目标与待识别目标的相似度基于目标重叠度和目标类别确定。确定跟踪目标的第二目标包围框。以及根据第一目标包围框与第二目标包围框的重叠度，确定原始视频内的目标类别。本发明的方法，可以减少目标标注的工作量，提高了视频目标的识别效率和准确率。

Description

视频目标识别方法及装置

技术领域

本发明涉及视频目标识别技术领域，尤其涉及一种视频目标识别方法及装置。

背景技术

视频细粒度识别是计算机视觉领域中的一项具体任务，其目标是对视频中的目标进行精细化的识别和分类。与普通的视频分类不同，视频细粒度识别需要在更细的类别层次上对目标进行识别。

然而，在实际应用中，由于视频细粒度识别往往需要对特定领域的目标进行精细化的分类，因此标注过程一般需要相关领域专家的参与。同时，相对于图像，目标在视频中可能有不同的姿态、角度、遮挡等，以及可能出现模糊、运动等因素的干扰，给标注带来不确定性。相对于图像，视频标注也需要处理更多目标的变化性。

由于视频由大量帧组成，数据量远大于图像，即使单个视频的时长不长，累积起来的总工作量也十分可观。因此，数据标注难、标注成本高、标注数据匮乏已成为视频细粒度识别领域技术发展和应用亟需解决的瓶颈难题。

发明内容

(一)要解决的技术问题

针对现有的技术问题，本发明的实施例提供一种视频目标识别方法及装置，用于至少部分解决以上技术问题。

(二)技术方案

本发明提供一种视频目标识别方法，包括：响应于输入原始视频，确定多个关键帧和待处理帧，待处理帧为任意两个相邻关键帧之间的连续帧，每个关键帧包含至少一个待识别目标。对待识别目标进行标注，得到第一目标包围框。根据第一目标包围框，采用预先训练的目标跟踪模型识别待处理帧内的跟踪目标，跟踪目标与待识别目标的相似度基于目标重叠度和目标类别确定。确定跟踪目标的第二目标包围框。以及根据第一目标包围框与第二目标包围框的重叠度，确定原始视频内的目标类别。

可选地，根据第一目标包围框，采用预先训练的目标跟踪模型识别待处理帧内的跟踪目标包括：根据第一目标包围框，采用基于相关滤波的跟踪器按时序预测相邻的待处理帧内目标的位置和尺度。根据预测目标的位置和尺度，确定无标注样本。以及根据无标注样本和经过标注的待识别目标优化目标跟踪模型，以确定跟踪目标。

可选地，根据无标注样本和经过标注的待识别目标优化目标跟踪模型，以确定跟踪目标包括：根据与关键帧相邻的上一帧待处理帧内的第一预测目标，确定对应关键帧内的第二预测目标。基于目标重叠度和类别相似性，确定第二预测目标与对应关键帧内的标注目标的相似度。以及根据第一预测目标及与第一预测目标相似度最大的多个关键帧内的标注目标，对目标跟踪模型进行优化，以确定跟踪目标。

可选地，视频目标识别方法还包括：在第二预测目标与连续多个关键帧内的标注目标的相似度均小于预设阈值的情况下，删除第二预测目标。在关键帧内的标注目标与多个第二预测目标的相似度均小于预设阈值的情况下，采用新建的跟踪器对关键帧内的标注目标进行重关联。

可选地，根据第一目标包围框，采用基于相关滤波的跟踪器按时序预测相邻的待处理帧内目标的位置和尺度包括：根据第一目标包围框，对跟踪器进行初始化，以确定与关键帧相邻的下一帧待处理帧内的第三预测目标。根据第三预测目标，按时序逐帧确定与跟踪器响应最大的预测目标。

可选地，第一目标包围框包含目标类别标签，根据第一目标包围框与第二目标包围框的重叠度，确定原始视频内的目标类别包括：在第一目标包围框与第二目标包围框的重叠度大于预设阈值的情况下，确定多个匹配目标包围框。采用投票机制确定多个匹配目标包围框中数量最多的目标类别标签。以及根据数量最多的目标类别标签，确定原始视频内的目标类别。

可选地，在确定多个匹配目标包围框之前，视频目标识别方法还包括：根据第一目标包围框和第二目标包围框，对原始视频进行按帧裁剪，得到多个裁剪区域，每一帧裁剪区域的尺寸相同。按时序对每一帧裁剪区域进行拼接，得到目标视频。以及根据数量最多的目标类别标签，确定原始视频内的目标类别包括：根据数量最多的目标类别标签，确定目标视频内的目标类别。

可选地，确定多个关键帧和待处理帧包括：对原始视频进行拆分，得到多个子视频帧。按固定时间间隔对多个子视频帧进行抽取，得到多个关键帧。以及确定任意相邻的多个关键帧之间的子视频帧为待处理帧。

可选地，对待识别目标进行标注，得到第一目标包围框包括：响应于用户输入，对待识别目标进行标注，得到第一目标包围框。或者采用预先训练的深度学习模型对待识别目标进行标注，得到第一目标包围框。

本发明的第二方面提供了一种视频目标识别装置，包括：第一确定模块，用于响应于输入原始视频，确定多个关键帧和待处理帧，待处理帧为任意两个相邻关键帧之间的连续帧，每个关键帧包含至少一个待识别目标。标注模块，用于对待识别目标进行标注，得到第一目标包围框。识别模块，用于根据第一目标包围框，采用预先训练的目标跟踪模型识别待处理帧内的跟踪目标，跟踪目标与待识别目标的相似度基于目标重叠度和目标类别确定。第二确定模块，用于确定跟踪目标的第二目标包围框。以及第三确定模块，用于根据第一目标包围框与第二目标包围框的重叠度，确定原始视频内的目标类别。

(三)有益效果

与现有技术相比，本发明的实施例提供的视频目标识别方法及装置，至少具有以下有益效果：

(1)本发明的视频目标识别方法，通过对原始视频进行关键帧提取，且只对关键帧进行标注，减少了目标标注的工作量。同时，采用预先训练的目标跟踪模型对待处理帧内的目标进行位置预测，并基于预测目标和标注目标的相似度及目标包围框的重叠度对原始视频进行目标识别，大大提高了视频目标的识别效率和准确率。

(2)本发明的视频目标识别方法，通过基于相关滤波的跟踪器可以逐帧确定各待处理帧内的预测目标，并形成无标注样本。结合无标注样本和标注目标形成的样本对目标跟踪模型进行优化，来确定跟踪目标，保证了减小标注量时，目标识别的准确性。

(3)本发明的视频目标识别方法，基于与各关键帧相邻的待处理帧进行目标相似度的匹配，大大减少了计算量，进一步提高了视频目标的识别效率。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本发明实施例的视频目标识别方法的流程图；

图2示意性示出了根据本发明另一实施例的视频目标识别方法的流程图；

图3示意性示出了根据本发明实施例的关键帧中动物目标的标注结果图；

图4示意性示出了根据本发明实施例的连续帧中动物目标的跟踪结果图；

图5示意性示出了根据本发明实施例的视频目标识别装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，在附图或说明书描述中，相似或相同的部分都使用相同的图号。说明书中示例的各个实施例中的技术特征在无冲突的前提下可以进行自由组合形成新的方案，且在附图中，实施例的形状或是厚度可扩大，并以简化或是方便标示。再者，附图中未绘示或描述的元件或实现方式，为所属技术领域中普通技术人员所知的形式。另外，虽然本文可提供包含特定值的参数的示范，但应了解，参数无需确切等于相应的值，而是可在可接受的误差容限或设计约束内近似于相应的值。

除非存在技术障碍或矛盾，本发明的上述各种实施方式可以自由组合以形成另外的实施例，这些另外的实施例均在本发明的保护范围中。

虽然结合附图对本发明进行了说明，但是附图中公开的实施例旨在对本发明优选实施方式进行示例性说明，而不能理解为对本发明的一种限制。附图中的尺寸比例仅仅是示意性的，并不能理解为对本发明的限制。

虽然本发明总体构思的一些实施例已被显示和说明，本领域普通技术人员将理解，在不背离本总体公开构思的原则和精神的情况下，可对这些实施例做出改变。

图1示意性示出了根据本发明实施例的视频目标识别方法的流程图。

根据本发明的实施例，如图1所示，视频目标识别方法例如包括操作S110～操作S150。

在操作S110，响应于输入原始视频，确定多个关键帧和待处理帧，待处理帧为任意两个相邻关键帧之间的连续帧，每个关键帧包含至少一个待识别目标。

在操作S120，对待识别目标进行标注，得到第一目标包围框。

在操作S130，根据第一目标包围框，采用预先训练的目标跟踪模型识别待处理帧内的跟踪目标，跟踪目标与待识别目标的相似度基于目标重叠度和目标类别确定。

在操作S140，确定跟踪目标的第二目标包围框。以及

在操作S150，根据第一目标包围框与第二目标包围框的重叠度，确定原始视频内的目标类别。

在一些实施例中，用户上传一段交通监控视频，其中包含多个车辆和行人。

视频处理系统首先分析视频内容，自动选择包含明显目标变化的帧作为关键帧，例如车辆进入或离开画面的帧。在这些关键帧之间的连续帧，即待处理帧，则是系统需要进一步分析的对象。

在关键帧中，系统通过人工或自动方式标注出待识别的目标，如特定的车辆或行人，并生成第一目标包围框。

利用预先训练好的目标跟踪模型(如基于深度学习的Siamese网络模型)，系统在待处理帧中识别并跟踪与关键帧中标注目标相似的目标。跟踪目标的相似度是通过计算目标重叠度(例如IOU，Intersection over Union)以及目标类别(通过分类器确定)来综合评估的。

对于每个成功跟踪的目标，系统生成第二目标包围框，用于标示其在待处理帧中的位置。

最后，系统比较第一目标包围框与第二目标包围框的重叠度，如果重叠度超过预设阈值，则可以确定目标在原始视频内的类别(如车辆、行人等)。

在一些实施例中，用户上传一段野生动物纪录片，其中包含多种动物的活动画面。

系统自动选取包含动物明显行为变化的帧作为关键帧，如动物出现、消失或行为发生转变的帧。这些关键帧之间的连续帧则作为待处理帧。

在关键帧中，用户通过界面工具标注出感兴趣的动物目标，如狮子或大象，并生成第一目标包围框。

利用目标跟踪模型(如基于相关滤波的KCF算法)，系统在待处理帧中追踪标注的目标。通过计算目标重叠度和类别信息，评估跟踪目标与待识别目标的相似度。

对于成功跟踪的动物目标，系统生成第二目标包围框，标示其在待处理帧中的位置。

通过比较第一目标包围框与第二目标包围框的重叠度，系统可以确定动物在原始视频内的类别。

这两个实施例分别展示了视频目标识别方法在交通监控和野生动物纪录片分析中的应用。通过选择关键帧、标注待识别目标、使用目标跟踪模型进行追踪，以及根据重叠度和类别信息确定目标，该方法能够高效地在原始视频中识别并跟踪特定目标。

根据本发明的实施例，例如通过操作S231～操作S233来根据第一目标包围框，采用预先训练的目标跟踪模型识别待处理帧内的跟踪目标。

在操作S231，根据第一目标包围框，采用基于相关滤波的跟踪器按时序预测相邻的待处理帧内目标的位置和尺度。

在操作S232，根据预测目标的位置和尺度，确定无标注样本。以及

在操作S233，根据无标注样本和经过标注的待识别目标优化目标跟踪模型，以确定跟踪目标。

在一些实施例中，例如用户上传一段关于非洲草原野生动物的纪录片，其中包含了狮子、大象、羚羊等多种动物。

系统自动分析视频内容，选取包含动物明显行为或位置变化的帧作为关键帧。例如，狮子从草丛中跃出的瞬间或大象开始移动的时刻。这些关键帧之间的连续帧则作为待处理帧。

在关键帧中，用户通过界面工具标注出感兴趣的动物目标，如一头特定的狮子，并生成第一目标包围框。这个包围框准确地标示了狮子在关键帧中的位置和大小。

系统使用基于相关滤波的跟踪器(如KCF算法)作为目标跟踪模型。该跟踪器利用第一目标包围框中的信息(如目标的颜色、纹理等特征)来初始化跟踪模型。然后，按时序预测相邻的待处理帧内目标的位置和尺度。这是因为相邻帧之间的动物目标移动通常是连续且平滑的，因此可以利用前一帧的信息来预测下一帧中目标可能出现的位置和大小。

基于跟踪器的预测结果，系统在待处理帧中确定目标的大致位置和尺度，生成无标注样本。这些无标注样本虽然没有经过人工标注，但基于跟踪器的预测，它们与关键帧中的标注目标具有高度的相似性。

系统结合无标注样本和经过标注的待识别目标来优化目标跟踪模型。这例如涉及到对跟踪器内部的参数进行微调，以提高其在后续帧中跟踪目标的准确性。优化过程可能包括更新跟踪器的滤波器系数、调整学习率等。

通过不断的优化和迭代，目标跟踪模型能够逐渐适应目标的外观变化(如由于光照、角度或姿态变化引起的外观变化)，并在后续的待处理帧中准确地跟踪目标。

经过优化后的目标跟踪模型的识别和跟踪，系统在每个待处理帧中确定跟踪目标的第二目标包围框。这些包围框准确地标示了动物目标在视频中的连续运动轨迹。

通过比较第一目标包围框与第二目标包围框的重叠度，系统可以判断跟踪是否成功，并确定动物在原始视频内的类别。进一步分析这些包围框的变化，还可以推断出动物的行为模式，如移动速度、方向变化等。

这个实施例展示了在野生动物纪录片中，如何利用基于相关滤波的跟踪器来识别并跟踪特定的动物目标。通过结合标注信息和无标注样本来优化跟踪模型，该方法能够在复杂的自然环境中实现准确的目标跟踪。

根据本发明的实施例，例如通过操作S3331～操作S3333来根据无标注样本和经过标注的待识别目标优化目标跟踪模型，以确定跟踪目标。

在操作S3331，根据与关键帧相邻的上一帧待处理帧内的第一预测目标，确定对应关键帧内的第二预测目标。

在操作S3332，基于目标重叠度和类别相似性，确定第二预测目标与对应关键帧内的标注目标的相似度。以及

在操作S3333，根据第一预测目标及与第一预测目标相似度最大的多个关键帧内的标注目标，对目标跟踪模型进行优化，以确定跟踪目标。

在一些实施例中，例如用户上传一段关于森林中野生动物的纪录片，并标注了几个关键帧中的动物目标，如熊、鹿等。每个关键帧中的动物目标都被准确地用包围框标注出来。

系统使用目标跟踪模型，从与关键帧相邻的上一帧待处理帧开始，进行目标的初始跟踪。基于上一帧的信息，系统预测当前帧中目标的位置和尺度，生成第一预测目标。

对于每个关键帧，系统根据与关键帧相邻的上一帧待处理帧内的第一预测目标，通过插值或外推的方法，确定对应关键帧内的第二预测目标。这个第二预测目标是对关键帧中目标位置和尺度的初步估计。

系统计算第二预测目标与对应关键帧内的标注目标之间的相似度。相似度的评估基于两个主要指标：目标重叠度(如IOU)和类别相似性。

目标重叠度：通过比较第二预测目标的包围框与标注目标的包围框之间的重叠程度，系统可以评估它们在空间位置上的相似性。

类别相似性：系统还考虑目标的类别信息。如果第二预测目标与标注目标的类别相同或相似(例如，都是哺乳动物)，则它们的相似度会更高。

通过综合考虑这两个指标，系统可以确定第二预测目标与标注目标之间的相似度。

根据第一预测目标及与第一预测目标相似度最大的多个关键帧内的标注目标，系统对目标跟踪模型进行优化。例如包括：

更新滤波器参数：系统使用相似度高的标注目标来更新跟踪器中的滤波器参数，使跟踪器更能适应目标的外观变化。

学习动态特征：通过分析连续帧中目标的变化，系统学习目标的动态特征，如运动速度、方向等，以进一步提高跟踪的准确性。

通过不断的优化，目标跟踪模型能够更好地适应目标的外观和运动变化，提高在后续帧中跟踪目标的准确性。

经过优化后的目标跟踪模型在后续的待处理帧中继续跟踪目标，生成准确的第二目标包围框。这些包围框标示了动物目标在视频中的连续运动轨迹。

通过结合无标注样本和标注目标来优化目标跟踪模型，并在优化过程中考虑目标的类别信息和空间位置关系，该方法能够在复杂的自然环境中实现更准确、更鲁棒的目标跟踪。

根据本发明的实施例，视频目标识别方法例如还包括操作S410～操作S420。

在操作S410，在第二预测目标与连续多个关键帧内的标注目标的相似度均小于预设阈值的情况下，删除第二预测目标。

在操作S420，在关键帧内的标注目标与多个第二预测目标的相似度均小于预设阈值的情况下，采用新建的跟踪器对关键帧内的标注目标进行重关联。

在一些实施例中，例如用户上传一段关于森林中野生动物的纪录片，并标注了部分关键帧中的动物目标，如狼、鹿等。

系统开始按照之前的步骤对目标进行初始跟踪，并在每个关键帧内生成第二预测目标。

对于每个第二预测目标，系统计算其与连续多个关键帧内的标注目标之间的相似度。如果相似度均小于预设的阈值(例如，IOU小于0.3或类别相似性低于某个特定值)，这意味着预测目标与真实目标之间的匹配度很低。

情况一：删除第二预测目标。

如果连续多个关键帧内的第二预测目标与标注目标的相似度都低于阈值，系统判断这些预测目标可能是误跟踪或者噪声，因此会删除这些第二预测目标，并停止对这些目标的进一步跟踪。

情况二：关键帧标注目标与多个预测目标不相似。

相反，如果在某个关键帧内，标注目标与多个第二预测目标的相似度都低于预设阈值，这意味着当前的跟踪器可能无法准确关联标注目标与预测目标。

在这种情况下，系统采用新建的跟踪器对关键帧内的标注目标进行重关联。新建跟踪器可以是基于不同算法或特征的跟踪器，或者是经过重新初始化的原始跟踪器。

重关联的过程例如包括：

使用新建跟踪器在关键帧及其后续帧中重新搜索和跟踪标注目标。

通过比较新建跟踪器的输出结果与标注目标，确定新的预测目标与标注目标之间的相似度。

如果新建跟踪器的输出结果与标注目标的相似度高于预设阈值，则接受该结果作为新的跟踪目标，并继续跟踪。

通过删除不匹配的预测目标和重关联标注目标，系统能够优化跟踪性能，减少误跟踪和丢失目标的情况。优化后的跟踪模型将在后续的待处理帧中继续识别并跟踪目标。

最后，系统输出每个识别到的动物目标在视频中的位置、轨迹以及可能的类别信息，供用户进一步分析和利用。

通过这个实施例，可以看到，在视频目标识别方法中，结合相似度评估和阈值比较，系统能够有效地处理预测目标与标注目标不匹配的情况，通过删除或重关联目标来优化跟踪性能，从而提高目标识别的准确性和鲁棒性。

根据本发明的实施例，例如通过操作S5311～操作S5312来根据第一目标包围框，采用基于相关滤波的跟踪器按时序预测相邻的待处理帧内目标的位置和尺度。

在操作S5311，根据第一目标包围框，对跟踪器进行初始化，以确定与关键帧相邻的下一帧待处理帧内的第三预测目标。

在操作S5312，根据第三预测目标，按时序逐帧确定与跟踪器响应最大的预测目标。

在一些实施例中，例如有一个关于狮子在野外奔跑的纪录片。在这段视频中，第一帧(关键帧)被详细标注，其中狮子的位置被一个目标包围框准确标示出来。

基于这个第一目标包围框，初始化一个基于相关滤波的跟踪器。这个跟踪器会学习狮子在第一帧中的外观特征，如颜色、纹理和形状等。

利用初始化后的跟踪器，开始预测与关键帧相邻的下一帧(第二帧)中狮子的位置。通过计算滤波器模板与目标候选区域的相关度，得到一个响应输出。这个输出的最大值位置即为预测的狮子在第二帧中的位置，称之为第三预测目标。同时，跟踪器还会根据狮子的外观和大小预测其在第二帧中的尺度。

有了第二帧中的第三预测目标，跟踪器继续按时序逐帧工作。对于每一帧，跟踪器都会根据前一帧的预测目标来搜索当前帧中的目标位置。通过不断计算滤波器模板与候选区域的相关度，跟踪器能够找到与滤波器响应最大的预测目标，即当前帧中狮子的最可能位置。

同时，跟踪器还会根据目标的外观变化和运动状态来动态调整其预测尺度。例如，如果狮子在奔跑过程中逐渐远离摄像头，跟踪器会预测到一个更小的目标尺度；反之，如果狮子靠近摄像头，跟踪器则会预测到一个更大的目标尺度。

在实际应用中，目标可能会受到遮挡、外观变化或尺度变化等因素的影响，这可能导致跟踪器失去目标或预测不准确。为了应对这些挑战，可以采用一些优化策略，如结合深度学习特征来提高跟踪器的鲁棒性，或者利用多帧信息来辅助预测目标的位置和尺度。

通过结合基于相关滤波的跟踪器和时序预测方法，能够有效地在连续的视频帧中跟踪目标，并预测其位置和尺度的变化。这在野生动物纪录片分析、安防监控等领域具有广泛的应用价值。

根据本发明的实施例，第一目标包围框包含目标类别标签，例如通过操作S651～操作S653来根据第一目标包围框与第二目标包围框的重叠度，确定原始视频内的目标类别。

在操作S651，在第一目标包围框与第二目标包围框的重叠度大于预设阈值的情况下，确定多个匹配目标包围框。

在操作S652，采用投票机制确定多个匹配目标包围框中数量最多的目标类别标签。以及

在操作S653，根据数量最多的目标类别标签，确定原始视频内的目标类别。

在一些实施例中，例如用户上传了一段关于非洲草原的野生动物纪录片，并在关键帧中对一些动物进行了标注。每个标注都包含了一个目标包围框和目标类别标签，如“狮子”、“大象”等。

基于第一目标包围框(关键帧中的标注)，跟踪器开始预测后续帧中目标的位置和尺度，生成第二目标包围框。这些第二目标包围框标示了目标在连续帧中的位置变化。

对于每个第二目标包围框，系统计算它与第一目标包围框之间的重叠度(例如，使用IOU，即交并比)。如果重叠度大于预设的阈值(比如IOU大于0.5)，则认为该第二目标包围框与第一目标包围框匹配，即它们对应的是同一个目标。

在确定了多个匹配目标包围框后，系统采用投票机制来确定这些包围框中的目标类别标签。具体来说，每个匹配目标包围框都带有其预测或继承自第一目标包围框的类别标签。系统统计所有匹配目标包围框的类别标签，找出出现次数最多的标签。

例如，如果有5个匹配目标包围框，其中3个的标签是“狮子”，2个的标签是“猎豹”，那么“狮子”就是出现次数最多的标签。

根据投票结果中数量最多的目标类别标签，系统最终确定原始视频内该目标的类别。在上面的例子中，系统会将该目标确定为“狮子”。

如果多个类别标签的出现次数相同且最多，系统可以进一步考虑其他因素(如包围框的大小、形状等)来做出判断，或者简单地标记为“不确定”类别。

如果没有匹配目标包围框的重叠度超过预设阈值，系统可以认为跟踪失败或目标在后续帧中消失，此时可以根据需要采取重新初始化跟踪器、使用其他跟踪算法等策略。

通过这种方法，系统能够在跟踪目标的同时，确定并维持目标的类别信息，为后续的目标分析、行为理解等任务提供重要的依据。

根据本发明的实施例，在确定多个匹配目标包围框之前，视频目标识别方法例如还包括操作S710～操作S720。

在操作S710，根据第一目标包围框和第二目标包围框，对原始视频进行按帧裁剪，得到多个裁剪区域，每一帧裁剪区域的尺寸相同。

在操作S720，按时序对每一帧裁剪区域进行拼接，得到目标视频。以及

根据数量最多的目标类别标签，确定原始视频内的目标类别包括操作S810。

在操作S810，根据数量最多的目标类别标签，确定目标视频内的目标类别。

在一些实施例中，例如用户上传了一段关于森林中野生动物活动的纪录片，并在关键帧中标注了目标动物，每个标注都包含了一个目标包围框和目标类别标签。

系统使用跟踪器对关键帧中的目标进行跟踪，预测后续帧中目标的位置和尺度，生成第二目标包围框。这些第二目标包围框标示了目标在连续帧中的位置变化。

在确定多个匹配目标包围框之前，系统首先根据第一目标包围框和第二目标包围框，对原始视频进行按帧裁剪。裁剪的目的是为了获取与目标紧密相关的区域，去除背景和其他无关信息。

裁剪过程例如是这样的：系统首先确定第一目标包围框和第二目标包围框在各自帧中的位置和尺寸。然后，根据这些包围框的尺寸，系统确定一个固定的裁剪区域尺寸，确保能够完全包含目标，同时尽可能减少背景。接着，系统按帧对原始视频进行裁剪，得到多个尺寸相同的裁剪区域。

得到每一帧的裁剪区域后，系统按时序将这些裁剪区域进行拼接，生成一个新的视频，即目标视频。这个目标视频只包含与目标相关的区域，便于后续的分析和处理。

在拼接得到目标视频后，系统计算第二目标包围框与第一目标包围框之间的重叠度。通过比较重叠度与预设阈值，系统确定多个匹配目标包围框，这些包围框对应着在连续帧中稳定跟踪到的目标。

对于多个匹配目标包围框，系统采用投票机制来确定其中最常见的目标类别标签。每个匹配目标包围框都带有其预测或继承自第一目标包围框的类别标签。系统统计所有匹配目标包围框的类别标签，找出出现次数最多的标签。

根据投票结果中数量最多的目标类别标签，系统最终确定目标视频内目标的类别。这个类别标签不仅反映了目标在关键帧中的属性，还通过跟踪和裁剪过程保持了在整个目标视频中的一致性。

最后，系统输出目标视频及其对应的类别标签，供用户进行进一步的分析和应用。例如，用户可以对目标视频进行更详细的特征提取、行为分析或与其他数据集进行关联比较等。

通过这种方法，系统能够在识别目标的同时，通过裁剪和拼接操作生成与目标紧密相关的视频，并确定目标的类别。这不仅提高了目标识别的准确性和效率，还为后续的目标分析、行为理解等任务提供了便利。

根据本发明的实施例，例如通过操作S911～操作S913来确定多个关键帧和待处理帧。

在操作S911，对原始视频进行拆分，得到多个子视频帧。

在操作S912，按固定时间间隔对多个子视频帧进行抽取，得到多个关键帧。以及

在操作S913，确定任意相邻的多个关键帧之间的子视频帧为待处理帧。

在一些实施例中，例如用户上传了一段关于非洲野生动物的纪录片，这段视频可能长达数小时，包含了大量的帧画面。

系统首先会对原始视频进行拆分，将其分解为一系列的子视频帧。这通常是通过将视频按照某种固定的时长(例如，每秒钟一帧或每半秒钟一帧)切割成多个独立的帧来实现的。这样，原始的长视频就被转化为了一个包含大量子视频帧的集合。

接下来，系统会从这些子视频帧中按照一个固定的时间间隔来抽取关键帧。例如，系统可能设定每5秒或每10秒抽取一帧作为关键帧。这样做的目的是从大量的子视频帧中挑选出具有代表性的、能够反映视频内容变化的关键画面。

在这个过程中，系统可能会考虑一些额外的因素来优化关键帧的选择，比如帧与帧之间的内容差异、图像清晰度、动物行为的显著性等。这些因素可以通过算法自动评估，或者由用户根据具体需求进行设置。

在确定了关键帧之后，系统就可以很容易地确定待处理帧了。待处理帧是指位于任意相邻的两个关键帧之间的子视频帧。这些帧虽然没有被选为关键帧，但它们仍然包含了大量的有用信息，对于目标跟踪、行为分析等任务来说是非常重要的。

最后，系统输出确定好的关键帧和待处理帧。这些帧可以被用于后续的目标识别、跟踪、行为分析等任务中。

通过这样的方法确定关键帧后，研究人员可以针对这些关键帧进行更高效的目标识别和行为分析。例如，可以在关键帧中标注野生动物的位置和类别，然后利用跟踪算法在待处理帧中追踪这些动物的运动轨迹。此外，还可以通过分析关键帧之间的内容变化来推断动物的行为模式、交互关系等。

通过这种方式确定关键帧和待处理帧，不仅提高了视频处理的效率，还使得后续的目标识别和行为分析更加准确和全面。

根据本发明的实施例，例如通过操作S1021～操作S1022来对待识别目标进行标注，得到第一目标包围框。

在操作S1021，响应于用户输入，对待识别目标进行标注，得到第一目标包围框。或者

在操作S1022，采用预先训练的深度学习模型对待识别目标进行标注，得到第一目标包围框。

在一些实施例中，在野生动物纪录片中，例如研究人员对某一特定动物(如狮子)感兴趣，并希望对该动物进行跟踪和识别。此时，研究人员可以通过以下步骤来确定第一目标包围框：

步骤一：研究人员打开视频标注工具，并加载需要处理的纪录片视频。

步骤二：在视频播放过程中，研究人员暂停在狮子首次出现的关键帧上。

步骤三：使用标注工具，研究人员在关键帧上绘制一个矩形框，确保该矩形框紧密地包围了狮子的轮廓。这个矩形框就是第一目标包围框。

步骤四：标注工具保存第一目标包围框的位置和尺寸信息，以便后续使用。

通过这种方式，可以准确地确定目标动物在关键帧中的位置，为后续的目标跟踪和识别提供重要依据。

除了用户手动标注外，还可以利用预先训练的深度学习模型来自动确定第一目标包围框。这种方法通常适用于大规模视频处理或需要高效率标注的场景。以下是具体步骤：

步骤一：准备大量标注好的训练数据，这些数据包括目标动物(如狮子)在视频中的位置和尺寸信息。

步骤二：利用这些训练数据，训练一个深度学习模型，使其能够自动检测并标注目标动物。

步骤三：当新的纪录片视频需要处理时，将预先训练的深度学习模型应用于视频中。

步骤四：模型自动检测视频中的目标动物，并在每个关键帧上生成相应的目标包围框。这些目标包围框作为第一目标包围框，用于后续的目标跟踪和识别。

这种方法的好处是自动化程度高，处理速度快，但前提是需要有足够多的标注数据来训练一个准确的模型。

无论采用哪种方法确定第一目标包围框，其目的都是为了在后续的目标跟踪和识别过程中提供一个准确的起始点。通过精确标注目标的位置和尺寸，可以大大提高跟踪算法的准确性和稳定性，从而为野生动物行为分析、生态学研究等领域提供有力的支持。

图2示意性示出了根据本发明另一实施例的视频目标识别方法的流程图。

根据本发明的实施例，如图2所示，视频目标识别方法例如包括步骤1～步骤6。

步骤1：获取原始视频，进行预处理，将其拆分为子帧的集合。

步骤2：每隔固定时间设置关键帧，通过人工或预设深度学习算法对关键帧中的感兴趣目标进行标注，形成目标包围框。

例如，目标包围框信息包含目标在视频中的位置信息、大小信息、细粒度物种信息，用于后续跟踪及标注流程。

步骤3：对于相邻两关键帧之间的视频序列，通过半监督目标跟踪算法预测目标包围框在连续视频帧中的位置变化并进行记录。

通过半监督目标跟踪算法预测目标包围框在连续视频帧中的位置变化，具体例如为：

初始化跟踪器：使用关键帧中标注的目标包围框初始化基于相关滤波的跟踪器。通过在特征空间中学习一个相关滤波器，来描述目标外观的模型，并利用循环矩阵的性质在频域中高效地计算滤波器的响应，用于计算潜在目标位置的得分。

目标搜索与定位：在相邻的连续视频帧中，以上一帧目标位置为中心，在其周围的搜索区域内进行目标搜索。基于相关滤波的跟踪器通过计算当前帧与滤波器的响应图，找到响应最大的位置作为目标的新位置。

设第i帧图像为x_i，相关滤波器为w，则滤波器响应y_i可表示为：

y_i＝F^-1(F(x_i)⊙F(w)) (1)

目标状态更新：根据当前帧的跟踪结果，更新目标的位置和大小信息。

设第i帧目标位置为p_i，尺度为s_i，则第i+1帧的目标位置p_i+1和尺度s_i+1可通过以下公式更新：

p_i+1＝p_i+Δp_is_i+1＝s_i*Δs_i (2)

其中，Δp_i和Δs_i分别表示位置和尺度的变化量，可通过跟踪器估计得到。

半监督训练数据的采集：在跟踪过程中，将跟踪结果作为无标注样本，与关键帧标注样本一起组成半监督训练数据。采用在线学习的方式更新目标外观模型，通过计算当前帧与模型的置信度或响应强度，动态调整学习率，以适应目标外观的变化。

步骤4：将关键帧标注的目标与跟踪目标进行关联比对，并进行半监督目标跟踪模型的在线优化和更新。

关联比对具体例如为：

目标位置预测：对于每个跟踪目标，根据其在上一连续帧内的运动信息(位置、速度等)，使用卡尔曼滤波算法预测其在当前关键帧中的位置。

设第i个关键帧内目标状态为x_i，包括位置和速度信息，则第i+1个关键帧的预测状态可通过以下公式计算：

其中，A是状态转移矩阵，描述了目标状态如何从当前时刻转移到下一时刻。B是控制输入矩阵，描述了外部控制输入(如果有的话)如何影响目标状态。若没有外部控制，因此B可以为零矩阵或省略。u_i是第i时刻的控制输入，若没有外部控制，则u_i为零向量或省略。

构建多目标相似性二部图：二部图的两个顶点集分别为关键帧标注的目标集合和跟踪目标集合，边的权重为两个目标之间的相似度。相似度的计算综合考虑了目标之间的重叠度IOU(Intersection over Union)、类别相似性等特征。

设关键帧标注目标为t_i，跟踪目标为o_j，二者的IOU为iou(t_i，o_j)，类别相似度为sim(t_i，o_j)，则总相似度s(t_i，o_j)可通过以下公式计算：

s(t_i，o_j)＝α*iou(t_i，o_j)+β*sim(t_i，o_j) (4)

其中，α和β为权重系数，满足α+β＝1。

相似目标关联：使用匈牙利算法在二部图中寻找最大权重匹配，找到关键帧标注目标与跟踪目标之间的最优关联。

目标跟踪模型的在线优化和更新例如为：

对于每个关联成功的跟踪目标，使用该目标在过去M个关键帧内的标注信息，对跟踪模型进行在线优化，优化方法可以为梯度下降法等，将跟踪模型的预测位置调整为标注位置。

设跟踪模型参数为θ，在第k个关键帧内的损失函数为L_k(θ)，则参数更新可通过以下梯度下降公式实现：

对于未能关联的跟踪目标，若其在连续N个关键帧内都未能关联，则判定为跟踪失败，将其删除。

对于未能关联的关键帧标注目标，在跟踪模型中新增一个跟踪器进行跟踪。例如，可以更换目标ID，同时更新初始化跟踪器的起点帧。

步骤5：重复步骤3、步骤4直至视频结束，对于每个ID记录的目标，根据包围框信息从原始视频帧中依次截取目标区域，并按顺序拼接为具有细粒度标注的目标视频。

其中，为了保证目标视频尺寸固定，截取目标区域的方法为以目标包围框左上角为起始位置，目标包围框记录的最大尺寸为参考尺寸设定截取区域。若截取区域超过视频帧边界则设定视频边界为截取区域结束位置，通过修改起始位置适应截取区域。

步骤6：通过截取区域与历史关键帧标注框计算IoU(Intersection over Union)，引入投票机制，利用相匹配的关键帧标注框中数量最多的标签指定目标视频的类别。

具体地，设第i个目标视频帧对应的截取区域为R_i，在第k个关键帧中的标注框为B_k，二者的IoU为：

若IoU(R_i，B_k)大于预设阈值(如0.5)，则认为该关键帧标注框与视频帧中的目标匹配。在所有匹配的标注框中，出现次数最多的类别标签被指定为该视频帧中的目标类别。

设类别标签集合为{c₁，c₂，…，c_m}，第j个类别标签出现的次数为n_j，则目标视频的类别c^*可通过以下公式确定：

通过多数投票的方式决定目标视频的类别，可以提高标注的准确性和鲁棒性，弥补跟踪过程中可能出现的偏差和错误。

在一些实施例中，步骤1：获取原始视频并预处理，从生态监控摄像头获取一段时长为14秒的视频，将其解码为帧率为15fps的3840×2160分辨率的RGB图像序列。截取视频中前13秒存在目标的片段，并对图像序列进行关键帧提取，从第1秒开始每1秒提取一帧作为关键帧，共提取13个关键帧。

图3示意性示出了根据本发明实施例的关键帧中动物目标的标注结果图。

步骤2：对关键帧中的动物目标进行标注，使用人工方法对每个关键帧中的动物目标进行标注。标注内容例如包括：

目标的位置和大小，使用矩形包围框表示，记录包围框的左上角坐标(x，y)和宽高(width，height)。

目标的物种学名，如图3所示，如Anas platyrhynchos(绿头鸭)等。

将标注结果保存为VOC XML格式，每个关键帧生成一个XML文件，文件名为关键帧的帧号。XML文件示例如下：

<filename>NoLabeled_0_00000_20230422-220151_13720_00030.xml</filename>

<size>

</size>

<name>Anas_platyrhynchos</name>

<pose>undefine</pose>

<truncated>undefine</truncated>

</bndbox>

</object>

</annotation>

具体地，使用CSRT(Channel and Spatial Reliability Tracker)跟踪器对目标进行跟踪。CSRT跟踪器是一种基于判别相关滤波器的跟踪算法，通过在目标区域内学习一个判别模型，并在后续帧中使用该模型对目标进行定位。CSRT跟踪器的主要原理如下：

在初始帧中，根据目标的包围框提取目标区域的特征，并训练一个判别相关滤波器模型。判别相关滤波器模型的目标是学习一个滤波器w，使得目标区域的响应值最大，背景区域的响应值最小。滤波器的学习可以通过最小化以下损失函数来实现：

其中，x_i表示第i个样本的特征向量，y_i表示第i个样本的标签(目标区域为1，背景区域为0)，f(x_i)＝w^Tx_i表示样本x_i的响应值，λ是正则化系数。

图4示意性示出了根据本发明实施例的连续帧中动物目标的跟踪结果图。

在后续帧中，使用学习到的滤波器模型对候选区域进行评分，得到响应值最大的区域作为目标的预测位置。为了适应目标的外观变化，CSRT跟踪器采用了自适应更新策略，根据目标的可靠性分数来调整模型的更新率。对于每个关键帧，根据标注的目标包围框初始化CSRT跟踪器。对于相邻两关键帧之间的每一帧，使用CSRT跟踪器预测目标在当前帧中的位置，并记录预测的包围框位置(x，y，width，height)。如果跟踪器的置信度低于预设阈值(如0.5)，则认为跟踪失败，停止跟踪。目标跟踪结果如图4所示。

步骤4：将关键帧标注的目标与跟踪目标进行关联比对，并进行半监督目标跟踪模型的在线优化和更新。具体步骤例如如下：

对于每个关键帧，将人工标注的目标包围框与跟踪器预测的目标包围框进行关联比对，首先根据相邻帧中的目标信息，使用卡尔曼滤波器预测其在下一关键帧中的位置。

设目标的状态向量为x＝[x，y，v_x，v_y]^T，其中(x，y)为目标的中心坐标，(v_x，v_y)为目标的速度。状态转移方程和观测方程如下：

x_t+1＝Fx_t+w_tz_t＝Hx_t+v_t (9)

其中，F为状态转移矩阵，H为观测矩阵，w_t和z_t分别为过程噪声和观测噪声。

然后，对于n个人工标注的目标和m个跟踪器预测的目标，构建一个n×m的代价矩阵C，其中C_ij表示将第i个人工标注目标与第j个跟踪器预测目标关联的代价使用IoU度量，IoU计算公式如下：

其中，B₁和B₂分别为两个包围框，Area(B₁∩B₂)表示两个包围框的交集面积，Area(B₁∪B₂)表示两个包围框的并集面积。

对于未成功关联的人工标注目标，将其视为新的目标，为其分配一个新的目标ID，并初始化一个新的跟踪器进行跟踪。

对于未成功关联的跟踪器预测目标，如果其持续未关联的时间超过预设阈值(如5帧)，则认为该目标已经离开了视频画面，将其从跟踪器列表中删除。

使用成功关联的目标对来优化和更新跟踪器模型。

具体地，对于CSRT跟踪器，可以使用关联成功的目标对来更新判别相关滤波器模型。将人工标注的目标包围框作为正样本，在目标周围采样一些背景区域作为负样本，重新训练判别相关滤波器模型，以适应目标外观的变化。

步骤5和步骤6如上述实施例，此处不再赘述。

基于上述方法，本发明还提供了一种视频目标识别装置。以下将结合图5对该视频目标识别装置进行详细描述。

如图5所示，该实施例的视频目标识别装置500例如包括：第一确定模块510、标注模块520、识别模块530、第二确定模块540和第三确定模块550。

第一确定模块510用于响应于输入原始视频，确定多个关键帧和待处理帧，待处理帧为任意两个相邻关键帧之间的连续帧，每个关键帧包含至少一个待识别目标。在一实施例中，第一确定模块510可以用于执行前文描述的操作S110，在此不再赘述。

标注模块520用于对待识别目标进行标注，得到第一目标包围框。在一实施例中，标注模块520可以用于执行前文描述的操作S120，在此不再赘述。

识别模块530用于根据第一目标包围框，采用预先训练的目标跟踪模型识别待处理帧内的跟踪目标，跟踪目标与待识别目标的相似度基于目标重叠度和目标类别确定。在一实施例中，识别模块530可以用于执行前文描述的操作S130，在此不再赘述。

第二确定模块540用于确定跟踪目标的第二目标包围框。在一实施例中，第二确定模块540可以用于执行前文描述的操作S140，在此不再赘述。

第三确定模块550用于根据第一目标包围框与第二目标包围框的重叠度，确定原始视频内的目标类别。在一实施例中，第三确定模块550可以用于执行前文描述的操作S150，在此不再赘述。

根据本发明的实施例，第一确定模块510、标注模块520、识别模块530、第二确定模块540和第三确定模块550中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，第一确定模块510、标注模块520、识别模块530、第二确定模块540和第三确定模块550中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一确定模块510、标注模块520、识别模块530、第二确定模块540和第三确定模块550中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本发明的保护范围的情况下得到重新安排。所附的方法实施例以示例性的顺序给出了各种步骤的要素，并且不是要限于的特定顺序或层次。

还需要说明的是，实施例中提到的方向术语，例如“上”、“下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向，并非用来限制本发明的保护范围。贯穿附图，相同的元素由相同或相近的附图标记来表示。可能导致本发明的理解造成混淆时，将省略常规结构或构造。并且图中各部件的形状、尺寸、位置关系不反映真实大小、比例和实际位置关系。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本发明。不应该将这种公开方法解释为反映了这样的意图。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。因此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个、三个等，除非另有明确具体的限定。就说明书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”。使用在说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频目标识别方法，其特征在于，包括：

响应于输入原始视频，确定多个关键帧和待处理帧，所述待处理帧为任意两个相邻关键帧之间的连续帧，每个所述关键帧包含至少一个待识别目标；

对所述待识别目标进行标注，得到第一目标包围框；

根据所述第一目标包围框，采用预先训练的目标跟踪模型识别所述待处理帧内的跟踪目标，所述跟踪目标与所述待识别目标的相似度基于目标重叠度和目标类别确定；

确定所述跟踪目标的第二目标包围框；以及

根据所述第一目标包围框与所述第二目标包围框的重叠度，确定所述原始视频内的目标类别。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一目标包围框，采用预先训练的目标跟踪模型识别所述待处理帧内的跟踪目标包括：

根据所述第一目标包围框，采用基于相关滤波的跟踪器按时序预测相邻的所述待处理帧内目标的位置和尺度；

根据预测目标的位置和尺度，确定无标注样本；以及

根据所述无标注样本和经过标注的所述待识别目标优化所述目标跟踪模型，以确定所述跟踪目标。

3.根据权利要求2所述的方法，其特征在于，所述根据所述无标注样本和经过标注的所述待识别目标优化所述目标跟踪模型，以确定所述跟踪目标包括：

根据与所述关键帧相邻的上一帧待处理帧内的第一预测目标，确定对应关键帧内的第二预测目标；

基于目标重叠度和类别相似性，确定所述第二预测目标与对应关键帧内的标注目标的相似度；以及

根据所述第一预测目标及与所述第一预测目标相似度最大的多个所述关键帧内的标注目标，对所述目标跟踪模型进行优化，以确定所述跟踪目标。

4.根据权利要求3所述的方法，其特征在于，还包括：

在所述第二预测目标与连续多个关键帧内的标注目标的相似度均小于预设阈值的情况下，删除所述第二预测目标；

在所述关键帧内的标注目标与多个所述第二预测目标的相似度均小于预设阈值的情况下，采用新建的跟踪器对所述关键帧内的标注目标进行重关联。

5.根据权利要求2所述的方法，其特征在于，所述根据所述第一目标包围框，采用基于相关滤波的跟踪器按时序预测相邻的所述待处理帧内目标的位置和尺度包括：

根据所述第一目标包围框，对所述跟踪器进行初始化，以确定与所述关键帧相邻的下一帧待处理帧内的第三预测目标；

根据所述第三预测目标，按时序逐帧确定与所述跟踪器响应最大的预测目标。

6.根据权利要求1所述的方法，其特征在于，所述第一目标包围框包含目标类别标签，所述根据所述第一目标包围框与所述第二目标包围框的重叠度，确定所述原始视频内的目标类别包括：

在所述第一目标包围框与所述第二目标包围框的重叠度大于预设阈值的情况下，确定多个匹配目标包围框；

采用投票机制确定所述多个匹配目标包围框中数量最多的目标类别标签；以及

根据所述数量最多的目标类别标签，确定所述原始视频内的目标类别。

7.根据权利要求6所述的方法，其特征在于，在确定多个匹配目标包围框之前，所述方法还包括：

根据所述第一目标包围框和所述第二目标包围框，对所述原始视频进行按帧裁剪，得到多个裁剪区域，每一帧所述裁剪区域的尺寸相同；

按时序对每一帧所述裁剪区域进行拼接，得到目标视频；以及

所述根据所述数量最多的目标类别标签，确定所述原始视频内的目标类别包括：

根据所述数量最多的目标类别标签，确定所述目标视频内的目标类别。

8.根据权利要求1所述的方法，其特征在于，所述确定多个关键帧和待处理帧包括：

对所述原始视频进行拆分，得到多个子视频帧；

按固定时间间隔对所述多个子视频帧进行抽取，得到所述多个关键帧；以及

确定任意相邻的所述多个关键帧之间的子视频帧为所述待处理帧。

9.根据权利要求1所述的方法，其特征在于，所述对所述待识别目标进行标注，得到第一目标包围框包括：

响应于用户输入，对所述待识别目标进行标注，得到所述第一目标包围框；或者

采用预先训练的深度学习模型对所述待识别目标进行标注，得到所述第一目标包围框。

10.一种视频目标识别装置，其特征在于，包括：

第一确定模块，用于响应于输入原始视频，确定多个关键帧和待处理帧，所述待处理帧为任意两个相邻关键帧之间的连续帧，每个所述关键帧包含至少一个待识别目标；

标注模块，用于对所述待识别目标进行标注，得到第一目标包围框；

识别模块，用于根据所述第一目标包围框，采用预先训练的目标跟踪模型识别所述待处理帧内的跟踪目标，所述跟踪目标与所述待识别目标的相似度基于目标重叠度和目标类别确定；

第二确定模块，用于确定所述跟踪目标的第二目标包围框；以及

第三确定模块，用于根据所述第一目标包围框与所述第二目标包围框的重叠度，确定所述原始视频内的目标类别。