CN112967276B

CN112967276B - 对象检测方法、装置、内窥镜系统、电子设备及存储介质

Info

Publication number: CN112967276B
Application number: CN202110348217.1A
Authority: CN
Inventors: 王晶
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2023-09-05
Anticipated expiration: 2041-03-31
Also published as: CN112967276A

Abstract

本申请实施例提供了对象检测方法、装置、内窥镜系统、电子设备及存储介质，获取待检测的视频数据；基于预先训练的深度学习目标检测网络分别对视频数据中的各视频帧进行目标检测，得到各视频帧中对象的属性信息；根据各对象的属性信息，分别对各对象进行跟踪，得到各对象的跟踪结果；根据各对象的跟踪结果，确定与前一帧相比有新对象出现的视频帧作为第一类视频帧，确定与下一帧相比有已出现过的对象将要消失的视频帧作为第二类视频帧。除了检测出对象的位置外，通过第一类视频帧及第二类视频帧，可以清楚的了解到新对象出现的时机和已有对象消失的时机，从而能够减少纱布等对象遗留在患者体腔内的情况。

Description

对象检测方法、装置、内窥镜系统、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及对象检测方法、装置、内窥镜系统、电子设备及存储介质。

背景技术

内窥镜(Endoscopes)是一种常用的医疗器械，由导光束结构及一组镜头组成。内窥镜经人体的天然孔道或经小切口进入人体内，通过设备外部成像用于人体器官或组织的检查及手术治疗。内窥镜手术相对于开放性手术，具有创口小、恢复快的优势，在临床上受到患者和医生的青睐。

使用内窥镜进行手术或诊断的过程中，有些情形下需要使用一块或多块手术用纱布。例如，可以在解剖区周围的体腔内放入手术用纱布，用来吸收可能渗出的血液或其他体液。如果在手术或诊断过程完成之后，手术用纱布被遗留在体腔内，那么手术用纱布会对患者造成风险。因此，如何对纱布进行有效检测，以减少纱布遗留在患者体腔内的情况，成为亟待解决的问题。

发明内容

本申请实施例的目的在于提供一种对象检测方法、装置、内窥镜系统、电子设备及存储介质，以实现减少纱布等对象遗留在患者体腔内的情况。具体技术方案如下：

第一方面，本申请实施例提供了一种对象检测方法，所述方法包括：获取待检测的视频数据；基于预先训练的深度学习目标检测网络分别对所述视频数据中的各视频帧进行目标检测，得到各视频帧中对象的属性信息，其中，针对任一对象，该对象的属性信息包括该对象的位置信息；根据各所述对象的属性信息，分别对各所述对象进行跟踪，得到各所述对象的跟踪结果；根据各所述对象的跟踪结果，确定与前一帧相比有新对象出现的视频帧作为第一类视频帧，确定与下一帧相比有已出现过的对象将要消失的视频帧作为第二类视频帧。

在一种可能的实施方式中，所述对象为纱布，所述深度学习目标检测网络为纱布检测网络；所述基于预先训练的深度学习目标检测网络分别对所述视频数据中的各视频帧进行目标检测，得到各视频帧中对象的属性信息，包括：利用所述纱布检测网络的特征提取网络分别对所述视频数据中的各视频帧进行特征提取，得到各视频帧的图像特征；利用所述纱布检测网络的检测头网络分别对各视频帧的图像特征进行分析，得到各视频帧中纱布的属性信息。

在一种可能的实施方式中，所述方法还包括：针对任一确定出的第一类视频帧，生成至少包括第一状态属性及该第一类视频帧的帧号的索引信息，其中，所述第一状态属性表示有新对象出现；针对任一确定出的第二类视频帧，生成至少包括第二状态属性及该第二类视频帧的帧号的索引信息，其中，所述第二状态属性表示有已出现过的对象消失；将各所述索引信息及所述视频数据封装为码流数据。

在一种可能的实施方式中，针对所述第一类视频帧及所述第二类视频帧中的每一视频帧，该视频帧的索引信息至少还包括该视频帧的对象数及该视频帧中对象的位置信息，其中，针对所述第一类视频帧及所述第二类视频帧中的每一视频帧，该视频帧的对象数表示该视频帧中将要消失及新出现的对象的数量。

在一种可能的实施方式中，所述方法还包括：解封装所述码流数据得到各所述索引信息；根据各所述索引信息，回放所述第一类视频帧及所述第二类视频帧中的各视频帧。

在一种可能的实施方式中，所述根据各所述索引信息，回放所述第一类视频帧及所述第二类视频帧中的各视频帧，包括：基于各所述索引信息中视频帧的帧号，获取各所述索引信息中视频帧的帧号表示的各第一类视频帧和/或第二类视频帧，得到各目标视频帧；针对每一目标视频帧，将该目标视频帧及该目标视频帧对应的第一状态属性和/或第二状态属性进行关联回放。

在一种可能的实施方式中，所述方法还包括：在获取用户针对指定目标视频帧的详细展示消息后，根据所述指定目标视频帧的帧号，获取与所述指定目标视频帧的帧号的差值在第一预设帧号差值范围内的各视频帧，得到所述指定目标视频帧对应的目标视频帧段；将所述目标视频帧段及所述目标视频帧段对应的状态属性进行关联回放，其中，所述目标视频帧段对应的状态属性为所述指定目标视频帧的第一状态属性和/或第二状态属性，或所述目标视频帧段对应的状态属性为所述目标视频帧段中包括的第一类视频帧的第一状态属性和/或第二类视频帧的第二状态属性。

在一种可能的实施方式中，所述根据各所述索引信息，回放所述第一类视频帧及所述第二类视频帧中的各视频帧，包括：针对每一索引信息，根据该索引信息中视频帧的帧号，获取与该索引信息中视频帧的帧号的差值在第二预设帧号差值范围内的各视频帧，得到该索引信息对应的目标视频帧集合；针对每一目标视频帧集合，将该目标视频帧集合及该目标视频帧集合对应状态属性进行关联回放，其中，针对每一目标视频帧集合，该目标视频帧集合对应的状态属性为确定该目标视频帧集合所使用的索引信息中的第一状态属性和/或第二状态属性，或该目标视频帧集合对应的状态属性为该目标视频帧集合包括的第一类视频帧的第一状态属性和/或第二类视频帧的第二状态属性。

在一种可能的实施方式中，针对任一对象，该对象的属性信息还包括该对象的图像特征；所述根据各所述对象的属性信息，分别对各所述对象进行跟踪，得到各所述对象的跟踪结果，包括：根据各所述对象的图像特征，计算相邻视频帧之间每两个对象的图像特征的余弦距离；根据各所述对象的位置信息及各所述余弦距离，对各相邻视频帧之间相同的对象进行关联，得到各所述对象的跟踪结果。

第二方面，本申请实施例提供了一种内窥镜系统，所述内窥镜系统包括：内窥镜、光源设备及摄像系统主机；所述内窥镜用于采集被检体的图像数据；所述光源设备用于为所述内窥镜提供拍摄光源；所述摄像系统主机用于在运行时实现本申请中任一所述的对象检测方法。

在一种可能的实施方式中，所述内窥镜系统还包括：显示设备及存储设备；所述摄像系统主机还用于将所述内窥镜采集的图像数据发送给所述显示设备，将处理后的图像数据存储到所述存储设备中；所述显示设备用于显示所述图像数据以及回放所述第一类视频帧及所述第二类视频帧中的各视频帧；所述存储设备用于存储所述处理后的图像数据。

第三方面，本申请实施例提供了一种对象检测装置，所述装置包括：视频数据获取模块，用于获取待检测的视频数据；属性信息确定模块，用于基于预先训练的深度学习目标检测网络分别对所述视频数据中的各视频帧进行目标检测，得到各视频帧中对象的属性信息，其中，针对任一对象，该对象的属性信息包括该对象的位置信息；跟踪结果确定模块，用于根据各所述对象的属性信息，分别对各所述对象进行跟踪，得到各所述对象的跟踪结果；视频帧标注模块，用于根据各所述对象的跟踪结果，确定与前一帧相比有新对象出现的视频帧作为第一类视频帧，确定与下一帧相比有已出现过的对象将要消失的视频帧作为第二类视频帧。

在一种可能的实施方式中，所述对象为纱布，所述深度学习目标检测网络为纱布检测网络；所述属性信息确定模块，具体用于：利用所述纱布检测网络的特征提取网络分别对所述视频数据中的各视频帧进行特征提取，得到各视频帧的图像特征；利用所述纱布检测网络的检测头网络分别对各视频帧的图像特征进行分析，得到各视频帧中纱布的属性信息。

在一种可能的实施方式中，所述装置还包括：索引信息生成模块，用于针对任一确定出的第一类视频帧，生成至少包括第一状态属性及该第一类视频帧的帧号的索引信息，其中，所述第一状态属性表示有新对象出现；针对任一确定出的第二类视频帧，生成至少包括第二状态属性及该第二类视频帧的帧号的索引信息，其中，所述第二状态属性表示有已出现过的对象消失；将各所述索引信息及所述视频数据封装为码流数据。

在一种可能的实施方式中，所述装置还包括：数据解封装模块，用于解封装所述码流数据得到各所述索引信息；视频帧展示模块，用于根据各所述索引信息，回放所述第一类视频帧及所述第二类视频帧中的各视频帧。

在一种可能的实施方式中，所述视频帧展示模块，具体用于：基于各所述索引信息中视频帧的帧号，获取各所述索引信息中视频帧的帧号表示的各第一类视频帧和/或第二类视频帧，得到各目标视频帧；针对每一目标视频帧，将该目标视频帧及该目标视频帧对应的第一状态属性和/或第二状态属性进行关联回放。

在一种可能的实施方式中，所述装置还包括：目标视频帧段确定模块，用于在获取用户针对指定目标视频帧的详细展示消息后，根据所述指定目标视频帧的帧号，获取与所述指定目标视频帧的帧号的差值在第一预设帧号差值范围内的各视频帧，得到所述指定目标视频帧对应的目标视频帧段；关联播放模块，用于将所述目标视频帧段及所述目标视频帧段对应的状态属性进行关联回放，其中，所述目标视频帧段对应的状态属性为所述指定目标视频帧的第一状态属性和/或第二状态属性，或所述目标视频帧段对应的状态属性为所述目标视频帧段中包括的第一类视频帧的第一状态属性和/或第二类视频帧的第二状态属性。

在一种可能的实施方式中，所述视频帧展示模块，具体用于：针对每一索引信息，根据该索引信息中视频帧的帧号，获取与该索引信息中视频帧的帧号的差值在第二预设帧号差值范围内的各视频帧，得到该索引信息对应的目标视频帧集合；针对每一目标视频帧集合，将该目标视频帧集合及该目标视频帧集合对应状态属性进行关联回放，其中，针对每一目标视频帧集合，该目标视频帧集合对应的状态属性为确定该目标视频帧集合所使用的索引信息中的第一状态属性和/或第二状态属性，或该目标视频帧集合对应的状态属性为该目标视频帧集合包括的第一类视频帧的第一状态属性和/或第二类视频帧的第二状态属性。

在一种可能的实施方式中，所述跟踪结果确定模块，具体用于：根据各所述对象的图像特征，计算相邻视频帧之间每两个对象的图像特征的余弦距离；根据各所述对象的位置信息及各所述余弦距离，对各相邻视频帧之间相同的对象进行关联，得到各所述对象的跟踪结果。

第四方面，本申请实施例提供了一种电子设备，包括处理器及存储器；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序时，实现本申请中任一所述的对象检测方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本申请中任一所述的对象检测方法。

本申请实施例有益效果：本申请实施例提供的对象检测方法、装置、内窥镜系统、电子设备及存储介质，获取待检测的视频数据；基于预先训练的深度学习目标检测网络分别对视频数据中的各视频帧进行目标检测，得到各视频帧中对象的属性信息，其中，针对任一对象，该对象的属性信息包括该对象的位置信息；根据各对象的属性信息，分别对各对象进行跟踪，得到各对象的跟踪结果；根据各对象的跟踪结果，确定与前一帧相比有新对象出现的视频帧作为第一类视频帧，确定与下一帧相比有已出现过的对象将要消失的视频帧作为第二类视频帧。除了检测出对象的位置外，还将有新对象出现的视频帧作为第一类视频帧，将有已出现过的对象即将消失的视频帧作为第二类视频帧；通过第一类视频帧及第二类视频帧，可以清楚的了解到新对象出现的时机和已有对象消失的时机，从而能够减少纱布等对象遗留在患者体腔内的情况。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的内窥镜系统的第一种示意图；

图2为本申请实施例的内窥镜系统的第二种示意图；

图3为本申请实施例的内窥镜系统改进部分的一种示意图；

图4为本申请实施例的目标视频帧提取的一种示意图；

图5为本申请实施例的训练深度学习目标检测网络的一种示意图；

图6为本申请实施例的样本图像标注的一种示意图；

图7为本申请实施例的深度学习目标检测网络结构的一种示意图；

图8为本申请实施例的对象跟踪的一种示意图；

图9为本申请实施例的第一类视频帧及第二类视频帧确定方式的一种示意图；

图10为本申请实施例中封装索引信息的第一种示意图；

图11为本申请实施例中封装索引信息的第二种示意图；

图12为本申请实施例中展示第一类视频帧及第二类视频帧的一种示意图；

图13为本申请实施例的对象检测方法的第一种示意图；

图14为本申请实施例的对象检测方法的第二种示意图；

图15为本申请实施例中封装索引信息的第三种示意图；

图16为本申请实施例的对象检测方法的第三种示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先，对本申请中的术语进行解释：

目标检测：给定一幅图像，从中找出感兴趣的对象，并确定他们的位置和类别。

多目标跟踪：给定一段视频，同时对多个感兴趣的对象进行定位，并且维持各自的ID、记录它们的运动轨迹。

相关技术中，基于计算机视觉技术对内窥镜采集的手术视频图像进行检测，从而得到纱布在视频图像中的位置，但是仅检测出纱布在图像中的位置，并不能有效提醒医护人员纱布是否遗留在患者体腔内，例如，内窥镜的拍摄范围是有限的，在手术过程中，由于组织的挤压以及医疗器械的碰撞等原因，纱布可能会脱离出内窥镜的拍摄范围，从而导致纱布遗留在患者体腔内。

有鉴于此，本申请实施例还提供了一种内窥镜系统，参见图1，该内窥镜系统包括：内窥镜、光源设备及摄像系统主机；上述内窥镜用于采集被检体的图像数据；上述光源设备用于为上述内窥镜提供拍摄光源；上述摄像系统主机用于在运行时实现本申请中的任一对象检测方法。

在一种可能的实施方式中，上述内窥镜系统还包括：显示设备及存储设备；上述摄像系统主机还用于将上述内窥镜采集的图像数据发送给上述显示设备，将处理后的图像数据存储到上述存储设备中；上述显示设备用于显示上述图像数据以及回放上述第一类视频帧及上述第二类视频帧中的各视频帧；上述存储设备用于存储上述处理后的图像数据。

内窥镜系统包括内窥镜、光源设备、摄像系统主机、显示设备和存储设备。内窥镜系统中的内窥镜能够插入患者等检体来拍摄被检体的体内，将拍摄的体内图像输出到外部的显示装置和存储装置。使用者通过观察由显示装置显示的体内图像，来检查作为检测对象部位的出血部位、肿瘤部位和异常部位的有无，并提供手术治疗的实时影像。使用者可以通过访问存储装置中的视频数据，进行术后回顾和手术培训。内窥镜通过插入被检体来拍摄被检体的观察部位并生成图像数据。光源设备提供从内窥镜前端射出的照明光。摄像系统主机对内窥镜采集的图像数据实施上述图像数据处理方法，并且统一控制内窥镜系统整体的动作。显示设备显示与内窥镜系统主机的图像数据对应的图像以及回放第一类视频帧及第二类视频帧中的各视频帧。显示设备回放第一类视频帧及第二类视频帧中的各视频帧，可以为将目标视频帧及该目标视频帧对应的第一状态属性和/或第二状态属性进行关联回放，或将目标视频帧段及该目标视频帧段对应的状态属性进行关联回放，或将目标视频帧集合及该目标视频帧集合对应状态属性进行关联回放等；具体回放方式可以参见方法实施例中的相关部分，此处不再赘述。存储设备存储内窥镜系统主机处理后的图像数据。

在一种可能的实施方式中，参见图2，内窥镜包括摄像光学单元、处理单元、成像单元及第一操作单元，光源设备包括照明控制单元及照明单元，摄像系统主机包括控制单元、第二操作单元、图像输入单元、图像处理单元、智能处理单元、视频编码单元。

内窥镜具有摄像光学单元、成像单元、处理单元和第一操作单元。摄像光学单元对来自观察部位的光进行聚光。摄像光学单元可以使用一个或多个透镜构成。成像单元对各像素接收到的光进行光电转换来生成图像数据。成像单元可以由CMOS(互补金属氧化物半导体)或CCD(电荷耦合器件)等图像传感器组成。处理单元将成像单元生成的图像数据转换成数字信号，并将转换后的信号发送到摄像系统主机。第一操作单元受理切换内窥镜的动作的指示信号和用于使光源设备进行照明光的切换动作的指示信号灯的输入，并将指示信号输出到摄像系统主机。第一操作单元包括但不限于开关、按钮和触摸面板。

光源设备包含照明控制单元和照明单元。照明控制单元接收摄像系统主机的指示信号，以控制照明单元向内窥镜提供照明光。

摄像系统主机对从内窥镜接收到的图像数据进行处理并传输给显示设备和存储设备。显示设备和存储设备可以为外置设备。摄像系统主机包括图像输入单元、图像处理单元、智能处理单元、视频编码单元、控制单元和第二操作单元。图像输入单元接收内窥镜发送过来的信号，并将接受到的信号传输给图像处理单元。图像处理单元对图像输入单元的图像进行ISP(Image Signal Processor，图像信号处理)操作，包括但不限于亮度变换、锐化、去摩尔纹、缩放等。图像处理单元将ISP操作后的图像传输给智能处理单元、视频编码单元或显示装置。智能处理单元对图像处理单元ISP操作后的图像进行智能分析，包括但不限于基于深度学习的场景分类、器械器械头检测、纱布检测、摩尔纹分类和浓雾分类。智能处理单元处理后的图像传输给图像处理单元或视频编码单元。图像处理单元对智能处理单元处理后的图像的处理方式包括但不限于亮度变换、去摩尔纹、叠框和缩放。视频编码单元将图像处理单元或智能处理单元处理后的图像进行编码压缩，并传输给存储装置。控制单元控制内窥镜系统的各个部分，包括但不限于光源的照明方式、图像处理方式、智能处理方式和视频编码方式。第二操作单元包括但不限于开光、按钮和触摸面板，受理外部指示信号，将受理的指示信号输出到控制单元。

本申请涉及智能处理单元和视频编码单元的改进，智能处理单元对图像处理单元处理后的图像进行智能分析，包括但不限于器械器械头检测、纱布检测。智能处理单元处理后的图像传输给图像处理单元或视频编码单元。图像处理单元对智能处理单元处理后的图像的处理方式包括但不限于亮度变换、去摩尔纹、叠框和缩放。视频编码单元将图像处理单元或智能处理单元处理后的图像进行编码压缩，并传输给存储装置。

在手术过程中，对视频帧中的纱布进行检测，并结合连续帧进行纱布跟踪，若当前帧为目标视频帧(当前帧较前一帧有纱布出现或前一帧较当前帧有纱布消失)，则选取前后几帧进行保存或在视频流中标记，并在图像中标注纱布位置。在手术结束之后(缝合之前)，将这些目标视频帧序列在屏幕上显示，提供给医生对纱布进行回溯和排查，提高纱布数目核对的速度，降低纱布遗留的风险。

一个例子中，例如图3所示，改进可以通过三部分体现：图像采集部获取内窥镜视频，图像处理部对输入的内窥镜视频进行处理，对纱布进行检测和跟踪，以获得纱布位置、标记或保存目标视频帧序列，图像显示部将提取到的纱布目标视频帧序列进行显示，提供给医生使用。下面进行具体说明。

手术过程中，图像采集部采集到的实时视频数据，首先利用纱布检测模型进行纱布检测，然后对检测到的纱布进行跟踪，如果是目标视频帧(当前帧较前一帧有纱布出现或消失)，则选取目标视频帧前后几帧进行标记(如帧号a到帧号b是纱布出现或消失)或保存，例如图4所示。

本申请中采用深度学习的方法，即利用卷积神经网络学习图像特征。基于深度学习的纱布检测方法分为两个阶段：训练和测试。其中训练阶段用于获取纱布检测模型，而测试阶段则利用纱布检测模型对输入图像进行检测。网络训练时输入为训练图像和标签、损失函数和网络结构，输出为检测模型；测试时则利用训练得到的检测模型对测试图像进行前向推理，得到纱布的检测结果。如图5所示。

一个例子中，纱布检测需要设计数据标定方式、损失函数和网络结构，以下对可行的实施例进行介绍。

(1)标定：纱布目标检测需要定义纱布标签，一种可行的标定方法是纱布所在区域的最小外接矩，如图6所示。

(2)损失函数：通常的检测损失函数主要分为两部分，定位损失和分类损失，定位损失用于对象定位，而分类损失用于对象分类。利用目标框(纱布标定的矩形框四个点)与网络预测框进行回归。

(3)网络结构：深度学习目标检测网络主要由两部分组成，特征提取网络和检测头网络。一种可行网络结构示例如图7所示。

本申请采用深度学习的方法，即利用卷积神经网络学习图像特征。可以采用基于目标特征建模的跟踪方法，对每个检测到的对象，先利用特征提取网络提取表观特征(可以理解为该对象的一种特征编码)，然后进行目标关联，例如可以计算相邻视频帧之间每两个对象的图像特征之间的余弦距离，认为余弦距离最短、且小于预设距离阈值的两个对象是同一个目标，如图8所示，最终得到跟踪结果，其中，预设距离阈值为经验值或实验值，一个例子中，可以预先选取多组负样本对象，同一组负样本对象中的两个对象不为同一对象，分别计算每组负样本对象中两个对象的余弦距离，并求取各组负样本对象余弦距离的均值作为预设距离阈值。纱布跟踪会出现如下三种情况：(1)在第k-1帧中的若干个对象轨迹中，找到了第k帧检测到的对象，说明对象被正常跟踪到了；(2)在第k-1帧中的若干个对象轨迹中，没有找到第k帧检测到的对象，说明这个对象在第k帧中是新出现的；(3)在第k-1帧中存在某个对象，但第k帧并没有与之关联的对象，说明这个对象在第k帧中消失了。

在申请中，目标视频帧定义为当前帧较前一帧有纱布出现或前一帧较当前帧有纱布消失，如图9所示，第k-1帧和第k帧就是目标视频帧。找到目标视频帧以后，需要将相关信息进行描述和标注，标注之后将带有标注的索引信息放在码流中，进行关联信息存储和编码传输。标注方法如图10所示，帧号表示目标视频帧所在帧号，对象数表示该视频帧中将要消失及新出现的对象的数量，位置属性表示纱布的位置(使用左上角点坐标及宽高记录)，状态属性表示纱布是即将消失还是新出现(0表示即将消失、1表示新出现)。一个例子中，还可以标注该目标视频帧的序号，其中序号表示该目标视频帧为第几个目标视频帧。在如图9所示的例子中，第k-1帧和第k帧为第1个和第2个目标视频帧，则可以码流数据中的一部分可以如图11所示，其中，针对关键帧1，k-1为帧号，1为对象数，x、y、w、h为位置属性，x、y为对象的目标框的左上角角点的横纵坐标，w为对象的目标框的宽，h为对象的目标框的高，0为状态属性，表示对象即将消失。手术结束之后(缝合之前)，图像显示部对纱布目标视频帧序列进行显示，作为纱布关键位置可供医生回溯和排查，如图12所示。

本申请实施例中，使用深度学习技术对内窥镜手术过程中纱布进行检测、跟踪，并提取目标视频帧序列，在手术结束后通过对其进行显示，提供医生纱布关键位置作为回溯和排查的参考，提升术后纱布数目核对的速度，降低纱布遗留的风险。提供术后纱布数目核对的速度，减少纱布遗留医疗事故的发生。

本申请实施例还提供了一种对象检测方法，参见图13，该方法包括：

S101，获取待检测的视频数据。

本申请实施例的对象检测方法可以通过电子设备实现，具体的，该电子设备可以为内窥镜、硬盘录像机或其他具备图像处理能力的设备。一个例子中，待检测的视频数据为内窥镜采集的视频数据。

S102，基于预先训练的深度学习目标检测网络分别对上述视频数据中的各视频帧进行目标检测，得到各视频帧中对象的属性信息，其中，针对任一对象，该对象的属性信息包括该对象的位置信息。

深度学习目标检测网络用于对视频帧中的对象进行检测，本申请实施例中的对象包括但不限于纱布、导管、医用胶带等物品，对象的具体种类可以根据实际的检测场景进行设定。

深度学习目标检测网络可以为任意的基于深度学习算法的目标检测网络。一种实施方式中，上述对象为纱布，上述深度学习目标检测网络为纱布检测网络；上述基于预先训练的深度学习目标检测网络分别对上述视频数据中的各视频帧进行目标检测，得到各视频帧中对象的属性信息，包括：利用上述纱布检测网络的特征提取网络分别对上述视频数据中的各视频帧进行特征提取，得到各视频帧的图像特征；利用上述纱布检测网络的检测头网络分别对各视频帧的图像特征进行分析，得到各视频帧中纱布的属性信息。

深度学习目标检测网络可以纱布检测网络，包括特征提取网络及检测头网络，其中，特征提取网络用于提取视频帧的图像特征，检测头网络用于对图像特征进行池化及回归等操作，从而得到视频帧中对象的位置信息。一个例子中，深度学习目标检测网络可以如图7所示，其中，RPN(Region Proposal Network，区域生成网络)用于基于图像特征生成各对象候选框，ROI(Region Of Interest，感兴趣区域)Pooling(池化)用于对各对象候选框进行池化操作。

深度学习目标检测网络的训练方法可以参见相关技术中的网络训练方法，一个例子中，如图5所示，预先训练深度学习目标检测网络的过程包括训练过程及测试过程，以对象为纱布为例，获取多个样本图像，对各样本图像中的纱布位置进行标定，例如一种可能的标定有纱布位置的样本图像的示意图可以如图6所示。将样本图像分为训练集和测试集；训练过程：将训练集中样本图像输入到深度学习目标检测网络得到预测的纱布位置信息，根据预测的纱布位置信息以及样本图像标定的纱布位置计算损失，根据损失调整深度学习目标检测网络的参数，在训练次数达到预设次数后转到测试过程；测试过程：利用测试集中的样本图像对深度学习目标检测网络进行验证，若损失收敛则得到训练好的深度学习目标检测网络，若损失不收敛，返回训练过程。

S103，根据各上述对象的属性信息，分别对各上述对象进行跟踪，得到各上述对象的跟踪结果。

针对任一对象，该对象的属性信息包括该对象的位置信息；可以根据各对象的位置信息，基于相关的目标跟踪方法，对各对象进行跟踪，从而得到各对象的跟踪结果，一个例子中，对象的跟踪结果可以为该对象的运动轨迹。

一种可能的实施方式中，针对任一对象，该对象的属性信息还包括该对象的图像特征；上述根据各上述对象的属性信息，分别对各上述对象进行跟踪，得到各上述对象的跟踪结果，包括：

步骤一，根据各上述对象的图像特征，计算相邻视频帧之间每两个对象的图像特征的余弦距离。

可以直接利用深度学习目标检测网络获取对象的图像特征，也可以通过区别于深度学习目标检测网络的特征提取网络，根据对象的位置信息，来提取对象的图像特征。计算视频数据中各相邻视频帧之间每两个对象的图像特征的余弦距离，例如，第K帧视频帧中包括对象1及对象2，第K+1帧视频帧中包括对象a、对象b及对象c，则需要计算对象1与对象a的图像特征的余弦距离、对象1与对象b的图像特征的余弦距离、对象1与对象c的图像特征的余弦距离、对象2与对象a的图像特征的余弦距离、对象2与对象b的图像特征的余弦距离、对象2与对象c的图像特征的余弦距离。一个例子中，本申请实施例中的余弦距离还可以替换为欧式距离等表示图像相似度的参数。

步骤二，根据各上述对象的位置信息及各上述余弦距离，对各相邻视频帧之间相同的对象进行关联，得到各上述对象的跟踪结果。

根据各余弦距离，确定相邻视频帧中为同一目标的各对象，并按照各对象的位置信息生成为同一目标的对象的轨迹，从而得到各对象的跟踪结果。

一个例子中，认为余弦距离最短、且小于预设距离阈值的两个对象是同一个目标，例如，第K帧视频帧中包括对象1及对象2，第K+1帧视频帧中包括对象a、对象b及对象c；若对象1与对象a的图像特征的余弦距离＜对象1与对象b的图像特征的余弦距离＜对象1与对象c的图像特征的余弦距离，且对象1与对象a的图像特征的余弦距离小于预设距离阈值，则判定对象1与对象a为同一对象，将对象1的位置信息与对象a的位置信息进行关联，得到该对象的运动轨迹作为该对象的跟踪结果。若对象2与对象a的图像特征的余弦距离＜对象2与对象b的图像特征的余弦距离＜对象2与对象c的图像特征的余弦距离，且对象2与对象a的图像特征的余弦距离不小于预设距离阈值，则判定对象1与对象a不为同一对象，也即对象1为将要消失的对象。

一个例子中，上述根据各上述对象的位置信息及各上述余弦距离，对各相邻视频帧之间相同的对象进行关联，得到各上述对象的跟踪结果，包括：

步骤1，针对每组相邻视频帧，可以构建该组相邻视频帧的两帧视频帧之间的所有可能的对象组合，并确定每种对象组合的余弦距离的和，其中，针对无关联的对象其余弦距离为预设距离阈值。

预设距离阈值为经验值或实验值，一个例子中，可以预先选取多组负样本对象，同一组负样本对象中的两个对象不为同一对象，分别计算每组负样本对象中两个对象的余弦距离，并求取各组负样本对象余弦距离的均值作为预设距离阈值。

步骤2，针对每组相邻视频帧，选取该组相邻视频帧中余弦距离的和最小的对象组合作为该组相邻视频帧的跟踪结果。

一个例子中，一组相邻视频帧为第K帧视频帧及第K+1帧视频帧，第K帧视频帧中包括对象1及对象2，第K+1帧视频帧中包括对象a、对象b及对象c，则所有可能的对象组合为：对象组合A，对象1关联对象a，对象2关联对象b，对象c无关联的对象；对象组合B，对象1关联对象a，对象2关联对象c，对象b无关联的对象；对象组合C，对象1关联对象b，对象2关联对象a，对象c无关联的对象；对象组合D，对象1关联对象b，对象2关联对象c，对象a无关联的对象；对象组合E，对象1关联对象c，对象2关联对象a，对象b无关联的对象；对象组合F，对象1关联对象c，对象2关联对象b，对象a无关联的对象；对象组合G，对象1关联对象a，对象2无关联对象，对象b无关联的对象，对象c无关联的对象；对象组合H，对象1关联对象b，对象2无关联对象，对象a无关联的对象，对象c无关联的对象；对象组合I，对象1关联对象c，对象2无关联对象，对象a无关联的对象，对象b无关联的对象；对象组合J，对象2关联对象a，对象1无关联对象，对象b无关联的对象，对象c无关联的对象；对象组合K，对象2关联对象b，对象1无关联对象，对象a无关联的对象，对象c无关联的对象；对象组合L，对象2关联对象c，对象1无关联对象，对象a无关联的对象，对象b无关联的对象；对象组合M，对象1无关联对象，对象2无关联对象，对象a无关联的对象，对象b无关联的对象，对象c无关联的对象。

分别计算每种对象组合的余弦距离的和，其中，针对无关联的对象其余弦距离为预设距离阈值，例如，针对余弦距离的和，对象组合A＜对象组合B＜对象组合C＜对象组合D＜对象组合E＜对象组合F＜对象组合G＜对象组合H＜对象组合I＜对象组合J＜对象组合K＜对象组合L＜对象组合M，则对象组合A为第K帧视频帧及第K+1帧视频帧的跟踪结果，即对象1与对象a为同一对象，对象2与对象b为同一对象，对象c为第K+1帧视频帧中新出现的对象。

S104，根据各上述对象的跟踪结果，确定与前一帧相比有新对象出现的视频帧作为第一类视频帧，确定与下一帧相比有已出现过的对象将要消失的视频帧作为第二类视频帧。

对象的跟踪会出现如下三类跟踪结果：

(1)在第k-1帧中的若干个对象轨迹中，找到了第k帧检测到的对象，说明对象被正常跟踪到了。

(2)在第k-1帧中的若干个对象轨迹中，没有找到第k帧检测到的对象，说明该对象在第k帧中是新出现的。

(3)在第k-1帧中存在某个对象，但第k帧并没有与之关联的对象，说明这个对象在第k帧中消失了。

第一类视频帧为较前一帧视频帧有新对象出现的视频帧；第二类视频帧为较后一帧视频帧有已出现过的对象将要消失的视频帧。例如图9所示，第k帧为第一类视频帧，第k-1帧为第二类视频帧。一个例子中，当一视频帧中即有新对象出现，又有已出现过的对象消失时，该视频帧同时为第一类视频帧及第二类视频帧。

在本申请实施例中，除了检测出对象的位置外，还将有新对象出现的视频帧作为第一类视频帧，将有已出现过的对象即将消失的视频帧作为第二类视频帧；通过第一类视频帧及第二类视频帧，可以清楚的了解到新对象出现的时机和已有对象消失的时机，从而能够减少纱布等对象遗留在患者体腔内的情况。

在一种可能的实施方式中，参见图14，上述方法还包括：

S105，针对任一确定出的第一类视频帧，生成至少包括第一状态属性及该第一类视频帧的帧号的索引信息，其中，上述第一状态属性表示有新对象出现。

针对第一类视频帧中的每一视频帧，生成该视频帧的索引信息，该视频帧的索引信息携带有标注，该标注中包括第一状态属性及该视频帧的帧号，其中，第一状态属性表示有新对象出现，该视频帧的帧号表示该视频帧是视频数据中的第几帧视频帧。

在一种可能的实施方式中，针对上述第一类视频帧中的每一视频帧，该视频帧的索引信息还包括该视频帧的对象数及该视频帧中对象的位置信息，其中，针对上述第一类视频帧中的每一视频帧，该视频帧的对象数表示该视频帧中将要消失及新出现的对象的数量。一个例子中，针对上述第一类视频帧中的每一视频帧，该视频帧的索引信息还包括该视频帧的序号。对象的位置信息可以为对象的目标框的坐标信息，一个例子中，以对象的目标框的左上角角点的坐标以及目标框的宽、高表示。该视频帧的序号可以表示该视频帧为视频数据中的第几帧第一类视频帧，也可以表示该视频帧为视频数据中的第几帧标注视频帧，其中，上述标注视频帧包括第一类视频帧及第二类视频帧。视频帧的索引信息中该视频帧的序号能够方便按照时序区分视频帧，视频帧的索引信息中该视频帧中对象的位置信息能够便于定位该视频帧中对象的位置。

S106，针对任一确定出的第二类视频帧，生成至少包括第二状态属性及该第二类视频帧的帧号的索引信息，其中，上述第二状态属性表示有已出现过的对象消失。

针对第二类视频帧中的每一视频帧，生成该视频帧的索引信息，该视频帧的索引信息携带有标注，该标注中包括第二状态属性及该视频帧的帧号，其中，第二状态属性表示有已出现过的对象消失，该视频帧的帧号表示该视频帧是视频数据中的第几帧视频帧。

在一种可能的实施方式中，针对上述第二类视频帧中的每一视频帧，该视频帧的索引信息至少还包括该视频帧的对象数及该视频帧中对象的位置信息，其中，针对上述第二类视频帧中的每一视频帧，该视频帧的对象数表示该视频帧中将要消失及新出现的对象的数量。一个例子中，针对上述第二类视频帧中的每一视频帧，该视频帧的索引信息还包括该视频帧的序号。对象的位置信息可以为对象的目标框的坐标信息一个例子中，以对象的目标框的左上角角点的坐标以及目标框的宽、高表示。该视频帧的序号可以表示该视频帧为视频数据中的第几帧第二类视频帧，也可以表示该视频帧为视频数据中的第几帧标注视频帧，其中，上述标注视频帧包括第一类视频帧及第二类视频帧。视频帧的索引信息中该视频帧的序号能够方便按照时序区分视频帧，视频帧的索引信息中该视频帧中对象的位置信息能够便于定位该视频帧中对象的位置。

S107，将各上述索引信息及上述视频数据封装为码流数据。

将各索引信息封装到视频数据编码后的码流中，得到码流数据。一个例子中，例如图10及图15所示，索引信息可以封装在码流数据的头部后，从而方便解封装后能够快速获取索引信息，其中，数据头部用于索引信息的识别，可以包括索引信息的数据长度等信息，具体情况可以根据实际情况自定义设置。一个例子中，如图10所示，状态属性表示有新对象出现还是有已出现过的对象消失，例如用0表示第二状态属性(有已出现过的对象消失)，用1表示第一状态属性(新对象出现)等。

一个例子中，会存在即有新对象出现，又有已出现过的对象消失的视频帧，当一个视频帧中新出现及即将消失的对象的数量大于1时，则可以在该视频帧的索引信息中依次排列各新出现及即将消失的对象位置信息及状态属性，排列顺序可以自定义设置，本申请不做限定，如图15所示，关键帧1中包括一即将消失的对象及一新出现的对象，其中，k-1表示关键帧1的帧号，2表示关键帧1中即将消失及新出现的对象数，0之前的x、y、w、h为上述即将消失的对象的位置属性，0为状态属性，表示对象即将消失；1之前的x、y、w、h为上述新出现的对象的位置属性，1为状态属性，表示对象新出现。

在本申请实施例中，将索引信息及视频数据封装为码流数据，能够方便后续观看及对象追溯。

在一种可能的实施方式中，参见图16，上述方法还包括：

S108，解封装上述码流数据得到各上述索引信息。

解封装码流数据得到索引信息及视频数据。

S109，根据各上述索引信息，回放上述第一类视频帧及上述第二类视频帧中的各视频帧。

一种实施方式中，上述根据各上述索引信息，回放上述第一类视频帧及上述第二类视频帧中的各视频帧，包括：

步骤一，基于各上述索引信息中视频帧的帧号，获取各上述索引信息中视频帧的帧号表示的各第一类视频帧和/或第二类视频帧，得到各目标视频帧。

例如，各引信息中视频帧的帧号分别为5、99、255、1245、3455，则从视频数据中得到第5帧、第99帧、第255帧、第1245帧、第3455帧视频作为各目标视频帧。

步骤二，针对每一目标视频帧，将该目标视频帧及该目标视频帧对应的第一状态属性和/或第二状态属性进行关联回放。

目标视频帧对应的第一状态属性和/或第二状态属性即为该目标视频帧的索引信息中的第一状态属性和/或第二状态属性。若目标视频帧的索引信息中携带第一状态属性且不携带第二状态属性，则关联展示该目标视频帧及第一状态属性；若目标视频帧的索引信息中携带第二状态属性且不携带第一状态属性，则关联展示该目标视频帧及第二状态属性；若目标视频帧的索引信息中携带第一状态属性且携带第一状态属性，则关联展示该目标视频帧、第一状态属性及第二状态属性。此外，还可以展示该目标视频帧对应的序号及对象的目标框等信息。一个例子中，关联展示的示意图可以如图12所示。

一种实施方式中，用户可以针对目标视频帧附近的视频段进行回放，上述方法还包括：

步骤三，在获取用户针对指定目标视频帧的详细展示消息后，根据上述指定目标视频帧的帧号，获取与上述指定目标视频帧的帧号的差值在第一预设帧号差值范围内的各视频帧，得到上述指定目标视频帧对应的目标视频帧段。

第一预设帧号差值范围可以根据实际情况自定义设置，例如可以设置为-50至50、-50至100、-100至50、-100至100或-400至500等。以第一预设帧号差值范围为-50至100为例，选取指定目标视频帧的帧号之前的50帧、指定目标视频帧及指定目标视频帧的帧号之后的100帧作为指定目标视频帧对应的目标视频帧段。

步骤四，将上述目标视频帧段及上述目标视频帧段对应的状态属性进行关联回放，其中，上述目标视频帧段对应的状态属性为上述指定目标视频帧的第一状态属性和/或第二状态属性，或上述目标视频帧段对应的状态属性为上述目标视频帧段中包括的第一类视频帧的第一状态属性和/或第二类视频帧的第二状态属性。

目标视频帧段对应的状态属性即为确定该目标视频帧段使用的指定目标视频帧的第一状态属性和/或第二状态属性，一个例子中，目标视频帧段对应第一状态属性和/或第二状态属性还可以包括该目标视频帧段中的其他目标视频帧对应的第一状态属性和/或第二状态属性。播放目标视频段，关联展示该目标视频帧段对应的第一状态属性和/或第二状态属性，一个例子中，可以在播放目标视频帧段的全程均展示该目标视频帧段对应的第一状态属性和/或第二状态属性；一个例子中，可以在播放目标视频帧或与目标视频帧的帧号在第三预设帧号差值范围的视频帧时播放该目标视频帧对应的第一状态属性和/或第二状态属性。

步骤A，针对每一索引信息，根据该索引信息中视频帧的帧号，获取与该索引信息中视频帧的帧号的差值在第二预设帧号差值范围内的各视频帧，得到该索引信息对应的目标视频帧集合。

第二预设帧号差值范围可以根据实际情况自定义设置，例如可以设置为-5至5、-5至10、-10至10、-20至20或-50至100等。以第二预设帧号差值范围为-5至10为例，选取该索引信息中视频帧的帧号之前的5帧、该索引信息中视频帧的帧号表示的视频帧及该索引信息中视频帧的帧号之后的10帧作为该索引信息对应的目标视频帧集合。

步骤B，针对每一目标视频帧集合，将该目标视频帧集合及该目标视频帧集合对应状态属性进行关联回放，其中，针对每一目标视频帧集合，该目标视频帧集合对应的状态属性为确定该目标视频帧集合所使用的索引信息中的第一状态属性和/或第二状态属性，或该目标视频帧集合对应的状态属性为该目标视频帧集合包括的第一类视频帧的第一状态属性和/或第二类视频帧的第二状态属性。

在本申请实施例中，展示第一类视频帧及第二类视频帧中的各视频帧，能够便于医护人员在缝合前快速对手术过程中纱布等对象的增减进行回顾，从而能够有效减少纱布等对象遗留在患者体腔内的情况。

本申请实施例还提供了一种对象检测装置，所述装置包括：视频数据获取模块，用于获取待检测的视频数据；属性信息确定模块，用于基于预先训练的深度学习目标检测网络分别对所述视频数据中的各视频帧进行目标检测，得到各视频帧中对象的属性信息，其中，针对任一对象，该对象的属性信息包括该对象的位置信息；跟踪结果确定模块，用于根据各所述对象的属性信息，分别对各所述对象进行跟踪，得到各所述对象的跟踪结果；视频帧标注模块，用于根据各所述对象的跟踪结果，确定与前一帧相比有新对象出现的视频帧作为第一类视频帧，确定与下一帧相比有已出现过的对象将要消失的视频帧作为第二类视频帧。

本申请实施例还提供了一种电子设备，包括：处理器及存储器；上述存储器，用于存放计算机程序；上述处理器用于执行上述存储器存放的计算机程序时，实现本申请中任一对象检测方法。

可选的，除了上述存储器及处理器外，本申请实施例的电子设备还包括通信接口和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信。

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现本申请中任一对象检测方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本申请中任一对象检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

需要说明的是，在本文中，各个可选方案中的技术特征只要不矛盾均可组合来形成方案，这些方案均在本申请公开的范围内。诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、系统、电子设备、计算机程序产品及存储介质的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种对象检测方法，其特征在于，所述方法包括：

获取待检测的视频数据；

基于预先训练的深度学习目标检测网络分别对所述视频数据中的各视频帧进行目标检测，得到各视频帧中对象的属性信息，其中，针对任一对象，该对象的属性信息包括该对象的位置信息；

根据各所述对象的属性信息，分别对各所述对象进行跟踪，得到各所述对象的跟踪结果；

根据各所述对象的跟踪结果，确定与前一帧相比有新对象出现的视频帧作为第一类视频帧，确定与下一帧相比有已出现过的对象将要消失的视频帧作为第二类视频帧；

针对任一确定出的第一类视频帧，生成至少包括第一状态属性及该第一类视频帧的帧号的索引信息，其中，所述第一状态属性表示有新对象出现；

针对任一确定出的第二类视频帧，生成至少包括第二状态属性及该第二类视频帧的帧号的索引信息，其中，所述第二状态属性表示有已出现过的对象消失；

将各所述索引信息及所述视频数据封装为码流数据；

解封装所述码流数据得到各所述索引信息；

根据各所述索引信息，回放所述第一类视频帧及所述第二类视频帧中的各视频帧；

所述根据各所述索引信息，回放所述第一类视频帧及所述第二类视频帧中的各视频帧，包括：针对每一索引信息，根据该索引信息中视频帧的帧号，获取与该索引信息中视频帧的帧号的差值在第二预设帧号差值范围内的各视频帧，得到该索引信息对应的目标视频帧集合；针对每一目标视频帧集合，将该目标视频帧集合及该目标视频帧集合对应状态属性进行关联回放，其中，针对每一目标视频帧集合，该目标视频帧集合对应的状态属性为确定该目标视频帧集合所使用的索引信息中的第一状态属性和/或第二状态属性，或该目标视频帧集合对应的状态属性为该目标视频帧集合包括的第一类视频帧的第一状态属性和/或第二类视频帧的第二状态属性。

2.根据权利要求1所述的方法，其特征在于，所述对象为纱布，所述深度学习目标检测网络为纱布检测网络；

所述基于预先训练的深度学习目标检测网络分别对所述视频数据中的各视频帧进行目标检测，得到各视频帧中对象的属性信息，包括：

利用所述纱布检测网络的特征提取网络分别对所述视频数据中的各视频帧进行特征提取，得到各视频帧的图像特征；

利用所述纱布检测网络的检测头网络分别对各视频帧的图像特征进行分析，得到各视频帧中纱布的属性信息。

3.根据权利要求1所述的方法，其特征在于，针对所述第一类视频帧及所述第二类视频帧中的每一视频帧，该视频帧的索引信息至少还包括该视频帧的对象数及该视频帧中对象的位置信息，其中，针对所述第一类视频帧及所述第二类视频帧中的每一视频帧，该视频帧的对象数表示该视频帧中将要消失及新出现的对象的数量。

4.根据权利要求1所述的方法，其特征在于，所述根据各所述索引信息，回放所述第一类视频帧及所述第二类视频帧中的各视频帧，包括：

基于各所述索引信息中视频帧的帧号，获取各所述索引信息中视频帧的帧号表示的各第一类视频帧和/或第二类视频帧，得到各目标视频帧；

针对每一目标视频帧，将该目标视频帧及该目标视频帧对应的第一状态属性和/或第二状态属性进行关联回放。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

在获取用户针对指定目标视频帧的详细展示消息后，根据所述指定目标视频帧的帧号，获取与所述指定目标视频帧的帧号的差值在第一预设帧号差值范围内的各视频帧，得到所述指定目标视频帧对应的目标视频帧段；

将所述目标视频帧段及所述目标视频帧段对应的状态属性进行关联回放，其中，所述目标视频帧段对应的状态属性为所述指定目标视频帧的第一状态属性和/或第二状态属性，或所述目标视频帧段对应的状态属性为所述目标视频帧段中包括的第一类视频帧的第一状态属性和/或第二类视频帧的第二状态属性。

6.根据权利要求1所述的方法，其特征在于，针对任一对象，该对象的属性信息还包括该对象的图像特征；所述根据各所述对象的属性信息，分别对各所述对象进行跟踪，得到各所述对象的跟踪结果，包括：

根据各所述对象的图像特征，计算相邻视频帧之间每两个对象的图像特征的余弦距离；

根据各所述对象的位置信息及各所述余弦距离，对各相邻视频帧之间相同的对象进行关联，得到各所述对象的跟踪结果。

7.一种内窥镜系统，其特征在于，所述内窥镜系统包括：

内窥镜、光源设备及摄像系统主机；

所述内窥镜用于采集被检体的图像数据；

所述光源设备用于为所述内窥镜提供拍摄光源；

所述摄像系统主机用于在运行时实现上述权利要求1-6任一所述的对象检测方法。

8.根据权利要求7所述的系统，其特征在于，所述内窥镜系统还包括：显示设备及存储设备；

所述摄像系统主机还用于将所述内窥镜采集的图像数据发送给所述显示设备，将处理后的图像数据存储到所述存储设备中；

所述显示设备用于显示所述图像数据以及回放所述第一类视频帧及所述第二类视频帧中的各视频帧；

所述存储设备用于存储所述处理后的图像数据。

9.一种对象检测装置，其特征在于，所述装置包括：

视频数据获取模块，用于获取待检测的视频数据；

属性信息确定模块，用于基于预先训练的深度学习目标检测网络分别对所述视频数据中的各视频帧进行目标检测，得到各视频帧中对象的属性信息，其中，针对任一对象，该对象的属性信息包括该对象的位置信息；

跟踪结果确定模块，用于根据各所述对象的属性信息，分别对各所述对象进行跟踪，得到各所述对象的跟踪结果；

视频帧标注模块，用于根据各所述对象的跟踪结果，确定与前一帧相比有新对象出现的视频帧作为第一类视频帧，确定与下一帧相比有已出现过的对象将要消失的视频帧作为第二类视频帧；

索引信息生成模块，用于针对任一确定出的第一类视频帧，生成至少包括第一状态属性及该第一类视频帧的帧号的索引信息，其中，所述第一状态属性表示有新对象出现；针对任一确定出的第二类视频帧，生成至少包括第二状态属性及该第二类视频帧的帧号的索引信息，其中，所述第二状态属性表示有已出现过的对象消失；将各所述索引信息及所述视频数据封装为码流数据；

数据解封装模块，用于解封装所述码流数据得到各所述索引信息；

视频帧展示模块，用于根据各所述索引信息，回放所述第一类视频帧及所述第二类视频帧中的各视频帧；

所述视频帧展示模块，具体用于：针对每一索引信息，根据该索引信息中视频帧的帧号，获取与该索引信息中视频帧的帧号的差值在第二预设帧号差值范围内的各视频帧，得到该索引信息对应的目标视频帧集合；针对每一目标视频帧集合，将该目标视频帧集合及该目标视频帧集合对应状态属性进行关联回放，其中，针对每一目标视频帧集合，该目标视频帧集合对应的状态属性为确定该目标视频帧集合所使用的索引信息中的第一状态属性和/或第二状态属性，或该目标视频帧集合对应的状态属性为该目标视频帧集合包括的第一类视频帧的第一状态属性和/或第二类视频帧的第二状态属性。

10.一种电子设备，其特征在于，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-6任一所述的对象检测方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的对象检测方法。