CN116188486A

CN116188486A - 一种面向腹腔镜肝脏手术的视频分割方法及系统

Info

Publication number: CN116188486A
Application number: CN202211709623.7A
Authority: CN
Inventors: 张立华; 刘涛; 杨仲伟; 张绪坤
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-05-30

Abstract

本发明公开了一种面向腹腔镜肝脏手术的视频分割方法及系统，属于视频分割技术领域，方法包括：对腹腔镜肝脏手术视频预处理，得到训练数据；构建视频肝脏分割网络，包括用于从输入的视频帧中分割出肝脏的骨干网络以及用于对输入的视频帧进行时间一致性约束和遮挡估计的辅助网络；通过知识蒸馏的方法对视频肝脏分割网络进行训练，并在训练完成后提取骨干网络为视频肝脏分割模型；通过视频肝脏分割模型对输入的实时视频数据进行分割，得到肝脏分割结果。本发明基于时空一致性约束的训练过程，能够充分利用到视频中未标注的帧，保证了高精度；基于知识蒸馏方法压缩模型，节省算力的同时保证了预测的实时性，在术中实时地为医生提供辅助。

Description

一种面向腹腔镜肝脏手术的视频分割方法及系统

技术领域

本发明涉及视频分割技术领域，特别涉及一种面向腹腔镜肝脏手术的视频分割方法及系统。

背景技术

腹腔镜手术是一种很有用途的微创手术(MIS)，具有显著的临床优势，包括减少术后并发症、减少失血、缩短恢复时间、减少疤痕和组织创伤。在过去的几十年里，介入性内窥镜检查已经广泛应用于体腔内的各种器官，包括腹腔镜胃切除术、胆囊切除术、胰腺切除术等。

然而在实际腹腔镜手术中，由于医生视野受限，手术中其仅能看到腹腔内器官的局部信息，因此这对于病情的诊疗有一定的影响。

目前在，通过计算机辅助诊断系统可以有效帮助医生发现病灶，通过采取相应手术方案，因此减低误诊率。目前，视频分割算法虽然已广泛应用于息肉的检测工作上，但由于息肉与肝脏的视觉特征不同，且肝脏血供复杂、病灶种类多，故用于视频息肉分割的算法并不能直接且很好地迁移到视频肝脏分割上。

例如公开号为CN114972293A的中国发明专利所公开的基于半监督时空注意力网络的视频息肉分割方法、装置。该发明提供的技术方案，通过多层编码器与解码器构建了U型网络架构，并通过时间局部上下文注意力模块和帧间时空注意力模块，从而得到较为准确的息肉分割结果。但由于肝脏视觉特征与息肉不同，且肝脏病灶种类复杂，在术中会发生形变，该发明所提出的网络架构不能很好地迁移到术中肝脏分割任务上，而且该技术所利用的训练方法无法利用到数据集中的全部数据。

再例如公开号为CN115272366A的中国发明专利所公开的肝脏CT图像分割方法、装置、设备以及可读存储介质。该发明提供的技术方案，利用手术过程中获取的肝脏部位CT图像，基于MIMO-FAN模型，通过空间金字塔池化对三个不同层面的切片图像进行多尺度分析，从不同尺度中可解释整个场景的图像级语境特征，进而根据图像级语境特征对CT图像中的肝脏部位进行分割。该发明的技术手段对于单张ct图像进行分割可以达到较为不错的准确度和速度，但是如果利用到术中实时肝脏分割，无法达到随着手术流程进行，对医生操作区域进行动态定位与实时辅助的目的。

综上可以看出，现有技术方案直接应用于视频肝脏分割上时，其存在的缺陷主要有：

1.视频肝脏分割任务比普通的分割任务更加复杂，受限于真实手术视频数据的获取难度以及视频标注的复杂度，现有分割方法难以实现视频肝脏分割任务。

2.算力需求高，若采用图片分割的方法对视频的每一帧图片进行分割，在手术场景下难以对医生提供及时有效的帮助。

3.实时性差，不能随着手术流程的进行，对医生操作区域进行实时视频分割。

4.实际肝脏腹腔镜术中环境下，医生手术器材极有可能会对肝脏造成遮挡，现有肝脏语义分割方法难以应对带有遮挡的肝脏分割。

发明内容

针对现有技术存在的方案难以很好地迁移到视频肝脏分割方面的问题，本发明的目的在于提供一种面向腹腔镜肝脏手术的视频分割方法及系统，以便于至少部分地解决上述问题。

为实现上述目的，本发明的技术方案为：

第一方面，本发明提供了一种面向腹腔镜肝脏手术的视频分割方法，包括以下步骤：

S1、获取腹腔镜肝脏手术视频，并对其进行预处理，得到包括若干个视频帧的训练数据；

S2、构建视频肝脏分割网络，其包括用于从输入的视频帧中分割出肝脏的骨干网络以及用于对输入的视频帧进行时间一致性约束和遮挡估计的辅助网络；

S3、通过知识蒸馏的方法对所述视频肝脏分割网络进行训练，并在训练完成后提取所述骨干网络为视频肝脏分割模型；

S4、通过所述视频肝脏分割模型对输入的实时视频数据进行分割，得到肝脏分割结果。

优选的，在步骤S1中，对获取到的腹腔镜肝脏手术视频进行预处理的步骤具体包括：

对获取到的腹腔镜肝脏手术视频中的部分视频帧进行标注；

随机采样若干个带有标注的视频帧，并将每个带有标注的视频帧及其两个前驱帧和两个后续帧均构造成五元组；

将五元组中的每个视频帧统一缩放到相同的大小，再作归一化处理后即形成所述训练数据。

优选的，对视频帧进行标注的标签包括肝脏表面、图像中可视范围内的肝脏上沿和肝脏下沿以及肝脏的镰状韧带和肝脏的病灶。

优选的，在步骤S2中，所述骨干网络为Unet网络或Resnet网络，所述辅助网络为MaskFlownet网络。

优选的，在步骤S3中，所述通过知识蒸馏的方法对所述视频肝脏分割网络进行训练的步骤具体包括：

利用交叉熵损失和时间一致性损失预先训练得到教师网络T，所述骨干网络则作为学生网络S；

在训练过程中，冻结所述教师网络T的参数，并利用双帧依赖对齐所述学生网络S与所述教师网络T。

优选的，所述教师网络T基于Resnet101和Unet分割架构相结合得到。

优选的，所述辅助网络采用自监督的方式训练，即通过光流变换将第t帧视频图像变换到第t+k帧视频图像，然后利用光度一致性和运动平滑性进行训练。

优选的，在步骤S2中，所述视频肝脏分割网络还包括空间转换器，以便于使所述视频肝脏分割网络对视频帧中的肝脏区域更加敏感。

第二方面，本发明还提供了一种面向腹腔镜肝脏手术的视频分割系统，包括：

视频录制模块，用于获取腹腔镜手术中医生视角下肝脏部位的实时手术视频；

预处理模块，用于对获取到的实时手术视频进行预处理；

视频肝脏分割模块，用于调用预先训练好的视频肝脏分割模型对经过预处理的实时手术视频进行语义分割，获得视频肝脏分割结果。

优选的，所述系统还包括动态可视化模块，用于对所述视频肝脏分割结果进行可视化，可视化的内容包括医生视角下的可视范围内肝脏的上沿和下沿、镰状韧带、肝脏表面和肝脏病灶区域。

采用上述技术方案，本发明的有益效果在于：

1、针对视频肝脏分割数据集标注难度的问题，本发明提供了基于光流和语义分割联合学习的方案，通过在视频中无监督学习光流，并利用光流对前后帧语义分割的特征图施加约束使得光流和语义分割互相增益，这种约束可以帮助利用数据集中的全部数据包括未被标注的视频帧，以学习到更鲁棒的分割特征以提高准确率。

2、针对现有方法的高算力需求和实时性差的问题，本发明提供了一个基于知识蒸馏方法压缩网络模型，在应用阶段利用紧凑网络进行预测，在保证准确率的同时，提高了预测效率，不会在测试阶段增加额外的计算量，可以很好地利用到术中实时肝脏分割任务中，在手术场景下对医生提供及时有效的帮助。

附图说明

图1为本发明实施例一中面向腹腔镜肝脏手术的视频分割方法的流程图；

图2为本发明实施例一中面向腹腔镜肝脏手术的视频分割系统的结构示意图；

图3为本发明实施例三中电子设备的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示对本发明结构的说明，仅是为了便于描述本发明的简便，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

对于本技术方案中的“第一”和“第二”，仅为对相同或相似结构，或者起相似功能的对应结构的称谓区分，不是对这些结构重要性的排列，也没有排序、或比较大小、或其他含义。

另外，除非另有明确的规定和限定，术语“安装”、“连接”应做广义理解，例如，连接可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个结构内部的连通。对于本领域的普通技术人员而言，可以根据本发明的总体思路，联系本方案上下文具体情况理解上述术语在本发明中的具体含义。

实施例一

一种面向腹腔镜肝脏手术的视频分割方法，如图1所示，该方法包括以下步骤：

S1、获取腹腔镜肝脏手术视频，并对其进行预处理，得到包括若干个视频帧的训练数据。

其中，对获取到的腹腔镜肝脏手术视频进行预处理的步骤具体包括：

对获取到的腹腔镜肝脏手术视频中的部分视频帧进行标注，其原因在于对全部视频帧进行标注费时费力，标注的标签包括肝脏表面、图像中可视范围内的肝脏上沿和肝脏下沿以及肝脏的镰状韧带和肝脏的病灶；

在标注完成后，随机采样若干个带有标注的视频帧，并将每个带有标注的视频帧及其两个前驱帧和两个后续帧均构造成五元组，即(frame_1,frame_2,labelled frame,frame_3,frame_4)；

将五元组中的每个视频帧统一缩放到相同的大小，例如512×512×3，再作归一化处理后即形成训练数据，即，训练数据通常包括有若干个五元组，每个五元组均能够用于对网络进行训练。本实施例中，腹腔镜肝脏手术视频真实来源于不同患者；按照上述步骤形成的训练数据按照9：1划分为训练集和验证集，训练集用于训练网络模型，验证集用于对训练好的网络模型进行验证。

S2、构建视频肝脏分割网络，其包括用于从输入的视频帧中分割出肝脏的骨干网络以及用于对输入的视频帧进行时间一致性约束和遮挡估计的辅助网络。

其中，骨干网络选为Unet网络或Resnet网络，辅助网络选为MaskFlownet网络(即基于神经网络的预测方法)。

对于连续播放的帧序列，前驱帧的某一个像素点的预测分类与后续帧中对应的像素点的预测分类应具有一致性，所以采用时间一致性约束来限制未进行标注的视频帧的预测分类，具体地，损失函数如下：

其中，I_t，I_t+k分别代表输入到视频肝脏分割网络的第t帧和第t+k帧图像，

是第t帧图像在位置i处的预测结果，/>

是第t+k帧图像经光流变换到第t帧图像时位置i处的预测结果。如此处理，能够使得两帧输入图像的分割图将会被这种光流运动导向所对齐。

如此设置，基于时空一致性约束在训练过程中也能够利用到视频中未标注的帧，解决了视频肝脏分割的数据集问题，同时保证了术中分割肝脏区域的高精度，且对于不同患者的泛化性很好，为腹腔镜肝脏手术提供了强有力的支撑，从而能够解决视频肝脏语义分割任务中数据集获取难度大、数据集标注费时费力的问题。

另外，由于实际的腹腔镜肝脏手术中医生的手术器械可能会挡住肝脏部位，所以还需要一个遮挡估计来判断某一关注区域是否被遮挡，以消除光流变换产生的误差。其中，O_occ就是为了这一目的而引入的，其代表遮挡概率，也由辅助网络计算；如果不存在遮挡，(1-O_occ)接近于1，如实计算时间一致性损失，否则，这一项接近于0，该像素位置的时间一致性损失可被忽略不计。

S3、通过知识蒸馏的方法对视频肝脏分割网络进行训练，并在训练完成后提取骨干网络为视频肝脏分割模型。

其中，通过知识蒸馏的方法对视频肝脏分割网络进行训练的步骤具体包括：

利用交叉熵损失和时间一致性损失预先训练得到教师网络T，上述的骨干网络则作为学生网络S；

在训练过程中，冻结教师网络T的参数，并利用双帧依赖对齐学生网络S与教师网络T。

知识蒸馏的原理是：对于两个张量M_t，M_t+k，也就是第t帧和第t+k帧的分割结果，作为这一部分的输入，经过处理后得到这两个张量的相似图

对于R中的像素r_ij，有

也即/>

和/>

的余弦相似度，其中/>

和/>

分别为M_t，M_t+k的第i行和第j行的特征。如果第t帧中的位置i经光流变换后到了第t+k帧位置j，那么他们的相似度r_ij会很高，因此双帧依赖可以反应两个视频帧之间的运动相关性。具体地，这一部分的损失函数如下：

其中，上标S代表学生网络S的参量，上标T代表教师网络T的参量，教师网络T基于Resnet101和Unet分割架构相结合得到。而辅助网络则采用自监督的方式训练，即通过光流变换将第t帧视频图像变换到第t+k帧视频图像，然后利用光度一致性和运动平滑性进行训练。

本步骤中，通过教师网络T来弥补由于腹腔内图像色彩较为类似、特征不明显、不易被学生网络S很好地捕获特征的困难，从而保证了学生网络S(即骨干网络)具有很好的准确率和鲁棒性。

在训练好网络后，即可舍弃掉辅助网络和教师网络T(即辅助网络和教师网络T仅被用作训练过程的辅助工具，用以计算时间一致性损失和压缩模型)，只保留学生网络S(即骨干网络)作为视频肝脏分割模型，从而能够有效提升预测速率，达到在手术场景中起到实时辅助的作用。

S4、通过视频肝脏分割模型对输入的实时视频数据进行分割，得到肝脏分割结果。

实施例二

本实施例中，针对上述的步骤S2，配置视频肝脏分割网络还包括空间转换器，以便于使视频肝脏分割网络对视频帧中的肝脏区域更加敏感。

即引入空间注意力机制对腹腔镜下肝脏部位进行识别。由于腹腔镜手术场景下，其拍摄到的视频投映到屏幕上会发生扭曲，以及患者腹腔内部的视觉特征较为类似，所以需要引入空间注意力机制，即使用一个空间转换器，将图像中的空间域信息做对应的空间变换，从而将关键的信息提取出来，使得网络对于肝脏特征更为敏感。具体而言，是对于一个N×C×H×W维度的图像，针对同一通道C的不同位置(H×W)赋予权重，使得网络对于不同位置的区域更为关注。

实施例三

一种面向腹腔镜肝脏手术的视频分割系统，如图2所示，包括：

预处理模块，用于对获取到的实时手术视频进行预处理；

优选的，该系统还包括动态可视化模块，用于对视频肝脏分割结果进行可视化，可视化的内容包括医生视角下的可视范围内肝脏的上沿和下沿、镰状韧带、肝脏表面和肝脏病灶区域。

实施例四

一种电子设备，如图3所示，包括存储有可执行程序代码的存储器以及与该存储器耦合的处理器；其中，处理器调用存储器中存储的可执行程序代码，执行上述实施例公开的方法步骤。

实施例五

一种计算机存储介质，计算机存储介质中存储有计算机程序，计算机程序被处理器运行时执行上述实施例公开的方法步骤。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种面向腹腔镜肝脏手术的视频分割方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的方法，其特征在于：在步骤S1中，对获取到的腹腔镜肝脏手术视频进行预处理的步骤具体包括：

对获取到的腹腔镜肝脏手术视频中的部分视频帧进行标注；

3.根据权利要求2所述的方法，其特征在于：对视频帧进行标注的标签包括肝脏表面、图像中可视范围内的肝脏上沿和肝脏下沿以及肝脏的镰状韧带和肝脏的病灶。

4.根据权利要求1所述的方法，其特征在于：在步骤S2中，所述骨干网络为Unet网络或Resnet网络，所述辅助网络为MaskFlownet网络。

5.根据权利要求1所述的方法，其特征在于：在步骤S3中，所述通过知识蒸馏的方法对所述视频肝脏分割网络进行训练的步骤具体包括：

6.根据权利要求1所述的方法，其特征在于：所述教师网络T基于Resnet101和Unet分割架构相结合得到。

7.根据权利要求5所述的方法，其特征在于：所述辅助网络采用自监督的方式训练，即通过光流变换将第t帧视频图像变换到第t+k帧视频图像，然后利用光度一致性和运动平滑性进行训练。

8.根据权利要求1所述的方法，其特征在于：在步骤S2中，所述视频肝脏分割网络还包括空间转换器，以便于使所述视频肝脏分割网络对视频帧中的肝脏区域更加敏感。

9.一种面向腹腔镜肝脏手术的视频分割系统，其特征在于：包括：

预处理模块，用于对获取到的实时手术视频进行预处理；

10.根据权利要求9所述的系统，其特征在于：还包括动态可视化模块，用于对所述视频肝脏分割结果进行可视化，可视化的内容包括医生视角下的可视范围内肝脏的上沿和下沿、镰状韧带、肝脏表面和肝脏病灶区域。