CN115311317A

CN115311317A - 一种基于Scaleformer类算法的腹腔镜图像分割方法及系统

Info

Publication number: CN115311317A
Application number: CN202211243483.9A
Authority: CN
Inventors: 郑飞州; 陈政霖; 王永仲
Original assignee: Guangzhou Zhongping Intelligent Technology Co ltd
Current assignee: Guangzhou Zhongping Intelligent Technology Co ltd
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2022-11-08

Abstract

本发明公开一种基于Scaleformer类算法的腹腔镜图像分割方法及系统。通过获取腹腔镜手术图片及视频数据并生成腹腔镜分割数据库；采用完美反射算法对原始内窥镜数据进行图像预处理，采用letterbox方法修改图像尺寸；构建至少一个基于Scaleformer类算法的内窥镜图像语义分割网络；采用生成的语义分割内窥镜数据集训练Scaleformer网络并保存模型；采用测试集数据进行实时测试；将模型部署至GPU模块上处理客户端传输的图片，将分割结果返还至交互界面；可以有效减少数据噪声，有效提高腹腔镜检测模型性能，通过使用Scaleformer类分割算法来处理腹腔镜数据，可以得到更准确的分割结果。

Description

一种基于Scaleformer类算法的腹腔镜图像分割方法及系统

技术领域

本发明属于医学类计算机跨学科领域和人工智能计算机视觉算法技术领域，具体涉及一种基于Scaleformer类算法的腹腔镜图像分割方法、系统、平台及存储介质。

背景技术

腹腔镜（Laparoscope）与胃镜、结肠镜类似，是一种带有光源和微型摄像头的医疗器械，属于三类医疗器械。其整套设备包括腹腔镜、能源系统、光源系统、灌流系统、成像系统以及常用的腹腔镜手术器械（如穿刺针、套管针、分离钳、电凝钩及电凝棒、施夹器、钛夹、剪刀、持针器、圈套器等），主要用于普通外科、妇科外科和其他外科手术。在腹腔镜手术中，医生通过患者腹部很小的创口将腹腔镜送入腹腔内，腹腔镜的摄像头就可以回传患者腹腔内部情况到录像监视系统的监视器上供医生检查和手术操作。相对于传统的开腹手术，腹腔镜手术具有创伤小、术后疼痛轻，恢复快，美观等优点。因此在临床术式的选择中广受医生和患者的青睐。

语义分割是当今计算机视觉领域的关键问题之一。从宏观上看，语义分割是一项高层次的任务，为实现场景的完整理解铺平了道路。场景理解作为一个核心的计算机视觉问题，其重要性在于越来越多的应用程序通过从图像中推断知识来提供营养，包含一些应用领域如自动驾驶场景分割，医学图像场景。近年来随着深度学习的普及，许多语义分割问题正在采用深层次的结构来解决，最常见的是卷积神经网络，在精度和效率上都大大超过了其他方法。

语义分割作为经典的计算机视觉问题，可以理解为细化版本的分类任务。其涉及将一些原始数据（例如：平面图像）作为输入并将它们转换为具有突出显示的感兴趣区域的掩膜，其中图像中的每个像素根据其所属的对象被分配类别。早期的计算机视觉问题只发现边缘（线条和曲线）或渐变元素，但它们从完全按照人类感知的方式提供像素级别的图像理解。语义分割将属于同一目标的图像部分聚集在一起解决这个问题，从而扩展了其应用领域。值得注意的是，与其他的基于图像的任务相比，语义分割是完全不同且先进的。语义分割不仅需要在像素级别上进行区分，而且还需要一种机制将编码器不同阶段学习到的区分特征投影到像素空间上。

图像语义分割方法有传统方法和基于深度学习的方法，其中传统的语义分割方法又可以分为基于统计的方法和基于几何的方法。随着深度学习的发展，语义分割技术得到很大的进步，基于深度学习的语义分割方法与传统的语义分割方法最大不同是，网络可以自动学习图像的特征，进行端到端的分类学习，大大提升语义分割的精确度，可以大概分成基于transformer和基于全卷积的语义分割模型。

人们开发了各种视觉Transformer，因为它们具有建模长距离依赖性的能力。在用于医学图像分割的基于Transformer的主干中，用纯Transformer替换变换层，或者将Transformer添加到最深编码器以学习全局上下文。然而，从尺度角度来看，目前的Transformer语义分割方案主要存在两个挑战：（1）尺度内问题：现有方法缺乏在每个尺度上提取局部和全局线索的能力，这可能会影响小对象的信号传播；（2）尺度间问题：现有的方法无法从多个尺度探索不同的信息，这可能会阻碍从大小、形状和位置变化很大的对象进行表征学习

因为相比于先前的主流卷积方案，基于transformer的模型能更好地进行图像像素的上下文建模，这里上下文指的是指像素以及周边像素的某种联系。具体上下文信息，就是在判断某一个位置上的像素属于哪种类别的时候，不仅考察到该像素的灰度值，还充分考虑和它临近的像素。

随着计算机技术的发展，人工智能（AI）在内镜领域被广泛研究，如用于基于腹腔镜的异常肿瘤部位识别。计算机辅助诊断的一个主要作用是帮助腹腔镜师确定实体器官中肿瘤的边缘通常具有挑战性，尤其是当肿瘤位于器官深处或仅部分暴露时。因此将语义分割的现实技术引导腹腔镜下精准手术是腔镜下手术的必然发展趋势。多项研究已经证明AI系统在了解决人类解剖结构和外科手术环境的识别任务中的潜力。此外，人工智能系统的诊断准确性也与经验丰富的医师进行了比较，被证明可以达到可比的性能。基于语义分割的算法能够对实际场景下的腹腔镜图像自动分割，以辅助医生完成准确识别和标记人体躯干区域腹腔镜视频馈送中的组织和器官，这对于此类微创手术是有重大帮助的。

然而，目前针对腔镜数据的分割还存在一些问题。首先，从检测算法看，目前针对腹腔镜数据的处理方案算法还处在尝试初级阶段，因此模型的性能还很一般；其次，腹腔镜图像相比于常规的内镜图视野局限大，因为数据伪影较大，这会直接影响任务性能。数据和模型作为计算机辅助医疗任务的两大支撑，上述问题会直接阻碍语义分割方法在腹腔镜中的应用，因此还需要做更进一步的技术改进。

此外，没有检索到和“Scaleformer类算法腹腔镜检测”相关的专利，因此这里所列的与本专利方案最相近方案是论文[1]提出的一种用于语义分割任务的深度卷积神经网络对实际内窥镜场景完成器官和不同的手术器械进行了分割和注释。作为基于人工智能实现手术自动化的第一步，本文实验结果证明了针对内窥镜场景下手术场景中各种器官和器械的像素级识别的可行性，对我们的工作有很强的参考价值。

但现有技术存在如下不足：从算法性能看，目前针对腹腔镜数据的处理方案算法还处在尝试初级阶段，因此最后的分割效果一般。由于语义分割的标签划定自由度大，这就造成分割边界不够准确，会导致分割结果与真实需求距离较大。从数据看，腹腔镜数据作为医学数据，存在光照等数据伪影问题，但现有算法针对腹腔镜数据提出相应的数据改进方案，使得最后实验结果一般。

因此，针对以的技术问题缺陷，急需设计和开发一种基于Scaleformer类算法的腹腔镜图像分割方法、系统、平台及存储介质。

发明内容

为克服上述现有技术存在的不足及困难，本发明之目的在于提供一种基于Scaleformer类算法的腹腔镜图像分割方法、系统、平台及存储介质，可以有效减少数据噪声，来有效提高腹腔镜检测模型性能，并且通过使用Scaleformer类分割算法来处理腹腔镜数据,以得到更准确的分割结果；通过在分割模型中引入极化自注意力机制PSA，可以优化算法分割能力。

本发明的第一目的在于提供一种基于Scaleformer类算法的腹腔镜图像分割方法；

本发明的第二目的在于提供一种基于Scaleformer类算法的腹腔镜图像分割系统；

本发明的第三目的在于提供一种基于Scaleformer类算法的腹腔镜图像分割平台；

本发明的第四目的在于提供一种计算机可读取存储介质；

本发明的第一目的是这样实现的：所述方法包括如下步骤：

获取腹腔镜手术图片及视频数据，并生成腹腔镜分割数据库；

采用完美反射算法对原始内窥镜数据进行图像预处理，并采用letterbox方法修改图像尺寸；

构建至少一个基于Scaleformer类算法的内窥镜图像语义分割网络；

采用生成的语义分割内窥镜数据集训练Scaleformer网络并保存模型；同时采用测试集数据进行实时测试；

将模型部署至GPU模块上处理客户端传输的图片，并将分割结果返还至交互界面。

进一步地，所述获取腹腔镜手术图片及视频数据，并生成腹腔镜分割数据库，还包括如下步骤：

采用CVAT标注腹腔镜手术图片及视频。

进一步地，所述采用完美反射算法对原始内窥镜数据进行图像预处理，并采用letterbox方法修改图像尺寸，还包括如下步骤：

根据输入尺寸和原始输入图尺寸计算生成收缩比r；

通过收缩比乘原图长宽实时生成尺寸缩放后的图像；

计算收缩后图像中需要填补的面积，并实时填补像素。

进一步地，所述完美反射的算法的步骤如下：

计算每个像素的R\G\B之和；按R+G+B值的大小生成其前比例R%的值，将其作为参考点的阈值T；

对图像中的每个点，计算其中R+G+B值大于T的所有点的R\G\B分量的累积和的平均值；同时对每个点将像素进行量化。

进一步地，所述构建至少一个基于Scaleformer类算法的内窥镜图像语义分割网络，还包括如下步骤：

获取有用的细微分割任务相关信息；并通过聚类的解码器解码编码器信息；

于原图中绘制出分割结果掩码。

构建CNN的局部特征与每个尺度下基于transformer的全局表示耦合的尺度内transformer模块；

所述尺度内transformer模块获得的特征信息计算公式如下：

（1）

其中，i指transformer分支索引下采样层数，Nt代表transformer使用的数目，Down(.)指补丁嵌入函数，其通过步长为2的卷积运算实现，随后是批量归一化和ReLU激活函数；[.]指串联操作，Trans指尺度内transformer，包含了轻型双轴多头自注意力机制模块和增强型多层感知机。

进一步地，所述采用测试集数据进行实时测试，还包括如下步骤：

输入内窥镜图像，通过Scaleformer模型检测是否存在目标区域。

本发明的第二目的是这样实现的：所述系统包括：

数据获取单元，用于获取腹腔镜手术图片及视频数据，并生成腹腔镜分割数据库；

图像预处理单元，用于采用完美反射算法对原始内窥镜数据进行图像预处理，并采用letterbox方法修改图像尺寸；

语义分割网络构建单元，用于构建至少一个基于Scaleformer类算法的内窥镜图像语义分割网络；

数据集训练单元，用于采用生成的语义分割内窥镜数据集训练Scaleformer网络并保存模型；同时采用测试集数据进行实时测试；

图片传输单元，用于将模型部署至GPU模块上处理客户端传输的图片，并将分割结果返还至交互界面；

所述数据获取单元中，还设置有：

标注模块，用于采用CVAT标注腹腔镜手术图片及视频；

和/或，所述图像预处理单元中，还设置有：

第一生成模块，用于根据输入尺寸和原始输入图尺寸计算生成收缩比r；

第二生成模块，用于通过收缩比乘原图长宽实时生成尺寸缩放后的图像；

第一计算模块，用于计算收缩后图像中需要填补的面积，并实时填补像素；

第二计算模块，用于计算每个像素的R\G\B之和；按R+G+B值的大小生成其前比例R%的值，将其作为参考点的阈值T；

第三计算模块，用于对图像中的每个点，计算其中R+G+B值大于T的所有点的R\G\B分量的累积和的平均值；同时对每个点将像素进行量化；

和/或，所述语义分割网络构建单元中，还设置有：

获取解码模块，用于获取有用的细微分割任务相关信息；并通过聚类的decoder解码encoder信息；

绘制模块，用于于原图中绘制出分割结果掩码；

第一构建模块，用于构建CNN的局部特征与每个尺度下基于transformer的全局表示耦合的尺度内transformer模块；

和/或，所述数据集训练单元中，还设置有：

输入检测模块，用于输入内窥镜图像，通过Scaleformer模型检测是否存在目标区域。

本发明的第三目的是这样实现的：包括：处理器、存储器以及基于Scaleformer类算法的腹腔镜图像分割平台控制程序；

其中在所述的处理器执行所述的基于Scaleformer类算法的腹腔镜图像分割平台控制程序，所述的基于Scaleformer类算法的腹腔镜图像分割平台控制程序被存储在所述存储器中，所述的基于Scaleformer类算法的腹腔镜图像分割平台控制程序，实现所述的基于Scaleformer类算法的腹腔镜图像分割方法。

本发明的第四目的是这样实现的：所述计算机可读取存储介质存储有基于Scaleformer类算法的腹腔镜图像分割平台控制程序，所述的基于Scaleformer类算法的腹腔镜图像分割平台控制程序，实现所述的基于Scaleformer类算法的腹腔镜图像分割方法。

本发明通过方法获取腹腔镜手术图片及视频数据，并生成腹腔镜分割数据库；采用完美反射算法对原始内窥镜数据进行图像预处理，并采用letterbox方法修改图像尺寸；构建至少一个基于Scaleformer类算法的内窥镜图像语义分割网络；采用生成的语义分割内窥镜数据集训练Scaleformer网络并保存模型；同时采用测试集数据进行实时测试；将模型部署至GPU模块上处理客户端传输的图片，并将分割结果返还至交互界面；以及与所述方法相应的系统、平台以及存储介质；可以有效减少数据噪声，来有效提高腹腔镜检测模型性能，并且通过使用Scaleformer类分割算法来处理腹腔镜数据,以得到更准确的分割结果；通过在分割模型中引入极化自注意力机制PSA，可以优化算法分割能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于Scaleformer类算法的腹腔镜图像分割方法流程示意图；

图2为本发明一种基于Scaleformer类算法的腹腔镜图像分割方法之整体处理流程示意图；

图3为本发明一种基于Scaleformer类算法的腹腔镜图像分割方法之Scaleformer算法结构示意图；

图4为本发明一种基于Scaleformer类算法的腹腔镜图像分割系统架构示意图；

图5为本发明一种基于Scaleformer类算法的腹腔镜图像分割平台架构示意图；

图6为本发明一种实施例中计算机可读取存储介质架构示意图；

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为便于更好的理解本发明的目的、技术方案和优点更加清楚，下面结合附图和具体的实施方式对本发明作进一步说明，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。

本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

需要说明，若本发明实施例中有涉及方向性指示（诸如上、下、左、右、前、后……），则该方向性指示仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。其次，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

优选地，本发明一种基于Scaleformer类算法的腹腔镜图像分割方法应用在一个或者多个终端或者服务器中。所述终端是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程门阵列（Field－Programmable Gate Array，FPGA）、数字处理器（Digital Signal Processor，DSP）、嵌入式设备等。

所述终端可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端可以与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

本发明为实现一种基于Scaleformer类算法的腹腔镜图像分割方法、系统、平台及存储介质。

如图1所示，是本发明实施例提供的基于Scaleformer类算法的腹腔镜图像分割方法的流程图。

在本实施例中，所述基于Scaleformer类算法的腹腔镜图像分割方法，可以应用于具备显示功能的终端或者固定终端中，所述终端并不限定于个人电脑、智能手机、平板电脑、安装有摄像头的台式机或一体机等。

所述基于Scaleformer类算法的腹腔镜图像分割方法也可以应用于由终端和通过网络与所述终端进行连接的服务器所构成的硬件环境中。网络包括但不限于：广域网、城域网或局域网。本发明实施例的基于Scaleformer类算法的腹腔镜图像分割方法可以由服务器来执行，也可以由终端来执行，还可以是由服务器和终端共同执行。

例如，对于需要进行基于Scaleformer类算法的腹腔镜图像分割终端，可以直接在终端上集成本发明的方法所提供的基于Scaleformer类算法的腹腔镜图像分割功能，或者安装用于实现本发明的方法的客户端。再如，本发明所提供的方法还可以软件开发工具包（Software Development Kit，SDK）的形式运行在服务器等设备上，以SDK的形式提供基于Scaleformer类算法的腹腔镜图像分割功能的接口，终端或其他设备通过所提供的接口即可实现基于Scaleformer类算法的腹腔镜图像分割功能。

以下结合附图对本发明作进一步阐述。

如图1-6所示，本发明提供了一种基于Scaleformer类算法的腹腔镜图像分割方法，所述的方法包括如下步骤：

S1、获取腹腔镜手术图片及视频数据，并生成腹腔镜分割数据库；

S2、采用完美反射算法对原始内窥镜数据进行图像预处理，并采用letterbox方法修改图像尺寸；

S3、构建至少一个基于Scaleformer类算法的内窥镜图像语义分割网络；

S4、采用生成的语义分割内窥镜数据集训练Scaleformer网络并保存模型；同时采用测试集数据进行实时测试；

S5、将模型部署至GPU模块上处理客户端传输的图片，并将分割结果返还至交互界面。

所述获取腹腔镜手术图片及视频数据，并生成腹腔镜分割数据库，还包括如下步骤：

S11、采用CVAT标注腹腔镜手术图片及视频。

所述采用完美反射算法对原始内窥镜数据进行图像预处理，并采用letterbox方法修改图像尺寸，还包括如下步骤：

S21、根据输入尺寸和原始输入图尺寸计算生成收缩比r；

S22、通过收缩比乘原图长宽实时生成尺寸缩放后的图像；

S23、计算收缩后图像中需要填补的面积，并实时填补像素。

所述完美反射的算法的步骤包括如下：

S211、计算每个像素的R\G\B之和；按R+G+B值的大小生成其前比例R%的值，将其作为参考点的阈值T；

S212、对图像中的每个点，计算其中R+G+B值大于T的所有点的R\G\B分量的累积和的平均值；同时对每个点将像素进行量化。

所述构建至少一个基于Scaleformer类算法的内窥镜图像语义分割网络，还包括如下步骤：

S31、获取有用的细微分割任务相关信息；并通过聚类的decoder解码encoder信息；

S32、于原图中绘制出分割结果掩码。

S33、构建CNN的局部特征与每个尺度下基于transformer的全局表示耦合的尺度内transformer模块；

所述尺度内transformer模块获得的特征信息计算公式如下：

（1）

所述采用测试集数据进行实时测试，还包括如下步骤：

S41、输入内窥镜图像，通过Scaleformer模型检测是否存在目标区域。

具体地，在本发明实施例中，一种基于transformer的Scaleformer类算法完成腹腔镜图像语义分割的方法，对腹腔镜图像进行器官和组织以及器械等不同部分的分割，以更出色地完成腔镜手术操作系统中的对肿块的实时定位和注释信息，通过这样的方式为医生提供有用的参考结果有助于实现降低操作者术中误切血管、神经及破坏性切除。

首先，算法从数据处理入手，针对图像色彩差异问题影响模型精度出发，尝试了几种目前性能较好的白平衡方案，它们分别是：均值白平衡法，完美反射，灰度世界假设，基于图像分析的偏色检测及颜色校正方法和动态阈值算法。通过考虑处理速度，处理效果好坏等方面，我们最后选择了完美世界反射来处理本任务的原始腹腔镜数据。

另外，本文利用transformer块来建模全局表示。然而，这些纯粹基于transformer的架构往往无法实现令人满意的性能，因为在建模局部信息时缺乏空间感应偏差。由于提升小目标分割的关键点在于如何更好地结合尺度局部特征与全局表示。考虑到对象的空间差异和全局分布都是基本特征，设计了一个尺度内变换器，将基于空洞卷积的局部特征与每个尺度下基于transformer的全局表示耦合起来。通过这种方式，我们能够突出显示详细的空间信息（例如上下文提示）和长期相关性（例如位置提示）。其次，本方案中设计了一个空间感知的尺度变压器，考虑到通过下调采样操作，各种尺度的斑块之间存在空间的相关性。通过这种方式，我们关注这些空间感知的贴片之间的跨尺度相似性，这些贴片有效地以轻量级的方式学习了相互信息从而获得上下文信息，该变换器能够以简单有效的方式捕捉跨尺度相关性并解决复杂的尺度变化。

其次，关于本文使用的PSA注意力机制，为了解决同时对空间和通道建模时，如果不进行维度缩减，就会导致计算量、显存爆炸的问题。作者在PSA中采用了一种极化滤波（polarized filtering）的机制。类似于光学透镜过滤光一样，每个SA的作用都是用于增强或者削弱特征。（在摄影时，所有横向的光都会进行反射和折射。极化滤波的作用就是只允许正交于横向方向的光通过，以此来提高照片的对比度。原理是可以从两个结构看，首先是滤波（Filtering）：使得一个维度的特征（比如通道维度）完全坍塌，同时让正交方向的维度（比如空间维度）保持高分辨率。然后是High Dynamic Range（HDR）：首先在attention模块中最小的tensor上用Softmax函数来增加注意力的范围，然后再用Sigmoid函数进行动态的映射。

关于我们使用的Scaleformer类算法下面进行简单介绍，在使用transformer完成腹腔镜图像进行语义分割中，我们会面临2个问题，首先是实际腹腔镜数据存在数据多尺度问题，尤其是腹腔镜图像中的小面积肿块或微型设备在分割时困难度较高，其次是腹腔镜图像的超高分辨率导致的空间扁平像素特征的极大序列长度，这会阻碍像素特征和对象查询交叉注意学习，这会导致像素间的上下文信息不足。本方案基于上述问题，使用了能够有效解决问题的改进版Scaleformer类算法的模型。首先，针对第一个问题，本方案中从编码模块入手，通过transformer全局关联信息与cnn局部特征信息耦合，获得更全面的分割特征。而本方案中编码部分骨干网络中PSA中的ASPP模块能够较好的解决第二个问题，同时，在encoder-decoder设计中，将Scaleformer类算法作为编码器，利用 atrous卷积生成任意维度的特征，同时采用空洞空间卷积池化金字塔(atrous spatial pyramid pooling(ASPP))对所给定的输入以不同采样率的空洞卷积并行采样，相当于以多个比例捕捉图像的上下文。ASPP模块的应用是受SPP模块的启发，它能够通过不同尺度的卷积核对特征进行采样，能够准确、高效地对任意尺度的区域进行分类。总结一下，使用Scaleformer类算法提出了新的 encoder-decoder 结构，采用改进版耦合模型算法作为 encoder 模块，以及简单有效的decoder模块;值得注意的是，本方案将encoder中的原始卷积模块的替换为空洞卷积，目的是通过空洞卷积任意控制 encoder 模块特征图的分辨率，并充分考虑的速度和精度，这是原始的 encoder-decoder模块没有的使用的。

本发明框架的基本流程如下：

101，收集腹腔镜手术视频并对图片和视频，使用CVAT进行标注，得到腹腔镜分割数据库；

102，使用完美反射算法对原始内窥镜数据做图像预处理。

103，对数据集图像采用letterbox方法修改图像尺寸以满足网络的输入尺寸要求。

104，构建一个基于Scaleformer类算法的内窥镜图像语义分割网络。

105，用制作的语义分割内窥镜数据集训练Scaleformer网络并保存模型。

106，用测试集数据去测试，先输入内窥镜图像，通过Scaleformer模型检测是否有目标区域。

107，将模型部署到GPU模块上处理客户端传输的图片，并把分割结果返还至交互界面。

上述步骤中，语义分割网络(104)的实施细节为：

107，利用注意力机制对encoder中的Scaleformer得到的多尺度细粒度特征，以获得更多有用的细微分割任务相关信息。

108，通过基于聚类的decoder解码encoder信息。

109，在原图绘制出分割结果掩码。

完美世界反射的算法（102）的具体步骤如下：

1021，计算每个像素的R\G\B之和。

1022，按R+G+B值的大小计算出其前的比例R%的值作为参考点的的阈值T。

1023，对图像中的每个点，计算其中R+G+B值大于T的所有点的R\G\B分量的累积和的平均值。

1024，对每个点将像素进行量化，依赖比例r值选取而且对亮度最大区域不是白色的图像效果不佳。

Letterbox图像自适应方法（103）的具体步骤如下：

1031，通过网络要求输入尺寸和原始输入图尺寸计算收缩比r。

1032，通过收缩比乘原图长宽获得尺寸缩放后的图像。

1023，计算收缩后图像中需要填补的面积。

1024，填补像素。

Scaleformer类算法（104）的具体步骤如下：

1041，构建CNN的局部特征与每个尺度下基于transformer的全局表示耦合的尺度内transformer模块。初始变换器仅接收来自同一级的CNN分支的输入，而其他尺度内变换器块的输入包含来自先前变换器级的全局信息，以聚集细粒度细节和粗语义信息。

尺度内transformer模块获得的特征信息计算公式如下：

（1）

其中，i指transformer分支索引下采样层数，Nt代表transformer使用的数目，Down(.)指补丁嵌入函数，其通过步长为2的卷积运算实现，随后是批量归一化和ReLU激活函数。[.]指串联操作，Trans指尺度内transformer，包含了轻型双轴多头自注意力机制模块和增强型多层感知机。双轴多头自注意力机制包含行和列两个方向的MSA模块，计算公式如下：

其中，dk指自注意力机制输入维度，dmodel指输入图像像素块维度。Q指查询信息，K指键值，V指匹配度。下标rp指行，cp指列。

1042，通过下采样操作进行切片匹配。公式如下：

其中，

表示第j个切片的第i个尺度，flatten(.)指把

边形为

， [.]指串联操作。

1043，构建空间感知的跨尺度变换器，用于在多个尺度下的共识区域之间进行交互。计算公式如下：

其中，LN(.)指正则化操作，MLP指多层感知机，MSA指多头自注意力机制。

1044，利用比例分割将增强序列反转为根据拼接顺序的切片。

其中，split(.)指逆串联操作。

注意力机制PSA算法（107）的具体步骤如下：

1071，PSA通道分支，首先先用了卷积核将输入的特征X转换成了Q和V，其中Q的通道被完全压缩，而V的通道维度依旧保持在一个比较高的水平（也就是C/2）。因为Q的通道维度被压缩，如上面所说的那样，就需要通过HDR进行信息的增强，因此作者用Softmax对Q的信息进行了增强。然后将Q和K进行矩阵乘法，并在后面接上卷积核、LN将通道上C/2的维度升为C。最后用Sigmoid函数使得所有的参数都保持在0-1之间。权重计算公式如下：

1021，PSA通道分支，首先先用了卷积核将输入的特征X转换成了Q和V，其中Q的通道被完全压缩，而V的通道维度依旧保持在一个比较高的水平（也就是C/2）。因为Q的通道维度被压缩，如上面所说的那样，就需要通过HDR进行信息的增强，因此作者用Softmax对Q的信息进行了增强。然后将Q和K进行矩阵乘法，并在后面接上卷积核、LN将通道上C/2的维度升为C。最后用Sigmoid函数使得所有的参数都保持在0-1之间。权重计算公式如下：

其中Wz，Wv,Wq指1×1卷积，BN指批处理， RU指RELU激活层， SM指softmax。Fsm指softmax操作，σ1和σ2是两个张量重塑算子，θ1指通道之间的参数，X指输入特征，X ∈ Cin×H×W。

1072，通道注意力，Channel-only branch相似，模型先用了卷积核将输入的特征转换为了Q和V，其中，对于Q特征，作者还用了GlobalPooling对空间维度压缩；而V特征的空间维度则保持在一个比较大的水平（HxW）。由于Q的空间维度被压缩了，所以作者就用了Softmax对Q的信息进行增强。然后将Q和K进行矩阵乘法，然后接上reshape和Sigmoid使得所有的参数都保持在0-1之间。权重计算公式如下：

FGP=

其中，Wq和Wv分别是标准的1×1卷积layer，θ2是这些信道卷积的中间参数，σ1、σ2和σ3是三个整形算子，Fsm（·）指softmax操作，FGP（·）是一个全局池算子1073，整合，对于两个分支的结果，模型提出了两种融合的方式：并联和串联（先进行通道上的注意力，再进行空间上的注意力），得到通道和空间的输出Zch和Zsp：

Zch=

其中

指通道乘法，

指空间乘法运算。

1023，整合，对于两个分支的结果，模型提出了两种融合的方式：并联和串联（先进行通道上的注意力，再进行空间上的注意力），下标p指串联，s指并联。计算公式如下：

关于一种改进版的Scaleformer类的腹腔镜检测算法具体实施场景举例说明如下。

在临床腹腔镜手术场景下，基于语义分割的算法能够对实际场景下的腹腔镜图像自动分割，以辅助医生完成准确识别和标记人体躯干区域腹腔镜视频馈送中的组织和器官，这对于此类微创手术是有重大帮助的。

如借助腹腔镜完成终肿块切除。通过将本算法植入内窥镜设备，在内窥镜探测病体过程中，就能够实现对实现场景进行实时分割，实现关注器械使用和器官边缘信息及器官变化动向等。

具体地，基于完美反射算法的腹腔镜数据颜色改善方法

本发明设计了一种用于改善腹腔镜数据质量的方法。之前的方案通常使用传统的opencv算法对图像进行颜色改善，和现有方案相比，本方案的颜色恒常算法完美反射能获得更符合实际正常光照下的腹腔镜图像，图像明暗度调控更加合理，符合实际情况，有效去除了由于拍摄角度导致的过暗或者视线内过红导致的分割失误，因此模型能更好地获得分割相关特征，减少无效信息，所以本方案能有效改善来自多源图像分割任务的性能，实现了分割器鲁棒性提高。

基于改进版Scaleformer类算法的腹腔镜语义分割算法

本发明设计了一种改进版的Scaleformer类腹腔镜检测算法，相比于之前的原始版本Scaleformer类，本方案加入PSA注意力机制缓解了在语义分割系统中，encoder和decoder之间传递信息通路狭窄导致的信息损失过大的问题。首先，本文提出的Scaleformer类算法作为目前效果最好的语义分割模型是首次在腹腔镜领域进行尝试；同时，本方案在Scaleformer类算法原版基础上，将原始卷积层修改为空洞卷积，能有效减少计算量。另外，本方案使用双轴MSA，以抑制不太相关的信息，并快速识别显著部分，这是通过捕获行和列全局相关性实现的。加入了被证明对于语义分割模型有益的PSA注意力机制，在参数量增多极少的情况下，有效地调高我们模型的性能，这中尝试在腹腔镜计算机辅助算法中还没有人尝试，是具有创新性的。综上可知，本模型针对腹腔镜数据，有效地实现了对内窥镜图像场景分割。

为实现上述目的，本发明还提供一种基于Scaleformer类算法的腹腔镜图像分割系统，如图4所示，所述的系统具体包括：

所述数据获取单元中，还设置有：

标注模块，用于采用CVAT标注腹腔镜手术图片及视频；

所述图像预处理单元中，还设置有：

所述语义分割网络构建单元中，还设置有：

绘制模块，用于于原图中绘制出分割结果掩码；

所述数据集训练单元中，还设置有：

在本发明系统方案实施例中，所述的一种基于Scaleformer类算法的腹腔镜图像分割中涉及的方法步骤，具体细节已在上文阐述，此处不再赘述。

为实现上述目的，本发明还提供一种基于Scaleformer类算法的腹腔镜图像分割平台，如图5所示，包括：处理器、存储器以及基于Scaleformer类算法的腹腔镜图像分割平台控制程序；

其中在所述的处理器执行所述的基于Scaleformer类算法的腹腔镜图像分割平台控制程序，所述的基于Scaleformer类算法的腹腔镜图像分割平台控制程序被存储在所述存储器中，所述的基于Scaleformer类算法的腹腔镜图像分割平台控制程序，实现所述的基于Scaleformer类算法的腹腔镜图像分割方法步骤，例如：

步骤具体细节已在上文阐述，此处不再赘述。

本发明实施例中，所述的基于Scaleformer类算法的腹腔镜图像分割平台内置处理器，可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器（CentralProcessing unit，CPU）、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器利用各种接口和线路连接取各个部件，通过运行或执行存储在存储器内的程序或者单元，以及调用存储在存储器内的数据，以执行基于Scaleformer类算法的腹腔镜图像分割各种功能和处理数据；

存储器用于存储程序代码和各种数据，安装在基于Scaleformer类算法的腹腔镜图像分割平台中，并在运行过程中实现高速、自动地完成程序或数据的存取。

所述存储器包括只读存储器（Read-Only Memory，ROM），随机存储器（RandomAccess Memory，RAM）、可编程只读存储器（Programmable Read-Only Memory，PROM）、可擦除可编程只读存储器（Erasable Programmable Read-Only Memory，EPROM）、一次可编程只读存储器（One-time Programmable Read-Only Memory，OTPROM）、电子擦除式可复写只读存储器（Electrically-Erasable Programmable Read-Only Memory，EEPROM）、只读光盘（Compact Disc Read-Only Memory，CD-ROM）或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

为实现上述目的，本发明还提供一种计算机可读取存储介质，如图6所示，所述计算机可读取存储介质存储有基于Scaleformer类算法的腹腔镜图像分割平台控制程序，所述的基于Scaleformer类算法的腹腔镜图像分割平台控制程序，实现所述的基于Scaleformer类算法的腹腔镜图像分割方法步骤，例如：

步骤具体细节已在上文阐述，此处不再赘述。

在本发明的实施方式的描述中，需要说明的是，流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读取介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。

另外，计算机可读取介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

在本发明实施例中，为实现上述目的，本发明还提供一种芯片系统，所述芯片系统包括至少一个处理器，当程序指令在所述至少一个处理器中执行时，使得所述芯片系统执行所述的基于Scaleformer类算法的腹腔镜图像分割方法步骤，例如：

步骤具体细节已在上文阐述，此处不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

通过本发明方案有效减少数据噪声，来有效提高腹腔镜检测模型性能。本发明设计了一种基于白平衡的数据颜色处理方法。该方法通过白平衡方法让模型对内窥镜图像采集中不可避免的光照变化更具有鲁棒性，本方案采用了白平衡方法之一的完美反射作为本文的方案，以获得颜色均衡后的新数据。本方案克服了使用多源设备的导致的数据的颜色差异伪影干扰，实现了提高检测模型的检测性能。

通过使用Scaleformer类分割算法来处理腹腔镜数据,以得到更准确的分割结果。本发明设计了一种针对腹腔镜图像性能较好的语义分割算法。该算法针对腹腔镜图像的组织尺寸变化大的特点，设计的亮点是尺度内变换器和空间感知尺度间变换器，（1）设计了一种尺度内变换器，用于将基于CNN的局部特征与每个尺度中基于变换器的全局线索相耦合，其中行和列的全局相关性可以通过轻量级双轴多头自注意力机制(MSA)提取。（2）设计了一种简单有效的空间感知尺度间变换器，用于在多尺度下的共识区域之间进行交互。可以突出跨尺度相关性并解决复杂的尺度变化。Scaleformer类语义分割模型属于基于transformer语义分割，将其作为分割器，不仅克服了现有方案使用卷积网络的语义分割模型的上下文信息损失的局限，而且能针对之前基于transformer的语义分割体系在处理小目标时候的分割性能上的局限，从而提高腹腔镜图像分割质量。

通过在分割模型中引入极化自注意力机制PSA，可以优化算法分割能力。

本发明设计了一种改进版Scaleformer类算法的针对腹腔镜图像的分割算法。该算法针对腹腔镜数据高分辨率的特点，针对性地加入了极化自注意力机制，这是一种更加精细的双重注意力机制，作为一个即插即用的模块，可以帮助语义分割模型获得更多的有效上下文信息，从而实现性能提升。在Scaleformer类算法中加入这个模块后，能一定程度上弥补因为语义分割系统的encoder-decoder固有结构连接部分局限导致的像素级任务在通路中的信息损失，实现了更好地检测效果。

也就是说，通过本发明方案让模型鲁棒性更强：通过颜色恒常算法，让我们的模型能对现实场景中的内窥镜数据更具有鲁棒性，能有效提高模型检测精度。能够让模型的检测效果更好：加入PSA的Scaleformer类算法是一种表现更优的语义分割模型，在公共数据集VOC上已被证明其性能的绝对优势，因此，相比于常见的其他语义分割模型能对本任务腹腔镜数据有更好的分割效果。

即本发明通过方法获取腹腔镜手术图片及视频数据，并生成腹腔镜分割数据库；采用完美反射算法对原始内窥镜数据进行图像预处理，并采用letterbox方法修改图像尺寸；构建至少一个基于Scaleformer类算法的内窥镜图像语义分割网络；采用生成的语义分割内窥镜数据集训练Scaleformer网络并保存模型；同时采用测试集数据进行实时测试；将模型部署至GPU模块上处理客户端传输的图片，并将分割结果返还至交互界面；以及与所述方法相应的系统、平台以及存储介质；可以有效减少数据噪声，来有效提高腹腔镜检测模型性能，并且通过使用Scaleformer类分割算法来处理腹腔镜数据,以得到更准确的分割结果；通过在分割模型中引入极化自注意力机制PSA，可以优化算法分割能力。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于Scaleformer类算法的腹腔镜图像分割方法，其特征在于，所述方法，包括如下步骤：

2.根据权利要求1所述的一种基于Scaleformer类算法的腹腔镜图像分割方法，其特征在于，所述获取腹腔镜手术图片及视频数据，并生成腹腔镜分割数据库，还包括如下步骤：

采用CVAT标注腹腔镜手术图片及视频。

3.根据权利要求1所述的一种基于Scaleformer类算法的腹腔镜图像分割方法，其特征在于，所述采用完美反射算法对原始内窥镜数据进行图像预处理，并采用letterbox方法修改图像尺寸，还包括如下步骤：

根据输入尺寸和原始输入图尺寸计算生成收缩比r；

通过收缩比乘原图长宽实时生成尺寸缩放后的图像；

计算收缩后图像中需要填补的面积，并实时填补像素。

4.根据权利要求1或3所述的一种基于Scaleformer类算法的腹腔镜图像分割方法，其特征在于，所述完美反射的算法的步骤包括如下：

5.根据权利要求1所述的一种基于Scaleformer类算法的腹腔镜图像分割方法，其特征在于所述构建至少一个基于Scaleformer类算法的内窥镜图像语义分割网络，还包括如下步骤：

于原图中绘制出分割结果掩码；

所述采用测试集数据进行实时测试，还包括如下步骤：

6.根据权利要求1或5所述的一种基于Scaleformer类算法的腹腔镜图像分割方法，其特征在于，所述构建至少一个基于Scaleformer类算法的内窥镜图像语义分割网络，还包括如下步骤：

所述尺度内transformer模块获得的特征信息计算公式如下：

（1）

7.一种基于Scaleformer类算法的腹腔镜图像分割系统，其特征在于，所述系统包括：

数据集训练单元，用于采用生成的语义分割内窥镜数据集训练Scaleformer网络并保存模型，同时采用测试集数据进行实时测试；

图片传输单元，用于将模型部署至GPU模块上处理客户端传输的图片，并将分割结果返还至交互界面。

8.根据权利要求7所述的一种基于Scaleformer类算法的腹腔镜图像分割系统，其特征在于，所述数据获取单元中，还包括：

标注模块，用于采用CVAT标注腹腔镜手术图片及视频；

和/或，所述图像预处理单元中，还设置有：

和/或，所述语义分割网络构建单元中，还设置有：

绘制模块，用于原图中绘制出分割结果掩码；

和/或，所述数据集训练单元中，还设置有：

9.一种基于Scaleformer类算法的腹腔镜图像分割平台，其特征在于，包括：处理器、存储器以及基于Scaleformer类算法的腹腔镜图像分割平台控制程序；

其中在所述的处理器执行所述的基于Scaleformer类算法的腹腔镜图像分割平台控制程序，所述的基于Scaleformer类算法的腹腔镜图像分割平台控制程序被存储在所述存储器中，所述的基于Scaleformer类算法的腹腔镜图像分割平台控制程序，实现如权利要求1至6中任一项所述的基于Scaleformer类算法的腹腔镜图像分割方法。

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质存储有基于Scaleformer类算法的腹腔镜图像分割平台控制程序，所述的基于Scaleformer类算法的腹腔镜图像分割平台控制程序，实现如权利要求1至6中任一项所述的基于Scaleformer类算法的腹腔镜图像分割方法。