CN116503593A

CN116503593A - 一种基于深度学习的视网膜oct图像积液分割方法

Info

Publication number: CN116503593A
Application number: CN202310312181.0A
Authority: CN
Inventors: 李峰; 陈宇洋; 周军; 唐仕清; 张学典; 刘碧珊; 王昶茹
Original assignee: Shanghai Robot Industrial Technology Research Institute Co Ltd; University of Shanghai for Science and Technology
Current assignee: Shanghai Robot Industrial Technology Research Institute Co Ltd; University of Shanghai for Science and Technology
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-07-28

Abstract

本发明涉及一种基于深度学习的视网膜OCT图像积液分割方法，包括以下步骤：获取视网膜OCT图像；将所述视网膜OCT图像送入训练好的积液分割模型得到积液分割结果，其中，积液分割模型包括：特征提取网络，用于对视网膜OCT图像进行下采样操作得到高等级的全局语义特征图；注意力模块，用于生成通道以及空间等级的全局注意力特征图，并从全局注意力特征图中捕捉每种视网膜液体病变的不同特征，得到特征图；多尺度Transformer模块，用于探索具有长范围依赖关系的多尺度非局部特征；特征融合网络，用于将多尺度非局部特征进行上采样操作并逐级恢复，得到自动分割的结果。本发明能够提升视网膜OCT图像中积液的分割精度。

Description

一种基于深度学习的视网膜OCT图像积液分割方法

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于深度学习的视网膜OCT图像积液分割方法。

背景技术

黄斑水肿(ME)作为各类眼部疾病的并发症，例如年龄相关性黄斑变性(AMD)、糖尿病性黄斑水肿(DME)或视网膜静脉阻塞(RVO)，会导致患者视力受损，严重的会导致不可逆的失明。它通常以黄斑中不同类型的充满液体的病理为特征，表现为视网膜内积液(IRF)、视网膜下积液(SRF)和视网膜色素上皮脱离(PED)。传统的诊断方式是眼科医生利用光学相干断层扫描(OCT)图像对这些视网膜病理性液体进行分割和分析，以对ME进行诊断及对治疗效果进行评估。然而，手动分割是一项耗时、费力且主观的任务，既使是熟练的眼科医生也容易出错。因此，迫切需要开发自动的方法实现对OCT图像中的多种类型的视网膜液体的准确分割和定量分析。

各种基于OCT图像的视网膜积液自动分割算法，大致可分为图像处理方法、传统机器学习方法和深度学习方法。然而，基于图像处理的方法需要高质量的图像且不能自适应的应用于图像质量差异较大的数据集。传统的基于机器学习的分割方法过分依赖于人工制作的特征，对专业知识要求较高并且其泛化能力较弱。基于深度学习的方法可以自动从带有标注的视网膜OCT图像中学习病变特征表示，而无需人工制作病变特征。然而，使用传统的卷积神经网络(CNN)很难识别与视网膜病变液体相对应的更细微的具有判别性的特征，并且这些基于深度学习的分割模型会在数据分布不平衡时更多地关注于具有更多样本的视网膜液体类型。此外，由于CNN固有的局部感受野，使得这些方法在建模视网膜液体病变的多尺度长范围依赖关系时存在局限性，导致对纹理、形状和大小变化较大的视网膜液体区域的分割性能相对较弱。

发明内容

本发明所要解决的技术问题是提供一种基于深度学习的视网膜OCT图像积液分割方法，能够提升视网膜OCT图像中积液的分割精度。

本发明解决其技术问题所采用的技术方案是：提供一种基于深度学习的视网膜OCT图像积液分割方法，包括以下步骤：

获取视网膜OCT图像；

将所述视网膜OCT图像送入训练好的积液分割模型得到积液分割结果，其中，

所述积液分割模型包括：

特征提取网络，用于对所述视网膜OCT图像进行下采样操作得到高等级的全局语义特征图；

注意力模块，用于基于所述高等级的全局语义特征图生成通道以及空间等级的全局注意力特征图，并从全局注意力特征图中捕捉每种视网膜液体病变的不同特征，得到特征图；

多尺度Transformer模块，用于基于所述高等级的全局语义特征图和特征图探索具有长范围依赖关系的多尺度非局部特征；

特征融合网络，用于将多尺度非局部特征进行上采样操作并逐级恢复到与所述视网膜OCT图像相同分辨率的特征图，得到自动分割的结果。

所述特征提取网络包括四个VGG块，每个VGG块均包含若干个3x3卷积层和一个最大池化层；其中，第一个VGG块有两个3x3卷积层，第二个VGG块有两个3x3卷积层；第三个VGG块有四个3x3卷积层；第四个VGG块有四个3x3卷积层。

所述注意力模块包括级联的全局注意力子模块和类注意力子模块；所述全局注意力子模块用于学习与积液类型无关的全局注意力特征，并在所述视网膜OCT图像中保留与视网膜病变液体相关的细节，同时抑制噪声信息；所述类注意力子模块用于学习特定视网膜积液类型的病变特征，并扩大不同类型积液之间的病变差异。

所述全局注意力子模块通过计算出通道和空间等级的注意力特征图，其中，F_{c_attention}表示通道等级的全局注意力特征图，F_{s_attention}表示空间等级的全局注意力特征图，F_{GAM_IN}表示高等级的全局语义特征图，σ(·)表示Sigmoid函数，GAP(·)表示全局平均池化操作，Conv2(·)表示两次卷积操作，C_GAP(·)表示跨通道平均池化操作，/>表示元素等级乘法运算。

所述类注意力子模块将输入的特征图F_{TAM_IN}通过核大小1x1的卷积层产生特征图F′∈R^H×W×nL，其中，H，W和C分别表示特征图的高度、宽度和通道的数量，R表示实数集，n表示识别每一种视网膜液体病变类型所需要的通道数量；在训练的过程中随机移除一半的特征，得到特征图F″∈R^H×W×nL；在进行推理的过程中，所有的n个特征图都被采用，并通过计算每种视网膜液体病变类型的得分，其中，S_i表示每种视网膜液体病变类型的得分，GMP(·)表示全局最大池化操作，f″_i,j表示特征图F″∈R^H×W×nL中第i种视网膜液体病变类型的第j个特征图；通过对特征图F′∈R^H×W×nL进行类等级的跨通道平均池化操作得到每种病变等级的特征图F′_{i_avg}，通过/>计算类注意力权重矩阵ATT_TAM，通过/>计算类注意力子模块输出的特征图F_{TAM_OUT}。

所述多尺度Transformer模块将所述特征提取网络的各层的特征图依次输入下采样模块和3×3卷积层得到多个下采样图，并使用元素等级的求和操作将多个下采样图合并得到多尺度特征图F_Agg，将多尺度特征图F_Agg和所述注意力模块的输出的特征图F_{GL_OUT}送入多头自注意力块；在多头自注意力块中采用多尺度特征图F_Agg作为查询分支的输入，利用特征图F_{GL_OUT}作为键和值分支的输入，在特征图F_{GL_OUT}的引导下，从多尺度特征图F_Agg中得到多尺度的非局部特征图F_{MS_NL_EM}；将多尺度的非局部特征图F_{MS_NL_EM}输入至Transformer块中提取全局上下文信息，生成具有长距离交互的多尺度非局部特征。

所述多头自注意力块采用1×1卷积运算来计算查询Q、键K和值V分支的权重，以将多尺度特征图F_Agg编码为Q、将特征图F_{GL_OUT}编码为K和V；利用可学习参数分别从水平方向和垂直方向对特征位置进行编码；计算查询Q和键K之间的相似矩阵En，通过编码后的特征位置和查询Q之间的矩阵乘法对查询Q中的特征的水平和垂直方向的位置关系PosR进行编码；通过对相似矩阵En和位置关系PosR进行元素等级的求和与softmax运算，得到注意力图MS_ATT；对注意力图MS_ATT和相应的值V进行加权求和运算得到强全局语义多尺度非局部空间特征图F_{MS_NL}；通过特征图F_{GL_OUT}和强全局语义多尺度非局部空间特征图F_{MS_NL}的元素等级的加权求和，计算出多尺度的非局部特征图F_{MS_NL_EM}。

所述Transformer块为包含8层的多头自注意力和多层感知机的Tranformer编码器，所述Tranformer编码器表达式为：其中，LN(·)表示层归一化操作，MSA(·)表示多头自注意力操作，MLP(·)表示多层感知操作，z_L为第l层的具有长距离交互的多尺度非局部特征。

所述特征融合网络对多尺度非局部特征进行上采样操作并与相同等级的编码器特征通过跳跃连接进行拼接，其中，所述编码器包括级联的上采样层、特征融合操作层和由两个卷积层构成的卷积模块。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明中的全局-局部注意力模块能够从位置、大小和形状变化较大的视网膜液体中挖掘更丰富的有判别性的特征细节，有效减少无用的噪声信息和数据分布不平衡带来的影响。本发明中的多尺度Transformer模块可以探索来自特征提取网络不同层输出的具有长范围依赖关系的多尺度非局部特征表示。本发明借鉴CNN和Transformer模块互补的优点，将全局-局部注意力模块和多尺度Transformer模块相结合，充分利用全局-局部注意力模块提取的细粒度特征和多尺度Transformer模块编码的具有长范围依赖关系的多尺度非局部特征表示，实现了更加精准的视网膜OCT积液分割。

附图说明

图1是本发明实施方式中积液分割模型的方框图；

图2是本发明实施方式中特征提取网络的示意图；

图3是本发明实施方式中注意力模块的示意图；

图4是本发明实施方式中多尺度Transformer模块的示意图；

图5是本发明实施方式在Kermany数据集上与现有技术的性能对比结果图；

图6是本发明实施方法与现有技术的视网膜OCT图像积液分割结果对比结果图；

图7是本发明实施方法与现有技术的泛化性能对比结果图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种基于深度学习的视网膜OCT图像积液分割方法，包括以下步骤：

步骤1，获取视网膜OCT图像；

步骤2，将所述视网膜OCT图像送入训练好的积液分割模型得到积液分割结果。

其中，如图1所示，积液分割模型包括：

注意力模块，用于基于所述高等级的全局语义特征图生成通道以及空间等级的全局注意力特征图，以保留图像中的细微病变，消除图像中无关的噪声信息，并从全局注意力特征图中捕捉每种视网膜液体病变的不同特征，得到特征图；

本实施方式中的特征提取网络采用VGG19网络，如图2所示，由四个VGG块组成，每个VGG块均包含若干个3x3卷积层和一个最大池化层；其中，第一个VGG块有两个3x3卷积层，卷积后的通道数由3变为64；第二个VGG块有两个3x3卷积层，输出通道数为128；第三个VGG块有四个3x3卷积层，输出通道数为256；第四个VGG块有四个3x3卷积层，输出通道数为512。在经过四个VGG块后得到高等级的全局语义特征图。

本实施方式中的注意力模块包括级联的全局注意力子模块和类注意力子模块；所述全局注意力子模块用于学习与积液类型无关的全局注意力特征，并在所述视网膜OCT图像中保留与视网膜病变液体相关的细节，同时抑制噪声信息；所述类注意力子模块用于学习特定视网膜积液类型的病变特征，并扩大不同类型积液之间的病变差异。

如图3所示，全局注意力子模块采用了单分支的结构，将通道注意力和空间注意力进行级联。首先，从VGG-19主干中的最后的卷积层获得特征图F∈R^H×W×C，其中，H，W和C分别表示特征图的高度、宽度和通道的数量，R表示实数集。然后，全局注意力子模块将特征F∈R^H×W×C作为输入，学习视网膜液体类型无关的全局注意力特征图。最终，通过以下公式计算出通道等级的注意力特征图F_{c_attention}和空间等级的注意力特征图F_{s_attention}。

其中，F_{GAM_IN}表示高等级的全局语义特征图，σ(·)表示Sigmoid函数，GAP(·)表示全局平均池化操作，Conv2(·)表示两次卷积操作，C_GAP(·)表示跨通道平均池化操作，表示元素等级乘法运算。令F_{GAM_OUT}＝F_{s_attention}表示全局注意力子模块的输出，它进一步用作类注意力子模块的输入，以生成具有特定视网膜积液病变类型的注意力特征图。

类注意力子模块的输入特征图F_{TAM_IN}∈R^H×W×C通过核大小1x1的卷积层以产生特征图F′∈R^H×W×nL，其中，n表示识别每一种视网膜液体病变类型所需要的通道数量。为了让属于相同视网膜液体病变类型的n个特征图学习不同的有辨识性的液体区域，在训练的过程中随机移除了一半的特征，从而得到特征图F″∈R^H×W×nL。在进行推理的过程中，所有的n个特征图都被采用。随后，可以计算每种视网膜液体病变类型的得分S＝{S₁,S₂,S₃}，其计算过程如下：

其中，S_i表示每种视网膜液体病变类型的得分，确定了每种类型的特征图的重要程度，GMP(·)表示全局最大池化操作，f″_i,j表示特征图F″∈R^H×W×nL中第i种视网膜液体病变类型的第j个特征图。

通过对特征图F′∈R^H×W×nL进行类等级的跨通道平均池化操作得到每种病变等级的特征图，其计算过程如下：

其中，f′_i,j表示特征图F′∈R^H×W×nL中第i种视网膜液体病变类型的第j个特征图，F′_{i_avg}描述了属于第i种液体类型的语义特征图。通过下述式子可以计算得到类注意力权重矩阵ATT_TAM：

类注意力权重矩阵ATT_TAM强调了有助于不同类型视网膜液体分割的有判别性的区域。最终，计算得到类注意力子模块输出的特征图F_{TAM_OUT}：

本实施方式中多尺度Transformer模块可以从注意力模块各层的输出中捕捉具有长范围依赖关系的多尺度非局部特征。如图4所示，多尺度Transformer模块用于将特征提取网络的特征图(F_Stage1、F_Stage2、F_Stage3)和注意力模块输出的特征图(F_{GL_OUT}＝F_{TAM_OUT})作为输入，其中F_Stage1、F_Stage2和F_Stage3依次输入下采样模块和3×3卷积层。随后，使用元素等级的求和操作合并这些下采样的特征图，得到多尺度特征图F_Agg，并将其和注意力模块输出特征图F_{GL_OUT}进一步送入多头自注意力块，以获得具有长范围关联的多尺度非局部特征信息。在多头自注意力块中，采用多尺度特征图F_Agg作为查询分支的输入，同时利用强语义全局特征图F_{GL_OUT}作为键和值分支的输入。在特征图F_{GL_OUT}的引导下，可以从特征图F_Agg中得到多尺度的非局部特征图F_{MS_NL_EM}。最后，将这些特征图F_{MS_NL_EM}输入到Transformer块中，进一步提取全局上下文信息，生成更丰富的具有长距离交互的多尺度非局部特征。该多尺度Transformer模块中的多头自注意力块和Transformer块的操作由以下六个步骤组成，具体如下：

首先，采用1×1卷积运算来计算查询Q、键K和值V分支的权重，以将多尺度特征图F_Agg编码为Q、将特征图F_{GL_OUT}编码为K和V。同时，将查询Q、键K的通道数设置为以压缩通道特征，提升模型的效率：

Q＝Conv1×1(F_Agg)∈R^B,C/8,H,W

K＝Conv1×1(F_{GL_OUT})∈R^B,C/8,H,W

V＝Conv1×1(F_{GL_OUT})∈R^B,C,H,W

其中，B表示批大小，C、H和W分别表示特征图的通道数、高度和宽度；

其次，利用可学习参数分别从水平和垂直方向对特征位置进行编码，使模型能够专注于特征位置的长范围交互：

PosE＝Reshape(r_h)+Reshape(r_w)∈R^B,C/8,H,W

其中，r_h和r_w分别对应于水平和垂直方向的编码可学习参数；

接下来，计算查询Q和键K之间的相似矩阵En，以建立基于强全局语义信息的多尺度非局部空间关联。之后，通过PosE和查询Q之间的矩阵乘法对查询Q中的特征的水平和垂直方向的位置关系PosR进行编码。最终，通过对相似矩阵En和位置关系PosR进行元素等级的求和与softmax运算，可以获得注意力图MS_ATT。上述过程可以表达为如下式子：

Q＝Reshape(Q)∈R^B,C/8,H×W

K＝Reshape(K)∈R^B,C/8,H×W

MS_ATT＝Softmax(En+PosR)∈R^B,H×W,H×W

其中，Q^T表示Q的转置，表示矩阵乘法运算。

随后，对注意力图MS_ATT和相应的值V进行加权求和运算，得到了强全局语义多尺度非局部空间特征图F_{MS_NL}，可以表示为：

进一步地，通过特征图F_{GL_OUT}和强全局语义多尺度非局部空间特征图F_{MS_NL}的元素等级的加权求和，可以计算出多尺度非局部特征图F_{MS_NL_EM}，表达如下：

F_{MS_NL_EM}＝F_{GL_OUT}+γF_{MS_NL}∈R^B,C,W,H

其中，γ是一个可学习的参数，初始值为0；

最后，将得到的多尺度非局部特征图输入到包含8层的Tranformer编码器中，Tranformer编码器由多头自注意力(MSA)和多层感知机(MLP)构成，并将补丁嵌入应用于从特征图F_{MS_NL_EM}提取的每个补丁，得到N个补丁的位置矩阵。因此，第l层的输出可以表示为：

其中，LN(·)表示层归一化操作，MSA(·)表示多头自注意力操作，MLP(·)表示多层感知操作，为第l层的具有长距离交互的多尺度非局部特征，P是每个补丁的大小，D表示维度数。

本实施方式的特征融合网络对多尺度非局部特征进行上采样操作并与相同等级的编码器特征通过跳跃连接进行拼接，补偿网络在下采样过程中损失的细节信息，逐级恢复到与原始图像相同的高分辨率的特征图，最终得到自动分割的结果。

特征融合的解码器模块主要由三部分组成，包括上采样层、特征融合操作和由两个卷积层构成的卷积模块，它们以级联的方式相连。该模块主要用于逐步恢复由特征提取网络、注意力模块和多尺度Transformer模块构成的编码器中产生的具有多尺度非局部全局上下文特征的空间信息。具体地说，首先将隐藏特征重塑为/>然后，采用特征融合的解码模块将特征图的分辨率从/>调整到H×W。特征融合的解码器模块与混合CNN和多尺度Transformer组成的编码器模块一起形成成了一个U形架构，使输出得具有长范围依赖性的多尺度非局部特征信息通过跳跃连接在不同的分辨率等级与对应的编码器特征进行融合，提高了模型分割视网膜液体病变的能力。

不难发现，本发明通过引入全局-局部注意力模块和多尺度Transformer模块，并将这些模块与U形网络相结合，以深入挖掘更具辨识性的视网膜液体病变特征详情，有效改善数据分布不平衡带来的问题，学习具有长距离依赖关系的多尺度非局部特征表示，提升视网膜OCT图像中积液的分割精度。

本实施方式中模型的训练以及测试数据集使用的是公开的Kermany数据集，将数据集图片划分为内部训练、验证、以及测试集。进一步的，为了验证网络的泛化性，该方法在公开的DUKE数据集以及UMN数据集进行了测试。模型的训练以及测试过程均使用Pytorch平台，在训练期间，将输入图像的分辨率缩放为224x 224，并将补丁大小设置为16。使用初始学习率为0.001和权重衰减因子为0.0001的Adam优化器来优化我们的模型。此外，该模型在Kermany数据集进行了150轮训练，批次大小为2。

为了定量评估模型分割视网膜积液的性能，将本实施方式的基于深度学习的视网膜OCT图像积液分割方法与其他现有技术的方法进行了比较，包括FCN(全卷积网络)、U-Net(由用于捕获上下文的编码器路径和用于实现精确定位的解码器路径组成的U型网络)、U-Net++(基于U-Net改进的深度监督编解码网络)、Attention U-Net(引入注意力机制的U-Net)、CE-Net(上下文编码网络)和Y-Net(使用频域特征与图像域相结合的编码器的Y型网络)。采用四种常用指标对实验结果进行定量分析，包括骰子相似系数(Dice)、交并比(IoU)、灵敏度(Sen)和精确度(Pre)。这些评估指标定义如下：

其中，TP、TN、FP和FN分别表示像素类别的真阳性、真阴性、假阳性和假阴性

从图5可以看出，在Kermany数据集上实施的实验中，与这些现有技术的方法相比，本实施方式几乎在所有评估指标上都取得了最好的结果，其Dice、IoU、Sen和Pre的平均值分别达到0.8395、0.7657、0.8631和0.8202。

图6从定性分析的角度展示了FCN、U-Net、U-Net++、Attention U-Net、CE-Net、Y-Net等网络对视网膜OCT图片内积液和下积液的分割结果。FCN很难区分微小的视网膜病变区域，无法预测模糊的病变边界。U-Net和CE-Net分割了不相关的积液区域；Attention U-Net分割结果相对准确，但仍然出现了一些不相关的小尺寸病变区域；U-Net++和Y-Net对于细微的视网膜病理积液仍然存在过度分割或分割不足的情况。与这些现有技术相比，本实施方式能够学习具有长依赖信息的多尺度微小视网膜病变积液相关的非局部特征，并且在噪声干扰的影响下产生更好的分割性能。

为了验证所提出模型的泛化能力，并测试其临床使用的潜力，该模型仅在主数据集Kermany上进行训练，并在辅助数据集UMN数据集和DUKE数据集上进行测试。通过比较Dice指标来衡量所提出的方法与几种现有技术的深度学习方法的性能。从图7可以看出，与其他方法相比，本实施方式的方法在不同数据集交叉验证时，对两种类型的视网膜病变积液(内积液和下积液)提供了最佳分割性能，这表明本方法具有良好的泛化性。

Claims

1.一种基于深度学习的视网膜OCT图像积液分割方法，其特征在于，包括以下步骤：

获取视网膜OCT图像；

所述积液分割模型包括：

2.根据权利要求1所述的基于深度学习的视网膜OCT图像积液分割方法，其特征在于，所述特征提取网络包括四个VGG块，每个VGG块均包含若干个3x3卷积层和一个最大池化层；其中，第一个VGG块有两个3x3卷积层，第二个VGG块有两个3x3卷积层；第三个VGG块有四个3x3卷积层；第四个VGG块有四个3x3卷积层。

3.根据权利要求1所述的基于深度学习的视网膜OCT图像积液分割方法，其特征在于，所述注意力模块包括级联的全局注意力子模块和类注意力子模块；所述全局注意力子模块用于学习与积液类型无关的全局注意力特征，并在所述视网膜OCT图像中保留与视网膜病变液体相关的细节，同时抑制噪声信息；所述类注意力子模块用于学习特定视网膜积液类型的病变特征，并扩大不同类型积液之间的病变差异。

4.根据权利要求3所述的基于深度学习的视网膜OCT图像积液分割方法，其特征在于，所述全局注意力子模块通过计算出通道和空间等级的注意力特征图，其中，F_{c_attention}表示通道等级的全局注意力特征图，F_{s_attention}表示空间等级的全局注意力特征图，F_{GAM_IN}表示高等级的全局语义特征图，σ(·)表示Sigmoid函数，GAP(·)表示全局平均池化操作，Conv2(·)表示两次卷积操作，C_GAP(·)表示跨通道平均池化操作，/>表示元素等级乘法运算。

5.根据权利要求3所述的基于深度学习的视网膜OCT图像积液分割方法，其特征在于，所述类注意力子模块将输入的特征图F_{TAM_IN}通过核大小1x1的卷积层产生特征图F′∈R^H ^×W×nL，其中，H，W和C分别表示特征图的高度、宽度和通道的数量，R表示实数集，n表示识别每一种视网膜液体病变类型所需要的通道数量；在训练的过程中随机移除一半的特征，得到特征图F″∈R^H×W×nL；在进行推理的过程中，所有的n个特征图都被采用，并通过计算每种视网膜液体病变类型的得分，其中，S_i表示每种视网膜液体病变类型的得分，GMP(·)表示全局最大池化操作，f″_i,j表示特征图F″∈R^H×W×nL中第i种视网膜液体病变类型的第j个特征图；通过对特征图F′∈R^H×W×nL进行类等级的跨通道平均池化操作得到每种病变等级的特征图F′_{i_avg}，通过/>计算类注意力权重矩阵ATT_TAM，通过/>计算类注意力子模块输出的特征图F_{TAM_OUT}。

6.根据权利要求1所述的基于深度学习的视网膜OCT图像积液分割方法，其特征在于，所述多尺度Transformer模块将所述特征提取网络的各层的特征图依次输入下采样模块和3×3卷积层得到多个下采样图，并使用元素等级的求和操作将多个下采样图合并得到多尺度特征图F_Agg，将多尺度特征图F_Agg和所述注意力模块的输出的特征图F_{GL_OUT}送入多头自注意力块；在多头自注意力块中采用多尺度特征图F_Agg作为查询分支的输入，利用特征图F_{GL_OUT}作为键和值分支的输入，在特征图F_{GL_OUT}的引导下，从多尺度特征图F_Agg中得到多尺度的非局部特征图F_{MS_NL_EM}；将多尺度的非局部特征图F_{MS_NL_EM}输入至Transformer块中提取全局上下文信息，生成具有长距离交互的多尺度非局部特征。

7.根据权利要求6所述的基于深度学习的视网膜OCT图像积液分割方法，其特征在于，所述多头自注意力块采用1×1卷积运算来计算查询Q、键K和值V分支的权重，以将多尺度特征图F_Agg编码为Q、将特征图F_{GL_OUT}编码为K和V；利用可学习参数分别从水平方向和垂直方向对特征位置进行编码；计算查询Q和键K之间的相似矩阵En，通过编码后的特征位置和查询Q之间的矩阵乘法对查询Q中的特征的水平和垂直方向的位置关系PosR进行编码；通过对相似矩阵En和位置关系PosR进行元素等级的求和与softmax运算，得到注意力图MS_ATT；对注意力图MS_ATT和相应的值V进行加权求和运算得到强全局语义多尺度非局部空间特征图F_{MS_NL}；通过特征图F_{GL_OUT}和强全局语义多尺度非局部空间特征图F_{MS_NL}的元素等级的加权求和，计算出多尺度的非局部特征图F_{MS_NL_EM}。

8.根据权利要求6所述的基于深度学习的视网膜OCT图像积液分割方法，其特征在于，所述Transformer块包含8层的多头自注意力和多层感知机的Tranformer编码器，所述Tranformer编码器表达式为：其中，LN(·)表示层归一化操作，MSA(·)表示多头自注意力操作，MLP(·)表示多层感知操作，z_L为第l层的具有长距离交互的多尺度非局部特征。

9.根据权利要求1所述的基于深度学习的视网膜OCT图像积液分割方法，其特征在于，所述特征融合网络对多尺度非局部特征进行上采样操作并与相同等级的编码器特征通过跳跃连接进行拼接，其中，所述编码器包括级联的上采样层、特征融合操作层和由两个卷积层构成的卷积模块。