CN116503593A - 一种基于深度学习的视网膜oct图像积液分割方法 - Google Patents
一种基于深度学习的视网膜oct图像积液分割方法 Download PDFInfo
- Publication number
- CN116503593A CN116503593A CN202310312181.0A CN202310312181A CN116503593A CN 116503593 A CN116503593 A CN 116503593A CN 202310312181 A CN202310312181 A CN 202310312181A CN 116503593 A CN116503593 A CN 116503593A
- Authority
- CN
- China
- Prior art keywords
- attention
- feature map
- feature
- global
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000011218 segmentation Effects 0.000 title claims abstract description 49
- 210000001525 retina Anatomy 0.000 title claims abstract description 40
- 241000521257 Hydrops Species 0.000 title claims abstract description 19
- 206010030113 Oedema Diseases 0.000 title claims abstract description 19
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 230000003902 lesion Effects 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 239000007788 liquid Substances 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 208000017442 Retinal disease Diseases 0.000 claims description 23
- 206010038923 Retinopathy Diseases 0.000 claims description 23
- 230000002207 retinal effect Effects 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 7
- 230000036285 pathological change Effects 0.000 claims description 7
- 231100000915 pathological change Toxicity 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012014 optical coherence tomography Methods 0.000 description 26
- 206010063045 Effusion Diseases 0.000 description 18
- 239000012530 fluid Substances 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 208000001344 Macular Edema Diseases 0.000 description 3
- 206010025415 Macular oedema Diseases 0.000 description 3
- 201000010230 macular retinal edema Diseases 0.000 description 3
- 206010012688 Diabetic retinal oedema Diseases 0.000 description 2
- 206010064930 age-related macular degeneration Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 201000011190 diabetic macular edema Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 208000002780 macular degeneration Diseases 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 208000004644 retinal vein occlusion Diseases 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 201000004569 Blindness Diseases 0.000 description 1
- 206010025421 Macule Diseases 0.000 description 1
- 208000022873 Ocular disease Diseases 0.000 description 1
- 206010038848 Retinal detachment Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 239000012263 liquid product Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000004256 retinal image Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种基于深度学习的视网膜OCT图像积液分割方法,包括以下步骤:获取视网膜OCT图像;将所述视网膜OCT图像送入训练好的积液分割模型得到积液分割结果,其中,积液分割模型包括:特征提取网络,用于对视网膜OCT图像进行下采样操作得到高等级的全局语义特征图;注意力模块,用于生成通道以及空间等级的全局注意力特征图,并从全局注意力特征图中捕捉每种视网膜液体病变的不同特征,得到特征图;多尺度Transformer模块,用于探索具有长范围依赖关系的多尺度非局部特征;特征融合网络,用于将多尺度非局部特征进行上采样操作并逐级恢复,得到自动分割的结果。本发明能够提升视网膜OCT图像中积液的分割精度。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种基于深度学习的视网膜OCT图像积液分割方法。
背景技术
黄斑水肿(ME)作为各类眼部疾病的并发症,例如年龄相关性黄斑变性(AMD)、糖尿病性黄斑水肿(DME)或视网膜静脉阻塞(RVO),会导致患者视力受损,严重的会导致不可逆的失明。它通常以黄斑中不同类型的充满液体的病理为特征,表现为视网膜内积液(IRF)、视网膜下积液(SRF)和视网膜色素上皮脱离(PED)。传统的诊断方式是眼科医生利用光学相干断层扫描(OCT)图像对这些视网膜病理性液体进行分割和分析,以对ME进行诊断及对治疗效果进行评估。然而,手动分割是一项耗时、费力且主观的任务,既使是熟练的眼科医生也容易出错。因此,迫切需要开发自动的方法实现对OCT图像中的多种类型的视网膜液体的准确分割和定量分析。
各种基于OCT图像的视网膜积液自动分割算法,大致可分为图像处理方法、传统机器学习方法和深度学习方法。然而,基于图像处理的方法需要高质量的图像且不能自适应的应用于图像质量差异较大的数据集。传统的基于机器学习的分割方法过分依赖于人工制作的特征,对专业知识要求较高并且其泛化能力较弱。基于深度学习的方法可以自动从带有标注的视网膜OCT图像中学习病变特征表示,而无需人工制作病变特征。然而,使用传统的卷积神经网络(CNN)很难识别与视网膜病变液体相对应的更细微的具有判别性的特征,并且这些基于深度学习的分割模型会在数据分布不平衡时更多地关注于具有更多样本的视网膜液体类型。此外,由于CNN固有的局部感受野,使得这些方法在建模视网膜液体病变的多尺度长范围依赖关系时存在局限性,导致对纹理、形状和大小变化较大的视网膜液体区域的分割性能相对较弱。
发明内容
本发明所要解决的技术问题是提供一种基于深度学习的视网膜OCT图像积液分割方法,能够提升视网膜OCT图像中积液的分割精度。
本发明解决其技术问题所采用的技术方案是:提供一种基于深度学习的视网膜OCT图像积液分割方法,包括以下步骤:
获取视网膜OCT图像;
将所述视网膜OCT图像送入训练好的积液分割模型得到积液分割结果,其中,
所述积液分割模型包括:
特征提取网络,用于对所述视网膜OCT图像进行下采样操作得到高等级的全局语义特征图;
注意力模块,用于基于所述高等级的全局语义特征图生成通道以及空间等级的全局注意力特征图,并从全局注意力特征图中捕捉每种视网膜液体病变的不同特征,得到特征图;
多尺度Transformer模块,用于基于所述高等级的全局语义特征图和特征图探索具有长范围依赖关系的多尺度非局部特征;
特征融合网络,用于将多尺度非局部特征进行上采样操作并逐级恢复到与所述视网膜OCT图像相同分辨率的特征图,得到自动分割的结果。
所述特征提取网络包括四个VGG块,每个VGG块均包含若干个3x3卷积层和一个最大池化层;其中,第一个VGG块有两个3x3卷积层,第二个VGG块有两个3x3卷积层;第三个VGG块有四个3x3卷积层;第四个VGG块有四个3x3卷积层。
所述注意力模块包括级联的全局注意力子模块和类注意力子模块;所述全局注意力子模块用于学习与积液类型无关的全局注意力特征,并在所述视网膜OCT图像中保留与视网膜病变液体相关的细节,同时抑制噪声信息;所述类注意力子模块用于学习特定视网膜积液类型的病变特征,并扩大不同类型积液之间的病变差异。
所述全局注意力子模块通过计算出通道和空间等级的注意力特征图,其中,Fc_attention表示通道等级的全局注意力特征图,Fs_attention表示空间等级的全局注意力特征图,FGAM_IN表示高等级的全局语义特征图,σ(·)表示Sigmoid函数,GAP(·)表示全局平均池化操作,Conv2(·)表示两次卷积操作,C_GAP(·)表示跨通道平均池化操作,/>表示元素等级乘法运算。
所述类注意力子模块将输入的特征图FTAM_IN通过核大小1x1的卷积层产生特征图F′∈RH×W×nL,其中,H,W和C分别表示特征图的高度、宽度和通道的数量,R表示实数集,n表示识别每一种视网膜液体病变类型所需要的通道数量;在训练的过程中随机移除一半的特征,得到特征图F″∈RH×W×nL;在进行推理的过程中,所有的n个特征图都被采用,并通过计算每种视网膜液体病变类型的得分,其中,Si表示每种视网膜液体病变类型的得分,GMP(·)表示全局最大池化操作,f″i,j表示特征图F″∈RH×W×nL中第i种视网膜液体病变类型的第j个特征图;通过对特征图F′∈RH×W×nL进行类等级的跨通道平均池化操作得到每种病变等级的特征图F′i_avg,通过/>计算类注意力权重矩阵ATTTAM,通过/>计算类注意力子模块输出的特征图FTAM_OUT。
所述多尺度Transformer模块将所述特征提取网络的各层的特征图依次输入下采样模块和3×3卷积层得到多个下采样图,并使用元素等级的求和操作将多个下采样图合并得到多尺度特征图FAgg,将多尺度特征图FAgg和所述注意力模块的输出的特征图FGL_OUT送入多头自注意力块;在多头自注意力块中采用多尺度特征图FAgg作为查询分支的输入,利用特征图FGL_OUT作为键和值分支的输入,在特征图FGL_OUT的引导下,从多尺度特征图FAgg中得到多尺度的非局部特征图FMS_NL_EM;将多尺度的非局部特征图FMS_NL_EM输入至Transformer块中提取全局上下文信息,生成具有长距离交互的多尺度非局部特征。
所述多头自注意力块采用1×1卷积运算来计算查询Q、键K和值V分支的权重,以将多尺度特征图FAgg编码为Q、将特征图FGL_OUT编码为K和V;利用可学习参数分别从水平方向和垂直方向对特征位置进行编码;计算查询Q和键K之间的相似矩阵En,通过编码后的特征位置和查询Q之间的矩阵乘法对查询Q中的特征的水平和垂直方向的位置关系PosR进行编码;通过对相似矩阵En和位置关系PosR进行元素等级的求和与softmax运算,得到注意力图MS_ATT;对注意力图MS_ATT和相应的值V进行加权求和运算得到强全局语义多尺度非局部空间特征图FMS_NL;通过特征图FGL_OUT和强全局语义多尺度非局部空间特征图FMS_NL的元素等级的加权求和,计算出多尺度的非局部特征图FMS_NL_EM。
所述Transformer块为包含8层的多头自注意力和多层感知机的Tranformer编码器,所述Tranformer编码器表达式为:其中,LN(·)表示层归一化操作,MSA(·)表示多头自注意力操作,MLP(·)表示多层感知操作,zL为第l层的具有长距离交互的多尺度非局部特征。
所述特征融合网络对多尺度非局部特征进行上采样操作并与相同等级的编码器特征通过跳跃连接进行拼接,其中,所述编码器包括级联的上采样层、特征融合操作层和由两个卷积层构成的卷积模块。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明中的全局-局部注意力模块能够从位置、大小和形状变化较大的视网膜液体中挖掘更丰富的有判别性的特征细节,有效减少无用的噪声信息和数据分布不平衡带来的影响。本发明中的多尺度Transformer模块可以探索来自特征提取网络不同层输出的具有长范围依赖关系的多尺度非局部特征表示。本发明借鉴CNN和Transformer模块互补的优点,将全局-局部注意力模块和多尺度Transformer模块相结合,充分利用全局-局部注意力模块提取的细粒度特征和多尺度Transformer模块编码的具有长范围依赖关系的多尺度非局部特征表示,实现了更加精准的视网膜OCT积液分割。
附图说明
图1是本发明实施方式中积液分割模型的方框图;
图2是本发明实施方式中特征提取网络的示意图;
图3是本发明实施方式中注意力模块的示意图;
图4是本发明实施方式中多尺度Transformer模块的示意图;
图5是本发明实施方式在Kermany数据集上与现有技术的性能对比结果图;
图6是本发明实施方法与现有技术的视网膜OCT图像积液分割结果对比结果图;
图7是本发明实施方法与现有技术的泛化性能对比结果图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的实施方式涉及一种基于深度学习的视网膜OCT图像积液分割方法,包括以下步骤:
步骤1,获取视网膜OCT图像;
步骤2,将所述视网膜OCT图像送入训练好的积液分割模型得到积液分割结果。
其中,如图1所示,积液分割模型包括:
特征提取网络,用于对所述视网膜OCT图像进行下采样操作得到高等级的全局语义特征图;
注意力模块,用于基于所述高等级的全局语义特征图生成通道以及空间等级的全局注意力特征图,以保留图像中的细微病变,消除图像中无关的噪声信息,并从全局注意力特征图中捕捉每种视网膜液体病变的不同特征,得到特征图;
多尺度Transformer模块,用于基于所述高等级的全局语义特征图和特征图探索具有长范围依赖关系的多尺度非局部特征;
特征融合网络,用于将多尺度非局部特征进行上采样操作并逐级恢复到与所述视网膜OCT图像相同分辨率的特征图,得到自动分割的结果。
本实施方式中的特征提取网络采用VGG19网络,如图2所示,由四个VGG块组成,每个VGG块均包含若干个3x3卷积层和一个最大池化层;其中,第一个VGG块有两个3x3卷积层,卷积后的通道数由3变为64;第二个VGG块有两个3x3卷积层,输出通道数为128;第三个VGG块有四个3x3卷积层,输出通道数为256;第四个VGG块有四个3x3卷积层,输出通道数为512。在经过四个VGG块后得到高等级的全局语义特征图。
本实施方式中的注意力模块包括级联的全局注意力子模块和类注意力子模块;所述全局注意力子模块用于学习与积液类型无关的全局注意力特征,并在所述视网膜OCT图像中保留与视网膜病变液体相关的细节,同时抑制噪声信息;所述类注意力子模块用于学习特定视网膜积液类型的病变特征,并扩大不同类型积液之间的病变差异。
如图3所示,全局注意力子模块采用了单分支的结构,将通道注意力和空间注意力进行级联。首先,从VGG-19主干中的最后的卷积层获得特征图F∈RH×W×C,其中,H,W和C分别表示特征图的高度、宽度和通道的数量,R表示实数集。然后,全局注意力子模块将特征F∈RH×W×C作为输入,学习视网膜液体类型无关的全局注意力特征图。最终,通过以下公式计算出通道等级的注意力特征图Fc_attention和空间等级的注意力特征图Fs_attention。
其中,FGAM_IN表示高等级的全局语义特征图,σ(·)表示Sigmoid函数,GAP(·)表示全局平均池化操作,Conv2(·)表示两次卷积操作,C_GAP(·)表示跨通道平均池化操作,表示元素等级乘法运算。令FGAM_OUT=Fs_attention表示全局注意力子模块的输出,它进一步用作类注意力子模块的输入,以生成具有特定视网膜积液病变类型的注意力特征图。
类注意力子模块的输入特征图FTAM_IN∈RH×W×C通过核大小1x1的卷积层以产生特征图F′∈RH×W×nL,其中,n表示识别每一种视网膜液体病变类型所需要的通道数量。为了让属于相同视网膜液体病变类型的n个特征图学习不同的有辨识性的液体区域,在训练的过程中随机移除了一半的特征,从而得到特征图F″∈RH×W×nL。在进行推理的过程中,所有的n个特征图都被采用。随后,可以计算每种视网膜液体病变类型的得分S={S1,S2,S3},其计算过程如下:
其中,Si表示每种视网膜液体病变类型的得分,确定了每种类型的特征图的重要程度,GMP(·)表示全局最大池化操作,f″i,j表示特征图F″∈RH×W×nL中第i种视网膜液体病变类型的第j个特征图。
通过对特征图F′∈RH×W×nL进行类等级的跨通道平均池化操作得到每种病变等级的特征图,其计算过程如下:
其中,f′i,j表示特征图F′∈RH×W×nL中第i种视网膜液体病变类型的第j个特征图,F′i_avg描述了属于第i种液体类型的语义特征图。通过下述式子可以计算得到类注意力权重矩阵ATTTAM:
类注意力权重矩阵ATTTAM强调了有助于不同类型视网膜液体分割的有判别性的区域。最终,计算得到类注意力子模块输出的特征图FTAM_OUT:
本实施方式中多尺度Transformer模块可以从注意力模块各层的输出中捕捉具有长范围依赖关系的多尺度非局部特征。如图4所示,多尺度Transformer模块用于将特征提取网络的特征图(FStage1、FStage2、FStage3)和注意力模块输出的特征图(FGL_OUT=FTAM_OUT)作为输入,其中FStage1、FStage2和FStage3依次输入下采样模块和3×3卷积层。随后,使用元素等级的求和操作合并这些下采样的特征图,得到多尺度特征图FAgg,并将其和注意力模块输出特征图FGL_OUT进一步送入多头自注意力块,以获得具有长范围关联的多尺度非局部特征信息。在多头自注意力块中,采用多尺度特征图FAgg作为查询分支的输入,同时利用强语义全局特征图FGL_OUT作为键和值分支的输入。在特征图FGL_OUT的引导下,可以从特征图FAgg中得到多尺度的非局部特征图FMS_NL_EM。最后,将这些特征图FMS_NL_EM输入到Transformer块中,进一步提取全局上下文信息,生成更丰富的具有长距离交互的多尺度非局部特征。该多尺度Transformer模块中的多头自注意力块和Transformer块的操作由以下六个步骤组成,具体如下:
首先,采用1×1卷积运算来计算查询Q、键K和值V分支的权重,以将多尺度特征图FAgg编码为Q、将特征图FGL_OUT编码为K和V。同时,将查询Q、键K的通道数设置为以压缩通道特征,提升模型的效率:
Q=Conv1×1(FAgg)∈RB,C/8,H,W
K=Conv1×1(FGL_OUT)∈RB,C/8,H,W
V=Conv1×1(FGL_OUT)∈RB,C,H,W
其中,B表示批大小,C、H和W分别表示特征图的通道数、高度和宽度;
其次,利用可学习参数分别从水平和垂直方向对特征位置进行编码,使模型能够专注于特征位置的长范围交互:
PosE=Reshape(rh)+Reshape(rw)∈RB,C/8,H,W
其中,rh和rw分别对应于水平和垂直方向的编码可学习参数;
接下来,计算查询Q和键K之间的相似矩阵En,以建立基于强全局语义信息的多尺度非局部空间关联。之后,通过PosE和查询Q之间的矩阵乘法对查询Q中的特征的水平和垂直方向的位置关系PosR进行编码。最终,通过对相似矩阵En和位置关系PosR进行元素等级的求和与softmax运算,可以获得注意力图MS_ATT。上述过程可以表达为如下式子:
Q=Reshape(Q)∈RB,C/8,H×W
K=Reshape(K)∈RB,C/8,H×W
MS_ATT=Softmax(En+PosR)∈RB,H×W,H×W
其中,QT表示Q的转置,表示矩阵乘法运算。
随后,对注意力图MS_ATT和相应的值V进行加权求和运算,得到了强全局语义多尺度非局部空间特征图FMS_NL,可以表示为:
进一步地,通过特征图FGL_OUT和强全局语义多尺度非局部空间特征图FMS_NL的元素等级的加权求和,可以计算出多尺度非局部特征图FMS_NL_EM,表达如下:
FMS_NL_EM=FGL_OUT+γFMS_NL∈RB,C,W,H
其中,γ是一个可学习的参数,初始值为0;
最后,将得到的多尺度非局部特征图输入到包含8层的Tranformer编码器中,Tranformer编码器由多头自注意力(MSA)和多层感知机(MLP)构成,并将补丁嵌入应用于从特征图FMS_NL_EM提取的每个补丁,得到N个补丁的位置矩阵。因此,第l层的输出可以表示为:
其中,LN(·)表示层归一化操作,MSA(·)表示多头自注意力操作,MLP(·)表示多层感知操作,为第l层的具有长距离交互的多尺度非局部特征,P是每个补丁的大小,D表示维度数。
本实施方式的特征融合网络对多尺度非局部特征进行上采样操作并与相同等级的编码器特征通过跳跃连接进行拼接,补偿网络在下采样过程中损失的细节信息,逐级恢复到与原始图像相同的高分辨率的特征图,最终得到自动分割的结果。
特征融合的解码器模块主要由三部分组成,包括上采样层、特征融合操作和由两个卷积层构成的卷积模块,它们以级联的方式相连。该模块主要用于逐步恢复由特征提取网络、注意力模块和多尺度Transformer模块构成的编码器中产生的具有多尺度非局部全局上下文特征的空间信息。具体地说,首先将隐藏特征重塑为/>然后,采用特征融合的解码模块将特征图的分辨率从/>调整到H×W。特征融合的解码器模块与混合CNN和多尺度Transformer组成的编码器模块一起形成成了一个U形架构,使输出得具有长范围依赖性的多尺度非局部特征信息通过跳跃连接在不同的分辨率等级与对应的编码器特征进行融合,提高了模型分割视网膜液体病变的能力。
不难发现,本发明通过引入全局-局部注意力模块和多尺度Transformer模块,并将这些模块与U形网络相结合,以深入挖掘更具辨识性的视网膜液体病变特征详情,有效改善数据分布不平衡带来的问题,学习具有长距离依赖关系的多尺度非局部特征表示,提升视网膜OCT图像中积液的分割精度。
本实施方式中模型的训练以及测试数据集使用的是公开的Kermany数据集,将数据集图片划分为内部训练、验证、以及测试集。进一步的,为了验证网络的泛化性,该方法在公开的DUKE数据集以及UMN数据集进行了测试。模型的训练以及测试过程均使用Pytorch平台,在训练期间,将输入图像的分辨率缩放为224x 224,并将补丁大小设置为16。使用初始学习率为0.001和权重衰减因子为0.0001的Adam优化器来优化我们的模型。此外,该模型在Kermany数据集进行了150轮训练,批次大小为2。
为了定量评估模型分割视网膜积液的性能,将本实施方式的基于深度学习的视网膜OCT图像积液分割方法与其他现有技术的方法进行了比较,包括FCN(全卷积网络)、U-Net(由用于捕获上下文的编码器路径和用于实现精确定位的解码器路径组成的U型网络)、U-Net++(基于U-Net改进的深度监督编解码网络)、Attention U-Net(引入注意力机制的U-Net)、CE-Net(上下文编码网络)和Y-Net(使用频域特征与图像域相结合的编码器的Y型网络)。采用四种常用指标对实验结果进行定量分析,包括骰子相似系数(Dice)、交并比(IoU)、灵敏度(Sen)和精确度(Pre)。这些评估指标定义如下:
其中,TP、TN、FP和FN分别表示像素类别的真阳性、真阴性、假阳性和假阴性
从图5可以看出,在Kermany数据集上实施的实验中,与这些现有技术的方法相比,本实施方式几乎在所有评估指标上都取得了最好的结果,其Dice、IoU、Sen和Pre的平均值分别达到0.8395、0.7657、0.8631和0.8202。
图6从定性分析的角度展示了FCN、U-Net、U-Net++、Attention U-Net、CE-Net、Y-Net等网络对视网膜OCT图片内积液和下积液的分割结果。FCN很难区分微小的视网膜病变区域,无法预测模糊的病变边界。U-Net和CE-Net分割了不相关的积液区域;Attention U-Net分割结果相对准确,但仍然出现了一些不相关的小尺寸病变区域;U-Net++和Y-Net对于细微的视网膜病理积液仍然存在过度分割或分割不足的情况。与这些现有技术相比,本实施方式能够学习具有长依赖信息的多尺度微小视网膜病变积液相关的非局部特征,并且在噪声干扰的影响下产生更好的分割性能。
为了验证所提出模型的泛化能力,并测试其临床使用的潜力,该模型仅在主数据集Kermany上进行训练,并在辅助数据集UMN数据集和DUKE数据集上进行测试。通过比较Dice指标来衡量所提出的方法与几种现有技术的深度学习方法的性能。从图7可以看出,与其他方法相比,本实施方式的方法在不同数据集交叉验证时,对两种类型的视网膜病变积液(内积液和下积液)提供了最佳分割性能,这表明本方法具有良好的泛化性。
Claims (9)
1.一种基于深度学习的视网膜OCT图像积液分割方法,其特征在于,包括以下步骤:
获取视网膜OCT图像;
将所述视网膜OCT图像送入训练好的积液分割模型得到积液分割结果,其中,
所述积液分割模型包括:
特征提取网络,用于对所述视网膜OCT图像进行下采样操作得到高等级的全局语义特征图;
注意力模块,用于基于所述高等级的全局语义特征图生成通道以及空间等级的全局注意力特征图,并从全局注意力特征图中捕捉每种视网膜液体病变的不同特征,得到特征图;
多尺度Transformer模块,用于基于所述高等级的全局语义特征图和特征图探索具有长范围依赖关系的多尺度非局部特征;
特征融合网络,用于将多尺度非局部特征进行上采样操作并逐级恢复到与所述视网膜OCT图像相同分辨率的特征图,得到自动分割的结果。
2.根据权利要求1所述的基于深度学习的视网膜OCT图像积液分割方法,其特征在于,所述特征提取网络包括四个VGG块,每个VGG块均包含若干个3x3卷积层和一个最大池化层;其中,第一个VGG块有两个3x3卷积层,第二个VGG块有两个3x3卷积层;第三个VGG块有四个3x3卷积层;第四个VGG块有四个3x3卷积层。
3.根据权利要求1所述的基于深度学习的视网膜OCT图像积液分割方法,其特征在于,所述注意力模块包括级联的全局注意力子模块和类注意力子模块;所述全局注意力子模块用于学习与积液类型无关的全局注意力特征,并在所述视网膜OCT图像中保留与视网膜病变液体相关的细节,同时抑制噪声信息;所述类注意力子模块用于学习特定视网膜积液类型的病变特征,并扩大不同类型积液之间的病变差异。
4.根据权利要求3所述的基于深度学习的视网膜OCT图像积液分割方法,其特征在于,所述全局注意力子模块通过计算出通道和空间等级的注意力特征图,其中,Fc_attention表示通道等级的全局注意力特征图,Fs_attention表示空间等级的全局注意力特征图,FGAM_IN表示高等级的全局语义特征图,σ(·)表示Sigmoid函数,GAP(·)表示全局平均池化操作,Conv2(·)表示两次卷积操作,C_GAP(·)表示跨通道平均池化操作,/>表示元素等级乘法运算。
5.根据权利要求3所述的基于深度学习的视网膜OCT图像积液分割方法,其特征在于,所述类注意力子模块将输入的特征图FTAM_IN通过核大小1x1的卷积层产生特征图F′∈RH ×W×nL,其中,H,W和C分别表示特征图的高度、宽度和通道的数量,R表示实数集,n表示识别每一种视网膜液体病变类型所需要的通道数量;在训练的过程中随机移除一半的特征,得到特征图F″∈RH×W×nL;在进行推理的过程中,所有的n个特征图都被采用,并通过计算每种视网膜液体病变类型的得分,其中,Si表示每种视网膜液体病变类型的得分,GMP(·)表示全局最大池化操作,f″i,j表示特征图F″∈RH×W×nL中第i种视网膜液体病变类型的第j个特征图;通过对特征图F′∈RH×W×nL进行类等级的跨通道平均池化操作得到每种病变等级的特征图F′i_avg,通过/>计算类注意力权重矩阵ATTTAM,通过/>计算类注意力子模块输出的特征图FTAM_OUT。
6.根据权利要求1所述的基于深度学习的视网膜OCT图像积液分割方法,其特征在于,所述多尺度Transformer模块将所述特征提取网络的各层的特征图依次输入下采样模块和3×3卷积层得到多个下采样图,并使用元素等级的求和操作将多个下采样图合并得到多尺度特征图FAgg,将多尺度特征图FAgg和所述注意力模块的输出的特征图FGL_OUT送入多头自注意力块;在多头自注意力块中采用多尺度特征图FAgg作为查询分支的输入,利用特征图FGL_OUT作为键和值分支的输入,在特征图FGL_OUT的引导下,从多尺度特征图FAgg中得到多尺度的非局部特征图FMS_NL_EM;将多尺度的非局部特征图FMS_NL_EM输入至Transformer块中提取全局上下文信息,生成具有长距离交互的多尺度非局部特征。
7.根据权利要求6所述的基于深度学习的视网膜OCT图像积液分割方法,其特征在于,所述多头自注意力块采用1×1卷积运算来计算查询Q、键K和值V分支的权重,以将多尺度特征图FAgg编码为Q、将特征图FGL_OUT编码为K和V;利用可学习参数分别从水平方向和垂直方向对特征位置进行编码;计算查询Q和键K之间的相似矩阵En,通过编码后的特征位置和查询Q之间的矩阵乘法对查询Q中的特征的水平和垂直方向的位置关系PosR进行编码;通过对相似矩阵En和位置关系PosR进行元素等级的求和与softmax运算,得到注意力图MS_ATT;对注意力图MS_ATT和相应的值V进行加权求和运算得到强全局语义多尺度非局部空间特征图FMS_NL;通过特征图FGL_OUT和强全局语义多尺度非局部空间特征图FMS_NL的元素等级的加权求和,计算出多尺度的非局部特征图FMS_NL_EM。
8.根据权利要求6所述的基于深度学习的视网膜OCT图像积液分割方法,其特征在于,所述Transformer块包含8层的多头自注意力和多层感知机的Tranformer编码器,所述Tranformer编码器表达式为:其中,LN(·)表示层归一化操作,MSA(·)表示多头自注意力操作,MLP(·)表示多层感知操作,zL为第l层的具有长距离交互的多尺度非局部特征。
9.根据权利要求1所述的基于深度学习的视网膜OCT图像积液分割方法,其特征在于,所述特征融合网络对多尺度非局部特征进行上采样操作并与相同等级的编码器特征通过跳跃连接进行拼接,其中,所述编码器包括级联的上采样层、特征融合操作层和由两个卷积层构成的卷积模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310312181.0A CN116503593A (zh) | 2023-03-27 | 2023-03-27 | 一种基于深度学习的视网膜oct图像积液分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310312181.0A CN116503593A (zh) | 2023-03-27 | 2023-03-27 | 一种基于深度学习的视网膜oct图像积液分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116503593A true CN116503593A (zh) | 2023-07-28 |
Family
ID=87320896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310312181.0A Pending CN116503593A (zh) | 2023-03-27 | 2023-03-27 | 一种基于深度学习的视网膜oct图像积液分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503593A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116664568A (zh) * | 2023-07-31 | 2023-08-29 | 山东大学 | 基于多可见光光谱oct影像的视网膜层分割方法及系统 |
-
2023
- 2023-03-27 CN CN202310312181.0A patent/CN116503593A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116664568A (zh) * | 2023-07-31 | 2023-08-29 | 山东大学 | 基于多可见光光谱oct影像的视网膜层分割方法及系统 |
CN116664568B (zh) * | 2023-07-31 | 2023-10-13 | 山东大学 | 基于多可见光光谱oct影像的视网膜层分割方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108734290B (zh) | 一种基于注意力机制的卷积神经网络构建方法及应用 | |
CN111738363B (zh) | 基于改进的3d cnn网络的阿尔茨海默病分类方法 | |
CN110807762B (zh) | 一种基于gan的视网膜血管图像智能分割方法 | |
CN110689543A (zh) | 基于注意机制的改进卷积神经网络脑肿瘤图像分割方法 | |
CN112446891B (zh) | 基于U-Net网络脑胶质瘤的医学图像分割方法 | |
CN111598894B (zh) | 基于全局信息卷积神经网络的视网膜血管图像分割系统 | |
CN108764342B (zh) | 一种对于眼底图中视盘和视杯的语义分割方法 | |
CN113569724B (zh) | 基于注意力机制和扩张卷积的道路提取方法及系统 | |
CN113610118B (zh) | 一种基于多任务课程式学习的青光眼诊断方法、装置、设备及方法 | |
CN114332462A (zh) | 一种针对大脑病变融入注意力机制的mri分割方法 | |
CN116757986A (zh) | 一种红外与可见光图像融合方法及装置 | |
CN111882516B (zh) | 一种基于视觉显著性和深度神经网络的图像质量评价方法 | |
CN112233017A (zh) | 一种基于生成对抗网络的病态人脸数据增强方法 | |
CN116503593A (zh) | 一种基于深度学习的视网膜oct图像积液分割方法 | |
CN115131503A (zh) | 一种虹膜三维识别的健康监测方法及其系统 | |
CN110992309B (zh) | 基于深层信息传递网络的眼底图像分割方法 | |
CN117292117A (zh) | 一种基于注意力机制的小目标检测方法 | |
KR20200083303A (ko) | 패치 정합을 이용한 학습 데이터 증가 장치 및 방법 | |
Gulati et al. | Comparative analysis of deep learning approaches for the diagnosis of diabetic retinopathy | |
CN117114076A (zh) | 一种基于自监督Graph-Transformer的多模态大脑网络重要区域识别方法 | |
CN115775252A (zh) | 一种基于全局局部级联的磁共振影像宫颈癌肿瘤分割方法 | |
CN114723937A (zh) | 一种基于核磁共振影像的血管周围间隙分类方法及系统 | |
Li et al. | A Multi-Category Brain Tumor Classification Method Bases on Improved ResNet50. | |
CN118097312B (zh) | 基于卷积神经网络和胶囊网络的乳腺超声图像的分类方法 | |
Bhandari et al. | Soft Attention Mechanism Based Network to Extract Blood Vessels From Retinal Image Modality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |