CN116309640A - 一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法 - Google Patents
一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法 Download PDFInfo
- Publication number
- CN116309640A CN116309640A CN202310277220.8A CN202310277220A CN116309640A CN 116309640 A CN116309640 A CN 116309640A CN 202310277220 A CN202310277220 A CN 202310277220A CN 116309640 A CN116309640 A CN 116309640A
- Authority
- CN
- China
- Prior art keywords
- network
- image
- level
- feature
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 45
- 210000004185 liver Anatomy 0.000 claims abstract description 49
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000003709 image segmentation Methods 0.000 claims abstract description 11
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 230000004044 response Effects 0.000 claims abstract description 7
- 238000001514 detection method Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 34
- 238000011176 pooling Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 11
- 238000000844 transformation Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 210000000056 organ Anatomy 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000005489 elastic deformation Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 206010019695 Hepatic neoplasm Diseases 0.000 description 5
- 238000001994 activation Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 208000014018 liver neoplasm Diseases 0.000 description 5
- 210000001519 tissue Anatomy 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 101100032893 Entamoeba histolytica RACD gene Proteins 0.000 description 1
- 101100523503 Oryza sativa subsp. japonica RAC5 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000005228 liver tissue Anatomy 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/60—Rotation of whole images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30056—Liver; Hepatic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Apparatus For Radiation Diagnosis (AREA)
Abstract
本发明提出一种基于多层级多注意力MLMA‑UNet网络的图像自动分割方法,解决现有技术计算复杂度高,分割性能低的问题,包括如下步骤:步骤一:获取肝脏CT图像数据集,并对CT图像进行预处理;步骤二:构建面向肝脏和肿瘤的多层级特征重校准网络分割模型,利用训练集训练所述模型,通过多层级提取全局和局部特征,重新校准聚合的多层级特征的通道响应;步骤三:调整多层级特征重校准网络分割模型的参数并多次训练,当模型的损失函数稳定收敛,得到稳定收敛的模型,利用测试集对训练好的模型进行测试,构建肝脏和肿瘤检测网络,获得肝脏和肿瘤分割结果,利用统计度量对所述网络性能进行评价。
Description
技术领域
本发明涉及于图像处理技术领域,具体是一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法。
背景技术
目标分割是图像处理中极为重要的组成部分,而肝脏和肿瘤的自动分割是肝脏诊断和治疗规划的重要步骤。在临床上,人工分割被认为是医学实践和研究的金标准,医学专家通过CT图像手工勾画肝脏和肿瘤区域。然而,肝脏和肿瘤的人工分割是一项繁重、易出错和耗时的工作,这可能会延误诊断过程。分割依赖于专家的知识和经验,这可能会导致错误的分割结果。基于这些原因,有必要提供一个网络框架,能够以临床可以接受的精度自动分割肝脏和肿瘤,并向医生提供可参考的意见,以便在更短的时间内更准确地得出结论。
目前研究者提出的几种针对CT图像的分割方法可以分为传统分割方法和深度学习算法。非机器学习算法包括阈值法、图割法、边缘分割法、模糊聚类法、小波变换法。上述算法的分割精度依赖于手工设计特征的好坏,然而到目前为止,还未有一种既简单又能使健康组织和病变组织具有足够区分度的特征。目前深度学习已经成功应用于包括肝脏肿瘤自动分割在内的多个领域。Li等人通过引入使用2D和3D Dense-UNet混合特征融合层来探索切片内和切片间特征。Pereira等人在肿瘤分割神经网络中使用多个小卷积核卷积层代替大卷积核卷积层的技术并获得成功。然而,目前基于深度学习的肝脏肿瘤分割技术计算复杂度高,分割性能低。
有鉴于此,需要提供一种新的图像分割方法,以期解决上述至少部分问题。
发明内容
为了解决目前深度学习技术在进行肝脏肿瘤分割时计算复杂度高,分割性能低的问题,本发明提供了一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法,应用于CT图像中肝脏和肿瘤的自动分割,具有多层级特征提取和特征重新标定的能力,具有较好的分割性能,其多层级特征提取能够捕捉到更详细的肝脏和肿瘤信息,能够以较小的分割误差分割复杂的肝实质和肿瘤。
本发明提供一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法,包括如下步骤:
步骤一:获取肝脏CT图像数据集,并对CT图像进行逐层预处理,统一CT图像的格式,并通过数据增强扩增CT图像数据集,将肝脏CT图像数据集分为训练集和测试集;
步骤二:构建面向肝脏和肿瘤的多层级特征重校准网络分割模型,利用训练集训练所述模型,包括训练肝脏分割和训练肿瘤分割,通过多层级提取全局和局部特征,重新校准聚合的多层级特征的通道响应;
步骤三:调整多层级特征重校准网络分割模型的参数并多次训练,当模型的损失函数稳定收敛,得到稳定收敛的模型,利用测试集对训练好的模型进行测试,构建肝脏和肿瘤检测网络,获得肝脏和肿瘤分割结果,利用统计度量对所述网络性能进行评价。
进一步的,步骤一的具体步骤包括:
步骤1.1:将512×512的CT图像降采样为256×256的CT图像,减少计算量;
步骤1.2:使用(100,400)HU值窗口将经过步骤1.1处理的CT图像中不相关的器官去除;
步骤1.3:将经过步骤1.2在[0,1]层级上进行归一化,提供更容易成比例的图像作为输入图像;
步骤1.4:将经过步骤1.3处理的CT图像进行旋转、缩放、平移、翻转和弹性变形等图像变换来增强CT图像。
进一步的,步骤二引入SE模块,实现了建模通道之间的相互依赖来自适应地重新校准通道级特征响应,加强了网络对关键通道信息的捕捉,具体的:
首先,将UNet中的3×3卷积替换成Res2Net瓶颈模块,将n个通道的3×3卷积滤波器替换成n个空洞卷积滤波器和多尺度池化层,Res2Net瓶颈模块在UNet模块上增添了2层残差单元结构,增加网络的感受野以捕获多尺度信息的同时不降低分辨率,提取更加细粒度的特征,提高分割的准确度;
然后,将SE模块嵌入Res2Net瓶颈模块,通过SE模块对特征进行细化,包括:将融合的多层级通道化为一维向量;通过SE模块对特征进行细化包括通过两个密集的层重新校准特征,并自动计算的输入通道的权重;利用输入的多层级特征对信道权值进行标度。
优选的,SE模块将融合的多层级通道化为一维向量具体包括如下步骤:
对从Res2Net模块中1×1卷积接收的大小为W×H×C的输入特征应用全局平均池化,其中,W表示输入特征水平方向的特征向量长度,H表示输入特征垂直方向的特征向量长度,C表示特征向量通道数,并将所有通道转换为一维向量,一维向量维度等于通道数C,全局平均池化表示大小为Rc的一维向量Z,对于C个通道中的任意一个通道,一维向量Z中的元素如下式:
ZC是输入CT图像特征Mc的变换特征的集合,为局部描述符的聚类,Mc(a,b)表示输入CT图像在c通道处坐标为(a,b)的特征向量,a,b分别为水平与垂直方向的对应坐标点,Fsqe()表示SE网络。
进一步的,输入通道沿高度方向和沿宽度方向的权重公式如下:
其中,Fh、Fw分别是沿高度h方向和宽度w方向的卷积变换,σ表示Sigmoid函数,gh、gw分别是沿高度方向和沿宽度方向的注意力权重,用于反映每个元素所感兴趣的对象是否存在与相对应的行与列中。
进一步的,引入CA模块,对特征进行细化,沿一个空间方向捕获远程依赖关系的同时沿另一个空间方向保留精确的位置信息,增强网络对特征的目标捕获能力,具体的:
分别采用横纵两个空间范围的卷积核(H,1)和(1,W)沿着水平方向和垂直方向编码,其中,W表示输入特征水平方向的特征向量长度,H表示输入特征垂直方向的特征向量长度,从而沿着水平方向和垂直方向特征聚合,获得精确位置信息,并通过激励函数充分捕捉通道之间的关系,以及水平或垂直任一空间方向的长距离依赖关系,有助于模型更精准地定位和识别感兴趣的对象,并且可以增强网络学习特征的表达能力。
优选的,使用聚合的信息来获取与通道相关的依赖项,采用了ReLU和Sigmoid激活函数的两层全连接的简单门机制来隔离信道,提高网络的泛化能力。
进一步的,步骤二采用混合损失函数训练网络加快函数收敛、减少网络过拟合,达到最佳性能点,混合损失函数的公式为:
其中,L表示混合损失函数,pi为样本预测为正的概率,gi表示样本的标签,N为体素数量,正类为1,负类为0,i表示CT图像中N个体素中的任意一个。
进一步的,步骤三中调整多层级特征重校准网络分割模型的参数的具体步骤包括:
步骤3.1:采用初始学习率为1×e-5的Adam优化器对网络进行训练,采用8个小批量训练网络,同时,使用1×e-4的权值衰减因子对网络权值进行正则化;
步骤3.2:对多层级特征重校准网络分割模型进行训练,每10个epoch保存一次模型,当曲线稳定持续20个epoch后,保存当前模型。
优选的,步骤三中利用统计度量对网络性能进行评价的具体为:
统计度量基于体积大小相似度和表面距离度量的性能指标,分别为骰子相似系数DSC、体积重叠误差VOE、相对绝对体积差RAVD。
与现有技术相比,本发明的有益效果:
为了解决目前深度学习技术在进行肝脏肿瘤分割时计算复杂度高,分割性能低的问题,本发明提供了一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法,应用于CT图像中肝脏和肿瘤的自动分割,具有多层级特征提取和特征重新标定的能力,具有较好的分割性能,其多层级特征提取能够捕捉到更详细的肝脏和肿瘤信息,能够以较小的分割误差分割复杂的肝实质和肿瘤。
1.本发明通过对肝脏CT图像数据进行了预处理以及数据增强,预处理加强了肝脏组织在CT图像中与周围组织的对比度以及灰度区别,便于网络对肝脏区域进行识别与特征提取。数据增强大大扩大了训练数据集,在增加训练量的同时也增加了网络的精确度和泛化性。
2.本发明通过将UNet中的3×3卷积替换成Res2Net瓶颈模块,在单个残差块内构造具有等级制的类似残差连接,使感受野在更细粒度级别上的变化能够捕获细节和全局特性,提高了网络神经网络的多尺度表示能力。
3.本发明通过SE模块,实现了建模通道之间的相互依赖来自适应地重新校准通道级特征响应,并在略微增加计算成本的情况下,加强了网络对关键通道信息的捕捉,对网络性能带来了显著的性能改进。
4.本发明通过CA模块,将通道注意分解为两个特征编码过程,分别沿着水平、垂直两个空间方向聚合特征。通过这种方式,实现了可以沿一个空间方向捕获远程依赖关系,同时可以沿另一个空间方向保留精确的位置信息,并增强了网络对肝脏和肿瘤的目标捕获能力。
5.本发明设计的混合损失函数,实现了深度进一步优化函数,加快函数收敛、减少网络过拟合,达到最佳性能点。
附图说明
图1示出了本发明的基于多层级多注意力MLMA-UNet网络的图像自动分割方法的流程图;
图2示出了本发明的基于多层级多注意力MLMA-UNet网络的图像自动分割方法的多层级多注意力MLMA-UNet网络框架图;
图3示出了本发明一实施例的测试训练中对肝脏和肿瘤分割的CT结果图;
图4示出了本发明的基于多层级多注意力MLMA-UNet网络的图像自动分割方法在不同样本量的统计显着性和显着性水平0.05的不同模型的p值。
具体实施方式
下面结合附图以及具体实施方法对本发明一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法作进一步详细说明。
本发明设计的一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法,其中,多层级多注意力表示为Multi-Level Multi-Attention,其中ML表示为Multi-Level多层级,对应了MLMA-UNet网络中的UNet和Res2Net瓶颈模块,多层级模块可以为网络提供更多有利于分割的信息,扩展网络的路径数,大大增加网络的性能,但难免会带来部分无效特征,导致分割误差;MA表示为Multi-Attention多注意力,对应了MLMA-UNet网络中的SE模块,CA模块。这两个注意力模块可以更好的帮助网络分别从通道与空间两个方面关注肝脏与肿瘤的特征信息,并减少多层级带来的特征冗余现象。
步骤一:获取公开肝脏医学图像数据集(3Dircadb),并对整个CT数据逐层进行预处理和数据增强操作。
步骤一的医学图像处理过程将公开肝脏CT数据集统一格式,并通过数据增强扩增数据集。其过程按以下形式进行设计:
步骤1.1,将512×512的CT图像降采样为256×256,减少计算量;
步骤1.2,将步骤1.1获取的图像使用(100,400)HU值窗口,去除CT切片中大部分不相关的器官;
步骤1.3,将步骤1.2获取的数据集在[0,1]相同尺度上归一化,提供更容易成比例的图像作为输入图像;
步骤1.4,将步骤1.3的获得的数据集进行旋转、缩放、平移、翻转和弹性变形等图像变换来增强训练图像;
步骤二:构建面向肝脏和肿瘤的多尺度特征重校准网络分割模型。将通过多尺度方法改善卷积神经网络的感受场,在更细粒度的水平上提取全局和局部特征。重新校准了聚合的多尺度特征的通道响应,增强网络的高层特征描述能力。
步骤二的面向肝脏和肿瘤的多尺度重校准网络分割模型,将SE和CA模块嵌入Res2Net瓶颈模块,将UNet中的3×3卷积替换成Res2Net瓶颈模块,Res2Net瓶颈模块在UNet模块上增添了2层残差单元结构,增加了网络的感受野大小,提取更加细粒度的特征。通过利用Res2Net瓶颈模块的多层级特征提取能力和SE模块的改进的接受场提高分割性能,具体的,其过程按以下形式进行设计:
步骤2.1,将SE模块嵌入Res2Net瓶颈模块,将UNet中的卷积替换成Res2Net瓶颈模块,利用多尺度特征提取能力和改进的接受场提高分割性能。
这里,Res2Net瓶颈模块是将n个通道的3×3卷积滤波器替换成n个空洞卷积滤波器和多尺度池化层,由于不同患者体内的肝脏与肿瘤带下差异较大,不同尺度的信息对于分割任务至关重要。分割网络往往会采用一系列的下采样操作来获得更大的感受野,而这也带来相应的代价,即分辨率降低。因此空洞卷积以及多尺度池化层的优势在于可以增加网络的感受野以捕获多尺度信息的同时不降低分辨率,提高分割的准确度。空洞卷积滤波器和多尺度池化层以分层残差方式连接以增加不同比例的输出特征的表示;
将所有不同比例的特征映射进行拼接,并通过1×1滤波器进行完整信息的融合;
步骤2.2,通过SE模块对特征进行细化。首先,将融合的多尺度通道化为一维向量。其次,SE模块通过两个密集的层重新校准特征,并自动计算的输入通道的权重。然后利用输入的多尺度特征对信道权值进行标度,提高网络的特征表达能力。在肝脏与肿瘤的CT图像中,有着颜色、质地、纹理等很多无法理解的抽象信息,而肝脏与肿瘤存在着与其他组织不同的特征信息,因此通道信息中一定会有与肝脏与肿瘤相关度高的通道,也有相关度地的通道,SE网络通过特征图的挤压、激励以及对不同通道的的重新赋值,是肝脏与肿瘤相关性强的的通道获得网络更高的关注度。
医学CT图像相较于普通图像而言。因受限于人体骨骼、器官的构造和成像方式,CT图像上有许多器官组织与肝脏和肿瘤相互连接,并导致网络检测偏差,CA模块将网络集中于目标位置,加强特征图对空间方面的信息权重,减少了无关信息的权重。提高了模型的分割效率和精准度。
步骤2.3,通过CA模块对特征进行细化。首先,将输入的多尺度特征沿着两个方向聚合特征,并通过注意力模块捕捉到沿着该空间方向的长期依赖关系,并保存沿着另一个空间方向的精确位置信息。然后将得到的特征信息进行连接和共享权重的特征变换,分别得到两个方向的注意力权重。
通过Coordinate信息嵌入,分别沿着水平坐标与垂直坐标空间两个空间范围进行编码与特征聚集,便可同时获得目标跨通道的信息和目标不同方向的位置信息;
Coordinate Attention分别采用横纵两个空间范围的卷积核(H,1)和(1,W)沿着水平方向和垂直方向编码,从而沿着水平方向和垂直方向特征聚合,获得精确位置信息,并通过激励函数充分捕捉通道之间的关系,以及水平或垂直任一空间方向的长距离依赖关系,有助于模型更精准地定位和识别感兴趣的对象,并且可以增强网络学习特征的表达能力。
步骤三:调整步骤二中的模型参数并多次训练,直至得到稳定收敛的图像分割模型。该模型能够依据输入的肝脏CT图像,给出相应的肝脏和肿瘤结果。利用统计度量对网络性能进行评价。
步骤三中的调整步骤二中的模型参数,以及具体统计度量,其过程按照以下形式进行设计:
步骤3.1,采用初始学习率为1×e-5的Adam优化器对网络进行训练,采用8个小批量训练网络。为了避免过拟合,使用1×e-4的权值衰减因子正则化网络权值。
步骤3.2,对步骤二模型进行参数调整,保证模型损失函数曲线稳定,每10个epoch保存一次模型,当曲线稳定持续20个epoch后,保存当前模型;
步骤3.3,评估本文算法分割的肝脏和肿瘤图和对应标签之间的相似性,对比本文算法与其他算法的分割性能,利用统计度量对网络性能进行评价;
步骤二的子步骤2.1中Res2Net模块,是将n个通道的3×3卷积滤波器替换成n个空洞卷积滤波器和多尺度池化。空洞卷积滤波器和多尺度池化以分层残差方式连接,为了增加具有不同尺度的输出特征的表示。将所有子集的特征映射进行拼接,并通过1×1滤波器进行完整信息的融合。输入特征经过1×1卷积后均被分割成s个子集,使得每个子集与输入特征相比具有相同的空间大小和的通道。
其中原始U-Net网络中的卷积感受野范围有限,因此网络提取出的高分辨率肝脏边缘及完整肿瘤的图像特征不足。为了解决该问题,将空洞卷积模块加入到残差U-Net网络架构中,形成空洞残差结构空洞卷积可以有效扩展图像感受野而又不丧失图像的分辨率。分割网络拥有较大的感受野后就可以看到更多的信息,从而可以系统地聚合多尺度的上下文信息。对于医学图像中的只占有整张图像很小比例的器官尤其是肿瘤的检测和分割精度的提升有很好的作用。感受野是通过规定的卷积核做卷积运算处理后,得到的局部特征图的像素点在原图像上映射区域大小,其卷积核和感受野的如下式:
r1=(ksize-1)×(d-1)+ksize
RFi+1=RFi+(r1-1)×stride
其中,ksize是原来卷积核的大小,r1是空洞卷积核的感受野大小,d为膨胀比率,(d-1)的大小为填入的空格数,stride为卷积运算步长,RFi为上一层感受野,RFi+1为当前感受野大小。
步骤二的子步骤2.2中,在SE网络的特征细化操作中,输入特征以这种方式转换,对从Res2Net模块中1×1卷积接收的大小为W×H×C的输入特征应用全局平均池化,并将所有通道转换为一维向量,一维向量维度等于通道数C,其中W表示输入特征水平方向的特征向量长度,H表示输入特征垂直方向的特征向量长度,C表示特征向量通道数。全局平均池化表示大小为Rc的一维向量Z。对于C个通道中的任意一个通道,一维向量Z中的元素如下式:
ZC是输入CT图像特征Mc的变换特征的集合,为局部描述符的聚类,Mc(a,b)表示输入CT图像在c通道处坐标为(a,b)的特征向量,Fsqe()表示SE网络。
步骤二的子步骤2.3中,在CA模块的特征细化操作中,将给定的2D特征图像(C×H×W),先用三个不同的卷积核(1×H)、(1×W)分别对垂直(H)、水平(W)方向自适应池化,其中W表示输入特征水平方向的特征向量长度,H表示输入特征垂直方向的特征向量长度。这样便可以单独保留某一方向上的位置信息而不是将全局信息压缩至某一通道上。这两个水平与垂直方向的转换还允许我们的模块沿这水平与垂直这两个空间方向进行非线性激活从而捕捉长距离的依赖关系,并沿另一个空间方向保留精确的位置信息。
因此,在垂直方向h处和水平方向w处第c个通道的输出可以表示为:
xc(h,i)是输入特征向量x在h垂直方向处时的分量,xc(w,i)是输入特征向量x在w水平方向处时的分量,W表示输入CT图像的像素宽度、H表示输入CT图像的像素长度,i和j分别表示CT图像上宽度或长度上的任意一点。
gh=σ(Fh(zh))
gw=σ(Fw(zw))
Fh、Fw分别是高度方向和宽度方向的卷积变换,σ表示Sigmoid函数,gh、gw分别是两个方向的的注意力权重,该注意力权重可以反映每个元素所感兴趣的对象是否存在与相对应的行与列中,最终将水平与垂直方向的注意力权重与输入特征向量向量相乘得到最终特征向量yc(i,j)°yc(i,j)可以表示为:
这种编码过程使我们的坐标注意力能够更准确地定位感兴趣对象的确切位置,从而帮助整个模型更好地识别。
步骤二的子步骤2.2中,使用聚合的信息来获取与通道相关的依赖项。为了隔离信道,提高网络的泛化能力,采用了两层全连接的简单门机制,也就是同时使用ReLU和Sigmoid激活函数。
步骤二的网络训练中,交叉嫡损失函数经常用来衡量医学图像分割及分类的效果,Dice损失函数经常用来衡量医学图像正负样本的均衡程度。在医学图像中,肝脏尤其是肝脏肿瘤在CT图像中所占的比例特别小,容易造成损失函数陷入局部最小值。为了解决类别不均衡的问题,本发明采用的损失函数为骰子系数和交叉熵损失函数之和。骰子损失函数直接度量两个样本的相似度,并相应地通过最小化损失优化网络权值。骰子损失函数公式为:
式中,pi为样本预测为正的概率,gi表示样本的标签,N为体素数量,i为CT图像中N个体素中的任意一个。
交叉熵损失函数为:
式中,pi为样本预测为正的概率,gi表示样本的标签,N为体素数量,i为CT图像中N个体素中的任意一个,正类为1,负类为0。当肝脏及其肿瘤分割结果越接近真实样本标签值,损失函数L值越小,模型的鲁棒性越好;反之,当肝脏及其肿瘤分割结果与样本标签相差越大,损失函数L值越大,模型的鲁棒性越差。
步骤三的子步骤3.3的统计度量基于体积大小相似度和表面距离度量的性能指标,分别为骰子相似系数(DSC)、体积重叠误差(VOE)、相对绝对体积差(RAVD)。体积重叠误差使用Jaccard系数(JC)或并集交集(IOU)。DSC、VOE、RACD的公式分别如下:
式中,A为真实标签体素,B为分割结果体素。
表1本发明与其他方法对比
方法 | DSC(%) | VOE(%) | RAVD(%) |
UNet | 51.0 | 62.55 | 38.42 |
ResNet | 62.00 | 42.60 | 4.12 |
mU-Net | 70.87 | 31.16 | 0.76 |
MLMA-UNet | 84.15 | 27.76 | 0.22 |
如表所示,在同一个数据集上与其他方法进行比较,我们的发明(多层级多注意力MLMA-UNet方法)取得了最好的性能。在骰子相似系数(DSC)指标上,指标越高代表分割结果更加精确。
本发明提出一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法,上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法,其特征在于,包括如下步骤:
步骤一:获取肝脏CT图像数据集,并对CT图像进行逐层预处理,统一CT图像的格式,并通过数据增强扩增CT图像数据集,将肝脏CT图像数据集分为训练集和测试集;
步骤二:构建面向肝脏和肿瘤的多层级特征重校准网络分割模型,利用训练集训练所述模型,包括训练肝脏分割和训练肿瘤分割,通过多层级提取全局和局部特征,重新校准聚合的多层级特征的通道响应;
步骤三:调整多层级特征重校准网络分割模型的参数并多次训练,当模型的损失函数稳定收敛,得到稳定收敛的模型,利用测试集对训练好的模型进行测试,构建肝脏和肿瘤检测网络,获得肝脏和肿瘤分割结果,利用统计度量对所述网络性能进行评价。
2.根据权利要求1所述的一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法,其特征在于,步骤一的具体步骤包括:
步骤1.1:将512×512的CT图像降采样为256×256的CT图像,减少计算量;
步骤1.2:使用(100,400)HU值窗口将经过步骤1.1处理的CT图像中不相关的器官去除;
步骤1.3:将经过步骤1.2在[0,1]层级上进行归一化,提供更容易成比例的图像作为输入图像;
步骤1.4:将经过步骤1.3处理的CT图像进行旋转、缩放、平移、翻转和弹性变形等图像变换来增强CT图像。
3.根据权利要求1所述的一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法,其特征在于,步骤二引入SE模块,实现了建模通道之间的相互依赖来自适应地重新校准通道级特征响应,加强了网络对关键通道信息的捕捉,具体的:
首先,将UNet中的3×3卷积替换成Res2Net瓶颈模块,将n个通道的3×3卷积滤波器替换成n个空洞卷积滤波器和多尺度池化层,Res2Net瓶颈模块在UNet模块上增添了2层残差单元结构,增加网络的感受野以捕获多尺度信息的同时不降低分辨率,提取更加细粒度的特征,提高分割的准确度;
然后,将SE模块嵌入Res2Net瓶颈模块,通过SE模块对特征进行细化,包括:将融合的多层级通道化为一维向量;通过SE模块对特征进行细化包括通过两个密集的层重新校准特征,并自动计算的输入通道的权重;利用输入的多层级特征对信道权值进行标度。
4.根据权利要求3所述的一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法,其特征在于,SE模块将融合的多层级通道化为一维向量具体包括如下步骤:
对从Res2Net模块中1×1卷积接收的大小为W×H×C的输入特征应用全局平均池化,其中,W表示输入特征水平方向的特征向量长度,H表示输入特征垂直方向的特征向量长度,C表示特征向量通道数,并将所有通道转换为一维向量,一维向量维度等于通道数C,全局平均池化表示大小为Rc的一维向量Z,对于C个通道中的任意一个通道,一维向量Z中的元素如下式:
ZC是输入CT图像特征Mc的变换特征的集合,为局部描述符的聚类,Mc(a,b)表示输入CT图像在c通道处坐标为(a,b)的特征向量,a,b分别为水平与垂直方向的对应坐标点,Fsqe()表示SE网络。
5.根据权利要求4所述的一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法,其特征在于,输入通道沿高度方向和沿宽度方向的权重公式如下:
gh=σ(Fh(zh))
gw=σ(Fw(zw))
其中,Fh、Fw分别是沿高度h方向和宽度w方向的卷积变换,σ表示Sigmoid函数,gh、gw分别是沿高度方向和沿宽度方向的注意力权重,用于反映每个元素所感兴趣的对象是否存在与相对应的行与列中。
6.根据权利要求1所述的一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法,其特征在于,引入CA模块,对特征进行细化,沿一个空间方向捕获远程依赖关系的同时沿另一个空间方向保留精确的位置信息,增强网络对特征的目标捕获能力,具体的:
分别采用横纵两个空间范围的卷积核(H,1)和(1,W)沿着水平方向和垂直方向编码,其中,W表示输入特征水平方向的特征向量长度,H表示输入特征垂直方向的特征向量长度,从而沿着水平方向和垂直方向特征聚合,获得精确位置信息,并通过激励函数充分捕捉通道之间的关系,以及水平或垂直任一空间方向的长距离依赖关系,有助于模型更精准地定位和识别感兴趣的对象,并且可以增强网络学习特征的表达能力。
7.根据权利要求1所述的一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法,其特征在于,使用聚合的信息来获取与通道相关的依赖项,采用了ReLU和Sigmoid激活函数的两层全连接的简单门机制来隔离信道,提高网络的泛化能力。
9.根据权利要求1所述的一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法,其特征在于,步骤三中调整多层级特征重校准网络分割模型的参数的具体步骤包括:
步骤3.1:采用初始学习率为1×e-5的Adam优化器对网络进行训练,采用8个小批量训练网络,同时,使用1×e-4的权值衰减因子对网络权值进行正则化;
步骤3.2:对多层级特征重校准网络分割模型进行训练,每10个epoch保存一次模型,当曲线稳定持续20个epoch后,保存当前模型。
10.根据权利要求1所述的一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法,其特征在于,步骤三中利用统计度量对网络性能进行评价的具体为:
统计度量基于体积大小相似度和表面距离度量的性能指标,分别为骰子相似系数DSC、体积重叠误差VOE、相对绝对体积差RAVD。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310277220.8A CN116309640A (zh) | 2023-03-21 | 2023-03-21 | 一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310277220.8A CN116309640A (zh) | 2023-03-21 | 2023-03-21 | 一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116309640A true CN116309640A (zh) | 2023-06-23 |
Family
ID=86793941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310277220.8A Pending CN116309640A (zh) | 2023-03-21 | 2023-03-21 | 一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116309640A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824525A (zh) * | 2023-08-29 | 2023-09-29 | 中国石油大学(华东) | 一种基于交通道路影像的图像信息提取方法 |
CN117689669A (zh) * | 2023-11-17 | 2024-03-12 | 重庆邮电大学 | 基于结构自适应上下文敏感的视网膜血管分割方法 |
-
2023
- 2023-03-21 CN CN202310277220.8A patent/CN116309640A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824525A (zh) * | 2023-08-29 | 2023-09-29 | 中国石油大学(华东) | 一种基于交通道路影像的图像信息提取方法 |
CN116824525B (zh) * | 2023-08-29 | 2023-11-14 | 中国石油大学(华东) | 一种基于交通道路影像的图像信息提取方法 |
CN117689669A (zh) * | 2023-11-17 | 2024-03-12 | 重庆邮电大学 | 基于结构自适应上下文敏感的视网膜血管分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Al-Antari et al. | A fully integrated computer-aided diagnosis system for digital X-ray mammograms via deep learning detection, segmentation, and classification | |
CN112241766B (zh) | 基于样本生成和迁移学习的肝脏ct图像多病变分类方法 | |
CN110930416B (zh) | 一种基于u型网络的mri图像前列腺分割方法 | |
CN112927255B (zh) | 一种基于上下文注意力策略的三维肝脏影像语义分割方法 | |
CN107506761B (zh) | 基于显著性学习卷积神经网络的脑部图像分割方法及系统 | |
CN110189308B (zh) | 一种基于bm3d和稠密卷积网络融合的肿瘤检测方法和装置 | |
CN107886514A (zh) | 基于深度残差网络的乳腺钼靶图像肿块语义分割方法 | |
CN114897914B (zh) | 基于对抗训练的半监督ct图像分割方法 | |
CN107492071A (zh) | 医学图像处理方法及设备 | |
CN112418329A (zh) | 一种基于多尺度纹理特征融合宫颈oct图像分类方法及系统 | |
CN116097302A (zh) | 用于病灶检测的利用联合训练的连接式机器学习模型 | |
CN116309640A (zh) | 一种基于多层级多注意力MLMA-UNet网络的图像自动分割方法 | |
CN117078692B (zh) | 一种基于自适应特征融合的医疗超声图像分割方法及系统 | |
CN110309860A (zh) | 基于卷积神经网络对肺结节的恶性程度进行分类的方法 | |
Liu et al. | A fully automatic segmentation algorithm for CT lung images based on random forest | |
Chen et al. | Skin lesion segmentation using recurrent attentional convolutional networks | |
CN111784653A (zh) | 基于形状约束的多尺度网络mri胰腺轮廓定位方法 | |
CN114596317A (zh) | 一种基于深度学习的ct影像全心脏分割方法 | |
CN113902738A (zh) | 一种心脏mri分割方法及系统 | |
CN117522891A (zh) | 一种3d医学图像分割系统及方法 | |
CN114445715A (zh) | 一种基于卷积神经网络的农作物病害识别方法 | |
CN116630964A (zh) | 一种基于离散小波注意力网络的食品图像分割方法 | |
CN117710681A (zh) | 基于数据增强策略的半监督医学影像分割方法 | |
CN114998362A (zh) | 基于双分割模型的医学图像分割方法 | |
CN113269774B (zh) | 一种mri图像的帕金森病分类及标注病灶区域的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |