CN112365514A - 基于改进PSPNet的语义分割方法 - Google Patents
基于改进PSPNet的语义分割方法 Download PDFInfo
- Publication number
- CN112365514A CN112365514A CN202011426154.9A CN202011426154A CN112365514A CN 112365514 A CN112365514 A CN 112365514A CN 202011426154 A CN202011426154 A CN 202011426154A CN 112365514 A CN112365514 A CN 112365514A
- Authority
- CN
- China
- Prior art keywords
- training
- network
- model
- pspnet
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000011218 segmentation Effects 0.000 title claims abstract description 46
- 238000012805 post-processing Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 55
- 238000011176 pooling Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 11
- 230000007246 mechanism Effects 0.000 abstract description 6
- 239000013589 supplement Substances 0.000 abstract description 6
- 238000005070 sampling Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 241000764238 Isis Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/181—Segmentation; Edge detection involving edge growing; involving edge linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉技术领域,尤其是涉及一种基于改进PSPNet的语义分割方法,使用轻量级的MobileNetV2网络来学习特征信息,引入上下文语义特征补充模块保留更多的特征,在网络对图像中的每个像素点进行分类预测后引入水平集方法作为网络后处理,使分割结果更加逼近目标真实轮廓,最终实现语义分割的目的。本发明的网络模型在图像语义分割中鲁棒性强,减少了分割错误情况的出现;17个反残差单元的MobileNetV2网络作为+PSPNet的前置网络,使整个网络趋向于轻量级;引入了上下文语义特征补充模块,在原始的基础上,借助注意力机制,解决了在采样过程中特征丢失和模糊等问题;将水平集方法作为后处理的方式引入到整个模型中,提高整个模型的分割精度。
Description
技术领域
本发明属于计算机视觉技术领域,尤其是涉及一种基于改进PSPNet的语义分割方法。
背景技术
语义分割涵盖了机器学习、计算机视觉、图像处理和人机交互等众多科学领域,有着广泛的应用前景和巨大的经济价值。随着人工智能和深度学习的飞速发展,人体语义分割也取得了突破性的进展。
语义分割是指使用一些算法让计算机可以自动的将图像中不同的类别分割出来。近年来有很多不同的深度学习框架的语义分割方法,其中包括全卷积网络(FullyConvolutional Networks,FCN)、完全对称的卷积网络(UNet)、以及基于空间金字塔的DeepLabV3等方法来进行图像的语义分割是目前研究的热门话题。
基于深度学习的语义分割方法在性能上相比于传统分割方法有很大提升,但仍存在一些问题:1.分割边缘不准的问题,相邻临的像素对应感受野内的图像信息太过相似,如果是不同类的像素点特征相似,那么很大程度的影响分割效果。2.传统的PSPNet使用的网络结构为ResNet网络,适用于深层网络,由于参数量过大等问题并不适用于轻量级网络。3.传统语义分割模型在特征提取的过程中会导致特征模糊、特征丢失等问题,进而影响实验结果。
发明内容
本发明的目的是针对现有技术中存在的问题和不足,提供了一种基于改进PSPNet的语义分割方法,将PSPNet做了相关的改进,有效的提升了网络模型对复杂图像中类别分割的效果,提升了网络模型的性能。
本发明的基于改进PSPNet的语义分割方法,其特征在于包括如下步骤,
步骤1:在相关网站上下载MobileNetV2预训练模型文件:mobilenetV2.h5放到模型预训练文件夹\PSPNet\pre_training下,将其作为网络的初始化参数模型;
步骤2:在相关网站上下载Baidu People segmentation dataset相关数据集,将其区分好训练集与测试集,训练集的图片名称与其标签名称对应;
步骤3:利用调整后数据集训练网络模型,对模型的参数进行微调,设置的最大迭代次数为50周期,初始的学习率设置为0.001,学习率衰减方式为连续3周期准确率没有提升,那么折半减小学习率继续训练;训练时将训练集分割成两部分,90%的训练图片用于模型训练,其余10%的图片用于模型每一周期的验证;模型每训练一周期保存一次模型文件,训练完成后模型的准确率达到90%以上,达到训练要求;
步骤4:将最终生成的网络模型放在指定的文件夹下,编写测试文件Test.py对模型的性能进行测试,查看网络的整体结构;
步骤5:选取待检测的图像,放入到指定的\PSPNet\demojPg文件夹,供后续测试使用;
步骤6:提取图像中的特征,将输入图像通过MobileNetV2网络提取特征;
步骤7:将反残差单元生成的特征图,通过双线性插值,将长宽统一定义到与输出尺寸一致之后在通道维数上进行融合,得到全新的特征结果。
步骤8:将得到的特征图首先使用卷积来获取最后的特征映射,然后将特征图划分为1×1、2×2、3×3、6×6四个不同的子区域,并对每个子区域进行池化;
步骤9:进行上采样和连接层以形成最终的特征表示,最后输入到卷积层来获得最终的每个像素的预测;
步骤10:优化误差,如果训练结果的误差较大,设置学习率降低的方式,采用训练中连续三轮的准确率没有上升,则折半下降学习率的方式,使训练准确率稳步提升,最终达到平稳;
步骤11:将网络预测的结果进行二值化、填充、边缘轮廓提取等处理;
步骤12:设置水平集方法的参数,迭代之后输出本发明的最终结果。
所述的步骤12,水平集后处理部分将迭代次数设置为5次,初始水平集轮廓设置为自定义的方式,由网络预测的结果生成;平滑系数常用设置为4,数值越大则曲线越平滑,阈值设置为0.4,小于阈值将认为是边界,曲线将在此停止;轮廓线演变方式为缩小,正数则会使轮廓扩大;高斯滤波器的标准差设置为2。
本发明的优点:
(1)本发明的基于改进PSPNet的语义分割方法,网络模型在图像语义分割中鲁棒性强,无论是图像中存在严重的大小差异、低分辨率和多目标等恶劣的条件都不会对分割结果产生太大的影响,减少了分割错误情况的出现;
(2)本发明的基于改进PSPNet的语义分割方法,采用的是17个反残差单元的MobileNetV2网络作为+PSPNet的前置网络,使整个网络趋向于轻量级,大大减少了网络参数更加适用于小型设备;
(3)本发明的基于改进PSPNet的语义分割方法,引入了上下文语义特征补充模块,在原始的基础上,借助注意力机制,找到了在全局感受野下含有丰富特征的特征图进行融合,解决了在采样过程中特征丢失和模糊等问题,使网络模型在特征提取时效率更高,提取的特征更加有用,从而提升整个网络性能;
(4)本发明的基于改进PSPNet的语义分割方法,将水平集方法作为后处理的方式引入到整个模型中,在像素级的预测结果中再利用边界梯度信息,使分割结果通过迭代,一步一步逼近目标的真实边界,提高整个模型的分割精度。
附图说明
图1本发明的总体网络结构图。
图2本发明中水平集方法过程图。
图3本发明中引入的注意力原理图。
图4本发明中权重结果图。
图5本发明中金字塔池化结构图。
图6本发明中水平集初始轮廓图。
具体实施方式
下面结合附图进一步说明本发明的具体实施方式。
图1是本发明的总体网络结构图,包括特征提取部分;上下文语意特征补充部分;金字塔池化部分;预测每个像素点的类别。图2是本发明的水平集方法过程图,包含了从输入图像起到最终的演化结果。
a)本发明提出:使用轻量级的MobileNetV2网络来学习特征信息。引入上下文语义特征补充模块保留更多的特征,在网络对图像中的每个像素点进行分类预测后引入水平集方法作为网络后处理,使分割结果更加逼近目标真实轮廓,最终实现语义分割的目的。
第一步,为了解决由于深层网络带来的参数量过大,分割效率低的问题,本发明将传统PSPNet方法中用于提取图像特征的残差网络替换为具有更强表达能力更轻量级的MobileNetV2网络。
第二步,为了保留更多的特征信息,本发明引入上下文语义特征补充模块借助注意力机制,在特征提取过程中,为每个单元生成的特征图分配权重,保留在全局感受野下,对结果影响最大的几张特征图。最后通过双线性插值的方法,将特征图定义到统一的长宽并进行融合。
第三步,将上述重新定义的特征图通过金字塔池化结构,使全局语义信息与不同区域大小的局部语义信息完美结合。然后进行上采样和全连接层,得到最终的特征表示,最终输入卷积层以获得每个像素点的预测。
第四步,将网络预测的结果作为水平集方法的初始轮廓。通过二值化、填充等操作获取连续封闭的初始轮廓。通过GAC模型的迭代,使网络预测的结果继续收敛,更加逼近于目标真实轮廓。针对图像行为识别中交互目标定位不准确、存在将对象建立错误的行为关系的问题。最终完成本发明的全部分割过程。
b)发明的具体内容:
第一步中,本发明采用的是MobileNetV2网络,MobileNetV2网络保留了残差结构中的“跳跃连接”,且中间层使用深度可分离卷积,大大减少了网络整体的参数量。MobileNetV2的主要特点是反残差结构,传统的残差结构是先用1×1的卷积降维然后进行3×3的卷积最后再用1×1的卷积升维,产生了一种两边通道数多(“厚”),中间通道数少(“薄”)的类似“沙漏”一样的网络结构。而MobileNetV2中则是先用1×1的卷积升维再进行3×3的逐层卷积最后进行1×1的卷积降维,产生了一种两边通道数少(“薄”),中间通道数多(“厚”)的类似“纺锤”的网络结构。
MobileNetV2网络的前向传播是线性的,后层的输入是当前输入和每次反残差单元计算的残差和,在MobileNetV2网络的输入输出之间添加一个快捷连接,使前向传播是一个平滑的过程。经过多次计算得到深层的L单元的计算结果:
其中,XL表示的是L层(深层)的输出向量,Xl表示的是第l层(浅层)的输出,F(Xi,wi)表示的是第l层中的残差。
反向传播的过程同前向传播一样都是一个平滑的过程。根据反向传播的链式法则,得到如下公式:
第二步中,为了使模型能够保留更过的特征信息,本发明在特征提取的过程中引入了上下文语义特征补充模块。本发明在特征提取时共有17个反残差单元,生成了17张不同尺寸的特征图。借助注意力机制来判断17张特征图的重要性并进行融合。注意力机制可以使网络执行特征重新校准,通过这种机制可以学习使用全局信息来选择性的强调某些特征并抑制不太用的特征。将17张特征图在进行1×1的卷积之后重新定义到统一长宽进行融合,最终生成一张17通道的特征图,每个通道代表了该特征图的特征。将这张特征图通过注意力模块来给各个通道分配权重,最终选择对全局结果影响较大的几张特征图进行融合。假设卷积核为V={v1,v2,Λ,vc},其中,vc表示第c个卷积核那么输出则为U={u1,u2,Λ,uc}:
uc=vc*x
其中*代表了卷积操作,输入一个通道上的空间特征,学习特征空间关系,但是由于对各个通道的卷积结果进行了融合,所以通道特征关系与卷积核学习到的空间关系混合在一起。注意力模块就是为了将这种混合在一起的特征分开,使得模型可以直接学习通道特征关系。注意力模块首先对卷积得到的特征图进行Squeeze操作,顺着空间维度来进行压缩,将每个特征通道变成一个实数,这个实数具有全局感受野,并且输出的维度和输入的通道数匹配,采用全局平均池化来实现:
其中,H,W分别表示特征图的长宽。这一步的结果相当于表明该层c个特征图的数值分布情况,就是在得到多个特征图之后采用全局平均池化操作对每个特征图进行压缩,使c个特征图最后变成1×1×c的实数列。然后对全局特征进行Excitation操作,通过参数W来为每个通道生成权重,其中参数W被学习用来显式的建模通道特征的重要性:
Fex(Fsq,W)=sigmod(W2ReLU(W1Fsq))
首先,将前面Fsq的结果乘W1,也就是通过一个全连接层的操作。W1的维度是r是缩放参数,目的为了减少通道数从而降低计算量。为了适用于本发明的网络结构,这里缩放参数r取17。而Fsq的结果维度是1×1×c,所以W1Fsq的结果就是然后再经过ReLU函数后与W2相乘,W2也是全连接层的过程,维度是因此输出的维度恢复到1×1×c,最后再经过sigmod函数获得0~1之间归一化的权重。该权重刻画的是每个通道的重要性。最后通过scale操作将输入的特征图的每个通道上的二维特征图都乘上得到的权重。scale操作:
Fscale(uc,sc)=sc·uc
其中,uc表示的是输出的特征图上c通道上的二维特征图,sc是上式Fex输出的c通道上的权重,将每个通道上都乘上对应的权重,最终得到结果。结果显示第1、2、4、17通道的权重值相对较高,分别达到了0.12、0.18、0.13、0.10,17个通道的权重值加和为1。其余的通道权重较低在全局感受野下受到了抑制。这四个通道分别代表了17个反残差单元中对应的生成的特征图,最终将这四张特征图通过双线性插值的方法定义到统一的长宽,在通道维度上进行融合得到最终结果。
第三步中,本发明延用了PSPNet中的金字塔池化结构,融合了四种不同尺度下的特征,将输入特征图划分成1×1,2×2、3×3、6×6个不同的子区域。对每个子区域进行池化,最后将包含位置信息的池化后的单个特征图组合起来。金字塔池化模块中不同层级输出不同尺度的特征图,为了保持全局特征的权重,在每个金字塔层级后使用1x1的卷积核,当某个层级维数为n时,即可将语义特征的维数降到原始特征的1/n。然后,通过双线性插值直接对低维特征图进行上采样,使其与原始特征图尺度相同。最后,将不同层级的特征图拼接为最终的金字塔池化全局特征。其中金字塔池化结构中每个层级的大小都可以修改,与输入金字塔池化层的特征图大小有关。该结构采用不同的池化核,即可提取不同子区域的特征。
第四步中,为了进一步提升模型的分割精度,本发明引入了水平集方法作为网络预测结果的后处理。水平集方法作为传统的图像分割方法,其主要思想是利用高维曲面的演化来表示低维曲线的演化过程,可以有效地利用图像的边缘信息。本发明将水平集方法作为后处理,将之前得到的结果作为初始轮廓,通过水平集方法的演化,更加逼近图像边界。
由于网络输出的结果,含有丰富的边界信息,所以直接采用GAC模型对结果进行后处理。推广GAC模型的水平集方法对应的PDE为:
通过上式可以看出曲线在GAC模型式演化时将受两种力的推进:其一是来自与曲线自身的几何形变,故称为内力不过这种力的强弱收到由图像I(x,y)的梯度所提供的标量场g(x,y)的控制。在图像边缘附近,这种力将变得很小以致停止。所以也常将边缘函数称之为边缘停止函数。常用的边缘函数定义为:
式中K是选定的常数,它可以控制g的下降速率。第二种力来自于g(α1,α2)的梯度由于故是由图像I(x,y)产生的,所以称为外力。它能使曲线向着图像中对象的边缘靠近,并稳定在边缘上。我们采用单边迎风方案对GAC模型的水平集方法对应的PDE进行数值计算:
上述公式分别是中心差分,向前单边差分和向后单边差分。根据公式:
进行迭代运算通过uij (n)计算uij (n+1)。防止累计误差,每迭代5次进行一次重新初始化。具体方法是根据当前演化得到的u检测零水平集则为当前C,根据当前C重新初始化水平集u。
本发明的一种基于改进的PSPNet语义分割方法的具体实现步骤如下:
步骤1、在相关网站上下载MobileNetV2预训练模型文件:mobilenetV2.h5放到模型预训练文件夹\PSPNet\pre_training下,将其作为网络的初始化参数模型。
步骤2、在相关网站上下载Baidu People segmentation dataset相关数据集,将其区分好训练集与测试集,训练集的图片名称与其标签名称对应,为了方便区分,本发明对图片命名方式为“序号.jpg”,与之对应的标签命名方式为“序号.png”。
步骤3、利用调整后数据集训练网络模型,对模型的参数进行微调,设置的最大迭代次数为50周期,初始的学习率设置为0.001,学习率衰减方式为连续3周期准确率没有提升,那么折半减小学习率继续训练。训练时将训练集分割成两部分,90%的训练图片用于模型训练,其余10%的图片用于模型每一周期的验证。模型每训练一周期保存一次模型文件,训练完成后模型的准确率达到90%以上,达到训练要求。
步骤4、将最终生成的网络模型放在指定的文件夹下,编写测试文件Test.py对模型的性能进行测试,查看网络的整体结构。
步骤5、选取待检测的图像,放入到指定的\PSPNet\demojpg文件夹,供后续测试使用。
步骤6、提取图像中的特征。将输入图像通过MobileNetV2网络提取特征,MobileNetV2网络共有17个反残差单元如表1所示,输入图像为416×416的RGB图像,在经过不断地采样、池化等操作最终生成52×52长宽的特征图。在此过程中,借助注意力机制,如图3所示,将17个反残差单元生成的特征图统一定义长宽,生成一张17通道的特征图x,每个通道代表了对应的反残差单元生成的特征图的特征映射。最终得到了带有各自权重的17通道的特征图17个权重如图4所示,其中,第1、2、4、17通道的权重值相对较高,分别达到了0.12、0.18、0.13、0.10。
表1本发明中MobileNetV2网络结构
步骤7、将第1、2、4、17个反残差单元生成的特征图,通过双线性插值,将长宽统一定义到与输出尺寸一致之后在通道维数上进行融合,得到全新的特征结果。
步骤8、将得到的特征图首先使用卷积来获取最后的特征映射,然后将特征图划分为1×1、2×2、3×3、6×6四个不同的子区域,并对每个子区域进行池化,如图5所示。
步骤9、进行上采样和连接层以形成最终的特征表示,最后输入到卷积层来获得最终的每个像素的预测。
步骤10、优化误差,如果训练结果的误差较大,设置学习率降低的方式,采用训练中连续三轮的准确率没有上升,则折半下降学习率的方式。使训练准确率稳步提升,最终达到平稳。
步骤11、将网络预测的结果进行二值化、填充、边缘轮廓提取等处理,如图6所示,作为水平集方法的初始轮廓。
步骤12、设置水平集方法的参数,本发明水平集后处理部分将迭代次数设置为5次,初始水平集轮廓设置为自定义的方式,由网络预测的结果生成。平滑系数常用设置为4,数值越大则曲线越平滑,阈值设置为0.4,小于阈值将认为是边界,曲线将在此停止。轮廓线演变方式为缩小,正数则会使轮廓扩大。高斯滤波器的标准差设置为2。迭代之后输出本发明的最终结果。
从上述技术方案可以看出,本发明根据现实生活中图像语义分割中面临的问题,如:分辨率低、多目标、背景复杂,对基于PSPNet的语义分割方法进行了改进。采用轻量级MobileNetV2网络,保证特征提取能力的基础上,大大减少了网络整体的参数量,更加适用于小型设备,进而使得网络训练更容易、更高效;在此基础上提出上下文语意特征补充模块来保留更丰富的语义特征;最后使用水平集方法作为网络的后处理部分,使得分割结果更加逼近于目标的真实轮廓,是整个模型分割精度有明显的提升。经过大量实验表明,本发明对于语义分割具有较高的准确度和较强的鲁棒性。
Claims (2)
1.一种基于改进PSPNet的语义分割方法,其特征在于包括如下步骤,
步骤1、在相关网站上下载MobileNetV2预训练模型文件:mobilenetV2.h5放到模型预训练文件夹\PSPNet\pre_training下,将其作为网络的初始化参数模型;
步骤2、在相关网站上下载Baidu People segmentation dataset相关数据集,将其区分好训练集与测试集,训练集的图片名称与其标签名称对应;
步骤3、利用调整后数据集训练网络模型,对模型的参数进行微调,设置的最大迭代次数为50周期,初始的学习率设置为0.001,学习率衰减方式为连续3周期准确率没有提升,那么折半减小学习率继续训练;训练时将训练集分割成两部分,90%的训练图片用于模型训练,其余10%的图片用于模型每一周期的验证;模型每训练一周期保存一次模型文件,训练完成后模型的准确率达到90%以上,达到训练要求;
步骤4、将最终生成的网络模型放在指定的文件夹下,编写测试文件Test.py对模型的性能进行测试,查看网络的整体结构;
步骤5、选取待检测的图像,放入到指定的\PSPNet\demojPg文件夹,供后续测试使用;
步骤6、提取图像中的特征,将输入图像通过MobileNetV2网络提取特征;
步骤7、将反残差单元生成的特征图,通过双线性插值,将长宽统一定义到与输出尺寸一致之后在通道维数上进行融合,得到全新的特征结果。
步骤8、将得到的特征图首先使用卷积来获取最后的特征映射,然后将特征图划分为1×1、2×2、3×3、6×6四个不同的子区域,并对每个子区域进行池化;
步骤9、进行上采样和连接层以形成最终的特征表示,最后输入到卷积层来获得最终的每个像素的预测;
步骤10、优化误差,如果训练结果的误差较大,设置学习率降低的方式,采用训练中连续三轮的准确率没有上升,则折半下降学习率的方式,使训练准确率稳步提升,最终达到平稳;
步骤11、将网络预测的结果进行二值化、填充、边缘轮廓提取等处理;
步骤12、设置水平集方法的参数,迭代之后输出本发明的最终结果。
2.根据权利要求1所述的基于改进PSPNet的语义分割方法,其特征在于所述的步骤12,水平集后处理部分将迭代次数设置为5次,初始水平集轮廓设置为自定义的方式,由网络预测的结果生成;平滑系数常用设置为4,数值越大则曲线越平滑,阈值设置为0.4,小于阈值将认为是边界,曲线将在此停止;轮廓线演变方式为缩小,正数则会使轮廓扩大;高斯滤波器的标准差设置为2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011426154.9A CN112365514A (zh) | 2020-12-09 | 2020-12-09 | 基于改进PSPNet的语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011426154.9A CN112365514A (zh) | 2020-12-09 | 2020-12-09 | 基于改进PSPNet的语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112365514A true CN112365514A (zh) | 2021-02-12 |
Family
ID=74536756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011426154.9A Pending CN112365514A (zh) | 2020-12-09 | 2020-12-09 | 基于改进PSPNet的语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112365514A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112991281A (zh) * | 2021-03-03 | 2021-06-18 | 望知科技(深圳)有限公司 | 视觉检测方法、系统、电子设备及介质 |
CN113052106A (zh) * | 2021-04-01 | 2021-06-29 | 重庆大学 | 一种基于PSPNet网络的飞机起降跑道识别方法 |
CN113077418A (zh) * | 2021-03-18 | 2021-07-06 | 心医国际数字医疗系统(大连)有限公司 | 基于卷积神经网络的ct影像骨骼分割方法及装置 |
CN113076904A (zh) * | 2021-04-15 | 2021-07-06 | 华南理工大学 | 一种基于深度学习的室外停车场空余车位检测方法 |
CN113159057A (zh) * | 2021-04-01 | 2021-07-23 | 湖北工业大学 | 一种图像语义分割方法和计算机设备 |
CN113343974A (zh) * | 2021-07-06 | 2021-09-03 | 国网天津市电力公司 | 考虑模态间语义距离度量的多模态融合分类优化方法 |
CN113538456A (zh) * | 2021-06-22 | 2021-10-22 | 复旦大学 | 基于gan网络的图像软分割及背景替换系统 |
CN113744227A (zh) * | 2021-08-27 | 2021-12-03 | 北京航空航天大学 | 一种基于多种易混淆小部件的语义分割方法 |
CN114140844A (zh) * | 2021-11-12 | 2022-03-04 | 北京海鑫智圣技术有限公司 | 人脸静默活体检测方法、装置、电子设备及存储介质 |
CN114772208A (zh) * | 2022-03-31 | 2022-07-22 | 东北大学 | 一种基于图像分割的非接触式皮带撕裂检测系统及方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104599270A (zh) * | 2015-01-18 | 2015-05-06 | 北京工业大学 | 一种基于改进水平集算法的乳腺肿瘤超声图像分割方法 |
CN109035197A (zh) * | 2018-05-31 | 2018-12-18 | 东南大学 | 基于三维卷积神经网络的ct造影图像肾脏肿瘤分割方法及系统 |
CN109447998A (zh) * | 2018-09-29 | 2019-03-08 | 华中科技大学 | 基于PCANet深度学习模型下的自动分割方法 |
CN109993750A (zh) * | 2017-12-29 | 2019-07-09 | 中国科学院深圳先进技术研究院 | 一种手腕骨的分割识别方法及系统、终端及可读存储介质 |
CN110188817A (zh) * | 2019-05-28 | 2019-08-30 | 厦门大学 | 一种基于深度学习的实时高性能街景图像语义分割方法 |
CN110288611A (zh) * | 2019-06-12 | 2019-09-27 | 上海工程技术大学 | 基于注意力机制和全卷积神经网络的冠状血管分割方法 |
WO2019237646A1 (zh) * | 2018-06-14 | 2019-12-19 | 清华大学深圳研究生院 | 一种基于深度学习和语义分割的图像检索方法 |
CN111259905A (zh) * | 2020-01-17 | 2020-06-09 | 山西大学 | 一种基于下采样的特征融合遥感图像语义分割方法 |
WO2020229585A1 (en) * | 2019-05-16 | 2020-11-19 | Basf Se | System and method for plant disease detection support |
-
2020
- 2020-12-09 CN CN202011426154.9A patent/CN112365514A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104599270A (zh) * | 2015-01-18 | 2015-05-06 | 北京工业大学 | 一种基于改进水平集算法的乳腺肿瘤超声图像分割方法 |
CN109993750A (zh) * | 2017-12-29 | 2019-07-09 | 中国科学院深圳先进技术研究院 | 一种手腕骨的分割识别方法及系统、终端及可读存储介质 |
CN109035197A (zh) * | 2018-05-31 | 2018-12-18 | 东南大学 | 基于三维卷积神经网络的ct造影图像肾脏肿瘤分割方法及系统 |
WO2019237646A1 (zh) * | 2018-06-14 | 2019-12-19 | 清华大学深圳研究生院 | 一种基于深度学习和语义分割的图像检索方法 |
CN109447998A (zh) * | 2018-09-29 | 2019-03-08 | 华中科技大学 | 基于PCANet深度学习模型下的自动分割方法 |
WO2020229585A1 (en) * | 2019-05-16 | 2020-11-19 | Basf Se | System and method for plant disease detection support |
CN110188817A (zh) * | 2019-05-28 | 2019-08-30 | 厦门大学 | 一种基于深度学习的实时高性能街景图像语义分割方法 |
CN110288611A (zh) * | 2019-06-12 | 2019-09-27 | 上海工程技术大学 | 基于注意力机制和全卷积神经网络的冠状血管分割方法 |
CN111259905A (zh) * | 2020-01-17 | 2020-06-09 | 山西大学 | 一种基于下采样的特征融合遥感图像语义分割方法 |
Non-Patent Citations (3)
Title |
---|
HENGSHUANG ZHAO等: "Pyramid Scene Parsing Network", 《COMPUTER VISION AND PATTERN RECOGNITION》 * |
MARK SANDLER等: "MobileNetV2: Inverted Residuals and Linear Bottlenecks", 《 COMPUTER VISION AND PATTERN RECOGNITION》 * |
孟琭; 徐磊; 郭嘉阳: "一种基于改进的MobileNetV2网络语义分割算法", 《电子学报》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112991281A (zh) * | 2021-03-03 | 2021-06-18 | 望知科技(深圳)有限公司 | 视觉检测方法、系统、电子设备及介质 |
CN112991281B (zh) * | 2021-03-03 | 2023-12-12 | 望知科技(深圳)有限公司 | 视觉检测方法、系统、电子设备及介质 |
CN113077418A (zh) * | 2021-03-18 | 2021-07-06 | 心医国际数字医疗系统(大连)有限公司 | 基于卷积神经网络的ct影像骨骼分割方法及装置 |
CN113052106A (zh) * | 2021-04-01 | 2021-06-29 | 重庆大学 | 一种基于PSPNet网络的飞机起降跑道识别方法 |
CN113159057A (zh) * | 2021-04-01 | 2021-07-23 | 湖北工业大学 | 一种图像语义分割方法和计算机设备 |
CN113076904A (zh) * | 2021-04-15 | 2021-07-06 | 华南理工大学 | 一种基于深度学习的室外停车场空余车位检测方法 |
CN113538456A (zh) * | 2021-06-22 | 2021-10-22 | 复旦大学 | 基于gan网络的图像软分割及背景替换系统 |
CN113538456B (zh) * | 2021-06-22 | 2022-03-18 | 复旦大学 | 基于gan网络的图像软分割及背景替换系统 |
CN113343974B (zh) * | 2021-07-06 | 2022-10-11 | 国网天津市电力公司电力科学研究院 | 考虑模态间语义距离度量的多模态融合分类优化方法 |
CN113343974A (zh) * | 2021-07-06 | 2021-09-03 | 国网天津市电力公司 | 考虑模态间语义距离度量的多模态融合分类优化方法 |
CN113744227A (zh) * | 2021-08-27 | 2021-12-03 | 北京航空航天大学 | 一种基于多种易混淆小部件的语义分割方法 |
CN113744227B (zh) * | 2021-08-27 | 2023-10-13 | 北京航空航天大学 | 一种基于多种易混淆小部件的语义分割方法 |
CN114140844A (zh) * | 2021-11-12 | 2022-03-04 | 北京海鑫智圣技术有限公司 | 人脸静默活体检测方法、装置、电子设备及存储介质 |
CN114772208A (zh) * | 2022-03-31 | 2022-07-22 | 东北大学 | 一种基于图像分割的非接触式皮带撕裂检测系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112365514A (zh) | 基于改进PSPNet的语义分割方法 | |
CN110335290B (zh) | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN110648334A (zh) | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 | |
CN110738697A (zh) | 基于深度学习的单目深度估计方法 | |
CN113240580A (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN112001960A (zh) | 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法 | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
CN111046917B (zh) | 基于深度神经网络的对象性增强目标检测方法 | |
CN105657402A (zh) | 一种深度图恢复方法 | |
CN111047544B (zh) | 一种基于非线性退化模型的饱和图像去模糊方法 | |
CN111931857B (zh) | 一种基于mscff的低照度目标检测方法 | |
CN112270366B (zh) | 基于自适应多特征融合的微小目标检测方法 | |
CN111861886B (zh) | 一种基于多尺度反馈网络的图像超分辨率重建方法 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN111986085A (zh) | 一种基于深度反馈注意力网络系统的图像超分辨率方法 | |
CN117456330A (zh) | 一种基于MSFAF-Net的低照度目标检测方法 | |
US11367206B2 (en) | Edge-guided ranking loss for monocular depth prediction | |
CN111739037A (zh) | 一种针对室内场景rgb-d图像的语义分割方法 | |
Zhang et al. | MFFE: multi-scale feature fusion enhanced net for image dehazing | |
Wang et al. | Feature enhancement: predict more detailed and crisper edges | |
CN118229569A (zh) | 基于模糊扩散模型的文档图像透射去除方法及装置 | |
Wang et al. | Face super-resolution via hierarchical multi-scale residual fusion network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210212 |
|
RJ01 | Rejection of invention patent application after publication |