CN112418176A - 一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法 - Google Patents
一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法 Download PDFInfo
- Publication number
- CN112418176A CN112418176A CN202011449182.2A CN202011449182A CN112418176A CN 112418176 A CN112418176 A CN 112418176A CN 202011449182 A CN202011449182 A CN 202011449182A CN 112418176 A CN112418176 A CN 112418176A
- Authority
- CN
- China
- Prior art keywords
- feature
- convolution
- feature map
- attention
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法,采用ResNet提取特征,将ResNet各阶段提取的特征分别引入到空间金字塔池化结构中提取目标的多尺度信息,在特征提取的最后部分引入双重注意力模块,增强特征表示能力,并采用多层级特征融合策略将池化后特征和双重注意力模块获取的特征进行特征融合,实现遥感图像的精细化分类。
Description
技术领域
本发明属于数字图像处理技术领域,属于遥感图像地物分类技术,尤其涉及一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法。
背景技术
遥感图像具有覆盖面积大、反映地表直观等特点,遥感图像地物分类广泛应用于土地监测、环境监测、地图制作等。
目前主流的图像语义分割方法大致可以分为两类,传统机器学习的方法和基于深度学习的方法。传统机器学习的方法使用对象的颜色、纹理、形状和空间位置关系来提取特征,然使用聚类、分类等算法对图像进行分割。但这些方法很大程度依赖手工设计的特征,特征表达能力有限,在复杂场景的图像分割效果显示了瓶颈。近年来,基于深度学习的方法,被认为是当前解决图像语义分割问题最有前景的一种方法。典型的基于深度学习的方法有:2015年提出的全卷积神经网络(fully convolutional neural network,FCN),首次实现了端对端的图像分割,并在自然场景图像中取得了较好的效果。对称的编码-解码网络U-Net,在编码阶段提取图像特征,在解码阶段恢复特征图的分辨率。DeconvNet网络通过反卷积和上池化操作获得更精细的分割结果。DeepLab系列网络提出空洞卷积结构,在增大感受野的同时保持特征图分辨率不变。
现有图像语义分割方法都在一定程度改善或解决了复杂图像场景的语义分割问题,与自然图像相比,遥感图像中地物复杂多样,利用图像语义分割实现遥感图像地物分类的技术仍需提升。
发明内容
本发明所要解决的技术问题在于提供一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法,采用图像语义分割的方式实现遥感图像地物分类。
为实现上述目的,本发明采用以下技术方案:
基于金字塔池化多级特征融合网络的遥感图像语义分割方法,其特征在于,所构建的网络包括训练样本集的准备、基于ResNet图像特征提取、金字塔池化、双重注意力处理、特征融合与预测步骤;
所述训练样本集的准备的过程为:将已分类标注的高分辨率遥感图像按256×256大小随机裁剪出一系列图像块,作为初始样本集,采用旋转、翻转、加噪等方式对初始样本集进行增广,得到训练样本集;
所述于ResNet图像特征提取的过程为:训练样本集中的图像块逐一输入到模型中,对模型进行训练,采用ResNet提取图像特征,ResNet主要包含Conv、Stage1、Stage2、Stage3、Stage4五个子步骤,每个子步骤的输出特征图分别记为:FM0、FM1、FM2、FM3、FM4;
所述金字塔池化的过程为:将特征图FM1、FM2、FM3、FM4分别作为金字塔池化结构的输入,从而提取不同尺度上下文信息,特征图FM1、FM2、FM3、FM4经过金字塔池化结构后的输出分别记为:C1、C2、C3、C4;
所述双重注意力处理的过程为:双重注意力处理分为上下两个注意力模块,分别为位置和通道注意力,特征图FM4分别作为上下两个注意力模块的输入,经过这两个注意力模块后,得到注意力模块融合输出特征图AFM;
所述特征融合与预测,其过程为:将通过双重注意力网络、金字塔池化和卷积操作得到的特征图进行融合,通过softmax层计算出每个像素点在不同通道的概率值,最大概率所在通道判为这个像素点的预测类别。
进一步地,还包括反向传播步骤:将预测的类别再与真实分类标签进行比较差距,即得到损失loss,根据损失对网络模型中的参数进行更新。
进一步地,ResNet图像特征提取五个子步骤具体为:其中网络层数为50,使用三层卷积的残差块结构;
子步骤Conv:filters为64,kernel为7×7,strides为2,padding为“valid”,Conv所得的特征图记为FM0;
子步骤Stage1:FM0作为输入,经过最大池化(maxpool)操作、一个步长为1的conv_block()模块、两个identity_block()模块得到Stage1的特征,涉及的filters列表是[64,64,256],Stage1所得特征图记为FM1;
子步骤Stage2:FM1作为输入,经过一个步长为2的conv_block()模块、三个identity_block()模块得到Stage2的特征图,涉及的filters列表是[128,128,512],Stage2所得特征图记为FM2;
子步骤Stage3:FM2作为输入,经过一个步长为1的conv_block()模块、5个identity_block()模块得到Stage3的特征图,涉及的filters列表是[256,256,1024]、扩张率列表是[1,2,1],Stage3所得特征图记为FM3;
子步骤Stage4:FM3作为输入,经过一个步长为1的conv_block()模块、2个identity_block()模块得到Stage4的特征图,涉及的filters列表是[512,512,2048]、扩张率列表是[1,4,1],Stage4所得特征图记为FM4;
其中,最大池化(maxpool)操作细节为:池化核(pool_size)为2×2,strides为2,padding为“same”;
其中,conv_block()模块包含四层卷积操作和一个Add()操作,四层卷积的卷积核大小分别是1×1、3×3、1×1、1×1,每一层的filters分别从每个部分的filters列表中依次取值,类似的,扩张率(dilation_rate)也分别从每个部分的扩张率列表中依次取值,前两层卷积操作后面分别都紧跟归一化、激活函数(relu)操作,第三层卷积后面只跟归一化操作,第四层卷积的输入与第一层卷积的输入是相同的,第四层卷积后面只跟归一化操作,将第三层卷积得到特征图与第四层得到的特征图进行Add()求和操作,最后进行一步激活函数(relu)操作;
其中,identity_block()模块有三层卷积操作和一个Add()操作,三层卷积的卷积核大小分别是1×1、3×3、1×1,三层卷积的扩张率(dilation_rate)分别从每个部分的扩张率列表中依次取值,前两层卷积操作后都紧跟归一化、激活函数(relu)操作,第三层卷积后只有归一化操作,然后是将经过conv_block()模块得到的特征图与第三卷基层的输出特征图进行Add()操作,Add()操作后进行归一化处理。
进一步地,所述金字塔池化的过程中特征图FM1、FM2、FM3、FM4经过金字塔池化结构后的输出特征C1、C2、C3、C4的具体步骤为:输入的特征图为FMn,输出特征图为Cn,n为1、2、3、4,
(1)将输入的特征图FMn通过平均池化层使得金字塔每层的大小分别为1×1,4×4,16×16;
(2)将金字塔每层通过1×1卷积降低通道数为原来的1/3,得到特征图分别为P1,P2,P3;
(3)将P1,P2,P3进行双线性插值填充上采样到原来FMn尺寸大小;
(4)将上采样后的特征图与FMn进行通道拼接(Concat)得到通道数增加1倍的特征图P;
(5)利用1×1卷积核将拼接后的特征图P进行卷积操作降低通道得到与输入特征图FMn通道数一致的特征图Cn。
进一步地,所述双重注意力处理的过程中位置注意力具体为:
(1)特征图FM4∈R^(C×H×W),分别通过3个卷积层得到特征图B、C、D,并将它们reshape为C×N,其中N=H×W;
(2)将reshape后的B的转置(N×C)与reshape后的C(C×N)相乘,再通过softmax得到任意两点特征之间的关联强度矩阵S;
(3)在reshape后的D(C×N)和S的转置(N×N)之间执行矩阵乘法,再乘以尺度系数α,再reshape为原来形状,与A相加得到最后的输出Ep,其中α初始化为0,并逐渐的学习得到更大的权重;
通道注意力具体为:
(1)分别对FM4做reshape(C×N),reshape与transpose(N×C)操作;
(2)将第一步得到的两个特征图相乘,再通过softmax得到通道注意力图X;
(3)把X的转置(C×C)与reshape的A(C×N)做矩阵乘法,再乘以尺度系数β,再reshape为原来形状,与A相加得到特征图Ec,其中β初始化为0,并逐渐的学习得到更大的权重;
所述双重注意力处理的过程中将通过位置注意力得到特征图Ep和通道注意力得到特征图Ec进行相加融合得到特征图AFM。
进一步地,所述特征融合与预测过程中将通过双重注意力网络、金字塔池化和卷积操作得到的特征图进行融合,具体为:
(1)双重注意力模块得到的特征图AMF与ResNet中Stage4经过金字塔池化结构的输出特征图C4,各自通过1x1卷积降低到相同通道数量,并进行Add()操作得到特征图D4;
(2)采用类似操作逐层向前融合,分别得到特征图D3、D2、D1,其中,D3与C2以及D2与C1进行Add()后,需进行2倍的上采样操作;
(3)为了充分利用低层特征,同时考虑到最低层通道数量通常较少,将特征图D1与ResNet步长为2的下采样后的特征图FM0进行通道叠加融,具体为Concat()操作;
(4)对经过(3)得到的特征图进行2倍上采样还原到输入尺寸大小,再通过1×1卷积将通道数与类别数保持一致,通过softmax层计算出每个像素点在不同通道的概率值,最大概率所在通道就是这个像素点的类别,实现每个类别的预测,得到分割结果。
本发明的有益效果:
1.遥感图像中地物复杂多样,目标尺寸大小不一,本发明引入金字塔池化结构,针对不同层级的特征,使用金字塔池化结构提取图像多尺度信息,有利于适应目标尺度变化。
2.本发明在特征提取后加入双重注意力模块,对空间和通道维度上语义关系进行建模,并对特征提取各阶段的输出特征逐步融合不同层级特征,充分利用低层空间信息和高层语义信息,有利于改善小目标分割效果。
附图说明
图1为本发明的总体处理框图;
图2为金字塔池化结构示意图;
图3为双重注意力模块示意图;
图4a为遥感图像示例图1;
图4b为遥感图像示例图1的实际地物分类结果示例图;
图4c为遥感图像示例图1在本发明方法下的语义分割结果;
图5a为遥感图像示例图2;
图5b为遥感图像示例图2的实际地物分类结果示例图;
图5c为遥感图像示例图2在本发明方法下的语义分割结果。
具体实施方式
下面结合附图及实施例对本发明作进一步说明。本发明所操作的对象为中高分辨率遥感图像,至少包含红、绿、蓝等波段的光谱信息,为训练发明所提出的模型需有一定数量的已标注遥感图像作为训练样本。具体实施过程,以一幅遥感图像及其对应的标注的处理过程为例进行说明,图1给出了本发明的总体处理框图,下面对本发明的具体实施步骤进行详细说明。本发明的实现共分为五个主要步骤,分别为:
步骤1:训练样本集的准备
模型训练需要大量的样本,本发明将已分类标注的高分辨率遥感图像按256×256大小随机裁剪出一系列图像块,作为初始样本集,采用旋转、翻转、加噪等方式对初始样本集进行增广,得到训练样本集,建议训练样本集数量大于10000,充足的训练样本有利于避免模型过拟合。
步骤2:ResNet图像特征提取
训练样本集中的图像块逐一输入到模型中,对模型进行训练。模型采用ResNet提取图像特征,其中网络层数为50,使用三层卷积的残差块结构,ResNet主要包含Conv、Stage1、Stage2、Stage3、Stage4五个子步骤,具体为:
子步骤Conv:filters为64,kernel为7×7,strides为2,padding为“valid”,Conv所得的特征图记为FM0;
子步骤Stage1:FM0作为输入,经过最大池化(maxpool)操作、一个步长为1的conv_block()模块、两个identity_block()模块得到Stage1的特征,涉及的filters列表是[64,64,256],Stage1所得特征图记为FM1;
子步骤Stage2:FM1作为输入,经过一个步长为2的conv_block()模块、三个identity_block()模块得到Stage2的特征图,涉及的filters列表是[128,128,512],Stage2所得特征图记为FM2;
子步骤Stage3:FM2作为输入,经过一个步长为1的conv_block()模块、5个identity_block()模块得到Stage3的特征图,涉及的filters列表是[256,256,1024]、扩张率列表是[1,2,1],Stage3所得特征图记为FM3;
子步骤Stage4:FM3作为输入,经过一个步长为1的conv_block()模块、2个identity_block()模块得到Stage4的特征图,涉及的filters列表是[512,512,2048]、扩张率列表是[1,4,1],Stage4所得特征图记为FM4;
其中,最大池化(maxpool)操作细节为:池化核(pool_size)为2×2,strides为2,padding为“same”;
其中,conv_block()模块包含四层卷积操作和一个Add()操作,四层卷积的卷积核大小分别是1×1、3×3、1×1、1×1,每一层的filters分别从每个部分的filters列表中依次取值,类似的,扩张率(dilation_rate)也分别从每个部分的扩张率列表中依次取值,前两层卷积操作后面分别都紧跟归一化、激活函数(relu)操作,第三层卷积后面只跟归一化操作,第四层卷积的输入与第一层卷积的输入是相同的,第四层卷积后面只跟归一化操作,将第三层卷积得到特征图与第四层得到的特征图进行Add()求和操作,最后进行一步激活函数(relu)操作;
其中,identity_block()模块有三层卷积操作和一个Add()操作,三层卷积的卷积核大小分别是1×1、3×3、1×1,三层卷积的扩张率(dilation_rate)分别从每个部分的扩张率列表中依次取值,前两层卷积操作后都紧跟归一化、激活函数(relu)操作,第三层卷积后只有归一化操作,然后是将经过conv_block()模块得到的特征图与第三卷基层的输出特征图进行Add()操作,Add()操作后进行归一化处理。
步骤3:金字塔池化
将步骤2中Stage1、Stage2、Stage3和Stage4四个子步骤的输出特征图FM1、FM2、FM3、FM4分别送入金字塔池化结构(图2),提取不同尺度上下文信息,以FM1为例,具体为:
(1)将输入的特征图FM1通过平均池化层使得金字塔每层的大小分别为1×1,4×4,16×16;
(2)将金字塔每层通过1×1卷积降低通道数为原来的1/3,得到特征图分别为P1,P2,P3;
(3)将P1,P2,P3进行双线性插值填充上采样到原来FM1尺寸大小;
(4)将上采样后的特征图与FM1进行通道拼接(Concat)得到通道数增加1倍的特征图P;
(5)利用1×1卷积核将拼接后的特征图P进行卷积操作降低通道得到与输入特征图FM1通道数一致的特征图C1。
步骤4:双重注意力处理
双重注意力模块示意图如图3所示,该模块分为上下两个注意力模块,分别为位置和通道注意力。步骤2中Stage4的输出特征图FM4作为本步骤的输入,分别经过这两个注意力模块得到注意力模块特征图AFM。
其中位置注意力具体为:
(1)特征图FM4∈R^(C×H×W),分别通过3个卷积层得到特征图B、C、D,并将它们reshape为C×N,其中N=H×W;
(2)将reshape后的B的转置(N×C)与reshape后的C(C×N)相乘,再通过softmax得到任意两点特征之间的关联强度矩阵S;
(3)在reshape后的D(C×N)和S的转置(N×N)之间执行矩阵乘法,再乘以尺度系数α,再reshape为原来形状,与A相加得到最后的输出Ep,其中α初始化为0,并逐渐的学习得到更大的权重。
其中通道注意力具体为:
(1)分别对FM4做reshape(C×N),reshape与transpose(N×C)操作;
(2)将第一步得到的两个特征图相乘,再通过softmax得到通道注意力图X;
(3)把X的转置(C×C)与reshape的A(C×N)做矩阵乘法,再乘以尺度系数β,再reshape为原来形状,与A相加得到特征图Ec,其中β初始化为0,并逐渐的学习得到更大的权重。
将通过位置注意力得到特征图Ep和通道注意力得到特征图Ec进行相加融合得到特征图AFM。
步骤5:特征融合与预测
将通过双重注意力网络、金字塔池化和卷积操作得到的特征图进行融合,具体为:
(1)双重注意力模块得到的特征图AMF与ResNet中Stage4经过金字塔池化结构的输出特征图C4,各自通过1x1卷积降低到相同通道数量,并进行Add()操作得到特征图D4;
(2)采用类似操作逐层向前融合,分别得到特征图D3、D2、D1(其中,D3与C2以及D2与C1进行Add()后,需进行2倍的上采样操作)。
(3)为了充分利用低层特征,同时考虑到最低层通道数量通常较少,将特征图D1与ResNet步长为2的下采样后的特征图FM0进行通道叠加融合(Concat()操作)。
(4)对经过(3)得到的特征图进行2倍上采样还原到输入尺寸大小,再通过1×1卷积将通道数与类别数保持一致,通过softmax层计算出每个像素点在不同通道的概率值,最大概率所在通道就是这个像素点的类别,实现每个类别的预测,得到分割结果。
步骤6:反向传播
将预测的类别再与标签(也就是真实分类)进行比较差距,即得到损失loss,根据损失对网络模型中的参数进行更新。
图4和图5给出了两幅遥感图像在本发明方法下的语义分割结果,其中图4a和图5a为遥感图像,图4b和图5b为实际地物分类结果,图4c和图5c为本发明方法下的语义分割结果,将遥感图像中的地物分为植被(草绿色)、建筑物(黄绿色)、水体(蓝色)、道路(棕色)、其他类(黑色)五类。
本发明所提供的遥感图像语义分割方法,主要是为了提高遥感图像地物分类而专门提出。但显然,本图像语义分割方法适用于场景等图像的语义分类。
Claims (6)
1.基于金字塔池化多级特征融合网络的遥感图像语义分割方法,其特征在于,所构建的网络包括训练样本集的准备、基于ResNet图像特征提取、金字塔池化、双重注意力处理、特征融合与预测步骤;
所述训练样本集的准备的过程为:将已分类标注的高分辨率遥感图像按256×256大小随机裁剪出一系列图像块,作为初始样本集,采用旋转、翻转、加噪等方式对初始样本集进行增广,得到训练样本集;
所述于ResNet图像特征提取的过程为:训练样本集中的图像块逐一输入到模型中,对模型进行训练,采用ResNet提取图像特征,ResNet主要包含Conv、Stage1、Stage2、Stage3、Stage4五个子步骤,每个子步骤的输出特征图分别记为:FM0、FM1、FM2、FM3、FM4;
所述金字塔池化的过程为:将特征图FM1、FM2、FM3、FM4分别作为金字塔池化结构的输入,从而提取不同尺度上下文信息,特征图FM1、FM2、FM3、FM4经过金字塔池化结构后的输出分别记为:C1、C2、C3、C4;
所述双重注意力处理的过程为:双重注意力处理分为上下两个注意力模块,分别为位置和通道注意力,特征图FM4分别作为上下两个注意力模块的输入,经过这两个注意力模块后,得到注意力模块融合输出特征图AFM;
所述特征融合与预测,其过程为:将通过双重注意力网络、金字塔池化和卷积操作得到的特征图进行融合,通过softmax层计算出每个像素点在不同通道的概率值,最大概率所在通道判为这个像素点的预测类别。
2.根据权利要求1所述的基于金字塔池化多级特征融合网络的遥感图像语义分割方法,其特征在于,还包括反向传播步骤:将预测的类别再与真实分类标签进行比较差距,即得到损失loss,根据损失对网络模型中的参数进行更新。
3.根据权利要求1或2所述的基于金字塔池化多级特征融合网络的遥感图像语义分割方法,其特征在于,ResNet图像特征提取五个子步骤具体为:其中网络层数为50,使用三层卷积的残差块结构;
子步骤Conv:filters为64,kernel为7×7,strides为2,padding为“valid”,Conv所得的特征图记为FM0;
子步骤Stage1:FM0作为输入,经过最大池化(maxpool)操作、一个步长为1的conv_block()模块、两个identity_block()模块得到Stage1的特征,涉及的filters列表是[64,64,256],Stage1所得特征图记为FM1;
子步骤Stage2:FM1作为输入,经过一个步长为2的conv_block()模块、三个identity_block()模块得到Stage2的特征图,涉及的filters列表是[128,128,512],Stage2所得特征图记为FM2;
子步骤Stage3:FM2作为输入,经过一个步长为1的conv_block()模块、5个identity_block()模块得到Stage3的特征图,涉及的filters列表是[256,256,1024]、扩张率列表是[1,2,1],Stage3所得特征图记为FM3;
子步骤Stage4:FM3作为输入,经过一个步长为1的conv_block()模块、2个identity_block()模块得到Stage4的特征图,涉及的filters列表是[512,512,2048]、扩张率列表是[1,4,1],Stage4所得特征图记为FM4;
其中,最大池化(maxpool)操作细节为:池化核(pool_size)为2×2,strides为2,padding为“same”;
其中,conv_block()模块包含四层卷积操作和一个Add()操作,四层卷积的卷积核大小分别是1×1、3×3、1×1、1×1,每一层的filters分别从每个部分的filters列表中依次取值,类似的,扩张率(dilation_rate)也分别从每个部分的扩张率列表中依次取值,前两层卷积操作后面分别都紧跟归一化、激活函数(relu)操作,第三层卷积后面只跟归一化操作,第四层卷积的输入与第一层卷积的输入是相同的,第四层卷积后面只跟归一化操作,将第三层卷积得到特征图与第四层得到的特征图进行Add()求和操作,最后进行一步激活函数(relu)操作;
其中,identity_block()模块有三层卷积操作和一个Add()操作,三层卷积的卷积核大小分别是1×1、3×3、1×1,三层卷积的扩张率(dilation_rate)分别从每个部分的扩张率列表中依次取值,前两层卷积操作后都紧跟归一化、激活函数(relu)操作,第三层卷积后只有归一化操作,然后是将经过conv_block()模块得到的特征图与第三卷基层的输出特征图进行Add()操作,Add()操作后进行归一化处理。
4.根据权利要求1或2所述的基于金字塔池化多级特征融合网络的遥感图像语义分割方法,其特征在于,所述金字塔池化的过程中特征图FM1、FM2、FM3、FM4经过金字塔池化结构后的输出特征C1、C2、C3、C4的具体步骤为:输入的特征图为FMn,输出特征图为Cn,n为1、2、3、4,
(1)将输入的特征图FMn通过平均池化层使得金字塔每层的大小分别为1×1,4×4,16×16;
(2)将金字塔每层通过1×1卷积降低通道数为原来的1/3,得到特征图分别为P1,P2,P3;
(3)将P1,P2,P3进行双线性插值填充上采样到原来FMn尺寸大小;
(4)将上采样后的特征图与FMn进行通道拼接(Concat)得到通道数增加1倍的特征图P;
(5)利用1×1卷积核将拼接后的特征图P进行卷积操作降低通道得到与输入特征图FMn通道数一致的特征图Cn。
5.根据权利要求1或2所述的基于金字塔池化多级特征融合网络的遥感图像语义分割方法,其特征在于,所述双重注意力处理的过程中位置注意力具体为:
(1)特征图FM4∈R^(C×H×W),分别通过3个卷积层得到特征图B、C、D,并将它们reshape为C×N,其中N=H×W;
(2)将reshape后的B的转置(N×C)与reshape后的C(C×N)相乘,再通过softmax得到任意两点特征之间的关联强度矩阵S;
(3)在reshape后的D(C×N)和S的转置(N×N)之间执行矩阵乘法,再乘以尺度系数α,再reshape为原来形状,与A相加得到最后的输出Ep,其中α初始化为0,并逐渐的学习得到更大的权重;
通道注意力具体为:
(1)分别对FM4做reshape(C×N),reshape与transpose(N×C)操作;
(2)将第一步得到的两个特征图相乘,再通过softmax得到通道注意力图X;
(3)把X的转置(C×C)与reshape的A(C×N)做矩阵乘法,再乘以尺度系数β,再reshape为原来形状,与A相加得到特征图Ec,其中β初始化为0,并逐渐的学习得到更大的权重;
所述双重注意力处理的过程中将通过位置注意力得到特征图Ep和通道注意力得到特征图Ec进行相加融合得到特征图AFM。
6.根据权利要求1或2所述的基于金字塔池化多级特征融合网络的遥感图像语义分割方法,其特征在于,所述特征融合与预测过程中将通过双重注意力网络、金字塔池化和卷积操作得到的特征图进行融合,具体为:
(1)双重注意力模块得到的特征图AMF与ResNet中Stage4经过金字塔池化结构的输出特征图C4,各自通过1x1卷积降低到相同通道数量,并进行Add()操作得到特征图D4;
(2)采用类似操作逐层向前融合,分别得到特征图D3、D2、D1,其中,D3与C2以及D2与C1进行Add()后,需进行2倍的上采样操作;
(3)为了充分利用低层特征,同时考虑到最低层通道数量通常较少,将特征图D1与ResNet步长为2的下采样后的特征图FM0进行通道叠加融,具体为Concat()操作;
(4)对经过(3)得到的特征图进行2倍上采样还原到输入尺寸大小,再通过1×1卷积将通道数与类别数保持一致,通过softmax层计算出每个像素点在不同通道的概率值,最大概率所在通道就是这个像素点的类别,实现每个类别的预测,得到分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011449182.2A CN112418176A (zh) | 2020-12-09 | 2020-12-09 | 一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011449182.2A CN112418176A (zh) | 2020-12-09 | 2020-12-09 | 一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112418176A true CN112418176A (zh) | 2021-02-26 |
Family
ID=74776441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011449182.2A Pending CN112418176A (zh) | 2020-12-09 | 2020-12-09 | 一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112418176A (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819871A (zh) * | 2021-03-02 | 2021-05-18 | 华融融通(北京)科技有限公司 | 一种基于直线分割的表格图像配准方法 |
CN113111711A (zh) * | 2021-03-11 | 2021-07-13 | 浙江理工大学 | 一种基于双线性和空间金字塔的池化方法 |
CN113128386A (zh) * | 2021-04-13 | 2021-07-16 | 深圳市锐明技术股份有限公司 | 一种障碍物识别方法、障碍物识别装置及电子设备 |
CN113158881A (zh) * | 2021-04-19 | 2021-07-23 | 电子科技大学 | 一种基于注意力机制的跨域行人重识别方法 |
CN113192030A (zh) * | 2021-04-29 | 2021-07-30 | 华中科技大学 | 一种遥感图像描述生成方法及系统 |
CN113191390A (zh) * | 2021-04-01 | 2021-07-30 | 华中科技大学 | 一种图像分类模型的构建方法、图像分类方法及存储介质 |
CN113222904A (zh) * | 2021-04-21 | 2021-08-06 | 重庆邮电大学 | 改进PoolNet网络结构的混凝土路面裂缝检测方法 |
CN113298825A (zh) * | 2021-06-09 | 2021-08-24 | 东北大学 | 一种基于MSF-Net网络的图像分割方法 |
CN113326847A (zh) * | 2021-06-04 | 2021-08-31 | 天津大学 | 一种基于全卷积神经网络的遥感图像语义分割方法及装置 |
CN113344951A (zh) * | 2021-05-21 | 2021-09-03 | 北京工业大学 | 一种边界感知双重注意力引导的肝段分割方法 |
CN113435288A (zh) * | 2021-06-21 | 2021-09-24 | 南京航空航天大学 | 一种基于mff-ma模块的sar图像舰船目标识别方法 |
CN113744279A (zh) * | 2021-06-09 | 2021-12-03 | 东北大学 | 一种基于FAF-Net网络的图像分割方法 |
CN113869181A (zh) * | 2021-09-24 | 2021-12-31 | 电子科技大学 | 一种选择池化核结构的无人机目标检测方法 |
CN113902750A (zh) * | 2021-10-09 | 2022-01-07 | 中北大学 | 图像处理方法、装置、电子设备及存储介质 |
CN114419449A (zh) * | 2022-03-28 | 2022-04-29 | 成都信息工程大学 | 一种自注意力多尺度特征融合的遥感图像语义分割方法 |
CN114494910A (zh) * | 2022-04-18 | 2022-05-13 | 陕西自然资源勘测规划设计院有限公司 | 一种基于遥感图像的设施农用地多类别识别与分类方法 |
CN114550002A (zh) * | 2022-01-12 | 2022-05-27 | 山东锋士信息技术有限公司 | 基于改进U-Net的农作物遥感图像分类方法及系统 |
CN114596291A (zh) * | 2022-03-11 | 2022-06-07 | 西安交通大学 | 基于深度学习和自注意力机制的道路缺陷检测方法 |
CN114842206A (zh) * | 2022-07-04 | 2022-08-02 | 江西师范大学 | 基于双层全局卷积的遥感图像语义分割模型及方法 |
CN114913325A (zh) * | 2022-03-24 | 2022-08-16 | 北京百度网讯科技有限公司 | 语义分割方法、装置及计算机程序产品 |
CN115170985A (zh) * | 2022-07-25 | 2022-10-11 | 贵州华数云谷科技有限公司 | 一种基于阈值注意力的遥感图像语义分割网络及分割方法 |
WO2023039959A1 (zh) * | 2021-09-17 | 2023-03-23 | 海南大学 | 一种基于金字塔机制的遥感影像海洋与非海区域分割方法 |
CN116030050A (zh) * | 2023-03-27 | 2023-04-28 | 浙江大学 | 基于无人机与深度学习的风机表面缺陷在线检测分割方法 |
CN116188479A (zh) * | 2023-02-21 | 2023-05-30 | 北京长木谷医疗科技有限公司 | 基于深度学习的髋关节图像分割方法及系统 |
CN116188492A (zh) * | 2023-02-21 | 2023-05-30 | 北京长木谷医疗科技有限公司 | 髋关节分割方法、装置、电子设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102496151A (zh) * | 2011-12-08 | 2012-06-13 | 南京大学 | 一种用于高分辨率遥感图像多尺度分割的方法 |
CN109325534A (zh) * | 2018-09-22 | 2019-02-12 | 天津大学 | 一种基于双向多尺度金字塔的语义分割方法 |
CN110163878A (zh) * | 2019-05-28 | 2019-08-23 | 四川智盈科技有限公司 | 一种基于双重多尺度注意力机制的图像语义分割方法 |
US20200202128A1 (en) * | 2018-12-21 | 2020-06-25 | Samsung Electronics Co., Ltd. | System and method for providing dominant scene classification by semantic segmentation |
-
2020
- 2020-12-09 CN CN202011449182.2A patent/CN112418176A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102496151A (zh) * | 2011-12-08 | 2012-06-13 | 南京大学 | 一种用于高分辨率遥感图像多尺度分割的方法 |
CN109325534A (zh) * | 2018-09-22 | 2019-02-12 | 天津大学 | 一种基于双向多尺度金字塔的语义分割方法 |
US20200202128A1 (en) * | 2018-12-21 | 2020-06-25 | Samsung Electronics Co., Ltd. | System and method for providing dominant scene classification by semantic segmentation |
CN110163878A (zh) * | 2019-05-28 | 2019-08-23 | 四川智盈科技有限公司 | 一种基于双重多尺度注意力机制的图像语义分割方法 |
Non-Patent Citations (2)
Title |
---|
JUN FU 等: ""Dual Attention Network for Scene Segmentation"", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
徐胜军 等: ""多尺度特征融合空洞卷积ResNet遥感图像建筑物分割"", 《光学精密工程》 * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819871B (zh) * | 2021-03-02 | 2023-08-18 | 华融融通(北京)科技有限公司 | 一种基于直线分割的表格图像配准方法 |
CN112819871A (zh) * | 2021-03-02 | 2021-05-18 | 华融融通(北京)科技有限公司 | 一种基于直线分割的表格图像配准方法 |
CN113111711A (zh) * | 2021-03-11 | 2021-07-13 | 浙江理工大学 | 一种基于双线性和空间金字塔的池化方法 |
WO2022205502A1 (zh) * | 2021-04-01 | 2022-10-06 | 华中科技大学 | 一种图像分类模型的构建方法、图像分类方法及存储介质 |
CN113191390A (zh) * | 2021-04-01 | 2021-07-30 | 华中科技大学 | 一种图像分类模型的构建方法、图像分类方法及存储介质 |
CN113191390B (zh) * | 2021-04-01 | 2022-06-14 | 华中科技大学 | 一种图像分类模型的构建方法、图像分类方法及存储介质 |
CN113128386B (zh) * | 2021-04-13 | 2024-02-09 | 深圳市锐明技术股份有限公司 | 一种障碍物识别方法、障碍物识别装置及电子设备 |
CN113128386A (zh) * | 2021-04-13 | 2021-07-16 | 深圳市锐明技术股份有限公司 | 一种障碍物识别方法、障碍物识别装置及电子设备 |
CN113158881A (zh) * | 2021-04-19 | 2021-07-23 | 电子科技大学 | 一种基于注意力机制的跨域行人重识别方法 |
CN113222904A (zh) * | 2021-04-21 | 2021-08-06 | 重庆邮电大学 | 改进PoolNet网络结构的混凝土路面裂缝检测方法 |
CN113192030B (zh) * | 2021-04-29 | 2022-05-13 | 华中科技大学 | 一种遥感图像描述生成方法及系统 |
CN113192030A (zh) * | 2021-04-29 | 2021-07-30 | 华中科技大学 | 一种遥感图像描述生成方法及系统 |
CN113344951A (zh) * | 2021-05-21 | 2021-09-03 | 北京工业大学 | 一种边界感知双重注意力引导的肝段分割方法 |
CN113344951B (zh) * | 2021-05-21 | 2024-05-28 | 北京工业大学 | 一种边界感知双重注意力引导的肝段分割方法 |
CN113326847A (zh) * | 2021-06-04 | 2021-08-31 | 天津大学 | 一种基于全卷积神经网络的遥感图像语义分割方法及装置 |
CN113298825A (zh) * | 2021-06-09 | 2021-08-24 | 东北大学 | 一种基于MSF-Net网络的图像分割方法 |
CN113744279B (zh) * | 2021-06-09 | 2023-11-14 | 东北大学 | 一种基于FAF-Net网络的图像分割方法 |
CN113298825B (zh) * | 2021-06-09 | 2023-11-14 | 东北大学 | 一种基于MSF-Net网络的图像分割方法 |
CN113744279A (zh) * | 2021-06-09 | 2021-12-03 | 东北大学 | 一种基于FAF-Net网络的图像分割方法 |
CN113435288A (zh) * | 2021-06-21 | 2021-09-24 | 南京航空航天大学 | 一种基于mff-ma模块的sar图像舰船目标识别方法 |
WO2023039959A1 (zh) * | 2021-09-17 | 2023-03-23 | 海南大学 | 一种基于金字塔机制的遥感影像海洋与非海区域分割方法 |
CN113869181A (zh) * | 2021-09-24 | 2021-12-31 | 电子科技大学 | 一种选择池化核结构的无人机目标检测方法 |
CN113869181B (zh) * | 2021-09-24 | 2023-05-02 | 电子科技大学 | 一种选择池化核结构的无人机目标检测方法 |
CN113902750A (zh) * | 2021-10-09 | 2022-01-07 | 中北大学 | 图像处理方法、装置、电子设备及存储介质 |
CN114550002A (zh) * | 2022-01-12 | 2022-05-27 | 山东锋士信息技术有限公司 | 基于改进U-Net的农作物遥感图像分类方法及系统 |
CN114596291A (zh) * | 2022-03-11 | 2022-06-07 | 西安交通大学 | 基于深度学习和自注意力机制的道路缺陷检测方法 |
CN114913325B (zh) * | 2022-03-24 | 2024-05-10 | 北京百度网讯科技有限公司 | 语义分割方法、装置及计算机程序产品 |
CN114913325A (zh) * | 2022-03-24 | 2022-08-16 | 北京百度网讯科技有限公司 | 语义分割方法、装置及计算机程序产品 |
CN114419449A (zh) * | 2022-03-28 | 2022-04-29 | 成都信息工程大学 | 一种自注意力多尺度特征融合的遥感图像语义分割方法 |
CN114419449B (zh) * | 2022-03-28 | 2022-06-24 | 成都信息工程大学 | 一种自注意力多尺度特征融合的遥感图像语义分割方法 |
CN114494910A (zh) * | 2022-04-18 | 2022-05-13 | 陕西自然资源勘测规划设计院有限公司 | 一种基于遥感图像的设施农用地多类别识别与分类方法 |
CN114494910B (zh) * | 2022-04-18 | 2022-09-06 | 陕西自然资源勘测规划设计院有限公司 | 一种基于遥感图像的设施农用地多类别识别与分类方法 |
CN114842206A (zh) * | 2022-07-04 | 2022-08-02 | 江西师范大学 | 基于双层全局卷积的遥感图像语义分割模型及方法 |
CN115170985A (zh) * | 2022-07-25 | 2022-10-11 | 贵州华数云谷科技有限公司 | 一种基于阈值注意力的遥感图像语义分割网络及分割方法 |
CN116188479A (zh) * | 2023-02-21 | 2023-05-30 | 北京长木谷医疗科技有限公司 | 基于深度学习的髋关节图像分割方法及系统 |
CN116188479B (zh) * | 2023-02-21 | 2024-04-02 | 北京长木谷医疗科技股份有限公司 | 基于深度学习的髋关节图像分割方法及系统 |
CN116188492B (zh) * | 2023-02-21 | 2024-04-26 | 北京长木谷医疗科技股份有限公司 | 髋关节分割方法、装置、电子设备及计算机可读存储介质 |
CN116188492A (zh) * | 2023-02-21 | 2023-05-30 | 北京长木谷医疗科技有限公司 | 髋关节分割方法、装置、电子设备及计算机可读存储介质 |
CN116030050A (zh) * | 2023-03-27 | 2023-04-28 | 浙江大学 | 基于无人机与深度学习的风机表面缺陷在线检测分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112418176A (zh) | 一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法 | |
CN111259905B (zh) | 一种基于下采样的特征融合遥感图像语义分割方法 | |
CN111428781A (zh) | 遥感影像地物分类方法及系统 | |
CN111259828B (zh) | 基于高分辨率遥感图像多特征的识别方法 | |
CN111915530B (zh) | 一种基于端到端的雾霾浓度自适应神经网络图像去雾方法 | |
CN112991354A (zh) | 一种基于深度学习的高分辨率遥感影像语义分割方法 | |
CN109871798A (zh) | 一种基于卷积神经网络的遥感影像建筑物提取方法 | |
CN110555465B (zh) | 一种基于cnn与多特征融合的天气图像识别方法 | |
CN108830330B (zh) | 基于自适应特征融合残差网的多光谱图像分类方法 | |
CN109598269A (zh) | 一种基于多分辨率输入与金字塔膨胀卷积的语义分割方法 | |
CN108805874B (zh) | 一种基于卷积神经网络的多光谱图像语义切割方法 | |
CN112861690B (zh) | 多方法融合的遥感影像变化检测方法及系统 | |
CN116052016A (zh) | 基于深度学习的遥感图像云和云影的精细分割检测方法 | |
CN115131680B (zh) | 基于深度可分离卷积和跳跃连接的遥感影像水体提取方法 | |
CN108596818B (zh) | 一种基于多任务学习卷积神经网络的图像隐写分析方法 | |
CN114445442B (zh) | 基于非对称交叉融合的多光谱图像语义分割方法 | |
CN117058367A (zh) | 高分辨率遥感影像建筑物语义分割方法及装置 | |
CN117372881B (zh) | 一种烟叶病虫害智能识别方法、介质及系统 | |
CN110717921A (zh) | 改进型编码解码结构的全卷积神经网络语义分割方法 | |
CN110706239A (zh) | 融合全卷积神经网络与改进aspp模块的场景分割方法 | |
CN112950780A (zh) | 一种基于遥感影像的网络地图智能生成方法及系统 | |
CN113538457A (zh) | 利用多频动态空洞卷积的视频语义分割方法 | |
CN109741340A (zh) | 基于fcn-aspp网络的冰盖雷达图像冰层精细化分割方法 | |
CN113962878A (zh) | 一种低能见度图像去雾模型方法 | |
CN112560624A (zh) | 基于模型深度集成的高分遥感影像语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210226 |
|
WD01 | Invention patent application deemed withdrawn after publication |