CN115512103A - 多尺度融合遥感图像语义分割方法及系统 - Google Patents
多尺度融合遥感图像语义分割方法及系统 Download PDFInfo
- Publication number
- CN115512103A CN115512103A CN202211069786.3A CN202211069786A CN115512103A CN 115512103 A CN115512103 A CN 115512103A CN 202211069786 A CN202211069786 A CN 202211069786A CN 115512103 A CN115512103 A CN 115512103A
- Authority
- CN
- China
- Prior art keywords
- layer
- image
- semantic segmentation
- feature
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 120
- 230000004927 fusion Effects 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 11
- 239000000284 extract Substances 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012952 Resampling Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000003709 image segmentation Methods 0.000 abstract description 4
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明属于图像处理技术领域,公开了多尺度融合遥感图像语义分割方法及系统,所述方法包括以下步骤:构建用于遥感图像语义分割的多尺度遥感图像生成网络,所述的多尺度遥感图像生成网络包括三层语义分割模型和一个多尺度分辨率图像融合模块,每层语义分割模型采用编解码结构的卷积神经网络,包括多注意力模块、边缘监督模块;将原始图像做不同分辨率的处理并分别输入三层语义分割模型,三层语义分割模型提取全局和局部语义特征,同时提取边缘特征信息,输出不同分辨率的图像,经所述多尺度分辨率图像融合模块将三层分割模型的输出图像重采样到第二层输出图像的大小,融合三层语义分割模型输出图像,输出最终分割图像,实现精准的图像分割。
Description
技术领域
本发明属于图像处理技术领域,涉及注意力机制耦合边缘监督的多尺度遥感图像语义分割方法,特别涉及多尺度融合遥感图像语义分割方法及系统。
背景技术
语义分割是对图像中的所有像素进行分类,划分出每个像素所属的物体类别,使图像的每个区域具有语义特征。遥感图像语义分割是利用深度学习等图像处理技术对图像的每个像素进行分类,识别出图像中的河流、房屋等类别。遥感图像语义分割技术已被应用于城市规划、自然灾害监测和土地资源管理等图像内容分析和理解的众多应用领域。
前沿处理分割任务方法在神经网络的基础上或是考虑了多尺度的影响,或是引入了注意力机制,其优势在于学习了不同尺度图像的类别信息,丰富了困难样本的特征,提升图像语义分割的准确率。但是,这些方法存在以下问题:
第一,没有实现全局信息和局部信息的平衡。现有的多尺度分割方法多是应用在自然图像上,没有考虑遥感图像信息密集、覆盖范围大的特点,不仅导致模型对遥感图像的全局轮廓学习不充分,也容易导致模型对遥感图像的局部特征提取不足。
第二,缺乏上下文相关性信息,忽略了潜在特征对像素分类的影响。遥感图像具有丰富的信息、空间位置和相互影响的通道。现有的基于注意力机制的方法大多是仅考虑空间维和通道维的单一维度,或者同时考虑空间维度或通道维度;但是没有考虑到空间和通道两个维度的相互作用,忽略了不同维度的潜在特征,造成上下文信息缺失。
第三,像素类别边界信息缺失。现有的方法没有从类别边界的视角去考虑边界特征对图像分割带来的性能提升。忽略类别边界信息容易造成分割时的相邻边界像素误分类。例如,低植被类别的像素被分类为树木类别。因此,针对以上问题,本发明提出了一种新的注意力机制耦合边缘分割模块的多尺度融合遥感图像语义分割方法。
发明内容
针对现有技术存在的不足,本发明提供一种多尺度融合遥感图像语义分割方法及系统,通过注意力机制耦合边缘监督,学习通道维和空间维交互作用的潜在特征、学习边界特征,实现更精准的图像分割。
为了解决上述技术问题,本发明采用的技术方案是:
多尺度融合遥感图像语义分割方法,包括以下步骤:
步骤1、构建用于遥感图像语义分割的多尺度遥感图像生成网络,所述的多尺度遥感图像生成网络包括三层语义分割模型和一个多尺度分辨率图像融合模块,每层语义分割模型采用编解码结构的卷积神经网络,包括多注意力模块、边缘监督模块;
步骤2、将原始图像做不同分辨率的处理并分别输入三层语义分割模型,其中第一层的输入为原始图像上采样一次、第二层的输入为原始图像、第三层的输入为原始图像下采样一次;
步骤3、三层语义分割模型分别处理不同分辨率的输入图像,提取全局和局部语义特征,同时提取边缘特征信息,输出不同分辨率的图像,经所述多尺度分辨率图像融合模块将三层分割模型的输出图像重采样到第二层输出图像的大小,融合三层语义分割模型输出图像,输出最终分割图像。
进一步的,第二层语义分割模型采用SegNet结构,在SegNet的编码器和解码器分别增加一层卷积作为第一层语义分割模型,在SegNet的编码器和解码器分别减少一层卷积作为第三层语义分割模型。
进一步的,所述多注意力模块用于捕捉空间维度H×W和通道维度C之间的跨维度交互作用,输出相同尺度的图像,多注意力模块包括两个分支,在第一个分支中,将通道维度C转置为高度维度H,即将形状C×H×W转换为H×C×W,然后,对张量的高度维度H进行Z-Pool变换,实现特征压缩,将压缩后的特征权值与通道维度C和宽度维度W的信息融合,然后与卷积核进行卷积运算,得到形状为1×C×W的张量,经过归一化和sigmoid激活后,特征的形状保持不变;激活的特征与原始特征逐点相乘,然后排列回到原始形状C×H×W;第二个分支中,将通道维度C置换为宽度维度W,后续操作与第一分支相同;最后融合两个分支的特征,生成融合图像。
更进一步的,多注意力模块的两个分支融合时,每个分支计算每个像素的跨纬度注意权值ω,公式如下;
其中id表示特征向量的第i维,X为多注意力模块MM的输入向量,Perm表示特征向量的置换操作,CNA表示输入特征的卷积和归一化,然后由sigmoid函数激活;
由此,多注意力模块融合不同维度的交互信息,分别是通道维和高度维、通道维和宽度维,得到精细张量y,公式如下:
其中ω1和ω2是多重注意计算得到的两个跨维注意权值,X1是第一个分支的输入向量、X2是第二个分支的输入向量,y1和y2表示由多注意力模块的两个分支得到的精细特征向量。
进一步的,所述边缘监督模块ESM只用于解码器中的前三层输出,而不考虑解码器中最深层的边缘信息,
三层语义分割模型的每一层中,每个编码器阶段的前三层浅层神经网络的输出都添加边缘监督模块,边缘监督模块将边缘信息融合到神经网络的输出图像中;每个边缘监督模块包括三个分支,分别提取SegNet前三层的特征,提取的三层特征为大小相同的特征图,输出特征S为三个分支提取的特征串接而成;对于特征S,经过卷积得到特征映射P,接下来,使用Sobel算子计算标签图像的边缘信息te;然后,利用边缘信息te作为新的标签来训练边缘的损失,损失函数表示如下:
Ledge=-[teln(p)+(1-te)ln(1-p)]
其中te为标签图像的边缘信息,正样本的值为1,负样本的值为0,p表示预测结果的概率为正,Ledge为监督过程的损失值,通过Ledge的结果,反向传播引导边缘监督模块关注对象的边缘像素。
更进一步的,在第一个分支中,取SegNet第一卷积层提取的特征S1作为输入,张量的形状为64×256×256,首先,通过具有16个通道和内核大小1×1的卷积层,张量形状变成16×256×256,然后使用内核大小3×3的卷积层提取特征;在第二个分支中,取SegNet第二卷积层提取的特征S2作为输入,张量形状为64×128×128,首先,上采样得到形状为64×256×256的特征图S2u,其次,通过1×1卷积层降参数得到大小16×256×256的特征图,最后,通过3×3卷积层得到第二级输出;在第三个分支中,取SegNet第三卷积层提取的特征S3作为输入,张量形状为64×64×64,首先,上采样得到形状为64×256×256的特征图,其次,通过1×1卷积层降参数得到大小16×256×256的特征图,最后,通过3×3卷积层得到第三级输出;
对于特征S,采用核大小为1×1,通道数为2的卷积层进行卷积,得到形状为2×256×256的特征映射P,由于反向传播的训练机制,最终输出包含的语义信息特征P作用于特征S;
特征S通过8个卷积层生成形状为8×256×256的特征映射FC,核大小为1×1,将特征映射FC连接到解码器阶段的最后一个卷积层,从而将边缘信息中提取的特征整合到最终的结果中。
本发明还提供一种用于实施如前所述的多尺度融合遥感图像语义分割方法的系统,包括:
图像预处理模块,用于对原始图像做不同分辨率的处理,输入分割模型;
多尺度遥感图像生成网络,包括三层语义分割模型和一个多尺度分辨率图像融合模块,每层语义分割模型采用编解码结构的卷积神经网络,包括多注意力模块、边缘监督模块,所述多注意力模块用于捕获空间维和通道维的上下文信息并学习局部特征;所述边缘监督模块用于将边缘特征融合到卷积神经网络的输出图像中,所述多尺度分辨率图像融合模块用于将三层分割模型的输出图像重采样到第二层输出图像的大小,融合三层语义分割模型输出图像,输出最终分割图像。
与现有技术相比,本发明优点在于:
(1)本发明提出一种多注意力模块,可以学习通道维和空间维交互作用的潜在特征。设计了一种跨纬度交互的多注意力机制方法,多注意机制通过捕捉不同维度的交互作用来学习遥感图像通常被忽略的信息,增加空间维度中的注意权重有助于解释空间位置信息,信道维度分配权重有助于选择性地提高信道依赖性。遥感图像具有丰富的信息、空间位置和相互影响的通道。因此,学习遥感图像的潜在特征有助于建模的完整性,提升遥感图像语义分割精度。
(2)本发明提出一种边缘监督模块,关注边界信息,使不同类别之间的分割边界更加准确。本发明加入了边缘监督模块来训练不同类别之间的分割边界,可以学习更多的边界形状特征,且不丢失神经网络深层的语义信息,明确不同类别的划分边界,使语义分割模型对对象边界更敏感,提高了分割效果,实现更精确的分割图像。
(3)本发明提出一种多尺度卷积神经网络并提出了基于贝叶斯公式的多尺度的图像融合模块来融合多尺度分割图像信息,更好地捕捉了图像的多尺度特征和上下文信息,可靠地从多个尺度上分割目标,解决了不同尺度感知中目标缺失和空间连续性缺失的问题,获得了更精确的分割效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的网络结构示意图;
图2为本发明的多注意力模块的结构图;
图3为本发明的边缘监督模块的结构图;
图4为本发明的多尺度分辨率图像融合方法示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
实施例1
本实施例设计一种多尺度融合遥感图像语义分割方法,包括以下步骤:
步骤1、构建用于遥感图像语义分割的多尺度遥感图像生成网络(以下简称MIGN)。
结合图1所示的网络结构,所述的多尺度遥感图像生成网络包括三层语义分割模型和一个多尺度分辨率图像融合模块(MRIF),每层语义分割模型采用编解码结构的卷积神经网络,包括多注意力模块(MM)、边缘监督模块(ESM)。
每一层分割模型具有不同深度卷积层和不同分辨率的输入图像。输入图像的分辨率和分割模型的卷积层数随着网络层级的增加而降低,分割模型的第一级网络层最深,图像分辨率最高。在本实施例中,使用SegNet结构作为第二层语义分割模型,并使用原始分辨率图像作为输入。在实际应用时,主干模型除了采用segnet,采用其他模型做主干也可以。在SegNet的编码器和解码器分别增加一层卷积作为第一层语义分割模型,在SegNet的编码器和解码器分别减少一层卷积作为第三层语义分割模型。
多级网络结构使得分割模型能够同时学习全局上下文信息和局部细节信息。1)多注意力模块(MM):利用注意力机制学习通道维度与空间维度之间的相互作用,使模型学习到更丰富的信息和更鲜明的特征。2)边缘监督模块(ESM):学习卷积神经网络浅层的边缘特征,使模型学习更多的对象边界信息。3)多尺度分辨率图像融合模块(MRIF):融合MIGN的三层级输出特征。每层的MIGN都有不同的分辨率图像,多尺度分辨率图像融合模块(MRIF)将三层分割模型的输出重采样到第二层输出分割图的大小。
步骤2、将原始图像做不同分辨率的处理并分别输入三层语义分割模型,其中第一层的输入为原始图像上采样一次、第二层的输入为原始图像、第三层的输入为原始图像下采样一次。
步骤3、三层语义分割模型分别处理不同分辨率的输入图像,提取全局和局部语义特征,同时提取边缘特征信息,输出不同分辨率的图像,经所述多尺度分辨率图像融合模块(MRIF)将三层分割模型的输出图像重采样到第二层输出图像的大小,融合三层语义分割模型输出图像,输出最终分割图像。
下面分别介绍各模块。
(1)多注意力模块(MM)
为了减少空间特征的丢失和潜在信息的学习,本发明设计了一个多注意力模块(MM),该模块不仅可以捕获空间维和通道维的上下文信息,还可以学习潜在的局部特征。架构如图2所示,多注意力模块(MM)用于捕捉空间维度H×W和通道维度C之间的跨维度交互作用,输出相同尺度的图像。
下面详细说明Z-pool操作:Z-pool层对输入张量执行最大池化和最小池化操作,然后将池化的特征进行级联操作。这样,第0维的值就变成了2。例如,张量(C×H×W)经过Z-pool产生一个形状为(2×H×W)的张量。Z-pool层保留了输入张量的丰富特征,减少了计算中参数的数量。Z-Pool的公式如下:
Z-Pool(X0)=[MaxPool0d(X0)iAvgPool0d(X0)]
其中X0是输入张量,MaxPool和AvgPool分别表示最大池操作和最小池操作,0d表示张量作为第0维的维数。
多注意力模块防止了不同维度的特征相互独立,不同维度的信息可以相互作用,如图2所示,多注意力模块(MM)包括两个分支,在第一个分支中,将通道维度C转置为高度维度H,即将形状(C×H×W)转换为(H×C×W),然后,对张量的高度维度H进行Z-Pool变换,实现特征压缩,将压缩后的特征权值与通道维度C和宽度维度W的信息融合,然后与3×3的卷积核进行卷积运算,得到形状为(1×C×W)的张量,经过归一化和sigmoid激活后,特征的形状保持不变;激活的特征与原始特征逐点相乘,然后排列回到原始形状(C×H×W);第二个分支中,具有与第一个分支类似的操作,将通道维度C置换为宽度维度W,后续操作与第一分支相同;最后融合两个分支的特征,生成融合图像,供下一步操作使用。
多注意力模块(MM)的两个分支融合时,需要考虑像素之间的相关性,融合像素信息,生成融合图像。每个分支计算每个像素的跨纬度注意权值ω,公式如下;
其中id表示特征向量的第i维,X为多注意力模块(MM)的输入向量,Perm表示特征向量的置换操作,CNA表示输入特征的卷积和归一化,然后由sigmoid函数激活;
由此,多注意力模块融合不同维度(通道维和高度维、通道维和宽度维)的交互信息,得到精细张量y,公式如下:
其中ω1和ω2是多重注意计算得到的两个跨维注意权值,X1是第一个分支的输入向量、X2是第二个分支的输入向量,y1和y2表示由多注意力模块MM的两个分支得到的精细特征向量。
(2)边缘监督模块(ESM)
许多传统的方法往往只关注全局和局部的上下文信息,而忽略了边界信息。为了解决语义分割模型对对象边界不敏感的问题,本发明设计了一个边缘监督模块(ESM)来利用边界信息来指导分割模型的学习以获得更准确的分割图像。首先,从标签数据中提取边界信息;其次,基于神经网络中的前三层输出设计了对象边缘信息的监督方法;最后,边缘监督模块(ESM)将边缘信息融合到神经网络的输出图像中。边缘监督模块的总体架构如图3所示。
本发明中,利用Sobel算子来捕获图像标签中的边缘信息。使用这个模块,考虑两部分:一方面,较浅层的神经网络更关注图像的纹理和边缘信息,而深层神经网络则关注语义信息。另一方面,卷积神经网络的深层语义信息擅长解决语义鸿沟。众所周知,将纹理信息融合到深层阶段会削弱神经网络对深层语义信息的理解能力。因此,边缘监督模块(ESM)只用于解码器中的前三层输出,而不考虑解码器中最深层的边缘信息。
三层语义分割模型的每一层中,每个编码器阶段的前三层浅层神经网络的输出都添加边缘监督模块(ESM),对于边缘监督模块(ESM),本发明增加了一个辅助的边缘目标函数作为ESM的一个分支,建立边缘信息的监督策略。利用标签图像的边缘信息作为新的标签来训练边缘的损失;它引导网络中的参数关注纹理细节。
为了直观地显示边缘监督模块(ESM)的细节,图3中,绘制了SegNet的编码器和解码器的每一层。边缘监督模块(ESM)将边缘信息融合到神经网络的输出图像中,每个边缘监督模块(ESM)包括三个分支,分别提取SegNet前三层的特征,提取的三层特征为大小相同的特征图,输出特征S为三个分支提取的特征串接而成;对于特征S,经过卷积得到特征映射P,接下来,使用Sobel算子计算标签图像的边缘信息te;然后,利用边缘信息te作为新的标签来训练边缘的损失。选择交叉熵作为损失函数,由于边缘信息只有两类,损失函数表示如下:
Ledge=-[teln(p)+(1-te)ln(1-p)]
其中te为标签图像的边缘信息,正样本的值为1,负样本的值为0,p表示预测结果的概率为正,Ledge为监督过程的损失值,通过Ledge的结果,反向传播引导边缘监督模块关注对象的边缘像素。
结合图3,以举例方式更具体的说明边缘监督模块(ESM)的细节,在第一个分支中,取SegNet第一卷积层提取的特征S1作为输入,张量的形状为(64×256×256),首先,通过具有16个通道和内核大小1×1的卷积层,张量形状变成(16×256×256),然后使用内核大小3×3的卷积层提取特征;在第二个分支中,取SegNet第二卷积层提取的特征S2作为输入,张量形状为(64×128×128),首先,上采样得到形状为(64×256×256)的特征图S2u,其次,通过1×1卷积层降参数得到大小(16×256×256)的特征图,最后,通过(3×3)卷积层得到第二级输出;第三分支的流程与第二分支类似,在第三个分支中,取SegNet第三卷积层提取的特征S3作为输入,张量形状为(64×64×64),首先,上采样得到形状为(64×256×256)的特征图,其次,通过1×1卷积层降参数得到大小(16×256×256)的特征图,最后,通过(3×3)卷积层得到第三级输出。
对于特征S,采用核大小为1×1,通道数为2的卷积层进行卷积,得到形状为(2×256×256)的特征映射P,由于反向传播的训练机制,最终输出包含的语义信息特征P作用于特征S。使用Sobel算子计算标签的边缘信息te。然后,利用te作为标签对边缘计算损失进行监督。
特征S通过8个卷积层生成形状为(8×256×256)的特征映射FC,核大小为1×1,将特征映射FC连接到解码器阶段的最后一个卷积层,从而将边缘信息中提取的特征整合到最终的结果中。
(3)多尺度分辨率图像融合模块(MRIF)
三层语义分割模型输出不同分辨率、不同层次的图像,为了解决不同尺度感知下目标缺失和空间连续性缺失的问题,本发明提出了基于贝叶斯公式的多分辨率图像融合方法来融合不同的图像分辨率。多尺度分辨率图像融合模块(MRIF)集成了遥感图像的多尺度信息,获得足够的全局高级语义特征,并充分保留局部纹理特征。
如图1所示,三层网络输出图像L1、L2和L3具有不同的分辨率,多尺度分辨率图像融合模块(MRIF)将不同分辨率的图像采样到相同大小。在本实施例中,将所有输出图像采样到第二层级图像的大小。采样后,三个层级输出图像分别为O1、O2和O3。本发明首先用O1作为先验,然后用O2计算似然,然后根据贝叶斯公式将两个分割映射的信息进行合并。第二,将两者相互交换的,O2被用作先验,O1用于计算似然;然后根据贝叶斯公式融合两幅分割图的信息。最后,将前两层和第三层的分割图以同样的方式进行融合,得到最终的整合的分割图。
对于O1、O2和O3,选择其中一个作为前一个Oi(i=1,2,3),并使用其中一个Oj(j≠i,j={1,2,3})来计算似然。因此,后验概率计算为:
其中n表示当前像素的类别,m表示类别的数量。当类别为n时,Fni和Bni分别表示前景区域和背景区域。将Oni(i=1,2,3)作为先验应用,并选择Onj(j≠i,j={1,2,3})计算似然。在每个区域,通过比较Onj和Onj在每个类别中的前景和背景来计算似然:
通过基于贝叶斯融合的方法将三层网络中的不同分割图进行融合。这个过程包括两个步骤。首先,合并前两个层级的输出分割图。第二,模块将前两层融合得到的分割图与第三层输出的分割图进行合并:
On4(z)=OB(On1(z),On2(z))=p(Fn1|On2(z))+P(Fn2|On1(z))
O(z)=OB(On3(z),On4(z))=p(Fn3|On4(z))+p(Fn4|On3(z))
本发明的基于贝叶斯融合的分割图融合方法如图4所示,建立了不同尺度的一致性表示,实现了有效的信息融合和互补。贝叶斯融合利用不同的输出分割图作为先验,有效地融合了不同分辨率分割图的信息,提高了图像分割的精度。
实施例2
本实施例提供一种多尺度融合遥感图像语义分割系统,用于实施如实施例1所述的多尺度融合遥感图像语义分割方法,该系统包括:
图像预处理模块,用于对原始图像做不同分辨率的处理,输入分割模型;
多尺度遥感图像生成网络,包括三层语义分割模型和一个多尺度分辨率图像融合模块MRIF,每层语义分割模型采用编解码结构的卷积神经网络,包括多注意力模块MM、边缘监督模块ESM,所述多注意力模块MM用于捕获空间维和通道维的上下文信息并学习局部特征;所述边缘监督模块ESM用于将边缘特征融合到卷积神经网络的输出图像中,所述多尺度分辨率图像融合模块MRIF用于将三层分割模型的输出图像重采样到第二层输出图像的大小,融合三层语义分割模型输出图像,输出最终分割图像。
各模块的组成与功能实现在实施例1部分有介绍,此处不再赘述。
综上所述,本发明(1)提出了一种新颖的多尺度卷积神经网络来解决处理大尺度物体时缺少细节信息和分割小尺度物体时像素模糊的问题。多尺度网络同时学习全局和局部信息。这是本发明第一个创新点。(2)提出了一种新的多注意力模块来学习遥感图像的通道和空间维度之间的关系信息,多注意力模块将权重集中在跨维交互特征上,学习一些被忽略的信息。(3)提出了一种新颖的边缘监督模块来关注边界信息;边缘监督模块通过提取对象边缘信息并在训练过程中添加,使不同类别之间的分割边界更加准确。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。
Claims (7)
1.多尺度融合遥感图像语义分割方法,其特征在于,包括以下步骤:
步骤1、构建用于遥感图像语义分割的多尺度遥感图像生成网络,所述的多尺度遥感图像生成网络包括三层语义分割模型和一个多尺度分辨率图像融合模块,每层语义分割模型采用编解码结构的卷积神经网络,包括多注意力模块、边缘监督模块;
步骤2、将原始图像做不同分辨率的处理并分别输入三层语义分割模型,其中第一层的输入为原始图像上采样一次、第二层的输入为原始图像、第三层的输入为原始图像下采样一次;
步骤3、三层语义分割模型分别处理不同分辨率的输入图像,提取全局和局部语义特征,同时提取边缘特征信息,输出不同分辨率的图像,经所述多尺度分辨率图像融合模块将三层分割模型的输出图像重采样到第二层输出图像的大小,融合三层语义分割模型输出图像,输出最终分割图像。
2.根据权利要求1所述的多尺度融合遥感图像语义分割方法,其特征在于,第二层语义分割模型采用SegNet结构,在SegNet的编码器和解码器分别增加一层卷积作为第一层语义分割模型,在SegNet的编码器和解码器分别减少一层卷积作为第三层语义分割模型。
3.根据权利要求1所述的多尺度融合遥感图像语义分割方法,其特征在于,所述多注意力模块用于捕捉空间维度H×W和通道维度C之间的跨维度交互作用,输出相同尺度的图像,多注意力模块包括两个分支,在第一个分支中,将通道维度C转置为高度维度H,即将形状C×H×W转换为H×C×W,然后,对张量的高度维度H进行Z-Pool变换,实现特征压缩,将压缩后的特征权值与通道维度C和宽度维度W的信息融合,然后与卷积核进行卷积运算,得到形状为1×C×W的张量,经过归一化和sigmoid激活后,特征的形状保持不变;激活的特征与原始特征逐点相乘,然后排列回到原始形状C×H×W;第二个分支中,将通道维度C置换为宽度维度W,后续操作与第一分支相同;最后融合两个分支的特征,生成融合图像。
5.根据权利要求1所述的多尺度融合遥感图像语义分割方法,其特征在于,所述边缘监督模块只用于解码器中的前三层输出,而不考虑解码器中最深层的边缘信息,
三层语义分割模型的每一层中,每个编码器阶段的前三层浅层神经网络的输出都添加边缘监督模块,边缘监督模块将边缘信息融合到神经网络的输出图像中;每个边缘监督模块包括三个分支,分别提取SegNet前三层的特征,提取的三层特征为大小相同的特征图,输出特征S为三个分支提取的特征串接而成;对于特征S,经过卷积得到特征映射P,接下来,使用Sobel算子计算标签图像的边缘信息te;然后,利用边缘信息te作为新的标签来训练边缘的损失,损失函数表示如下:
Ledge=-[teln(p)+(1-te)ln(1-p)]
其中te为标签图像的边缘信息,正样本的值为1,负样本的值为0,p表示预测结果的概率为正,Ledge为监督过程的损失值,通过Ledge的结果,反向传播引导边缘监督模块关注对象的边缘像素。
6.根据权利要求5所述的多尺度融合遥感图像语义分割方法,其特征在于,在第一个分支中,取SegNet第一卷积层提取的特征S1作为输入,张量的形状为64×256×256,首先,通过具有16个通道和内核大小1×1的卷积层,张量形状变成16×256×256,然后使用内核大小3×3的卷积层提取特征;在第二个分支中,取SegNet第二卷积层提取的特征S2作为输入,张量形状为64×128×128,首先,上采样得到形状为64×256×256的特征图S2u,其次,通过1×1卷积层降参数得到大小16×256×256的特征图,最后,通过3×3卷积层得到第二级输出;在第三个分支中,取SegNet第三卷积层提取的特征S3作为输入,张量形状为64×64×64,首先,上采样得到形状为64×256×256的特征图,其次,通过1×1卷积层降参数得到大小16×256×256的特征图,最后,通过3×3卷积层得到第三级输出;
对于特征S,采用核大小为1×1,通道数为2的卷积层进行卷积,得到形状为2×256×256的特征映射P,由于反向传播的训练机制,最终输出包含的语义信息特征P作用于特征S;
特征S通过8个卷积层生成形状为8×256×256的特征映射FC,核大小为1×1,将特征映射FC连接到解码器阶段的最后一个卷积层,从而将边缘信息中提取的特征整合到最终的结果中。
7.用于实施权利要求1-6任一项所述的多尺度融合遥感图像语义分割方法的系统,其特征在于,包括:
图像预处理模块,用于对原始图像做不同分辨率的处理,输入分割模型;
多尺度遥感图像生成网络,包括三层语义分割模型和一个多尺度分辨率图像融合模块,每层语义分割模型采用编解码结构的卷积神经网络,包括多注意力模块、边缘监督模块,所述多注意力模块用于捕获空间维和通道维的上下文信息并学习局部特征;所述边缘监督模块用于将边缘特征融合到卷积神经网络的输出图像中,所述多尺度分辨率图像融合模块用于将三层分割模型的输出图像重采样到第二层输出图像的大小,融合三层语义分割模型输出图像,输出最终分割图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211069786.3A CN115512103A (zh) | 2022-09-01 | 2022-09-01 | 多尺度融合遥感图像语义分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211069786.3A CN115512103A (zh) | 2022-09-01 | 2022-09-01 | 多尺度融合遥感图像语义分割方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115512103A true CN115512103A (zh) | 2022-12-23 |
Family
ID=84502105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211069786.3A Pending CN115512103A (zh) | 2022-09-01 | 2022-09-01 | 多尺度融合遥感图像语义分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115512103A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797931A (zh) * | 2023-02-13 | 2023-03-14 | 山东锋士信息技术有限公司 | 一种基于双分支特征融合的遥感图像语义分割方法 |
CN115861635A (zh) * | 2023-02-17 | 2023-03-28 | 武汉大学 | 抗透射畸变的无人机倾斜影像语义信息提取方法及设备 |
CN115984296A (zh) * | 2023-03-21 | 2023-04-18 | 译企科技(成都)有限公司 | 一种应用多注意力机制的医学图像分割方法及系统 |
CN116051999A (zh) * | 2023-02-06 | 2023-05-02 | 北京数慧时空信息技术有限公司 | 遥感影像困难样本挖掘方法 |
CN116311253A (zh) * | 2023-05-18 | 2023-06-23 | 中国海洋大学 | 基于尺度分离的海洋遥感图像语义分割方法及系统 |
CN117152441A (zh) * | 2023-10-19 | 2023-12-01 | 中国科学院空间应用工程与技术中心 | 一种基于跨尺度解码的生物图像实例分割方法 |
CN117456191A (zh) * | 2023-12-15 | 2024-01-26 | 武汉纺织大学 | 一种基于三分支网络结构的复杂环境下语义分割方法 |
CN118397072A (zh) * | 2024-06-24 | 2024-07-26 | 湘江实验室 | 基于高分辨率语义分割的pvc管尺寸检测方法及装置 |
-
2022
- 2022-09-01 CN CN202211069786.3A patent/CN115512103A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116051999A (zh) * | 2023-02-06 | 2023-05-02 | 北京数慧时空信息技术有限公司 | 遥感影像困难样本挖掘方法 |
CN115797931A (zh) * | 2023-02-13 | 2023-03-14 | 山东锋士信息技术有限公司 | 一种基于双分支特征融合的遥感图像语义分割方法 |
CN115797931B (zh) * | 2023-02-13 | 2023-05-30 | 山东锋士信息技术有限公司 | 一种基于双分支特征融合的遥感图像语义分割方法及设备 |
CN115861635A (zh) * | 2023-02-17 | 2023-03-28 | 武汉大学 | 抗透射畸变的无人机倾斜影像语义信息提取方法及设备 |
CN115984296A (zh) * | 2023-03-21 | 2023-04-18 | 译企科技(成都)有限公司 | 一种应用多注意力机制的医学图像分割方法及系统 |
CN115984296B (zh) * | 2023-03-21 | 2023-06-13 | 译企科技(成都)有限公司 | 一种应用多注意力机制的医学图像分割方法及系统 |
CN116311253A (zh) * | 2023-05-18 | 2023-06-23 | 中国海洋大学 | 基于尺度分离的海洋遥感图像语义分割方法及系统 |
CN116311253B (zh) * | 2023-05-18 | 2023-07-21 | 中国海洋大学 | 基于尺度分离的海洋遥感图像语义分割方法及系统 |
CN117152441A (zh) * | 2023-10-19 | 2023-12-01 | 中国科学院空间应用工程与技术中心 | 一种基于跨尺度解码的生物图像实例分割方法 |
CN117152441B (zh) * | 2023-10-19 | 2024-05-07 | 中国科学院空间应用工程与技术中心 | 一种基于跨尺度解码的生物图像实例分割方法 |
CN117456191A (zh) * | 2023-12-15 | 2024-01-26 | 武汉纺织大学 | 一种基于三分支网络结构的复杂环境下语义分割方法 |
CN117456191B (zh) * | 2023-12-15 | 2024-03-08 | 武汉纺织大学 | 一种基于三分支网络结构的复杂环境下语义分割方法 |
CN118397072A (zh) * | 2024-06-24 | 2024-07-26 | 湘江实验室 | 基于高分辨率语义分割的pvc管尺寸检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115512103A (zh) | 多尺度融合遥感图像语义分割方法及系统 | |
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN112966684B (zh) | 一种注意力机制下的协同学习文字识别方法 | |
CN110276316B (zh) | 一种基于深度学习的人体关键点检测方法 | |
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN111259906B (zh) | 含多级通道注意力的条件生成对抗遥感图像目标分割方法 | |
CN113609896B (zh) | 基于对偶相关注意力的对象级遥感变化检测方法及系统 | |
Xia et al. | A deep Siamese postclassification fusion network for semantic change detection | |
CN114758288B (zh) | 一种配电网工程安全管控检测方法及装置 | |
Li et al. | A review of deep learning methods for pixel-level crack detection | |
Chen et al. | Corse-to-fine road extraction based on local Dirichlet mixture models and multiscale-high-order deep learning | |
CN111652240B (zh) | 一种基于cnn的图像局部特征检测与描述方法 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN113255837A (zh) | 工业环境下基于改进的CenterNet网络目标检测方法 | |
CN108053420A (zh) | 一种基于有限时空分辨率类无关属性动态场景的分割方法 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN113379771A (zh) | 带有边缘约束的层次化人体解析语义分割方法 | |
CN111931908A (zh) | 一种基于人脸轮廓的人脸图像自动生成方法 | |
CN117523194A (zh) | 一种基于稀疏标注的图像分割方法 | |
WO2022109922A1 (zh) | 抠图实现方法、装置、设备及存储介质 | |
CN116342894A (zh) | 基于改进YOLOv5的GIS红外特征识别系统及方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
Yang et al. | C-RPNs: Promoting object detection in real world via a cascade structure of Region Proposal Networks | |
CN116485867A (zh) | 一种面向自动驾驶的结构化场景深度估计方法 | |
Zhao et al. | MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |