CN110163878A - 一种基于双重多尺度注意力机制的图像语义分割方法 - Google Patents
一种基于双重多尺度注意力机制的图像语义分割方法 Download PDFInfo
- Publication number
- CN110163878A CN110163878A CN201910452050.6A CN201910452050A CN110163878A CN 110163878 A CN110163878 A CN 110163878A CN 201910452050 A CN201910452050 A CN 201910452050A CN 110163878 A CN110163878 A CN 110163878A
- Authority
- CN
- China
- Prior art keywords
- image
- semantic
- module
- attention mechanism
- multiple dimensioned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000007246 mechanism Effects 0.000 title claims abstract description 41
- 230000009977 dual effect Effects 0.000 title claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims abstract description 47
- 238000005070 sampling Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 238000013480 data collection Methods 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 230000004069 differentiation Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 229940116024 aftera Drugs 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双重多尺度注意力机制的图像语义分割方法,属于图像语义分割领域。该方法包括:对训练图像和测试图像进行预处理;构建图像语义分割模型;将预处理后的训练图像送入图像语义分割模型,得到预测输出;根据预测输出与真实值的差异计算损失函数值,并调优模型参数;待到达预定训练次数后,停止训练,并固定图像语义分割模型参数;输入预处理后的测试图像,利用图像语义分割模型参数输出测试图像的预测图,即为所述测试图像对应的图像语义分割结果图。本发明充分增强进而有效捕捉图像中的小目标信息,且可以通过不同尺度下目标周边的上下文信息的结合,解决易混淆目标的区分问题,进而可以得到较好的图像语义分割结果。
Description
技术领域
本发明涉及一种图像语义分割技术,涉及图像语义分割领域,尤其涉及一种基于双重多尺度注意力机制的图像语义分割方法。
背景技术
近年来,深度学习技术在计算机视觉领域的许多研究问题中都得到了广泛应用。图像语义分割问题也从传统的依赖人为选取和设计局部窗口特征再做判别的方法,开始转向端到端的基于深度学习的方法。
图像语义分割的目的是对图像中的每一个像素都赋予一个类别标签,最终形成整幅图像的描述。当下比较流行的一种架构是基于全卷积神经网络的方法,该方法已经被验证可以在多个图像分割数据集上达到比较好的效果。该方法是可以认为是一种编码解码结构。编码部分对输入的图像进行特征编码,得到对图像的特征表示图;随后解码部分通过依赖上采样或反卷积等相关的操作,对特征表示图的分辨率进行提升,来最终得到和原始图像同样大小的预测输出图。该结构的好处是可以将图像的特征表示模块与语义分割结果图的生成模块分开,进而可以直接利用当下深度学习领域中的其他相关模型作为预训练模型对图像进行编码。
随着如上述全卷积神经网络为代表的深度学习方法在图像语义分割领域中的广泛应用,属于以往难以解决的部分语义分割问题也开始被广泛考虑。其中的一个显著问题是图像中的小目标的准确分割和对于表观相似的目标的区分。这也是多数当前图像分割方法所共同面对且当下远远没有得到解决的难题。
发明内容
针对图像语义分割问题中的上述难点,本发明提供的基于深度神经网络的图像语义特征提取方法有助于解决现有技术中图像语义分割准确率低、小目标分割不准确以及相似目标被混淆的问题。
为达到上述发明目的,本发明采用的技术方案为:
根据本发明的第一方面,提供一种基于双重多尺度注意力机制的图像语义分割方法,包括以下步骤:
步骤1:选择图像数据集,所述图像数据集包括训练图像和测试图像,对所述图像数据集的训练图像和测试图像进行预处理;
步骤2:构建双重多尺度注意力机制的图像语义分割模型,所述图像语义分割模型包括特征提取模块、双重多尺度注意力机制解码模块、预测模块三个部分。
步骤3:将步骤1中预处理后的训练图像送入步骤2中的图像语义分割模型,得到预测输出;
步骤4:根据预测输出与真实值的差异计算损失函数值,并通过对所述损失函数值的梯度的反向传播来调优图像语义分割模型参数;
步骤5:待到达预定训练次数后,停止训练,并固定图像语义分割模型参数;
步骤6:输入预处理后的测试图像,利用步骤5中得到的图像语义分割模型参数输出测试图像的预测图,即为所述测试图像对应的图像语义分割结果图。
进一步的,所述预定训练次数为100-5000次。
进一步的,所述图像语义分割模型包括一个特征提取模块、第一多尺度注意力机制解码模块、第二多尺度注意力机制解码模块和一个预测模块。
进一步的,所述图像语义分割模型中,所述特征提取模块为残差网络结构,通过引入残差连接和跨层连接,从不同尺度提取图像的低层特征。
进一步的,所述图像语义分割模型中,第一多尺度注意力机制解码模块用于从不同粒度的特征图中提取图像中应当关注的区域;第二多尺度注意力机制解码模块用于融合不同粒度的特征图表达,得到能反映出图像中小目标细节的语义分割结果。
进一步的,所述第一多尺度注意力机制解码模块包括多个不同尺度,且不同尺度间依次作用去产生下一个尺度的特征图。
进一步的,所述第二多尺度注意力机制解码模块通过前一层所得到的不同尺度的特征图进行反卷积与上采样来得到与特征提取模块的输出相同大小的特征图。
进一步的,所述步骤1具体为:
对于训练图像,进行随机翻转,并将图像中随机选择区域裁剪为第一固定尺寸,作为步骤3的输入;
对于测试图像,不进行翻转,以图像中心为中心,裁剪为第二固定尺寸,作为步骤6的输入,
其中,第一固定尺寸与第二固定尺寸相同。
进一步的,所述步骤3具体为:
步骤3.1将预处理后的训练图像i送入特征提取模块,得到训练图像i的特征图Fi,其大小为H×W×C,其中H,W,C分别为特征图Fi的宽度、高度和通道数,其中,i为整数且i≧1;
步骤3.2对Fi分别进行下采样,得到多尺度金字塔其中N表示第N个尺度,N为整数,其中每两层之间通过1*1的卷积形式相连接,由粗粒度的下采样结果进行1*1的卷积后,得到的特征图进行通道维度的池化操作,得到H为1、W为1的特征图;
步骤3.3以步骤3.2中得到的特征图送经sigmoid激活函数,得到的值作为第一多尺度注意力机制解码模块的权值特征其中N表示该权值是由第N个尺度的特征图得到;
步骤3.4以权值特征与下采样得到的多尺度金字塔相加权,得到输入的训练图像i在不同尺度的特征响应图
步骤3.5对每一个加权之后得到的特征响应图进行反卷积,形成H和W与输入的训练图像i相同大小的特征图
步骤3.6引入第二重注意力机制,对每一个得到的特征图按照通道数分为两个部分,如一种划分方法为可将前个通道和后个通道换分开,则假设每个原始的的大小为Hi*Wi*CH,则按照通道数划分后将得到两个大小为的特征图部分;
步骤3.7由上一步得到的两个特征图部分进行元素级别的相乘,得到大小不变的加权后的特征图这里的权值即为拆分后得到的两个特征图部分中的一方,而加权对象即为另一方。该自注意力形式的优点在于权值与被加权对象处于同一参数空间,因此不需担心因权值空间与被加权对象的空间存在较大差异而引起的“不适合加权”情况;
步骤3.8进一步跨层引入Fi,上采样得到原始图大小的特征图Li;
步骤3.9融合与Li,得到与原始图大小相同的输出预测图。
根据本发明的第二方面,提供一种基于双重多尺度注意力机制的图像语义分割装置,所述图像语义分割方法采用根据以上任一方面所述的方法来进行图像语义分割,所述图像语义分割装置包括:
预处理模块,用于选择图像数据集,所述图像数据集包括训练图像和测试图像,对所述图像数据集的训练图像和测试图像进行预处理;
模型构建模块,用于构建双重多尺度注意力机制的图像语义分割模型,所述图像语义分割模型包括特征提取模块、双重多尺度注意力机制解码模块、预测模块三个部分。
预测输出模块,用于将预处理后的训练图像送入图像语义分割模型,得到预测输出;
参数调优模块,用于根据预测输出与真实值的差异计算损失函数值,并通过对所述损失函数值的梯度的反向传播来调优图像语义分割模型参数;
参数固定模块,用于待到达预定训练次数,如5000次后,停止训练,并固定图像语义分割模型参数;
预测图输出模块,用于在输入预处理后的测试图像,利用参数固定模块中得到的图像语义分割模型参数输出测试图像的预测图,即为所述测试图像对应的图像语义分割结果图。
本发明的有益效果为:本发明提供的基于双重多尺度注意力机制的图像语义分割方法,通过利用两个不同层次、不同位置和不同方式(下采样、上采样)的多尺度特征图的融合,可以一方面充分增强进而有效捕捉图像中的小目标信息,另一方面可以通过不同尺度下目标周边的上下文信息的结合,解决易混淆目标的区分问题,进行可以得到较好的图像语义分割结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1示出根据本发明的一种基于双重多尺度注意力机制的图像语义分割方法流程图;
图2示出根据本发明的一种基于双重多尺度注意力机制的图像语义分割装置模块图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
多个,包括两个或者两个以上。
和/或,应当理解,对于本公开中使用的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
为解决现有技术中的图像分割方法无法准确分割出较小目标和相似目标的问题,本发明提出一种基于双重多尺度注意力机制的图像语义分割方法,一方面通过多尺度信息的融合,使网络充分提取不同尺度信息,增强细粒度的小目标信息;另一方面融合不同层级的上下文信息,帮助区分相似的目标,使得网络在做出语义分割的判断时,能够充分考虑不同尺度的上下文信息,辅助对于小目标和易混淆目标的语义判断。该发明提出的一种图像分割方法,能够广泛应用于一般性的图像语义分割领域。
如图1所示,基于双重多尺度注意力机制的图像语义分割方法,本发明包括如下步骤:
步骤1:选择训练数据;本实施例中选择PASCAL VOC 2012作为训练测试基准。
步骤2:构建特征提取模块。构建深度网络作为图像的编码网络,包括33个残差模块用以充分的提取不同尺度的特征并使模型尽可能的保留目标细节信息。其中的每个残差模块由1个1*1卷积层、1个3*3卷积层和1个1*1卷积层级联后与输入相加而形成。
步骤3:对特征提取模块进行预训练。利用ImageNet数据对上述步骤构建的特征提取模块进行预训练,使该模块能有一个比较好的初始值。
步骤4:将上述特征提取模块去掉最后一层用于分类的全连接层载入语义分割模型中,输入原始图像后,得到图像i的特征表示Fi,假设其维度为H*W*C。
步骤5:送入第一重多尺度注意力机制模块,从多个尺度层面提取图像特征。将步骤4中得到的特征图Fii分别进行不同尺度的池化操作。如图1中选择了3个尺度,池化后的特征图大小分别为1*1*C,(H/4)*(W/4)*C,(H/2)*(W/2)*C,分别记为其中N表示第N个尺度。
在获取过程中,每一个粗粒度的特征图会经过池化操作,将H与W维度压缩为1,而同时保持C唯度不变,进而作为权值向量,与相乘,得到加权的
步骤6:对得到的进行上采样或反卷积,得到与原始图同样大小的特征图
步骤7:对施加自注意机制(送入第二多尺度注意力机制解码模块)。将在通道维度划分为两个部分,每个部分的高度与宽度信息与原始的H相同,而通道数各自是的通道数的一半,记为
步骤8:由得到加权后的特征图
步骤9:将所有尺度下的不同进行堆叠,然后进行卷积得到预测的语义分割图。
如图2所示,本发明还提供了一种基于双重多尺度注意力机制的图像语义分割装置,所述图像语义分割方法采用根据以上任一方面所述的方法来进行图像语义分割,所述图像语义分割装置包括:
预处理模块201,用于选择图像数据集,所述图像数据集包括训练图像和测试图像,对所述图像数据集的训练图像和测试图像进行预处理;
模型构建模块202,用于构建双重多尺度注意力机制的图像语义分割模型,所述图像语义分割模型包括特征提取模块、双重多尺度注意力机制解码模块、预测模块三个部分。
预测输出模块203,用于将预处理后的训练图像送入图像语义分割模型,得到预测输出;
参数调优模块204,用于根据预测输出与真实值的差异计算损失函数值,并通过对所述损失函数值的梯度的反向传播来调优图像语义分割模型参数;
参数固定模块205,用于待到达预定训练次数后,停止训练,并固定图像语义分割模型参数;
预测图输出模块206,用于在输入预处理后的测试图像,利用参数固定模块中得到的图像语义分割模型参数输出测试图像的预测图,即为所述测试图像对应的图像语义分割结果图。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (9)
1.一种基于双重多尺度注意力机制的图像语义分割方法,其特征在于,包括以下步骤:
步骤1:选择图像数据集,所述图像数据集包括训练图像和测试图像,对所述图像数据集进行预处理;
步骤2:构建双重多尺度注意力机制的图像语义分割模型;
步骤3:将预处理后的训练图像送入图像语义分割模型,得到预测输出;
步骤4:根据预测输出与真实值的差异计算损失函数值,并通过对所述损失函数值的梯度的反向传播来调优图像语义分割模型参数;
步骤5:待到达预定训练次数后,停止训练,并固定图像语义分割模型参数;
步骤6:输入预处理后的测试图像,利用步骤5中得到的图像语义分割模型参数输出测试图像的预测图,即为所述测试图像对应的图像语义分割结果图。
2.根据权利要求1所述的图像语义分割方法,其特征在于,所述图像语义分割模型包括特征提取模块、第一多尺度注意力机制解码模块、第二多尺度注意力机制解码模块和预测模块。
3.根据权利要求2所述的图像语义分割方法,其特征在于,所述图像语义分割模型中,所述特征提取模块为残差网络结构,通过引入残差连接和跨层连接,从不同尺度提取图像的低层特征。
4.根据权利要求2所述的图像语义分割方法,其特征在于,所述图像语义分割模型中,第一多尺度注意力机制解码模块用于从不同粒度的特征图中提取图像中应当关注的区域;第二多尺度注意力机制解码模块用于融合不同粒度的特征图表达,得到能反映出图像中小目标细节的语义分割结果。
5.根据权利要求2所述的图像语义分割方法,其特征在于,所述第一多尺度注意力机制解码模块包括多个不同尺度,且不同尺度间依次作用去产生下一个尺度的特征图。
6.根据权利要求2所述的图像语义分割方法,其特征在于,所述第二多尺度注意力机制解码模块通过前一层所得到的不同尺度的特征图进行反卷积与上采样来得到与特征提取模块的输出相同大小的特征图。
7.根据权利要求1所述的图像语义分割方法,其特征在于,所述步骤1具体为:
对于训练图像,进行随机翻转,并将图像中随机选择区域裁剪为第一固定尺寸,得到预处理后的训练图像;
对于测试图像,不进行翻转,以图像中心为中心,裁剪为第二固定尺寸,得到预处理后的测试图像,
其中,第一固定尺寸与第二固定尺寸相同。
8.根据权利要求1所述的图像语义分割方法,其特征在于,所述步骤3具体为:
步骤3.1将预处理后的训练图像i送入特征提取模块,得到训练图像i的特征图Fi,其大小为H×W×C,其中H,W,C分别为特征图Fi的宽度、高度和通道数,其中,i为整数且i≥1;
步骤3.2对Fi分别进行下采样,得到多尺度金字塔其中N表示第N个尺度,N为整数,其中每两层之间通过1*1的卷积形式相连接,由粗粒度的下采样结果进行1*1的卷积后,得到的特征图进行通道维度的池化操作,得到H为1、W为1的特征图;
步骤3.3以步骤3.2中得到的特征图送经sigmoid激活函数,得到的值作为第一多尺度注意力机制解码模块的权值特征其中N表示该权值是由第N个尺度的特征图得到;
步骤3.4以权值特征与下采样得到的多尺度金字塔相加权,得到输入的训练图像i在不同尺度的特征响应图
步骤3.5对每一个加权之后得到的特征响应图进行反卷积,形成H和W与输入的训练图像i相同大小的特征图
步骤3.6引入第二重注意力机制,对每一个得到的特征图按照通道数分为两个部分,每个原始的的大小为Hi*Wi*CH,则按照通道数划分后将得到两个大小为的特征图部分;
步骤3.7由步骤3.6得到的两个特征图部分进行元素级别的相乘,得到大小不变的加权后的特征图这里的权值即为拆分后得到的两个特征图部分中的一方,而加权对象即为另一方;
步骤3.8进一步跨层引入Fi,上采样得到原始图大小的特征图Li;
步骤3.9融合与Li,得到与原始图大小相同的输出预测图。
9.一种基于双重多尺度注意力机制的图像语义分割装置,所述图像语义分割方法采用根据权利要求1至8中任一项所述的方法来进行图像语义分割,所述图像语义分割装置包括:
预处理模块,用于选择图像数据集,所述图像数据集包括训练图像和测试图像,对所述图像数据集的训练图像和测试图像进行预处理;
模型构建模块,用于构建双重多尺度注意力机制的图像语义分割模型,所述图像语义分割模型包括特征提取模块、双重多尺度注意力机制解码模块、预测模块三个部分;
预测输出模块,用于将预处理后的训练图像送入图像语义分割模型,得到预测输出;
参数调优模块,用于根据预测输出与真实值的差异计算损失函数值,并通过对所述损失函数值的梯度的反向传播来调优图像语义分割模型参数;
参数固定模块,用于待到达预定训练次数后,停止训练,并固定图像语义分割模型参数;
预测图输出模块,用于在输入预处理后的测试图像,利用参数固定模块中得到的图像语义分割模型参数输出测试图像的预测图,即为所述测试图像对应的图像语义分割结果图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910452050.6A CN110163878A (zh) | 2019-05-28 | 2019-05-28 | 一种基于双重多尺度注意力机制的图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910452050.6A CN110163878A (zh) | 2019-05-28 | 2019-05-28 | 一种基于双重多尺度注意力机制的图像语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110163878A true CN110163878A (zh) | 2019-08-23 |
Family
ID=67629638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910452050.6A Pending CN110163878A (zh) | 2019-05-28 | 2019-05-28 | 一种基于双重多尺度注意力机制的图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110163878A (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532961A (zh) * | 2019-08-30 | 2019-12-03 | 西安交通大学 | 一种基于多尺度注意机制网络模型的语义交通信号灯检测方法 |
CN110852272A (zh) * | 2019-11-11 | 2020-02-28 | 上海应用技术大学 | 行人检测方法 |
CN110969632A (zh) * | 2019-11-28 | 2020-04-07 | 北京推想科技有限公司 | 一种深度学习模型的训练方法、图像处理方法及装置 |
CN110991415A (zh) * | 2019-12-21 | 2020-04-10 | 武汉中海庭数据技术有限公司 | 一种结构性目标高精度分割方法、电子设备及存储介质 |
CN111091604A (zh) * | 2019-11-18 | 2020-05-01 | 中国科学院深圳先进技术研究院 | 快速成像模型的训练方法、装置及服务器 |
CN111160311A (zh) * | 2020-01-02 | 2020-05-15 | 西北工业大学 | 基于多注意力机制双流融合网络的黄河冰凌语义分割方法 |
CN111178211A (zh) * | 2019-12-20 | 2020-05-19 | 北京迈格威科技有限公司 | 图像分割方法、装置、电子设备及可读存储介质 |
CN111178183A (zh) * | 2019-12-16 | 2020-05-19 | 深圳市华尊科技股份有限公司 | 人脸检测方法及相关装置 |
CN111179270A (zh) * | 2019-11-21 | 2020-05-19 | 北京航空航天大学 | 基于注意力机制的图像共分割方法和装置 |
CN111210432A (zh) * | 2020-01-12 | 2020-05-29 | 湘潭大学 | 一种基于多尺度多级注意力机制的图像语义分割方法 |
CN111292324A (zh) * | 2020-03-20 | 2020-06-16 | 电子科技大学 | 一种针对臂丛神经超声图像的多目标识别方法及系统 |
CN111539435A (zh) * | 2020-04-15 | 2020-08-14 | 创新奇智(合肥)科技有限公司 | 语义分割模型构建方法及图像分割方法、设备、存储介质 |
CN111667495A (zh) * | 2020-06-08 | 2020-09-15 | 北京环境特性研究所 | 一种图像场景解析方法和装置 |
CN111754520A (zh) * | 2020-06-09 | 2020-10-09 | 江苏师范大学 | 一种基于深度学习的脑血肿分割方法及系统 |
CN111899259A (zh) * | 2020-08-27 | 2020-11-06 | 海南大学 | 一种基于卷积神经网络的前列腺癌组织微阵列分级方法 |
CN111986181A (zh) * | 2020-08-24 | 2020-11-24 | 中国科学院自动化研究所 | 基于双注意力机制的血管内支架图像分割方法和系统 |
CN112017198A (zh) * | 2020-10-16 | 2020-12-01 | 湖南师范大学 | 基于自注意力机制多尺度特征的右心室分割方法及装置 |
CN112215241A (zh) * | 2020-10-20 | 2021-01-12 | 西安交通大学 | 一种基于小样本学习的图像特征提取装置 |
CN112418176A (zh) * | 2020-12-09 | 2021-02-26 | 江西师范大学 | 一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法 |
CN112989919A (zh) * | 2020-12-25 | 2021-06-18 | 首都师范大学 | 一种从影像中提取目标对象的方法及系统 |
CN113344951A (zh) * | 2021-05-21 | 2021-09-03 | 北京工业大学 | 一种边界感知双重注意力引导的肝段分割方法 |
CN113409326A (zh) * | 2021-05-31 | 2021-09-17 | 北京工业大学 | 图像分割方法及系统 |
CN113469181A (zh) * | 2020-03-31 | 2021-10-01 | 北京四维图新科技股份有限公司 | 图像语义分割处理方法、装置及存储介质 |
CN113469269A (zh) * | 2021-07-16 | 2021-10-01 | 上海电力大学 | 基于多通道融合的残差卷积自编码风光荷场景生成方法 |
CN114140469A (zh) * | 2021-12-02 | 2022-03-04 | 北京交通大学 | 一种基于多层注意力的深度分层图像语义分割方法 |
CN114565941A (zh) * | 2021-08-24 | 2022-05-31 | 商汤国际私人有限公司 | 纹理生成方法、装置、设备及计算机可读存储介质 |
CN115131561A (zh) * | 2022-07-04 | 2022-09-30 | 中南大学 | 基于多尺度特征提取与融合的钾盐浮选泡沫图像分割方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110229025A1 (en) * | 2010-02-10 | 2011-09-22 | Qi Zhao | Methods and systems for generating saliency models through linear and/or nonlinear integration |
US20120282585A1 (en) * | 2011-05-04 | 2012-11-08 | Nikolaus Baer | Interest-Attention Feedback System for Separating Cognitive Awareness into Different Left and Right Sensor Displays |
CN104166986A (zh) * | 2014-07-07 | 2014-11-26 | 广东工业大学 | 一种条状物体表面缺陷在线视觉注意力检测方法 |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN107680109A (zh) * | 2017-09-15 | 2018-02-09 | 盐城禅图智能科技有限公司 | 一种引用逆注意力与像素相似度学习的图像语义分割方法 |
CN108647585A (zh) * | 2018-04-20 | 2018-10-12 | 浙江工商大学 | 一种基于多尺度循环注意力网络的交通标识符检测方法 |
CN108710830A (zh) * | 2018-04-20 | 2018-10-26 | 浙江工商大学 | 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法 |
CN109447990A (zh) * | 2018-10-22 | 2019-03-08 | 北京旷视科技有限公司 | 图像语义分割方法、装置、电子设备和计算机可读介质 |
CN109558832A (zh) * | 2018-11-27 | 2019-04-02 | 广州市百果园信息技术有限公司 | 一种人体姿态检测方法、装置、设备及存储介质 |
CN109584248A (zh) * | 2018-11-20 | 2019-04-05 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
CN109711413A (zh) * | 2018-12-30 | 2019-05-03 | 陕西师范大学 | 基于深度学习的图像语义分割方法 |
-
2019
- 2019-05-28 CN CN201910452050.6A patent/CN110163878A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110229025A1 (en) * | 2010-02-10 | 2011-09-22 | Qi Zhao | Methods and systems for generating saliency models through linear and/or nonlinear integration |
US20120282585A1 (en) * | 2011-05-04 | 2012-11-08 | Nikolaus Baer | Interest-Attention Feedback System for Separating Cognitive Awareness into Different Left and Right Sensor Displays |
CN104166986A (zh) * | 2014-07-07 | 2014-11-26 | 广东工业大学 | 一种条状物体表面缺陷在线视觉注意力检测方法 |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN107680109A (zh) * | 2017-09-15 | 2018-02-09 | 盐城禅图智能科技有限公司 | 一种引用逆注意力与像素相似度学习的图像语义分割方法 |
CN108647585A (zh) * | 2018-04-20 | 2018-10-12 | 浙江工商大学 | 一种基于多尺度循环注意力网络的交通标识符检测方法 |
CN108710830A (zh) * | 2018-04-20 | 2018-10-26 | 浙江工商大学 | 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法 |
CN109447990A (zh) * | 2018-10-22 | 2019-03-08 | 北京旷视科技有限公司 | 图像语义分割方法、装置、电子设备和计算机可读介质 |
CN109584248A (zh) * | 2018-11-20 | 2019-04-05 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
CN109558832A (zh) * | 2018-11-27 | 2019-04-02 | 广州市百果园信息技术有限公司 | 一种人体姿态检测方法、装置、设备及存储介质 |
CN109711413A (zh) * | 2018-12-30 | 2019-05-03 | 陕西师范大学 | 基于深度学习的图像语义分割方法 |
Non-Patent Citations (7)
Title |
---|
JUN FU 等: "Dual attention network for scene segmentation", 《ARXIV:1809.02983V4》 * |
LIJUN PEI DENG: "Double Hopf bifurcation of differential equation with linearly state-dependent delays via MMS[J]. Applied Mathematics and Computation", 《APPLIED MATHEMATICS AND COMPUTATION 》 * |
SU ZHANG 等: "Optical Correlation Recognition Technology of Small Moving Target Based on Wavelet Multi-Scale Edge Fusion", 《KEY ENGINEERING MATERIALS 》 * |
姚瑶: "基于时空显著性的红外目标检测与跟踪方法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑) 》 * |
邹强: "复杂背景下显著性目标快速检测技术研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
郑顾平 等: "基于注意力机制的多尺度融合航拍影像语义分割", 《图学学报 》 * |
顾炼 等: "基于FlowS-Unet的遥感图像建筑物变化检测", 《自动化学报 网络首发 》 * |
Cited By (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532961A (zh) * | 2019-08-30 | 2019-12-03 | 西安交通大学 | 一种基于多尺度注意机制网络模型的语义交通信号灯检测方法 |
CN110532961B (zh) * | 2019-08-30 | 2022-07-12 | 西安交通大学 | 一种基于多尺度注意机制网络模型的语义交通信号灯检测方法 |
CN110852272A (zh) * | 2019-11-11 | 2020-02-28 | 上海应用技术大学 | 行人检测方法 |
CN110852272B (zh) * | 2019-11-11 | 2023-03-28 | 上海应用技术大学 | 行人检测方法 |
CN111091604B (zh) * | 2019-11-18 | 2022-02-01 | 中国科学院深圳先进技术研究院 | 快速成像模型的训练方法、装置及服务器 |
CN111091604A (zh) * | 2019-11-18 | 2020-05-01 | 中国科学院深圳先进技术研究院 | 快速成像模型的训练方法、装置及服务器 |
CN111179270A (zh) * | 2019-11-21 | 2020-05-19 | 北京航空航天大学 | 基于注意力机制的图像共分割方法和装置 |
CN110969632B (zh) * | 2019-11-28 | 2020-09-08 | 北京推想科技有限公司 | 一种深度学习模型的训练方法、图像处理方法及装置 |
CN110969632A (zh) * | 2019-11-28 | 2020-04-07 | 北京推想科技有限公司 | 一种深度学习模型的训练方法、图像处理方法及装置 |
CN111178183A (zh) * | 2019-12-16 | 2020-05-19 | 深圳市华尊科技股份有限公司 | 人脸检测方法及相关装置 |
CN111178183B (zh) * | 2019-12-16 | 2023-05-23 | 深圳市华尊科技股份有限公司 | 人脸检测方法及相关装置 |
CN111178211B (zh) * | 2019-12-20 | 2024-01-12 | 天津极豪科技有限公司 | 图像分割方法、装置、电子设备及可读存储介质 |
CN111178211A (zh) * | 2019-12-20 | 2020-05-19 | 北京迈格威科技有限公司 | 图像分割方法、装置、电子设备及可读存储介质 |
CN110991415A (zh) * | 2019-12-21 | 2020-04-10 | 武汉中海庭数据技术有限公司 | 一种结构性目标高精度分割方法、电子设备及存储介质 |
CN111160311A (zh) * | 2020-01-02 | 2020-05-15 | 西北工业大学 | 基于多注意力机制双流融合网络的黄河冰凌语义分割方法 |
CN111160311B (zh) * | 2020-01-02 | 2022-05-17 | 西北工业大学 | 基于多注意力机制双流融合网络的黄河冰凌语义分割方法 |
CN111210432A (zh) * | 2020-01-12 | 2020-05-29 | 湘潭大学 | 一种基于多尺度多级注意力机制的图像语义分割方法 |
CN111210432B (zh) * | 2020-01-12 | 2023-07-25 | 湘潭大学 | 一种基于多尺度多级注意力机制的图像语义分割方法 |
CN111292324A (zh) * | 2020-03-20 | 2020-06-16 | 电子科技大学 | 一种针对臂丛神经超声图像的多目标识别方法及系统 |
CN111292324B (zh) * | 2020-03-20 | 2022-03-01 | 电子科技大学 | 一种针对臂丛神经超声图像的多目标识别方法及系统 |
CN113469181B (zh) * | 2020-03-31 | 2024-04-05 | 北京四维图新科技股份有限公司 | 图像语义分割处理方法、装置及存储介质 |
CN113469181A (zh) * | 2020-03-31 | 2021-10-01 | 北京四维图新科技股份有限公司 | 图像语义分割处理方法、装置及存储介质 |
CN111539435A (zh) * | 2020-04-15 | 2020-08-14 | 创新奇智(合肥)科技有限公司 | 语义分割模型构建方法及图像分割方法、设备、存储介质 |
CN111667495A (zh) * | 2020-06-08 | 2020-09-15 | 北京环境特性研究所 | 一种图像场景解析方法和装置 |
CN111754520B (zh) * | 2020-06-09 | 2023-09-15 | 江苏师范大学 | 一种基于深度学习的脑血肿分割方法及系统 |
CN111754520A (zh) * | 2020-06-09 | 2020-10-09 | 江苏师范大学 | 一种基于深度学习的脑血肿分割方法及系统 |
CN111986181A (zh) * | 2020-08-24 | 2020-11-24 | 中国科学院自动化研究所 | 基于双注意力机制的血管内支架图像分割方法和系统 |
CN111899259A (zh) * | 2020-08-27 | 2020-11-06 | 海南大学 | 一种基于卷积神经网络的前列腺癌组织微阵列分级方法 |
CN112017198B (zh) * | 2020-10-16 | 2021-01-15 | 湖南师范大学 | 基于自注意力机制多尺度特征的右心室分割方法及装置 |
CN112017198A (zh) * | 2020-10-16 | 2020-12-01 | 湖南师范大学 | 基于自注意力机制多尺度特征的右心室分割方法及装置 |
CN112215241A (zh) * | 2020-10-20 | 2021-01-12 | 西安交通大学 | 一种基于小样本学习的图像特征提取装置 |
CN112418176A (zh) * | 2020-12-09 | 2021-02-26 | 江西师范大学 | 一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法 |
CN112989919A (zh) * | 2020-12-25 | 2021-06-18 | 首都师范大学 | 一种从影像中提取目标对象的方法及系统 |
CN112989919B (zh) * | 2020-12-25 | 2024-04-19 | 首都师范大学 | 一种从影像中提取目标对象的方法及系统 |
CN113344951A (zh) * | 2021-05-21 | 2021-09-03 | 北京工业大学 | 一种边界感知双重注意力引导的肝段分割方法 |
CN113344951B (zh) * | 2021-05-21 | 2024-05-28 | 北京工业大学 | 一种边界感知双重注意力引导的肝段分割方法 |
CN113409326A (zh) * | 2021-05-31 | 2021-09-17 | 北京工业大学 | 图像分割方法及系统 |
CN113469269A (zh) * | 2021-07-16 | 2021-10-01 | 上海电力大学 | 基于多通道融合的残差卷积自编码风光荷场景生成方法 |
CN114565941A (zh) * | 2021-08-24 | 2022-05-31 | 商汤国际私人有限公司 | 纹理生成方法、装置、设备及计算机可读存储介质 |
CN114140469A (zh) * | 2021-12-02 | 2022-03-04 | 北京交通大学 | 一种基于多层注意力的深度分层图像语义分割方法 |
CN114140469B (zh) * | 2021-12-02 | 2023-06-23 | 北京交通大学 | 一种基于多层注意力的深度分层图像语义分割方法 |
CN115131561A (zh) * | 2022-07-04 | 2022-09-30 | 中南大学 | 基于多尺度特征提取与融合的钾盐浮选泡沫图像分割方法 |
CN115131561B (zh) * | 2022-07-04 | 2024-11-08 | 中南大学 | 基于多尺度特征提取与融合的钾盐浮选泡沫图像分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163878A (zh) | 一种基于双重多尺度注意力机制的图像语义分割方法 | |
CN112396115B (zh) | 基于注意力机制的目标检测方法、装置及计算机设备 | |
CN109711316B (zh) | 一种行人重识别方法、装置、设备及存储介质 | |
CN111461127B (zh) | 基于一阶段目标检测框架的实例分割方法 | |
CN109598269A (zh) | 一种基于多分辨率输入与金字塔膨胀卷积的语义分割方法 | |
CN110046550B (zh) | 基于多层特征学习的行人属性识别系统及方法 | |
CN109389051A (zh) | 一种基于卷积神经网络的建筑物遥感图像识别方法 | |
CN110197182A (zh) | 基于上下文信息和注意力机制的遥感影像语义分割方法 | |
CN111126472A (zh) | 一种基于ssd改进的目标检测方法 | |
CN112668494A (zh) | 基于多尺度特征提取的小样本变化检测方法 | |
US20170177972A1 (en) | Method for analysing media content | |
CN108108751B (zh) | 一种基于卷积多特征和深度随机森林的场景识别方法 | |
CN111695467A (zh) | 基于超像素样本扩充的空谱全卷积高光谱图像分类方法 | |
CN111079739B (zh) | 一种多尺度注意力特征检测方法 | |
CN115862066A (zh) | 一种改进YOLOv5的轻量化社区场景下行人检测方法 | |
CN113642574A (zh) | 基于特征加权与网络微调的小样本目标检测方法 | |
CN111462090B (zh) | 一种多尺度图像目标检测方法 | |
CN113887410A (zh) | 一种基于深度学习的多类别食材识别系统及方法 | |
CN110363770A (zh) | 一种边缘引导式红外语义分割模型的训练方法及装置 | |
CN116310273A (zh) | 一种基于多空洞卷积和se注意力残差的无人机检测方法 | |
CN110378344A (zh) | 基于谱维转换网络的卷积神经网络多光谱图像分割方法 | |
CN113887419B (zh) | 一种基于提取视频时空信息的人体行为识别方法及系统 | |
CN117809200A (zh) | 一种基于增强小目标特征提取的多尺度遥感图像目标检测方法 | |
CN114882234A (zh) | 多尺度轻量级密集连目标检测网络的构建方法 | |
CN110782503B (zh) | 一种基于两分支深度相关网络的人脸图像合成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20240319 |
|
AD01 | Patent right deemed abandoned |