CN113505634B - 一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法 - Google Patents
一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法 Download PDFInfo
- Publication number
- CN113505634B CN113505634B CN202110566201.8A CN202110566201A CN113505634B CN 113505634 B CN113505634 B CN 113505634B CN 202110566201 A CN202110566201 A CN 202110566201A CN 113505634 B CN113505634 B CN 113505634B
- Authority
- CN
- China
- Prior art keywords
- features
- foreground
- convolution
- layer
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 230000003287 optical effect Effects 0.000 title claims abstract description 31
- 230000003993 interaction Effects 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000006870 function Effects 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 7
- 102100021665 ELAV-like protein 4 Human genes 0.000 claims description 6
- 101000896244 Homo sapiens ELAV-like protein 4 Proteins 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- JIGWWGDIEUWCOR-UHFFFAOYSA-N 3-(1,4-diazabicyclo[3.2.2]nonan-4-yl)-6-fluorodibenzothiophene 5,5-dioxide Chemical compound C1=C2S(=O)(=O)C=3C(F)=CC=CC=3C2=CC=C1N1CCN2CCC1CC2 JIGWWGDIEUWCOR-UHFFFAOYSA-N 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 230000009977 dual effect Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims 1
- 238000012549 training Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001125 extrusion Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法,通过前景检测和背景检测两个不同的任务互相学习来更加准确的检测出显著区域,此外本发明在前景检测分支融合有目标边界优化分支来细化目标边界特征的提取。因此,本发明不仅可以预测到更准确的目标边界,而且能够通过背景检测分支来辅助前景检测时得到更准确的显著区域。
Description
技术领域
本发明属于计算机视觉处理技术,具体涉及一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法。
背景技术
显著目标检测主要是模仿人类的视觉注意机制,从整个视野中提取视觉上独特的目标。显著目标检测的目标是完全分割显著性目标,生成像素级显著性图。显著目标检测的处理过程分为两个阶段:(1)从背景中成功确定显著区域;(2)准确分割显著目标。
虽然近几十年来对自然场景图像显著目标检测的研究取得了显著的成功,但针对光学遥感图像显著目标检测的研究却非常有限。通常,光学遥感图像覆盖范围广,背景复杂,噪声干扰多样。光学遥感图像的显著目标检测等研究具有极其实用的价值,作为预处理技术被广泛应用于遥感场景中的各种视觉应用,如图像融合、场景分类、目标检测等。
不同于摄影师用手持相机拍摄的自然场景图像,光学遥感图像是通过部署在卫星或飞机上的各种传感器自动采集的,只有极小的人为干预,这导致了自然场景和遥感场景中显著目标检测之间有明显差距。光学遥感图像是通过高空拍摄获得的,传感器和目标的距离是灵活的。而自然场景图像通常是从一个手动调整得到合适的距离拍摄获得的。因此,自然场景图像中目标的尺度变化差异相对较小。相比之下,在光学遥感图像中出现的目标,即使是同一类别,也表现出很大的尺度差异。因此,自然场景图像显著目标检测方法在处理尺度变化大的遥感显著目标时,其准确率会降低。由于光学遥感图像是从俯视视角拍摄的,被包含的目标不可避免地有不同的方向。而在近距离自然场景图像中,目标的旋转问题很大程度上可以忽略。遥感场景背景噪声更加多样,受各种成像条件(如拍摄时间、光照强度等)影响导致的阴影、强曝光等问题,进一步增加光学遥感图像提取显著性线索的难度。综上所述,光学遥感图像具有覆盖范围广、目标多样性、类间和类内差异大、背景信息复杂等特点。因此,将现有的自然场景图像显著目标检测方法直接应用于光学遥感图像是不可靠的。
目前,光学遥感图像显著目标检测仍然面临着一些严重阻碍其检测性能的挑战。主要是目标检测不完整和边界预测模糊问题。为了缓解这些问题,目前的研究人员在显著目标检测方法中,成功地采用了注意力机制来学习更具判别力的特征,抑制背景干扰。然而,目前的方法只考虑利用注意力对前景特征进行优化,忽略了对背景特征的学习,从而获得次优的检测性能。事实上,前景特征优化和背景特征优化是两个相辅相成的任务。通过多层前景特征和背景特征的交互学习得到的线索对最终的预测有积极的影响。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法DDCINet,本发明通过多层前景特征、背景特征的交互式学习来克服背景混乱、目标检测不完整和显著目标尺度差异大等问题。
技术方案:本发明的一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法,包括以下步骤:
步骤S1、将待检测图像输入神经网络,其中使用在ImageNet数据集上预训练的ResNet-50卷积神经网络作为网络主干;
步骤S2、使用金字塔型非局部提取模块PNEM提取图像中的尺度差异大的目标,以及获取全局上下文信息和长距离依赖关系;得到侧输出特征Fci,
步骤S3、通过转换模块首先将网络主干中多层特征的通道数统一至128,并将非局部提取模PNEM获取的全局上下文信息传递至所有低层特征,来优化主干网络特征;
步骤S4、在非对称解码器中分别对前景特征和背景特征使用基于注意力的语义增强模块ASEM,将高层的语义信息传递到低层特征中,使得目标的定位更加准确;
步骤S5、在上述步骤S4分别对前景特征和背景特征进行增强的过程中,同时使用注意力引导双任务联合学习模块ADJLB对前景特征和背景特征之间联合学习以及互相优化;通过该操作使得前景特征和背景特征相互指导并融合,最后得到更加完善的前景特征和背景特征;
步骤S6、将前景预测图P1和背景预测图P2相减得到最终预测图。
为减少计算量,本发明采用ResNet-50卷积神经网络作为网络主干,且共设有5个卷积块,每个卷积块是由多个卷积层构成,每个卷积块的输出通道分别为64、256、512、1024和2048,并将最后一个卷积块的通道数从2048减少至128,得到D5。
进一步地,所述非对称解码器中将背景检测任务作为辅助任务,将前景检测任务作为主要任务;前景目标检测能够将光学遥感图像的目标检测出来,但是遥感场景中,有时背景更加简单目标更复杂,因此本发明将背景检测任务作为辅助任务,能够进一步避免显著目标分割不完整。
进一步地,所述金字塔型非局部提取模块包含4个平行的分支,每个分支的输入为D5;其中三个分支的结构相似,包含卷积核大小为3的空洞卷积(膨胀率分别为1,3,5)和non-local模块;这三个分支空洞卷积的卷积核大小不同,用于捕获不同的感受野,从而更加适应尺度差异大的目标;剩余的一个分支利用全局平均池化来提取全局上下文信息;最后将四个分支全部级联得到的特征使用卷积核大小为1的卷积层把通道数降至128得到Fp;
然后使用元素级乘法和加法操作,将ResNet-50五个卷积块的侧输出Fconvi与Fp结合得到新的五个侧输出特征Fci。
进一步地,所述ResNet-50五个卷积块的侧输出Fconvi与Fp结合的具体操作为:
其中,i=1,2,3,4,5,CV是卷积核大小为1的卷积层;Fconvi是ResNet-50五个卷积块的侧输出;Fp是金字塔型非局部提取模块的输出特征,MC(*)是由卷积核大小为3的卷积层、BatchNorm和ReLU函数组成,FTr是新的五个侧输出。
进一步地,将FTr中相邻不同层次的特征作为基于注意力的语义增强模块的输入;为消除冗余信息,针对不同层次的特征,使用不同的注意力来提高重要信息的表达,并且抑制不重要区域信息;
对于低层特征,首先对其分别使用平均池化和最大池化,并级联两个池化的结果,再使用卷积层得到2维的空间注意力图,具体为:
其中,Conv表示卷积层,AvgPooling和Maxpooling分别表示平均池化和最大池化,Cat表示特征按通道维度级联;σ(*)表示sigmoid激活函数;
对于高层特征,首先将低分辨率特征上采样至与低层特征尺寸大小相同,然后使用注意力机制自动获取每个特征通道重要性;具体地,使用全局平均池化将高层特征的全局空间信息压缩到一个通道描述符/>中;
为利用挤压操作后的信息,首先使用两个全连接层和一个ReLU函数来限制复杂度,然后使用门控学习得到权值向量,权值向量对每个原始特征通道进行加权;操作为:
其中Ψ(*,Wi)代表以Wi(W1∈R1×1×C/16,W2∈R1×1×C)为参数的全连接层,ρ(*)代表ReLU函数,σ(*)代表sigmoid函数;
最后结合高层特征和低层特征,采用元素级乘法和加法操作,具体操作为:
其中TMConv(*)代表三个连续的MC(*)操作;
由于最高层只有一个输入,所以使用三个连续的卷积层代替基于注意力的语义增强模块。
进一步地,所述注意力引导双任务联合学习模块的输入包括前景特征和背景特征,分别对前景特征和背景特征进行处理,在处理过程中,背景特征和前景特征互相完善对方特征信息,且这两种特征的处理过程是对称结构。
当需要进行前景特征处理时,使用平均池化和最大池化处理输入的前景特征,之后使用含一个隐含层的感知器来处理池化之后的特征,具体操作为:
其中,Oes是输入的特征,其中O∈{F,B};SN(*)是具有一个隐藏层的多层感知器,是CA模块之后的结果;
为避免前景信息在传输过程丢失,采用背景特征来辅助前景特征的提取,用元素级乘法和加法来为不完整的前景信息补充,具体操作为:
Fr s和分别代表通过感知器之后的前景特征和背景特征,/>和/>分别代表注意力引导的前景特征和背景特征;
之后前景特征和背景特征相互指导并融合,得到更加完善的前景特征和背景特征,具体操作为:
Fr s'和是注意力引导双任务联合学习模块ADJLB的输出。
进一步地,前景特征检测时,在前景检测分支的第i(i=1,2...5)层增加边界辅助模块,此边界辅助模块能够提高输出的边界特征的准确度;包含四个平行的分支,第k个分支包含k-1个卷积核大小为3的卷积层,然后把四个分支的级联起来,并用卷积核大小为1的卷积层将通道数减到128;最终,使用交叉熵损失来使得边界特征更加精确,具体操作为:
其中Pb和Gb分别代表预测边界图和真值边界标签。
进一步地,为得到更加精细的特征,在前景检测分支还增加R模块来级联相邻层的图像特征,具体操作为:
其中Fc是边界特征,Rb和Rf分别表示细化后的背景特征和前景特征;
上述过程中为同时考虑像素之间的关系以及能够一致性高亮显著目标,此处将两种损失函数相结合
其中,Lcel为一致性增强损失函数,能处理由不同尺度物体引起的前景和背景区域之间像素不平衡的问题,具体为:
P*和G*分别代表预测显著图和真值标签;
其中,LJ为Lovász损失函数,能够解决预测图中的空间不一致问题。具体为:
其中,Gi,j是图像的真值标签,Sr,c是预测显著图。
有益效果:本发明相较现有技术具有以下优点:本发明从前景特征和背景特征的交互式学习出发,通过所得线索克服阴影干扰、成像模糊等挑战,联合优化多层背景特征和背景特征,并将高层次的注意线索逐步转换为低层次的特征,生成高质量的预测图,得到更优的检测性能。
综上所述,本发明联合优化多层前景特征和背景特征,并将高层次的全局线索逐步传输到低层次的特征,最终生成高质量的预测图。
附图说明
图1为本发明的流程示意图;
图2为本发明的检测网络模型示意图;
图3为实施例中能够的P-R曲线示意图;
图4为实施例中平均精确率和平均召回率的对比图;
图5为实施例中视觉对比示意图;
图6为实施例中预测指标对比示意图;
图7为实施例中Max Fβ分数示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
如图1所示,本发明的双流解码跨任务交互网络的光学遥感图像显著目标检测方法,包括以下步骤:
步骤S1、将待检测图像输入神经网络,其中使用在ImageNet数据集上预训练的ResNet-50作为网络主干;
步骤S2、使用金字塔型非局部提取模块PNEM提取图像中的尺度差异大的目标,以及获取全局上下文信息和长距离依赖关系;得到侧输出特征Fci,
步骤S3、通过转换模块首先将网络主干中多层特征的通道数统一至128,还同时将PNEM获取的全局上下文信息传递至所有低层特征,优化主干网络特征;
步骤S4、在非对称解码器中分别对前景和背景使用基于注意力的语义增强模块ASEM,将高层的语义信息传递到低层特征中,使得目标的定位更加准确;
步骤S5、在上述步骤S4分别对前景特征和背景特征进行增强的过程中,同时使用注意力引导双任务联合学习模块ADJLB对前景特征和背景特征之间联合学习以及互相优化;
步骤S6、将前景预测图P1和背景预测图P2相减得到最终预测图。
本发明通过前景检测和背景检测两个不同的任务互相学习来更加准确的检测出显著区域,此外本发明在前景检测分支融合有目标边界优化分支来细化目标边界特征的提取。因此,本发明不仅可以预测到更准确的目标边界,而且能够通过背景检测分支来辅助前景检测时得到更准确的显著区域。
上述检测方法基于双流解码跨任务交互网络,其具体模型如图2所示。本发明的网络模型中,前景目标检测任务和背景检测任务的交互进行,并且每一个卷积块均依次经历转换模块、前景检测、背景任务以及注意力引导双任务联合学习模块等处理。
实施例1:
步骤1、本实施例采集对应光学遥感图像数据集,例如ORSSD、ORS-4199和EORSSD。
其中,ORSSD数据集包含600幅图像及其相应的真值标签。ORS-4199数据集包含2000幅训练图像和2199幅测试图像,这是目前最大的显著目标检测数据集。EORSSD数据集是ORSSD数据集的扩展版本,包括1400幅训练图像和600幅测试图像。
步骤2、本实施例先对EORSSD训练集进行随机翻转、旋转、裁剪和仿射变换,以增加训练样本的多样性。此处还扩充了ORS-4199训练集。为了使检测模型收敛,本实施例的检测网络在NVIDIA TITAN Xp GPU上以22的批量大小训练了40次。同时该网络主干参数由ResNet-50确定,其他卷积层使用Pytorch的默认设置初始化。该网络采用Adams优化方法训练,学习率为10-4,输入尺寸为320×320。
步骤3、为便于定量评估,本实施例采用了四种广泛使用的指标。
(1)P-R曲线。利用真值标签和预测图计算精确率和召回率。通过精确率和召回率来绘制P-R曲线。P-R曲线越接近坐标(1,1),网络性能越好。
(2)平均绝对误差(MAE)。计算预测图(P)与真值标签(G)的差值,MAE定义为:
其中W和H是真值标签的宽度和高度。
(3)Max F-measure(Max Fβ)。它被定义为精确率和召回率的加权调和平均值。F-measure被表示为:
其中β2=0.3强调的是精确率而不是召回率。
(4)S-measure(Sm)。Sm计算预测图和真值标签之间的目标感知结构相似度(S0)和区域感知结构相似度(Sr)。Sm如下所示:
Sm=α·S0+(1-α)·Sr
其中α设置为0.5。
步骤4、将本发明技术方案与其他现有技术比较。
本实施例将本发明技术方案的网络与其他16种SOD方法进行比较。
比较方法不仅包括自然场景图像方法,还包括光学遥感图像方法。具体包括DAFNet、PDF-Net、JRBM、LV-Net、MINet、LDF、GCPANet、F3Net、RAS、R2Net、CPD-R、PoolNet、EGNet、SCRN、AADFNet和ENFNet,所有结果均由作者提供的代码生成。
定量比较:
如图6所示,本实施例在三个数据集上使用Max Fβ、MAE和Sm来评估对应的预测图。
在ORSSD数据集上,在三个评估指标方面,本发明技术方案比光学遥感图像中的最佳方法DFANet分别高出0.79%、17.6%和0.1%。与自然场景图像中的最佳方法F3Net相比,分别提高了2.16%、13.4%和1.74%。
在EORSSD数据集上,本发明技术方案仅次于DAFNet。主要原因是EORSSD数据集是ORSSD的扩展版本,它扩展了小目标,使得本发明技术方案不如DAFNet有效。然而,本发明技术方案比自然场景图像中的最佳方法LDF分别高出1.25%、22.47%和1.28%。在具有更多挑战的ORS-4199数据集中,本发明技术方案也排名最佳。
如图3所示,本实施例使用P-R曲线来评估所得预测图。本发明技术方案与其他技术方案进行比较。通过观察P-R曲线,本发明技术方案在ORS-4199数据集上的性能与SCRN相当,并且比其他技术方案都要好得多。在ORSSD和EORSSD数据集上,本发明技术方案所得曲线更接近于(1,1)坐标,这进一步验证本发明技术方案优于其他方法。
如图4所示,本实施例中还计算了平均精确率和平均召回率。如从图4(a)至图4(c)的三个直方图可以看出,本发明技术方案不仅具有较高的平均准确率和平均召回率,而且两者误差较小。进一步证明了该方法的鲁棒性。
定性评价:
如图5所示,本实施进行与其他技术方案在最终视觉上的比较。在第1排、第6排和第8排上,有较强的背景干扰,如第1排储油罐旁有类似目标,第6排的白色高速线标记,第8排的白色候机大厅。
目前现有大多数技术方法都将背景误检测为显著目标,但是本发明技术方案则可以避免这些背景干扰。在2、3、4、5和9排中,目标与背景的对比度很低,几乎所有的算法都不能完全检测出显著目标,本发明技术方案不仅能完全检测出目标,而且能得到很好的边界。在2、3、4和6排中,这些图像具有不同的目标大小。F3Net可以探测到大的目标,但是会漏掉第3排中的小船。然而,大多数其他现有技术方法都遗漏了小目标或丢失了大目标的一部分,本发明技术方案则不存在这些问题。在第10和第11排中,物体本身比较复杂,导致桥梁不完整,建筑物内部结构不完整。
基于ORS-4199的不同挑战上的性能:在具有挑战性的ORS-4199数据集中,每个图像都具有反映现实世界中光学遥感图像的挑战场景。这些标注属性有助于研究显著目标检测模型的优缺点。如图7所示为本发明技术方案的目标检测模型和目前最先进模型的MaxFβ分数对比图,其中本发明在九个属性中的七个中排名第一;此外本发明的平均也排名第一。
Claims (7)
1.一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法,其特征在于,包括以下步骤:
步骤S1、将待检测图像输入神经网络,其中使用在ImageNet数据集上预训练的ResNet-50卷积神经网络作为网络主干;
步骤S2、使用金字塔型非局部提取模块PNEM提取图像中的尺度差异大的目标,以及获取全局上下文信息和长距离依赖关系;得到侧输出特征Fci,
步骤S3、通过转换模块首先将网络主干中多层特征的通道数统一至128,并将金字塔型非局部提取模块PNEM获取的全局上下文信息传递至所有低层特征来优化主干网络特征;
步骤S4、在非对称解码器中分别对前景特征和背景特征使用基于注意力的语义增强模块ASEM,将高层的语义信息传递到低层特征中,非对称解码器中将背景检测任务作为辅助任务,将前景检测任务作为主要任务;
步骤S5、在上述步骤S4分别对前景特征和背景特征进行增强的过程中,同时使用注意力引导双任务联合学习模块ADJLB对前景特征和背景特征之间联合学习以及互相优化;具体方法为:
所述注意力引导双任务联合学习模块的输入包括前景特征和背景特征,分别对前景特征和背景特征进行处理;背景特征和前景特征互相完善对方特征信息,且这两种特征的处理过程是对称结构;
当进行前景特征处理时,先使用平均池化和最大池化处理输入的前景特征,之后使用含一个隐含层的感知器来处理池化之后的特征,具体操作为:
其中,Oes是输入的特征,其中O∈{F,B};SN(*)是具有一个隐藏层的多层感知器,是CA模块之后的结果;
同时背景特征来辅助前景特征的提取,用元素级乘法和加法来为不完整的前景信息补充,具体操作为:
和/>分别代表通过感知器之后的前景特征和背景特征,/>和/>分别代表注意力引导的前景特征和背景特征;
然后对前景特征和背景特征进行相互指导并融合,得到更加完善的前景特征和背景特征,具体操作为:
其中,和/>是注意力引导双任务联合学习模块ADJLB的输出;
步骤S6、将前景预测图P1和背景预测图P2相减得到最终预测图。
2.根据权利要求1所述的双流解码跨任务交互网络的光学遥感图像显著目标检测方法,其特征在于:所述网络主干有5个卷积块,每个卷积块是由多个卷积层构成,每个卷积块的输出通道分别为64,256,512,1024,2048,并将最后一个卷积块的通道数从2048减少至128,得到D5。
3.根据权利要求1所述的双流解码跨任务交互网络的光学遥感图像显著目标检测方法,其特征在于:所述金字塔型非局部提取模块包含4个平行的分支,每个分支的输入为D5;其中三个分支的结构相似,包含卷积核大小为3的空洞卷积和non-local模块,且三个分支的膨胀率分别为1、3和5,剩余的一个分支利用全局平均池化来提取全局上下文信息;最后将四个分支全部级联得到的特征使用卷积核大小为1的卷积层把通道数降至128得到Fp;
然后使用元素级乘法和加法操作,将ResNet-50五个卷积块的侧输出Fconvi与Fp结合得到新的五个侧输出特征Fci。
4.根据权利要求3所述的双流解码跨任务交互网络的光学遥感图像显著目标检测方法,其特征在于:所述ResNet-50五个卷积块的侧输出Fconvi与Fp结合的具体操作为:
其中,i=1,2,3,4,5,CV是卷积核大小为1的卷积层;Fconvi是ResNet-50五个卷积块的侧输出;Fp是金字塔型非局部提取模块的输出特征,MC(*)是由卷积核大小为3的卷积层、BatchNorm和ReLU函数组成,FTr是新的五个侧输出。
5.根据权利要求4所述的双流解码跨任务交互网络的光学遥感图像显著目标检测方法,其特征在于:将新的五个侧输出FTr中相邻不同层次的特征作为基于注意力的语义增强模块的输入;并针对不同层次的特征来使用不同的注意力;
(A)对于低层特征首先对其分别使用平均池化和最大池化,并级联两个池化的结果,再使用卷积层得到二维的空间注意力图,具体为:
其中,Conv表示卷积层,AvgPooling和Maxpooling分别表示平均池化和最大池化,Cat表示特征按通道维度级联;σ(*)表示sigmoid激活函数;
(B)对于高层特征首先将低分辨率特征上采样至与低层特征尺寸大小相同,然后使用注意力机制自动获取每个特征通道重要性;具体地,使用全局平均池化将高层特征的全局空间信息压缩到一个通道描述符/>中;
(C)上述过程中使用两个全连接层和一个ReLU函数来限制复杂度,然后使用门控学习得到权值向量,权值向量对每个原始特征通道进行加权;操作为:
其中Ψ(*,Wi)代表以Wi(W1∈R1×1×C/16,W2vR1×1×C)为参数的全连接层,ρ(*)代表ReLU函数,σ(*)代表sigmoid函数;
(D)最后采用元素级乘法和加法操作来结合所得的高层特征和低层特征,具体操作为:
其中TMConv(*)代表三个连续的MC(*)操作;
由于最高层只有一个输入,所以使用三个连续的卷积层代替基于注意力的语义增强模块。
6.根据权利要求1所述的双流解码跨任务交互网络的光学遥感图像显著目标检测方法,其特征在于:
所述前景特征检测中,在前景检测分支的第i层增加目标边界辅助模块,所述目标边界辅助模块包含四个平行的分支,第k个分支包含k-1个卷积核大小为3的卷积层,然后把四个分支的级联起来,并用卷积核大小为1的卷积层将通道数减到128;最终,使用交叉熵损失来提高边界特征,具体操作为:
其中Pb和Gb分别代表预测边界图和真值边界标签。
7.根据权利要求6所述的双流解码跨任务交互网络的光学遥感图像显著目标检测方法,其特征在于:
所述前景检测分支任务中还设有R模块来级联相邻层的图像特征,具体操作为:
其中Fc是目标边界特征,Rb和Rf分别表示细化后的前景特征和背景特征;
上述过程中结合一致性增强损失函数和Lovász损失函数,所述
一致性增强损失函数为:
其中P*和G*分别代表预测显著图和真值标签;
所述Lovász损失函数为:
其中,Gi,j是图像的真值标签,Sr,c是预测显著图;
所以最后总的损失函数为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110566201.8A CN113505634B (zh) | 2021-05-24 | 2021-05-24 | 一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110566201.8A CN113505634B (zh) | 2021-05-24 | 2021-05-24 | 一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113505634A CN113505634A (zh) | 2021-10-15 |
CN113505634B true CN113505634B (zh) | 2024-06-14 |
Family
ID=78008594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110566201.8A Active CN113505634B (zh) | 2021-05-24 | 2021-05-24 | 一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505634B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989803A (zh) * | 2021-11-05 | 2022-01-28 | 北京字节跳动网络技术有限公司 | 目标检测方法及设备 |
CN115097941B (zh) * | 2022-07-13 | 2023-10-10 | 北京百度网讯科技有限公司 | 人物交互检测方法、装置、设备以及存储介质 |
CN117197156B (zh) * | 2022-10-21 | 2024-04-02 | 南华大学 | 基于双解码器UNet和Transformer的病变分割方法及系统 |
CN115410189B (zh) * | 2022-10-31 | 2023-01-24 | 松立控股集团股份有限公司 | 一种复杂场景车牌检测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020658A (zh) * | 2019-03-28 | 2019-07-16 | 大连理工大学 | 一种基于多任务深度学习的显著目标检测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11461998B2 (en) * | 2019-09-25 | 2022-10-04 | Samsung Electronics Co., Ltd. | System and method for boundary aware semantic segmentation |
CN111783523B (zh) * | 2020-05-19 | 2022-10-21 | 中国人民解放军93114部队 | 一种遥感影像旋转目标检测方法 |
CN112507777A (zh) * | 2020-10-10 | 2021-03-16 | 厦门大学 | 一种基于深度学习的光学遥感图像舰船检测与分割方法 |
CN112347859B (zh) * | 2020-10-15 | 2024-05-24 | 北京交通大学 | 一种光学遥感图像显著性目标检测方法 |
-
2021
- 2021-05-24 CN CN202110566201.8A patent/CN113505634B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020658A (zh) * | 2019-03-28 | 2019-07-16 | 大连理工大学 | 一种基于多任务深度学习的显著目标检测方法 |
Non-Patent Citations (1)
Title |
---|
基于级联全卷积神经网络的显著性检测;张松龙;谢林柏;;激光与光电子学进展;20181029(07);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113505634A (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113505634B (zh) | 一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法 | |
US11551333B2 (en) | Image reconstruction method and device | |
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
CN108154118B (zh) | 一种基于自适应组合滤波与多级检测的目标探测系统及方法 | |
CN108090919B (zh) | 一种基于超像素光流和自适应学习因子改进的核相关滤波跟踪方法 | |
CN113052210A (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN114565860B (zh) | 一种多维度增强学习合成孔径雷达图像目标检测方法 | |
CN113408492A (zh) | 一种基于全局-局部特征动态对齐的行人重识别方法 | |
CN110569782A (zh) | 一种基于深度学习目标检测方法 | |
CN114724155B (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN111723822B (zh) | 一种基于多层次融合的rgbd图像显著性检测方法及系统 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN113850324B (zh) | 一种基于Yolov4的多光谱目标检测方法 | |
CN113554679A (zh) | 一种面向计算机视觉应用的无锚框目标跟踪算法 | |
CN114066955A (zh) | 一种红外光图像配准到可见光图像的配准方法 | |
CN114663371A (zh) | 基于模态独有和共有特征提取的图像显著目标检测方法 | |
CN117292117A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN113408549A (zh) | 基于模板匹配和注意力机制的少样本弱小目标检测方法 | |
CN113609904B (zh) | 一种基于动态全局信息建模和孪生网络的单目标跟踪算法 | |
CN112800932B (zh) | 海上背景下显著船舶目标的检测方法及电子设备 | |
CN114708615A (zh) | 基于图像增强的低照度环境下人体检测方法、电子设备及储存介质 | |
CN114863133B (zh) | 基于多任务无监督算法的浮选泡沫图像特征点提取方法 | |
CN113313091B (zh) | 仓储物流下的基于多重注意力和拓扑约束的密度估计方法 | |
CN116363733A (zh) | 一种基于动态分布融合的人脸表情预测方法 | |
CN115410089A (zh) | 自适应局部上下文嵌入的光学遥感小尺度目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |