Nothing Special   »   [go: up one dir, main page]

CN113642390B - 一种基于局部注意力网络的街景图像语义分割方法 - Google Patents

一种基于局部注意力网络的街景图像语义分割方法 Download PDF

Info

Publication number
CN113642390B
CN113642390B CN202110763344.8A CN202110763344A CN113642390B CN 113642390 B CN113642390 B CN 113642390B CN 202110763344 A CN202110763344 A CN 202110763344A CN 113642390 B CN113642390 B CN 113642390B
Authority
CN
China
Prior art keywords
feature map
convolution
input
network
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110763344.8A
Other languages
English (en)
Other versions
CN113642390A (zh
Inventor
赵明华
郅宇星
王睿
胡静
都双丽
石程
李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202110763344.8A priority Critical patent/CN113642390B/zh
Publication of CN113642390A publication Critical patent/CN113642390A/zh
Application granted granted Critical
Publication of CN113642390B publication Critical patent/CN113642390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开的一种基于局部注意力网络的街景图像语义分割方法,具体实施步骤是:步骤1,首先从公开数据集Cityscapes中随机选取部分图像数据,将选取的部分图像数据划分为训练集、验证集及测试集;步骤2,使用倒置残差模块和空洞卷积构造MobileNetV2网络模型;步骤3,设计局部注意力模块和残差块,并构造编码网络;步骤4,构造解码网络,逐渐恢复图像分辨率,最终输出语义分割的结果;步骤5,使用训练集和验证集对模型进行训练,并在测试集上验证模型的分割效果。该方法解决了现有技术中存在的普遍存在的局部信息在特征提取过程中无法完整保留,从而解决了类别内部分割结果不一致的问题。

Description

一种基于局部注意力网络的街景图像语义分割方法
技术领域
本发明属于数字图像处理方法领域,具体涉及一种基于局部注意力网络的街景图像语义分割方法。
背景技术
视觉是人类对外部世界和接受外部信息认知的重要途径,相比于语言文字描述,人类更倾向于直接从图像中获取信息。然而,计算机需要像人眼一样完成准确地图像像素分类等场景理解任务,仍是一个具有挑战性的任务。语义分割任务的目标是利用计算机对图像中的每个像素进行正确分类,是一种逐像素分类任务。场景理解是利用计算机完成类似于人类对环境感知和理解的任务,其中语义分割作为实现场景理解的必经之路,是一项关键而又基础的技术。
在面向城市道路场景下,语义分割是理解城市街道场景中车辆、人行道、马路、信号灯等不同种类的对象的关键技术,而街道场景通常由于其具有复杂性与非结构性的特点,例如光照、季节天气变化、目标尺度太小、物体被遮挡等问题,道路中通常存在着多样化的目标,这使得面向街道场景下的视觉理解与语义分割任务成为一个极其复杂棘手和严峻的挑战。
发明内容
本发明的目的是提供一种基于局部注意力网络的街景图像语义分割方法,解决了现有技术中存在的普遍存在的局部信息在特征提取过程中无法完整保留,从而解决了类别内部分割结果不一致的问题。
本发明所采用的技术方案是,一种基于局部注意力网络的街景图像语义分割方法,具体实施步骤是:
步骤1,首先从公开数据集Cityscapes中随机选取部分图像数据,将选取的部分图像数据划分为训练集、验证集及测试集,最后分别对训练集、验证集、测试集的所有图像数据进行数据增强和预处理操作;
步骤2,首先使用深度可分离卷积、残差结构构造倒置残差模块,然后使用倒置残差模块和空洞卷积构造MobileNetV2网络模型;将训练集的图像数据输入到MobileNetV2网络模型提取图像特征,输出低层特征图Flow和高层特征图Fhigh,对Fhigh使用不同扩张率的四个空洞卷积和一次全局平均池化,得到五个特征图;
步骤3,由于局部上下文信息在逐步提取特征的过程中有丢失的可能,因此设计局部注意力模块和残差块,并构造编码网络,目的是提取图像特征,同时恢复输入图像数据的局部上下文信息;
步骤4,构造解码网络:将编码网络的输出与低层特征图Flow依次进行上采样、拼接、上采样操作,逐渐恢复图像分辨率,最终输出语义分割的结果;
步骤5,使用训练集和验证集对模型进行训练,并在测试集上验证模型的分割效果。
本发明的特征还在于,
步骤1具体过程为:
步骤1.1,从公开数据集Cityscapes中随机选取部分图像数据,按照6:3:1的比例将选取的部分图像数据划分为训练集、验证集及测试集;
步骤1.2,对于训练集的所有图像数据,使用随机翻转、随机裁剪、随机高斯模糊的方法对数据进行增强,最后对训练集的图像数据归一化;
步骤1.3,对于验证集和测试集,首先对所有图像数据使用双线性插值的方法将图像大小缩放到513×1026像素;然后再裁剪为513×513大小的图像;最后对验证集和测试集的所有图像数据进行归一化操作。
步骤2具体过程为:
步骤2.1,使用深度可分离卷积和残差网络结构来构造倒置残差模块:首先使用卷积核大小为1×1卷积升维,然后使用卷积核大小为3×3的深度可分离卷积,目的是减小计算量,最后使用卷积核大小为1×1卷积降维,并使用两个ReLu6激活函数;
步骤2.1中,ReLu6激活函数ReLu6(x)的定义如公式(1)所示:
ReLu6(x)=min{max(0,x),6} (1)
其中,x表示输入数据,max()和min()两个函数返回输入数据中的最大值和最小值;
步骤2.2,使用3个卷积层、7个倒置残差模块、1个平均池化层构造MobileNetV2网络模型,采用空洞卷积使用跨像素的模式逐层提取图像特征;MobileNetV2网络模型使用的所有卷积操作都为扩张率d=1的空洞卷积,第四层输出是低层特征图Flow,整个网络模型的输出是高层特征图Fhigh
步骤2.2中,空洞卷积的等效卷积核大小k'的计算方式定义如公式(2)所示:
k'=k+(k-1)×(d-1) (2)
其中,k为卷积核大小,d为空洞卷积的扩张率,第i+1层空洞卷积的感受野RFi+1计算方式定义如公式(3)所示:
RFi+1=RFi+(k'-1)×Si (3)
其中,i表示网络层数索引,RF表示第i层的感受野,Si表示之前所有层步长的乘积,Si的计算方式如式(4)所示:
其中,Stridei表示第i层的步长;
步骤2.3,对Fhigh首先使用四种扩张率d=0,1,2,3的空洞卷积分别得到四个特征图:F1,F2,F3,F4,然后使用一次全局平均池化得到特征图Fp,Fp的输出大小N的计算方法如式(5):
其中,W为输入大小,F为核大小,S为步长,P为填充大小。
步骤3的具体过程为:
步骤3.1,构造局部注意力模块:首先将输入的特征图fa和特征图fb拼接之后经过批归一化和1×1的卷积操作得到fb';然后将fb'依次进行全局池化、Relu激活函数、1×1卷积、Sigmoid激活函数,得到fb”,fb”与fa相乘得到fa';最后将fa'和fb'相加作为局部注意力模块的输出;
步骤3.1中,的Relu激活函数ReLu(x)和Sigmoid激活函数定义如式(6)和式(7):
其中,x表示输入值;
卷积操作为每个像素赋予每个类别的概率值,最终每个类别的概率F由所有的特征图相加得到的,如式(8):
其中,d表示网络输出的特征图,w表示卷积操作,D表示所有像素位置的集合,k∈{0,1,...,K},K为通道数,yk表示第k个通道的值;
引入权重参数α=Sigmoid(d;w)修正预测的最高概率,新的预测值如式(9)所示:
步骤3.2,构造残差块:首先将输入的特征图经过一次1×1卷积得到特征图fc1;然后依次经过3×3卷积、Relu激活函数、批归一化、3×3卷积得到特征图fc2;最后将fc1和fc2相加,使用Relu激活函数得到残差块的输出;
步骤3.3,构造编码网络:首先按照如下方式生成四个特征图F4',F3',F2',F1':
1)特征图F4'生成方式如下:将步骤2.3输出的特征图Fp与特征图F4输入到局部注意力模块,输出的特征图F4_1输入到残差块得到特征图F4_2,输入F4_2到扩张率d=1空洞卷积得到特征图F4';
2)特征图F3'生成方式如下:输入特征图F4_2与特征图F3到局部注意力模块得到特征图F3_1,输入特征图F3_1到残差块得到特征图F3_2,输入F3_2到扩张率d=1空洞卷积得到特征图F3';
3)特征图F2'生成方式如下:输入特征图F3_2与特征图F2到局部注意力模块得到特征图F2_1,输入特征图F2_1到残差块得到特征图F2_2,输入F2_2到扩张率d=1空洞卷积得到特征图F2';
4)特征图F1'生成方式如下:输入特征图F2_2与特征图F1到局部注意力模块得到特征图F1_1,输入特征图F1_1到残差块得到特征图F1_2,输入F1_2到扩张率d=1空洞卷积得到特征图F1';
然后拼接四个特征图F1',F2',F3',F4',最后将拼接结果经过一次1×1卷积运算后得到编码网络的输出Fencoder
步骤4的具体过程为:首先将低层特征图Flow进行一次1×1卷积运算得到特征图Flow',编码网络的输出特征图Fencoder使用双线性采样方法进行上采样得到Fencoder';然后将Flow'和Fencoder'拼接,进行3×3卷积运算;最后通过双线性上采样4倍得到分割结果。
步骤5的具体过程为:
步骤5.1,使用训练集的图像数据训练模型,在训练的过程中使用验证集评估模型的分割效果,验证集不参与训练过程;训练模型使用交叉熵损失函数Lossce,初始学习率设置为0.007并采用多项式衰减策略;
步骤5.1中,交叉熵损失函数Lossce的定义如式(11):
其中,T为真实标签值,样本总数为N,pi,t表示第i个样本预测为第t个标签值的概率,yi,t表示第i个样本为第t个标签的真实概率值,其中i∈{0,1,...,1000},t∈{0,1,...,19};
步骤5.2,使用语义分割方法中的平均交并比和准确率作为评价指标评估模型,将测试集中的图像数据,逐张输入到模型中,模型的输出即为每张图像的语义分割结果,同时输出分割每张图像所使用的时间。
本发明的有益效果是:
(1)本发明方法基于编码器-解码器的分割结构,编码器网络逐层提取特征,而解码器通过上采样逐步恢复图像的分辨率,达到了对图像中每个像素进行分类的目的。
(2)在卷积运算时,每个特征图都被一视同仁,而本发明方法通过局部注意力网络模块给每个特征图赋予不同的权重,对于分割有增益的特征图,所分配的权重更大,而对于冗余的特征图,则权重更小。因此,本发明方法可以显著提高网络模型对每个类别的判别能力,降低类内的分割不一致性,提高语义分割的视觉平滑效果。
附图说明
图1是本发明基于局部注意力网络的街景图像语义分割方法的流程图;
图2是本发明基于局部注意力网络的街景图像语义分割方法中使用的局部注意力模块结构的示意图;
图3是本发明基于局部注意力网络的街景图像语义分割方法中使用的残差块结构的示意图;
图4本发明实施例中测试集中随机取得的第一幅原图像、真实标签与分割结果的对比图;
图5本发明实施例中测试集中随机取得的第二幅原图像、真实标签与分割结果的对比图;
图6本发明实施例中测试集中随机取得的第三幅原图像、真实标签与分割结果的对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于局部注意力网络的街景图像语义分割方法,具体实施步骤是:
步骤1,首先从公开数据集Cityscapes中随机选取部分图像数据,将选取的部分图像数据划分为训练集、验证集及测试集,最后分别对训练集、验证集、测试集的所有图像数据进行数据增强和预处理操作;
步骤1具体过程为:
步骤1.1,从公开数据集Cityscapes中分别随机选取1000张、500张、166张图像作为训练集、测试集、验证集的图像数据;
步骤1.2,对于训练集的所有图像数据,使用随机翻转、随机裁剪、随机高斯模糊的方法对数据进行增强,最后对训练集的图像数据归一化;
步骤1.3,对于验证集和测试集,首先对所有图像数据使用双线性插值的方法将图像大小缩放到513×1026像素;然后再裁剪为513×513大小的图像;最后对验证集和测试集的所有图像数据进行归一化操作。
步骤2,首先使用深度可分离卷积、残差结构构造倒置残差模块,然后使用倒置残差模块和空洞卷积构造MobileNetV2网络模型,MobileNetV2网络模型的详细结构如表1所示。将训练集的图像数据输入到MobileNetV2网络模型提取图像特征,输出低层特征图Flow和高层特征图Fhigh,对Fhigh使用不同扩张率的四个空洞卷积和一次全局平均池化,得到五个特征图;
表1MobileNetV2网络模型的详细结构
步骤2具体过程为:
步骤2.1,使用深度可分离卷积和残差网络结构来构造倒置残差模块:首先使用卷积核大小为1×1卷积升维,然后使用卷积核大小为3×3的深度可分离卷积,目的是减小计算量,最后使用卷积核大小为1×1卷积降维,并使用两个ReLu6激活函数;
步骤2.1中,ReLu6激活函数ReLu6(x)的定义如公式(1)所示:
ReLu6(x)=min{max(0,x),6} (1)
其中,x表示输入数据,max()和min()两个函数返回输入数据中的最大值和最小值;
步骤2.2,使用3个卷积层、7个倒置残差模块、1个平均池化层构造MobileNetV2网络模型,具体的模型结构如表1所示。为了在不损失信息的情况下增大卷积的感受野,采用空洞卷积使用跨像素的模式逐层提取图像特征;MobileNetV2网络模型使用的所有卷积操作都为扩张率d=1的空洞卷积,第四层输出是低层特征图Flow,整个网络模型的输出是高层特征图Fhigh
步骤2.2中,空洞卷积的等效卷积核大小k'的计算方式定义如公式(2)所示:
k'=k+(k-1)×(d-1) (2)
其中,k为卷积核大小,d为空洞卷积的扩张率,第i+1层空洞卷积的感受野RFi+1计算方式定义如公式(3)所示:
RFi+1=RFi+(k'-1)×Si (3)
其中,i表示网络层数索引,RF表示第i层的感受野,Si表示之前所有层步长的乘积,Si的计算方式如式(4)所示:
其中,Stridei表示第i层的步长;
步骤2.3,对Fhigh首先使用四种扩张率d=0,1,2,3的空洞卷积分别得到四个特征图:F1,F2,F3,F4,然后使用一次全局平均池化得到特征图Fp,Fp的输出大小N的计算方法如式(5):
其中,W为输入大小,F为核大小,S为步长,P为填充大小。
步骤3,由于局部上下文信息在逐步提取特征的过程中有丢失的可能,因此设计局部注意力模块和残差块,如图2和图3所示,并构造编码网络,目的是提取图像特征,同时恢复输入图像数据的局部上下文信息;
步骤3的具体过程为:
步骤3.1,构造局部注意力模块(Local Attention Block,LAB):首先将输入的特征图fa和特征图fb拼接之后经过批归一化和1×1的卷积操作得到fb';然后将fb'依次进行全局池化、Relu激活函数、1×1卷积、Sigmoid激活函数,得到fb”,fb”与fa相乘得到fa';最后将fa'和fb'相加作为局部注意力模块的输出;局部注意力模块的结构图如图2所示。目的是为每个通道赋予不同的权重,卷积操作为每个像素分配每个类别的概率值,并设置权重参数优化最高概率。
步骤3.1中,的Relu激活函数ReLu(x)和Sigmoid激活函数定义如式(6)和式(7):
其中,x表示输入值;
卷积操作为每个像素赋予每个类别的概率值,最终每个类别的概率F由所有的特征图相加得到的,如式(8):
其中,d表示网络输出的特征图,w表示卷积操作,D表示所有像素位置的集合,k∈{0,1,...,K},K为通道数,yk表示第k个通道的值;
引入权重参数α=Sigmoid(d;w)修正预测的最高概率,新的预测值如式(9)所示:
步骤3.2,构造残差块:首先将输入的特征图经过一次1×1卷积得到特征图fc1;然后依次经过3×3卷积、Relu激活函数、批归一化、3×3卷积得到特征图fc2;最后将fc1和fc2相加,使用Relu激活函数得到残差块的输出;残差块的结构图如图3所示,这一模块的目的是结合所有通道的信息,达到细化特征图的目的。
步骤3.3,构造编码网络:首先按照如下方式生成四个特征图F4',F3',F2',F1':
1)特征图F4'生成方式如下:将步骤2.3输出的特征图Fp与特征图F4输入到局部注意力模块,输出的特征图F4_1输入到残差块得到特征图F4_2,输入F4_2到扩张率d=1空洞卷积得到特征图F4';
2)特征图F3'生成方式如下:输入特征图F4_2与特征图F3到局部注意力模块得到特征图F3_1,输入特征图F3_1到残差块得到特征图F3_2,输入F3_2到扩张率d=1空洞卷积得到特征图F3';
3)特征图F2'生成方式如下:输入特征图F3_2与特征图F2到局部注意力模块得到特征图F2_1,输入特征图F2_1到残差块得到特征图F2_2,输入F2_2到扩张率d=1空洞卷积得到特征图F2';
4)特征图F1'生成方式如下:输入特征图F2_2与特征图F1到局部注意力模块得到特征图F1_1,输入特征图F1_1到残差块得到特征图F1_2,输入F1_2到扩张率d=1空洞卷积得到特征图F1';
然后拼接四个特征图F1',F2',F3',F4',最后将拼接结果经过一次1×1卷积运算后得到编码网络的输出Fencoder
步骤4,构造解码网络:将编码网络的输出与低层特征图Flow依次进行上采样、拼接、上采样操作,逐渐恢复图像分辨率,最终输出语义分割的结果;
步骤4的具体过程为:首先将低层特征图Flow进行一次1×1卷积运算得到特征图Flow',编码网络的输出特征图Fencoder使用双线性采样方法进行上采样得到Fencoder';然后将Flow'和Fencoder'拼接,进行3×3卷积运算;最后通过双线性上采样4倍得到分割结果。
步骤5,基于上述步骤2~步骤4构造的基于局部注意力网络的语义分割网络模型结构如图1所示,使用训练集和验证集对模型进行训练,并在测试集上验证模型的分割效果,模型在训练集和验证集的表现效果如表2所示。
步骤5的具体过程为:
步骤5.1,基于局部注意力网络的语义分割模型结构如图1所示。使用训练集的图像数据训练模型,在训练的过程中使用验证集评估模型的分割效果,验证集不参与训练过程;训练模型使用交叉熵损失函数Lossce,初始学习率设置为0.007并采用多项式衰减策略;
步骤5.1中,交叉熵损失函数Lossce的定义如式(11):
其中,T为真实标签值,样本总数为N,pi,t表示第i个样本预测为第t个标签值的概率,yi,t表示第i个样本为第t个标签的真实概率值,其中i∈{0,1,...,1000},t∈{0,1,...,19};
步骤5.2,使用语义分割方法中的平均交并比(MIOU)和准确率(Acc)作为评价指标评估模型,将测试集中的图像数据,逐张输入到模型中,模型的输出即为每张图像的语义分割结果,同时输出分割每张图像所使用的时间,模型在训练集和验证集的表现效果如表2所示,总体来看模型的表现良好,所有类别的平均交并比达到了0.613,准确率达到了0.942,对于一张分辨率为512×1024的图像,仅需要0.5秒以内即可得到分割结果。
表2模型在训练集和验证集的表现效果
如图4~图6中的原图是测试集中随机取得的三幅图像,使用基于局部注意力网络的语义分割模型对三幅原图进行处理,第二列是原图对应的真实标签,第三列是对三幅原图使用模型处理得到的语义分割结果。
对比真实标签与分割结果可以看出:模型的分割结果较为准确,视觉效果较好,没有出现大面积分类错误的情况,尤其是对于大面积的类别(道路、建筑、车辆等)分割更为准确,具体表现为类别边缘无锯齿状,类别内部无信息丢失的情况,对于小目标可以分割出大致的轮廓,小目标的具体细节还需要更进一步的细分。

Claims (4)

1.一种基于局部注意力网络的街景图像语义分割方法,其特征在于,具体实施步骤是:
步骤1,首先从公开数据集Cityscapes中随机选取部分图像数据,将选取的部分图像数据划分为训练集、验证集及测试集,最后分别对训练集、验证集、测试集的所有图像数据进行数据增强和预处理操作;
步骤2,首先使用深度可分离卷积、残差结构构造倒置残差模块,然后使用倒置残差模块和空洞卷积构造MobileNetV2网络模型;将训练集的图像数据输入到MobileNetV2网络模型提取图像特征,输出低层特征图Flow和高层特征图Fhigh,对Fhigh使用不同扩张率的四个空洞卷积和一次全局平均池化,得到五个特征图;
步骤2具体过程为:
步骤2.1,使用深度可分离卷积和残差网络结构来构造倒置残差模块:
首先使用卷积核大小为1×1卷积升维,然后使用卷积核大小为3×3的深度可分离卷积,目的是减小计算量,最后使用卷积核大小为1×1卷积降维,并使用两个ReLu6激活函数;
步骤2.1中,ReLu6激活函数ReLu6(x)的定义如公式(1)所示:
ReLu6(x)=min{max(0,x),6}(1)
其中,x表示输入数据,max()和min()两个函数返回输入数据中的最大值和最小值;
步骤2.2,使用3个卷积层、7个倒置残差模块、1个平均池化层构造MobileNetV2网络模型,采用空洞卷积使用跨像素的模式逐层提取图像特征;
MobileNetV2网络模型使用的所有卷积操作都为扩张率d=1的空洞卷积,第四层输出是低层特征图Flow,整个网络模型的输出是高层特征图Fhigh
步骤2.2中,空洞卷积的等效卷积核大小k'的计算方式定义如公式(2)所示:
k'=k+(k-1)×(d-1) (2)
其中,k为卷积核大小,d为空洞卷积的扩张率,第i+1层空洞卷积的感受野RFi+1计算方式定义如公式(3)所示:
RFi+1=RFi+(k'-1)×Si (3)
其中,i表示网络层数索引,RF表示第i层的感受野,Si表示之前所有层步长的乘积,Si的计算方式如式(4)所示:
其中,Stridei表示第i层的步长;
步骤2.3,对Fhigh首先使用四种扩张率d=0,1,2,3的空洞卷积分别得到四个特征图:F1,F2,F3,F4,然后使用一次全局平均池化得到特征图Fp,Fp的输出大小N的计算方法如式(5):
其中,W为输入大小,F为核大小,S为步长,P为填充大小;
步骤3,设计局部注意力模块和残差块,并构造编码网络;
步骤3的具体过程为:
步骤3.1,构造局部注意力模块:首先将输入的特征图fa和特征图fb拼接之后经过批归一化和1×1的卷积操作得到fb';然后将fb'依次进行全局池化、Relu激活函数、1×1卷积、Sigmoid激活函数,得到fb”,fb”与fa相乘得到fa';最后将fa'和fb'相加作为局部注意力模块的输出;
步骤3.1中,的Relu激活函数ReLu(x)和Sigmoid激活函数定义如式(6)和式(7):
其中,x表示输入值;
卷积操作为每个像素赋予每个类别的概率值,最终每个类别的概率F由所有的特征图相加得到的,如式(8):
其中,d表示网络输出的特征图,w表示卷积操作,D表示所有像素位置的集合,k∈{0,1,...,K},K为通道数,yk表示第k个通道的值;
引入权重参数α=Sigmoid(d;w)修正预测的最高概率,新的预测值如式(9)所示:
步骤3.2,构造残差块:首先将输入的特征图经过一次1×1卷积得到特征图fc1;然后依次经过3×3卷积、Relu激活函数、批归一化、3×3卷积得到特征图fc2;最后将fc1和fc2相加,使用Relu激活函数得到残差块的输出;
步骤3.3,构造编码网络:首先按照如下方式生成四个特征图F4',F3',F2',F1':
1)特征图F4'生成方式如下:将步骤2.3输出的特征图Fp与特征图F4输入到局部注意力模块,输出的特征图F4_1输入到残差块得到特征图F4_2,输入F4_2到扩张率d=1空洞卷积得到特征图F4';
2)特征图F3'生成方式如下:输入特征图F4_2与特征图F3到局部注意力模块得到特征图F3_1,输入特征图F3_1到残差块得到特征图F3_2,输入F3_2到扩张率d=1空洞卷积得到特征图F3';
3)特征图F2'生成方式如下:输入特征图F3_2与特征图F2到局部注意力模块得到特征图F2_1,输入特征图F2_1到残差块得到特征图F2_2,输入F2_2到扩张率d=1空洞卷积得到特征图F2';
4)特征图F1'生成方式如下:输入特征图F2_2与特征图F1到局部注意力模块得到特征图F1_1,输入特征图F1_1到残差块得到特征图F1_2,输入F1_2到扩张率d=1空洞卷积得到特征图F1';
然后拼接四个特征图F1',F2',F3',F4',最后将拼接结果经过一次1×1卷积运算后得到编码网络的输出Fencoder
步骤4,构造解码网络:将编码网络的输出与低层特征图Flow依次进行上采样、拼接、上采样操作,逐渐恢复图像分辨率,最终输出语义分割的结果;
步骤5,使用训练集和验证集对模型进行训练,并在测试集上验证模型的分割效果。
2.根据权利要求1所述的一种基于局部注意力网络的街景图像语义分割方法,其特征在于,步骤1具体过程为:
步骤1.1,从公开数据集Cityscapes中随机选取部分图像数据,按照6:3:1的比例将选取的部分图像数据划分为训练集、验证集及测试集;
步骤1.2,对于训练集的所有图像数据,使用随机翻转、随机裁剪、随机高斯模糊的方法对数据进行增强,最后对训练集的图像数据归一化;
步骤1.3,对于验证集和测试集,首先对所有图像数据使用双线性插值的方法将图像大小缩放到513×1026像素;然后再裁剪为513×513大小的图像;最后对验证集和测试集的所有图像数据进行归一化操作。
3.根据权利要求1所述的一种基于局部注意力网络的街景图像语义分割方法,其特征在于,步骤4的具体过程为:首先将低层特征图Flow进行一次1×1卷积运算得到特征图Flow',编码网络的输出特征图Fencoder使用双线性采样方法进行上采样得到Fencoder';然后将Flow'和Fencoder'拼接,进行3×3卷积运算;最后通过双线性上采样4倍得到分割结果。
4.根据权利要求1所述的一种基于局部注意力网络的街景图像语义分割方法,其特征在于,步骤5的具体过程为:
步骤5.1,使用训练集的图像数据训练模型,在训练的过程中使用验证集评估模型的分割效果,验证集不参与训练过程;训练模型使用交叉熵损失函数Lossce,初始学习率设置为0.007并采用多项式衰减策略;
步骤5.1中,交叉熵损失函数Lossce的定义如式(11):
其中,T为真实标签值,样本总数为N,pi,t表示第i个样本预测为第t个标签值的概率,yi,t表示第i个样本为第t个标签的真实概率值,其中i∈{0,1,...,1000},t∈{0,1,...,19};
步骤5.2,使用语义分割方法中的平均交并比和准确率作为评价指标评估模型,将测试集中的图像数据,逐张输入到模型中,模型的输出即为每张图像的语义分割结果,同时输出分割每张图像所使用的时间。
CN202110763344.8A 2021-07-06 2021-07-06 一种基于局部注意力网络的街景图像语义分割方法 Active CN113642390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110763344.8A CN113642390B (zh) 2021-07-06 2021-07-06 一种基于局部注意力网络的街景图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110763344.8A CN113642390B (zh) 2021-07-06 2021-07-06 一种基于局部注意力网络的街景图像语义分割方法

Publications (2)

Publication Number Publication Date
CN113642390A CN113642390A (zh) 2021-11-12
CN113642390B true CN113642390B (zh) 2024-02-13

Family

ID=78416754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110763344.8A Active CN113642390B (zh) 2021-07-06 2021-07-06 一种基于局部注意力网络的街景图像语义分割方法

Country Status (1)

Country Link
CN (1) CN113642390B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114266977B (zh) * 2021-12-27 2023-04-07 青岛澎湃海洋探索技术有限公司 基于超分辨可选择网络的多auv的水下目标识别方法
CN114332839B (zh) * 2021-12-30 2024-06-07 福州大学 一种基于多空间联合感知的街景文本检测方法
CN115063446B (zh) * 2022-05-12 2024-10-11 福州大学 一种辅助驾驶系统的城市街景实例分割方法
CN116055174A (zh) * 2023-01-10 2023-05-02 吉林大学 一种基于改进MobileNetV2的车联网入侵检测方法
CN116843696B (zh) * 2023-04-27 2024-04-09 山东省人工智能研究院 基于特征相似性和超参数卷积注意力的心脏mri分割方法
CN116612122B (zh) * 2023-07-20 2023-10-10 湖南快乐阳光互动娱乐传媒有限公司 图像显著性区域的检测方法及装置、存储介质及电子设备
CN116721302B (zh) * 2023-08-10 2024-01-12 成都信息工程大学 一种基于轻量级网络的冰雪晶粒子图像分类方法
CN117409030B (zh) * 2023-12-14 2024-03-22 齐鲁工业大学(山东省科学院) 基于动态管状卷积的octa图像血管分割方法及其系统
CN118194675B (zh) * 2024-05-16 2024-07-26 四川大学 基于生成模型的反应堆承压结构内流道拓扑优化设计方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183360A (zh) * 2020-09-29 2021-01-05 上海交通大学 高分辨率遥感影像的轻量化语义分割方法
CN112183258A (zh) * 2020-09-16 2021-01-05 太原理工大学 一种基于上下文信息和注意力机制的遥感图像道路分割方法
CN112330681A (zh) * 2020-11-06 2021-02-05 北京工业大学 一种基于注意力机制的轻量级网络实时语义分割方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11461998B2 (en) * 2019-09-25 2022-10-04 Samsung Electronics Co., Ltd. System and method for boundary aware semantic segmentation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183258A (zh) * 2020-09-16 2021-01-05 太原理工大学 一种基于上下文信息和注意力机制的遥感图像道路分割方法
CN112183360A (zh) * 2020-09-29 2021-01-05 上海交通大学 高分辨率遥感影像的轻量化语义分割方法
CN112330681A (zh) * 2020-11-06 2021-02-05 北京工业大学 一种基于注意力机制的轻量级网络实时语义分割方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
严广宇 ; 刘正熙 ; .基于混合注意力的实时语义分割算法.现代计算机.2020,(第10期),全文. *
任天赐 ; 黄向生 ; 丁伟利 ; 安重阳 ; 翟鹏博 ; .全局双边网络的语义分割算法.计算机科学.2020,(第S1期),全文. *

Also Published As

Publication number Publication date
CN113642390A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN113642390B (zh) 一种基于局部注意力网络的街景图像语义分割方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN111612807B (zh) 一种基于尺度和边缘信息的小目标图像分割方法
CN111523553B (zh) 一种基于相似度矩阵的中心点网络多目标检测方法
CN108171701B (zh) 基于u网络和对抗学习的显著性检测方法
CN112132156A (zh) 多深度特征融合的图像显著性目标检测方法及系统
CN111915627A (zh) 语义分割方法、网络、设备及计算机存储介质
CN113011357A (zh) 基于时空融合的深度伪造人脸视频定位方法
CN111612008A (zh) 基于卷积网络的图像分割方法
CN113971764B (zh) 一种基于改进YOLOv3的遥感图像小目标检测方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN113723377A (zh) 一种基于ld-ssd网络的交通标志检测方法
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN113870286A (zh) 一种基于多级特征和掩码融合的前景分割方法
CN116206112A (zh) 基于多尺度特征融合和sam的遥感图像语义分割方法
CN116740362B (zh) 一种基于注意力的轻量化非对称场景语义分割方法及系统
CN117079276B (zh) 一种基于知识蒸馏的语义分割方法、系统、设备及介质
CN112149526B (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
CN116311214B (zh) 车牌识别方法和装置
CN111626134A (zh) 一种基于隐密度分布的密集人群计数方法、系统及终端
CN113762396A (zh) 一种二维图像语义分割方法
CN112818774A (zh) 一种活体检测方法及装置
CN114972753B (zh) 基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统
CN115222750A (zh) 基于多尺度融合注意力的遥感图像分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant