CN113642390B

CN113642390B - 一种基于局部注意力网络的街景图像语义分割方法

Info

Publication number: CN113642390B
Application number: CN202110763344.8A
Authority: CN
Inventors: 赵明华; 郅宇星; 王睿; 胡静; 都双丽; 石程; 李鹏
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2024-02-13
Anticipated expiration: 2041-07-06
Also published as: CN113642390A

Abstract

本发明公开的一种基于局部注意力网络的街景图像语义分割方法，具体实施步骤是：步骤1，首先从公开数据集Cityscapes中随机选取部分图像数据，将选取的部分图像数据划分为训练集、验证集及测试集；步骤2，使用倒置残差模块和空洞卷积构造MobileNetV2网络模型；步骤3，设计局部注意力模块和残差块，并构造编码网络；步骤4，构造解码网络，逐渐恢复图像分辨率，最终输出语义分割的结果；步骤5，使用训练集和验证集对模型进行训练，并在测试集上验证模型的分割效果。该方法解决了现有技术中存在的普遍存在的局部信息在特征提取过程中无法完整保留，从而解决了类别内部分割结果不一致的问题。

Description

一种基于局部注意力网络的街景图像语义分割方法

技术领域

本发明属于数字图像处理方法领域，具体涉及一种基于局部注意力网络的街景图像语义分割方法。

背景技术

视觉是人类对外部世界和接受外部信息认知的重要途径，相比于语言文字描述，人类更倾向于直接从图像中获取信息。然而，计算机需要像人眼一样完成准确地图像像素分类等场景理解任务，仍是一个具有挑战性的任务。语义分割任务的目标是利用计算机对图像中的每个像素进行正确分类，是一种逐像素分类任务。场景理解是利用计算机完成类似于人类对环境感知和理解的任务，其中语义分割作为实现场景理解的必经之路，是一项关键而又基础的技术。

在面向城市道路场景下，语义分割是理解城市街道场景中车辆、人行道、马路、信号灯等不同种类的对象的关键技术，而街道场景通常由于其具有复杂性与非结构性的特点，例如光照、季节天气变化、目标尺度太小、物体被遮挡等问题，道路中通常存在着多样化的目标，这使得面向街道场景下的视觉理解与语义分割任务成为一个极其复杂棘手和严峻的挑战。

发明内容

本发明的目的是提供一种基于局部注意力网络的街景图像语义分割方法，解决了现有技术中存在的普遍存在的局部信息在特征提取过程中无法完整保留，从而解决了类别内部分割结果不一致的问题。

本发明所采用的技术方案是，一种基于局部注意力网络的街景图像语义分割方法，具体实施步骤是：

步骤1，首先从公开数据集Cityscapes中随机选取部分图像数据，将选取的部分图像数据划分为训练集、验证集及测试集，最后分别对训练集、验证集、测试集的所有图像数据进行数据增强和预处理操作；

步骤2，首先使用深度可分离卷积、残差结构构造倒置残差模块，然后使用倒置残差模块和空洞卷积构造MobileNetV2网络模型；将训练集的图像数据输入到MobileNetV2网络模型提取图像特征，输出低层特征图F_low和高层特征图F_high，对F_high使用不同扩张率的四个空洞卷积和一次全局平均池化，得到五个特征图；

步骤3，由于局部上下文信息在逐步提取特征的过程中有丢失的可能，因此设计局部注意力模块和残差块，并构造编码网络，目的是提取图像特征，同时恢复输入图像数据的局部上下文信息；

步骤4，构造解码网络：将编码网络的输出与低层特征图F_low依次进行上采样、拼接、上采样操作，逐渐恢复图像分辨率，最终输出语义分割的结果；

步骤5，使用训练集和验证集对模型进行训练，并在测试集上验证模型的分割效果。

本发明的特征还在于，

步骤1具体过程为：

步骤1.1，从公开数据集Cityscapes中随机选取部分图像数据，按照6:3:1的比例将选取的部分图像数据划分为训练集、验证集及测试集；

步骤1.2，对于训练集的所有图像数据，使用随机翻转、随机裁剪、随机高斯模糊的方法对数据进行增强，最后对训练集的图像数据归一化；

步骤1.3，对于验证集和测试集，首先对所有图像数据使用双线性插值的方法将图像大小缩放到513×1026像素；然后再裁剪为513×513大小的图像；最后对验证集和测试集的所有图像数据进行归一化操作。

步骤2具体过程为：

步骤2.1，使用深度可分离卷积和残差网络结构来构造倒置残差模块：首先使用卷积核大小为1×1卷积升维，然后使用卷积核大小为3×3的深度可分离卷积，目的是减小计算量，最后使用卷积核大小为1×1卷积降维，并使用两个ReLu₆激活函数；

步骤2.1中，ReLu₆激活函数ReLu₆(x)的定义如公式(1)所示：

ReLu₆(x)＝min{max(0,x),6} (1)

其中，x表示输入数据，max()和min()两个函数返回输入数据中的最大值和最小值；

步骤2.2，使用3个卷积层、7个倒置残差模块、1个平均池化层构造MobileNetV2网络模型，采用空洞卷积使用跨像素的模式逐层提取图像特征；MobileNetV2网络模型使用的所有卷积操作都为扩张率d＝1的空洞卷积，第四层输出是低层特征图F_low，整个网络模型的输出是高层特征图F_high；

步骤2.2中，空洞卷积的等效卷积核大小k'的计算方式定义如公式(2)所示：

k'＝k+(k-1)×(d-1) (2)

其中，k为卷积核大小，d为空洞卷积的扩张率，第i+1层空洞卷积的感受野RF_i+1计算方式定义如公式(3)所示：

RF_i+1＝RF_i+(k'-1)×S_i (3)

其中，i表示网络层数索引，RF表示第i层的感受野，S_i表示之前所有层步长的乘积，S_i的计算方式如式(4)所示：

其中，Stride_i表示第i层的步长；

步骤2.3，对F_high首先使用四种扩张率d＝0,1,2,3的空洞卷积分别得到四个特征图：F₁,F₂,F₃,F₄，然后使用一次全局平均池化得到特征图F_p，F_p的输出大小N的计算方法如式(5)：

其中，W为输入大小，F为核大小，S为步长，P为填充大小。

步骤3的具体过程为：

步骤3.1，构造局部注意力模块：首先将输入的特征图f_a和特征图f_b拼接之后经过批归一化和1×1的卷积操作得到f_b'；然后将f_b'依次进行全局池化、Relu激活函数、1×1卷积、Sigmoid激活函数，得到f_b”，f_b”与f_a相乘得到f_a'；最后将f_a'和f_b'相加作为局部注意力模块的输出；

步骤3.1中，的Relu激活函数ReLu(x)和Sigmoid激活函数定义如式(6)和式(7)：

其中，x表示输入值；

卷积操作为每个像素赋予每个类别的概率值，最终每个类别的概率F由所有的特征图相加得到的，如式(8)：

其中，d表示网络输出的特征图，w表示卷积操作，D表示所有像素位置的集合，k∈{0,1,...,K}，K为通道数，y_k表示第k个通道的值；

引入权重参数α＝Sigmoid(d；w)修正预测的最高概率，新的预测值如式(9)所示：

步骤3.2，构造残差块：首先将输入的特征图经过一次1×1卷积得到特征图f_c1；然后依次经过3×3卷积、Relu激活函数、批归一化、3×3卷积得到特征图f_c2；最后将f_c1和f_c2相加，使用Relu激活函数得到残差块的输出；

步骤3.3，构造编码网络：首先按照如下方式生成四个特征图F₄',F₃',F₂',F₁'：

1)特征图F₄'生成方式如下：将步骤2.3输出的特征图F_p与特征图F₄输入到局部注意力模块，输出的特征图F_{4_1}输入到残差块得到特征图F_{4_2}，输入F_{4_2}到扩张率d＝1空洞卷积得到特征图F₄'；

2)特征图F₃'生成方式如下：输入特征图F_{4_2}与特征图F₃到局部注意力模块得到特征图F_{3_1}，输入特征图F_{3_1}到残差块得到特征图F_{3_2}，输入F_{3_2}到扩张率d＝1空洞卷积得到特征图F₃'；

3)特征图F₂'生成方式如下：输入特征图F_{3_2}与特征图F₂到局部注意力模块得到特征图F_{2_1}，输入特征图F_{2_1}到残差块得到特征图F_{2_2}，输入F_{2_2}到扩张率d＝1空洞卷积得到特征图F₂'；

4)特征图F₁'生成方式如下：输入特征图F_{2_2}与特征图F₁到局部注意力模块得到特征图F_{1_1}，输入特征图F_{1_1}到残差块得到特征图F_{1_2}，输入F_{1_2}到扩张率d＝1空洞卷积得到特征图F₁'；

然后拼接四个特征图F₁',F₂',F₃',F₄'，最后将拼接结果经过一次1×1卷积运算后得到编码网络的输出F_encoder。

步骤4的具体过程为：首先将低层特征图F_low进行一次1×1卷积运算得到特征图F_low'，编码网络的输出特征图F_encoder使用双线性采样方法进行上采样得到F_encoder'；然后将F_low'和F_encoder'拼接，进行3×3卷积运算；最后通过双线性上采样4倍得到分割结果。

步骤5的具体过程为：

步骤5.1，使用训练集的图像数据训练模型，在训练的过程中使用验证集评估模型的分割效果，验证集不参与训练过程；训练模型使用交叉熵损失函数Loss_ce，初始学习率设置为0.007并采用多项式衰减策略；

步骤5.1中，交叉熵损失函数Loss_ce的定义如式(11)：

其中，T为真实标签值，样本总数为N，p_i,t表示第i个样本预测为第t个标签值的概率,y_i,t表示第i个样本为第t个标签的真实概率值，其中i∈{0,1,...,1000},t∈{0,1,...,19}；

步骤5.2，使用语义分割方法中的平均交并比和准确率作为评价指标评估模型，将测试集中的图像数据，逐张输入到模型中，模型的输出即为每张图像的语义分割结果，同时输出分割每张图像所使用的时间。

本发明的有益效果是：

(1)本发明方法基于编码器-解码器的分割结构，编码器网络逐层提取特征，而解码器通过上采样逐步恢复图像的分辨率，达到了对图像中每个像素进行分类的目的。

(2)在卷积运算时，每个特征图都被一视同仁，而本发明方法通过局部注意力网络模块给每个特征图赋予不同的权重，对于分割有增益的特征图，所分配的权重更大，而对于冗余的特征图，则权重更小。因此，本发明方法可以显著提高网络模型对每个类别的判别能力，降低类内的分割不一致性，提高语义分割的视觉平滑效果。

附图说明

图1是本发明基于局部注意力网络的街景图像语义分割方法的流程图；

图2是本发明基于局部注意力网络的街景图像语义分割方法中使用的局部注意力模块结构的示意图；

图3是本发明基于局部注意力网络的街景图像语义分割方法中使用的残差块结构的示意图；

图4本发明实施例中测试集中随机取得的第一幅原图像、真实标签与分割结果的对比图；

图5本发明实施例中测试集中随机取得的第二幅原图像、真实标签与分割结果的对比图；

图6本发明实施例中测试集中随机取得的第三幅原图像、真实标签与分割结果的对比图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于局部注意力网络的街景图像语义分割方法，具体实施步骤是：

步骤1具体过程为：

步骤1.1，从公开数据集Cityscapes中分别随机选取1000张、500张、166张图像作为训练集、测试集、验证集的图像数据；

步骤2，首先使用深度可分离卷积、残差结构构造倒置残差模块，然后使用倒置残差模块和空洞卷积构造MobileNetV2网络模型，MobileNetV2网络模型的详细结构如表1所示。将训练集的图像数据输入到MobileNetV2网络模型提取图像特征，输出低层特征图F_low和高层特征图F_high，对F_high使用不同扩张率的四个空洞卷积和一次全局平均池化，得到五个特征图；

表1MobileNetV2网络模型的详细结构

步骤2具体过程为：

步骤2.1中，ReLu₆激活函数ReLu₆(x)的定义如公式(1)所示：

ReLu₆(x)＝min{max(0,x),6} (1)

步骤2.2，使用3个卷积层、7个倒置残差模块、1个平均池化层构造MobileNetV2网络模型，具体的模型结构如表1所示。为了在不损失信息的情况下增大卷积的感受野，采用空洞卷积使用跨像素的模式逐层提取图像特征；MobileNetV2网络模型使用的所有卷积操作都为扩张率d＝1的空洞卷积，第四层输出是低层特征图F_low，整个网络模型的输出是高层特征图F_high；

k'＝k+(k-1)×(d-1) (2)

RF_i+1＝RF_i+(k'-1)×S_i (3)

其中，Stride_i表示第i层的步长；

其中，W为输入大小，F为核大小，S为步长，P为填充大小。

步骤3，由于局部上下文信息在逐步提取特征的过程中有丢失的可能，因此设计局部注意力模块和残差块，如图2和图3所示，并构造编码网络，目的是提取图像特征，同时恢复输入图像数据的局部上下文信息；

步骤3的具体过程为：

步骤3.1，构造局部注意力模块(Local Attention Block,LAB)：首先将输入的特征图f_a和特征图f_b拼接之后经过批归一化和1×1的卷积操作得到f_b'；然后将f_b'依次进行全局池化、Relu激活函数、1×1卷积、Sigmoid激活函数，得到f_b”，f_b”与f_a相乘得到f_a'；最后将f_a'和f_b'相加作为局部注意力模块的输出；局部注意力模块的结构图如图2所示。目的是为每个通道赋予不同的权重，卷积操作为每个像素分配每个类别的概率值，并设置权重参数优化最高概率。

其中，x表示输入值；

步骤3.2，构造残差块：首先将输入的特征图经过一次1×1卷积得到特征图f_c1；然后依次经过3×3卷积、Relu激活函数、批归一化、3×3卷积得到特征图f_c2；最后将f_c1和f_c2相加，使用Relu激活函数得到残差块的输出；残差块的结构图如图3所示，这一模块的目的是结合所有通道的信息，达到细化特征图的目的。

步骤5，基于上述步骤2～步骤4构造的基于局部注意力网络的语义分割网络模型结构如图1所示，使用训练集和验证集对模型进行训练，并在测试集上验证模型的分割效果，模型在训练集和验证集的表现效果如表2所示。

步骤5的具体过程为：

步骤5.1，基于局部注意力网络的语义分割模型结构如图1所示。使用训练集的图像数据训练模型，在训练的过程中使用验证集评估模型的分割效果，验证集不参与训练过程；训练模型使用交叉熵损失函数Loss_ce，初始学习率设置为0.007并采用多项式衰减策略；

步骤5.1中，交叉熵损失函数Loss_ce的定义如式(11)：

步骤5.2，使用语义分割方法中的平均交并比(MIOU)和准确率(Acc)作为评价指标评估模型，将测试集中的图像数据，逐张输入到模型中，模型的输出即为每张图像的语义分割结果，同时输出分割每张图像所使用的时间，模型在训练集和验证集的表现效果如表2所示，总体来看模型的表现良好，所有类别的平均交并比达到了0.613，准确率达到了0.942，对于一张分辨率为512×1024的图像，仅需要0.5秒以内即可得到分割结果。

表2模型在训练集和验证集的表现效果

如图4～图6中的原图是测试集中随机取得的三幅图像，使用基于局部注意力网络的语义分割模型对三幅原图进行处理，第二列是原图对应的真实标签，第三列是对三幅原图使用模型处理得到的语义分割结果。

对比真实标签与分割结果可以看出：模型的分割结果较为准确，视觉效果较好，没有出现大面积分类错误的情况，尤其是对于大面积的类别(道路、建筑、车辆等)分割更为准确，具体表现为类别边缘无锯齿状，类别内部无信息丢失的情况，对于小目标可以分割出大致的轮廓，小目标的具体细节还需要更进一步的细分。

Claims

1.一种基于局部注意力网络的街景图像语义分割方法，其特征在于，具体实施步骤是：

步骤2具体过程为：

步骤2.1，使用深度可分离卷积和残差网络结构来构造倒置残差模块：

首先使用卷积核大小为1×1卷积升维，然后使用卷积核大小为3×3的深度可分离卷积，目的是减小计算量，最后使用卷积核大小为1×1卷积降维，并使用两个ReLu₆激活函数；

步骤2.1中，ReLu₆激活函数ReLu₆(x)的定义如公式(1)所示：

ReLu₆(x)＝min{max(0,x),6}(1)

步骤2.2，使用3个卷积层、7个倒置残差模块、1个平均池化层构造MobileNetV2网络模型，采用空洞卷积使用跨像素的模式逐层提取图像特征；

MobileNetV2网络模型使用的所有卷积操作都为扩张率d＝1的空洞卷积，第四层输出是低层特征图F_low，整个网络模型的输出是高层特征图F_high；

k'＝k+(k-1)×(d-1) (2)

RF_i+1＝RF_i+(k'-1)×S_i (3)

其中，Stride_i表示第i层的步长；

其中，W为输入大小，F为核大小，S为步长，P为填充大小；

步骤3，设计局部注意力模块和残差块，并构造编码网络；

步骤3的具体过程为：

其中，x表示输入值；

然后拼接四个特征图F₁',F₂',F₃',F₄'，最后将拼接结果经过一次1×1卷积运算后得到编码网络的输出F_encoder；

2.根据权利要求1所述的一种基于局部注意力网络的街景图像语义分割方法，其特征在于，步骤1具体过程为：

3.根据权利要求1所述的一种基于局部注意力网络的街景图像语义分割方法，其特征在于，步骤4的具体过程为：首先将低层特征图F_low进行一次1×1卷积运算得到特征图F_low'，编码网络的输出特征图F_encoder使用双线性采样方法进行上采样得到F_encoder'；然后将F_low'和F_encoder'拼接，进行3×3卷积运算；最后通过双线性上采样4倍得到分割结果。

4.根据权利要求1所述的一种基于局部注意力网络的街景图像语义分割方法，其特征在于，步骤5的具体过程为：

步骤5.1中，交叉熵损失函数Loss_ce的定义如式(11)：