CN112150493A

CN112150493A - 一种基于语义指导的自然场景下屏幕区域检测方法

Info

Publication number: CN112150493A
Application number: CN202011004389.9A
Authority: CN
Inventors: 黄胜; 冉浩杉; 张盛峰; 李洋洋; 付川
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Beijing Ample Information Technology Co.,Ltd.
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2020-12-29
Anticipated expiration: 2040-09-22
Also published as: CN112150493B

Abstract

本发明针对在自然场景下定位屏幕位置，且基于全卷积网络(Fully Convolutional Network)的边缘检测技术生成的屏幕边缘粗糙等问题，研究并提出一种基于语义指导的自然场景下屏幕区域检测方法。提出一种基于语义指导的边缘检测网络用于屏幕边缘检测，该网络分成两部分，一部分是由反卷积模块组成，完成图像分割任务，另一部分由不同尺度的特征图融合后进行图像边缘检测任务。将算法模型同时进行图像分割与图像边缘检测任务的训练，最后融合两个任务的输出得到最终边缘图像。在屏幕区域定位阶段，通过霍夫变换(Hough Transform)进行边缘图像直线检测，去掉重合直线，将符合条件的屏幕角点取出，并通过仿射变换(Affine Transformation)进行区域角度进行校正，最终得到屏幕内容图像。

Description

一种基于语义指导的自然场景下屏幕区域检测方法

技术领域

本发明涉及深度学习以及计算机视觉领域，具体涉及一种基于语义指导的边缘检测网络和屏幕定位方法。

背景技术

随着科技的进步手机等便携设备的计算能力不断增强，拥有摄像头的移动设备也越来越普及，应用这些设备可以很方便地进行拍照和摄像。人们经常需要利用手机等便携设备记录屏幕中播放的重要信息，但是在拍摄到屏幕的同时不可避免地会拍摄到屏幕外的背景，这些背景对后续的屏幕内容处理会带来很大的干扰。

另一方面在自然场景下，利用手机等便携设备对于屏幕内容进行拍摄，不可能避免地会受到自然场景下的许多因素干扰，这些干扰会影响后续的进行屏幕边缘检测处理结果的准确度，因此需要一种具有适合自然条件下的屏幕定位技术帮助准确定位到屏幕位置，以达到减少自然条件下所带外界噪声对于屏幕内容分析的干扰目的。而在自然场景下对于屏幕定位技术方面的研究依旧较少，这一方面急需进一步探索与研究。

在计算机视觉领域，通常检测屏幕使用的是传统边缘检测方法，使用传统方法对于整张图像进行边缘检测处理，最后通过人工特征进行匹配的方式在众多的图像边缘中寻找出目标屏幕边缘。然而传统边缘检测方法有着无法避免的缺点，一方面是传统边缘检测方法检测整张图片中所有边缘，会引入许多自然场景的干扰边缘像素，提高后续通过人工特征寻找目标边缘的难度。另一方面是传统边缘检测的方法大多都需要人工设置阈值来调整检测边缘灵敏度，过高会导致检测过多干扰因素无法进行人工特征匹配，而过低会导致无法检测到所需屏幕边缘。

在另一中国专利申请公开号CN102236784A中披露了通过传统方法霍夫变换扫描图像中的嫌疑边缘以及多直线拟合的方法进行屏幕边缘检测。另一美国专利申请公开号US20080266253A中披露了一种在计算机投影区域追踪光点的系统。该系统通过二值化捕获图像，并从二值化像素中筛选四边形来获取屏幕区域。而这些使用传统方法进行屏幕边缘检测的算法都无法满足不同场景的需求，抗干扰能力弱。

而基于深度学习的边缘检测算法在过去几年里受到了广泛的研究，随着人工智能的发展以及一些基于深度卷积神经网络(Convolutional Neural Networks)网络的边缘检测算法的提出，例如，经典边缘检测器HED以及RCF等，基于深度学习的检测方法已经取得了很好的效果，并且随着深度卷积神经网络架构性能的提升，其检测性能也会越来越好。

同时，考虑到基于深度学习的边缘检测网络输出图像边缘粗糙且模糊的问题，本发明设计了基于语义指导的边缘检测网络，通过结合图像分割任务和图像边缘检测任务，将图像分割任务中丰富的语义信息结合到边缘检测中去，能够得到更加精细化的屏幕边缘图像。

发明内容

本发明的目的在于设计一种基于语义指导的边缘检测网络和屏幕区域定位算法来得到自然场景下屏幕区域的方法。并且在基于此方法基础上实现一种屏幕区域检测系统，联合语义指导的边缘检测网络放在服务器端的GPU模块上进行，后续屏幕区域定位阶段使用的屏幕边缘角点筛选算法放在前端或客户端的CPU模块上进行，通过前后端分离操作减少前端计算量，从而提高屏幕区域检测系统的屏幕检测效率。

本发明提供了一种基于语义指导的自然场景下屏幕区域检测方法，包括：图像预处理模块，用于自然场景拍摄图像预处理，包括图像去噪，增强对比度等；基于语义指导的边缘检测网络，即融合图像分割任务中预测图像丰富的语义信息，将图像边缘检测端任务的最终输出预测图与图像分割任务中的输出预测图进行融合操作，并使用边缘检测任务标签进行深层监督，获得精细化的边缘检测图像。

本发明内容主要分为两个部分：语义指导的边缘检测网络和屏幕边缘角点筛选算法。具体包括以下步骤：

1.获取用户手机图像拍摄的场景屏幕图像，并对此自然场景图像进行预处理；

2.构建一个基于语义指导的边缘检测网络；

3.利用相关领域中的开源数据以及仿真数据对网络进行预训练；

4.通过迁移学习的方式，使用少量自制已标注自然场景下屏幕数据集对于预先建立的神经网络进行微调；

5.在所述完成迁移学习后的网络上对准备的测试集中的屏幕边缘数据进行屏幕边缘检测，并获得最终的屏幕边缘图像。

6.利用所述边缘检测神经网络所得到精细化的屏幕边缘图像进行后处理操作，包括去除重复直线、非边缘直线，并且结合屏幕边缘特征筛选出最可能的四个屏幕角点。

7.将所述屏幕边缘特征筛选算法得到置信度最高的屏幕角点后，使用仿射变化进行图像倾斜角度调整，仿射变换的变换过程表示为：

其中

和

的表示为图像各像素点向量和平移量，A为仿射矩阵表示图像旋转放大缩放的大小，此表达式在齐次坐标上，等价与下面的式子：

通过仿射变换将原图屏幕内区域的像素点向量

映射到了正对屏幕的角度，其中的像素点向量变为

完成角度矫正变换。

在上述步骤中所述的基于语义指导的边缘检测网络是本发明的主要内容，提出了一种基于全卷积神经网络的双通路神经网络结构，此网络能够通过这种双通路的神经网络结构进行图像分割和图像边缘检测的任务学习，该网络包括特征提取模块、图像分割模块、图像边缘检测模块以及语义指导融合模块。

特征提取模块由去掉VGG16的全连接层后构成的全卷积网络组成，并且为了在不丢失大量局部信息的情况下增大网络的感受野，在最后两层卷积层中加入了混合膨胀卷积(Hybrid Dilated Convolution)的方法，在卷积层中设置一组三个不同膨胀率(DilationRate)的卷积核依次进行卷积，能够减少膨胀卷积产生的空洞并增大感受野。

图像分割模块中，与网络左端构建反卷积通路，通过四个反卷积层进行了上采样操作，将主干网络最终的高级语义特征图反卷积到与原图相同大小，然后使用图像分割标签进行深层次监督，使得网络进行图像分割任务训练，最终输出原图大小的分割图像。

图像边缘检测模块中通过具有注意力机制的多尺度特征融合模块(FeatureFusion Module)进行图像特征融合，此模块使用SE Block与ResneXt Block相结合得到的SE ResneXt 模块。主干网络中每一层Block块的不同尺度的特征图输出在进入多尺度特征融合模块之后，都经过SE ResneXt模块，先进行具有残差组卷积结构的ResnetXt操作丰富输入特征图语义信息，然后送入SE模块中，赋予各通道的一个可学习权重，使得模型主动学习特征图各通道的重要程度，并能够按照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。最后使用图像边缘标签进行深层次监督，使得网络进行图像分割任务训练，最终输出原图大小的边缘图像。

语义指导融合模块通过利用边缘检测模块以及图像分割模块提取到的图像特征进行融合，利用图像分割模块提取到的语义特征指导模型输出更加精细的图像边缘特征。将两端任务的输出结果进行维度拼接和降维的操作将图像分割中丰富的语义信息与图像边缘检测任务进行融合，从而得到精细的图像边缘检测结果。

进一步，为了更好地训练网络，采用权重交叉熵损失函数的方法，使得标签能够充分监督到各层特征图。我们将每一层的损失函数表示为：

式中：

其中Pr(x_j；W)是第m层中的特征图像素x_j在预测图中的激活值，激活函数为 a_j＝sigmoid(x_j)。|Y⁺|和|Y^-|分别指的是Ground Truth中是屏幕区域边缘的像素集合和不是屏幕边缘的像素集合，W代表的是网络中所有需要训练的参数。

各层第j个像素在左侧经过多尺度特征融合模块之后的第j个像素点的值时各层的权重的式子表示如下，其中我们设置w₁＝w₂＝w₃＝w₄＝0.2，而w₅＝0.28。

结合上述几层损失，将融合层的损失函数表示如下：

其中|Y^(fusion)|表示为sigmoid(A^(fusion)),A^(fusion)＝{a_j ^(side)|j＝1,2,…,|Y||}，A^(fusion)作为各层输出值的集合。

最终我们将图像分割任务与图像边缘进行融合并进行最终损失函数，相加进行计算，最终损失函数表示如下：

L_fusion＝L^{(edge_fusion)}+L^(seg_fusion)

通过两种损失函数相加作为最终损失函数，使网络能够更好地融合图像分割任务中丰富语义信息，并且在训练过程中模型能够更快收敛。

进一步的，屏幕角点筛选算法部分主要利用所提出的边缘检测网络得到精细化的屏幕边缘图像进行屏幕角点筛选。首先通过霍夫变换进行直线检测，通过直线去重方法去掉重复直线，将所有直线交点放入一个集合中，通过每四个交点所围成面积以及周长进行排序，选定面积最大且周长最长的边缘直线作为屏幕图像的角点。其中直线去重方法为：设定一个距离阈值T_d和一个角度阈值T_θ，如果任意两条直线的距离小于距离阈值T_d且两直线的角度差小于角度阈值T_θ则删除其中长度较小的一条直线。最终将获取到的屏幕边缘角点通过仿射变换进行屏幕区域角度矫正，得到屏幕内容图像。

由于采用以上技术方案，本发明具有以下优点：

1、本发明利用图像分割任务中所得到的语义信息去指导模型预测图像边缘，设计了一种语义信息指导的边缘检测网络。本网络充分利用图像分割任务中丰富的语义特征，通过使用一系列反卷积将主干网络提取的重要图像特征反卷积到原图大小，并且使用图像分割任务标签进行深层监督，最终得到分割图像。将右端多尺度融合得到的边缘图像输出与分割图像进行融合操作，并加入边缘图像标签进行深层监督，充分利用了高级语义特征，得到更加精细的边缘图像。

2、本发明提出一种带有注意力机制的多尺度特征图融合模块(Feature FusionModule)，此模块作用是将主干网络中输出的不同尺度特征图进行融合，将多尺度特征信息融合为边缘图像。本发明通过在多尺度特征图融合模块中加入了SE ResneXt模块，将特征图先送入具有残差组卷积结构的ResnetXt中丰富输入特征图语义信息，然后送入SE模块中，赋予各通道的一个可学习权重，使得模型能够主动学习特征图各通道的重要程度。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供下附图进行说明：

图1是本发明的基于语义指导的自然场景下屏幕区域检测方法流程示意图；

图2是本发明的融合语义信息指导的图像边缘检测网络模块流程示意图；

图3是本发明的融合语义信息指导的图像边缘检测网络结构示意图；

图4是本发明的具有注意力机制的多尺度特征融合模块；

图5是本发明的屏幕区域检测方法后处理流程示意图。

具体实施方案

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地、完整地描述。

本发明提出了一种基于语义指导的自然场景下屏幕区域检测算法，如图1，具体包括如下步骤：

步骤1、输入图像，将图像进行去噪、增强对比度两种简单预处理操作；

步骤2、构建一个融合图像分割语义信息的边缘检测神经网络，将图像输入网络中去检测自然场景下的屏幕边缘。

步骤3、利用屏幕边缘角点筛选算法将屏幕边缘图像中四个屏幕角点选出，记录角点位置；

步骤4、将四个角点送入仿射变换中进行屏幕倾斜矫正，获得正确角度的屏幕内容；

步骤5、将仿射变换之后的屏幕区域图像进行截取出来，得到最终的屏幕内容图像。

具体实施方式在本具体实施方式中给出一种基于语义指导的自然场景下屏幕区域检测方法的具体实现步骤。其所述的自然场景下的屏幕区域检测模块包括：图像预处理模块，边缘检测模块、屏幕区域定位模块、仿射变换模块和内容获取模块。

步骤1：获取手机拍摄的场景屏幕图像，输入预处理模块中使用去噪、增强对比度等操作预处理图像，增强输入图像边缘特征。

步骤2：将预处理后的图像输入进边缘检测模块，在边缘检测模块中构建如图2所示的基于语义指导的边缘检测网络，分别为特征提取模块、图像分割模块、边缘检测模块以及语义融合模块。其中特征提取模块为边缘检测网络的主干网络，使用去掉全连接层的VGG16网络；图像分割模块使用特征提取模块提取到的语义特征进行图像分割任务，由图像分割标签进行监督；边缘检测模块使用特征提取模块提取到的各层细节特征进行边缘检测任务，由图像边缘标签进行监督；语义融合模块使用图像分割模块提取到的语义特征与边缘检测模块提取到的边缘特征进行语义指导融合，得到最终的边缘图像。

步骤3：使用Tensorflow框架构建此边缘检测网络，如图3所示，网络中图像分割通道通过使用一系列反卷积将主干网络提取的重要图像特征反卷积到原图大小，并且使用图像分割任务标签进行深层监督，最终得到分割图像。而图像边缘检测通道使用的多尺度特征图融合模块进行主干网络多尺度输出特征图融合，使用图像边缘任务标签进行深层监督。最终将右端多尺度融合得到的边缘图像输出与分割图像进行融合操作，并加入边缘图像标签进行深层监督，充分利用了高级语义特征，得到更加精细的边缘图像。

步骤4：在网络的边缘检测模块中，构建多尺度特征融合模块(Feature FusionModule)。此模块作用是将主干网络中输出的不同尺度特征图进行融合，将多尺度特征信息融合为边缘图像。如图3所示，多尺度特征模块接收主干网络各Block 输出的不同尺度特征图像，并都经过一个SE ResneXt模块进行残差学习和通道权重学习，使得输出特征信息更加丰富，且能够在接收到的所有通道数中区分出带有重要特征信息的通道，抑制不重要的特征通道。

最后将不同尺度特征图进行1×1卷积降维操作以及上采样操作，再将5个通道得到的特征图进行维度拼接，得到一个原图尺寸大小且通道数为5的输出特征图。再通过一个SE Block模块去学习这5个通道相应的权重，区分各通道的重要性，最后再通过1×1卷积降维操作得到图像边缘检测任务的最终输出，通过边缘检测标签进行监督。

利用SE Block进行输入特征图各通道的权重学习，学习到的权重信息记为 z_c∈R^c，是通过缩放u_c的尺度为W×H产生的。此时我们将z处的第c个元素权重计算过程表示为如下式：

输出z_c可以被认为是一组对征途通道图权重的描述信息，代表当前通道所占权重值的集合。

通过多尺度特征融合模块将主干网络中各层特征进行融合，且通过SE Block 进行重要特征信息以及不重要特征信息的区分，最终输出边缘检测模块的预测边缘图像。

步骤:5：定义基于语义指导的边缘检测网络的损失函数，融合图像分割模块提取到的语义特征以及图像边缘检测提取到的图像边缘特征，定义一种新的损失函数训练此网络。为了使网络训练更加充分，采用权重交叉熵损失函数的方法，使得标签能够充分监督到各层特征图。我们将每一层的损失函数表示为：

式中：

其中Pr(x_j；W)是第m层中的特征图像素x_j在预测图中的激活值，激活函数为a_j＝sigmoid(x_j)。|Y⁺|和|Y^-|分别指的是Ground Truth中是屏幕区域边缘的像素集合和不是屏幕边缘的像素集合，W代表的是网络中所有需要训练的参数。

结合上述几层损失，将融合层的损失函数表示如下：

其中|Y^(fusion)|表示为sigmoid(A^(fusion)),A^(fusion)＝{a_j ^(side)|j＝1,2,…,|Y||}， A^(fusion)作为各层输出值的集合。

L＝L^{(edge_fusion)}+L^(seg_fusion)

本网络使用双标签进行监督训练，主干网络采用VGG16网络，且两端任务主干网络权重共享，最终输的精细图像屏幕边缘由两端任务融合得到。

步骤6：训练所构建的边缘检测网络。通过迁移学习的方式，先利用相关领域的开源数据以及仿真数据对网络进行预训练，再使用自制已标注的屏幕数据集对于预训练的网络进行微调。

步骤7：保存训练完成的边缘检测网络，并且将网络部署到服务器的GPU 模块上，调整网络状态至端口监听状态。当客户端通过监听端口发送输入图像，服务器上部署的边缘检测网络自动进行推理预测，得到输入图像对应的边缘图像，且通过相应端口发送给客户端。

步骤8：预测自然场景下的屏幕边缘图像。调用服务器端的边缘检测网络，输入预处理之后的输入图像，并返回精细化的屏幕边缘图像。

步骤9：对屏幕边缘图像进行后处理操作，其后处理流程示意图如图5所示，首先使用OpenCV库调用霍夫变换对屏幕边缘图像进行直线检测，得到边缘图像中所有相似方向上的屏幕边缘直线。

步骤10：在所有直线中去除重合直线，直线去重方法为：设定一个距离阈值T_d和一个角度阈值T_θ，如果任意两条直线的距离小于距离阈值T_d且两直线的角度差小于角度阈值T_θ，则删除其中长度较小的一条直线。

步骤11：将剩下直线交点排序作为集合，每次取四个点计算周长以及所围面积，满足两者最大的便认为是自然场景下的屏幕边缘角点。

步骤12:：使用屏幕角点以及仿射变换进行屏幕倾斜角度矫正，最终得到屏幕内容图像。

Claims

1.一种基于语义指导的自然场景下屏幕区域检测方法，其特征在于，能够对自然场景下拍摄的屏幕图片进行处理，得到其屏幕内容，具体包括以下步骤：

步骤1、采集用户手机拍摄的场景屏幕图像，并对输入图像进行预处理；

步骤2、构建一个基于语义指导的边缘检测网络；

步骤3、通过迁移学习的方式，使用自制屏幕边缘数据集对网络进行微调；

步骤4、在训练完成后的神经网络上对输入图像进行屏幕边缘检测，得到屏幕边缘图像。

步骤5、利用得到的屏幕边缘图像进行后处理操作，结合屏幕边缘特征筛选出图像中四个屏幕角点，并且经过仿射变换进行倾斜角度矫正，得到最终的屏幕内容图像。

2.根据权利要求1所述的一种基于语义指导的自然场景下屏幕区域检测方法，其特征在于，所构建的一种基于语义指导的边缘检测网络包括特征提取模块、图像分割模块、图像边缘检测模块以及语义指导融合模块，其中，图像分割模块通过反卷积构建一条扩展路径提取图像语义信息特征以及图像分割；图像边缘检测模块通过本发明提出的具有注意力机制的多尺度特征融合模块(Feature Fusion Module)来进行边缘特征提取以及融合；语义指导融合模块将图像分割模块提取到的语义特征与图像边缘检测模块的边缘特征进行融合，得到语义指导下的精细化边缘图像。

3.根据权利要求2所述的一种基于语义指导的边缘检测网络，其特征在于，特征提取模块由去掉VGG16的全连接层后构成的全卷积网络组成，并且为了在不丢失大量局部信息的情况下增大网络的感受野，在最后两层卷积层中加入了混合膨胀卷积(Hybrid DilatedConvolution)的方法，在卷积层中设置一组三个不同膨胀率(Dilation Rate)的卷积核依次进行卷积，能够减少膨胀卷积产生的空洞并增大感受野。

4.根据权利要求2所述的一种基于语义指导的边缘检测网络，其特征在于，图像边缘检测模块中通过具有注意力机制的多尺度特征融合模块(Feature Fusion Module)进行图像特征融合，此模块使用SE Block与ResneXt Block相结合得到的SE ResneXt模块。主干网络中每一层Block块的不同尺度的特征图输出在进入多尺度特征融合模块之后，都经过SEResneXt模块，先进行具有残差组卷积结构的ResnetXt操作丰富输入特征图语义信息，然后进行Squeeze and Excitation(SE)操作，赋予各通道的一个可学习权重，使得模型主动学习特征图各通道的重要程度，并能够按照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。

5.根据权利要求2所述的一种基于语义指导的边缘检测网络，其特征在于，语义指导融合模块通过利用边缘检测模块以及图像分割模块提取到的图像特征进行融合，利用图像分割模块提取到的语义特征指导模型输出更加精细的图像边缘特征。在语义指导融合模块中定义了新的模型损失函数融合两种输出特征信息并在边缘标签的指导下进行训练，其新定义的损失函数表示为：

L＝L_fusion(f(F_seg,F_edge|X；W)；W_f)

其中F_seg为图像分割模块提取到的语义特征，F_edge为图像边缘检测模块提取到的边缘特征，f(*|W)表示特征图融合操作，W表示其中卷积操作的参数。L_fusion(F；W_f)表示采用的交叉熵函数，表述为：

其中，Fⁱ为特征图中的第i个像素，Pr(y_i|Fⁱ)为在像素y_i上的分类置信度，N为图像像素总数，W_f为图像分割任务中训练参数的集合。

6.根据权利要求1所述的一种基于语义指导的自然场景下屏幕区域检测方法，其特征在于，对于屏幕边缘图像的后处理操作中主要包括：基于霍夫变换对屏幕边缘图像进行直线检测，并且去除重合直线，将直线交点排序作为集合，每次取四个点计算周长以及所围面积，满足两者最大的便认为是自然场景下的屏幕边缘角点。最后使用屏幕角点以及仿射变换进行屏幕倾斜角度矫正，最终得到屏幕内容图像。