CN112150493A - 一种基于语义指导的自然场景下屏幕区域检测方法 - Google Patents
一种基于语义指导的自然场景下屏幕区域检测方法 Download PDFInfo
- Publication number
- CN112150493A CN112150493A CN202011004389.9A CN202011004389A CN112150493A CN 112150493 A CN112150493 A CN 112150493A CN 202011004389 A CN202011004389 A CN 202011004389A CN 112150493 A CN112150493 A CN 112150493A
- Authority
- CN
- China
- Prior art keywords
- image
- screen
- edge
- module
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 18
- 238000003708 edge detection Methods 0.000 claims abstract description 75
- 238000003709 image segmentation Methods 0.000 claims abstract description 38
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims description 44
- 238000000034 method Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 19
- 230000009466 transformation Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000012805 post-processing Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 238000013526 transfer learning Methods 0.000 claims description 4
- 230000001965 increasing effect Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000010339 dilation Effects 0.000 claims 1
- 230000005284 excitation Effects 0.000 claims 1
- 239000000284 extract Substances 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000011160 research Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4084—Scaling of whole images or parts thereof, e.g. expanding or contracting in the transform domain, e.g. fast Fourier transform [FFT] domain scaling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明针对在自然场景下定位屏幕位置,且基于全卷积网络(Fully Convolutional Network)的边缘检测技术生成的屏幕边缘粗糙等问题,研究并提出一种基于语义指导的自然场景下屏幕区域检测方法。提出一种基于语义指导的边缘检测网络用于屏幕边缘检测,该网络分成两部分,一部分是由反卷积模块组成,完成图像分割任务,另一部分由不同尺度的特征图融合后进行图像边缘检测任务。将算法模型同时进行图像分割与图像边缘检测任务的训练,最后融合两个任务的输出得到最终边缘图像。在屏幕区域定位阶段,通过霍夫变换(Hough Transform)进行边缘图像直线检测,去掉重合直线,将符合条件的屏幕角点取出,并通过仿射变换(Affine Transformation)进行区域角度进行校正,最终得到屏幕内容图像。
Description
技术领域
本发明涉及深度学习以及计算机视觉领域,具体涉及一种基于语义指导的边缘检测网络和屏幕定位方法。
背景技术
随着科技的进步手机等便携设备的计算能力不断增强,拥有摄像头的移动设备也越来越普及,应用这些设备可以很方便地进行拍照和摄像。人们经常需要利用手机等便携设备记录屏幕中播放的重要信息,但是在拍摄到屏幕的同时不可避免地会拍摄到屏幕外的背景,这些背景对后续的屏幕内容处理会带来很大的干扰。
另一方面在自然场景下,利用手机等便携设备对于屏幕内容进行拍摄,不可能避免地会受到自然场景下的许多因素干扰,这些干扰会影响后续的进行屏幕边缘检测处理结果的准确度,因此需要一种具有适合自然条件下的屏幕定位技术帮助准确定位到屏幕位置,以达到减少自然条件下所带外界噪声对于屏幕内容分析的干扰目的。而在自然场景下对于屏幕定位技术方面的研究依旧较少,这一方面急需进一步探索与研究。
在计算机视觉领域,通常检测屏幕使用的是传统边缘检测方法,使用传统方法对于整张图像进行边缘检测处理,最后通过人工特征进行匹配的方式在众多的图像边缘中寻找出目标屏幕边缘。然而传统边缘检测方法有着无法避免的缺点,一方面是传统边缘检测方法检测整张图片中所有边缘,会引入许多自然场景的干扰边缘像素,提高后续通过人工特征寻找目标边缘的难度。另一方面是传统边缘检测的方法大多都需要人工设置阈值来调整检测边缘灵敏度,过高会导致检测过多干扰因素无法进行人工特征匹配,而过低会导致无法检测到所需屏幕边缘。
在另一中国专利申请公开号CN102236784A中披露了通过传统方法霍夫变换扫描图像中的嫌疑边缘以及多直线拟合的方法进行屏幕边缘检测。另一美国专利申请公开号US20080266253A中披露了一种在计算机投影区域追踪光点的系统。该系统通过二值化捕获图像,并从二值化像素中筛选四边形来获取屏幕区域。而这些使用传统方法进行屏幕边缘检测的算法都无法满足不同场景的需求,抗干扰能力弱。
而基于深度学习的边缘检测算法在过去几年里受到了广泛的研究,随着人工智能的发展以及一些基于深度卷积神经网络(Convolutional Neural Networks)网络的边缘检测算法的提出,例如,经典边缘检测器HED以及RCF等,基于深度学习的检测方法已经取得了很好的效果,并且随着深度卷积神经网络架构性能的提升,其检测性能也会越来越好。
同时,考虑到基于深度学习的边缘检测网络输出图像边缘粗糙且模糊的问题,本发明设计了基于语义指导的边缘检测网络,通过结合图像分割任务和图像边缘检测任务,将图像分割任务中丰富的语义信息结合到边缘检测中去,能够得到更加精细化的屏幕边缘图像。
发明内容
本发明的目的在于设计一种基于语义指导的边缘检测网络和屏幕区域定位算法来得到自然场景下屏幕区域的方法。并且在基于此方法基础上实现一种屏幕区域检测系统,联合语义指导的边缘检测网络放在服务器端的GPU模块上进行,后续屏幕区域定位阶段使用的屏幕边缘角点筛选算法放在前端或客户端的CPU模块上进行,通过前后端分离操作减少前端计算量,从而提高屏幕区域检测系统的屏幕检测效率。
本发明提供了一种基于语义指导的自然场景下屏幕区域检测方法,包括:图像预处理模块,用于自然场景拍摄图像预处理,包括图像去噪,增强对比度等;基于语义指导的边缘检测网络,即融合图像分割任务中预测图像丰富的语义信息,将图像边缘检测端任务的最终输出预测图与图像分割任务中的输出预测图进行融合操作,并使用边缘检测任务标签进行深层监督,获得精细化的边缘检测图像。
本发明内容主要分为两个部分:语义指导的边缘检测网络和屏幕边缘角点筛选算法。具体包括以下步骤:
1.获取用户手机图像拍摄的场景屏幕图像,并对此自然场景图像进行预处理;
2.构建一个基于语义指导的边缘检测网络;
3.利用相关领域中的开源数据以及仿真数据对网络进行预训练;
4.通过迁移学习的方式,使用少量自制已标注自然场景下屏幕数据集对于预先建立的神经网络进行微调;
5.在所述完成迁移学习后的网络上对准备的测试集中的屏幕边缘数据进行屏幕边缘检测,并获得最终的屏幕边缘图像。
6.利用所述边缘检测神经网络所得到精细化的屏幕边缘图像进行后处理操作,包括去除重复直线、非边缘直线,并且结合屏幕边缘特征筛选出最可能的四个屏幕角点。
7.将所述屏幕边缘特征筛选算法得到置信度最高的屏幕角点后,使用仿射变化进行图像倾斜角度调整,仿射变换的变换过程表示为:其中和的表示为图像各像素点向量和平移量,A为仿射矩阵表示图像旋转放大缩放的大小,此表达式在齐次坐标上,等价与下面的式子:
在上述步骤中所述的基于语义指导的边缘检测网络是本发明的主要内容,提出了一种基于全卷积神经网络的双通路神经网络结构,此网络能够通过这种双通路的神经网络结构进行图像分割和图像边缘检测的任务学习,该网络包括特征提取模块、图像分割模块、图像边缘检测模块以及语义指导融合模块。
特征提取模块由去掉VGG16的全连接层后构成的全卷积网络组成,并且为了在不丢失大量局部信息的情况下增大网络的感受野,在最后两层卷积层中加入了混合膨胀卷积(Hybrid Dilated Convolution)的方法,在卷积层中设置一组三个不同膨胀率(DilationRate)的卷积核依次进行卷积,能够减少膨胀卷积产生的空洞并增大感受野。
图像分割模块中,与网络左端构建反卷积通路,通过四个反卷积层进行了上采样操作,将主干网络最终的高级语义特征图反卷积到与原图相同大小,然后使用图像分割标签进行深层次监督,使得网络进行图像分割任务训练,最终输出原图大小的分割图像。
图像边缘检测模块中通过具有注意力机制的多尺度特征融合模块(FeatureFusion Module)进行图像特征融合,此模块使用SE Block与ResneXt Block相结合得到的SE ResneXt 模块。主干网络中每一层Block块的不同尺度的特征图输出在进入多尺度特征融合模块之后,都经过SE ResneXt模块,先进行具有残差组卷积结构的ResnetXt操作丰富输入特征图语义信息,然后送入SE模块中,赋予各通道的一个可学习权重,使得模型主动学习特征图各通道的重要程度,并能够按照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。最后使用图像边缘标签进行深层次监督,使得网络进行图像分割任务训练,最终输出原图大小的边缘图像。
语义指导融合模块通过利用边缘检测模块以及图像分割模块提取到的图像特征进行融合,利用图像分割模块提取到的语义特征指导模型输出更加精细的图像边缘特征。将两端任务的输出结果进行维度拼接和降维的操作将图像分割中丰富的语义信息与图像边缘检测任务进行融合,从而得到精细的图像边缘检测结果。
进一步,为了更好地训练网络,采用权重交叉熵损失函数的方法,使得标签能够充分监督到各层特征图。我们将每一层的损失函数表示为:
式中:
其中Pr(xj;W)是第m层中的特征图像素xj在预测图中的激活值,激活函数为 aj=sigmoid(xj)。|Y+|和|Y-|分别指的是Ground Truth中是屏幕区域边缘的像素集合和不是屏幕边缘的像素集合,W代表的是网络中所有需要训练的参数。
各层第j个像素在左侧经过多尺度特征融合模块之后的第j个像素点的值时各层的权重的式子表示如下,其中我们设置w1=w2=w3=w4=0.2,而w5=0.28。
结合上述几层损失,将融合层的损失函数表示如下:
其中|Y(fusion)|表示为sigmoid(A(fusion)),A(fusion)={aj (side)|j=1,2,…,|Y||},A(fusion)作为各层输出值的集合。
最终我们将图像分割任务与图像边缘进行融合并进行最终损失函数,相加进行计算,最终损失函数表示如下:
Lfusion=L(edge_fusion)+L(seg_fusion)
通过两种损失函数相加作为最终损失函数,使网络能够更好地融合图像分割任务中丰富语义信息,并且在训练过程中模型能够更快收敛。
进一步的,屏幕角点筛选算法部分主要利用所提出的边缘检测网络得到精细化的屏幕边缘图像进行屏幕角点筛选。首先通过霍夫变换进行直线检测,通过直线去重方法去掉重复直线,将所有直线交点放入一个集合中,通过每四个交点所围成面积以及周长进行排序,选定面积最大且周长最长的边缘直线作为屏幕图像的角点。其中直线去重方法为:设定一个距离阈值Td和一个角度阈值Tθ,如果任意两条直线的距离小于距离阈值Td且两直线的角度差小于角度阈值Tθ则删除其中长度较小的一条直线。最终将获取到的屏幕边缘角点通过仿射变换进行屏幕区域角度矫正,得到屏幕内容图像。
由于采用以上技术方案,本发明具有以下优点:
1、本发明利用图像分割任务中所得到的语义信息去指导模型预测图像边缘,设计了一种语义信息指导的边缘检测网络。本网络充分利用图像分割任务中丰富的语义特征,通过使用一系列反卷积将主干网络提取的重要图像特征反卷积到原图大小,并且使用图像分割任务标签进行深层监督,最终得到分割图像。将右端多尺度融合得到的边缘图像输出与分割图像进行融合操作,并加入边缘图像标签进行深层监督,充分利用了高级语义特征,得到更加精细的边缘图像。
2、本发明提出一种带有注意力机制的多尺度特征图融合模块(Feature FusionModule),此模块作用是将主干网络中输出的不同尺度特征图进行融合,将多尺度特征信息融合为边缘图像。本发明通过在多尺度特征图融合模块中加入了SE ResneXt模块,将特征图先送入具有残差组卷积结构的ResnetXt中丰富输入特征图语义信息,然后送入SE模块中,赋予各通道的一个可学习权重,使得模型能够主动学习特征图各通道的重要程度。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供下附图进行说明:
图1是本发明的基于语义指导的自然场景下屏幕区域检测方法流程示意图;
图2是本发明的融合语义信息指导的图像边缘检测网络模块流程示意图;
图3是本发明的融合语义信息指导的图像边缘检测网络结构示意图;
图4是本发明的具有注意力机制的多尺度特征融合模块;
图5是本发明的屏幕区域检测方法后处理流程示意图。
具体实施方案
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地、完整地描述。
本发明提出了一种基于语义指导的自然场景下屏幕区域检测算法,如图1,具体包括如下步骤:
步骤1、输入图像,将图像进行去噪、增强对比度两种简单预处理操作;
步骤2、构建一个融合图像分割语义信息的边缘检测神经网络,将图像输入网络中去检测自然场景下的屏幕边缘。
步骤3、利用屏幕边缘角点筛选算法将屏幕边缘图像中四个屏幕角点选出,记录角点位置;
步骤4、将四个角点送入仿射变换中进行屏幕倾斜矫正,获得正确角度的屏幕内容;
步骤5、将仿射变换之后的屏幕区域图像进行截取出来,得到最终的屏幕内容图像。
具体实施方式在本具体实施方式中给出一种基于语义指导的自然场景下屏幕区域检测方法的具体实现步骤。其所述的自然场景下的屏幕区域检测模块包括:图像预处理模块,边缘检测模块、屏幕区域定位模块、仿射变换模块和内容获取模块。
步骤1:获取手机拍摄的场景屏幕图像,输入预处理模块中使用去噪、增强对比度等操作预处理图像,增强输入图像边缘特征。
步骤2:将预处理后的图像输入进边缘检测模块,在边缘检测模块中构建如图2所示的基于语义指导的边缘检测网络,分别为特征提取模块、图像分割模块、边缘检测模块以及语义融合模块。其中特征提取模块为边缘检测网络的主干网络,使用去掉全连接层的VGG16网络;图像分割模块使用特征提取模块提取到的语义特征进行图像分割任务,由图像分割标签进行监督;边缘检测模块使用特征提取模块提取到的各层细节特征进行边缘检测任务,由图像边缘标签进行监督;语义融合模块使用图像分割模块提取到的语义特征与边缘检测模块提取到的边缘特征进行语义指导融合,得到最终的边缘图像。
步骤3:使用Tensorflow框架构建此边缘检测网络,如图3所示,网络中图像分割通道通过使用一系列反卷积将主干网络提取的重要图像特征反卷积到原图大小,并且使用图像分割任务标签进行深层监督,最终得到分割图像。而图像边缘检测通道使用的多尺度特征图融合模块进行主干网络多尺度输出特征图融合,使用图像边缘任务标签进行深层监督。最终将右端多尺度融合得到的边缘图像输出与分割图像进行融合操作,并加入边缘图像标签进行深层监督,充分利用了高级语义特征,得到更加精细的边缘图像。
步骤4:在网络的边缘检测模块中,构建多尺度特征融合模块(Feature FusionModule)。此模块作用是将主干网络中输出的不同尺度特征图进行融合,将多尺度特征信息融合为边缘图像。如图3所示,多尺度特征模块接收主干网络各Block 输出的不同尺度特征图像,并都经过一个SE ResneXt模块进行残差学习和通道权重学习,使得输出特征信息更加丰富,且能够在接收到的所有通道数中区分出带有重要特征信息的通道,抑制不重要的特征通道。
最后将不同尺度特征图进行1×1卷积降维操作以及上采样操作,再将5个通道得到的特征图进行维度拼接,得到一个原图尺寸大小且通道数为5的输出特征图。再通过一个SE Block模块去学习这5个通道相应的权重,区分各通道的重要性,最后再通过1×1卷积降维操作得到图像边缘检测任务的最终输出,通过边缘检测标签进行监督。
利用SE Block进行输入特征图各通道的权重学习,学习到的权重信息记为 zc∈Rc,是通过缩放uc的尺度为W×H产生的。此时我们将z处的第c个元素权重计算过程表示为如下式:
输出zc可以被认为是一组对征途通道图权重的描述信息,代表当前通道所占权重值的集合。
通过多尺度特征融合模块将主干网络中各层特征进行融合,且通过SE Block 进行重要特征信息以及不重要特征信息的区分,最终输出边缘检测模块的预测边缘图像。
步骤:5:定义基于语义指导的边缘检测网络的损失函数,融合图像分割模块提取到的语义特征以及图像边缘检测提取到的图像边缘特征,定义一种新的损失函数训练此网络。为了使网络训练更加充分,采用权重交叉熵损失函数的方法,使得标签能够充分监督到各层特征图。我们将每一层的损失函数表示为:
式中:
其中Pr(xj;W)是第m层中的特征图像素xj在预测图中的激活值,激活函数为aj=sigmoid(xj)。|Y+|和|Y-|分别指的是Ground Truth中是屏幕区域边缘的像素集合和不是屏幕边缘的像素集合,W代表的是网络中所有需要训练的参数。
各层第j个像素在左侧经过多尺度特征融合模块之后的第j个像素点的值时各层的权重的式子表示如下,其中我们设置w1=w2=w3=w4=0.2,而w5=0.28。
结合上述几层损失,将融合层的损失函数表示如下:
其中|Y(fusion)|表示为sigmoid(A(fusion)),A(fusion)={aj (side)|j=1,2,…,|Y||}, A(fusion)作为各层输出值的集合。
最终我们将图像分割任务与图像边缘进行融合并进行最终损失函数,相加进行计算,最终损失函数表示如下:
L=L(edge_fusion)+L(seg_fusion)
本网络使用双标签进行监督训练,主干网络采用VGG16网络,且两端任务主干网络权重共享,最终输的精细图像屏幕边缘由两端任务融合得到。
步骤6:训练所构建的边缘检测网络。通过迁移学习的方式,先利用相关领域的开源数据以及仿真数据对网络进行预训练,再使用自制已标注的屏幕数据集对于预训练的网络进行微调。
步骤7:保存训练完成的边缘检测网络,并且将网络部署到服务器的GPU 模块上,调整网络状态至端口监听状态。当客户端通过监听端口发送输入图像,服务器上部署的边缘检测网络自动进行推理预测,得到输入图像对应的边缘图像,且通过相应端口发送给客户端。
步骤8:预测自然场景下的屏幕边缘图像。调用服务器端的边缘检测网络,输入预处理之后的输入图像,并返回精细化的屏幕边缘图像。
步骤9:对屏幕边缘图像进行后处理操作,其后处理流程示意图如图5所示,首先使用OpenCV库调用霍夫变换对屏幕边缘图像进行直线检测,得到边缘图像中所有相似方向上的屏幕边缘直线。
步骤10:在所有直线中去除重合直线,直线去重方法为:设定一个距离阈值Td和一个角度阈值Tθ,如果任意两条直线的距离小于距离阈值Td且两直线的角度差小于角度阈值Tθ,则删除其中长度较小的一条直线。
步骤11:将剩下直线交点排序作为集合,每次取四个点计算周长以及所围面积,满足两者最大的便认为是自然场景下的屏幕边缘角点。
步骤12::使用屏幕角点以及仿射变换进行屏幕倾斜角度矫正,最终得到屏幕内容图像。
Claims (6)
1.一种基于语义指导的自然场景下屏幕区域检测方法,其特征在于,能够对自然场景下拍摄的屏幕图片进行处理,得到其屏幕内容,具体包括以下步骤:
步骤1、采集用户手机拍摄的场景屏幕图像,并对输入图像进行预处理;
步骤2、构建一个基于语义指导的边缘检测网络;
步骤3、通过迁移学习的方式,使用自制屏幕边缘数据集对网络进行微调;
步骤4、在训练完成后的神经网络上对输入图像进行屏幕边缘检测,得到屏幕边缘图像。
步骤5、利用得到的屏幕边缘图像进行后处理操作,结合屏幕边缘特征筛选出图像中四个屏幕角点,并且经过仿射变换进行倾斜角度矫正,得到最终的屏幕内容图像。
2.根据权利要求1所述的一种基于语义指导的自然场景下屏幕区域检测方法,其特征在于,所构建的一种基于语义指导的边缘检测网络包括特征提取模块、图像分割模块、图像边缘检测模块以及语义指导融合模块,其中,图像分割模块通过反卷积构建一条扩展路径提取图像语义信息特征以及图像分割;图像边缘检测模块通过本发明提出的具有注意力机制的多尺度特征融合模块(Feature Fusion Module)来进行边缘特征提取以及融合;语义指导融合模块将图像分割模块提取到的语义特征与图像边缘检测模块的边缘特征进行融合,得到语义指导下的精细化边缘图像。
3.根据权利要求2所述的一种基于语义指导的边缘检测网络,其特征在于,特征提取模块由去掉VGG16的全连接层后构成的全卷积网络组成,并且为了在不丢失大量局部信息的情况下增大网络的感受野,在最后两层卷积层中加入了混合膨胀卷积(Hybrid DilatedConvolution)的方法,在卷积层中设置一组三个不同膨胀率(Dilation Rate)的卷积核依次进行卷积,能够减少膨胀卷积产生的空洞并增大感受野。
4.根据权利要求2所述的一种基于语义指导的边缘检测网络,其特征在于,图像边缘检测模块中通过具有注意力机制的多尺度特征融合模块(Feature Fusion Module)进行图像特征融合,此模块使用SE Block与ResneXt Block相结合得到的SE ResneXt模块。主干网络中每一层Block块的不同尺度的特征图输出在进入多尺度特征融合模块之后,都经过SEResneXt模块,先进行具有残差组卷积结构的ResnetXt操作丰富输入特征图语义信息,然后进行Squeeze and Excitation(SE)操作,赋予各通道的一个可学习权重,使得模型主动学习特征图各通道的重要程度,并能够按照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。
5.根据权利要求2所述的一种基于语义指导的边缘检测网络,其特征在于,语义指导融合模块通过利用边缘检测模块以及图像分割模块提取到的图像特征进行融合,利用图像分割模块提取到的语义特征指导模型输出更加精细的图像边缘特征。在语义指导融合模块中定义了新的模型损失函数融合两种输出特征信息并在边缘标签的指导下进行训练,其新定义的损失函数表示为:
L=Lfusion(f(Fseg,Fedge|X;W);Wf)
其中Fseg为图像分割模块提取到的语义特征,Fedge为图像边缘检测模块提取到的边缘特征,f(*|W)表示特征图融合操作,W表示其中卷积操作的参数。Lfusion(F;Wf)表示采用的交叉熵函数,表述为:
其中,Fi为特征图中的第i个像素,Pr(yi|Fi)为在像素yi上的分类置信度,N为图像像素总数,Wf为图像分割任务中训练参数的集合。
6.根据权利要求1所述的一种基于语义指导的自然场景下屏幕区域检测方法,其特征在于,对于屏幕边缘图像的后处理操作中主要包括:基于霍夫变换对屏幕边缘图像进行直线检测,并且去除重合直线,将直线交点排序作为集合,每次取四个点计算周长以及所围面积,满足两者最大的便认为是自然场景下的屏幕边缘角点。最后使用屏幕角点以及仿射变换进行屏幕倾斜角度矫正,最终得到屏幕内容图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011004389.9A CN112150493B (zh) | 2020-09-22 | 2020-09-22 | 一种基于语义指导的自然场景下屏幕区域检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011004389.9A CN112150493B (zh) | 2020-09-22 | 2020-09-22 | 一种基于语义指导的自然场景下屏幕区域检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112150493A true CN112150493A (zh) | 2020-12-29 |
CN112150493B CN112150493B (zh) | 2022-10-04 |
Family
ID=73897546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011004389.9A Active CN112150493B (zh) | 2020-09-22 | 2020-09-22 | 一种基于语义指导的自然场景下屏幕区域检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112150493B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112700462A (zh) * | 2020-12-31 | 2021-04-23 | 北京迈格威科技有限公司 | 一种图像分割方法、装置、电子设备及存储介质 |
CN112784718A (zh) * | 2021-01-13 | 2021-05-11 | 上海电力大学 | 一种基于边缘计算与深度学习的绝缘子状态识别方法 |
CN112926551A (zh) * | 2021-04-21 | 2021-06-08 | 北京京东乾石科技有限公司 | 目标检测方法、装置、电子设备和存储介质 |
CN112950615A (zh) * | 2021-03-23 | 2021-06-11 | 内蒙古大学 | 一种基于深度学习分割网络的甲状腺结节侵袭性预测方法 |
CN112966691A (zh) * | 2021-04-14 | 2021-06-15 | 重庆邮电大学 | 基于语义分割的多尺度文本检测方法、装置及电子设备 |
CN113192060A (zh) * | 2021-05-25 | 2021-07-30 | 上海商汤临港智能科技有限公司 | 一种图像分割的方法、装置、电子设备及存储介质 |
CN113344827A (zh) * | 2021-08-05 | 2021-09-03 | 浙江华睿科技股份有限公司 | 一种图像去噪方法、图像去噪网络运算单元及设备 |
CN113469199A (zh) * | 2021-07-15 | 2021-10-01 | 中国人民解放军国防科技大学 | 一种基于深度学习的快速高效图像边缘检测方法 |
CN114066842A (zh) * | 2021-11-12 | 2022-02-18 | 浙江托普云农科技股份有限公司 | 穗头数统计方法、系统、装置及存储介质 |
CN114882091A (zh) * | 2022-04-29 | 2022-08-09 | 中国科学院上海微系统与信息技术研究所 | 一种结合语义边缘的深度估计方法 |
CN115512368A (zh) * | 2022-08-22 | 2022-12-23 | 华中农业大学 | 一种跨模态语义生成图像模型和方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105163078A (zh) * | 2015-09-01 | 2015-12-16 | 电子科技大学 | 一种屏幕移出智能视频监测系统 |
CN108734719A (zh) * | 2017-04-14 | 2018-11-02 | 浙江工商大学 | 一种基于全卷积神经网络的鳞翅目昆虫图像前背景自动分割方法 |
CN108830855A (zh) * | 2018-04-02 | 2018-11-16 | 华南理工大学 | 一种基于多尺度低层特征融合的全卷积网络语义分割方法 |
US20200143205A1 (en) * | 2017-08-10 | 2020-05-07 | Intel Corporation | Convolutional neural network framework using reverse connections and objectness priors for object detection |
-
2020
- 2020-09-22 CN CN202011004389.9A patent/CN112150493B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105163078A (zh) * | 2015-09-01 | 2015-12-16 | 电子科技大学 | 一种屏幕移出智能视频监测系统 |
CN108734719A (zh) * | 2017-04-14 | 2018-11-02 | 浙江工商大学 | 一种基于全卷积神经网络的鳞翅目昆虫图像前背景自动分割方法 |
US20200143205A1 (en) * | 2017-08-10 | 2020-05-07 | Intel Corporation | Convolutional neural network framework using reverse connections and objectness priors for object detection |
CN108830855A (zh) * | 2018-04-02 | 2018-11-16 | 华南理工大学 | 一种基于多尺度低层特征融合的全卷积网络语义分割方法 |
Non-Patent Citations (2)
Title |
---|
LIU Y: "Richer convolutional", 《PROCEEDINGS OF IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
宋杰: "基于RCF 的跨层融合特征的边缘检测", 《计算机应用》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112700462A (zh) * | 2020-12-31 | 2021-04-23 | 北京迈格威科技有限公司 | 一种图像分割方法、装置、电子设备及存储介质 |
CN112784718A (zh) * | 2021-01-13 | 2021-05-11 | 上海电力大学 | 一种基于边缘计算与深度学习的绝缘子状态识别方法 |
CN112784718B (zh) * | 2021-01-13 | 2023-04-25 | 上海电力大学 | 一种基于边缘计算与深度学习的绝缘子状态识别方法 |
CN112950615B (zh) * | 2021-03-23 | 2022-03-04 | 内蒙古大学 | 一种基于深度学习分割网络的甲状腺结节侵袭性预测方法 |
CN112950615A (zh) * | 2021-03-23 | 2021-06-11 | 内蒙古大学 | 一种基于深度学习分割网络的甲状腺结节侵袭性预测方法 |
CN112966691A (zh) * | 2021-04-14 | 2021-06-15 | 重庆邮电大学 | 基于语义分割的多尺度文本检测方法、装置及电子设备 |
CN112926551A (zh) * | 2021-04-21 | 2021-06-08 | 北京京东乾石科技有限公司 | 目标检测方法、装置、电子设备和存储介质 |
CN113192060A (zh) * | 2021-05-25 | 2021-07-30 | 上海商汤临港智能科技有限公司 | 一种图像分割的方法、装置、电子设备及存储介质 |
CN113469199A (zh) * | 2021-07-15 | 2021-10-01 | 中国人民解放军国防科技大学 | 一种基于深度学习的快速高效图像边缘检测方法 |
CN113344827B (zh) * | 2021-08-05 | 2021-11-23 | 浙江华睿科技股份有限公司 | 一种图像去噪方法、图像去噪网络运算单元及设备 |
CN113344827A (zh) * | 2021-08-05 | 2021-09-03 | 浙江华睿科技股份有限公司 | 一种图像去噪方法、图像去噪网络运算单元及设备 |
CN114066842A (zh) * | 2021-11-12 | 2022-02-18 | 浙江托普云农科技股份有限公司 | 穗头数统计方法、系统、装置及存储介质 |
CN114882091A (zh) * | 2022-04-29 | 2022-08-09 | 中国科学院上海微系统与信息技术研究所 | 一种结合语义边缘的深度估计方法 |
CN114882091B (zh) * | 2022-04-29 | 2024-02-13 | 中国科学院上海微系统与信息技术研究所 | 一种结合语义边缘的深度估计方法 |
CN115512368A (zh) * | 2022-08-22 | 2022-12-23 | 华中农业大学 | 一种跨模态语义生成图像模型和方法 |
CN115512368B (zh) * | 2022-08-22 | 2024-05-10 | 华中农业大学 | 一种跨模态语义生成图像模型和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112150493B (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112150493B (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN113065558B (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
US11315345B2 (en) | Method for dim and small object detection based on discriminant feature of video satellite data | |
CN108509978B (zh) | 基于cnn的多级特征融合的多类目标检测方法及模型 | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
CN111368846B (zh) | 一种基于边界语义分割的道路积水识别方法 | |
CN110059586B (zh) | 一种基于空洞残差注意力结构的虹膜定位分割系统 | |
CN113052210A (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN107133943A (zh) | 一种防震锤缺陷检测的视觉检测方法 | |
CN113591968A (zh) | 一种基于非对称注意力特征融合的红外弱小目标检测方法 | |
CN111738055B (zh) | 多类别文本检测系统和基于该系统的票据表单检测方法 | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
CN111079739A (zh) | 一种多尺度注意力特征检测方法 | |
CN112329784A (zh) | 一种基于时空感知及多峰响应的相关滤波跟踪方法 | |
CN111709317A (zh) | 一种基于显著性模型下多尺度特征的行人重识别方法 | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
CN113763417B (zh) | 一种基于孪生网络和残差结构的目标跟踪方法 | |
CN117557774A (zh) | 一种基于改进YOLOv8的无人机图像小目标检测方法 | |
CN113205103A (zh) | 一种轻量级的文身检测方法 | |
CN114283431B (zh) | 一种基于可微分二值化的文本检测方法 | |
CN113609904B (zh) | 一种基于动态全局信息建模和孪生网络的单目标跟踪算法 | |
CN111582057B (zh) | 一种基于局部感受野的人脸验证方法 | |
CN113052311B (zh) | 具有跳层结构的特征提取网络及特征和描述子生成的方法 | |
CN114202694A (zh) | 基于流形混合插值和对比学习的小样本遥感场景图像分类方法 | |
Li et al. | A new algorithm of vehicle license plate location based on convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |