Nothing Special   »   [go: up one dir, main page]

CN108764228A - 一种图像中文字目标检测方法 - Google Patents

一种图像中文字目标检测方法 Download PDF

Info

Publication number
CN108764228A
CN108764228A CN201810520329.9A CN201810520329A CN108764228A CN 108764228 A CN108764228 A CN 108764228A CN 201810520329 A CN201810520329 A CN 201810520329A CN 108764228 A CN108764228 A CN 108764228A
Authority
CN
China
Prior art keywords
layer
frame
bounding box
feature
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810520329.9A
Other languages
English (en)
Inventor
吕岳
吕淑静
张茹玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiaxing San Suo Intelligent Technology Co Ltd
Original Assignee
Jiaxing San Suo Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiaxing San Suo Intelligent Technology Co Ltd filed Critical Jiaxing San Suo Intelligent Technology Co Ltd
Priority to CN201810520329.9A priority Critical patent/CN108764228A/zh
Publication of CN108764228A publication Critical patent/CN108764228A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种图像中的文字目标检测方法,属于模式识别、图像处理技术领域。它包括以下步骤:步骤1:构建一个端到端的基于特征层融合的卷积神经网络,用于预测图像中不同尺度的目标;步骤2:根据特征层融合网络输出的候选框,使用边界框融合算法获取最终的图像中的文字目标检测结果。本发明的图像目标检测方法是从自然场景图像中提取出文字目标的位置区域,提高后续的目标识别的效率和准确率。提出了使用基于深度学习的特征层融合的神经网络预测目标的边界框,并使用边界框融合算法对预测的边界框进行融合,能有效的检测出图像文字目标的位置区域。

Description

一种图像中文字目标检测方法
技术领域
本发明属于模式识别、图像处理技术领域,特别涉及是一种图像中文字目标检测的方法。
背景技术
随着互联网和多媒体技术的发展,越来越多的信息载体以图像的形式存在。图像中包含着丰富的视觉信息:文字、颜色、形状、图案、位置等等,这些信息能够帮助人类来分析场景的含义。目前基于图像的文字目标检测的技术已经在车牌识别、交通标志分析等方面有着广泛的应用。但是因拍摄图像的随意性,图像中的文字因形变、残缺、模糊断裂等客观因素,会对文字区域的检测产生干扰。此外,场景图像中一般背景比较复杂,文字和背景可能存在相似的纹理,这会增加文字目标检测的难度。传统的文字目标检测方法需要对文字目标进行特征选择,并使用大量的启发式规则来获取文字的位置,效果不明显。
发明内容
本发明的目的是提供一种基于深度学习的图像中文字目标检测方法,来解决图像中的文字目标定位问题,本发明经过神经网络来预测文字目标对象的位置和置信度,然后通过候选框聚集算法,融合输出的所有候选框,得到图像目标最终的边界框,即图像目标检测结果。
本发明解决其技术问题所采用的技术方案是:
一种基于特征融合网络和边界框融合算法相结合的图像文字目标检测方法,该方法包括如下步骤:
首先,设计一个端到端的卷积神经网络,并且有多个输出层,多个输出层都有强表达能力。网络不同的输出层可以预测不同尺度的目标对象,其中,高层的输出层预测大尺度的目标对象,低输出层预测小尺度的目标对象。网络的输出层输出目标对象的位置和置信度,得到一系列的候选边界框。
然后对神经网络输出的候选文本框进行后处理,通过融合多个候选边界框,得到目标对象的最佳检测位置。
进一步的,构建一个基于特征层融合的卷积神经网络,用于检测文字目标的位置,包括以下步骤:
(1)构建一个前向传播的卷积神经网络,即前置网络是VGG-16,其中,最后两层全连接层替换为卷积层,在前置网络结构之后,添加了额外的卷积层和池化层。
(2)在最高特征层与其他特征层之间分别加入反卷积层,反卷积层中的反卷积操作类似于双线性差值,可以有选择地对特征图进行放大,使得最高层特征层中的特征图尺度变为与低层尺度一样大小。反卷积层输出的特征图大小的计算公式为:
其中,i表示反卷积层输入特征图的大小,k表示卷积核的尺寸,s表示步长大小,p表示填充边距。根据特征层输入特征图和输出特征图的大小,高层的特征层通过反卷积层设置相应的参数,便可得到与低层一样大小的特征图。
(3)将反卷积后特征图与低层特征层的特征图使用元素点积方式进行融合,得到新的特征层。新的特征层作为输出层,用于输出目标对象的位置和置信度,其中,两个特征图的元素点积操作,等同于两个矩阵点积操作,两个矩阵对应元素相乘:
(4)在输出层上定义一系列固定大小的默认框,定义一系列固定大小的默认框,输出层输出文本的置信度和相对于默认框的偏移坐标。假设图像和特征图的大小分别是(wim,him)和 (wmap,hmap),在特征图中(i,j)位置对应一个默认框b0=(x0,y0,w0,h0),输出层的输出为(Δx,Δy, Δw,Δh,c),其中,(Δx,Δy,Δw,Δh)表示预测文本边界框相对于默认框的偏移坐标,c表示文本的置信度。预测的文本边界框为b=(x,y,w,h),其中:
x=x0+w0△x
y=y0+h0△y
w=w0+exp△x
h=h0+exp△y
x,y表示预测的文本框的左上角的横纵坐标,w,h为文本框的宽和高。
对于特征层融合神经网络,设置采用策略为神经网络选择正负样本,具体步骤包括:
(1)在每个输出层的特征图上采用滑动窗口的模式生成默认框,N×N大小的特征图有 N×N个特征点,根据目标对象的横纵比,每个特征点对应六种不同横纵比的默认框:
ar={a1,a2,a3,a4,a5,a6}
(2)建立图像中目标对象的真实标签框(ground truth)和默认框之间的关系,并对默认框进行标注。使用jaccard重叠率作为匹配指标对默认框进行标注,jaccard重叠率越高表明样本相似度越高,两个样本越匹配。给定默认框A和真实标签框B,默认框与真实标签框的 jaccard重叠率表示A与B的交集面积与并集面积的比值:
将jaccard重叠率大于或等于0.5的默认框作为匹配的默认框,jaccard重叠率小于0.5的默认框作为不匹配的默认框。其中,匹配的默认框作为正样本,不匹配的默认框作为负样本。
(3)样本标注后,将默认框中的负样本通过置信度损失进行排序,选择置信度损失值较高的默认框作为网络训练的负样本,使训练的正负样本的比例保持在1:3。
对于特征层融合网络,设置特征层融合网络的目标函数,具体步骤包括:
(1)设置目标损失函数为定位损失与置信度损失的加权和:
其中,x表示匹配结果矩阵,c表示置信度,l表示预测位置,g表示目标的真实位置,N表示默认框匹配真实标签框的个数;其中,权重系数α设置为1;
(2)设置定位损失为Lloc为目标的预测位置和真实位置的L2损失,设置置信度损失Lconf位二分类的softmax损失:
对于特征融合网络,多个输出层预测不同尺度的目标对象边界框,设置每个输出层输出目标边界框的尺度,具体步骤包括:
(1)选择最高层特征层以及最高层特征层与其他特征层融合形成的特征层作为网络的输出层。
(2)设置每个输出层中默认框的大小,输出层输出目标边界框相对于默认框的偏移坐标和置信度,得到候选的目标边界框。假设网络中有m个输出层,每个输出层对应一个特征图,每个特征图中默认框的尺度为:
每个默认框的宽度和高度分别为:
其中,Smin,Smax分别表示最低层和最高层的默认框的尺度,低层输出层预测小尺度的目标对象,高层输出层预测大尺度的目标对象。输出层的默认框在不同的特征图上有着不同的尺度,在同一个特征图又有着不同的横纵比,相应的,整个网络可以通过多个输出层预测不同尺度和不同形状的目标对象。
进一步,对特征层融合网络输出的多个候选目标边界框使用边界框融合算法进行后处理,得到图像目标的最终位置,边界框融合算法的具体步骤包括:
(1)将目标的候选边界框按照置信度的值从高到低排序,选取第一个候选边界框作为当前融合的边界框;
(2)将其他候选边界框作为被融合的边界框,比较当前融合边界框与被融合边界的置信度若两个文本框的置信度均大于阈值α,则计算当前融合边界框与被融合边界框的面积交叠率,否则,执行步骤(3)。其中,面积交叠率指的是两个边界框的重叠面积占两个边界框并集面积的比例:
其中,area(C)和area(G)分别为文本框C和文本框G的面积:
(3)如果两个候选边界框的面积交叠率高于等于阈值β,融合两个边界框,融合后的边界框为两个边界框的外界矩形框,置信度为融合边界框的置信度。
(4)如果两个候选边界框的面积交叠率小于阈值β,计算两个边界框的包含重叠率,如果两个边界框的包含重叠率大于阈值γ,移除该边界框,否则,执行步骤(5)。其中,包含重叠率指的是两个边界框的重叠面积占另一个边界框面积的比例:
其中,area(ti)表示矩形框ti的面积,area(ti)表示矩形框tj的面积。Ii(ti,tj)表示矩形框ti相对于矩形框ti的包含重叠率。
(5)如果只剩最后一个文本框,算法结束,选择置信度高于阈值δ的文本框作为最终目标检测结果,否则,更新图像目标的候选边界框,按照之前排列好的顺序,取下一个未被融合的边界框作为融合文本框,执行步骤(2)。
特征融合网络输出目标的候选边界框,边界框融合算法对候选边界框进行处理,最终得到图像目标的检测结果。
本发明和现有技术相比,具有以下优点和效果:本发明提出的图像目标检测方法是从自然场景中定位出目标对象的位置区域。该方法利用单个神经网络中的多个输出层直接预测目标对象的位置区域,识别效率高,同时只有一个后处理算法用于融合所有的候选边界框,得到最终的图像目标的检测结果。
附图说明
图1是本发明技术方案涉及的图像中文字目标检测方法的流程图。
图2是本发明技术方案涉及的特征层融合网络的网络结构图。
图3是本发明技术方案涉及的特征层融合网络的输出层。
图4是本发明技术方案涉及的特征层融合网络采样方式。
图5是本发明技术方案涉及的使用特征层融合网络输出的文本目标的候选边界框。
图6是本发明技术方案涉及的边界框融合算法的算法流程图。
图7是本发明技术方案涉及的使用边界框融合算法处理后的检测结果图。
具体实施方式
下面结合附图并通过实施例对本发明作进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
本发明采用特征层融合网络与边界框融合算法相结合的方法对文字目标进行检测,主要分为两个步骤,分别为:(1)使用特征层融合网络预测图像目标的位置区域,获取文字目标的候选边界框;(2)使用边界框融合算法获取最终检测结果。如图1所示为本发明文字目标检测的流程图。
随着互联网和多媒体技术的发展,越来越多的信息载体以图像的形式存在,图像目标检测在现实生活中存在着广泛的应用。传统的文本检测算法需要大量的启发式规则筛选出文本区域,效果并不明显,本发明专利基于深度学习的方法构建一个端到端的特征层融合网络,能直接预测图像中文字目标的位置和置信度。
构建一个基于特征层融合的神经网络,图2显示了特征层融合网络的网络结构。随着网络的深度,特征层中的特征图尺度逐渐变小,特征图的表达能力也越来越强,将高层特征层与低层特征层进行融合组合成新特征层作为输出层,能增强输出层的表达能力。如图3所示,特征融合网络在整体结构上有两种连接方式,一种是自底向上的连接方式,一种是自顶向下的连接方式,如图3。自底向上是网络的前向传播过程,特征图的大小经过卷积层和池化层后会逐渐变小,整个网络在层次结构上是金字塔结构。自顶向下的连接采用反卷积,将网络高层的特征融合至低层特征层,构建新的输出层。如图3所示,特征融合网络的输出层为A、B’、C’、D’,其中,特征层A、B融合形成新的特征层B’,特征层A、C融合形成新的特征层C’,特征层A、D融合形成新的特征层D’,由于特征层A为最高层特征层,仍作为网络的输出层。
特征层融合网络的构建步骤如下:
步骤(1):构建一个前向传播的卷积神经网络的基础上,其中,最后两层全连接层替换为卷积层,前置网络是VGG-16,在前置网络结构之后,添加额外的卷积层和池化层。
步骤(2):在前向传播网络的基础上,将最高层特征层与其他特征层之间分别加入反卷积层,使反卷积后的特征图尺度与低层特征层中特征图的尺度保持一致。反卷积层中的反卷积操作类似于双线性差值,可以有选择地对特征图进行放大,使得最高层特征层中的特征图尺度变为与低层尺度一样大小。反卷积层输出的特征图大小的计算公式为:
其中,i表示反卷积层输入特征图的大小,k表示卷积核的尺寸,s表示步长大小,p表示填充边距。根据特征层输入特征图和输出特征图的大小,高层的特征层通过反卷积层设置相应的参数,便可得到与低层一样大小的特征图。
步骤(3):将反卷积后特征图与低层特征层的特征图使用元素点积方式进行融合,得到新的特征层。新的特征层作为输出层,用于输出目标对象的位置和置信度,其中,两个特征图的元素点积操作,等同于两个矩阵点积操作,两个矩阵对应元素相乘:
步骤(4):在输出层上定义一系列固定大小的默认框,定义一系列固定大小的默认框,输出层输出文本的置信度和相对于默认框的偏移坐标。假设图像和特征图的大小分别是(wim, him)和(wmap,hmap),在特征图中(i,j)位置对应一个默认框b0=(x0,y0,w0,h0),输出层的输出为 (Δx,Δy,Δw,Δh,c),其中,(Δx,Δy,Δw,Δh)表示预测文本边界框相对于默认框的偏移坐标,c 表示文本的置信度。预测的文本边界框为b=(x,y,w,h),其中:
x=x0+w0△x
y=y0+h0△y
w=w0+exp△x
h=h0+exp△y
x,y表示预测的文本框的左上角的横纵坐标,w,h为文本框的宽和高。
为特征层融合网络设置采样策略,获取正负样本,需要在输出层的特征图上定义,默认框,并建立图像中目标对象的真实标签框和默认框之间的关系,选择正负样本。具体包括以下步骤:
步骤(1):在每个输出层的特征图上采用滑动窗口的模式生成默认框,N×N大小的特征图有N×N个特征点,根据目标对象的横纵比,每个特征点六种横纵比的默认框:
ar={a1,a2,a3,a4,a5,a6}
步骤(2):建立图像中目标对象的真实标签框(ground truth)和默认框之间的关系,并对默认框进行标注。使用jaccard重叠率作为匹配指标对默认框进行标注,jaccard重叠率越高表明样本相似度越高,两个样本越匹配。给定默认框A和真实标签框B,默认框与真实标签框的jaccard重叠率表示A与B的交集面积与并集面积的比值:
将jaccard重叠率大于或等于0.5的默认框作为匹配的默认框,jaccard重叠率小于0.5的默认框作为不匹配的默认框。其中,匹配的默认框作为正样本,不匹配的默认框作为负样本。
检测图像中的文本目标,为特征融合网络选择正负样本,需要建立图像真实标签框和默认框之间的关系,如图4。图4(a)中文本目标“Marlboro”的真实标签框为图中的上方的实线框,文本“LIGHTS”的真实标签框为图中的下方的实线框。图4(b)和图4(c)的虚线框分别表示8×8大小的特征图和4×4大小的特征图上的默认框。其中,匹配文本“LIGHTS”有两个虚线框,匹配文本“Marlboro”有一个虚线框,标注匹配的默认框作为正样本,不匹配的默认框作为负样本。
步骤(3):样本标注后,将默认框中的负样本通过置信度损失进行排序,选择置信度损失值较高的默认框作为网络训练的负样本,使训练的正负样本的比例保持在1:3。
对于特征层融合网络。设置特征层融合网络的目标函数,具体包括以下步骤:
(1):设置目标损失函数为定位损失与置信度损失的加权和:
其中,x表示匹配结果矩阵,c表示置信度,l表示预测位置,g表示目标的真实位置,N表示默认框匹配真实标签框的个数;其中,权重系数α设置为1;
(2):设置定位损失为Lloc为目标的预测位置和真实位置的L2损失,设置置信度损失 Lconf位二分类的softmax损失:
由于网络中不同的输出层对应的特征图尺度不一样,不同的输出层对预测的目标尺度不一样,高层的输出层预测大尺度的目标对象,低层的输出层预测小尺度的目标对象。设置特征层融合网络输出层输出目标边界框的尺度,特征融合网络的的候选边界框如图5所示,具体包括以下步骤:
(1)选择最高层特征层以及最高层特征层与其他特征层融合形成的特征层作为网络的输出层。
(2)网络中不同的输出层对应的特征图尺度不一样,假设网络中有m个输出层,每个输出层对应一个特征图,每个特征图中默认框的尺度为:
每个默认框的宽度和高度分别为:
其中,Smin,Smax分别表示最低层和最高层的默认框的尺度,低层输出层预测小尺度的目标对象,高层输出层预测大尺度的目标对象。输出层的默认框在不同的特征图上有着不同的尺度,在同一个特征图又有着不同的横纵比,相应的,整个网络可以通过多个输出层预测不同尺度和不同形状的文本。
特征层融合网络利用多个输出层直接预测目标对象的边界框,每个边界框都会得到一个置信度得分。输出层预测出的边界框会存在相互重叠的情况,使用边界框融合算法可以选取邻域范围内置信度较高的边界框,并融合相互重叠的候选边界框,取得最优的目标检测位置,具体包括以下步骤:
(1)将文字目标的候选边界框按照置信度的值从高到低排序,选取第一个候选边界框作为当前融合的边界框;
(2)将其他候选边界框作为被融合的边界框,比较当前融合边界框与被融合边界的置信度若两个文本框的置信度均大于阈值α,则计算当前融合边界框与被融合边界框的面积交叠率,否则,执行步骤(3)。其中,面积交叠率指的是两个边界框的重叠面积占两个边界框并集面积的比例:
其中,area(C)和area(G)分别为文本框C和文本框G的面积:
(3)如果两个候选边界框的面积交叠率高于等于阈值β,融合两个边界框,融合后的边界框为两个边界框的外界矩形框,置信度为融合边界框的置信度。
(4)如果两个候选边界框的面积交叠率小于阈值β,计算两个边界框的包含重叠率,如果两个边界框的包含重叠率大于阈值γ,移除该边界框,否则,执行步骤(5)。其中,包含重叠率指的是两个边界框的重叠面积占另一个边界框面积的比例:
其中,area(ti)表示矩形框ti的面积,area(ti)表示矩形框tj的面积。Ii(ti,tj)表示矩形框ti相对于矩形框ti的包含重叠率。
(5)如果只剩最后一个文本框,算法结束,选择置信度高于阈值δ的文本框作为最终目标检测结果,否则,更新图像目标的候选边界框,按照之前排列好的顺序,取下一个未被融合的边界框作为融合文本框,执行步骤(2)。
使用上述边界框融合算法对两个边界框融合,算法的流程图如图6所示,其中,IOU(ti, tj)表示边界框ti和tj的IOU交叠率,Fusion(ti,tj)表示边界框ti和tj合并后的边界框,为两个边界框的外接矩形框;Ii(ti,tj)和Ij(ti,tj)分别表示边界框ti和tj的包含重叠率。边界框融合算法包含三个阈值,分别为:置信度阈值α、IOU交叠率阈值β、包含重叠率阈值γ。置信度阈值决定两个边界框是否融合,当两个边界框的置信度都高于α时,两个边界框进行融合。
使用边界框融合算法得到的最后文本目标检测结果,如图7所示。边界框融合算法利用了邻域候选边界框的位置关系和置信度,对候选边界框进行融合,得到最终的图像目标检测结果。本说明书中所描述的以上内容仅仅是对本发明所作的举例说明。
本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离本发明说明书的内容或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (4)

1.一种图像中文字目标检测方法,其特征在于,包括以下步骤:
步骤一:构建一个端到端的基于特征层融合的卷积神经网络,用于预测图像中不同尺度的文字目标;
步骤二:根据特征层融合网络输出的候选框,使用边界框融合算法获取最终的图像文字目标检测结果。
2.根据权利要求1所述的一种图像中文字目标检测方法,其特征在于,构建一个端到端的基于特征层融合的卷积神经网络,用于检测图像中的文字目标的位置,具体包括以下步骤:
(1)构建一个前向传播的卷积神经网络,前置网络是VGG-16,其中,最后两层全连接层替换为卷积层,在前置网络结构之后,添加了额外的卷积层和池化层;
(2)在前向传播网络的基础上,将最高层的特征层与其他特征层之间分别加入反卷积层,使反卷积后的特征图尺度与低层特征层中特征图的尺度保持一致;
(3)将反卷积后特征图与低层特征层的特征图使用元素点积方式进行融合,得到新的特征层,新的特征层作为输出层,用于输出目标对象的位置和置信度;
(4)在输出层上定义一系列固定大小的默认框,定义输出层输出文本的置信度和相对于默认框的偏移坐标。
3.根据权利要求2所述的一种图像中文字目标检测方法,其特征在于,基于特征层融合的卷积神经网络,设置特征层融合网络输出层输出目标边界框的尺度,具体包括:
(1)选择最高层特征层以及最高层特征层与其他特征层融合形成的特征层作为网络的输出层;
(2)设置每个输出层中默认框的大小,输出层输出目标边界框相对于默认框的偏移坐标和置信度,得到候选的目标边界框,设置低层输出层预测小尺度的目标对象,高层输出层预测大尺度的文字目标对象。
4.根据权利要求1所述的一种图像中文字目标检测方法,其特征在于,特征层融合网络输出的候选边界框,使用边界框融合算法获取文字目标的最终位置,具体包括以下步骤:
(1)将文字目标的候选边界框按照置信度的值从高到低排序,选取第一个候选边界框作为当前融合的边界框;
(2)将其他候选边界框作为被融合的边界框,比较当前融合边界框与被融合边界的置信度若两个文本框的置信度均大于阈值α,则计算当前融合边界框与被融合边界框的面积交叠率,否则,执行步骤(3);
(3)如果两个候选边界框的面积交叠率高于等于阈值β,融合两个边界框,融合后的边界框为两个边界框的外界矩形框,置信度为融合边界框的置信度;
(4)如果两个候选边界框的面积交叠率小于阈值β,计算两个边界框的包含重叠率,如果两个边界框的包含重叠率大于阈值γ,移除该边界框,否则,执行步骤(5);
(5)如果只剩最后一个文本框,算法结束,选择置信度高于阈值δ的文本框作为最终目标检测结果;
否则,更新文字目标的候选边界框,按照之前排列好的顺序,取下一个未被融合的边界框作为融合文本框,执行步骤(2)。
CN201810520329.9A 2018-05-28 2018-05-28 一种图像中文字目标检测方法 Pending CN108764228A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810520329.9A CN108764228A (zh) 2018-05-28 2018-05-28 一种图像中文字目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810520329.9A CN108764228A (zh) 2018-05-28 2018-05-28 一种图像中文字目标检测方法

Publications (1)

Publication Number Publication Date
CN108764228A true CN108764228A (zh) 2018-11-06

Family

ID=64005915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810520329.9A Pending CN108764228A (zh) 2018-05-28 2018-05-28 一种图像中文字目标检测方法

Country Status (1)

Country Link
CN (1) CN108764228A (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299274A (zh) * 2018-11-07 2019-02-01 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
CN109458978A (zh) * 2018-11-07 2019-03-12 五邑大学 一种基于多尺度检测算法的天线下倾角测量方法
CN109918951A (zh) * 2019-03-12 2019-06-21 中国科学院信息工程研究所 一种基于层间融合的人工智能处理器侧信道防御系统
CN110110722A (zh) * 2019-04-30 2019-08-09 广州华工邦元信息技术有限公司 一种基于深度学习模型识别结果的区域检测修正方法
CN110135423A (zh) * 2019-05-23 2019-08-16 北京阿丘机器人科技有限公司 文本识别网络的训练方法和光学字符识别方法
CN110163081A (zh) * 2019-04-02 2019-08-23 宜通世纪物联网研究院(广州)有限公司 基于ssd的实时区域入侵检测方法、系统及存储介质
CN110263877A (zh) * 2019-06-27 2019-09-20 中国科学技术大学 场景文字检测方法
CN110414417A (zh) * 2019-07-25 2019-11-05 电子科技大学 一种基于多层次融合多尺度预测的交通标志牌识别方法
CN110458170A (zh) * 2019-08-06 2019-11-15 汕头大学 一种强噪声复杂背景图像中的汉字定位及识别方法
CN110674804A (zh) * 2019-09-24 2020-01-10 上海眼控科技股份有限公司 文本图像的检测方法、装置、计算机设备和存储介质
CN110796640A (zh) * 2019-09-29 2020-02-14 郑州金惠计算机系统工程有限公司 一种小目标缺陷的检测方法、装置、电子设备及存储介质
CN111046923A (zh) * 2019-11-26 2020-04-21 佛山科学技术学院 一种基于边界框的图像目标检测方法、装置及存储介质
CN111222368A (zh) * 2018-11-26 2020-06-02 北京金山办公软件股份有限公司 一种识别文档段落的方法、装置及电子设备
CN111598082A (zh) * 2020-04-24 2020-08-28 云南电网有限责任公司电力科学研究院 一种基于全卷积网络与实例分割网络的电力铭牌文本检测方法
CN111680628A (zh) * 2020-06-09 2020-09-18 北京百度网讯科技有限公司 文字框融合方法、装置、设备以及存储介质
TWI706336B (zh) * 2018-11-19 2020-10-01 中華電信股份有限公司 影像處理裝置及其偵測與過濾文字物件的方法
CN111783685A (zh) * 2020-05-08 2020-10-16 西安建筑科技大学 一种基于单阶段网络模型的目标检测改进算法
CN111844101A (zh) * 2020-07-31 2020-10-30 中国科学技术大学 一种多指灵巧手分拣规划方法
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN111986252A (zh) * 2020-07-16 2020-11-24 浙江工业大学 一种用于目标分割网络中候选边界框精准定位的方法
CN111985465A (zh) * 2020-08-17 2020-11-24 中移(杭州)信息技术有限公司 文本识别方法、装置、设备及存储介质
CN112419310A (zh) * 2020-12-08 2021-02-26 中国电子科技集团公司第二十研究所 一种基于交并融合边框优选的目标检测方法
CN112487848A (zh) * 2019-09-12 2021-03-12 京东方科技集团股份有限公司 文字识别方法和终端设备
CN112906699A (zh) * 2020-12-23 2021-06-04 深圳市信义科技有限公司 一种车牌放大号的检测识别方法
CN113269049A (zh) * 2021-04-30 2021-08-17 天津科技大学 一种用于检测手写汉字区域的方法
CN113850264A (zh) * 2019-06-10 2021-12-28 创新先进技术有限公司 评估目标检测模型的方法和系统
US20220083819A1 (en) * 2019-11-15 2022-03-17 Salesforce.Com, Inc. Image augmentation and object detection
CN114359889A (zh) * 2022-03-14 2022-04-15 北京智源人工智能研究院 一种长文本资料的文本识别方法
WO2022150978A1 (en) * 2021-01-12 2022-07-21 Nvidia Corporation Neighboring bounding box aggregation for neural networks
CN114898171A (zh) * 2022-04-07 2022-08-12 中国科学院光电技术研究所 一种适用于嵌入式平台的实时目标检测方法
CN115080051A (zh) * 2022-05-31 2022-09-20 武汉大学 一种基于计算机视觉的gui代码自动生成方法
CN117048773A (zh) * 2023-08-01 2023-11-14 黄岛检验认证有限公司 自动追踪水尺补光双轴摄像头及水尺观测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570497A (zh) * 2016-10-08 2017-04-19 中国科学院深圳先进技术研究院 一种场景图像的文本检测方法和装置
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN107563381A (zh) * 2017-09-12 2018-01-09 国家新闻出版广电总局广播科学研究院 基于全卷积网络的多特征融合的目标检测方法
CN107688808A (zh) * 2017-08-07 2018-02-13 电子科技大学 一种快速的自然场景文本检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570497A (zh) * 2016-10-08 2017-04-19 中国科学院深圳先进技术研究院 一种场景图像的文本检测方法和装置
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN107688808A (zh) * 2017-08-07 2018-02-13 电子科技大学 一种快速的自然场景文本检测方法
CN107563381A (zh) * 2017-09-12 2018-01-09 国家新闻出版广电总局广播科学研究院 基于全卷积网络的多特征融合的目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHENG-YANG FU等: ""DSSD : Deconvolutional Single Shot Detector"", 《ARXIV》 *
MINGHUI LIAO等: "TextBoxes: A Fast Text Detector with a Single Deep Neural Network", 《ADVANCEMENT OF ARTIFICIAL INTELLIGENCE(AAAI)》 *
WEILIU等: ""SSD: Single Shot MultiBox Detector"", 《SPRINGER》 *

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299274A (zh) * 2018-11-07 2019-02-01 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
CN109458978A (zh) * 2018-11-07 2019-03-12 五邑大学 一种基于多尺度检测算法的天线下倾角测量方法
CN109299274B (zh) * 2018-11-07 2021-12-17 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
TWI706336B (zh) * 2018-11-19 2020-10-01 中華電信股份有限公司 影像處理裝置及其偵測與過濾文字物件的方法
CN111222368B (zh) * 2018-11-26 2023-09-19 北京金山办公软件股份有限公司 一种识别文档段落的方法、装置及电子设备
CN111222368A (zh) * 2018-11-26 2020-06-02 北京金山办公软件股份有限公司 一种识别文档段落的方法、装置及电子设备
CN109918951A (zh) * 2019-03-12 2019-06-21 中国科学院信息工程研究所 一种基于层间融合的人工智能处理器侧信道防御系统
CN110163081A (zh) * 2019-04-02 2019-08-23 宜通世纪物联网研究院(广州)有限公司 基于ssd的实时区域入侵检测方法、系统及存储介质
CN110110722A (zh) * 2019-04-30 2019-08-09 广州华工邦元信息技术有限公司 一种基于深度学习模型识别结果的区域检测修正方法
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN110135423A (zh) * 2019-05-23 2019-08-16 北京阿丘机器人科技有限公司 文本识别网络的训练方法和光学字符识别方法
CN113850264A (zh) * 2019-06-10 2021-12-28 创新先进技术有限公司 评估目标检测模型的方法和系统
CN110263877A (zh) * 2019-06-27 2019-09-20 中国科学技术大学 场景文字检测方法
CN110263877B (zh) * 2019-06-27 2022-07-08 中国科学技术大学 场景文字检测方法
CN110414417A (zh) * 2019-07-25 2019-11-05 电子科技大学 一种基于多层次融合多尺度预测的交通标志牌识别方法
CN110458170A (zh) * 2019-08-06 2019-11-15 汕头大学 一种强噪声复杂背景图像中的汉字定位及识别方法
CN112487848A (zh) * 2019-09-12 2021-03-12 京东方科技集团股份有限公司 文字识别方法和终端设备
CN112487848B (zh) * 2019-09-12 2024-04-26 京东方科技集团股份有限公司 文字识别方法和终端设备
CN110674804A (zh) * 2019-09-24 2020-01-10 上海眼控科技股份有限公司 文本图像的检测方法、装置、计算机设备和存储介质
CN110796640A (zh) * 2019-09-29 2020-02-14 郑州金惠计算机系统工程有限公司 一种小目标缺陷的检测方法、装置、电子设备及存储介质
US11710077B2 (en) * 2019-11-15 2023-07-25 Salesforce, Inc. Image augmentation and object detection
US20220083819A1 (en) * 2019-11-15 2022-03-17 Salesforce.Com, Inc. Image augmentation and object detection
CN111046923A (zh) * 2019-11-26 2020-04-21 佛山科学技术学院 一种基于边界框的图像目标检测方法、装置及存储介质
CN111046923B (zh) * 2019-11-26 2023-02-28 佛山科学技术学院 一种基于边界框的图像目标检测方法、装置及存储介质
CN111598082A (zh) * 2020-04-24 2020-08-28 云南电网有限责任公司电力科学研究院 一种基于全卷积网络与实例分割网络的电力铭牌文本检测方法
CN111598082B (zh) * 2020-04-24 2023-10-17 云南电网有限责任公司电力科学研究院 一种基于全卷积网络与实例分割网络的电力铭牌文本检测方法
CN111783685A (zh) * 2020-05-08 2020-10-16 西安建筑科技大学 一种基于单阶段网络模型的目标检测改进算法
CN111680628A (zh) * 2020-06-09 2020-09-18 北京百度网讯科技有限公司 文字框融合方法、装置、设备以及存储介质
CN111680628B (zh) * 2020-06-09 2023-04-28 北京百度网讯科技有限公司 文字框融合方法、装置、设备以及存储介质
CN111986252A (zh) * 2020-07-16 2020-11-24 浙江工业大学 一种用于目标分割网络中候选边界框精准定位的方法
CN111986252B (zh) * 2020-07-16 2024-03-29 浙江工业大学 一种用于目标分割网络中候选边界框精准定位的方法
CN111844101A (zh) * 2020-07-31 2020-10-30 中国科学技术大学 一种多指灵巧手分拣规划方法
CN111985465A (zh) * 2020-08-17 2020-11-24 中移(杭州)信息技术有限公司 文本识别方法、装置、设备及存储介质
CN112419310B (zh) * 2020-12-08 2023-07-07 中国电子科技集团公司第二十研究所 一种基于交并融合边框优选的目标检测方法
CN112419310A (zh) * 2020-12-08 2021-02-26 中国电子科技集团公司第二十研究所 一种基于交并融合边框优选的目标检测方法
CN112906699A (zh) * 2020-12-23 2021-06-04 深圳市信义科技有限公司 一种车牌放大号的检测识别方法
WO2022150978A1 (en) * 2021-01-12 2022-07-21 Nvidia Corporation Neighboring bounding box aggregation for neural networks
CN113269049A (zh) * 2021-04-30 2021-08-17 天津科技大学 一种用于检测手写汉字区域的方法
CN114359889A (zh) * 2022-03-14 2022-04-15 北京智源人工智能研究院 一种长文本资料的文本识别方法
CN114898171B (zh) * 2022-04-07 2023-09-22 中国科学院光电技术研究所 一种适用于嵌入式平台的实时目标检测方法
CN114898171A (zh) * 2022-04-07 2022-08-12 中国科学院光电技术研究所 一种适用于嵌入式平台的实时目标检测方法
CN115080051A (zh) * 2022-05-31 2022-09-20 武汉大学 一种基于计算机视觉的gui代码自动生成方法
CN117048773A (zh) * 2023-08-01 2023-11-14 黄岛检验认证有限公司 自动追踪水尺补光双轴摄像头及水尺观测方法
CN117048773B (zh) * 2023-08-01 2024-09-10 黄岛检验认证有限公司 自动追踪水尺补光双轴摄像头及水尺观测方法

Similar Documents

Publication Publication Date Title
CN108764228A (zh) 一种图像中文字目标检测方法
CN108876780B (zh) 一种复杂背景下桥梁裂缝图像裂缝检测方法
Xu et al. Scale-aware feature pyramid architecture for marine object detection
CN109784203B (zh) 基于分层传播和激活的弱监督x光图像违禁品检查方法
CN103049763B (zh) 一种基于上下文约束的目标识别方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN110046572A (zh) 一种基于深度学习的地标建筑物识别与检测方法
CN109583425A (zh) 一种基于深度学习的遥感图像船只集成识别方法
CN108830188A (zh) 基于深度学习的车辆检测方法
CN111275688A (zh) 基于注意力机制的上下文特征融合筛选的小目标检测方法
CN111091105A (zh) 基于新的边框回归损失函数的遥感图像目标检测方法
CN109977918A (zh) 一种基于无监督域适应的目标检测定位优化方法
CN110097568A (zh) 一种基于时空双分支网络的视频对象检测与分割方法
CN111079602A (zh) 基于多尺度区域特征约束的车辆细粒度识别方法及装置
CN110097044A (zh) 基于深度学习的一阶段车牌检测识别方法
CN108182454A (zh) 安检识别系统及其控制方法
CN107134144A (zh) 一种用于交通监控的车辆检测方法
CN107871119A (zh) 一种基于目标空间知识和两阶段预测学习的目标检测方法
CN107729801A (zh) 一种基于多任务深度卷积神经网络的车辆颜色识别系统
CN109753949B (zh) 一种基于深度学习的多视窗交通标志检测方法
CN107945153A (zh) 一种基于深度学习的路面裂缝检测方法
CN106682696A (zh) 基于在线示例分类器精化的多示例检测网络及其训练方法
CN112560675B (zh) Yolo与旋转-融合策略相结合的鸟类视觉目标检测方法
CN105005794A (zh) 融合多粒度上下文信息的图像像素语义标注方法
Yin et al. G2Grad-CAMRL: an object detection and interpretation model based on gradient-weighted class activation mapping and reinforcement learning in remote sensing images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181106