CN108764228A

CN108764228A - 一种图像中文字目标检测方法

Info

Publication number: CN108764228A
Application number: CN201810520329.9A
Authority: CN
Inventors: 吕岳; 吕淑静; 张茹玉
Original assignee: Jiaxing San Suo Intelligent Technology Co Ltd
Current assignee: Jiaxing San Suo Intelligent Technology Co Ltd
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2018-11-06

Abstract

本发明提供一种图像中的文字目标检测方法，属于模式识别、图像处理技术领域。它包括以下步骤：步骤1：构建一个端到端的基于特征层融合的卷积神经网络，用于预测图像中不同尺度的目标；步骤2：根据特征层融合网络输出的候选框，使用边界框融合算法获取最终的图像中的文字目标检测结果。本发明的图像目标检测方法是从自然场景图像中提取出文字目标的位置区域，提高后续的目标识别的效率和准确率。提出了使用基于深度学习的特征层融合的神经网络预测目标的边界框，并使用边界框融合算法对预测的边界框进行融合，能有效的检测出图像文字目标的位置区域。

Description

一种图像中文字目标检测方法

技术领域

本发明属于模式识别、图像处理技术领域，特别涉及是一种图像中文字目标检测的方法。

背景技术

随着互联网和多媒体技术的发展，越来越多的信息载体以图像的形式存在。图像中包含着丰富的视觉信息：文字、颜色、形状、图案、位置等等，这些信息能够帮助人类来分析场景的含义。目前基于图像的文字目标检测的技术已经在车牌识别、交通标志分析等方面有着广泛的应用。但是因拍摄图像的随意性，图像中的文字因形变、残缺、模糊断裂等客观因素，会对文字区域的检测产生干扰。此外，场景图像中一般背景比较复杂，文字和背景可能存在相似的纹理，这会增加文字目标检测的难度。传统的文字目标检测方法需要对文字目标进行特征选择，并使用大量的启发式规则来获取文字的位置，效果不明显。

发明内容

本发明的目的是提供一种基于深度学习的图像中文字目标检测方法，来解决图像中的文字目标定位问题，本发明经过神经网络来预测文字目标对象的位置和置信度，然后通过候选框聚集算法，融合输出的所有候选框，得到图像目标最终的边界框，即图像目标检测结果。

本发明解决其技术问题所采用的技术方案是：

一种基于特征融合网络和边界框融合算法相结合的图像文字目标检测方法，该方法包括如下步骤：

首先，设计一个端到端的卷积神经网络，并且有多个输出层，多个输出层都有强表达能力。网络不同的输出层可以预测不同尺度的目标对象，其中，高层的输出层预测大尺度的目标对象，低输出层预测小尺度的目标对象。网络的输出层输出目标对象的位置和置信度，得到一系列的候选边界框。

然后对神经网络输出的候选文本框进行后处理，通过融合多个候选边界框，得到目标对象的最佳检测位置。

进一步的，构建一个基于特征层融合的卷积神经网络，用于检测文字目标的位置，包括以下步骤：

(1)构建一个前向传播的卷积神经网络，即前置网络是VGG-16，其中，最后两层全连接层替换为卷积层，在前置网络结构之后，添加了额外的卷积层和池化层。

(2)在最高特征层与其他特征层之间分别加入反卷积层，反卷积层中的反卷积操作类似于双线性差值，可以有选择地对特征图进行放大，使得最高层特征层中的特征图尺度变为与低层尺度一样大小。反卷积层输出的特征图大小的计算公式为：

其中，i表示反卷积层输入特征图的大小，k表示卷积核的尺寸，s表示步长大小，p表示填充边距。根据特征层输入特征图和输出特征图的大小，高层的特征层通过反卷积层设置相应的参数，便可得到与低层一样大小的特征图。

(3)将反卷积后特征图与低层特征层的特征图使用元素点积方式进行融合，得到新的特征层。新的特征层作为输出层，用于输出目标对象的位置和置信度，其中，两个特征图的元素点积操作，等同于两个矩阵点积操作，两个矩阵对应元素相乘：

(4)在输出层上定义一系列固定大小的默认框，定义一系列固定大小的默认框，输出层输出文本的置信度和相对于默认框的偏移坐标。假设图像和特征图的大小分别是(w_im,h_im)和 (w_map,h_map)，在特征图中(i,j)位置对应一个默认框b₀＝(x₀,y₀,w₀,h₀),输出层的输出为(Δx,Δy, Δw,Δh,c)，其中，(Δx,Δy,Δw,Δh)表示预测文本边界框相对于默认框的偏移坐标，c表示文本的置信度。预测的文本边界框为b＝(x,y,w,h)，其中：

x＝x₀+w₀△x

y＝y₀+h₀△y

w＝w₀+exp△x

h＝h₀+exp△y

x，y表示预测的文本框的左上角的横纵坐标，w，h为文本框的宽和高。

对于特征层融合神经网络，设置采用策略为神经网络选择正负样本，具体步骤包括：

(1)在每个输出层的特征图上采用滑动窗口的模式生成默认框，N×N大小的特征图有 N×N个特征点，根据目标对象的横纵比，每个特征点对应六种不同横纵比的默认框：

a_r＝{a₁,a₂,a₃,a₄,a₅,a₆}

(2)建立图像中目标对象的真实标签框(ground truth)和默认框之间的关系，并对默认框进行标注。使用jaccard重叠率作为匹配指标对默认框进行标注，jaccard重叠率越高表明样本相似度越高，两个样本越匹配。给定默认框A和真实标签框B，默认框与真实标签框的 jaccard重叠率表示A与B的交集面积与并集面积的比值：

将jaccard重叠率大于或等于0.5的默认框作为匹配的默认框，jaccard重叠率小于0.5的默认框作为不匹配的默认框。其中，匹配的默认框作为正样本，不匹配的默认框作为负样本。

(3)样本标注后，将默认框中的负样本通过置信度损失进行排序，选择置信度损失值较高的默认框作为网络训练的负样本，使训练的正负样本的比例保持在1:3。

对于特征层融合网络，设置特征层融合网络的目标函数，具体步骤包括：

(1)设置目标损失函数为定位损失与置信度损失的加权和：

其中，x表示匹配结果矩阵，c表示置信度，l表示预测位置，g表示目标的真实位置，N表示默认框匹配真实标签框的个数；其中，权重系数α设置为1；

(2)设置定位损失为L_loc为目标的预测位置和真实位置的L2损失，设置置信度损失L_conf位二分类的softmax损失：

对于特征融合网络，多个输出层预测不同尺度的目标对象边界框，设置每个输出层输出目标边界框的尺度，具体步骤包括：

(1)选择最高层特征层以及最高层特征层与其他特征层融合形成的特征层作为网络的输出层。

(2)设置每个输出层中默认框的大小，输出层输出目标边界框相对于默认框的偏移坐标和置信度，得到候选的目标边界框。假设网络中有m个输出层，每个输出层对应一个特征图，每个特征图中默认框的尺度为：

每个默认框的宽度和高度分别为：

其中，S_min，S_max分别表示最低层和最高层的默认框的尺度，低层输出层预测小尺度的目标对象，高层输出层预测大尺度的目标对象。输出层的默认框在不同的特征图上有着不同的尺度，在同一个特征图又有着不同的横纵比，相应的，整个网络可以通过多个输出层预测不同尺度和不同形状的目标对象。

进一步，对特征层融合网络输出的多个候选目标边界框使用边界框融合算法进行后处理，得到图像目标的最终位置，边界框融合算法的具体步骤包括：

(1)将目标的候选边界框按照置信度的值从高到低排序，选取第一个候选边界框作为当前融合的边界框；

(2)将其他候选边界框作为被融合的边界框，比较当前融合边界框与被融合边界的置信度若两个文本框的置信度均大于阈值α，则计算当前融合边界框与被融合边界框的面积交叠率，否则，执行步骤(3)。其中，面积交叠率指的是两个边界框的重叠面积占两个边界框并集面积的比例：

其中，area(C)和area(G)分别为文本框C和文本框G的面积：

(3)如果两个候选边界框的面积交叠率高于等于阈值β，融合两个边界框，融合后的边界框为两个边界框的外界矩形框，置信度为融合边界框的置信度。

(4)如果两个候选边界框的面积交叠率小于阈值β，计算两个边界框的包含重叠率，如果两个边界框的包含重叠率大于阈值γ，移除该边界框，否则，执行步骤(5)。其中，包含重叠率指的是两个边界框的重叠面积占另一个边界框面积的比例：

其中，area(t_i)表示矩形框t_i的面积，area(t_i)表示矩形框t_j的面积。I_i(t_i,t_j)表示矩形框t_i相对于矩形框t_i的包含重叠率。

(5)如果只剩最后一个文本框，算法结束，选择置信度高于阈值δ的文本框作为最终目标检测结果，否则，更新图像目标的候选边界框，按照之前排列好的顺序，取下一个未被融合的边界框作为融合文本框，执行步骤(2)。

特征融合网络输出目标的候选边界框，边界框融合算法对候选边界框进行处理，最终得到图像目标的检测结果。

本发明和现有技术相比，具有以下优点和效果：本发明提出的图像目标检测方法是从自然场景中定位出目标对象的位置区域。该方法利用单个神经网络中的多个输出层直接预测目标对象的位置区域，识别效率高，同时只有一个后处理算法用于融合所有的候选边界框，得到最终的图像目标的检测结果。

附图说明

图1是本发明技术方案涉及的图像中文字目标检测方法的流程图。

图2是本发明技术方案涉及的特征层融合网络的网络结构图。

图3是本发明技术方案涉及的特征层融合网络的输出层。

图4是本发明技术方案涉及的特征层融合网络采样方式。

图5是本发明技术方案涉及的使用特征层融合网络输出的文本目标的候选边界框。

图6是本发明技术方案涉及的边界框融合算法的算法流程图。

图7是本发明技术方案涉及的使用边界框融合算法处理后的检测结果图。

具体实施方式

下面结合附图并通过实施例对本发明作进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

本发明采用特征层融合网络与边界框融合算法相结合的方法对文字目标进行检测，主要分为两个步骤，分别为：(1)使用特征层融合网络预测图像目标的位置区域，获取文字目标的候选边界框；(2)使用边界框融合算法获取最终检测结果。如图1所示为本发明文字目标检测的流程图。

随着互联网和多媒体技术的发展，越来越多的信息载体以图像的形式存在，图像目标检测在现实生活中存在着广泛的应用。传统的文本检测算法需要大量的启发式规则筛选出文本区域，效果并不明显，本发明专利基于深度学习的方法构建一个端到端的特征层融合网络，能直接预测图像中文字目标的位置和置信度。

构建一个基于特征层融合的神经网络，图2显示了特征层融合网络的网络结构。随着网络的深度，特征层中的特征图尺度逐渐变小，特征图的表达能力也越来越强，将高层特征层与低层特征层进行融合组合成新特征层作为输出层，能增强输出层的表达能力。如图3所示，特征融合网络在整体结构上有两种连接方式，一种是自底向上的连接方式，一种是自顶向下的连接方式，如图3。自底向上是网络的前向传播过程，特征图的大小经过卷积层和池化层后会逐渐变小，整个网络在层次结构上是金字塔结构。自顶向下的连接采用反卷积，将网络高层的特征融合至低层特征层，构建新的输出层。如图3所示，特征融合网络的输出层为A、B’、C’、D’，其中，特征层A、B融合形成新的特征层B’，特征层A、C融合形成新的特征层C’，特征层A、D融合形成新的特征层D’，由于特征层A为最高层特征层，仍作为网络的输出层。

特征层融合网络的构建步骤如下：

步骤(1)：构建一个前向传播的卷积神经网络的基础上，其中，最后两层全连接层替换为卷积层，前置网络是VGG-16，在前置网络结构之后，添加额外的卷积层和池化层。

步骤(2)：在前向传播网络的基础上，将最高层特征层与其他特征层之间分别加入反卷积层，使反卷积后的特征图尺度与低层特征层中特征图的尺度保持一致。反卷积层中的反卷积操作类似于双线性差值，可以有选择地对特征图进行放大，使得最高层特征层中的特征图尺度变为与低层尺度一样大小。反卷积层输出的特征图大小的计算公式为：

步骤(3)：将反卷积后特征图与低层特征层的特征图使用元素点积方式进行融合，得到新的特征层。新的特征层作为输出层，用于输出目标对象的位置和置信度，其中，两个特征图的元素点积操作，等同于两个矩阵点积操作，两个矩阵对应元素相乘：

步骤(4)：在输出层上定义一系列固定大小的默认框，定义一系列固定大小的默认框，输出层输出文本的置信度和相对于默认框的偏移坐标。假设图像和特征图的大小分别是(w_im, h_im)和(w_map,h_map)，在特征图中(i,j)位置对应一个默认框b₀＝(x₀,y₀,w₀,h₀),输出层的输出为 (Δx,Δy,Δw,Δh,c)，其中，(Δx,Δy,Δw,Δh)表示预测文本边界框相对于默认框的偏移坐标，c 表示文本的置信度。预测的文本边界框为b＝(x,y,w,h)，其中：

x＝x₀+w₀△x

y＝y₀+h₀△y

w＝w₀+exp△x

h＝h₀+exp△y

为特征层融合网络设置采样策略，获取正负样本，需要在输出层的特征图上定义，默认框，并建立图像中目标对象的真实标签框和默认框之间的关系，选择正负样本。具体包括以下步骤：

步骤(1)：在每个输出层的特征图上采用滑动窗口的模式生成默认框，N×N大小的特征图有N×N个特征点，根据目标对象的横纵比，每个特征点六种横纵比的默认框：

a_r＝{a₁,a₂,a₃,a₄,a₅,a₆}

步骤(2)：建立图像中目标对象的真实标签框(ground truth)和默认框之间的关系，并对默认框进行标注。使用jaccard重叠率作为匹配指标对默认框进行标注，jaccard重叠率越高表明样本相似度越高，两个样本越匹配。给定默认框A和真实标签框B，默认框与真实标签框的jaccard重叠率表示A与B的交集面积与并集面积的比值：

检测图像中的文本目标，为特征融合网络选择正负样本，需要建立图像真实标签框和默认框之间的关系，如图4。图4(a)中文本目标“Marlboro”的真实标签框为图中的上方的实线框，文本“LIGHTS”的真实标签框为图中的下方的实线框。图4(b)和图4(c)的虚线框分别表示8×8大小的特征图和4×4大小的特征图上的默认框。其中，匹配文本“LIGHTS”有两个虚线框，匹配文本“Marlboro”有一个虚线框，标注匹配的默认框作为正样本，不匹配的默认框作为负样本。

步骤(3)：样本标注后，将默认框中的负样本通过置信度损失进行排序，选择置信度损失值较高的默认框作为网络训练的负样本，使训练的正负样本的比例保持在1:3。

对于特征层融合网络。设置特征层融合网络的目标函数，具体包括以下步骤：

(1)：设置目标损失函数为定位损失与置信度损失的加权和：

(2)：设置定位损失为L_loc为目标的预测位置和真实位置的L2损失，设置置信度损失 L_conf位二分类的softmax损失：

由于网络中不同的输出层对应的特征图尺度不一样，不同的输出层对预测的目标尺度不一样，高层的输出层预测大尺度的目标对象，低层的输出层预测小尺度的目标对象。设置特征层融合网络输出层输出目标边界框的尺度，特征融合网络的的候选边界框如图5所示，具体包括以下步骤：

(2)网络中不同的输出层对应的特征图尺度不一样，假设网络中有m个输出层，每个输出层对应一个特征图，每个特征图中默认框的尺度为：

每个默认框的宽度和高度分别为：

其中，S_min，S_max分别表示最低层和最高层的默认框的尺度，低层输出层预测小尺度的目标对象，高层输出层预测大尺度的目标对象。输出层的默认框在不同的特征图上有着不同的尺度，在同一个特征图又有着不同的横纵比，相应的，整个网络可以通过多个输出层预测不同尺度和不同形状的文本。

特征层融合网络利用多个输出层直接预测目标对象的边界框，每个边界框都会得到一个置信度得分。输出层预测出的边界框会存在相互重叠的情况，使用边界框融合算法可以选取邻域范围内置信度较高的边界框，并融合相互重叠的候选边界框，取得最优的目标检测位置，具体包括以下步骤：

(1)将文字目标的候选边界框按照置信度的值从高到低排序，选取第一个候选边界框作为当前融合的边界框；

其中，area(C)和area(G)分别为文本框C和文本框G的面积：

使用上述边界框融合算法对两个边界框融合，算法的流程图如图6所示，其中，IOU(t_i, t_j)表示边界框t_i和t_j的IOU交叠率，Fusion(t_i,t_j)表示边界框t_i和t_j合并后的边界框，为两个边界框的外接矩形框；I_i(t_i,t_j)和I_j(t_i,t_j)分别表示边界框t_i和t_j的包含重叠率。边界框融合算法包含三个阈值，分别为：置信度阈值α、IOU交叠率阈值β、包含重叠率阈值γ。置信度阈值决定两个边界框是否融合，当两个边界框的置信度都高于α时，两个边界框进行融合。

使用边界框融合算法得到的最后文本目标检测结果，如图7所示。边界框融合算法利用了邻域候选边界框的位置关系和置信度，对候选边界框进行融合，得到最终的图像目标检测结果。本说明书中所描述的以上内容仅仅是对本发明所作的举例说明。

本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明说明书的内容或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种图像中文字目标检测方法，其特征在于，包括以下步骤：

步骤一：构建一个端到端的基于特征层融合的卷积神经网络，用于预测图像中不同尺度的文字目标；

步骤二：根据特征层融合网络输出的候选框，使用边界框融合算法获取最终的图像文字目标检测结果。

2.根据权利要求1所述的一种图像中文字目标检测方法，其特征在于，构建一个端到端的基于特征层融合的卷积神经网络，用于检测图像中的文字目标的位置，具体包括以下步骤：

(1)构建一个前向传播的卷积神经网络，前置网络是VGG-16，其中，最后两层全连接层替换为卷积层，在前置网络结构之后，添加了额外的卷积层和池化层；

(2)在前向传播网络的基础上，将最高层的特征层与其他特征层之间分别加入反卷积层，使反卷积后的特征图尺度与低层特征层中特征图的尺度保持一致；

(3)将反卷积后特征图与低层特征层的特征图使用元素点积方式进行融合，得到新的特征层，新的特征层作为输出层，用于输出目标对象的位置和置信度；

(4)在输出层上定义一系列固定大小的默认框，定义输出层输出文本的置信度和相对于默认框的偏移坐标。

3.根据权利要求2所述的一种图像中文字目标检测方法，其特征在于，基于特征层融合的卷积神经网络，设置特征层融合网络输出层输出目标边界框的尺度，具体包括：

(1)选择最高层特征层以及最高层特征层与其他特征层融合形成的特征层作为网络的输出层；

(2)设置每个输出层中默认框的大小，输出层输出目标边界框相对于默认框的偏移坐标和置信度，得到候选的目标边界框，设置低层输出层预测小尺度的目标对象，高层输出层预测大尺度的文字目标对象。

4.根据权利要求1所述的一种图像中文字目标检测方法，其特征在于，特征层融合网络输出的候选边界框，使用边界框融合算法获取文字目标的最终位置，具体包括以下步骤：

(2)将其他候选边界框作为被融合的边界框，比较当前融合边界框与被融合边界的置信度若两个文本框的置信度均大于阈值α，则计算当前融合边界框与被融合边界框的面积交叠率，否则，执行步骤(3)；

(3)如果两个候选边界框的面积交叠率高于等于阈值β，融合两个边界框，融合后的边界框为两个边界框的外界矩形框，置信度为融合边界框的置信度；

(4)如果两个候选边界框的面积交叠率小于阈值β，计算两个边界框的包含重叠率，如果两个边界框的包含重叠率大于阈值γ，移除该边界框，否则，执行步骤(5)；

(5)如果只剩最后一个文本框，算法结束，选择置信度高于阈值δ的文本框作为最终目标检测结果；

否则，更新文字目标的候选边界框，按照之前排列好的顺序，取下一个未被融合的边界框作为融合文本框，执行步骤(2)。