CN117115824A

CN117115824A - 一种基于笔划区域分割策略的视觉文本检测方法

Info

Publication number: CN117115824A
Application number: CN202310617471.6A
Authority: CN
Inventors: 袁春; 李磊
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-11-24

Abstract

一种基于笔划区域分割策略的视觉文本检测方法，包括如下步骤：S1、通过基于卷积神经网络的前端处理模块，针对输入的文本图像执行特征提取和多级区域预测；S2、依据文本区域的多级预测结果提取文本级和笔划级的区域候选框，进而构建层次化的局部图结构；S3、通过基于图神经网络的后端处理模块，在各个局部图执行基于多级图节点的节点特征聚合和关系推理，推断不同级别图节点之间的关系并进行链接预测，将节点进行分组进而组成整体的文本实例检测结果。在视觉文本检测研究领域广泛采用的标准评估数据集上进行了实验，验证了本发明视觉文本检测方法的有效性、高精度和良好的泛化能力。

Description

一种基于笔划区域分割策略的视觉文本检测方法

技术领域

本发明涉及视觉文本检测技术，特别是涉及一种基于笔划区域分割策略的视觉文本检测方法。

背景技术

现实复杂场景中的视觉文本检测技术旨在从输入图像中为每个文本实例标记任意形状的封闭区域，该技术已被广泛应用于多媒体信号处理领域的相关任务，包括图像文本编辑、光学字符识别(OCR)以及图像文本翻译。随着卷积神经网络(CNNs)模型的蓬勃发展，当前主流的文本检测器主要是从计算机视觉领域中的目标检测或目标分割框架扩展而来的，主要包括基于回归的文本检测方法和基于分割的文本检测方法。基于回归的文本检测方法通常基于通用的目标检测器，其通过预测锚盒或像素点的偏移量来定位文本框。虽然上述策略在一定程度上是有效的，但此类方法往往伴随复杂的锚盒配置策略和精细的后处理流程，这限制了它们表示任意形状文本的能力，并阻碍了其在现实场景中的大规模应用。基于分割的文本检测方法通常结合像素级预测和后处理步骤从分割预测得到的文本区域中提取文本实例。与基于回归的文本检测方法相比，基于分割的文本检测方法往往能够更加准确地定位任意形状的文本实例。然而，此类方法[4,12]通常需要耗时的后处理步骤，并且其难以有效辨别和分离出互相靠近的多个文本实例。

最近，该研究领域提出了一些混合的文本检测方法来结合上述两类方法的核心思想。混合文本检测方法通常先进行像素级的分割预测来搜索潜在的文本区域，并在此基础上采用边界框回归策略来指导最终的文本检测结果。在该研究分支中，DeepReg从文本区域的像素中预测出偏移量，以指导多方向的文本框回归预测。之后，一些工作尝试利用图神经网络(GNN)的强大功能，通过对文本区域进行建模和推理来提高文本检测性能。其中，GraphText引入了深度关系推理图网络作为文本检测框架中的后端网络模块。此外，StrokeNet首先预测每个文本区域的多级表示，然后执行基于层次化关系图网络模型的结构推理。

然而，传统的方法通常难以精确定位任意形状的文本实例，也难以有效辨别、分离出互相靠近的多个文本实例的情况。

需要说明的是，在上述背景技术部分公开的信息仅用于对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的主要目的在于克服上述背景技术的缺陷，提供一种基于笔划区域分割策略的高精度视觉文本检测方法。

为实现上述目的，本发明采用以下技术方案：

一种基于笔划区域分割策略的视觉文本检测方法，包括如下步骤：

S1、通过基于卷积神经网络的前端处理模块，针对输入的文本图像执行特征提取和多级区域预测；所述前端处理模块包括主干图像特征提取网络、文本区域预测网络和笔划区域预测网络，通过一系列堆叠在特征金字塔主干图像特征提取网络之上的卷积层来执行与文本区域相关的多级预测；

S2、依据文本区域的多级预测结果提取文本级和笔划级的区域候选框，各候选框所表示的图像区域作为图节点组成多个局部图结构，进而构建层次化的局部图结构；

S3、通过基于图神经网络的后端处理模块，在各个局部图执行基于多级图节点的节点特征聚合和关系推理，推断不同级别图节点之间的关系并进行链接预测，根据各个文本级节点之间的链接关系将节点进行分组进而组成整体的文本实例检测结果。

进一步地，步骤S1中，所述多级预测包括：得到每个文本实例对应的文本级矩形区域的分类置信度；每个文本实例内文本旋转角度、中心线位置等相关文本级属性的回归预测；以及每个文本区域的预测边界框内对应笔划级的字符分割预测。

进一步地，步骤S1中，所述依据文本区域的多级预测结果提取文本级和笔划级的区域候选框，包括：根据文本区域的多级预测结果提取对应的多级候选矩形框，只包含文本级或笔划级节点的局部图为同构图，而同时包含文本级和笔划级节点的局部图为异构图。

进一步地，步骤S1中，所述文本区域预测网络预测与文本实例区域相关的属性，其中包括：预测文本区域TR和文本中心区域TCR的分类概率预测，然后进行h₁、h₂、cosθ和sinθ的回归值预测，h₁和h₂分别表示当前像素到TR上边缘和TR下边缘的距离，文本实例高度尺度h是h₁和h₂之和，θ指示文本实例的方向信息；预测得到TR潜在区域的基础上估计TR对应的文本中心线；使用2个通道的特征输出来指导TR和TCR的分类概率预测；训练时，第一个特征通道用于预测背景，第二个通道用于预测前景即文本实例；测试时，取第二个特征通道的前景预测结果进行后续处理；其中，分别采用1个特征通道的输出来预测各个回归属性值。

进一步地，步骤S1中，所述笔划区域预测网络将各个文本区域中的字符内容与复杂背景分离，其中，结合图像低级语义和高级语义信息来生成文本区域中精细的笔划分割表示，以指导后续的文本检测过程；

优选地，所述笔划区域预测网络包括两个阶段的预测过程；

1)从主干网络获取到的输入图像的高级特征表示中提取与文本相关的特征；具体地，从输入图像中裁剪出TR的外部矩形OTR，并利用全局池化层结合连续的卷积层来提取从主干网络获取的OTR区域特征；利用若干池化层和多层感知器网络以及相关的非线性激活函数来计算输入图像的通道注意力特征图，以辨别和度量主干网络中的不同网络层对文本区域表示的相对贡献；在此期间，将提取到的输入特征图上采样到与输入图像相同的分辨率大小，然后将其乘以得到的通道注意力特征图从而实现对输入图像的语义信息蒸馏操作；由此，获得文本图像语义表示；

2)精细建模文本区域的笔划表示，通过从正交方向上引入正交卷积网络来增强细粒度的笔划字符分割表示；具体地，将文本区域外接矩形OTR的3通道RGB原始输入特征作为补充的低级图像语义信息，并将其与获得的文本图像语义表示相融合；优选地，引入卷积核大小为1×7和7×1的正交卷积层来计算沿空间方向的注意力系数，再将得到的注意力值乘以融合后的文本特征图。

进一步地，所述前端处理模块使用带有笔划级别分割图注释作为标签的数据集以及均方误差损失函数来预训练所述笔划区域预测网络。

进一步地，步骤S3中，先初始化节点特征及其连接结构，具体包括：

初始化节点特征：采用两种互补的特征表示，包括几何嵌入和内容嵌入，用于文本级和笔划级节点的特征初始化；对于几何嵌入，将预测的各个区域候选框的几何属性编码到高维空间中；对于内容嵌入，通过将针对各个区域候选框几何相关属性的预测特征图发送到RRoI-Align层来获取各个图节点的内容特征；将得到的两种特征嵌入连接起来形成最终的图节点特征表示；优选地，在生成局部图网络时通过减去中心节点的特征来归一化所有节点的初始特征表示；

邻接矩阵生成：各个局部图网络形成的拓扑结构被编码在邻接矩阵A∈R^N×N中，其中A(c，n)＝1，如果在局部图中的中心节点c和其每个邻居节点n之间存在连接；优选地，生成邻接矩阵的方法具体包括：

针对同构图，包括同构的笔划级图网络和文本级图网络的构造；对于仅包含笔划级图节点的同构笔划图，采用基于欧几里德距离的KNN最近邻算法，并选择每个中心节点的8个最近邻节点作为中心节点的1跳邻居节点从而形成邻接矩阵A_s；对于仅包含文本级图节点的同构文本图，采用的邻接矩阵构建方式与同构笔划图的区别在于同构文本图中各个中心节点只保留4个距其最近的直接邻居节点，以形成相应的矩阵A_t；

针对异构的文本图网络，同时包含文本和笔划两种级别的图节点；根据提取得到的各个区域候选框的中心位置之间的欧氏距离来构建此类型的图网络；具体地，每个文本级区域候选框都视为异构文本图的中心节点，采用该中心节点1跳和2跳邻域范围内的连接关系来生成异构图的邻接矩阵A_h；中心节点的1跳邻域包含4个距其最近的文本级图邻居节点，而其2跳邻域包含额外的4个距其最近的笔划级图邻居节点。

进一步地，步骤S3中，所述后端处理模块通过层次化的图神经网络推理模型，在生成的多个局部图网络中执行节点的关系推理和链接预测；其中，基于图神经网络的推理过程包括如下三个阶段：

首先，采用加权平均的方式来聚合和更新由注意力机制引导的笔划级节点特征；加权过程中的权重信息来自两部分，包括归一化后的邻接矩阵A_s和图注意力网络GAT中推导出的任意两个图节点v和u之间的注意系数α_v，u；第一阶段的加权聚合过程描述为：

其中，σ为激活函数，W为可训练的权重参数，s_k表示笔划级图节点k的特征；

是来自As，Fuse(·)表示特征线性组合函数；

如果笔划级图节点的中心落在文本级图节点的区域中，则将笔划级节点的更新表示合并到对应的文本级节点表示中；

第二阶段通过堆叠两个Transformer编码器模块来融合两级图节点的特征；具体地，引入的Transformer编码器通过捕捉笔划-笔划、笔划-文本以及文本-文本节点之间的注意力系数，来建模和推理异构图节点之间的层次化结构关系，表示为：

其中，表示t层的所有文本(t)节点特征和笔划(s)节点特征；Attention(·)为Transformer中的注意力计算操作，Q、K、V分别代表查询矩阵、键矩阵和值矩阵，W^Q(，K，V)为可训练的权重参数；

使用包含扩大邻域范围的图推理网络，对于每个文本级图节点，在所设计图网络的第一层聚合其仅包含文本邻居节点的1跳邻居节点的特征表示，随后在后续层聚合其同时包含文本邻居和笔划邻居节点的2跳邻居的信息；期间，采用动态图卷积来自适应调整异构图的网络结构，描述为：

P＝σ(M_t，s,A_t,s(G(H_t，s))W)

其中W是可训练的权重矩阵，G(·)表示图网络上传统的信息聚合过程，M_t，s和A_t，s分别表示引入的动态图网络中的跨层遮蔽矩阵和跨跳注意力矩阵；

优选地，跨层遮蔽矩阵M_t，s进一步划分为M′_s、M′_t和M′_t，s，分别表示笔划级图节点之间的自掩蔽矩阵、文本级图节点之间的自掩蔽矩阵，以及笔划级和文本级图节点之间的互掩蔽矩阵；笔划级别图节点的遮蔽结果最终基于M′_s和M′_t，s的线性组合和固定阈值的比较，而文本级别图节点的遮蔽结果最终基于M′_t和M′_t，s的线性组合和固定阈值的比较；

通过完成上述三个阶段，将最后一个图网络层的输出用于文本图节点之间链接关系的预测和文本实例边界框回归值的定位。

优选地，训练过程中采用图模型预测结果与对应真实类别标签之间的交叉熵损失来指导整个检测框架的学习过程。

优选地，根据图节点的分类和链接预测结果，文本级节点通过宽度优先搜索方法进行分组，并通过最小路径算法进行排序。

优选地，通过依次连接排序后的文本节点对应的候选框中顶部和底部的中点来获得任意形状文本实例的边界。

一种计算机可读存储介质，所述计算机程序由处理器执行时，实现所述的基于笔划区域分割策略的视觉文本检测方法。

本发明具有如下有益效果：

本发明提出一种基于笔划区域分割策略的视觉文本检测方法，能够有效实现高精度的视觉文本检测。首先，通过引入轻量级的笔划分割预测网络，作为对当前主流文本检测器仅能实现文本区域预测的有效补充，从而实现检测模型对于文本区域的多级(文本级、笔划级)表示。期间，可引入一个视觉图像数据集(SceneText)，其每个图像样本中的文本实例都标注有笔划级别的分割标签，即二值化笔划字符分割图。该数据集将通过预训练检测框架中基于卷积神经网络的前端处理模块来提升检测框架对于文本区域多级表示的预测准确性。同时，通过引入图神经网络模型，作为所构建的文本检测框架中的后端处理模块，能够有效针对前端处理模块预测得到的文本区域的各个部分执行特征聚合和关系推理，使得改进后的图模型可以更好地适应文本检测任务场景。本发明的检测方法在视觉文本检测研究领域广泛采用的标准评估数据集上进行了实验，验证了本发明方法的有效性、高精度和良好的泛化能力。

附图说明

图1为本发明实施例的文本检测框架及其处理流程图。

图2为本发明实施例中的(a)原始图像；(b)文本区域(TR)相关属性预测；(c)TR对应的外部矩形(OTR)。

图3为本发明实施例的笔划区域预测网络的网络结构示意图。

图4为本发明实施例的采用引入的SceneText文本图像数据集以及均方误差损失函数来预训练所提出的笔划区域预测网络，之后将训练好的笔划预测网络用于在线预测真实场景中文本图像的笔划表示。

图5为本发明实施例的文本检测结果可视化；图中，第一列(a)、第二列(b)和第三列(c)分别表示输入图像、所提方法预测得到的笔划分割和最终的文本检测结果。

图6为本发明实施例指导OCR翻译(中文到英语和英语到法语)任务的示例,其中包括：输入图像(a)、预测的笔划分割(b)、文本检测结果(c)和翻译后的图像(d)。

图7使用本发明实施例中的前端处理模块进行OCR翻译任务的整体处理流程。

具体实施方式

以下对本发明的实施方式做详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外，连接既可以是用于固定作用也可以是用于耦合或连通作用。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以往的检测方法中，基于卷积神经网络的前端处理模块对文本区域的预测精度有限，这极大地限制了基于图神经网络的后端处理模块推理和生成最终文本检测结果的能力。此外，未经引入有效的优化策略而将经典的图神经网络或其变体模型直接迁移到文本检测领域，这使得这些方法中所构建的图网络模块难以无缝地兼容文本检测相关任务。上述缺陷在一定程度上限制了图模型在视觉文本检测相关领域的应用潜力。

参阅图1，本发明实施例提供一种基于笔划区域分割策略的视觉文本检测方法，包括如下步骤：

本发明提出一种基于笔划区域分割策略的视觉文本检测方法，能够有效实现高精度的视觉文本检测。首先，通过引入轻量级的笔划分割预测网络，作为对当前主流文本检测器仅能实现文本区域预测的有效补充，从而实现检测模型对于文本区域的多级(文本级、笔划级)表示。同时，通过引入图神经网络模型，作为所构建的文本检测框架中的后端处理模块，能够有效针对前端处理模块预测得到的文本区域的各个部分执行特征聚合和关系推理，使得改进后的图模型可以更好地适应文本检测任务场景。本发明的检测方法在视觉文本检测研究领域广泛采用的标准评估数据集上进行了实验，验证了本发明方法的有效性、高精度和良好的泛化能力。

期间，可引入一个视觉图像数据集(SceneText)，其每个图像样本中的文本实例都标注有笔划级别的分割标签，即二值化笔划字符分割图。该数据集将通过预训练检测框架中基于卷积神经网络的前端处理模块来提升检测框架对于文本区域多级表示的预测准确性。

以下进一步描述本发明具体实施例。

(1)检测框架概述

本发明所提技术框架的处理流程如图1所示，它由两个主要的网络模块组成，包括基于卷积神经网络的前端处理模块和基于图神经网络的后端处理模块。图1示出本发明所提文本检测框架的技术细节及其处理流程。

首先，本发明采用基于卷积神经网络的文本区域检测器，其作为前端处理模块针对每个输入的文本图像执行特征提取和多级区域预测。具体地，所采用的前端处理模块应用一系列堆叠在特征金字塔主干图像特征提取网络之上的卷积层来执行与文本区域相关的多级预测，包括：1.每个文本实例对应的文本级矩形区域(bounding-box-level)的分类置信度，2.每个文本实例内文本旋转角度、中心线位置等相关文本级属性的回归预测，以及3.每个文本区域的预测边界框内对应笔划级的字符分割预测。本发明使用引入的SceneText数据集来预训练前端处理模块。

之后，根据文本区域的多级预测结果提取对应的多级候选矩形框，其中每个候选矩形框所表示的图像区域被视为一个图节点，而产生的所有图节点将组成多个局部图结构。具体地，只包含文本级(笔划级)节点的局部图网络称为同构的文本(笔划)图，而同时包含文本级和笔划级节点的局部图网络称为异构的文本图。在此基础上，本发明提出了基于图神经网络的后端处理模块来在各个局部图执行基于多级图节点的特征聚合和关系推理。所提出的模块将推断文本级图节点之间存在边链接的可能性，最终根据各个文本级节点之间的链接关系将节点进行分组进而组成整体的文本实例检测结果。训练过程中采用图模型预测结果与对应真实类别标签之间的交叉熵损失来指导整个检测框架的学习过程。

(2)前端处理模块

文本区域预测网络：由于从主干特征提取网络中提取的输入图像相关特征保留了其空间分辨率并包含了丰富的图像语义信息，因此本发明方法进一步应用一系列堆叠在主干网络之上的卷积层来预测与文本实例区域相关的属性。具体地，本阶段需要预测文本区域(用TR表示)和文本中心区域(用TCR表示)的分类概率预测，然后是h₁、h₂、cosθ和sinθ的回归值预测。TR代表文本实例所在的区域。本发明方法在预测得到TR潜在区域的基础上估计TR对应的文本中心线，并将中心线的两端缩减0.5个文本实例宽度尺度的末端像素，之后进一步将中心线区域扩大0.3个文本实例高度尺度范围，得到最终的文本中心线(TCR)。本发明网络使用2个通道的特征输出来指导TR和TCR的分类概率预测，并且它们都经过Softmax归一化层和阈值判定操作等后续处理以获得最终的预测结果。具体地，在训练过程中，第一个特征通道用于预测背景，第二个通道用于预测前景(即文本实例)。测试时，本发明直接取第二个特征通道的前景预测结果进行后续处理。此外，h₁和h₂分别表示当前像素到TR上边缘和TR下边缘的距离，而上面提到的文本实例高度尺度h是h₁和h₂之和，而θ用来指示文本实例的方向信息。本发明分别采用1个特征通道的输出来预测各个回归属性值。相关属性的表示如图2所示。图2中，(a)原始图像；(b)文本区域(TR)相关属性预测；(c)TR对应的外部矩形(OTR)。

笔划区域预测网络：在实现文本区域预测的基础上，本发明进一步探索更加细粒度的文本笔划表示，从而实现将各个文本区域中的字符内容与复杂背景分离。该预测过程可以分为两个阶段，如图3所示。

图3示出了笔划区域预测网络的网络结构。具体地，本发明结合图像低级语义和高级语义信息来生成文本区域中精细的笔划分割表示，并以此来指导后续的文本检测过程。

首先，本发明从主干网络获取到的输入图像的高级特征表示中提取与文本相关的特征。具体地，本发明方法从输入图像中裁剪出TR的外部矩形(用OTR表示)，并利用全局池化层结合连续的卷积层来提取从主干网络获取的OTR区域特征。本发明利用若干池化层和多层感知器网络以及相关的非线性激活函数来计算输入图像的通道注意力特征图，以辨别和度量主干网络中的不同网络层对文本区域表示的相对贡献。在此期间，本发明将提取到的输入特征图上采样到与输入图像相同的分辨率大小，然后将其乘以上述得到的通道注意力特征图从而实现对输入图像的语义信息蒸馏操作。该过程使本发明方法能够获得丰富的文本图像语义表示，包括文本的颜色、纹理和边缘等信息。

其次，本发明引入了笔划增强运算符以精细地建模文本区域的笔划表示。考虑到各个文本实例中的笔划内容可以被理解为由一系列边缘所包围组成的封闭区域，受到现有边缘检测相关方法的启发，本发明方法通过从正交方向上引入正交卷积网络来有效增强细粒度的笔划字符分割表示。具体地，本发明方法将文本区域外接矩形(OTR)的3通道RGB原始输入特征作为补充的低级图像语义信息，并将其与先前获得的语义丰富的文本表示进行融合。在此期间，本发明方法进一步引入卷积核大小为1×7和7×1的正交卷积层来计算沿空间方向的注意力系数，之后将得到的注意力值乘以融合后的文本特征图以抑制噪声和其他背景等无关信息的干扰。该过程有助于增强文本区域笔划级别的表示，使模型能够有效地生成更细粒度且包含复杂纹理细节的笔划内容。

(3)引入的SceneText数据集

本发明实施例还引入了一个带有笔划级别分割图注释作为标签的新型文本数据集，即SceneText，用于预训练本发明所提出的基于卷积神经网络的前端处理模块(如图4所示)。SceneText数据集包含约200K数量的文本图像，其也是一个包含英文、中文、日文等多种文本语言的图像数据集。

图4示出本发明方法采用引入的SceneText文本图像数据集以及均方误差损失函数来预训练所提出的笔划区域预测网络，之后将训练好的笔划预测网络用于在线预测真实场景中文本图像的笔划表示。

(4)后端处理模块

本发明方法通过在预测得到的各个文本区域内提取多级(文本级、笔划级)区域候选框并将每个候选框视为一个图节点来构建多个局部图结构网络。对于基于上述方法获得的文本级节点和笔画级节点，之后按照以下方法初始化节点特征及其连接结构。

节点特征初始化：本发明所提方法采用两种互补的特征表示，包括几何嵌入和内容嵌入，用于文本级和笔划级节点的特征初始化。对于几何嵌入，本发明方法应用三角函数将预测的几何属性(包括每个区域候选框的中心点坐标、宽度、高度和旋转角度)编码到高维空间中。对于内容嵌入，本发明方法通过将针对各个区域候选框几何相关属性的预测特征图发送到RRoI-Align层来获取各个图节点的内容特征。通过上述方式，网络将获取得到的两种特征嵌入连接起来形成最终的图节点特征表示。值得注意的是，本发明方法在生成局部图网络时通过减去中心节点的特征来归一化所有节点的初始特征表示。

邻接矩阵生成：各个局部图网络形成的拓扑结构被编码在邻接矩阵A∈R^N×N中，其中A(c,n)＝1如果在局部图中的中心节点c和其每个邻居节点n之间存在连接。随后，本发明探索了两种生成邻接矩阵的方法，并且在构建的邻接结构中应用不同的信息聚合函数来验证它们对文本检测性能的影响。

第一类是同构图，包括同构的笔划级图网络和文本级图网络的构造。对于仅包含笔划级图节点的同构笔划图，本发明采用基于欧几里德距离的KNN最近邻算法，并选择每个中心节点的8个最近邻节点作为中心节点的直接(1跳)邻居节点从而形成邻接矩阵A_s。对于仅包含文本级图节点的同构文本图，本发明采用与上述(同构笔划图)相同的邻接矩阵构建方式，而区别在于同构文本图中各个中心节点只保留4个距其最近的直接邻居节点，以形成相应的矩阵A_t。

第二种类型针对异构的文本图网络，其同时包含文本和笔划两种级别的图节点。本发明根据提取得到的各个区域候选框的中心位置之间的欧氏距离来构建此类型的图网络。具体地，每个文本级区域候选框都被视为异构文本图的中心节点，这里采用该中心节点1跳和2跳邻域范围内的连接关系来生成异构图的邻接矩阵A_h。在本发明的设置中，中心节点的1跳邻域包含4个距其最近的文本级图邻居节点，而它的2跳邻域包含额外的4个距其最近的笔划级图邻居节点。这样设置的优势在于：有限数量的邻居有助于有效地关系推理以及高效地特征学习，而引入的高阶邻居节点(2跳邻域)能够提供图中局部结构之外的辅助信息。

图推理：基于上述处理，本发明方法同时考虑了文本级和笔划级的图节点，并进一步引入了层次化的图神经网络推理模型，从而实现在生成的多个局部图网络中执行节点的关系推理和链接预测。基于图神经网络的推理过程可以被细分为三个阶段。

首先，本发明方法采用加权平均的方式来聚合和更新由注意力机制引导的笔划级节点特征。加权过程中的权重信息来自两部分，包括归一化后的邻接矩阵A_s和图注意力网络(GAT)中推导出的任意两个图节点v和u之间的注意系数α_v，u。按照这种方式，第一阶段的加权聚合过程可以描述为：

其中，σ为激活函数，W为可训练的权重参数，s_k表示笔划级图节点k的特征。

此外，

这里来自As，Fuse(·)表示特征线性组合函数。

之后，如果前者(笔划级图节点)的中心落在后者(文本级图节点)的区域中，则将笔划级节点的更新表示合并到对应的文本级节点表示中。此外，考虑到不同的笔划级图节点包含来自文本区域不同部分的信息，并且对相应的文本级图节点有着不同的贡献，因此上述笔划级节点的特征更新策略可以为之后的两级节点特征融合过程引入更具辨别力和表现力的笔划表示。因此，第二阶段通过堆叠两个Transformer编码器模块来融合两级图节点的特征。具体地，引入的Transformer编码器通过捕捉笔划-笔划、笔划-文本以及文本-文本节点之间的注意力系数，进而实现有效建模和推理异构图节点之间的层次化结构关系。该过程可以表示为：

其中，表示t层的所有文本(t)节点特征和笔划(s)节点特征。Attention(·)为Transformer中的注意力计算操作，Q、K、V分别代表查询矩阵、键矩阵和值矩阵，W^Q(，K，V)为可训练的权重参数。

在上述两阶段处理的基础上，本发明进一步提出了包含更大邻域范围的图推理网络。具体地，对于每个文本级图节点，本发明在所设计图网络的第一层聚合其1跳邻居节点(仅包含文本邻居节点)的特征表示，随后在后续层聚合其2跳邻居(同时包含文本邻居和笔划邻居节点)的信息。期间，本发明方法采用动态图卷积来自适应调整异构图的网络结构，该过程可以描述为：

P＝σ(M_t，s，A_t，s(G(H_t，s))W)

其中W是可训练的权重矩阵，G(·)表示图网络上传统的信息聚合过程，即每个中心节点的表征更新过程为其邻居节点特征的线性组合。此外，M_t，s和A_t，s分别表示引入的动态图网络中的跨层遮蔽矩阵和跨跳注意力矩阵。前者将聚合过程限制在整个图的动态子部分，有效地消除信息聚合过程中不相关的噪声节点并稳定训练过程；而后者通过在每一层捕获的感受野中对每个节点的重要性进行重新计算从而更加高效地执行特征聚合更新。

具体地，跨层遮蔽矩阵通过遮蔽一部分节点使其不参与当前层的信息聚合过程，减少噪声节点干扰的同时使得图上的信息聚合以及关系推理过程更具辨别力；跨跳注意力矩阵通过自适应地调整保留下来的各个节点(未被遮蔽)之间的连接关系，使得图上各个局部邻域内不同节点的特征更新过程更具表现力。值得注意的是，本发明方法中的跨层遮蔽矩阵M_t，s可以被进一步划分为M′_s、M′t_和M′_t，s，它们分别表示笔划级图节点之间的自掩蔽矩阵、文本级图节点之间的自掩蔽矩阵，以及笔划级和文本级图节点之间的互掩蔽矩阵。因此，笔划级别图节点的遮蔽结果最终基于M′_s和M′_t，s的线性组合和固定阈值的比较，而文本级别图节点的遮蔽结果最终基于M′_t和M′_t，s的线性组合和固定阈值的比较。

在完成上述三个阶段的基础上，本发明将最后一个图网络层的输出用于文本图节点之间链接关系的预测和文本实例边界框回归值的定位。

(5)检测框架推理过程概述

在所构建文本检测框架的推理过程中，其首先依据前端处理模块获得文本区域的多级预测结果并通过设置相对应的阈值以提取两个级别的区域候选框，进而构建层次化(包含文本级和笔划级)的局部图结构网络。在此基础上，其后端处理模块通过执行层次化的节点特征聚合和关系推理，推断出不同级别图节点之间的关系并进行链接预测。根据图节点的分类和链接预测结果，文本级节点通过宽度优先搜索方法进行分组，并通过最小路径算法进行排序。最后，通过依次连接排序后的文本节点对应的候选框中顶部和底部的中点来获得任意形状文本实例的边界。

实验测试及其效果

(1)评估数据集和实现细节

本发明针对所提方法在文本检测领域主流的评估数据集上进行实验验证，包括CTW-1500、Total-Text和ICDAR 2015。实验在配置了4个NVIDIA GeForce GTX 1080Ti GPU的服务器上进行，并基于Pytorch深度学习框架实现。所提方法中的主干特征提取网络在ImageNet数据集上进行了预训练。实验中采用数据增强策略，将输入图像调整为640*640，且每幅图像以0.5的概率随机翻转。训练过程中输入数据的批量大小设置为64，即每个GPU处理16个图像样本。所有评估实验都是在单一图像分辨率下进行的。

(2)实验结果

如表1所示，本发明所提方法在所有文本检测数据集上的评估结果都明显优于现有其他方法。此外，表中还列出了各个方法的文本检测速度(FPS)，以证明所提方法在准确性和速度之间取得了良好的平衡。首先，为了评估所提方法在检测互相靠近或任意形状文本实例方面的性能，实验中将所提方法与现有的主流文本检测模型在两个包含众多弯曲文本实例的文本数据集(包括Total-Text和CTW-1500)上进行了实验评估和性能对比。如表1所示，本发明所提方法的性能比TextSnack和CRAFT等专为弯曲文本实例的检测而设计的模型要好得多。特别地，所提出的文本检测方法在CTW-1500中达到了87.5％的Hmean得分，在Total-Text中达到了89.1％的Hmean得分，这两个性能得分均明显超过了其他对比方法。受益于引入的层次化图推理网络模块，所提方法在检测互相靠近和任意形状的文本实例方面获得了一致优越的性能表现，尤其是对于具有不同曲率的文本实例具备较强的检测鲁棒性。

其次，本发明在ICDAR 2015数据集上评估了所提方法，以验证其检测微小和低分辨率文本实例的能力。如表1所示，本发明所提方法实现了89.7％、91.7％和90.7％的召回率、精确率和Hmea得分，显著优于相关对比模型(包括ReLaText、DRRG和StrokeNet)。由结果可知，本发明方法引入的多级区域预测网络擅长捕捉微小的以及低分辨率的笔划表示，这对于促进检测器有效建模更细粒度的文本区域表示起到了十分重要的作用。

表1是本发明所提方法在CTW-1500、Total-Text和ICDAR 2015数据集上的评估结果，并与该领域的现有主流方法进行性能对比。其中，排名前二的性能值以粗体突出显示。此外，(ST)表示使用引入的SceneText笔划分割数据集来预训练检测框架中基于卷积神经网络的前端处理模块。R：Recall(％)，P：Precision(％)，H：Hmean(％)。

表1

(3)可视化

图5中的文本检测结果可视化也可以证明所提方法在视觉图像文本检测方面的有效性、高精度和良好的泛化能力。

图5示出可视化的文本检测结果，图中，第一列(a)、第二列(b)和第三列(c)分别表示输入图像、所提方法预测得到的笔划分割和最终的文本检测结果。

应用实例：

(1)笔划分割数据集的实例

本发明首先通过使用SceneText数据集来预训练现有主流文本检测器中基于卷积神经网络的前端处理模块来验证引入的笔划分割数据集的有效性以及其对于文本检测领域其他检测器性能提升方面的贡献。表2中的结果表明，本发明引入的外部数据集能够有效提升现有主流文本检测器中前端处理模块针对文本区域的预测精度，以便于更好地挖掘和激发这些方法中基于图模型的后端处理模块的潜力，最终提升文本检测领域相关主流方法的检测性能。

表2是本发明所引入的笔划分割数据集对于文本检测领域相关检测器性能提升方面的量化评估结果。其中，(ST)表示使用引入的SceneText笔划分割数据集来预训练检测框架中基于卷积神经网络的前端处理模块。R：Recall(％)，P：Precision(％)，H：Hmean(％)。

表2

(2)本发明方法在OCR翻译应用中的实施例

基于发明内容，本发明开发了一个基于所提文本检测方法的OCR翻译工具，如图6所示。该图提供了所提文本检测方法在中文到英语以及英语到法语翻译示例中的详细处理流程。其中包含的子图分别代表输入图像(a)、预测的笔划分割(b)、文本检测结果(c)和翻译后的图像(d)。图6示出了指导OCR翻译(中文到英语和英语到法语)任务的示例。

在此基础上，基于OCR翻译的相关应用就可以作为本发明所提文本检测模型的下游任务。图7展示了所提方法在OCR翻译应用上的整体处理流程，其中给出了中文到英语OCR翻译的示例。图7示出了使用本发明所提方法中的前端处理模块进行OCR翻译任务的整体处理流程。

该应用场景中，首先调用本发明方法的前端处理模块进行处理后输出笔划级别和文本级别的检测结果，相关结果将分别输入文本识别模块和文本擦除模块。对于图像擦除模块，这里简单地使用内置的OpenCV擦除算法。在应用擦除操作之前，本发明使用内置OpenCV函数中的膨胀操作来扩大预测的笔划分割区域。此外，可以通过对预测的笔划区域中的像素值进行平均来轻松估计文本颜色。这种策略在实践中可以提高图像擦除(修复)的视觉效果。机器翻译模型通过调用谷歌翻译API运行，其包含语言识别相关API。

本发明实施例的突出特点包括：提出了轻量级笔划分割预测网络，以引入了新型图神经网络推理模型，并获得了显著的效果。笔划分割预测网络实现检测模型对于文本区域的多级(文本级、笔划级)表示。图神经网络模型其作为所构建的文本检测框架中的后端处理模块，能够有效针对前端处理模块预测得到的文本区域的各个部分执行特征聚合和关系推理，使得改进后的图模型可以更好地适应文本检测任务场景。

本发明有效解决了传统的方法难以精确定位任意形状的图像文本实例，难以有效辨别和分离出互相靠近的同一文本图像中的多个文本实例，算法耗时过长的问题。本发明视觉文本检测方法的有效性、高精度和良好的泛化能力得到了充分验证。

在一些实施例中，引入视觉文本图像数据集(SceneText)来预训练笔划区域预测网络，有利于提升检测框架对于文本区域多级表示的预测准确性。具体而言，其每个图像样本中的文本实例都标注有笔划级别的分割标签，即二值化笔划字符分割图。该数据集将通过预训练检测框架中基于卷积神经网络的前端处理模块来提升检测框架对于文本区域多级表示的预测准确性。

本发明提出的文本检测方法可用于例如文本图像修复系统的前端处理(文本分割与检测)，OCR图像翻译系统的前端处理(文本分割与检测)。

本发明可以对文本区域执行笔划级别的分割预测，该分割预测结果结合传统方法的文本检测结果可以满足更多业务功能的需求，如图像修复、OCR翻译等。可用于OCR(文本内容识别)、图像修复、图像翻译、电子收据、发票等视觉文本图像中的文字检测与识别等任务，实现文本图像处理的智能全自动化，提升文本图像处理相关领域信息理解与处理效率。

本发明拥有广阔的应用前景，例如，本方法可以通过提升文本内容识别与文本实例检测精度来有效提升OCR技术的效率与可靠性，从而大大降低企业中相关业务的人工与资源成本。

本发明实施例还提供一种存储介质，用于存储计算机程序，该计算机程序被执行时至少执行如上所述的基于笔划区域分割策略的视觉文本检测方法。

本发明实施例还提供一种控制装置，包括处理器和用于存储计算机程序的存储介质；其中，处理器用于执行所述计算机程序时至少执行如上所述的基于笔划区域分割策略的视觉文本检测方法。

本发明实施例还提供一种处理器，所述处理器执行计算机程序，至少执行如上所述的方法。

所述存储介质可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，FerromagneticRandom Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM，DynamicRandomAccessMemory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic RandomAccessMemory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double DataRateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本发明所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本发明所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本发明所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种基于笔划区域分割策略的视觉文本检测方法，其特征在于，包括如下步骤：

S1、通过基于卷积神经网络的前端处理模块，对输入的文本图像执行特征提取和多级区域预测；所述前端处理模块包括主干图像特征提取网络、文本区域预测网络和笔划区域预测网络，通过一系列堆叠在特征金字塔主干图像特征提取网络之上的卷积层来执行与文本区域相关的多级预测；

2.如权利要求1所述的基于笔划区域分割策略的视觉文本检测方法，其特征在于，步骤S1中，所述多级预测包括：得到每个文本实例对应的文本级矩形区域的分类置信度；每个文本实例内文本旋转角度、中心线位置等相关文本级属性的回归预测；以及每个文本区域的预测边界框内对应笔划级的字符分割预测。

3.如权利要求1或2所述的基于笔划区域分割策略的视觉文本检测方法，其特征在于，步骤S1中，所述依据文本区域的多级预测结果提取文本级和笔划级的区域候选框，包括：根据文本区域的多级预测结果提取对应的多级候选矩形框，只包含文本级或笔划级节点的局部图为同构图，而同时包含文本级和笔划级节点的局部图为异构图。

4.如权利要求1至3任一项所述的基于笔划区域分割策略的视觉文本检测方法，其特征在于，步骤S1中，所述文本区域预测网络预测与文本实例区域相关的属性，其中包括：预测文本区域TR和文本中心区域TCR的分类概率预测，然后进行h₁、h₂、cosθ和sinθ的回归值预测，h₁和h₂分别表示当前像素到TR上边缘和TR下边缘的距离，文本实例高度尺度h是h₁和h₂之和，θ指示文本实例的方向信息；预测得到TR潜在区域的基础上估计TR对应的文本中心线；使用2个通道的特征输出来指导TR和TCR的分类概率预测；训练时，第一个特征通道用于预测背景，第二个通道用于预测前景即文本实例；测试时，取第二个特征通道的前景预测结果进行后续处理；其中，分别采用1个特征通道的输出来预测各个回归属性值。

5.如权利要求1至4任一项所述的基于笔划区域分割策略的视觉文本检测方法，其特征在于，步骤S1中，所述笔划区域预测网络将各个文本区域中的字符内容与复杂背景分离，其中，结合图像低级语义和高级语义信息来生成文本区域中精细的笔划分割表示，以指导后续的文本检测过程；

优选地，所述笔划区域预测网络包括两个阶段的预测过程；

6.如权利要求1至5任一项所述的基于笔划区域分割策略的视觉文本检测方法，其特征在于，所述前端处理模块使用带有笔划级别分割图注释作为标签的数据集以及均方误差损失函数来预训练所述笔划区域预测网络。

7.如权利要求1至6任一项所述的基于笔划区域分割策略的视觉文本检测方法，其特征在于，步骤S3中，先初始化节点特征及其连接结构，具体包括：

邻接矩阵生成：各个局部图网络形成的拓扑结构被编码在邻接矩阵A∈R^N×N中，其中A(c,n)＝1，如果在局部图中的中心节点c和其每个邻居节点n之间存在连接；优选地，生成邻接矩阵的方法具体包括：

8.如权利要求1至7任一项所述的基于笔划区域分割策略的视觉文本检测方法，其特征在于，步骤S3中，所述后端处理模块通过层次化的图神经网络推理模型，在生成的多个局部图网络中执行节点的关系推理和链接预测；其中，基于图神经网络的推理过程包括如下三个阶段：

首先，采用加权平均的方式来聚合和更新由注意力机制引导的笔划级节点特征；加权过程中的权重信息来自两部分，包括归一化后的邻接矩阵A_s和图注意力网络GAT中推导出的任意两个图节点v和u之间的注意系数α_v,u；第一阶段的加权聚合过程描述为：

是来自As，Fuse(·)表示特征线性组合函数；

其中，表示t层的所有文本(t)节点特征和笔划(s)节点特征；Attention(·)为Transformer中的注意力计算操作，Q、K、V分别代表查询矩阵、键矩阵和值矩阵，W^Q(,K,V)为可训练的权重参数；

P＝σ(M_t,s,A_t,s(G(H_t,s))W)

其中W是可训练的权重矩阵，G(·)表示图网络上传统的信息聚合过程，M_t,s和A_t,s分别表示引入的动态图网络中的跨层遮蔽矩阵和跨跳注意力矩阵；

优选地，跨层遮蔽矩阵M_t,s进一步划分为M′_s、M′_t和M′_t,s，分别表示笔划级图节点之间的自掩蔽矩阵、文本级图节点之间的自掩蔽矩阵，以及笔划级和文本级图节点之间的互掩蔽矩阵；笔划级别图节点的遮蔽结果最终基于M′_s和M′_t,s的线性组合和固定阈值的比较，而文本级别图节点的遮蔽结果最终基于M′_t和M′_t,s的线性组合和固定阈值的比较；

9.如权利要求1至8任一项所述的基于笔划区域分割策略的视觉文本检测方法，其特征在于，训练过程中采用图模型预测结果与对应真实类别标签之间的交叉熵损失来指导整个检测框架的学习过程；优选地，根据图节点的分类和链接预测结果，文本级节点通过宽度优先搜索方法进行分组，并通过最小路径算法进行排序；优选地，通过依次连接排序后的文本节点对应的候选框中顶部和底部的中点来获得任意形状文本实例的边界。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序由处理器执行时，实现如权利要求1至9任一项所述的基于笔划区域分割策略的视觉文本检测方法。