CN112818975B

CN112818975B - 文本检测模型训练方法及装置、文本检测方法及装置

Info

Publication number: CN112818975B
Application number: CN202110109985.1A
Authority: CN
Inventors: 张鹏远; 李长亮
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2024-09-24
Anticipated expiration: 2041-01-27
Also published as: CN112818975A

Abstract

本申请提供文本检测模型训练方法及装置、文本检测方法及装置，其中所述文本检测模型训练方法包括：将目标训练图像输入至文本检测模型，其中，目标训练图像标注有对应的标注框；通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图；通过所述特征池化层将所述多个不同尺度的初始特征图进行池化，获得多个不同尺度的增强特征图；通过所述特征融合层将所述多个不同尺度的增强特征图进行融合，获得多个预测框；在所述多个预测框中确定目标预测框，基于所述目标预测框和所述目标训练图像对应的标注框确定损失值，根据所述损失值对所述文本检测模型进行训练，直至达到训练停止条件。

Description

文本检测模型训练方法及装置、文本检测方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及文本检测模型训练方法及装置、文本检测方法及装置、计算设备和计算机可读存储介质。

背景技术

随着计算机技术的快速发展，图像处理领域也得到了快速发展，其中，文本检测在图像处理领域中也是非常重要的一个分支。

现有的文本检测大多是基于人工标注的文本图片作为模型的训练数据，训练图片需要耗费大量的人力和物力对其进行标注，或花费高昂的价格购买标注数据，成本很高，而且现有的文本检测模型中，大多没有考虑图像通道之间的联系，在检测复杂背景(如颜色复杂、纹理复杂等)的文本区域时，经常会出现遗漏的现象，最终确定的文本检测位置经常不准确，也会有误判的情况发生。

因此，如何解决上述问题就成为技术人员亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供了文本检测模型训练方法及装置、文本检测方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种文本检测模型训练方法，包括：

将目标训练图像输入至文本检测模型，其中，所述目标训练图像标注有对应的标注框，所述文本检测模型包括特征提取层、特征池化层和特征融合层；

通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图；

通过所述特征池化层将所述多个不同尺度的初始特征图进行池化，获得多个不同尺度的增强特征图；

通过所述特征融合层将所述多个不同尺度的增强特征图进行融合，获得多个预测框；

在所述多个预测框中确定目标预测框，基于所述目标预测框和所述目标训练图像对应的标注框确定损失值，根据所述损失值对所述文本检测模型进行训练，直至达到训练停止条件。

根据本申请实施例的第二方面，提供了一种文本检测方法，包括：

获取待检测图像，其中，所述待检测图像中包括待检测文本；

将所述待检测图像输入至预先训练好的文本检测模型，其中，所述文本检测模型是经过上述文本检测模型训练方法训练获得的；

所述文本检测模型响应于所述待检测图像作为输入而生成所述待检测文本对应的预测文本框。

根据本申请实施例的第三方面，提供了一种文本检测模型训练装置，包括：

获取模块，被配置为将目标训练图像输入至文本检测模型，其中，所述目标训练图像标注有对应的标注框，所述文本检测模型包括特征提取层、特征池化层和特征融合层；

提取模块，被配置为通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图；

池化模块，被配置为通过所述特征池化层将所述多个不同尺度的初始特征图进行池化，获得多个不同尺度的增强特征图；

融合模块，被配置为通过所述特征融合层将所述多个不同尺度的增强特征图进行融合，获得多个预测框；

训练模块，被配置为在所述多个预测框中确定目标预测框，基于所述目标预测框和所述目标训练图像对应的标注框确定损失值，根据所述损失值对所述文本检测模型进行训练，直至达到训练停止条件。

根据本申请实施例的第四方面，提供了一种文本检测装置，包括：

获取模块，被配置为获取待检测图像，其中，所述待检测图像中包括待检测文本；

输入模块，被配置为将所述待检测图像输入至预先训练好的文本检测模型，其中，所述文本检测模型是经过上述文本检测模型训练方法训练获得的；

生成模块，被配置为所述文本检测模型响应于所述待检测图像作为输入而生成所述待检测文本对应的预测文本框。

根据本申请实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述文本检测模型训练方法或文本检测方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述文本检测模型训练方法或文本检测方法的步骤。

根据本申请实施例的第七方面，提供了一种芯片，其存储有计算机指令，该指令被芯片执行时实现所述文本检测模型训练方法或文本检测方法的步骤。

本申请实施例提供的文本检测模型训练方法，包括：将目标训练图像输入至文本检测模型，其中，所述目标训练图像标注有对应的标注框，所述文本检测模型包括特征提取层、特征池化层和特征融合层；通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图；通过所述特征池化层将所述多个不同尺度的初始特征图进行池化，获得多个不同尺度的增强特征图；通过所述特征融合层将所述多个不同尺度的增强特征图进行融合，获得多个预测框；在所述多个预测框中确定目标预测框，基于所述目标预测框和所述目标训练图像对应的标注框确定损失值，根据所述损失值对所述文本检测模型进行训练，直至达到训练停止条件。本方法提供的文本检测模型通过特征提取层，可以有效增强特征之间的联系，有效的增强在复杂背景区域下文本的精度，同时增加了特征池化层的网络结构，可以有效增大目标区域的感受野，减少小目标物体漏检的现象，从整体上增强了文本检测模型的识别准确度，提高了识别效率。

其次，采用了新型的数据扩增形式，解决了因为人工标记数据不足和目标遮挡带来的识别不准确的问题，同时还增强了文本检测模型的泛化性。

附图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请实施例提供的文本检测模型训练方法的流程图；

图3是本申请另一实施例提供的文本检测模型训练方法的示意图；

图4是本申请实施例提供的文本检测方法的流程示意图；

图5是本申请实施例提供的文本检测模型训练装置的结构示意图；

图6是本申请实施例提供的文本检测装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

文本检测：给定文本图像，自动定位文本的所在位置。

K-means聚类：K均值聚类算法，是一种迭代求解的聚类分析算法，其步骤预先将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。每分配一个对象，聚类的聚类中心会根据聚类中现有的对象被重新计算。

Yolov3：基于Darknet-53目标检测网络结构，Darknet是一种基于残差结构的特征提取网络。

FPN：特征图金字塔网络(Feature Pyramin Networks)，是一种多尺度的目标检测方法。

注意力机制：Atteniton，是一种资源分配的机制，可以理解为对于原本平均分配的资源根据attention对象的重要程度重新分配资源。

ASPP：空洞空间卷积池化金字塔(atrous spatial pyramid pooling)，一种对所给定的输入用不同采样率的空洞卷积并行采样的方法。

logistic层：用于分类的网络结构，用于对检测框进行分类。

IOU：一种用于计算评价检测框之间重合度的指标。

在本申请中，提供了文本检测模型训练方法及装置、文本检测方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示文本检测模型训练方法中的步骤。图2示出了根据本申请一实施例的文本检测模型训练方法的流程图，包括步骤202至步骤210。

步骤202：将目标训练图像输入至文本检测模型，其中，所述目标训练图像标注有对应的标注框，所述文本检测模型包括特征提取层、特征池化层和特征融合层。

目标训练图像为用于训练文本检测模型的文本图像，文本图像中标注有对应的标注框，所述标注框用于标识文本图像中需要被识别的文本区域。

文本检测模型用于接收文本图像，识别并标识出文本图像中关于文本区域，本申请提供的文本检测模块至少包括特征提取层、特征池化层和特征融合层，其中，所述特征提取层优选融合注意力机制的特征提取层。

在实际应用中，在将目标训练图像输入至文本检测模型之前，所述方法还包括：

获取预设的训练集合中的目标训练图像。

预设的训练集合即包括多个文本图像的训练集合，预设的训练集合中存储的大量的目标训练图像。

在实际应用中，预设的训练集合中的目标训练图像是基于大量人工标注的目标检测图像，通过人工标注的方法标注图像会耗费大量的人工和时间的成本，费时费力，因此还可以通过对训练集合进行数据扩容的方式增加训练集合中的训练数据，具体的，获取预设的训练集合中的目标训练图像，包括：

获取初始训练集合，其中，所述初始训练集合中包括多个训练图像；

对所述多个训练图像进行数据扩增处理，生成数据扩增后的训练集合。

其中，对所述多个训练图像进行数据扩增处理，包括：对所述多个训练图像进行随机剪裁、随机平移、更改对比度、更改亮度、更改透明度、随机遮挡、随机填充中的任意一种或几种组合的方式对数据扩增处理。

在获得一个初始的训练集合后，需要对训练集合中的样本图像进行数据扩增，数据扩增的方法除了随机裁剪、拉伸、对比度、亮度和透明度的处理外，还包括Cutout算法(随机遮挡)和FMix算法(随机填充)，Cutout算法即随机选择一个固定大小的正方形区域，然后采用全0进行填充；FMix算法则根据图像的高频和低频区域对图像进行二值化，然后利用掩膜对像素进行加权，引入这两种数据扩增算法，可以用来解决目标遮挡不足的问题。数据扩增可以增加训练集的样本，同时也可以有效缓解模型过拟合的情况，也可以给模型带来的更强的泛化能力。

在目标检测中，通常会有先验框的概念，先验框是预先设定好了常见目标的宽和高，在进行预测的时候，可以利用已经预设好的宽和高，帮助进行目标检测，先验框的尺寸通常是通过K-means聚类获得的，如在Yolov3中，通常通过K-means聚类算法聚类获得9个先验框，分别为大、中、小尺度各设定了3种先验框，每种尺寸的先验框的大小根据实际应用中的训练数据聚类生成，在本申请中不做限定，如先验框的尺寸可以是116*90、156*198、373*326、30*61、62*45、59*119、10*13、16*30、33*23；也可以是5*24、5*36、6*25、9*65、9*48、9*70、14*155、15*178、16*180等等，其中，在较小尺度的特征图上应用较大的先验框(如14*155、15*178、16*180)，适合检测较大的对象；在中等尺度的特征图上应用中等的先验框(如9*65、9*48、9*70)，适合检测中等大小的对象；在较大尺度的特征图上，应用较小的先验框(如5*24、5*36、6*25)，适合检测较小的对象。

训练图像可以包括各种场景的图像，如直播场景、游戏场景、户外场景等等，同时训练图像中包括多种类型的文字、形状、语言等文本信息，可以从训练图像中识别出图像或文本中的至少一种。在训练图像中包含有人工标注的标注框，标注框的位置即需要进行识别的位置，标注框中的内容即需要识别的内容，标注框通常是矩形标注框，也可以是其他多边形的标注框，在本申请中对此不做限制，在实际应用中，还会将预设的训练集合划分为两个部分，分别为训练子集和测试子集，在模型训练过程中，从训练子集中获取目标训练图像，在模型训练完成后，从测试子集中获取目标检测图像，用于检测模型的性能。

本申请训练的文本检测模型用于检测文本图像中文本区域的位置，可以快速准确地定位图像中文本的位置，便于后续进行文本识别时可以节省时间，提高效率。本申请提供的文本检测模型包括融合注意力机制的特征提取层、特征池化层和特征融合层。

在本申请提供的一具体实施方式中，目标训练图像为一份简历A的照片，在简历A的姓名、年龄、电话处各标记有标注框，将目标训练图像简历A输入至文本检测模型中进行训练，所述文本检测模型包括融合注意力机制的特征提取层、特征池化层和特征融合层。

步骤204：通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图。

所述特征提取层优选融合注意力机制的特征提取层，所述融合注意力机制的特征提取层包括多个通道，所述多个通道之间融合注意力机制，相应的，通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图，包括：

通过所述多个通道和所述多个通道之间融合的注意力机制提取所述目标训练图像对应的多个不同尺度的初始特征图。

融合注意力机制的特征提取层优选使用改进的Yolov3中的Darknet-53结构，即在Yolov3中Darknet-53的基础上，增加了通道间的注意力机制。Yolov3中的Darknet-53为全卷积网络，用于提取目标训练图像对应的多个不同尺度的初始特征图，具体的，通过不同的特征通道对目标训练图像进行特征提取，通过注意力机制在通道维度上对特征记性了筛选加权，提升了检测性能，增强了通道特征之间的联系，对于检测特征复杂的文本区域有很好的效果。

特征提取层用于提取目标训练图像在不同尺度上的初始特征图，输出3个不同尺度的特征图像X1、X2、X3，其中，X1、X2、X3的深度都为255，边长规律为13:26:52，在每个特征图像中均会输出有3个预测框，共计9个预测框。

在本申请提供的一具体实施方式中，沿用上例，将简历A的照片输入至Darknet-53-attention(融合注意力机制的特征提取层)中进行特征提取，获得检测大目标的尺度的特征图像X1、检测中目标的尺度的特征图像X2、检测小目标的尺度的特征图像X3。

步骤206：通过所述特征池化层将所述多个不同尺度的初始特征图进行池化，获得多个不同尺度的增强特征图。

在实际应用中，为了保证对图片的特征具有较大的感受野，又希望特征图的分辨率不会下降太多(分辨率下降太多会丢失图像边界的细节信息)，可以通过空洞卷积的方法来解决上述问题，优选地，在本申请提供的文本检测模型中，所述特征池化层包括空洞空间卷积池化金字塔；

相应的，通过所述特征池化层将所述多个不同尺度的初始特征图进行池化，包括：

通过所述空洞空间卷积池化金字塔将所述多个不同尺度的初始特征图进行池化。

空洞空间卷积池化金字塔(atrous spatial pyramid pooling，ASPP)，ASPP层在不使用池化与下采样的操作的情况下，起到同样增大感受野的功能。让卷积的每一个输出都拥有较大范围的信息，增大了目标区域的感受视野，不同采样率的空洞卷积可以有效捕获更多尺度信息，减少了小目标物体的漏检现象。

在本申请提供的一具体实施方式中，沿用上例，将不同尺度的特征图像X1、X2和X3输入至特征池化层中进行处理，得到多个不同尺度的经过特征增强的增强特征图Y1、Y2和Y3。

步骤208：通过所述特征融合层将所述多个不同尺度的增强特征图进行融合，获得多个预测框。

优选地，所述特征融合层包括特征图金字塔网络；

通过所述特征融合层将所述多个不同尺度的增强特征图进行融合，获得多个预测框，包括：

通过所述特征图金字塔网络融合所述多个不同尺度的增强特征图，获得多个预测框和每个预测框对应的分值。

特征图金字塔网络(Feature Pyramin Networks，FPN)，FPN解决物体检测中的多尺度问题，可以通过网络连接改变，在基本不增加原有模型计算量的前提下，大幅度提升了小物体检测的性能，在不同尺度的特征图中，底层的特征语义信息较少，但目标位置准确，高层的特征语义信息丰富，但目标位置比较粗略，FPN的预测是基于不同尺度的特征图独立进行的，通过高层特征进行上采样和底层特征进行自顶向下的连接，在每一层都会进行相应的预测，输出多个不同的预测结果，最终生成多个预测框，同时还会生成每个预测框对应的分值。

在本申请提供的一具体实施方式中，沿用上例，将多个不同尺度的增强特征图Y1、Y2和Y3输入至特征融合层进行处理，可以生成多个尺度的预测框，每个预测框会有对应的分值。

步骤210：在所述多个预测框中确定目标预测框，基于所述目标预测框和所述目标训练图像对应的标注框确定损失值，根据所述损失值对所述文本检测模型进行训练，直至达到训练停止条件。

在实际应用中，在上述步骤获得预测框后，还可以获得每个预测框对应的分值，相应的，在所述多个预测框中确定目标预测框，包括：确定分值最高的预测框为目标预测框。

在实际应用中，基于所述目标预测框和所述目标训练图像对应的标注框确定损失值，包括：

基于所述目标预测框的位置信息和所述目标训练图像对应的标注框的位置信息确定损失值。

在获得预测的目标预测框后，可以根据目标预测框的某一个顶点的坐标和目标预测框的长和宽确定所述目标预测框的位置信息，同时根据目标训练对象对应的标注框的某个顶点坐标和标注框的长和宽可以确定标注框的位置信息，基于所述目标预测框的位置信息和所述目标训练图像对应的标注框的位置信息即可确定损失值，确定损失值的方法有很多，如交叉熵损失函数、最大损失函数、平均损失函数等等，在本申请中对计算损失值的具体方式不做限定，以实际应用为准。

可选地，根据所述损失值对所述文本检测模型进行训练，包括：

根据所述损失值调整所述文本检测模型中特征提取层、特征池化层和特征融合层中的模型参数。

根据损失值对文本检测模型进行训练具体为根据损失值调整所述文本检测模型中的特征提取层、特征池化层和特征融合层中的模型参数。

根据不同尺度的预测框对应的分值，选取分值最高的预测框为目标预测框，将目标预测框作为每个区域的预测检测位置，再基于在目标训练图像中的标注框确定损失值，根据所述损失值反向传播调整所述文本检测模型的参数，直至达到训练停止条件，训练停止条件可以是预设的训练轮次，也可以是损失值低于预设阈值，也可以是根据测试子集中的目标检测图像进行测试，获得的目标预测框的位置与标注框的重合区域大于预设阈值，训练停止条件在本申请中也不做具体限制。

在本申请提供的一具体实施方式中，分别确定简历中姓名对应的目标预测框1，年龄对应的目标预测框2和电话对应的目标预测框3，根据目标预测框1、目标预测框2和目标预测框3与简历中标注的标注框计算损失值，再根据损失值反向传播调整所述文本检测模型的参数，再训练过预设轮次后，根据测试子集中的目标检测图像对文本检测模型进行检测，当文本检测模型输出的预测框与目标测试图像中的标注框的重合度达到95％以上，即IOU值在0.95以上，则文本检测模型训练成功。

本申请实施例提供的文本检测模型训练方法，包括将目标训练图像输入至文本检测模型，其中，所述目标训练图像标注有对应的标注框，所述文本检测模型包括特征提取层、特征池化层和特征融合层；通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图；通过所述特征池化层将所述多个不同尺度的初始特征图进行池化，获得多个不同尺度的增强特征图；通过所述特征融合层将所述多个不同尺度的增强特征图进行融合，获得多个预测框；在所述多个预测框中确定目标预测框，基于所述目标预测框和所述目标训练图像对应的标注框确定损失值，根据所述损失值对所述文本检测模型进行训练，直至达到训练停止条件。本方法提供的文本检测模型通过特征提取层，可以有效增强特征之间的联系，有效的增强在复杂背景区域下文本的精度，同时增加了特征池化层的网络结构，可以有效增大目标区域的感受野，减少小目标物体漏检的现象，从整体上增强了文本检测模型的识别准确度，提高了识别效率。

图3示出了本申请一实施例提供的文本检测模型训练方法的示意图，如图3所示，所述方法包括步骤302至步骤312。

步骤302：获取初始训练集合。

步骤304：对所述多个训练图像进行数据扩增处理，生成数据扩增后的训练集合。

步骤306：通过K-means聚类确定训练图像的先验框，并将训练图像输入至文本检测模型。

所述文本检测模型包括融合注意力机制的特征提取层、空洞空间卷积池化金字塔和特征图金字塔网络，将训练图像输入至融合注意力机制的特征提取层进行特征提取，获得多个不同尺度的初始特征图；将多个不同尺度的初始特征图输入到空间空洞卷积池化金字塔网络中进行特征增强，获得多个不同尺度的增强特征图；将多个不同尺度的初始特征图和多个不同尺度的增强特征图输入到特征图金字塔网络进行特征融合，并输出多个预测框。

步骤308：获取文本检测模型输出的多个预测框，并在所述多个预测框中确定目标预测框。

步骤310：基于所述目标预测框和所述目标训练图像对应的标注框确定损失值。

步骤312：根据所述损失值对所述文本检测模型进行训练，直至达到训练停止条件。

本申请实施例提供的文本检测模型训练方法，通过文本金策模型的特征提取层，可以有效增强特征之间的联系，有效的增强在复杂背景区域下文本的精度，同时增加了特征池化层的网络结构，可以有效增大目标区域的感受野，减少小目标物体漏检的现象，从整体上增强了文本检测模型的识别准确度，提高了识别效率。

图4示出了本申请一实施例的文本检测方法的流程示意图，该文本检测方法以对简历进行文本检测为例进行描述，包括步骤402至步骤406。

步骤402：获取待检测图像，其中，所述待检测图像中包括待检测文本。

在本申请提供的一具体实施例中，获取的简历图片即为待检测图像，简历中的姓名、性别、出生年月、籍贯、联系方式、工作经历等内容即待检测文本。

步骤404：将所述待检测图像输入至预先训练好的文本检测模型，其中，所述文本检测模型是经过上述文本检测模型训练方法训练获得的。

在本申请提供的一具体实施例中，将简历图片输入至预先训练好的文本检测模型。

步骤406：所述文本检测模型响应于所述待检测图像作为输入而生成所述待检测文本对应的预测文本框。

在本申请提供的一具体实施例中，所述文本检测模型响应于所述简历图片作为输入，生成所述简历图片上的预测文本框，预测文本框与简历图片中的姓名、性别、出生年月、籍贯、联系方式、工作经历等内容相对应。

可选地，所述方法还包括：

基于所述预测文本框对所述预测文本框中的内容进行文本识别；

获得所述待检测文本对应的文本内容信息。

在本申请提供的一具体实施例中，基于针对简历图片中姓名、性别、出生年月、籍贯、联系方式、工作经历等内容相应的预测文本框对简历图片中的内容进行文本识别，获得所述简历图片中相应预测文本框中的文字内容，如姓名：张三，性别：男，出生年月：****年**月**日，籍贯：某某地，等等。并将获得的文字内容填充到预设的结构化表格中，实现对简历图片转换为文本简历的过程。

本申请提供的文本检测方法，包括获取待检测图像，其中，所述待检测图像中包括待检测文本；将所述待检测图像输入至预先训练好的文本检测模型，其中，所述文本检测模型是经过上述文本检测模型训练方法训练获得的；所述文本检测模型响应于所述待检测图像作为输入而生成所述待检测文本对应的预测文本框，通过本申请的文本检测方法，能更好的识别复杂背景的文本图像，更准确的提取文本内容，提高文本图片识别效果。

与上述文本检测模型训练方法实施例相对应，本申请还提供了文本检测模型训练装置实施例，图5示出了本申请一个实施例的文本检测模型训练装置的结构示意图。如图5所示，该装置包括：

获取模块502，被配置为将目标训练图像输入至文本检测模型，其中，所述目标训练图像标注有对应的标注框，所述文本检测模型包括特征提取层、特征池化层和特征融合层；

提取模块504，被配置为通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图；

池化模块506，被配置为通过所述特征池化层将所述多个不同尺度的初始特征图进行池化，获得多个不同尺度的增强特征图；

融合模块508，被配置为通过所述特征融合层将所述多个不同尺度的增强特征图进行融合，获得多个预测框；

训练模块510，被配置为在所述多个预测框中确定目标预测框，基于所述目标预测框和所述目标训练图像对应的标注框确定损失值，根据所述损失值对所述文本检测模型进行训练，直至达到训练停止条件。

可选地，所述获取模块502，进一步被配置为获取预设的训练集合中的目标训练图像。

可选地，所述获取模块502，进一步被配置为：

对所述多个训练图像进行随机剪裁、随机平移、更改对比度、更改亮度、更改透明度、随机遮挡、随机填充中的任意一种数据扩增处理。

可选地，所述融合注意力机制的特征提取层包括多个通道，所述多个通道之间融合注意力机制；

所述提取模块504，进一步被配置为：

可选地，所述特征池化层包括空洞空间卷积池化金字塔；

所述池化模块506，进一步被配置为：

可选地，所述特征融合层包括特征图金字塔网络；

所述融合模块508，进一步被配置为：

可选地，所述训练模块510，进一步被配置为：

确定分值最高的预测框为目标预测框。

可选地，所述训练模块510，进一步被配置为：

本申请实施例提供的文本检测模型训练装置，包括将目标训练图像输入至文本检测模型，其中，所述目标训练图像标注有对应的标注框，所述文本检测模型包括特征提取层、特征池化层和特征融合层；通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图；通过所述特征池化层将所述多个不同尺度的初始特征图进行池化，获得多个不同尺度的增强特征图；通过所述特征融合层将所述多个不同尺度的增强特征图进行融合，获得多个预测框；在所述多个预测框中确定目标预测框，基于所述目标预测框和所述目标训练图像对应的标注框确定损失值，根据所述损失值对所述文本检测模型进行训练，直至达到训练停止条件。本装置提供的文本检测模型通过特征提取层，可以有效增强特征之间的联系，有效的增强在复杂背景区域下文本的精度，同时增加了特征池化层的网络结构，可以有效增大目标区域的感受野，减少小目标物体漏检的现象，从整体上增强了文本检测模型的识别准确度，提高了识别效率。其次，采用了新型的数据扩增形式，解决了因为人工标记数据不足和目标遮挡带来的识别不准确的问题，同时还增强了文本检测模型的泛化性。

上述为本实施例的一种文本检测模型训练装置的示意性方案。需要说明的是，该文本检测模型训练装置的技术方案与上述的文本检测模型训练方法的技术方案属于同一构思，文本检测模型训练装置的技术方案未详细描述的细节内容，均可以参见上述文本检测模型训练方法的技术方案的描述。

与上述文本检测方法实施例相对应，本申请还提供了文本检测装置实施例，图6示出了本申请一个实施例的文本检测装置的结构示意图。如图6所示，该装置包括：

获取模块602，被配置为获取待检测图像，其中，所述待检测图像中包括待检测文本；

输入模块604，被配置为将所述待检测图像输入至预先训练好的文本检测模型，其中，所述文本检测模型是经过上述文本检测模型的训练方法训练获得的；

生成模块606，被配置为所述文本检测模型响应于所述待检测图像作为输入而生成所述待检测文本对应的预测文本框。

可选地，所述装置还包括：

识别模块，被配置为基于所述预测文本框对所述预测文本框中的内容进行文本识别；获得所述待检测文本对应的文本内容信息。

本申请提供的文本检测装置，包括获取待检测图像，其中，所述待检测图像中包括待检测文本；将所述待检测图像输入至预先训练好的文本检测模型，其中，所述文本检测模型是经过上述文本检测模型训练方法训练获得的；所述文本检测模型响应于所述待检测图像作为输入而生成所述待检测文本对应的预测文本框，通过本申请的文本检测装置，能更好的识别复杂背景的文本图像，更准确的提取文本内容，提高文本图片识别效果。

上述为本实施例的一种文本检测装置的示意性方案。需要说明的是，该文本检测装置的技术方案与上述的文本检测方法的技术方案属于同一构思，文本检测装置的技术方案未详细描述的细节内容，均可以参见上述文本检测方法的技术方案的描述。

需要说明的是，装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述的文本检测模型训练方法或文本检测方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的文本检测模型训练方法或文本检测方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述文本检测模型训练方法或文本检测方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述文本检测模型训练方法或文本检测方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文本检测模型训练方法或文本检测方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述文本检测模型训练方法或文本检测方法的技术方案的描述。

本申请实施例公开了一种芯片，其存储有计算机指令，该指令被处理器执行时实现如前所述文本检测模型训练方法或文本检测方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种文本检测模型训练方法，其特征在于，包括：

将目标训练图像输入至文本检测模型，其中，所述目标训练图像标注有对应的标注框，所述文本检测模型包括特征提取层、特征池化层和特征融合层，所述特征池化层包括空洞空间卷积池化金字塔，用以扩大输出信息的范围；

2.如权利要求1所述的文本检测模型训练方法，其特征在于，在将目标训练图像输入至文本检测模型之前，还包括：

获取预设的训练集合中的目标训练图像。

3.如权利要求2所述的文本检测模型训练方法，其特征在于，获取预设的训练集合中的目标训练图像，包括：

4.如权利要求3所述的文本检测模型训练方法，其特征在于，对所述多个训练图像进行数据扩增处理，包括：

5.如权利要求1所述的文本检测模型训练方法，其特征在于，融合注意力机制的特征提取层包括多个通道，多个通道之间融合注意力机制；

通过所述特征提取层提取所述目标训练图像对应的多个不同尺度的初始特征图，包括：

通过所述多个通道和所述多个通道之间融合注意力机制提取所述目标训练图像对应的多个不同尺度的初始特征图。

6.如权利要求1所述的文本检测模型训练方法，其特征在于，通过所述特征池化层将所述多个不同尺度的初始特征图进行池化，包括：

7.如权利要求1所述的文本检测模型训练方法，其特征在于，所述特征融合层包括特征图金字塔网络；

8.如权利要求7所述的文本检测模型训练方法，其特征在于，在所述多个预测框中确定目标预测框，包括：

确定分值最高的预测框为目标预测框。

9.如权利要求1所述的文本检测模型训练方法，其特征在于，基于所述目标预测框和所述目标训练图像对应的标注框确定损失值，包括：

10.如权利要求1所述的文本检测模型训练方法，其特征在于，根据所述损失值对所述文本检测模型进行训练，包括：

11.一种文本检测方法，其特征在于，包括：

将所述待检测图像输入至预先训练好的文本检测模型，其中，所述文本检测模型是经过上述权利要求1-10任意一项所述的训练方法训练获得的，所述文本检测模型包括特征提取层、特征池化层和特征融合层，所述特征池化层包括空洞空间卷积池化金字塔，用以扩大输出信息的范围；

12.如权利要求11所述的文本检测方法，其特征在于，所述方法还包括：

获得所述待检测文本对应的文本内容信息。

13.一种文本检测模型训练装置，其特征在于，包括：

获取模块，被配置为将目标训练图像输入至文本检测模型，其中，所述目标训练图像标注有对应的标注框，所述文本检测模型包括特征提取层、特征池化层和特征融合层，所述特征池化层包括空洞空间卷积池化金字塔，用以扩大输出信息的范围；

14.一种文本检测装置，其特征在于，包括：

输入模块，被配置为将所述待检测图像输入至预先训练好的文本检测模型，其中，所述文本检测模型是经过上述权利要求1-10任意一项所述的训练方法训练获得的，所述文本检测模型包括特征提取层、特征池化层和特征融合层，所述特征池化层包括空洞空间卷积池化金字塔，用以扩大输出信息的范围；

15.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-10或者11-12任意一项所述方法的步骤。

16.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-10或者11-12任意一项所述方法的步骤。