CN116563840B

CN116563840B - 基于弱监督跨模态对比学习的场景文本检测与识别方法

Info

Publication number: CN116563840B
Application number: CN202310828211.3A
Authority: CN
Inventors: 裴文杰; 伍晶晶; 房正耀; 陈芳林; 卢光明
Original assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Current assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-09-05
Anticipated expiration: 2043-07-07
Also published as: CN116563840A

Abstract

本发明提供基于弱监督跨模态对比学习的场景文本检测与识别方法，涉及图像处理技术领域。方法包括：将待识别图像输入至文本识别模型中的第一图像编码器得到第一图像特征图；基于第一图像特征图获取概率特征图、字符位置特征图以及字符语义特征图；基于概率特征图、字符位置特征图和字符语义特征图中确定待识别图像中的文本识别结果；文本识别模型是基于多组包括样本待识别图像以及样本待识别图像对应的第一文本内容标签和文本区域位置标签的第一训练数据训练得到的；文本区域位置标签是基于标签生成模型生成的，标签生成模型基于多组包括样本待标注图像以及样本待标注图像中的第二文本内容标签的第二训练数据训练得到。本发明可以降低标注成本。

Description

基于弱监督跨模态对比学习的场景文本检测与识别方法

技术领域

本发明涉及图像处理技术领域，尤其涉及基于弱监督跨模态对比学习的场景文本检测与识别方法。

背景技术

场景文本检测识别的目的是检测和识别含有文本的场景图片中的文本实例。文本尺寸形状、排列方向的多样性以及场景的复杂性给文本的定位带来一定的困难，同时文本实例中字符的顺序结构和字体的多样性给文本的识别带来一定的挑战。

针对场景文本检测识别任务，现有技术中在对模型进行训练时，除了需要数据集中文本实例的字符标注，还依赖于每个文本实例对应的文本框标注以作为监督信息进行训练，也就是说，不仅要对样本图像中的文本内容进行人工标注，还需要对文本位置进行人工标注，而后者导致了现有的场景文本检测识别方法需要高昂的数据集标注成本。

发明内容

本发明提供基于弱监督跨模态对比学习的场景文本检测与识别方法，用以解决现有技术中场景文本检测识别任务数据集标注成本高的缺陷，实现降低数据集标注成本。

本发明提供一种基于弱监督跨模态对比学习的场景文本检测与识别方法，包括：

获取待识别图像，将所述待识别图像输入至已训练的文本识别模型中的第一图像编码器，获取所述第一图像编码器输出的第一图像特征图；

将所述第一图像特征图分别输入至所述文本识别模型中的锚定估计器、采样模块和识别模块，获取所述锚定估计器输出的概率特征图、所述采样模块输出的字符位置特征图以及所述识别模块输出的字符语义特征图，其中，所述概率特征图中的像素点的值反映所述像素点所在的位置为文本区域的概率，所述字符位置特征图中的像素点对应的特征向量反映像素点与像素点所在的所述文本区域中包括的各个字符之间的像素距离，所述字符语义特征图中的像素点对应的特征向量反映像素点所在位置为各个预设字符的概率，每个所述文本区域中包括一个文本词，一个所述文本词由至少一个字符组成；

基于所述概率特征图和所述字符位置特征图确定各个所述文本区域中的字符位置，基于所述文本区域中的字符位置在所述字符语义特征图中确定每个所述文本区域中的字符以确定所述待识别图像中的文本识别结果，所述文本识别结果中包括所述待识别图像中的各个所述文本区域的位置以及所述文本区域内的文本内容，每个所述文本区域中包含一个文本词；

其中，所述文本识别模型是基于多组第一训练数据训练得到的，每组所述第一训练数据包括样本待识别图像以及所述样本待识别图像对应的第一文本内容标签和文本区域位置标签；所述样本待识别图像中的文本区域位置标签是基于已训练的标签生成模型生成的，所述标签生成模型基于多组第二训练数据训练得到，每组所述第二训练数据包括样本待标注图像以及所述样本待标注图像中的第二文本内容标签。

根据本发明提供的一种基于弱监督跨模态对比学习的场景文本检测与识别方法，基于所述标签生成模型生成所述文本区域位置标签的过程包括：

将所述样本待识别图像输入至所述标签生成模型中的第二图像编码器，得到所述第二图像编码器输出的第二图像特征图，将所述样本待识别图像对应的所述第一文本内容标签输入至所述标签生成模型中的文本编码器，得到所述文本编码器输出的文本特征；

基于所述第二图像特征图和所述文本特征生成激活特征图，所述激活特征图每个像素点对应的像素值反映所述第二图像特征图中每个像素点对应的特征向量与所述文本特征之间的相似性；

将所述激活特征图中对应的像素值大于预设阈值的像素点的位置作为所述文本区域位置标签。

根据本发明提供的一种基于弱监督跨模态对比学习的场景文本检测与识别方法，所述标签生成模型的训练过程包括：

将多个所述样本待标注图像中的第一样本待标注图像输入至所述第二图像编码器，将所述样本待标注图像中的所述第二文本内容标签输入至所述文本编码器，得到所述第二图像编码器输出的所述第一样本待标注图像对应的样本第二图像特征图和所述文本编码器输出的样本文本特征；

基于所述第一样本待标注图像对应的样本第二图像特征图和所述样本文本特征生成第一样本激活特征图；

将所述第一样本激活特征图与所述第一样本待标注图像对应的样本第二图像特征图进行点乘，得到第一加权图片特征向量；

基于所述第一加权图片特征向量与所述样本文本特征的相似性获取第一训练损失，基于所述第一训练损失更新所述标签生成模型的参数。

根据本发明提供的一种基于弱监督跨模态对比学习的场景文本检测与识别方法，所述基于所述第一训练损失更新所述标签生成模型的参数，包括：

将多个所述样本待标注图像中的第二样本待标注图像输入至所述第二图像编码器，得到所述第二样本待标注图像对应的样本第二图像特征图；

基于所述第二样本待标注图像对应的样本第二图像特征图和所述样本文本特征生成第二样本激活特征图；

将所述第二样本激活特征图与所述第二样本待标注图像对应的样本第二图像特征图进行点乘，得到第二加权图片特征向量；

基于所述第二加权图片特征向量与所述样本文本特征的相似性获取第二训练损失；

基于所述第一训练损失和所述第二训练损失更新所述标签生成模型的参数。

根据本发明提供的一种基于弱监督跨模态对比学习的场景文本检测与识别方法，所述基于所述概率特征图和所述字符位置特征图确定各个所述文本区域中的字符位置，包括：

基于所述概率特征图中对应的像素值大于预设阈值的像素点位置在所述字符位置特征图中确定至少一个第一目标像素点；

基于所述字符位置特征图中所述第一目标像素点对应的特征向量确定各个所述文本区域中的字符位置。

根据本发明提供的一种基于弱监督跨模态对比学习的场景文本检测与识别方法，所述第二图像编码器包括多个卷积层，所述将所述样本待识别图像输入至所述标签生成模型中的第二图像编码器，得到所述第二图像编码器输出的第二图像特征图，包括：

通过第一卷积层对所述样本待识别图像进行卷积，得到第一特征图，通过第二卷积层对所述第一特征图进行卷积，得到第二特征图，通过第三卷积层对所述第二特征图进行卷积，得到第三特征图，通过第四卷积层对所述第三特征图进行卷积，得到第四特征图，其中，所述第一特征图、所述第二特征图、所述第三特征图和所述第四特征图的尺寸依次减小；

对所述第四特征图和所述第三特征图进行上采样后与所述第二特征图连接，得到第五特征图，对所述第三特征图和所述第二特征图进行上采样后与所述第一特征图连接，得到第六特征图；

将所述第五特征图和所述第六特征图作为多尺度可变注意力模块的输入，得到所述多尺度可变注意力模块输出的所述第二图像特征图。

根据本发明提供的一种基于弱监督跨模态对比学习的场景文本检测与识别方法，所述文本识别模型的训练过程包括：

将所述样本待识别图像输入至所述文本识别模型，获取所述文本识别模型输出的样本文本识别结果，以及所述文本识别模型中的所述锚定估计器输出的样本概率特征图；

基于所述样本文本识别结果、所述样本待识别图像对应的所述第一文本内容标签和所述文本区域位置标签，得到第三损失；

基于所述样本概率特征图和所述文本区域位置标签对应的所述激活特征图，得到第四损失；

基于所述第三损失和所述第四损失更新所述文本识别模型的参数。

本发明还提供一种基于弱监督跨模态对比学习的场景文本检测与识别装置，包括：

图像编码模块，用于获取待识别图像，将所述待识别图像输入至已训练的文本识别模型中的第一图像编码器，获取所述第一图像编码器输出的第一图像特征图；

特征处理模块，用于将所述第一图像特征图分别输入至所述文本识别模型中的锚定估计器、采样模块和识别模块，获取所述锚定估计器输出的概率特征图、所述采样模块输出的字符位置特征图以及所述识别模块输出的字符语义特征图，其中，所述概率特征图中的像素点的值反映所述像素点所在位置为文本区域的概率，所述字符位置特征图中的像素点对应的特征向量反映像素点与像素点所在的所述文本区域中包括的各个字符之间的像素距离，所述字符语义特征图中的像素点对应的特征向量反映像素点所在位置为各个预设字符的概率，每个所述文本区域中包括一个文本词，一个所述文本词由至少一个字符组成；

文字检测识别模块，用于基于所述概率特征图和所述字符位置特征图确定各个所述文本区域中的字符位置，基于所述文本区域中的字符位置在所述字符语义特征图中确定每个所述文本区域中的字符以确定所述待识别图像中的文本识别结果，所述文本识别结果中包括所述待识别图像中的各个所述文本区域的位置以及所述文本区域内的文本内容，每个所述文本区域中包含一个文本词；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于弱监督跨模态对比学习的场景文本检测与识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于弱监督跨模态对比学习的场景文本检测与识别方法。

本发明提供的一种基于弱监督跨模态对比学习的场景文本检测与识别方法，通过图像以及图像中的文本内容标签两个模态的数据训练标签生成模型，利用训练完成的标签生成模型生成文本区域位置标签，再将文本区域位置标签和文本内容标签、文本区域位置标签作为文本识别模型的监督训练文本识别模型，这样就不需要对图像中的文本位置进行人工标注，进一步地，在文本识别模型中对输入的图像的图像特征图进行三种处理，得到反映文本区域位置的概率特征图、反映文本区域中字符位置的字符位置特征图和反映字符的字符语义特征图，基于这三个特征图逐步确定最终的文本字符以及文本区域，保证了文本识别结果的准确性。本发明提供的方法，仅需要文本实例的内容标注作为监督信号，不需要对文本位置进行人工标注，在保证了场景文本检测识别结果准确性的基础上极大降低了数据集标注成本。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于弱监督跨模态对比学习的场景文本检测与识别方法的流程示意图；

图2是现有的场景文本检测与识别方法的示意图一；

图3是现有的场景文本检测与识别方法的示意图二；

图4是本发明提供的基于弱监督跨模态对比学习的场景文本检测与识别方法的模型框架示意图；

图5是本发明提供的基于弱监督跨模态对比学习的场景文本检测与识别方法中标签生成模型的工作流程示意图；

图6是本发明提供的基于弱监督跨模态对比学习的场景文本检测与识别方法中第一图像编码器的工作流程示意图；

图7是本发明提供的基于弱监督跨模态对比学习的场景文本检测与识别方法中标签生成模型中的文本编码器的工作流程示意图；

图8是本发明提供的基于弱监督跨模态对比学习的场景文本检测与识别方法中加权图片特征向量的生成过程示意图；

图9是本发明提供的基于弱监督跨模态对比学习的场景文本检测与识别方法中文本识别模型的工作流程示意图；

图10是本发明提供的基于弱监督跨模态对比学习的场景文本检测与识别方法中输出的文本识别结果的应用示意图一；

图11是本发明提供的基于弱监督跨模态对比学习的场景文本检测与识别方法中输出的文本识别结果的应用示意图二；

图12是本发明提供的基于弱监督跨模态对比学习的场景文本检测与识别方法的效果示意图；

图13是本发明提供的基于弱监督跨模态对比学习的场景文本检测与识别装置的结构示意图；

图14是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图12描述本发明的基于弱监督跨模态对比学习的场景文本检测与识别方法，本发明提供的该方法，可以是应用于具备计算能力的电子设备中，所述电子设备可以但不限于是各种计算机、移动终端、穿戴式智能设备等。

在现有技术中，场景文本的检测识别模型需要利用数据集的文本内容标注和文本框标注，主要有如图2所示的两阶段方法和如图3所示的端到端的一阶段方法，这些方法中由于需要对数据集进行文本内容标注和文本框标注，而场景文本检测识别模型在实际应用中需要大量的数据集进行训练，从而带来了高昂的标注成本。

针对现有技术中场景文本检测识别任务中模型训练需要对数据集中的文本内容和文本框均进行标注，标注成本高的缺陷，本发明提供的一种基于弱监督跨模态对比学习的场景文本检测与识别方法，旨在降低标注场景文本检测识别任务的模型训练数据集的标注成本。

如图1所示，本发明提供的方法，包括步骤：

S110、获取待识别图像，将所述待识别图像输入至已训练的文本识别模型中的第一图像编码器，获取所述第一图像编码器输出的第一图像特征图；

S120、将所述第一图像特征图分别输入至所述文本识别模型中的锚定估计器、采样模块和识别模块，获取所述锚定估计器输出的概率特征图、所述采样模块输出的字符位置特征图以及所述识别模块输出的字符语义特征图，其中，所述概率特征图中的像素点的值反映所述像素点所在位置为文本区域的概率，所述字符位置特征图中的像素点对应的特征向量反映像素点与像素点所在的所述文本区域中包括的各个字符之间的像素距离，所述字符语义特征图中的像素点对应的特征向量反映像素点所在位置为各个预设字符的概率，每个所述文本区域中包括一个文本词，一个所述文本词由至少一个字符组成；

S130、基于所述概率特征图和所述字符位置特征图确定各个所述文本区域中的字符位置，基于所述文本区域中的字符位置在所述字符语义特征图中确定每个所述文本区域中的字符以确定所述待识别图像中的文本识别结果，所述文本识别结果中包括所述待识别图像中的各个所述文本区域的位置以及所述文本区域内的文本内容，每个所述文本区域中包含一个文本词。

本发明提供的方法，通过图像以及图像中的文本内容标签两个模态的数据训练标签生成模型，利用训练完成的标签生成模型生成文本区域位置标签，再将文本区域位置标签和文本内容标签、文本区域位置标签作为文本识别模型的监督训练文本识别模型，这样就不需要对图像中的文本位置进行人工标注，进一步地，在文本识别模型中对输入的图像的图像特征图进行三种处理，得到反映文本区域位置的概率特征图、反映文本区域中字符位置的字符位置特征图和反映字符的字符语义特征图，基于这三个特征图逐步确定最终的文本字符以及文本区域，保证了文本识别结果的准确性。本发明提供的方法，仅需要文本实例的内容标注作为监督信号，不需要对文本位置进行人工标注，在保证了场景文本检测识别结果准确性的基础上极大降低了数据集标注成本。

如图4所示，本发明提供的方法，先对图4左侧部分示出的标签识别模型进行训练，训练后基于所述标签识别模型生成文本区域位置标签，之后将样本待识别图像对应的文本内容标签和生成的文本区域位置标签组合用于训练图4右边示出的文本识别模型，最后利用训练好的所述文本识别模型执行场景文本检测和识别任务。

具体地，基于所述标签生成模型生成所述文本区域位置标签的过程包括：

用于训练所述文本识别模型的所述样本待识别图像，先通过已训练的所述标签生成模型生成对应的所述文本区域位置标签。如图5所示，所述标签生成模型中包括第二图像编码器和文本编码器，所述样本待识别图像被输入至所述第二图像编码器进行特征提取，得到所述第二图像特征图，所述样本待识别图像对应的所述第一文本内容标签被输入至所述文本编码器进行特征提取，得到所述文本特征。

具体来说，所述第二图像编码器包括多个卷积层，所述将所述样本待识别图像输入至所述标签生成模型中的第二图像编码器，得到所述第二图像编码器输出的第二图像特征图，包括：

输入至所述第二图像编码器的所述样本待识别图像经处理后，首先采用多层卷积层从不同卷积深度提取多尺度特征，再进行多尺度特征的融合。如图6所示出的例子，输入的RGB格式的所述样本待识别图像经过前处理后，分别通过卷积层Conv2_x、Conv3_x、Conv4_x和Conv5_x得到不同尺寸的特征图像c2,c3,c4和c5。其中c5和c4经过上采样操作与c3连接，作为原图1/8大小的特征f1；c4,c3经过上采样操作与c2连接，作为原图1/4大小的特征f2。经过上述多尺度特征融合操作得到的不同尺寸的特征图能够使得模型对图像中不同的文本尺寸检测均能够进行响应。f1、f2作为多尺度可变自注意模块不同尺寸的输入进行多尺度可变自注意，最终得到原始尺寸1/8、维度512的图像编码特征。

所述文本编码器对所述样本待标注图像中的所述第二文本内容标签进行编码，得到所述样本文本特征的具体过程包括：

获取所述第二文本内容标签中的每个字符对应的个体向量标记并进行拼接，得到文本标记；

基于所述第二文本内容标签中每个字符的先后序列信息，确定每个字符对应的次序标记，融合所述文本标记和所述次序标记，得到中间文本特征向量；

对所述文本特征向量进行相关性建模，得到所述文本特征向量。

对所述文本特征向量进行相关性建模可以是通过Transformer结构实现。如图7所示出的例子，为了使给定文本标注的标记在不同字符之间区分，学习字母表中每个字符的C维的个体向量标记。然后，通过对给定K字符的文本标注中每个字符的相应向量标记进行索引并将索引结果按次序进行拼接，即得到KxC维的文本标记。同时，为了学习文本标记中字符之间的先后序列信息，学习每个字符位置的次序标记，并通过字符级特征加法融合相应位置的文本标记和位置标记，从而能够采用Transformer结构对该文本标记的字符标记之间进行特征交互，以对它们之间的相关性进行建模。最终对字符标注进行平均操作得到512维的文本特征向量。

得到所述第二图像特征图和所述文本特征之后，先测量所述文本特征和所述第二图像特征图中的每一个像素之间的外观相似性，以得到激活特征图。具体来说，所述激活特征图每个像素点对应的像素值反映所述第二图像特征图中每个像素点对应的特征向量与所述文本特征之间的相似性，该相似性可以通过余弦相似度来表征。所述激活特征图中每一个像素是[0,1]之间的连续值，而不是二进制；值越高表示对文本编码特征的响应越强。在训练过程中以这种软建模的方式学习激活映射能够简化梯度传播的优化方式，并可以保留比二进制值更丰富的相似性信息。此外，激活特征图显示了文本编码特征向量与场景图像各像素的匹配程度，而峰值最活跃的像素可以被识别为该文本的锚点。文本的锚点可以是文本区域的中心点。也就是说，将所述激活特征图中对应的像素值足够大（大与预设阈值）的像素点的位置所述文本区域位置标签从而反映文本区域的位置。

为了使得所述标签生成模型能够实现生成准确的所述文本区域位置标签，所述标签生成模型的训练过程包括：

所述基于所述第一训练损失更新所述标签生成模型的参数，包括：

如图8所示，对于用于训练所述标签生成模型的所述样本待标注图像，利用学习到的所述激活特征图作为加权值聚合与文本编码特征向量相关的图像特征，从而得到该所述样本待标注图像对应的加权图片特征向量，将该所述样本待标注图像中的所述第二文本内容标签对应的所述样本文本特征与该所述样本待标注图像对应的加权图片特征向量组合成为正样本对，将该所述样本待标注图像对应的所述样本文本特征与基于该所述样本待标注图像中的所述第二文本内容标签对应的所述样本文本特征与另一所述样本待标注图像生成另一加权图片特征向量组合成为负样本对。以使得最大化正样本对中的两个特征向量之间的相似性，最小化负样本对中的两个特征向量之间的相似性为目标训练所述标签生成模型，这样可以使文本特征向量作为集群中心，将所有与其成正样本对的图像与之关联，以学习所有和该文本相关的区域图像之间的相似外观模式，而负样本对则防止模型对于不同文本学习统一的模式而造成模式坍塌。

利用训练完成的所述标签生成模型生成的文本区域位置标签作为所述文本识别模型的监督信号，进一步地训练所述文本识别模型。下面首先对所述文本识别模型的工作过程进行说明。

如图9所示，待识别图像输入至所述文本识别模型后，首先被第一图像编码器处理，得到所述第一图像特征图，所述第一图像特征图之后分别被输入至所述文本识别模型中的锚定估计器、采样模块和识别模块，获取所述锚定估计器输出的概率特征图、所述采样模块输出的字符位置特征图以及所述识别模块输出的字符语义特征图。所述基于所述概率特征图和所述字符位置特征图确定各个所述文本区域中的字符位置，包括：

所述概率特征图中的像素点的像素值反映该像素点所在位置为文本区域的概率，举例来说，所述锚定估计器可以由1x1的卷积层以及以sigmoid作为激活函数的激活层组成，将所述第一图像特征图映射为相同尺寸，维度为1的所述概率特征图，其中像素值越接近1，则代表该位置为锚点的概率越大，也即该区域存在文本的可能性越大。当所述概率特征图像素点对应的像素值大于所述预设阈值时，可以判断该像素点为文本区域的锚点，在所述字符位置特征图中将该像素点对应的位置处的像素点作为所述第一目标像素点。

所述字符位置特征图中每个像素点对应一个2K维的特征向量，K为预先设定的单个词中包括的字符数量的最大值。举例来说，所述采样模块由三个3x3的卷积层、一个1x1的卷积层以及卷积层之间的正则化和ReLU激活函数组成，将所述第一图像特征图映射为相同尺寸，维度为2K的采样点坐标偏移量三维矩阵（即所述字符位置特征图），比如，对于尺寸为HxW，维度为2K的采样点坐标偏移量三维矩阵，其像素坐标为(i,j)处的2K维的向量的值分别为K个采样点的每个采样点相对于(i,j)的横、纵坐标偏移值(Δxk,Δyk)。于是第k个采样点的坐标即为(i+Δxk,j+Δyk)。而此样的采样点共有K个，分别对应一个文本实例中，每个字符所在的具体位置。

根据所述字符位置特征图中的所述第一目标像素点对应的特征向量，可以确定每个所述第一目标像素点周围的字符所在的位置，确定各个所述文本区域中的字符位置后，在所述字符语义特征图中确定每个字符位置对应的是什么字符，进而得到所述文本识别结果。

所述字符语义特征图中的每个像素点对应的像素值反映该像素点所在位置对应的是什么字符。举例来说，所述识别模块由四个3x3的卷积层、一个1x1的卷积层以及卷积层之间的正则化和ReLU激活函数组成，将所述第一图像特征图映射为相同尺寸、维度为字符集数目+1的字符概率预测三维矩阵（即所述字符语义特征图）。每一个像素对{空字符}∪{字符集}中的所有字符预测其可能的概率，其中概率最大的字符则表示该像素对应的图像区域是此字符。

本发明提供的方法本地可在显存≥4G的Linux平台上进行推理。训练则需显存≥8G。也部署于云端提供服务。在所述标签生成模型（模型一）和所述文本识别模型（模型二）训练完成后，在实现场景文本检测和识别的基础上，还可以进一步利用识别结果完成多种任务。如图10所示，可以在文本识别之后进一步进行翻译，如图11所示，可以用于以是否包含某文本为查询条件的图片检索任务。

本发明提供的方法，使用弱监督的深度学习对图片文本进行定位与识别，大大降低了深度模型训练需要的标注成本，只需图片的文本内容标注即可实现效果优异的场景图片文本检测、定位与识别，实验结果表明本发明提供的方法在三个数据集上均大幅领先于现有的弱监督同类方法，如表1所示。

表1

在表1的四个数据集上，本发明提供的方法的检测识别结果的可视化如图12所示，可见，本发明提供的方法可视化效果很好。

将本发明提供的方法的识别结果应用于图片检索任务，即给定文本搜索场景中包含指定文本的所有图片，实验证明检索效果优于同类原理的其他场景文本检测识别模型，并且不逊色于图片检索领域的专用方法，结果如表2所示。

表2

本发明提供的模型一（所述标签生成模型），虽然仅在训练集通过对比学习确定文本标注的锚点的行为，但在测试集上也有较好的文本定位效果，如表3所示。因此可以作为一种数据集标注方法，仅通过输入图像中的文本，得到该文本的中心位置标注，同时此项技术整体能够实现自动化的场景文本标注。

表3

下面对本发明提供的基于弱监督跨模态对比学习的场景文本检测与识别装置进行描述，下文描述的基于弱监督跨模态对比学习的场景文本检测与识别装置与上文描述的基于弱监督跨模态对比学习的场景文本检测与识别方法可相互对应参照。如图13所示，本发明提供的基于弱监督跨模态对比学习的场景文本检测与识别装置包括：

图像编码模块1310，用于获取待识别图像，将所述待识别图像输入至已训练的文本识别模型中的第一图像编码器，获取所述第一图像编码器输出的第一图像特征图；

特征处理模块1320，用于将所述第一图像特征图分别输入至所述文本识别模型中的锚定估计器、采样模块和识别模块，获取所述锚定估计器输出的概率特征图、所述采样模块输出的字符位置特征图以及所述识别模块输出的字符语义特征图，其中，所述概率特征图中的像素点的值反映所述像素点所在位置为文本区域的概率，所述字符位置特征图中的像素点对应的特征向量反映像素点与像素点所在的所述文本区域中包括的各个字符之间的像素距离，所述字符语义特征图中的像素点对应的特征向量反映像素点所在位置为各个预设字符的概率，每个所述文本区域中包括一个文本词，一个所述文本词由至少一个字符组成；

文字检测识别模块1330，用于基于所述概率特征图和所述字符位置特征图确定各个所述文本区域中的字符位置，基于所述文本区域中的字符位置在所述字符语义特征图中确定每个所述文本区域中的字符以确定所述待识别图像中的文本识别结果，所述文本识别结果中包括所述待识别图像中的各个所述文本区域的位置以及所述文本区域内的文本内容，每个所述文本区域中包含一个文本词；

图14示例了一种电子设备的实体结构示意图，如图14所示，该电子设备可以包括：处理器(processor)1410、通信接口(Communications Interface)1420、存储器(memory)1430和通信总线1440，其中，处理器1410，通信接口1420，存储器1430通过通信总线1440完成相互间的通信。处理器1410可以调用存储器1430中的逻辑指令，以执行基于弱监督跨模态对比学习的场景文本检测与识别方法，该方法包括：获取待识别图像，将所述待识别图像输入至已训练的文本识别模型中的第一图像编码器，获取所述第一图像编码器输出的第一图像特征图；

将所述第一图像特征图分别输入至所述文本识别模型中的锚定估计器、采样模块和识别模块，获取所述锚定估计器输出的概率特征图、所述采样模块输出的字符位置特征图以及所述识别模块输出的字符语义特征图，其中，所述概率特征图中的像素点的值反映所述像素点所在位置为文本区域的概率，所述字符位置特征图中的像素点对应的特征向量反映像素点与像素点所在的所述文本区域中包括的各个字符之间的像素距离，所述字符语义特征图中的像素点对应的特征向量反映像素点所在位置为各个预设字符的概率，每个所述文本区域中包括一个文本词，一个所述文本词由至少一个字符组成；

此外，上述的存储器1430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于弱监督跨模态对比学习的场景文本检测与识别方法，该方法包括：获取待识别图像，将所述待识别图像输入至已训练的文本识别模型中的第一图像编码器，获取所述第一图像编码器输出的第一图像特征图；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于弱监督跨模态对比学习的场景文本检测与识别方法，其特征在于，包括：

2.根据权利要求1所述的基于弱监督跨模态对比学习的场景文本检测与识别方法，其特征在于，基于所述标签生成模型生成所述文本区域位置标签的过程包括：

3.根据权利要求2所述的基于弱监督跨模态对比学习的场景文本检测与识别方法，其特征在于，所述标签生成模型的训练过程包括：

4.根据权利要求3所述的基于弱监督跨模态对比学习的场景文本检测与识别方法，其特征在于，所述基于所述第一训练损失更新所述标签生成模型的参数，包括：

5.根据权利要求1所述的基于弱监督跨模态对比学习的场景文本检测与识别方法，其特征在于，所述基于所述概率特征图和所述字符位置特征图确定各个所述文本区域中的字符位置，包括：

6.根据权利要求2所述的基于弱监督跨模态对比学习的场景文本检测与识别方法，其特征在于，所述第二图像编码器包括多个卷积层，所述将所述样本待识别图像输入至所述标签生成模型中的第二图像编码器，得到所述第二图像编码器输出的第二图像特征图，包括：

7.根据权利要求2所述的基于弱监督跨模态对比学习的场景文本检测与识别方法，其特征在于，所述文本识别模型的训练过程包括：

8.一种基于弱监督跨模态对比学习的场景文本检测与识别装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于弱监督跨模态对比学习的场景文本检测与识别方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于弱监督跨模态对比学习的场景文本检测与识别方法。