CN113963340A

CN113963340A - 基于并行迭代模仿解码的场景文字识别系统及方法

Info

Publication number: CN113963340A
Application number: CN202111026162.9A
Authority: CN
Inventors: 王伟平; 乔峙; 周宇; 王威
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2022-01-21
Anticipated expiration: 2041-09-02
Also published as: CN113963340B

Abstract

本发明公开了一种基于并行迭代模仿解码的场景文字识别系统及方法，涉及场景图像文本检测识别领域，综合了自回归和非自回归解码的优点，采用一种并行迭代的生成方式，针对不同长度的文本采用固定的迭代次数，并将“简单优先”策略引入到文字识别任务中，并引入一个额外的自回归解码器作为教师网络，使用自回归解码器FFN的输出作为额外的监督信号对并行解码器进行监督学习，并使用模仿学习来辅助并行解码器隐藏层的学习。本发明在多个公开的数据集上达到了最优的准确率，同时与自回归方法相比，速度上有明显的提升。

Description

基于并行迭代模仿解码的场景文字识别系统及方法

技术领域

本发明涉及场景图像文本检测识别领域，具体涉及一种基于并行迭代模仿解码的场景文字识别系统及方法。

背景技术

场景图像的文本检测与识别是近年来的研究热点，文字识别作为其中的关键技术受到越来越多的关注。其任务是将图片中的文字转录为计算机可以直接编辑的文字格式。现有的方法常采用非自回归解码或自回归解码两种方式，其中非自回归解码并行地预测所有字符，自回归解码常采用一种从左向右逐个字符的预测方式，两种解码方式在速度与准确率方面有各自的优势，但也各自存在一些不足：自回归解码按照从左向右地迭代预测文字，且迭代的次数依赖于目标文本的长度。尽管自回归解码的方式取得了令人满意的性能，但由于迭代次数的限制，推理速度较慢。非自回归解码在一个时间步内并行地预测出所有的结果。由于没有迭代预测地过程，非自回归解码有更快的推理速度，但忽略了不同预测之间的关系。由于条件独立的假设，非自回归的解码方式往往会遇到特征对齐和缺少字符上下文信息的问题。

现有已公开发明专利CN108615036A公开了一种基于卷积注意力网络的自然场景文本识别方法，其利用二维卷积CNN提取图像特征，特征提取能力弱，且欠缺对小字符的识别能力；在解码部分，采用了传统的从左向右的自回归式解码，这种解码方式受限于迭代次数，速度较慢，且从左到右的解码方式缺乏灵活性；而且其只是通过卷积来提取上下字符信息，只能关注临近字符，上下字符信息不完整。已公开发明专利CN110765966A公开了一种面向手写文字的一阶段自动识别与翻译方法，其特征提取模块仅仅使用了Transformer模块，特征提取能力弱，欠缺对小字符的识别能力；在解码部分，仅简单使用了CTC与Transformer的解码，CTC解码可以归为纯粹的非自回归解码，而基于Transformer的解码则为纯粹的自回归解码，两者在速度和准确率上都存在瓶颈。

目前，尚未有方法能够融合自回归解码和非自回归解码二者的优点来克服所存在的不足，该问题亟待解决。

发明内容

本发明的目的是结合自回归和非自回归解码的优势，提出一种基于并行迭代模仿解码的场景文字识别系统及方法，能够平衡场景图像文本识别的准确率和效率。

为达到上述目的，本发明采用以下技术方案：

一种基于并行迭代模仿解码的场景文字识别系统，包括：

骨干网络，用于提取场景图像的视觉特征，该骨干网络包括一个ResNet-50网络、一个特征金字塔网络FPN和两个Transformer模块，其中FPN用于融合多尺度的视觉特征，Transformer模块由自注意力层和前馈神经网络FFN构成，用于捕捉上下文信息；

并行解码器，基于Transformer的网络结构，包括自注意力层、二维注意力层和FFN，其中自注意力层的输入是上一次迭代预测结果经过自注意力层的嵌入层后的字符嵌入，该字符嵌入融合了位置编码的信息；该自注意力层为双向结构，用于提取字符间的上下文信息；该二维注意力层用于使用自注意力层的输出和骨干网络提取的视觉特征预测一组注意力权重，并得到相应加权后的视觉特征；FFN用于对二维注意力层的输出进行非线性变化，利用一个全连接层得到预测的概率分布；该并行解码器针对不同长度的文本采用固定的迭代次数，对场景图像的视觉特征进行文字预测，并在每次迭代中首先预测出置信度最高的位置；

自回归解码器，采用基于Transformer的网络结构，包括自注意力层、二维注意力层和FFN，该自注意力层使用掩膜防止自回归解码器使用当前字符以后的字符信息；该自回归解码器与并行解码器共享骨干网络，并对并行解码器进行端对端训练，训练过程中自回归解码器为并行解码器提供监督信号，并将自身的知识迁移到并行解码器中，并行解码器对自回归解码器的FFN层进行模仿学习。

进一步地，并行解码器的二维自注意力层通过采用多头点积操作计算注意力权重。

进一步地，并行解码器在解码过程中，引入掩膜符号作为下一次迭代待预测的占位符，具体包括：在预测阶段，并行解码器预测出在当前迭代中是所述掩膜符号位置对应的字符概率；在更新阶段，将目标文本的一些位置更新为最高置信度的几个预测字符，舍去其他位置的预测结果并再次替换为所述掩膜符号。

进一步地，并行解码器在解码过程中，引入终止符号，并用预测出的第一个所述终止符号指明文本的长度，并将左起第一个所述终止符号后预测的字符均替换为所述终止符号。

进一步地，并行解码器的自注意力层为双向结构，通过引入一个额外的掩膜来防止并行解码器被额外的所述掩膜符号干扰。

一种基于并行迭代模仿解码的场景文字识别方法，基于上述系统实现，包括训练阶段和使用阶段；

在训练阶段，包括以下步骤：

1)将作为训练数据的场景图像输入到骨干网络，提取该场景图像的视觉特征；

2)将所述视觉特征分别输入到并行解码器和自回归解码器中，该并行解码器采用简单优先策略对所述视觉特征进行并行迭代解码，针对不同长度文本采用固定的迭代次数；该自回归解码器对所述视觉特征进行从左到右的解码，同时引入掩膜来防止使用当前字符以后的字符信息；其中，该自回归解码器对并行解码器进行端对端训练，自回归解码器为并行解码器提供额外的监督信号，并将自身的知识迁移到并行解码器中，并行解码器对自回归解码器的FFN层进行模仿学习，输出识别的文字；

3)计算文字识别率和模仿学习损失，通过优化参数提高文字识别率和降低模仿学习损失来优化训练；

在使用阶段，包括以下步骤：

4)将目标场景图像输入到骨干网络，提取该场景图像的视觉特征；

5)移除自回归解码器，将所述视觉特征输入到训练好的并行解码器中，识别场景图像中的文字。

进一步地，所述优化参数包括：通过并行解码器与自回归解码器预测的概率分布与文字标注计算交叉熵损失进行文字识别率方面的参数优化，以及通过自回归解码器与并行解码器FFN层的输出使用L2损失进行模仿学习损失方面的参数优化。

与现有的方法相比，本发明综合了自回归和非自回归解码的优点，在模型准确率和效率上进行平衡。本发明在特征提取时使用了FPN与Transformer模块来提升模型的特征提取能力，其中FPN通过融合多尺度信息来提升模型对小字符的识别能力，Transformer模块通过自注意力机制扩大模型的感受野。本发明使用自注意力机制来提取上下文信息，具有更强的能力，能关注到更远位置的字符。本发明提出了一种新的并行迭代解码的网络，该网络采用一种并行迭代的生成方式，针对不同长度的文本采用固定的迭代次数，并将“简单优先”策略引入到文字识别任务中，与传统从左向右地预测模式不同，“简单优先”策略会动态地预测置信度更高的字符。同时为进一步提升并行解码器的优化质量，本发明引入一个额外的自回归解码器作为教师网络，使用自回归解码器FFN的输出作为额外的监督信号对并行解码器进行监督学习，并使用模仿学习来辅助并行解码器隐藏层的学习。本发明在多个公开的数据集上达到了最优的准确率，同时与自回归方法相比，速度上有明显的提升。

附图说明

图1是本发明基于的并行迭代模仿解码网络的结构图。

图2是“简单优先”策略的解码过程图。

图3是文本长度后处理的示例图。

图4是FFN输出之间的余弦相似度可视化图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本实施例综合了自回归和非自回归解码的优点，在模型准确率和效率上进行平衡，提出了一种基于并行迭代模仿解码的场景文字识别系统，采用并行迭代模仿解码的网络，如图1所示。该网络采用一种并行迭代的生成方式，并使用“简单优先”策略。在每次迭代中，保留预测置信度最高的几个字符。通过迭代的预测方式，相邻迭代之间可以提取上下文信息，这解决了并行解码条件独立的问题。同时为了提升并行解码器的学习，引入了模仿学习，并使用了额外的自回归解码器作为教师网络。并行解码器通过模仿自回归解码器前馈神经网络(FFN)层的输出来提升自身的训练质量，达到了更好的准确率。

本系统由骨干网络、并行解码器和自回归解码器组成，并采用迭代解码策略和简单优先策略，以及针对并行解码器的模仿学习方式实现，具体说明如下。

(1)骨干网络用于提取场景图像的丰富的视觉特征，采用标准的ResNet-50结构，同时使用了特征金字塔(FPN)来融合多尺度的视觉特征信息。骨干网络最终的输出是ResNet-50第三阶段的特征图，即原图1/8的大小。为了使模型更好地区分前景和背景区域，在FPN的输出上额外使用两个Transformer的模块，该模块由自注意力层和FFN构成。Transformer模块由于自注意力层的作用，可以捕捉更广的上下文信息，从而扩大模型感受野，达到更好的准确率。

(2)迭代解码策略是本系统的核心部分，其核心思想在于针对不同长度的文本采用固定的迭代次数。本发明还采用的是“简单优先”策略，在每次迭代中置信度最高的位置首先被预测出来，在解码过程中引入一个符号<MASK>，其作为下一次迭代待预测的一个占位符。其解码过程如图2所示。具体地，解码过程可以分为预测和更新两个关键步骤：预测阶段，并行解码器预测出在当前迭代中尚为<MASK>符号位置对应的字符概率。相反，已经更新后不是<MASK>符号的字符位置则不会再次预测；更新阶段，目标文本的一些位置将更新为最高置信度的几个预测字符，其他位置的预测结果会被抛弃并再次替换为<MASK>符号。在并行预测中，指定文本长度非常重要，通过文本长度可以让模型免受随机预测字符的影响。在本发明中，模型引入一个后处理过程来处理这个问题。如图3所示，同样在模型中引入<EOS>符号，并用预测出的第一个<EOS>指明文本的长度，并将左起第一个<EOS>后预测的字符均替换为<EOS>，这样多余的随机字符不会影响下一次的解码预测。

(3)并行解码器采用基于Transformer的结构，该结构没有任何循环神经网络(RNN)结构从而可以实现高并行性。并行解码器包含三个主要结构：自注意力层、二维注意力层和FFN。自注意力层的输入是上一次迭代预测结果经过嵌入层(用于将字符映射为高维特征向量)后的字符嵌入，与Transformer相同，字符嵌入同样融合了位置编码的信息。但与Transformer不同的是，该自注意力层没有使用掩膜来使模型无法利用当前字符以后的字符信息，所以该自注意力层是一个双向的结构。但同时，该自注意力层引入了一个额外的掩膜来防止模型被额外的<MASK>干扰。自注意力层的主要作用是提取字符间的上下文信息，这也是完全非自回归解码所欠缺的。二维注意力层的作用与传统注意力机制相同，即使用自注意力层的输出和骨干网络输出的二维特征图预测一组注意力权重，并得到相应加权后的视觉特征。这里注意力权重的计算方式采用了与Transformer相同的多头点积操作，多头注意力机制可以使模型关注更多的有效区域，从而引入更多有用的视觉信息。最后FFN为二维注意力层的输出进行非线性的变化，并利用一个全连接层得到预测的概率分布。

(4)针对并行解码器的模仿学习。在训练阶段，本发明提出使用模仿学习提升并行解码器的学习。具体来讲，使用一个自回归解码器作为教师网络，并与并行解码器共享骨干网络。与并行解码器类似，自回归解码器同样采用基于Transformer的结构，包括一个掩膜的自注意力层、一个二维注意力层和一个FFN。唯一不同的地方是自回归解码器为保证从左向右的解码，对输入进行了右移，同时引入了掩膜来防止模型使用当前字符以后的字符信息。与大部分基于蒸馏、模仿学习的方法不同，本方法的教师网络与学生网络(即并行解码器)共享一个骨干网络，从而可以实现端到端地训练，无需对教师网络进行预训练。除了共享骨干网络的联合训练，模仿学习为并行解码器提供了更多的监督信号并将自回归解码器的知识迁移到并行解码器中。具体地，本发明提出一种基于FFN的模仿学习，其中并行解码器模仿自回归解码器FFN层的输出，即自回归解码器FFN的输出用于监督并行解码器FFN相应的输出。

本实施例还提出一种基于并行迭代模仿解码的场景文字识别方法，其整个流程分为训练阶段和使用阶段，具体包括以下几步：

在训练阶段，包括以下步骤：

3)计算文字识别率和模仿学习损失，通过并行解码器与自回归解码器预测的概率分布与文字标注计算交叉熵损失进行识别准确率的参数优化，以及通过自回归解码器与并行解码器FFN层的输出使用L2损失即模仿学习的损失函数进行参数优化，从而提高文字识别率和降低模仿学习损失来优化训练；

在使用阶段，包括以下步骤：

以下通过实验验证本发明提出的系统及方法(以下称为PIMNet)：

本发明进行了广泛的实验，以评估PIMNet的效果。PIMNet在两个生成的数据Syn90K与SynthText上进行训练，在主流的几个场景文本数据集上进行测试。其中IIIT5K有3000张图像；大部分为高质量的水平图像；SVT有647张图像，大部分为水平文本；SVT-Perspective(SVTP)有645张图像，其中大部分文本有比较强的形变；ICDAR2013(IC13)有1015张图像，大部分为高质量的水平文本；ICDAR2015(IC15)有1811张图像和2077张图像的两种数据集，大部分为任意形状且低质量的文本图像；CUTE有288张图像，其中大部分为高质量的曲线文本。

图4可视化了FFN输出之间的余弦相似度。如图所示，并行解码器由于在初始迭代中接近于并行预测，容易预测出相似的输出，相似的输出进而会误导最终的识别。使用了模仿学习后的相似度矩阵与自回归解码器的十分相似，这证明了模仿学习的有效性。

表1对比了目前常见的几种解码方法之间速度。

表1不同解码器之间速度的对比

方法	时间(ms)
		CTC	16.3
一维注意力机制	50.4
		二维注意力机制	57.5
PIMNet(1次迭代)	17.6
		PIMNet(5次迭代)	28.4

如表1所示，5次迭代下的PIMNet相比于基于一维和二维注意力机制的方法速度快了两倍。当迭代次数为1时，模型的速度与完全非自回归解码的CTC接近。

表2将本发明提出的方法与现有的方法在准确率和效率上进行了对比，其中将现有的方法分为自回归和非自回归两大类。

表2在公开评测数据集上的性能对比

由表2可知，与自回归的方法相比，PIMNet可以达到相近的准确率，同时更快的速度。与其他非自回归方法相比，PIMNet在七个数据集上达到了六个最优准确率。

虽然本发明已以实施例公开如上，然其并非用以限定本发明，本领域的普通技术人员对本发明的技术方案进行的适当修改或者等同替换，均应涵盖于本发明的保护范围内，本发明的保护范围以权利要求所限定者为准。

Claims

1.一种基于并行迭代模仿解码的场景文字识别系统，其特征在于，包括：

2.如权利要求1所述的系统，其特征在于，并行解码器的二维自注意力层通过采用多头点积操作计算注意力权重。

3.如权利要求1所述的系统，其特征在于，并行解码器在解码过程中，引入掩膜符号作为下一次迭代待预测的占位符，具体包括：在预测阶段，并行解码器预测出在当前迭代中是所述掩膜符号位置对应的字符概率；在更新阶段，将目标文本的一些位置更新为最高置信度的几个预测字符，舍去其他位置的预测结果并再次替换为所述掩膜符号。

4.如权利要求1所述的系统，其特征在于，并行解码器在解码过程中，引入终止符号，并用预测出的第一个所述终止符号指明文本的长度，并将左起第一个所述终止符号后预测的字符均替换为所述终止符号。

5.如权利要求1所述的系统，其特征在于，并行解码器的自注意力层为双向结构，通过引入一个额外的掩膜来防止并行解码器被额外的所述掩膜符号干扰。

6.一种基于并行迭代模仿解码的场景文字识别方法，基于权利要求1-5任一项所述的系统实现，包括训练阶段和使用阶段；

在训练阶段，包括以下步骤：

在使用阶段，包括以下步骤：

7.如权利要求6所述的方法，其特征在于，所述优化参数包括：通过并行解码器与自回归解码器预测的概率分布与文字标注计算交叉熵损失进行文字识别率方面的参数优化，以及通过自回归解码器与并行解码器FFN层的输出使用L2损失进行模仿学习损失方面的参数优化。