CN112560866B

CN112560866B - 一种基于背景抑制的ocr识别方法

Info

Publication number: CN112560866B
Application number: CN202110211002.5A
Authority: CN
Inventors: 龚毓秀; 顾善中; 田晓明
Original assignee: Jiangsu Seuic Technology Co ltd
Current assignee: Seuic Technologies Co Ltd
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-05-04
Anticipated expiration: 2041-02-25
Also published as: CN112560866A

Abstract

本发明公开了一种基于背景抑制的OCR识别方法，步骤包括：通过后台服务程序实时监听识别触发信号；在监听到识别触发信号后，启动识别相机进行待识别图像采集；将采集的待识别图像输入前景提取网络模型中提取出前景图像，再将提取出的前景图像输入OCR识别模型中进行OCR识别；将OCR识别结果提交至用户界面主窗口中等待人工验证确认，输出OCR识别结果。该基于背景抑制的OCR识别方法能够在背景复杂的情况下，切换成深度学习OCR识别方式获取到字符信息，通过前景图像的提取以及背景抑制损失等方法来抑制背景特征信息，加强前景字符的特征信息，在很大程度上提高了字符识别的准确率。

Description

一种基于背景抑制的OCR识别方法

技术领域

本发明涉及一种OCR识别方法，尤其是一种基于背景抑制的OCR识别方法。

背景技术

字符识别通常称为光学字符识别（OCR, Optical Character Recognition），由计算机来实现，OCR技术也就演变成一种利用光学技术对文字和字符进行扫描识别，并将其转化成计算机内码的技术。当前OCR技术已经从用于有限字符集的原始方案转变为应用更复杂的技术来实现全字符识别和手写字符识别。

随着光学字符识别(OCR)技术的兴起与发展，许多学者开始进行对图像中字符识别进行研究。图像的文字提取对识别嵌入在复杂图像中的文字信息具有重要的意义和作用。数字图像中包含了大量有用的信息。图像中的文字信息是帮助理解图像内容高层语义的重要线索。尽管已经开发了许多用于字符识别的算法，但该问题尚未得到令人满意的解决，尤其是在手写或打印质量没有严格限制的情况下。但是由于OCR识别技术能够更快地读取文本，所以它仍然很有吸引力。

一般通过拍摄设备获得的图片分为带有自然场景的图片和纯文字图片。由于自然场景的复杂性，造成了处于其中的文字背景相当复杂，同时由于拍摄地点、拍摄角度和光线强弱等各种原因造成的文字的字体、大小、对比度以及亮度等不均匀，增大了定位文本区域的难度，直接影响了文字区域定位的准确性和字符识别的结果。将复杂背景下彩色图像中的文字信息，转化为能够被计算机认识和处理的文本信息主要包括三个大部分，分别是文字区域的提取、字符图像的预处理和字符的识别。典型的OCR识别方法是将字符图像数字化。首先对每个字符进行定位和分割，然后将得到的字符图像馈送到预处理器中以进行降噪和归一化。接着将字符放入特征提取器中提取某些特征，最后使用分类器进行字符分类。

但是由于图像中的文字通常叠加在复杂的图像背景之上，传统OCR识别技术在这些场景下主要的困难在于：自然场景下广告牌、包装盒等弯曲造成的字符遮挡、褶皱、变形；需要多个相机从不同角度进行拍摄并且开发工具耗时较长，需要大量时间来做优化；背景易受干扰、易反光，准确率低于90%；字符相近、倾斜、印迹不明显，识别难度大。

发明内容

发明目的：提供一种基于背景抑制的OCR识别方法，能够在背景复杂的情况下，切换成深度学习OCR识别方式获取到字符信息，通过前景图像的提取以及背景抑制损失等方法来抑制背景特征信息，加强前景字符的特征信息，在很大程度上提高了字符识别的准确率。

技术方案：本发明所述的基于背景抑制的OCR识别方法，包括如下步骤：

步骤1，通过后台服务程序实时监听识别触发信号；

步骤2，在监听到识别触发信号后，启动识别相机进行待识别图像采集；

步骤3，将采集的待识别图像输入训练好的前景提取网络模型中提取出前景图像，再将提取出的前景图像输入训练好的OCR识别模型中进行OCR识别；

步骤4，将OCR识别结果提交至用户界面主窗口中等待人工验证确认，若接收到识别正确的确认信息，则输出OCR识别结果，若接收到识别错误的确认信息，则给出人工修正字符的窗口，并输出人工修正后的OCR识别结果。

进一步，步骤3中，前景提取网络模型在训练时包括如下步骤：

步骤a，构建前景提取网络模型数据集：

首先随机选取一张背景图像，并在背景图像上随机生成不同颜色且含有字母、数字以及中文的文本标签，将含文本标签的背景图像作为训练图像；

对训练图像进行二值化处理，背景图像部分的像素值设置为0，文本标签部分的像素值设置为1，从而生成二值化的类别掩膜图像，同时将文本标签作为OCR识别模型数据集的分类标签信息进行保存；

利用各个训练图像及其类别掩膜图像组合构建成前景提取网络模型数据集；

步骤b，训练前景提取网络模型：

将前景提取网络模型数据集放入deeplabV3+前景提取网络中进行训练，使得输入一张训练图像后，即可输出对应的类别掩膜图像，并保存已训练完成的前景提取网络模型。

进一步的，步骤3中，OCR识别模型在训练时包括如下步骤：

步骤c，构建OCR识别模型数据集：

首先获取前景提取网络模型数据集中的各个训练图像及其类别掩膜图像，再结合训练图像和类别掩膜图像通过空间分割机制获得对应的文本字符图像，再将各个训练图像、背景图像以及文本字符图像分别构成全景训练图像集、背景训练图像集以及前景训练图像集，并将保存的分类标签信息作为OCR识别模型数据集的文本分类标签；

利用全景训练图像集、背景训练图像集、前景训练图像集以及文本分类标签组合构建成OCR识别模型数据集；

步骤d，训练OCR识别网络模型：

将全景训练图像集、背景训练图像集、前景训练图像集中的全景图像、背景图像以及前景图像同时放入OCR识别网络中进行训练优化，使得全景图像特征与前景图像特征之间的距离越近，且全景图像特征与背景图像特征之间的距离越远，并通过文本分类标签对提取出来的前景图像进行准确分类。

进一步的，步骤3中，训练OCR识别网络模型的具体步骤为：

将前景图像、背景图像以及全景图像输入OCR识别网络模型，三个图像均通过两次下采样后生成三个不同尺寸的图像；

由卷积神经网络DenseNet分别对三个不同尺度的图像进行特征提取，得到每个图像不同尺度的特征信息，再对三个图像不同尺度的特征信息进行特征融合，获得三个初期多尺度特征，分别为：前景初期多尺度特征f _fore、背景初期多尺度特征f _bk以及全景初期多尺度特征f _full；

将三个初期多尺度特征通过注意力机制来学习每个尺度特征的权重，生成对字符分类有效的多尺度特征，即为前景多尺度特征(f _fore)_a、背景多尺度特征(f _bk)_a以及全景多尺度特征(f _full)_a；

通过前景图像、背景图像以及全景图像分别得到对应的多尺度特征信息，将全景多尺度特征(f _full)_a和前景多尺度特征(f _fore)_a分别放入GRU网络来计算CTC损失，得到损失L _CTC ^fore和损失L _CTC ^full，即CTC损失L _CTC为：

L _CTC=αL _CTC ^fore +βL _CTC ^full

式中，α和β为权重系数；

对于前景多尺度特征(f _fore)_a、背景多尺度特征(f _bk)_a以及全景多尺度特征(f _full)_a来计算背景约束损失L _bkcst，即背景约束损失L _bkcst为：

L _bkcst=max{d((f _full)_a , (f _fore)_a)-d((f _full)_a , (f _bk)_a)+m,0}

式中，m为阈值系数，d((f _full)_a , (f _fore)_a)为全景多尺度特征与前景多尺度特征之间的距离，d((f _full)_a , (f _bk)_a)为全景多尺度特征与背景多尺度特征之间的距离；

最后得到总的损失为CTC损失L _CTC和背景约束损失L _bkcst，即总损失L _all为：

L _all=L _CTC+L _bkcst

通过降低总损失L _all来优化整个OCR识别网络模型。

进一步的，将三个初期多尺度特征通过注意力机制来学习每个尺度特征的权重的具体步骤为：

首先将初期多尺度特征x经过1×1×1卷积操作之后得到特征x ₁，特征x ₁的大小为C×H×W，再使用Softmax激活函数得到新的特征元素值δ(x ₁)，并与未使用激活函数的特征x ₁进行点乘操作得到特征矩阵δ(x ₁)

x ₁；

然后将特征矩阵δ(x ₁)

x ₁的大小调整为1×H×W，再通过1×1×1卷积操作进行通道数扩充，得到大小为C×H×W的特征((δ(x ₁)

x ₁)₁)_c；

最后与初期多尺度特征x进行残差操作得到最终的特征x

((δ(x ₁)

x ₁)₁)_c，由此特征x使用注意力机制方法得到的特征(x)_a为：

(x)_a=F(x, x

((δ(x ₁)

x ₁)₁)_c)

相应的前景多尺度特征(f _fore)_a为：

(f _fore)_a= F(f _fore, f _fore

((δ(f _{fore 1})

f _{fore 1})₁)_c)

相应的背景多尺度特征(f _bk)_a为：

(f _bk)_a= F(f _bk, f _bk

((δ(f _{bk 1})

f _{bk 1})₁)_c)

相应的全景多尺度特征(f _full)_a为：

(f _full)_a=F(f _full, f _full

((δ(f _{full 1})

f _{full 1})₁)_c)。

进一步的，步骤3中，将采集的待识别图像输入训练好的前景提取网络模型中提取出前景图像的具体步骤为：

利用训练好的前景提取网络模型对采集的待识别图像进行提取，获得对应的类别掩膜图像；

再将类别掩膜图像结合全景图像通过空间分割机制生成前景图像，再对前景图像进行分类标定；

最后将标定为前景图像的发送至OCR识别模型。

进一步的，步骤3中，将提取出的前景图像输入训练好的OCR识别模型中进行OCR识别的具体步骤为：

将前景图像输入训练好的OCR识别网络模型中进行特征提取和分类，得到置信度最高的文本标签，返回标签对应的文本信息作为识别结果。

进一步的，步骤4中，在将OCR识别结果提交至用户界面主窗口前，对OCR识别结果先通过实际模板进行内容过滤，过滤掉不需要的字符。

本发明与现有技术相比，其有益效果是：利用OCR识别网络模型能够在背景复杂的情况下，来抑制背景特征信息，加强前景（文本字符）特征信息，在很大程度上提高了字符识别的准确率；同时使用多尺度特征融合以及背景抑制损失等方法，一方面，通过权重融合多尺度样本特征，既学习与样本类最相关的部分，又有效的改善了网络特征提取不充分的问题，增强了特征信息；另一方面，可以区分前景特征、背景特征以及全景特征三种不同注意力特征之间的相似性，再次更好的抑制背景特征信息，加强前景（文本字符）特征信息。

附图说明

图1为本发明的OCR识别方法流程图；

图2为本发明的deeplabV3+前景提取网络结构图；

图3为本发明的OCR识别网络模型训练图；

图4为本发明的OCR识别网络模型图；

图5为本发明的前景提取网络数据集示例。

具体实施方式

下面结合附图对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

实施例1：

如图1所示，本发明提供的基于背景抑制的OCR识别方法包括如下步骤：

步骤1，通过后台服务程序实时监听识别触发信号，目前android系统只支持在软件可见的界面Activity中来监听按键操作，如程序运行在后台不可见，则无法监听，因此在系统中添加按键服务，在后台服务Service中可以通过注册服务的方式来判断按键是否按下；

步骤2，在监听到识别触发信号后，启动识别相机进行待识别图像采集，相机的预览图像显示在系统界面的最上层，可以覆盖在任何软件之上；

步骤4，将OCR识别结果提交至用户界面主窗口中等待人工验证确认，若接收到识别正确的确认信息，则输出OCR识别结果，若接收到识别错误的确认信息，则给出人工修正字符的窗口，并输出人工修正后的OCR识别结果，在Framework中添加功能，使得客户软件中的输入框自动填充OCR识别结果的字符信息。

利用前景提取网络模型能够在背景复杂的情况下，来抑制背景特征信息，加强前景图像的特征信息，在很大程度上提高了字符识别的准确率。

进一步的，步骤3中，前景提取网络模型在训练时包括如下步骤：

步骤a，构建前景提取网络模型数据集：

利用各个训练图像及其类别掩膜图像组合构建成前景提取网络模型数据集，前景提取网络数据集示例如图5所示；

步骤b，训练前景提取网络模型：

将前景提取网络模型数据集放入deeplabV3+前景提取网络中进行训练，使得输入一张训练图像后，即可输出对应的类别掩膜图像，并保存已训练完成的前景提取网络模型，deeplabV3+前景提取网络如图2所示。

前景提取网络模型将字符作为一种语义类别，也可以当作语义分割问题求解，将字符当作唯一的语义类别，其余当作背景，从而在图像中自动分割出属于字符的像素，并标定其类别。

进一步的，步骤3中，OCR识别模型在训练时包括如下步骤：

步骤c，构建OCR识别模型数据集：

步骤d，训练OCR识别网络模型：

将全景训练图像集、背景训练图像集、前景训练图像集中的全景图像、背景图像以及前景图像同时放入OCR识别网络中进行训练优化，使得全景图像特征与前景图像特征之间的距离越近，且全景图像特征与背景图像特征之间的距离越远，并通过文本分类标签对提取出来的前景图像进行准确分类，OCR识别网络模型图如图4所示。

进一步的，OCR识别网络模型训练图如图3所示，步骤3中，训练OCR识别网络模型的具体步骤为：

三个图像不同尺度的特征信息进行特征融合时：对三个不同尺度不同层之间进行特征进行融合，从层一到层四向后传递的过程中，包括同尺度不同层之间的特征融合，以及不用尺度不同层之间的特征融合，最后经过四层的特征融合之后形成初期多尺度特征。

L _CTC=αL _CTC ^fore +βL _CTC ^full

式中，α和β为权重系数；

L _bkcst=max{d((f _full)_a , (f _fore)_a)-d((f _full)_a , (f _bk)_a)+m,0}

L _all=L _CTC+L _bkcst

通过降低总损失L _all来优化整个OCR识别网络模型。

在OCR识别网络模型训练完成后，将tensorflow平台训练得到的.ckpt文件转换成.tflite文件，放在android系统中进行集成。

通过权重融合样本特征，学习与样本类最相关的部分。最终得到注意力特征即为多尺度特征。前景图像、背景图像以及全景图像分别得到对应的多尺度特征。一方面将前景多尺度特征、背景多尺度特征以及全景多尺度特征进行背景约束损失计算；另一方面将全景多尺度特征和前景多尺度特征放入GRU（Gated recurrent unit）网络中得到序列特征进行CTC（Connectionist Temporal Classification）损失计算。双损失结合的最小化来反向传播调整模型的权重参数，最终进行模型的训练优化。根据背景约束损失的计算来拉近全景特征与前景特征之间的距离，推远全景特征与背景特征之间的距离，使得全景特征与前景特征之间的距离越来越近，全景特征与背景特征之间的距离越来越远。同时将得到的全景多尺度特征信息放入GRU网络中，将得到的序列特征来计算CTC损失，无需对齐进行分类识别。

采用多种尺度提取图像特征，并通过注意力机制学习不同尺度特征的权重。考虑到网络特征提取不充分的问题，多尺度特征融合可以增强特征信息，同时如果使用均值计算类的方法忽略了不同样本特征对类具有不同的贡献度，通过注意力机制可以学习每个样本特征的权重。多尺度注意力特征网络针对特征在求解时没有考虑到不同尺度图像特征或不同样本特征的贡献度，使用多个注意力机制计算权重，学习到不同尺度注意力特征。同时不仅可以区分前景特征、背景特征以及全景特征三种不同注意力特征之间的相似性，更好的抑制背景特征，而且提高通过GRU网络得到的字符类别的准确率。

x ₁；

然后将特征矩阵δ(x ₁)

x ₁)₁)_c；

最后与初期多尺度特征x进行残差操作得到最终的特征x

((δ(x ₁)

(x)_a=F(x, x

((δ(x ₁)

x ₁)₁)_c)

相应的前景多尺度特征(f _fore)_a为：

(f _fore)_a= F(f _fore, f _fore

((δ(f _{fore 1})

f _{fore 1})₁)_c)

相应的背景多尺度特征(f _bk)_a为：

(f _bk)_a= F(f _bk, f _bk

((δ(f _{bk 1})

f _{bk 1})₁)_c)

相应的全景多尺度特征(f _full)_a为：

(f _full)_a=F(f _full, f _full

((δ(f _{full 1})

f _{full 1})₁)_c)。

注意力机制方法可以从冗余的信息中挑选出最重要的信息点，关注到特征矩阵中感兴趣的区域，并增加更多的关注点，抑制其它不重要的信息点，该注意力机制方法决定了在不同位置上对初期多尺度特征的注意力程度。卷积神经网络DenseNet中不同层之间进行特征融合传递，每层都经过3×3卷积、激活函数（比如：ReLU）以及特征融合操作，包括相同尺度不同层的连接融合以及不同尺度不同层的连接融合。

最后将标定为前景图像的发送至OCR识别模型。

进一步的，步骤4中，在将OCR识别结果提交至用户界面主窗口前，对OCR识别结果先通过实际模板进行内容过滤，过滤掉不需要的字符。比如模板的类型为：数数符数数，得到的内容为：“重17.88”，即过滤掉中文字符“重”，得到最终返回用户界面的字符：“17.88”。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上作出各种变化。