Nothing Special   »   [go: up one dir, main page]

CN112560866B - 一种基于背景抑制的ocr识别方法 - Google Patents

一种基于背景抑制的ocr识别方法 Download PDF

Info

Publication number
CN112560866B
CN112560866B CN202110211002.5A CN202110211002A CN112560866B CN 112560866 B CN112560866 B CN 112560866B CN 202110211002 A CN202110211002 A CN 202110211002A CN 112560866 B CN112560866 B CN 112560866B
Authority
CN
China
Prior art keywords
image
foreground
background
ocr recognition
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110211002.5A
Other languages
English (en)
Other versions
CN112560866A (zh
Inventor
龚毓秀
顾善中
田晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seuic Technologies Co Ltd
Original Assignee
Jiangsu Seuic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Seuic Technology Co ltd filed Critical Jiangsu Seuic Technology Co ltd
Priority to CN202110211002.5A priority Critical patent/CN112560866B/zh
Publication of CN112560866A publication Critical patent/CN112560866A/zh
Application granted granted Critical
Publication of CN112560866B publication Critical patent/CN112560866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于背景抑制的OCR识别方法,步骤包括:通过后台服务程序实时监听识别触发信号;在监听到识别触发信号后,启动识别相机进行待识别图像采集;将采集的待识别图像输入前景提取网络模型中提取出前景图像,再将提取出的前景图像输入OCR识别模型中进行OCR识别;将OCR识别结果提交至用户界面主窗口中等待人工验证确认,输出OCR识别结果。该基于背景抑制的OCR识别方法能够在背景复杂的情况下,切换成深度学习OCR识别方式获取到字符信息,通过前景图像的提取以及背景抑制损失等方法来抑制背景特征信息,加强前景字符的特征信息,在很大程度上提高了字符识别的准确率。

Description

一种基于背景抑制的OCR识别方法
技术领域
本发明涉及一种OCR识别方法,尤其是一种基于背景抑制的OCR识别方法。
背景技术
字符识别通常称为光学字符识别(OCR, Optical Character Recognition),由计算机来实现,OCR技术也就演变成一种利用光学技术对文字和字符进行扫描识别,并将其转化成计算机内码的技术。当前OCR技术已经从用于有限字符集的原始方案转变为应用更复杂的技术来实现全字符识别和手写字符识别。
随着光学字符识别(OCR)技术的兴起与发展,许多学者开始进行对图像中字符识别进行研究。图像的文字提取对识别嵌入在复杂图像中的文字信息具有重要的意义和作用。数字图像中包含了大量有用的信息。图像中的文字信息是帮助理解图像内容高层语义的重要线索。尽管已经开发了许多用于字符识别的算法,但该问题尚未得到令人满意的解决,尤其是在手写或打印质量没有严格限制的情况下。但是由于OCR识别技术能够更快地读取文本,所以它仍然很有吸引力。
一般通过拍摄设备获得的图片分为带有自然场景的图片和纯文字图片。由于自然场景的复杂性,造成了处于其中的文字背景相当复杂,同时由于拍摄地点、拍摄角度和光线强弱等各种原因造成的文字的字体、大小、对比度以及亮度等不均匀,增大了定位文本区域的难度,直接影响了文字区域定位的准确性和字符识别的结果。将复杂背景下彩色图像中的文字信息,转化为能够被计算机认识和处理的文本信息主要包括三个大部分,分别是文字区域的提取、字符图像的预处理和字符的识别。典型的OCR识别方法是将字符图像数字化。首先对每个字符进行定位和分割,然后将得到的字符图像馈送到预处理器中以进行降噪和归一化。接着将字符放入特征提取器中提取某些特征,最后使用分类器进行字符分类。
但是由于图像中的文字通常叠加在复杂的图像背景之上,传统OCR识别技术在这些场景下主要的困难在于:自然场景下广告牌、包装盒等弯曲造成的字符遮挡、褶皱、变形;需要多个相机从不同角度进行拍摄并且开发工具耗时较长,需要大量时间来做优化;背景易受干扰、易反光,准确率低于90%;字符相近、倾斜、印迹不明显,识别难度大。
发明内容
发明目的:提供一种基于背景抑制的OCR识别方法,能够在背景复杂的情况下,切换成深度学习OCR识别方式获取到字符信息,通过前景图像的提取以及背景抑制损失等方法来抑制背景特征信息,加强前景字符的特征信息,在很大程度上提高了字符识别的准确率。
技术方案:本发明所述的基于背景抑制的OCR识别方法,包括如下步骤:
步骤1,通过后台服务程序实时监听识别触发信号;
步骤2,在监听到识别触发信号后,启动识别相机进行待识别图像采集;
步骤3,将采集的待识别图像输入训练好的前景提取网络模型中提取出前景图像,再将提取出的前景图像输入训练好的OCR识别模型中进行OCR识别;
步骤4,将OCR识别结果提交至用户界面主窗口中等待人工验证确认,若接收到识别正确的确认信息,则输出OCR识别结果,若接收到识别错误的确认信息,则给出人工修正字符的窗口,并输出人工修正后的OCR识别结果。
进一步,步骤3中,前景提取网络模型在训练时包括如下步骤:
步骤a,构建前景提取网络模型数据集:
首先随机选取一张背景图像,并在背景图像上随机生成不同颜色且含有字母、数字以及中文的文本标签,将含文本标签的背景图像作为训练图像;
对训练图像进行二值化处理,背景图像部分的像素值设置为0,文本标签部分的像素值设置为1,从而生成二值化的类别掩膜图像,同时将文本标签作为OCR识别模型数据集的分类标签信息进行保存;
利用各个训练图像及其类别掩膜图像组合构建成前景提取网络模型数据集;
步骤b,训练前景提取网络模型:
将前景提取网络模型数据集放入deeplabV3+前景提取网络中进行训练,使得输入一张训练图像后,即可输出对应的类别掩膜图像,并保存已训练完成的前景提取网络模型。
进一步的,步骤3中,OCR识别模型在训练时包括如下步骤:
步骤c,构建OCR识别模型数据集:
首先获取前景提取网络模型数据集中的各个训练图像及其类别掩膜图像,再结合训练图像和类别掩膜图像通过空间分割机制获得对应的文本字符图像,再将各个训练图像、背景图像以及文本字符图像分别构成全景训练图像集、背景训练图像集以及前景训练图像集,并将保存的分类标签信息作为OCR识别模型数据集的文本分类标签;
利用全景训练图像集、背景训练图像集、前景训练图像集以及文本分类标签组合构建成OCR识别模型数据集;
步骤d,训练OCR识别网络模型:
将全景训练图像集、背景训练图像集、前景训练图像集中的全景图像、背景图像以及前景图像同时放入OCR识别网络中进行训练优化,使得全景图像特征与前景图像特征之间的距离越近,且全景图像特征与背景图像特征之间的距离越远,并通过文本分类标签对提取出来的前景图像进行准确分类。
进一步的,步骤3中,训练OCR识别网络模型的具体步骤为:
将前景图像、背景图像以及全景图像输入OCR识别网络模型,三个图像均通过两次下采样后生成三个不同尺寸的图像;
由卷积神经网络DenseNet分别对三个不同尺度的图像进行特征提取,得到每个图像不同尺度的特征信息,再对三个图像不同尺度的特征信息进行特征融合,获得三个初期多尺度特征,分别为:前景初期多尺度特征f fore 、背景初期多尺度特征f bk 以及全景初期多尺度特征f full
将三个初期多尺度特征通过注意力机制来学习每个尺度特征的权重,生成对字符分类有效的多尺度特征,即为前景多尺度特征(f fore ) a 、背景多尺度特征(f bk ) a 以及全景多尺度特征(f full ) a
通过前景图像、背景图像以及全景图像分别得到对应的多尺度特征信息,将全景多尺度特征(f full ) a 和前景多尺度特征(f fore ) a 分别放入GRU网络来计算CTC损失,得到损失L CTC fore 和损失L CTC full ,即CTC损失L CTC 为:
L CTC =αL CTC fore +βL CTC full
式中,αβ为权重系数;
对于前景多尺度特征(f fore ) a 、背景多尺度特征(f bk ) a 以及全景多尺度特征(f full ) a 来计算背景约束损失L bkcst ,即背景约束损失L bkcst 为:
L bkcst =max{d((f full ) a , (f fore ) a )-d((f full ) a , (f bk ) a )+m,0}
式中,m为阈值系数,d((f full ) a , (f fore ) a )为全景多尺度特征与前景多尺度特征之间的距离,d((f full ) a , (f bk ) a )为全景多尺度特征与背景多尺度特征之间的距离;
最后得到总的损失为CTC损失L CTC 和背景约束损失L bkcst ,即总损失L all 为:
L all =L CTC +L bkcst
通过降低总损失L all 来优化整个OCR识别网络模型。
进一步的,将三个初期多尺度特征通过注意力机制来学习每个尺度特征的权重的具体步骤为:
首先将初期多尺度特征x经过1×1×1卷积操作之后得到特征x 1 ,特征x 1 的大小为C×H×W,再使用Softmax激活函数得到新的特征元素值δ(x 1 ),并与未使用激活函数的特征x 1 进行点乘操作得到特征矩阵δ(x 1 )
Figure 770874DEST_PATH_IMAGE001
x 1
然后将特征矩阵δ(x 1 )
Figure 556821DEST_PATH_IMAGE001
x 1 的大小调整为1×H×W,再通过1×1×1卷积操作进行通道数扩充,得到大小为C×H×W的特征((δ(x 1 )
Figure 614294DEST_PATH_IMAGE001
x 1 )1) c
最后与初期多尺度特征x进行残差操作得到最终的特征x
Figure 898997DEST_PATH_IMAGE002
((δ(x 1 )
Figure 409131DEST_PATH_IMAGE001
x 1 )1) c ,由此特征x使用注意力机制方法得到的特征(x) a 为:
(x) a =F(x, x
Figure 483922DEST_PATH_IMAGE002
((δ(x 1 )
Figure 5689DEST_PATH_IMAGE001
x 1 )1) c )
相应的前景多尺度特征(f fore ) a 为:
(f fore ) a = F(f fore , f fore
Figure 992451DEST_PATH_IMAGE002
((δ(f fore 1 )
Figure 724303DEST_PATH_IMAGE001
f fore 1 )1) c )
相应的背景多尺度特征(f bk ) a 为:
(f bk ) a = F(f bk , f bk
Figure 478151DEST_PATH_IMAGE002
((δ(f bk 1 )
Figure 979058DEST_PATH_IMAGE001
f bk 1 )1) c )
相应的全景多尺度特征(f full ) a 为:
(f full ) a =F(f full , f full
Figure 871142DEST_PATH_IMAGE002
((δ(f full 1 )
Figure 231235DEST_PATH_IMAGE001
f full 1 )1) c )。
进一步的,步骤3中,将采集的待识别图像输入训练好的前景提取网络模型中提取出前景图像的具体步骤为:
利用训练好的前景提取网络模型对采集的待识别图像进行提取,获得对应的类别掩膜图像;
再将类别掩膜图像结合全景图像通过空间分割机制生成前景图像,再对前景图像进行分类标定;
最后将标定为前景图像的发送至OCR识别模型。
进一步的,步骤3中,将提取出的前景图像输入训练好的OCR识别模型中进行OCR识别的具体步骤为:
将前景图像输入训练好的OCR识别网络模型中进行特征提取和分类,得到置信度最高的文本标签,返回标签对应的文本信息作为识别结果。
进一步的,步骤4中,在将OCR识别结果提交至用户界面主窗口前,对OCR识别结果先通过实际模板进行内容过滤,过滤掉不需要的字符。
本发明与现有技术相比,其有益效果是:利用OCR识别网络模型能够在背景复杂的情况下,来抑制背景特征信息,加强前景(文本字符)特征信息,在很大程度上提高了字符识别的准确率;同时使用多尺度特征融合以及背景抑制损失等方法,一方面,通过权重融合多尺度样本特征,既学习与样本类最相关的部分,又有效的改善了网络特征提取不充分的问题,增强了特征信息;另一方面,可以区分前景特征、背景特征以及全景特征三种不同注意力特征之间的相似性,再次更好的抑制背景特征信息,加强前景(文本字符)特征信息。
附图说明
图1为本发明的OCR识别方法流程图;
图2为本发明的deeplabV3+前景提取网络结构图;
图3为本发明的OCR识别网络模型训练图;
图4为本发明的OCR识别网络模型图;
图5为本发明的前景提取网络数据集示例。
具体实施方式
下面结合附图对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
实施例1:
如图1所示,本发明提供的基于背景抑制的OCR识别方法包括如下步骤:
步骤1,通过后台服务程序实时监听识别触发信号,目前android系统只支持在软件可见的界面Activity中来监听按键操作,如程序运行在后台不可见,则无法监听,因此在系统中添加按键服务,在后台服务Service中可以通过注册服务的方式来判断按键是否按下;
步骤2,在监听到识别触发信号后,启动识别相机进行待识别图像采集,相机的预览图像显示在系统界面的最上层,可以覆盖在任何软件之上;
步骤3,将采集的待识别图像输入训练好的前景提取网络模型中提取出前景图像,再将提取出的前景图像输入训练好的OCR识别模型中进行OCR识别;
步骤4,将OCR识别结果提交至用户界面主窗口中等待人工验证确认,若接收到识别正确的确认信息,则输出OCR识别结果,若接收到识别错误的确认信息,则给出人工修正字符的窗口,并输出人工修正后的OCR识别结果,在Framework中添加功能,使得客户软件中的输入框自动填充OCR识别结果的字符信息。
利用前景提取网络模型能够在背景复杂的情况下,来抑制背景特征信息,加强前景图像的特征信息,在很大程度上提高了字符识别的准确率。
进一步的,步骤3中,前景提取网络模型在训练时包括如下步骤:
步骤a,构建前景提取网络模型数据集:
首先随机选取一张背景图像,并在背景图像上随机生成不同颜色且含有字母、数字以及中文的文本标签,将含文本标签的背景图像作为训练图像;
对训练图像进行二值化处理,背景图像部分的像素值设置为0,文本标签部分的像素值设置为1,从而生成二值化的类别掩膜图像,同时将文本标签作为OCR识别模型数据集的分类标签信息进行保存;
利用各个训练图像及其类别掩膜图像组合构建成前景提取网络模型数据集,前景提取网络数据集示例如图5所示;
步骤b,训练前景提取网络模型:
将前景提取网络模型数据集放入deeplabV3+前景提取网络中进行训练,使得输入一张训练图像后,即可输出对应的类别掩膜图像,并保存已训练完成的前景提取网络模型,deeplabV3+前景提取网络如图2所示。
前景提取网络模型将字符作为一种语义类别,也可以当作语义分割问题求解,将字符当作唯一的语义类别,其余当作背景,从而在图像中自动分割出属于字符的像素,并标定其类别。
进一步的,步骤3中,OCR识别模型在训练时包括如下步骤:
步骤c,构建OCR识别模型数据集:
首先获取前景提取网络模型数据集中的各个训练图像及其类别掩膜图像,再结合训练图像和类别掩膜图像通过空间分割机制获得对应的文本字符图像,再将各个训练图像、背景图像以及文本字符图像分别构成全景训练图像集、背景训练图像集以及前景训练图像集,并将保存的分类标签信息作为OCR识别模型数据集的文本分类标签;
利用全景训练图像集、背景训练图像集、前景训练图像集以及文本分类标签组合构建成OCR识别模型数据集;
步骤d,训练OCR识别网络模型:
将全景训练图像集、背景训练图像集、前景训练图像集中的全景图像、背景图像以及前景图像同时放入OCR识别网络中进行训练优化,使得全景图像特征与前景图像特征之间的距离越近,且全景图像特征与背景图像特征之间的距离越远,并通过文本分类标签对提取出来的前景图像进行准确分类,OCR识别网络模型图如图4所示。
进一步的,OCR识别网络模型训练图如图3所示,步骤3中,训练OCR识别网络模型的具体步骤为:
将前景图像、背景图像以及全景图像输入OCR识别网络模型,三个图像均通过两次下采样后生成三个不同尺寸的图像;
由卷积神经网络DenseNet分别对三个不同尺度的图像进行特征提取,得到每个图像不同尺度的特征信息,再对三个图像不同尺度的特征信息进行特征融合,获得三个初期多尺度特征,分别为:前景初期多尺度特征f fore 、背景初期多尺度特征f bk 以及全景初期多尺度特征f full
三个图像不同尺度的特征信息进行特征融合时:对三个不同尺度不同层之间进行特征进行融合,从层一到层四向后传递的过程中,包括同尺度不同层之间的特征融合,以及不用尺度不同层之间的特征融合,最后经过四层的特征融合之后形成初期多尺度特征。
将三个初期多尺度特征通过注意力机制来学习每个尺度特征的权重,生成对字符分类有效的多尺度特征,即为前景多尺度特征(f fore ) a 、背景多尺度特征(f bk ) a 以及全景多尺度特征(f full ) a
通过前景图像、背景图像以及全景图像分别得到对应的多尺度特征信息,将全景多尺度特征(f full ) a 和前景多尺度特征(f fore ) a 分别放入GRU网络来计算CTC损失,得到损失L CTC fore 和损失L CTC full ,即CTC损失L CTC 为:
L CTC =αL CTC fore +βL CTC full
式中,αβ为权重系数;
对于前景多尺度特征(f fore ) a 、背景多尺度特征(f bk ) a 以及全景多尺度特征(f full ) a 来计算背景约束损失L bkcst ,即背景约束损失L bkcst 为:
L bkcst =max{d((f full ) a , (f fore ) a )-d((f full ) a , (f bk ) a )+m,0}
式中,m为阈值系数,d((f full ) a , (f fore ) a )为全景多尺度特征与前景多尺度特征之间的距离,d((f full ) a , (f bk ) a )为全景多尺度特征与背景多尺度特征之间的距离;
最后得到总的损失为CTC损失L CTC 和背景约束损失L bkcst ,即总损失L all 为:
L all =L CTC +L bkcst
通过降低总损失L all 来优化整个OCR识别网络模型。
在OCR识别网络模型训练完成后,将tensorflow平台训练得到的.ckpt文件转换成.tflite文件,放在android系统中进行集成。
通过权重融合样本特征,学习与样本类最相关的部分。最终得到注意力特征即为多尺度特征。前景图像、背景图像以及全景图像分别得到对应的多尺度特征。一方面将前景多尺度特征、背景多尺度特征以及全景多尺度特征进行背景约束损失计算;另一方面将全景多尺度特征和前景多尺度特征放入GRU(Gated recurrent unit)网络中得到序列特征进行CTC(Connectionist Temporal Classification)损失计算。双损失结合的最小化来反向传播调整模型的权重参数,最终进行模型的训练优化。根据背景约束损失的计算来拉近全景特征与前景特征之间的距离,推远全景特征与背景特征之间的距离,使得全景特征与前景特征之间的距离越来越近,全景特征与背景特征之间的距离越来越远。同时将得到的全景多尺度特征信息放入GRU网络中,将得到的序列特征来计算CTC损失,无需对齐进行分类识别。
采用多种尺度提取图像特征,并通过注意力机制学习不同尺度特征的权重。考虑到网络特征提取不充分的问题,多尺度特征融合可以增强特征信息,同时如果使用均值计算类的方法忽略了不同样本特征对类具有不同的贡献度,通过注意力机制可以学习每个样本特征的权重。多尺度注意力特征网络针对特征在求解时没有考虑到不同尺度图像特征或不同样本特征的贡献度,使用多个注意力机制计算权重,学习到不同尺度注意力特征。同时不仅可以区分前景特征、背景特征以及全景特征三种不同注意力特征之间的相似性,更好的抑制背景特征,而且提高通过GRU网络得到的字符类别的准确率。
进一步的,将三个初期多尺度特征通过注意力机制来学习每个尺度特征的权重的具体步骤为:
首先将初期多尺度特征x经过1×1×1卷积操作之后得到特征x 1 ,特征x 1 的大小为C×H×W,再使用Softmax激活函数得到新的特征元素值δ(x 1 ),并与未使用激活函数的特征x 1 进行点乘操作得到特征矩阵δ(x 1 )
Figure 257616DEST_PATH_IMAGE001
x 1
然后将特征矩阵δ(x 1 )
Figure 144188DEST_PATH_IMAGE001
x 1 的大小调整为1×H×W,再通过1×1×1卷积操作进行通道数扩充,得到大小为C×H×W的特征((δ(x 1 )
Figure 113423DEST_PATH_IMAGE001
x 1 )1) c
最后与初期多尺度特征x进行残差操作得到最终的特征x
Figure 564740DEST_PATH_IMAGE002
((δ(x 1 )
Figure 394811DEST_PATH_IMAGE001
x 1 )1) c ,由此特征x使用注意力机制方法得到的特征(x) a 为:
(x) a =F(x, x
Figure 11256DEST_PATH_IMAGE002
((δ(x 1 )
Figure 268581DEST_PATH_IMAGE001
x 1 )1) c )
相应的前景多尺度特征(f fore ) a 为:
(f fore ) a = F(f fore , f fore
Figure 579828DEST_PATH_IMAGE002
((δ(f fore 1 )
Figure 948011DEST_PATH_IMAGE001
f fore 1 )1) c )
相应的背景多尺度特征(f bk ) a 为:
(f bk ) a = F(f bk , f bk
Figure 418963DEST_PATH_IMAGE002
((δ(f bk 1 )
Figure 96456DEST_PATH_IMAGE001
f bk 1 )1) c )
相应的全景多尺度特征(f full ) a 为:
(f full ) a =F(f full , f full
Figure 629421DEST_PATH_IMAGE002
((δ(f full 1 )
Figure 670801DEST_PATH_IMAGE001
f full 1 )1) c )。
注意力机制方法可以从冗余的信息中挑选出最重要的信息点,关注到特征矩阵中感兴趣的区域,并增加更多的关注点,抑制其它不重要的信息点,该注意力机制方法决定了在不同位置上对初期多尺度特征的注意力程度。卷积神经网络DenseNet中不同层之间进行特征融合传递,每层都经过3×3卷积、激活函数(比如:ReLU)以及特征融合操作,包括相同尺度不同层的连接融合以及不同尺度不同层的连接融合。
进一步的,步骤3中,将采集的待识别图像输入训练好的前景提取网络模型中提取出前景图像的具体步骤为:
利用训练好的前景提取网络模型对采集的待识别图像进行提取,获得对应的类别掩膜图像;
再将类别掩膜图像结合全景图像通过空间分割机制生成前景图像,再对前景图像进行分类标定;
最后将标定为前景图像的发送至OCR识别模型。
进一步的,步骤3中,将提取出的前景图像输入训练好的OCR识别模型中进行OCR识别的具体步骤为:
将前景图像输入训练好的OCR识别网络模型中进行特征提取和分类,得到置信度最高的文本标签,返回标签对应的文本信息作为识别结果。
进一步的,步骤4中,在将OCR识别结果提交至用户界面主窗口前,对OCR识别结果先通过实际模板进行内容过滤,过滤掉不需要的字符。比如模板的类型为:数数符数数,得到的内容为:“重17.88”,即过滤掉中文字符“重”,得到最终返回用户界面的字符:“17.88”。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上作出各种变化。

Claims (5)

1.一种基于背景抑制的OCR识别方法,其特征在于,包括如下步骤:
步骤1,通过后台服务程序实时监听识别触发信号;
步骤2,在监听到识别触发信号后,启动识别相机进行待识别图像采集;
步骤3,将采集的待识别图像输入训练好的前景提取网络模型中提取出前景图像,再将提取出的前景图像输入训练好的OCR识别模型中进行OCR识别;
步骤4,将OCR识别结果提交至用户界面主窗口中等待人工验证确认,若接收到识别正确的确认信息,则输出OCR识别结果,若接收到识别错误的确认信息,则给出人工修正字符的窗口,并输出人工修正后的OCR识别结果;
步骤3中,前景提取网络模型在训练时包括如下步骤:
步骤a,构建前景提取网络模型数据集:
首先随机选取一张背景图像,并在背景图像上随机生成不同颜色且含有字母、数字以及中文的文本标签,将含文本标签的背景图像作为训练图像;
对训练图像进行二值化处理,背景图像部分的像素值设置为0,文本标签部分的像素值设置为1,从而生成二值化的类别掩膜图像,同时将文本标签作为OCR识别模型数据集的分类标签信息进行保存;
利用各个训练图像及其类别掩膜图像组合构建成前景提取网络模型数据集;
步骤b,训练前景提取网络模型:
将前景提取网络模型数据集放入deeplabV3+前景提取网络中进行训练,使得输入一张训练图像后,即可输出对应的类别掩膜图像,并保存已训练完成的前景提取网络模型;
步骤3中,OCR识别模型在训练时包括如下步骤:
步骤c,构建OCR识别模型数据集:
首先获取前景提取网络模型数据集中的各个训练图像及其类别掩膜图像,再结合训练图像和类别掩膜图像通过空间分割机制获得对应的文本字符图像,再将各个训练图像、背景图像以及文本字符图像分别构成全景训练图像集、背景训练图像集以及前景训练图像集,并将保存的分类标签信息作为OCR识别模型数据集的文本分类标签;
利用全景训练图像集、背景训练图像集、前景训练图像集以及文本分类标签组合构建成OCR识别模型数据集;
步骤d,训练OCR识别网络模型:
将全景训练图像集、背景训练图像集、前景训练图像集中的全景图像、背景图像以及前景图像同时放入OCR识别网络中进行训练优化,使得全景图像特征与前景图像特征之间的距离越近,且全景图像特征与背景图像特征之间的距离越远,并通过文本分类标签对提取出来的前景图像进行准确分类;
步骤3中,训练OCR识别网络模型的具体步骤为:
将前景图像、背景图像以及全景图像输入OCR识别网络模型,三个图像均通过两次下采样后生成三个不同尺寸的图像;
由卷积神经网络DenseNet分别对三个不同尺度的图像进行特征提取,得到每个图像不同尺度的特征信息,再对三个图像不同尺度的特征信息进行特征融合,获得三个初期多尺度特征,分别为:前景初期多尺度特征f fore 、背景初期多尺度特征f bk 以及全景初期多尺度特征f full
将三个初期多尺度特征通过注意力机制来学习每个尺度特征的权重,生成对字符分类有效的多尺度特征,即为前景多尺度特征(f fore ) a 、背景多尺度特征(f bk ) a 以及全景多尺度特征(f full ) a
通过前景图像、背景图像以及全景图像分别得到对应的多尺度特征信息,将全景多尺度特征(f full ) a 和前景多尺度特征(f fore ) a 分别放入GRU网络来计算CTC损失,得到损失L CTC fore 和损失L CTC full ,即CTC损失L CTC 为:
L CTC =αL CTC fore +βL CTC full
式中,αβ为权重系数;
对于前景多尺度特征(f fore ) a 、背景多尺度特征(f bk ) a 以及全景多尺度特征(f full ) a 来计算背景约束损失L bkcst ,即背景约束损失L bkcst 为:
L bkcst =max{d((f full ) a , (f fore ) a )-d((f full ) a , (f bk ) a )+m,0}
式中,m为阈值系数,d((f full ) a , (f fore ) a )为全景多尺度特征与前景多尺度特征之间的距离,d((f full ) a , (f bk ) a )为全景多尺度特征与背景多尺度特征之间的距离;
最后得到总的损失为CTC损失L CTC 和背景约束损失L bkcst ,即总损失L all 为:
L all =L CTC +L bkcst
通过降低总损失L all 来优化整个OCR识别网络模型。
2.根据权利要求1所述的基于背景抑制的OCR识别方法,其特征在于,将三个初期多尺度特征通过注意力机制来学习每个尺度特征的权重的具体步骤为:
首先将初期多尺度特征x经过1×1×1卷积操作之后得到特征x 1 ,特征x 1 的大小为C×H×W,再使用Softmax激活函数得到新的特征元素值δ(x 1 ),并与未使用激活函数的特征x 1 进行点乘操作得到特征矩阵δ(x 1 )
Figure 500772DEST_PATH_IMAGE001
x 1
然后将特征矩阵δ(x 1 )
Figure 45334DEST_PATH_IMAGE001
x 1 的大小调整为1×H×W,再通过1×1×1卷积操作进行通道数扩充,得到大小为C×H×W的特征((δ(x 1 )
Figure 492977DEST_PATH_IMAGE001
x 1 )1) c
最后与初期多尺度特征x进行残差操作得到最终的特征x
Figure 930474DEST_PATH_IMAGE002
((δ(x 1 )
Figure 313526DEST_PATH_IMAGE001
x 1 )1) c ,由此特征x使用注意力机制方法得到的特征(x) a 为:
(x) a =F(x, x
Figure 672090DEST_PATH_IMAGE002
((δ(x 1 )
Figure 923424DEST_PATH_IMAGE001
x 1 )1) c )
相应的前景多尺度特征(f fore ) a 为:
(f fore ) a = F(f fore , f fore
Figure 481006DEST_PATH_IMAGE002
((δ(f fore 1 )
Figure 894014DEST_PATH_IMAGE001
f fore 1 )1) c )
相应的背景多尺度特征(f bk ) a 为:
(f bk ) a = F(f bk , f bk
Figure 5454DEST_PATH_IMAGE002
((δ(f bk 1 )
Figure 190972DEST_PATH_IMAGE001
f bk 1 )1) c )
相应的全景多尺度特征(f full ) a 为:
(f full ) a =F(f full , f full
Figure 325762DEST_PATH_IMAGE002
((δ(f full 1 )
Figure 186970DEST_PATH_IMAGE001
f full 1 )1) c )。
3.根据权利要求2所述的基于背景抑制的OCR识别方法,其特征在于,步骤3中,将采集的待识别图像输入训练好的前景提取网络模型中提取出前景图像的具体步骤为:
利用训练好的前景提取网络模型对采集的待识别图像进行提取,获得对应的类别掩膜图像;
再将类别掩膜图像结合全景图像通过空间分割机制生成前景图像,再对前景图像进行分类标定;
最后将标定为前景图像的发送至OCR识别模型。
4.根据权利要求3所述的基于背景抑制的OCR识别方法,其特征在于,步骤3中,将提取出的前景图像输入训练好的OCR识别模型中进行OCR识别的具体步骤为:
将前景图像输入训练好的OCR识别网络模型中进行特征提取和分类,得到置信度最高的文本标签,返回标签对应的文本信息作为识别结果。
5.根据权利要求1所述的基于背景抑制的OCR识别方法,其特征在于,步骤4中,在将OCR识别结果提交至用户界面主窗口前,对OCR识别结果先通过实际模板进行内容过滤,过滤掉不需要的字符。
CN202110211002.5A 2021-02-25 2021-02-25 一种基于背景抑制的ocr识别方法 Active CN112560866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110211002.5A CN112560866B (zh) 2021-02-25 2021-02-25 一种基于背景抑制的ocr识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110211002.5A CN112560866B (zh) 2021-02-25 2021-02-25 一种基于背景抑制的ocr识别方法

Publications (2)

Publication Number Publication Date
CN112560866A CN112560866A (zh) 2021-03-26
CN112560866B true CN112560866B (zh) 2021-05-04

Family

ID=75034772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110211002.5A Active CN112560866B (zh) 2021-02-25 2021-02-25 一种基于背景抑制的ocr识别方法

Country Status (1)

Country Link
CN (1) CN112560866B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114220106A (zh) * 2021-12-14 2022-03-22 北京有竹居网络技术有限公司 一种图像处理方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9342892B2 (en) * 2014-03-07 2016-05-17 Lexmark International, Inc. Image binarization
CN105447489B (zh) * 2015-11-13 2018-11-16 浙江传媒学院 一种图片ocr识别系统的字符与背景粘连噪声消除方法
US10395393B2 (en) * 2016-12-22 2019-08-27 I.R.I.S. Method for assessing the quality of an image of a document
CN108805102A (zh) * 2018-06-28 2018-11-13 中译语通科技股份有限公司 一种基于深度学习的视频字幕检测与识别方法及系统
CN109241894B (zh) * 2018-08-28 2022-04-08 南京安链数据科技有限公司 一种基于表格定位和深度学习的票据内容识别系统和方法
CN110033000B (zh) * 2019-03-21 2021-05-18 华中科技大学 一种票据图像的文本检测与识别方法
CN112163508A (zh) * 2020-09-25 2021-01-01 中国电子科技集团公司第十五研究所 一种基于真实场景的文字识别方法、系统及ocr终端

Also Published As

Publication number Publication date
CN112560866A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN111414906B (zh) 纸质票据图片的数据合成与文本识别方法
CN111723585B (zh) 一种风格可控的图像文本实时翻译与转换方法
CN107194318B (zh) 目标检测辅助的场景识别方法
CN109241894A (zh) 一种基于表格定位和深度学习的针对性票据内容识别系统和方法
US11915465B2 (en) Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks
CN112052852A (zh) 一种基于深度学习的手写气象档案资料的字符识别方法
CN111401099A (zh) 文本识别方法、装置以及存储介质
CN112686258A (zh) 体检报告信息结构化方法、装置、可读存储介质和终端
Nikitha et al. Handwritten text recognition using deep learning
CN111242829A (zh) 一种水印提取方法、装置、设备及存储介质
CN113158977A (zh) 改进FANnet生成网络的图像字符编辑方法
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
CN112686219A (zh) 手写文本识别方法及计算机存储介质
CN112733857B (zh) 自动分割字符区域的图像文字检测模型训练方法及装置
CN112560866B (zh) 一种基于背景抑制的ocr识别方法
CN115880704A (zh) 一种病例的自动编目方法、系统、设备及存储介质
CN109147002B (zh) 一种图像处理方法和装置
CN110503101A (zh) 字形评价方法、装置、设备及计算机可读存储介质
CN117649672B (zh) 基于主动学习与迁移学习的字体类别视觉检测方法和系统
CN113989816A (zh) 一种基于人工智能的手写字体去除方法
CN112749667A (zh) 一种基于深度学习的线虫分类识别方法
CN107895393A (zh) 一种综合文字和形状的故事图像序列生成方法
CN111931689A (zh) 一种在线提取视频卫星数据鉴别特征的方法
US20240144711A1 (en) Reliable determination of field values in documents with removal of static field elements
Chen et al. Scene text recognition based on deep learning: a brief survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: No.15 Xinghuo Road, Jiangbei new district, Nanjing, Jiangsu Province, 210031

Patentee after: Dongji Technology Co.,Ltd.

Address before: No.15 Xinghuo Road, Jiangbei new district, Nanjing, Jiangsu Province, 210031

Patentee before: JIANGSU SEUIC TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder