Nothing Special   »   [go: up one dir, main page]

CN114170594A - 光学字符识别方法、装置、电子设备及存储介质 - Google Patents

光学字符识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114170594A
CN114170594A CN202111489294.5A CN202111489294A CN114170594A CN 114170594 A CN114170594 A CN 114170594A CN 202111489294 A CN202111489294 A CN 202111489294A CN 114170594 A CN114170594 A CN 114170594A
Authority
CN
China
Prior art keywords
character recognition
optical character
language type
picture
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111489294.5A
Other languages
English (en)
Inventor
马勇
王佳华
顾永翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qax Technology Group Inc
Secworld Information Technology Beijing Co Ltd
Original Assignee
Qax Technology Group Inc
Secworld Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qax Technology Group Inc, Secworld Information Technology Beijing Co Ltd filed Critical Qax Technology Group Inc
Priority to CN202111489294.5A priority Critical patent/CN114170594A/zh
Publication of CN114170594A publication Critical patent/CN114170594A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本申请提供一种光学字符识别方法、装置、电子设备及存储介质,方法包括:检测待处理图片中的文字的语言类型;采用所述语言类型对应的文字识别模型,对所述待处理图片进行光学字符识别。这样就无需使用每一种语言类型对应的文字识别模型均对待处理图片进行光学字符识别,可以有效避免产生大量的重复识别操作,提高光学字符识别效率低,降低性能开销。

Description

光学字符识别方法、装置、电子设备及存储介质
技术领域
本申请涉及图像识别技术领域,具体而言,涉及一种光学字符识别方法、装置、电子设备及存储介质。
背景技术
现有的OCR(Optical Character Recognition,光学字符识别)技术可以将图片上的文字识别成文本格式,具有较高的实际应用价值。
而目前使用的OCR技术主要基于人工智能实现的。具体而言,在进行光学字符识别时,首先需要确定OCR两个阶段的人工智能模型,包括文字检测模型与文字识别模型,然后通过某种语言的大量已标注样本训练上述的两个模型。采用不同语言样本集合,重复上述训练步骤,训练得到多种语言的相应的模型,每种语言都具有上述两种模型。对需要识别的图片,通过各语言类型对应的两种模型对该图片进行处理,得到各语言类型对应的输出文本。然后针对各语言类型对应的输出文本进行识别,比如识别哪一种输出文本中的文字信息最多,从而输出该文字信息最多的语言类型对应的输出文本。
但是,上述方案中,需要采用各语言类型对应的模型都对图片进行处理,需要进行大量的重复识别操作,导致光学字符识别效率低,具有较高的性能开销。
发明内容
本申请实施例的目的在于提供一种光学字符识别方法、装置、电子设备及存储介质,用以提高光学字符识别效率,降低性能开销。
本申请实施例提供了一种光学字符识别方法,包括:检测待处理图片中的文字的语言类型;采用所述语言类型对应的文字识别模型,对所述待处理图片进行光学字符识别。
在上述实现过程中,通过先检测待处理图片中的文字的语言类型,然后采用该语言类型对应的文字识别模型,对待处理图片进行光学字符识别。这样就无需使用每一种语言类型对应的文字识别模型均对待处理图片进行光学字符识别,可以有效避免产生大量的重复识别操作,提高光学字符识别效率低,降低性能开销。
进一步地,检测当前待处理图片中的文字的语言类型,包括:检测所述待处理图片的文字区域;检测各文字区域内的文字的语言类型;采用所述语言类型对应的文字识别模型,对所述待处理图片进行光学字符识别,包括:采用各所述文字区域对应的语言类型所对应的文字识别模型,分别对各所述文字区域进行光学字符识别。
在上述实现过程中,通过针对各个文字区域进行语言类型的检测,进而针对各文字区域采用该文字区域相应的文字识别模型来进行光学字符识别,这就使得在待处理图片中存在多种语言类型时,也可以达到良好的识别效果,提高了最终输出的待处理图片识别结果的准确性。
进一步地,检测当前待处理图片中的文字的语言类型,包括:检测所述待处理图片的文字区域;检测各文字区域内的文字的语言类型;根据各所述文字区域对应的语言类型,确定所述待处理图片对应的目标语言类型;采用所述语言类型对应的文字识别模型,对所述待处理图片进行光学字符识别,包括:采用所述目标语言类型对应的文字识别模型,对所述待处理图片进行光学字符识别。
在上述实现过程中,通过检测各文字区域内的文字的语言类型,进而根据各文字区域对应的语言类型,确定待处理图片对应的目标语言类型。这样,通过多个文字区域对应的语言类型来综合确定待处理图片对应的目标语言类型,可以提高对于待处理图片对应的目标语言类型的检测可靠性,降低目标语言类型检测错误的风险,从而提高对于待处理图片中光学字符的识别准确性。
进一步地,根据各所述文字区域对应的语言类型,确定所述待处理图片对应的目标语言类型,包括:统计各语言类型所对应的文字区域的数量;确定出对应文字区域数量最多的语言类型;所述对应文字区域数量最多的语言类型为所述待处理图片对应的目标语言类型。
在上述实现过程中,通过统计各语言类型所对应的文字区域的数量;以对应文字区域数量最多的语言类型作为目标语言类型,从而可以保证待处理图片对应的目标语言类型是适用于大多数文字区域的,进而可以保证对于待处理图片的检测可靠性。
进一步地,在采用所述语言类型对应的文字识别模型,对所述待处理图片进行光学字符识别之前,所述方法还包括:确定本机的算力水平;从所述语言类型对应的多个文字识别模型中,确定出与本机的算力水平匹配的目标文字识别模型;所述语言类型对应的多个文字识别模型具有不同的算力需求;采用所述语言类型对应的文字识别模型,对所述待处理图片进行光学字符识别,包括:采用所述语言类型对应的目标文字识别模型,对所述待处理图片进行光学字符识别。
应理解,在实际应用过程中,有些设备的计算资源丰富,算力水平高,但有些设备的计算资源匮乏,算力水平较低。同时,针对同一设备,在某些时刻,空闲的计算资源较多,导致该时刻该设备算力水平高,而在某些时刻,空闲的计算资源较少,导致该时刻该设备算力水平较低。而现有技术中针对所有设备均提供同一套文字识别模型,这就使得在某些设备中,或者在某些时刻下,运行文字识别模型时可能会存在较大的资源剩余,从而无法充分利用设备的计算资源;而在某些设备中,或者在某些时刻下,运行文字识别模型时又可能会存在计算资源不足,导致运行卡顿,甚至死机的情况。
而在上述实现过程中,通过预先训练出具有不同的算力需求的多个文字识别模型,进而根据本机的算力水平,确定出与本机的算力水平匹配的目标文字识别模型来对待处理图片进行光学字符识别。这样,就使得选用的文字识别模型可以与本机的算力水平相适配,从而最大限度利用本机设备的算力资源,避免上述问题的出现。
进一步地,所述确定本机的算力水平,包括:获取本机的硬件情况;根据本机的硬件情况确定用于进行光学字符识别的计算环境;在所述计算环境中调用预设的算力检测程序,得到本机的算力水平。
在上述实现过程中,通过根据本机的硬件情况确定用于进行光学字符识别的计算环境,进而在计算环境中调用预设的算力检测程序,得到本机的算力水平,从而可以充分使用本机内硬件的计算能力,确定出本机当前的实际算力水平,从而选择出最合适的文字识别模型。该方式可以节省硬件投资,提高竞争力。
进一步地,根据本机的硬件情况确定用于进行光学字符识别的计算环境,包括:若本机没有GPU(Graphics Processing Unit,图形处理器,也被称之为显卡),则确定用于进行光学字符识别的计算环境为CPU(Central Processing Unit/Processor,中央处理器);若本机具有独立的GPU,且所述GPU支持CUDA(Compute Unified Device Architecture,统一计算设备架构),则确定用于进行光学字符识别的计算环境为使用CUDA模块的所述GPU;若本机具有独立的GPU,且所述GPU不支持CUDA,但支持DML(Direct Machine Learning,直接机器学习技术),或本机具有集成于CPU中的GPU,且操作系统为Windows 10及比Windows10更高的版本,则确定用于进行光学字符识别的计算环境为使用DML模块的所述GPU;若以上情况都不符合,则确定用于进行光学字符识别的计算环境为使用VULKAN模块。
在上述实现过程中,通过基于本机是否具有GPU,以及具有的是何种GPU,使用不同的计算模块来实现进行光学字符识别的计算环境,从而达到对于不同硬件配置的设备的硬件资源充分利用,节省硬件投资,提高竞争力。
本申请实施例还提供了一种光学字符识别方法,包括:确定本机的算力水平;确定出与本机的算力水平匹配的目标文字识别模型;不同的文字识别模型具有不同的算力需求;采用所述目标文字识别模型,对待处理图片进行光学字符识别。
如前文所述,在实际应用过程中,有些设备的计算资源丰富,算力水平高,但有些设备的计算资源匮乏,算力水平较低。同时,针对同一设备,在某些时刻,空闲的计算资源较多,导致该时刻该设备算力水平高,而在某些时刻,空闲的计算资源较少,导致该时刻该设备算力水平较低。而现有技术中针对所有设备均提供同一套文字识别模型,这就使得在某些设备中,或者在某些时刻下,运行文字识别模型时可能会存在较大的资源剩余,从而无法充分利用设备的计算资源;而在某些设备中,或者在某些时刻下,运行文字识别模型时又可能会存在计算资源不足,导致运行卡顿,甚至死机的情况。而通过上述实现方案,可以根据本机的算力水平,确定出与本机的算力水平匹配的目标文字识别模型来对待处理图片进行光学字符识别。这样,就使得选用的文字识别模型可以与本机的算力水平相适配,从而最大限度利用本机设备的算力资源,避免上述问题的出现。
进一步地,所述确定本机的算力水平,包括:获取本机的硬件情况;根据本机的硬件情况确定用于进行光学字符识别的计算环境;在所述计算环境中调用预设的算力检测程序,得到本机的算力水平。
进一步地,根据本机的硬件情况确定用于进行光学字符识别的计算环境,包括:若本机没有图形处理器GPU,则确定用于进行光学字符识别的计算环境为中央处理器CPU;若本机具有独立的GPU,且所述GPU支持CUDA,则确定用于进行光学字符识别的计算环境为使用CUDA模块的所述GPU;若本机具有独立的GPU,且所述GPU不支持CUDA,但支持DML,或本机具有集成于CPU中的GPU,且操作系统为Windows 10及比Windows10更高的版本,则确定用于进行光学字符识别的计算环境为使用DML模块的所述GPU;若以上情况都不符合,则确定用于进行光学字符识别的计算环境为使用VULKAN模块。
本申请实施例还提供了一种光学字符识别装置,包括:检测模块,用于检测待处理图片中的文字的语言类型;第一处理模块,用于采用所述语言类型对应的文字识别模型,对所述待处理图片进行光学字符识别。
本申请实施例还提供了一种光学字符识别装置,包括:确定模块,用于确定本机的算力水平;所述确定模块,还用于确定出与本机的算力水平匹配的目标文字识别模型;不同的文字识别模型具有不同的算力需求;第二处理模块,用于采用所述目标文字识别模型,对待处理图片进行光学字符识别。
本申请实施例还提供了一种电子设备,包括处理器、存储器及通信总线;所述通信总线用于实现处理器和存储器之间的连接通信;所述处理器用于执行存储器中存储的一个或者多个程序,以实现上述任一种的光学字符识别方法。
本申请实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一种的光学字符识别方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的第一种光学字符识别方法的流程示意图;
图2为本申请实施例提供的第二种光学字符识别方法的流程示意图;
图3为本申请实施例提供的一种具体的光学字符识别过程的流程示意图;
图4为本申请实施例提供的第一种光学字符识别装置的结构示意图;
图5为本申请实施例提供的第二种光学字符识别装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
实施例一:
为了提高光学字符识别效率,降低性能开销,本申请实施例中提供了一种光学字符识别方法。可以参见图1所示,图1为本申请实施例中提供的一种光学字符识别方法的流程示意图,包括:
S101:检测待处理图片中的文字的语言类型。
S102:采用语言类型对应的文字识别模型,对待处理图片进行光学字符识别。
这样,就无需使用每一种语言类型对应的文字识别模型均对待处理图片进行光学字符识别,可以有效避免产生大量的重复识别操作,提高光学字符识别效率低,降低性能开销。
需要说明的是,在本申请实施例中,为了检测出检测待处理图片中的文字的语言类型,可以预先训练出一个语言类型检测模型,从而基于语言类型检测模型进行语言类型的识别。
示例性的,语言类型检测模型可以使用传统的基于CNN(Convolutional NeuralNetworks,卷积神经网络)的分类模型或更复杂的CNN模型来实现,在本申请实施例中不做限制。
为了保证检测的可靠性,在本申请实施例的一种可行实施方式中,可以首先检测待处理图片的文字区域,进而分别检测各文字区域内的文字的语言类型,然后基于分别针对每一个文字区域,采用各文字区域对应的语言类型所对应的文字识别模型,分别对各文字区域进行光学字符识别。
这样,当待处理图片中存在多种语言类型的光学字符时,也可以达到良好的识别效果,提高了最终输出的待处理图片识别结果的准确性。
而在本申请实施例的另一种可行实施方式中,也可以不针对每一个文字区域,采用各文字区域对应的语言类型的文字识别模型,分别对各文字区域进行光学字符识别。而是在检测出各文字区域内的文字的语言类型之后,根据各文字区域对应的语言类型,确定出待处理图片对应的目标语言类型,进而采用该目标语言类型对应的文字识别模型,对待处理图片进行光学字符识别。
这样,可以保证待处理图片对应的目标语言类型是适用于大多数文字区域的,进而可以保证对于待处理图片的检测可靠性。
示例性的,在上述可行实施方式中,可以统计各语言类型所对应的文字区域的数量,进而确定出对应文字区域数量最多的语言类型,以该对应文字区域数量最多的语言类型作为待处理图片对应的目标语言类型。
应理解,在实际应用过程中,还可以将以上两种可行实施方式结合使用。
示例性的,可以在检测出待处理图片的文字区域,并检测出各文字区域内的文字的语言类型之后,统计各语言类型所对应的文字区域的数量。
进而确定出对应文字区域数量最多的目标语言类型。计算该目标语言类型对应的文字区域数量占总的文字区域数量的比例。考虑到语言类型检测模型具有一定的误识别概率,可以通过该目标语言类型对应的文字区域数量占总的文字区域数量的比例是否超过预设值(例如90%),来尽可能提高识别准确性。
比如,若该比例高于该预设值,则可以认为该待处理图片大概率仅具有该目标语言类型的文字,从而可以按照上述第二种可行实施方式,以该目标语言类型对应的文字识别模型,对待处理图片进行光学字符识别。
若该比例低于该预设值,则可以认为该待处理图片大概率具有多种语言类型的文字,从而可以按照上述第一种可行实施方式,分别针对每一个文字区域,采用各文字区域对应的语言类型的文字识别模型,分别对各文字区域进行光学字符识别。
需要说明的是,为了实现对于待处理图片的文字区域的检测,在本申请实施例中,可以通过预先标注有文字区域的大量训练样本图片,对文字检测模型进行训练,从而采用训练好的模型来进行待处理图片的文字区域的检测。
在本申请实施例中,文字检测模型可以采用神经网络中的PSENet(PogressiveScale Expansion Network,渐进比例扩展网络)模型、PANNet(Pan-sharpening,全色锐化网络)模型、DBNet(Differentiable Binarization,可微二值化网络)模型等实现,但不作为限制。
在本申请实施例中,训练样本图片可以采用不同语言类型的图片,以使得通过一个文字检测模型即可针对各种语言类型的待处理图片均具有良好的文字区域识别能力。
还需要说明的是,在本申请实施例中,每一种语言类型都具有相应的文字识别模型。文字识别模型可以采用CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络)等网络结构实现,但同样不作为限制。每一种语言类型的文字识别模型,可以通过具有该语言类型的光学字符的样本图片训练得到。
在本申请实施例中,可以针对每一种语言类型都仅训练一个文字识别模型,从而在所有设备上均采用所需的语言类型对应的文字识别模型来进行光学字符识别。
但是,考虑到在实际应用过程中,有些设备的计算资源丰富,算力水平高,但有些设备的计算资源匮乏,算力水平较低。同时,针对同一设备,在某些时刻,空闲的计算资源较多,导致该时刻该设备算力水平高,而在某些时刻,空闲的计算资源较少,导致该时刻该设备算力水平较低。
而针对所有设备均提供同一套文字识别模型,会使得在某些设备中,或者在某些时刻下,运行文字识别模型时可能会存在较大的资源剩余,从而无法充分利用设备的计算资源;而在某些设备中,或者在某些时刻下,运行文字识别模型时又可能会存在计算资源不足,导致运行卡顿,甚至死机的情况。
因此,为了更加合理地利用设备的计算资源,本申请实施例中还提供了另一种光学字符识别方法,可以参见图2所示,包括:
S201:确定本机的算力水平。
在本种光学字符识别方法中,为了确定本机的算力水平,可以先获取本机的硬件情况,进而根据本机的硬件情况确定用于进行光学字符识别的计算环境。
比如:
若本机没有图形处理器GPU,则可以确定用于进行光学字符识别的计算环境为中央处理器CPU。
若本机具有独立的GPU,且GPU支持CUDA,则可以确定用于进行光学字符识别的计算环境为该GPU,并且在该GPU中使用CUDA模块。
若本机具有独立的GPU,且GPU不支持CUDA,但支持DML,或本机具有集成于CPU中的GPU,且操作系统为Windows 10及比Windows 10更高的版本,则可以确定用于进行光学字符识别的计算环境为该GPU,并且在该GPU中使用DML模块。
若以上情况都不符合,则确定用于进行光学字符识别的计算环境为使用VULKAN模块(应理解,VULKAN是一种跨平台的类似微软Direct X的技术,用于直接访问加速硬件并管理输入输出设备,通常用于游戏开发或人工智能加速应用)。
在确定出用于进行光学字符识别的计算环境之后,在该计算环境中调用预设的算力检测程序,即可得到本机的算力水平。
应理解,算力检测程序可以由工程师编写得到,例如,可以编写一段计算一千次π的值,并记录计算时间的程序,根据记录的计算时间的长短,即可得到本机的算力水平。
还应理解的是,所谓本机是指执行本申请实施例提供的光学字符识别方法的设备。
S202:确定出与本机的算力水平匹配的目标文字识别模型。
需要注意的是,在本种光学字符识别方法中,可以预先为不同的语言类型训练出多个不同的文字识别模型。这多个不同的文字识别模型之间,具有不同的算力需求,可以适配不同的计算资源,达到不同的精度要求。
应理解,每种语言类型对应的多个文字识别模型,可以均采用CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络)等网络结构实现,且均通过具有该语言类型的光学字符的样本图片训练得到。区别可以在于模型网络结构不同,比如一些具有大算力需求的文字识别模型可以具有更多的神经网络层数,具有低算力需求的文字识别模型则可以具有较少的神经网络层数。
在本申请实施例中,可以预先配置每一个文字识别模型对应所需的算力水平,进而确定出与本机的算力水平匹配的目标文字识别模型。
S203:采用该目标文字识别模型,对待处理图片进行光学字符识别。
需要理解的是,在本种光学字符识别方法中,在采用目标文字识别模型,对待处理图片进行光学字符识别之前,同样可以先采用文字检测模型检测出待处理图片中的文字区域,进而采用目标文字识别模型,对待处理图片中的文字区域进行光学字符识别,以避免对不存在光学字符的区域进行无效识别。文字检测模型的相关介绍可参见前文所述,在此不再赘述。
本种光学字符识别方法,可以与前文描述的第一种光学字符识别方法独立使用。比如,在执行步骤S203时,可以采用现有技术的方式,采用每一种语言类型对应的目标文字识别模型分别对待处理图片进行光学字符识别,进而针对各语言类型对应的输出文本进行识别,确定出最终的输出文本。或者,在执行步骤S203时,可以由用户指定语言类型,采用指用户指定语言类型对应的目标文字识别模型分别对待处理图片进行光学字符识别。
但是,本种光学字符识别方法,也可以与前文描述的第一种光学字符识别方法结合使用。也即,可以按照第一种光学字符识别方法的方式,检测待处理图片中的文字的语言类型,进而采用该语言类型对应的目标文字识别模型,对待处理图片进行光学字符识别。
需要说明的是,在上述两种光学字符识别方法中,为了便于进行文字区域检测和后续的光学字符识别,还可以先对待处理图片进行预处理,比如将待处理图片的大小进行按比例缩放,以满足后续各模型对于图片的尺寸要求。对待处理图片进行数据解码,成为位图数据,以便于后续处理等。
还需要说明的是,在上述两种光学字符识别方法中,为了便于文字识别模型进行光学字符识别,还可以先对各文字区域进行独立的文字方向校正。
示例性的,可以将各文字区域提取为文字图片,对检测各文字图片中的文字方向,例如通过分类模型进行文字方向检测,然后通过传统图形算法库(如opencv等)将各文字图片变换成对人类的视角而言是正向的图片,进而采用文字识别模型对各文字图片进行识别。
还需要说明的是,在上述两种光学字符识别方法中,在进行光学字符识别之后,为了保证输出文本的可读性,可以针对文字识别模型识别得到的文字,根据各文字所属的文字区域的坐标进行段落重排,以尽可能恢复文字在图片中的正确段落位置。
然后,将段落重排后的文本进行输出。
本申请实施例所提供的第一种光学字符识别方法,通过先检测待处理图片中的文字的语言类型,然后采用该语言类型对应的文字识别模型,对待处理图片进行光学字符识别。这样就无需使用每一种语言类型对应的文字识别模型均对待处理图片进行光学字符识别,可以有效避免产生大量的重复识别操作,提高光学字符识别效率低,降低性能开销。
本申请实施例所提供的第二种光学字符识别方法,可以根据本机的算力水平,确定出与本机的算力水平匹配的目标文字识别模型来对待处理图片进行光学字符识别。这样,就使得选用的文字识别模型可以与本机的算力水平相适配,从而最大限度利用本机设备的算力资源。
此外,本申请实施例所提供的第二种光学字符识别方法,还可以通过根据本机的硬件情况确定用于进行光学字符识别的计算环境,进而在计算环境中调用预设的算力检测程序,得到本机的算力水平,从而可以充分使用本机内硬件的计算能力,确定出本机当前的实际算力水平,从而选择出最合适的文字识别模型。该方式可以节省硬件投资,提高竞争力。
此外,本申请实施例所提供的两种光学字符识别方法可以结合使用,从而在达到提高光学字符识别效率低,降低性能开销的同时,最大限度利用本机设备的算力资源。
实施例二:
本实施例在实施例一的基础上,以一种同时采用上述实施例一中的两种光学字符识别的过程为例,为本申请做进一步示例说明。
在执行光学字符识别过程之前,首先采用不同语言类型的图片作为训练图片,训练出一个语言类型检测模型和一个文字检测模型。并分别针对每一种语言类型,训练出一个重量级文字识别模型和一个轻量级文字识别模型。重量级文字识别模型比轻量级文字识别模型有更精细的识别结果,但是需要更多的算力开销。
重量级文字识别模型和轻量级文字识别模型的差异在于,重量级文字识别模型有更多的神经网络层数,轻量级文字识别模型具有较少的神经网络层数。
参见图3所示,整个光学字符识别过程包括:
步骤1,处理设备获取待处理图片。
步骤2,处理设备获取本机的硬件情况,根据本机的硬件情况确定用于进行光学字符识别的计算环境。
比如:若本机没有图形处理器GPU,则可以确定用于进行光学字符识别的计算环境为中央处理器CPU。若本机具有独立的GPU,且GPU支持CUDA,则可以确定用于进行光学字符识别的计算环境为该GPU,并且在该GPU中使用CUDA模块。若本机具有独立的GPU,且GPU不支持CUDA,但支持DML,或本机具有集成于CPU中的GPU,且操作系统为Windows 10及比Windows10更高的版本,则可以确定用于进行光学字符识别的计算环境为该GPU,并且在该GPU中使用DML模块。若以上情况都不符合,则确定用于进行光学字符识别的计算环境为使用VULKAN模块。
步骤3,在该计算环境中调用预设的算力检测程序,得到本机的算力水平。
步骤4,使用CPU进行待处理图片的预处理。
比如,将待处理图片的大小按比例缩放并进行数据解码,成为位图数据。
步骤5,通过文字检测模型,从待处理图片上标注出文字区域,获取每个文字区域的文字图片,并输出每个文字图片在待处理图片上对应的坐标值。
步骤6,通过语言类型检测模型,对每个文字图片独立检测语言类型,确定每个文字图片对应的目标语言类型。
步骤7,针对每个文字图片,检测文字方向,并通过opencv等图形处理库将各文字图片的方向变换成对人类的视角是正向的图片。
应理解,步骤4至步骤7与步骤2至步骤3之间,没有时序限制。还应理解,步骤6与步骤7之间也没有时序限制。
步骤8,针对每个文字图片,采用每个文字图片的目标语言类型对应的目标文字识别模型,分别对每个正向的文字图片进行光学字符识别。
应理解,目标文字识别模型为目标语言类型对应的与本机的算力水平相匹配的文字识别模型,为目标语言类型对应的重量级文字识别模型和轻量级文字识别模型中的一个。
步骤9,针对各目标文字识别模型识别得到的文字,按照各文字所属的文字图片的坐标进行段落重排,并输出段落重排后的文本。
通过上述方案,可以在低计算能力的设备中实现较快的识别速度,在高计算能力的设备中实现高精度识别,充分利用设备的计算资源。
此外,上述方案还可以充分使用设备内硬件的计算能力,做到较好的算力适应能力,充分利用所有硬件,节省硬件投资,提高竞争力。
此外,通过上述方案还可以高效地进行多语言类型的识别,提高识别效率,提升产品竞争力。
实施例三:
基于同一发明构思,本申请实施例中还提供了两种光学字符识别装置400和光学字符识别装置500。请参阅图4和图5所示,图4示出了采用图1所示的方法的光学字符识别装置,图5示出了采用图2所示的方法的光学字符识别装置。应理解,装置400和装置500具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。装置400和装置500包括至少一个能以软件或固件的形式存储于存储器中或固化在装置400、装置500的操作系统中的软件功能模块。具体地:
参见图4所示,装置400包括:检测模块401和第一处理模块402。其中:
检测模块401,用于检测待处理图片中的文字的语言类型;
第一处理模块402,用于采用所述语言类型对应的文字识别模型,对所述待处理图片进行光学字符识别。
在本申请实施例的一种可行实施方式中,所述检测模块401具体用于,检测所述待处理图片的文字区域,检测各文字区域内的文字的语言类型;
所述第一处理模块402具体用于,采用各所述文字区域对应的语言类型的文字识别模型,分别对各所述文字区域进行光学字符识别。
在本申请实施例的另一种可行实施方式中,所述检测模块401具体用于,检测所述待处理图片的文字区域,检测各文字区域内的文字的语言类型,根据各所述文字区域对应的语言类型,确定所述待处理图片对应的目标语言类型;
所述第一处理模块402具体用于,采用所述目标语言类型对应的文字识别模型,对所述待处理图片进行光学字符识别。
在上述第二种可行实施方式中,所述检测模块401具体用于,统计各语言类型所对应的文字区域的数量;确定出对应文字区域数量最多的语言类型;所述对应文字区域数量最多的语言类型为所述待处理图片对应的目标语言类型。
在本申请实施例中,所述检测模块401还用于,确定本机的算力水平,从所述语言类型对应的多个文字识别模型中,确定出与本机的算力水平匹配的目标文字识别模型;所述语言类型对应的多个文字识别模型具有不同的算力需求;
所述第一处理模块402具体用于,采用所述语言类型对应的目标文字识别模型,对所述待处理图片进行光学字符识别。
在本申请实施例中,所述检测模块401具体用于,获取本机的硬件情况,根据本机的硬件情况确定用于进行光学字符识别的计算环境,在所述计算环境中调用预设的算力检测程序,得到本机的算力水平。
在本申请实施例中,所述检测模块401具体用于,若本机没有图形处理器GPU,则确定用于进行光学字符识别的计算环境为CPU;若本机具有独立的GPU,且所述GPU支持CUDA,则确定用于进行光学字符识别的计算环境为使用CUDA模块的所述GPU;若本机具有独立的GPU,且所述GPU不支持CUDA,但支持DML,或本机具有集成于CPU中的GPU,且操作系统为Windows 10及比Windows 10更高的版本,则确定用于进行光学字符识别的计算环境为使用DML模块的所述GPU;若以上情况都不符合,则确定用于进行光学字符识别的计算环境为使用VULKAN模块。
参见图5所示,装置500包括:确定模块501和第二处理模块502。其中:
所述确定模块501,用于确定本机的算力水平;
所述确定模块501,还用于确定出与本机的算力水平匹配的目标文字识别模型;不同的文字识别模型具有不同的算力需求;
所述第二处理模块502,用于采用所述目标文字识别模型,对待处理图片进行光学字符识别。
在本申请实施例中,所述确定模块501具体用于,获取本机的硬件情况,根据本机的硬件情况确定用于进行光学字符识别的计算环境,在所述计算环境中调用预设的算力检测程序,得到本机的算力水平。
在本申请实施例中,所述确定模块501具体用于,若本机没有图形处理器GPU,则确定用于进行光学字符识别的计算环境为CPU;若本机具有独立的GPU,且所述GPU支持CUDA,则确定用于进行光学字符识别的计算环境为使用CUDA模块的所述GPU;若本机具有独立的GPU,且所述GPU不支持CUDA,但支持DML,或本机具有集成于CPU中的GPU,且操作系统为Windows 10及比Windows 10更高的版本,则确定用于进行光学字符识别的计算环境为使用DML模块的所述GPU;若以上情况都不符合,则确定用于进行光学字符识别的计算环境为使用VULKAN模块。
需要理解的是,出于描述简洁的考量,部分实施例一中描述过的内容在本实施例中不再赘述。
实施例四:
本实施例提供了一种电子设备,参见图6所示,其包括处理器601、存储器602以及通信总线603。其中:
通信总线603用于实现处理器601和存储器602之间的连接通信。
处理器601用于执行存储器602中存储的一个或多个程序,以实现上述实施例一和/或实施例二中的光学字符识别方法。
可以理解,图6所示的结构仅为示意,电子设备还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。比如,电子设备中还包括有CPU、GPU等部件。
示例性的,电子设备可以是电脑、手机、平板、服务器等设备。
本实施例还提供了一种计算机可读存储介质,如软盘、光盘、硬盘、闪存、U盘、SD(Secure Digital Memory Card,安全数码卡)卡、MMC(Multimedia Card,多媒体卡)卡等,在该计算机可读存储介质中存储有实现上述各个步骤的一个或者多个程序,这一个或者多个程序可被一个或者多个处理器执行,以实现上述实施例一和/或实施例二中的光学字符识别方法。在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
在本文中,多个是指两个或两个以上。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (14)

1.一种光学字符识别方法,其特征在于,包括:
检测待处理图片中的文字的语言类型;
采用所述语言类型对应的文字识别模型,对所述待处理图片进行光学字符识别。
2.如权利要求1所述的光学字符识别方法,其特征在于,检测当前待处理图片中的文字的语言类型,包括:
检测所述待处理图片的文字区域;
检测各文字区域内的文字的语言类型;
采用所述语言类型对应的文字识别模型,对所述待处理图片进行光学字符识别,包括:
采用各所述文字区域对应的语言类型所对应的文字识别模型,分别对各所述文字区域进行光学字符识别。
3.如权利要求1所述的光学字符识别方法,其特征在于,检测当前待处理图片中的文字的语言类型,包括:
检测所述待处理图片的文字区域;
检测各文字区域内的文字的语言类型;
根据各所述文字区域对应的语言类型,确定所述待处理图片对应的目标语言类型;
采用所述语言类型对应的文字识别模型,对所述待处理图片进行光学字符识别,包括:
采用所述目标语言类型对应的文字识别模型,对所述待处理图片进行光学字符识别。
4.如权利要求3所述的光学字符识别方法,其特征在于,根据各所述文字区域对应的语言类型,确定所述待处理图片对应的目标语言类型,包括:
统计各语言类型所对应的文字区域的数量;
确定出对应文字区域数量最多的语言类型;所述对应文字区域数量最多的语言类型为所述待处理图片对应的目标语言类型。
5.如权利要求1-4任一项所述的光学字符识别方法,其特征在于,在采用所述语言类型对应的文字识别模型,对所述待处理图片进行光学字符识别之前,所述方法还包括:
确定本机的算力水平;
从所述语言类型对应的多个文字识别模型中,确定出与本机的算力水平匹配的目标文字识别模型;所述语言类型对应的多个文字识别模型具有不同的算力需求;
采用所述语言类型对应的文字识别模型,对所述待处理图片进行光学字符识别,包括:
采用所述语言类型对应的目标文字识别模型,对所述待处理图片进行光学字符识别。
6.如权利要求5所述的光学字符识别方法,其特征在于,所述确定本机的算力水平,包括:
获取本机的硬件情况;
根据本机的硬件情况确定用于进行光学字符识别的计算环境;
在所述计算环境中调用预设的算力检测程序,得到本机的算力水平。
7.如权利要求6所述的光学字符识别方法,其特征在于,根据本机的硬件情况确定用于进行光学字符识别的计算环境,包括:
若本机没有图形处理器GPU,则确定用于进行光学字符识别的计算环境为中央处理器CPU;
若本机具有独立的GPU,且所述GPU支持统一计算设备架构CUDA,则确定用于进行光学字符识别的计算环境为使用CUDA模块的所述GPU;
若本机具有独立的GPU,且所述GPU不支持CUDA,但支持直接机器学习技术DML,或本机具有集成于CPU中的GPU,且操作系统为Windows10及比Windows 10更高的版本,则确定用于进行光学字符识别的计算环境为使用DML模块的所述GPU;
若以上情况都不符合,则确定用于进行光学字符识别的计算环境为使用VULKAN模块。
8.一种光学字符识别方法,其特征在于,包括:
确定本机的算力水平;
确定出与本机的算力水平匹配的目标文字识别模型;不同的文字识别模型具有不同的算力需求;
采用所述目标文字识别模型,对待处理图片进行光学字符识别。
9.如权利要求8所述的光学字符识别方法,其特征在于,所述确定本机的算力水平,包括:
获取本机的硬件情况;
根据本机的硬件情况确定用于进行光学字符识别的计算环境;
在所述计算环境中调用预设的算力检测程序,得到本机的算力水平。
10.如权利要求9所述的光学字符识别方法,其特征在于,根据本机的硬件情况确定用于进行光学字符识别的计算环境,包括:
若本机没有图形处理器GPU,则确定用于进行光学字符识别的计算环境为中央处理器CPU;
若本机具有独立的GPU,且所述GPU支持统一计算设备架构CUDA,则确定用于进行光学字符识别的计算环境为使用CUDA模块的所述GPU;
若本机具有独立的GPU,且所述GPU不支持CUDA,但支持直接机器学习技术DML,或本机具有集成于CPU中的GPU,且操作系统为Windows10及比Windows 10更高的版本,则确定用于进行光学字符识别的计算环境为使用DML模块的所述GPU;
若以上情况都不符合,则确定用于进行光学字符识别的计算环境为使用VULKAN模块。
11.一种光学字符识别装置,其特征在于,包括:
检测模块,用于检测待处理图片中的文字的语言类型;
第一处理模块,用于采用所述语言类型对应的文字识别模型,对所述待处理图片进行光学字符识别。
12.一种光学字符识别装置,其特征在于,包括:
确定模块,用于确定本机的算力水平;
所述确定模块,还用于确定出与本机的算力水平匹配的目标文字识别模型;不同的文字识别模型具有不同的算力需求;
第二处理模块,用于采用所述目标文字识别模型,对待处理图片进行光学字符识别。
13.一种电子设备,其特征在于,包括:处理器、存储器及通信总线;
所述通信总线用于实现所述处理器和所述存储器之间的连接通信;
所述处理器用于执行所述存储器中存储的程序,以实现如权利要求1至10中任一项所述的光学字符识别方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至10任一项所述的光学字符识别方法。
CN202111489294.5A 2021-12-07 2021-12-07 光学字符识别方法、装置、电子设备及存储介质 Pending CN114170594A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111489294.5A CN114170594A (zh) 2021-12-07 2021-12-07 光学字符识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111489294.5A CN114170594A (zh) 2021-12-07 2021-12-07 光学字符识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114170594A true CN114170594A (zh) 2022-03-11

Family

ID=80484240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111489294.5A Pending CN114170594A (zh) 2021-12-07 2021-12-07 光学字符识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114170594A (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332912A1 (en) * 2009-06-26 2010-12-30 International Business Machines Corporation Visual feedback system for users using multiple partitions on a server
JP2011180687A (ja) * 2010-02-26 2011-09-15 Mitsubishi Electric Corp 多言語文書解析装置
US20140180915A1 (en) * 2012-12-21 2014-06-26 Zetta, Inc. Systems and methods for real-time billing and metrics reporting
US20140181039A1 (en) * 2012-12-21 2014-06-26 Zetta, Inc. Systems and methods for on-demand data storage
CN109685055A (zh) * 2018-12-26 2019-04-26 北京金山数字娱乐科技有限公司 一种图像中文本区域的检测方法及装置
CN109948615A (zh) * 2019-03-26 2019-06-28 中国科学技术大学 多语言文本检测识别系统
CN109948696A (zh) * 2019-03-19 2019-06-28 上海七牛信息技术有限公司 一种多语言场景字符识别方法及系统
CN110210469A (zh) * 2019-05-31 2019-09-06 中科软科技股份有限公司 一种识别图片文字语种的方法及系统
CN110569830A (zh) * 2019-08-01 2019-12-13 平安科技(深圳)有限公司 多语言文本识别方法、装置、计算机设备及存储介质
CN110941984A (zh) * 2019-09-25 2020-03-31 西南科技大学 基于深度学习的自习室座位状态检测方法与座位管理系统
CN111986101A (zh) * 2020-07-09 2020-11-24 浙江工业大学 一种脑血管图谱构建方法
CN113221632A (zh) * 2021-03-23 2021-08-06 奇安信科技集团股份有限公司 文档图片识别方法、装置以及计算机设备
CN113240670A (zh) * 2021-06-16 2021-08-10 亿嘉和科技股份有限公司 带电作业场景下针对待作业物体的图像分割方法
CN113297975A (zh) * 2021-05-25 2021-08-24 新东方教育科技集团有限公司 表格结构识别的方法、装置、存储介质及电子设备
CN113485549A (zh) * 2021-06-29 2021-10-08 中国航空规划设计研究总院有限公司 基于混合现实技术的航空生产线人工操作指引系统及方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332912A1 (en) * 2009-06-26 2010-12-30 International Business Machines Corporation Visual feedback system for users using multiple partitions on a server
JP2011180687A (ja) * 2010-02-26 2011-09-15 Mitsubishi Electric Corp 多言語文書解析装置
US20140180915A1 (en) * 2012-12-21 2014-06-26 Zetta, Inc. Systems and methods for real-time billing and metrics reporting
US20140181039A1 (en) * 2012-12-21 2014-06-26 Zetta, Inc. Systems and methods for on-demand data storage
CN109685055A (zh) * 2018-12-26 2019-04-26 北京金山数字娱乐科技有限公司 一种图像中文本区域的检测方法及装置
CN109948696A (zh) * 2019-03-19 2019-06-28 上海七牛信息技术有限公司 一种多语言场景字符识别方法及系统
CN109948615A (zh) * 2019-03-26 2019-06-28 中国科学技术大学 多语言文本检测识别系统
CN110210469A (zh) * 2019-05-31 2019-09-06 中科软科技股份有限公司 一种识别图片文字语种的方法及系统
CN110569830A (zh) * 2019-08-01 2019-12-13 平安科技(深圳)有限公司 多语言文本识别方法、装置、计算机设备及存储介质
CN110941984A (zh) * 2019-09-25 2020-03-31 西南科技大学 基于深度学习的自习室座位状态检测方法与座位管理系统
CN111986101A (zh) * 2020-07-09 2020-11-24 浙江工业大学 一种脑血管图谱构建方法
CN113221632A (zh) * 2021-03-23 2021-08-06 奇安信科技集团股份有限公司 文档图片识别方法、装置以及计算机设备
CN113297975A (zh) * 2021-05-25 2021-08-24 新东方教育科技集团有限公司 表格结构识别的方法、装置、存储介质及电子设备
CN113240670A (zh) * 2021-06-16 2021-08-10 亿嘉和科技股份有限公司 带电作业场景下针对待作业物体的图像分割方法
CN113485549A (zh) * 2021-06-29 2021-10-08 中国航空规划设计研究总院有限公司 基于混合现实技术的航空生产线人工操作指引系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李益红等: "深度学习场景文本检测方法综述", 《计算机工程与应用》, vol. 57, no. 6, pages 42 - 48 *

Similar Documents

Publication Publication Date Title
US20220415072A1 (en) Image processing method, text recognition method and apparatus
CN112036292B (zh) 基于神经网络的文字识别方法、装置及可读存储介质
CN111753727A (zh) 用于提取结构化信息的方法、装置、设备及可读存储介质
CN112699775B (zh) 基于深度学习的证件识别方法、装置、设备及存储介质
CN109753968B (zh) 字符识别模型的生成方法、装置、设备及介质
US9354701B2 (en) Information processing apparatus and information processing method
US10929684B2 (en) Intelligently generating digital note compilations from digital video
CN113033543B (zh) 曲形文本识别方法、装置、设备及介质
CN111832449A (zh) 工程图纸的显示方法及相关装置
CN112149583A (zh) 烟雾检测方法、终端设备及存储介质
CN111291882A (zh) 一种模型转换的方法、装置、设备和计算机存储介质
CN113762455A (zh) 检测模型训练方法、单字检测方法、装置、设备及介质
CN114373460A (zh) 车载语音助手的指令确定方法、装置、设备及介质
CN109325480B (zh) 身份信息的录入方法及终端设备
CN111931729B (zh) 基于人工智能的行人检测方法、装置、设备及介质
CN109657127B (zh) 一种答案获取方法、装置、服务器及存储介质
CN110162757B (zh) 一种表格结构提取方法及系统
CN111008624A (zh) 光学字符识别方法和产生光学字符识别的训练样本的方法
CN114495146A (zh) 图像文本检测方法、装置、计算机设备及存储介质
CN112528984A (zh) 图像信息抽取方法、装置、电子设备及存储介质
CN114170594A (zh) 光学字符识别方法、装置、电子设备及存储介质
CN111985491A (zh) 基于深度学习的相似信息合并方法、装置、设备及介质
WO2023109086A1 (zh) 文字识别方法、装置、设备及存储介质
US20220392243A1 (en) Method for training text classification model, electronic device and storage medium
CN113128496B (zh) 一种从图像中提取结构化数据的方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100032 NO.332, 3rd floor, Building 102, 28 xinjiekouwai street, Xicheng District, Beijing

Applicant after: QAX Technology Group Inc.

Applicant after: Qianxin Wangshen information technology (Beijing) Co.,Ltd.

Address before: 100032 NO.332, 3rd floor, Building 102, 28 xinjiekouwai street, Xicheng District, Beijing

Applicant before: QAX Technology Group Inc.

Applicant before: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc.

CB02 Change of applicant information