CN114359889B - 一种长文本资料的文本识别方法 - Google Patents
一种长文本资料的文本识别方法 Download PDFInfo
- Publication number
- CN114359889B CN114359889B CN202210245889.4A CN202210245889A CN114359889B CN 114359889 B CN114359889 B CN 114359889B CN 202210245889 A CN202210245889 A CN 202210245889A CN 114359889 B CN114359889 B CN 114359889B
- Authority
- CN
- China
- Prior art keywords
- text
- image
- point
- main shaft
- long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Input (AREA)
Abstract
本发明公开了一种长文本资料的文本识别方法,包括:获取长文本资料的待检测图像;使用用于检测长文本的场景文字检测模型对所述待检测图像中的文本进行文本框检测,获取多个预测点及各预测点对应的文本框;根据各个所述文本框内的文本行识别所述待检测图像的扭曲状态是否超过预设状态,若是,则对该待检测图像进行扭曲矫正;对扭曲矫正后的待检测图像进行文本识别。解决了长文本图像文本检测效果差的问题,而且实现了对扭曲文本的检测和矫正,很好的适应了复杂场景下图像的文本检测,并保证和提高了文本检测的准确度,为实现准确的文本识别奠定了基础;适应了对用户不专业拍摄生成的图像进行文本检测的场景,提高了用户的使用体验,易于推广应用。
Description
技术领域
本发明涉及智能医疗数据处理技术领域,尤其涉及一种长文本资料的文本识别方法。
背景技术
智能医疗技术需要大量的医疗相关数据,如化验数据、治疗数据等。这些数据一般来源于医学文献、医学网站和医疗诊疗等。其中,诊疗数据会以纸质方式保存在患者手中,因此如何将纸质数据转换为计算机可处理的结构数据就成为获取诊疗数据,促进智能医疗发展的关键。
OCR(Optical Character Recognition,光学字符识别)技术可以将纸质单据中的文字数据转换为计算机可以认知并使用的结构化数据。具体的,OCR技术可以使计算机识别纸张中的文字,能够将图像中不可复制的文字转换成可编辑的文字形式,为后续的文本摘要、提取等功能提供基础服务。OCR技术包括文本检测和文本识别两个过程,其中,文本检测主要作为文本识别的前处理操作过程,目的是从图片中选出文字所在区域,提供给文本识别模块进行识别。因此,可以利用OCR技术将拍照收集的纸质资料的电子图像转换成电子档案。
然而在实际应用过程中,OCR文本检测会遇到各种各样的问题。比如,在拍摄过程中由于光照或纸张阴影的影响,生成的电子图像会存在一些明暗不一的区域,而这些区域会影响OCR文本检测的准确率,进而影响OCR文本识别的准确率;对于医学病历等含有长文本信息的图片时,在进行文本检测时,由于模型自身存在的缺陷,会导致长文本检测的效果非常差;拍摄过程中,如果纸张摆放存在扭曲,或者手持纸张拍摄,得到的文本的图像也会存在扭曲,这样导致文本检测过程中无法将长文本全部置于检测框中。
针对这些问题,技术人员提出了多种解决办法。比如:
论文EAST: An Efficient and Accurate Scene Text Detector提出了一个简单而强大的方法,可以在自然场景中进行快速准确的文本检测。该方法可以直接预测完整图像中任意方向和四边形形状的单词或文本行,使用单个神经网络消除不必要的中间步骤(例如,候选聚合和单词分区)。其使用的文本检测模型能够很快速的给出结果,但是处理有大篇幅长文本的医学病历时会出现长文本检测效果差,以及出现文本扭曲时不能很好的检测到文本的信息。
专利号为CN108647681B,名称为“一种带有文本方向校正的英文文本检测方法”的专利,提出的方法分别对英文文本图像各个通道的进行最大稳定极值区域检测,得出候选文本区域;建立基于卷积神经网络模型的分类器,过滤错误的候选文本区域,获得初步文本区域;利用双层文本分组算法将所述初步文本区域分组;将分组后的初步文本区域进行方向校正,从而获得校正文本。该方法不仅可以对光照与阴影对图像的影响进行了很好的处理,而且能够对小倾斜进行矫正,但是无法解决在现实场景中,由于拍摄的角度以及纸张摆放扭曲等对文本检测造成的影响。
专利号为CN105574513B,名称为“文字检测方法和装置”的专利,提出的方法为:接收待检测图像;经由语义预测模型生成所述待检测图像的全图的文字区域概率图,其中,所述文字区域概率图使用不同的像素值区分所述待检测图像的文字区域和所述待检测图像的非文字区域;所述语义预测模型是神经网络;以及对所述文字区域概率图进行分割操作,以确定所述文字区域。该方法不仅能够很好的处理非均匀光照的问题,而且也能处理一些倾斜文本的问题,但是在扭曲的长文本医学资料的文本检测上会存在一些问题。
专利号为US8457403B2,名称为“Method of detecting and correcting digitalimages of books in the book spine area”的专利,提供了一种分析数字化或扫描文档图像的方法和设备。该专利使用基于块的处理来创建指示文档图像的空间特征的特征图像。基于此特征图像设计了三种检测算法来检测页体、书脊和扫描产生的扭曲。该专利主要针对书籍书页、书籍和在扫描过程中产生的扭曲,但是现实场景下用户一般都会使用手持设备拍摄照片,所造成的扭曲以及阴影效果会比扫描图片更为复杂。
专利号为US9058644B2,名称为“Local image enhancement for textrecognition”的专利,提出的方法可以分析或测试每个识别的区域以确定相应区域是否包含与较差相关的质量,例如较差的对比度、模糊、噪声等,在识别出具有这种质量的区域时,可以在没有用户指令或干预的情况下将图像质量增强自动应用于各个区域。该方法可以针对一些复杂的对比度、模糊等噪声进行去除,图像处理效果好。但是无法解决由于长文本以及扭曲文本带来的文本检测准确率低的问题。
可见,上述诸多技术方案都只解决了OCR文本检测中的部分问题,却无法解决在复杂的实际应用场景中出现的诸如光照阴影对文本的影响、长文本检测效果差、纸张弯曲造成检测不准的所有问题,从而无法得到有效的利用。
发明内容
为了解决上述现有技术中存在的至少一个问题,本发明提供了如下技术方案。
本发明提供了一种长文本资料的文本识别方法,包括:
获取长文本资料的待检测图像;
使用用于检测长文本的场景文字检测模型对所述待检测图像中的文本进行文本框检测,获取多个预测点及各预测点对应的文本框;
根据各个所述文本框内的文本行识别所述待检测图像的扭曲状态是否超过预设状态,若是,则对该待检测图像进行扭曲矫正;
对扭曲矫正后的待检测图像进行文本识别。
优选地,所述获取长文本资料的待检测图像包括:
获取长文本资料图像;
分别计算所述长文本资料图像的RGB三个通道的每个像素点为中心的正方形内所有像素点的平均值,以分别得到与所述长文本资料图像同尺寸的R通道对应的矩阵、G通道对应的矩阵和B通道对应的矩阵;
分别将所述长文本资料图像与各个所述矩阵的比值拉至预设范围内,得到待检测图像。
优选地,所述长文本资料图像为用户手持终端设备拍摄的长文本医疗资料图像。
优选地,所述用于检测长文本的场景文字检测模型中的特征提取层的主干网络为目标网络,和/或,所述用于检测长文本的场景文字检测模型中的输出层设有反卷积模块;
其中,所述目标网络包括VGG16、VGG19、ResNet101、ResNet152、InceptionV1、InceptionV2、InceptionV3、InceptionV4、Inception-ResNet-V1、Inception-ResNet-V2、DenseNet、MobileNetV1、MobileNetV2和MobileNetV3中任一项。
优选地,在所述使用用于检测长文本的场景文字检测模型对所述待检测图像中的文本进行文本框检测之前,还包括:
获取包含有ResNet50的原始场景文字检测模型,且该原始场景文字检测模型的特征提取层中设有双线性插值模块;
将所述ResNet50替换为目标网络,和/或,将所述双线性插值模块替换为反卷积模块;
其中,所述目标网络包括VGG16、VGG19、ResNet101、ResNet152、InceptionV1、InceptionV2、InceptionV3、InceptionV4、Inception-ResNet-V1、Inception-ResNet-V2、DenseNet、MobileNetV1、MobileNetV2和MobileNetV3中任一项。
优选地,所述使用用于检测长文本的场景文字检测模型对所述待检测图像中的文本进行文本框检测,获取多个预测点及各预测点对应的文本框包括:
基于所述用于检测长文本的场景文字检测模型的目标网络对所述待检测图像进行特征提取,得到各个初始预测点各自预测得到的文本框的四个顶点的坐标;
对各个初始预测点分别进行文本框权重的动态调整及特征融合,以形成重新分组后的各个预测点各自所在的文本行对应的文本框。
优选地,所述对各个初始预测点分别进行文本框权重的动态调整及特征融合,包括:
对交并比达到阈值的文本框进行融合,得到每一文本行各自对应的一个初始文本框;
将位于同一个文本框内的预测点划分为一组;计算每一组各个预测点与所在文本框四个顶点之间的空间距离,并根据该空间距离得到该顶点的权重,根据权重重新计算该顶点的位置;迭代该步骤,直至顶点的位置收敛或者到达最大步长,得到各文本行最终的文本框。
优选地,所述根据各个所述文本框内的文本行识别所述待检测图像的扭曲状态是否超过预设状态,包括:
获取各预测点预测得到的文本框内文本的主轴点;
对各文本的主轴点之间的空间距离进行聚类,将同一类的文本的主轴点组合成一个主轴;
对每一个主轴的集合点均进行高维曲线拟合和直线拟合,得到能够描述主轴弯曲度的高维曲线以及主轴无扭曲时的水平基线;
若高维曲线和水平基线之间的最大距离大于阈值,则所述待检测图像的扭曲状态超过预设状态。
优选地,所述对该待检测图像进行扭曲矫正包括:
利用得到的高维曲线全局分析页面的扭曲场并从所述扭曲场中提取得到矫正点对;
利用矫正点对对待检测图像进行扭曲矫正。
优选地,所述利用得到的高维曲线全局分析页面的扭曲场并从所述扭曲场中提取得到矫正点包括:
选取行宽最大的高维曲线对应的主轴为基准主轴;
以基准主轴为起始计算所有主轴的邻居主轴,其中,所述邻居主轴为:与基准主轴在垂直方向有重合且在垂直方向距离基准主轴最近;
以基准主轴为起始,利用宽度优先的方式扩展到邻居主轴,按照如下方法计算每条主轴的矫正点对:
获取基准点,其中,所述基准主轴基准点为所述基准主轴最左侧的点;所述邻居主轴基准点的横坐标值为该邻居主轴与其上层邻居主轴的重叠部分的中心点的横坐标,所述邻居主轴基准点的纵坐标值为上述中心点纵坐标值加上上层邻居主轴在中心点的纵坐标的偏移量;
根据所述基准点确定所述主轴上的矫正点对,所述矫正点对包括被矫正点和矫正点;其中,所述被矫正点是在原主轴上取得的点,所述矫正点的纵坐标值固定为所述基准点的纵坐标值,所述矫正点的横坐标值和对应的被矫正点的横坐标值保持一致。
本发明的有益效果是:本发明实施例提供的长文本资料的文本识别方法,通过利用场景文字检测模型对预处理后的待检测图像中的文本进行文本框检测,获取多个预测点及各预测点对应的文本框;并根据各个文本框内的文本行识别待检测图像的扭曲状态是否超过预设状态,若是,则对待检测图像进行扭曲矫正。本发明解决了长文本图像文本检测效果差的问题,而且实现了对扭曲文本的检测和矫正,很好地适应了复杂场景下图像的文本检测,并保证和提高了文本检测的准确度,为实现准确的文本识别奠定了基础。而且,适应了对用户不专业拍摄生成的图像进行文本检测的场景,提高了用户的使用体验,易于推广应用。
附图说明
图1为本发明所述长文本资料的文本识别方法流程示意图;
图2为OCR技术整体流程示意图;
图3为光照不均的图像示意图;
图4为采用本发明所述方法对图3处理后的结果示意图;
图5为图像扭曲状态下文本框检测的结果示意图;
图6为采用本发明所述方法对图5矫正后的文本框检测结果示意图;
图7为扭曲矫正前的图像示意图;
图8为采用本发明所述方法对图7进行扭曲矫正后的示意图。
具体实施方式
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
如图1所示,本发明实施例提供了一种长文本资料的文本识别方法,包括:
S101,获取长文本资料的待检测图像;
S102,使用用于检测长文本的场景文字检测模型对所述待检测图像中的文本进行文本框检测,获取多个预测点及各预测点对应的文本框;
S103,根据各个所述文本框内的文本行识别所述待检测图像的扭曲状态是否超过预设状态,若是,则对该待检测图像进行扭曲矫正;
S104,对扭曲矫正后的待检测图像进行文本识别。
在实际应用过程中,长文本资料的图像很多情况下是用户采用手持终端等设备拍摄并上传的图像数据,由于没有固定的拍摄角度的要求,因此,在文本检测过程之前,还需要对用户上传的图像进行角度检测及调整。具体的,可以采用如下方法:
如图2所示,在OCR文本识别的整体过程中(图2中虚线框出的区域为本发明提供的方法),首先在角度检测模块对用户上传的图像数据进行角度检测。用于角度检测的模型在训练阶段,可以先使用VGG模型训练四种角度(0°、90°、180°、270°)的分类图片,然后在实际应用阶段,接收图像数据(可能为0°、90°、180°、270°的图像数据)后,采用预先训练得到的当前的VGG模型负责将用户上传的90°、180°、270°的图像识别其度数并还原回0°图像。
通过角度检测并调整,可以使得用户以不同角度上传的图像都能够进行文本检测和识别,尤其适用于用户采用手持终端等设备拍摄并上传的图像数据。
因此,采用本发明实施例的方法,在拍摄图像阶段不需要用户特意以固定角度拍摄,能够有效提高用户拍摄的灵活性,提高用户体验。
文本检测主要作为文本识别的前处理操作,目的是在图片中选出文字所在区域,即文本框(具体为文本框的四个顶点的坐标值),并将该识别结果提供给文本识别模块进行文本识别。
在步骤S101中,具体采用如下步骤获取长文本资料的待检测图像:
获取长文本资料图像;
分别计算所述长文本资料图像的RGB三个通道的每个像素点为中心的正方形内所有像素点的平均值,以分别得到与所述长文本资料图像同尺寸的R通道对应的矩阵、G通道对应的矩阵和B通道对应的矩阵;
分别将所述长文本资料图像与各个所述矩阵的比值拉至预设范围内,得到待检测图像。
其中,长文本资料图像可以为用户手持终端设备拍摄的长文本医疗资料图像,也可以是复杂场景下拍摄的图像。由于在拍摄过程中会有光照或阴影等因素的影响,因此图像的不同区域会出现明暗不一的现象,进而影响OCR文本检测和识别的准确度。本发明实施例中,根据区域阴影与光照随机性的特性,通过分别计算各个区域的平均像素值,并将各个区域平均值与图像的比值拉伸到合理区间,很好地解决了光照与阴影对图像文本检测的影响。
在本发明的一个优选实施例中,长文本资料图像的RGB三个通道的每个像素点为中心的正方形的边长为2d+1(其中,d为像素点边长);所述长文本资料图像与各个所述矩阵的比值拉至0.3-0.95的范围内。
作为一个示例,比如,对于图3所示的图像是纸张存在折痕的情况下拍摄生成的,可以明显的看出该图像中光照与阴影分布不均匀,有的区域光照比较强,有的区域阴影比较强。在灰度及二值化过程中,用普通的阈值分割难以确定分割时所选定的阈值。采用本发明提供的上述方法对图3所示的图像进行处理,结果可如图4所示,很好地解决了图像中存在的不均匀光照和阴影的问题。
在步骤S102中,所述用于检测长文本的场景文字检测模型包括特征提取层、特征融合层和输出层。
在本发明的一个实施例中,所述用于检测长文本的场景文字检测模型中的特征提取层的主干网络为目标网络,和/或,所述用于检测长文本的场景文字检测模型中的特征提取层设有反卷积模块;也即:反卷积和双线性插值都是在特征提取层。
其中,所述目标网络包括VGG16、VGG19、ResNet101、ResNet152、InceptionV1、InceptionV2、InceptionV3、InceptionV4、Inception-ResNet-V1、Inception-ResNet-V2、DenseNet、MobileNetV1、MobileNetV2和MobileNetV3中任一项。
在该实施例中,在场景文字检测模型中采用具有上述主干网络的设有反卷积模块的特征提取层,使得模型的性能更高,进而使得利用该模型检测到的文本更加准确。
在本发明的另一个实施例中,在所述使用用于检测长文本的场景文字检测模型对所述待检测图像中的文本进行文本框检测之前,还包括:
获取包含有ResNet50的原始场景文字检测模型,且该原始场景文字检测模型的特征提取层中设有双线性插值模块;
将所述ResNet50替换为目标网络,和/或,将所述双线性插值模块替换为反卷积模块;可以理解的是,将所述ResNet50替换为目标网络并非必要执行步骤,在实际应用中,所述ResNet50可以根据需求选择是否替换为目标网络。
其中,所述目标网络包括VGG16、VGG19、ResNet101、ResNet152、InceptionV1、InceptionV2、InceptionV3、InceptionV4、Inception-ResNet-V1、Inception-ResNet-V2、DenseNet、MobileNetV1、MobileNetV2和MobileNetV3中任一项。
在该实施例中,通过对原有的场景文字检测模型进行简单地改进,即可大幅提高模型的检测准确性,能够有效避免资源浪费,降低应用成本。
执行步骤S102,具体包括:
基于所述用于检测长文本的场景文字检测模型的目标网络对所述待检测图像进行特征提取,得到各个初始预测点各自预测得到的文本框的四个顶点的坐标,具体包括如下数据:
(1)1个通道表示置信度,即像素点在文本框内的概率;
(2)4个通道分别表示像素点位置到文本框的顶部、右侧、底部、左侧边界的距离;
(3)1个通道表示文本框的旋转角度。
特征提取层得到的数据进入到场景文字检测模型的特征融合层,在特征融合过程中,对各个初始预测点分别进行文本框权重的动态调整及特征融合,以形成重新分组后的各个预测点各自所在的文本行对应的文本框,得到最终的文本框四个顶点的坐标值。完成对图像的文本检测。
可以理解的是,由于反卷积和双线性插值都是在特征提取层,因此最后的输出就是在特征融合之后输出的文本框四个顶点坐标值。
其中,在本发明的一个优选实施例中,按照如下方法对各个初始预测点分别进行文本框权重的动态调整及特征融合:
对交并比达到阈值的文本框进行融合,得到每一文本行各自对应的一个初始文本框;
将位于同一个文本框内的预测点划分为一组;计算每一组各个预测点与所在文本框四个顶点之间的空间距离,并根据该空间距离得到该顶点的权重,根据权重重新计算该顶点的位置;迭代该步骤,直至顶点的位置收敛或者到达最大步长,得到各文本行最终的文本框。
其中,可以使用正常的没有权重偏好的局部感知NMS(LNMS)对交并比(Intersection-over-Union)达到阈值的文本框进行融合,得到每一文本行各自对应的一个初始文本框。
在文本检测中,场景文字检测模型的基本组成结构为卷积,其传递信息时每经过一层,信息都会有所损失。卷积同时存在着一个感受野的问题,在卷积核为3*3且没有膨胀卷积的设计时,每多一层卷积,输出位置的点的感受野就能增大一个网格距离。因此,距离预测点空间距离越远的点,其信息传递给预测点时损失越大;距离预测点空间距离越近的点,虽然每一卷积层也会有相同的损失,但最后传递到预测点的信息总数会比距离远的点传递的信息多,即距离预测点空间距离越近的点,其信息传递给预测点时损失小。所以,预测点对于空间距离上离自己近的边的预测会非常精确,而对于空间距离上离自己远的边预测会不够精确。现有的网络模型在融合预测到同一个文本框的预测点时,对于所有预测点在各个边的权重都是一致的,这就导致模型在预测长文本时准确率很差,因为这里面包含有大量的远端低精度预测进入最终的结果中。
为了解决现有模型对长文本的预测结果中包含有大量低精度预测导致准确率差的问题,本发明中,通过采用上述方法,逐个预测点的计算每个预测点在融合时对每个顶点的权重,从而对于每个顶点,在计算其具体位置时,空间距离上距离它近的预测点权重高,而空间距离上远的预测点权重低,尽最大可能的避免远端预测不准对结果的影响。进而解决了场景文字检测模型对长文本检测效果差的问题。
通过使用改进的场景文字检测模型,以及对文本框权重的动态调整及特征融合,完成了对图像的文本检测,而且使得文本检测结果更加准确,尤其是对长文本的检测结果更加准确。
在扭曲的图像中,利用该模型得到的文本框无法将文本全部置于其中,从而影响文本识别的效果。本发明中,通过进行扭曲识别和扭曲矫正解决了该问题,提高了文本检测和识别的准确度。
执行步骤S103,具体可以采用如下方法进行实施:
获取各预测点预测得到的文本框内文本的主轴点;
对各文本的主轴点之间的空间距离进行聚类,将同一类的文本的主轴点组合成一个主轴;
对每一个主轴的集合点均进行高维曲线拟合和直线拟合,得到能够描述主轴弯曲度的高维曲线以及主轴无扭曲时的水平基线;
若高维曲线和水平基线之间的最大距离大于阈值,则所述待检测图像的扭曲状态超过预设状态,需要对该待检测图像进行扭曲矫正。
限制于文本框的矩形形状,若文本发生扭曲,文本框无法将整行文本全部包含在其中,很多弯曲的文本在文本框外围,如图5所示。在非艺术设计的正常的纸张中,文本的主轴构成一组平行的直线。而当纸张出现扭曲时,文本的主轴也会出现扭曲。所以本发明中,通过检测文本主轴的变化检测图像是否扭曲,若是,则进行扭曲矫正,矫正之后的文本被全部包含在文本框中,如图6所示,从而提高了扭曲状态下的文本检测与文本识别的准确率。
具体的,对该待检测图像进行扭曲矫正可以包括:
利用得到的高维曲线全局分析页面的扭曲场并从所述扭曲场中提取得到矫正点对;
利用矫正点对对待检测图像进行扭曲矫正。
在本发明的一个优选实施例中,所述利用得到的高维曲线全局分析页面的扭曲场并从所述扭曲场中提取得到矫正点,可以包括:
选取行宽最大的高维曲线对应的主轴为基准主轴;
以基准主轴为起始计算所有主轴的邻居主轴,其中,所述邻居主轴为:与基准主轴在垂直方向有重合且在垂直方向距离基准主轴最近;
以基准主轴为起始,利用宽度优先的方式扩展到邻居主轴,按照如下方法计算每条主轴的矫正点对:
获取基准点,其中,所述基准主轴基准点为所述基准主轴最左侧的点;所述邻居主轴基准点的横坐标值为该邻居主轴与其上层邻居主轴的重叠部分的中心点的横坐标,所述邻居主轴基准点的纵坐标值为上述中心点纵坐标值加上上层邻居主轴在中心点的纵坐标的偏移量;
根据所述基准点确定所述主轴上的矫正点对,所述矫正点对包括被矫正点和矫正点;其中,所述被矫正点是在原主轴上取得的点,所述矫正点的纵坐标值固定为所述基准点的纵坐标值,所述矫正点的横坐标值和对应的被矫正点的横坐标值保持一致。
在具体应用过程中,采用本发明实施例提供的上述方法,对如图7所示的扭曲图像进行矫正,结果可如图8所示。在图7中,可以看到图像底部的文字会带有一些弧度。在图8中,可以看到在图7中文字的弧度基本上没有了,且文字本身并没有被矫正的无法辨别。
执行步骤S104,如果经过步骤S103检测到待检测图像扭曲,则扭曲矫正后进行文本识别,如果经过步骤S103未检测到待检测图像扭曲,则直接进行文本识别。如图2所示,在完成了文本检测和扭曲检测矫正之后,利用文本识别模块将文本检测到的文本框的四个顶点坐标进行裁剪以得到对应的文本块,利用CRNN文本识别模型将裁剪出来的文本块进行识别,转成文字。
最后,在版面分析模块,将文本检测的四个顶点坐标点与文本识别的结果,利用段落文本位置特点、表格位置结构等特点对同一段落内容进行合并、表格提取等工作。
采用本发明提供的技术方案,解决了图像光照不均和阴影问题,解决了长文本检测效果差的问题,还解决了文本扭曲的问题,极大的提高了文本检测的准确度;而且适应了对用户不专业拍摄生成的图像进行文本检测的场景,提高了用户的使用体验,易于推广应用。
从软件层面来说,本申请还提供一种用于执行所述长文本资料的文本识别方法中全部或部分内的长文本资料的文本识别装置,所述长文本资料的文本识别装置具体包含有如下内容:
图像获取模块,用于获取长文本资料的待检测图像;
文本框检测模块,用于使用用于检测长文本的场景文字检测模型对所述待检测图像中的文本进行文本框检测,获取多个预测点及各预测点对应的文本框;
扭曲矫正模块,用于根据各个所述文本框内的文本行识别所述待检测图像的扭曲状态是否超过预设状态,若是,则对该待检测图像进行扭曲矫正;
文本识别模块,用于对扭曲矫正后的待检测图像进行文本识别。
本申请提供的长文本资料的文本识别装置的实施例具体可以用于执行上述实施例中的长文本资料的文本识别方法的实施例的处理流程,其功能在此不再赘述,可以参照上述长文本资料的文本识别方法实施例的详细描述。
所述长文本资料的文本识别装置进行长文本资料的文本识别的部分可以在服务器中执行,而在另一种实际应用情形中,也可以所有的操作都在客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器,用于长文本资料的文本识别的具体处理。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
上述服务器与所述客户端设备端之间可以使用任何合适的网络协议进行通信,包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。
本申请实施例还提供了一种计算机设备(也即电子设备),该计算机设备可以包括处理器、存储器、接收器及发送器,处理器用于执行上述实施例提及的长文本资料的文本识别方法,其中处理器和存储器可以通过总线或者其他方式连接,以通过总线连接为例。该接收器可通过有线或无线方式与处理器、存储器连接。所述计算机设备与长文本资料的文本识别装置之间通信连接,以自所述无线多媒体传感器网络中的传感器接收实时运动数据,并自所述视频采集装置接收原始视频序列。
处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的长文本资料的文本识别方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的长文本资料的文本识别方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器中,当被所述处理器执行时,执行实施例中的长文本资料的文本识别方法。
在本申请的一些实施例中,用户设备可以包括处理器、存储器和收发单元,该收发单元可包括接收器和发送器,处理器、存储器、接收器和发送器可通过总线系统连接,存储器用于存储计算机指令,处理器用于执行存储器中存储的计算机指令,以控制收发单元收发信号。
作为一种实现方式,本申请中接收器和发送器的功能可以考虑通过收发电路或者收发的专用芯片来实现,处理器可以考虑通过专用处理芯片、处理电路或通用芯片实现。
作为另一种实现方式,可以考虑使用通用计算机的方式来实现本申请实施例提供的服务器。即将实现处理器,接收器和发送器功能的程序代码存储在存储器中,通用处理器通过执行存储器中的代码来实现处理器,接收器和发送器的功能。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述长文本资料的文本识别方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种长文本资料的文本识别方法,其特征在于,包括:
获取长文本资料的待检测图像;
使用用于检测长文本的场景文字检测模型对所述待检测图像中的文本进行文本框检测,获取多个预测点及各预测点对应的文本框;
根据各个所述文本框内的文本行识别所述待检测图像的扭曲状态是否超过预设状态,若是,则对该待检测图像进行扭曲矫正;
对扭曲矫正后的待检测图像进行文本识别;
所述获取长文本资料的待检测图像包括:
获取长文本资料图像;
分别计算所述长文本资料图像的RGB三个通道的每个像素点为中心的正方形内所有像素点的平均值,以分别得到与所述长文本资料图像同尺寸的R通道对应的矩阵、G通道对应的矩阵和B通道对应的矩阵;
分别将所述长文本资料图像与各个所述矩阵的比值拉至预设范围内,得到待检测图像。
2.如权利要求1所述的长文本资料的文本识别方法,其特征在于,所述长文本资料图像为用户手持终端设备拍摄的长文本医疗资料图像。
3.如权利要求1所述的长文本资料的文本识别方法,其特征在于,所述用于检测长文本的场景文字检测模型中的特征提取层的主干网络为目标网络,和/或,所述用于检测长文本的场景文字检测模型中的输出层设有反卷积模块;
其中,所述目标网络包括VGG16、VGG19、ResNet101、ResNet152、InceptionV1、InceptionV2、InceptionV3、InceptionV4、Inception-ResNet-V1、Inception-ResNet-V2、DenseNet、MobileNetV1、MobileNetV2和MobileNetV3中任一项。
4.如权利要求1所述的长文本资料的文本识别方法,其特征在于,在所述使用用于检测长文本的场景文字检测模型对所述待检测图像中的文本进行文本框检测之前,还包括:
获取包含有ResNet50的原始场景文字检测模型,且该原始场景文字检测模型的特征提取层中设有双线性插值模块;
将所述ResNet50替换为目标网络,和/或,将所述双线性插值模块替换为反卷积模块;
其中,所述目标网络包括VGG16、VGG19、ResNet101、ResNet152、InceptionV1、InceptionV2、InceptionV3、InceptionV4、Inception-ResNet-V1、Inception-ResNet-V2、DenseNet、MobileNetV1、MobileNetV2和MobileNetV3中任一项。
5.如权利要求3或4所述的长文本资料的文本识别方法,其特征在于,所述使用用于检测长文本的场景文字检测模型对所述待检测图像中的文本进行文本框检测,获取多个预测点及各预测点对应的文本框包括:
基于所述用于检测长文本的场景文字检测模型的目标网络对所述待检测图像进行特征提取,得到各个初始预测点各自预测得到的文本框的四个顶点的坐标;
对各个初始预测点分别进行文本框权重的动态调整及特征融合,以形成重新分组后的各个预测点各自所在的文本行对应的文本框。
6.如权利要求5所述的长文本资料的文本识别方法,其特征在于,所述对各个初始预测点分别进行文本框权重的动态调整及特征融合,包括:
对交并比达到阈值的文本框进行融合,得到每一文本行各自对应的一个初始文本框;
将位于同一个文本框内的预测点划分为一组;计算每一组各个预测点与所在文本框四个顶点之间的空间距离,并根据该空间距离得到该顶点的权重,根据权重重新计算该顶点的位置;迭代该步骤,直至顶点的位置收敛或者到达最大步长,得到各文本行最终的文本框。
7.如权利要求1所述的长文本资料的文本识别方法,其特征在于,所述根据各个所述文本框内的文本行识别所述待检测图像的扭曲状态是否超过预设状态,包括:
获取各预测点预测得到的文本框内文本的主轴点;
对各文本的主轴点之间的空间距离进行聚类,将同一类的文本的主轴点组合成一个主轴;
对每一个主轴的集合点均进行高维曲线拟合和直线拟合,得到能够描述主轴弯曲度的高维曲线以及主轴无扭曲时的水平基线;
若高维曲线和水平基线之间的最大距离大于阈值,则所述待检测图像的扭曲状态超过预设状态。
8.如权利要求7所述的长文本资料的文本识别方法,其特征在于,所述对该待检测图像进行扭曲矫正包括:
利用得到的高维曲线全局分析页面的扭曲场并从所述扭曲场中提取得到矫正点对;
利用矫正点对对待检测图像进行扭曲矫正。
9.如权利要求8所述的长文本资料的文本识别方法,其特征在于,所述利用得到的高维曲线全局分析页面的扭曲场并从所述扭曲场中提取得到矫正点包括:
选取行宽最大的高维曲线对应的主轴为基准主轴;
以基准主轴为起始计算所有主轴的邻居主轴,其中,所述邻居主轴为:与基准主轴在垂直方向有重合且在垂直方向距离基准主轴最近;
以基准主轴为起始,利用宽度优先的方式扩展到邻居主轴,按照如下方法计算每条主轴的矫正点对:
获取基准点,其中,所述基准主轴基准点为所述基准主轴最左侧的点;所述邻居主轴基准点的横坐标值为该邻居主轴与其上层邻居主轴的重叠部分的中心点的横坐标,所述邻居主轴基准点的纵坐标值为上述中心点纵坐标值加上上层邻居主轴在中心点的纵坐标的偏移量;
根据所述基准点确定所述主轴上的矫正点对,所述矫正点对包括被矫正点和矫正点;其中,所述被矫正点是在原主轴上取得的点,所述矫正点的纵坐标值固定为所述基准点的纵坐标值,所述矫正点的横坐标值和对应的被矫正点的横坐标值保持一致。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210245889.4A CN114359889B (zh) | 2022-03-14 | 2022-03-14 | 一种长文本资料的文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210245889.4A CN114359889B (zh) | 2022-03-14 | 2022-03-14 | 一种长文本资料的文本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114359889A CN114359889A (zh) | 2022-04-15 |
CN114359889B true CN114359889B (zh) | 2022-06-21 |
Family
ID=81094491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210245889.4A Active CN114359889B (zh) | 2022-03-14 | 2022-03-14 | 一种长文本资料的文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114359889B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926850B (zh) * | 2022-04-25 | 2024-09-17 | 广东科学技术职业学院 | 单据识别方法、装置、设备及介质 |
CN117877038B (zh) * | 2024-03-12 | 2024-06-04 | 金现代信息产业股份有限公司 | 基于文字检测的文档图像纠偏方法、系统、设备及介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102084378B (zh) * | 2008-05-06 | 2014-08-27 | 计算机连接管理中心公司 | 基于照相机的文档成像 |
CN108764228A (zh) * | 2018-05-28 | 2018-11-06 | 嘉兴善索智能科技有限公司 | 一种图像中文字目标检测方法 |
CN108921804A (zh) * | 2018-07-04 | 2018-11-30 | 苏州大学 | 扭曲文档图像的校正方法 |
CN110287960B (zh) * | 2019-07-02 | 2021-12-10 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
CN112434640B (zh) * | 2020-12-04 | 2024-04-30 | 小米科技(武汉)有限公司 | 确定文档图像的旋转角度方法、装置及存储介质 |
CN113076814B (zh) * | 2021-03-15 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 文本区域的确定方法、装置、设备及可读存储介质 |
CN113505741B (zh) * | 2021-07-27 | 2024-04-09 | 京东科技控股股份有限公司 | 一种文本图像处理方法、装置、电子设备及存储介质 |
-
2022
- 2022-03-14 CN CN202210245889.4A patent/CN114359889B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114359889A (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109784181B (zh) | 图片水印识别方法、装置、设备及计算机可读存储介质 | |
CN114359889B (zh) | 一种长文本资料的文本识别方法 | |
CN111507333B (zh) | 一种图像矫正方法、装置、电子设备和存储介质 | |
CN106202086B (zh) | 一种图片处理、获取方法、装置及系统 | |
CN114155546B (zh) | 一种图像矫正方法、装置、电子设备和存储介质 | |
CN111008935B (zh) | 一种人脸图像增强方法、装置、系统及存储介质 | |
CN106560840A (zh) | 一种图像信息识别处理方法及装置 | |
CN113112511B (zh) | 试卷批改的方法、装置、存储介质及电子设备 | |
CN111985465A (zh) | 文本识别方法、装置、设备及存储介质 | |
JP5832656B2 (ja) | 画像中のテキストの検出を容易にする方法及び装置 | |
CN111104813A (zh) | 二维码图像关键点检测方法、装置、电子设备及存储介质 | |
CN112949649B (zh) | 一种文本图像的识别方法、装置及计算设备 | |
CN110211195B (zh) | 生成图像集合的方法、装置、电子设备和计算机可读存储介质 | |
CN112488095B (zh) | 印章图像识别方法、装置和电子设备 | |
CN110827301A (zh) | 用于处理图像的方法和装置 | |
CN113221718A (zh) | 公式识别方法、装置、存储介质和电子设备 | |
CN110969641A (zh) | 图像处理方法和装置 | |
RU2633182C1 (ru) | Определение направления строк текста | |
CN108921792B (zh) | 用于处理图片的方法和装置 | |
CN108734712B (zh) | 背景分割的方法、装置及计算机存储介质 | |
CN109447911A (zh) | 图像复原的方法、装置、存储介质和终端设备 | |
CN112434696A (zh) | 一种文本方向校正方法、装置、设备及存储介质 | |
CN112200775A (zh) | 图像清晰度检测方法、装置、电子设备及存储介质 | |
CN116311290A (zh) | 基于深度学习的手写及打印文本检测方法和装置 | |
CN112291445B (zh) | 图像处理的方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |