CN115171141A

CN115171141A - 文本图像中下划线的识别定位方法、存储器和装置

Info

Publication number: CN115171141A
Application number: CN202210949783.2A
Authority: CN
Inventors: 梁彬; 高涵; 李佳炜
Original assignee: Weizheng Intellectual Property Technology Co ltd
Current assignee: Weizheng Intellectual Property Technology Co ltd
Priority date: 2022-01-19
Filing date: 2022-08-09
Publication date: 2022-10-11
Also published as: CN114596578A

Abstract

本发明公开了一种文本图像中下划线的识别定位方法、存储器和装置，涉及OCR识别技术领域。其技术要点包括识别资料图片中的文字，并获取每个识别文字的像素宽度；将邻近像素宽度的文字进行归为一类，并计算每一类的数学期望值，获得一组文字像素宽度数组；建立基于变量截距b值和斜率k值的斜截式累加器数组；遍历资料图片的每一像素，获得累计像素坐标后的斜截式累加器数组；基于文字像素宽度数组生成单位线段像素，将斜截式累加器数组的每一分量内像素坐标连续的像素量等于单位线段像素的像素坐标合并为线段表示方程；合并斜截式累加器数组分量内的线段表示方程，获得所有下划线的线段表示方程，本发明具有准确率高且适用于小场景中的优点。

Description

文本图像中下划线的识别定位方法、存储器和装置

技术领域

本发明涉及OCR识别技术领域，更具体地说，它涉及一种文本图像中下划线的识别定位方法。

背景技术

在图像文本处理的过程中，常常需要识别资料的下划线，之后再在下划线上填充所需要的内容。

在一些已有的技术中，常通过霍夫变换检测出资料中的直线，但是有些文字会自带类似于下划线的横线，对准确率造成比较大的影响。见附图1，例如“检”字因为自带了底部的横线，会对检测的结果产生误差。

另外如图2所示，现有的技术中有通过复杂的卷积网络提取出下划线的方式，虽然通过卷积网络提取的方式准确率高，但是卷积网络构建复杂，不适用于一些小场景中。

综上，提供一种准确率高且适用于小场景中的下划线识别方法成为了现有技术中亟需解决的技术问题。

发明内容

针对现有的技术问题，本发明的第一目的在于提供一种文本图像中下划线的识别定位方法，其具有准确率高且适用于小场景中的优点。

第二目的在于提供一种存储器，其具有文本图像中下划线的识别定位的优点。

第三目的在于提供一种装置，其具有文本图像中下划线的识别定位的优点。

为实现上述第一目的，本发明提供了如下技术方案：一种文本图像中下划线的识别定位方法，包括：

获取资料图片；

利用OCR引擎识别资料图片中的文字，并获取每个识别文字的像素宽度；

将邻近像素宽度的文字进行归为一类，并计算每一类的数学期望值，获得一组文字像素宽度数组。

建立基于变量截距b值和斜率k值的斜截式累加器数组；

遍历资料图片的每一像素，获得累计像素坐标后的斜截式累加器数组；

基于文字像素宽度数组生成单位线段像素，将斜截式累加器数组的每一分量内像素坐标连续的像素量等于单位线段像素的像素坐标合并为线段表示方程；

合并斜截式累加器数组分量内的线段表示方程，获得所有下划线的线段表示方程。

通过采用上述技术方案，在本方法中，首先获取基准的文字宽度，之后根据基准的文字宽度，和斜截式累加器数组结合；能够再基于文字宽度的基础上获取横线，而由于下划线长度是长于文字宽度的，而文字内的横线是短于文字宽度的；结合这一点并根据。

本发明进一步设置为：所述利用OCR引擎识别资料图片中的文字，并获取每个识别文字的像素宽度包括：

OCR引擎在资料图片上构建二维的坐标系，并为资料图片中的每个文字输出位置坐标值；

通过计算文字位置坐标值中右下角的横坐标值和位置坐标值中左上角的横坐标值之间的差值获取像素宽度W。

通过采用上述技术方案，在OCR引擎的作用下获取文字的像素坐标，再通过像素坐标计算宽度，计算量小且文字宽度准确，并且能够识别多种尺寸的文字。

本发明进一步设置为：所述将邻近像素宽度的文字进行归为一类包括：

通过判断文字像素宽度的像素差值是否处于设定的分类阈值内，来确定两个文字是否可归为一类。

通过采用上述技术方案，将文字归类，能够减少计算的数据量，提升运算的速度。

本发明进一步设置为：分类阈值采用4至6个像素。

通过采用上述技术方案，4至6个像素的文字像素宽度数组中的分量数量会较适中，后续的计算量适中，处理的效率适中。能兼顾精确度和处理效率。

本发明进一步设置为：所述斜率k值的取值在[-5,5]度的区间中，截距b值的取值要小于资料图片的列像素值。

通过采用上述技术方案，在满足上述两个条件后，在斜率k值的限定下，仅运算大致呈水平的直线，而在截距b值的限定下，仅运算处于资料图片范围内的直线，减少后续的计算量。

本发明进一步设置为：所述基于文字像素宽度数组生成单位线段像素，将斜截式累加器数组的每一分量内像素坐标连续的像素量等于单位线段像素的像素坐标合并为线段表示方程包括：

基于文字像素宽度数组中选取未使用且最大的像素宽度值生成单位线段像素；

将斜截式累加器数组的每一分量内像素坐标连续的像素量等于单位线段像素合并为线段表示方程；

判断是否文字像素宽度数组是否存在未使用的像素宽度。

通过采用上述技术方案，单位线段像素会根据文字像素宽度逐次减小。直至文字像素宽度数组中不存在未使用的像素宽度；而采用组件减小的文字宽度能够在资料图片中存在多种大小文字的情况下，也能够达到准确识别下划线的作用。

本发明进一步设置为：步骤单位线段像素小于选取的像素宽度值1至2个像素。

通过采用上述技术方案，能够允许存在小偏差的情况。

本发明进一步设置为：应用于官文识别业务领域。

通过采用上述技术方案，官文识别业务领域常常需要在下划线上填入对应信息，如申请人、发明人、专利名称、联系地址等等信息，都需要填写至对应的下划线上，因此采用上述方法能够帮助计算机设备找到对应的填写位置来填写对应数据，大大提升填入数据的效率。

为实现上述第二目的，本发明提供了如下技术方案：一种存储器，包括指令，所述指令在计算机上运行时，使得计算机执行文本图像中下划线的识别定位方法。

为实现上述第三目的，本发明提供了如下技术方案：一种文本图像中下划线识别定位的装置，其特征在于：所述装置包括处理器和存储器；

所述存储器用于存储支持所述装置执行文本图像中下划线的识别定位方法的程序，以及

存储用于实现文本图像中下划线的识别定位方法所涉及的数据；

所述处理器被配置为用于执行所述存储器中存储的程序。

与现有技术相比，本发明的有益效果是：

（1）准确率高且适用于小场景中；

（2）兼顾下划线的检测精确度和运算下划线的处理效率。

附图说明

图1为现有技术中霍夫变换检测的方法示意图；

图2为现有技术中卷积网络提取出下划线的方法示意图；

图3为本实施例的流程示意图。

具体实施方式

下面结合附图和实施例，对本发明进行详细描述。

实施例，一种文本中下划线的检测定位方法，如图3所示，包括以下步骤：

S201、获取资料图片；

获取的资料图片将被二进制化，使资料图片仅存在黑色的像素和白色的像素，其中黑色像素代表存在输入值，白色代表不存在输入值。

S202、利用OCR引擎识别资料图片中的文字，并获取每个识别文字的像素宽度；

其中OCR引擎可以为TesserOCR引擎；把资料图片输入TesserOCR引擎中，TesserOCR引擎会在资料图片上构建二维的坐标系。并将为资料图片中的每个文字输出位置坐标值。

文字的位置坐标值为呈矩形包围于文字的外框坐标值，外框坐标值中包含(

)四个元素，其中（

）表示为文字外框左上角的横坐标值和纵坐标值，而（

）表示为文字外框右下角的横坐标值和纵坐标值。因此在TesserOCR引擎的作用下，每一个文字都对应有唯一的外框坐标值。

而文字的像素宽度W通过外框坐标值计算获得，即：

像素宽度W=外框坐标值中右下角的横坐标值

-外框坐标值中左上角的横坐标值

。

因此通过计算后每个识别文字都对应有一个像素宽度，而对应像素宽度的单位为像素（px）。

S203、将邻近像素宽度的文字进行归为一类，并计算每一类的数学期望值，获得一组文字像素宽度数组。

将邻近像素宽度的文字进行归为一类，邻近像素宽度是指像素宽度相近的文字，本实施例中，通过判断文字像素宽度的像素差值是否处于设定的分类阈值内，来确定两个文字是否属于同一类。

其中分类阈值可以根据实际需求进行调整，当分类阈值越小，文字像素宽度的像素差值适中的两个文字就会被划分为两类，则划分的结果会更加精确，划分出来的文字像素宽度数组中的分量数量就会越多，后续的计算量就会越大，处理的效率将被降低。而当分类阈值越大，文字像素宽度的像素差值适中的两个文字就会被划分为一类，划分出来的文字像素宽度数组中的分量数量就会越少，后续的计算量就会越小，处理的效率将被提升。因此为了兼顾文字识别的精准度和后续处理的效率，分类阈值不能过小也不能过大。

值得一提的是，一般选取较小的文字像素宽度作为一类像素宽度的基准值，即首先获取最小的文字像素宽度值，将最小的文字像素宽度值分类阈值，获得邻近像素宽度的范围；之后再获取不属于上述邻近像素宽度的范围的最小的文字像素宽度值，以此类推来获得包括若干分量的文字像素宽度数组。

举一个实际例子，如果获取的文字像素宽度包括：8px、10px、11px、14px、16px、18px、24px、26px。

如果分类阈值采用2px（像素），则上述的文字像素宽度数组将包括以下分量：第一分量包括8px和10px、第二分量包括11px、第三分量包括14px和16px、第四分量包括18px、第五分量包括24px和26px。

如果分类阈值采用4px（像素），则上述的文字像素宽度数组将包括以下分量：第一分量包括8px、10px和11px、第二分量包括14px 16px和18px、第三分量包括24px和26px。

如果分类阈值采用8px（像素），则上述的文字像素宽度数组将包括以下分量：第一分量包括8px、10px、11px、14px和16px、第二分量包括18px、24px和26px。

其中，如果分类阈值采用2px，则文字像素宽度数组中的分量数量会较多，则划分的结果较为精确，后续的计算量大，处理的效率较低。如果分类阈值采用8px，则文字像素宽度数组中的分量数量会较少，则划分的结果较不精确，后续的计算量小，处理的效率较高。而如果分类阈值采用4px，则文字像素宽度数组中的分量数量会较适中，则划分的结果较为适中，后续的计算量适中，处理的效率适中。因此在实际应用中分类阈值一般采用4px至6px来兼顾精确度和处理效率。

文字像素宽度数组中的分量的计算数学期望值V，期望公式为：

其中

是文字像素宽度数组分量中第k个文字的像素宽度，

是文字像素宽度数组分量中第k个文字出现的概率,m为文字像素宽度数组中的分量包含的文字像素宽度的总共数量。当文字像素宽度数组中的分量的计算数学期望值V为非整数时，采用四舍五入的方式计算获得整数的计算数学期望值V。

因此，文字像素宽度数将包括若干的数学期望值计算后的文字像素宽度分量V1,V2,…Vn输出。

S204、建立基于变量截距b值和斜率k值的斜截式累加器数组, 斜截式累加器数组用于记录像素坐标；

在坐标系中直线的斜截式方程为：y=kx+b，其中b值为纵坐标上的截距，k值为直线与x坐标轴之间的夹角。本领域技术人员可知的，在确定斜截式方程的截距b值和斜率k值能够确定一条直线。斜截式累加器数组可以记为ACC[b][k]。

进一步的，为了减少后续的计算量，提升运算效率。斜率k值的取值在[-5,5]度的区间中，截距b值的取值要小于资料图片的列像素值（即资料图片的长度）。在满足上述两个条件后，在斜率k值的限定下，仅运算大致呈水平的直线，而在截距b值的限定下，仅运算处于资料图片范围内的直线。同时为了取值计算方便，在上述的斜率k值和截距b值均仅采用整数。因此斜截式累加器数组ACC[b][k]可以用表格记为：

表

构建的的斜截式累加器数组ACC[b][k]

S205、遍历资料图片的每一像素，获得累计像素坐标后的斜截式累加器数组；

首先，获取像素坐标值（

,

），根据斜截式方程变化可得b值关于k值的方程：

其次，将[-5,5]内依次取得整数的斜率k值代入到上述方程中，计算四舍五入取整后的截距b值。

再次，根据选取的斜率k值和计算出来的取整之后的截距b值，在斜截式累加器数组ACC[b][k]中的对应的分量中将像素坐标值（

,

）写入。

重复上述步骤，遍历图片的每一个像素，进行计算，最终获得累计的斜截式累加器数组ACC[b][k]。

表 2累计的斜截式累加器数组ACC[b][k]

S206、基于文字像素宽度数组生成单位线段像素，将斜截式累加器数组的每一分量内像素坐标连续的像素量等于单位线段像素的像素坐标合并为线段表示方程；

S2061、基于文字像素宽度数组中选取未使用且最大的像素宽度值生成单位线段像素；

文字像素宽度数组<V1,V2,…Vn>，其包括文字像素宽度分量V1,V2,…Vn，从其中获取未使用的且最大的像素宽度值作为单位线段像素。例如文字像素宽度数组内包括文字像素宽度分量10px、16px和24px。在比较后选取24px生成单位线段像素。当然如果24px之前已经作为单位线段像素被选取过后，则24px无法再被选取，仅能从10px和16px选取较大的16px生成单位线段像素。

单位线段像素是作为判定下划线单位长度的基准，下划线和文字中的横线最主要的区别在于：下划线的长度一般是大于或等于文字像素宽度的，而文字中的横线的长度是小于文字像素宽度的。所以通过判断单位线段像素和获取的线段像素之间的大小关系，能够判断线段是否为下划线。

而为了允许存在小偏差的情况，单位线段像素一般为像素宽度值减去1px，即如果选取24px生成单位线段像素，则单位线段像素为24-1=23px。

S2062、将斜截式累加器数组的每一分量内像素坐标连续像素量等于单位线段像素合并为线段表示方程；

斜截式累加器数组的分量内像素坐标是否连续连续,是通过首先获取像素坐标（

,

）中的横坐标

和下一像素坐标（

,

）中的横坐标

,然后计算横坐标

和横坐标

的差值是否为1,来判断像素坐标（

,

）和下一像素坐标（

,

）是否为连续的点。若横坐标

和横坐标

之间的差值为1则像素坐标（

,

）和下一像素坐标（

,

）是连续的坐标点,若大于1则说明不是。

以上述，单位线段像素采用23px为例,当斜截式累加器数组的分量内存在连续的像素坐标，但是连续的像素坐标数量小于23，则判断单位线段不能构成文字像素宽度分量为24px的下划线段。

而当斜截式累加器数组的分量内存在连续的像素坐标，且连续的像素坐标数量大于23，如连续的连续的像素坐标数量为50。则当获取到23个连续的像素坐标时，就会把这23个连续的像素坐标合并为线段表示方程。而剩余的27个像素中的前23个连续像素坐标也会被合并为另一个线段表示方程。最后剩余的4个像素由于达不到23个连续像素的标准，则判断单位线段不能构成文字像素宽度分量为24px的下划线段。虽然通过这种会产生一定的误算，但是误算的像素数量占的比例很小，因此并不会过多影响计算的准确性。

而此过程中获取的线段表示方程p[

][

]=（b，k），上述线段方程中的斜率k值和截距b值用于表示所在直线，而横坐标

和横坐标

的值，能够确定直线所在的区间，因此在斜率k值、截距b值、横坐标

和横坐标

四个参数的限定下在资料图片中确定唯一的一条线段。

S2063、判断是否文字像素宽度数组是否存在未使用的像素宽度，若是执行步骤S2061，若否执行步骤S207；

继续以上述的文字像素宽度数组<V1,V2,…Vn>为例，文字像素宽度数组内包括文字像素宽度分量10px、16px和24px。其中24px的文字像素宽度分量已经使用生成单位线段像素。因此24px无法再被选取，但是文字像素宽度数组还存在10px和16px的文字像素宽度为使用，因此将执行步骤S206。

在步骤S2061中，选取16px生成单位线段像素，则单位线段像素为16-1=15px。

在步骤S2062中, 单位线段像素采用15px,当斜截式累加器数组的分量内存在连续的像素坐标, 大于上述的15个连续的像素坐标，就会把这15个连续的像素坐标合并为线段表示方程。

因此在经过步骤S2063之后，单位线段像素会根据文字像素宽度逐次减小。直至文字像素宽度数组中不存在未使用的像素宽度。

S207、合并斜截式累加器数组分量内的线段表示方程，获得所有下划线的线段表示方程。

斜截式累加器数组分量内的某两个线段表示方程p[

][

]=（b，k）和p[

][

]=（b，k）中两个线段的截距b值、斜率k值相等，且（

）和（

）在横坐标上存在重叠的，即可以合并p[

][

]=（b，k）和p[

][

]=（b，k），构成结合的线段表示方程p[

][

]=（b，k）。合并斜截式累加器数组分量内经过不断重复合并，直至全部线段表示方程合并完成，斜截式累加器数组分量内剩下的线段表示方程就是全部完整的下划线的线段表示方程。

最后斜截式累加器数组分量内剩下的线段表示方程取出，即可表示资料图片中所有的下划线线段表示方程。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读移动式存储器中。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于存储器中。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本图像中下划线的识别定位方法，其特征在于，包括：

获取资料图片；

将邻近像素宽度的文字进行归为一类，并计算每一类的数学期望值，获得一组文字像素宽度数组；

建立基于变量截距b值和斜率k值的斜截式累加器数组；

2.根据权利要求1所述的文本图像中下划线的识别定位方法，其特征在于：所述利用OCR引擎识别资料图片中的文字，并获取每个识别文字的像素宽度包括：

通过计算文字位置坐标值中右下角的横坐标值

和位置坐标值中左上角的横坐标值

之间的差值获取像素宽度W。

3.根据权利要求1所述的文本图像中下划线的识别定位方法，其特征在于：所述将邻近像素宽度的文字进行归为一类包括：

4.根据权利要求3所述的文本图像中下划线的识别定位方法，其特征在于：分类阈值采用4至6个像素。

5.根据权利要求4所述的文本图像中下划线的识别定位方法，其特征在于：所述斜率k值的取值在[-5,5]度的区间中，截距b值的取值要小于资料图片的列像素值。

6.根据权利要求5所述的文本图像中下划线的识别定位方法，其特征在于：所述基于文字像素宽度数组生成单位线段像素，将斜截式累加器数组的每一分量内像素坐标连续的像素量等于单位线段像素的像素坐标合并为线段表示方程包括：

判断是否文字像素宽度数组是否存在未使用的像素宽度。

7.根据权利要求6所述的文本图像中下划线的识别定位方法，其特征在于：所述单位线段像素小于选取的像素宽度值1至2个像素。

8.根据权利要求1所述的文本图像中下划线的识别定位方法，其特征在于：应用于官文识别业务领域。

9.一种存储器，其特征在于：包括指令，所述指令在计算机上运行时，使得计算机执行权利要求1-8任一项所述的方法。

10.一种文本图像中下划线识别定位的装置，其特征在于：所述装置包括处理器和存储器；

所述存储器用于存储支持所述装置执行权利要求1-8任一项所述的方法的程序，以及

存储用于实现权利要求1-8任一项所述的方法所涉及的数据；

所述处理器被配置为用于执行所述存储器中存储的程序。