Nothing Special   »   [go: up one dir, main page]

CN114495141A - 文档段落位置提取方法、电子设备及存储介质 - Google Patents

文档段落位置提取方法、电子设备及存储介质 Download PDF

Info

Publication number
CN114495141A
CN114495141A CN202111526160.6A CN202111526160A CN114495141A CN 114495141 A CN114495141 A CN 114495141A CN 202111526160 A CN202111526160 A CN 202111526160A CN 114495141 A CN114495141 A CN 114495141A
Authority
CN
China
Prior art keywords
image
outline
document
information
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111526160.6A
Other languages
English (en)
Inventor
宗天睿
张鹤
李沄沨
许若华
杨林
吴冠昊
蔡欣达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cetc Digital Intelligence Technology Beijing Co ltd
Original Assignee
Cetc Digital Intelligence Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cetc Digital Intelligence Technology Beijing Co ltd filed Critical Cetc Digital Intelligence Technology Beijing Co ltd
Priority to CN202111526160.6A priority Critical patent/CN114495141A/zh
Publication of CN114495141A publication Critical patent/CN114495141A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供了一种文档段落位置提取方法、电子设备及存储介质,所述方法包括:对待处理文档的页面进行图像化处理,得到第一图像;根据所述第一图像中包括的非空白区域,确定所述第一图像中的文字轮廓;根据所述第一图像以及所述第一图像中包括的文字轮廓,确定所述第一图像中是否包括分栏信息;根据所述第一图像中是否包括分栏信息,确定所述待处理文档的页面的文档段落位置。本发明从图像处理角度出发,通过融合轮廓信息,对待处理文档进行清理、分栏并分割段落,提高了文档段落位置定位的普适性、准确性和可靠性。

Description

文档段落位置提取方法、电子设备及存储介质
技术领域
本发明涉及图像处理技术领域,具体涉及一种文档段落位置提取方法、电子设备及存储介质。
背景技术
在数字出版技术快速发展的今天,绝大多数期刊或学术会议的论文都会以电子文档形式发行。PDF(Portable Document Format,便携式文档格式)由于其可以由word文档或者latex文档直接转换生成、字体内嵌、支持高压缩图片、文件体积小便于传输、支持跨平台显示、不易修改、安全性高等特点,是期刊论文广泛使用的电子发行格式。
随着数字信息技术的发展,越来越多的文献检索机构希望可以使用计算机分段落自动提取期刊论文中的文本信息,而能否准确地分割段落信息,是准确提取文本的基础,也是关键。现有段落分割技术分为两种:一种是通过对PDF文档中的流数据进行分析来定位段落位置信息;另一种是采用OCR(Optical Character Recognition,光学字符识别)获取字符的位置,继而推导段落位置信息。
然而,基于流数据分析的方法要求PDF文档的流数据中必须包含文字及段落信息,但是实际上很多PDF文档中的流数据中并不含有此类信息,例如通过扫描仪生成或者由图片转化的PDF文档,因此此类方法无法从此类PDF文档中获取准确的段落位置信息。
而另一种基于OCR的技术方案则高度依赖OCR工具的准确性。例如,现有的OCR工具对标点、希腊字母、数字、符号等特殊字符的位置信息提取准确率不高,很容易造成对段落信息的错位判断。同时,OCR的准确率对于文档使用的语言有很高依赖性,对于英文文档有效的OCR工具很可能完全无法被用于中文文档。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种文档段落位置提取方法、电子设备及存储介质。
具体地,本发明提供了以下技术方案:
第一方面,本发明实施例提供了一种文档段落位置提取方法,包括:
对待处理文档的页面进行图像化处理,得到第一图像;
根据所述第一图像中包括的非空白区域,确定所述第一图像中的文字轮廓;
根据所述第一图像以及所述第一图像中包括的文字轮廓,确定所述第一图像中是否包括分栏信息;
根据所述第一图像中是否包括分栏信息,确定所述待处理文档的页面的文档段落位置。
进一步地,根据所述第一图像中包括的非空白区域,确定所述第一图像中的文字轮廓,包括:
根据所述第一图像中包括的非空白区域,确定所述第一图像中包括的第一轮廓信息库;
对所述第一轮廓信息库中包括的非文字轮廓进行清理,确定所述第一图像中的文字轮廓。
进一步地,根据所述第一图像中包括的非空白区域,确定所述第一图像中包括的第一轮廓信息库,包括:
对所述第一图像进行二值化处理,得到二值化图像;
定位所述二值化图像中的非空白区域的像素点,建立第一像素坐标库;
通过第一像素坐标库融合轮廓、区分不相接的轮廓,确定所述第一图像中包括的第一轮廓信息库。
进一步地,对所述第一图像进行二值化处理,得到二值化图像,包括:
计算动态阈值,根据所述动态阈值对所述第一图像进行二值化处理,得到二值化图像。
进一步地,对所述第一轮廓信息库中包括的非文字轮廓进行清理,确定所述第一图像中的文字轮廓,包括:
根据第一预设条件对所述第一轮廓信息库中的轮廓进行筛选,定位文字轮廓和非文字轮廓;
若存在非文字轮廓,将所述非文字轮廓从所述第一轮廓信息库中排除;
统计所有的文字轮廓,截取有效信息图像;
计算所述有效信息图像的页面尺寸,并根据所述页面尺寸修正并更新所有的文字轮廓信息。
进一步地,根据所述第一图像以及所述第一图像中包括的文字轮廓,确定所述第一图像中是否包括分栏信息,包括:
在所述有效信息图像中,定位文字轮廓,将除文字轮廓外的区域确定为空白区域,并建立第二像素坐标库以记录空白区域信息;
通过所述第二像素坐标库融合轮廓、区分不相接的轮廓并建立第二轮廓信息库;
在所述第二轮廓信息库中,将相邻方向接近的轮廓进行合并整理;
根据第二预设条件对第二轮廓信息库中的轮廓进行筛选,确定所述第一图像中是否包括分栏信息。
进一步地,根据所述第一图像中是否包括分栏信息,确定所述待处理文档的页面的文档段落位置,包括:
若确定所述页面不存在分栏轮廓,则将所述页面视为单栏;否则在所述有效信息图像内,根据分栏轮廓将文字轮廓从上至下、从左至右划分为不同文字栏;
其中,在同一文字栏中,在水平方向上,将距离小于第一预设距离阈值的文字轮廓进行合并整理;
在同一文字栏中,在垂直方向上,将距离小于第二预设距离阈值的文字轮廓进行合并整理;
根据整理后的文字轮廓信息,确定所述待处理文档的页面的文档段落位置。
进一步地,所述待处理文档包括PDF文档或WORD文档。
第二方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述文档段落位置提取方法的步骤。
第三方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述文档段落位置提取方法的步骤。
根据上面的技术方案可知,本发明实施例提供的文档段落位置提取方法、电子设备及存储介质,从图像处理角度出发,通过融合轮廓信息,对待处理文档进行清理、分栏并分割段落,避免了现有方法要求PDF文档的流数据中必须含有文字及段落信息、严重依赖OCR工具准确性、严重依赖文档的语言种类等问题,提高了PDF文档段落位置定位的普适性、准确性和可靠性。
需要说明的是,本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的文档段落位置提取方法的流程图;
图2是本发明一实施例提供的文档段落位置提取方法的实现过程示意图;
图3是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据背景技术的介绍可知,基于流数据分析的方法要求PDF文档的流数据中必须包含文字及段落信息,然而很多PDF文档中的流数据中并不含有此类信息,例如通过扫描仪生成或者由图片转化的PDF文档。因此此类方法无法从此类PDF文档中获取准确的段落位置信息。而基于OCR的技术方案则高度依赖OCR工具的准确性。然而,现有的OCR工具对标点、希腊字母、数字、符号等特殊字符的位置信息提取准确率不高,很容易造成对段落信息的错位判断。同时,OCR的准确率对于文档使用的语言有很高依赖性,对于英文文档有效的OCR工具很可能完全无法被用于中文文档。针对现有方法的缺点,本发明实施例从图像处理角度出发,通过融合轮廓信息,对待处理文档进行清理、分栏并分割段落。不仅对任何类型的PDF文档都有效,包括通过扫描仪生成或者由图片转化的PDF文档,同时定位准确,且不依赖于文档的语言种类。此外,需要说明的是,本发明实施例提供的文档段落位置提取方法也可以适用于有需要的WORD文档。下面将通过具体实施例对本发明提供的文档段落位置提取方法及装置进行详细说明。
图1示出了本发明一实施例提供的文档段落位置提取方法的流程示意图,参见图1,本发明实施例提供的段落位置提取方法,包括:
步骤101:对待处理文档的页面进行图像化处理,得到第一图像;
在本步骤中,将待处理文档进行分页,对于每一页文档,分别进行图像化处理,得到对应的第一图像。其中,在将待处理文档的页面转化为图像时,可根据算力将图像尺寸调整为适合大小。
在本步骤中,待处理文档可以为WORD文档,也可以为PDF文档。这里的PDF文档可以为横版PDF期刊论文,PDF文档中的每一页对应期刊论文中的一个单页。PDF文档可以是任何类型的PDF文档,包括通过扫描仪生成和由图片转化的PDF文档。页面内容可以是黑白,也可以是彩色。
步骤102:根据所述第一图像中包括的非空白区域,确定所述第一图像中的文字轮廓;
在本步骤中,将与每个页面对应的第一图像转化为二维灰度值图像,整体统筹所有像素点的像素值分布,然后可以使用通过设置一个全局阈值将图像二值化,也可以在图像局部使用加权均值及大津算法等局部阈值将图像二值化。然后定位所有黑色像素点,并建立第一轮廓信息库。
在本步骤中,首先定位所有像素值为黑色的像素点,建立第一像素坐标库;然后根据预设条件,融合上、下、左、右四个方向上接近的像素为同一轮廓,同时区分不接近的轮廓,建立第一轮廓信息库。然后清理非文字轮廓信息,并截取有效信息图像。具体地,首先对第一轮廓信息库进行整理并采用标准化形式记录。然后通过预设阈值,对轮廓的尺寸、面积等信息进行筛选,将不满足条件的轮廓定义为非文字轮廓。若存在非文字轮廓,则将其从第一轮廓信息库中剔除,并将剩余轮廓定义为文字轮廓。综合所有文字轮廓,计算包含所有文字轮廓的最小有效信息图像页面尺寸,并根据有效信息图像的边界坐标,更新第一轮廓信息库中的轮廓坐标信息。
步骤103:根据所述第一图像以及所述第一图像中包括的文字轮廓,确定所述第一图像中是否包括分栏信息;
在本步骤中,在得到的有效信息图像中,定位所有白色像素位置,并建立第二轮廓信息库。具体地,首先在有效信息图像中定位所有像素值为白色的像素点,建立第二像素坐标库。若像素坐标包含于上述的非文字轮廓,则将其从第二像素坐标库中剔除。后根据预设条件,融合上、下、左、右四个方向上接近的像素为同一轮廓,同时区分不接近的轮廓,建立第二轮廓信息库,对第二轮廓信息库进行整理并采用标准化形式记录。
然后定位分栏轮廓,并分割文字轮廓。具体地,通过预设阈值,对第二轮廓信息库中轮廓的尺寸、面积等信息进行筛选,将满足条件的轮廓定义为分栏轮廓。通过对轮廓的尺寸及面积进行筛选,定位分栏轮廓。
步骤104:根据所述第一图像中是否包括分栏信息,确定所述待处理文档的页面的文档段落位置。
在本步骤中,通过对轮廓的尺寸及面积进行筛选,定位分栏轮廓。若不存在分栏轮廓,则将页面视为单栏;否则在有效信息图像内,根据分栏轮廓将文字轮廓从上至下、从左至右划分为不同文字栏。
在本步骤中,在同一文字栏中,对于所有的文字轮廓,首先根据预设阈值,将水平方向上所有相近的文字轮廓合并,形成行轮廓,不接近的行轮廓应隶属于不同轮廓;然后在垂直方向上,将所有相近的行轮廓合并,形成段轮廓,不接近的段轮廓应隶属于不同轮廓。最终的段轮廓信息即为提取出的段落位置信息。
根据上面的技术方案可知,本发明实施例从图像处理角度出发,通过融合轮廓信息,对待处理文档进行清理、分栏并分割段落,避免了现有方法要求PDF文档的流数据中必须含有文字及段落信息、严重依赖OCR工具准确性、严重依赖文档的语言种类等问题,提高了PDF文档段落位置定位的普适性、准确性和可靠性。
基于上述实施例的内容,在本实施例中,根据所述第一图像中包括的非空白区域,确定所述第一图像中的文字轮廓,包括:
根据所述第一图像中包括的非空白区域,确定所述第一图像中包括的第一轮廓信息库;
对所述第一轮廓信息库中包括的非文字轮廓进行清理,确定所述第一图像中的文字轮廓。
在本实施例中,在根据所述第一图像中包括的非空白区域,确定所述第一图像中的文字轮廓时,可以采用的手段为:根据所述第一图像中包括的非空白区域,确定所述第一图像中包括的第一轮廓信息库;对所述第一轮廓信息库中包括的非文字轮廓进行清理,确定所述第一图像中的文字轮廓。由此可见,本实施例通过对第一图像中的非空白区域进行处理,得到所有的轮廓,然后再对非文字轮廓进行清理,从而得到对于段落分割真正有用的文字轮廓,从而提高段落提取的准确度。
基于上述实施例的内容,在本实施例中,根据所述第一图像中包括的非空白区域,确定所述第一图像中包括的第一轮廓信息库,包括:
对所述第一图像进行二值化处理,得到二值化图像;
定位所述二值化图像中的非空白区域的像素点,建立第一像素坐标库;
通过第一像素坐标库融合轮廓、区分不相接的轮廓,确定所述第一图像中包括的第一轮廓信息库。
在本实施例中,在根据所述第一图像中包括的非空白区域,确定所述第一图像中包括的第一轮廓信息库时,可以采用的手段为:对所述第一图像进行二值化处理,得到二值化图像;定位所述二值化图像中的非空白区域的像素点,建立第一像素坐标库;通过第一像素坐标库融合轮廓、区分不相接的轮廓,确定所述第一图像中包括的第一轮廓信息库。由此可见,本实施例首先通过对第一图像进行二值化处理,然后再定位二值化图像中非空白区域的像素点的方式,建立第一像素坐标库,最后基于第一像素坐标库,通过第一像素坐标库融合轮廓以及区分不相接的轮廓的方式,确定所述第一图像中包括的所有轮廓信息,由此可见,通过这种轮廓确定方式,可以很简单方便地找全第一图像中包括的所有轮廓,从而为后续对非文字轮廓进行清理,进而确定对于段落分割真正有用的文字轮廓提供了基础。
基于上述实施例的内容,在本实施例中,对所述第一图像进行二值化处理,得到二值化图像,包括:
计算动态阈值,根据所述动态阈值对所述第一图像进行二值化处理,得到二值化图像。
在本实施例中,通过依据计算动态阈值,并根据动态阈值对第一图像进行二值化处理,从而使得得到的二值化图像更为准确,更能反映文档本身的实际情况。
基于上述实施例的内容,在本实施例中,对所述第一轮廓信息库中包括的非文字轮廓进行清理,确定所述第一图像中的文字轮廓,包括:
根据第一预设条件对所述第一轮廓信息库中的轮廓进行筛选,定位文字轮廓和非文字轮廓;
若存在非文字轮廓,将所述非文字轮廓从所述第一轮廓信息库中排除;
统计所有的文字轮廓,截取有效信息图像;
计算所述有效信息图像的页面尺寸,并根据所述页面尺寸修正并更新所有的文字轮廓信息。
在本实施例中,首先对第一轮廓信息库进行整理并采用标准化形式记录。然后通过预设阈值,对轮廓的尺寸、面积等信息进行筛选,将不满足条件的轮廓定义为非文字轮廓。若存在非文字轮廓,则将其从第一轮廓信息库中剔除,并将剩余轮廓定义为文字轮廓。综合所有文字轮廓,计算包含所有文字轮廓的最小有效信息图像页面尺寸,并根据有效信息图像的边界坐标,更新第一轮廓信息库中的轮廓坐标信息。
基于上述实施例的内容,在本实施例中,根据所述第一图像以及所述第一图像中包括的文字轮廓,确定所述第一图像中是否包括分栏信息,包括:
在所述有效信息图像中,定位文字轮廓,将除文字轮廓外的区域确定为空白区域,并建立第二像素坐标库以记录空白区域信息;
通过所述第二像素坐标库融合轮廓、区分不相接的轮廓并建立第二轮廓信息库;
在所述第二轮廓信息库中,将相邻方向接近的轮廓进行合并整理;
根据第二预设条件对第二轮廓信息库中的轮廓进行筛选,确定所述第一图像中是否包括分栏信息。
在本实施例中,首先在有效信息图像中定位所有像素值为白色的像素点,建立第二像素坐标库。若像素坐标包含于上述的非文字轮廓,则将其从第二像素坐标库中剔除。后根据预设条件,融合上、下、左、右四个方向上接近的像素为同一轮廓,同时区分不接近的轮廓,建立第二轮廓信息库,对第二轮廓信息库进行整理并采用标准化形式记录。定位分栏轮廓,并分割文字轮廓。首先通过预设阈值,对第二轮廓信息库中轮廓的尺寸、面积等信息进行筛选,将满足条件的轮廓定义为分栏轮廓。通过对轮廓的尺寸及面积进行筛选,定位分栏轮廓。
基于上述实施例的内容,在本实施例中,根据所述第一图像中是否包括分栏信息,确定所述待处理文档的页面的文档段落位置,包括:
若确定所述页面不存在分栏轮廓,则将所述页面视为单栏;否则在所述有效信息图像内,根据分栏轮廓将文字轮廓从上至下、从左至右划分为不同文字栏;
其中,在同一文字栏中,在水平方向上,将距离小于第一预设距离阈值的文字轮廓进行合并整理;
在同一文字栏中,在垂直方向上,将距离小于第二预设距离阈值的文字轮廓进行合并整理;
根据整理后的文字轮廓信息,确定所述待处理文档的页面的文档段落位置。
在本实施例中,若不存在分栏轮廓,则将页面视为单栏;否则在有效信息图像内,根据分栏轮廓将文字轮廓从上至下、从左至右划分为不同文字栏。合并同一文字栏中的轮廓,并提取段落位置信息。在本步骤中,在同一文字栏中,对于所有的文字轮廓,首先根据预设阈值,将水平方向上所有相近的文字轮廓合并,形成行轮廓,不接近的行轮廓应隶属于不同轮廓;然后在垂直方向上,将所有相近的行轮廓合并,形成段轮廓,不接近的段轮廓应隶属于不同轮廓。最终的段轮廓信息即为提取出的段落位置信息。
图2为本发明提供的文档段落位置提取方法的流程图,尤其适用于横版PDF期刊论文,下面结合图2以PDF文档为例对所述方法进行详述,所述方法包括:
步骤11,将PDF文档分页,并转化为图像文件。
在本步骤中,PDF文档为横版PDF期刊论文,PDF文档中的每一页对应期刊论文中的一个单页。PDF文档可以是任何类型的PDF文档,包括通过扫描仪生成和由图片转化的PDF文档。页面内容可以是黑白,也可以是彩色。在转化为图像时,可根据算力将图片尺寸调整为适合大小,并相应调整阈值。
步骤12,将单页图像转化为只含有纯黑色(像素值为0)和纯白色(像素值为255)的图像。
在本步骤中,可先将图像转化为二维灰度值图像,整体统筹所有像素点的像素值分布。然后可以使用通过设置一个全局阈值将图像二值化,也可以在图像局部使用加权均值及大津算法等局部阈值将图像二值化。
步骤13,定位所有黑色像素点,并建立第一轮廓信息库。
在本步骤中,首先定位所有像素值为黑色的像素点,建立第一像素坐标库;然后根据预设条件,融合上、下、左、右四个方向上接近的像素为同一轮廓,同时区分不接近的轮廓,建立第一轮廓信息库。
步骤14,清理非文字轮廓信息,并截取有效信息图像。
在本步骤中,首先对第一轮廓信息库进行整理并采用标准化形式记录。然后通过预设阈值,对轮廓的尺寸、面积等信息进行筛选,将不满足条件的轮廓定义为非文字轮廓。若存在非文字轮廓,则将其从第一轮廓信息库中剔除,并将剩余轮廓定义为文字轮廓。综合所有文字轮廓,计算包含所有文字轮廓的最小有效信息图像页面尺寸,并根据有效信息图像的边界坐标,更新第一轮廓信息库中的轮廓坐标信息。
步骤15,在有效信息图像中,定位所有白色像素位置,并建立第二轮廓信息库。
在本步骤中,首先在有效信息图像中定位所有像素值为白色的像素点,建立第二像素坐标库。若像素坐标包含于步骤14中的非文字轮廓,则将其从第二像素坐标库中剔除。后根据预设条件,融合上、下、左、右四个方向上接近的像素为同一轮廓,同时区分不接近的轮廓,建立第二轮廓信息库,对第二轮廓信息库进行整理并采用标准化形式记录。
步骤16,定位分栏轮廓,并分割文字轮廓。
在本步骤中,首先通过预设阈值,对第二轮廓信息库中轮廓的尺寸、面积等信息进行筛选,将满足条件的轮廓定义为分栏轮廓。通过对轮廓的尺寸及面积进行筛选,定位分栏轮廓。若不存在分栏轮廓,则将页面视为单栏;否则在有效信息图像内,根据分栏轮廓将文字轮廓从上至下、从左至右划分为不同文字栏。
步骤17,合并同一文字栏中的轮廓,并提取段落位置信息。
在本步骤中,在同一文字栏中,对于所有的文字轮廓,首先根据预设阈值,将水平方向上所有相近的文字轮廓合并,形成行轮廓,不接近的行轮廓应隶属于不同轮廓;然后在垂直方向上,将所有相近的行轮廓合并,形成段轮廓,不接近的段轮廓应隶属于不同轮廓。最终的段轮廓信息即为提取出的段落位置信息。
本发明实施例从图像处理角度出发,通过融合轮廓信息,对待处理文档进行清理、分栏并分割段落,避免了现有方法要求PDF文档的流数据中必须含有文字及段落信息、严重依赖OCR工具准确性、严重依赖文档的语言种类等问题,提高了PDF文档段落位置定位的普适性、准确性和可靠性。
基于相同的发明构思,本发明又一实施例提供了一种电子设备,参见图3,所述电子设备具体包括如下内容:处理器301、存储器302、通信接口303和通信总线304;
其中,所述处理器301、存储器302、通信接口303通过所述通信总线304完成相互间的通信;所述通信接口303用于实现各相关设备之间的传输;
所述处理器301用于调用所述存储器302中的计算机程序,所述处理器执行所述计算机程序时实现上述文档段落位置提取方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤101:对待处理文档的页面进行图像化处理,得到第一图像;
步骤102:根据所述第一图像中包括的非空白区域,确定所述第一图像中的文字轮廓;
步骤103:根据所述第一图像以及所述第一图像中包括的文字轮廓,确定所述第一图像中是否包括分栏信息;
步骤104:根据所述第一图像中是否包括分栏信息,确定所述待处理文档的页面的文档段落位置。
基于相同的发明构思,本发明又一实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述文档段落位置提取方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤101:对待处理文档的页面进行图像化处理,得到第一图像;
步骤102:根据所述第一图像中包括的非空白区域,确定所述第一图像中的文字轮廓;
步骤103:根据所述第一图像以及所述第一图像中包括的文字轮廓,确定所述第一图像中是否包括分栏信息;
步骤104:根据所述第一图像中是否包括分栏信息,确定所述待处理文档的页面的文档段落位置。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的文档段落位置提取方法。
在本发明中,诸如“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
此外,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
此外,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文档段落位置提取方法,其特征在于,包括:
对待处理文档的页面进行图像化处理,得到第一图像;
根据所述第一图像中包括的非空白区域,确定所述第一图像中的文字轮廓;
根据所述第一图像以及所述第一图像中包括的文字轮廓,确定所述第一图像中是否包括分栏信息;
根据所述第一图像中是否包括分栏信息,确定所述待处理文档的页面的文档段落位置。
2.根据权利要求1所述的文档段落位置提取方法,其特征在于,根据所述第一图像中包括的非空白区域,确定所述第一图像中的文字轮廓,包括:
根据所述第一图像中包括的非空白区域,确定所述第一图像中包括的第一轮廓信息库;
对所述第一轮廓信息库中包括的非文字轮廓进行清理,确定所述第一图像中的文字轮廓。
3.根据权利要求2所述的文档段落位置提取方法,其特征在于,根据所述第一图像中包括的非空白区域,确定所述第一图像中包括的第一轮廓信息库,包括:
对所述第一图像进行二值化处理,得到二值化图像;
定位所述二值化图像中的非空白区域的像素点,建立第一像素坐标库;
通过第一像素坐标库融合轮廓、区分不相接的轮廓,确定所述第一图像中包括的第一轮廓信息库。
4.根据权利要求3所述的文档段落位置提取方法,其特征在于,对所述第一图像进行二值化处理,得到二值化图像,包括:
计算动态阈值,根据所述动态阈值对所述第一图像进行二值化处理,得到二值化图像。
5.根据权利要求3所述的文档段落位置提取方法,其特征在于,对所述第一轮廓信息库中包括的非文字轮廓进行清理,确定所述第一图像中的文字轮廓,包括:
根据第一预设条件对所述第一轮廓信息库中的轮廓进行筛选,定位文字轮廓和非文字轮廓;
若存在非文字轮廓,将所述非文字轮廓从所述第一轮廓信息库中排除;
统计所有的文字轮廓,截取有效信息图像;
计算所述有效信息图像的页面尺寸,并根据所述页面尺寸修正并更新所有的文字轮廓信息。
6.根据权利要求5所述的文档段落位置提取方法,其特征在于,根据所述第一图像以及所述第一图像中包括的文字轮廓,确定所述第一图像中是否包括分栏信息,包括:
在所述有效信息图像中,定位文字轮廓,将除文字轮廓外的区域确定为空白区域,并建立第二像素坐标库以记录空白区域信息;
通过所述第二像素坐标库融合轮廓、区分不相接的轮廓并建立第二轮廓信息库;
在所述第二轮廓信息库中,将相邻方向接近的轮廓进行合并整理;
根据第二预设条件对第二轮廓信息库中的轮廓进行筛选,确定所述第一图像中是否包括分栏信息。
7.根据权利要求6所述的文档段落位置提取方法,其特征在于,根据所述第一图像中是否包括分栏信息,确定所述待处理文档的页面的文档段落位置,包括:
若确定所述页面不存在分栏轮廓,则将所述页面视为单栏;否则在所述有效信息图像内,根据分栏轮廓将文字轮廓从上至下、从左至右划分为不同文字栏;
其中,在同一文字栏中,在水平方向上,将距离小于第一预设距离阈值的文字轮廓进行合并整理;
在同一文字栏中,在垂直方向上,将距离小于第二预设距离阈值的文字轮廓进行合并整理;
根据整理后的文字轮廓信息,确定所述待处理文档的页面的文档段落位置。
8.根据权利要求1~7任一项所述的文档段落位置提取方法,其特征在于,所述待处理文档包括PDF文档或WORD文档。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述文档段落位置提取方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至8任一项所述文档段落位置提取方法的步骤。
CN202111526160.6A 2021-12-14 2021-12-14 文档段落位置提取方法、电子设备及存储介质 Pending CN114495141A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111526160.6A CN114495141A (zh) 2021-12-14 2021-12-14 文档段落位置提取方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111526160.6A CN114495141A (zh) 2021-12-14 2021-12-14 文档段落位置提取方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114495141A true CN114495141A (zh) 2022-05-13

Family

ID=81494792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111526160.6A Pending CN114495141A (zh) 2021-12-14 2021-12-14 文档段落位置提取方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114495141A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115588202A (zh) * 2022-10-28 2023-01-10 南京云阶电力科技有限公司 一种基于轮廓检测的电气设计图纸中文字提取方法及系统
CN116306575A (zh) * 2023-05-10 2023-06-23 杭州恒生聚源信息技术有限公司 文档解析方法、文档解析模型训练方法、装置和电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115588202A (zh) * 2022-10-28 2023-01-10 南京云阶电力科技有限公司 一种基于轮廓检测的电气设计图纸中文字提取方法及系统
CN115588202B (zh) * 2022-10-28 2023-08-15 南京云阶电力科技有限公司 一种基于轮廓检测的电气设计图纸中文字提取方法及系统
CN116306575A (zh) * 2023-05-10 2023-06-23 杭州恒生聚源信息技术有限公司 文档解析方法、文档解析模型训练方法、装置和电子设备
CN116306575B (zh) * 2023-05-10 2023-08-29 杭州恒生聚源信息技术有限公司 文档解析方法、文档解析模型训练方法、装置和电子设备

Similar Documents

Publication Publication Date Title
US10943105B2 (en) Document field detection and parsing
JP5492205B2 (ja) 印刷媒体ページの記事へのセグメント化
US8442319B2 (en) System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
JP3308032B2 (ja) スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置
CN110766014A (zh) 票据信息定位方法、系统及计算机可读存储介质
US10643094B2 (en) Method for line and word segmentation for handwritten text images
JPH0668301A (ja) 文字認識方法及び装置
CN109389115B (zh) 文本识别方法、装置、存储介质和计算机设备
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
Liang et al. Document layout structure extraction using bounding boxes of different entitles
CN114495141A (zh) 文档段落位置提取方法、电子设备及存储介质
Kaundilya et al. Automated text extraction from images using OCR system
JP2019016350A (ja) 電子文書における強調テキストの識別
Hesham et al. Arabic document layout analysis
Liang et al. Performance evaluation of document layout analysis algorithms on the UW data set
CN113887375A (zh) 一种文本识别方法、装置、设备及存储介质
CN114581928A (zh) 一种表格识别方法及系统
JP5601027B2 (ja) 画像処理装置及び画像処理プログラム
CN116030472A (zh) 文字坐标确定方法及装置
JPH0721817B2 (ja) 文書画像処理方法
Ranka et al. Automatic table detection and retention from scanned document images via analysis of structural information
Kumar et al. Line based robust script identification for indianlanguages
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
Mahastama et al. Improving Projection Profile for Segmenting Characters from Javanese Manuscripts
CN114495142A (zh) 文档段落位置提取装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination