CN113743318A - 基于行列分割的表格结构识别方法、存储介质和电子装置 - Google Patents
基于行列分割的表格结构识别方法、存储介质和电子装置 Download PDFInfo
- Publication number
- CN113743318A CN113743318A CN202111042986.5A CN202111042986A CN113743318A CN 113743318 A CN113743318 A CN 113743318A CN 202111042986 A CN202111042986 A CN 202111042986A CN 113743318 A CN113743318 A CN 113743318A
- Authority
- CN
- China
- Prior art keywords
- row
- column
- distribution
- feature map
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000009826 distribution Methods 0.000 claims abstract description 37
- 230000011218 segmentation Effects 0.000 claims abstract 2
- 238000004590 computer program Methods 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于行列分割的表格结构识别方法、存储介质和电子装置,其中方法包括,获取表格图像;提取包括行特征和列特征的表格特征图;对行特征和列特征进行处理,分别得到表格的行分布和列分布;判断行分布和列分布的区域是否有重叠,重叠的部分为表格的单元格,否则为背景。本发明简化了表格行与列预测,并保证了预测有较高的稳定性;在同一卷积网络中同时完成表格行与列的预测,便于调试和部署;先获得表格行与列分布,再获取表格单元格分布,这种自下而上的方法增加了鲁棒性。
Description
技术领域
本发明属于计算机视觉以及人工智能技术领域,具体是一种基于行列分割的表格结构识别方法、存储介质和电子装置。
背景技术
日常生活中表格是一种通用且常见的文本对象,如何在海量的数据中检测识别表格成为必要且有挑战的任务。表格检测和表格结构识别组成完整的表格识别任务。表格检测的目的是定位页面中表格区域,很多研究者将其定义为目标检测问题。相比较于表格检测,表格结构识别是更有难度的任务,其目标是获取表格的结构信息。早期的表格结构识别研究主要是基于启发式规则的方法,即制定一系列规则以检测出满足特定条件的表格。然而,基于启发式规则的表格识别方法难以设计,并受限于一定的场景,不能表现出很好的泛化能力。目前研究者大多使用目标检测、图像分割等深度学习方法进行表格结构识别。针对表格的特殊结构,既可以将行与列也可以将行之间和列之间的框线作为识别的对象,但表格框线所占像素数较少导致了正负样本失衡的问题。有的研究针对表格结构提出一致性假设:表格所有行从第一列的起点开始,到最后一列的终点结束;所有列从第一行的起点开始,到最后一行的终点结束。因此,对于列特征只需要预测第一行像素的分类再进行展开就可以得到整个列预测图,行特征则只需要预测第一列像素的分类。这样做虽然可以降低行列分割的复杂度,但容易产生较大的容错率,某一个像素位置的分类预测出错将会影响整个预测图。
发明内容
鉴于上述现有技术中的缺陷,本发明将表格结构识别任务拆分为表格行和列分割任务,通过分割出来的行列信息构建完整的表格结构信息。
本发明第一方面,提供一种基于行列分割的表格结构识别方法,包括以下步骤,
S1、获取表格图像;
S2、提取包括行特征和列特征的表格特征图;
S3、对所述行特征和所述列特征进行处理,分别得到所述表格的行分布和列分布;
S4、判断所述行分布和列分布的区域是否有重叠,重叠的部分为表格的单元格,否则为背景。
进一步,步骤S2中所述提取表格的行特征和列特征具体是,使用基于深度学习的卷积神经网络作为骨干网进行特征提取,所述卷积神经网络为VGG、ResNet或MobileNet。
进一步,步骤S3具体为,
S31、利用基于注意力机制的网络在通道维度上分别提取所述特征图每一行和每一列的最大值;
S32、相应的产生一列像素的分布和一行像素的分布;
假设作为输入的表格特征图大小为H×W×C,输出H×1×C大小的行特征图Frow和1×W×C大小的列特征图Fcol;
S33、对所述行特征图Frow和所述列特征图Fcol进行平铺,得到维度为H×W×C的行分布和列分布,分别是
本发明第二方面,提供一种计算机可读的存储介质,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项技术方案中所述的方法。
本发明第三方面,提供一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项技术方案中所述的方法。
本发明具有以下有益效果:简化了表格行与列预测,并保证了预测有较高的稳定性;在同一卷积网络中同时完成表格行与列的预测,便于调试和部署;先获得表格行与列分布,再获取表格单元格分布,这种自下而上的方法增加了鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例基于行列分割的表格结构识别方法流程图;
图2为图1实施例中得到的行分布的示意图;
图3为图1实施例中得到的列分布的示意图;
图4为图1实施例中单元格分布示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,本实施例第一方面是一种基于行列分割的表格结构识别方法,包括以下步骤:
S1、获取表格图像。
在本发明实施例中,包含表格的图片可以通过扫描仪、高拍仪、数码相机、带摄像头的移动终端等设备来获取,本发明对此不做限制。
在本发明实施例中,图片中可以包含表格、文字、图画等内容,图片中的底色、表格、文字颜色可以为白色、黑色、红色、黄色、蓝色等颜色,本发明对此不做限制。
S2、提取包括行特征和列特征的表格特征图。
在本发明实施例中,表格是由若干的行与列所构成的一种有序的组织形式,若干行与列的交汇区域形成表格中的若干单元格。基于行与列分布可以构造单元格分布,从而得知表格的结构。
具体的,使用基于深度学习的卷积神经网络作为骨干网进行特征提取,骨干网可以为VGG,ResNet或MobileNet等,本发明对此不做限制。
S3、对所述行特征和所述列特征进行处理,分别得到所述表格的行分布和列分布。
具体的,通过以下步骤实现:
S31、将表格特征图进行切片,即利用基于注意力机制的网络在通道维度上分别提取所述特征图每一行和每一列的最大值;
S32、相应的产生一列像素的分布和一行像素的分布;
假设作为输入的表格特征图大小为H×W×C,输出H×1×C大小的行特征图Frow和1×W×C大小的列特征图Fcol;
S33、对所述行特征图Frow和所述列特征图Fcol进行平铺,即将Frow沿宽度轴复制W次,将Fcol沿着高度轴复制H次,得到维度为H×W×C的行分布和列分布,分别是
切片操作将列分割在每个通道上简化成一行元素的预测,平铺操作将特征图还原到切片之前的尺寸,这样一方面产生粗略的软预测从而指导行列预测网络的学习,另一方面可以依靠行列预测网络进行错误修正,避免产生较大错误。
平铺操作后的特征图经过Softmax将特征值归一化到0~1;行信息流和列信息流分别与经过上采样后的整体信息流相加。最后将归一化的特征图与加和后的特征图相乘,得到输出特征图。这一操作旨在从列信息流中提取关于列的注意力并抑制不相关的信息,最后将其应用到经过整体信息流增强的信息流上。
S4、判断所述行分布和列分布的区域是否有重叠,重叠的部分为表格的单元格,否则为背景。
本实施例第二方面,提供一种计算机可读的存储介质,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项技术方案中所述的方法。
本实施例第三方面,提供一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项技术方案中所述的方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (5)
1.基于行列分割的表格结构识别方法,其特征在于,包括以下步骤,
S1、获取表格图像;
S2、提取包括行特征和列特征的表格特征图;
S3、对所述行特征和所述列特征进行处理,分别得到所述表格的行分布和列分布;
S4、判断所述行分布和列分布的区域是否有重叠,重叠的部分为表格的单元格,否则为背景。
2.根据权利要求1所述的表格结构识别方法,其特征在于,S2中所述提取表格的行特征和列特征具体是,使用基于深度学习的卷积神经网络作为骨干网进行特征提取,所述卷积神经网络为VGG、ResNet或MobileNet。
4.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至3任一项中所述的方法。
5.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至3任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111042986.5A CN113743318A (zh) | 2021-09-07 | 2021-09-07 | 基于行列分割的表格结构识别方法、存储介质和电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111042986.5A CN113743318A (zh) | 2021-09-07 | 2021-09-07 | 基于行列分割的表格结构识别方法、存储介质和电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113743318A true CN113743318A (zh) | 2021-12-03 |
Family
ID=78736459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111042986.5A Withdrawn CN113743318A (zh) | 2021-09-07 | 2021-09-07 | 基于行列分割的表格结构识别方法、存储介质和电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743318A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821607A (zh) * | 2022-04-02 | 2022-07-29 | 珠海金山办公软件有限公司 | 表格还原方法、装置、电子设备及存储介质 |
CN115331245A (zh) * | 2022-10-12 | 2022-11-11 | 中南民族大学 | 一种基于图像实例分割的表格结构识别方法 |
TWI806392B (zh) * | 2022-01-27 | 2023-06-21 | 國立高雄師範大學 | 表格文本的表格辨識方法 |
-
2021
- 2021-09-07 CN CN202111042986.5A patent/CN113743318A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI806392B (zh) * | 2022-01-27 | 2023-06-21 | 國立高雄師範大學 | 表格文本的表格辨識方法 |
CN114821607A (zh) * | 2022-04-02 | 2022-07-29 | 珠海金山办公软件有限公司 | 表格还原方法、装置、电子设备及存储介质 |
CN115331245A (zh) * | 2022-10-12 | 2022-11-11 | 中南民族大学 | 一种基于图像实例分割的表格结构识别方法 |
CN115331245B (zh) * | 2022-10-12 | 2023-02-03 | 中南民族大学 | 一种基于图像实例分割的表格结构识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111985464B (zh) | 面向法院判决文书的多尺度学习的文字识别方法及系统 | |
CN113743318A (zh) | 基于行列分割的表格结构识别方法、存储介质和电子装置 | |
US8712188B2 (en) | System and method for document orientation detection | |
CN109241861B (zh) | 一种数学公式识别方法、装置、设备及存储介质 | |
CN110032998A (zh) | 自然场景图片的文字检测方法、系统、装置和存储介质 | |
CN115131797B (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN112070649B (zh) | 一种去除特定字符串水印的方法及系统 | |
JPH0721319A (ja) | 自動アジア言語決定装置 | |
US20240161449A1 (en) | Apparatus and methods for converting lineless talbes into lined tables using generative adversarial networks | |
US10423851B2 (en) | Method, apparatus, and computer-readable medium for processing an image with horizontal and vertical text | |
CN109948533B (zh) | 一种文本检测方法、装置、设备及可读存储介质 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN105574524A (zh) | 基于对白和分镜联合识别的漫画图像版面识别方法和系统 | |
CN110059539A (zh) | 一种基于图像分割的自然场景文本位置检测方法 | |
CN111461070A (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN110503103A (zh) | 一种基于全卷积神经网络的文本行中的字符切分方法 | |
CN113901952A (zh) | 一种基于深度学习的印刷体与手写体分开文字识别方法 | |
CN108805884A (zh) | 一种马赛克区域检测方法、装置及设备 | |
CN102171723A (zh) | 红眼检测的方法 | |
WO2022213784A1 (zh) | 图像处理方法及装置、电子设备和存储介质 | |
Watanabe et al. | Japanese character segmentation for historical handwritten official documents using fully convolutional networks | |
CN112861960B (zh) | 一种图像篡改检测方法、系统及存储介质 | |
JP4275973B2 (ja) | 加筆画像抽出装置、プログラム、記憶媒体及び加筆画像抽出方法 | |
WO2024174726A1 (zh) | 基于深度学习的手写及打印文本检测方法和装置 | |
US20080310715A1 (en) | Applying a segmentation engine to different mappings of a digital image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211203 |