Nothing Special   »   [go: up one dir, main page]

CN105512611A - 一种表格图像检测识别方法 - Google Patents

一种表格图像检测识别方法 Download PDF

Info

Publication number
CN105512611A
CN105512611A CN201510831415.8A CN201510831415A CN105512611A CN 105512611 A CN105512611 A CN 105512611A CN 201510831415 A CN201510831415 A CN 201510831415A CN 105512611 A CN105512611 A CN 105512611A
Authority
CN
China
Prior art keywords
cut
projection
class
character
subsequent use
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510831415.8A
Other languages
English (en)
Inventor
陈炳章
何宏靖
刘世林
吴雨浓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201510831415.8A priority Critical patent/CN105512611A/zh
Publication of CN105512611A publication Critical patent/CN105512611A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)

Abstract

本发明涉及图像识别领域,特别涉及一种表格图像检测识别方法;本方法首先检测出待识别图像表格中的单元格,将每个单元格中的信息内容整体切分出来,对每个单元格中的文字信息利用投影法找出文字的备用切分点,利用贝叶斯分类器对备用切分点进行判断,找出文字信息的准确切分点,并对切分出来的文字子图片进行分类,为文字信息的准确识别创造了有利条件;保证切分出单个文字的完整和准确性;在此基础上将切分出的文字输入到经过训练的神经网络中,通过神经网络快速自动的将文字块内容识别出来。本发明方法对图像表格文字的识检测别准确率极高,在图像文字识别,信息挖掘,信息分析领域具有巨大的应用前景。

Description

一种表格图像检测识别方法
技术领域
本发明涉及图像识别领域,特别涉及一种表格图像检测识别方法。
背景技术
图像识别技术是目前智能识别技术领域中非常重要的发展方向,图像识别的发展经历了三个阶段:文字识别、数字图像处理与识别、物体识别;其中在众多的图像识别技术中,对图像文字的识别技术显得尤为重要,这是因为图像文字往往比单纯图像包含更加重要的可利用信息,文字识别一般是识别字母、数字和符号,从印刷文字识别到手写文字识别,应用非常广泛。图像识别问题的数学本质属于模式空间到类别空间的映射问题。目前,在图像识别的发展中,主要有三种识别方法:统计模式识别、结构模式识别、模糊模式识别。
随着图像文字的深入发展,越来越多的种类的图像文字资料,被纳入图像文字识别的范畴中,其中表格作为文字数据记录汇总最精简表达方式,或者数据统计、结果分析中最常用的表达格式,是各种数据分析工具中基础工具。表格在各行各业应用的广泛性不言而喻。不难看出对于表格式图像文字识别的重要性,比如对一个企业年度业绩报表,可能包含企业年度业绩中最重要的统计数据和分析结果,这些信息的重要性和概括性是其他任何材料所比拟不了的,目前的网络信息中充斥着各种表格资料,但是很多表格都是以图片的形式提供,比如各种扫描档案文件、PDF文件,自动识别这些图像表格资料,将图片类型的表格内容还原成数字资料是将这些资料进行快速处理和分析的基础。
但是,由于表格资料本身的表格结构特征,使得表格图像文字的识别比一般的普通图像文字资料更加困难,现有技术中在进行图像中文字的识别时,首先需要将图像中的字符串切分开,形成包含单个文字的小图片,然后使用一定的方法对切分后的文字进行识别。而进行文字切分最常用的方法为投影法,即是将图像文字二值化处理后,通过垂直投影找到两个文字之间的分界线,根据分界线将文字切分开来。由于表格的框线的存在,直接使用传统的投影发所实现的文字切分和识别就不太现实。同时由于表格本身结构的复杂多变,复杂多变的轮廓框线使得投影法难以实现将表格文字信息的切分。同时由于图片文字信息中的文字信息的复杂性(比如说左右结构的的汉字),在使用投影法进行切分时,左右结构部件由于之间存在的间隙而容易被切分为独立的两部分,这不利于图像文字信息的准确识别,面对大量的图像表格数据的快速分析需要,亟待一种快速、完整、准确的图像表格文字识别方法。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种表格图像检测识别方法,能够快速完整的将图像表格中的文字信息切分出来。本发明首先检测出待识别图像表格中的单元格轮廓;根据单元格轮廓所对应的四角顶点坐标将对应单元格中的文字信息切分出来;通过投影法找出单元格内每个文字块的备用切分坐标位置;最后通过贝叶斯分类器对备用切分点之间的文字块进行分类识别,实现文字部件,数字、字母或者标点符号的分类切分,在对文字的准确的切分的基础上,将切分出来的文字块输入到神经网络中完成文字内容的识别。
为了实现上述发明目的,本发明提供以下技术方案,一种表格图像检测识别方法,包含以下实现过程:
将待处理图片进行二值化处理,检测出所述图像表格中的单元格,将各单元格中的内容作为一个整体切分出来,形成对应的子图片;
使用投影法找出子图片中文字信息的备用切分点;
通过贝叶斯分类器对所述备用切分点之间的文字信息进行判断,找出优化切分点,并通过优化切分点将图片中的文字切分出来;
将切分出的文字图片输入训练好的神经网络中识别出对应的文字内容。
具体的,本表格图像检测识别方法采用以下实现步骤:
(1)将待处理图像表格进行二值化处理,使用openCV图像处理工具中的findcontours函数检测出图像表格单元格轮廓;将检测出的单元格轮廓的点集提取出来放置在对应的点类中;
(2)对所述步骤(1)提取出的单元格轮廓点集,调用minAreaRect函数构建出包含单元格轮廓点集的面积最小的旋转矩形区域;并提取出该旋转矩形区域的四角顶点坐标点;根据所述四角顶点坐标值将对应单元格中的文字信息作为整体切分出来,形成对应的子图片;
(3)采用投影法找出所述子图片中文字信息的备用切分点;
(4)并通过贝叶斯分类器对所述备用切分点进行判断找出优化切分点,将图片中的文字切分出来;
(5)将切分好的文字块图片输入经过训练的神经网络中,识别出对应的文字内容。
进一步的,所述步骤(3)中,根据横向投影和纵向投影坐标确定每个文字的坐标位置,根据坐标位置可以依次把单个文字切分出来,将子图片中切分出来的文字按照原有的顺序进行识别,保证了子图片中文字识别的顺序和逻辑准确性。
进一步的,所述步骤(3)中对切分出来的单元格文字图像进行侧向投影,计算出一行的非0像素的个数,并将该值放到projection_y类中。每一行非0像素的计算方法为:i是行数,j是列数,pix(i,j)是对应像素值,n+1是像素点的总列数。
进一步的,所述步骤(3)中对projection_y类中的元素进行遍历,变量k遍历范围为从1开始到projection_y.size()-1结束。如果projection_y[k]=0,projection_y[k+1]>0,projection_y[k+2]>0,则判断k为某一行的起始切分点,并将其放到类vector<int>top中;如果projection_y[k]=0,projection_y[k-1]>0,projection_y[k-2]>0,则判断k为某一行的终点切分点,并将其放到类vector<int>bottom中;top.size()=bottom.size()。基于类top和bottom中的元素值即可将单元格中的文字行向切分出来,对应的两个坐标值也就是该行所有文字的上下两个y坐标。
进一步的,对于切分出来的每一行的文字图像进行垂直投影,计算出一列的非0像素的个数,并将该值放到projection_x类中。每一列非0像素的计算方法为:j是列数,i是行数,pix(i,j)是对应像素值,m+1像素点的总行数。
进一步的,对projection_x类中的元素进行遍历,变量k遍历范围为从1开始到projection_x.size()-1结束。如果projection_x[k]=0,projection_x[k+1]>0,projection_x[k+2]>0,则判断k为某一文字块的起始切分点,并将其放到类vector<int>left中;如果projection_x[k]=0,projection_x[k-1]>0,projection_x[k-2]>0,则判断k为某一文字块的终点切分点,并将其放到类vector<int>right中;遍历完后left.size()应该等于right.size()。类left和right中的元素值就是单文字可选用的备用切分位置(备用切分点)。
根据横向投影和纵向投影坐标就可以确定每个文字块的坐标位置。根据坐标位置可以把单个文字切分出来。
进一步的,本发明方法采用贝叶斯分类器对备用切分点之间的内容进行判断,对文字部件,数字,字母和标点进行分类,以避免某一个文字由于左右部件之间的间隙而被切分成两块,同时保证数字,字母和标点能够被单独切分出来。
进一步的,本发明方法采用的贝叶斯分类器中分类类别包括三大类,第一类为文字部件,第二类为数字、字母,第三类为标点符号。
进一步的,通过上述过程,在完成单个文字的切分的基础上,将切分出来的文字块输入到进过训练的神经网络中,通过神经网络完成文字块内容的识别。
具体的,为了保证识别的完整和正确性,本发明使用的神经网络在训练时的训练样本,进行人工标注,提高神经网络的识别准确率,图像表格中包含的文字信息类别比较丰富,一般包括:汉字、数字、字母以及标点符号,为了和待识别图像表格文字的内容相适应,所使用的训练样本中应该包含汉字、数字、字母以及标点符号字符集。
与现有技术相比,本发明的有益效果:本发明提供一种表格图像检测识别方法,本方法首先检测出待识别图像表格中的单元格,将每个单元格中的信息内容整体切分出来形成对应子图片,对每个单元格中的文字信息利用投影法找出备用切分点,在备用切分点的基础上使用贝叶斯分类器对文字块左右切分点之间内容进行分类,找出优化的切分位置,实现单元格文字内容的准确切分;在克服了图像表格文字识别中的切分难题的基础上将切分好的文字块输入到训练好的神经网络中,有神经网络完成文字块内容的识别;本发明方法中选用的贝叶斯分类器,的分类类别包括,文字部件、数字、字母以及标点符号,将文字块左右切分点之间的内容输入贝叶斯分类器中进行分类,可以识别出对应类别属于某一类别的概率,进而识别出对应文字块的类别,将属于数字、字母以及标点符号的文字块按照对应的类别切分出来,将属于文字部件的文字块,按照左右部件组合完整的方式作为一个整体切分出来,这样优化切分方式,极大的提高了图像表格文字信息的切分准确率和完整性,为图像表格文字的识别提供了快速,可靠的切分基础;并且最终通过神经网络的识别,完成了图像表格文字的快速准确的识别,系统相对完整,识别过程逻辑清晰,识别的准确率极高;在信息挖掘和分析领域具有巨大的应用前景。
附图说明:
图1为本表格图像检测识别方法的实现过程示意图。
图2为待识别图像表格示意图。
图3为通过openCV中的findcontours函数所提取出的单元格轮廓示意图。
图4为图3中的单元格子图片切范围示意图。
图5为经过图4的切分确定的切分范围所切分出的单元格子图片的示意图。
图6为通过投影法找出的备用切分点示意图。
图7为对图6的备用切分点通过贝叶斯分类器进行优化的判断过程示意图。
需要说明的是,本发明所有附图均为示意性的,不代表实际的尺寸和比例。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明提供一种表格图像检测识别方法,能够快速准确的将图像表格中的文字信息切分出来。本发明首先检测出待识别图像表格中的单元格轮廓;根据单元格轮廓所对应的四角顶点坐标将对应单元格中的文字信息切分出来;通过投影法找出单元格内文字信息的每个文字块的备用切分坐标位置;最后通过贝叶斯分类器对备用切分点之间的文字块进行分类识别,实现文字、数字、字母或者标点符号的分别切分,在完成完整,准确的文字切分的基础上将文字块输入经过训练的神经网络中,由神经网络来完成文字对应内容的识别。本发明方法的图像表格文字切分,按照先单元格后单元格内文字信息的切分顺序进行,计算逻辑清晰,切分效率高,并且通过贝叶斯分类器,对切分出来的文字块进行分类,对切分位置进行优化,在保证切分出的文字完整的同时也实现了数字,字母以及符号准确切分,图像表格文字的准确识别创造了良好的切分条件,并最终通过神经网络完成了文字的自动识别和检测。
为了实现上述发明目的,本发明提供以下技术方案,
一种表格图像检测识别方法,包含以下实现过程:
将待处理图片进行二值化处理,检测出所述图像表格中的单元格,将各单元格中的内容作为一个整体切分出来,形成对应的子图片;
再使用投影法找出子图片中的文字信息的备用切分点;
通过贝叶斯分类器对所述备用切分点之间的文字信息进行判断,找出优化切分点,并通过优化切分点将图片中的文字切分出来;
在文字切分的基础上将切分好的文字块输入到训练好的神经网络中,通过神经网络自动的识别出文字块中的对应内容。
具体的,本表格图像检测识别方法采用如图1所示的实现步骤:
(1)将待处理图像表格进行二值化处理,使用openCV图像处理工具中的findcontours函数检测出图像表格单元格轮廓;将检测出的单元格轮廓的点集提取出来放置在对应的点类中(如:用Vector1,Vector2,Vector3……来表示);openCV是一种高效的图像处理工具,openCV中包含很多简单高效的图像处理函数,其中findcontours函数能够根据表格框线轮廓的特点将单元格的轮廓检测出来,并将检测出的单元格轮廓点集提取出来,检测效率高,图2为待处理图像表格的一个示例图,经过步骤findcontours函数找出的待识别表格单元格的轮廓线如图3所示。
(2)对所述步骤(1)提取出的单元格轮廓点集,调用minAreaRect函数构建出包含单元格轮廓点集的面积最小的旋转矩形区域;并提取出该旋转矩形区域的四角顶点坐标点;根据所述四角顶点坐标值将对应单元格中的文字信息作为整体切分出来,形成对应的子图片,如图4所示;
(3)采用投影法找出所述子图片中文字信息的备用切分点;
(4)通过贝叶斯分类器对所述备用切分点进行判断找出优化切分点,将图片中的文字切分出来;
(5)在文字切分的基础上将切分好的文字块输入到训练好的神经网络中,通过神经网络自动的识别出文字块中的对应内容。
进一步的,所述步骤(1)中将各个单元格的轮廓点集组成的类(Vector1,Vector2,Vector3……),放入一个大类:contours中,这样的处理便于在后续步骤中,根据需要调用其中的元素进行相应的计算。
进一步的,所述步骤(2)中遍历contours中的元素,调用minAreaRect函数,这样的便利操作方式可以保证,对contours中的每个元素进行操作,也就是说,对待识别图像表格中的各个单元格轮廓进行相应的操作,确保计算结果的完整性。
进一步的,所述步骤(2)中将minAreaRect函数构建的旋转矩形区域放置在对应的RotatedRect类中。
进一步的,所述步骤(2)中遍历RotatedRect中的元素,提取每个元素对应旋转矩形区域的四角顶点坐标,遍历的方法可以保证所有的旋转矩形区域都可以被计算到,避免遗漏,保证数据的完整性。
进一步的,所述步骤(2)中根据minAreaRect函数提取出的旋转矩形区域的四角顶点坐标,计算出表格单元文字信息切分点;将四角顶点坐标向矩形区域内的方向相应移动一定距离,所确定的新的区域就能够将单元格的边框切除掉,留下仅包含单元格文字内部文字信息的子图片,具体的过程不再赘述。
进一步的,所述步骤(3)中对切分出来的单元格文字图像进行侧向投影,计算出一行的非0像素的个数,并将该值放到projection_y类中。每一行非0像素的计算方法为:i是行数,j是列数,pix(i,j)是对应像素值,n+1是像素点的总列数。
进一步的,所述步骤(3)中对projection_y类中的元素进行遍历,变量k遍历范围为从1开始到projection_y.size()-1结束。如果projection_y[k]=0,projection_y[k+1]>0,projection_y[k+2]>0,则判断k为某一行的起始切分点,并将其放到类vector<int>top中;如果projection_y[k]=0,projection_y[k-1]>0,projection_y[k-2]>0,则判断k为某一行的终点切分点,并将其放到类vector<int>bottom中;top.size()=bottom.size()。基于类top和bottom中的元素值即可将单元格中的文字行向切分出来,对应的两个坐标值也就是该行所有文字的上下两个v坐标。
进一步的,对于切分出来的每一行的文字图像进行垂直投影,计算出一列的非0像素的个数,并将该值放到projection_x类中。每一列非0像素的计算方法为:j是列数,i是行数,pix(i,j)是对应像素值,m+1是像素点的总行数。
进一步的,对projection_x类中的元素进行遍历,变量k遍历范围为从1开始到projection_x.size()-1结束。如果projection_x[k]=0,projection_x[k+1]>0,projection_x[k+2]>0,则判断k为某一文字块的起始切分点,并将其放到类vector<int>left中;如果projection_x[k]=0,projection_x[k-1]>0,projection_x[k-2]>0,则判断k为某一文字块的终点切分点,并将其放到类vector<int>right中;遍历完后left.size()应该等于right.size()。类left和right中的元素值就是单文字可选用的备用切分位置。
根据横向投影和纵向投影坐标就可以确定每个文字块的坐标位置;根据坐标位置可以把单个文字块切分出来。但是根据投影法的相关原理找出来的切分点为二值化后没有黑色像素点投影的位置,这样的情况下当一个文字为左右结构的文字时,可能因为左右结构部件之间存在的间隙,误将各个文字部件单独切分出来,影响了文字识别的准确性。
进一步的,本发明方法所述步骤(4)中采用贝叶斯分类器对备用切分点之间的内容进行判断,对文字部件,数字,字母和标点进行分类,以避免某一个文字由于左右部件之间的间隙而被切分成两块,同时保证数字,字母和标点能够被单独切分出来。
进一步的,本发明方法采用的贝叶斯分类器中分类类别包括:第一类为文字部件,第二类为数字、字母,第三类为标点符号。
本发明找出文字块的左右备用切分点后,将文字块的宽度和设定的阈值进行比较,如果大于设定的阈值就可以直接将该左右切分点之间的文字块切分出来。这是因为通常情况下打印体的汉字,单个字的宽度相对均一,且大于文字部件、数字、字母或者标点符号的宽度,在进行文字切分时,首先可以通过切分点之间的宽度和设置的阈值进行比较,将宽度较大的相邻左右切分点之间的文字作为单个文字块切分出来。对于左右切分点宽度较小的文字块,可能存在几种情况,比如说可能是文字部件、数字、字母或者标点;仅仅通过宽度不能准确判断该字块属于何种类型,如果对切分点不进行优化可能将左右结构的文字的左右部件因为中间存在的间隙而分别切分出来,影响了文字的识别效果。本发明方法利用贝叶斯分类器对左右两侧备用切分点之间的内容进行判断,在备用切分点的基础上,找出优化切分位置,提高切分的准确率。进行切分点优化时,如图6、图7所示(其中图6为经过投影法所找出的备用切分点的示意图,A、B、C、D为对应文字块的备用左侧切分点,A’、B’、C’、D’为对应文字块的备用右侧切分点,仅为示意性说明,不代表文字块的真实切分点位置;图7为使用贝叶斯分类器对备用切分点进行优化并将内容进行分类切分的过程示意图),在固定的左侧切分坐标(第一左备用侧切分点A)后,使用贝叶斯分类器对与其紧连其后的右侧备用切分点(第一右备用侧切分点A’)之间的内容进行分类;如果是数字、字母或者标点符号,则将其直接按照分类器识别的类型切分出来,如果是文字部件,则将判断位置移到下一备用左侧切分位置(第二备用左侧切分点B),判断该备用左侧切分点和与其紧接的备用右侧切分点(第二备用右侧切分点B’)之间的内容是否是文字部件,如果是文字部件,则将第一备用左侧切分点A和第二备用右侧切分点B’之间的文字块作为一个整体切分出来;这样就避免了将左右结构的汉字切分成两个部分进行识别的情况,保证文字切分的完整性。
具体的,在本发明方法所采取的分类器样本中,选用的特征值包括:高宽比,覆盖率,垂直中心线穿越笔画数,垂直中心线穿越笔画数上下两端最大距离与高度的比值,水平中心线穿越笔画数,水平中心线穿越笔画数左右两端最大距离与宽度的比值;在计算某一对象的分类概率时,所述贝叶斯分类器待识别类容进行分类识别包括以下实现步骤:
首先提取出该对象的6个特征值;将特征值输入所述贝叶斯分类器中,计算该特征值属于各类别的概率;将待识别内容各特征值属于该类的概率相乘,得到该内容属于该类的概率;选择概最大的概率值对应的类别,作为该内容的类别。在计算每个特征的概率p的时候,采用下列公式:p=(w×ni+1)/(w×nj+q),式中w为本发明方法中所用的贝叶斯分类器中三个类别总的特征向量样本数量;ni为该对象的该特征在某一类别中出现的次数(设置阈值范围来判断);nj为该类别中总的特征向量个数;q为经验值。
经过上述切分位置的确定和优化过程,形成了切分完整,分类相比准确的文字块,上述过程为图片的准确识别创造了良好的条件,将上述文字块依次输入经过训练的神经网络中,通过神经网络完成文字的识别,提高了文字块识别的准确率。
神经网络目前在语音和图像识别中的应用十分的广泛,对切分好的文字的图片的识别技术已经相对成熟,神经网络有类似于人脑神经系统的训练和学习过程,能够学习样本的特征、模式和规律,当根据识别需要构建好神经网络后,根据识别的复杂程度准备一定数量训练样本输入到神经网络中,训练神经网络,在将这些训练样本输入到神经网络之前,需要对这训练样本进行人工标注,训练样本的选择将影响到神经网络的识别结果,本发明中识别的对象为图像表格,图像表格中包含丰富的汉字,数字,字母和符号,可以说包含的文字集的种类和数量都比较丰富,本发明神经网络可以选择与待识别图像表格文字集相一致的样本文字集,比如说待识别的表格图片中包含的汉字集在2000个左右,数字集0-9,符号集包括标点符号,数学公式符号,比如说分号、百分号,各种计量单位符号,则在进行神经网络训练时选用的样本集也应该相应的包含这些汉字、数字和符号,这样才能保证文字块识别的输出结果正确。神经网络具有自适应的误差调整能力,能够根据误差反向传播等调节方式,不断缩小学习结果和标注结果之间的差异,最后逐步趋近于稳定正确的识别方向,当神经网络训练完成之后将一定数量的测试样本(开发样本)输入到神经网络中,测试神经网络的输入结果的正确率,当正确率达到设定的阈值时,可认为神经网络的训练已经完成,当神经网络训练好以后,将切分好的文字块图片输入到神经网络中,完成图片的识别过程。

Claims (10)

1.一种表格图像检测识别方法,其特征在于:
将待处理图片进行二值化处理,检测出所述图片中的单元格;
依次将各单元格中的内容切分出来,形成对应的子图片;
使用投影法找出子图片中文字信息的备用切分点;
通过贝叶斯分类器对所述备用切分点之间的文字信息进行判断,找出切分点,并通过切分点将图片中的文字块切分出来;
将切分出的文字块图片输入训练好的神经网络中识别出对应的文字内容。
2.如权利要求1所述的方法,其特征在于:包含以下实现步骤:
(1)使用openCV图像处理工具中的findcontours函数检测出图像表格单元格轮廓;并将检测出的单元格的轮廓点集提取出来放入对应的类中;
(2)对所述步骤(1)提取出的单元格轮廓点集对应的类,调用minAreaRect函数,构建出包含单元格轮廓点集的面积最小的旋转矩形区域;并提取出该旋转矩形区域的四角顶点坐标点;根据所述四角顶点坐标值将对应单元格中的文字信息作为整体切分出来,形成对应的子图片;
(3)采用投影法找出所述子图片中文字信息的备用切分点;
(4)通过贝叶斯分类器对所述备用切分点进行判断,找出优化切分点,并将图片中的文字切分出来;
(5)将切分好的文字块输入经过训练的神经网络中,识别出对应的文字内容。
3.如权利要求2所述的方法,其特征在于:所述步骤(1)中将各个单元格的轮廓点集组成的类,放入一个大类:contours中;所述步骤(2)中遍历contours中的元素,调用minAreaRect函数;所述步骤(2)中将minAreaRect函数构建的旋转矩形区域放置在对应的RotatedRect类中;
遍历RotatedRect类中的元素,提取每个元素对应旋转矩形区域的四角顶点坐标。
4.如权利要求3所述的方法,其特征在于:所述步骤(3)中,通过横向投影和纵向投影找出子图片中的文字信息的坐标位置;根据坐标位置依次把单个文字切分出来,其中侧向投影包括以下实现过程:
所述步骤(3)中,中对切分出来的子图片进行侧向投影,通过公式:计算出一行的非0像素的个数,并将该值放到projection_y类中,其中i是行数,j是列数,pix(i,j)是对应像素值,n+1是总列数;
对projection_y类中的元素进行遍历;如果projection_y[k]=0,projection_y[k+1]>0,projection_y[k+2]>0,则判断k为某一行的起始切分点,并将其放到类vector<int>top中;
如果projection_y[k]=0,projection_y[k-1]>0,projection_y[k-2]>0,则判断k为某一行的终点切分点,并将其放到类vector<int>bottom中;
基于类top和bottom中的元素值将单元格中的文字行向切分出来。
5.如权利要求4所述的方法,其特征在于:垂直投影的实现过程为:
对于切分出来的每一行的文字图像进行垂直投影,采用公式:计算出一列的非0像素的个数,并将该值放到projection_x类中,其中j是列数,i是行数,pix(i,j)是对应像素值,m+1是总行数;
对projection_x类中的元素进行遍历;如果projection_x[k]=0,projection_x[k+1]>0,projection_x[k+2]>0,则判断k为某一文字块的起始切分点,并将其放到类vector<int>left中;
如果projection_x[k]=0,projection_x[k-1]>0,projection_x[k-2]>0,则判断k为某一文字块的终点切分点,并将其放到类vector<int>right中;
类left和right中的元素值为单文字的备用切分位置。
6.如权利要求5所述的方法,其特征在于:所述方法采用的贝叶斯分类器包括三类,其中,第一类为文字部件,第二类为数字、字母,第三类为标点符号;在进行单个文字切分时,采用贝叶斯分类器来对文字部件、数字、字母和,或标点进行分类。
7.如权利要求6所述的方法,其特征在于:所述贝叶斯分类器所采取的特征值包括:高宽比,覆盖率,垂直中心线穿越笔画数,垂直中心线穿越笔画数上下两端最大距离与高度的比值,水平中心线穿越笔画数,水平中心线穿越笔画数左右两端最大距离与宽度的比值。
8.如权利要求7所述的方法,其特征在于:步骤(4)包含以下实现过程:
在给定的第一备用左侧切分点坐标后,使用所述贝叶斯分类器来判断所述第一备用左侧切分点与第一备用右侧切分点之间的内容是否是文字部件,如果不是文字部件,则认为该内容是数字、字母或标点,直接将其切分出来;
如果是文字部件,则继续判断第二备用左侧切分点与第二备用右侧切分点之间的内容是否是文字部件,如果是文字部件,则将第一备用个左侧切分点和第二备用个右侧切分点之间的内容切分出来。
9.如权利要求8所述的方法,其特征在于:所述贝叶斯分类器对待识别类容进行分类包括以下实现步骤:
对待识别内容提取特征值;
将特征值输入所述贝叶斯分类器中,计算该特征值属于各类别的概率;
将待识别内容各特征值属于该类的概率相乘,得到该内容属于该类的概率;
选择概最大的概率值对应的类别,作为该内容的类别。
10.如权利要求1至9之一所述的方法,其特征在于:对神经网络进行训练的样本集包括:汉字集、数字集、字母集和标点符号集;所述训练样本经过人工标注后训练神经网络。
CN201510831415.8A 2015-11-25 2015-11-25 一种表格图像检测识别方法 Pending CN105512611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510831415.8A CN105512611A (zh) 2015-11-25 2015-11-25 一种表格图像检测识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510831415.8A CN105512611A (zh) 2015-11-25 2015-11-25 一种表格图像检测识别方法

Publications (1)

Publication Number Publication Date
CN105512611A true CN105512611A (zh) 2016-04-20

Family

ID=55720578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510831415.8A Pending CN105512611A (zh) 2015-11-25 2015-11-25 一种表格图像检测识别方法

Country Status (1)

Country Link
CN (1) CN105512611A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682666A (zh) * 2016-12-29 2017-05-17 成都数联铭品科技有限公司 用于非常见字体ocr识别的特征模板制备方法
CN106778759A (zh) * 2016-12-29 2017-05-31 成都数联铭品科技有限公司 用于图像文字识别的特征图片自动生成系统
CN107679024A (zh) * 2017-09-11 2018-02-09 畅捷通信息技术股份有限公司 识别表格的方法、系统、计算机设备、可读存储介质
CN109284495A (zh) * 2018-11-03 2019-01-29 上海犀语科技有限公司 一种对文本进行无表格线切表的方法及装置
CN109726628A (zh) * 2018-11-05 2019-05-07 东北大学 一种表格图像的识别方法及系统
CN109948533A (zh) * 2019-03-19 2019-06-28 讯飞智元信息科技有限公司 一种文本检测方法、装置、设备及可读存储介质
CN109993112A (zh) * 2019-03-29 2019-07-09 杭州睿琪软件有限公司 一种图片中表格的识别方法及装置
CN110188758A (zh) * 2019-06-03 2019-08-30 中国热带农业科学院农业机械研究所 甘蔗图像中感兴趣区域获取方法、装置、设备及存储介质
CN110569835A (zh) * 2018-06-06 2019-12-13 北京搜狗科技发展有限公司 一种图像识别方法、装置和电子设备
CN111079756A (zh) * 2018-10-19 2020-04-28 杭州萤石软件有限公司 一种单据图像中的表格提取与重建方法和设备
CN111178363A (zh) * 2019-12-18 2020-05-19 北京旷视科技有限公司 文字识别方法、装置、电子设备以及可读存储介质
CN111460927A (zh) * 2020-03-17 2020-07-28 北京交通大学 对房产证图像进行结构化信息提取的方法
WO2020164281A1 (zh) * 2019-02-13 2020-08-20 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN113221743A (zh) * 2021-05-12 2021-08-06 北京百度网讯科技有限公司 表格解析方法、装置、电子设备和存储介质
CN113221649A (zh) * 2021-04-08 2021-08-06 西安理工大学 一种解决有线表格识别与解析的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488986A (zh) * 2013-09-18 2014-01-01 西安理工大学 自适应字符切分及提取方法
CN104484643A (zh) * 2014-10-27 2015-04-01 中国科学技术大学 一种手写表格的智能识别方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488986A (zh) * 2013-09-18 2014-01-01 西安理工大学 自适应字符切分及提取方法
CN104484643A (zh) * 2014-10-27 2015-04-01 中国科学技术大学 一种手写表格的智能识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
仲小挺: "基于自学习的手写表格数字字符串快速识别方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682666A (zh) * 2016-12-29 2017-05-17 成都数联铭品科技有限公司 用于非常见字体ocr识别的特征模板制备方法
CN106778759A (zh) * 2016-12-29 2017-05-31 成都数联铭品科技有限公司 用于图像文字识别的特征图片自动生成系统
CN107679024A (zh) * 2017-09-11 2018-02-09 畅捷通信息技术股份有限公司 识别表格的方法、系统、计算机设备、可读存储介质
CN107679024B (zh) * 2017-09-11 2023-04-18 畅捷通信息技术股份有限公司 识别表格的方法、系统、计算机设备、可读存储介质
CN110569835B (zh) * 2018-06-06 2024-03-05 北京搜狗科技发展有限公司 一种图像识别方法、装置和电子设备
CN110569835A (zh) * 2018-06-06 2019-12-13 北京搜狗科技发展有限公司 一种图像识别方法、装置和电子设备
CN111079756B (zh) * 2018-10-19 2023-09-19 杭州萤石软件有限公司 一种单据图像中的表格提取与重建方法和设备
CN111079756A (zh) * 2018-10-19 2020-04-28 杭州萤石软件有限公司 一种单据图像中的表格提取与重建方法和设备
CN109284495A (zh) * 2018-11-03 2019-01-29 上海犀语科技有限公司 一种对文本进行无表格线切表的方法及装置
CN109284495B (zh) * 2018-11-03 2023-02-07 上海犀语科技有限公司 一种对文本进行无表格线切表的方法及装置
CN109726628A (zh) * 2018-11-05 2019-05-07 东北大学 一种表格图像的识别方法及系统
WO2020164281A1 (zh) * 2019-02-13 2020-08-20 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN109948533B (zh) * 2019-03-19 2021-02-09 讯飞智元信息科技有限公司 一种文本检测方法、装置、设备及可读存储介质
CN109948533A (zh) * 2019-03-19 2019-06-28 讯飞智元信息科技有限公司 一种文本检测方法、装置、设备及可读存储介质
CN109993112A (zh) * 2019-03-29 2019-07-09 杭州睿琪软件有限公司 一种图片中表格的识别方法及装置
CN110188758A (zh) * 2019-06-03 2019-08-30 中国热带农业科学院农业机械研究所 甘蔗图像中感兴趣区域获取方法、装置、设备及存储介质
CN111178363A (zh) * 2019-12-18 2020-05-19 北京旷视科技有限公司 文字识别方法、装置、电子设备以及可读存储介质
CN111178363B (zh) * 2019-12-18 2024-02-20 北京旷视科技有限公司 文字识别方法、装置、电子设备以及可读存储介质
CN111460927A (zh) * 2020-03-17 2020-07-28 北京交通大学 对房产证图像进行结构化信息提取的方法
CN111460927B (zh) * 2020-03-17 2024-04-09 北京交通大学 对房产证图像进行结构化信息提取的方法
CN113221649A (zh) * 2021-04-08 2021-08-06 西安理工大学 一种解决有线表格识别与解析的方法
CN113221649B (zh) * 2021-04-08 2023-04-18 西安理工大学 一种解决有线表格识别与解析的方法
CN113221743A (zh) * 2021-05-12 2021-08-06 北京百度网讯科技有限公司 表格解析方法、装置、电子设备和存储介质
CN113221743B (zh) * 2021-05-12 2024-01-12 北京百度网讯科技有限公司 表格解析方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN105512611A (zh) 一种表格图像检测识别方法
CN105447522A (zh) 一种复杂图像文字识别系统
CN105426856A (zh) 一种图像表格文字识别方法
CN112818813B (zh) 图像中表格信息的识别方法、装置、电子设备及存储介质
CN109902622B (zh) 一种用于登机牌信息验证的文字检测识别方法
CN109308476B (zh) 票据信息处理方法、系统及计算机可读存储介质
CN111428723B (zh) 字符识别方法及装置、电子设备、存储介质
CN105469053A (zh) 一种基于贝叶斯优化的图像表格文字切分方法
CN113158808B (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
CN109241861B (zh) 一种数学公式识别方法、装置、设备及存储介质
CN103034848B (zh) 一种表单类型的识别方法
CN106156766A (zh) 文本行分类器的生成方法及装置
CN113537227B (zh) 一种结构化文本识别方法及系统
CN108520254A (zh) 一种基于格式化图像的文本检测方法、装置以及相关设备
CN105574486A (zh) 一种图像表格文字切分方法
CN105469047A (zh) 基于无监督学习深度学习网络的中文检测方法及系统
CN111488873B (zh) 一种基于弱监督学习的字符级场景文字检测方法和装置
CN113591866B (zh) 基于db与crnn的特种作业证件检测方法及系统
CN112446259A (zh) 图像处理方法、装置、终端和计算机可读存储介质
Salvi et al. Handwritten text segmentation using average longest path algorithm
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
CN106255979A (zh) 行分割方法
CN110135407B (zh) 样本标注方法及计算机存储介质
CN106682667A (zh) 非常见字体的图像文字ocr识别系统
CN102855264B (zh) 文档处理方法及其装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160420

WD01 Invention patent application deemed withdrawn after publication