Nothing Special   »   [go: up one dir, main page]

CN101122952A - 一种图片文字检测的方法 - Google Patents

一种图片文字检测的方法 Download PDF

Info

Publication number
CN101122952A
CN101122952A CNA2007101221552A CN200710122155A CN101122952A CN 101122952 A CN101122952 A CN 101122952A CN A2007101221552 A CNA2007101221552 A CN A2007101221552A CN 200710122155 A CN200710122155 A CN 200710122155A CN 101122952 A CN101122952 A CN 101122952A
Authority
CN
China
Prior art keywords
edge
image
region
picture
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101221552A
Other languages
English (en)
Other versions
CN100527156C (zh
Inventor
易剑
彭宇新
肖建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CNB2007101221552A priority Critical patent/CN100527156C/zh
Publication of CN101122952A publication Critical patent/CN101122952A/zh
Application granted granted Critical
Publication of CN100527156C publication Critical patent/CN100527156C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本发明提供了一种图片文字检测的方法,包括以下步骤:(1)合并原图在各个颜色分量上的边缘图,得到累积边缘图;(2)把累积边缘图中的边缘点置为其在原图中的相应颜色,根据边缘点颜色的不同,用聚类的方法把累积边缘图分解成若干张子边缘图,每张子边缘图中包含了颜色相近的边缘点;(3)在每张子边缘图中,多次进行水平和垂直投影,根据投影图进行垂直方向和水平方向的区域分割,定位图片中的文字区域。本发明在获取原图的累积边缘图之后,利用基于颜色的聚类方法把累积边缘图分解成若干张子边缘图,使子边缘图中的边缘得到简化,从而使图片文字区域的检测较为简单和准确。

Description

一种图片文字检测的方法
技术领域
本发明属于图像处理和检索技术领域,具体涉及一种图片文字检测的方法。
背景技术
随着互联网技术和多媒体技术的快速发展,互联网上的图片内容呈现爆炸性增长趋势,如何在这海量的图片内容中快速检索到想要的图片,成为了一个急需解决的关键问题。现有的方法主要基于图片对应网页中的文字描述信息,而没有深入到图片内容的分析中去。这种方法存在以下缺点:(1)如何在网页中找到能够准确描述图片内容的文字信息本身就是一件很困难的事情;(2)大量的图片没有对应的网页信息。
另一方面,大量的图片中含有文字信息,这些文字信息一般能准确描述图片的内容,如果能识别这些文字,用这些文字信息对图片进行索引和检索,必将大大推动互联网图片搜索技术的发展。因此,图片文字检测和识别技术具有十分重要的研究和应用价值。图片中的文字区域具有两个明显的特征:密集的边缘和一致的颜色。现有的图片文字检测方法主要考虑了这两个特征中的一个,而没有把这两个特征结合起来。如果能同时考虑这两个特征,把它们结合起来使用,将能更为有效地检测图片中的文字。
2005年在IEEE Transactions on Circuits and Systems for VideoTechnology上发表的文献“A comprehensive method for multilingualvideo text detection,localization,and extraction”(作者是Michael R.Lyu,Jiqiang Song,Min Cai,页码是243-254),提出了一种基于边缘的视频文字检测方法。该文献先从视频中抽取视频帧,即视频内容的图片,然后把图片转换成边缘强度图,并通过水平和垂直投影的方式找出可能的文字区域。这种方法只用到了文字区域的边缘特征,而没有充分利用文字区域颜色信息,因此不能很好的定位文字区域,文字检测结果有待提高。
发明内容
针对现有技术的不足,本发明的目的是提供一种更为有效的检测图片文字的方法,用于检测互联网图片中的文字信息。
为达到以上目的,本发明采用的技术方案如下:
一种图片文字检测的方法,包括以下步骤:
(1)合并原图在多个颜色分量上的边缘图,得到累积边缘图;
(2)把累积边缘图中的边缘点置为其在原图中的相应颜色,根据边缘点颜色的不同,用聚类的方法把累积边缘图分解成若干张子边缘图,每张子边缘图中包含了颜色相近的边缘点;
(3)在每张子边缘图中,多次进行水平和垂直投影,根据投影图进行垂直方向和水平方向的区域分割,从而定位图片中的文字区域;
进一步,上述步骤(3)之后过滤掉所述步骤(3)定位得到的文字区域中所包括的误判文字区域。
进一步,上述的一种图片文字检测的方法,所述步骤(1)中的累积边缘图由在图片的YUV各个分量上用多个边缘图合并得到。合并的方法如公式一所示,E是累积边缘图,EY、EU和EV分别是在图片的YUV各个分量上的边缘图,E(x,y)是累积边缘图中坐标为(x,y)的点的边缘强度值,它等于EY、EU和EV中相应位置像素点的边缘强度值累加和与255中较小的一个。
公式一:E(x,y)=min(EY(x,y)+EU(x,y)+EV(x,y),255)
进一步,上述的一种图片文字检测的方法,所述步骤(1)中,在图片的YUV分量上的边缘图是采用改进的Sobel边缘检测算子按照公式二检测到的,Eα是在图片的α分量上用改进的Sobel边缘检测算子检测到的边缘图,α∈{Y,U,V},SH、SV、SLD和SRD分别表示水平、垂直、左对角线和右对角线这四个方向上的Sobel边缘强度值,max表示计算最大值,Eα(x,y)是在α分量上,坐标为(x,y)的点的边缘强度值,它的值等于这一点在α分量上水平、垂直、左对角线和右对角线四个方向的最大Sobel边缘强度值。
公式二:Eα(x,y)=max(|SH|,|SV|,|SLD|,|SRD|)α∈{Y,U,V}
进一步,上述的一种图片文字检测的方法,所述步骤(2)中只对累积边缘图中强度值大于阈值T(0<T<255)的边缘点进行处理,把这些边缘点置为它们在原图中的相应颜色,得到彩色的累积边缘图;然后,根据边缘点颜色的不同,用聚类的方法把彩色累积边缘图分解成若干个子边缘图,每张子边缘图中只含颜色相近的边缘点。
进一步,上述的一种图片文字检测的方法,所述步骤(3)中的具体方法为:需要一个待处理区域集合S,刚开始时,集合S中只有步骤(2)中得到的子边缘图区域,在处理的过程中,每次在S中取一个区域A0进行处理,直到集合S为空为止。对区域A0处理的方法是:首先对区域A0进行水平方向的投影,统计每行边缘像素的数目,然后根据A0的水平投影进行垂直方向的分割。如果A0在垂直方向是不可分割的,就把它作为一个整体进行垂直方向的投影和水平方向的分割;如果A0在垂直方向可以分割,则将A0在垂直方向进行分割,并把所有从A0中分割出来的区域A1,A2...An进行垂直方向的投影和水平方向的分割。如果区域Ai根据其垂直投影图不能再进行水平方向的分割,就把它放入结果集合R中,否则把从Ai分割出来的区域放入集合S中等待处理。
进一步,上述的一种图片文字检测的方法,所述步骤(3)中,区域分割的具体方法为:对于一个待分割的区域,垂直分割的方法是从下往上扫描边缘点的水平投影图做分割;水平分割的方法是从左往右扫描边缘点的垂直投影图做分割。上述水平和垂直分割在扫描的过程中,把强度相近的行归为一组,并随时更新这个组所有行的边缘像素数目平均值。如果当前扫描行的边缘像素数目和当前组的平均值差别很大,就进行分割,然后继续扫描下一行。只有扫描行的强度值大于一个阈值时,才开始一个新的组。当扫描到最后一行时,对这个区域的分割就完成了。
进一步,上述的一种图片文字检测的方法,所述的过滤文字区域中包括的错误判断的文字区域,是采用基于SVM(support vectormachine)分类器的方法,该方法分为训练和判断两个过程:训练过程是预先进行的,在训练过程中,选取了大量的文字区域正负样本,输入SVM分类器进行训练;在判断过程中,把步骤(3)中检测到的文字区域输入SVM分类器进行判断,把文字区域分为为正确的文字区域和误判的文字区域,误判的文字区域被过滤掉。
本发明的效果在于:与现有方法相比,本发明可以取得更高的图片文字区域查全率和查准率,有利于更好的识别图片中的文字,从而充分发挥图片文字信息在图像检索中的巨大作用。
本发明之所以具有上述发明效果,其原因在于,图片文字区域具有两个显著特征,即密集的边缘和一致的颜色,现有技术只单独考虑了这两个特征的其中一个,而没有把它们结合起来使用,因此不能足够有效地检测图片中的文字。针对现有技术的问题,本发明综合考虑了文字区域的以上两个特征,首先生成原图的累积边缘图,然后把累积边缘图中的边缘点置为其在原图中的相应颜色,根据边缘点颜色的不同,用聚类的方法把累积边缘图分解成若干张子边缘图。这样做的好处在于,背景边缘与文字边缘,以及不同颜色的文字边缘被分离在不同的子边缘图中,每张边缘图中的边缘情况更为简单,从而使得文字检测较为简单和准确,因此,本发明能够取得更好的图片文字检测结果。经过本发明检测出文字区域之后,可以利用OCR软件识别文字区域的二值图片,从而最终获取图片的文字信息。
附图说明
图1是本发明的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述。
如图1所示,本发明的一种图片文字检测的方法具体包括以下步骤:
(1)合并原图在多个颜色分量上的边缘图,得到累积边缘图。
累积边缘图由在图片的YUV各个分量上用改进的Sobel边缘检测算子检测到的多个边缘图合并得到。合并的方法如公式一所示,E是累积边缘图,EY、EU和EV分别是在图片的YUV各个分量上用改进的Sobel边缘检测算子检测到的边缘图,E(x,y)是累积边缘图中坐标为(x,y)的点的边缘强度值,它等于EY、EU和EV中相应位置像素点的边缘强度值累加和与255中较小的一个。
公式一:E(x,y)=min(EY(x,y)+EU(x,y)+EV(x,y),255)
在上述过程中,在图片的YUV分量上的边缘图是采用改进的Sobel边缘检测算子按照公式二检测到的,Eα是在图片的α分量上用改进的Sobel边缘检测算子检测到的边缘图,α∈{Y,U,V},SH、SV、SLD和SRD分别表示水平、垂直、左对角线和右对角线这四个方向上的Sobel边缘强度值,max表示计算最大值,Eα(x,y)是在α分量上,坐标为(x,y)的点的边缘强度值,它的值等于这一点在α分量上水平、垂直、左对角线和右对角线四个方向的最大Sobel边缘强度值。
公式二:Eα(x,y)=max(|SH|,|SV|,|SLD|,|SRD|)α∈{Y,U,V}
(2)对于累积边缘图中强度值大于阈值T(0<T<255)的边缘点,把这些边缘点置为它们在原图中的相应颜色,得到彩色的累积边缘图;然后,根据边缘点颜色的不同,用聚类的方法把彩色累积边缘图分解成若干个子边缘图,每张子边缘图中只含颜色相近的边缘点。在本具体实施例中,阈值T取为50,每张累积边缘图被分解成了3张子边缘图。
(3)在每张子边缘图中,多次进行水平和垂直投影,根据投影图进行分割,从而定位图片中的文字区域,具体方法如下。
需要一个待处理区域集合S,刚开始时,集合S中只有步骤(2)中得到的子边缘图区域,在处理的过程中,每次在S中取一个区域A0进行处理,直到集合S为空为止。
对区域A0处理的方法是:首先对区域A0进行水平方向的投影,统计每行边缘像素的数目,然后根据A0的水平投影进行垂直方向的分割。如果A0在垂直方向是不可分割的,就把它作为一个整体进行垂直方向的投影和水平方向的分割;如果A0在垂直方向可以分割,则将A0在垂直方向进行分割,并把所有从A0中分割出来的区域A1,A2...An进行垂直方向的投影和水平方向的分割。如果区域Ai根据其垂直投影图不能再进行水平方向的分割,就把它放入结果集合R中,否则把从Ai分割出来的区域放入集合S中等待处理。
在上述过程中,区域分割的具体方法为:对于一个待分割的区域,垂直分割的方法是从下往上扫描边缘点的水平投影图做分割;水平分割的方法是从左往右扫描边缘点的垂直投影图做分割。上述水平和垂直分割在扫描的过程中,把强度相近的行归为一组,并随时更新这个组所有行的边缘像素数目平均值。如果当前扫描行的边缘像素数目和当前组的平均值差别很大,就进行分割,然后继续扫描下一行。只有扫描行的强度值大于一个阈值时,才开始一个新的组。当扫描到最后一行时,对这个区域的分割就完成了。
(4)在步骤(3)中定位到的文字区域中包括了错误判断的文字区域,利用基于SVM(support vector machine)分类器的方法过滤掉这些误判的文字区域,具体方法分为训练和判断两个过程:训练过程是预先进行的,在训练过程中,选取了大量的文字区域正负样本,输入SVM分类器进行训练;在判断过程中,把步骤(3)中检测到的文字区域输入SVM分类器进行判断,文字区域分为为正确的文字区域和误判的文字区域,误判的文字区域被过滤掉,在本实施例中,具体过程如下。
训练过程:把文字区域样本缩放到统一高度H,然后用一个窗口Z从左到右扫描样本,步长为F。每次移动窗口时,提取窗口内的24维特征向量来对SVM分类器进行训练。在本实施例中,H取为24,F取为12。
判断过程:样本同样被缩放到统一高度H,然后用窗口Z从左到右扫描。每次移动窗口时,提取窗口内的24维特征向量作为SVM分类器的输入特征进行判断。SVM分类器的输出记为G(Z),G(Z)的取值可能是1(判断为文字特征),或者-1(判断为非文字特征)。当窗口滑动完成时,如果G(Z)的累加值大于0,则判断样本是一个正确的文字区域,否则是一个错误的文字区域,将被过滤掉。
上述特征提取的详细做法如下:首先,对原图求其在4个方向(0度,45度,90度和135度)上的彩色边缘强度图。我们采取的办法是分别在RGB三个通道上进行处理,对于点(x,y),在每个通道可以分别得到4个方向的微分: ∂ Ψ ∂ x , ∂ Ψ ∂ xy , ∂ Ψ ∂ y , ∂ Ψ ∂ yx , ( ψ = R , G , B ) . 然后得到点(x,y)在各个方向的变化率,也就是彩色边缘强度,如下所示:
0度方向: G x = ( | ∂ R ∂ x | 2 + | ∂ G ∂ x | 2 + | ∂ B ∂ x | 2 ) 1 2
45度方向: G xy = ( | ∂ R ∂ xy | 2 + | ∂ G ∂ xy | 2 + | ∂ B ∂ xy | 2 ) 1 2
90度方向: G x = ( | ∂ R ∂ y | 2 + | ∂ G ∂ y | 2 + | ∂ B ∂ y | 2 ) 1 2
135度方向: G yx = ( | ∂ R ∂ yx | 2 + | ∂ G ∂ yx | 2 + | ∂ B ∂ yx | 2 ) 1 2
然后,在这4个彩色边缘强度图上相应窗口Z的位置各计算6个特征,总共得到24维的特征,6个特征分别为:均值、方差、能量、熵、惯量和局部同次性。
对于采用本发明的上述图片文字检测方法检测到的文字区域图片,本具体实施方法中,进一步按照如下方法把文字区域图片转换成二值图片,并利用OCR软件获取文字识别结果:
(1)对文字区域图片进行颜色分量选择,在所选择颜色分量上,文字最为清晰。
如公式一所示,分别求得文字区域图片在YUV各个颜色分量上的对比度CY、CU和CV,Cα它们中的最大值,α∈{Y,U,V},则选择在YUV颜色空间中的α分量上进行二值化。CY、CU和CV的值由公式二求得,分别为边缘强度图EY、EU和EV的中央部分的边缘强度累加值,代表了文字区域图片在YUV各个颜色分量上的对比度;EY、EU和EV是文字区域图片分别在YUV各个颜色分量上的边缘强度图,w和h分别为文字区域图片的宽和高。
公式一:Cα=max(CY,CU,CV),α∈{Y,U,V}
公式二: C Y = Σ w / 3 ≤ x ≤ w × 2 / 3 h / 3 ≤ y ≤ h × 2 / 3 E Y ( i , j ) , C U = Σ w / 3 ≤ x ≤ w × 2 / 3 h / 3 ≤ y ≤ h × 2 / 3 E U ( i , j ) , C V = Σ w / 3 ≤ x ≤ w × 2 / 3 h / 3 ≤ y ≤ h × 2 / 3 E V ( i , j )
(2)对图片中文字灰度值的深浅进行判断,如果是浅色的文字,则反转文字区域图片的灰度值,否则灰度值不变。这样保证了在进行二值化之前,图片中的文字总是深色的,灰度值较小,有利于对图片进行统一的处理。判断文字灰度值深浅的方法为:用Otsu方法把文字区域图片二值化,然后找出白色和黑色的4连通分量,去除外接矩形宽高都极小的连通分量,最后统计出白色连通分量个数Comwhite和黑色连通分量个数Comblack,如果Comwhite>Comblack,则判断文字是浅色的,反之是深色的。
(3)在(1)中选择的颜色分量上,把文字区域图片二值化为前景和背景,前景用黑色表示,背景用白色表示。
对于图片中的每一个像素x,求得一个局部阈值Tr(x),如果这个像素的灰度值小于Tr(x)的话,这个像素被二值化成前景,否则是背景。对于每个像素x,我们用下面的方法计算局部阈值Tr(x):如公式三所示,Tr(x)的值从一个以像素x为中心,大小为r(x)的窗口Wr中统计得到,μr(x)是Wr中像素的平均灰度值,σr(x)是Wr中像素灰度值的标准方差,k1是一个常数。窗口大小r(x)由公式四计算得到,公式四中,Tσ是一个常数,r(x)为像素灰度值的标准方差大于Tσ的最小窗口的大小。在本实施例中,k1的值取为-0.2,Tσ的值取为文字区域图片中所有像素灰度值的标准方差。
公式三:Tr(x)=μr(x)+k1×σr(x)
公式四:r(x)=min(r,σr(x)>Tσ)
(4)对步骤(3)中得到的二值图片进行去噪。
去噪的具体方法主要包括三个部分:连通分量分析、灰度一致性分析和基于颜色的聚类。
a.用连通分量分析去除噪声,把满足下列条件之一的连通分量当作噪声去除掉:
(1)同文字区域的边界相连;
(2)连通分量所占的像素数目小于一个文字笔画所占的最少像素数目;
(3)连通分量的宽高比大于文字笔画的最大宽高比,或者小于文字笔画的最小宽高比。
b.用灰度一致性分析来去除噪声:对于二值图片连通分量中的像素,首先恢复它在步骤(1)中所选择的颜色分量上相应位置的灰度值,然后计算所有连通分量中像素灰度值的方差st和均值m,并检查每个连通分量P,如果连通分量P中满足公式五的像素数目大于这个连通分量中所有像素数目的一定比例,那么P被当作是噪声而除去。
公式五: | o p - m | st > k 2
公式五中,k2是一个常数,op是连通分量P中像素的灰度值。本具体实施例中,k2取为2,当P中满足公式五的像素数目多于总像素数目的2/3的时候,P被认为是一个噪声而除去。
c.用基于颜色聚类的方法去除噪声:首先将连通分量中的像素恢复其在原图中的颜色,得到彩色的连通分量集合C;然后用基于颜色的聚类方法把连通分量集合C分为两类,一类是文字的笔画,另一类是噪声,从而去除噪声。在本实施例中,对于C中的每个连通分量P,我们首先计算P中所有像素的平均颜色值c(P),然后用基于连通分量平均颜色值的k-means聚类方法把C分为两类:所占像素较多的一类被认为是文字笔画而保留;所占像素较少的一类被认为是噪声而除去。
最后把处理后的文字区域二值化图片输入给OCR软件进行识别,以得到图片文字识别结果。
下面的实验结果表明,与现有方法相比,本发明可以取得更高的文字区域检测查全率和查准率,从而充分发挥图片文字信息在图像检索中的巨大作用。
本实施例中建立的数据库包含了1000张含有文字的Web图片,这些图片是从互联网上随机抓取下来的,大多含有复杂的背景,以及大小、颜色、分辨率和对比度均不相同的文字,能够反映互联网上文字图片的真实情况,有助于证明本发明方法对各种情况的适应性以及最终结果的有效性。经过人工统计,这1000张图片中共含有1621个文字区域。
在本实施例中,上述1000张图片被送给图片文字检测模块进行处理,得到文字区域定位的结果。为了证明本发明在图片文字检测方面的有效性,我们测试了以下3种方法作为实验对比:
I.本发明的具体实施例;
II.Lyu的方法:2005年在IEEE Transactions on Circuits andSystems for Video Technology上发表的文献“A comprehensive methodfor multilingual video text detection,localization,andextraction”(作者是Michael R.Lyu,Jiqiang Song,Min Cai,页码是243-254)。该文献首先利用边缘检测算子求得视频帧的边缘图,然后用分析边缘投影图的波峰和波谷的方法来找到可能的文字区域。
III.HWDavid的方法:2003年参加了ICDAR Robust ReadingCompetition,方法记载在文献“ICDAR 2003 Robust ReadingCompetitions”上(作者是S.M.Lucas,A.Panaretos等)。该方法首先利用边缘检测和形态学的方法形成初始连通分量,然后用连通分量分析的方法把初始连通分量合并成为文字区域。
实验采用了在ICDAR 2003 Competition Evaluation中使用的三个指标来评价图片文字检测的结果,三个指标分别是:Recall(r),Precison(p)和f。Recall表示的是找到相关文字区域的能力;Precison表示的是准确找到相关文字区域的能力;f是Recall与Precison的综合评价。这三个指标能全面评价图片文字检测的结果,它们的值在0到1之间,是一个小数,都是越高越好。f的定义如下,其中α是一个常量:
f = 1 α / p + ( 1 - α ) / r
表1实验结果对比
    Recall     Precison     f
  本发明Lyu的方法HWDavid的方法     0.7190.6030.638     0.6230.4940.270     0.6430.5180.351
从表1中可以看出,本发明在上述三个指标上,都取得了比其他两种方法更好的结果,这主要是因为:本发明综合考虑了文字区域的两个特征,即密集的边缘和一致的颜色。在获取原图的累积边缘图之后,本发明利用基于颜色的聚类方法把累积边缘图分解成若干张子边缘图,使子边缘图中的边缘得到简化,从而使图片文字区域的检测较为简单和准确。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种图片文字检测的方法,其特征在于,包括以下步骤:
(1)合并原图在各个颜色分量上的边缘图,得到累积边缘图;
(2)把累积边缘图中的边缘点置为其在原图中的相应颜色,根据边缘点颜色的不同,用聚类的方法把累积边缘图分解成若干张子边缘图,每张子边缘图中包含了颜色相近的边缘点;
(3)在每张子边缘图中,多次进行水平和垂直投影,根据投影图进行垂直方向和水平方向的区域分割,定位图片中的文字区域。
2.如权利要求1所述的图片文字检测的方法,其特征在于,所述步骤(3)之后进一步过滤掉所述步骤(3)定位得到的文字区域中所包括的误判文字区域。
3.如权利要求1所述的图片文字检测的方法,其特征在于,所述步骤(1)中的累积边缘图是由在图片的YUV各个分量上的多个边缘图采用公式一合并得到:
公式一:E(x,y)=min(EY(x,y)+EU(x,y)+EV(x,y),255)
E是累积边缘图,EY、EU和EV分别是在图片的YUV各个分量上的边缘图,E(x,y)是累积边缘图中坐标为(x,y)的点的边缘强度值,它等于EY、EU和EV中相应位置像素点的边缘强度值累加和与255中较小的一个。
4.如权利要求1或3所述的图片文字检测的方法,其特征在于,所述步骤(1)中的累积边缘图是由在图片的YUV各个分量上的多个边缘图合并得到,在图片的YUV分量上的边缘图是采用改进的Sobel边缘检测算子按照公式二检测得到:
公式二:Eα(x,y)=max(|SH|,|SV|,|SLD|,|SRD|)α∈{Y,U,V}
其中,Eα是在图片的α分量上用改进的Sobel边缘检测算子检测到的边缘图,α∈{Y,U,V},SH、SV、SLD和SRD分别表示水平、垂直、左对角线和右对角线这四个方向上的Sobel边缘强度值,max表示计算最大值,Eα(x,y)是在α分量上,坐标为(x,y)的点的边缘强度值,它的值等于这一点在α分量上水平、垂直、左对角线和右对角线四个方向的最大Sobel边缘强度值。
5.如权利要求1所述的图片文字检测的方法,其特征在于,所述步骤(2)中,只对累积边缘图中强度值大于阈值T(0<T<255)的边缘点进行处理,得到彩色的累积边缘图;然后,根据边缘点颜色的不同,用聚类的方法把彩色累积边缘图分解成若干个子边缘图,每张子边缘图中只含颜色相近的边缘点。
6.如权利要求1所述的图片文字检测的方法,其特征在于,所述步骤(3)的具体方法为:
需要一个待处理区域集合S,刚开始时,集合S中只有步骤(2)中得到的子边缘图区域,在处理的过程中,每次在S中取一个区域A0进行处理,直到集合S为空为止;
其中,对区域A0处理的方法是:首先对区域A0进行水平方向的投影,统计每行边缘像素的数目,然后根据A0的水平投影进行垂直方向的区域分割;如果A0在垂直方向是不可分割的,就把它作为一个整体进行垂直方向的投影和水平方向的区域分割;如果A0在垂直方向可以分割,则将A0在垂直方向进行分割,并把所有从A0中分割出来的区域A1,A2...An进行垂直方向的投影和水平方向的区域分割,如果区域Ai根据其垂直投影图不能再进行水平方向的区域分割,就把它放入结果集合R中,否则把从Ai分割出来的区域放入集合S中等待处理。
7.如权利要求1或6所述的图片文字检测的方法,其特征在于,区域分割的具体方法为:对于一个待分割的区域,垂直方向分割的方法是从下往上扫描边缘点的水平投影图做分割;水平方向分割的方法是从左往右扫描边缘点的垂直投影图做分割;所述水平方向和垂直方向的分割,在扫描的过程中,把强度相近的行归为一组,并随时更新这个组所有行的边缘像素数目平均值,如果当前扫描行的边缘像素数目和当前组的平均值差别很大,就进行分割,然后继续扫描下一行,当扫描行的强度值大于一个阈值时开始一个新的组;当扫描到最后一行时,对这个区域的分割就完成了。
8.如权利要求2所述的图片文字检测的方法,其特征在于,所述过滤是采用基于SVM分类器的方法,分为训练和判断两个过程:预先选取大量的文字区域正负样本,输入SVM分类器进行训练;然后把所述步骤(3)中检测到的文字区域输入SVM分类器进行判断,把文字区域分为为正确的文字区域和误判的文字区域,误判的文字区域被过滤掉。
CNB2007101221552A 2007-09-21 2007-09-21 一种图片文字检测的方法 Expired - Fee Related CN100527156C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007101221552A CN100527156C (zh) 2007-09-21 2007-09-21 一种图片文字检测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007101221552A CN100527156C (zh) 2007-09-21 2007-09-21 一种图片文字检测的方法

Publications (2)

Publication Number Publication Date
CN101122952A true CN101122952A (zh) 2008-02-13
CN100527156C CN100527156C (zh) 2009-08-12

Family

ID=39085283

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007101221552A Expired - Fee Related CN100527156C (zh) 2007-09-21 2007-09-21 一种图片文字检测的方法

Country Status (1)

Country Link
CN (1) CN100527156C (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770645A (zh) * 2010-02-10 2010-07-07 中国农业大学 高分辨率棉花异性纤维彩色图像的快速分割方法与系统
CN102208023A (zh) * 2011-01-23 2011-10-05 浙江大学 基于边缘信息和分布熵的视频字幕识别设计方法
CN101719142B (zh) * 2009-12-10 2011-11-30 湖南大学 基于分类字典的稀疏表示图片文字检测方法
CN102630043A (zh) * 2012-04-01 2012-08-08 北京捷成世纪科技股份有限公司 一种基于对象的视频转码方法和装置
CN102915438A (zh) * 2012-08-21 2013-02-06 北京捷成世纪科技股份有限公司 一种视频字幕的提取方法及装置
CN101661559B (zh) * 2009-09-16 2013-03-06 中国科学院计算技术研究所 一种数字图像训练和检测方法
CN103095966A (zh) * 2011-10-28 2013-05-08 浙江大华技术股份有限公司 一种视频抖动量化方法及装置
CN103632159A (zh) * 2012-08-23 2014-03-12 阿里巴巴集团控股有限公司 训练分类器、图像中文字区域检测的方法及系统
CN103996055A (zh) * 2014-06-13 2014-08-20 上海珉智信息科技有限公司 基于影像档案电子资料识别系统中分类器的识别方法
CN104200209A (zh) * 2014-08-29 2014-12-10 南京烽火星空通信发展有限公司 一种图像文字检测方法
CN104239880A (zh) * 2013-06-06 2014-12-24 北京物资学院 一种基于投影算子的古籍文档图像处理算法
CN104715253A (zh) * 2015-04-02 2015-06-17 北京贞观雨科技有限公司 一种获取试题解析信息的方法及服务器
CN106033528A (zh) * 2015-03-09 2016-10-19 富士通株式会社 从彩色文档图像中提取特定区域的方法和设备
CN107657230A (zh) * 2017-09-27 2018-02-02 安徽硕威智能科技有限公司 一种银行自助机器人文字识别装置
CN107888707A (zh) * 2017-12-08 2018-04-06 北京奇艺世纪科技有限公司 一种图片传输方法、装置及电子设备
WO2018103608A1 (zh) * 2016-12-08 2018-06-14 腾讯科技(深圳)有限公司 一种文字检测方法、装置及存储介质
CN108460385A (zh) * 2018-03-02 2018-08-28 山东超越数控电子股份有限公司 一种文本图像分割方法与装置
CN109242776A (zh) * 2018-09-11 2019-01-18 江苏君英天达人工智能研究院有限公司 一种基于视觉系统的双车道线检测方法
CN109409377A (zh) * 2018-12-03 2019-03-01 龙马智芯(珠海横琴)科技有限公司 图像中文字的检测方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10062001B2 (en) 2016-09-29 2018-08-28 Konica Minolta Laboratory U.S.A., Inc. Method for line and word segmentation for handwritten text images

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0385009A1 (en) * 1989-03-03 1990-09-05 Hewlett-Packard Limited Apparatus and method for use in image processing
CN1265324C (zh) * 2003-11-06 2006-07-19 上海交通大学 基于相邻边缘点距离统计的文字图象分割方法

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661559B (zh) * 2009-09-16 2013-03-06 中国科学院计算技术研究所 一种数字图像训练和检测方法
CN101719142B (zh) * 2009-12-10 2011-11-30 湖南大学 基于分类字典的稀疏表示图片文字检测方法
CN101770645A (zh) * 2010-02-10 2010-07-07 中国农业大学 高分辨率棉花异性纤维彩色图像的快速分割方法与系统
CN102208023A (zh) * 2011-01-23 2011-10-05 浙江大学 基于边缘信息和分布熵的视频字幕识别设计方法
CN102208023B (zh) * 2011-01-23 2013-05-08 浙江大学 基于边缘信息和分布熵的视频字幕识别设计方法
CN103095966B (zh) * 2011-10-28 2016-04-27 浙江大华技术股份有限公司 一种视频抖动量化方法及装置
CN103095966A (zh) * 2011-10-28 2013-05-08 浙江大华技术股份有限公司 一种视频抖动量化方法及装置
CN102630043A (zh) * 2012-04-01 2012-08-08 北京捷成世纪科技股份有限公司 一种基于对象的视频转码方法和装置
CN102915438A (zh) * 2012-08-21 2013-02-06 北京捷成世纪科技股份有限公司 一种视频字幕的提取方法及装置
CN102915438B (zh) * 2012-08-21 2016-11-23 北京捷成世纪科技股份有限公司 一种视频字幕的提取方法及装置
CN103632159A (zh) * 2012-08-23 2014-03-12 阿里巴巴集团控股有限公司 训练分类器、图像中文字区域检测的方法及系统
CN103632159B (zh) * 2012-08-23 2017-05-03 阿里巴巴集团控股有限公司 训练分类器、图像中文字区域检测的方法及系统
CN104239880A (zh) * 2013-06-06 2014-12-24 北京物资学院 一种基于投影算子的古籍文档图像处理算法
CN103996055A (zh) * 2014-06-13 2014-08-20 上海珉智信息科技有限公司 基于影像档案电子资料识别系统中分类器的识别方法
CN103996055B (zh) * 2014-06-13 2017-06-09 上海珉智信息科技有限公司 基于影像档案电子资料识别系统中分类器的识别方法
CN104200209B (zh) * 2014-08-29 2017-11-03 南京烽火星空通信发展有限公司 一种图像文字检测方法
CN104200209A (zh) * 2014-08-29 2014-12-10 南京烽火星空通信发展有限公司 一种图像文字检测方法
CN106033528A (zh) * 2015-03-09 2016-10-19 富士通株式会社 从彩色文档图像中提取特定区域的方法和设备
CN104715253A (zh) * 2015-04-02 2015-06-17 北京贞观雨科技有限公司 一种获取试题解析信息的方法及服务器
WO2018103608A1 (zh) * 2016-12-08 2018-06-14 腾讯科技(深圳)有限公司 一种文字检测方法、装置及存储介质
CN108171104A (zh) * 2016-12-08 2018-06-15 腾讯科技(深圳)有限公司 一种文字检测方法及装置
US10896349B2 (en) 2016-12-08 2021-01-19 Tencent Technology (Shenzhen) Company Limited Text detection method and apparatus, and storage medium
CN108171104B (zh) * 2016-12-08 2022-05-10 腾讯科技(深圳)有限公司 一种文字检测方法及装置
CN107657230A (zh) * 2017-09-27 2018-02-02 安徽硕威智能科技有限公司 一种银行自助机器人文字识别装置
CN107888707A (zh) * 2017-12-08 2018-04-06 北京奇艺世纪科技有限公司 一种图片传输方法、装置及电子设备
CN107888707B (zh) * 2017-12-08 2021-04-20 北京奇艺世纪科技有限公司 一种图片传输方法、装置及电子设备
CN108460385A (zh) * 2018-03-02 2018-08-28 山东超越数控电子股份有限公司 一种文本图像分割方法与装置
CN109242776A (zh) * 2018-09-11 2019-01-18 江苏君英天达人工智能研究院有限公司 一种基于视觉系统的双车道线检测方法
CN109242776B (zh) * 2018-09-11 2023-04-07 江苏君英天达人工智能研究院有限公司 一种基于视觉系统的双车道线检测方法
CN109409377A (zh) * 2018-12-03 2019-03-01 龙马智芯(珠海横琴)科技有限公司 图像中文字的检测方法及装置

Also Published As

Publication number Publication date
CN100527156C (zh) 2009-08-12

Similar Documents

Publication Publication Date Title
CN101122952A (zh) 一种图片文字检测的方法
CN101122953A (zh) 一种图片文字分割的方法
CN110334706B (zh) 一种图像目标识别方法及装置
CN105373794B (zh) 一种车牌识别方法
Epshtein et al. Detecting text in natural scenes with stroke width transform
Babu et al. Vehicle number plate detection and recognition using bounding box method
WO2018018788A1 (zh) 一种基于图像识别的计量表抄表装置及其方法
WO2018145470A1 (zh) 一种图像检测方法和装置
Shivakumara et al. Accurate video text detection through classification of low and high contrast images
US20100040287A1 (en) Segmenting Printed Media Pages Into Articles
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN105825216A (zh) 一种复杂背景图像中的文本定位方法
CN106326921B (zh) 文本检测方法
CN115761773A (zh) 基于深度学习的图像内表格识别方法及系统
Çavdaroğlu et al. A character segmentation method to increase character recognition accuracy for Turkish number plates
Gui et al. A fast caption detection method for low quality video images
Arai et al. Text extraction from TV commercial using blob extraction method
Aghajari et al. A text localization algorithm in color image via new projection profile
Satish et al. Edge assisted fast binarization scheme for improved vehicle license plate recognition
Mol et al. Text recognition using poisson filtering and edge enhanced maximally stable extremal regions
Zhang et al. Extraction of karyocytes and their components from microscopic bone marrow images based on regional color features
Hesham et al. A zone classification approach for arabic documents using hybrid features
Clavelli et al. Text segmentation in colour posters from the spanish civil war era
JP2005250786A (ja) 画像認識方法
Vu et al. Automatic extraction of text regions from document images by multilevel thresholding and k-means clustering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090812

Termination date: 20110921