CN101122952A

CN101122952A - 一种图片文字检测的方法

Info

Publication number: CN101122952A
Application number: CNA2007101221552A
Authority: CN
Inventors: 易剑; 彭宇新; 肖建国
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2007-09-21
Filing date: 2007-09-21
Publication date: 2008-02-13
Anticipated expiration: 2027-09-21
Also published as: CN100527156C

Abstract

本发明提供了一种图片文字检测的方法，包括以下步骤：(1)合并原图在各个颜色分量上的边缘图，得到累积边缘图；(2)把累积边缘图中的边缘点置为其在原图中的相应颜色，根据边缘点颜色的不同，用聚类的方法把累积边缘图分解成若干张子边缘图，每张子边缘图中包含了颜色相近的边缘点；(3)在每张子边缘图中，多次进行水平和垂直投影，根据投影图进行垂直方向和水平方向的区域分割，定位图片中的文字区域。本发明在获取原图的累积边缘图之后，利用基于颜色的聚类方法把累积边缘图分解成若干张子边缘图，使子边缘图中的边缘得到简化，从而使图片文字区域的检测较为简单和准确。

Description

一种图片文字检测的方法

技术领域

本发明属于图像处理和检索技术领域，具体涉及一种图片文字检测的方法。

背景技术

随着互联网技术和多媒体技术的快速发展，互联网上的图片内容呈现爆炸性增长趋势，如何在这海量的图片内容中快速检索到想要的图片，成为了一个急需解决的关键问题。现有的方法主要基于图片对应网页中的文字描述信息，而没有深入到图片内容的分析中去。这种方法存在以下缺点：(1)如何在网页中找到能够准确描述图片内容的文字信息本身就是一件很困难的事情；(2)大量的图片没有对应的网页信息。

另一方面，大量的图片中含有文字信息，这些文字信息一般能准确描述图片的内容，如果能识别这些文字，用这些文字信息对图片进行索引和检索，必将大大推动互联网图片搜索技术的发展。因此，图片文字检测和识别技术具有十分重要的研究和应用价值。图片中的文字区域具有两个明显的特征：密集的边缘和一致的颜色。现有的图片文字检测方法主要考虑了这两个特征中的一个，而没有把这两个特征结合起来。如果能同时考虑这两个特征，把它们结合起来使用，将能更为有效地检测图片中的文字。

2005年在IEEE Transactions on Circuits and Systems for VideoTechnology上发表的文献“A comprehensive method for multilingualvideo text detection，localization，and extraction”(作者是Michael R.Lyu，Jiqiang Song，Min Cai，页码是243-254)，提出了一种基于边缘的视频文字检测方法。该文献先从视频中抽取视频帧，即视频内容的图片，然后把图片转换成边缘强度图，并通过水平和垂直投影的方式找出可能的文字区域。这种方法只用到了文字区域的边缘特征，而没有充分利用文字区域颜色信息，因此不能很好的定位文字区域，文字检测结果有待提高。

发明内容

针对现有技术的不足，本发明的目的是提供一种更为有效的检测图片文字的方法，用于检测互联网图片中的文字信息。

为达到以上目的，本发明采用的技术方案如下：

一种图片文字检测的方法，包括以下步骤：

(1)合并原图在多个颜色分量上的边缘图，得到累积边缘图；

(2)把累积边缘图中的边缘点置为其在原图中的相应颜色，根据边缘点颜色的不同，用聚类的方法把累积边缘图分解成若干张子边缘图，每张子边缘图中包含了颜色相近的边缘点；

(3)在每张子边缘图中，多次进行水平和垂直投影，根据投影图进行垂直方向和水平方向的区域分割，从而定位图片中的文字区域；

进一步，上述步骤(3)之后过滤掉所述步骤(3)定位得到的文字区域中所包括的误判文字区域。

进一步，上述的一种图片文字检测的方法，所述步骤(1)中的累积边缘图由在图片的YUV各个分量上用多个边缘图合并得到。合并的方法如公式一所示，E是累积边缘图，E_Y、E_U和E_V分别是在图片的YUV各个分量上的边缘图，E(x，y)是累积边缘图中坐标为(x，y)的点的边缘强度值，它等于E_Y、E_U和E_V中相应位置像素点的边缘强度值累加和与255中较小的一个。

公式一：E(x，y)＝min(E_Y(x，y)+E_U(x，y)+E_V(x，y)，255)

进一步，上述的一种图片文字检测的方法，所述步骤(1)中，在图片的YUV分量上的边缘图是采用改进的Sobel边缘检测算子按照公式二检测到的，E_α是在图片的α分量上用改进的Sobel边缘检测算子检测到的边缘图，α∈{Y，U，V}，S_H、S_V、S_LD和S_RD分别表示水平、垂直、左对角线和右对角线这四个方向上的Sobel边缘强度值，max表示计算最大值，E_α(x，y)是在α分量上，坐标为(x，y)的点的边缘强度值，它的值等于这一点在α分量上水平、垂直、左对角线和右对角线四个方向的最大Sobel边缘强度值。

公式二：E_α(x，y)＝max(|S_H|，|S_V|，|S_LD|，|S_RD|)α∈{Y，U，V}

进一步，上述的一种图片文字检测的方法，所述步骤(2)中只对累积边缘图中强度值大于阈值T(0＜T＜255)的边缘点进行处理，把这些边缘点置为它们在原图中的相应颜色，得到彩色的累积边缘图；然后，根据边缘点颜色的不同，用聚类的方法把彩色累积边缘图分解成若干个子边缘图，每张子边缘图中只含颜色相近的边缘点。

进一步，上述的一种图片文字检测的方法，所述步骤(3)中的具体方法为：需要一个待处理区域集合S，刚开始时，集合S中只有步骤(2)中得到的子边缘图区域，在处理的过程中，每次在S中取一个区域A₀进行处理，直到集合S为空为止。对区域A₀处理的方法是：首先对区域A₀进行水平方向的投影，统计每行边缘像素的数目，然后根据A₀的水平投影进行垂直方向的分割。如果A₀在垂直方向是不可分割的，就把它作为一个整体进行垂直方向的投影和水平方向的分割；如果A₀在垂直方向可以分割，则将A₀在垂直方向进行分割，并把所有从A₀中分割出来的区域A₁，A₂...A_n进行垂直方向的投影和水平方向的分割。如果区域A_i根据其垂直投影图不能再进行水平方向的分割，就把它放入结果集合R中，否则把从A_i分割出来的区域放入集合S中等待处理。

进一步，上述的一种图片文字检测的方法，所述步骤(3)中，区域分割的具体方法为：对于一个待分割的区域，垂直分割的方法是从下往上扫描边缘点的水平投影图做分割；水平分割的方法是从左往右扫描边缘点的垂直投影图做分割。上述水平和垂直分割在扫描的过程中，把强度相近的行归为一组，并随时更新这个组所有行的边缘像素数目平均值。如果当前扫描行的边缘像素数目和当前组的平均值差别很大，就进行分割，然后继续扫描下一行。只有扫描行的强度值大于一个阈值时，才开始一个新的组。当扫描到最后一行时，对这个区域的分割就完成了。

进一步，上述的一种图片文字检测的方法，所述的过滤文字区域中包括的错误判断的文字区域，是采用基于SVM(support vectormachine)分类器的方法，该方法分为训练和判断两个过程：训练过程是预先进行的，在训练过程中，选取了大量的文字区域正负样本，输入SVM分类器进行训练；在判断过程中，把步骤(3)中检测到的文字区域输入SVM分类器进行判断，把文字区域分为为正确的文字区域和误判的文字区域，误判的文字区域被过滤掉。

本发明的效果在于：与现有方法相比，本发明可以取得更高的图片文字区域查全率和查准率，有利于更好的识别图片中的文字，从而充分发挥图片文字信息在图像检索中的巨大作用。

本发明之所以具有上述发明效果，其原因在于，图片文字区域具有两个显著特征，即密集的边缘和一致的颜色，现有技术只单独考虑了这两个特征的其中一个，而没有把它们结合起来使用，因此不能足够有效地检测图片中的文字。针对现有技术的问题，本发明综合考虑了文字区域的以上两个特征，首先生成原图的累积边缘图，然后把累积边缘图中的边缘点置为其在原图中的相应颜色，根据边缘点颜色的不同，用聚类的方法把累积边缘图分解成若干张子边缘图。这样做的好处在于，背景边缘与文字边缘，以及不同颜色的文字边缘被分离在不同的子边缘图中，每张边缘图中的边缘情况更为简单，从而使得文字检测较为简单和准确，因此，本发明能够取得更好的图片文字检测结果。经过本发明检测出文字区域之后，可以利用OCR软件识别文字区域的二值图片，从而最终获取图片的文字信息。

附图说明

图1是本发明的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述。

如图1所示，本发明的一种图片文字检测的方法具体包括以下步骤：

(1)合并原图在多个颜色分量上的边缘图，得到累积边缘图。

累积边缘图由在图片的YUV各个分量上用改进的Sobel边缘检测算子检测到的多个边缘图合并得到。合并的方法如公式一所示，E是累积边缘图，E_Y、E_U和E_V分别是在图片的YUV各个分量上用改进的Sobel边缘检测算子检测到的边缘图，E(x，y)是累积边缘图中坐标为(x，y)的点的边缘强度值，它等于E_Y、E_U和E_V中相应位置像素点的边缘强度值累加和与255中较小的一个。

公式一：E(x，y)＝min(E_Y(x，y)+E_U(x，y)+E_V(x，y)，255)

在上述过程中，在图片的YUV分量上的边缘图是采用改进的Sobel边缘检测算子按照公式二检测到的，E_α是在图片的α分量上用改进的Sobel边缘检测算子检测到的边缘图，α∈{Y，U，V}，S_H、S_V、S_LD和S_RD分别表示水平、垂直、左对角线和右对角线这四个方向上的Sobel边缘强度值，max表示计算最大值，E_α(x，y)是在α分量上，坐标为(x，y)的点的边缘强度值，它的值等于这一点在α分量上水平、垂直、左对角线和右对角线四个方向的最大Sobel边缘强度值。

公式二：E_α(x，y)＝max(|S_H|，|S_V|，|S_LD|，|S_RD|)α∈{Y，U，V}

(2)对于累积边缘图中强度值大于阈值T(0＜T＜255)的边缘点，把这些边缘点置为它们在原图中的相应颜色，得到彩色的累积边缘图；然后，根据边缘点颜色的不同，用聚类的方法把彩色累积边缘图分解成若干个子边缘图，每张子边缘图中只含颜色相近的边缘点。在本具体实施例中，阈值T取为50，每张累积边缘图被分解成了3张子边缘图。

(3)在每张子边缘图中，多次进行水平和垂直投影，根据投影图进行分割，从而定位图片中的文字区域，具体方法如下。

需要一个待处理区域集合S，刚开始时，集合S中只有步骤(2)中得到的子边缘图区域，在处理的过程中，每次在S中取一个区域A₀进行处理，直到集合S为空为止。

对区域A₀处理的方法是：首先对区域A₀进行水平方向的投影，统计每行边缘像素的数目，然后根据A₀的水平投影进行垂直方向的分割。如果A₀在垂直方向是不可分割的，就把它作为一个整体进行垂直方向的投影和水平方向的分割；如果A₀在垂直方向可以分割，则将A₀在垂直方向进行分割，并把所有从A₀中分割出来的区域A₁，A₂...A_n进行垂直方向的投影和水平方向的分割。如果区域A_i根据其垂直投影图不能再进行水平方向的分割，就把它放入结果集合R中，否则把从A_i分割出来的区域放入集合S中等待处理。

在上述过程中，区域分割的具体方法为：对于一个待分割的区域，垂直分割的方法是从下往上扫描边缘点的水平投影图做分割；水平分割的方法是从左往右扫描边缘点的垂直投影图做分割。上述水平和垂直分割在扫描的过程中，把强度相近的行归为一组，并随时更新这个组所有行的边缘像素数目平均值。如果当前扫描行的边缘像素数目和当前组的平均值差别很大，就进行分割，然后继续扫描下一行。只有扫描行的强度值大于一个阈值时，才开始一个新的组。当扫描到最后一行时，对这个区域的分割就完成了。

(4)在步骤(3)中定位到的文字区域中包括了错误判断的文字区域，利用基于SVM(support vector machine)分类器的方法过滤掉这些误判的文字区域，具体方法分为训练和判断两个过程：训练过程是预先进行的，在训练过程中，选取了大量的文字区域正负样本，输入SVM分类器进行训练；在判断过程中，把步骤(3)中检测到的文字区域输入SVM分类器进行判断，文字区域分为为正确的文字区域和误判的文字区域，误判的文字区域被过滤掉，在本实施例中，具体过程如下。

训练过程：把文字区域样本缩放到统一高度H，然后用一个窗口Z从左到右扫描样本，步长为F。每次移动窗口时，提取窗口内的24维特征向量来对SVM分类器进行训练。在本实施例中，H取为24，F取为12。

判断过程：样本同样被缩放到统一高度H，然后用窗口Z从左到右扫描。每次移动窗口时，提取窗口内的24维特征向量作为SVM分类器的输入特征进行判断。SVM分类器的输出记为G(Z)，G(Z)的取值可能是1(判断为文字特征)，或者-1(判断为非文字特征)。当窗口滑动完成时，如果G(Z)的累加值大于0，则判断样本是一个正确的文字区域，否则是一个错误的文字区域，将被过滤掉。

上述特征提取的详细做法如下：首先，对原图求其在4个方向(0度，45度，90度和135度)上的彩色边缘强度图。我们采取的办法是分别在RGB三个通道上进行处理，对于点(x，y)，在每个通道可以分别得到4个方向的微分：

\frac{&PartialD; Ψ}{&PartialD; x}, \frac{&PartialD; Ψ}{&PartialD; xy}, \frac{&PartialD; Ψ}{&PartialD; y}, \frac{&PartialD; Ψ}{&PartialD; yx}, (ψ = R, G, B) .

然后得到点(x，y)在各个方向的变化率，也就是彩色边缘强度，如下所示：

0度方向：

G_{x} = {({| \frac{&PartialD; R}{&PartialD; x} |}^{2} + {| \frac{&PartialD; G}{&PartialD; x} |}^{2} + {| \frac{&PartialD; B}{&PartialD; x} |}^{2})}^{\frac{1}{2}}

45度方向：

G_{xy} = {({| \frac{&PartialD; R}{&PartialD; xy} |}^{2} + {| \frac{&PartialD; G}{&PartialD; xy} |}^{2} + {| \frac{&PartialD; B}{&PartialD; xy} |}^{2})}^{\frac{1}{2}}

90度方向：

G_{x} = {({| \frac{&PartialD; R}{&PartialD; y} |}^{2} + {| \frac{&PartialD; G}{&PartialD; y} |}^{2} + {| \frac{&PartialD; B}{&PartialD; y} |}^{2})}^{\frac{1}{2}}

135度方向：

G_{yx} = {({| \frac{&PartialD; R}{&PartialD; yx} |}^{2} + {| \frac{&PartialD; G}{&PartialD; yx} |}^{2} + {| \frac{&PartialD; B}{&PartialD; yx} |}^{2})}^{\frac{1}{2}}

然后，在这4个彩色边缘强度图上相应窗口Z的位置各计算6个特征，总共得到24维的特征，6个特征分别为：均值、方差、能量、熵、惯量和局部同次性。

对于采用本发明的上述图片文字检测方法检测到的文字区域图片，本具体实施方法中，进一步按照如下方法把文字区域图片转换成二值图片，并利用OCR软件获取文字识别结果：

(1)对文字区域图片进行颜色分量选择，在所选择颜色分量上，文字最为清晰。

如公式一所示，分别求得文字区域图片在YUV各个颜色分量上的对比度C_Y、C_U和C_V，C_α它们中的最大值，α∈{Y，U，V}，则选择在YUV颜色空间中的α分量上进行二值化。C_Y、C_U和C_V的值由公式二求得，分别为边缘强度图E_Y、E_U和E_V的中央部分的边缘强度累加值，代表了文字区域图片在YUV各个颜色分量上的对比度；E_Y、E_U和E_V是文字区域图片分别在YUV各个颜色分量上的边缘强度图，w和h分别为文字区域图片的宽和高。

公式一：C_α＝max(C_Y，C_U，C_V)，α∈{Y，U，V}

公式二：

C_{Y} = \underset{\underset{h / 3 \leq y \leq h \times 2 / 3}{w / 3 \leq x \leq w \times 2 / 3}}{Σ} E_{Y} (i, j), C_{U} = \underset{\underset{h / 3 \leq y \leq h \times 2 / 3}{w / 3 \leq x \leq w \times 2 / 3}}{Σ} E_{U} (i, j), C_{V} = \underset{\underset{h / 3 \leq y \leq h \times 2 / 3}{w / 3 \leq x \leq w \times 2 / 3}}{Σ} E_{V} (i, j)

(2)对图片中文字灰度值的深浅进行判断，如果是浅色的文字，则反转文字区域图片的灰度值，否则灰度值不变。这样保证了在进行二值化之前，图片中的文字总是深色的，灰度值较小，有利于对图片进行统一的处理。判断文字灰度值深浅的方法为：用Otsu方法把文字区域图片二值化，然后找出白色和黑色的4连通分量，去除外接矩形宽高都极小的连通分量，最后统计出白色连通分量个数Com_white和黑色连通分量个数Com_black，如果Com_white＞Com_black，则判断文字是浅色的，反之是深色的。

(3)在(1)中选择的颜色分量上，把文字区域图片二值化为前景和背景，前景用黑色表示，背景用白色表示。

对于图片中的每一个像素x，求得一个局部阈值T_r(x)，如果这个像素的灰度值小于T_r(x)的话，这个像素被二值化成前景，否则是背景。对于每个像素x，我们用下面的方法计算局部阈值T_r(x)：如公式三所示，T_r(x)的值从一个以像素x为中心，大小为r(x)的窗口W_r中统计得到，μ_r(x)是W_r中像素的平均灰度值，σ_r(x)是W_r中像素灰度值的标准方差，k₁是一个常数。窗口大小r(x)由公式四计算得到，公式四中，T_σ是一个常数，r(x)为像素灰度值的标准方差大于T_σ的最小窗口的大小。在本实施例中，k₁的值取为-0.2，T_σ的值取为文字区域图片中所有像素灰度值的标准方差。

公式三：T_r(x)＝μ_r(x)+k₁×σ_r(x)

公式四：r(x)＝min(r，σ_r(x)＞T_σ)

(4)对步骤(3)中得到的二值图片进行去噪。

去噪的具体方法主要包括三个部分：连通分量分析、灰度一致性分析和基于颜色的聚类。

a.用连通分量分析去除噪声，把满足下列条件之一的连通分量当作噪声去除掉：

(1)同文字区域的边界相连；

(2)连通分量所占的像素数目小于一个文字笔画所占的最少像素数目；

(3)连通分量的宽高比大于文字笔画的最大宽高比，或者小于文字笔画的最小宽高比。

b.用灰度一致性分析来去除噪声：对于二值图片连通分量中的像素，首先恢复它在步骤(1)中所选择的颜色分量上相应位置的灰度值，然后计算所有连通分量中像素灰度值的方差st和均值m，并检查每个连通分量P，如果连通分量P中满足公式五的像素数目大于这个连通分量中所有像素数目的一定比例，那么P被当作是噪声而除去。

公式五：

\frac{| o_{p} - m |}{st} > k_{2}

公式五中，k₂是一个常数，o_p是连通分量P中像素的灰度值。本具体实施例中，k₂取为2，当P中满足公式五的像素数目多于总像素数目的2/3的时候，P被认为是一个噪声而除去。

c.用基于颜色聚类的方法去除噪声：首先将连通分量中的像素恢复其在原图中的颜色，得到彩色的连通分量集合C；然后用基于颜色的聚类方法把连通分量集合C分为两类，一类是文字的笔画，另一类是噪声，从而去除噪声。在本实施例中，对于C中的每个连通分量P，我们首先计算P中所有像素的平均颜色值c(P)，然后用基于连通分量平均颜色值的k-means聚类方法把C分为两类：所占像素较多的一类被认为是文字笔画而保留；所占像素较少的一类被认为是噪声而除去。

最后把处理后的文字区域二值化图片输入给OCR软件进行识别，以得到图片文字识别结果。

下面的实验结果表明，与现有方法相比，本发明可以取得更高的文字区域检测查全率和查准率，从而充分发挥图片文字信息在图像检索中的巨大作用。

本实施例中建立的数据库包含了1000张含有文字的Web图片，这些图片是从互联网上随机抓取下来的，大多含有复杂的背景，以及大小、颜色、分辨率和对比度均不相同的文字，能够反映互联网上文字图片的真实情况，有助于证明本发明方法对各种情况的适应性以及最终结果的有效性。经过人工统计，这1000张图片中共含有1621个文字区域。

在本实施例中，上述1000张图片被送给图片文字检测模块进行处理，得到文字区域定位的结果。为了证明本发明在图片文字检测方面的有效性，我们测试了以下3种方法作为实验对比：

I.本发明的具体实施例；

II.Lyu的方法：2005年在IEEE Transactions on Circuits andSystems for Video Technology上发表的文献“A comprehensive methodfor multilingual video text detection，localization，andextraction”(作者是Michael R.Lyu，Jiqiang Song，Min Cai，页码是243-254)。该文献首先利用边缘检测算子求得视频帧的边缘图，然后用分析边缘投影图的波峰和波谷的方法来找到可能的文字区域。

III.HWDavid的方法：2003年参加了ICDAR Robust ReadingCompetition，方法记载在文献“ICDAR 2003 Robust ReadingCompetitions”上(作者是S.M.Lucas，A.Panaretos等)。该方法首先利用边缘检测和形态学的方法形成初始连通分量，然后用连通分量分析的方法把初始连通分量合并成为文字区域。

实验采用了在ICDAR 2003 Competition Evaluation中使用的三个指标来评价图片文字检测的结果，三个指标分别是：Recall(r)，Precison(p)和f。Recall表示的是找到相关文字区域的能力；Precison表示的是准确找到相关文字区域的能力；f是Recall与Precison的综合评价。这三个指标能全面评价图片文字检测的结果，它们的值在0到1之间，是一个小数，都是越高越好。f的定义如下，其中α是一个常量：

f = \frac{1}{α / p + (1 - α) / r}

表1实验结果对比

	Recall	Precison	f
	Recall	Precison	f	本发明Lyu的方法HWDavid的方法	0.7190.6030.638	0.6230.4940.270	0.6430.5180.351

从表1中可以看出，本发明在上述三个指标上，都取得了比其他两种方法更好的结果，这主要是因为：本发明综合考虑了文字区域的两个特征，即密集的边缘和一致的颜色。在获取原图的累积边缘图之后，本发明利用基于颜色的聚类方法把累积边缘图分解成若干张子边缘图，使子边缘图中的边缘得到简化，从而使图片文字区域的检测较为简单和准确。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种图片文字检测的方法，其特征在于，包括以下步骤：

(1)合并原图在各个颜色分量上的边缘图，得到累积边缘图；

(3)在每张子边缘图中，多次进行水平和垂直投影，根据投影图进行垂直方向和水平方向的区域分割，定位图片中的文字区域。

2.如权利要求1所述的图片文字检测的方法，其特征在于，所述步骤(3)之后进一步过滤掉所述步骤(3)定位得到的文字区域中所包括的误判文字区域。

3.如权利要求1所述的图片文字检测的方法，其特征在于，所述步骤(1)中的累积边缘图是由在图片的YUV各个分量上的多个边缘图采用公式一合并得到：

公式一：E(x，y)＝min(E_Y(x，y)+E_U(x，y)+E_V(x，y)，255)

E是累积边缘图，E_Y、E_U和E_V分别是在图片的YUV各个分量上的边缘图，E(x，y)是累积边缘图中坐标为(x，y)的点的边缘强度值，它等于E_Y、E_U和E_V中相应位置像素点的边缘强度值累加和与255中较小的一个。

4.如权利要求1或3所述的图片文字检测的方法，其特征在于，所述步骤(1)中的累积边缘图是由在图片的YUV各个分量上的多个边缘图合并得到，在图片的YUV分量上的边缘图是采用改进的Sobel边缘检测算子按照公式二检测得到：

公式二：E_α(x，y)＝max(|S_H|，|S_V|，|S_LD|，|S_RD|)α∈{Y，U，V}

其中，E_α是在图片的α分量上用改进的Sobel边缘检测算子检测到的边缘图，α∈{Y，U，V}，S_H、S_V、S_LD和S_RD分别表示水平、垂直、左对角线和右对角线这四个方向上的Sobel边缘强度值，max表示计算最大值，E_α(x，y)是在α分量上，坐标为(x，y)的点的边缘强度值，它的值等于这一点在α分量上水平、垂直、左对角线和右对角线四个方向的最大Sobel边缘强度值。

5.如权利要求1所述的图片文字检测的方法，其特征在于，所述步骤(2)中，只对累积边缘图中强度值大于阈值T(0＜T＜255)的边缘点进行处理，得到彩色的累积边缘图；然后，根据边缘点颜色的不同，用聚类的方法把彩色累积边缘图分解成若干个子边缘图，每张子边缘图中只含颜色相近的边缘点。

6.如权利要求1所述的图片文字检测的方法，其特征在于，所述步骤(3)的具体方法为：

需要一个待处理区域集合S，刚开始时，集合S中只有步骤(2)中得到的子边缘图区域，在处理的过程中，每次在S中取一个区域A₀进行处理，直到集合S为空为止；

其中，对区域A₀处理的方法是：首先对区域A₀进行水平方向的投影，统计每行边缘像素的数目，然后根据A₀的水平投影进行垂直方向的区域分割；如果A₀在垂直方向是不可分割的，就把它作为一个整体进行垂直方向的投影和水平方向的区域分割；如果A₀在垂直方向可以分割，则将A₀在垂直方向进行分割，并把所有从A₀中分割出来的区域A₁，A₂...A_n进行垂直方向的投影和水平方向的区域分割，如果区域A_i根据其垂直投影图不能再进行水平方向的区域分割，就把它放入结果集合R中，否则把从A_i分割出来的区域放入集合S中等待处理。

7.如权利要求1或6所述的图片文字检测的方法，其特征在于，区域分割的具体方法为：对于一个待分割的区域，垂直方向分割的方法是从下往上扫描边缘点的水平投影图做分割；水平方向分割的方法是从左往右扫描边缘点的垂直投影图做分割；所述水平方向和垂直方向的分割，在扫描的过程中，把强度相近的行归为一组，并随时更新这个组所有行的边缘像素数目平均值，如果当前扫描行的边缘像素数目和当前组的平均值差别很大，就进行分割，然后继续扫描下一行，当扫描行的强度值大于一个阈值时开始一个新的组；当扫描到最后一行时，对这个区域的分割就完成了。

8.如权利要求2所述的图片文字检测的方法，其特征在于，所述过滤是采用基于SVM分类器的方法，分为训练和判断两个过程：预先选取大量的文字区域正负样本，输入SVM分类器进行训练；然后把所述步骤(3)中检测到的文字区域输入SVM分类器进行判断，把文字区域分为为正确的文字区域和误判的文字区域，误判的文字区域被过滤掉。