CN105046254A

CN105046254A - 字符识别方法及装置

Info

Publication number: CN105046254A
Application number: CN201510422663.7A
Authority: CN
Inventors: 王红法; 周龙沙; 张小鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2015-07-17
Filing date: 2015-07-17
Publication date: 2015-11-11

Abstract

本发明涉及一种字符识别方法及装置，其方法包括：获取输入的文字图像；对文字图像进行文本行分割，得到文字图像的文本行区域；将文本行区域按照文字字符属性进行字符区域分割，得到字符区域信息；根据字符区域信息，结合文字图像进行单个字符切分，得到字符分割结果。本发明能准确的进行文字分割，从而极大的提高OCR识别性能，在各种文字识别应用中，本方案具有较大的实用价值。

Description

字符识别方法及装置

技术领域

本发明涉及字符识别技术领域，尤其涉及一种字符识别方法及装置。

背景技术

OCR(OpticalCharacterRecognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。

其中，在进行字符识别时，通常会需要进行图像和字符分割。其中，图像分割是指根据灰度、颜色、纹理和形状等特征把图像划分成若干互不交迭的区域，并使这些特征在同一区域内呈现出相似性，而在不同区域间呈现出明显的差异性。字符分割是指对图像做分割处理，将其中包含文字的区域与其背景区域分割，是提高OCR识别性能重要的步骤。

目前，常用的图像分割方法有多种，例如：基于阈值的分割算法，基于边缘的分割方法，基于区域的分割方法等等。而对于文字图像的分割，也基本上都是沿用以上的通用图像分割算法。

但是，现有的文字图像分割算法存在以下缺陷：

1、对于光照不均的图像，现有算法常常分割的效果非常差；

2、文字区域分割不完整，常常表现为将单个字符分成多块，或者多个字符不能分离等，给OCR造成识别难度；

3、存在过多的噪声区域，即分割出的字符区域中很多实际上并不包含字符。

发明内容

本发明实施例提供一种字符识别方法及装置，旨在提高字符识别的准确性。

本发明实施例提出一种字符识别方法，包括：

获取输入的文字图像；

对所述文字图像进行文本行分割，得到所述文字图像的文本行区域；

将所述文本行区域按照文字字符属性进行字符区域分割，得到字符区域信息；

根据所述字符区域信息，结合所述文字图像进行单个字符切分，得到字符分割结果。

本发明实施例还提出一种字符识别装置，包括：

获取模块，用于获取输入的文字图像；

文本行分割模块，用于对所述文字图像进行文本行分割，得到所述文字图像的文本行区域；

字符分割模块，用于将所述文本行区域按照文字字符属性进行字符区域分割，得到字符区域信息；

切分处理模块，用于根据所述字符区域信息，结合所述文字图像进行单个字符切分，得到字符分割结果。

本发明实施例提出的一种字符识别方法及装置，通过获取输入的文字图像；对文字图像进行文本行分割，得到文字图像的文本行区域；将文本行区域按照文字字符属性进行字符区域分割，得到字符区域信息；根据字符区域信息，结合文字图像进行单个字符切分，得到字符分割结果，通过本方案，能准确的进行文字分割，从而极大的提高OCR识别性能，在各种文字识别应用中，本方案具有较大的实用价值。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2是本发明字符识别方法第一实施例的流程示意图；

图3是本发明字符识别方法第二实施例的流程示意图；

图4a是本发明实施例中一种实例图片示意图；

图4b是本发明实施例中一种实例图片的边缘检测结果示意图；

图4c是本发明实施例中一种实例图片的边缘水平方向连接结果示意图；

图4d是本发明实施例中一种实例图片的凸包分割结果示意图；

图4e是本发明实施例中一种实例图片的单字符分割结果示意图；

图5是本发明字符识别装置第一实施例的功能模块示意图；

图6是本发明字符识别装置第二实施例的功能模块示意图。

为了使本发明的技术方案更加清楚、明了，下面将结合附图作进一步详述。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：通过获取输入的文字图像；对文字图像进行文本行分割，得到文字图像的文本行区域；将文本行区域按照文字字符属性进行字符区域分割，得到字符区域信息；根据字符区域信息，结合文字图像进行单个字符切分，得到字符分割结果，相比现有技术，可以提高字符识别的准确性。

本发明实施例方案涉及的硬件运行环境涉及的终端，可以是PC，也可以是智能手机、平板电脑、电子书阅读器、MP3(MovingPictureExpertsGroupAudioLayerIII，动态影像专家压缩标准音频层面3)播放器、MP4(MovingPictureExpertsGroupAudioLayerIV，动态影像专家压缩标准音频层面3)播放器、便携计算机等具有显示功能的可移动式终端设备。或者，为承载于移动终端、PC终端上的字符识别装置。

参照图1，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，移动终端还可以包括摄像头、RF(RadioFrequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及字符识别应用程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的字符识别应用程序，并执行以下操作：

获取输入的文字图像；

进一步地，处理器1001可以调用存储器1005中存储的字符识别应用程序，还执行以下操作：

在对所述文字图像进行文本行分割之前还包括：

对所述文字图像进行去光照处理。

对所述文字图像进行文本行边缘检测；

根据边缘检测结果，连接文本行水平方向边缘，得到所述文字图像的文本行区域。

按照文字字符属性，获取所述文本行区域中的凸包，作为字符区域；

在所述文本行区域中对所述凸包进行分割，去除不包含文字的虚假区域，得到字符区域信息。

在单个凸包内计算局部分割阈值；

根据计算得到的所述局部分割阈值，在所述文字图像内，根据所述字符区域信息，对单个字符进行局部二值化处理，得到最终字符分割结果。

本实施例通过上述方案，具体通过获取用户输入的文字图像；对文字图像进行文本行分割，得到文字图像的文本行区域；将文本行区域按照文字字符属性进行字符区域分割，得到字符区域信息；根据字符区域信息，结合文字图像进行单个字符切分，得到字符分割结果，通过本方案，能准确的进行文字分割，从而极大的提高OCR识别性能，在各种文字识别应用中，本方案具有较大的实用价值。

基于上述硬件结构，提出本发明字符识别方法实施例。

如图2所示，本发明第一实施例提出一种字符识别方法，包括：

步骤S101，获取输入的文字图像；

本实施例方案可以应用在OCR识别技术中，并通过一字符识别装置执行该方案的软件流程。用户可以选择需要进行文字识别的文字图像。

本实施例方案默认针对的是文字图像不需要进行光照处理的情形。

步骤S102，对所述文字图像进行文本行分割，得到所述文字图像的文本行区域；

根据文字的丰富纹理信息将文字图像中相邻的文字区域(即文本行区域)进行分割。

具体地，首先，可以对文字图像进行文本行边缘检测；其中，文本行边缘检测算法可以采用Sobel、Canny等算子。

然后，根据边缘检测结果，连接文本行水平方向边缘，具体可以通过水平方向投影等技术来实现，得到文字图像的文本行区域。

其中，在得到文字图像的文本行区域的过程中，可以采用图像的二值化分割处理技术。

图像的二值化的基本原理如下：

图像的二值化处理就是将图像上的点的灰度置为0或255，也就是将整个图像呈现出明显的黑白效果。即将256个亮度等级的灰度图像通过适当的阀值选取而获得仍然可以反映图像整体和局部特征的二值化图像。

在数字图像处理中，二值图像占有非常重要的地位，特别是在实用的图像处理中，以二值图像处理实现而构成的系统很多，要进行二值图像的处理与分析，首先要把灰度图像二值化，得到二值化图像，这样子有利于再对图像做进一步处理时，图像的集合性质只与像素值为0或255的点的位置有关，不再涉及像素的多级值，使处理变得简单，而且数据的处理和压缩量小。

为了得到理想的二值图像，一般采用封闭、连通的边界定义不交叠的区域。所有灰度大于或等于阀值的像素被判定为属于特定物体，其灰度值为255表示，否则这些像素点被排除在物体区域以外，灰度值为0，表示背景或者例外的物体区域。如果某特定物体在内部有均匀一致的灰度值，并且其处在一个具有其他等级灰度值的均匀背景下，使用阀值法就可以得到比较的分割效果。如果物体同背景的差别表现不在灰度值上(比如纹理不同)，可以将这个差别特征转换为灰度的差别，然后利用阀值选取技术来分割该图像。动态调节阀值实现图像的二值化可动态观察其分割图像的具体结果。

步骤S103，将所述文本行区域按照文字字符属性进行字符区域分割，得到字符区域信息；

之后，根据单个文字字符的属性将单独的文字分割出来。

具体地，按照文字字符属性，获取文本行区域中的凸包，作为字符区域；

步骤S104，根据所述字符区域信息，结合所述文字图像进行单个字符切分，得到字符分割结果。

在得到字符区域信息后，结合原始文字图像进行二次局部二值化分割，最终得到完整的文字分割结果。

具体地，首先，在单个凸包内计算局部分割阈值；其中，分割阈值计算方法，可以采用otsu、分水岭法、区域生长法等。

然后，根据计算得到的所述局部分割阈值，在所述文字图像内，根据所述字符区域信息，对单个字符进行局部二值化处理，得到最终字符分割结果。

如图3所示，本发明第二实施例提出一种字符识别方法，基于上述图2所示的实施例，在上述步骤S102：对所述文字图像进行文本行分割之前还可以包括：

步骤S105，对所述文字图像进行去光照处理。

相比上述实施例，本实施例针对光照不均的文字图像，进行去光照处理，以提高文字分割处理的效果。

下面通过具体实例对本实施例字符分割方案进行详细阐述：

首先，输入图片，如图4a所示。

然后，对输入的图片进行去光照处理，并对输入的图片进行边缘检测，边缘检测结果如图4b所示。

之后，根据边缘检测结果，连接文本行水平方向边缘，边缘水平方向连接结果如图4c所示，得到文字图像的文本行区域。

之后，在单个凸包内计算局部分割阈值，凸包分割如图4d所示。

最后，进行局部阈值分割，并做单字符分割结果，如图4e所示。

从图4e中可以清楚的看到，按照本算法分割得到的字符边缘清晰完整，光照不均等现象均已较好的解决。

对应地，提出本发明字符识别装置实施例。

如图5所示，本发明第一实施例提出一种字符识别装置，包括：获取模块201、文本行分割模块202、字符分割模块203及切分处理模块204，其中：

获取模块201，用于获取输入的文字图像；

文本行分割模块202，用于对所述文字图像进行文本行分割，得到所述文字图像的文本行区域；

字符分割模块203，用于将所述文本行区域按照文字字符属性进行字符区域分割，得到字符区域信息；

切分处理模块204，用于根据所述字符区域信息，结合所述文字图像进行单个字符切分，得到字符分割结果。

具体地，本实施例方案可以应用在OCR识别技术中，并通过一字符识别装置执行该方案的软件流程。用户可以选择需要进行文字识别的文字图像。

在获取输入的文字图像后，根据文字的丰富纹理信息将文字图像中相邻的文字区域(即文本行区域)进行分割。

图像的二值化的基本原理如下：

之后，根据单个文字字符的属性将单独的文字分割出来。

如图6所示，本发明第二实施例提出一种字符识别装置，基于上述图5所示的实施例，该装置还包括：

光照处理模块205，用于对所述文字图像进行去光照处理。

下面通过具体实例对本实施例字符分割方案进行详细阐述：

首先，输入图片，如图4a所示。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种字符识别方法，其特征在于，包括：

获取输入的文字图像；

2.根据权利要求1所述的方法，其特征在于，所述对所述文字图像进行文本行分割的步骤之前还包括：

对所述文字图像进行去光照处理。

3.根据权利要求1所述的方法，其特征在于，所述对所述文字图像进行文本行分割，得到所述文字图像的文本行区域的步骤包括：

对所述文字图像进行文本行边缘检测；

4.根据权利要求1所述的方法，其特征在于，所述将所述文本行区域按照文字字符属性进行字符区域分割，得到字符区域信息的步骤包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述根据所述字符区域信息，结合所述文字图像进行单个字符切分，得到字符分割结果的步骤包括：

在单个凸包内计算局部分割阈值；

6.一种字符识别装置，其特征在于，包括：

获取模块，用于获取输入的文字图像；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

光照处理模块，用于对所述文字图像进行去光照处理。

8.根据权利要求6所述的装置，其特征在于，

所述文本行分割模块，还用于对所述文字图像进行文本行边缘检测；根据边缘检测结果，连接文本行水平方向边缘，得到所述文字图像的文本行区域。

9.根据权利要求6所述的装置，其特征在于，

所述字符分割模块，还用于按照文字字符属性，获取所述文本行区域中的凸包，作为字符区域；在所述文本行区域中对所述凸包进行分割，去除不包含文字的虚假区域，得到字符区域信息。

10.根据权利要求6-9中任一项所述的装置，其特征在于，

所述切分处理模块，还用于在单个凸包内计算局部分割阈值；根据计算得到的所述局部分割阈值，在所述文字图像内，根据所述字符区域信息，对单个字符进行局部二值化处理，得到最终字符分割结果。