用于识别图像中的字符的字符识别装置和字符识别方法
技术领域
本发明涉及字符识别技术,具体涉及用于识别图像中的字符的字符识别装置和字符识别方法。
背景技术
字符识别技术广泛地应用于日常生活中的各个领域,这其中包括对静态图像和动态图像(视频图像)中的字符的识别。作为一种视频图像的演讲视频在电子学习和其他教育、培训领域中应用十分广泛。在通常的演讲视频中,演讲者一边讲解,一边在视频背景上播放着幻灯图像。通常,演讲视频中会展示出大量的文本信息,使得内容的创建、索引和查找都非常便利。
由于需要识别的字符图像往往会模糊不清或者规模太小,所以演讲视频中字符的识别效果不是很好,因为此识别方法中使用的词典都源自原始清晰的字符图像。
在先前技术中,对演讲视频中的字符进行识别的技术和对扫描文档中的字符进行识别的技术相同,字符都先被分段,再使用从原始清晰词典建立的词典进行识别。
关于合成字符图像的生成,已经有了多篇论文和多项专利,例如:
P.Sarkar,G.Nagy,J.Zhou,and D.Lopresti.Spatial samplingof printed patterns.IEEE PAMI,20(3):344-351,1998
E.H.Barney Smith,X.H.Qiu,Relating statistical imagedifferences and degradation features.LNCS 2423:1-12,2002
T.Kanungo,R.M.Haralick,I.Phillips.“Global and LocalDocument Degradation Models,”Proceedings of IAPR 2ndInternational Conference on Document Analysis and Recognition,Tsukuba,Japan,1993 pp.730-734
H.S.Baird,“Generation and use of defective images in imageanalysis”.U.S.Pat.No.5,796,410.
但是,到目前为止还没有关于使用合成模式进行视频字符识别的报道。
Arai Tsunekazu、Takasu Eiji和Yoshii Hiroto曾经发表过一项专利,名为《模式识别装置:将输入模式的特征和字号数据与已记录的特征和字号模式数据进行对比,用于记录特征和字号数据的装置,以及相应的方法和储存媒介》(“Pattern recognition apparatus whichcompares input pattern feature and size data to registered featureand size pattern data,an apparatus for registering feature andsize data,and corresponding methods and memory mediatherefore”)。(美国专利号:6,421,461)。在这项专利中,他同样提取出了测试字符的字号信息,不过他将这些信息用于与词典中的字号信息进行对比。
因此,需要对现有技术进行改进以提高字符识别效果。
发明内容
本发明的一个目的是解决现有技术中的问题,改善对图像中的字符进行识别时的字符识别效果。
根据本发明,提供一种用于识别图像中的字符的字符识别装置,其包括:
文本行提取单元,用于从输入图像中提取多个文本行;
特征识别单元,用于识别各文本行的一个或更多个特征;
合成模式生成单元,用于利用特征识别单元所识别出的特征以及原始字符图像,来为各文本行分别生成合成字符图像;
合成词典生成单元,用于利用合成字符图像来为各文本行分别生成合成词典;
文本行识别单元,用于利用合成词典来分别识别各文本行中的字符。
根据本发明还提供一种用于识别图像中的字符的字符识别方法,其包括以下步骤:
从输入图像中提取多个文本行;
识别各文本行的一个或更多个特征;
利用所识别出的特征以及原始字符图像来为各文本行分别生成合成字符图像;
利用合成字符图像来为各文本行分别生成合成词典;
利用合成词典来分别识别各文本行中的字符。
在本发明中,通过事先提取待识别的文本的一些特征,把这些特征与原始字符图像合成得到合成字符并进而得到合成词典,从而使用适于该待识别文本的合成词典来进行字符识别。因此,能够明显改善字符识别的效果。
附图说明
图1是本发明的整体流程图。
图2是画面文本识别单元的操作流程图。
图3是对比度估算单元的操作流程图。
图4是合成模式生成单元的操作流程图。
图5是合成词典生成单元的操作流程图。
图6是文本行识别单元的操作流程图。
具体实施方式
在本发明中,首先用文本画面提取单元提取出包含文本信息的视频画面。接下来在画面文本识别单元,识别画面图像中的字符内容。在画面文本识别单元的字体类型辨别单元中,辨别图像画面中字符的字体类型。文本行提取单元从每一个文本画面图像中提取出所有的文本行。对比度估算单元估算出每一个文本行图像中的对比度值。压缩水平估算单元用于估算每一个原始模式生成的模式数量。然后,通过合成模式生成单元,运用估算出的字体类型和对比度信息,生成一组合成字符模式。这些合成字符图像又用于对每一个文本行建立起合成词典。最终,由字符识别单元运用已生成的合成词典,识别各文本行的字符。
图1示意了本发明的字符识别装置的整体流程图。例如,本装置的输入是演讲视频101,在文本画面提取单元102,对包含文本信息的视频画面进行提取。在102单元可使用多种现有方法,例如可以使用在“JunSun,Yutaka Katsuyama,Satoshi Naoi:Text processing method fore-Learning videos,IEEE CVPR workshop on Document Image Analysisand Retrieval,2003.”中列出的方法。文本画面提取单元的结果是一系列包含文本信息的文本画面103,共有N帧。这些文本画面中的每一帧都要在画面文本识别单元104进行画面中所包含的文本识别。画面文本识别单元104的输出是已识别出来的各帧画面的文本内容105。将画面文本识别的所有结果合成起来既得出演讲视频识别的结果106。虽然图中显示了多个画面文本识别单元104,实际上可以仅由一个画面文本识别单元104依次对多个文本画面103进行处理。
图2示意了图1中画面文本识别单元104的操作流程图。对图1中每一个文本画面103,都由文本行提取单元201处理,从画面中提取所有的文本行202。然后,在对比度估算单元203,对每一个文本行估算出文本行范围内的对比度值。同时,演讲视频的幻灯片文件204被送往字符的字体辨别单元205,以判别视频中字符的字体类型。以微软的幻灯片软件(Powerpoint)为例,PPT文件要被转换成HTML格式。然后,从HTML文件中就可以比较容易地提取出字体信息。对于其它类型的图像文件,可以采用其它合适的字体信息提取方法。
对于经过了判别的每一个文本行,估算出字体类型和对比度值后,在合成模式生成单元207运用一组清晰的字符模式图像,生成一组合成字符图像。接下来,合成词典生成单元208将利用单元207的输出生成合成词典。之后是文本行识别单元209利用已生成的合成词典识别文本行中的字符。将所有文本行的经过识别的文本行内容结合成起来,就得到了图1中的文本内容105。
在文本行提取单元201中使用的具体方法可以参考Jun Sun,Yutaka Katsuyama,Satoshi Naoi,“Text processing method fore-Learning videos”,IEEE CVPR workshop on Document Image Analysisand Retrieval,2003.
图3示意了图2中对比度估算单元203的操作流程图。该单元的输入是图2中一帧文本行图像202。从文本行图像中可以得出灰度值直方图(S301)。直方图的算法则可以参见《Digital Image Processing》(K.R.Castleman,Prentice Hall press.1996.)。平滑直方图这个步骤(S302)通过如下运算来使直方图更加平滑:
其中prjs(i)是对位置i的平滑值,δ是平滑运算的窗口大小,j是平滑操作时的当前位置。在平滑后的直方图中,记录下最大值和最小值的位置(S303,S304)。然后计算这两个位置的差,就得出对比度值(S305)。
图4示意了图2中合成模式生成单元(207)的操作流程图。该单元以文本行图像202作为输入,用文本行的高度来确定压缩率水平nlvl。压缩率是用在单一字符图像生成单元(S403)中的一个参量。压缩率的水平决定了针对每个原始字符生成的图像的数量。对小字号的字符,图像通常会发生大幅劣化,所以需要较高的压缩率水平。对大字号的字符,劣化幅度不大,所以较小的压缩率水平就足够了。假设原始字符模式的数量为nPattern,对这些图像的每一帧,都有特定的对比度值和字体类型(在图2中203和205单元已经估算出),也得到了从S401单元中获得的压缩率水平,那么通过单一字符图像生成单元(S403)就可以生成一个合成字符图像。。对于每一个原始的特定文本行,生成的字符图像的总数为nPattern*nlvl*nFont。其中,nFont是演讲视频中字体类型的数量。
图5示意了图2中合成词典生成单元208的操作流程图。针对特定的合成字符图像401,特征提取单元从第一帧字符图像(S501)开始提取字符的特征(S502)。在S502中有多种方法可用于特征提取,例如,可参考M.Shridhar,F.Kimura“Segmentation-Based CursiveHandwriting recognition”,Handbook of Character Recognition andDocument Image Analysis:pp.123-156,1997.此程序将不断重复直到字符的所有特征都被提取完毕(S503和S504)为止。词典生成单元的输出是合成词典(S505)。
图6示意了图2中文本行识别单元209的操作流程图。针对特定的文本行图像,最初执行的是分段单元的操作(S601),它将文本行图像分为nChar段独立的字符图像。然后在特征提取单元的操作(S603)中,从第一帧字符图像(S602)开始提取当前字符图像的特征。S603中使用的方法和S502中使用的方法相同。接下来,分类单元(S604)运用合成词典生成单元生成的合成词典S505,按照字符类型对每一帧字符图像进行分类。本程序的输出是第i帧字符图像的字符代码(种类)。本程序将不断重复直到nChar段字符图像全部经过合成词典的识别(S606和S607)为止。对文本行内所有字符进行识别的结果就是图2中文本行的内容210。
对于一帧特定的文本画面图像,对该图像中所有文本行进行识别的结果就是对该图像内容的识别结果。最后,105中所有的结果合成起来,就得到本发明的最终输出,即演讲视频的识别结果。
应该指出,虽然以上参照演讲视频图像对本发明的字符识别技术进行了说明,但是本发明的字符识别技术同样可以应用于其它类型的视频图像。而且,对于静态的图像,例如扫描文件、照片等等,也可以应用本发明的字符识别技术。另外,在本发明实施例中,在获得合成词典的过程中从待识别文本行提取的特征是对比度、字体、压缩率,但是所提取的特征并不局限于这些特征中的一个或几个,还可以包括或替换为文本行的其它特征。