JP2006053920A

JP2006053920A - 文字認識プログラム、文字認識方法および文字認識装置

Info

Publication number: JP2006053920A
Application number: JP2005230917A
Authority: JP
Inventors: Shun Son; 俊孫; Yutaka Katsuyama; 裕勝山; Satoshi Naoi; 聡直井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2004-08-10
Filing date: 2005-08-09
Publication date: 2006-02-23
Also published as: US20060062460A1; CN100357957C; CN1734466A

Abstract

【課題】画像中の文字に対する認識能力を改善する文字認識プログラム、文字認識方法および文字認識装置を提供すること。
【解決手段】コンピュータを、入力画像から複数のテキスト列を抽出するテキスト列抽出手段と、テキスト列のそれぞれの一つ以上の特徴を認識する特徴認識手段と、特徴認識手段によって認識された特徴とオリジナルの文字画像とを利用することにより、テキスト列のそれぞれのための合成文字画像を生成する合成パターン生成手段と、合成文字画像を利用することにより、テキスト列のそれぞれのための合成辞書を生成する合成辞書生成手段と、合成辞書を利用することにより、テキスト列のそれぞれの文字を認識するテキスト列認識手段として機能させる。
【選択図】図１

Description

本発明は、文字認識技術、特に、画像中の文字を認識する文字認識プログラム、文字認識方法および文字認識装置に関する。

文字認識技術は、静止画像および動画像（ビデオ画像）中の文字の認識を含めて、普通の日常生活における様々な分野で、幅広く利用されている。ビデオ画像の一種である講義ビデオは、ｅ−ラーニング、および、他の教育および練習環境で普通に利用されている。典型的な講義ビデオでは、発表者は、話をしながら、背景としてスライド画像を利用する。講義ビデオには、通常、大量のテキスト情報があるので、コンテンツ生成、索引付け、および検索のために大変有用である。

講義ビデオ中の文字に対する認識能力はかなり低い。これは、認識に利用されている辞書が、オリジナルの鮮明な文字画像から得られるのに対して、認識されるべき文字画像が、通常不鮮明であり、そして小さいサイズであるためである。

従来技術において、講義ビデオ中の文字に対する認識は、スキャンした文書中の文字に対する認識と同じである。文字は、分割され、その後、オリジナルの鮮明な文字から作られた辞書を利用して認識される。

合成文字画像の生成については、例えば、特許文献１、および、非特許文献１〜３などの多くの論文と特許がある。しかしながら、合成パターンを利用するビデオ文字認識に関する報告がないのは、間違いない。

以前発行された特許文献２において、発明者達は、試験文字のサイズ情報も抽出したが、彼らは、辞書中のサイズ情報と比較するために、この情報を利用した。

従って、文字に対する認識能力を改善するために、従来技術を超える改善がなされる必要がある。

米国特許第５、７９６、４１０号明細書、エッチ．エス．バイルド（Ｈ．Ｓ．Ｂａｉｒｄ）、「画像分析における欠陥画像の生成と利用（Generation and use of defective images in image analysis）」米国特許第６、４２１、４６１号明細書、新井常一（ＡｒａｉＴｓｕｎｅｋａｚｕ）、高須英司（ＴａｋａｓｕＥｉｊｉ）、および、吉井裕人（ＹｏｓｈｉｉＨｉｒｏｔｏ）、「入力パターンの特徴およびサイズデータを、登録された特徴およびサイズパターンデータと比較するパターン認識装置、特徴およびサイズデータを登録するための装置、および、対応する方法とそのための記憶媒体（Pattern recognition apparatus which compare input pattern features and size data to registered feature and size pattern data, an apparatus for registering feature and size data, and corresponding methods and memory media therefore）」ピー．サルカール（Ｐ．Ｓａｒｋａｒ）、ジー．ナジ（Ｇ．Ｎａｇｙ）、ジェイ．ジョウ（Ｊ．Ｚｈｏｕ）、および、ディー．ロプレスティ（Ｄ．Ｌｏｐｒｅｓｔｉ）、「印刷されたパターンの空間的なサンプリング（Spatial sampling of printed patterns）」、ＩＥＥＥＰＡＭＩ、１９９８年、２０（３）、ｐ．３４４−３５１イー．エッチ．バーニースミス（Ｅ．Ｈ．ＢａｒｎｅｙＳｍｉｔｈ）、エックス．エッチ．チィウ（Ｘ．Ｈ．Ｑｉｕ）、「統計的画像の差異と劣化の特徴の関連付け（Relating statistical image differences and degradation features）」、２００２年、ＬＮＣＳ２４２３、ｐ．１−１２ティー．カヌンゴ（Ｔ．Ｋａｎｕｎｇｏ）、アール．エム．ハラリック（Ｒ．Ｍ．Ｈａｒａｌｉｃｋ）、アイ．フィリップス（Ｉ．Ｐｈｉｌｉｐｓ）、「全体的・部分的な文書劣化モデル（Global and Local Document Degradation Models）」、文書の分析と認識に関するＩＡＰＲ第２回国際会議の議事録（Proceedings of IARP 2nd International Conference on Document Analysis and Recognition）、筑波、日本、１９９３年、ｐ．７３０−７３４

本発明の一つの目的は、従来技術において未解決の問題を解決すること、すなわち、画像中の文字を認識する際の、文字に対する認識能力を改善することである。

本発明は、上記従来の課題を解決するために、コンピュータを、入力画像からテキスト列を抽出するテキスト列抽出手段と、前記テキスト列のそれぞれの一つ以上の特徴情報を認識する特徴認識手段と、前記特徴認識手段によって認識された前記特徴情報とオリジナルの文字画像とを利用して前記テキスト列のそれぞれのための合成文字画像情報を生成する合成パターン生成手段と、前記合成文字画像を利用して前記テキスト列のそれぞれのための合成辞書情報を生成する合成辞書情報生成手段と、前記合成辞書情報を利用して前記テキスト列のそれぞれの文字を認識するテキスト列認識手段として機能させる事を特徴とするものである。

これに加え本発明の別の発明では、前記特徴認識手段は、前記テキスト列のコントラストを推定するコントラスト推定手段としても機能するようにしたものである。

本発明において、認識されるべきテキストのある特徴をあらかじめ抽出し、オリジナルの文字画像とこれらの特徴を合成して合成文字と合成辞書とを得ることにより、認識されるべきテキストに適した合成辞書を利用して文字を認識することができる。その結果、文字に対する認識能力は、著しく改善される。

本発明では、最初にテキストフレーム抽出装置を用いてテキスト情報を含むビデオフレームを抽出する。次いで、フレームテキスト認識装置を用いてフレーム画像中の文字内容を認識する。フレームテキスト認識装置において、フォントタイプ識別装置は、画像フレーム中の文字のフォントタイプを識別する。テキスト列抽出装置は、テキストフレーム画像のそれぞれから、全てのテキスト列を抽出する。コントラスト推定装置は、テキスト列画像のそれぞれからコントラスト値を推定する。縮小レベル推定装置は、オリジナルパターンのそれぞれのために生成されたパターンの総数を推定する。さらに、合成パターン生成装置は、推定されたフォントタイプとコントラスト情報とを利用する合成文字パターンの集まりを生成する。これらの合成文字画像は、テキスト列のそれぞれのための合成辞書を作成するために利用される。最後に、文字認識装置は、生成された合成辞書を利用してテキスト列のそれぞれの文字を認識する。

図１は、本発明の文字認識装置の全体フローチャートを示す。例えば、装置の入力は、講義ビデオ１０１により行われる。それから、テキストフレーム抽出装置１０２を用いて、ビデオ中のテキスト情報を持ったビデオフレームを抽出する。テキストフレーム抽出装置１０２で利用することができる多くの従来技術の方法がある。例えば、ジュンスン（ＪｕｎＳｕｎ）、ユタカカツヤマ（ＹｕｔａｋａＫａｔｓｕｙａｍａ）、サトシナオイ（ＳａｔｏｓｈｉＮａｏｉ）、「ｅ−ラーニングビデオのためのテキスト処理方法（Text processing method for e-Learning videos）」、文書画像の分析と検索に関するＩＥＥＥＣＶＰＲワークショップ（IEEE CVPR workshop on Document Image Analysis and Retrieval）、２００３年、に記載された方法などがある。テキストフレーム抽出装置による抽出の結果は、一連の、テキスト情報を含むＮ個のテキストフレーム１０３である。これらのテキストフレームの各フレームに対して、フレームテキスト認識装置１０４を用いてフレーム内のテキストを認識する。フレームテキスト認識装置１０４の出力は、フレームのそれぞれの認識されたフレームテキスト内容１０５である。フレームテキスト認識からの全ての結果の組合せが講義ビデオ認識結果１０６を構成する。この図には、複数のフレームテキスト認識装置１０４が示されているが、実際は、一つのフレームテキスト認識装置１０４だけで複数のテキストフレーム１０３を連続して処理すれば十分であろう。

図２は、図１におけるフレームテキスト認識装置１０４の工程フローチャートを示す。テキスト列抽出装置２０１は、図１におけるテキストフレーム１０３のそれぞれを処理してフレーム中の全てのテキスト列２０２を抽出する。抽出されたテキスト列のそれぞれに対して、コントラスト推定装置２０３がテキスト列の範囲のコントラスト値を見積る。同時に、講義ビデオのスライドファイル２０４は、ビデオ中の文字のフォントタイプを検出するために、文字フォント識別装置２０５へ送信される。一例としてマイクロソフト社のパワーポイント（登録商標）のソフトウェアを挙げると、ＰＰＴファイルは、ＨＴＭＬ形式に変換される。それからフォント情報は、ＨＴＭＬファイルから容易に抽出される。他のタイプの画像ファイルに対しては、他の適したフォント情報抽出方法が利用される。

検出されたテキスト列のそれぞれに対して、推定されたフォントタイプとコントラスト値が与えられると、合成パターン生成装置２０７が一組の鮮明な文字パターン２０６の画像を利用して、一組の合成文字画像を生成する。それから、合成辞書生成装置２０８が合成パターン生成装置２０７の出力を利用して、合成辞書を生成する。その後、テキスト列認識装置２０９が生成された合成辞書を利用して、テキスト列中の文字を認識する。全てのテキスト列の、認識されたテキスト列の内容２１０の組合せが図１におけるフレームテキスト内容１０５を構成する。

テキスト列抽出装置２０１で利用される特定の方法は、ジュンスン（ＪｕｎＳｕｎ）、ユタカカツヤマ（ＹｕｔａｋａＫａｔｓｕｙａｍａ）、サトシナオイ（ＳａｔｏｓｈｉＮａｏｉ）、「ｅ−ラーニングビデオのためのテキスト処理方法（Text processing method for e-Learning videos）」、文書画像の分析と検索に関するＩＥＥＥＣＶＰＲワークショップ、２００３年（IEEE CVPR workshop on Document Image Analysis and Retrieval）、から引用することができる。

図３は、図２におけるコントラスト推定装置２０３の工程フローチャートを示す。この装置の入力は、図２における一つのフレームのテキスト列２０２である。グレースケールのヒストグラムは、テキスト列画像から得られる（ステップＳ３０１）。ヒストグラム計算のためのアルゴリズムは、ケイ．アール．キャッスルマン（Ｋ．Ｒ．Ｃａｓｔｌｅｍａｎ）、「デジタル画像処理（Digital Image Processing）」、プレンティスホール出版（Prentice Hall Press）、１９９６年、から引用することができる。ヒストグラム平滑化ステップ（ステップＳ３０２）は、以下の処理を利用して、ヒストグラムを平滑化する。

ここで、ｐｒｊｓ（ｉ）は、位置ｉに対する平滑化された値、δは、平滑化処理のためのウィンドウサイズ、そしてｊは、平滑化処理の間の現在位置である。平滑化されたヒストグラムにおいて、最大値と最小値に対する位置が記憶される（ステップＳ３０３、ステップＳ３０４）。それから、コントラスト値は、二つの位置の差として計算される（ステップＳ３０５）。

図４は、図２における合成パターン生成装置２０７の工程フローチャートを示す。この装置は、入力としてテキスト列画像２０２を取り、そして、テキスト列の高さを利用して、縮小率のレベルのｎレベルを決定する。縮小率は、単一文字画像生成装置で利用される変数である（ステップＳ４０３）。縮小率のレベルは、オリジナルの文字のそれぞれに対して生成された画像の総数を決定する。小さいサイズの文字にとって、画像の劣化は通常重大であり、そのため大きい縮小率のレベルが必要とされる。大きいサイズの文字にとって、画像の劣化はあまり重大でなく、そのため小さい縮小率のレベルは十分である。オリジナルの文字パターンの総数は、ｎパターンであり、そしてこれらの画像の各フレームについて、ステップＳ４０１において装置中で得られた縮小率のレベルだけでなく、図２における装置２０３と装置２０５中で推定されたコントラスト値とフォントタイプが与えられるならば、合成文字画像を単一文字画像生成装置を利用して生成することができる（ステップＳ４０３）。オリジナルのテキスト列のそれぞれに対して生成された文字画像の総数は、ｎパターン×ｎレベル×ｎフォントであり、ｎフォントは、講義ビデオ中のフォントタイプの総数である。

図５は、図２における合成辞書生成装置２０８の工程フローチャートを示す。特徴抽出装置が、与えられた合成文字画像４０１に対して、文字画像の第一のフレーム（ステップＳ５０１）から開始する文字の特徴を抽出する（ステップＳ５０２）。ステップＳ５０２に利用することができる多くの特徴抽出方法がある。例えば、一つの特徴抽出方法は、エム．シュリダール（Ｍ．Ｓｈｒｉｄｈａｒ）とエフ．キムラ（Ｆ．Ｋｉｍｕｒａ）の「分割に基づく筆記体の筆跡認識（Segmentation-Based Cursive Handwriting recognition）」、文字認識と文書画像分析のハンドブック（Handbook of Character Recognition and Document Image Analysis）、１９９７年、ｐ．１２３−１５６、である。文字の全ての特徴が抽出されるまで、この処理は繰り返される（ステップＳ５０３とステップＳ５０４）。辞書生成装置の出力は合成辞書である（ステップＳ５０５）。

図６は、図２におけるテキスト列認識装置２０９の工程フローチャートを示す。与えられたテキスト列画像に対して、最初に、分割装置を用いてテキスト列画像を個々の文字画像ｎキャラに分割する（ステップＳ６０１）。それから、特徴抽出装置を用いて文字画像の第一のフレーム（ステップＳ６０２）から開始する現在の文字画像の特徴を抽出する（ステップＳ６０３）。ステップＳ６０３に利用される方法は、ステップＳ５０２に利用される方法と同じである。続いて、分類装置が、合成辞書生成装置によって生成されたステップＳ５０５における合成辞書を利用し、文字の種類に従い、各フレームの文字画像の種類を分類する（ステップＳ６０４）。この処理の出力は、ｉ番目のフレームの文字画像の文字コード（種類）である。全てのｎキャラの文字画像が合成辞書によって認識されるまで、処理は繰り返される（ステップＳ６０６とステップＳ６０７）。テキスト列中の全ての文字の認識結果は、図２におけるテキスト列の内容２１０を構成する。

与えられたテキストフレーム画像に対して、画像中の全てのテキスト列の認識結果は、この画像の内容の認識結果を構成する。最後に、フレームテキスト内容１０５中の全ての結果の組合せが、本発明の最後の出力、すなわち、講義ビデオの認識結果を構成する。

（付記１）コンピュータを、入力画像からテキスト列を抽出するテキスト列抽出手段と、
前記テキスト列のそれぞれの一つ以上の特徴情報を認識する特徴認識手段と、
前記特徴認識手段によって認識された前記特徴情報とオリジナルの文字画像とを利用して前記テキスト列のそれぞれのための合成文字画像情報を生成する合成パターン生成手段と、
前記合成文字画像を利用して前記テキスト列のそれぞれのための合成辞書情報を生成する合成辞書情報生成手段と、
前記合成辞書情報を利用して前記テキスト列のそれぞれの文字を認識するテキスト列認識手段と、
して機能させる文字認識プログラム。

（付記２）前記特徴認識手段は、前記テキスト列のフォントタイプを識別するフォントタイプ識別手段としても機能すること、
を特徴とする付記１に記載の文字認識プログラム。

（付記３）前記特徴認識手段は、前記テキスト列のコントラストを推定するコントラスト推定手段としても機能すること、
を特徴とする付記１または２に記載の文字認識プログラム。

（付記４）前記コントラスト推定手段は、前記テキスト列のグレースケール値ヒストグラムを計算し、ヒストグラム平滑化を実行し、前記グレースケール値の平均値を利用して前記コントラストを推定する処理を行うこと、
を特徴とする付記３に記載の文字認識プログラム。

（付記５）前記合成パターン生成手段は、前記テキスト列の縮小率のレベルを推定する縮小率推定手段を備えると共に、前記縮小率の各レベルに対する一組の前記合成文字画像を生成すること、
を特徴とする付記１〜４のいずれか一項に記載の文字認識プログラム。

（付記６）前記テキスト列認識手段は、
前記テキスト列を複数の個々の文字画像に分割する分割手段と、各文字画像の前記特徴を抽出する特徴抽出手段と、
前記合成辞書情報を利用して前記文字画像を分類する分類手段とを備えること、
を特徴とする付記１〜５のいずれか一項に記載の文字認識プログラム。

（付記７）前記合成辞書生成手段は、各合成文字画像の前記特徴を抽出する特徴抽出手段としても機能すること、
を特徴とする付記１〜６のいずれか一項に記載の文字認識プログラム。

（付記８）前記入力画像は、静止画像またはビデオ画像であること、
を特徴とする付記１〜７のいずれか一項に記載の文字認識プログラム。

（付記９）前記合成文字画像の総数は、フォントタイプの総数、前記オリジナルの文字画像のパターンの総数、および、前記縮小率によって決定されること、
を特徴とする付記５〜８のいずれか一項に記載の文字認識プログラム。

（付記１０）前記縮小率推定手段は、前記テキスト列の高さを決定する高さ決定手段としても機能し、
前記縮小率推定手段は、前記高さ決定手段により決められたテキスト列の高さを基に前記縮小率を決定すること、
を特徴とする付記５〜９のいずれか一項に記載の文字認識プログラム。

（付記１１）コンピュータが、
入力画像からテキスト列を抽出するステップと、
前記テキスト列のそれぞれの一つ以上の特徴を認識する認識ステップと、
前記認識ステップにより認識された前記特徴とオリジナルの文字画像とを利用して前記テキスト列のそれぞれのための合成文字画像を生成する合成文字画像生成ステップと、
前記文字画像生成ステップにて生成された合成文字画像を利用して前記テキスト列のそれぞれのための合成辞書情報を生成する合成辞書情報生成ステップと、
前記合成辞書情報生成ステップにて生成された合成辞書情報を利用して前記テキスト列のそれぞれの文字を認識するステップと、
を実行すること特徴とする画像中の文字を認識する文字認識方法。

（付記１２）前記認識ステップは、前記テキスト列のフォントタイプも識別すること、
を特徴とする付記１１に記載の文字認識方法。

（付記１３）前記認識ステップは、前記テキスト列のコントラストも推定すること、
を特徴とする付記１１または１２に記載の文字認識方法。

（付記１４）前記認識ステップにおいてテキスト列の前記コントラストの推定処理は、前記テキスト列のグレースケール値ヒストグラムを計算するヒストグラム計算ステップと、
前記ヒストグラム計算ステップによリ計算されたヒストグラムの平滑化処理を行うヒストグラム平滑化ステップと、
前記グレースケール値の平均値を利用することにより、前記コントラストを計算するステップとを含むこと、
を特徴とする付記１３に記載の文字認識方法。

（付記１５）前記合成文字画像を生成する前記ステップでは、
前記テキスト列の縮小率のレベルを推定するステップと、
前記縮小率の各レベルに対する一組の前記合成文字画像を生成するステップと
を実行すること、
を特徴とする付記１１〜１４のいずれか一項に記載の文字認識方法。

（付記１６）入力画像からテキスト列を抽出するテキスト列抽出手段と、
前記テキスト列のそれぞれの一つ以上の特徴情報を認識する特徴認識手段と、
前記特徴認識手段によって認識された前記特徴情報とオリジナルの文字画像とを利用して前記テキスト列のそれぞれのための合成文字画像情報を生成する合成パターン生成手段と、
前記合成文字画像を利用して前記テキスト列のそれぞれのための合成辞書情報を生成する合成辞書情報生成手段と、
前記合成辞書情報を利用して前記テキスト列のそれぞれの文字を認識するテキスト列認識手段と、
を有する事を特徴とする文字認識装置。

（付記１７）前記特徴認識手段は、前記テキスト列のフォントタイプを識別するフォントタイプ識別手段を有すること、
を特徴とする付記１６に記載の文字認識装置。

（付記１８）前記特徴認識手段は、前記テキスト列のコントラストを推定するコントラスト推定手段を有すること、
を特徴とする付記１６または１７に記載の文字認識装置。

（付記１９）前記コントラスト推定手段は、前記テキスト列のグレースケール値ヒストグラムを計算し、ヒストグラム平滑化を実行し、前記グレースケール値の平均値を利用して前記コントラストを推定する処理を行うこと、
を特徴とする付記１８に記載の文字認識装置。

（付記２０）前記合成パターン生成手段は、前記テキスト列の縮小率のレベルを推定する縮小率推定手段を備えると共に、前記縮小率の各レベルに対する一組の前記合成文字画像を生成すること、
を特徴とする付記１６〜１９のいずれか一項に記載の文字認識装置。

本発明による文字認識技術は、講義ビデオ画像を参照して上記に説明されているが、本発明の文字認識技術は、他のタイプのビデオ画像にも適用できることが、指摘されるべきである。さらに、本発明の文字認識技術は、例えば、スキャンした文書、写真などのような静止画像にも適用することができる。加えて、本発明の実施例において、合成辞書を得る処理の間、認識されるべきテキスト列から抽出された特徴は、コントラスト、フォント、および、縮小率である。しかしながら、抽出された特徴は、追加的にあるいは二者択一的に、テキスト列の他の特徴を抽出することも可能であるので、一つ以上のこれらの特徴に限定されない。

本発明の文字認識装置の全体フローチャートを示す。フレームテキスト認識装置の工程フローチャートを示す。コントラスト推定装置の工程フローチャートを示す。合成パターン生成装置の工程フローチャートを示す。合成辞書生成装置の工程フローチャートを示す。テキスト列認識装置の工程フローチャートを示す。

符号の説明

１０１講義ビデオ
１０２テキストフレーム抽出装置
１０３テキストフレーム
１０４フレームテキスト認識装置
１０５フレームテキスト内容
１０６講義ビデオ認識結果
２０１テキスト列抽出装置
２０２テキスト列
２０３コントラスト推定装置
２０４講義ビデオスライドファイル
２０５文字フォント識別装置
２０６鮮明な文字パターン
２０７合成パターン生成装置
２０８合成辞書生成装置
２０９テキスト列認識装置
２１０テキスト列の内容

Claims

コンピュータを、
入力画像からテキスト列を抽出するテキスト列抽出手段と、
前記テキスト列のそれぞれの一つ以上の特徴情報を認識する特徴認識手段と、
前記特徴認識手段によって認識された前記特徴情報とオリジナルの文字画像とを利用して前記テキスト列のそれぞれのための合成文字画像情報を生成する合成パターン生成手段と、
前記合成文字画像を利用して前記テキスト列のそれぞれのための合成辞書情報を生成する合成辞書情報生成手段と、
前記合成辞書情報を利用して前記テキスト列のそれぞれの文字を認識するテキスト列認識手段と、
して機能させる文字認識プログラム。
前記特徴認識手段は、前記テキスト列のフォントタイプを識別するフォントタイプ識別手段としても機能すること、
を特徴とする請求項１に記載の文字認識プログラム。
前記特徴認識手段は、前記テキスト列のコントラストを推定するコントラスト推定手段としても機能すること、
を特徴とする請求項１または２に記載の文字認識プログラム。
前記コントラスト推定手段は、前記テキスト列のグレースケール値ヒストグラムを計算し、ヒストグラム平滑化を実行し、前記グレースケール値の平均値を利用して前記コントラストを推定する処理を行うこと、
を特徴とする請求項３に記載の文字認識プログラム。
前記合成パターン生成手段は、前記テキスト列の縮小率のレベルを推定する縮小率推定手段を備えると共に、前記縮小率の各レベルに対する一組の前記合成文字画像を生成すること、
を特徴とする請求項１〜４のいずれか一項に記載の文字認識プログラム。
前記テキスト列認識手段は、
前記テキスト列を複数の個々の文字画像に分割する分割手段と、各文字画像の前記特徴を抽出する特徴抽出手段と、
前記合成辞書情報を利用して前記文字画像を分類する分類手段とを備えること、
を特徴とする請求項１〜５のいずれか一項に記載の文字認識プログラム。
コンピュータが、
入力画像からテキスト列を抽出するステップと、
前記テキスト列のそれぞれの一つ以上の特徴を認識する認識ステップと、
前記認識ステップにより認識された前記特徴とオリジナルの文字画像とを利用して前記テキスト列のそれぞれのための合成文字画像を生成する合成文字画像生成ステップと、
前記文字画像生成ステップにて生成された合成文字画像を利用して前記テキスト列のそれぞれのための合成辞書情報を生成する合成辞書情報生成ステップと、
前記合成辞書情報生成ステップにて生成された合成辞書情報を利用して前記テキスト列のそれぞれの文字を認識するステップと、
を実行すること特徴とする画像中の文字を認識する文字認識方法。
前記認識ステップは、前記テキスト列のコントラストも推定すること、
を特徴とする請求項７に記載の文字認識方法。
入力画像からテキスト列を抽出するテキスト列抽出手段と、
前記テキスト列のそれぞれの一つ以上の特徴情報を認識する特徴認識手段と、
前記特徴認識手段によって認識された前記特徴情報とオリジナルの文字画像とを利用して前記テキスト列のそれぞれのための合成文字画像情報を生成する合成パターン生成手段と、
前記合成文字画像を利用して前記テキスト列のそれぞれのための合成辞書情報を生成する合成辞書情報生成手段と、
前記合成辞書情報を利用して前記テキスト列のそれぞれの文字を認識するテキスト列認識手段と、
を有する事を特徴とする文字認識装置。
前記特徴認識手段は、前記テキスト列のコントラストを推定するコントラスト推定手段を有すること、
を特徴とする請求項９に記載の文字認識装置。