JP2006053920A - 文字認識プログラム、文字認識方法および文字認識装置 - Google Patents
文字認識プログラム、文字認識方法および文字認識装置 Download PDFInfo
- Publication number
- JP2006053920A JP2006053920A JP2005230917A JP2005230917A JP2006053920A JP 2006053920 A JP2006053920 A JP 2006053920A JP 2005230917 A JP2005230917 A JP 2005230917A JP 2005230917 A JP2005230917 A JP 2005230917A JP 2006053920 A JP2006053920 A JP 2006053920A
- Authority
- JP
- Japan
- Prior art keywords
- character
- text
- text string
- recognition
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
【課題】画像中の文字に対する認識能力を改善する文字認識プログラム、文字認識方法および文字認識装置を提供すること。
【解決手段】コンピュータを、入力画像から複数のテキスト列を抽出するテキスト列抽出手段と、テキスト列のそれぞれの一つ以上の特徴を認識する特徴認識手段と、特徴認識手段によって認識された特徴とオリジナルの文字画像とを利用することにより、テキスト列のそれぞれのための合成文字画像を生成する合成パターン生成手段と、合成文字画像を利用することにより、テキスト列のそれぞれのための合成辞書を生成する合成辞書生成手段と、合成辞書を利用することにより、テキスト列のそれぞれの文字を認識するテキスト列認識手段として機能させる。
【選択図】 図1
【解決手段】コンピュータを、入力画像から複数のテキスト列を抽出するテキスト列抽出手段と、テキスト列のそれぞれの一つ以上の特徴を認識する特徴認識手段と、特徴認識手段によって認識された特徴とオリジナルの文字画像とを利用することにより、テキスト列のそれぞれのための合成文字画像を生成する合成パターン生成手段と、合成文字画像を利用することにより、テキスト列のそれぞれのための合成辞書を生成する合成辞書生成手段と、合成辞書を利用することにより、テキスト列のそれぞれの文字を認識するテキスト列認識手段として機能させる。
【選択図】 図1
Description
本発明は、文字認識技術、特に、画像中の文字を認識する文字認識プログラム、文字認識方法および文字認識装置に関する。
文字認識技術は、静止画像および動画像(ビデオ画像)中の文字の認識を含めて、普通の日常生活における様々な分野で、幅広く利用されている。ビデオ画像の一種である講義ビデオは、e−ラーニング、および、他の教育および練習環境で普通に利用されている。典型的な講義ビデオでは、発表者は、話をしながら、背景としてスライド画像を利用する。講義ビデオには、通常、大量のテキスト情報があるので、コンテンツ生成、索引付け、および検索のために大変有用である。
講義ビデオ中の文字に対する認識能力はかなり低い。これは、認識に利用されている辞書が、オリジナルの鮮明な文字画像から得られるのに対して、認識されるべき文字画像が、通常不鮮明であり、そして小さいサイズであるためである。
従来技術において、講義ビデオ中の文字に対する認識は、スキャンした文書中の文字に対する認識と同じである。文字は、分割され、その後、オリジナルの鮮明な文字から作られた辞書を利用して認識される。
合成文字画像の生成については、例えば、特許文献1、および、非特許文献1〜3などの多くの論文と特許がある。しかしながら、合成パターンを利用するビデオ文字認識に関する報告がないのは、間違いない。
以前発行された特許文献2において、発明者達は、試験文字のサイズ情報も抽出したが、彼らは、辞書中のサイズ情報と比較するために、この情報を利用した。
従って、文字に対する認識能力を改善するために、従来技術を超える改善がなされる必要がある。
本発明の一つの目的は、従来技術において未解決の問題を解決すること、すなわち、画像中の文字を認識する際の、文字に対する認識能力を改善することである。
本発明は、上記従来の課題を解決するために、コンピュータを、入力画像からテキスト列を抽出するテキスト列抽出手段と、前記テキスト列のそれぞれの一つ以上の特徴情報を認識する特徴認識手段と、前記特徴認識手段によって認識された前記特徴情報とオリジナルの文字画像とを利用して前記テキスト列のそれぞれのための合成文字画像情報を生成する合成パターン生成手段と、前記合成文字画像を利用して前記テキスト列のそれぞれのための合成辞書情報を生成する合成辞書情報生成手段と、前記合成辞書情報を利用して前記テキスト列のそれぞれの文字を認識するテキスト列認識手段として機能させる事を特徴とするものである。
これに加え本発明の別の発明では、前記特徴認識手段は、前記テキスト列のコントラストを推定するコントラスト推定手段としても機能するようにしたものである。
本発明において、認識されるべきテキストのある特徴をあらかじめ抽出し、オリジナルの文字画像とこれらの特徴を合成して合成文字と合成辞書とを得ることにより、認識されるべきテキストに適した合成辞書を利用して文字を認識することができる。その結果、文字に対する認識能力は、著しく改善される。
本発明では、最初にテキストフレーム抽出装置を用いてテキスト情報を含むビデオフレームを抽出する。次いで、フレームテキスト認識装置を用いてフレーム画像中の文字内容を認識する。フレームテキスト認識装置において、フォントタイプ識別装置は、画像フレーム中の文字のフォントタイプを識別する。テキスト列抽出装置は、テキストフレーム画像のそれぞれから、全てのテキスト列を抽出する。コントラスト推定装置は、テキスト列画像のそれぞれからコントラスト値を推定する。縮小レベル推定装置は、オリジナルパターンのそれぞれのために生成されたパターンの総数を推定する。さらに、合成パターン生成装置は、推定されたフォントタイプとコントラスト情報とを利用する合成文字パターンの集まりを生成する。これらの合成文字画像は、テキスト列のそれぞれのための合成辞書を作成するために利用される。最後に、文字認識装置は、生成された合成辞書を利用してテキスト列のそれぞれの文字を認識する。
図1は、本発明の文字認識装置の全体フローチャートを示す。例えば、装置の入力は、講義ビデオ101により行われる。それから、テキストフレーム抽出装置102を用いて、ビデオ中のテキスト情報を持ったビデオフレームを抽出する。テキストフレーム抽出装置102で利用することができる多くの従来技術の方法がある。例えば、ジュン スン(Jun Sun)、ユタカ カツヤマ(Yutaka Katsuyama)、サトシ ナオイ(Satoshi Naoi)、「e−ラーニングビデオのためのテキスト処理方法(Text processing method for e-Learning videos)」、文書画像の分析と検索に関するIEEE CVPRワークショップ(IEEE CVPR workshop on Document Image Analysis and Retrieval)、2003年、に記載された方法などがある。テキストフレーム抽出装置による抽出の結果は、一連の、テキスト情報を含むN個のテキストフレーム103である。これらのテキストフレームの各フレームに対して、フレームテキスト認識装置104を用いてフレーム内のテキストを認識する。フレームテキスト認識装置104の出力は、フレームのそれぞれの認識されたフレームテキスト内容105である。フレームテキスト認識からの全ての結果の組合せが講義ビデオ認識結果106を構成する。この図には、複数のフレームテキスト認識装置104が示されているが、実際は、一つのフレームテキスト認識装置104だけで複数のテキストフレーム103を連続して処理すれば十分であろう。
図2は、図1におけるフレームテキスト認識装置104の工程フローチャートを示す。テキスト列抽出装置201は、図1におけるテキストフレーム103のそれぞれを処理してフレーム中の全てのテキスト列202を抽出する。抽出されたテキスト列のそれぞれに対して、コントラスト推定装置203がテキスト列の範囲のコントラスト値を見積る。同時に、講義ビデオのスライドファイル204は、ビデオ中の文字のフォントタイプを検出するために、文字フォント識別装置205へ送信される。一例としてマイクロソフト社のパワーポイント(登録商標)のソフトウェアを挙げると、PPTファイルは、HTML形式に変換される。それからフォント情報は、HTMLファイルから容易に抽出される。他のタイプの画像ファイルに対しては、他の適したフォント情報抽出方法が利用される。
検出されたテキスト列のそれぞれに対して、推定されたフォントタイプとコントラスト値が与えられると、合成パターン生成装置207が一組の鮮明な文字パターン206の画像を利用して、一組の合成文字画像を生成する。それから、合成辞書生成装置208が合成パターン生成装置207の出力を利用して、合成辞書を生成する。その後、テキスト列認識装置209が生成された合成辞書を利用して、テキスト列中の文字を認識する。全てのテキスト列の、認識されたテキスト列の内容210の組合せが図1におけるフレームテキスト内容105を構成する。
テキスト列抽出装置201で利用される特定の方法は、ジュン スン(Jun Sun)、ユタカ カツヤマ(Yutaka Katsuyama)、サトシ ナオイ(Satoshi Naoi)、「e−ラーニングビデオのためのテキスト処理方法(Text processing method for e-Learning videos)」、文書画像の分析と検索に関するIEEE CVPRワークショップ、2003年(IEEE CVPR workshop on Document Image Analysis and Retrieval)、から引用することができる。
図3は、図2におけるコントラスト推定装置203の工程フローチャートを示す。この装置の入力は、図2における一つのフレームのテキスト列202である。グレースケールのヒストグラムは、テキスト列画像から得られる(ステップS301)。ヒストグラム計算のためのアルゴリズムは、ケイ.アール.キャッスルマン(K.R.Castleman)、「デジタル画像処理(Digital Image Processing)」、プレンティス ホール 出版(Prentice Hall Press)、1996年、から引用することができる。ヒストグラム平滑化ステップ(ステップS302)は、以下の処理を利用して、ヒストグラムを平滑化する。
ここで、prjs(i)は、位置iに対する平滑化された値、δは、平滑化処理のためのウィンドウサイズ、そしてjは、平滑化処理の間の現在位置である。平滑化されたヒストグラムにおいて、最大値と最小値に対する位置が記憶される(ステップS303、ステップS304)。それから、コントラスト値は、二つの位置の差として計算される(ステップS305)。
図4は、図2における合成パターン生成装置207の工程フローチャートを示す。この装置は、入力としてテキスト列画像202を取り、そして、テキスト列の高さを利用して、縮小率のレベルのnレベルを決定する。縮小率は、単一文字画像生成装置で利用される変数である(ステップS403)。縮小率のレベルは、オリジナルの文字のそれぞれに対して生成された画像の総数を決定する。小さいサイズの文字にとって、画像の劣化は通常重大であり、そのため大きい縮小率のレベルが必要とされる。大きいサイズの文字にとって、画像の劣化はあまり重大でなく、そのため小さい縮小率のレベルは十分である。オリジナルの文字パターンの総数は、nパターンであり、そしてこれらの画像の各フレームについて、ステップS401において装置中で得られた縮小率のレベルだけでなく、図2における装置203と装置205中で推定されたコントラスト値とフォントタイプが与えられるならば、合成文字画像を単一文字画像生成装置を利用して生成することができる(ステップS403)。オリジナルのテキスト列のそれぞれに対して生成された文字画像の総数は、nパターン×nレベル×nフォントであり、nフォントは、講義ビデオ中のフォントタイプの総数である。
図5は、図2における合成辞書生成装置208の工程フローチャートを示す。特徴抽出装置が、与えられた合成文字画像401に対して、文字画像の第一のフレーム(ステップS501)から開始する文字の特徴を抽出する(ステップS502)。ステップS502に利用することができる多くの特徴抽出方法がある。例えば、一つの特徴抽出方法は、エム.シュリダール(M.Shridhar)とエフ.キムラ(F.Kimura)の「分割に基づく筆記体の筆跡認識(Segmentation-Based Cursive Handwriting recognition)」、文字認識と文書画像分析のハンドブック(Handbook of Character Recognition and Document Image Analysis)、1997年、p.123−156、である。文字の全ての特徴が抽出されるまで、この処理は繰り返される(ステップS503とステップS504)。辞書生成装置の出力は合成辞書である(ステップS505)。
図6は、図2におけるテキスト列認識装置209の工程フローチャートを示す。与えられたテキスト列画像に対して、最初に、分割装置を用いてテキスト列画像を個々の文字画像nキャラに分割する(ステップS601)。それから、特徴抽出装置を用いて文字画像の第一のフレーム(ステップS602)から開始する現在の文字画像の特徴を抽出する(ステップS603)。ステップS603に利用される方法は、ステップS502に利用される方法と同じである。続いて、分類装置が、合成辞書生成装置によって生成されたステップS505における合成辞書を利用し、文字の種類に従い、各フレームの文字画像の種類を分類する(ステップS604)。この処理の出力は、i番目のフレームの文字画像の文字コード(種類)である。全てのnキャラの文字画像が合成辞書によって認識されるまで、処理は繰り返される(ステップS606とステップS607)。テキスト列中の全ての文字の認識結果は、図2におけるテキスト列の内容210を構成する。
与えられたテキストフレーム画像に対して、画像中の全てのテキスト列の認識結果は、この画像の内容の認識結果を構成する。最後に、フレームテキスト内容105中の全ての結果の組合せが、本発明の最後の出力、すなわち、講義ビデオの認識結果を構成する。
(付記1)コンピュータを、入力画像からテキスト列を抽出するテキスト列抽出手段と、
前記テキスト列のそれぞれの一つ以上の特徴情報を認識する特徴認識手段と、
前記特徴認識手段によって認識された前記特徴情報とオリジナルの文字画像とを利用して前記テキスト列のそれぞれのための合成文字画像情報を生成する合成パターン生成手段と、
前記合成文字画像を利用して前記テキスト列のそれぞれのための合成辞書情報を生成する合成辞書情報生成手段と、
前記合成辞書情報を利用して前記テキスト列のそれぞれの文字を認識するテキスト列認識手段と、
して機能させる文字認識プログラム。
前記テキスト列のそれぞれの一つ以上の特徴情報を認識する特徴認識手段と、
前記特徴認識手段によって認識された前記特徴情報とオリジナルの文字画像とを利用して前記テキスト列のそれぞれのための合成文字画像情報を生成する合成パターン生成手段と、
前記合成文字画像を利用して前記テキスト列のそれぞれのための合成辞書情報を生成する合成辞書情報生成手段と、
前記合成辞書情報を利用して前記テキスト列のそれぞれの文字を認識するテキスト列認識手段と、
して機能させる文字認識プログラム。
(付記2)前記特徴認識手段は、前記テキスト列のフォントタイプを識別するフォントタイプ識別手段としても機能すること、
を特徴とする付記1に記載の文字認識プログラム。
を特徴とする付記1に記載の文字認識プログラム。
(付記3)前記特徴認識手段は、前記テキスト列のコントラストを推定するコントラスト推定手段としても機能すること、
を特徴とする付記1または2に記載の文字認識プログラム。
を特徴とする付記1または2に記載の文字認識プログラム。
(付記4)前記コントラスト推定手段は、前記テキスト列のグレースケール値ヒストグラムを計算し、ヒストグラム平滑化を実行し、前記グレースケール値の平均値を利用して前記コントラストを推定する処理を行うこと、
を特徴とする付記3に記載の文字認識プログラム。
を特徴とする付記3に記載の文字認識プログラム。
(付記5)前記合成パターン生成手段は、前記テキスト列の縮小率のレベルを推定する縮小率推定手段を備えると共に、前記縮小率の各レベルに対する一組の前記合成文字画像を生成すること、
を特徴とする付記1〜4のいずれか一項に記載の文字認識プログラム。
を特徴とする付記1〜4のいずれか一項に記載の文字認識プログラム。
(付記6)前記テキスト列認識手段は、
前記テキスト列を複数の個々の文字画像に分割する分割手段と、各文字画像の前記特徴を抽出する特徴抽出手段と、
前記合成辞書情報を利用して前記文字画像を分類する分類手段とを備えること、
を特徴とする付記1〜5のいずれか一項に記載の文字認識プログラム。
前記テキスト列を複数の個々の文字画像に分割する分割手段と、各文字画像の前記特徴を抽出する特徴抽出手段と、
前記合成辞書情報を利用して前記文字画像を分類する分類手段とを備えること、
を特徴とする付記1〜5のいずれか一項に記載の文字認識プログラム。
(付記7)前記合成辞書生成手段は、各合成文字画像の前記特徴を抽出する特徴抽出手段としても機能すること、
を特徴とする付記1〜6のいずれか一項に記載の文字認識プログラム。
を特徴とする付記1〜6のいずれか一項に記載の文字認識プログラム。
(付記8)前記入力画像は、静止画像またはビデオ画像であること、
を特徴とする付記1〜7のいずれか一項に記載の文字認識プログラム。
を特徴とする付記1〜7のいずれか一項に記載の文字認識プログラム。
(付記9)前記合成文字画像の総数は、フォントタイプの総数、前記オリジナルの文字画像のパターンの総数、および、前記縮小率によって決定されること、
を特徴とする付記5〜8のいずれか一項に記載の文字認識プログラム。
を特徴とする付記5〜8のいずれか一項に記載の文字認識プログラム。
(付記10)前記縮小率推定手段は、前記テキスト列の高さを決定する高さ決定手段としても機能し、
前記縮小率推定手段は、前記高さ決定手段により決められたテキスト列の高さを基に前記縮小率を決定すること、
を特徴とする付記5〜9のいずれか一項に記載の文字認識プログラム。
前記縮小率推定手段は、前記高さ決定手段により決められたテキスト列の高さを基に前記縮小率を決定すること、
を特徴とする付記5〜9のいずれか一項に記載の文字認識プログラム。
(付記11)コンピュータが、
入力画像からテキスト列を抽出するステップと、
前記テキスト列のそれぞれの一つ以上の特徴を認識する認識ステップと、
前記認識ステップにより認識された前記特徴とオリジナルの文字画像とを利用して前記テキスト列のそれぞれのための合成文字画像を生成する合成文字画像生成ステップと、
前記文字画像生成ステップにて生成された合成文字画像を利用して前記テキスト列のそれぞれのための合成辞書情報を生成する合成辞書情報生成ステップと、
前記合成辞書情報生成ステップにて生成された合成辞書情報を利用して前記テキスト列のそれぞれの文字を認識するステップと、
を実行すること特徴とする画像中の文字を認識する文字認識方法。
入力画像からテキスト列を抽出するステップと、
前記テキスト列のそれぞれの一つ以上の特徴を認識する認識ステップと、
前記認識ステップにより認識された前記特徴とオリジナルの文字画像とを利用して前記テキスト列のそれぞれのための合成文字画像を生成する合成文字画像生成ステップと、
前記文字画像生成ステップにて生成された合成文字画像を利用して前記テキスト列のそれぞれのための合成辞書情報を生成する合成辞書情報生成ステップと、
前記合成辞書情報生成ステップにて生成された合成辞書情報を利用して前記テキスト列のそれぞれの文字を認識するステップと、
を実行すること特徴とする画像中の文字を認識する文字認識方法。
(付記12)前記認識ステップは、前記テキスト列のフォントタイプも識別すること、
を特徴とする付記11に記載の文字認識方法。
を特徴とする付記11に記載の文字認識方法。
(付記13)前記認識ステップは、前記テキスト列のコントラストも推定すること、
を特徴とする付記11または12に記載の文字認識方法。
を特徴とする付記11または12に記載の文字認識方法。
(付記14)前記認識ステップにおいてテキスト列の前記コントラストの推定処理は、 前記テキスト列のグレースケール値ヒストグラムを計算するヒストグラム計算ステップと、
前記ヒストグラム計算ステップによリ計算されたヒストグラムの平滑化処理を行うヒストグラム平滑化ステップと、
前記グレースケール値の平均値を利用することにより、前記コントラストを計算するステップとを含むこと、
を特徴とする付記13に記載の文字認識方法。
前記ヒストグラム計算ステップによリ計算されたヒストグラムの平滑化処理を行うヒストグラム平滑化ステップと、
前記グレースケール値の平均値を利用することにより、前記コントラストを計算するステップとを含むこと、
を特徴とする付記13に記載の文字認識方法。
(付記15)前記合成文字画像を生成する前記ステップでは、
前記テキスト列の縮小率のレベルを推定するステップと、
前記縮小率の各レベルに対する一組の前記合成文字画像を生成するステップと
を実行すること、
を特徴とする付記11〜14のいずれか一項に記載の文字認識方法。
前記テキスト列の縮小率のレベルを推定するステップと、
前記縮小率の各レベルに対する一組の前記合成文字画像を生成するステップと
を実行すること、
を特徴とする付記11〜14のいずれか一項に記載の文字認識方法。
(付記16)入力画像からテキスト列を抽出するテキスト列抽出手段と、
前記テキスト列のそれぞれの一つ以上の特徴情報を認識する特徴認識手段と、
前記特徴認識手段によって認識された前記特徴情報とオリジナルの文字画像とを利用して前記テキスト列のそれぞれのための合成文字画像情報を生成する合成パターン生成手段と、
前記合成文字画像を利用して前記テキスト列のそれぞれのための合成辞書情報を生成する合成辞書情報生成手段と、
前記合成辞書情報を利用して前記テキスト列のそれぞれの文字を認識するテキスト列認識手段と、
を有する事を特徴とする文字認識装置。
前記テキスト列のそれぞれの一つ以上の特徴情報を認識する特徴認識手段と、
前記特徴認識手段によって認識された前記特徴情報とオリジナルの文字画像とを利用して前記テキスト列のそれぞれのための合成文字画像情報を生成する合成パターン生成手段と、
前記合成文字画像を利用して前記テキスト列のそれぞれのための合成辞書情報を生成する合成辞書情報生成手段と、
前記合成辞書情報を利用して前記テキスト列のそれぞれの文字を認識するテキスト列認識手段と、
を有する事を特徴とする文字認識装置。
(付記17)前記特徴認識手段は、前記テキスト列のフォントタイプを識別するフォントタイプ識別手段を有すること、
を特徴とする付記16に記載の文字認識装置。
を特徴とする付記16に記載の文字認識装置。
(付記18)前記特徴認識手段は、前記テキスト列のコントラストを推定するコントラスト推定手段を有すること、
を特徴とする付記16または17に記載の文字認識装置。
を特徴とする付記16または17に記載の文字認識装置。
(付記19)前記コントラスト推定手段は、前記テキスト列のグレースケール値ヒストグラムを計算し、ヒストグラム平滑化を実行し、前記グレースケール値の平均値を利用して前記コントラストを推定する処理を行うこと、
を特徴とする付記18に記載の文字認識装置。
を特徴とする付記18に記載の文字認識装置。
(付記20)前記合成パターン生成手段は、前記テキスト列の縮小率のレベルを推定する縮小率推定手段を備えると共に、前記縮小率の各レベルに対する一組の前記合成文字画像を生成すること、
を特徴とする付記16〜19のいずれか一項に記載の文字認識装置。
を特徴とする付記16〜19のいずれか一項に記載の文字認識装置。
本発明による文字認識技術は、講義ビデオ画像を参照して上記に説明されているが、本発明の文字認識技術は、他のタイプのビデオ画像にも適用できることが、指摘されるべきである。さらに、本発明の文字認識技術は、例えば、スキャンした文書、写真などのような静止画像にも適用することができる。加えて、本発明の実施例において、合成辞書を得る処理の間、認識されるべきテキスト列から抽出された特徴は、コントラスト、フォント、および、縮小率である。しかしながら、抽出された特徴は、追加的にあるいは二者択一的に、テキスト列の他の特徴を抽出することも可能であるので、一つ以上のこれらの特徴に限定されない。
101 講義ビデオ
102 テキストフレーム抽出装置
103 テキストフレーム
104 フレームテキスト認識装置
105 フレームテキスト内容
106 講義ビデオ認識結果
201 テキスト列抽出装置
202 テキスト列
203 コントラスト推定装置
204 講義ビデオスライドファイル
205 文字フォント識別装置
206 鮮明な文字パターン
207 合成パターン生成装置
208 合成辞書生成装置
209 テキスト列認識装置
210 テキスト列の内容
102 テキストフレーム抽出装置
103 テキストフレーム
104 フレームテキスト認識装置
105 フレームテキスト内容
106 講義ビデオ認識結果
201 テキスト列抽出装置
202 テキスト列
203 コントラスト推定装置
204 講義ビデオスライドファイル
205 文字フォント識別装置
206 鮮明な文字パターン
207 合成パターン生成装置
208 合成辞書生成装置
209 テキスト列認識装置
210 テキスト列の内容
Claims (10)
- コンピュータを、
入力画像からテキスト列を抽出するテキスト列抽出手段と、
前記テキスト列のそれぞれの一つ以上の特徴情報を認識する特徴認識手段と、
前記特徴認識手段によって認識された前記特徴情報とオリジナルの文字画像とを利用して前記テキスト列のそれぞれのための合成文字画像情報を生成する合成パターン生成手段と、
前記合成文字画像を利用して前記テキスト列のそれぞれのための合成辞書情報を生成する合成辞書情報生成手段と、
前記合成辞書情報を利用して前記テキスト列のそれぞれの文字を認識するテキスト列認識手段と、
して機能させる文字認識プログラム。 - 前記特徴認識手段は、前記テキスト列のフォントタイプを識別するフォントタイプ識別手段としても機能すること、
を特徴とする請求項1に記載の文字認識プログラム。 - 前記特徴認識手段は、前記テキスト列のコントラストを推定するコントラスト推定手段としても機能すること、
を特徴とする請求項1または2に記載の文字認識プログラム。 - 前記コントラスト推定手段は、前記テキスト列のグレースケール値ヒストグラムを計算し、ヒストグラム平滑化を実行し、前記グレースケール値の平均値を利用して前記コントラストを推定する処理を行うこと、
を特徴とする請求項3に記載の文字認識プログラム。 - 前記合成パターン生成手段は、前記テキスト列の縮小率のレベルを推定する縮小率推定手段を備えると共に、前記縮小率の各レベルに対する一組の前記合成文字画像を生成すること、
を特徴とする請求項1〜4のいずれか一項に記載の文字認識プログラム。 - 前記テキスト列認識手段は、
前記テキスト列を複数の個々の文字画像に分割する分割手段と、各文字画像の前記特徴を抽出する特徴抽出手段と、
前記合成辞書情報を利用して前記文字画像を分類する分類手段とを備えること、
を特徴とする請求項1〜5のいずれか一項に記載の文字認識プログラム。 - コンピュータが、
入力画像からテキスト列を抽出するステップと、
前記テキスト列のそれぞれの一つ以上の特徴を認識する認識ステップと、
前記認識ステップにより認識された前記特徴とオリジナルの文字画像とを利用して前記テキスト列のそれぞれのための合成文字画像を生成する合成文字画像生成ステップと、
前記文字画像生成ステップにて生成された合成文字画像を利用して前記テキスト列のそれぞれのための合成辞書情報を生成する合成辞書情報生成ステップと、
前記合成辞書情報生成ステップにて生成された合成辞書情報を利用して前記テキスト列のそれぞれの文字を認識するステップと、
を実行すること特徴とする画像中の文字を認識する文字認識方法。 - 前記認識ステップは、前記テキスト列のコントラストも推定すること、
を特徴とする請求項7に記載の文字認識方法。 - 入力画像からテキスト列を抽出するテキスト列抽出手段と、
前記テキスト列のそれぞれの一つ以上の特徴情報を認識する特徴認識手段と、
前記特徴認識手段によって認識された前記特徴情報とオリジナルの文字画像とを利用して前記テキスト列のそれぞれのための合成文字画像情報を生成する合成パターン生成手段と、
前記合成文字画像を利用して前記テキスト列のそれぞれのための合成辞書情報を生成する合成辞書情報生成手段と、
前記合成辞書情報を利用して前記テキスト列のそれぞれの文字を認識するテキスト列認識手段と、
を有する事を特徴とする文字認識装置。 - 前記特徴認識手段は、前記テキスト列のコントラストを推定するコントラスト推定手段を有すること、
を特徴とする請求項9に記載の文字認識装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100583340A CN100357957C (zh) | 2004-08-10 | 2004-08-10 | 用于识别图像中的字符的字符识别装置和字符识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006053920A true JP2006053920A (ja) | 2006-02-23 |
Family
ID=36031320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005230917A Withdrawn JP2006053920A (ja) | 2004-08-10 | 2005-08-09 | 文字認識プログラム、文字認識方法および文字認識装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20060062460A1 (ja) |
JP (1) | JP2006053920A (ja) |
CN (1) | CN100357957C (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018185380A (ja) * | 2017-04-25 | 2018-11-22 | セイコーエプソン株式会社 | 電子機器、プログラム及び電子機器の制御方法 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090172714A1 (en) * | 2007-12-28 | 2009-07-02 | Harel Gruia | Method and apparatus for collecting metadata during session recording |
CN102456136B (zh) * | 2010-10-29 | 2013-06-05 | 方正国际软件(北京)有限公司 | 一种图文切分方法及系统 |
CN103136523B (zh) * | 2012-11-29 | 2016-06-29 | 浙江大学 | 一种自然图像中任意方向文本行检测方法 |
US9014481B1 (en) * | 2014-04-22 | 2015-04-21 | King Fahd University Of Petroleum And Minerals | Method and apparatus for Arabic and Farsi font recognition |
CN105224939B (zh) * | 2014-05-29 | 2021-01-01 | 小米科技有限责任公司 | 数字区域的识别方法和识别装置、移动终端 |
CN104794469A (zh) * | 2015-04-17 | 2015-07-22 | 同济大学 | 基于图像异构计算的实时视频流文字定位方法 |
US10074042B2 (en) | 2015-10-06 | 2018-09-11 | Adobe Systems Incorporated | Font recognition using text localization |
US9875429B2 (en) * | 2015-10-06 | 2018-01-23 | Adobe Systems Incorporated | Font attributes for font recognition and similarity |
CN105468732A (zh) * | 2015-11-23 | 2016-04-06 | 中国科学院信息工程研究所 | 一种图像关键词检查方法及装置 |
US10007868B2 (en) | 2016-09-19 | 2018-06-26 | Adobe Systems Incorporated | Font replacement based on visual similarity |
US10950017B2 (en) | 2019-07-08 | 2021-03-16 | Adobe Inc. | Glyph weight modification |
US11295181B2 (en) | 2019-10-17 | 2022-04-05 | Adobe Inc. | Preserving document design using font synthesis |
CN110767000A (zh) * | 2019-10-28 | 2020-02-07 | 安徽信捷智能科技有限公司 | 一种基于图像识别的儿童课程同步装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2073822A5 (ja) * | 1969-12-31 | 1971-10-01 | Ibm | |
US4998285A (en) * | 1988-03-11 | 1991-03-05 | Kabushiki Kaisha Toshiba | Character recognition apparatus |
US5796410A (en) * | 1990-06-12 | 1998-08-18 | Lucent Technologies Inc. | Generation and use of defective images in image analysis |
DE4445386C1 (de) * | 1994-12-20 | 1996-05-02 | Ibm | Verfahren und Vorrichtung zur Trennung einer Vordergrundinformation von einer Hintergrundinformation in einer Vorlage |
US5999647A (en) * | 1995-04-21 | 1999-12-07 | Matsushita Electric Industrial Co., Ltd. | Character extraction apparatus for extracting character data from a text image |
JPH09138838A (ja) * | 1995-11-16 | 1997-05-27 | Nippon Telegr & Teleph Corp <Ntt> | 文字認識方法およびその装置 |
JP3370934B2 (ja) * | 1997-06-05 | 2003-01-27 | 松下電器産業株式会社 | 光学的文字読み取り方法とその装置 |
US6587586B1 (en) * | 1997-06-12 | 2003-07-01 | Siemens Corporate Research, Inc. | Extracting textual information from a video sequence |
US6000612A (en) * | 1997-10-10 | 1999-12-14 | Metanetics Corporation | Portable data collection device having optical character recognition |
JP2000076378A (ja) * | 1998-08-27 | 2000-03-14 | Victor Co Of Japan Ltd | 文字認識方法 |
JP2002056357A (ja) * | 2000-08-10 | 2002-02-20 | Ricoh Co Ltd | 文字認識装置、その方法および記録媒体 |
JP2003203206A (ja) * | 2001-12-28 | 2003-07-18 | Nippon Digital Kenkyusho:Kk | 単語辞書作成方法及び単語辞書作成プログラム |
JP3919617B2 (ja) * | 2002-07-09 | 2007-05-30 | キヤノン株式会社 | 文字認識装置および文字認識方法、プログラムおよび記憶媒体 |
-
2004
- 2004-08-10 CN CNB2004100583340A patent/CN100357957C/zh not_active Expired - Fee Related
-
2005
- 2005-08-09 JP JP2005230917A patent/JP2006053920A/ja not_active Withdrawn
- 2005-08-10 US US11/199,993 patent/US20060062460A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018185380A (ja) * | 2017-04-25 | 2018-11-22 | セイコーエプソン株式会社 | 電子機器、プログラム及び電子機器の制御方法 |
Also Published As
Publication number | Publication date |
---|---|
US20060062460A1 (en) | 2006-03-23 |
CN100357957C (zh) | 2007-12-26 |
CN1734466A (zh) | 2006-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023083280A1 (zh) | 一种场景文本识别方法和装置 | |
CN111401372A (zh) | 一种扫描文档图文信息提取与鉴别的方法 | |
JP2005242579A (ja) | 文書処理装置、文書処理方法、および文書処理プログラム | |
JP2006053920A (ja) | 文字認識プログラム、文字認識方法および文字認識装置 | |
CN104008401A (zh) | 一种图像文字识别的方法及装置 | |
CN104778470A (zh) | 基于组件树和霍夫森林的文字检测和识别方法 | |
EP2605186A2 (en) | Method and apparatus for recognizing a character based on a photographed image | |
CN112818951A (zh) | 一种票证识别的方法 | |
CN111414905B (zh) | 一种文本检测方法、文本检测装置、电子设备及存储介质 | |
CN110728307A (zh) | 自生成数据集与标签实现x光影像图小样本字符识别方法 | |
CN106682671A (zh) | 图像文字识别系统 | |
CN106022223A (zh) | 一种高维局部二值模式人脸识别方法及系统 | |
Kumar et al. | Offline handwritten Gurmukhi Character recognition: a review | |
US9058517B1 (en) | Pattern recognition system and method using Gabor functions | |
CN105261040A (zh) | 一种多目标跟踪方法及装置 | |
Patel | Point Pattern Matching algorithm for recognition of 36 ASL gestures | |
Jena et al. | Odia characters and numerals recognition using hopfield neural network based on zoning feature | |
CN107292255B (zh) | 基于特征矩阵相似度分析的手写数字识别方法 | |
Jubair et al. | A simplified method for handwritten character recognition from document image | |
Pasha et al. | Recognition of handwritten Kannada characters using hybrid features | |
Bains et al. | Dynamic features based stroke recognition system for signboard images of Gurmukhi text | |
Garg et al. | A Novel Approach to Recognize the off-line Handwritten Numerals using MLP and SVM Classifiers | |
Jia et al. | Grayscale-projection based optimal character segmentation for camera-captured faint text recognition | |
Raveena et al. | Extended zone based handwritten Malayalam character recognition using structural features | |
Praneel et al. | Malayalam Sign Language Character Recognition System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080619 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20080905 |