JP7137170B1

JP7137170B1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP7137170B1
Application number: JP2021047872A
Authority: JP
Inventors: 永男蔡; プリーサムプラキャッシャー
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2022-09-14
Anticipated expiration: 2041-03-22
Also published as: JP2022146746A; EP4064225A1; US12087067B2; US20220301327A1

Abstract

【課題】画像中に含まれる文字の認識精度を高めること。【解決手段】情報処理装置は、複数の文字を含む文字列画像であって、配列方向に並ぶ文字を含む文字列画像を取得し、前記文字列画像に含まれる複数のピクセルの各々に文字が存在する確率を示す確率画像を取得し、前記取得された確率画像に基づいて、前記文字列画像においてそれぞれ文字が存在すると推定される複数の文字領域を取得し、前記文字列画像において、前記配列方向の位置ごとの、当該配列方向に直交する方向に非背景色のピクセルが存在するか否かの判定結果に基づいて、前記文字列画像内にあり前記推定された複数の文字領域と重複しない追加の文字領域を取得し、前記推定された文字領域と前記追加の文字領域とから複数の文字を認識する。【選択図】図５

Description

本発明は情報処理装置、情報処理方法およびプログラムに関する。

記載の手法が厳密には定められていない文字列を含む画像から、その文字列を認識する技術があり、その技術はScene Text Recognitionと呼ばれている。

Scene Text Recognitionの手法の一部では、文字そのものを認識する処理をする前に、単語や文字のある領域を認識する処理が行われている。この領域の認識手法の一つとして、CRAFT(Character Region Awareness for Text Detection)が提唱されている。CRAFTでは、画像が入力されたモデルは、文字が存在する確率を示す確率画像およびその文字の間である確率を示す確率画像を出力する。その確率画像に基づいて、文字認識の対象となる領域が切り出され、文字認識の処理が行われる。

非特許文献１には、確率画像に基づいて、単語や文字のある領域を認識することが開示されている。

非特許文献２には、ニューラルネットワークを用いて画像中にある文字列を認識する技術が開示されている。

Baek, Youngmin, et al.、"Character region awareness for text detection."、Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019 Liu, W., Chen, C., Wong, K.-Y. K., Su, Z., & Han, J.、 Star-net: A spatial attention residue network for scene text recognition、In BMVC (Vol. 2, p. 7)

文字の種類によっては、確率画像中のその文字が存在する部分について、文字が存在する確率が低く算出されることがあった。このような場合には、その文字が認識されない問題が発生する。

本発明は上記課題を鑑みてなされたものであって、その目的は、画像中に含まれる文字の認識精度を高める技術を提供することにある。

上記課題を解決するために、本発明にかかる情報処理装置は、複数の文字を含む文字列画像であって、配列方向に並ぶ文字を含む文字列画像を取得する手段と、前記文字列画像に含まれる複数のピクセルの各々に文字が存在する確率を示す確率画像を取得する確率画像取得手段と、前記取得された確率画像に基づいて、前記文字列画像においてそれぞれ文字が存在すると推定される複数の文字領域を取得する推定手段と、前記文字列画像において、前記配列方向の位置ごとの、当該配列方向に直交する方向に非背景色のピクセルが存在するか否かの判定結果に基づいて、前記文字列画像内にあり前記推定された複数の文字領域と重複しない追加の文字領域を取得する追加手段と、前記推定された文字領域と前記追加の文字領域とから複数の文字を認識する文字認識手段と、を含む。

また、本発明にかかる情報処理方法は、複数の文字を含む文字列画像であって、配列方向に並ぶ文字を含む文字列画像を取得するステップと、前記文字列画像に含まれる複数のピクセルの各々に文字が存在する確率を示す確率画像を取得するステップと、前記取得された確率画像に基づいて、前記文字列画像においてそれぞれ文字が存在すると推定される複数の文字領域を取得するステップと、前記文字列画像において、前記配列方向の位置ごとの、当該配列方向に直交する方向に非背景色のピクセルが存在するか否かの判定結果に基づいて、前記文字列画像内にあり前記推定された複数の文字領域と重複しない追加の文字領域を取得するステップと、前記推定された文字領域と前記追加の文字領域とから複数の文字を認識するステップと、を含む。

また、本発明にかかるプログラムは、複数の文字を含む文字列画像であって、配列方向に並ぶ文字を含む文字列画像を取得する手段、前記文字列画像に含まれる複数のピクセルの各々に文字が存在する確率を示す確率画像を取得する確率画像取得手段、前記取得された確率画像に基づいて、前記文字列画像においてそれぞれ文字が存在すると推定される複数の文字領域を取得する推定手段、前記文字列画像において、前記配列方向の位置ごとの、当該配列方向に直交する方向に非背景色のピクセルが存在するか否かの判定結果に基づいて、前記文字列画像内にあり前記推定された複数の文字領域と重複しない追加の文字領域を取得する追加手段、および、前記推定された文字領域と前記追加の文字領域とから複数の文字を認識する文字認識手段、としてコンピュータを機能させる。

本発明の一形態では、前記配列方向は、前記文字列画像のxまたはｙ方向であり、前記追加手段は、前記文字列画像において、前記配列方向に並ぶ複数の列であって、それぞれが前記配列方向に直交する方向に並ぶ複数のピクセルを有する複数の列について、非背景色を有するピクセルを含む候補列であるか否かを判定し、前記追加手段は、前記文字列画像において前記候補列が連続して存在する範囲に対応する領域であって、前記推定された複数の文字領域と重複しない領域を、追加の文字領域として取得してよい。

本発明により、画像中に含まれる文字の認識精度を高めることができる。

本発明の実施形態にかかる情報処理装置の一例を示す図である。情報処理装置が実現する機能を示すブロック図である。入力画像および処理対象画像の一例を示す図である。処理対象画像、確率画像および文字領域の一例を示す図である。情報処理装置が実行する処理の一例を示すフロー図である。処理対象画像を構成するピクセルおよび判定結果の一例を概略的に示す図である。処理対象画像、判定結果および追加文字領域の一例を示す図である。処理対象画像およびワード画像の一例を示す図である。

以下では、本発明の実施形態を図面に基づいて説明する。同じ符号を付された構成に対しては、重複する説明を省略する。本実施形態では、撮影された免許からその中に記載されている文字列を認識する場合を例にして説明する。

図１は、本発明の実施形態にかかる情報処理装置の一例を示す図である。

情報処理装置１はプロセッサ１１、記憶部１２、通信部１３、入出力部１４を含む。情報処理装置１は、サーバコンピュータまたはパーソナルコンピュータである。情報処理装置１の処理は、複数のサーバコンピュータにより実現されてもよい。

プロセッサ１１は、記憶部１２に格納されているプログラムに従って動作する。またプロセッサ１１は通信部１３、入出力部１４を制御する。なお、上記プログラムは、インターネット等を介して提供されるものであってもよいし、フラッシュメモリやＤＶＤ－ＲＯＭ等のコンピュータで読み取り可能な記憶媒体に格納されて提供されるものであってもよい。

記憶部１２は、ＲＡＭおよびフラッシュメモリ等のメモリ素子とハードディスクドライブのような外部記憶装置とによって構成されている。記憶部１２は、上記プログラムを格納する。また、記憶部１２は、プロセッサ１１、通信部１３、入出力部１４から入力される情報や演算結果を格納する。

通信部１３は、他の装置と通信する機能を実現するものであり、例えば無線ＬＡＮ、有線ＬＡＮを実現する集積回路などにより構成されている。通信部１３は、プロセッサ１１の制御に基づいて、他の装置から受信した情報をプロセッサ１１や記憶部１２に入力し、他の装置に情報を送信する。

入出力部１４は、表示出力デバイスをコントロールするビデオコントローラや、入力デバイスからのデータを取得するコントローラなどにより構成される。入力デバイスとしては、キーボード、マウス、タッチパネルなどがある。入出力部１４は、プロセッサ１１の制御に基づいて、表示出力デバイスに表示データを出力し、入力デバイスをユーザが操作することにより入力されるデータを取得する。表示出力デバイスは例えば外部に接続されるディスプレイ装置である。

次に、情報処理装置１が提供する機能について説明する。図２は、情報処理装置１が実現する機能を示すブロック図である。情報処理装置１は、機能的に、画像取得部５１、確率画像取得部５２，文字領域推定部５３、追加領域取得部５４、クラスタリング部５５、ワード画像取得部５６、文字認識部５７、出力部５８を含む。これらの機能は、情報処理装置１に含まれるプロセッサ１１によって記憶部１２に格納されるプログラムが実行され、通信部１３等を制御することにより実現される。

画像取得部５１は、ユーザにより撮影された入力画像７０であって、複数の文字からなる文字列を含む入力画像７０を取得する。画像取得部５１は、ユーザが操作するコンピュータから通信部１３を介して入力画像７０を取得してもよいし、あらかじめ記憶部１２に格納された入力画像７０を取得してもよい。また、画像取得部５１は、入力画像７０から、以降に行われる文字列認識に関する処理の対象となる処理対象画像７１を取得する。

図３は、入力画像７０および処理対象画像７１の一例を示す図である。図３の例では、入力画像７０は、ユーザにより撮影された免許証の画像を含み、入力画像７０はその免許証に記載された複数の文字の画像を含んでいる。画像取得部５１は、入力画像７０が傾いている、または写っている免許証などの書類が歪んでいる（例えば書類が台形状になる）場合には、その入力画像７０の向きおよび形状を補正する。また図３の例では、入力画像７０から、処理対象画像７１ａ，７１ｂが抽出される。処理対象画像７１は、配列方向に並ぶ複数の文字を含む。入力画像７０および処理対象画像７１は、それぞれ複数のピクセルを含んでいる。複数のピクセルはマトリクス状に配列してよい。

図３に示されるように、書類上の認識されるべき文字がある領域をロジックで認識可能な場合には、画像取得部５１は、入力画像７０から認識処理の対象とすべき領域を特定し、その特定された領域を有する処理対象画像７１を抽出する。

なお、図３の例では処理対象画像７１の内部の文字の配置（特に間隔）は必ずしも一様でないため、文字認識処理において、文字の位置の変化に対応させる必要がある。また抽出の処理が行われず、入力画像７０全体が処理対象画像７１となってもよい。

確率画像取得部５２は、複数の文字を含む処理対象画像７１に基づいて、処理対象画像７１に含まれる複数のピクセルの各々に文字が存在する確率を示す確率画像７２を取得する。

図４は、処理対象画像７１、確率画像７２および文字領域７３の一例を示す図である。図４は、処理対象画像７１ａと、処理対象画像７１ａから取得される確率画像７２と、その確率画像７２から推定される文字領域７３ａ，７３ｂ，７３ｃが記載されている。

文字領域推定部５３は、取得された確率画像７２に基づいて、処理対象画像７１に含まれ複数の文字領域７３のそれぞれの位置を推定する。文字領域７３のそれぞれの画像は、１つの文字を含むと推定される。より具体的には、文字領域推定部５３は、処理対象画像７１においてそれぞれ文字が存在すると推定される複数の文字領域７３の位置および形状を取得する。

追加領域取得部５４は、処理対象画像７１において、配列方向の位置ごとの、配列方向に直交する方向に非背景色のピクセルが存在するか否かの判定結果に基づいて、処理対象画像７１内にあり既に推定された複数の文字領域７３と重複しない追加文字領域７４（図７参照）を取得する。

クラスタリング部５５は、推定された位置に基づいて、複数の文字領域７３を複数のグループに分類する。

ワード画像取得部５６は、複数のグループに対応して生成される複数のワード画像７６（図８参照）であって、それぞれ対応するグループに属する複数の文字領域７３を含む複数のワード画像７６を取得する。

文字認識部５７は、複数のワード画像７６のそれぞれから複数の文字（認識文字列）を認識する。

出力部５８は、複数の認識文字列が連結された連結文字列を出力する。出力された連結文字列は、例えばユーザが入力した情報を比較し本人であるか判定するプログラムなど、他のプログラムによる処理に用いられてよい。

次に、情報処理システムの処理の詳細について説明する。図５は、情報処理装置１が実行する処理の一例を示すフロー図である。

はじめに、画像取得部５１は、複数の文字の画像を含む入力画像を取得する（ステップＳ１０１）。そして、画像取得部５１は、入力画像から、文字列認識の対象となる処理対象画像を取得する（ステップＳ１０２）。より具体的には、ステップＳ１０２において、画像取得部５１は、入力画像７０中の書類の位置、大きさおよび領域を区画する線に基づいて、認識処理の対象とすべき領域を特定し、その特定された領域を有する処理対象画像７１を抽出する。ステップＳ１０１とステップＳ１０２との間に、画像取得部５１は、その入力画像７０の向きおよび形状を補正する処理を行ってもよい。またステップＳ１０２において、入力画像をそのまま処理対象画像として決定してもよい。

処理対象画像７１が取得されると、確率画像取得部５２は、処理対象画像７１から文字が存在する確率を示す確率画像７２を生成する（ステップＳ１０３）。確率画像７２は、リージョンスコア（Region Score）画像と、アフィニティスコア（Affinity Score）画像とを含む。リージョンスコア画像内の各ピクセルは、その位置に文字の中心が存在する確率を示し、アフィニティスコア画像の各ピクセルは、その位置に文字間のスペースの中心が存在する確率を示す。

確率画像取得部５２は、処理対象画像７１を、非特許文献１に示されるＣＲＡＦＴの学習済の機械学習モデルに入力し、その出力をリージョンスコア画像およびアフィニティスコア画像として取得する。この機械学習モデルは、文字の画像を含む学習画像と、学習画像に応じたリージョンスコア画像およびアフィニティスコア画像を含む教師データとにより学習されている。教師データに含まれるリージョンスコア画像は、例えば、学習画像における文字の矩形領域にガウス分布の射影変換を施すことにより作成されてよく、教師データに含まれるアフィニティスコア画像は、例えば、学習画像において文字間のスペースを中心とする矩形領域を作成し、その矩形領域にガウス分布の射影変換を施すことにより作成されてよい。また非特許文献１に示されるように、実際の学習画像に含まれる単語領域から機械学習モデルにより仮のリージョンスコア画像を生成し、その仮のリージョンスコア画像を用いて単語領域を分割した文字の矩形領域およびその文字間のスペースを中心とする矩形領域にガウス分布の射影変換を施し、さらに射影変換されたガウス分布を含む画像を、リージョンスコア画像またはアフィニティスコア画像における、学習画像の単語領域に対応する領域に配置することにより、教師データ用のリージョンスコア画像およびアフィニティスコア画像を生成してもよい。

文字領域推定部５３は、確率画像７２に基づいて、複数の箱状の文字領域７３を推定する（ステップＳ１０４）。図４からわかるように、文字領域７３の形状は、文字の配列方向に延びる２つの辺とその直交方向に延びる２つの辺とを有する四角形である。文字領域推定部５３は、確率画像７２のうちリージョンスコア画像における値の分布に基づいて、文字領域７３を推定する。具体的には、文字領域推定部５３は、確率画像７２に対してwatershed algorithmを適用することにより得られた領域に基づいて文字領域７３の位置及び形状を算出してよい。

文字領域７３が推定されると、追加領域取得部５４は、処理対象画像７１から、追加文字領域７４を取得する（ステップＳ１０５）。追加領域取得部５４は、より具体的には、処理対象画像７１において、配列方向の位置ごとに、配列方向に直交する方向に非背景色のピクセルが存在するか否かの判定結果に基づいて、既に推定された複数の文字領域７３と重複しない追加文字領域７４を取得する。

追加領域取得部５４の処理についてさらに説明する。図６は、処理対象画像７１を構成するピクセルおよび判定結果の一例を概略的に示す図である。図６の上側には、処理対象画像７１の一部を構成するピクセルが座標軸とともに記載されている。この例では、処理対象画像７１のうち１文字に対応する部分が概略的に示されている。図６の上側の図において、主に破線で囲まれた白い矩形の領域は背景色のピクセルを示し、黒い矩形の領域は非背景色のピクセルを示す。例えば、グレースケールに変換された際の明るさが所定の閾値より高い第１の色、その明るさが所定の閾値以下の色である第２の色のうち、ピクセルの数が少ないものを非背景色としてもよい。

また図６には明示されていないが、処理対象画像７１に含まれる文字はｘ軸方向に配列しているものとする。以下では、処理対象画像７１において、配列方向に直交する方向（ｙ軸方向）に並ぶピクセルの列をピクセル列８１と呼ぶ。図６においてピクセル列８１ａは非背景色のピクセルを含んでいるが、ピクセル列８１ｂは非背景色のピクセルを含んでいない。

追加領域取得部５４は、処理対象画像７１において、複数のピクセル列８１のそれぞれについて、非背景色を有するピクセルを含む候補列であるか否かを判定する。追加領域取得部５４は、処理対象画像７１の背景色のピクセルについて０の値を、非背景色のピクセルについて１の値を設定し、ピクセル列８１に含まれる複数のピクセルの値の論理和をとることにより、候補列であるか判定してよい。この場合、論理和が１となるピクセル列８１が候補列となる。

図６の矢印の下側には判定結果が記載されており、それぞれの矩形の領域はその上にあるピクセル列８１の判定結果を示している。黒で示される矩形の領域は、図６においてその上側にあるピクセル列８１についての論理和が１であり、候補列であることを示している。一方白で示される矩形の領域は、その上側にあるピクセル列８１についての論理和が０であり、候補列でないことを示している。図６からわかるように、判定結果は、配列方向に直交する方向に、処理対象画像を押しつぶす（squeeze）ことに相当する論理和により得られる。以下では判定結果をｘ軸方向に並ぶピクセル状のもので表現することを圧縮後表現８３と記載する。

候補列についての判定がされると、追加領域取得部５４は、処理対象画像７１において候補列が連続して存在する範囲に対応する領域であって、文字領域推定部５３により推定された複数の文字領域７３と重複しない領域を、追加文字領域７４として取得する。より具体的には、追加領域取得部５４は、候補列が連続して並ぶ数が、判定閾値を超える場合に、それらの候補列が存在する領域にすでに推定された文字領域７３が存在するか判定する。そして、その領域に文字領域７３が存在しない場合には、追加領域取得部５４はその連続して並ぶ候補列が存在する領域を、追加文字領域７４として取得する。なお、追加領域取得部５４はその連続して並ぶ候補列が存在する領域の近傍を含む領域を追加文字領域７４として取得してもよい。もちろん、ステップＳ１０５において、連続して並ぶ候補列が存在する領域のすべてが、すでに推定された文字領域７３と重複する場合には、追加文字領域７４は取得されない。

図７は、処理対象画像７１、判定結果を示す圧縮後表現８３、および追加文字領域７４の一例を示す図である。図７の例では、処理対象画像７１ａと、処理対象画像７１ａから取得される判定結果を示す圧縮後表現８３と、その判定結果から取得される追加文字領域７４とが記載されている。図７の例では、左側の３文字についても判定閾値を超える候補列が並ぶ領域が存在するが、既に推定された文字領域７３ａ，７３ｂ，７３ｃと重複するため、追加文字領域７４は取得されない。

非特許文献１に示されるようなニューラルネットワークを用いたモデルでは、例えば、横方向に延びる少数の線からなる文字は、隣の文字が隣接していない場合などに背景の傷などとみなされて文字と認識されないケースがある。追加領域取得部５４の処理により、以降で行われる文字認識処理の対象となる領域の取得の失敗を減らすことができる。

図６の例では文字の配列方向はｘ軸方向としているが、ｙ軸方向であってもよい。また、配列方向に延びる線の任意の点からみて、配列方向に直交する方向にあるピクセルが候補列であるとして判定する処理を行うことにより、ｘ軸、ｙ軸以外の配列方向であっても処理をすることが可能である。なお、認識精度は下がるが、追加領域取得部５４の処理が行われなくてもよい。

これ以降の処理では、文字領域７３も追加文字領域７４も同じ種類のものとして処理がなされる。もちろん追加文字領域７４が存在しない場合には複数の文字領域７３のみに対して処理がなされてよい。以降では、「文字領域７３等」と記載した場合には、追加文字領域７４が存在する場合には文字領域７３および追加文字領域７４を示し、または、追加文字領域７４が存在しない場合には文字領域７３のみを示すものとする。

ステップＳ１０５の処理が行われると、クラスタリング部５５は、推定された文字領域７３等の位置に基づいて、それらの文字領域７３等をグループに分類する（ステップＳ１０６）。より具体的には、文字領域７３等の座標に基づいて、ｋ－ｍｅａｎｓ法のようなクラスタリング手法により、文字領域７３等をグループに分類する。クラスタリングの対象となる位置の値は、文字領域７３等の中心一の配列方向の成分であり、より具体的には文字領域７３等の中心のｘ座標であってよい。文字領域７３が縦方向に並ぶ場合はクラスタリングの対象となる座標はｙ座標であってよい。

文字領域７３等がグループに分類されると、ワード画像取得部５６は、分類された複数のグループにそれぞれ対応する複数のワード画像７６を抽出する（ステップＳ１０７）。ワード画像７６のそれぞれは、対応するグループに属する文字領域７３等の画像を含む。例えば、ワード画像取得部５６は、先頭にある文字領域７３の先頭側の辺と、末尾にある文字領域７３の末尾側の辺と、全ての文字領域７３において配列方向と直交する方向でみて一方向に最も離れた辺と、一方向と反対の方向に最も離れた辺とのそれぞれを延長した線により囲まれた領域を、ワード画像７６として取得してよい。ワード画像７６は、対応するグループに属する文字領域７３等の画像を含んでいる。

図８は、処理対象画像７１ｂおよびワード画像７６の一例を示す図である。図８の例では、処理対象画像７１ｂから７つのワード画像７６ａ，７６ｂ，７６ｃ，７６ｄ，７６ｅ，７６ｆ，７６ｇが抽出されている。図８からわかるように、単に文字数でワード画像７６が定まることはなく、半角文字と全角文字とが混在する場合には、半角文字のみを含むワード画像７６ｅ，７６ｆと、全角文字のみを含むワード画像７６ｄとが分離しやすい。

半角文字と全角文字とが混在すると、文字認識のエラーが起きやすいことがわかっている。クラスタリングを用いたワード画像の抽出によって、これに起因するエラーを減らすことが可能になる。また、文字認識に適した文字数は認識手法にもよるが４から７文字程度である。クラスタリングにより、ワード画像に含まれる文字の数が過少になることを避け、容易に文字数を文字認識に適した数にすることができる。

ワード画像７６が抽出されると、文字認識部５７は、ワード画像７６のそれぞれに対して文字認識処理を実行し、ワード画像７６のそれぞれから複数の文字を認識する（ステップＳ１０７）。ここで、ワード画像７６のそれぞれについて認識された複数の文字を認識文字列と記載する。

文字認識処理は、公知の手法により行われてよい。例えば、非特許文献２に記載されるSTAR-Netに基づいて行われてよい。STAR-Netにおいては、Transformation Stage、Feature extraction stage、Sequence modeling stage、Prediction stageの４つの処理が存在し、Transformation StageではThin-plate splineにより領域の形状が変換される。またFeature extraction stage、Sequence modeling stage、Prediction stageはそれぞれResNet、BiLSTM、CTCといったニューラルネットが用いられている。さらに、Feature extraction stage、Sequence modeling stage、Prediction stageに用いられるニューラルネットの種類は非特許文献２に記載のSTAR-Netと異なってもよい。例えばPrediction stageはAttention-basedであってもよい。Feature extraction stage、Sequence modeling stage、Prediction stageを含む機械学習モデルは、機械学習モデルに入力される学習画像であって文字を含む学習画像と、その学習画像が含む複数の文字を示す文字列を含む教師データとにより学習されてよい。また本実施形態において文字認識部５７は、ワード画像７６をその機械学習モデルに入力し、出力としてそのワード画像７６に対する認識文字列を取得してよい。

出力部５８は、ワード画像７６のそれぞれについて認識された複数の文字に基づいて、連結文字列を出力する（ステップＳ１０９）。連結文字列は、複数のワード画像７６から認識された複数の認識文字列が連結された文字列である。

出力された連結文字列は、例えば図８のワード画像７６ａ～７６ｇから認識される文字列が連結された文字列であり、この場合は図３の住所欄の記載内容に相当する。この住所欄のように文字数が多い場合には領域を適切に分割することにより文字認識処理の時間を短縮できることがわかっている。ステップＳ１０７からステップＳ１０９の処理により、文字認識にかかる時間を短縮しつつ、その認識精度を高めることが可能になる。

ここまで本実施形態について説明したが、本発明は上記の記載のみに限定されることはない。例えば、複数の文字が曲線に沿って配置されている画像であっても、その文字を含む画像をアフィン変換等により適切に補正することで本発明を容易に適用することができる。

１情報処理装置、１１プロセッサ、１２記憶部、１３通信部、１４入出力部、５１画像取得部、５２確率画像取得部、５３文字領域推定部、５４追加領域取得部、５５クラスタリング部、５６ワード画像取得部、５７文字認識部、５８出力部、７０入力画像、７１，７１ａ，７１ｂ処理対象画像、７２確率画像、７３，７３ａ，７３ｂ，７３ｃ文字領域、７４追加文字領域、７６，７６ａ，７６ｂ，７６ｃ，７６ｄ，７６ｅ，７６ｆ，７６ｇワード画像、８１，８１ａ，８１ｂピクセル列、８３圧縮後表現。

Claims

複数の文字を含む文字列画像であって、配列方向に並ぶ文字を含む文字列画像を取得する手段と、
前記文字列画像に含まれる複数のピクセルの各々に文字が存在する確率を示す確率画像を取得する確率画像取得手段と、
前記取得された確率画像に基づいて、前記文字列画像においてそれぞれ文字が存在すると推定される複数の文字領域を取得する推定手段と、
前記文字列画像において、前記配列方向の位置ごとの、当該配列方向に直交する方向に非背景色のピクセルが存在するか否かの判定結果に基づいて、前記文字列画像内にあり前記推定された複数の文字領域と重複しない追加の文字領域を取得する追加手段と、
前記推定された文字領域と前記追加の文字領域とから複数の文字を認識する文字認識手段と、
を含む情報処理装置。
請求項１に記載の情報処理装置であって、
前記配列方向は、前記文字列画像のxまたはｙ方向であり、
前記追加手段は、前記文字列画像において、前記配列方向に並ぶ複数の列であって、それぞれが前記配列方向に直交する方向に並ぶ複数のピクセルを有する複数の列について、非背景色を有するピクセルを含む候補列であるか否かを判定し、
前記追加手段は、前記文字列画像において前記候補列が連続して存在する範囲に対応する領域であって、前記推定された複数の文字領域と重複しない領域を、追加の文字領域として取得する、
情報処理装置。
複数の文字を含む文字列画像であって、配列方向に並ぶ文字を含む文字列画像を取得するステップと、
前記文字列画像に含まれる複数のピクセルの各々に文字が存在する確率を示す確率画像を取得するステップと、
前記取得された確率画像に基づいて、前記文字列画像においてそれぞれ文字が存在すると推定される複数の文字領域を取得するステップと、
前記文字列画像において、前記配列方向の位置ごとの、当該配列方向に直交する方向に非背景色のピクセルが存在するか否かの判定結果に基づいて、前記文字列画像内にあり前記推定された複数の文字領域と重複しない追加の文字領域を取得するステップと、
前記推定された文字領域と前記追加の文字領域とから複数の文字を認識するステップと、
を含む情報処理方法。
複数の文字を含む文字列画像であって、配列方向に並ぶ文字を含む文字列画像を取得する手段、
前記文字列画像に含まれる複数のピクセルの各々に文字が存在する確率を示す確率画像を取得する確率画像取得手段、
前記取得された確率画像に基づいて、前記文字列画像においてそれぞれ文字が存在すると推定される複数の文字領域を取得する推定手段、
前記文字列画像において、前記配列方向の位置ごとの、当該配列方向に直交する方向に非背景色のピクセルが存在するか否かの判定結果に基づいて、前記文字列画像内にあり前記推定された複数の文字領域と重複しない追加の文字領域を取得する追加手段、および、
前記推定された文字領域と前記追加の文字領域とから複数の文字を認識する文字認識手段、
としてコンピュータを機能させるためのプログラム。