Nothing Special   »   [go: up one dir, main page]

JP7137170B1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP7137170B1
JP7137170B1 JP2021047872A JP2021047872A JP7137170B1 JP 7137170 B1 JP7137170 B1 JP 7137170B1 JP 2021047872 A JP2021047872 A JP 2021047872A JP 2021047872 A JP2021047872 A JP 2021047872A JP 7137170 B1 JP7137170 B1 JP 7137170B1
Authority
JP
Japan
Prior art keywords
character
image
character string
characters
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021047872A
Other languages
English (en)
Other versions
JP2022146746A (ja
Inventor
永男 蔡
プリーサム プラキャッシャー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Group Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Group Inc filed Critical Rakuten Group Inc
Priority to JP2021047872A priority Critical patent/JP7137170B1/ja
Priority to US17/697,954 priority patent/US12087067B2/en
Priority to EP22163197.1A priority patent/EP4064225A1/en
Application granted granted Critical
Publication of JP7137170B1 publication Critical patent/JP7137170B1/ja
Publication of JP2022146746A publication Critical patent/JP2022146746A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18105Extraction of features or characteristics of the image related to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18086Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
    • G06V30/18095Summing image-intensity values; Projection and histogram analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19107Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像中に含まれる文字の認識精度を高めること。【解決手段】情報処理装置は、複数の文字を含む文字列画像であって、配列方向に並ぶ文字を含む文字列画像を取得し、前記文字列画像に含まれる複数のピクセルの各々に文字が存在する確率を示す確率画像を取得し、前記取得された確率画像に基づいて、前記文字列画像においてそれぞれ文字が存在すると推定される複数の文字領域を取得し、前記文字列画像において、前記配列方向の位置ごとの、当該配列方向に直交する方向に非背景色のピクセルが存在するか否かの判定結果に基づいて、前記文字列画像内にあり前記推定された複数の文字領域と重複しない追加の文字領域を取得し、前記推定された文字領域と前記追加の文字領域とから複数の文字を認識する。【選択図】図5

Description

本発明は情報処理装置、情報処理方法およびプログラムに関する。
記載の手法が厳密には定められていない文字列を含む画像から、その文字列を認識する技術があり、その技術はScene Text Recognitionと呼ばれている。
Scene Text Recognitionの手法の一部では、文字そのものを認識する処理をする前に、単語や文字のある領域を認識する処理が行われている。この領域の認識手法の一つとして、CRAFT(Character Region Awareness for Text Detection)が提唱されている。CRAFTでは、画像が入力されたモデルは、文字が存在する確率を示す確率画像およびその文字の間である確率を示す確率画像を出力する。その確率画像に基づいて、文字認識の対象となる領域が切り出され、文字認識の処理が行われる。
非特許文献1には、確率画像に基づいて、単語や文字のある領域を認識することが開示されている。
非特許文献2には、ニューラルネットワークを用いて画像中にある文字列を認識する技術が開示されている。
Baek, Youngmin, et al.、"Character region awareness for text detection."、Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019 Liu, W., Chen, C., Wong, K.-Y. K., Su, Z., & Han, J.、 Star-net: A spatial attention residue network for scene text recognition、In BMVC (Vol. 2, p. 7)
文字の種類によっては、確率画像中のその文字が存在する部分について、文字が存在する確率が低く算出されることがあった。このような場合には、その文字が認識されない問題が発生する。
本発明は上記課題を鑑みてなされたものであって、その目的は、画像中に含まれる文字の認識精度を高める技術を提供することにある。
上記課題を解決するために、本発明にかかる情報処理装置は、複数の文字を含む文字列画像であって、配列方向に並ぶ文字を含む文字列画像を取得する手段と、前記文字列画像に含まれる複数のピクセルの各々に文字が存在する確率を示す確率画像を取得する確率画像取得手段と、前記取得された確率画像に基づいて、前記文字列画像においてそれぞれ文字が存在すると推定される複数の文字領域を取得する推定手段と、前記文字列画像において、前記配列方向の位置ごとの、当該配列方向に直交する方向に非背景色のピクセルが存在するか否かの判定結果に基づいて、前記文字列画像内にあり前記推定された複数の文字領域と重複しない追加の文字領域を取得する追加手段と、前記推定された文字領域と前記追加の文字領域とから複数の文字を認識する文字認識手段と、を含む。
また、本発明にかかる情報処理方法は、複数の文字を含む文字列画像であって、配列方向に並ぶ文字を含む文字列画像を取得するステップと、前記文字列画像に含まれる複数のピクセルの各々に文字が存在する確率を示す確率画像を取得するステップと、前記取得された確率画像に基づいて、前記文字列画像においてそれぞれ文字が存在すると推定される複数の文字領域を取得するステップと、前記文字列画像において、前記配列方向の位置ごとの、当該配列方向に直交する方向に非背景色のピクセルが存在するか否かの判定結果に基づいて、前記文字列画像内にあり前記推定された複数の文字領域と重複しない追加の文字領域を取得するステップと、前記推定された文字領域と前記追加の文字領域とから複数の文字を認識するステップと、を含む。
また、本発明にかかるプログラムは、複数の文字を含む文字列画像であって、配列方向に並ぶ文字を含む文字列画像を取得する手段、前記文字列画像に含まれる複数のピクセルの各々に文字が存在する確率を示す確率画像を取得する確率画像取得手段、前記取得された確率画像に基づいて、前記文字列画像においてそれぞれ文字が存在すると推定される複数の文字領域を取得する推定手段、前記文字列画像において、前記配列方向の位置ごとの、当該配列方向に直交する方向に非背景色のピクセルが存在するか否かの判定結果に基づいて、前記文字列画像内にあり前記推定された複数の文字領域と重複しない追加の文字領域を取得する追加手段、および、前記推定された文字領域と前記追加の文字領域とから複数の文字を認識する文字認識手段、としてコンピュータを機能させる。
本発明の一形態では、前記配列方向は、前記文字列画像のxまたはy方向であり、前記追加手段は、前記文字列画像において、前記配列方向に並ぶ複数の列であって、それぞれが前記配列方向に直交する方向に並ぶ複数のピクセルを有する複数の列について、非背景色を有するピクセルを含む候補列であるか否かを判定し、前記追加手段は、前記文字列画像において前記候補列が連続して存在する範囲に対応する領域であって、前記推定された複数の文字領域と重複しない領域を、追加の文字領域として取得してよい。
本発明により、画像中に含まれる文字の認識精度を高めることができる。
本発明の実施形態にかかる情報処理装置の一例を示す図である。 情報処理装置が実現する機能を示すブロック図である。 入力画像および処理対象画像の一例を示す図である。 処理対象画像、確率画像および文字領域の一例を示す図である。 情報処理装置が実行する処理の一例を示すフロー図である。 処理対象画像を構成するピクセルおよび判定結果の一例を概略的に示す図である。 処理対象画像、判定結果および追加文字領域の一例を示す図である。 処理対象画像およびワード画像の一例を示す図である。
以下では、本発明の実施形態を図面に基づいて説明する。同じ符号を付された構成に対しては、重複する説明を省略する。本実施形態では、撮影された免許からその中に記載されている文字列を認識する場合を例にして説明する。
図1は、本発明の実施形態にかかる情報処理装置の一例を示す図である。
情報処理装置1はプロセッサ11、記憶部12、通信部13、入出力部14を含む。情報処理装置1は、サーバコンピュータまたはパーソナルコンピュータである。情報処理装置1の処理は、複数のサーバコンピュータにより実現されてもよい。
プロセッサ11は、記憶部12に格納されているプログラムに従って動作する。またプロセッサ11は通信部13、入出力部14を制御する。なお、上記プログラムは、インターネット等を介して提供されるものであってもよいし、フラッシュメモリやDVD-ROM等のコンピュータで読み取り可能な記憶媒体に格納されて提供されるものであってもよい。
記憶部12は、RAMおよびフラッシュメモリ等のメモリ素子とハードディスクドライブのような外部記憶装置とによって構成されている。記憶部12は、上記プログラムを格納する。また、記憶部12は、プロセッサ11、通信部13、入出力部14から入力される情報や演算結果を格納する。
通信部13は、他の装置と通信する機能を実現するものであり、例えば無線LAN、有線LANを実現する集積回路などにより構成されている。通信部13は、プロセッサ11の制御に基づいて、他の装置から受信した情報をプロセッサ11や記憶部12に入力し、他の装置に情報を送信する。
入出力部14は、表示出力デバイスをコントロールするビデオコントローラや、入力デバイスからのデータを取得するコントローラなどにより構成される。入力デバイスとしては、キーボード、マウス、タッチパネルなどがある。入出力部14は、プロセッサ11の制御に基づいて、表示出力デバイスに表示データを出力し、入力デバイスをユーザが操作することにより入力されるデータを取得する。表示出力デバイスは例えば外部に接続されるディスプレイ装置である。
次に、情報処理装置1が提供する機能について説明する。図2は、情報処理装置1が実現する機能を示すブロック図である。情報処理装置1は、機能的に、画像取得部51、確率画像取得部52,文字領域推定部53、追加領域取得部54、クラスタリング部55、ワード画像取得部56、文字認識部57、出力部58を含む。これらの機能は、情報処理装置1に含まれるプロセッサ11によって記憶部12に格納されるプログラムが実行され、通信部13等を制御することにより実現される。
画像取得部51は、ユーザにより撮影された入力画像70であって、複数の文字からなる文字列を含む入力画像70を取得する。画像取得部51は、ユーザが操作するコンピュータから通信部13を介して入力画像70を取得してもよいし、あらかじめ記憶部12に格納された入力画像70を取得してもよい。また、画像取得部51は、入力画像70から、以降に行われる文字列認識に関する処理の対象となる処理対象画像71を取得する。
図3は、入力画像70および処理対象画像71の一例を示す図である。図3の例では、入力画像70は、ユーザにより撮影された免許証の画像を含み、入力画像70はその免許証に記載された複数の文字の画像を含んでいる。画像取得部51は、入力画像70が傾いている、または写っている免許証などの書類が歪んでいる(例えば書類が台形状になる)場合には、その入力画像70の向きおよび形状を補正する。また図3の例では、入力画像70から、処理対象画像71a,71bが抽出される。処理対象画像71は、配列方向に並ぶ複数の文字を含む。入力画像70および処理対象画像71は、それぞれ複数のピクセルを含んでいる。複数のピクセルはマトリクス状に配列してよい。
図3に示されるように、書類上の認識されるべき文字がある領域をロジックで認識可能な場合には、画像取得部51は、入力画像70から認識処理の対象とすべき領域を特定し、その特定された領域を有する処理対象画像71を抽出する。
なお、図3の例では処理対象画像71の内部の文字の配置(特に間隔)は必ずしも一様でないため、文字認識処理において、文字の位置の変化に対応させる必要がある。また抽出の処理が行われず、入力画像70全体が処理対象画像71となってもよい。
確率画像取得部52は、複数の文字を含む処理対象画像71に基づいて、処理対象画像71に含まれる複数のピクセルの各々に文字が存在する確率を示す確率画像72を取得する。
図4は、処理対象画像71、確率画像72および文字領域73の一例を示す図である。図4は、処理対象画像71aと、処理対象画像71aから取得される確率画像72と、その確率画像72から推定される文字領域73a,73b,73cが記載されている。
文字領域推定部53は、取得された確率画像72に基づいて、処理対象画像71に含まれ複数の文字領域73のそれぞれの位置を推定する。文字領域73のそれぞれの画像は、1つの文字を含むと推定される。より具体的には、文字領域推定部53は、処理対象画像71においてそれぞれ文字が存在すると推定される複数の文字領域73の位置および形状を取得する。
追加領域取得部54は、処理対象画像71において、配列方向の位置ごとの、配列方向に直交する方向に非背景色のピクセルが存在するか否かの判定結果に基づいて、処理対象画像71内にあり既に推定された複数の文字領域73と重複しない追加文字領域74(図7参照)を取得する。
クラスタリング部55は、推定された位置に基づいて、複数の文字領域73を複数のグループに分類する。
ワード画像取得部56は、複数のグループに対応して生成される複数のワード画像76(図8参照)であって、それぞれ対応するグループに属する複数の文字領域73を含む複数のワード画像76を取得する。
文字認識部57は、複数のワード画像76のそれぞれから複数の文字(認識文字列)を認識する。
出力部58は、複数の認識文字列が連結された連結文字列を出力する。出力された連結文字列は、例えばユーザが入力した情報を比較し本人であるか判定するプログラムなど、他のプログラムによる処理に用いられてよい。
次に、情報処理システムの処理の詳細について説明する。図5は、情報処理装置1が実行する処理の一例を示すフロー図である。
はじめに、画像取得部51は、複数の文字の画像を含む入力画像を取得する(ステップS101)。そして、画像取得部51は、入力画像から、文字列認識の対象となる処理対象画像を取得する(ステップS102)。より具体的には、ステップS102において、画像取得部51は、入力画像70中の書類の位置、大きさおよび領域を区画する線に基づいて、認識処理の対象とすべき領域を特定し、その特定された領域を有する処理対象画像71を抽出する。ステップS101とステップS102との間に、画像取得部51は、その入力画像70の向きおよび形状を補正する処理を行ってもよい。またステップS102において、入力画像をそのまま処理対象画像として決定してもよい。
処理対象画像71が取得されると、確率画像取得部52は、処理対象画像71から文字が存在する確率を示す確率画像72を生成する(ステップS103)。確率画像72は、リージョンスコア(Region Score)画像と、アフィニティスコア(Affinity Score)画像とを含む。リージョンスコア画像内の各ピクセルは、その位置に文字の中心が存在する確率を示し、アフィニティスコア画像の各ピクセルは、その位置に文字間のスペースの中心が存在する確率を示す。
確率画像取得部52は、処理対象画像71を、非特許文献1に示されるCRAFTの学習済の機械学習モデルに入力し、その出力をリージョンスコア画像およびアフィニティスコア画像として取得する。この機械学習モデルは、文字の画像を含む学習画像と、学習画像に応じたリージョンスコア画像およびアフィニティスコア画像を含む教師データとにより学習されている。教師データに含まれるリージョンスコア画像は、例えば、学習画像における文字の矩形領域にガウス分布の射影変換を施すことにより作成されてよく、教師データに含まれるアフィニティスコア画像は、例えば、学習画像において文字間のスペースを中心とする矩形領域を作成し、その矩形領域にガウス分布の射影変換を施すことにより作成されてよい。また非特許文献1に示されるように、実際の学習画像に含まれる単語領域から機械学習モデルにより仮のリージョンスコア画像を生成し、その仮のリージョンスコア画像を用いて単語領域を分割した文字の矩形領域およびその文字間のスペースを中心とする矩形領域にガウス分布の射影変換を施し、さらに射影変換されたガウス分布を含む画像を、リージョンスコア画像またはアフィニティスコア画像における、学習画像の単語領域に対応する領域に配置することにより、教師データ用のリージョンスコア画像およびアフィニティスコア画像を生成してもよい。
文字領域推定部53は、確率画像72に基づいて、複数の箱状の文字領域73を推定する(ステップS104)。図4からわかるように、文字領域73の形状は、文字の配列方向に延びる2つの辺とその直交方向に延びる2つの辺とを有する四角形である。文字領域推定部53は、確率画像72のうちリージョンスコア画像における値の分布に基づいて、文字領域73を推定する。具体的には、文字領域推定部53は、確率画像72に対してwatershed algorithmを適用することにより得られた領域に基づいて文字領域73の位置及び形状を算出してよい。
文字領域73が推定されると、追加領域取得部54は、処理対象画像71から、追加文字領域74を取得する(ステップS105)。追加領域取得部54は、より具体的には、処理対象画像71において、配列方向の位置ごとに、配列方向に直交する方向に非背景色のピクセルが存在するか否かの判定結果に基づいて、既に推定された複数の文字領域73と重複しない追加文字領域74を取得する。
追加領域取得部54の処理についてさらに説明する。図6は、処理対象画像71を構成するピクセルおよび判定結果の一例を概略的に示す図である。図6の上側には、処理対象画像71の一部を構成するピクセルが座標軸とともに記載されている。この例では、処理対象画像71のうち1文字に対応する部分が概略的に示されている。図6の上側の図において、主に破線で囲まれた白い矩形の領域は背景色のピクセルを示し、黒い矩形の領域は非背景色のピクセルを示す。例えば、グレースケールに変換された際の明るさが所定の閾値より高い第1の色、その明るさが所定の閾値以下の色である第2の色のうち、ピクセルの数が少ないものを非背景色としてもよい。
また図6には明示されていないが、処理対象画像71に含まれる文字はx軸方向に配列しているものとする。以下では、処理対象画像71において、配列方向に直交する方向(y軸方向)に並ぶピクセルの列をピクセル列81と呼ぶ。図6においてピクセル列81aは非背景色のピクセルを含んでいるが、ピクセル列81bは非背景色のピクセルを含んでいない。
追加領域取得部54は、処理対象画像71において、複数のピクセル列81のそれぞれについて、非背景色を有するピクセルを含む候補列であるか否かを判定する。追加領域取得部54は、処理対象画像71の背景色のピクセルについて0の値を、非背景色のピクセルについて1の値を設定し、ピクセル列81に含まれる複数のピクセルの値の論理和をとることにより、候補列であるか判定してよい。この場合、論理和が1となるピクセル列81が候補列となる。
図6の矢印の下側には判定結果が記載されており、それぞれの矩形の領域はその上にあるピクセル列81の判定結果を示している。黒で示される矩形の領域は、図6においてその上側にあるピクセル列81についての論理和が1であり、候補列であることを示している。一方白で示される矩形の領域は、その上側にあるピクセル列81についての論理和が0であり、候補列でないことを示している。図6からわかるように、判定結果は、配列方向に直交する方向に、処理対象画像を押しつぶす(squeeze)ことに相当する論理和により得られる。以下では判定結果をx軸方向に並ぶピクセル状のもので表現することを圧縮後表現83と記載する。
候補列についての判定がされると、追加領域取得部54は、処理対象画像71において候補列が連続して存在する範囲に対応する領域であって、文字領域推定部53により推定された複数の文字領域73と重複しない領域を、追加文字領域74として取得する。より具体的には、追加領域取得部54は、候補列が連続して並ぶ数が、判定閾値を超える場合に、それらの候補列が存在する領域にすでに推定された文字領域73が存在するか判定する。そして、その領域に文字領域73が存在しない場合には、追加領域取得部54はその連続して並ぶ候補列が存在する領域を、追加文字領域74として取得する。なお、追加領域取得部54はその連続して並ぶ候補列が存在する領域の近傍を含む領域を追加文字領域74として取得してもよい。もちろん、ステップS105において、連続して並ぶ候補列が存在する領域のすべてが、すでに推定された文字領域73と重複する場合には、追加文字領域74は取得されない。
図7は、処理対象画像71、判定結果を示す圧縮後表現83、および追加文字領域74の一例を示す図である。図7の例では、処理対象画像71aと、処理対象画像71aから取得される判定結果を示す圧縮後表現83と、その判定結果から取得される追加文字領域74とが記載されている。図7の例では、左側の3文字についても判定閾値を超える候補列が並ぶ領域が存在するが、既に推定された文字領域73a,73b,73cと重複するため、追加文字領域74は取得されない。
非特許文献1に示されるようなニューラルネットワークを用いたモデルでは、例えば、横方向に延びる少数の線からなる文字は、隣の文字が隣接していない場合などに背景の傷などとみなされて文字と認識されないケースがある。追加領域取得部54の処理により、以降で行われる文字認識処理の対象となる領域の取得の失敗を減らすことができる。
図6の例では文字の配列方向はx軸方向としているが、y軸方向であってもよい。また、配列方向に延びる線の任意の点からみて、配列方向に直交する方向にあるピクセルが候補列であるとして判定する処理を行うことにより、x軸、y軸以外の配列方向であっても処理をすることが可能である。なお、認識精度は下がるが、追加領域取得部54の処理が行われなくてもよい。
これ以降の処理では、文字領域73も追加文字領域74も同じ種類のものとして処理がなされる。もちろん追加文字領域74が存在しない場合には複数の文字領域73のみに対して処理がなされてよい。以降では、「文字領域73等」と記載した場合には、追加文字領域74が存在する場合には文字領域73および追加文字領域74を示し、または、追加文字領域74が存在しない場合には文字領域73のみを示すものとする。
ステップS105の処理が行われると、クラスタリング部55は、推定された文字領域73等の位置に基づいて、それらの文字領域73等をグループに分類する(ステップS106)。より具体的には、文字領域73等の座標に基づいて、k-means法のようなクラスタリング手法により、文字領域73等をグループに分類する。クラスタリングの対象となる位置の値は、文字領域73等の中心一の配列方向の成分であり、より具体的には文字領域73等の中心のx座標であってよい。文字領域73が縦方向に並ぶ場合はクラスタリングの対象となる座標はy座標であってよい。
文字領域73等がグループに分類されると、ワード画像取得部56は、分類された複数のグループにそれぞれ対応する複数のワード画像76を抽出する(ステップS107)。ワード画像76のそれぞれは、対応するグループに属する文字領域73等の画像を含む。例えば、ワード画像取得部56は、先頭にある文字領域73の先頭側の辺と、末尾にある文字領域73の末尾側の辺と、全ての文字領域73において配列方向と直交する方向でみて一方向に最も離れた辺と、一方向と反対の方向に最も離れた辺とのそれぞれを延長した線により囲まれた領域を、ワード画像76として取得してよい。ワード画像76は、対応するグループに属する文字領域73等の画像を含んでいる。
図8は、処理対象画像71bおよびワード画像76の一例を示す図である。図8の例では、処理対象画像71bから7つのワード画像76a,76b,76c,76d,76e,76f,76gが抽出されている。図8からわかるように、単に文字数でワード画像76が定まることはなく、半角文字と全角文字とが混在する場合には、半角文字のみを含むワード画像76e,76fと、全角文字のみを含むワード画像76dとが分離しやすい。
半角文字と全角文字とが混在すると、文字認識のエラーが起きやすいことがわかっている。クラスタリングを用いたワード画像の抽出によって、これに起因するエラーを減らすことが可能になる。また、文字認識に適した文字数は認識手法にもよるが4から7文字程度である。クラスタリングにより、ワード画像に含まれる文字の数が過少になることを避け、容易に文字数を文字認識に適した数にすることができる。
ワード画像76が抽出されると、文字認識部57は、ワード画像76のそれぞれに対して文字認識処理を実行し、ワード画像76のそれぞれから複数の文字を認識する(ステップS107)。ここで、ワード画像76のそれぞれについて認識された複数の文字を認識文字列と記載する。
文字認識処理は、公知の手法により行われてよい。例えば、非特許文献2に記載されるSTAR-Netに基づいて行われてよい。STAR-Netにおいては、Transformation Stage、Feature extraction stage、Sequence modeling stage、Prediction stageの4つの処理が存在し、Transformation StageではThin-plate splineにより領域の形状が変換される。またFeature extraction stage、Sequence modeling stage、Prediction stageはそれぞれResNet、BiLSTM、CTCといったニューラルネットが用いられている。さらに、Feature extraction stage、Sequence modeling stage、Prediction stageに用いられるニューラルネットの種類は非特許文献2に記載のSTAR-Netと異なってもよい。例えばPrediction stageはAttention-basedであってもよい。Feature extraction stage、Sequence modeling stage、Prediction stageを含む機械学習モデルは、機械学習モデルに入力される学習画像であって文字を含む学習画像と、その学習画像が含む複数の文字を示す文字列を含む教師データとにより学習されてよい。また本実施形態において文字認識部57は、ワード画像76をその機械学習モデルに入力し、出力としてそのワード画像76に対する認識文字列を取得してよい。
出力部58は、ワード画像76のそれぞれについて認識された複数の文字に基づいて、連結文字列を出力する(ステップS109)。連結文字列は、複数のワード画像76から認識された複数の認識文字列が連結された文字列である。
出力された連結文字列は、例えば図8のワード画像76a~76gから認識される文字列が連結された文字列であり、この場合は図3の住所欄の記載内容に相当する。この住所欄のように文字数が多い場合には領域を適切に分割することにより文字認識処理の時間を短縮できることがわかっている。ステップS107からステップS109の処理により、文字認識にかかる時間を短縮しつつ、その認識精度を高めることが可能になる。
ここまで本実施形態について説明したが、本発明は上記の記載のみに限定されることはない。例えば、複数の文字が曲線に沿って配置されている画像であっても、その文字を含む画像をアフィン変換等により適切に補正することで本発明を容易に適用することができる。
1 情報処理装置、11 プロセッサ、12 記憶部、13 通信部、14 入出力部、51 画像取得部、52 確率画像取得部、53 文字領域推定部、54 追加領域取得部、55 クラスタリング部、56 ワード画像取得部、57 文字認識部、58 出力部、70 入力画像、71,71a,71b 処理対象画像、72 確率画像、73,73a,73b,73c 文字領域、74 追加文字領域、76,76a,76b,76c,76d,76e,76f,76g ワード画像、81,81a,81b ピクセル列、83 圧縮後表現。

Claims (4)

  1. 複数の文字を含む文字列画像であって、配列方向に並ぶ文字を含む文字列画像を取得する手段と、
    前記文字列画像に含まれる複数のピクセルの各々に文字が存在する確率を示す確率画像を取得する確率画像取得手段と、
    前記取得された確率画像に基づいて、前記文字列画像においてそれぞれ文字が存在すると推定される複数の文字領域を取得する推定手段と、
    前記文字列画像において、前記配列方向の位置ごとの、当該配列方向に直交する方向に非背景色のピクセルが存在するか否かの判定結果に基づいて、前記文字列画像内にあり前記推定された複数の文字領域と重複しない追加の文字領域を取得する追加手段と、
    前記推定された文字領域と前記追加の文字領域とから複数の文字を認識する文字認識手段と、
    を含む情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
    前記配列方向は、前記文字列画像のxまたはy方向であり、
    前記追加手段は、前記文字列画像において、前記配列方向に並ぶ複数の列であって、それぞれが前記配列方向に直交する方向に並ぶ複数のピクセルを有する複数の列について、非背景色を有するピクセルを含む候補列であるか否かを判定し、
    前記追加手段は、前記文字列画像において前記候補列が連続して存在する範囲に対応する領域であって、前記推定された複数の文字領域と重複しない領域を、追加の文字領域として取得する、
    情報処理装置。
  3. 複数の文字を含む文字列画像であって、配列方向に並ぶ文字を含む文字列画像を取得するステップと、
    前記文字列画像に含まれる複数のピクセルの各々に文字が存在する確率を示す確率画像を取得するステップと、
    前記取得された確率画像に基づいて、前記文字列画像においてそれぞれ文字が存在すると推定される複数の文字領域を取得するステップと、
    前記文字列画像において、前記配列方向の位置ごとの、当該配列方向に直交する方向に非背景色のピクセルが存在するか否かの判定結果に基づいて、前記文字列画像内にあり前記推定された複数の文字領域と重複しない追加の文字領域を取得するステップと、
    前記推定された文字領域と前記追加の文字領域とから複数の文字を認識するステップと、
    を含む情報処理方法。
  4. 複数の文字を含む文字列画像であって、配列方向に並ぶ文字を含む文字列画像を取得する手段、
    前記文字列画像に含まれる複数のピクセルの各々に文字が存在する確率を示す確率画像を取得する確率画像取得手段、
    前記取得された確率画像に基づいて、前記文字列画像においてそれぞれ文字が存在すると推定される複数の文字領域を取得する推定手段、
    前記文字列画像において、前記配列方向の位置ごとの、当該配列方向に直交する方向に非背景色のピクセルが存在するか否かの判定結果に基づいて、前記文字列画像内にあり前記推定された複数の文字領域と重複しない追加の文字領域を取得する追加手段、および、
    前記推定された文字領域と前記追加の文字領域とから複数の文字を認識する文字認識手段、
    としてコンピュータを機能させるためのプログラム。
JP2021047872A 2021-03-22 2021-03-22 情報処理装置、情報処理方法およびプログラム Active JP7137170B1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021047872A JP7137170B1 (ja) 2021-03-22 2021-03-22 情報処理装置、情報処理方法およびプログラム
US17/697,954 US12087067B2 (en) 2021-03-22 2022-03-18 Information processing device, information processing method, and non-transitory computer readable storage medium
EP22163197.1A EP4064225A1 (en) 2021-03-22 2022-03-21 Information processing device, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021047872A JP7137170B1 (ja) 2021-03-22 2021-03-22 情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP7137170B1 true JP7137170B1 (ja) 2022-09-14
JP2022146746A JP2022146746A (ja) 2022-10-05

Family

ID=80928851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021047872A Active JP7137170B1 (ja) 2021-03-22 2021-03-22 情報処理装置、情報処理方法およびプログラム

Country Status (3)

Country Link
US (1) US12087067B2 (ja)
EP (1) EP4064225A1 (ja)
JP (1) JP7137170B1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010191724A (ja) 2009-02-18 2010-09-02 Seiko Epson Corp 画像処理装置および制御プログラム
JP2014523036A (ja) 2011-07-08 2014-09-08 クゥアルコム・インコーポレイテッド 画像からテキスト情報を決定するための並列処理方法および装置
CN112115948A (zh) 2020-09-15 2020-12-22 电子科技大学 一种基于深度学习的芯片表面字符识别方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61196381A (ja) * 1985-02-27 1986-08-30 Oki Electric Ind Co Ltd 文字切出し方式
KR100239357B1 (ko) * 1997-04-17 2000-01-15 구자홍 영상 표시 장치의 문자 처리 방법 및 장치
JP3370934B2 (ja) * 1997-06-05 2003-01-27 松下電器産業株式会社 光学的文字読み取り方法とその装置
JP3965983B2 (ja) * 2001-11-30 2007-08-29 松下電工株式会社 画像処理方法およびその装置
JP4658848B2 (ja) * 2006-03-30 2011-03-23 日本電産サンキョー株式会社 文字列認識方法及び文字列認識装置
JP4590433B2 (ja) * 2007-06-29 2010-12-01 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
KR101733539B1 (ko) 2009-11-24 2017-05-10 삼성전자주식회사 문자인식장치 및 그 제어방법
US8526732B2 (en) * 2010-03-10 2013-09-03 Microsoft Corporation Text enhancement of a textual image undergoing optical character recognition
US8194983B2 (en) 2010-05-13 2012-06-05 Hussein Khalid Al-Omari Method and system for preprocessing an image for optical character recognition
CN106940799B (zh) 2016-01-05 2020-07-24 腾讯科技(深圳)有限公司 文本图像处理方法和装置
US10062001B2 (en) * 2016-09-29 2018-08-28 Konica Minolta Laboratory U.S.A., Inc. Method for line and word segmentation for handwritten text images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010191724A (ja) 2009-02-18 2010-09-02 Seiko Epson Corp 画像処理装置および制御プログラム
JP2014523036A (ja) 2011-07-08 2014-09-08 クゥアルコム・インコーポレイテッド 画像からテキスト情報を決定するための並列処理方法および装置
CN112115948A (zh) 2020-09-15 2020-12-22 电子科技大学 一种基于深度学习的芯片表面字符识别方法

Also Published As

Publication number Publication date
JP2022146746A (ja) 2022-10-05
EP4064225A1 (en) 2022-09-28
US12087067B2 (en) 2024-09-10
US20220301327A1 (en) 2022-09-22

Similar Documents

Publication Publication Date Title
CN110232311B (zh) 手部图像的分割方法、装置及计算机设备
US10936911B2 (en) Logo detection
US9721387B2 (en) Systems and methods for implementing augmented reality
CN106599028B (zh) 一种基于视频图像处理的书本内容搜索匹配方法
CN111291629A (zh) 图像中文本的识别方法、装置、计算机设备及计算机存储介质
CN110866529A (zh) 字符识别方法、装置、电子设备及存储介质
CN112381183B (zh) 目标检测方法、装置、电子设备及存储介质
CN112926565B (zh) 图片文本的识别方法、系统、设备和存储介质
CN112949649B (zh) 一种文本图像的识别方法、装置及计算设备
CN111178310A (zh) 手掌特征识别方法、装置、计算机设备和存储介质
CN111598087A (zh) 不规则文字的识别方法、装置、计算机设备及存储介质
CN114170227A (zh) 产品表面缺陷检测方法、装置、设备及存储介质
CN113971644A (zh) 基于数据增强策略选择的图像识别方法及装置
JP7137170B1 (ja) 情報処理装置、情報処理方法およびプログラム
JP7344916B2 (ja) 情報処理装置、情報処理方法およびプログラム
US11783625B2 (en) Method for verifying the identity of a user by identifying an object within an image that has a biometric characteristic of the user and separating a portion of the image comprising the biometric characteristic from other portions of the image
CN112434581A (zh) 一种室外目标颜色识别方法、系统、电子设备及存储介质
CN117975259A (zh) 基于改进的YOLOv5的麦穗检测方法、装置、设备及存储介质
JP2007025902A (ja) 画像処理装置、画像処理方法
CN116092106A (zh) 印章识别方法、装置、电子设备及存储介质
CN109141457A (zh) 导航评估方法、装置、计算机设备和存储介质
CN112883977A (zh) 车牌识别方法、装置、电子设备和存储介质
CN116704513B (zh) 文本质量检测方法、装置、计算机设备和存储介质
Arisandi et al. Chinese chess character recognition using Direction Feature Extraction and backpropagation
CN111476351B (zh) 图像中构件信息的检测方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220825

R150 Certificate of patent or registration of utility model

Ref document number: 7137170

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150