JP2005044086A - Character recognition method and device - Google Patents
Character recognition method and device Download PDFInfo
- Publication number
- JP2005044086A JP2005044086A JP2003202159A JP2003202159A JP2005044086A JP 2005044086 A JP2005044086 A JP 2005044086A JP 2003202159 A JP2003202159 A JP 2003202159A JP 2003202159 A JP2003202159 A JP 2003202159A JP 2005044086 A JP2005044086 A JP 2005044086A
- Authority
- JP
- Japan
- Prior art keywords
- character
- frame
- character string
- recognition
- entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、帳票等に記入された住所や金額などの項目を読み取る文字認識システムに関する。
【0002】
【従来の技術】
多くの帳票や文章を取り扱う、たとえば金融機関・自治体の窓口受付業務や郵便局内での郵便物の区分業務などにおいて、業務効率化のために紙上に記載された文字列を自動的に読取るという、文字認識技術が利用されてきた。また、携帯情報端末(PDA: Personal Digital Assistant)において入力手段としてタッチパネル上に記入された文字を読取る際にも前記技術が利用されてきた。
【0003】
文字認識は、主に、(1)文字切出し、(2)文字識別、(3)文字列照合、の3ステップから構成される。最初に入力画像中から文字らしきパターンを抽出し(文字切出し)、その各文字パターン候補に対し認識対象のどの文字に似ているかを判別しその文字コードを出力し(文字識別)、それら文字コードの集合から読取対象の文字列を解釈する(文字列照合)ことにより、最終的な認識結果を得る。
【0004】
なお、文字切出しに関して、文字識別や文字列照合の前に正しい文字切出しを一意に決定することが難しいことから、可能性のある文字切出しの複数の仮説を1つのネットワークの形で表わせる、文字切出しグラフが読取りの高精度化のために良く利用されている。たとえば図9の文字列枠900に記入された文字パターンを文字切出しする際に、「分」の文字パターン912が、「八」913と「刀」914の2パターンとしても解釈できることから、文字切出しグラフ910は、その両方の切出し仮説を表現するものとなっている。
このような、文字を読取る文字認識システムにおいて、単に文字列のみを読取るだけではなく、選択肢やチェックマークを読取るという選択肢認識機能を有すものがある。これは記入される文字列を予測できる項目に関しては、その部分を事前にプレ印刷し記入者に選択させる方が、(1)入力が簡潔、(2)文字よりも選択肢の方が高精度に認識可能、であるといったメリットがあるためである。選択肢を認識する方法として、たとえば特許文献1で開示されている。
【0005】
さらに、予測される文字列全ては選択肢として列挙できないが、その部分文字列が予測できる場合、文字列枠と選択肢枠とを組合せた読取対象項目を利用する方法がある。このような組合せの項目を認識する従来方法として、単に文字列枠と選択肢枠とを別々の項目として定義し個別に読取るという従来方法1があった。また選択肢認識結果から文字列の認識対象候補を絞り込むことにより高精度に住所を読み取るという従来方法2が、特許文献2で開示されている。
【0006】
【特許文献1】特開平6−266884号公報
【特許文献2】特開平8−243501号公報
【特許文献3】国際公開第01/71473号公報
【特許公報4】国際公開第00/73983号公報
【発明が解決しようとする課題】
しかしここで、たとえば住所で、「都」,「道」,「府」,「県」の各文字のみを選択する選択肢枠とその前後の文字列を記入する文字列枠の組合せからなる住所記入項目の読取る場合について考える。
【0007】
この場合、従来方法1において、たとえば記入者が選択肢枠に気づかずに「都」,「道」,「府」,「県」の文字までを前半の文字列枠に記入してしまった場合、全体として正しく読取れない問題があった。
【0008】
また、従来方法2では選択肢認識結果は認識対象の文字列候補を絞り込む目的で利用されるため、前記の場合に対して適用できない問題があった。
【0009】
また、従来方法では帳票レイアウトと認識処理とが密接に関係するため、たとえば前記住所読取の場合において、「市」,「区」,「町」,「村」の各文字も選択肢枠として新たに追加して帳票レイアウトを変更した場合、読取対象の文字列表記知識や認識処理自体を変更しなければならない問題があった。
【0010】
本発明は、上記問題点に鑑みてなされたものである。すなわち、文字列枠と選択肢枠との組合せが変更となった場合にも、読取対象文字列表記知識や認識処理自体を変更することなく対応すること、つまり文字列枠と選択肢枠との任意の組合せを許容する項目読取手段を提供することを、本発明の第1の課題とする。
【0011】
さらに記入者の多様な記入方法に対応した高精度な項目読取手段を提供することを、本発明の第2の課題とする。
【0012】
【課題を解決するための手段】
ここで、文字列や選択肢の記入枠の最小単位を「セル」とよぶことにする。たとえば、図3の申込用紙300の例では、表310は、文字記入枠の集合320、選択肢枠の集合330、文字記入枠340と350、から構成され、さらに文字記入枠の集合320は文字記入枠321〜323、選択肢枠の集合330は選択肢枠331〜334から構成されているため、申込用紙300中のセルは、
・ 文字記入枠:321,322,323,340,350
・ 選択肢枠:331,332,333,334
の計9枠である。これらセルに記入・選択された文字列を解釈する場合は、各セルの認識結果を、
と連接すれば、表310に記入された文字列を得ることができる。ちなみに記号「×」は連接を表す記号とする。数1のような、読取り対象の枠構造を表現する式を、以降「枠構造式」とよぶ。
【0013】
しかし、選択肢においてはアクセプトの条件として、選択の最大・最小数が規定されることがある。たとえば図3において、都道府県の選択肢330は、マークが最大1つでないと、地名として意味をなさない。また選択肢の前後の文字列枠に、都道府県の文字を記入される可能性があるため、選択肢の最小数は0である。したがって最大数1、最小数0を指定する必要がある。
そのような場合を考慮して枠構造式を拡張する。すなわち、連接のみでなく、選択を考慮し、選択記号+を新たに定義する。また選択肢の集合を括弧()で括り、末尾に大括弧[]で最小、最大数を記入することとする。すなわち数1は
と拡張される。これにより、選択肢の選択数までも考慮した枠構造式を定義できる。
【0014】
本発明は、まず第1の課題を解決するために、文字列枠と選択肢枠の差異を吸収する前記枠構造式を用いた帳票定義辞書とその枠構造式に沿った認識処理によって、文字列枠と選択肢枠との任意の組合せを許容する項目読取りを可能とする。
【0015】
また、第2の課題を解決するために、各文字列枠や選択肢枠の認識結果を文字切出しグラフの形式で表現し、それらを結合させることにより各枠の認識結果を統合させ、最終的に得られた文字切出しグラフに対し文字列照合を行うことにより、高精度な項目読取りを可能とする。
【0016】
【発明の実施の形態】
本発明の実施形態にかかる文字認識装置の構成について説明する(図1)。文字認識装置100は、記入された文字や図形などを電子的に入力する画像入力部101、入力された記入画像から指定された箇所を読取る文字認識部102、その認識結果を出力する認識結果出力部103を有す。また、読取対象の帳票のレイアウトや各記入枠の属性(枠内にどのような文字列が記載されるかなど)等の情報が記述された帳票定義辞書104、読取り対象の文字列の表記知識が格納され文字列照合で参照される文字列表記辞書105を有す。文字列表記辞書の構造として、(1)認識対象文字列の羅列、(2)認識対象文字列を受理するオートマトン、(3)認識対象文字列を記述する文脈自由文法、などが利用可能である。
【0017】
画像入力を実現する手段としては、記入されるメディアの形態などにより種々の手段が利用可能である。たとえば、紙面に記入する場合は光学的スキャナにより紙面イメージを取り込む手段や紙下にタブレットを置き記入する手段があり、また液晶画面に記入する場合にはタッチパネルにより記入された筆跡を得る手段もある。さらに近年では、紙面上に記入するとその筆跡を測定できる電子ペンを用いる手段もある。その電子ペンの一例として、特許文献3で開示されているものについて簡単に説明する(図2)。200が電子ペンであり、201は紙上に印刷された位置検出用の模様の画像を取得するカメラデバイスである。紙210を拡大してみると(211)、小さなドットが非均質に散りばめられて印刷されている。このドットは仮想的な格子線212における交点からある距離だけ上下左右の何れかにずらされて印刷されており、このドットを同時に複数個、例えば6×6の範囲で参照し、これら36個のドットの上下左右のずれの値の組み合わせが、広大な平面領域の絶対位置情報を与える仕組みとなっている。つまり電子ペンに備え付けられたカメラ201により上記複数のドットパタンを含む範囲の画像を一定の時間間隔で採取することにより、上記ずれの組み合わせの空間上での位置を特定することが可能となる。本原理の詳細は特許文献4で明らかにされている。
【0018】
電子ペンや、タブレット、タッチパネルなどペン軌跡を記録する電子化手段を用いた場合の記入情報は、図8のようなデータ構造となる。記入情報810は、そのなかに含まれる総ストローク数811、各ストロークの標本点数812、標本点へのポインタ813、を有する。標本点へのポインタは、標本点情報820の1標本821を指しており、その位置から標本点数で指定された個数までがそのストロークを表す標本点配列となる。電子ペンは、このように記入ストロークの動的情報を記憶できる他、罫線等を記憶せずにペン記入情報を記憶することができ、また、スキャニングのように掠れたり潰れたりすることなくペン軌跡を記憶することができるという利点がある。ここでは、前記電子ペンを利用した形態で以降説明する。
【0019】
次に帳票定義辞書104の構造について具体例をあげて説明する。前述のようにたとえば図3に示した枠構造における枠構造式は、セル321,322,323,331,332,333,334,340,350を、おのおのセルA‥Iと置くと、数2より、
A×B×C×(D+E+F+G)[0,1]×H×I (数3)
とおける。この式のまま帳票定義とし計算機上に実装したのでは、処理時に参照する際、構文解析などの手段が必要となり、実際問題として煩雑である。そこで本実施例では、枠構造式を、図4に示したような木構造の形式で表現することとする。これは各セルに関し、文字列枠の部分と選択肢の部分との部分集合に分割することにより木構造とするものである。以降、枠構造式から作成される木を「枠構造木」、セルの部分集合のことを「セルバインダ」とよぶことにする。たとえば前記の数3においては、
に変形することにより、図4に示した枠構造木410を得ることができる。
【0020】
なお、図4に示したような枠構成木は、選択肢セルと文字列セルの両タイプの部分集合においてセルバインダを導入するため、木の階層が常に3階層と平衡木になる。セルバインダを導入せずに各セルを直接、最上位の節である読取項目411と接続させてもよい。しかしその場合、最上位節の読取項目411からみて全てのセルが自分の子となるため、認識時に子が選択肢セルか文字列セルかで分岐処理をしなければならなる。したがってセルバインダを一律に導入して3階層の平衡木とした方が、(1)木構造を表現するデータ構造体が定義しやすい、(2)認識処理フローがより単純となる、といった利点があるため本実施例ではセルバインダを導入した枠構造木を採用することとする。
【0021】
さらに、枠構造木410のデータ構造を図5に示す。まず読取項目411に該当するデータ構造が読取項目情報500である。このデータ構造は、読取項目ID情報501と、読取対象となる表記知識情報502、認識された最終的な文字列結果情報503、各セルバインダの文字切出しグラフを連接することにより作成された文字切出しグラフへのID情報504、この読取項目に含まれるセルバインダ集合の列の先頭セルバインダのID情報505、から構成される。表記知識情報502には、読取項目に記入される文字列表記の種類を示し、たとえば本例の場合、住所が記入されるため「Address」というデータが格納されている。認識時には本データに従い、文字列表記辞書(図1の105)から認識対象の文字列を抽出し、認識処理に利用する。なお、認識対象文字列が自由文章など表記知識を事前に用意できない場合は、表記知識を利用しない旨の「NULL」が代入されることとする。
【0022】
セルバインダのデータ構造として、文字列の場合510、選択肢の場合520の2例を示した。文字列のセルバインダ510は図4のセルバインダ421に該当し、そのデータ構造は、セルバインダID情報511、セルバインダの認識対象の情報512、各セルの文字切出しグラフを連接することにより作成された文字切出しグラフへのID情報516、このセルバインダに含まれるセル集合の列の先頭セルのID情報517、このセルバインダの次に連接するセルバインダのID情報518、から構成される。また選択肢のセルバインダ520は図4のセルバインダ422に該当し、そのデータ構造は前述の文字列のセルバインダと同様であるが、加えて、選択肢の最大数情報523、選択肢の最小数情報524、実際に選択された数の情報525を有す。
【0023】
セルのデータ構造として、文字列枠の場合530、選択肢枠の場合540の2例をしめした。文字列枠のセルバインダ530は図4のセル431に該当し、そのデータ構造は、セルID情報531、セルの認識対象の情報532、セル枠の矩形座標情報533、文字切出しグラフへのID情報535、このセルの次に連接するセルのID情報536、から構成される。また選択肢枠のセルバインダ540は図4のセルバインダ434に該当し、そのデータ構造は前述の文字列枠のセルと同様であるが、加えて、選択肢枠に印刷されている文字列の情報545を有す。
【0024】
以上のデータ構造により、計算機上に枠構造木を構築している。また実際の帳票において、図3の読取項目310が複数個存在することがあり、これはさらに複数個の読取項目のデータ構造を用意することにより解決できる。
【0025】
次に、本実施例における文字認識の処理フローについて説明する(図6)。文字認識処理600は基本的にボトムアップ処理で、まずステップ601で認識対象となる帳票上の全ストロークを入力した後、各セルにおいてセル内のストロークから文字切出しグラフを作成し(ステップ605〜609)、セルバインダ単位、読取項目単位で連接(各々ステップ610、611)して最終的に読取項目単位の文字切出しグラフを作成する。その後、その読取項目単位の文字切出しグラフ中に、文字列表記辞書(図1の105)内に格納された認識対象文字列が出現するか否かを検出する文字列照合を実行し、文字列認識結果を得て(ステップ612)、その結果を出力する(ステップ614)といった処理となる。
【0026】
文字切出しグラフを作成する処理についてより詳細に説明すると、まず各セルにおいて、そのセルの認識対象の情報に応じて、ステップ605で文字切出しグラフの作成手順を切替える。文字列枠の場合には、そのセル内に含まれる文字パターンを抽出し(ステップ606)、その各文字パターンに対して文字識別処理を実行しその結果から文字切出しグラフを作成する(ステップ607)。その例を図7の701→711、および703→713に示す。文字切出しグラフの各エッジには、文字パターンとその文字パターンに対する文字識別結果が付加される。文字識別結果として、第1位の文字候補の文字コードのみが付加されていてもよいが、第n位までの文字候補が付加される方が、後で文字列照合する場合に有利となるため、本実施例では各文字パターンに対して複数個の文字識別結果を付加することとする。
【0027】
一方、選択肢枠の場合は、まず当該の選択肢枠内にマークされているか否かを判定し(ステップ608)、その結果マークされていれば、その選択肢に該当する文字列を帳票定義辞書から得て(例:図5の544の情報)、その文字列からなる文字切出しグラフを作成する(ステップ609)。マークされていない場合には、その選択肢枠についての文字切出しグラフは作成せずに次の記入枠の処理を続ける。その結果、文字切出しグラフが作成されなかった記入枠の前の記入枠とその後の記入枠の文字切出しグラフが連接されることで、例えば本来は選択肢枠で選択されるべき記入事項が前後の記入枠に誤って記入された場合などにも正しく文字認識を行うことが可能となる。その例を図7の702→712に示す。本来は選択肢の認識結果なので、文字切出しグラフで表現しなくても一意に文字列が同定できるのだが、文字切出しグラフの形式で選択肢枠の認識結果を表現しておくことにより、文字列枠の認識結果と整合性が取れるため容易に連接できるメリットがある。文字切出しグラフの連接は、図7に示したように、単に前の文字切出しグラフの終端ノードと、次の文字切出しグラフの始端ノードをと同一にするのみである。
【0028】
なお、選択肢の選択数の最大・最小値の検定は、ステップ613のリジェクト検定で行われる。
【0029】
以上が、本発明に係る実施形態の説明である。
【0030】
【発明の効果】
本発明により、文字列枠と選択肢枠とが混在した帳票の文字認識装置での利用が容易となり、記入者にとって記入しやすい帳票を利用できるため、記入者の負担を軽減される効果がある。
【0031】
また、記入内容が推測される部分に対し、文字よりも高精度に認識可能な選択肢が利用できるため、記載内容全体の認識率の上昇が期待でき、文字認識装置運用者は文字認識結果の修正作業を軽減できる効果がある。
【0032】
さらに、文字切出しグラフレベルで各枠の認識結果を統合していくため、より高精度な認識率を期待でき、前記と同様に、文字認識装置運用者は文字認識結果の修正作業を軽減できる効果がある。
【図面の簡単な説明】
【図1】本発明に係る文字認識装置の構成を示す図である。
【図2】本発明に係る実施形態で利用される画像入力部を説明する図である。
【図3】本発明に係る実施形態で利用される帳票の例を示す図である。
【図4】本発明に係る実施形態で利用される帳票における枠構造式と枠構造木を示す図である。
【図5】枠構造木のデータ構造を示す図である。
【図6】本発明に係る文字認識処理のフロー図である。
【図7】文字切出しグラフの連接の過程を示す図である。
【図8】電子ペンによる記入情報のデータ構造を示す図である。
【図9】文字切出しグラフの例を示す図である。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a character recognition system that reads items such as an address and an amount of money entered on a form or the like.
[0002]
[Prior art]
Handles many forms and texts, such as automatically accepting character strings written on paper to improve work efficiency in the reception of financial institutions and local government offices and the sorting of postal items at post offices. Character recognition technology has been used. In addition, the technique has also been used when reading characters written on a touch panel as input means in a personal digital assistant (PDA).
[0003]
Character recognition mainly includes three steps: (1) character extraction, (2) character identification, and (3) character string collation. First, a pattern that looks like a character is extracted from the input image (character extraction), the character pattern candidate is identified for each character pattern candidate, and the character code is output (character identification). The final recognition result is obtained by interpreting the character string to be read from the set (character string collation).
[0004]
Regarding character extraction, it is difficult to uniquely determine the correct character extraction before character identification and character string matching. Therefore, it is possible to represent multiple hypotheses of possible character extraction in the form of a single network. Cutout graphs are often used to improve reading accuracy. For example, when the character pattern entered in the
Some of these character recognition systems that read characters have an option recognition function of reading options and check marks, not just reading a character string. For items that can predict the character string to be entered, preprinting the part in advance and letting the writer select it are (1) simpler input, and (2) more accurate choices than characters. This is because there is a merit that it can be recognized. For example,
[0005]
Further, although all predicted character strings cannot be enumerated as options, when the partial character string can be predicted, there is a method of using a reading target item that combines a character string frame and an option frame. As a conventional method for recognizing such combination items, there is a
[0006]
[Patent Document 1] JP-A-6-266884 [Patent Document 2] JP-A-8-243501 [Patent Document 3] International Publication No. 01/71473 [Patent Publication 4] International Publication No. 00/73983 [Problems to be solved by the invention]
However, here, for example, in an address, an address entry consisting of a combination of an option frame that selects only the characters “Miyako”, “Michi”, “Fu”, and “Prefecture” and a character string frame that fills the character string before and after that. Consider the case of reading an item.
[0007]
In this case, in the case of the
[0008]
Further, in the conventional method 2, since the option recognition result is used for the purpose of narrowing down the character string candidates to be recognized, there is a problem that it cannot be applied to the above case.
[0009]
In addition, since the form layout and the recognition process are closely related in the conventional method, for example, in the case of the address reading, the characters “city”, “ward”, “town”, and “village” are newly added as option frames. When the form layout is changed after addition, there is a problem that the character string notation knowledge to be read and the recognition process itself have to be changed.
[0010]
The present invention has been made in view of the above problems. That is, even when the combination of the character string frame and the option frame is changed, it is possible to respond without changing the reading target character string notation knowledge and the recognition process itself, that is, any character string frame and option frame. It is a first object of the present invention to provide an item reading unit that allows a combination.
[0011]
Furthermore, it is a second object of the present invention to provide a high-precision item reading means corresponding to a variety of entry methods by the writer.
[0012]
[Means for Solving the Problems]
Here, the minimum unit of a character string or option entry frame is referred to as a “cell”. For example, in the example of the
・ Text box: 321, 322, 323, 340, 350
・ Option frame: 331, 332, 333, 334
This is a total of 9 frames. When interpreting the text entered and selected in these cells, the recognition result of each cell
The character string entered in Table 310 can be obtained. By the way, the symbol “×” is a symbol representing connection. The expression that expresses the frame structure to be read as in
[0013]
However, in the options, the maximum / minimum number of selections may be defined as acceptance conditions. For example, in FIG. 3, a
The frame structure formula is expanded in consideration of such a case. That is, a selection symbol + is newly defined in consideration of selection as well as concatenation. The set of options is enclosed in parentheses (), and the minimum and maximum numbers are entered in brackets [] at the end. That is, the
And expanded. Thereby, it is possible to define a frame structure formula that considers even the number of choices.
[0014]
First, in order to solve the first problem, the present invention provides a form definition dictionary using the frame structure formula that absorbs the difference between a character string frame and an option frame, and a character string by a recognition process along the frame structure formula. It is possible to read items that allow arbitrary combinations of frames and option frames.
[0015]
In addition, in order to solve the second problem, the recognition results of each character string frame and option frame are expressed in the form of a character cut-out graph, and the recognition results of each frame are integrated by combining them, and finally By performing character string matching on the obtained character cutout graph, it is possible to read items with high accuracy.
[0016]
DETAILED DESCRIPTION OF THE INVENTION
A configuration of the character recognition device according to the embodiment of the present invention will be described (FIG. 1). The
[0017]
As means for realizing the image input, various means can be used depending on the form of the medium to be entered. For example, when filling in paper, there is a means for capturing a paper image with an optical scanner and a means for placing a tablet under the paper, and when filling in a liquid crystal screen, there is also a means for obtaining handwriting written on a touch panel. . Furthermore, in recent years, there is also a means using an electronic pen that can measure the handwriting when written on a sheet. As an example of the electronic pen, the one disclosed in
[0018]
The entry information when using electronic means such as an electronic pen, a tablet, and a touch panel for recording a pen locus has a data structure as shown in FIG. The
[0019]
Next, the structure of the
A × B × C × (D + E + F + G) [0, 1] × H × I (Equation 3)
You can. If this form is used as a form definition and implemented on a computer, means such as syntax analysis is required when referring to it during processing, which is complicated as an actual problem. Therefore, in this embodiment, the frame structural formula is expressed in the form of a tree structure as shown in FIG. This is a tree structure by dividing each cell into a subset of a character string frame portion and an option portion. Hereinafter, a tree created from the frame structural formula is called a “frame structure tree”, and a subset of cells is called a “cell binder”. For example, in
By deforming into the
[0020]
Note that the frame configuration tree as shown in FIG. 4 introduces cell binders in both types of subsets of option cells and character string cells, so that the hierarchy of the tree is always a balanced tree with 3 hierarchies. Each cell may be directly connected to the
[0021]
Furthermore, the data structure of the
[0022]
As the data structure of the cell binder, two examples of 510 for character strings and 520 for options are shown. The
[0023]
As the cell data structure, two examples of a
[0024]
With the above data structure, a frame structure tree is constructed on the computer. Further, there may be a plurality of reading
[0025]
Next, the processing flow of character recognition in the present embodiment will be described (FIG. 6). The
[0026]
The process for creating the character cut-out graph will be described in more detail. First, in each cell, the procedure for creating the character cut-out graph is switched in
[0027]
On the other hand, in the case of an option frame, it is first determined whether or not it is marked in the option frame (step 608). If it is marked as a result, a character string corresponding to the option is obtained from the form definition dictionary. (Example:
[0028]
It should be noted that the maximum / minimum values of the number of selection options are tested by the reject test in
[0029]
The above is the description of the embodiment according to the present invention.
[0030]
【The invention's effect】
According to the present invention, it is possible to easily use a form in which a character string frame and an option frame are mixed in a character recognition apparatus, and it is possible to use a form that can be easily filled in for the writer, thereby reducing the burden on the writer.
[0031]
In addition, because options that can be recognized with higher accuracy than characters can be used for the part where the contents are estimated, the recognition rate of the entire description can be expected to increase, and the character recognition device operator can correct the character recognition results. This has the effect of reducing work.
[0032]
Furthermore, since the recognition results of each frame are integrated at the character cut-out graph level, a higher accuracy recognition rate can be expected, and the effect that the character recognition device operator can reduce the work of correcting the character recognition results as described above. There is.
[Brief description of the drawings]
FIG. 1 is a diagram showing a configuration of a character recognition device according to the present invention.
FIG. 2 is a diagram illustrating an image input unit used in an embodiment according to the present invention.
FIG. 3 is a diagram showing an example of a form used in an embodiment according to the present invention.
FIG. 4 is a diagram showing a frame structure formula and a frame structure tree in a form used in the embodiment according to the present invention.
FIG. 5 is a diagram illustrating a data structure of a frame structure tree.
FIG. 6 is a flowchart of character recognition processing according to the present invention.
FIG. 7 is a diagram illustrating a process of connecting character cutout graphs.
FIG. 8 is a diagram illustrating a data structure of entry information by an electronic pen.
FIG. 9 is a diagram illustrating an example of a character cut-out graph.
Claims (4)
文字列を認識対象とする記入枠及び選択肢を認識対象とする記入枠を含む複数記入枠についての該記入枠の認識対象を含む記入枠情報を含み、
上記記入枠情報は該記入枠の認識対象および該帳票における連接の順を示す枠構造情報とを含み、
上記記入枠の認識対象が文字列の場合は該記入枠に含まれる文字パターンに対して文字識別処理が実行されて文字切出しグラフが作成され、
上記記入枠の認識対象が選択肢の場合は該記入枠内にマークされている選択肢に該当する文字列を含む文字切出しグラフが作成されることを特徴とする帳票定義。Creation of a character cutout graph indicating the possibility of a character cutout pattern for each entry frame using a pre-registered form definition for a predetermined portion of the image input form, and the character cutout based on predetermined frame structure information A form definition used in a character recognition device that performs character recognition by performing character string matching on a connected graph and a connected character cut-out graph,
Including a box for recognizing a character string and a plurality of boxes including a box for recognizing an option;
The entry frame information includes the recognition object of the entry frame and the frame structure information indicating the order of connection in the form,
When the recognition target of the entry box is a character string, a character identification process is performed on the character pattern included in the entry box to create a character cut-out graph,
A form definition characterized in that when a recognition target of the entry frame is an option, a character cutout graph including a character string corresponding to the option marked in the entry frame is created.
上記帳票定義は、文字列を認識対象とする記入枠及び選択肢を認識対象とする記入枠を含む複数記入枠についての該記入枠の認識対象を含む記入枠情報を含み、
上記記入枠情報は、該記入枠の認識対象および該帳票における連接の順を示す枠構造情報とを含み、
上記帳票定義に記載の記入枠情報に従って各記入枠の文字列または選択肢に該当する文字切出しグラフを作成し、
帳票定義に記載の上記枠構造情報に従って該文字列切出しグラフを連接または選択、
該連接または選択された文字列切出しグラフの文字列を解釈することを特徴とする文字認識方法。A character recognition method for electronically taking in characters and option marks entered in a form having a character string entry box and an option entry frame in accordance with a form definition in which information of the read item is described, and reading the item on the form In
The form definition includes entry frame information including a recognition target of the entry frame for a plurality of entry frames including an entry frame that recognizes a character string and an entry frame that recognizes an option,
The entry frame information includes frame structure information indicating the recognition target of the entry frame and the order of connection in the form,
Create a character cutout graph corresponding to the character string or choice of each box according to the box information described in the form definition above,
Concatenating or selecting the character string cut-out graph according to the frame structure information described in the form definition,
A character recognition method comprising interpreting a character string of the concatenated or selected character string cutout graph.
上記記入枠の認識対象が選択肢の場合は、該記入枠内にマークがあるか否かを判定し、マークがある場合は上記マークされた選択肢に該当する文字切出しグラフを作成し、マークがない場合は該記入枠に対応する文字切出しグラフを作成しないことを特徴とする文字認識方法。The character recognition method according to claim 2,
When the target of recognition of the entry frame is an option, it is determined whether or not there is a mark in the entry frame. If there is a mark, a character cutout graph corresponding to the marked option is created and there is no mark. In some cases, the character recognition method does not create a character cutout graph corresponding to the entry frame.
読取項目の情報が記載された帳票定義とが予め登録されるメモリと、
上記帳票定義に従い該帳票上の項目を読取る文字認識部とを有し、
上記帳票定義は、文字列を認識対象とする記入枠及び選択肢を認識対象とする記入枠を含む複数記入枠についての該記入枠の認識対象を含む記入枠情報を含み、
上記記入枠情報は該記入枠の認識対象および該帳票における連接の順を示す枠構造情報とを含み、
上記文字認識部は、
上記記入枠の認識対象が文字列の場合は該記入枠に含まれる文字パターンに対して文字識別処理が実行されて文字切出しグラフを作成し、
上記記入枠の認識対象が選択肢の場合は該記入枠内にマークされている選択肢に該当する文字列を含む文字切出しグラフを作成し、
上記枠構造情報に基づいて該文字切出しグラフを連接し、
上記連接された文字切出しグラフに対する文字列照合とを行って文字認識を行うことを特徴とする文字認識装置。A character recognition device that electronically captures characters entered in a form and marks of choices to perform character recognition,
A memory in which a form definition in which information of a reading item is written is registered in advance;
A character recognition unit that reads items on the form in accordance with the form definition,
The form definition includes entry frame information including a recognition target of the entry frame for a plurality of entry frames including an entry frame that recognizes a character string and an entry frame that recognizes an option,
The entry frame information includes the recognition object of the entry frame and the frame structure information indicating the order of connection in the form,
The character recognition part
When the recognition target of the entry frame is a character string, a character identification process is performed on the character pattern included in the entry frame to create a character cut-out graph,
If the recognition target of the entry box is an option, create a character cutout graph that includes the character string corresponding to the option marked in the entry box,
Concatenating the character cut-out graph based on the frame structure information,
A character recognition apparatus, wherein character recognition is performed by performing character string matching on the connected character cutout graphs.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003202159A JP4442136B2 (en) | 2003-07-28 | 2003-07-28 | Character recognition method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003202159A JP4442136B2 (en) | 2003-07-28 | 2003-07-28 | Character recognition method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005044086A true JP2005044086A (en) | 2005-02-17 |
JP4442136B2 JP4442136B2 (en) | 2010-03-31 |
Family
ID=34261960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003202159A Expired - Fee Related JP4442136B2 (en) | 2003-07-28 | 2003-07-28 | Character recognition method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4442136B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007334420A (en) * | 2006-06-12 | 2007-12-27 | Dainippon Printing Co Ltd | Processor and program |
JP2008191833A (en) * | 2007-02-02 | 2008-08-21 | Fujitsu Ltd | Logical structure recognition processing program, logical structure recognition processing method and logical structure recognition processor |
-
2003
- 2003-07-28 JP JP2003202159A patent/JP4442136B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007334420A (en) * | 2006-06-12 | 2007-12-27 | Dainippon Printing Co Ltd | Processor and program |
JP2008191833A (en) * | 2007-02-02 | 2008-08-21 | Fujitsu Ltd | Logical structure recognition processing program, logical structure recognition processing method and logical structure recognition processor |
US8224090B2 (en) | 2007-02-02 | 2012-07-17 | Fujitsu Limited | Apparatus and method for analyzing and determining correlation of information in a document |
Also Published As
Publication number | Publication date |
---|---|
JP4442136B2 (en) | 2010-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109961008B (en) | Table analysis method, medium and computer equipment based on text positioning recognition | |
JP3822277B2 (en) | Character template set learning machine operation method | |
JP3425408B2 (en) | Document reading device | |
Slimane et al. | A new arabic printed text image database and evaluation protocols | |
US20200065601A1 (en) | Method and system for transforming handwritten text to digital ink | |
Clausner et al. | Scenario driven in-depth performance evaluation of document layout analysis methods | |
CN104966097A (en) | Complex character recognition method based on deep learning | |
JP2004139484A (en) | Form processing device, program for implementing it, and program for creating form format | |
KR100570224B1 (en) | Form definition data creation method and form handling machines | |
US10963717B1 (en) | Auto-correction of pattern defined strings | |
JP2008204226A (en) | Form recognition device and its program | |
CN109919146A (en) | Picture character recognition methods, device and platform | |
CN112560849B (en) | Neural network algorithm-based grammar segmentation method and system | |
CN111143708A (en) | Search device, search method, search program, and recording medium | |
CN104408403A (en) | Arbitration method and apparatus for inconsistent phenomenon of two pieces of entry information | |
CN109685061A (en) | The recognition methods of mathematical formulae suitable for structuring | |
JP2015069256A (en) | Character identification system | |
CN109726369A (en) | A kind of intelligent template questions record Implementation Technology based on normative document | |
KR20090088304A (en) | Word recognition method and word recognition program | |
JP2008108114A (en) | Document processor and document processing method | |
Lopresti et al. | Issues in ground-truthing graphic documents | |
JP4442136B2 (en) | Character recognition method and apparatus | |
Almohri et al. | A real-time DSP-based optical character recognition system for isolated Arabic characters using the TI TMS320C6416T | |
JP2020102207A (en) | Apparatus and method for recognizing recipient address | |
Tomaschek | Evaluation of off-the-shelf OCR technologies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060124 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060420 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090512 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090616 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090714 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090810 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20091021 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091222 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100104 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130122 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140122 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |