Nothing Special   »   [go: up one dir, main page]

JP3209197B2 - Character recognition device and recording medium storing character recognition program - Google Patents

Character recognition device and recording medium storing character recognition program

Info

Publication number
JP3209197B2
JP3209197B2 JP33037298A JP33037298A JP3209197B2 JP 3209197 B2 JP3209197 B2 JP 3209197B2 JP 33037298 A JP33037298 A JP 33037298A JP 33037298 A JP33037298 A JP 33037298A JP 3209197 B2 JP3209197 B2 JP 3209197B2
Authority
JP
Japan
Prior art keywords
character
pattern
recognition
candidate
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33037298A
Other languages
Japanese (ja)
Other versions
JP2000082115A (en
Inventor
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP33037298A priority Critical patent/JP3209197B2/en
Publication of JP2000082115A publication Critical patent/JP2000082115A/en
Application granted granted Critical
Publication of JP3209197B2 publication Critical patent/JP3209197B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、紙などに書かれた
文字を光学センサで取り込んで読み取る光学的文字認識
技術に関し、特に、単語や文のように複数の文字が並ん
だ文字列を認識する文字認識装置及び方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an optical character recognition technology for reading a character written on paper or the like by an optical sensor and, more particularly, for recognizing a character string in which a plurality of characters are arranged like a word or a sentence. And a character recognition device and method.

【0002】[0002]

【従来の技術】この種の従来の文字認識装置において
は、文字列内の文字の境界を同定する文字切り出しと、
切り出されたそれぞれの文字を読み取る文字認識を組み
合わせることによって文字列を読み取っている。
2. Description of the Related Art In a conventional character recognition apparatus of this kind, a character segmentation for identifying a boundary of a character in a character string, and
A character string is read by combining character recognition for reading each cut-out character.

【0003】従来の文字認識技術の一例として、例えば
文献「1994年、スー・リャン他、セグメンテーショ
ン・オブ・タッチング・キャラクターズ・イン・プリン
テッド・ドキュメント・レコグニション、パターン・レ
コグニション、第27巻、第6号、第825〜840頁
(Su Liang et al., Segmentation of Touching Charact
ers in Printed Document Recognition, Pattern Recog
nition, Vol.27, No.6, pp.825-840, 1994)」の記載が
参照される。
[0003] As an example of a conventional character recognition technique, for example, in the document "Shu Liang et al., 1994, Segmentation of Touching Characters in Printed Document Recognition, Pattern Recognition, Vol. 27, No. 6, No., pp. 825-840
(Su Liang et al., Segmentation of Touching Charact
ers in Printed Document Recognition, Pattern Recog
nition, Vol. 27, No. 6, pp. 825-840, 1994). "

【0004】この文献に記載されている方式は、投影ヒ
ストグラムの形状、及び、これから派生する情報を利用
して、文字境界の候補を抽出し、任意の2つの文字境界
で挟まれる文字列の一部を文字の候補として、すべて抽
出する(文字切り出し)。
In the method described in this document, a candidate for a character boundary is extracted using the shape of a projection histogram and information derived from the shape of the projection histogram, and one of character strings sandwiched between any two character boundaries is extracted. All parts are extracted as character candidates (character extraction).

【0005】次に、全ての文字候補に対して、文字認識
を行い、それぞれに認識結果とその尤もらしさ(スコ
ア)を計算する。
Next, character recognition is performed on all character candidates, and the recognition result and its likelihood (score) are calculated for each.

【0006】最後に、文字列として連結した際にスコア
が最大となるように、文字候補を選び、同時に正しいと
思われる文字列の切り出し位置を決定する。
Finally, character candidates are selected so that the score becomes maximum when the character strings are concatenated, and at the same time, a cutout position of a character string considered to be correct is determined.

【0007】この他にも各種方式が、従来より提案され
ているが、その多くは、文字切り出しに用いる情報が異
なるのみであるもの、あるいは、文字切り出しをせずに
網羅的に文字列中のあらゆる部分で文字認識を行って最
適な切り出し位置を決定するもの、または、文字認識で
文字画像から抽出する特徴量や文字を識別する方法が異
なるのみである。
[0007] In addition, various methods have been proposed in the past, but most of the methods use only different information for character extraction, or comprehensively extract characters in character strings without character extraction. The only difference is that character recognition is performed at every part to determine the optimal cutout position, or the method of character recognition and the method of identifying characters extracted from a character image by character recognition are different.

【0008】また上述した例は、印刷文字を認識対象と
しているが、手書き文字を対象とする方式においても、
同様であり、多くの場合、文字切り出しと文字認識は別
個のモジュールとして構成されており、これらを組み合
わせて文字列の読み取りを行うという手順が採用されて
いる。
In the above-described example, print characters are to be recognized.
Similarly, in many cases, character segmentation and character recognition are configured as separate modules, and a procedure of reading a character string by combining them is adopted.

【0009】[0009]

【発明が解決しようとする課題】しかしながら、上記し
た従来の技術においては、文字切り出しと文字認識の処
理系が別個に構築されて用いられるため、特に手書き文
字列の認識において、文字列特有の文字パタンの変形に
対応できず、このため誤認識を生ずることが多い、とい
う問題点を有している。
However, in the above-mentioned prior art, since the processing systems for character extraction and character recognition are separately constructed and used, particularly in the recognition of handwritten character strings, a character string specific to a character string is used. There is a problem in that it is not possible to cope with the deformation of the pattern, which often causes erroneous recognition.

【0010】例えば、筆記体英文のように、続け書きで
書かれた文字列の場合、“a”という文字を書き終わっ
た時点でのペンの位置は下部にあるが、“o”を書き終
わった時点でのペンの位置は上部である。したがって、
同じ文字であっても、“a”の次に書かれるか、“o”
の次に書かれるかによって、パタンの形状が変化する。
図6を参照すると、続け書きで書かれた文字列“a
b”、“ob”について、同じ“b”であっても、
“a”に続く“b”は“b”を囲む矩形左下側から、
“o”に続く“b”は“b”を囲む矩形左側のほぼ中央
から開始している。
For example, in the case of a character string written in continuous writing like a cursive English sentence, the position of the pen at the time when the character "a" has been written is at the bottom, but the character position "o" has been written. The position of the pen at the point of time is at the top. Therefore,
Even if it is the same character, it is written after "a" or "o"
The shape of the pattern changes depending on whether it is written next.
Referring to FIG. 6, the character string "a"
b "and" ob ", even if the same" b "
"B" following "a" is from the lower left side of the rectangle surrounding "b".
"B" following "o" starts from approximately the center of the left side of the rectangle surrounding "b".

【0011】このようなことは個別文字では起こり得な
い、文字列特有の変形である。
[0011] This is a character string-specific deformation that cannot occur with individual characters.

【0012】そして、このような変形は、個別文字だけ
を学習して構築されている従来の文字認識処理系では、
対応不可能であり、しばしば誤認識の原因となる。
[0012] Such a modification is caused by a conventional character recognition processing system constructed by learning only individual characters.
It is not possible and often causes misperception.

【0013】またアルファベットだけでなく、数字でも
同様の問題はみられる。例えば“5”の書き終わりのペ
ンの進行方向は文字列の方向と同じであることから、
“5”に続く文字は“5”とつながって書かれることが
多い。この影響で、図7に示すように、“5”の次に書
かれる文字は“5”と滑らかにつながるように変形を受
ける。
A similar problem is observed not only with alphabets but also with numerals. For example, the direction of travel of the pen at the end of writing “5” is the same as the direction of the character string,
The character following "5" is often written connected to "5". As a result, as shown in FIG. 7, the character written after "5" is deformed so as to be smoothly connected to "5".

【0014】このため文字列特有の変形を考慮していな
い従来の文字認識処理システムでは、誤認識を生じ易
い。
For this reason, in a conventional character recognition processing system which does not take into account the deformation unique to a character string, erroneous recognition is likely to occur.

【0015】すなわち、一般的に文字列は、隣接する文
字同士に依存関係があり、互いに影響しあって変形を生
ずるという傾向が存在する。
That is, in general, a character string has a dependency relationship between adjacent characters, and tends to affect each other and cause deformation.

【0016】隣接する文字に依存して文字が変形を受け
る問題に対して、隣接する2文字を1つのパタンとし
て、字種数の2乗個のテンプレートを学習して辞書を構
築する方法も考えられる。しかし、2文字の並びは、パ
タンとしての変形のバリエーションが極めて多様とな
り、膨大な量の学習データが必要となる。さらに、テン
プレートは、字種数の2乗個必要となるため、学習デー
タ不足の問題が深刻となる。
To solve the problem that a character is deformed depending on an adjacent character, a method of constructing a dictionary by learning two templates of the number of character types using two adjacent characters as one pattern is also considered. Can be However, in the arrangement of two characters, variations in the deformation as patterns become extremely diverse, and an enormous amount of learning data is required. Further, since the number of templates required is the square of the number of character types, the problem of insufficient training data becomes serious.

【0017】このように、2文字を1パタンとして字種
の2乗個のテンプレートを学習する方法は実用に適さな
いことがわかる。
As described above, it is understood that the method of learning the square template of the character type with two characters as one pattern is not suitable for practical use.

【0018】したがって、本発明は、上記技術的課題の
認識に基づき創案されてものであって、その目的は、隣
接する文字間の依存性に起因して生ずる文字形状の変形
による影響が小さい、すなわち文字の接触や続け書きに
対して頑健(robust)な文字認識装置及び方法を提供す
ることにある。
Therefore, the present invention has been made based on the recognition of the above technical problem, and an object of the present invention is to reduce the influence of the deformation of the character shape caused by the dependence between adjacent characters. That is, an object of the present invention is to provide a character recognition apparatus and method that is robust against character contact and continuous writing.

【0019】[0019]

【課題を解決するための手段】上述した目的を達成する
本発明は、文字列画像を入力し記憶する画像記憶手段
と、前記画像記憶手段から得た文字列画像から1文字に
相当する部分パタンを獲得するための切り出し位置候補
を検出する文字切り出し手段と、前記文字切り出し手段
から得た切り出し位置候補に基づいて1文字に相当する
部分パタンである個別文字パタン候補を生成し、文字認
識して最適な文字列の読み取り結果を出力する文字列読
み取り手段と、前記文字列読み取り手段が生成した個別
文字パタン候補を、前記文字列読み取り手段の要求に応
じて認識し、文字認識結果及び文字認識結果の尤もらし
さを表す文字認識スコアを出力する文字認識手段と、前
記文字認識手段が1文字パタン候補の識別及びスコア評
価に用いるための辞書を格納する1文字辞書格納手段
と、前記文字認識手段が隣接した2文字分の文字パタン
候補を用いて個別文字の識別を行うための隣接2文字辞
書を格納するための2文字辞書格納手段と、を備え、
記文字認識手段が、前記文字列読み取り手段から文字パ
タン候補を受け取って文字認識を行う際に、認識対象の
文字パタン候補と、その直前の文字パタン候補を受け取
り、認識対象の文字パタン候補がある字種に属すると仮
定した場合に、与えられた認識対象の文字パタン候補と
その直前の文字パタン候補とが生起する確率、及び、直
前の文字パタンが生起する確率を用いて、認識対象の文
字パタン候補がその字種に属することの尤もらしさを表
すスコアとする。
SUMMARY OF THE INVENTION In order to achieve the above object, the present invention provides an image storage means for inputting and storing a character string image, and a partial pattern corresponding to one character from the character string image obtained from the image storage means. Character segmenting means for detecting a segmentation position candidate for obtaining a character, and an individual character pattern candidate, which is a partial pattern corresponding to one character, is generated based on the segmentation position candidate obtained from the character segmentation unit. A character string reading means for outputting an optimum character string reading result, and an individual character pattern candidate generated by the character string reading means recognized according to a request from the character string reading means, and a character recognition result and a character recognition result Character recognition means for outputting a character recognition score representing the likelihood of a character pattern, and a character string used by the character recognition means for identification of one-character pattern candidates and score evaluation. A two-character dictionary storage means for storing an adjacent two-character dictionary for identifying individual characters by using the character pattern candidates for two adjacent characters. With, before
The character recognizing means receives a character pattern from the character string reading means.
When receiving character candidates and performing character recognition,
Receive character pattern candidates and the character pattern candidate immediately before
If the character pattern candidate to be recognized belongs to a certain character type,
If specified, the given character pattern candidate to be recognized
The probability of occurrence of the character pattern candidate immediately before
Using the probability that the previous character pattern occurs, the sentence to be recognized is
Shows the likelihood that a character pattern candidate belongs to that character type.
Score.

【0020】[0020]

【発明の実施の形態】本発明の実施の形態について説明
する。まず本発明の文字認識装置の原理について説明す
る。本発明は、一実施例の形態において、(a)文字認
識処理系を構築する際に、文字列を訓練データに用い
て、文字列から直接文字を学習し、(b)入力文字列中
の第i番目の文字パタンXiを辞書パタンwと比較して
文字認識のスコアを計算する際に、その直前のi−1番
目の文字としてパタンXi−1が生起するという条件を
付加した条件付き確率P(Xi|Xi−1,w)として
計算することによって、文字の接触や続け書き等、隣接
する文字間の依存性に起因して生ずる文字形状の変形に
よる影響を受けにくい頑強な文字認識を実現している。
Embodiments of the present invention will be described. First, the principle of the character recognition device of the present invention will be described. According to an embodiment of the present invention, in the embodiment, (a) when constructing a character recognition processing system, a character string is used as training data to learn characters directly from the character string; When calculating the character recognition score by comparing the i-th character pattern Xi with the dictionary pattern w, a conditional probability to which a condition that a pattern Xi-1 occurs as the (i-1) th character immediately before it is added. By calculating as P (Xi | Xi-1, w), robust character recognition that is not easily affected by character shape deformation caused by dependence between adjacent characters, such as character contact or continuous writing, can be achieved. Has been realized.

【0021】ここで、条件付き確率P(Xi|Xi−
1,w)の値は、ある文字とその直前の1文字を合わせ
た隣接2文字単位でのスコアP(Xi−1,Xi|w)
と、1文字単位でのスコアP(Xi−1|w)の比、 P(Xi−1,Xi|w)/P(Xi−1|w) …(1)、 または、これを簡単化した、 P(Xi−1,Xi|w)/P(Xi−1) …(2) を計算することによって得られる。
Here, the conditional probability P (Xi | Xi−
The value of (1, w) is the score P (Xi-1, Xi | w) in units of two adjacent characters obtained by combining a certain character and the character immediately before it.
And the ratio of the score P (Xi-1 | w) in units of one character, P (Xi-1, Xi | w) / P (Xi-1 | w) (1) or simplified , P (Xi-1, Xi | w) / P (Xi-1) (2)

【0022】本発明は、別の実施の形態として、(a)
文字認識処理系を構築する際に、文字列を訓練データに
用いて文字列から直接文字を学習し、(b)入力文字列
中の第i番目の文字パタンXiを辞書パタンwと比較し
て文字認識のスコアを計算する際に、i−1番目の文字
としてパタンXi−1が生起し、かつ、i−1番目の文
字パタンXi−1が辞書パタンw′に代表される文字カ
テゴリに属するという条件を付加した条件付き確率P
(Xi|Xi−1,w′,w)として計算することによ
って実現される。
The present invention provides, as another embodiment, (a)
When constructing a character recognition processing system, a character string is directly learned from the character string by using the character string as training data, and (b) the i-th character pattern Xi in the input character string is compared with the dictionary pattern w. When calculating the character recognition score, a pattern Xi-1 occurs as the (i-1) th character, and the (i-1) th character pattern Xi-1 belongs to a character category represented by the dictionary pattern w '. Conditional probability P with the condition
This is realized by calculating as (Xi | Xi-1, w ', w).

【0023】ここで、条件付き確率P(Xi|Xi−
1,w′,w)の値は、ある文字とその直前の1文字を
合わせた隣接2文字単位でのスコアP(Xi−1,Xi
|w′,w)と、1文字単位でのスコアP(Xi−1|
w′,w)の比 P(Xi−1,Xi|w′,w)/P(Xi−1|w′,w) …(3)、 またはそれを簡単化した、 P(Xi−1,Xi|w′,w)/P(Xi−1|w′) …(4) を計算することによって得られる。以下、実施例に即し
て詳細に説明する。
Here, the conditional probability P (Xi | Xi−
The value of (1, w ′, w) is the score P (Xi−1, Xi) in units of two adjacent characters obtained by combining a certain character and the immediately preceding character.
| W ′, w) and the score P (Xi−1 |
w ′, w) ratio P (Xi−1, Xi | w ′, w) / P (Xi−1 | w ′, w) (3) or a simplified version of P (Xi−1, Xi | w ', w) / P (Xi-1 | w') (4) Hereinafter, the present invention will be described in detail with reference to examples.

【0024】[0024]

【実施例】図1は、本発明の一実施例の構成を示すブロ
ック図である。図1を参照すると、この実施例は、入力
された文字列画像を光学センサで取り込んで格納する画
像記憶手段1と、画像記憶手段1より受け取った文字列
画像より隣接文字間の境界の候補を切り出し位置候補と
して検出する文字切り出し手段2と、いくつかの切り出
し位置候補を選んで文字列画像を分割した際の個々の個
別文字パタンについて文字認識処理を呼び出して文字列
全体としての認識スコアを計算し、最適な切り出し及び
認識結果を文字列の読み取り結果として出力する文字列
読み取り手段3と、文字列読み取り手段3の要求に応じ
て文字パタンに認識処理をかけ、1つの字種と認識スコ
アを返す文字認識手段4と、単一文字パタンの出現しや
すさのスコアを計算する1文字辞書格納手段5と、隣り
合う2文字に相当するパタンを用いて2文字目の字種と
認識スコアを計算する隣接2文字辞書格納手段6と、を
有する。画像記憶手段1、文字切り出し手段2、文字列
読み取り手段3、文字認識手段4と、1文字辞書格納手
段5、隣接2文字辞書格納手段6は、コンピュータ上で
実行されるプログラム制御によりその機能を実現するこ
とができる。
FIG. 1 is a block diagram showing the configuration of an embodiment of the present invention. Referring to FIG. 1, in this embodiment, an image storage unit 1 that captures and stores an input character string image by an optical sensor and a candidate for a boundary between adjacent characters is determined from the character string image received from the image storage unit 1. Character extraction means 2 for detecting as a cutout position candidate, and character recognition processing is called for each individual character pattern when a character string image is divided by selecting some cutout position candidates to calculate a recognition score of the entire character string Then, a character string reading means 3 for outputting an optimal cutout and recognition result as a character string reading result, and performing a recognition process on a character pattern in response to a request from the character string reading means 3 to obtain one character type and a recognition score. A character recognition unit 4 to return, a one-character dictionary storage unit 5 for calculating a score of the likelihood of occurrence of a single character pattern, and a pattern corresponding to two adjacent characters are used. Te to calculate the recognition score and the second character of the character types with the adjacent 2 character dictionary storage unit 6, a. The image storage unit 1, character extraction unit 2, character string reading unit 3, character recognition unit 4, one-character dictionary storage unit 5, and adjacent two-character dictionary storage unit 6 have their functions controlled by a program executed on a computer. Can be realized.

【0025】なお、文字認識手段4において、文字認識
を行う場合には、入力画像に対して前処理を行うのが一
般的であり、この前処理として、例えば、多値画像をよ
り扱いやすい2値画像に変換する2値化処理、文字の大
きさやストロークの間隔、傾き等を整形する正規化処
理、画像中の細かな汚れやかすれを取り除くノイズ除去
処理、入力パタンを識別に有用な、より少数の量に変換
する特徴抽出処理等の公知の各種処理が用いられる。本
発明の一実施例においても、これらの処理を、必要に応
じて文字認識手段4に導入してもよいことは勿論であ
る。また、これらの前処理は前後関係を問わず、任意の
順序で適用することができる。
When character recognition is performed by the character recognizing means 4, preprocessing is generally performed on an input image. As the preprocessing, for example, a multi-valued image is more easily handled. Binary processing to convert to a value image, normalization processing to shape character size, stroke interval, inclination, etc., noise removal processing to remove fine dirt and blurring in images, useful for identifying input patterns, etc. Various known processes such as a feature extraction process for converting into a small amount are used. In the embodiment of the present invention, these processes may of course be introduced into the character recognition means 4 if necessary. In addition, these preprocessings can be applied in any order regardless of the context.

【0026】さらに、特徴抽出処理によって抽出される
特徴量が、文字切り出しによる画像の分割に伴って分割
できる種類のもの(入力画像内の局所領域ごとに特徴量
が計算される)であれば、これらの前処理は、特徴抽出
処理とともに、文字切り出し手段2あるいは画像記憶手
段1において行うことにより、入力文字列画像から特徴
を一括抽出することも可能である。
Furthermore, if the feature quantity extracted by the feature extraction processing is of a type that can be divided along with the division of the image by character segmentation (the feature quantity is calculated for each local area in the input image), By performing these pre-processing in the character extracting means 2 or the image storing means 1 together with the feature extracting processing, it is also possible to collectively extract the features from the input character string image.

【0027】特徴抽出処理の一例として、文字線の方向
別の強さを特徴として計算する処理を、図3に示す入力
画像の具体例に即して説明する。
As an example of the feature extraction process, a process of calculating the strength of each character line direction as a feature will be described with reference to a specific example of an input image shown in FIG.

【0028】文字線の方向を縦(90°方向)、横(0
°方向)、斜め(45°及び135°方向)の4段階方
向に取り、それぞれの方向について、また画像を縦4、
横63区間で分割した小領域のそれぞれについて、文字
線の長さを計測する。
The direction of the character line is vertical (90 ° direction) and horizontal (0
° direction) and diagonal (45 ° and 135 ° directions) in four steps, and in each direction,
The length of the character line is measured for each of the small areas divided in the 63 horizontal sections.

【0029】ここで文字線の長さは、該当する方向に連
結する黒画素の数として計測することができる。黒画素
が存在しない領域では、長さは0とすればよい。このよ
うにして、図3に示す、“02062”と書かれた入力
画像から、図4に示すような、文字線の方向に基づいた
特徴パタンが得られる。
Here, the length of the character line can be measured as the number of black pixels connected in the corresponding direction. In a region where no black pixel exists, the length may be set to 0. In this way, a characteristic pattern based on the direction of the character line as shown in FIG. 4 is obtained from the input image written as “02062” shown in FIG.

【0030】図4において、黒色が濃いほど、文字線の
長さに対応する特徴値が大きいことを意味する。また特
徴パタンは縦方向に16の領域に分かれているが、上か
ら4領域ずつが、それぞれ0°、45°、90°、13
5°の方向の特徴値に対応する。
In FIG. 4, the darker the black, the greater the characteristic value corresponding to the length of the character line. The feature pattern is divided into 16 regions in the vertical direction. Four regions from the top are 0 °, 45 °, 90 °, 13
This corresponds to a feature value in the direction of 5 °.

【0031】この特徴のように、画像中の小領域に対応
して特徴の値が定義される特徴量の場合、入力画像中で
の文字の切り出し位置が決まれば、これに伴って、小領
域単位で特徴パタンを分割することができることから、
文字切り出し手段2の上流工程でも特徴抽出処理を行う
ことができる。
In the case of a feature amount in which the value of a feature is defined corresponding to a small area in an image as in this feature, if the cutout position of the character in the input image is determined, the small area Since the feature pattern can be divided in units,
The feature extraction process can be performed also in the upstream process of the character segmenting means 2.

【0032】上述した特徴抽出処理の例は、文字切り出
し手段2での後工程に置くこともできる。さらに、特徴
抽出処理を行わず、入力画像をそのまま一種の特徴とし
て用いるようにしてもよい。
The above-described example of the feature extraction processing can be placed in a later step in the character extracting means 2. Further, the input image may be used as it is as a kind of feature without performing the feature extraction process.

【0033】図2は、本発明の一実施例の処理フローを
説明するための流れ図である。図1及び図2を参照し
て、本発明の一実施例の動作について詳細に説明する。
FIG. 2 is a flowchart for explaining the processing flow of one embodiment of the present invention. The operation of the embodiment of the present invention will be described in detail with reference to FIGS.

【0034】画像はスキャナ等によって光学的に入力さ
れ、画像記憶手段1に格納され、さらに文字切り出し手
段2へ送られる(図2のステップ10)。
The image is optically input by a scanner or the like, stored in the image storage means 1, and sent to the character cutout means 2 (step 10 in FIG. 2).

【0035】文字切り出し手段2は、文字列画像からい
くつかの切り出し位置候補を検出し、その座標情報及び
文字列画像または文字列画像を特徴抽出処理により変換
した特徴パタンを文字列読み取り手段3へ送る(図2の
ステップ11)。
The character cutout means 2 detects some cutout position candidates from the character string image, and sends the coordinate information and the character string image or the characteristic pattern obtained by converting the character string image by the characteristic extraction processing to the character string reading means 3. Send (step 11 in FIG. 2).

【0036】切り出し位置候補の検出には、何らかの図
形的な情報を利用する。図形的な情報としては、例えば
文字列の投影ヒストグラムを計算する。例えば、文字列
が横書きならば縦方向、縦書きならば横方向に投影した
ヒストグラムを計算する。そして、度数があらかじめ設
定したしきい値よりも低い位置を、切り出し位置候補と
する。
Some graphical information is used to detect a cutout position candidate. As the graphic information, for example, a projection histogram of a character string is calculated. For example, if the character string is written horizontally, a histogram projected in the vertical direction is calculated, and if the character string is written vertically, a histogram projected in the horizontal direction is calculated. Then, a position whose frequency is lower than a preset threshold value is set as a cutout position candidate.

【0037】図形的な情報を用いた、別の切り出し手段
として、文字列の輪郭線を追跡してその凹凸を計測し、
凹みがしきい値よりも大きくなる位置を切り出し位置候
補として記憶する、という方法を用いてもよい。
As another cutout means using graphic information, the contour of a character string is tracked and its irregularities are measured.
A method of storing a position where the dent is larger than the threshold value as a cutout position candidate may be used.

【0038】また、複数の図形的特徴を併用して切り出
し位置候補を求める方法を用いてもよい。
Further, a method of obtaining a cutout position candidate using a plurality of graphic features together may be used.

【0039】さらに、切り出し位置候補の検出は、図形
的情報を利用しない方法によっても可能である。例えば
図形的情報を利用しない場合、文字列画像の開始位置の
座標から終了位置の座標までを等間隔に区切り、その区
切り点をすべて切り出し位置候補として記憶する。この
場合、切り出し位置候補としては、例えば想定される文
字数の数倍程度等という具合に、ある程度多数の切り出
し位置候補を記憶する。
Further, the extraction position candidate can be detected by a method not using graphic information. For example, when the graphical information is not used, the coordinates from the coordinates of the start position to the coordinates of the end position of the character string image are equally spaced, and all the separation points are stored as cutout position candidates. In this case, a large number of cutout position candidates are stored as the cutout position candidates, for example, about several times the assumed number of characters.

【0040】文字列読み取り手段3は、文字列画像再構
成処理(図2のステップ12)、文字列認識(図2のス
テップ16)、及び結果比較評価(図2のステップ1
7)の各処理を行う。
The character string reading means 3 performs character string image reconstruction processing (step 12 in FIG. 2), character string recognition (step 16 in FIG. 2), and result comparison and evaluation (step 1 in FIG. 2).
Perform each process of 7).

【0041】すなわち文字切り出し手段2より受け取っ
た文字列画像または文字列画像を特徴抽出処理により変
換した特徴パタン、及び切り出し位置候補の座標情報を
受け取り、切り出し位置で切り出されたあらゆる文字パ
タン候補について文字認識手段4を用いて文字認識を行
い、その認識結果と認識スコアを記憶する。
That is, the character string image received from the character extracting means 2 or the characteristic pattern obtained by converting the character string image by the characteristic extracting process and the coordinate information of the extracting position candidate are received, and the character pattern is extracted for all the character pattern candidates extracted at the extracting position. Character recognition is performed using the recognition means 4, and the recognition result and the recognition score are stored.

【0042】そして、文字列全体としてもっとも認識ス
コアが高く、かつ重複や読み飛ばしのない文字パタン候
補列の認識結果を、文字列の読み取り結果として選び出
して出力する。
Then, a recognition result of a character pattern candidate string having the highest recognition score as a whole and having no duplication or skipping is selected and output as a character string reading result.

【0043】最適な読み取り結果の検索手順については
後述する。
The procedure for searching for the optimum reading result will be described later.

【0044】文字列読み取り手段3が文字認識手段4に
文字パタン候補を送る際、該当する文字パタン候補に加
え、その直前の文字パタン候補も送る。
When the character string reading means 3 sends a character pattern candidate to the character recognizing means 4, it sends not only the corresponding character pattern candidate but also the character pattern candidate immediately before it.

【0045】文字認識手段4は、これら隣接する2つの
文字パタン候補を考慮して該当する文字パタン候補の文
字認識処理を行う。
The character recognizing means 4 performs a character recognizing process of the corresponding character pattern candidate in consideration of these two adjacent character pattern candidates.

【0046】文字認識手段4は、文字列読み取り手段3
より、隣接する2つの文字パタン候補を受け取り、後者
に関する文字認識処理を行い、文字認識結果(字種)及
び文字認識スコアを計算し、文字列読み取り手段3に返
す。
The character recognizing means 4 includes the character string reading means 3
Then, two adjacent character pattern candidates are received, character recognition processing for the latter is performed, a character recognition result (character type) and a character recognition score are calculated, and the result is returned to the character string reading means 3.

【0047】ここで、文字認識手段4が文字列読み取り
手段3から、隣接する2つの文字パタン候補Xi−1、
Xiを受け取ったとすると、Xiの文字認識結果wi
は、字種がw、直前の文字パタンがXi−1であるとい
う条件の下で文字パタンXiが生起する確率P(Xi|
Xi−1,w)を最大にするwとして決定される。
Here, the character recognizing means 4 sends two adjacent character pattern candidates Xi-1,
If Xi is received, the character recognition result wi of Xi
Is the probability P (Xi |) that the character pattern Xi occurs under the condition that the character type is w and the character pattern immediately before is Xi-1.
Xi−1, w) is determined as w that maximizes Xi−1, w).

【0048】また、その際の文字認識スコアは、P(X
i|Xi−1,wi)として計算される。
The character recognition score at that time is P (X
i | Xi-1, wi).

【0049】確率P(Xi|Xi−1,w)の実際の計
算では、P(Xi|Xi−1,w)を直接計算せずに、 P(Xi−1,Xi|w)/P(Xi−1) …(5) という近似値を求める。
In the actual calculation of the probability P (Xi | Xi−1, w), P (Xi | Xi−1, w) is not directly calculated, but P (Xi−1, Xi | w) / P ( Xi-1)... (5)

【0050】この近似値の計算において、分子(被除
数)P(Xi−1,Xi|w)は、隣接する2文字パタ
ンのうちの2文字目の字種がwであるという条件で隣接
する2文字のパタンがXi−1,Xiとして生起する確
率であり、これは隣接2文字辞書格納手段5に記憶され
た隣接2文字パタンの辞書から、2文字単位のパタンの
マッチング結果として計算される。この処理が、図2の
ステップ13の隣接2文字評価処理に相当する。
In the calculation of the approximate value, the numerator (dividend) P (Xi−1, Xi | w) is calculated based on the condition that the character type of the second character in the adjacent two-character pattern is w. The probability of occurrence of a character pattern as Xi-1, Xi, which is calculated from a dictionary of adjacent two-character patterns stored in the adjacent two-character dictionary storage unit 5 as a matching result of a pattern in units of two characters. This processing corresponds to the adjacent two-character evaluation processing in step 13 in FIG.

【0051】一方、分母(除数)P(Xi−1)は、事
前知識なしの状態で文字パタンXi−1が観測される確
率であり、これは、1文字辞書格納手段6より、1文字
単位のパタンのマッチングとして計算される。この処理
が、図2のステップ14の1文字評価処理に相当する。
On the other hand, the denominator (divisor) P (Xi-1) is the probability that the character pattern Xi-1 is observed without prior knowledge, and is calculated from the one-character dictionary storage means 6 in units of one character. Is calculated as the pattern matching of This processing corresponds to the one-character evaluation processing in step 14 in FIG.

【0052】文字認識手段4は、隣接2文字辞書格納手
段5、及び、1文字辞書格納手段6より得られた、それ
ぞれの数値の比として、文字認識スコア、 P(Xi|Xi−1,wi)≒P(Xi−1,Xi|w)/P(Xi−1) …(6) を得る。この処理が、図2のステップ15の文字認識処
理に相当する。
The character recognizing means 4 calculates a character recognition score, P (Xi | Xi-1, wi) as a ratio of respective numerical values obtained from the adjacent two-character dictionary storing means 5 and the one-character dictionary storing means 6. ) ≒ P (Xi−1, Xi | w) / P (Xi−1) (6) This processing corresponds to the character recognition processing in step 15 in FIG.

【0053】文字列読み取り手段3の動作についてより
詳しく説明する。文字列読み取り手段3は、文字切り出
し手段2より受け取った文字列画像または文字列画像を
特徴抽出処理により変換した特徴パタン、及び切り出し
位置候補の座標情報を用いて、文字列の文字パタン候補
へのあらゆる分割の仕方を列挙する。この処理は、図2
のステップ12の文字列画像再構成処理に相当する。
The operation of the character string reading means 3 will be described in more detail. The character string reading unit 3 converts the character string into a character pattern candidate using the character string image received from the character cutting unit 2 or the characteristic pattern obtained by converting the character string image by the characteristic extraction processing and the coordinate information of the cutout position candidate. List all ways of division. This process is shown in FIG.
Corresponds to the character string image reconstruction processing in step 12 of FIG.

【0054】例えば、入力画像から4つの切り出し位置
候補が得られているとすると、入力画像は、パタン1、
パタン2、パタン3、パタン4、パタン5という5つの
部分パタンに分割できる。
For example, if four cutout position candidates are obtained from the input image, the input image is
It can be divided into five partial patterns: pattern 2, pattern 3, pattern 4, and pattern 5.

【0055】これに対して、文字数2を仮定すると、
(1|2,3,4,5)、(1,2|3,4,5)、
(1,2,3|4,5)、(1,2,3,4|5)とい
う4通りの分割があり得る。
On the other hand, assuming that the number of characters is 2,
(1 | 2,3,4,5), (1,2 | 3,4,5),
There can be four types of divisions, (1,2,3 | 4,5) and (1,2,3,4 | 5).

【0056】また文字数3を仮定すると、(1|2|
3,4,5)、(1|2,3|4,5)、(1|2,
3,4|5)、(1,2|3|4,5)、(1,2|
3,4|5)、(1,2,3|4|5)の計6通りの分
割があり得る。
Assuming that the number of characters is 3, (1 | 2 |
3, 4, 5), (1 | 2, 3 | 4, 5), (1 | 2,
3,4 | 5), (1,2 | 3 | 4,5), (1,2 |
There can be a total of six divisions of (3, 4 | 5) and (1, 2, 3 | 4 | 5).

【0057】ただし、ここでは、入力画像の分割位置を
“|”で表している。
Here, the division position of the input image is represented by "|".

【0058】例えば(1,2|3|4,5)は、部分パ
タン1、2が1文字目に、部分パタン3が2文字目に、
部分パタン4、5が3文字目に割り当てられるように、
入力画像を分割(グループ分け)することを意味する。
For example, (1,2 | 3 | 4,5) indicates that partial patterns 1 and 2 are the first character, partial pattern 3 is the second character,
As partial patterns 4 and 5 are assigned to the third character,
This means that the input image is divided (grouped).

【0059】このようにして想定される文字数につい
て、あらゆる分割の仕方を網羅して文字パタン候補の列
を生成し、それぞれについて、文字列全体での読み取り
スコアを計算する。この処理は、図2のステップ16の
文字列認識処理に相当する。
In this way, a string of character pattern candidates is generated for all possible divisions for the assumed number of characters, and the reading score of the entire character string is calculated for each. This processing corresponds to the character string recognition processing in step 16 in FIG.

【0060】読み取りスコアは、各文字パタン候補の認
識スコアの積、すなわち、 P(X1|w1)×P(X2|X1,w2)×P(X3
|X2,w3)×…×P(Xn|Xn−1,wn) と計算する。ここで、nは文字数である。
The read score is the product of the recognition scores of each character pattern candidate, that is, P (X1 | w1) × P (X2 | X1, w2) × P (X3
| X2, w3) ×... × P (Xn | Xn−1, wn). Here, n is the number of characters.

【0061】想定される文字数及び字種について、それ
ぞれ読み取りスコアを計算し、読み取りスコアが最大と
なる認識結果w1、w2、…、wnが、読み取り結果と
して出力される。この処理は、図2のステップ17の結
果比較評価処理に相当する。
The reading score is calculated for each of the assumed number of characters and the character type, and the recognition results w1, w2,..., Wn that maximize the reading score are output as the reading results. This processing corresponds to the result comparison evaluation processing of step 17 in FIG.

【0062】最初の文字のスコアP(X1|w1)につ
いては、直前に文字パタン候補が存在しないので、文字
認識手段4が1文字辞書を用いて計算する。
As for the score P (X1 | w1) of the first character, since there is no character pattern candidate immediately before, the character recognizing means 4 calculates using the one-character dictionary.

【0063】なお、ここでは、読み取りスコアは、確率
として扱っているので、各文字パタン候補の認識スコア
の積を全体のスコアとしているが、確率とみなせないス
コア(例えば対数確率や、テンプレートからの距離)を
扱う場合には、積ではなく、和を用いてもよい。
In this case, since the read score is treated as a probability, the product of the recognition scores of the respective character pattern candidates is used as the overall score. However, a score that cannot be regarded as a probability (for example, a logarithmic probability or a template from the template). When dealing with (distance), a sum may be used instead of a product.

【0064】また、文字の並びに言語的な制約がある場
合には、適宜この制約を利用する。例えば、文字Aの直
後に文字Bが続く確率P(B|A)が、統計的な分析か
ら既知であるような場合には、この確率を読み取りスコ
アに反映させ、 P(X1|w1)P(w1)×P(X2|X1,w2)
P(w2|w1)×P(X3|X2,w3)P(w3|
w2)×…×P(Xn|Xn−1,wn)P(wn|w
n−1) というようにスコアを計算する。
In addition, when there are linguistic restrictions on the arrangement of characters, these restrictions are appropriately used. For example, if the probability P (B | A) that the character B immediately follows the character A is known from statistical analysis, this probability is reflected in the read score, and P (X1 | w1) P (W1) × P (X2 | X1, w2)
P (w2 | w1) × P (X3 | X2, w3) P (w3 |
w2) × ... × P (Xn | Xn−1, wn) P (wn | w
n-1) The score is calculated as follows.

【0065】あるいは、文字列が限られた何種類かの単
語のうちの1つであることがわかっている場合は、それ
ぞれの単語の文字並びのみを想定して、読み取りスコア
を計算すればよい。
Alternatively, if the character string is known to be one of several types of limited words, the reading score may be calculated by assuming only the character arrangement of each word. .

【0066】文字列読み取り手段3は、動的計画法(D
ynamic Programming)に基づき、効率的に、最適解を
得るようにしてもよい。この動的計画法を用いた例につ
いて説明する。ここでは、T−1個の切り出し位置候補
が検出され、入力文字列画像をT個の部分パタンに分割
することができるものとする。
The character string reading means 3 uses the dynamic programming method (D
Based on dynamic programming, an optimal solution may be efficiently obtained. An example using this dynamic programming will be described. Here, it is assumed that T-1 cutout position candidates are detected and the input character string image can be divided into T partial patterns.

【0067】また1番目の部分パタンからi番目の部分
パタンまでを1文字目からk文字目までに対応させ、か
つ1番目の部分パタンからj番目の部分パタンまでを1
文字目から(k−1)文字目までに対応させた場合の、
k文字分の読み取りスコアをA(k,i,j)とする。
The first partial pattern to the i-th partial pattern correspond to the first to k-th characters, and the first partial pattern to the j-th partial pattern correspond to one to one.
In the case where the characters from the first character to the (k-1) th character are used,
A reading score for k characters is A (k, i, j).

【0068】このとき、最初の1文字目に関するスコア
A(1,i,j)は、文字認識手段4により、P(部分
パタン1〜i|w)のwに関する最大値として計算でき
る。
At this time, the score A (1, i, j) relating to the first character can be calculated by the character recognizing means 4 as the maximum value relating to w of P (partial patterns 1 to i | w).

【0069】2文字目以降のスコアA(k,i,j)
(k>1)については式(7)に示す漸化式で順次計算
できる。
Score A (k, i, j) for the second and subsequent characters
(K> 1) can be sequentially calculated by the recurrence formula shown in Expression (7).

【0070】ただし、X(j+1,i)はj+1番目の
部分パタンからi番目の部分パタンまでを合わせて作ら
れた部分パタンである。またB(k,i,j)及びC
(k,i,j)はそれぞれj+1番目の部分パタンから
i番目の部分パタンまでをk文字目として使用した場合
の、k−1文字目の開始位置及びk文字目の字種であ
る。
Note that X (j + 1, i) is a partial pattern created by combining the (j + 1) -th partial pattern to the i-th partial pattern. B (k, i, j) and C
(K, i, j) are the start position of the (k-1) th character and the character type of the kth character when the jth partial pattern to the ith partial pattern are used as the kth character.

【0071】上記漸化式によって、ひとたび、最大スコ
アA(n,T,jmax)=maxjA(n,T,j)が求
められれば、n文字目の字種は、wn=C(n,T,j
max)、n文字目の開始位置はjmaxとなる。
Once the maximum score A (n, T, j max ) = max j A (n, T, j) is obtained by the above recurrence formula, the character type of the n-th character is wn = C ( n, T, j
max ), the start position of the n-th character is j max .

【0072】またn−1文字目の開始位置は、B(n,
T,jmax)、n−1文字目の字種はC(n−1,
max,B(n,T,jmax))というように、後方へと
順次求められる。
The start position of the (n-1) th character is B (n,
T, j max ) and the character type of the (n−1) th character is C (n−1,
j max , B (n, T, j max )) are sequentially obtained backward.

【0073】切り出し位置候補を少数に限定せず、等間
隔に多数設定する場合には、このようにして、最適な読
み取り結果を効率よく検索できる。
When a large number of cutout position candidates are set at equal intervals without being limited to a small number, an optimum reading result can be efficiently searched in this way.

【0074】この場合、図2のステップ12の文字列画
像再構成、ステップ15の文字認識、ステップ16の文
字列認識、ステップ17の結果比較評価、及び、ステッ
プ13の隣接2文字評価、ステップ14の1文字評価が
並行して処理されるため、効率よく読み取り結果を検索
できる。
In this case, the character string image reconstruction in step 12 in FIG. 2, the character recognition in step 15, the character string recognition in step 16, the result comparison and evaluation in step 17, the evaluation of two adjacent characters in step 13, and step 14 Are processed in parallel, so that the reading result can be searched efficiently.

【0075】次に、隣接2文字辞書格納手段5に格納さ
れる隣接2文字辞書の構成手順について説明する。
Next, the procedure for constructing an adjacent two-character dictionary stored in the adjacent two-character dictionary storage means 5 will be described.

【0076】隣接2文字辞書は、文字列画像データから
抽出された隣接する2文字の画像データを学習データと
した事前学習により構成される。
The adjacent two-character dictionary is formed by pre-learning using image data of adjacent two characters extracted from character string image data as learning data.

【0077】まず、隣接2文字画像データを、1文字目
の字種が何であるかにかかわらず、2文字の字種で分類
して、字種数に等しい数のデータセットを作成する。
First, regardless of the character type of the first character, the adjacent two-character image data is classified according to the character type of the two characters, and a data set having a number equal to the number of character types is created.

【0078】2文字目の字種がaである隣接2文字画像
を集めたデータセットに正解aを、2文字目の字種がb
である隣接2文字画像を集めたデータセットに正解b
を、という具合に、すべてのデータに、2文字目の字種
を、正解として付与する。以降は、通常の1文字のデー
タと同様にパタンの学習を行う。
A correct a is set in a data set obtained by collecting adjacent two-character images whose character type is a, and the second character type is b.
Is a correct answer to the data set of two adjacent character images
, Etc., the character type of the second character is given as a correct answer to all data. Thereafter, pattern learning is performed in the same manner as for normal one-character data.

【0079】例えば、文字認識手段4に、隠れマルコフ
モデル(Hidden Markov Model;HMM)を用いる場
合には、例えば文献「1995年、ローレンス・ラビナ
ー他著、古井監訳、音声認識の基礎(下)、NTTアド
バンステクノロジ株式会社、第128〜138頁」に示
されているように、Baum−Welchアルゴリズム
によって、字種a、b、…それぞれについて1つのHM
Mのパラメータを推定して辞書を構成する。
For example, when a Hidden Markov Model (HMM) is used for the character recognition means 4, for example, the reference “1995, Lawrence Rabbiner et al., Translated by Furui, the basics of speech recognition (below), As shown in "NTT Advanced Technology Co., Ltd., pp. 128-138", one HM is used for each of the character types a, b,... By the Baum-Welch algorithm.
A dictionary is constructed by estimating M parameters.

【0080】1文字辞書格納手段6に格納される1文字
辞書の構成手順について説明する。1文字辞書は、事前
知識なしで部分パタンXが生起する確率P(X)を計算
するための辞書と、字種wから文字が現れるという条件
の下にXというパタンが生起する確率P(X|w)を計
算するための辞書と、を含む。
The procedure for constructing the one-character dictionary stored in the one-character dictionary storage means 6 will be described. The one-character dictionary is a dictionary for calculating the probability P (X) of the occurrence of the partial pattern X without prior knowledge and the probability P (X) of the occurrence of the pattern X under the condition that a character appears from the character type w. | W) to calculate | w).

【0081】まず、P(X)を計算する辞書について
は、1文字ずつ切り出された個別文字画像を字種によら
ず、すべて集めたデータセットを作成し、それにより1
つの辞書を作成する。
First, as for the dictionary for calculating P (X), a data set is created by collecting all the individual character images cut out one by one regardless of the character type.
Create two dictionaries.

【0082】そして、前述と同様、隠れマルコフモデル
を用いる場合は、作成したデータセットを用いて、Ba
um−Welch(バウム・ウェルチ)アルゴリズムを
実行して、1つのHMMのパラメータを推定して辞書を
構成する。
As described above, when the hidden Markov model is used, the created data set is used
The um-Welch algorithm is executed to estimate parameters of one HMM and construct a dictionary.

【0083】次に、P(X|w)を計算するための辞書
は、直前の文字パタンが存在しない1文字目の認識スコ
アを計算するための辞書であるが、これはP(X)を計
算する辞書の学習に使った個別文字画像のデータセット
を字種別に分類し、各々の字種についてHMMのパラメ
ータを推定し、字種数分のHMMを構成することにより
辞書を作成する。
Next, the dictionary for calculating P (X | w) is a dictionary for calculating the recognition score of the first character having no preceding character pattern. Data sets of individual character images used for learning the dictionary to be calculated are classified into character types, HMM parameters are estimated for each character type, and a HMM for the number of character types is constructed to create a dictionary.

【0084】隣接2文字辞書及び1文字辞書は、正解付
けされた任意文字数の文字列画像を学習データとして、
自動的に構成するようにしてもよい。この手順について
説明する。
The adjacent two-letter dictionary and the one-letter dictionary use a character string image of an arbitrary number of correct characters as learning data.
It may be configured automatically. This procedure will be described.

【0085】まず、隣接2文字辞書及び1文字辞書を特
徴づけるパラメータの初期値を適当に定める。文字切り
出し手段2を用いて学習用の文字列画像データから切り
出し位置候補を検出し、文字列読み取り手段3、文字認
識手段4及び初期辞書を用いて、最適な切り出し位置を
求める。
First, initial values of parameters characterizing the adjacent two-character dictionary and the one-character dictionary are appropriately determined. A candidate cutout position is detected from the character string image data for learning using the character cutout means 2, and an optimum cutout position is obtained using the character string reading means 3, the character recognition means 4, and the initial dictionary.

【0086】この際、学習用の文字列画像データにはす
でに正解が付与されているので、w1、w2、…、wn
に関しては固定で最適なスコアを探索すればよい。これ
によって、暫定的な文字切り出し位置が定まり、個別に
文字切り出され正解付けされたデータが得られる。これ
を用いて、1文字辞書及び隣接2文字辞書を前述の手順
に従って構成すればよい。そして、これ以降、新しく構
成された辞書を用いて、再び、文字切り出し手段2、文
字列読み取り手段3、文字認識手段4を起動して、個別
に切り出された文字データを得、これらを用いて辞書を
再構成する、という一連の処理の繰り返しを任意回数行
えばよい。
At this time, since a correct answer has already been given to the character string image data for learning, w1, w2,.
For, a fixed and optimum score may be searched for. As a result, a provisional character cutout position is determined, and character cutout data that is individually cut out and obtained as a correct answer is obtained. Using this, the one-character dictionary and the adjacent two-character dictionary may be configured according to the above-described procedure. Thereafter, using the newly constructed dictionary, the character extracting means 2, the character string reading means 3, and the character recognizing means 4 are activated again to obtain individually extracted character data. A series of processing of reconstructing a dictionary may be repeated an arbitrary number of times.

【0087】なお、ここでは、初期辞書のパラメータを
適当に定め、次に個別文字データを生成するという手順
について説明したが、これを逆の順序で開始してもよ
い。すなわち、最初に適当な切り出し位置で文字を切り
出し、これら個別文字データを学習データとして、初期
辞書を構成してもよい。ひとたび辞書が構成されれば、
以降の手続きは同様である。
Although the procedure of appropriately defining the parameters of the initial dictionary and then generating the individual character data has been described, the procedure may be started in the reverse order. That is, first, characters may be cut out at an appropriate cut-out position, and these individual character data may be used as learning data to form an initial dictionary. Once a dictionary has been constructed,
The subsequent procedure is the same.

【0088】次に、本発明の第二の実施例について説明
する。図1を参照すると、本実施例は、入力された文字
列画像を光学センサで取り込んで格納する画像記憶手段
1と、画像記憶手段1より受け取った文字列画像より隣
接文字間の境界の候補を切り出し位置候補として検出す
る文字切り出し手段2と、いくつかの切り出し位置候補
を選んで文字列画像を分割した際の個々の個別文字パタ
ンについて文字認識処理を呼び出して文字列全体として
の認識スコアを計算し、最適な切り出し及び認識結果を
文字列の読み取り結果として出力する文字列読み取り手
段3と、文字列読み取り手段3の要求に応じて文字パタ
ンに認識処理を施し、1つの字種と認識スコアを返す文
字認識手段4と、単一文字パタンの出現しやすさのスコ
アを計算する1文字辞書格納手段5と、隣り合う2文字
に相当するパタンを用いて2文字目の字種と認識スコア
を計算する隣接2文字辞書格納手段6とを備えている。
各々の手段はそれぞれ計算機上の主記憶装置に記憶され
たプログラムを実行させることによって実現可能であ
る。
Next, a second embodiment of the present invention will be described. Referring to FIG. 1, in the present embodiment, an image storage unit 1 that captures an input character string image by an optical sensor and stores it, and a candidate for a boundary between adjacent characters is determined from the character string image received from the image storage unit 1. Character extraction means 2 for detecting as a cutout position candidate, and character recognition processing is called for each individual character pattern when a character string image is divided by selecting some cutout position candidates to calculate a recognition score of the entire character string Then, a character string reading means 3 for outputting an optimal cutout and recognition result as a character string reading result, and performing a recognition process on a character pattern in response to a request from the character string reading means 3 to determine one character type and a recognition score. A character recognition unit 4 to be returned, a one-character dictionary storage unit 5 for calculating a score of the likelihood of appearance of a single character pattern, and a pattern corresponding to two adjacent characters are used. And a neighboring 2 character dictionary storage unit 6 for calculating a recognition score 2 character of character types.
Each means can be realized by executing a program stored in a main storage device on the computer.

【0089】なお、初期辞書のパラメータを適当に定
め、次に個別文字データを生成するという手順を述べた
が、これを逆の順序で開始してもよい。すなわち、最初
に適当な切り出し位置で文字を切り出し、それら個別文
字データを学習データとして初期辞書を構成してもよ
い。ひとたび辞書が構成されれば、以降の手続きは同様
である。また、入力文字列画像を読み取りに適した特徴
パタンに変換する特徴抽出処理を文字列読み取り処理過
程に挿入してもよい点についても、本発明の第一の実施
例で述べた通りである。
Although the procedure has been described in which the parameters of the initial dictionary are appropriately determined, and then the individual character data is generated, the procedure may be started in the reverse order. That is, first, characters may be cut out at an appropriate cut-out position, and the initial dictionary may be configured using the individual character data as learning data. Once the dictionary is constructed, the subsequent procedures are the same. Further, as described in the first embodiment of the present invention, a feature extraction process for converting an input character string image into a feature pattern suitable for reading may be inserted into the character string reading process.

【0090】本発明の第2の実施例について、図2の流
れ図を参照しながら、段階を追って説明する。
The second embodiment of the present invention will be described step by step with reference to the flowchart of FIG.

【0091】図2において、ステップ10、11の画像
読み込み及び文字切り出しの動作は、前記第一の実施例
と同様である。すなわち、画像記憶手段1及び文字切り
出し手段2により、文字列画像の入力及び文字パタンの
抽出が行われる。
In FIG. 2, the operations of reading images and extracting characters in steps 10 and 11 are the same as those in the first embodiment. That is, the input of the character string image and the extraction of the character pattern are performed by the image storage unit 1 and the character cutout unit 2.

【0092】文字列読み取り手段3は、図2の流れ図で
は、ステップ12の文字列画像再構成処理12、ステッ
プ16の文字列認識、ステップ17の結果比較評価処理
の各処理を実行するものであり、文字切り出し手段2よ
り受け取った文字列画像または文字列画像を特徴抽出処
理により変換した特徴パタン、及び切り出し位置候補の
座標情報を受け取り、切り出し位置で切り出されたあら
ゆる文字パタン候補について、文字認識手段4を用いて
文字認識を行い、その認識結果と、認識スコアを記憶す
る。
In the flowchart of FIG. 2, the character string reading means 3 executes the character string image reconstruction processing 12 in step 12, the character string recognition in step 16, and the result comparison and evaluation processing in step 17. Receiving the character string image received from the character extracting means 2 or the characteristic pattern obtained by converting the character string image by the characteristic extraction processing, and the coordinate information of the extracting position candidate, and recognizing the character pattern of any character pattern candidate extracted at the extracting position. 4 to perform character recognition, and store the recognition result and the recognition score.

【0093】そして、文字列全体として、最も認識スコ
アが高く、かつ重複や読み飛ばしのない文字パタン候補
列の認識結果を、文字列の読み取り結果として選び出し
て出力する。最適な読み取り結果の検索手順については
後述する。
Then, the recognition result of the character pattern candidate string having the highest recognition score as a whole and having no duplication or skipping is selected and output as the character string reading result. The search procedure for the optimum reading result will be described later.

【0094】文字列読み取り手段3が文字認識手段4に
文字パタン候補を送る際、該当する文字パタン候補に加
えて、その直前の文字パタン候補も送る。
When the character string reading means 3 sends a character pattern candidate to the character recognizing means 4, in addition to the corresponding character pattern candidate, it also sends the immediately preceding character pattern candidate.

【0095】文字認識手段4は、これら隣接する2つの
文字パタン候補を考慮して、該当する文字パタン候補の
文字認識処理を行う。文字認識手段4では、文字列読み
取り手段3より、隣接する2つの文字パタン候補を受け
取り、あらゆる2文字の文字カテゴリの組合せを仮定し
て、1番目の文字パタンの発生を考慮した場合の2番目
の文字パタンの認識スコアを計算し、文字列読み取り手
段3に返す。
The character recognizing means 4 performs a character recognizing process of the corresponding character pattern candidate in consideration of these two adjacent character pattern candidates. The character recognizing means 4 receives two adjacent character pattern candidates from the character string reading means 3 and assumes the combination of any two character character categories, and considers the occurrence of the first character pattern as the second character pattern. The recognition score of the character pattern is calculated and returned to the character string reading means 3.

【0096】ここで、文字認識手段4が文字列読み取り
手段3から、隣接する2つの文字パタン候補Xi−1、
Xiを受け取ったとすると、文字認識手段4は、パタン
Xiの属する文字カテゴリwiと、パタンは、字種パタ
ンXi−1の属する文字カテゴリwi−1のあらゆる組
合せについて、直前の文字パタンがカテゴリwi−1に
属するXi−1であり、かつ、着目する文字パタンがカ
テゴリwiに属する確率P(Xi|Xi−1,wi−
1,wi)を計算する。
Here, the character recognizing means 4 sends two adjacent character pattern candidates Xi-1 from the character string reading means 3 to each other.
Assuming that Xi has been received, the character recognizing means 4 determines that the character pattern wi to which the pattern Xi belongs and the character pattern wi-1 to which the character type pattern Xi-1 belongs, for each combination of the character category wi-1 and the immediately preceding character pattern wi- 1 and the probability P (Xi | Xi−1, wi−) that the character pattern of interest belongs to the category wi.
1, wi).

【0097】実際の確率の計算では、P(Xi|Xi−
1,wi−1,wi)を直接計算せずに、 P(Xi−1,Xi|wi−1,wi)/P(Xi−1|wi−1) …(8 ) という近似値を求める。
In the calculation of the actual probability, P (Xi | Xi−
1, (wi-1, wi) is not directly calculated, but an approximate value of P (Xi-1, Xi | wi-1, wi) / P (Xi-1 | wi-1) (8) is obtained.

【0098】この近似値の計算において、分子P(Xi
−1,Xi|wi−1,wi)は、隣接する2文字パタ
ンのうちの1文字目の字種がwi−1、2文字目の字種
がwiであるという条件で隣接する2文字のパタンがX
i−1,Xiとして生起する確率であり、これは隣接2
文字辞書格納手段5に記憶された隣接2文字パタンの辞
書から、2文字単位のパタンのマッチング結果として計
算される。この処理が図2のステップ13の隣接2文字
評価処理に相当する。
In the calculation of the approximate value, the numerator P (Xi
−1, Xi | wi−1, wi) are the two characters adjacent to each other on the condition that the character type of the first character of the two adjacent character patterns is wi-1, and the character type of the second character is wi. The pattern is X
i-1, Xi, which is the probability of occurrence
It is calculated from the dictionary of adjacent two-character patterns stored in the character dictionary storage unit 5 as a pattern matching result in units of two characters. This processing corresponds to the adjacent two-character evaluation processing in step 13 in FIG.

【0099】一方、分母P(Xi−1|wi−1)は、
文字カテゴリwi−1を仮定した場合に文字パタンXi
−1が観測される確率であり、これは1文字辞書格納手
段6より、1文字単位のパタンのマッチングとして計算
される。これは図2のステップ14の1文字評価処理に
相当する。
On the other hand, the denominator P (Xi-1 | wi-1) is
When character category wi-1 is assumed, character pattern Xi
-1 is the probability of being observed, and is calculated by the one-character dictionary storage means 6 as pattern matching for each character. This corresponds to the one-character evaluation process in step 14 of FIG.

【0100】文字認識手段4は、隣接2文字辞書格納手
段5、及び1文字辞書格納手段6より得られたそれぞれ
の数値の比として、文字認識スコア、 P(Xi|Xi−1,wi)≒P(Xi−1,Xi|w)/P(Xi−1) …(9) を得る。この処理は、図2のステップ15の文字認識処
理に相当する。
The character recognizing means 4 calculates a character recognition score, P (Xi | Xi-1, Wi) ≒, as a ratio of respective numerical values obtained from the adjacent two-character dictionary storing means 5 and the one-character dictionary storing means 6. P (Xi-1, Xi | w) / P (Xi-1) (9) is obtained. This processing corresponds to the character recognition processing in step 15 in FIG.

【0101】文字列読み取り手段3の動作についてより
詳しく説明する。文字列読み取り手段3は、文字切り出
し手段2より受け取った文字列画像または文字列画像を
特徴抽出処理により変換した特徴パタン、及び切り出し
位置候補の座標情報を用いて、文字列の文字パタン候補
へのあらゆる分割の仕方を列挙する。これは図2のステ
ップ12の文字列画像再構成処理に相当する。
The operation of the character string reading means 3 will be described in more detail. The character string reading unit 3 converts the character string into a character pattern candidate using the character string image received from the character cutting unit 2 or the characteristic pattern obtained by converting the character string image by the characteristic extraction processing and the coordinate information of the cutout position candidate. List all ways of division. This corresponds to the character string image reconstruction processing in step 12 in FIG.

【0102】例えば、入力画像から4つの切り出し位置
候補が得られているとすると、入力画像はパタン1,パ
タン2,パタン3,パタン4,パタン5という5つの部
分パタンに分割できる。
For example, assuming that four cutout position candidates are obtained from the input image, the input image can be divided into five partial patterns of pattern 1, pattern 2, pattern 3, pattern 4, and pattern 5.

【0103】これに対して、文字数2を仮定すると、
(1|2,3,4,5)、(1,2|3,4,5)、
(1,2,3|4,5)、(1,2,3,4|5)とい
う4通りの分割があり得る。
On the other hand, assuming that the number of characters is 2,
(1 | 2,3,4,5), (1,2 | 3,4,5),
There can be four types of divisions, (1,2,3 | 4,5) and (1,2,3,4 | 5).

【0104】また文字数3を仮定すると、 (1|2|3,4,5)、(1|2,3|4,5)、
(1|2,3,4|5)、(1,2|3|4,5)、
(1,2|3,4|5)、(1,2,3|4|5) という6通りの分割があり得る。ただしここでは入力画
像の分割位置を“|”で表している。
Assuming that the number of characters is 3, (1 | 2 | 3,4,5), (1 | 2,3 | 4,5),
(1 | 2,3,4 | 5), (1,2 | 3 | 4,5),
There are six possible divisions, (1,2 | 3,4 | 5) and (1,2,3 | 4 | 5). However, here, the division position of the input image is represented by “|”.

【0105】例えば(1,2|3|4,5)は、部分パ
タン1,2が1文字目に、部分パタン3が2文字目に、
部分パタン4,5が3文字目に割り当てられるように入
力画像を分割(グループ分け)することを意味する。
For example, (1,2 | 3 | 4,5) means that partial patterns 1 and 2 are the first character, partial pattern 3 is the second character,
This means that the input image is divided (grouped) so that the partial patterns 4 and 5 are assigned to the third character.

【0106】このようにして想定される文字数につい
て、あらゆる分割の仕方を網羅して文字パタン候補の列
を生成し、それぞれについて文字列全体での読み取りス
コアを計算する。これは図2のステップの文字列認識処
理に相当する。
In this way, for the assumed number of characters, a string of character pattern candidates is generated covering all division methods, and the reading score of the entire character string is calculated for each. This corresponds to the character string recognition process in the step of FIG.

【0107】読み取りスコアは、各文字パタン候補の認
識スコアの積、すなわち P(X1|w1)×P(X2|X1,w1,w2)×P
(X3|X2,w2,w3)×…×P(Xn|Xn−
1,wn−1,wn) と計算する。ここで、nは文字数である。
The read score is the product of the recognition scores of each character pattern candidate, that is, P (X1 | w1) × P (X2 | X1, w1, w2) × P
(X3 | X2, w2, w3) ×... P (Xn | Xn−
1, wn-1, wn). Here, n is the number of characters.

【0108】想定される文字数及び字種について、それ
ぞれ読み取りスコアを計算し、読み取りスコアが最大と
なる認識結果w1,w2,…,wnが読み取り結果とし
て出力される。この処理は、図2のステップの結果比較
評価処理に相当する。
A reading score is calculated for each of the assumed number of characters and character types, and the recognition results w1, w2,..., Wn with the maximum reading score are output as the reading results. This processing corresponds to the result comparison and evaluation processing of the step in FIG.

【0109】最初の文字のスコアP(X1|w1)につ
いては、直前に文字パタン候補が存在しないので、文字
認識手段4が1文字辞書を用いて計算する。
As for the score P (X1 | w1) of the first character, since there is no character pattern candidate immediately before, the character recognizing means 4 calculates using the one-character dictionary.

【0110】なお、読み取りスコアは、ここでは、確率
として扱っているので、各文字パタン候補の認識スコア
の積を全体のスコアとしているが、確率とみなせないス
コア(対数確率やテンプレートからの距離)を扱う場合
は、積ではなく、和を用いてもよい。
Since the read score is treated as a probability here, the product of the recognition scores of each character pattern candidate is used as the overall score, but a score that cannot be regarded as a probability (log probability or distance from the template) , A sum may be used instead of a product.

【0111】また、文字の並びに言語的な制約がある場
合には、適宜この制約を利用する。例えば、文字Aの直
後に文字Bが続く確率P(B|A)が、統計的な分析か
ら既知であるような場合には、これを読み取りスコアに
反映させて、 P(X1|w1)P(w1)×P(X2|X1,w2)
P(w2|w1)×P(X3|X2,w3)P(w3|
w2)×…×P(Xn|Xn−1,wn)P(wn|w
n−1) というようにスコアを計算する。
If there are linguistic restrictions on the arrangement of characters, these restrictions are appropriately used. For example, when the probability P (B | A) that the character B immediately follows the character A is known from the statistical analysis, this is reflected in the read score, and P (X1 | w1) P (W1) × P (X2 | X1, w2)
P (w2 | w1) × P (X3 | X2, w3) P (w3 |
w2) × ... × P (Xn | Xn−1, wn) P (wn | w
n-1) The score is calculated as follows.

【0112】あるいは、文字列が限られた何種類かの単
語のうちの1つであることがわかっている場合には、そ
れぞれの単語の文字並びのみを想定して読み取りスコア
を計算すればよい。
Alternatively, if the character string is known to be one of a limited number of words, the reading score may be calculated by assuming only the character arrangement of each word. .

【0113】文字列読み取り手段3の動作については、
前記第一の実施例と同様、動的計画法に基づいて効率的
に最適解を得るようにしてもよい。ここでは、T−1個
の切り出し位置候補が検出され、入力文字列画像をT個
の部分パタンに分割することができるとする。
Regarding the operation of the character string reading means 3,
As in the first embodiment, the optimal solution may be efficiently obtained based on the dynamic programming. Here, it is assumed that T-1 cutout position candidates are detected and the input character string image can be divided into T partial patterns.

【0114】また1番目の部分パタンからi番目の部分
パタンまでを1文字目からk文字目までに対応させ、か
つ1番目の部分パタンからj番目の部分パタンまでを1
文字目から(k−1)文字目までに対応させ、かつk文
字目の文字カテゴリをwとした場合の、k文字分の読み
取りスコアをA(k,i,j,w)とする。
The first to i-th partial patterns correspond to the first to k-th characters, and the first to j-th partial patterns correspond to 1 to k characters.
The read score for k characters is assumed to be A (k, i, j, w) when the character category is set to w from the kth character to the (k-1) th character and the character category of the kth character is w.

【0115】このとき、最初の1文字目に関するスコア
A(1,i,j,w)は、文字認識手段4により、P
(部分パタン1〜i|w)のwに関する最大値として計
算できる。
At this time, the score A (1, i, j, w) relating to the first character is obtained by
It can be calculated as the maximum value of w of (partial patterns 1 to i | w).

【0116】また2文字目までに関するスコアA(2,
i,j,w)は、文字認識手段4と隣接2文字辞書格納
手段6により、P(部分パタン1〜j,部分パタンj+
1〜i|w′,w)のw′に関する最大値として計算で
きる。
The score A (2,
i (j, j, w) is stored in P (partial patterns 1 to j, partial pattern j +
1−i | w ′, w) can be calculated as the maximum value of w ′.

【0117】3文字目以降のスコアA(k,i,j)
(k>2)については、次式(10)に示す漸化式で順
次計算できる。
Score A (k, i, j) after the third character
(K> 2) can be sequentially calculated by the recurrence formula shown in the following formula (10).

【0118】 [0118]

【0119】ただし、X(j+1,i)は、(j+1)
番目の部分パタンからi番目の部分パタンまでを合わせ
て作られた部分パタンである。
However, X (j + 1, i) is (j + 1)
This is a partial pattern formed by combining the i-th partial pattern with the i-th partial pattern.

【0120】また、式(10)において、maxは、l
やw′など指定した変数に関する最大値を表し、arg
maxはmaxの操作を行って最大値が得られたときの変
数の値を表す。
In the equation (10), max is 1
Represents the maximum value of the specified variable such as or w ', arg
max represents the value of the variable when the maximum value is obtained by performing the operation of max.

【0121】また、B(k,i,j,w)及びC(k,
i,j,w)は、それぞれ(j+1)番目の部分パタン
からi番目の部分パタンまでをk文字目として使用し、
かつ、k文字目に相当するパタンの属する文字カテゴリ
をwとした場合の、k−2文字目の終端位置及び(k−
1)文字目の字種である。
Further, B (k, i, j, w) and C (k,
i, j, w) respectively use the (j + 1) -th partial pattern to the i-th partial pattern as the k-th character,
When the character category to which the pattern corresponding to the k-th character belongs is w, the end position of the k-th character and (k-
1) The character type of the character.

【0122】上記漸化式によって、ひとたび、最大スコ
アA(n,T,jmax,wmax)=maxjmaxw
(n,T,j,w)が求められれば、n文字目の字種
は、 wn=C(n,T,jmax,wmax)、 n文字目の開始位置はjmaxとなる。
According to the above recurrence formula, once the maximum score A (n, T, j max , w max ) = max j max w A
If (n, T, j, w) is obtained, the character type of the nth character is wn = C (n, T, jmax , wmax ), and the start position of the nth character is jmax .

【0123】また(n−1)文字目の開始位置は、 B(n,T,jmax,wmax)+1、 (n−1)文字目の字種は、 C(n−1,jmax,B(n,T,jmax,wmax)) というように、後方へと順次求められる。The start position of the (n-1) th character is B (n, T, jmax , wmax ) +1, and the character type of the (n-1) th character is C (n-1, jmax). , B (n, T, j max , w max )).

【0124】切り出し位置候補を少数に限定せず、等間
隔に多数設定する場合には、この形態で最適な読み取り
結果を効率よく検索できる。この場合、図2のステップ
12の文字列画像再構成処理、ステップ15の文字認識
処理、ステップ16の文字列認識処理、ステップ17の
結果比較評価処理、及びステップ13の隣接2文字評価
処理、ステップ14の1文字評価処理が並行して処理さ
れるため、効率よく読み取り結果を検索できる。
When a large number of cutout position candidates are set at equal intervals without being limited to a small number, an optimum reading result can be efficiently searched in this mode. In this case, the character string image reconstruction processing of step 12 in FIG. 2, the character recognition processing of step 15, the character string recognition processing of step 16, the result comparison evaluation processing of step 17, the adjacent two-character evaluation processing of step 13, Since the 14 one-character evaluation processes are performed in parallel, the reading result can be efficiently searched.

【0125】隣接2文字辞書格納手段5に格納される隣
接2文字辞書の構成手順について説明する。
The procedure for constructing an adjacent two-character dictionary stored in the adjacent two-character dictionary storage means 5 will be described.

【0126】隣接2文字辞書は、文字列画像データから
抽出された隣接する2文字の画像データを学習データと
した事前学習により構成される。
The adjacent two-character dictionary is formed by pre-learning using image data of two adjacent characters extracted from character string image data as learning data.

【0127】まず、隣接2文字画像データを、それらを
構成する各文字の字種によりいくつかのクラスに分類す
る。例えば数字を扱う場合には、00、01、02、
…、99という100通りの組合せがあり得るので、そ
れぞれの組合せで画像データを分類する。01と10は
異なるクラスに分ける。
First, adjacent two-character image data is classified into several classes according to the character type of each character constituting the image data. For example, when dealing with numbers, 00, 01, 02,
.., 99, there are 100 possible combinations, and the image data is classified by each combination. 01 and 10 are divided into different classes.

【0128】この結果、字種数の二乗に等しい数のクラ
ス(データのセット)ができる。以降は、通常の1文字
のデータと同様にパタンの学習を行う。例えば、文字認
識手段4に隠れマルコフモデル(HMM)を用いる場合
には、文献(「1995年、ローレンス・ラビナー他
著、古井監訳、音声認識の基礎(下)、NTTアドバン
ステクノロジ株式会社、128〜138頁」)に記載さ
れているように、Baum−Welchアルゴリズムに
よって、それぞれのクラス(数字の場合なら00、0
1、02、…、99)について1つのHMMのパラメー
タを推定して辞書を構成する。
As a result, the number of classes (data sets) equal to the square of the number of character types is created. Thereafter, pattern learning is performed in the same manner as for normal one-character data. For example, in the case where a hidden Markov model (HMM) is used for the character recognizing means 4, a document ("Lawrence Labiner et al., 1995, translated by Furui, basics of speech recognition (below), NTT Advanced Technology Co., Ltd., 128- 138 ”), each class (00, 0 in the case of a numeral) is calculated by the Baum-Welch algorithm.
1, 02,..., 99), one HMM parameter is estimated to form a dictionary.

【0129】1文字辞書格納手段6に格納される1文字
辞書の構成手順については、前記第一の実施例で説明し
た、確率P(X|w)を計算するための辞書の構成手順
と同様である。
The construction procedure of the one-character dictionary stored in the one-character dictionary storage means 6 is the same as the construction procedure of the dictionary for calculating the probability P (X | w) described in the first embodiment. It is.

【0130】なお、隣接2文字辞書、及び、1文字辞書
を、正解付けされた任意文字数の文字列画像を学習デー
タとして、自動的に構成することも可能である。これに
ついては、前記第一の実施例で述べた方法と同様の手順
で行えばよい。
Note that it is also possible to automatically configure the adjacent two-character dictionary and one-character dictionary as learning data using a character string image of an arbitrary number of characters that have been correctly answered. This may be performed in the same procedure as the method described in the first embodiment.

【0131】次に、本発明の第3の実施例について説明
する。図5は、本発明の第3の実施例の構成を示すブロ
ック図である。図5を参照すると、本発明の第3の実施
例は、文字認識プログラムを記録した記録媒体7を備え
る。この記録媒体7はCD−ROM、磁気ディスク、半
導体メモリその他の記録媒体であってよく、ネットワー
クを介して流通する場合も含む。
Next, a third embodiment of the present invention will be described. FIG. 5 is a block diagram showing the configuration of the third embodiment of the present invention. Referring to FIG. 5, the third embodiment of the present invention includes a recording medium 7 on which a character recognition program is recorded. The recording medium 7 may be a CD-ROM, a magnetic disk, a semiconductor memory, or another recording medium, and includes a case where the recording medium is distributed via a network.

【0132】文字認識プログラムは、記録媒体7からデ
ータ処理装置8に読み込まれ、データ処理装置8で実行
される。データ処理装置8は文字認識プログラムの制御
により、文字切り出し手段を用いて画像記憶手段1に入
力された文字列画像からいくつかの切り出し位置候補を
検出し、それら複数の切り出し位置候補より文字パタン
候補を生成し、それら文字パタン候補のそれぞれについ
て、1文字辞書格納手段5及び隣接2文字辞書格納手段
6にそれぞれ格納された1文字辞書及び隣接2文字辞書
を用いた文字認識手段によって認識処理を行い、文字列
全体として最大のスコアが得られるような読み取り結果
を求めて出力する。
The character recognition program is read from the recording medium 7 into the data processing device 8 and executed by the data processing device 8. Under the control of the character recognition program, the data processing device 8 detects some cutout position candidates from the character string image input to the image storage unit 1 by using the character cutout unit, and detects a character pattern candidate from the plurality of cutout position candidates. And performs a recognition process for each of these character pattern candidates by a character recognition unit using the one-character dictionary and the adjacent two-character dictionary stored in the one-character dictionary storage unit 5 and the adjacent two-character dictionary storage unit 6, respectively. , And obtains and outputs a reading result that gives the maximum score for the entire character string.

【0133】データ処理装置7は文字認識プログラムの
制御により、文字切り出し手段2、文字列読み取り手段
3及び文字認識手段4による処理と同一の処理を実行し
て文字列の読み取り結果を結果を出力する。
Under the control of the character recognition program, the data processing device 7 executes the same processing as the processing by the character cutout means 2, the character string reading means 3 and the character recognition means 4, and outputs the result of reading the character string. .

【0134】[0134]

【発明の効果】以上説明したように、本発明によれば、
文字列の読み取りにおいて、文字列から抽出される文字
候補を隣接する2文字の組として処理し、1文字目のパ
タン形状を考慮しつつ、2文字目に対する認識結果や認
識スコアを算出することにより、直前に書かれた文字か
らの続け書きや接触等によって文字形状が変形すること
に対応して、安定した文字認識が可能となり、このた
め、正確な文字列の読み取りを可能とする、という効果
を奏する。
As described above, according to the present invention,
In reading a character string, character candidates extracted from the character string are processed as a set of two adjacent characters, and a recognition result and a recognition score for the second character are calculated while considering the pattern shape of the first character. In response to the fact that the character shape is deformed due to continuous writing, contact, etc. from the character written immediately before, stable character recognition becomes possible, thereby enabling accurate character string reading. To play.

【0135】さらに、本発明によれば、辞書のテンプレ
ート数は、多くとも高々、従来技術の2倍程度とされる
ため、十分高速な文字列の読み取りを実現できる、とい
う効果も奏する。
Further, according to the present invention, the number of dictionary templates is at most about twice as large as that of the prior art, so that a sufficiently high-speed reading of a character string can be realized.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施例の構成を示すブロック図であ
る。
FIG. 1 is a block diagram showing the configuration of an embodiment of the present invention.

【図2】本発明の一実施例の処理フローを示す流れ図で
ある。
FIG. 2 is a flowchart showing a processing flow of an embodiment of the present invention.

【図3】本発明の一実施例を説明するための図であり、
入力文字列画像の一例を示す図である。
FIG. 3 is a diagram for explaining one embodiment of the present invention;
FIG. 4 is a diagram illustrating an example of an input character string image.

【図4】本発明の一実施例を説明するための図であり、
入力文字列画像から識別に有効な特徴量を抽出した結果
の一例を示す図である。
FIG. 4 is a diagram for explaining one embodiment of the present invention;
FIG. 14 is a diagram illustrating an example of a result of extracting a feature amount effective for identification from an input character string image.

【図5】本発明の第二の実施例の構成を示すブロック図
である。
FIG. 5 is a block diagram showing a configuration of a second exemplary embodiment of the present invention.

【図6】文字の誤り方がその字種に依存する例を説明す
るための文字画像の一例を示す図である。
FIG. 6 is a diagram illustrating an example of a character image for explaining an example in which a character error depends on the character type.

【図7】文字の誤り方がその字種に依存する例を説明す
るための文字画像の一例を示す図である。
FIG. 7 is a diagram illustrating an example of a character image for explaining an example in which a character error depends on the character type;

【符号の説明】[Explanation of symbols]

1 画像記憶手段 2 文字切り出し手段 3 文字列読み取り手段 4 文字認識手段 5 1文字辞書格納手段 6 隣接2文字辞書格納手段 7 記憶媒体 8 データ処理装置 REFERENCE SIGNS LIST 1 image storage means 2 character cutout means 3 character string reading means 4 character recognition means 5 1 character dictionary storage means 6 adjacent 2 character dictionary storage means 7 storage medium 8 data processing device

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平5−6464(JP,A) 特開 平8−96085(JP,A) 「電子情報通信学会技術研究報告」P RMU98−139 Vol.98 No.489 p.25−30(1998)”確率モデルに基 づくオンライン枠なし手書き文字列認 識" 「電子情報通信学会技術研究報告」P RMU98−138 Vol.98 No.489 p.17−24(1998)”切り出し・認 識・言語の確信度を統合した枠なしオン ライン文字列認識手法" 「情報処理学会研究報告」Vol.93 No.79 p.37−44(1993)”Bi gramによるオンライン漢字認識の文 脈後処理手法" 「情報処理学会論文誌」Vol.39 No.3 p.625−635(1998)”認識 誤りを含む和文テキストにおける全文検 索手法" (58)調査した分野(Int.Cl.7,DB名) G06K 9/62 - 9/72 JICSTファイル(JOIS)──────────────────────────────────────────────────続 き Continuation of the front page (56) References JP-A-5-6464 (JP, A) JP-A-8-96085 (JP, A) "Technical Research Report of the Institute of Electronics, Information and Communication Engineers", PRMU 98-139, Vol. 98 No. 489 p. 25-30 (1998) "On-line Handwritten Character String Recognition Based on Stochastic Model""IEICE Technical Report" PRMU 98-138 Vol. 98 No. 489 p. 17-24 (1998), “Frameless Online Character String Recognition Method Integrating Extraction, Recognition, and Language Confidence” “IPSJ Research Report” Vol. 93 No. 79 p. 37-44 (1993) "Post-processing method for online kanji recognition by Biggram""Transactions of Information Processing Society of Japan", Vol. 39 No. 3 p. 625-635 (1998) "A full-text search method for Japanese texts containing recognition errors" (58) Fields investigated (Int. Cl. 7 , DB name) G06K 9/62-9/72 JICST file (JOIS)

Claims (14)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】文字列画像を入力し記憶する画像記憶手段
と、 前記画像記憶手段から得た文字列画像から1文字に相当
する部分パタンを獲得するための切り出し位置候補を検
出する文字切り出し手段と、 前記文字切り出し手段で検出された切り出し位置候補に
基づいて、1文字に相当する部分パタンである個別文字
パタン候補を生成し、文字認識することで、最適な文字
列の読み取り結果を出力する文字列読み取り手段と、 前記文字列読み取り手段が生成した個別文字パタン候補
を、前記文字列読み取り手段からの要求に応じて認識
し、文字認識結果、及び、文字認識結果の尤もらしさを
表す文字認識スコアを出力する文字認識手段と、 前記文字認識手段が1文字パタン候補の識別、及びスコ
ア評価に用いるための辞書を格納する1文字辞書格納手
段と、 前記文字認識手段が隣接した2文字分の文字パタン候補
を用いて個別文字の識別を行うための隣接2文字辞書を
格納する2文字辞書格納手段と、 を備え、前記文字認識手段が、前記文字列読み取り手段から文字
パタン候補を受け取って文字認識を行う際に、認識対象
の文字パタン候補と、その直前の文字パタン候補を受け
取り、認識対象の文字パタン候補がある字種に属すると
仮定した場合に、与えられた認識対象の文字パタン候補
とその直前の文字パタン候補とが生起する確率、及び、
直前の文字パタンが生起する確率を用いて、認識対象の
文字パタン候補がその字種に属することの尤もらしさを
表すスコアとする、 ことを特徴とする文字認識装置。
1. An image storage means for inputting and storing a character string image, and a character extraction means for detecting a candidate extraction position for obtaining a partial pattern corresponding to one character from the character string image obtained from the image storage means. And generating an individual character pattern candidate that is a partial pattern corresponding to one character based on the cutout position candidate detected by the character cutout means, and performing character recognition to output an optimal character string reading result. Character string reading means, and individual character pattern candidates generated by the character string reading means are recognized in response to a request from the character string reading means, and a character recognition result and character recognition indicating the likelihood of the character recognition result are provided. A character recognition unit that outputs a score, and a one-character dictionary that stores a dictionary that the character recognition unit uses for identification of one-character pattern candidates and score evaluation. Storage means; and two-character dictionary storage means for storing an adjacent two-character dictionary for identifying individual characters using character pattern candidates for two adjacent characters, wherein the character recognition means comprises: Is a character from the character string reading means.
When receiving pattern candidates and performing character recognition, the recognition target
Character pattern candidate and the character pattern candidate immediately before
If the character pattern candidate to be recognized belongs to a certain character type,
Assuming, given given character pattern candidate for recognition
And the probability of occurrence of the character pattern candidate immediately before and
Using the probability of occurrence of the previous character pattern,
The likelihood that a character pattern candidate belongs to that character type
A character recognition device, wherein the character recognition device represents a score to represent .
【請求項2】前記文字認識手段が、認識対象の文字パタ
ン候補と、その直前の文字パタン候補を受け取り、認識
対象の文字パタン候補がある字種に属すると仮定した場
合に、与えられた認識対象の文字パタン候補とその直前
の文字パタン候補が生起する確率、及び直前の文字パタ
ンが生起する確率との比を、認識対象の文字パタン候補
がその字種に属することの尤もらしさを表すスコアとす
る、ことを特徴とする請求項記載の文字認識装置。
2. The method according to claim 1, wherein the character recognition means receives a character pattern candidate to be recognized and a character pattern candidate immediately before the character pattern candidate and assumes that the character pattern candidate to be recognized belongs to a character type. The ratio between the probability of occurrence of the target character pattern candidate and the immediately preceding character pattern candidate, and the ratio of the probability of occurrence of the immediately preceding character pattern candidate, is a score indicating the likelihood that the recognition target character pattern candidate belongs to the character type. The character recognition device according to claim 1, wherein:
【請求項3】(a)文字列画像を入力し記憶する画像記
憶手段から得た文字列画像から1文字に相当する部分パ
タンを獲得するための切り出し位置候補を検出する文字
切り出し処理と、 (b)前記文字切り出し処理で検出された切り出し位置
候補に基づいて、1文字に相当する部分パタンである個
別文字パタン候補を生成し、文字認識することで、最適
な文字列の読み取り結果を出力する文字列読み取り処理
と、 (c)前記文字列読み取り処理が生成した個別文字パタ
ン候補を、前記文字列読み取り処理からの要求に応じて
認識し、文字認識結果、及び、文字認識結果の尤もらし
さを表す文字認識スコアを出力する文字認識処理とを有し、 前記(c)の前記文字認識処理は、1文字辞書格納手段
に格納された辞書を参照して、1文字パタン候補の識
別、及びスコア評価を行い、2文字辞書格納手段に格納
された隣接2文字辞書を参照して、隣接した2文字分の
文字パタン候補を用いて個別文字の識別を行い、 前記文字認識処理は、前記文字列読み取り手段から文字
パタン候補を受け取って文字認識を行う際に、認識対象
の文字パタン候補と、その直前の文字パタン候補を受け
取り、認識対象の文字パタン候補がある字種に属すると
仮定した場合に、与えられた認識対象の文字パタン候補
とその直前の文字パタン候補とが生起する確率、及び、
直前の文字パタンが生起する確率を用いて、認識対象の
文字パタン候補がその字種に属することの尤もらしさを
表すスコアとする、 前記各処理 をコンピュータ上で実行するためのプログラ
ムを記録した記録媒体。
3. An image recording device for inputting and storing a character string image.
From the character string image obtained from the storage means
Character that detects a candidate cutout position to obtain a button
A cutout process; and (b) a cutout position detected in the character cutout process.
Based on the candidate, the number of partial patterns corresponding to one character
Optimum by generating different character pattern candidates and recognizing characters
String reading processing to output the result of reading a simple string
And (c) an individual character pattern generated by the character string reading process.
In response to a request from the character string reading process,
Recognize, character recognition result, and likelihood of character recognition result
Anda character recognition process of outputting character recognition score representing the of the character recognition processing of the (c) is one character dictionary storage means
Refers to the dictionary stored in the
Perform separate and score evaluation and store in two-character dictionary storage
With reference to the adjacent two-character dictionary,
Individual characters are identified using character pattern candidates, and the character recognition process is performed by the character string reading means.
When receiving pattern candidates and performing character recognition, the recognition target
Character pattern candidate and the character pattern candidate immediately before
If the character pattern candidate to be recognized belongs to a certain character type,
Assuming, given given character pattern candidate for recognition
And the probability of occurrence of the character pattern candidate immediately before and
Using the probability of occurrence of the previous character pattern,
The likelihood that a character pattern candidate belongs to that character type
A recording medium on which a program for executing each of the above-described processes on a computer is recorded.
【請求項4】(a)画像入力手段より入力された文字列
画像から、文字の境界候補をなす切り出し位置候補を検
出し、 (b)前記切り出し位置候補で切り出された文字パタン
候補について文字認識を行い、該文字認識結果と認識ス
コアを記憶し、その際、文字パタン候補とその直前の文
字パタン候補から2つの文字パタン候補を考慮して該当
する文字パタン候補の文字認識処理を行い、文字認識結
果の尤もらしさを認識スコアとして記憶し、 (c)文字列全体として最も認識スコアが高い文字パタ
ン候補列の認識結果を出力する、 上記(a)から(c)の各ステップを含み、 ある文字パタン候補とその直前の文字パタン候補から、
前記ある文字パタン候補がある字種であるという条件
で、前記文字パタン候補とその直前の文字パタン候補と
が生起する確率、及び、前記直前の文字パタンが生起す
る確率を用いて、認識対象の文字パタン候補がその字種
に属することの尤もらしさを表す認識スコアを導出す
る、 ことを特徴とする文字認識方法。
(A) detecting a cutout position candidate forming a character boundary candidate from the character string image input from the image input means; and (b) character recognition for the character pattern candidate cut out by the cutout position candidate. And the character recognition result and the recognition score are stored. At this time, the character recognition process is performed on the corresponding character pattern candidate in consideration of two character pattern candidates from the character pattern candidate and the character pattern candidate immediately before the character pattern candidate. storing the likelihood of the recognition result as the recognition score, it viewed including the steps of (c) most recognition score as a whole string to output a recognition result of the high character pattern candidate string, the (a) from (c), From a character pattern candidate and the character pattern candidate immediately before it,
Condition that the certain character pattern candidate is of a certain character type
And the character pattern candidate and the character pattern candidate immediately before the character pattern candidate.
Occurs, and the character pattern immediately before occurs.
The character pattern candidate to be recognized is
Derive a recognition score that represents the likelihood of belonging to
That, character recognition method, characterized in that.
【請求項5】前記ある文字パタン候補がある字種である
という条件で、前記文字パタン候補とその直前の文字パ
タン候補とが生起する確率を予め記憶された隣接2文字
パタンの辞書から2文字単位のパタンのマッチングによ
り算出し、前記直前の文字パタンが生起する確率を予め
登録された1文字単位のパタンの辞書から1文字単位の
パタンのマッチングにより算出する、ことを特徴とする
請求項記載の文字認識方法。
5. A method according to claim 1, wherein the probability that the character pattern candidate and the character pattern candidate immediately before the character pattern candidate occur are two characters from a dictionary of two adjacent character patterns stored in advance, provided that the certain character pattern candidate is of a certain character type. claim calculated by the matching units of patterns, is calculated by the first character unit patterns matching the pattern of dictionary character by character in which the preceding character pattern is registered in advance the probability of occurrence, characterized in that 4 The character recognition method described.
【請求項6】前記ステップ(b)において、隣接する2
つの文字パタン候補Xi−1、Xiを受け取ったとする
と、Xiの文字認識結果wiは、字種がw、直前の文字
パタンがXi−1であるという条件の下で文字パタンX
iが生起する条件付き確率P(Xi|Xi−1,w)
最大にするwとして決定され、文字認識スコアをP(X
i|Xi−1,wi)として計算する、ことを特徴とす
る請求項記載の文字認識方法。
6. In the step (b), adjacent two
It is assumed that two character pattern candidates Xi-1 and Xi have been received.
And the character recognition result wi of Xi, the character type is w, the previous character
Character pattern X under the condition that the pattern is Xi-1
The conditional probability P (Xi | Xi-1, w) that i occurs
Is determined as w to be maximized, and the character recognition score is P (X
5. The character recognition method according to claim 4 , wherein the calculation is performed as i | Xi-1, wi) .
【請求項7】隣接する2文字パタンのうちの2文字目の
字種がwであるという条件で隣接する2文字のパタンが
Xi−1,Xiとして生起する前記条件付き確率P(X
i|Xi−1,w)の値を、前記ある文字Xiの属する
字種がwであるという条件の 下でXiとその直前の1文
字Xi−1を合わせた隣接2文字分のパタンが生起する
確率P(Xi−1,Xi|w)と、前記直前の文字パタ
が事前知識なしで観測される確率P(Xi−1)を用
いて、P(Xi−1,Xi|w)/P(Xi−1)で計
算する、ことを特徴とする請求項記載の文字認識方
法。
7. The second character of an adjacent two-character pattern
If the character type is w, the pattern of two adjacent characters is
Xi-1, Xi, the conditional probability P (X
i | the Xi-1, w value of), the genus of the certain character Xi
Under the condition that the character type is w, a pattern P (Xi-1, Xi | w) where a pattern of two adjacent characters , which is the sum of Xi and the immediately preceding character Xi-1, occurs . Using the probability P (Xi-1) that the immediately preceding character pattern is observed without prior knowledge , P (Xi-1, Xi | w) / P (Xi-1) is calculated. The character recognition method according to claim 6 .
【請求項8】前記ステップ(b)において、入力文字列
中の第i番目の文字パタンXiを辞書パタンwと比較し
て文字認識の認識スコアを求める際に、i−1番目の文
字として文字パタンXi−1が生起し、かつ、i−1番
目の文字パタンXi−1が辞書パタンwi−1に代表さ
れる文字カテゴリに属するという条件を付加した条件付
き確率P(Xi|Xi−1,wi−1,wi)として計
算する、ことを特徴とする請求項4記載の文字認識方
法。
8. In the step (b), when an i-th character pattern Xi in an input character string is compared with a dictionary pattern w to obtain a recognition score for character recognition, a character as an (i-1) -th character is used. pattern Xi-1 has occurred, and, i-1 th character pattern Xi-1 is a dictionary pattern w i-1 conditional probability by adding the condition that belongs to the character category represented by P (Xi | Xi-1 5. The character recognition method according to claim 4, wherein the calculation is performed as (wi-1, wi).
【請求項9】隣接する2文字パタンのうちの1文字目の
字種がwi−1、2文字目の字種がwiであるという条
件で隣接する2文字のパタンがXi−1,Xiとして生
起する前記条件付き確率P(Xi|Xi−1,wi−
1,wi)の値を、ある文字とその直前の1文字を合わ
せた隣接2文字単位での確率P(Xi−1,Xi|wi
−1,wi)と、1文字単位でのスコアP(Xi−1|
wi−1)の比P(Xi−1,Xi|wi−1,wi)
/P(Xi−1|wi−1)、もしくは、文字カテゴリ
i−1を仮定した場合の文字パタンXi−1が観測さ
れる条件確率P(Xi−1)を用いて、P(Xi−1,
Xi|wi−1,wi)/P(Xi−1)で計算して求
める、ことを特徴とする請求項8記載の文字認識方法。
9. The pattern of two adjacent characters is Xi-1, Xi on condition that the character type of the first character of the two adjacent character patterns is wi-1, and the character type of the second character is wi. The conditional probability P (Xi | Xi−1, wi−
1, wi) is calculated as the probability P (Xi−1, Xi | wi) in units of two adjacent characters obtained by combining a certain character and the character immediately before it.
−1, wi) and the score P (Xi−1 |
wi-1) ratio P (Xi-1, Xi | wi-1, Wi)
/ P (Xi-1 | wi -1), or, using the conditions probability P that character pattern Xi-1 of assuming a character category w i-1 is observed (Xi-1), P ( Xi- 1,
9. The character recognition method according to claim 8, wherein the value is calculated by Xi | wi-1, wi) / P (Xi-1).
【請求項10】前記文字認識の尤もらしさを表わす認識
スコアを動的計画法で求め、その際、複数(T−1個)
の切り出し位置候補が検出され、入力文字列画像をT個
の部分パタンに分割し、1番目の部分パタンからi番目
の部分パタンまでを1文字目からk文字目までに対応さ
せ、1番目の部分パタンからj番目の部分パタンまでを
1文字目から(k−1)文字目までに対応させた場合
の、k文字分の読み取りスコアをA(k,i,j)と
し、最初の1文字目に関するスコアA(1,i,j)
は、i番目の部分パタンがある字種wであるという条件
で、1番目からi番目の部分パタンが生起する確率Pの
wに関する最大値として求め、前記スコアの最大スコア
を求める、ことを特徴とする請求項記載の文字認識方
法。
10. A recognition score representing the likelihood of the character recognition is obtained by a dynamic programming method, and a plurality of (T-1) recognition scores are obtained.
Is detected, the input character string image is divided into T partial patterns, the first partial pattern to the i-th partial pattern correspond to the first to k-th characters, and the first When the partial pattern to the j-th partial pattern correspond to the first character to the (k-1) th character, the read score for k characters is A (k, i, j), and the first one character Eye score A (1, i, j)
Is determined as the maximum value of w of the probability P that the first to i-th partial patterns occur under the condition that the i-th partial pattern is a character type w, and the maximum score of the scores is determined. The character recognition method according to claim 4, wherein
【請求項11】2文字目以降のスコアA(k,i,j)
(k>1)については、以下の漸化式で順次計算し、 (ただし、X(j+1,i)はj+1番目の部分パタン
からi番目の部分パタンまでを合わせて作られた部分パ
タンである。B(k,i,j)及びC(k,i,j)は
それぞれj+1番目の部分パタンからi番目の部分パタ
ンまでをk文字目として使用した場合の、k−1文字目
の開始位置及びk文字目の字種である。maxはlやwな
ど指定した変数に関する引数の最大値を表す関数、argm
ax はmaxの操作を行って最大値が得られたときの変数の
値を表す。)、 最大スコアA(n,T,jmax)=maxjA(n,T,
j)を求め、 n文字目の字種は、wn=C(n,T,jmax)、 n文字目の開始位置は、jmaxとなり、 n−1文字目の開始位置は、B(n,T,jmax)、 n−1文字目の字種はC(n−1,jmax,B(n,
T,jmax))という具合に、後方へと順次求める、こ
とを特徴とする請求項8記載の文字認識方法。
11. The score A (k, i, j) for the second and subsequent characters
(K> 1) is sequentially calculated by the following recurrence formula, (However, X (j + 1, i) is a partial pattern created by combining the (j + 1) th partial pattern to the ith partial pattern. B (k, i, j) and C (k, i, j) Are the start position of the (k-1) th character and the character type of the kth character when the j + 1st partial pattern to the ith partial pattern are used as the kth character, respectively. A function that represents the maximum value of the argument for the variable, argm
ax represents the value of the variable when the maximum value was obtained by performing the operation of max. ), The maximum score A (n, T, j max ) = max j A (n, T,
j), the character type of the nth character is wn = C (n, T, jmax ), the start position of the nth character is jmax , and the start position of the (n-1) th character is B (n , T, j max ) and the character type of the (n−1) th character is C (n−1, j max , B (n,
9. The character recognition method according to claim 8, wherein the calculation is sequentially performed backward, such as T, j max )).
【請求項12】前記文字認識の尤もらしさを表わす認識
スコアを動的計画法で求め、その際、複数(T−1個)
の切り出し位置候補が検出され、入力文字列画像をT個
の部分パタンに分割し、1番目の部分パタンからi番目
の部分パタンまでを1文字目からk文字目までに対応さ
せ、1番目の部分パタンからj番目の部分パタンまでを
1文字目から(k−1)文字目までに対応させた場合
の、k文字分の読み取りスコアをA(k,i,j)と
し、最初の1文字目に関するスコアA(1,i,j)
は、前記文字認識手段により、i番目の部分パタンがあ
る字種wであるという条件で、1番目からi番目の部分
パタンが生起する確率Pのwに関する最大値として求
め、 2文字目以降のスコアA(k,i,j)(k>1)につ
いては、以下の漸化式で順次計算し、 (ただし、X(j+1,i)はj+1番目の部分パタン
からi番目の部分パタンまでを合わせて作られた部分パ
タンである。B(k,i,j)及びC(k,i,j)は
それぞれj+1番目の部分パタンからi番目の部分パタ
ンまでをk文字目として使用した場合の、k−1文字目
の開始位置及びk文字目の字種である。maxはlやwな
ど指定した変数に関する引数の最大値を表す関数、argm
ax はmaxの操作を行って最大値が得られたときの変数の
値を表す。)、 上記漸化式によって、 最大スコアA(n,T,jmax)=maxjA(n,T,
j)を求め、 n文字目の字種は、wn=C(n,T,jmax)、 n文字目の開始位置はjmaxとなり、 n−1文字目の開始位置は、B(n,T,jmax)、 n−1文字目の字種は、C(n−1,jmax,B(n,
T,jmax))という具合に、後方へと順次求める、こ
とを特徴とする請求項1記載の文字認識装置。
12. A recognition score representing the likelihood of the character recognition is obtained by a dynamic programming method, wherein a plurality of (T-1) recognition scores are obtained.
Is detected, the input character string image is divided into T partial patterns, the first partial pattern to the i-th partial pattern correspond to the first to k-th characters, and the first When the partial pattern to the j-th partial pattern correspond to the first character to the (k-1) th character, the read score for k characters is A (k, i, j), and the first one character Eye score A (1, i, j)
Is determined by the character recognition means as the maximum value of w of the probability P that the first to i-th partial patterns occur under the condition that the i-th partial pattern is a certain character type w. The score A (k, i, j) (k> 1) is sequentially calculated by the following recurrence formula, (However, X (j + 1, i) is a partial pattern created by combining the (j + 1) th partial pattern to the ith partial pattern. B (k, i, j) and C (k, i, j) Are the start position of the (k-1) th character and the character type of the kth character when the j + 1st partial pattern to the ith partial pattern are used as the kth character, respectively. A function that represents the maximum value of the argument for the variable, argm
ax represents the value of the variable when the maximum value was obtained by performing the operation of max. ), By the above recurrence formula, the maximum score A (n, T, j max ) = max j A (n, T,
j), the character type of the nth character is wn = C (n, T, jmax ), the start position of the nth character is jmax , and the start position of the (n-1) th character is B (n, T, j max ), the character type of the (n−1) th character is C (n−1, j max , B (n,
2. The character recognition device according to claim 1, wherein the values are sequentially obtained backward, such as T, j max )).
【請求項13】前記文字認識の尤もらしさを表わす認識
スコアを動的計画法で求め、その際、複数(T−1個)
の切り出し位置候補が検出され、入力文字列画像をT個
の部分パタンに分割し、1番目の部分パタンからi番目
の部分パタンまでを1文字目からk文字目までに対応さ
せ、かつ、1番目の部分パタンからj番目の部分パタン
までを1文字目から(k−1)文字目までに対応させ、
かつ、k文字目の文字カテゴリをwとした場合の、k文
字分の読み取りスコアをA(k,i,j,w)とし、最
初の1文字目に関するスコアA(1,i,j,w)は、
1番目からi番目の部分パタンが生起する確率Pのwに
関する最大値として求め、 また2文字目までに関するスコアA(2,i,j,w)
は、前記文字認識手段と前記2文字辞書格納手段によ
り、P(部分パタン1〜j,部分パタンj+1〜i|
w′,w)のw′に関する最大値として計算し、 3文字目以降のスコアA(k,i,j)(k>2)につ
いては、次の漸化式で順次計算し、 (但し、X(j+1,i)は、(j+1)番目の部分パ
タンからi番目の部分パタンまでを合わせて作られた部
分パタンである。B(k,i,j,w)及びC(k,
i,j,w)は、それぞれ(j+1)番目の部分パタン
からi番目の部分パタンまでをk文字目として使用し、
かつ、k文字目に相当するパタンの属する文字カテゴリ
をwとした場合の、k−2文字目の終端位置及び(k−
1)文字目の字種である。maxはlやw′など指定した
変数に関する引数の最大値を表す関数、argmax はmaxの
操作を行って最大値が得られたときの変数の値を表
す。)、 上記漸化式によって、 最大スコアA(n,T,jmax,wmax)=maxjma
wA(n,T,j,w)が求め、n文字目の字種はw
n=C(n,T,jmax,wmax)、 n文字目の開始位置はjmaxとなり、 (n−1)文字目の開始位置は、B(n,T,jmax
max)+1、 (n−1)文字目の字種は、C(n−1,jmax,B
(n,T,jmax,wmax))という具合に、後方へと順
次求める、ことを特徴とする請求項1記載の文字認識装
置。
13. A dynamic programming method for determining a recognition score representing the likelihood of the character recognition, wherein a plurality of (T-1) recognition scores are obtained.
Is detected, the input character string image is divided into T partial patterns, the first partial pattern to the i-th partial pattern correspond to the first to k-th characters, and The first partial pattern to the j-th partial pattern correspond to the first to (k-1) th characters,
When the character category of the k-th character is w, the reading score for the k characters is A (k, i, j, w), and the score A (1, i, j, w) for the first character is given. )
Obtained as the maximum value of w of the probability P of occurrence of the first to i-th partial patterns, and score A (2, i, j, w) for the second character
Is P (partial patterns 1 to j, partial patterns j + 1 to i |) by the character recognition unit and the two-character dictionary storage unit.
w ', w) is calculated as the maximum value for w'. The score A (k, i, j) (k> 2) after the third character is sequentially calculated by the following recurrence formula. (However, X (j + 1, i) is a partial pattern created by combining the (j + 1) -th partial pattern to the i-th partial pattern. B (k, i, j, w) and C (k) ,
i, j, w) respectively use the (j + 1) -th partial pattern to the i-th partial pattern as the k-th character,
When the character category to which the pattern corresponding to the k-th character belongs is w, the end position of the k-th character and (k-
1) The character type of the character. max is specified as l or w '
Argmax is a function that represents the maximum value of an argument related to a variable.
Displays the value of the variable when the maximum value was obtained by performing the operation.
You. ), By the above recurrence formula, the maximum score A (n, T, j max , w max ) = max j ma
x w A (n, T, j, w) is obtained, and the character type of the n-th character is w
n = C (n, T, jmax , wmax ), the start position of the nth character is jmax , and the start position of the (n-1) th character is B (n, T, jmax ,
w max ) +1, the character type of the (n−1) th character is C (n−1, j max , B)
2. The character recognition apparatus according to claim 1, wherein (n, T, j max , w max )) are sequentially obtained backward.
【請求項14】(a)画像入力手段より入力された文字
列画像から文字の境界候補をなす切り出し位置候補を検
出する処理、 (b)前記切り出し位置候補で切り出された文字パタン
候補について文字認識を行い、該文字認識結果と認識ス
コアを記憶し、その際、ある文字パタン候補とその直前
の文字パタン候補から、前記ある文字パタン候補がある
字種であるという条件で、前記文字パタン候補とその直
前の文字パタン候補とが生起する確率、及び、前記直前
の文字パタンが生起する確率を用いて、認識対象の文字
パタン候補がその字種に属することの尤もらしさを表す
認識スコアを導出する処理、 (c)文字列全体としてもっとも認識スコアが高い文字
パタン候補列の認識結果を出力する処理、 上記(a)から(c)の各処理をコンピュータで実行す
るためのプログラムを記録した記録媒体。
14. A process for detecting a cutout position candidate forming a character boundary candidate from a character string image input from an image input means, and (b) character recognition for a character pattern candidate cut out by the cutout position candidate. Is performed, and the character recognition result and the recognition score are stored. At this time, from the certain character pattern candidate and the character pattern candidate immediately before the character pattern candidate, the character pattern candidate Using the probability that the immediately preceding character pattern candidate occurs and the probability that the immediately preceding character pattern occurs, a recognition score indicating the likelihood that the recognition target character pattern candidate belongs to the character type is derived. (C) a process of outputting a recognition result of a character pattern candidate sequence having the highest recognition score as a whole character string, and a process of each of the above (a) to (c) being performed by a computer. Recording medium for recording a program to be executed by data.
JP33037298A 1998-07-03 1998-11-20 Character recognition device and recording medium storing character recognition program Expired - Fee Related JP3209197B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33037298A JP3209197B2 (en) 1998-07-03 1998-11-20 Character recognition device and recording medium storing character recognition program

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP18845698 1998-07-03
JP10-188456 1998-07-03
JP33037298A JP3209197B2 (en) 1998-07-03 1998-11-20 Character recognition device and recording medium storing character recognition program

Publications (2)

Publication Number Publication Date
JP2000082115A JP2000082115A (en) 2000-03-21
JP3209197B2 true JP3209197B2 (en) 2001-09-17

Family

ID=26504938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33037298A Expired - Fee Related JP3209197B2 (en) 1998-07-03 1998-11-20 Character recognition device and recording medium storing character recognition program

Country Status (1)

Country Link
JP (1) JP3209197B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102615583B1 (en) * 2017-04-27 2023-12-20 가부시키가이샤 엠티지 Muscle electrostimulation device

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6462930B1 (en) * 2018-03-28 2019-01-30 AI inside株式会社 Character recognition apparatus, method and program

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
「情報処理学会研究報告」Vol.93 No.79 p.37−44(1993)"Bigramによるオンライン漢字認識の文脈後処理手法"
「情報処理学会論文誌」Vol.39 No.3 p.625−635(1998)"認識誤りを含む和文テキストにおける全文検索手法"
「電子情報通信学会技術研究報告」PRMU98−138 Vol.98 No.489 p.17−24(1998)"切り出し・認識・言語の確信度を統合した枠なしオンライン文字列認識手法"
「電子情報通信学会技術研究報告」PRMU98−139 Vol.98 No.489 p.25−30(1998)"確率モデルに基づくオンライン枠なし手書き文字列認識"

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102615583B1 (en) * 2017-04-27 2023-12-20 가부시키가이샤 엠티지 Muscle electrostimulation device

Also Published As

Publication number Publication date
JP2000082115A (en) 2000-03-21

Similar Documents

Publication Publication Date Title
US6556712B1 (en) Methods and apparatus for handwriting recognition
CN111639646B (en) Test paper handwritten English character recognition method and system based on deep learning
JP2750057B2 (en) Statistical mixing method for automatic handwritten character recognition
Kolcz et al. A line-oriented approach to word spotting in handwritten documents
US6950555B2 (en) Holistic-analytical recognition of handwritten text
US20080008387A1 (en) Method and apparatus for recognition of handwritten symbols
KR100412317B1 (en) Character recognizing/correcting system
US20060050962A1 (en) System, process and software arrangement for recognizing handwritten characters
JP2000353215A (en) Character recognition device and recording medium where character recognizing program is recorded
Al-Badr et al. Segmentation-free word recognition with application to Arabic
Roy et al. Date-field retrieval in scene image and video frames using text enhancement and shape coding
US8340428B2 (en) Unsupervised writer style adaptation for handwritten word spotting
JP3917349B2 (en) Retrieval device and method for retrieving information using character recognition result
JP3209197B2 (en) Character recognition device and recording medium storing character recognition program
Parwej An empirical evaluation of off-line Arabic handwriting and printed characters recognition system
JP3180792B2 (en) Character recognition device, character learning device, and computer-readable recording medium
JP2000322514A (en) Pattern extraction device and character segmentation device
Nisa et al. Annotation of struck-out text in handwritten documents
Hassan et al. Handwritten Text Recognition using Deep Learning Methods
Amin Recognition of printed Arabic text using machine learning
AU2021101278A4 (en) System and Method for Automatic Language Detection for Handwritten Text
JP3374762B2 (en) Character recognition method and apparatus
Kishore et al. similarity assessment of 30 world sign languages and exploring scope for a sign–to–sign translator
JP4180137B2 (en) Online handwritten character recognition method
JP3130392B2 (en) Character recognition device

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010612

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070713

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080713

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090713

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100713

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110713

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110713

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120713

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120713

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130713

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees