Nothing Special   »   [go: up one dir, main page]

JP3209197B2 - 文字認識装置及び文字認識プログラムを記録した記録媒体 - Google Patents

文字認識装置及び文字認識プログラムを記録した記録媒体

Info

Publication number
JP3209197B2
JP3209197B2 JP33037298A JP33037298A JP3209197B2 JP 3209197 B2 JP3209197 B2 JP 3209197B2 JP 33037298 A JP33037298 A JP 33037298A JP 33037298 A JP33037298 A JP 33037298A JP 3209197 B2 JP3209197 B2 JP 3209197B2
Authority
JP
Japan
Prior art keywords
character
pattern
recognition
candidate
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33037298A
Other languages
English (en)
Other versions
JP2000082115A (ja
Inventor
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP33037298A priority Critical patent/JP3209197B2/ja
Publication of JP2000082115A publication Critical patent/JP2000082115A/ja
Application granted granted Critical
Publication of JP3209197B2 publication Critical patent/JP3209197B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、紙などに書かれた
文字を光学センサで取り込んで読み取る光学的文字認識
技術に関し、特に、単語や文のように複数の文字が並ん
だ文字列を認識する文字認識装置及び方法に関する。
【0002】
【従来の技術】この種の従来の文字認識装置において
は、文字列内の文字の境界を同定する文字切り出しと、
切り出されたそれぞれの文字を読み取る文字認識を組み
合わせることによって文字列を読み取っている。
【0003】従来の文字認識技術の一例として、例えば
文献「1994年、スー・リャン他、セグメンテーショ
ン・オブ・タッチング・キャラクターズ・イン・プリン
テッド・ドキュメント・レコグニション、パターン・レ
コグニション、第27巻、第6号、第825〜840頁
(Su Liang et al., Segmentation of Touching Charact
ers in Printed Document Recognition, Pattern Recog
nition, Vol.27, No.6, pp.825-840, 1994)」の記載が
参照される。
【0004】この文献に記載されている方式は、投影ヒ
ストグラムの形状、及び、これから派生する情報を利用
して、文字境界の候補を抽出し、任意の2つの文字境界
で挟まれる文字列の一部を文字の候補として、すべて抽
出する(文字切り出し)。
【0005】次に、全ての文字候補に対して、文字認識
を行い、それぞれに認識結果とその尤もらしさ(スコ
ア)を計算する。
【0006】最後に、文字列として連結した際にスコア
が最大となるように、文字候補を選び、同時に正しいと
思われる文字列の切り出し位置を決定する。
【0007】この他にも各種方式が、従来より提案され
ているが、その多くは、文字切り出しに用いる情報が異
なるのみであるもの、あるいは、文字切り出しをせずに
網羅的に文字列中のあらゆる部分で文字認識を行って最
適な切り出し位置を決定するもの、または、文字認識で
文字画像から抽出する特徴量や文字を識別する方法が異
なるのみである。
【0008】また上述した例は、印刷文字を認識対象と
しているが、手書き文字を対象とする方式においても、
同様であり、多くの場合、文字切り出しと文字認識は別
個のモジュールとして構成されており、これらを組み合
わせて文字列の読み取りを行うという手順が採用されて
いる。
【0009】
【発明が解決しようとする課題】しかしながら、上記し
た従来の技術においては、文字切り出しと文字認識の処
理系が別個に構築されて用いられるため、特に手書き文
字列の認識において、文字列特有の文字パタンの変形に
対応できず、このため誤認識を生ずることが多い、とい
う問題点を有している。
【0010】例えば、筆記体英文のように、続け書きで
書かれた文字列の場合、“a”という文字を書き終わっ
た時点でのペンの位置は下部にあるが、“o”を書き終
わった時点でのペンの位置は上部である。したがって、
同じ文字であっても、“a”の次に書かれるか、“o”
の次に書かれるかによって、パタンの形状が変化する。
図6を参照すると、続け書きで書かれた文字列“a
b”、“ob”について、同じ“b”であっても、
“a”に続く“b”は“b”を囲む矩形左下側から、
“o”に続く“b”は“b”を囲む矩形左側のほぼ中央
から開始している。
【0011】このようなことは個別文字では起こり得な
い、文字列特有の変形である。
【0012】そして、このような変形は、個別文字だけ
を学習して構築されている従来の文字認識処理系では、
対応不可能であり、しばしば誤認識の原因となる。
【0013】またアルファベットだけでなく、数字でも
同様の問題はみられる。例えば“5”の書き終わりのペ
ンの進行方向は文字列の方向と同じであることから、
“5”に続く文字は“5”とつながって書かれることが
多い。この影響で、図7に示すように、“5”の次に書
かれる文字は“5”と滑らかにつながるように変形を受
ける。
【0014】このため文字列特有の変形を考慮していな
い従来の文字認識処理システムでは、誤認識を生じ易
い。
【0015】すなわち、一般的に文字列は、隣接する文
字同士に依存関係があり、互いに影響しあって変形を生
ずるという傾向が存在する。
【0016】隣接する文字に依存して文字が変形を受け
る問題に対して、隣接する2文字を1つのパタンとし
て、字種数の2乗個のテンプレートを学習して辞書を構
築する方法も考えられる。しかし、2文字の並びは、パ
タンとしての変形のバリエーションが極めて多様とな
り、膨大な量の学習データが必要となる。さらに、テン
プレートは、字種数の2乗個必要となるため、学習デー
タ不足の問題が深刻となる。
【0017】このように、2文字を1パタンとして字種
の2乗個のテンプレートを学習する方法は実用に適さな
いことがわかる。
【0018】したがって、本発明は、上記技術的課題の
認識に基づき創案されてものであって、その目的は、隣
接する文字間の依存性に起因して生ずる文字形状の変形
による影響が小さい、すなわち文字の接触や続け書きに
対して頑健(robust)な文字認識装置及び方法を提供す
ることにある。
【0019】
【課題を解決するための手段】上述した目的を達成する
本発明は、文字列画像を入力し記憶する画像記憶手段
と、前記画像記憶手段から得た文字列画像から1文字に
相当する部分パタンを獲得するための切り出し位置候補
を検出する文字切り出し手段と、前記文字切り出し手段
から得た切り出し位置候補に基づいて1文字に相当する
部分パタンである個別文字パタン候補を生成し、文字認
識して最適な文字列の読み取り結果を出力する文字列読
み取り手段と、前記文字列読み取り手段が生成した個別
文字パタン候補を、前記文字列読み取り手段の要求に応
じて認識し、文字認識結果及び文字認識結果の尤もらし
さを表す文字認識スコアを出力する文字認識手段と、前
記文字認識手段が1文字パタン候補の識別及びスコア評
価に用いるための辞書を格納する1文字辞書格納手段
と、前記文字認識手段が隣接した2文字分の文字パタン
候補を用いて個別文字の識別を行うための隣接2文字辞
書を格納するための2文字辞書格納手段と、を備え、
記文字認識手段が、前記文字列読み取り手段から文字パ
タン候補を受け取って文字認識を行う際に、認識対象の
文字パタン候補と、その直前の文字パタン候補を受け取
り、認識対象の文字パタン候補がある字種に属すると仮
定した場合に、与えられた認識対象の文字パタン候補と
その直前の文字パタン候補とが生起する確率、及び、直
前の文字パタンが生起する確率を用いて、認識対象の文
字パタン候補がその字種に属することの尤もらしさを表
すスコアとする。
【0020】
【発明の実施の形態】本発明の実施の形態について説明
する。まず本発明の文字認識装置の原理について説明す
る。本発明は、一実施例の形態において、(a)文字認
識処理系を構築する際に、文字列を訓練データに用い
て、文字列から直接文字を学習し、(b)入力文字列中
の第i番目の文字パタンXiを辞書パタンwと比較して
文字認識のスコアを計算する際に、その直前のi−1番
目の文字としてパタンXi−1が生起するという条件を
付加した条件付き確率P(Xi|Xi−1,w)として
計算することによって、文字の接触や続け書き等、隣接
する文字間の依存性に起因して生ずる文字形状の変形に
よる影響を受けにくい頑強な文字認識を実現している。
【0021】ここで、条件付き確率P(Xi|Xi−
1,w)の値は、ある文字とその直前の1文字を合わせ
た隣接2文字単位でのスコアP(Xi−1,Xi|w)
と、1文字単位でのスコアP(Xi−1|w)の比、 P(Xi−1,Xi|w)/P(Xi−1|w) …(1)、 または、これを簡単化した、 P(Xi−1,Xi|w)/P(Xi−1) …(2) を計算することによって得られる。
【0022】本発明は、別の実施の形態として、(a)
文字認識処理系を構築する際に、文字列を訓練データに
用いて文字列から直接文字を学習し、(b)入力文字列
中の第i番目の文字パタンXiを辞書パタンwと比較し
て文字認識のスコアを計算する際に、i−1番目の文字
としてパタンXi−1が生起し、かつ、i−1番目の文
字パタンXi−1が辞書パタンw′に代表される文字カ
テゴリに属するという条件を付加した条件付き確率P
(Xi|Xi−1,w′,w)として計算することによ
って実現される。
【0023】ここで、条件付き確率P(Xi|Xi−
1,w′,w)の値は、ある文字とその直前の1文字を
合わせた隣接2文字単位でのスコアP(Xi−1,Xi
|w′,w)と、1文字単位でのスコアP(Xi−1|
w′,w)の比 P(Xi−1,Xi|w′,w)/P(Xi−1|w′,w) …(3)、 またはそれを簡単化した、 P(Xi−1,Xi|w′,w)/P(Xi−1|w′) …(4) を計算することによって得られる。以下、実施例に即し
て詳細に説明する。
【0024】
【実施例】図1は、本発明の一実施例の構成を示すブロ
ック図である。図1を参照すると、この実施例は、入力
された文字列画像を光学センサで取り込んで格納する画
像記憶手段1と、画像記憶手段1より受け取った文字列
画像より隣接文字間の境界の候補を切り出し位置候補と
して検出する文字切り出し手段2と、いくつかの切り出
し位置候補を選んで文字列画像を分割した際の個々の個
別文字パタンについて文字認識処理を呼び出して文字列
全体としての認識スコアを計算し、最適な切り出し及び
認識結果を文字列の読み取り結果として出力する文字列
読み取り手段3と、文字列読み取り手段3の要求に応じ
て文字パタンに認識処理をかけ、1つの字種と認識スコ
アを返す文字認識手段4と、単一文字パタンの出現しや
すさのスコアを計算する1文字辞書格納手段5と、隣り
合う2文字に相当するパタンを用いて2文字目の字種と
認識スコアを計算する隣接2文字辞書格納手段6と、を
有する。画像記憶手段1、文字切り出し手段2、文字列
読み取り手段3、文字認識手段4と、1文字辞書格納手
段5、隣接2文字辞書格納手段6は、コンピュータ上で
実行されるプログラム制御によりその機能を実現するこ
とができる。
【0025】なお、文字認識手段4において、文字認識
を行う場合には、入力画像に対して前処理を行うのが一
般的であり、この前処理として、例えば、多値画像をよ
り扱いやすい2値画像に変換する2値化処理、文字の大
きさやストロークの間隔、傾き等を整形する正規化処
理、画像中の細かな汚れやかすれを取り除くノイズ除去
処理、入力パタンを識別に有用な、より少数の量に変換
する特徴抽出処理等の公知の各種処理が用いられる。本
発明の一実施例においても、これらの処理を、必要に応
じて文字認識手段4に導入してもよいことは勿論であ
る。また、これらの前処理は前後関係を問わず、任意の
順序で適用することができる。
【0026】さらに、特徴抽出処理によって抽出される
特徴量が、文字切り出しによる画像の分割に伴って分割
できる種類のもの(入力画像内の局所領域ごとに特徴量
が計算される)であれば、これらの前処理は、特徴抽出
処理とともに、文字切り出し手段2あるいは画像記憶手
段1において行うことにより、入力文字列画像から特徴
を一括抽出することも可能である。
【0027】特徴抽出処理の一例として、文字線の方向
別の強さを特徴として計算する処理を、図3に示す入力
画像の具体例に即して説明する。
【0028】文字線の方向を縦(90°方向)、横(0
°方向)、斜め(45°及び135°方向)の4段階方
向に取り、それぞれの方向について、また画像を縦4、
横63区間で分割した小領域のそれぞれについて、文字
線の長さを計測する。
【0029】ここで文字線の長さは、該当する方向に連
結する黒画素の数として計測することができる。黒画素
が存在しない領域では、長さは0とすればよい。このよ
うにして、図3に示す、“02062”と書かれた入力
画像から、図4に示すような、文字線の方向に基づいた
特徴パタンが得られる。
【0030】図4において、黒色が濃いほど、文字線の
長さに対応する特徴値が大きいことを意味する。また特
徴パタンは縦方向に16の領域に分かれているが、上か
ら4領域ずつが、それぞれ0°、45°、90°、13
5°の方向の特徴値に対応する。
【0031】この特徴のように、画像中の小領域に対応
して特徴の値が定義される特徴量の場合、入力画像中で
の文字の切り出し位置が決まれば、これに伴って、小領
域単位で特徴パタンを分割することができることから、
文字切り出し手段2の上流工程でも特徴抽出処理を行う
ことができる。
【0032】上述した特徴抽出処理の例は、文字切り出
し手段2での後工程に置くこともできる。さらに、特徴
抽出処理を行わず、入力画像をそのまま一種の特徴とし
て用いるようにしてもよい。
【0033】図2は、本発明の一実施例の処理フローを
説明するための流れ図である。図1及び図2を参照し
て、本発明の一実施例の動作について詳細に説明する。
【0034】画像はスキャナ等によって光学的に入力さ
れ、画像記憶手段1に格納され、さらに文字切り出し手
段2へ送られる(図2のステップ10)。
【0035】文字切り出し手段2は、文字列画像からい
くつかの切り出し位置候補を検出し、その座標情報及び
文字列画像または文字列画像を特徴抽出処理により変換
した特徴パタンを文字列読み取り手段3へ送る(図2の
ステップ11)。
【0036】切り出し位置候補の検出には、何らかの図
形的な情報を利用する。図形的な情報としては、例えば
文字列の投影ヒストグラムを計算する。例えば、文字列
が横書きならば縦方向、縦書きならば横方向に投影した
ヒストグラムを計算する。そして、度数があらかじめ設
定したしきい値よりも低い位置を、切り出し位置候補と
する。
【0037】図形的な情報を用いた、別の切り出し手段
として、文字列の輪郭線を追跡してその凹凸を計測し、
凹みがしきい値よりも大きくなる位置を切り出し位置候
補として記憶する、という方法を用いてもよい。
【0038】また、複数の図形的特徴を併用して切り出
し位置候補を求める方法を用いてもよい。
【0039】さらに、切り出し位置候補の検出は、図形
的情報を利用しない方法によっても可能である。例えば
図形的情報を利用しない場合、文字列画像の開始位置の
座標から終了位置の座標までを等間隔に区切り、その区
切り点をすべて切り出し位置候補として記憶する。この
場合、切り出し位置候補としては、例えば想定される文
字数の数倍程度等という具合に、ある程度多数の切り出
し位置候補を記憶する。
【0040】文字列読み取り手段3は、文字列画像再構
成処理(図2のステップ12)、文字列認識(図2のス
テップ16)、及び結果比較評価(図2のステップ1
7)の各処理を行う。
【0041】すなわち文字切り出し手段2より受け取っ
た文字列画像または文字列画像を特徴抽出処理により変
換した特徴パタン、及び切り出し位置候補の座標情報を
受け取り、切り出し位置で切り出されたあらゆる文字パ
タン候補について文字認識手段4を用いて文字認識を行
い、その認識結果と認識スコアを記憶する。
【0042】そして、文字列全体としてもっとも認識ス
コアが高く、かつ重複や読み飛ばしのない文字パタン候
補列の認識結果を、文字列の読み取り結果として選び出
して出力する。
【0043】最適な読み取り結果の検索手順については
後述する。
【0044】文字列読み取り手段3が文字認識手段4に
文字パタン候補を送る際、該当する文字パタン候補に加
え、その直前の文字パタン候補も送る。
【0045】文字認識手段4は、これら隣接する2つの
文字パタン候補を考慮して該当する文字パタン候補の文
字認識処理を行う。
【0046】文字認識手段4は、文字列読み取り手段3
より、隣接する2つの文字パタン候補を受け取り、後者
に関する文字認識処理を行い、文字認識結果(字種)及
び文字認識スコアを計算し、文字列読み取り手段3に返
す。
【0047】ここで、文字認識手段4が文字列読み取り
手段3から、隣接する2つの文字パタン候補Xi−1、
Xiを受け取ったとすると、Xiの文字認識結果wi
は、字種がw、直前の文字パタンがXi−1であるとい
う条件の下で文字パタンXiが生起する確率P(Xi|
Xi−1,w)を最大にするwとして決定される。
【0048】また、その際の文字認識スコアは、P(X
i|Xi−1,wi)として計算される。
【0049】確率P(Xi|Xi−1,w)の実際の計
算では、P(Xi|Xi−1,w)を直接計算せずに、 P(Xi−1,Xi|w)/P(Xi−1) …(5) という近似値を求める。
【0050】この近似値の計算において、分子(被除
数)P(Xi−1,Xi|w)は、隣接する2文字パタ
ンのうちの2文字目の字種がwであるという条件で隣接
する2文字のパタンがXi−1,Xiとして生起する確
率であり、これは隣接2文字辞書格納手段5に記憶され
た隣接2文字パタンの辞書から、2文字単位のパタンの
マッチング結果として計算される。この処理が、図2の
ステップ13の隣接2文字評価処理に相当する。
【0051】一方、分母(除数)P(Xi−1)は、事
前知識なしの状態で文字パタンXi−1が観測される確
率であり、これは、1文字辞書格納手段6より、1文字
単位のパタンのマッチングとして計算される。この処理
が、図2のステップ14の1文字評価処理に相当する。
【0052】文字認識手段4は、隣接2文字辞書格納手
段5、及び、1文字辞書格納手段6より得られた、それ
ぞれの数値の比として、文字認識スコア、 P(Xi|Xi−1,wi)≒P(Xi−1,Xi|w)/P(Xi−1) …(6) を得る。この処理が、図2のステップ15の文字認識処
理に相当する。
【0053】文字列読み取り手段3の動作についてより
詳しく説明する。文字列読み取り手段3は、文字切り出
し手段2より受け取った文字列画像または文字列画像を
特徴抽出処理により変換した特徴パタン、及び切り出し
位置候補の座標情報を用いて、文字列の文字パタン候補
へのあらゆる分割の仕方を列挙する。この処理は、図2
のステップ12の文字列画像再構成処理に相当する。
【0054】例えば、入力画像から4つの切り出し位置
候補が得られているとすると、入力画像は、パタン1、
パタン2、パタン3、パタン4、パタン5という5つの
部分パタンに分割できる。
【0055】これに対して、文字数2を仮定すると、
(1|2,3,4,5)、(1,2|3,4,5)、
(1,2,3|4,5)、(1,2,3,4|5)とい
う4通りの分割があり得る。
【0056】また文字数3を仮定すると、(1|2|
3,4,5)、(1|2,3|4,5)、(1|2,
3,4|5)、(1,2|3|4,5)、(1,2|
3,4|5)、(1,2,3|4|5)の計6通りの分
割があり得る。
【0057】ただし、ここでは、入力画像の分割位置を
“|”で表している。
【0058】例えば(1,2|3|4,5)は、部分パ
タン1、2が1文字目に、部分パタン3が2文字目に、
部分パタン4、5が3文字目に割り当てられるように、
入力画像を分割(グループ分け)することを意味する。
【0059】このようにして想定される文字数につい
て、あらゆる分割の仕方を網羅して文字パタン候補の列
を生成し、それぞれについて、文字列全体での読み取り
スコアを計算する。この処理は、図2のステップ16の
文字列認識処理に相当する。
【0060】読み取りスコアは、各文字パタン候補の認
識スコアの積、すなわち、 P(X1|w1)×P(X2|X1,w2)×P(X3
|X2,w3)×…×P(Xn|Xn−1,wn) と計算する。ここで、nは文字数である。
【0061】想定される文字数及び字種について、それ
ぞれ読み取りスコアを計算し、読み取りスコアが最大と
なる認識結果w1、w2、…、wnが、読み取り結果と
して出力される。この処理は、図2のステップ17の結
果比較評価処理に相当する。
【0062】最初の文字のスコアP(X1|w1)につ
いては、直前に文字パタン候補が存在しないので、文字
認識手段4が1文字辞書を用いて計算する。
【0063】なお、ここでは、読み取りスコアは、確率
として扱っているので、各文字パタン候補の認識スコア
の積を全体のスコアとしているが、確率とみなせないス
コア(例えば対数確率や、テンプレートからの距離)を
扱う場合には、積ではなく、和を用いてもよい。
【0064】また、文字の並びに言語的な制約がある場
合には、適宜この制約を利用する。例えば、文字Aの直
後に文字Bが続く確率P(B|A)が、統計的な分析か
ら既知であるような場合には、この確率を読み取りスコ
アに反映させ、 P(X1|w1)P(w1)×P(X2|X1,w2)
P(w2|w1)×P(X3|X2,w3)P(w3|
w2)×…×P(Xn|Xn−1,wn)P(wn|w
n−1) というようにスコアを計算する。
【0065】あるいは、文字列が限られた何種類かの単
語のうちの1つであることがわかっている場合は、それ
ぞれの単語の文字並びのみを想定して、読み取りスコア
を計算すればよい。
【0066】文字列読み取り手段3は、動的計画法(D
ynamic Programming)に基づき、効率的に、最適解を
得るようにしてもよい。この動的計画法を用いた例につ
いて説明する。ここでは、T−1個の切り出し位置候補
が検出され、入力文字列画像をT個の部分パタンに分割
することができるものとする。
【0067】また1番目の部分パタンからi番目の部分
パタンまでを1文字目からk文字目までに対応させ、か
つ1番目の部分パタンからj番目の部分パタンまでを1
文字目から(k−1)文字目までに対応させた場合の、
k文字分の読み取りスコアをA(k,i,j)とする。
【0068】このとき、最初の1文字目に関するスコア
A(1,i,j)は、文字認識手段4により、P(部分
パタン1〜i|w)のwに関する最大値として計算でき
る。
【0069】2文字目以降のスコアA(k,i,j)
(k>1)については式(7)に示す漸化式で順次計算
できる。
【0070】ただし、X(j+1,i)はj+1番目の
部分パタンからi番目の部分パタンまでを合わせて作ら
れた部分パタンである。またB(k,i,j)及びC
(k,i,j)はそれぞれj+1番目の部分パタンから
i番目の部分パタンまでをk文字目として使用した場合
の、k−1文字目の開始位置及びk文字目の字種であ
る。
【0071】上記漸化式によって、ひとたび、最大スコ
アA(n,T,jmax)=maxjA(n,T,j)が求
められれば、n文字目の字種は、wn=C(n,T,j
max)、n文字目の開始位置はjmaxとなる。
【0072】またn−1文字目の開始位置は、B(n,
T,jmax)、n−1文字目の字種はC(n−1,
max,B(n,T,jmax))というように、後方へと
順次求められる。
【0073】切り出し位置候補を少数に限定せず、等間
隔に多数設定する場合には、このようにして、最適な読
み取り結果を効率よく検索できる。
【0074】この場合、図2のステップ12の文字列画
像再構成、ステップ15の文字認識、ステップ16の文
字列認識、ステップ17の結果比較評価、及び、ステッ
プ13の隣接2文字評価、ステップ14の1文字評価が
並行して処理されるため、効率よく読み取り結果を検索
できる。
【0075】次に、隣接2文字辞書格納手段5に格納さ
れる隣接2文字辞書の構成手順について説明する。
【0076】隣接2文字辞書は、文字列画像データから
抽出された隣接する2文字の画像データを学習データと
した事前学習により構成される。
【0077】まず、隣接2文字画像データを、1文字目
の字種が何であるかにかかわらず、2文字の字種で分類
して、字種数に等しい数のデータセットを作成する。
【0078】2文字目の字種がaである隣接2文字画像
を集めたデータセットに正解aを、2文字目の字種がb
である隣接2文字画像を集めたデータセットに正解b
を、という具合に、すべてのデータに、2文字目の字種
を、正解として付与する。以降は、通常の1文字のデー
タと同様にパタンの学習を行う。
【0079】例えば、文字認識手段4に、隠れマルコフ
モデル(Hidden Markov Model;HMM)を用いる場
合には、例えば文献「1995年、ローレンス・ラビナ
ー他著、古井監訳、音声認識の基礎(下)、NTTアド
バンステクノロジ株式会社、第128〜138頁」に示
されているように、Baum−Welchアルゴリズム
によって、字種a、b、…それぞれについて1つのHM
Mのパラメータを推定して辞書を構成する。
【0080】1文字辞書格納手段6に格納される1文字
辞書の構成手順について説明する。1文字辞書は、事前
知識なしで部分パタンXが生起する確率P(X)を計算
するための辞書と、字種wから文字が現れるという条件
の下にXというパタンが生起する確率P(X|w)を計
算するための辞書と、を含む。
【0081】まず、P(X)を計算する辞書について
は、1文字ずつ切り出された個別文字画像を字種によら
ず、すべて集めたデータセットを作成し、それにより1
つの辞書を作成する。
【0082】そして、前述と同様、隠れマルコフモデル
を用いる場合は、作成したデータセットを用いて、Ba
um−Welch(バウム・ウェルチ)アルゴリズムを
実行して、1つのHMMのパラメータを推定して辞書を
構成する。
【0083】次に、P(X|w)を計算するための辞書
は、直前の文字パタンが存在しない1文字目の認識スコ
アを計算するための辞書であるが、これはP(X)を計
算する辞書の学習に使った個別文字画像のデータセット
を字種別に分類し、各々の字種についてHMMのパラメ
ータを推定し、字種数分のHMMを構成することにより
辞書を作成する。
【0084】隣接2文字辞書及び1文字辞書は、正解付
けされた任意文字数の文字列画像を学習データとして、
自動的に構成するようにしてもよい。この手順について
説明する。
【0085】まず、隣接2文字辞書及び1文字辞書を特
徴づけるパラメータの初期値を適当に定める。文字切り
出し手段2を用いて学習用の文字列画像データから切り
出し位置候補を検出し、文字列読み取り手段3、文字認
識手段4及び初期辞書を用いて、最適な切り出し位置を
求める。
【0086】この際、学習用の文字列画像データにはす
でに正解が付与されているので、w1、w2、…、wn
に関しては固定で最適なスコアを探索すればよい。これ
によって、暫定的な文字切り出し位置が定まり、個別に
文字切り出され正解付けされたデータが得られる。これ
を用いて、1文字辞書及び隣接2文字辞書を前述の手順
に従って構成すればよい。そして、これ以降、新しく構
成された辞書を用いて、再び、文字切り出し手段2、文
字列読み取り手段3、文字認識手段4を起動して、個別
に切り出された文字データを得、これらを用いて辞書を
再構成する、という一連の処理の繰り返しを任意回数行
えばよい。
【0087】なお、ここでは、初期辞書のパラメータを
適当に定め、次に個別文字データを生成するという手順
について説明したが、これを逆の順序で開始してもよ
い。すなわち、最初に適当な切り出し位置で文字を切り
出し、これら個別文字データを学習データとして、初期
辞書を構成してもよい。ひとたび辞書が構成されれば、
以降の手続きは同様である。
【0088】次に、本発明の第二の実施例について説明
する。図1を参照すると、本実施例は、入力された文字
列画像を光学センサで取り込んで格納する画像記憶手段
1と、画像記憶手段1より受け取った文字列画像より隣
接文字間の境界の候補を切り出し位置候補として検出す
る文字切り出し手段2と、いくつかの切り出し位置候補
を選んで文字列画像を分割した際の個々の個別文字パタ
ンについて文字認識処理を呼び出して文字列全体として
の認識スコアを計算し、最適な切り出し及び認識結果を
文字列の読み取り結果として出力する文字列読み取り手
段3と、文字列読み取り手段3の要求に応じて文字パタ
ンに認識処理を施し、1つの字種と認識スコアを返す文
字認識手段4と、単一文字パタンの出現しやすさのスコ
アを計算する1文字辞書格納手段5と、隣り合う2文字
に相当するパタンを用いて2文字目の字種と認識スコア
を計算する隣接2文字辞書格納手段6とを備えている。
各々の手段はそれぞれ計算機上の主記憶装置に記憶され
たプログラムを実行させることによって実現可能であ
る。
【0089】なお、初期辞書のパラメータを適当に定
め、次に個別文字データを生成するという手順を述べた
が、これを逆の順序で開始してもよい。すなわち、最初
に適当な切り出し位置で文字を切り出し、それら個別文
字データを学習データとして初期辞書を構成してもよ
い。ひとたび辞書が構成されれば、以降の手続きは同様
である。また、入力文字列画像を読み取りに適した特徴
パタンに変換する特徴抽出処理を文字列読み取り処理過
程に挿入してもよい点についても、本発明の第一の実施
例で述べた通りである。
【0090】本発明の第2の実施例について、図2の流
れ図を参照しながら、段階を追って説明する。
【0091】図2において、ステップ10、11の画像
読み込み及び文字切り出しの動作は、前記第一の実施例
と同様である。すなわち、画像記憶手段1及び文字切り
出し手段2により、文字列画像の入力及び文字パタンの
抽出が行われる。
【0092】文字列読み取り手段3は、図2の流れ図で
は、ステップ12の文字列画像再構成処理12、ステッ
プ16の文字列認識、ステップ17の結果比較評価処理
の各処理を実行するものであり、文字切り出し手段2よ
り受け取った文字列画像または文字列画像を特徴抽出処
理により変換した特徴パタン、及び切り出し位置候補の
座標情報を受け取り、切り出し位置で切り出されたあら
ゆる文字パタン候補について、文字認識手段4を用いて
文字認識を行い、その認識結果と、認識スコアを記憶す
る。
【0093】そして、文字列全体として、最も認識スコ
アが高く、かつ重複や読み飛ばしのない文字パタン候補
列の認識結果を、文字列の読み取り結果として選び出し
て出力する。最適な読み取り結果の検索手順については
後述する。
【0094】文字列読み取り手段3が文字認識手段4に
文字パタン候補を送る際、該当する文字パタン候補に加
えて、その直前の文字パタン候補も送る。
【0095】文字認識手段4は、これら隣接する2つの
文字パタン候補を考慮して、該当する文字パタン候補の
文字認識処理を行う。文字認識手段4では、文字列読み
取り手段3より、隣接する2つの文字パタン候補を受け
取り、あらゆる2文字の文字カテゴリの組合せを仮定し
て、1番目の文字パタンの発生を考慮した場合の2番目
の文字パタンの認識スコアを計算し、文字列読み取り手
段3に返す。
【0096】ここで、文字認識手段4が文字列読み取り
手段3から、隣接する2つの文字パタン候補Xi−1、
Xiを受け取ったとすると、文字認識手段4は、パタン
Xiの属する文字カテゴリwiと、パタンは、字種パタ
ンXi−1の属する文字カテゴリwi−1のあらゆる組
合せについて、直前の文字パタンがカテゴリwi−1に
属するXi−1であり、かつ、着目する文字パタンがカ
テゴリwiに属する確率P(Xi|Xi−1,wi−
1,wi)を計算する。
【0097】実際の確率の計算では、P(Xi|Xi−
1,wi−1,wi)を直接計算せずに、 P(Xi−1,Xi|wi−1,wi)/P(Xi−1|wi−1) …(8 ) という近似値を求める。
【0098】この近似値の計算において、分子P(Xi
−1,Xi|wi−1,wi)は、隣接する2文字パタ
ンのうちの1文字目の字種がwi−1、2文字目の字種
がwiであるという条件で隣接する2文字のパタンがX
i−1,Xiとして生起する確率であり、これは隣接2
文字辞書格納手段5に記憶された隣接2文字パタンの辞
書から、2文字単位のパタンのマッチング結果として計
算される。この処理が図2のステップ13の隣接2文字
評価処理に相当する。
【0099】一方、分母P(Xi−1|wi−1)は、
文字カテゴリwi−1を仮定した場合に文字パタンXi
−1が観測される確率であり、これは1文字辞書格納手
段6より、1文字単位のパタンのマッチングとして計算
される。これは図2のステップ14の1文字評価処理に
相当する。
【0100】文字認識手段4は、隣接2文字辞書格納手
段5、及び1文字辞書格納手段6より得られたそれぞれ
の数値の比として、文字認識スコア、 P(Xi|Xi−1,wi)≒P(Xi−1,Xi|w)/P(Xi−1) …(9) を得る。この処理は、図2のステップ15の文字認識処
理に相当する。
【0101】文字列読み取り手段3の動作についてより
詳しく説明する。文字列読み取り手段3は、文字切り出
し手段2より受け取った文字列画像または文字列画像を
特徴抽出処理により変換した特徴パタン、及び切り出し
位置候補の座標情報を用いて、文字列の文字パタン候補
へのあらゆる分割の仕方を列挙する。これは図2のステ
ップ12の文字列画像再構成処理に相当する。
【0102】例えば、入力画像から4つの切り出し位置
候補が得られているとすると、入力画像はパタン1,パ
タン2,パタン3,パタン4,パタン5という5つの部
分パタンに分割できる。
【0103】これに対して、文字数2を仮定すると、
(1|2,3,4,5)、(1,2|3,4,5)、
(1,2,3|4,5)、(1,2,3,4|5)とい
う4通りの分割があり得る。
【0104】また文字数3を仮定すると、 (1|2|3,4,5)、(1|2,3|4,5)、
(1|2,3,4|5)、(1,2|3|4,5)、
(1,2|3,4|5)、(1,2,3|4|5) という6通りの分割があり得る。ただしここでは入力画
像の分割位置を“|”で表している。
【0105】例えば(1,2|3|4,5)は、部分パ
タン1,2が1文字目に、部分パタン3が2文字目に、
部分パタン4,5が3文字目に割り当てられるように入
力画像を分割(グループ分け)することを意味する。
【0106】このようにして想定される文字数につい
て、あらゆる分割の仕方を網羅して文字パタン候補の列
を生成し、それぞれについて文字列全体での読み取りス
コアを計算する。これは図2のステップの文字列認識処
理に相当する。
【0107】読み取りスコアは、各文字パタン候補の認
識スコアの積、すなわち P(X1|w1)×P(X2|X1,w1,w2)×P
(X3|X2,w2,w3)×…×P(Xn|Xn−
1,wn−1,wn) と計算する。ここで、nは文字数である。
【0108】想定される文字数及び字種について、それ
ぞれ読み取りスコアを計算し、読み取りスコアが最大と
なる認識結果w1,w2,…,wnが読み取り結果とし
て出力される。この処理は、図2のステップの結果比較
評価処理に相当する。
【0109】最初の文字のスコアP(X1|w1)につ
いては、直前に文字パタン候補が存在しないので、文字
認識手段4が1文字辞書を用いて計算する。
【0110】なお、読み取りスコアは、ここでは、確率
として扱っているので、各文字パタン候補の認識スコア
の積を全体のスコアとしているが、確率とみなせないス
コア(対数確率やテンプレートからの距離)を扱う場合
は、積ではなく、和を用いてもよい。
【0111】また、文字の並びに言語的な制約がある場
合には、適宜この制約を利用する。例えば、文字Aの直
後に文字Bが続く確率P(B|A)が、統計的な分析か
ら既知であるような場合には、これを読み取りスコアに
反映させて、 P(X1|w1)P(w1)×P(X2|X1,w2)
P(w2|w1)×P(X3|X2,w3)P(w3|
w2)×…×P(Xn|Xn−1,wn)P(wn|w
n−1) というようにスコアを計算する。
【0112】あるいは、文字列が限られた何種類かの単
語のうちの1つであることがわかっている場合には、そ
れぞれの単語の文字並びのみを想定して読み取りスコア
を計算すればよい。
【0113】文字列読み取り手段3の動作については、
前記第一の実施例と同様、動的計画法に基づいて効率的
に最適解を得るようにしてもよい。ここでは、T−1個
の切り出し位置候補が検出され、入力文字列画像をT個
の部分パタンに分割することができるとする。
【0114】また1番目の部分パタンからi番目の部分
パタンまでを1文字目からk文字目までに対応させ、か
つ1番目の部分パタンからj番目の部分パタンまでを1
文字目から(k−1)文字目までに対応させ、かつk文
字目の文字カテゴリをwとした場合の、k文字分の読み
取りスコアをA(k,i,j,w)とする。
【0115】このとき、最初の1文字目に関するスコア
A(1,i,j,w)は、文字認識手段4により、P
(部分パタン1〜i|w)のwに関する最大値として計
算できる。
【0116】また2文字目までに関するスコアA(2,
i,j,w)は、文字認識手段4と隣接2文字辞書格納
手段6により、P(部分パタン1〜j,部分パタンj+
1〜i|w′,w)のw′に関する最大値として計算で
きる。
【0117】3文字目以降のスコアA(k,i,j)
(k>2)については、次式(10)に示す漸化式で順
次計算できる。
【0118】
【0119】ただし、X(j+1,i)は、(j+1)
番目の部分パタンからi番目の部分パタンまでを合わせ
て作られた部分パタンである。
【0120】また、式(10)において、maxは、l
やw′など指定した変数に関する最大値を表し、arg
maxはmaxの操作を行って最大値が得られたときの変
数の値を表す。
【0121】また、B(k,i,j,w)及びC(k,
i,j,w)は、それぞれ(j+1)番目の部分パタン
からi番目の部分パタンまでをk文字目として使用し、
かつ、k文字目に相当するパタンの属する文字カテゴリ
をwとした場合の、k−2文字目の終端位置及び(k−
1)文字目の字種である。
【0122】上記漸化式によって、ひとたび、最大スコ
アA(n,T,jmax,wmax)=maxjmaxw
(n,T,j,w)が求められれば、n文字目の字種
は、 wn=C(n,T,jmax,wmax)、 n文字目の開始位置はjmaxとなる。
【0123】また(n−1)文字目の開始位置は、 B(n,T,jmax,wmax)+1、 (n−1)文字目の字種は、 C(n−1,jmax,B(n,T,jmax,wmax)) というように、後方へと順次求められる。
【0124】切り出し位置候補を少数に限定せず、等間
隔に多数設定する場合には、この形態で最適な読み取り
結果を効率よく検索できる。この場合、図2のステップ
12の文字列画像再構成処理、ステップ15の文字認識
処理、ステップ16の文字列認識処理、ステップ17の
結果比較評価処理、及びステップ13の隣接2文字評価
処理、ステップ14の1文字評価処理が並行して処理さ
れるため、効率よく読み取り結果を検索できる。
【0125】隣接2文字辞書格納手段5に格納される隣
接2文字辞書の構成手順について説明する。
【0126】隣接2文字辞書は、文字列画像データから
抽出された隣接する2文字の画像データを学習データと
した事前学習により構成される。
【0127】まず、隣接2文字画像データを、それらを
構成する各文字の字種によりいくつかのクラスに分類す
る。例えば数字を扱う場合には、00、01、02、
…、99という100通りの組合せがあり得るので、そ
れぞれの組合せで画像データを分類する。01と10は
異なるクラスに分ける。
【0128】この結果、字種数の二乗に等しい数のクラ
ス(データのセット)ができる。以降は、通常の1文字
のデータと同様にパタンの学習を行う。例えば、文字認
識手段4に隠れマルコフモデル(HMM)を用いる場合
には、文献(「1995年、ローレンス・ラビナー他
著、古井監訳、音声認識の基礎(下)、NTTアドバン
ステクノロジ株式会社、128〜138頁」)に記載さ
れているように、Baum−Welchアルゴリズムに
よって、それぞれのクラス(数字の場合なら00、0
1、02、…、99)について1つのHMMのパラメー
タを推定して辞書を構成する。
【0129】1文字辞書格納手段6に格納される1文字
辞書の構成手順については、前記第一の実施例で説明し
た、確率P(X|w)を計算するための辞書の構成手順
と同様である。
【0130】なお、隣接2文字辞書、及び、1文字辞書
を、正解付けされた任意文字数の文字列画像を学習デー
タとして、自動的に構成することも可能である。これに
ついては、前記第一の実施例で述べた方法と同様の手順
で行えばよい。
【0131】次に、本発明の第3の実施例について説明
する。図5は、本発明の第3の実施例の構成を示すブロ
ック図である。図5を参照すると、本発明の第3の実施
例は、文字認識プログラムを記録した記録媒体7を備え
る。この記録媒体7はCD−ROM、磁気ディスク、半
導体メモリその他の記録媒体であってよく、ネットワー
クを介して流通する場合も含む。
【0132】文字認識プログラムは、記録媒体7からデ
ータ処理装置8に読み込まれ、データ処理装置8で実行
される。データ処理装置8は文字認識プログラムの制御
により、文字切り出し手段を用いて画像記憶手段1に入
力された文字列画像からいくつかの切り出し位置候補を
検出し、それら複数の切り出し位置候補より文字パタン
候補を生成し、それら文字パタン候補のそれぞれについ
て、1文字辞書格納手段5及び隣接2文字辞書格納手段
6にそれぞれ格納された1文字辞書及び隣接2文字辞書
を用いた文字認識手段によって認識処理を行い、文字列
全体として最大のスコアが得られるような読み取り結果
を求めて出力する。
【0133】データ処理装置7は文字認識プログラムの
制御により、文字切り出し手段2、文字列読み取り手段
3及び文字認識手段4による処理と同一の処理を実行し
て文字列の読み取り結果を結果を出力する。
【0134】
【発明の効果】以上説明したように、本発明によれば、
文字列の読み取りにおいて、文字列から抽出される文字
候補を隣接する2文字の組として処理し、1文字目のパ
タン形状を考慮しつつ、2文字目に対する認識結果や認
識スコアを算出することにより、直前に書かれた文字か
らの続け書きや接触等によって文字形状が変形すること
に対応して、安定した文字認識が可能となり、このた
め、正確な文字列の読み取りを可能とする、という効果
を奏する。
【0135】さらに、本発明によれば、辞書のテンプレ
ート数は、多くとも高々、従来技術の2倍程度とされる
ため、十分高速な文字列の読み取りを実現できる、とい
う効果も奏する。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示すブロック図であ
る。
【図2】本発明の一実施例の処理フローを示す流れ図で
ある。
【図3】本発明の一実施例を説明するための図であり、
入力文字列画像の一例を示す図である。
【図4】本発明の一実施例を説明するための図であり、
入力文字列画像から識別に有効な特徴量を抽出した結果
の一例を示す図である。
【図5】本発明の第二の実施例の構成を示すブロック図
である。
【図6】文字の誤り方がその字種に依存する例を説明す
るための文字画像の一例を示す図である。
【図7】文字の誤り方がその字種に依存する例を説明す
るための文字画像の一例を示す図である。
【符号の説明】
1 画像記憶手段 2 文字切り出し手段 3 文字列読み取り手段 4 文字認識手段 5 1文字辞書格納手段 6 隣接2文字辞書格納手段 7 記憶媒体 8 データ処理装置
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平5−6464(JP,A) 特開 平8−96085(JP,A) 「電子情報通信学会技術研究報告」P RMU98−139 Vol.98 No.489 p.25−30(1998)”確率モデルに基 づくオンライン枠なし手書き文字列認 識" 「電子情報通信学会技術研究報告」P RMU98−138 Vol.98 No.489 p.17−24(1998)”切り出し・認 識・言語の確信度を統合した枠なしオン ライン文字列認識手法" 「情報処理学会研究報告」Vol.93 No.79 p.37−44(1993)”Bi gramによるオンライン漢字認識の文 脈後処理手法" 「情報処理学会論文誌」Vol.39 No.3 p.625−635(1998)”認識 誤りを含む和文テキストにおける全文検 索手法" (58)調査した分野(Int.Cl.7,DB名) G06K 9/62 - 9/72 JICSTファイル(JOIS)

Claims (14)

    (57)【特許請求の範囲】
  1. 【請求項1】文字列画像を入力し記憶する画像記憶手段
    と、 前記画像記憶手段から得た文字列画像から1文字に相当
    する部分パタンを獲得するための切り出し位置候補を検
    出する文字切り出し手段と、 前記文字切り出し手段で検出された切り出し位置候補に
    基づいて、1文字に相当する部分パタンである個別文字
    パタン候補を生成し、文字認識することで、最適な文字
    列の読み取り結果を出力する文字列読み取り手段と、 前記文字列読み取り手段が生成した個別文字パタン候補
    を、前記文字列読み取り手段からの要求に応じて認識
    し、文字認識結果、及び、文字認識結果の尤もらしさを
    表す文字認識スコアを出力する文字認識手段と、 前記文字認識手段が1文字パタン候補の識別、及びスコ
    ア評価に用いるための辞書を格納する1文字辞書格納手
    段と、 前記文字認識手段が隣接した2文字分の文字パタン候補
    を用いて個別文字の識別を行うための隣接2文字辞書を
    格納する2文字辞書格納手段と、 を備え、前記文字認識手段が、前記文字列読み取り手段から文字
    パタン候補を受け取って文字認識を行う際に、認識対象
    の文字パタン候補と、その直前の文字パタン候補を受け
    取り、認識対象の文字パタン候補がある字種に属すると
    仮定した場合に、与えられた認識対象の文字パタン候補
    とその直前の文字パタン候補とが生起する確率、及び、
    直前の文字パタンが生起する確率を用いて、認識対象の
    文字パタン候補がその字種に属することの尤もらしさを
    表すスコアとする、 ことを特徴とする文字認識装置。
  2. 【請求項2】前記文字認識手段が、認識対象の文字パタ
    ン候補と、その直前の文字パタン候補を受け取り、認識
    対象の文字パタン候補がある字種に属すると仮定した場
    合に、与えられた認識対象の文字パタン候補とその直前
    の文字パタン候補が生起する確率、及び直前の文字パタ
    ンが生起する確率との比を、認識対象の文字パタン候補
    がその字種に属することの尤もらしさを表すスコアとす
    る、ことを特徴とする請求項記載の文字認識装置。
  3. 【請求項3】(a)文字列画像を入力し記憶する画像記
    憶手段から得た文字列画像から1文字に相当する部分パ
    タンを獲得するための切り出し位置候補を検出する文字
    切り出し処理と、 (b)前記文字切り出し処理で検出された切り出し位置
    候補に基づいて、1文字に相当する部分パタンである個
    別文字パタン候補を生成し、文字認識することで、最適
    な文字列の読み取り結果を出力する文字列読み取り処理
    と、 (c)前記文字列読み取り処理が生成した個別文字パタ
    ン候補を、前記文字列読み取り処理からの要求に応じて
    認識し、文字認識結果、及び、文字認識結果の尤もらし
    さを表す文字認識スコアを出力する文字認識処理とを有し、 前記(c)の前記文字認識処理は、1文字辞書格納手段
    に格納された辞書を参照して、1文字パタン候補の識
    別、及びスコア評価を行い、2文字辞書格納手段に格納
    された隣接2文字辞書を参照して、隣接した2文字分の
    文字パタン候補を用いて個別文字の識別を行い、 前記文字認識処理は、前記文字列読み取り手段から文字
    パタン候補を受け取って文字認識を行う際に、認識対象
    の文字パタン候補と、その直前の文字パタン候補を受け
    取り、認識対象の文字パタン候補がある字種に属すると
    仮定した場合に、与えられた認識対象の文字パタン候補
    とその直前の文字パタン候補とが生起する確率、及び、
    直前の文字パタンが生起する確率を用いて、認識対象の
    文字パタン候補がその字種に属することの尤もらしさを
    表すスコアとする、 前記各処理 をコンピュータ上で実行するためのプログラ
    ムを記録した記録媒体。
  4. 【請求項4】(a)画像入力手段より入力された文字列
    画像から、文字の境界候補をなす切り出し位置候補を検
    出し、 (b)前記切り出し位置候補で切り出された文字パタン
    候補について文字認識を行い、該文字認識結果と認識ス
    コアを記憶し、その際、文字パタン候補とその直前の文
    字パタン候補から2つの文字パタン候補を考慮して該当
    する文字パタン候補の文字認識処理を行い、文字認識結
    果の尤もらしさを認識スコアとして記憶し、 (c)文字列全体として最も認識スコアが高い文字パタ
    ン候補列の認識結果を出力する、 上記(a)から(c)の各ステップを含み、 ある文字パタン候補とその直前の文字パタン候補から、
    前記ある文字パタン候補がある字種であるという条件
    で、前記文字パタン候補とその直前の文字パタン候補と
    が生起する確率、及び、前記直前の文字パタンが生起す
    る確率を用いて、認識対象の文字パタン候補がその字種
    に属することの尤もらしさを表す認識スコアを導出す
    る、 ことを特徴とする文字認識方法。
  5. 【請求項5】前記ある文字パタン候補がある字種である
    という条件で、前記文字パタン候補とその直前の文字パ
    タン候補とが生起する確率を予め記憶された隣接2文字
    パタンの辞書から2文字単位のパタンのマッチングによ
    り算出し、前記直前の文字パタンが生起する確率を予め
    登録された1文字単位のパタンの辞書から1文字単位の
    パタンのマッチングにより算出する、ことを特徴とする
    請求項記載の文字認識方法。
  6. 【請求項6】前記ステップ(b)において、隣接する2
    つの文字パタン候補Xi−1、Xiを受け取ったとする
    と、Xiの文字認識結果wiは、字種がw、直前の文字
    パタンがXi−1であるという条件の下で文字パタンX
    iが生起する条件付き確率P(Xi|Xi−1,w)
    最大にするwとして決定され、文字認識スコアをP(X
    i|Xi−1,wi)として計算する、ことを特徴とす
    る請求項記載の文字認識方法。
  7. 【請求項7】隣接する2文字パタンのうちの2文字目の
    字種がwであるという条件で隣接する2文字のパタンが
    Xi−1,Xiとして生起する前記条件付き確率P(X
    i|Xi−1,w)の値を、前記ある文字Xiの属する
    字種がwであるという条件の 下でXiとその直前の1文
    字Xi−1を合わせた隣接2文字分のパタンが生起する
    確率P(Xi−1,Xi|w)と、前記直前の文字パタ
    が事前知識なしで観測される確率P(Xi−1)を用
    いて、P(Xi−1,Xi|w)/P(Xi−1)で計
    算する、ことを特徴とする請求項記載の文字認識方
    法。
  8. 【請求項8】前記ステップ(b)において、入力文字列
    中の第i番目の文字パタンXiを辞書パタンwと比較し
    て文字認識の認識スコアを求める際に、i−1番目の文
    字として文字パタンXi−1が生起し、かつ、i−1番
    目の文字パタンXi−1が辞書パタンwi−1に代表さ
    れる文字カテゴリに属するという条件を付加した条件付
    き確率P(Xi|Xi−1,wi−1,wi)として計
    算する、ことを特徴とする請求項4記載の文字認識方
    法。
  9. 【請求項9】隣接する2文字パタンのうちの1文字目の
    字種がwi−1、2文字目の字種がwiであるという条
    件で隣接する2文字のパタンがXi−1,Xiとして生
    起する前記条件付き確率P(Xi|Xi−1,wi−
    1,wi)の値を、ある文字とその直前の1文字を合わ
    せた隣接2文字単位での確率P(Xi−1,Xi|wi
    −1,wi)と、1文字単位でのスコアP(Xi−1|
    wi−1)の比P(Xi−1,Xi|wi−1,wi)
    /P(Xi−1|wi−1)、もしくは、文字カテゴリ
    i−1を仮定した場合の文字パタンXi−1が観測さ
    れる条件確率P(Xi−1)を用いて、P(Xi−1,
    Xi|wi−1,wi)/P(Xi−1)で計算して求
    める、ことを特徴とする請求項8記載の文字認識方法。
  10. 【請求項10】前記文字認識の尤もらしさを表わす認識
    スコアを動的計画法で求め、その際、複数(T−1個)
    の切り出し位置候補が検出され、入力文字列画像をT個
    の部分パタンに分割し、1番目の部分パタンからi番目
    の部分パタンまでを1文字目からk文字目までに対応さ
    せ、1番目の部分パタンからj番目の部分パタンまでを
    1文字目から(k−1)文字目までに対応させた場合
    の、k文字分の読み取りスコアをA(k,i,j)と
    し、最初の1文字目に関するスコアA(1,i,j)
    は、i番目の部分パタンがある字種wであるという条件
    で、1番目からi番目の部分パタンが生起する確率Pの
    wに関する最大値として求め、前記スコアの最大スコア
    を求める、ことを特徴とする請求項記載の文字認識方
    法。
  11. 【請求項11】2文字目以降のスコアA(k,i,j)
    (k>1)については、以下の漸化式で順次計算し、 (ただし、X(j+1,i)はj+1番目の部分パタン
    からi番目の部分パタンまでを合わせて作られた部分パ
    タンである。B(k,i,j)及びC(k,i,j)は
    それぞれj+1番目の部分パタンからi番目の部分パタ
    ンまでをk文字目として使用した場合の、k−1文字目
    の開始位置及びk文字目の字種である。maxはlやwな
    ど指定した変数に関する引数の最大値を表す関数、argm
    ax はmaxの操作を行って最大値が得られたときの変数の
    値を表す。)、 最大スコアA(n,T,jmax)=maxjA(n,T,
    j)を求め、 n文字目の字種は、wn=C(n,T,jmax)、 n文字目の開始位置は、jmaxとなり、 n−1文字目の開始位置は、B(n,T,jmax)、 n−1文字目の字種はC(n−1,jmax,B(n,
    T,jmax))という具合に、後方へと順次求める、こ
    とを特徴とする請求項8記載の文字認識方法。
  12. 【請求項12】前記文字認識の尤もらしさを表わす認識
    スコアを動的計画法で求め、その際、複数(T−1個)
    の切り出し位置候補が検出され、入力文字列画像をT個
    の部分パタンに分割し、1番目の部分パタンからi番目
    の部分パタンまでを1文字目からk文字目までに対応さ
    せ、1番目の部分パタンからj番目の部分パタンまでを
    1文字目から(k−1)文字目までに対応させた場合
    の、k文字分の読み取りスコアをA(k,i,j)と
    し、最初の1文字目に関するスコアA(1,i,j)
    は、前記文字認識手段により、i番目の部分パタンがあ
    る字種wであるという条件で、1番目からi番目の部分
    パタンが生起する確率Pのwに関する最大値として求
    め、 2文字目以降のスコアA(k,i,j)(k>1)につ
    いては、以下の漸化式で順次計算し、 (ただし、X(j+1,i)はj+1番目の部分パタン
    からi番目の部分パタンまでを合わせて作られた部分パ
    タンである。B(k,i,j)及びC(k,i,j)は
    それぞれj+1番目の部分パタンからi番目の部分パタ
    ンまでをk文字目として使用した場合の、k−1文字目
    の開始位置及びk文字目の字種である。maxはlやwな
    ど指定した変数に関する引数の最大値を表す関数、argm
    ax はmaxの操作を行って最大値が得られたときの変数の
    値を表す。)、 上記漸化式によって、 最大スコアA(n,T,jmax)=maxjA(n,T,
    j)を求め、 n文字目の字種は、wn=C(n,T,jmax)、 n文字目の開始位置はjmaxとなり、 n−1文字目の開始位置は、B(n,T,jmax)、 n−1文字目の字種は、C(n−1,jmax,B(n,
    T,jmax))という具合に、後方へと順次求める、こ
    とを特徴とする請求項1記載の文字認識装置。
  13. 【請求項13】前記文字認識の尤もらしさを表わす認識
    スコアを動的計画法で求め、その際、複数(T−1個)
    の切り出し位置候補が検出され、入力文字列画像をT個
    の部分パタンに分割し、1番目の部分パタンからi番目
    の部分パタンまでを1文字目からk文字目までに対応さ
    せ、かつ、1番目の部分パタンからj番目の部分パタン
    までを1文字目から(k−1)文字目までに対応させ、
    かつ、k文字目の文字カテゴリをwとした場合の、k文
    字分の読み取りスコアをA(k,i,j,w)とし、最
    初の1文字目に関するスコアA(1,i,j,w)は、
    1番目からi番目の部分パタンが生起する確率Pのwに
    関する最大値として求め、 また2文字目までに関するスコアA(2,i,j,w)
    は、前記文字認識手段と前記2文字辞書格納手段によ
    り、P(部分パタン1〜j,部分パタンj+1〜i|
    w′,w)のw′に関する最大値として計算し、 3文字目以降のスコアA(k,i,j)(k>2)につ
    いては、次の漸化式で順次計算し、 (但し、X(j+1,i)は、(j+1)番目の部分パ
    タンからi番目の部分パタンまでを合わせて作られた部
    分パタンである。B(k,i,j,w)及びC(k,
    i,j,w)は、それぞれ(j+1)番目の部分パタン
    からi番目の部分パタンまでをk文字目として使用し、
    かつ、k文字目に相当するパタンの属する文字カテゴリ
    をwとした場合の、k−2文字目の終端位置及び(k−
    1)文字目の字種である。maxはlやw′など指定した
    変数に関する引数の最大値を表す関数、argmax はmaxの
    操作を行って最大値が得られたときの変数の値を表
    す。)、 上記漸化式によって、 最大スコアA(n,T,jmax,wmax)=maxjma
    wA(n,T,j,w)が求め、n文字目の字種はw
    n=C(n,T,jmax,wmax)、 n文字目の開始位置はjmaxとなり、 (n−1)文字目の開始位置は、B(n,T,jmax
    max)+1、 (n−1)文字目の字種は、C(n−1,jmax,B
    (n,T,jmax,wmax))という具合に、後方へと順
    次求める、ことを特徴とする請求項1記載の文字認識装
    置。
  14. 【請求項14】(a)画像入力手段より入力された文字
    列画像から文字の境界候補をなす切り出し位置候補を検
    出する処理、 (b)前記切り出し位置候補で切り出された文字パタン
    候補について文字認識を行い、該文字認識結果と認識ス
    コアを記憶し、その際、ある文字パタン候補とその直前
    の文字パタン候補から、前記ある文字パタン候補がある
    字種であるという条件で、前記文字パタン候補とその直
    前の文字パタン候補とが生起する確率、及び、前記直前
    の文字パタンが生起する確率を用いて、認識対象の文字
    パタン候補がその字種に属することの尤もらしさを表す
    認識スコアを導出する処理、 (c)文字列全体としてもっとも認識スコアが高い文字
    パタン候補列の認識結果を出力する処理、 上記(a)から(c)の各処理をコンピュータで実行す
    るためのプログラムを記録した記録媒体。
JP33037298A 1998-07-03 1998-11-20 文字認識装置及び文字認識プログラムを記録した記録媒体 Expired - Fee Related JP3209197B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33037298A JP3209197B2 (ja) 1998-07-03 1998-11-20 文字認識装置及び文字認識プログラムを記録した記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP18845698 1998-07-03
JP10-188456 1998-07-03
JP33037298A JP3209197B2 (ja) 1998-07-03 1998-11-20 文字認識装置及び文字認識プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2000082115A JP2000082115A (ja) 2000-03-21
JP3209197B2 true JP3209197B2 (ja) 2001-09-17

Family

ID=26504938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33037298A Expired - Fee Related JP3209197B2 (ja) 1998-07-03 1998-11-20 文字認識装置及び文字認識プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3209197B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102615583B1 (ko) * 2017-04-27 2023-12-20 가부시키가이샤 엠티지 근육 전기 자극 장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6462930B1 (ja) * 2018-03-28 2019-01-30 AI inside株式会社 文字認識装置、方法およびプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
「情報処理学会研究報告」Vol.93 No.79 p.37−44(1993)"Bigramによるオンライン漢字認識の文脈後処理手法"
「情報処理学会論文誌」Vol.39 No.3 p.625−635(1998)"認識誤りを含む和文テキストにおける全文検索手法"
「電子情報通信学会技術研究報告」PRMU98−138 Vol.98 No.489 p.17−24(1998)"切り出し・認識・言語の確信度を統合した枠なしオンライン文字列認識手法"
「電子情報通信学会技術研究報告」PRMU98−139 Vol.98 No.489 p.25−30(1998)"確率モデルに基づくオンライン枠なし手書き文字列認識"

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102615583B1 (ko) * 2017-04-27 2023-12-20 가부시키가이샤 엠티지 근육 전기 자극 장치

Also Published As

Publication number Publication date
JP2000082115A (ja) 2000-03-21

Similar Documents

Publication Publication Date Title
US6556712B1 (en) Methods and apparatus for handwriting recognition
CN111639646B (zh) 一种基于深度学习的试卷手写英文字符识别方法及系统
JP2750057B2 (ja) 自動手書き文字認識に対する統計的混合手法
Kolcz et al. A line-oriented approach to word spotting in handwritten documents
US6950555B2 (en) Holistic-analytical recognition of handwritten text
US20080008387A1 (en) Method and apparatus for recognition of handwritten symbols
KR100412317B1 (ko) 문자인식/수정방법및장치
US20060050962A1 (en) System, process and software arrangement for recognizing handwritten characters
JP2000353215A (ja) 文字認識装置および文字認識プログラムを記録した記録媒体
Al-Badr et al. Segmentation-free word recognition with application to Arabic
Roy et al. Date-field retrieval in scene image and video frames using text enhancement and shape coding
US8340428B2 (en) Unsupervised writer style adaptation for handwritten word spotting
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
JP3209197B2 (ja) 文字認識装置及び文字認識プログラムを記録した記録媒体
Parwej An empirical evaluation of off-line Arabic handwriting and printed characters recognition system
JP3180792B2 (ja) 文字認識装置、文字学習装置およびコンピュータ可読記録媒体
JP2000322514A (ja) パターン抽出装置及び文字切り出し装置
Nisa et al. Annotation of struck-out text in handwritten documents
Hassan et al. Handwritten Text Recognition using Deep Learning Methods
Amin Recognition of printed Arabic text using machine learning
AU2021101278A4 (en) System and Method for Automatic Language Detection for Handwritten Text
JP3374762B2 (ja) 文字認識方法及びその装置
Kishore et al. similarity assessment of 30 world sign languages and exploring scope for a sign–to–sign translator
JP4180137B2 (ja) オンライン手書き文字認識方法
JP3130392B2 (ja) 文字認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010612

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070713

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080713

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090713

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100713

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110713

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110713

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120713

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120713

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130713

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees