JP3209197B2

JP3209197B2 - 文字認識装置及び文字認識プログラムを記録した記録媒体

Info

Publication number: JP3209197B2
Application number: JP33037298A
Authority: JP
Inventors: 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1998-07-03
Filing date: 1998-11-20
Publication date: 2001-09-17
Anticipated expiration: 2018-11-20
Also published as: JP2000082115A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、紙などに書かれた
文字を光学センサで取り込んで読み取る光学的文字認識
技術に関し、特に、単語や文のように複数の文字が並ん
だ文字列を認識する文字認識装置及び方法に関する。

【０００２】

【従来の技術】この種の従来の文字認識装置において
は、文字列内の文字の境界を同定する文字切り出しと、
切り出されたそれぞれの文字を読み取る文字認識を組み
合わせることによって文字列を読み取っている。

【０００３】従来の文字認識技術の一例として、例えば
文献「１９９４年、スー・リャン他、セグメンテーショ
ン・オブ・タッチング・キャラクターズ・イン・プリン
テッド・ドキュメント・レコグニション、パターン・レ
コグニション、第２７巻、第６号、第８２５〜８４０頁
(Su Liang et al., Segmentation of Touching Charact
ers in Printed Document Recognition, Pattern Recog
nition, Vol.27, No.6, pp.825-840, 1994)」の記載が
参照される。

【０００４】この文献に記載されている方式は、投影ヒ
ストグラムの形状、及び、これから派生する情報を利用
して、文字境界の候補を抽出し、任意の２つの文字境界
で挟まれる文字列の一部を文字の候補として、すべて抽
出する（文字切り出し）。

【０００５】次に、全ての文字候補に対して、文字認識
を行い、それぞれに認識結果とその尤もらしさ（スコ
ア）を計算する。

【０００６】最後に、文字列として連結した際にスコア
が最大となるように、文字候補を選び、同時に正しいと
思われる文字列の切り出し位置を決定する。

【０００７】この他にも各種方式が、従来より提案され
ているが、その多くは、文字切り出しに用いる情報が異
なるのみであるもの、あるいは、文字切り出しをせずに
網羅的に文字列中のあらゆる部分で文字認識を行って最
適な切り出し位置を決定するもの、または、文字認識で
文字画像から抽出する特徴量や文字を識別する方法が異
なるのみである。

【０００８】また上述した例は、印刷文字を認識対象と
しているが、手書き文字を対象とする方式においても、
同様であり、多くの場合、文字切り出しと文字認識は別
個のモジュールとして構成されており、これらを組み合
わせて文字列の読み取りを行うという手順が採用されて
いる。

【０００９】

【発明が解決しようとする課題】しかしながら、上記し
た従来の技術においては、文字切り出しと文字認識の処
理系が別個に構築されて用いられるため、特に手書き文
字列の認識において、文字列特有の文字パタンの変形に
対応できず、このため誤認識を生ずることが多い、とい
う問題点を有している。

【００１０】例えば、筆記体英文のように、続け書きで
書かれた文字列の場合、“ａ”という文字を書き終わっ
た時点でのペンの位置は下部にあるが、“ｏ”を書き終
わった時点でのペンの位置は上部である。したがって、
同じ文字であっても、“ａ”の次に書かれるか、“ｏ”
の次に書かれるかによって、パタンの形状が変化する。
図６を参照すると、続け書きで書かれた文字列“ａ
ｂ”、“ｏｂ”について、同じ“ｂ”であっても、
“ａ”に続く“ｂ”は“ｂ”を囲む矩形左下側から、
“ｏ”に続く“ｂ”は“ｂ”を囲む矩形左側のほぼ中央
から開始している。

【００１１】このようなことは個別文字では起こり得な
い、文字列特有の変形である。

【００１２】そして、このような変形は、個別文字だけ
を学習して構築されている従来の文字認識処理系では、
対応不可能であり、しばしば誤認識の原因となる。

【００１３】またアルファベットだけでなく、数字でも
同様の問題はみられる。例えば“５”の書き終わりのペ
ンの進行方向は文字列の方向と同じであることから、
“５”に続く文字は“５”とつながって書かれることが
多い。この影響で、図７に示すように、“５”の次に書
かれる文字は“５”と滑らかにつながるように変形を受
ける。

【００１４】このため文字列特有の変形を考慮していな
い従来の文字認識処理システムでは、誤認識を生じ易
い。

【００１５】すなわち、一般的に文字列は、隣接する文
字同士に依存関係があり、互いに影響しあって変形を生
ずるという傾向が存在する。

【００１６】隣接する文字に依存して文字が変形を受け
る問題に対して、隣接する２文字を１つのパタンとし
て、字種数の２乗個のテンプレートを学習して辞書を構
築する方法も考えられる。しかし、２文字の並びは、パ
タンとしての変形のバリエーションが極めて多様とな
り、膨大な量の学習データが必要となる。さらに、テン
プレートは、字種数の２乗個必要となるため、学習デー
タ不足の問題が深刻となる。

【００１７】このように、２文字を１パタンとして字種
の２乗個のテンプレートを学習する方法は実用に適さな
いことがわかる。

【００１８】したがって、本発明は、上記技術的課題の
認識に基づき創案されてものであって、その目的は、隣
接する文字間の依存性に起因して生ずる文字形状の変形
による影響が小さい、すなわち文字の接触や続け書きに
対して頑健（robust）な文字認識装置及び方法を提供す
ることにある。

【００１９】

【課題を解決するための手段】上述した目的を達成する
本発明は、文字列画像を入力し記憶する画像記憶手段
と、前記画像記憶手段から得た文字列画像から１文字に
相当する部分パタンを獲得するための切り出し位置候補
を検出する文字切り出し手段と、前記文字切り出し手段
から得た切り出し位置候補に基づいて１文字に相当する
部分パタンである個別文字パタン候補を生成し、文字認
識して最適な文字列の読み取り結果を出力する文字列読
み取り手段と、前記文字列読み取り手段が生成した個別
文字パタン候補を、前記文字列読み取り手段の要求に応
じて認識し、文字認識結果及び文字認識結果の尤もらし
さを表す文字認識スコアを出力する文字認識手段と、前
記文字認識手段が１文字パタン候補の識別及びスコア評
価に用いるための辞書を格納する１文字辞書格納手段
と、前記文字認識手段が隣接した２文字分の文字パタン
候補を用いて個別文字の識別を行うための隣接２文字辞
書を格納するための２文字辞書格納手段と、を備え、前
記文字認識手段が、前記文字列読み取り手段から文字パ
タン候補を受け取って文字認識を行う際に、認識対象の
文字パタン候補と、その直前の文字パタン候補を受け取
り、認識対象の文字パタン候補がある字種に属すると仮
定した場合に、与えられた認識対象の文字パタン候補と
その直前の文字パタン候補とが生起する確率、及び、直
前の文字パタンが生起する確率を用いて、認識対象の文
字パタン候補がその字種に属することの尤もらしさを表
すスコアとする。

【００２０】

【発明の実施の形態】本発明の実施の形態について説明
する。まず本発明の文字認識装置の原理について説明す
る。本発明は、一実施例の形態において、（ａ）文字認
識処理系を構築する際に、文字列を訓練データに用い
て、文字列から直接文字を学習し、（ｂ）入力文字列中
の第ｉ番目の文字パタンＸｉを辞書パタンｗと比較して
文字認識のスコアを計算する際に、その直前のｉ−１番
目の文字としてパタンＸｉ−１が生起するという条件を
付加した条件付き確率Ｐ（Ｘｉ｜Ｘｉ−１，ｗ）として
計算することによって、文字の接触や続け書き等、隣接
する文字間の依存性に起因して生ずる文字形状の変形に
よる影響を受けにくい頑強な文字認識を実現している。

【００２１】ここで、条件付き確率Ｐ（Ｘｉ｜Ｘｉ−
１，ｗ）の値は、ある文字とその直前の１文字を合わせ
た隣接２文字単位でのスコアＰ（Ｘｉ−１，Ｘｉ｜ｗ）
と、１文字単位でのスコアＰ（Ｘｉ−１｜ｗ）の比、Ｐ（Ｘｉ−１，Ｘｉ｜ｗ）／Ｐ（Ｘｉ−１｜ｗ） …(1)、または、これを簡単化した、Ｐ（Ｘｉ−１，Ｘｉ｜ｗ）／Ｐ（Ｘｉ−１） …(2) を計算することによって得られる。

【００２２】本発明は、別の実施の形態として、（ａ）
文字認識処理系を構築する際に、文字列を訓練データに
用いて文字列から直接文字を学習し、（ｂ）入力文字列
中の第ｉ番目の文字パタンＸｉを辞書パタンｗと比較し
て文字認識のスコアを計算する際に、ｉ−１番目の文字
としてパタンＸｉ−１が生起し、かつ、ｉ−１番目の文
字パタンＸｉ−１が辞書パタンｗ′に代表される文字カ
テゴリに属するという条件を付加した条件付き確率Ｐ
（Ｘｉ｜Ｘｉ−１，ｗ′，ｗ）として計算することによ
って実現される。

【００２３】ここで、条件付き確率Ｐ（Ｘｉ｜Ｘｉ−
１，ｗ′，ｗ）の値は、ある文字とその直前の１文字を
合わせた隣接２文字単位でのスコアＰ（Ｘｉ−１，Ｘｉ
｜ｗ′，ｗ）と、１文字単位でのスコアＰ（Ｘｉ−１｜
ｗ′，ｗ）の比Ｐ（Ｘｉ−１，Ｘｉ｜ｗ′，ｗ）／Ｐ（Ｘｉ−１｜ｗ′，ｗ） …(3)、またはそれを簡単化した、Ｐ（Ｘｉ−１，Ｘｉ｜ｗ′，ｗ）／Ｐ（Ｘｉ−１｜ｗ′） …(4) を計算することによって得られる。以下、実施例に即し
て詳細に説明する。

【００２４】

【実施例】図１は、本発明の一実施例の構成を示すブロ
ック図である。図１を参照すると、この実施例は、入力
された文字列画像を光学センサで取り込んで格納する画
像記憶手段１と、画像記憶手段１より受け取った文字列
画像より隣接文字間の境界の候補を切り出し位置候補と
して検出する文字切り出し手段２と、いくつかの切り出
し位置候補を選んで文字列画像を分割した際の個々の個
別文字パタンについて文字認識処理を呼び出して文字列
全体としての認識スコアを計算し、最適な切り出し及び
認識結果を文字列の読み取り結果として出力する文字列
読み取り手段３と、文字列読み取り手段３の要求に応じ
て文字パタンに認識処理をかけ、１つの字種と認識スコ
アを返す文字認識手段４と、単一文字パタンの出現しや
すさのスコアを計算する１文字辞書格納手段５と、隣り
合う２文字に相当するパタンを用いて２文字目の字種と
認識スコアを計算する隣接２文字辞書格納手段６と、を
有する。画像記憶手段１、文字切り出し手段２、文字列
読み取り手段３、文字認識手段４と、１文字辞書格納手
段５、隣接２文字辞書格納手段６は、コンピュータ上で
実行されるプログラム制御によりその機能を実現するこ
とができる。

【００２５】なお、文字認識手段４において、文字認識
を行う場合には、入力画像に対して前処理を行うのが一
般的であり、この前処理として、例えば、多値画像をよ
り扱いやすい２値画像に変換する２値化処理、文字の大
きさやストロークの間隔、傾き等を整形する正規化処
理、画像中の細かな汚れやかすれを取り除くノイズ除去
処理、入力パタンを識別に有用な、より少数の量に変換
する特徴抽出処理等の公知の各種処理が用いられる。本
発明の一実施例においても、これらの処理を、必要に応
じて文字認識手段４に導入してもよいことは勿論であ
る。また、これらの前処理は前後関係を問わず、任意の
順序で適用することができる。

【００２６】さらに、特徴抽出処理によって抽出される
特徴量が、文字切り出しによる画像の分割に伴って分割
できる種類のもの（入力画像内の局所領域ごとに特徴量
が計算される）であれば、これらの前処理は、特徴抽出
処理とともに、文字切り出し手段２あるいは画像記憶手
段１において行うことにより、入力文字列画像から特徴
を一括抽出することも可能である。

【００２７】特徴抽出処理の一例として、文字線の方向
別の強さを特徴として計算する処理を、図３に示す入力
画像の具体例に即して説明する。

【００２８】文字線の方向を縦（９０°方向）、横（０
°方向）、斜め（４５°及び１３５°方向）の４段階方
向に取り、それぞれの方向について、また画像を縦４、
横６３区間で分割した小領域のそれぞれについて、文字
線の長さを計測する。

【００２９】ここで文字線の長さは、該当する方向に連
結する黒画素の数として計測することができる。黒画素
が存在しない領域では、長さは０とすればよい。このよ
うにして、図３に示す、“０２０６２”と書かれた入力
画像から、図４に示すような、文字線の方向に基づいた
特徴パタンが得られる。

【００３０】図４において、黒色が濃いほど、文字線の
長さに対応する特徴値が大きいことを意味する。また特
徴パタンは縦方向に１６の領域に分かれているが、上か
ら４領域ずつが、それぞれ０°、４５°、９０°、１３
５°の方向の特徴値に対応する。

【００３１】この特徴のように、画像中の小領域に対応
して特徴の値が定義される特徴量の場合、入力画像中で
の文字の切り出し位置が決まれば、これに伴って、小領
域単位で特徴パタンを分割することができることから、
文字切り出し手段２の上流工程でも特徴抽出処理を行う
ことができる。

【００３２】上述した特徴抽出処理の例は、文字切り出
し手段２での後工程に置くこともできる。さらに、特徴
抽出処理を行わず、入力画像をそのまま一種の特徴とし
て用いるようにしてもよい。

【００３３】図２は、本発明の一実施例の処理フローを
説明するための流れ図である。図１及び図２を参照し
て、本発明の一実施例の動作について詳細に説明する。

【００３４】画像はスキャナ等によって光学的に入力さ
れ、画像記憶手段１に格納され、さらに文字切り出し手
段２へ送られる（図２のステップ１０）。

【００３５】文字切り出し手段２は、文字列画像からい
くつかの切り出し位置候補を検出し、その座標情報及び
文字列画像または文字列画像を特徴抽出処理により変換
した特徴パタンを文字列読み取り手段３へ送る（図２の
ステップ１１）。

【００３６】切り出し位置候補の検出には、何らかの図
形的な情報を利用する。図形的な情報としては、例えば
文字列の投影ヒストグラムを計算する。例えば、文字列
が横書きならば縦方向、縦書きならば横方向に投影した
ヒストグラムを計算する。そして、度数があらかじめ設
定したしきい値よりも低い位置を、切り出し位置候補と
する。

【００３７】図形的な情報を用いた、別の切り出し手段
として、文字列の輪郭線を追跡してその凹凸を計測し、
凹みがしきい値よりも大きくなる位置を切り出し位置候
補として記憶する、という方法を用いてもよい。

【００３８】また、複数の図形的特徴を併用して切り出
し位置候補を求める方法を用いてもよい。

【００３９】さらに、切り出し位置候補の検出は、図形
的情報を利用しない方法によっても可能である。例えば
図形的情報を利用しない場合、文字列画像の開始位置の
座標から終了位置の座標までを等間隔に区切り、その区
切り点をすべて切り出し位置候補として記憶する。この
場合、切り出し位置候補としては、例えば想定される文
字数の数倍程度等という具合に、ある程度多数の切り出
し位置候補を記憶する。

【００４０】文字列読み取り手段３は、文字列画像再構
成処理（図２のステップ１２）、文字列認識（図２のス
テップ１６）、及び結果比較評価（図２のステップ１
７）の各処理を行う。

【００４１】すなわち文字切り出し手段２より受け取っ
た文字列画像または文字列画像を特徴抽出処理により変
換した特徴パタン、及び切り出し位置候補の座標情報を
受け取り、切り出し位置で切り出されたあらゆる文字パ
タン候補について文字認識手段４を用いて文字認識を行
い、その認識結果と認識スコアを記憶する。

【００４２】そして、文字列全体としてもっとも認識ス
コアが高く、かつ重複や読み飛ばしのない文字パタン候
補列の認識結果を、文字列の読み取り結果として選び出
して出力する。

【００４３】最適な読み取り結果の検索手順については
後述する。

【００４４】文字列読み取り手段３が文字認識手段４に
文字パタン候補を送る際、該当する文字パタン候補に加
え、その直前の文字パタン候補も送る。

【００４５】文字認識手段４は、これら隣接する２つの
文字パタン候補を考慮して該当する文字パタン候補の文
字認識処理を行う。

【００４６】文字認識手段４は、文字列読み取り手段３
より、隣接する２つの文字パタン候補を受け取り、後者
に関する文字認識処理を行い、文字認識結果（字種）及
び文字認識スコアを計算し、文字列読み取り手段３に返
す。

【００４７】ここで、文字認識手段４が文字列読み取り
手段３から、隣接する２つの文字パタン候補Ｘｉ−１、
Ｘｉを受け取ったとすると、Ｘｉの文字認識結果ｗｉ
は、字種がｗ、直前の文字パタンがＸｉ−１であるとい
う条件の下で文字パタンＸｉが生起する確率Ｐ（Ｘｉ｜
Ｘｉ−１，ｗ）を最大にするｗとして決定される。

【００４８】また、その際の文字認識スコアは、Ｐ（Ｘ
ｉ｜Ｘｉ−１，ｗｉ）として計算される。

【００４９】確率Ｐ（Ｘｉ｜Ｘｉ−１，ｗ）の実際の計
算では、Ｐ（Ｘｉ｜Ｘｉ−１，ｗ）を直接計算せずに、Ｐ（Ｘｉ−１，Ｘｉ｜ｗ）／Ｐ（Ｘｉ−１） …(5) という近似値を求める。

【００５０】この近似値の計算において、分子（被除
数）Ｐ（Ｘｉ−１，Ｘｉ｜ｗ）は、隣接する２文字パタ
ンのうちの２文字目の字種がｗであるという条件で隣接
する２文字のパタンがＸｉ−１，Ｘｉとして生起する確
率であり、これは隣接２文字辞書格納手段５に記憶され
た隣接２文字パタンの辞書から、２文字単位のパタンの
マッチング結果として計算される。この処理が、図２の
ステップ１３の隣接２文字評価処理に相当する。

【００５１】一方、分母（除数）Ｐ（Ｘｉ−１）は、事
前知識なしの状態で文字パタンＸｉ−１が観測される確
率であり、これは、１文字辞書格納手段６より、１文字
単位のパタンのマッチングとして計算される。この処理
が、図２のステップ１４の１文字評価処理に相当する。

【００５２】文字認識手段４は、隣接２文字辞書格納手
段５、及び、１文字辞書格納手段６より得られた、それ
ぞれの数値の比として、文字認識スコア、Ｐ（Ｘｉ｜Ｘｉ−１，ｗｉ）≒Ｐ（Ｘｉ−１，Ｘｉ｜ｗ）／Ｐ（Ｘｉ−１） …(6) を得る。この処理が、図２のステップ１５の文字認識処
理に相当する。

【００５３】文字列読み取り手段３の動作についてより
詳しく説明する。文字列読み取り手段３は、文字切り出
し手段２より受け取った文字列画像または文字列画像を
特徴抽出処理により変換した特徴パタン、及び切り出し
位置候補の座標情報を用いて、文字列の文字パタン候補
へのあらゆる分割の仕方を列挙する。この処理は、図２
のステップ１２の文字列画像再構成処理に相当する。

【００５４】例えば、入力画像から４つの切り出し位置
候補が得られているとすると、入力画像は、パタン１、
パタン２、パタン３、パタン４、パタン５という５つの
部分パタンに分割できる。

【００５５】これに対して、文字数２を仮定すると、
（１｜２，３，４，５）、（１，２｜３，４，５）、
（１，２，３｜４，５）、（１，２，３，４｜５）とい
う４通りの分割があり得る。

【００５６】また文字数３を仮定すると、（１｜２｜
３，４，５）、（１｜２，３｜４，５）、（１｜２，
３，４｜５）、（１，２｜３｜４，５）、（１，２｜
３，４｜５）、（１，２，３｜４｜５）の計６通りの分
割があり得る。

【００５７】ただし、ここでは、入力画像の分割位置を
“｜”で表している。

【００５８】例えば（１，２｜３｜４，５）は、部分パ
タン１、２が１文字目に、部分パタン３が２文字目に、
部分パタン４、５が３文字目に割り当てられるように、
入力画像を分割（グループ分け）することを意味する。

【００５９】このようにして想定される文字数につい
て、あらゆる分割の仕方を網羅して文字パタン候補の列
を生成し、それぞれについて、文字列全体での読み取り
スコアを計算する。この処理は、図２のステップ１６の
文字列認識処理に相当する。

【００６０】読み取りスコアは、各文字パタン候補の認
識スコアの積、すなわち、Ｐ（Ｘ１｜ｗ１）×Ｐ（Ｘ２｜Ｘ１，ｗ２）×Ｐ（Ｘ３
｜Ｘ２，ｗ３）×…×Ｐ（Ｘｎ｜Ｘｎ−１，ｗｎ）と計算する。ここで、ｎは文字数である。

【００６１】想定される文字数及び字種について、それ
ぞれ読み取りスコアを計算し、読み取りスコアが最大と
なる認識結果ｗ１、ｗ２、…、ｗｎが、読み取り結果と
して出力される。この処理は、図２のステップ１７の結
果比較評価処理に相当する。

【００６２】最初の文字のスコアＰ（Ｘ１｜ｗ１）につ
いては、直前に文字パタン候補が存在しないので、文字
認識手段４が１文字辞書を用いて計算する。

【００６３】なお、ここでは、読み取りスコアは、確率
として扱っているので、各文字パタン候補の認識スコア
の積を全体のスコアとしているが、確率とみなせないス
コア（例えば対数確率や、テンプレートからの距離）を
扱う場合には、積ではなく、和を用いてもよい。

【００６４】また、文字の並びに言語的な制約がある場
合には、適宜この制約を利用する。例えば、文字Ａの直
後に文字Ｂが続く確率Ｐ（Ｂ｜Ａ）が、統計的な分析か
ら既知であるような場合には、この確率を読み取りスコ
アに反映させ、Ｐ（Ｘ１｜ｗ１）Ｐ（ｗ１）×Ｐ（Ｘ２｜Ｘ１，ｗ２）
Ｐ（ｗ２｜ｗ１）×Ｐ（Ｘ３｜Ｘ２，ｗ３）Ｐ（ｗ３｜
ｗ２）×…×Ｐ（Ｘｎ｜Ｘｎ−１，ｗｎ）Ｐ（ｗｎ｜ｗ
ｎ−１）というようにスコアを計算する。

【００６５】あるいは、文字列が限られた何種類かの単
語のうちの１つであることがわかっている場合は、それ
ぞれの単語の文字並びのみを想定して、読み取りスコア
を計算すればよい。

【００６６】文字列読み取り手段３は、動的計画法（Ｄ
ynamic Ｐrogramming）に基づき、効率的に、最適解を
得るようにしてもよい。この動的計画法を用いた例につ
いて説明する。ここでは、Ｔ−１個の切り出し位置候補
が検出され、入力文字列画像をＴ個の部分パタンに分割
することができるものとする。

【００６７】また１番目の部分パタンからｉ番目の部分
パタンまでを１文字目からｋ文字目までに対応させ、か
つ１番目の部分パタンからｊ番目の部分パタンまでを１
文字目から（ｋ−１）文字目までに対応させた場合の、
ｋ文字分の読み取りスコアをＡ（ｋ，ｉ，ｊ）とする。

【００６８】このとき、最初の１文字目に関するスコア
Ａ（１，ｉ，ｊ）は、文字認識手段４により、Ｐ（部分
パタン１〜ｉ｜ｗ）のｗに関する最大値として計算でき
る。

【００６９】２文字目以降のスコアＡ（ｋ，ｉ，ｊ）
（ｋ＞１）については式（７）に示す漸化式で順次計算
できる。

【００７０】ただし、Ｘ（ｊ＋１，ｉ）はｊ＋１番目の
部分パタンからｉ番目の部分パタンまでを合わせて作ら
れた部分パタンである。またＢ（ｋ，ｉ，ｊ）及びＣ
（ｋ，ｉ，ｊ）はそれぞれｊ＋１番目の部分パタンから
ｉ番目の部分パタンまでをｋ文字目として使用した場合
の、ｋ−１文字目の開始位置及びｋ文字目の字種であ
る。

【００７１】上記漸化式によって、ひとたび、最大スコ
アＡ（ｎ，Ｔ，ｊ_max）＝ｍａｘ_jＡ（ｎ，Ｔ，ｊ）が求
められれば、ｎ文字目の字種は、ｗｎ＝Ｃ（ｎ，Ｔ，ｊ
_max）、ｎ文字目の開始位置はｊ_maxとなる。

【００７２】またｎ−１文字目の開始位置は、Ｂ（ｎ，
Ｔ，ｊ_max）、ｎ−１文字目の字種はＣ（ｎ−１，
ｊ_max，Ｂ（ｎ，Ｔ，ｊ_max））というように、後方へと
順次求められる。

【００７３】切り出し位置候補を少数に限定せず、等間
隔に多数設定する場合には、このようにして、最適な読
み取り結果を効率よく検索できる。

【００７４】この場合、図２のステップ１２の文字列画
像再構成、ステップ１５の文字認識、ステップ１６の文
字列認識、ステップ１７の結果比較評価、及び、ステッ
プ１３の隣接２文字評価、ステップ１４の１文字評価が
並行して処理されるため、効率よく読み取り結果を検索
できる。

【００７５】次に、隣接２文字辞書格納手段５に格納さ
れる隣接２文字辞書の構成手順について説明する。

【００７６】隣接２文字辞書は、文字列画像データから
抽出された隣接する２文字の画像データを学習データと
した事前学習により構成される。

【００７７】まず、隣接２文字画像データを、１文字目
の字種が何であるかにかかわらず、２文字の字種で分類
して、字種数に等しい数のデータセットを作成する。

【００７８】２文字目の字種がａである隣接２文字画像
を集めたデータセットに正解ａを、２文字目の字種がｂ
である隣接２文字画像を集めたデータセットに正解ｂ
を、という具合に、すべてのデータに、２文字目の字種
を、正解として付与する。以降は、通常の１文字のデー
タと同様にパタンの学習を行う。

【００７９】例えば、文字認識手段４に、隠れマルコフ
モデル（Hidden Markov Model；ＨＭＭ）を用いる場
合には、例えば文献「１９９５年、ローレンス・ラビナ
ー他著、古井監訳、音声認識の基礎（下）、ＮＴＴアド
バンステクノロジ株式会社、第１２８〜１３８頁」に示
されているように、Ｂａｕｍ−Ｗｅｌｃｈアルゴリズム
によって、字種ａ、ｂ、…それぞれについて１つのＨＭ
Ｍのパラメータを推定して辞書を構成する。

【００８０】１文字辞書格納手段６に格納される１文字
辞書の構成手順について説明する。１文字辞書は、事前
知識なしで部分パタンＸが生起する確率Ｐ（Ｘ）を計算
するための辞書と、字種ｗから文字が現れるという条件
の下にＸというパタンが生起する確率Ｐ（Ｘ｜ｗ）を計
算するための辞書と、を含む。

【００８１】まず、Ｐ（Ｘ）を計算する辞書について
は、１文字ずつ切り出された個別文字画像を字種によら
ず、すべて集めたデータセットを作成し、それにより１
つの辞書を作成する。

【００８２】そして、前述と同様、隠れマルコフモデル
を用いる場合は、作成したデータセットを用いて、Ｂａ
ｕｍ−Ｗｅｌｃｈ（バウム・ウェルチ）アルゴリズムを
実行して、１つのＨＭＭのパラメータを推定して辞書を
構成する。

【００８３】次に、Ｐ（Ｘ｜ｗ）を計算するための辞書
は、直前の文字パタンが存在しない１文字目の認識スコ
アを計算するための辞書であるが、これはＰ（Ｘ）を計
算する辞書の学習に使った個別文字画像のデータセット
を字種別に分類し、各々の字種についてＨＭＭのパラメ
ータを推定し、字種数分のＨＭＭを構成することにより
辞書を作成する。

【００８４】隣接２文字辞書及び１文字辞書は、正解付
けされた任意文字数の文字列画像を学習データとして、
自動的に構成するようにしてもよい。この手順について
説明する。

【００８５】まず、隣接２文字辞書及び１文字辞書を特
徴づけるパラメータの初期値を適当に定める。文字切り
出し手段２を用いて学習用の文字列画像データから切り
出し位置候補を検出し、文字列読み取り手段３、文字認
識手段４及び初期辞書を用いて、最適な切り出し位置を
求める。

【００８６】この際、学習用の文字列画像データにはす
でに正解が付与されているので、ｗ１、ｗ２、…、ｗｎ
に関しては固定で最適なスコアを探索すればよい。これ
によって、暫定的な文字切り出し位置が定まり、個別に
文字切り出され正解付けされたデータが得られる。これ
を用いて、１文字辞書及び隣接２文字辞書を前述の手順
に従って構成すればよい。そして、これ以降、新しく構
成された辞書を用いて、再び、文字切り出し手段２、文
字列読み取り手段３、文字認識手段４を起動して、個別
に切り出された文字データを得、これらを用いて辞書を
再構成する、という一連の処理の繰り返しを任意回数行
えばよい。

【００８７】なお、ここでは、初期辞書のパラメータを
適当に定め、次に個別文字データを生成するという手順
について説明したが、これを逆の順序で開始してもよ
い。すなわち、最初に適当な切り出し位置で文字を切り
出し、これら個別文字データを学習データとして、初期
辞書を構成してもよい。ひとたび辞書が構成されれば、
以降の手続きは同様である。

【００８８】次に、本発明の第二の実施例について説明
する。図１を参照すると、本実施例は、入力された文字
列画像を光学センサで取り込んで格納する画像記憶手段
１と、画像記憶手段１より受け取った文字列画像より隣
接文字間の境界の候補を切り出し位置候補として検出す
る文字切り出し手段２と、いくつかの切り出し位置候補
を選んで文字列画像を分割した際の個々の個別文字パタ
ンについて文字認識処理を呼び出して文字列全体として
の認識スコアを計算し、最適な切り出し及び認識結果を
文字列の読み取り結果として出力する文字列読み取り手
段３と、文字列読み取り手段３の要求に応じて文字パタ
ンに認識処理を施し、１つの字種と認識スコアを返す文
字認識手段４と、単一文字パタンの出現しやすさのスコ
アを計算する１文字辞書格納手段５と、隣り合う２文字
に相当するパタンを用いて２文字目の字種と認識スコア
を計算する隣接２文字辞書格納手段６とを備えている。
各々の手段はそれぞれ計算機上の主記憶装置に記憶され
たプログラムを実行させることによって実現可能であ
る。

【００８９】なお、初期辞書のパラメータを適当に定
め、次に個別文字データを生成するという手順を述べた
が、これを逆の順序で開始してもよい。すなわち、最初
に適当な切り出し位置で文字を切り出し、それら個別文
字データを学習データとして初期辞書を構成してもよ
い。ひとたび辞書が構成されれば、以降の手続きは同様
である。また、入力文字列画像を読み取りに適した特徴
パタンに変換する特徴抽出処理を文字列読み取り処理過
程に挿入してもよい点についても、本発明の第一の実施
例で述べた通りである。

【００９０】本発明の第２の実施例について、図２の流
れ図を参照しながら、段階を追って説明する。

【００９１】図２において、ステップ１０、１１の画像
読み込み及び文字切り出しの動作は、前記第一の実施例
と同様である。すなわち、画像記憶手段１及び文字切り
出し手段２により、文字列画像の入力及び文字パタンの
抽出が行われる。

【００９２】文字列読み取り手段３は、図２の流れ図で
は、ステップ１２の文字列画像再構成処理１２、ステッ
プ１６の文字列認識、ステップ１７の結果比較評価処理
の各処理を実行するものであり、文字切り出し手段２よ
り受け取った文字列画像または文字列画像を特徴抽出処
理により変換した特徴パタン、及び切り出し位置候補の
座標情報を受け取り、切り出し位置で切り出されたあら
ゆる文字パタン候補について、文字認識手段４を用いて
文字認識を行い、その認識結果と、認識スコアを記憶す
る。

【００９３】そして、文字列全体として、最も認識スコ
アが高く、かつ重複や読み飛ばしのない文字パタン候補
列の認識結果を、文字列の読み取り結果として選び出し
て出力する。最適な読み取り結果の検索手順については
後述する。

【００９４】文字列読み取り手段３が文字認識手段４に
文字パタン候補を送る際、該当する文字パタン候補に加
えて、その直前の文字パタン候補も送る。

【００９５】文字認識手段４は、これら隣接する２つの
文字パタン候補を考慮して、該当する文字パタン候補の
文字認識処理を行う。文字認識手段４では、文字列読み
取り手段３より、隣接する２つの文字パタン候補を受け
取り、あらゆる２文字の文字カテゴリの組合せを仮定し
て、１番目の文字パタンの発生を考慮した場合の２番目
の文字パタンの認識スコアを計算し、文字列読み取り手
段３に返す。

【００９６】ここで、文字認識手段４が文字列読み取り
手段３から、隣接する２つの文字パタン候補Ｘｉ−１、
Ｘｉを受け取ったとすると、文字認識手段４は、パタン
Ｘｉの属する文字カテゴリｗｉと、パタンは、字種パタ
ンＸｉ−１の属する文字カテゴリｗｉ−１のあらゆる組
合せについて、直前の文字パタンがカテゴリｗｉ−１に
属するＸｉ−１であり、かつ、着目する文字パタンがカ
テゴリｗｉに属する確率Ｐ（Ｘｉ｜Ｘｉ−１，ｗｉ−
１，ｗｉ）を計算する。

【００９７】実際の確率の計算では、Ｐ（Ｘｉ｜Ｘｉ−
１，ｗｉ−１，ｗｉ）を直接計算せずに、Ｐ（Ｘｉ−１，Ｘｉ｜ｗｉ−１，ｗｉ）／Ｐ（Ｘｉ−１｜ｗｉ−１） …(8 ) という近似値を求める。

【００９８】この近似値の計算において、分子Ｐ（Ｘｉ
−１，Ｘｉ｜ｗｉ−１，ｗｉ）は、隣接する２文字パタ
ンのうちの１文字目の字種がｗｉ−１、２文字目の字種
がｗｉであるという条件で隣接する２文字のパタンがＸ
ｉ−１，Ｘｉとして生起する確率であり、これは隣接２
文字辞書格納手段５に記憶された隣接２文字パタンの辞
書から、２文字単位のパタンのマッチング結果として計
算される。この処理が図２のステップ１３の隣接２文字
評価処理に相当する。

【００９９】一方、分母Ｐ（Ｘｉ−１｜ｗｉ−１）は、
文字カテゴリｗｉ−１を仮定した場合に文字パタンＸｉ
−１が観測される確率であり、これは１文字辞書格納手
段６より、１文字単位のパタンのマッチングとして計算
される。これは図２のステップ１４の１文字評価処理に
相当する。

【０１００】文字認識手段４は、隣接２文字辞書格納手
段５、及び１文字辞書格納手段６より得られたそれぞれ
の数値の比として、文字認識スコア、Ｐ（Ｘｉ｜Ｘｉ−１，ｗｉ）≒Ｐ（Ｘｉ−１，Ｘｉ｜ｗ）／Ｐ（Ｘｉ−１） …(9) を得る。この処理は、図２のステップ１５の文字認識処
理に相当する。

【０１０１】文字列読み取り手段３の動作についてより
詳しく説明する。文字列読み取り手段３は、文字切り出
し手段２より受け取った文字列画像または文字列画像を
特徴抽出処理により変換した特徴パタン、及び切り出し
位置候補の座標情報を用いて、文字列の文字パタン候補
へのあらゆる分割の仕方を列挙する。これは図２のステ
ップ１２の文字列画像再構成処理に相当する。

【０１０２】例えば、入力画像から４つの切り出し位置
候補が得られているとすると、入力画像はパタン１，パ
タン２，パタン３，パタン４，パタン５という５つの部
分パタンに分割できる。

【０１０３】これに対して、文字数２を仮定すると、
（１｜２，３，４，５）、（１，２｜３，４，５）、
（１，２，３｜４，５）、（１，２，３，４｜５）とい
う４通りの分割があり得る。

【０１０４】また文字数３を仮定すると、（１｜２｜３，４，５）、（１｜２，３｜４，５）、
（１｜２，３，４｜５）、（１，２｜３｜４，５）、
（１，２｜３，４｜５）、（１，２，３｜４｜５）という６通りの分割があり得る。ただしここでは入力画
像の分割位置を“｜”で表している。

【０１０５】例えば（１，２｜３｜４，５）は、部分パ
タン１，２が１文字目に、部分パタン３が２文字目に、
部分パタン４，５が３文字目に割り当てられるように入
力画像を分割（グループ分け）することを意味する。

【０１０６】このようにして想定される文字数につい
て、あらゆる分割の仕方を網羅して文字パタン候補の列
を生成し、それぞれについて文字列全体での読み取りス
コアを計算する。これは図２のステップの文字列認識処
理に相当する。

【０１０７】読み取りスコアは、各文字パタン候補の認
識スコアの積、すなわちＰ（Ｘ１｜ｗ１）×Ｐ（Ｘ２｜Ｘ１，ｗ１，ｗ２）×Ｐ
（Ｘ３｜Ｘ２，ｗ２，ｗ３）×…×Ｐ（Ｘｎ｜Ｘｎ−
１，ｗｎ−１，ｗｎ）と計算する。ここで、ｎは文字数である。

【０１０８】想定される文字数及び字種について、それ
ぞれ読み取りスコアを計算し、読み取りスコアが最大と
なる認識結果ｗ１，ｗ２，…，ｗｎが読み取り結果とし
て出力される。この処理は、図２のステップの結果比較
評価処理に相当する。

【０１０９】最初の文字のスコアＰ（Ｘ１｜ｗ１）につ
いては、直前に文字パタン候補が存在しないので、文字
認識手段４が１文字辞書を用いて計算する。

【０１１０】なお、読み取りスコアは、ここでは、確率
として扱っているので、各文字パタン候補の認識スコア
の積を全体のスコアとしているが、確率とみなせないス
コア（対数確率やテンプレートからの距離）を扱う場合
は、積ではなく、和を用いてもよい。

【０１１１】また、文字の並びに言語的な制約がある場
合には、適宜この制約を利用する。例えば、文字Ａの直
後に文字Ｂが続く確率Ｐ（Ｂ｜Ａ）が、統計的な分析か
ら既知であるような場合には、これを読み取りスコアに
反映させて、Ｐ（Ｘ１｜ｗ１）Ｐ（ｗ１）×Ｐ（Ｘ２｜Ｘ１，ｗ２）
Ｐ（ｗ２｜ｗ１）×Ｐ（Ｘ３｜Ｘ２，ｗ３）Ｐ（ｗ３｜
ｗ２）×…×Ｐ（Ｘｎ｜Ｘｎ−１，ｗｎ）Ｐ（ｗｎ｜ｗ
ｎ−１）というようにスコアを計算する。

【０１１２】あるいは、文字列が限られた何種類かの単
語のうちの１つであることがわかっている場合には、そ
れぞれの単語の文字並びのみを想定して読み取りスコア
を計算すればよい。

【０１１３】文字列読み取り手段３の動作については、
前記第一の実施例と同様、動的計画法に基づいて効率的
に最適解を得るようにしてもよい。ここでは、Ｔ−１個
の切り出し位置候補が検出され、入力文字列画像をＴ個
の部分パタンに分割することができるとする。

【０１１４】また１番目の部分パタンからｉ番目の部分
パタンまでを１文字目からｋ文字目までに対応させ、か
つ１番目の部分パタンからｊ番目の部分パタンまでを１
文字目から（ｋ−１）文字目までに対応させ、かつｋ文
字目の文字カテゴリをｗとした場合の、ｋ文字分の読み
取りスコアをＡ（ｋ，ｉ，ｊ，ｗ）とする。

【０１１５】このとき、最初の１文字目に関するスコア
Ａ（１，ｉ，ｊ，ｗ）は、文字認識手段４により、Ｐ
（部分パタン１〜ｉ｜ｗ）のｗに関する最大値として計
算できる。

【０１１６】また２文字目までに関するスコアＡ（２，
ｉ，ｊ，ｗ）は、文字認識手段４と隣接２文字辞書格納
手段６により、Ｐ（部分パタン１〜ｊ，部分パタンｊ＋
１〜ｉ｜ｗ′，ｗ）のｗ′に関する最大値として計算で
きる。

【０１１７】３文字目以降のスコアＡ（ｋ，ｉ，ｊ）
（ｋ＞２）については、次式（１０）に示す漸化式で順
次計算できる。

【０１１８】

【０１１９】ただし、Ｘ（ｊ＋１，ｉ）は、（ｊ＋１）
番目の部分パタンからｉ番目の部分パタンまでを合わせ
て作られた部分パタンである。

【０１２０】また、式（１０）において、ｍａｘは、ｌ
やｗ′など指定した変数に関する最大値を表し、ａｒｇ
_maxはｍａｘの操作を行って最大値が得られたときの変
数の値を表す。

【０１２１】また、Ｂ（ｋ，ｉ，ｊ，ｗ）及びＣ（ｋ，
ｉ，ｊ，ｗ）は、それぞれ（ｊ＋１）番目の部分パタン
からｉ番目の部分パタンまでをｋ文字目として使用し、
かつ、ｋ文字目に相当するパタンの属する文字カテゴリ
をｗとした場合の、ｋ−２文字目の終端位置及び（ｋ−
１）文字目の字種である。

【０１２２】上記漸化式によって、ひとたび、最大スコ
アＡ（ｎ，Ｔ，ｊ_max，ｗ_max）＝ｍａｘ_jｍａｘ_wＡ
（ｎ，Ｔ，ｊ，ｗ）が求められれば、ｎ文字目の字種
は、ｗｎ＝Ｃ（ｎ，Ｔ，ｊ_max，ｗ_max）、ｎ文字目の開始位置はｊ_maxとなる。

【０１２３】また（ｎ−１）文字目の開始位置は、Ｂ（ｎ，Ｔ，ｊ_max，ｗ_max）＋１、（ｎ−１）文字目の字種は、Ｃ（ｎ−１，ｊ_max，Ｂ（ｎ，Ｔ，ｊ_max，ｗ_max））というように、後方へと順次求められる。

【０１２４】切り出し位置候補を少数に限定せず、等間
隔に多数設定する場合には、この形態で最適な読み取り
結果を効率よく検索できる。この場合、図２のステップ
１２の文字列画像再構成処理、ステップ１５の文字認識
処理、ステップ１６の文字列認識処理、ステップ１７の
結果比較評価処理、及びステップ１３の隣接２文字評価
処理、ステップ１４の１文字評価処理が並行して処理さ
れるため、効率よく読み取り結果を検索できる。

【０１２５】隣接２文字辞書格納手段５に格納される隣
接２文字辞書の構成手順について説明する。

【０１２６】隣接２文字辞書は、文字列画像データから
抽出された隣接する２文字の画像データを学習データと
した事前学習により構成される。

【０１２７】まず、隣接２文字画像データを、それらを
構成する各文字の字種によりいくつかのクラスに分類す
る。例えば数字を扱う場合には、００、０１、０２、
…、９９という１００通りの組合せがあり得るので、そ
れぞれの組合せで画像データを分類する。０１と１０は
異なるクラスに分ける。

【０１２８】この結果、字種数の二乗に等しい数のクラ
ス（データのセット）ができる。以降は、通常の１文字
のデータと同様にパタンの学習を行う。例えば、文字認
識手段４に隠れマルコフモデル（ＨＭＭ）を用いる場合
には、文献（「１９９５年、ローレンス・ラビナー他
著、古井監訳、音声認識の基礎（下）、ＮＴＴアドバン
ステクノロジ株式会社、１２８〜１３８頁」）に記載さ
れているように、Ｂａｕｍ−Ｗｅｌｃｈアルゴリズムに
よって、それぞれのクラス（数字の場合なら００、０
１、０２、…、９９）について１つのＨＭＭのパラメー
タを推定して辞書を構成する。

【０１２９】１文字辞書格納手段６に格納される１文字
辞書の構成手順については、前記第一の実施例で説明し
た、確率Ｐ（Ｘ｜ｗ）を計算するための辞書の構成手順
と同様である。

【０１３０】なお、隣接２文字辞書、及び、１文字辞書
を、正解付けされた任意文字数の文字列画像を学習デー
タとして、自動的に構成することも可能である。これに
ついては、前記第一の実施例で述べた方法と同様の手順
で行えばよい。

【０１３１】次に、本発明の第３の実施例について説明
する。図５は、本発明の第３の実施例の構成を示すブロ
ック図である。図５を参照すると、本発明の第３の実施
例は、文字認識プログラムを記録した記録媒体７を備え
る。この記録媒体７はＣＤ−ＲＯＭ、磁気ディスク、半
導体メモリその他の記録媒体であってよく、ネットワー
クを介して流通する場合も含む。

【０１３２】文字認識プログラムは、記録媒体７からデ
ータ処理装置８に読み込まれ、データ処理装置８で実行
される。データ処理装置８は文字認識プログラムの制御
により、文字切り出し手段を用いて画像記憶手段１に入
力された文字列画像からいくつかの切り出し位置候補を
検出し、それら複数の切り出し位置候補より文字パタン
候補を生成し、それら文字パタン候補のそれぞれについ
て、１文字辞書格納手段５及び隣接２文字辞書格納手段
６にそれぞれ格納された１文字辞書及び隣接２文字辞書
を用いた文字認識手段によって認識処理を行い、文字列
全体として最大のスコアが得られるような読み取り結果
を求めて出力する。

【０１３３】データ処理装置７は文字認識プログラムの
制御により、文字切り出し手段２、文字列読み取り手段
３及び文字認識手段４による処理と同一の処理を実行し
て文字列の読み取り結果を結果を出力する。

【０１３４】

【発明の効果】以上説明したように、本発明によれば、
文字列の読み取りにおいて、文字列から抽出される文字
候補を隣接する２文字の組として処理し、１文字目のパ
タン形状を考慮しつつ、２文字目に対する認識結果や認
識スコアを算出することにより、直前に書かれた文字か
らの続け書きや接触等によって文字形状が変形すること
に対応して、安定した文字認識が可能となり、このた
め、正確な文字列の読み取りを可能とする、という効果
を奏する。

【０１３５】さらに、本発明によれば、辞書のテンプレ
ート数は、多くとも高々、従来技術の２倍程度とされる
ため、十分高速な文字列の読み取りを実現できる、とい
う効果も奏する。

【図面の簡単な説明】

【図１】本発明の一実施例の構成を示すブロック図であ
る。

【図２】本発明の一実施例の処理フローを示す流れ図で
ある。

【図３】本発明の一実施例を説明するための図であり、
入力文字列画像の一例を示す図である。

【図４】本発明の一実施例を説明するための図であり、
入力文字列画像から識別に有効な特徴量を抽出した結果
の一例を示す図である。

【図５】本発明の第二の実施例の構成を示すブロック図
である。

【図６】文字の誤り方がその字種に依存する例を説明す
るための文字画像の一例を示す図である。

【図７】文字の誤り方がその字種に依存する例を説明す
るための文字画像の一例を示す図である。

【符号の説明】

１画像記憶手段２文字切り出し手段３文字列読み取り手段４文字認識手段５１文字辞書格納手段６隣接２文字辞書格納手段７記憶媒体８データ処理装置

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平５−6464（ＪＰ，Ａ) 特開平８−96085（ＪＰ，Ａ) 「電子情報通信学会技術研究報告」ＰＲＭＵ98−139 Ｖｏｌ．98 Ｎｏ．489 ｐ．25−30（1998）”確率モデルに基づくオンライン枠なし手書き文字列認識" 「電子情報通信学会技術研究報告」ＰＲＭＵ98−138 Ｖｏｌ．98 Ｎｏ．489 ｐ．17−24（1998）”切り出し・認識・言語の確信度を統合した枠なしオンライン文字列認識手法" 「情報処理学会研究報告」Ｖｏｌ．93 Ｎｏ．79 ｐ．37−44（1993）”Ｂｉｇｒａｍによるオンライン漢字認識の文脈後処理手法" 「情報処理学会論文誌」Ｖｏｌ．39 Ｎｏ．３ｐ．625−635（1998）”認識誤りを含む和文テキストにおける全文検索手法" (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06K 9/62 - 9/72 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】文字列画像を入力し記憶する画像記憶手段
と、前記画像記憶手段から得た文字列画像から１文字に相当
する部分パタンを獲得するための切り出し位置候補を検
出する文字切り出し手段と、前記文字切り出し手段で検出された切り出し位置候補に
基づいて、１文字に相当する部分パタンである個別文字
パタン候補を生成し、文字認識することで、最適な文字
列の読み取り結果を出力する文字列読み取り手段と、前記文字列読み取り手段が生成した個別文字パタン候補
を、前記文字列読み取り手段からの要求に応じて認識
し、文字認識結果、及び、文字認識結果の尤もらしさを
表す文字認識スコアを出力する文字認識手段と、前記文字認識手段が１文字パタン候補の識別、及びスコ
ア評価に用いるための辞書を格納する１文字辞書格納手
段と、前記文字認識手段が隣接した２文字分の文字パタン候補
を用いて個別文字の識別を行うための隣接２文字辞書を
格納する２文字辞書格納手段と、を備え、前記文字認識手段が、前記文字列読み取り手段から文字
パタン候補を受け取って文字認識を行う際に、認識対象
の文字パタン候補と、その直前の文字パタン候補を受け
取り、認識対象の文字パタン候補がある字種に属すると
仮定した場合に、与えられた認識対象の文字パタン候補
とその直前の文字パタン候補とが生起する確率、及び、
直前の文字パタンが生起する確率を用いて、認識対象の
文字パタン候補がその字種に属することの尤もらしさを
表すスコアとする、ことを特徴とする文字認識装置。
【請求項２】前記文字認識手段が、認識対象の文字パタ
ン候補と、その直前の文字パタン候補を受け取り、認識
対象の文字パタン候補がある字種に属すると仮定した場
合に、与えられた認識対象の文字パタン候補とその直前
の文字パタン候補が生起する確率、及び直前の文字パタ
ンが生起する確率との比を、認識対象の文字パタン候補
がその字種に属することの尤もらしさを表すスコアとす
る、ことを特徴とする請求項１記載の文字認識装置。
【請求項３】（ａ）文字列画像を入力し記憶する画像記
憶手段から得た文字列画像から１文字に相当する部分パ
タンを獲得するための切り出し位置候補を検出する文字
切り出し処理と、（ｂ）前記文字切り出し処理で検出された切り出し位置
候補に基づいて、１文字に相当する部分パタンである個
別文字パタン候補を生成し、文字認識することで、最適
な文字列の読み取り結果を出力する文字列読み取り処理
と、（ｃ）前記文字列読み取り処理が生成した個別文字パタ
ン候補を、前記文字列読み取り処理からの要求に応じて
認識し、文字認識結果、及び、文字認識結果の尤もらし
さを表す文字認識スコアを出力する文字認識処理と、を有し、前記（ｃ）の前記文字認識処理は、１文字辞書格納手段
に格納された辞書を参照して、１文字パタン候補の識
別、及びスコア評価を行い、２文字辞書格納手段に格納
された隣接２文字辞書を参照して、隣接した２文字分の
文字パタン候補を用いて個別文字の識別を行い、前記文字認識処理は、前記文字列読み取り手段から文字
パタン候補を受け取って文字認識を行う際に、認識対象
の文字パタン候補と、その直前の文字パタン候補を受け
取り、認識対象の文字パタン候補がある字種に属すると
仮定した場合に、与えられた認識対象の文字パタン候補
とその直前の文字パタン候補とが生起する確率、及び、
直前の文字パタンが生起する確率を用いて、認識対象の
文字パタン候補がその字種に属することの尤もらしさを
表すスコアとする、前記各処理をコンピュータ上で実行するためのプログラ
ムを記録した記録媒体。
【請求項４】（ａ）画像入力手段より入力された文字列
画像から、文字の境界候補をなす切り出し位置候補を検
出し、（ｂ）前記切り出し位置候補で切り出された文字パタン
候補について文字認識を行い、該文字認識結果と認識ス
コアを記憶し、その際、文字パタン候補とその直前の文
字パタン候補から２つの文字パタン候補を考慮して該当
する文字パタン候補の文字認識処理を行い、文字認識結
果の尤もらしさを認識スコアとして記憶し、（ｃ）文字列全体として最も認識スコアが高い文字パタ
ン候補列の認識結果を出力する、上記（ａ）から（ｃ）の各ステップを含み、ある文字パタン候補とその直前の文字パタン候補から、
前記ある文字パタン候補がある字種であるという条件
で、前記文字パタン候補とその直前の文字パタン候補と
が生起する確率、及び、前記直前の文字パタンが生起す
る確率を用いて、認識対象の文字パタン候補がその字種
に属することの尤もらしさを表す認識スコアを導出す
る、ことを特徴とする文字認識方法。
【請求項５】前記ある文字パタン候補がある字種である
という条件で、前記文字パタン候補とその直前の文字パ
タン候補とが生起する確率を予め記憶された隣接２文字
パタンの辞書から２文字単位のパタンのマッチングによ
り算出し、前記直前の文字パタンが生起する確率を予め
登録された１文字単位のパタンの辞書から１文字単位の
パタンのマッチングにより算出する、ことを特徴とする
請求項４記載の文字認識方法。
【請求項６】前記ステップ（ｂ）において、隣接する２
つの文字パタン候補Ｘｉ−１、Ｘｉを受け取ったとする
と、Ｘｉの文字認識結果ｗｉは、字種がｗ、直前の文字
パタンがＸｉ−１であるという条件の下で文字パタンＸ
ｉが生起する条件付き確率Ｐ（Ｘｉ｜Ｘｉ−１，ｗ）を
最大にするｗとして決定され、文字認識スコアをＰ（Ｘ
ｉ｜Ｘｉ−１，ｗｉ）として計算する、ことを特徴とす
る請求項４記載の文字認識方法。
【請求項７】隣接する２文字パタンのうちの２文字目の
字種がｗであるという条件で隣接する２文字のパタンが
Ｘｉ−１，Ｘｉとして生起する前記条件付き確率Ｐ（Ｘ
ｉ｜Ｘｉ−１，ｗ）の値を、前記ある文字Ｘｉの属する
字種がｗであるという条件の下でＸｉとその直前の１文
字Ｘｉ−１を合わせた隣接２文字分のパタンが生起する
確率Ｐ（Ｘｉ−１，Ｘｉ｜ｗ）と、前記直前の文字パタ
ンが事前知識なしで観測される確率Ｐ（Ｘｉ−１）を用
いて、Ｐ（Ｘｉ−１，Ｘｉ｜ｗ）／Ｐ（Ｘｉ−１）で計
算する、ことを特徴とする請求項６記載の文字認識方
法。
【請求項８】前記ステップ（ｂ）において、入力文字列
中の第ｉ番目の文字パタンＸｉを辞書パタンｗと比較し
て文字認識の認識スコアを求める際に、ｉ−１番目の文
字として文字パタンＸｉ−１が生起し、かつ、ｉ−１番
目の文字パタンＸｉ−１が辞書パタンｗｉ−１に代表さ
れる文字カテゴリに属するという条件を付加した条件付
き確率Ｐ（Ｘｉ｜Ｘｉ−１，ｗｉ−１，ｗｉ）として計
算する、ことを特徴とする請求項４記載の文字認識方
法。
【請求項９】隣接する２文字パタンのうちの１文字目の
字種がｗｉ−１、２文字目の字種がｗｉであるという条
件で隣接する２文字のパタンがＸｉ−１，Ｘｉとして生
起する前記条件付き確率Ｐ（Ｘｉ｜Ｘｉ−１，ｗｉ−
１，ｗｉ）の値を、ある文字とその直前の１文字を合わ
せた隣接２文字単位での確率Ｐ（Ｘｉ−１，Ｘｉ｜ｗｉ
−１，ｗｉ）と、１文字単位でのスコアＰ（Ｘｉ−１｜
ｗｉ−１）の比Ｐ（Ｘｉ−１，Ｘｉ｜ｗｉ−１，ｗｉ）
／Ｐ（Ｘｉ−１｜ｗｉ−１）、もしくは、文字カテゴリ
ｗｉ−１を仮定した場合の文字パタンＸｉ−１が観測さ
れる条件確率Ｐ（Ｘｉ−１）を用いて、Ｐ（Ｘｉ−１，
Ｘｉ｜ｗｉ−１，ｗｉ）／Ｐ（Ｘｉ−１）で計算して求
める、ことを特徴とする請求項８記載の文字認識方法。
【請求項１０】前記文字認識の尤もらしさを表わす認識
スコアを動的計画法で求め、その際、複数（Ｔ−１個）
の切り出し位置候補が検出され、入力文字列画像をＴ個
の部分パタンに分割し、１番目の部分パタンからｉ番目
の部分パタンまでを１文字目からｋ文字目までに対応さ
せ、１番目の部分パタンからｊ番目の部分パタンまでを
１文字目から（ｋ−１）文字目までに対応させた場合
の、ｋ文字分の読み取りスコアをＡ（ｋ，ｉ，ｊ）と
し、最初の１文字目に関するスコアＡ（１，ｉ，ｊ）
は、ｉ番目の部分パタンがある字種ｗであるという条件
で、１番目からｉ番目の部分パタンが生起する確率Ｐの
ｗに関する最大値として求め、前記スコアの最大スコア
を求める、ことを特徴とする請求項４記載の文字認識方
法。
【請求項１１】２文字目以降のスコアＡ（ｋ，ｉ，ｊ）
（ｋ＞１）については、以下の漸化式で順次計算し、（ただし、Ｘ（ｊ＋１，ｉ）はｊ＋１番目の部分パタン
からｉ番目の部分パタンまでを合わせて作られた部分パ
タンである。Ｂ（ｋ，ｉ，ｊ）及びＣ（ｋ，ｉ，ｊ）は
それぞれｊ＋１番目の部分パタンからｉ番目の部分パタ
ンまでをｋ文字目として使用した場合の、ｋ−１文字目
の開始位置及びｋ文字目の字種である。maxはｌやｗな
ど指定した変数に関する引数の最大値を表す関数、argm
ax はmaxの操作を行って最大値が得られたときの変数の
値を表す。）、最大スコアＡ（ｎ，Ｔ，ｊ_max）＝ｍａｘ_jＡ（ｎ，Ｔ，
ｊ）を求め、ｎ文字目の字種は、ｗｎ＝Ｃ（ｎ，Ｔ，ｊ_max）、ｎ文字目の開始位置は、ｊ_maxとなり、ｎ−１文字目の開始位置は、Ｂ（ｎ，Ｔ，ｊ_max）、ｎ−１文字目の字種はＣ（ｎ−１，ｊ_max，Ｂ（ｎ，
Ｔ，ｊ_max））という具合に、後方へと順次求める、こ
とを特徴とする請求項８記載の文字認識方法。
【請求項１２】前記文字認識の尤もらしさを表わす認識
スコアを動的計画法で求め、その際、複数（Ｔ−１個）
の切り出し位置候補が検出され、入力文字列画像をＴ個
の部分パタンに分割し、１番目の部分パタンからｉ番目
の部分パタンまでを１文字目からｋ文字目までに対応さ
せ、１番目の部分パタンからｊ番目の部分パタンまでを
１文字目から（ｋ−１）文字目までに対応させた場合
の、ｋ文字分の読み取りスコアをＡ（ｋ，ｉ，ｊ）と
し、最初の１文字目に関するスコアＡ（１，ｉ，ｊ）
は、前記文字認識手段により、ｉ番目の部分パタンがあ
る字種ｗであるという条件で、１番目からｉ番目の部分
パタンが生起する確率Ｐのｗに関する最大値として求
め、２文字目以降のスコアＡ（ｋ，ｉ，ｊ）（ｋ＞１）につ
いては、以下の漸化式で順次計算し、（ただし、Ｘ（ｊ＋１，ｉ）はｊ＋１番目の部分パタン
からｉ番目の部分パタンまでを合わせて作られた部分パ
タンである。Ｂ（ｋ，ｉ，ｊ）及びＣ（ｋ，ｉ，ｊ）は
それぞれｊ＋１番目の部分パタンからｉ番目の部分パタ
ンまでをｋ文字目として使用した場合の、ｋ−１文字目
の開始位置及びｋ文字目の字種である。maxはｌやｗな
ど指定した変数に関する引数の最大値を表す関数、argm
ax はmaxの操作を行って最大値が得られたときの変数の
値を表す。）、上記漸化式によって、最大スコアＡ（ｎ，Ｔ，ｊ_max）＝ｍａｘ_jＡ（ｎ，Ｔ，
ｊ）を求め、ｎ文字目の字種は、ｗｎ＝Ｃ（ｎ，Ｔ，ｊ_max）、ｎ文字目の開始位置はｊ_maxとなり、ｎ−１文字目の開始位置は、Ｂ（ｎ，Ｔ，ｊ_max）、ｎ−１文字目の字種は、Ｃ（ｎ−１，ｊ_max，Ｂ（ｎ，
Ｔ，ｊ_max））という具合に、後方へと順次求める、こ
とを特徴とする請求項１記載の文字認識装置。
【請求項１３】前記文字認識の尤もらしさを表わす認識
スコアを動的計画法で求め、その際、複数（Ｔ−１個）
の切り出し位置候補が検出され、入力文字列画像をＴ個
の部分パタンに分割し、１番目の部分パタンからｉ番目
の部分パタンまでを１文字目からｋ文字目までに対応さ
せ、かつ、１番目の部分パタンからｊ番目の部分パタン
までを１文字目から（ｋ−１）文字目までに対応させ、
かつ、ｋ文字目の文字カテゴリをｗとした場合の、ｋ文
字分の読み取りスコアをＡ（ｋ，ｉ，ｊ，ｗ）とし、最
初の１文字目に関するスコアＡ（１，ｉ，ｊ，ｗ）は、
１番目からｉ番目の部分パタンが生起する確率Ｐのｗに
関する最大値として求め、また２文字目までに関するスコアＡ（２，ｉ，ｊ，ｗ）
は、前記文字認識手段と前記２文字辞書格納手段によ
り、Ｐ（部分パタン１〜ｊ，部分パタンｊ＋１〜ｉ｜
ｗ′，ｗ）のｗ′に関する最大値として計算し、３文字目以降のスコアＡ（ｋ，ｉ，ｊ）（ｋ＞２）につ
いては、次の漸化式で順次計算し、（但し、Ｘ（ｊ＋１，ｉ）は、（ｊ＋１）番目の部分パ
タンからｉ番目の部分パタンまでを合わせて作られた部
分パタンである。Ｂ（ｋ，ｉ，ｊ，ｗ）及びＣ（ｋ，
ｉ，ｊ，ｗ）は、それぞれ（ｊ＋１）番目の部分パタン
からｉ番目の部分パタンまでをｋ文字目として使用し、
かつ、ｋ文字目に相当するパタンの属する文字カテゴリ
をｗとした場合の、ｋ−２文字目の終端位置及び（ｋ−
１）文字目の字種である。maxはｌやｗ′など指定した
変数に関する引数の最大値を表す関数、argmax はmaxの
操作を行って最大値が得られたときの変数の値を表
す。）、上記漸化式によって、最大スコアＡ（ｎ，Ｔ，ｊ_max，ｗ_max）＝ｍａｘ_jｍａ
ｘ_wＡ（ｎ，Ｔ，ｊ，ｗ）が求め、ｎ文字目の字種はｗ
ｎ＝Ｃ（ｎ，Ｔ，ｊ_max，ｗ_max）、ｎ文字目の開始位置はｊ_maxとなり、（ｎ−１）文字目の開始位置は、Ｂ（ｎ，Ｔ，ｊ_max，
ｗ_max）＋１、（ｎ−１）文字目の字種は、Ｃ（ｎ−１，ｊ_max，Ｂ
（ｎ，Ｔ，ｊ_max，ｗ_max））という具合に、後方へと順
次求める、ことを特徴とする請求項１記載の文字認識装
置。
【請求項１４】（ａ）画像入力手段より入力された文字
列画像から文字の境界候補をなす切り出し位置候補を検
出する処理、（ｂ）前記切り出し位置候補で切り出された文字パタン
候補について文字認識を行い、該文字認識結果と認識ス
コアを記憶し、その際、ある文字パタン候補とその直前
の文字パタン候補から、前記ある文字パタン候補がある
字種であるという条件で、前記文字パタン候補とその直
前の文字パタン候補とが生起する確率、及び、前記直前
の文字パタンが生起する確率を用いて、認識対象の文字
パタン候補がその字種に属することの尤もらしさを表す
認識スコアを導出する処理、（ｃ）文字列全体としてもっとも認識スコアが高い文字
パタン候補列の認識結果を出力する処理、上記（ａ）から（ｃ）の各処理をコンピュータで実行す
るためのプログラムを記録した記録媒体。