JPH1063744A - 文書のレイアウト解析方法及びシステム - Google Patents
文書のレイアウト解析方法及びシステムInfo
- Publication number
- JPH1063744A JPH1063744A JP8189099A JP18909996A JPH1063744A JP H1063744 A JPH1063744 A JP H1063744A JP 8189099 A JP8189099 A JP 8189099A JP 18909996 A JP18909996 A JP 18909996A JP H1063744 A JPH1063744 A JP H1063744A
- Authority
- JP
- Japan
- Prior art keywords
- cells
- format
- cell
- format data
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Document Processing Apparatus (AREA)
- Character Input (AREA)
Abstract
(57)【要約】
【課題】帳票等のように特定のレイアウトを有する文書
に対して適用可能な新規なフォーマットにより、効率的
に文書を処理できる文書のレイアウト解析システムを提
供することである。 【解決手段】記憶装置に記憶されたフォーマット・デー
タを参照することにより、複数のセルがある規則に従っ
て配置されている文書のレイアウト解析方法に関する。
まず、文書のイメージ・データから複数のセルを抽出す
ると共に、セル間の隣接関係を求める。次に、文書にお
けるセル間の隣接関係を、フォーマット・データが規定
するセル間の隣接関係と比較し、文書におけるセルが対
応しているフォーマット・データが規定するセルを特定
することにより、文書中の情報の配置を特定する。この
ようなレイアウト解析結果に基づき、セル中に存在する
情報のタイプを特定した上で、文字認識技術を用いて情
報の読取を行うため、効率的に帳票の処理が可能とな
る。
に対して適用可能な新規なフォーマットにより、効率的
に文書を処理できる文書のレイアウト解析システムを提
供することである。 【解決手段】記憶装置に記憶されたフォーマット・デー
タを参照することにより、複数のセルがある規則に従っ
て配置されている文書のレイアウト解析方法に関する。
まず、文書のイメージ・データから複数のセルを抽出す
ると共に、セル間の隣接関係を求める。次に、文書にお
けるセル間の隣接関係を、フォーマット・データが規定
するセル間の隣接関係と比較し、文書におけるセルが対
応しているフォーマット・データが規定するセルを特定
することにより、文書中の情報の配置を特定する。この
ようなレイアウト解析結果に基づき、セル中に存在する
情報のタイプを特定した上で、文字認識技術を用いて情
報の読取を行うため、効率的に帳票の処理が可能とな
る。
Description
【0001】
【発明の属する利用分野】本発明は文書のレイアウト解
析方法及びシステムに係り、特に、記入領域等のセルが
ある規則に従って配置されている帳票のレイアウトを、
フォーマットを参照して解析するものに関する。
析方法及びシステムに係り、特に、記入領域等のセルが
ある規則に従って配置されている帳票のレイアウトを、
フォーマットを参照して解析するものに関する。
【0002】
【従来の技術】事務処理の効率化のために、帳票の処理
は急速にコンピュータ化されている。帳票(フォーム)
には多数の罫線が縦横に引かれており、これらの罫線で
囲まれた領域はセルと呼ばれている。セルは、例えば
「氏名」のように帳票自身に予め印刷されている領域
(ヘッダ・フィールド)であったり、実際に記入者の氏
名や住所等を具体的に記入する記入領域(テキスト・フ
ィールド)であったりする。これらのフィールドは、何
らかの決まりに基づいて、帳票上にレイアウトされてい
る。
は急速にコンピュータ化されている。帳票(フォーム)
には多数の罫線が縦横に引かれており、これらの罫線で
囲まれた領域はセルと呼ばれている。セルは、例えば
「氏名」のように帳票自身に予め印刷されている領域
(ヘッダ・フィールド)であったり、実際に記入者の氏
名や住所等を具体的に記入する記入領域(テキスト・フ
ィールド)であったりする。これらのフィールドは、何
らかの決まりに基づいて、帳票上にレイアウトされてい
る。
【0003】一般に、帳票を処理するシステムは以下の
ような構成を有している。帳票処理システムが帳票から
必要な情報を抽出するために、まず、読取装置(OCR
等)によって帳票の画像イメージ(ビット・マップ)を
得る。この画像イメージを、システムのメモリ中に予め
記憶されているフォーマットに基づいて、解析すること
により、帳票のレイアウトを把握する。この解析によ
り、帳票中のどの位置にどのような情報(例えば、住所
または名前等)が存在するのかを特定した上で、その位
置に実際に存在するイメージとしての文字、数字、記号
等を、よく知られた文字認識技術を用いることで、テキ
ストとして認識していく。これにより、その位置に記入
された情報がテキストとして認識される。ここで、フォ
ーマットとは、帳票のレイアウトを解析するためのモデ
ルであって、帳票のレイアウトはこのひな形を比較参照
することで解析される。
ような構成を有している。帳票処理システムが帳票から
必要な情報を抽出するために、まず、読取装置(OCR
等)によって帳票の画像イメージ(ビット・マップ)を
得る。この画像イメージを、システムのメモリ中に予め
記憶されているフォーマットに基づいて、解析すること
により、帳票のレイアウトを把握する。この解析によ
り、帳票中のどの位置にどのような情報(例えば、住所
または名前等)が存在するのかを特定した上で、その位
置に実際に存在するイメージとしての文字、数字、記号
等を、よく知られた文字認識技術を用いることで、テキ
ストとして認識していく。これにより、その位置に記入
された情報がテキストとして認識される。ここで、フォ
ーマットとは、帳票のレイアウトを解析するためのモデ
ルであって、帳票のレイアウトはこのひな形を比較参照
することで解析される。
【0004】従来から知られている最も簡単なフォーマ
ットは、帳票に予め印刷される罫線の位置や長さ、及び
予め印刷される文字(ヘッダ)に基づいて規定されるも
のである。つまり、フォーマットは何も記入されていな
い帳票(ブランク・フォーム)である。このようなフォ
ーマットに基づいて、読取装置で実際に読み込まれた帳
票のビット・マップからブランク・フォームが消し去ら
れ、かつ帳票のレイアウトが解析される。つまり、帳票
中のどの部分にどのような情報が記入されているかが特
定されるのである。
ットは、帳票に予め印刷される罫線の位置や長さ、及び
予め印刷される文字(ヘッダ)に基づいて規定されるも
のである。つまり、フォーマットは何も記入されていな
い帳票(ブランク・フォーム)である。このようなフォ
ーマットに基づいて、読取装置で実際に読み込まれた帳
票のビット・マップからブランク・フォームが消し去ら
れ、かつ帳票のレイアウトが解析される。つまり、帳票
中のどの部分にどのような情報が記入されているかが特
定されるのである。
【0005】図1は、具体的な帳票のサンプルを示す図
である。これらの3つのサンプルA,B,Cは、どれも
サンプル中に存在する罫線の位置や長さが異なってい
る。上記の従来技術において、一つのフォーマットで対
応できる帳票は、帳票中に存在する罫線の位置や長さ等
がフォーマットが有する情報と厳密に一致しているもの
に限られるため、一つのフォーマットで3つのサンプル
のレイアウトを解析することはできない。従って、サン
プルA,B,Cに対応したフォーマットをそれぞれ別々
に用意しておかなければならない。この場合、それぞれ
のフォーマットのデータを記憶するメモリ領域が拡大す
るため、システムのメモリ領域を有効に活用できなくな
る。また、このようなフォーマットを用いた帳票処理シ
ステムは、帳票を受け付ける度に、その帳票に対応する
フォーマットがどれであるかを照合しなければならない
ので、帳票の処理速度が低下するおそれがある。この処
理速度の低下は、処理しようとする帳票の枚数が増加す
るに従って顕著になる。
である。これらの3つのサンプルA,B,Cは、どれも
サンプル中に存在する罫線の位置や長さが異なってい
る。上記の従来技術において、一つのフォーマットで対
応できる帳票は、帳票中に存在する罫線の位置や長さ等
がフォーマットが有する情報と厳密に一致しているもの
に限られるため、一つのフォーマットで3つのサンプル
のレイアウトを解析することはできない。従って、サン
プルA,B,Cに対応したフォーマットをそれぞれ別々
に用意しておかなければならない。この場合、それぞれ
のフォーマットのデータを記憶するメモリ領域が拡大す
るため、システムのメモリ領域を有効に活用できなくな
る。また、このようなフォーマットを用いた帳票処理シ
ステムは、帳票を受け付ける度に、その帳票に対応する
フォーマットがどれであるかを照合しなければならない
ので、帳票の処理速度が低下するおそれがある。この処
理速度の低下は、処理しようとする帳票の枚数が増加す
るに従って顕著になる。
【0006】そこで、一つのフォーマットでレイアウト
の異なる複数の帳票に対応できるようにするために、罫
線の位置、長さ等の厳密な一致を基準とするのではな
く、帳票中に存在する罫線の線引きの順序に基づいてフ
ォーマットを規定する技術も提案されている。例えば、
サンプルBでは、帳票全体をまず横に切ることで(罫線
1)、帳票を上下の二つのエリアに分割する。次に切り
とられた上下部分をさらに縦に切ることにより(罫線
2、3)、上部が「Nameエリア」と「Zipエリア」に、
下部が「Addressエリア」と「Telエリア」に分割され
る。さらに、4つのエリアをそれぞれ縦に切ることによ
り(罫線4、5、6、7)、それぞれのエリアがヘッダ
・フィールドとテキスト・フィールドに分割される。
の異なる複数の帳票に対応できるようにするために、罫
線の位置、長さ等の厳密な一致を基準とするのではな
く、帳票中に存在する罫線の線引きの順序に基づいてフ
ォーマットを規定する技術も提案されている。例えば、
サンプルBでは、帳票全体をまず横に切ることで(罫線
1)、帳票を上下の二つのエリアに分割する。次に切り
とられた上下部分をさらに縦に切ることにより(罫線
2、3)、上部が「Nameエリア」と「Zipエリア」に、
下部が「Addressエリア」と「Telエリア」に分割され
る。さらに、4つのエリアをそれぞれ縦に切ることによ
り(罫線4、5、6、7)、それぞれのエリアがヘッダ
・フィールドとテキスト・フィールドに分割される。
【0007】このように帳票中の罫線の線引きの順序に
基づいて規定されたサンプルB用のフォーマットは、例
えば、図1(b)の罫線5が罫線5’に変わっている帳
票に対しても適用することができる。罫線の線引きの順
序は変わらないからである。しかしながら、このフォー
マットは、この順序がサンプルBとは相違するサンプル
Cに対しては適用することができない。サンプルCで
は、帳票全体をまず縦に切り(罫線1)、帳票を左右の
二つのエリアに分割する。次に切り取られた左右部分を
横に切る(罫線2、3)。つまり、図1(b)及び
(c)の帳票は罫線の引き方が相違するため、異なるフ
ォーマットで表現しなければならない。従って、この方
法でも、やはり、一つのフォーマットで、図1に示す3
つのサンプルに対応できないということになる。また、
実際の帳票からのフォーマットの構築や、新たな帳票に
よる更新する場合においても専門的な知識を必要として
おり、一から作り直す必要が生じている。
基づいて規定されたサンプルB用のフォーマットは、例
えば、図1(b)の罫線5が罫線5’に変わっている帳
票に対しても適用することができる。罫線の線引きの順
序は変わらないからである。しかしながら、このフォー
マットは、この順序がサンプルBとは相違するサンプル
Cに対しては適用することができない。サンプルCで
は、帳票全体をまず縦に切り(罫線1)、帳票を左右の
二つのエリアに分割する。次に切り取られた左右部分を
横に切る(罫線2、3)。つまり、図1(b)及び
(c)の帳票は罫線の引き方が相違するため、異なるフ
ォーマットで表現しなければならない。従って、この方
法でも、やはり、一つのフォーマットで、図1に示す3
つのサンプルに対応できないということになる。また、
実際の帳票からのフォーマットの構築や、新たな帳票に
よる更新する場合においても専門的な知識を必要として
おり、一から作り直す必要が生じている。
【0008】
【発明が解決しようとする課題】上記の問題点に鑑み、
本発明の目的は、帳票等のように特定のレイアウトを有
する文書に対して適用可能な新規なフォーマットを提供
することである。具体的には、罫線などのセパレーター
によってセルが区切られていて、セルの配置の順序は変
わらないがその位置・大きさがさまざまであるような文
書に対応可能なフォーマットを提供することである。
本発明の目的は、帳票等のように特定のレイアウトを有
する文書に対して適用可能な新規なフォーマットを提供
することである。具体的には、罫線などのセパレーター
によってセルが区切られていて、セルの配置の順序は変
わらないがその位置・大きさがさまざまであるような文
書に対応可能なフォーマットを提供することである。
【0009】また、本発明の別の目的は、効率的に書面
を処理できる文書のレイアウト解析システムを提供する
ことである。
を処理できる文書のレイアウト解析システムを提供する
ことである。
【0010】
【課題を解決するための手段】上記課題を解決するため
に、第1の発明は、記憶装置に記憶されたフォーマット
・データを参照することにより、複数のセルがある規則
に従って配置されている文書のレイアウト解析方法にお
いて、文書のイメージ・データから複数のセルを抽出す
ると共に、セル間の隣接関係を求めるステップと、文書
におけるセル間の隣接関係を、フォーマット・データが
規定するセル間の隣接関係と比較し、文書におけるセル
が対応するフォーマット・データが規定するセルを特定
することにより、文書中の情報の配置を特定するステッ
プとを有する方法を提供する。
に、第1の発明は、記憶装置に記憶されたフォーマット
・データを参照することにより、複数のセルがある規則
に従って配置されている文書のレイアウト解析方法にお
いて、文書のイメージ・データから複数のセルを抽出す
ると共に、セル間の隣接関係を求めるステップと、文書
におけるセル間の隣接関係を、フォーマット・データが
規定するセル間の隣接関係と比較し、文書におけるセル
が対応するフォーマット・データが規定するセルを特定
することにより、文書中の情報の配置を特定するステッ
プとを有する方法を提供する。
【0011】ここで、フォーマット・データは、それぞ
れのセルに存在する情報のタイプを規定すると共に、セ
ル間の隣接関係を規定したものであって、予め用意され
ていることが好ましい。具体的には、少なくとも1つの
サンプルを予め用意しておき、これらのサンプルごと
に、複数のセルを抽出すると共に、、複数のセル間の隣
接関係を求める。そして、複数のセルを頂点に対応付け
ると共に、隣接関係のうちサンプルに共通するものを辺
に対応付けることでフォーマット・データを作成する。
れのセルに存在する情報のタイプを規定すると共に、セ
ル間の隣接関係を規定したものであって、予め用意され
ていることが好ましい。具体的には、少なくとも1つの
サンプルを予め用意しておき、これらのサンプルごと
に、複数のセルを抽出すると共に、、複数のセル間の隣
接関係を求める。そして、複数のセルを頂点に対応付け
ると共に、隣接関係のうちサンプルに共通するものを辺
に対応付けることでフォーマット・データを作成する。
【0012】また、特定された情報の配置に従って、前
記文書に含まれる情報を認識するステップをさらに有し
ていてもよい。
記文書に含まれる情報を認識するステップをさらに有し
ていてもよい。
【0013】上記の隣接関係は、一のセルと他のセルと
が隣接している場合、これらのセルが共有する罫線を用
いて表現してもよい。
が隣接している場合、これらのセルが共有する罫線を用
いて表現してもよい。
【0014】第2の発明は、記憶装置に記憶されたフォ
ーマット・データを参照することにより、複数のセルが
ある規則に従って配置されている文書のレイアウトを解
析するシステムにおいて、それぞれのセルに存在する情
報のタイプを規定すると共に、セル間の隣接関係を規定
したフォーマット・データを記憶する手段と、文書のイ
メージ・データを抽出する手段と、文書のイメージ・デ
ータから複数のセルを抽出すると共に、セル間の隣接関
係を求める手段と、文書におけるセル間の隣接関係を、
フォーマット・データが規定するセル間の隣接関係と比
較し、文書におけるセルが対応するフォーマット・デー
タが規定するセルを特定することにより、文書中の情報
の配置を特定する手段と、特定された情報の配置に従っ
て、文書に含まれる情報を認識する手段とを有するシス
テムを提供する。
ーマット・データを参照することにより、複数のセルが
ある規則に従って配置されている文書のレイアウトを解
析するシステムにおいて、それぞれのセルに存在する情
報のタイプを規定すると共に、セル間の隣接関係を規定
したフォーマット・データを記憶する手段と、文書のイ
メージ・データを抽出する手段と、文書のイメージ・デ
ータから複数のセルを抽出すると共に、セル間の隣接関
係を求める手段と、文書におけるセル間の隣接関係を、
フォーマット・データが規定するセル間の隣接関係と比
較し、文書におけるセルが対応するフォーマット・デー
タが規定するセルを特定することにより、文書中の情報
の配置を特定する手段と、特定された情報の配置に従っ
て、文書に含まれる情報を認識する手段とを有するシス
テムを提供する。
【0015】また、第3の発明は、セルの配置が異なる
複数の文書のレイアウトを解析するためのフォーマット
・データを作成する方法において、複数のセルがある規
則に従って配置されているサンプルを少なくとも1つ用
意するステップと、少なくとも1つのサンプルの各々ご
とに、複数のセルを抽出するステップと、少なくとも1
つのサンプルの各々ごとに、複数のセル間の隣接関係を
求めるステップと、複数のセルを頂点に対応付けると共
に、隣接関係のうち前記サンプルに共通するものを辺に
対応付けたフォーマット・データを生成するステップと
を有する方法を提供する。。
複数の文書のレイアウトを解析するためのフォーマット
・データを作成する方法において、複数のセルがある規
則に従って配置されているサンプルを少なくとも1つ用
意するステップと、少なくとも1つのサンプルの各々ご
とに、複数のセルを抽出するステップと、少なくとも1
つのサンプルの各々ごとに、複数のセル間の隣接関係を
求めるステップと、複数のセルを頂点に対応付けると共
に、隣接関係のうち前記サンプルに共通するものを辺に
対応付けたフォーマット・データを生成するステップと
を有する方法を提供する。。
【0016】さらに、第4の発明は、セルの配置が異な
る複数の文書のレイアウトを解析するためのフォーマッ
ト・データを作成する方法において、複数のセルがある
規則に従って配置されているサンプルを少なくとも1つ
用意するステップと、少なくとも1つのサンプルの各々
ごとに、複数のセルを抽出し、複数のセル間の隣接関係
を求めるステップと、少なくとも1つのサンプルの各々
ごとに、複数のセルを頂点に対応付けると共に、隣接関
係を辺に対応付けた下位フォーマット・データを生成す
るステップと、複数のセルを頂点に対応付けると共に、
それぞれの下位フォーマット・データに共通する隣接関
係を辺に対応付けたフォーマット・データを生成するス
テップとを有する方法を提供する。
る複数の文書のレイアウトを解析するためのフォーマッ
ト・データを作成する方法において、複数のセルがある
規則に従って配置されているサンプルを少なくとも1つ
用意するステップと、少なくとも1つのサンプルの各々
ごとに、複数のセルを抽出し、複数のセル間の隣接関係
を求めるステップと、少なくとも1つのサンプルの各々
ごとに、複数のセルを頂点に対応付けると共に、隣接関
係を辺に対応付けた下位フォーマット・データを生成す
るステップと、複数のセルを頂点に対応付けると共に、
それぞれの下位フォーマット・データに共通する隣接関
係を辺に対応付けたフォーマット・データを生成するス
テップとを有する方法を提供する。
【0017】
【発明の実施の形態】本発明によりレイアウトを解析で
きる文書は、複数のセル(文書中の所定領域)がある規
則に従って配置されているものであり、典型的には、帳
票が挙げられる。通常、セルは、罫線や空白等のセパレ
ータ(separator)で区切られている。帳票においては、
「氏名」と予め記入されたヘッダ領域や、具体的に氏名
を記入するテキスト領域がセルである。以下、本発明の
典型的な適用例として、帳票のレイアウトの解析につい
て説明する。
きる文書は、複数のセル(文書中の所定領域)がある規
則に従って配置されているものであり、典型的には、帳
票が挙げられる。通常、セルは、罫線や空白等のセパレ
ータ(separator)で区切られている。帳票においては、
「氏名」と予め記入されたヘッダ領域や、具体的に氏名
を記入するテキスト領域がセルである。以下、本発明の
典型的な適用例として、帳票のレイアウトの解析につい
て説明する。
【0018】フォーマットの生成 フォーマットとは、文書のレイアウトを解析するための
ひな形(モデル)であって、文書のレイアウトはこのひ
な形を参照することで解析される。このフォーマット
は、セルに存在する情報のタイプを規定すると共に、セ
ル間の隣接関係を規定している。基本的に、フォーマッ
トは、まず一意に記述されること、そしてフォーマット
中のフィールド等のセルの関係をたどることによって、
文書中のすべてのセルを特定できることが重要である。
本実施例におけるフォーマットは、帳票中のセルの隣接
関係に基づいて記述されている点に特徴がある。セル間
の隣接関係に着目することで、罫線の長さや位置が相違
する帳票に対しても一つのフォーマットで対応すること
ができ、具体的には、図1に示す3つのサンプルに対し
て同一のフォーマットを適用することが可能となる。
ひな形(モデル)であって、文書のレイアウトはこのひ
な形を参照することで解析される。このフォーマット
は、セルに存在する情報のタイプを規定すると共に、セ
ル間の隣接関係を規定している。基本的に、フォーマッ
トは、まず一意に記述されること、そしてフォーマット
中のフィールド等のセルの関係をたどることによって、
文書中のすべてのセルを特定できることが重要である。
本実施例におけるフォーマットは、帳票中のセルの隣接
関係に基づいて記述されている点に特徴がある。セル間
の隣接関係に着目することで、罫線の長さや位置が相違
する帳票に対しても一つのフォーマットで対応すること
ができ、具体的には、図1に示す3つのサンプルに対し
て同一のフォーマットを適用することが可能となる。
【0019】フォーマットは、具体的には、有向グラフ
で表現され、グラフの頂点を帳票中のセルに対応付ける
と共に、グラフの辺をセル間の隣接関係に対応付けてい
る。このフォーマットは罫線によって囲まれた矩形であ
るセルの集合である帳票を一意に表現することができ
る。図2は、本実施例におけるフォーマットを生成する
手順を示すフロー図である。以下、それぞれのステップ
を図1に示したサンプルA,B,Cを例に説明する。
で表現され、グラフの頂点を帳票中のセルに対応付ける
と共に、グラフの辺をセル間の隣接関係に対応付けてい
る。このフォーマットは罫線によって囲まれた矩形であ
るセルの集合である帳票を一意に表現することができ
る。図2は、本実施例におけるフォーマットを生成する
手順を示すフロー図である。以下、それぞれのステップ
を図1に示したサンプルA,B,Cを例に説明する。
【0020】サンプルからセルを抽出(ステップ20
1) 本実施例で処理することができる帳票は、罫線によって
フィールドが囲まれ、区切られているものである。ま
た、帳票中に存在する罫線で囲まれている最小単位の領
域をセルといい、各セルは四角形であり、かつ、隣合う
セル間にすき間(非セル領域)がないことが好ましい。
1) 本実施例で処理することができる帳票は、罫線によって
フィールドが囲まれ、区切られているものである。ま
た、帳票中に存在する罫線で囲まれている最小単位の領
域をセルといい、各セルは四角形であり、かつ、隣合う
セル間にすき間(非セル領域)がないことが好ましい。
【0021】なお、以下の説明では、セルが物理的に隣
接している場合を例に説明するが、本発明における「隣
接」は上記場合に限定されず、セルが離れている場合に
おいても一定の条件を満たす限り「隣接」した状態であ
るとみなすことができる。すなわち、本発明でいう「隣
接」とは、ある一つの罫線または一直線上にある複数の
罫線に対して、同じ側でセルが直接接触している状態ま
たは同じ側で他のセルを介することなくセルが離れてい
る状態をいうものと定義する。
接している場合を例に説明するが、本発明における「隣
接」は上記場合に限定されず、セルが離れている場合に
おいても一定の条件を満たす限り「隣接」した状態であ
るとみなすことができる。すなわち、本発明でいう「隣
接」とは、ある一つの罫線または一直線上にある複数の
罫線に対して、同じ側でセルが直接接触している状態ま
たは同じ側で他のセルを介することなくセルが離れてい
る状態をいうものと定義する。
【0022】まず、サンプルから、グラフの頂点(ノー
ド)に対応するセルを抽出する。サンプルAでは8つの
セル、すなわち、「Name(H)」、「Name(T)」、「Zip
(H)」、「Zip(T)」、「Address(H)」、「Address
(T)」、「Tel(H)」、及び「Tel(T)」が得られる。ここ
で、(H)は帳票中に予め印刷されているヘッダを示
し、(T)は記入されるべきテキストを示している。例
えば、セル「Name(H)」は、帳票中に予め印刷された文
字「Name」が存在する矩形領域を指し、また、セル「Na
me(T)」はその右側の空欄であり、実際に氏名が記入さ
れる記入欄である。
ド)に対応するセルを抽出する。サンプルAでは8つの
セル、すなわち、「Name(H)」、「Name(T)」、「Zip
(H)」、「Zip(T)」、「Address(H)」、「Address
(T)」、「Tel(H)」、及び「Tel(T)」が得られる。ここ
で、(H)は帳票中に予め印刷されているヘッダを示
し、(T)は記入されるべきテキストを示している。例
えば、セル「Name(H)」は、帳票中に予め印刷された文
字「Name」が存在する矩形領域を指し、また、セル「Na
me(T)」はその右側の空欄であり、実際に氏名が記入さ
れる記入欄である。
【0023】下位フォーマットの生成(ステップ20
2) ステップ201より得られたセルに関して、それらの隣
接関係に基づいた下位フォーマットを生成する。下位フ
ォーマットはサンプルごとに生成される。これらの下位
フォーマットの生成は、最終的に必要な上位フォーマッ
トを生成するための前処理に当たる。下位フォーマット
は、有向グラフで表現され、グラフの頂点をステップ2
01で求めたセルに対応付け、その辺をセル間の隣接関
係に対応付ける。
2) ステップ201より得られたセルに関して、それらの隣
接関係に基づいた下位フォーマットを生成する。下位フ
ォーマットはサンプルごとに生成される。これらの下位
フォーマットの生成は、最終的に必要な上位フォーマッ
トを生成するための前処理に当たる。下位フォーマット
は、有向グラフで表現され、グラフの頂点をステップ2
01で求めたセルに対応付け、その辺をセル間の隣接関
係に対応付ける。
【0024】この隣接関係について図3を参照しつつ詳
述する。隣接関係に関する情報は、一のセルと他のセル
が隣接しているかどうかという点、及び隣接しているな
らば、上下左右のどこで隣接しているかを示す情報であ
る。図3(a)及び(b)のようにセルA及びセルBが
配置されている状態を、「セルA及びセルBは隣接関係
にある」という。このようにセルが隣接している場合、
「セルA及びセルBが罫線1を共有している」という。
なお、罫線2に関しては、セルAとセルBが対向する側
で罫線2と接しているので、罫線2をセルAとセルBが
共有しているとはいわない。同様に、同図(c)に示す
セルAとセルBは隣接していない。
述する。隣接関係に関する情報は、一のセルと他のセル
が隣接しているかどうかという点、及び隣接しているな
らば、上下左右のどこで隣接しているかを示す情報であ
る。図3(a)及び(b)のようにセルA及びセルBが
配置されている状態を、「セルA及びセルBは隣接関係
にある」という。このようにセルが隣接している場合、
「セルA及びセルBが罫線1を共有している」という。
なお、罫線2に関しては、セルAとセルBが対向する側
で罫線2と接しているので、罫線2をセルAとセルBが
共有しているとはいわない。同様に、同図(c)に示す
セルAとセルBは隣接していない。
【0025】隣接関係に関する情報としては、セルがど
の罫線を共有しているかという情報も含まれる。すなわ
ち、あるセルが他のセルと共有する罫線が、左側の罫
線、右側の罫線、上側の罫線、または下側の罫線のうち
のどれであるかが特定されている。例えば、図1のサン
プルAについては、セル「Name(H)」及びセル「Name
(T)」は、上側の罫線及び下側の罫線の両方を共有して
いる。また、セル「Name(H)」及びセル「Address(H)」
は、左側及び右側の罫線を共有している。図4(a)
は、このようにサンプルA中のすべてのセルの隣接関係
をまとめた表である。この表において、記号「R」は二
つのセルが右側の罫線を共有していることを意味してい
る。同様に、記号「L」、「T」、「B」はそれぞれ、
左側の罫線、上側の罫線、下側の罫線を共有しているこ
とを意味している。
の罫線を共有しているかという情報も含まれる。すなわ
ち、あるセルが他のセルと共有する罫線が、左側の罫
線、右側の罫線、上側の罫線、または下側の罫線のうち
のどれであるかが特定されている。例えば、図1のサン
プルAについては、セル「Name(H)」及びセル「Name
(T)」は、上側の罫線及び下側の罫線の両方を共有して
いる。また、セル「Name(H)」及びセル「Address(H)」
は、左側及び右側の罫線を共有している。図4(a)
は、このようにサンプルA中のすべてのセルの隣接関係
をまとめた表である。この表において、記号「R」は二
つのセルが右側の罫線を共有していることを意味してい
る。同様に、記号「L」、「T」、「B」はそれぞれ、
左側の罫線、上側の罫線、下側の罫線を共有しているこ
とを意味している。
【0026】サンプルAの下位フォーマットは、有向グ
ラフとして表現されるが、これは図4(a)の表と等価
である。グラフの頂点をセルに対応付ける。また、グラ
フの有向辺は、始点を表の左端の列のセルに対応付け、
終点を表の上端の行のセルに対応付ければよい。なお、
表中T,B,L,Rは共有辺である。有向グラフで表現するよ
りも、図4のような、それと等価な一覧表の方が、セル
間の関係を容易に把握できるため、以下の説明において
も、便宜上、フォーマットをこのような表で記述する。
ラフとして表現されるが、これは図4(a)の表と等価
である。グラフの頂点をセルに対応付ける。また、グラ
フの有向辺は、始点を表の左端の列のセルに対応付け、
終点を表の上端の行のセルに対応付ければよい。なお、
表中T,B,L,Rは共有辺である。有向グラフで表現するよ
りも、図4のような、それと等価な一覧表の方が、セル
間の関係を容易に把握できるため、以下の説明において
も、便宜上、フォーマットをこのような表で記述する。
【0027】すべてのサンプルの下位フォーマットを生
成(ステップ203) すべてのサンプルについて下位フォーマットを生成す
る。すべてのサンプルを処理していない場合には、未処
理のサンプルについて、ステップ201、202を実行
する。従って、図1に示したサンプルB、Cについて
も、サンプルAの場合と同様に、下位フォーマットを生
成する。図4(b)、(c)は、それぞれサンプルBま
たはCの下位フォーマットである。
成(ステップ203) すべてのサンプルについて下位フォーマットを生成す
る。すべてのサンプルを処理していない場合には、未処
理のサンプルについて、ステップ201、202を実行
する。従って、図1に示したサンプルB、Cについて
も、サンプルAの場合と同様に、下位フォーマットを生
成する。図4(b)、(c)は、それぞれサンプルBま
たはCの下位フォーマットである。
【0028】上位フォーマットの生成(ステップ20
4) 複数の帳票を一つのフォーマットで処理するために帳票
に共通した情報をとり出す。そのために、ステップ20
3で得られた複数の下位フォーマットに対して、共通し
た隣接関係のみを抽出していくことで、上位フォーマッ
トを求める。サンプルA,B,Cは、図4の表による
と、セル「Name(H)」及びセル「Name(T)」との関係は、
すべて「TB」で共通であるから、すべてのサンプルで
頂部及び下側の罫線を共有していることが分かる。ま
た、セル「Name(H)」及びセル「Addr(H)」は、「L」の
み共通しているから、すべてのサンプルは左側の罫線を
共有していることが分かる。このようにして、すべての
下位フォーマットの共通した情報のみを取り出すことに
より、上位フォーマットを生成する。図5は、図4の下
位フォーマットを元に生成された上位フォーマットを示
す表である。
4) 複数の帳票を一つのフォーマットで処理するために帳票
に共通した情報をとり出す。そのために、ステップ20
3で得られた複数の下位フォーマットに対して、共通し
た隣接関係のみを抽出していくことで、上位フォーマッ
トを求める。サンプルA,B,Cは、図4の表による
と、セル「Name(H)」及びセル「Name(T)」との関係は、
すべて「TB」で共通であるから、すべてのサンプルで
頂部及び下側の罫線を共有していることが分かる。ま
た、セル「Name(H)」及びセル「Addr(H)」は、「L」の
み共通しているから、すべてのサンプルは左側の罫線を
共有していることが分かる。このようにして、すべての
下位フォーマットの共通した情報のみを取り出すことに
より、上位フォーマットを生成する。図5は、図4の下
位フォーマットを元に生成された上位フォーマットを示
す表である。
【0029】上位フォーマットの検証(ステップ20
5) ステップ204により生成された上位フォーマットが、
すべてのサンプルに対して適用できるものであるかどう
かを、セルの連結性の確認することで検証する。すなわ
ち、上位フォーマットを表す有向グラフを無向グラフに
変換した場合に、それが連結グラフであるかどうかを確
認する。サンプルA、B、Cより得られた上位フォーマ
ット(図5)の無向グラフを図6に示す。このグラフは
連結グラフであるから、この上位フォーマットは、これ
らのサンプルに適用可能なフォーマットである。
5) ステップ204により生成された上位フォーマットが、
すべてのサンプルに対して適用できるものであるかどう
かを、セルの連結性の確認することで検証する。すなわ
ち、上位フォーマットを表す有向グラフを無向グラフに
変換した場合に、それが連結グラフであるかどうかを確
認する。サンプルA、B、Cより得られた上位フォーマ
ット(図5)の無向グラフを図6に示す。このグラフは
連結グラフであるから、この上位フォーマットは、これ
らのサンプルに適用可能なフォーマットである。
【0030】本実施例におけるフォーマットは、セルの
隣接関係を用いたものであるから、あるセルは、他のセ
ルとの隣接関係で必ずトレースできることが必要であ
る。上位フォーマットが連結グラフであるということ
は、ある任意のセルを基準にして、他のセルとの隣接関
係をたどっていけばすべてのセルをトレースすることが
できるということである。従って、この上位フォーマッ
トは、すべてのサンプルに適用が可能であるということ
になる。
隣接関係を用いたものであるから、あるセルは、他のセ
ルとの隣接関係で必ずトレースできることが必要であ
る。上位フォーマットが連結グラフであるということ
は、ある任意のセルを基準にして、他のセルとの隣接関
係をたどっていけばすべてのセルをトレースすることが
できるということである。従って、この上位フォーマッ
トは、すべてのサンプルに適用が可能であるということ
になる。
【0031】もし、上位フォーマットが連結グラフでな
ければ、このフォーマットは、セルを特定するのに必要
が情報が不足しているため、上記の隣接関係では特定で
きないセルが生じる。生成されたフォーマットがこのよ
うに不完全な場合には、サンプルCを対象からはずすな
どしてサンプルの数を減らして、再度、上記ステップを
実行し完全なフォーマットが生成する必要がある。この
場合、サンプルCに対しては別のフォーマットを生成す
る。
ければ、このフォーマットは、セルを特定するのに必要
が情報が不足しているため、上記の隣接関係では特定で
きないセルが生じる。生成されたフォーマットがこのよ
うに不完全な場合には、サンプルCを対象からはずすな
どしてサンプルの数を減らして、再度、上記ステップを
実行し完全なフォーマットが生成する必要がある。この
場合、サンプルCに対しては別のフォーマットを生成す
る。
【0032】一つのフォーマットにより処理可能な帳票
の種類について説明する。まず、図4の表で表現されて
いるフォーマットを図で表現すると図7のようになる。
この図において、「○」という表記は、その交点の周り
でセルが隣接していないことを示す。この交点を「非隣
接点」と呼ぶ。従って、セルが共有する罫線が非隣接点
を介しているため、「Name(T)」は「Address(T)」と隣
接していないし、「Zip(H)」も「Tel(H)」と隣接してい
ない。この非隣接点以外の交点を「隣接点」とよぶ。図
7で表される一つのフォーマットで図1に示す3つの帳
票のサンプルを表現することができる。これら3つのサ
ンプルの違いは、セルの入り組み方の違いであり、ここ
ではこれらを「セル・レイアウトの違い」とよぶ。つま
り、一つの非隣接点で3通りのセルのレイアウトを表現
できるということを意味している。従って、フォーマッ
ト中に非隣接点がn個ある場合には、その一つのフォー
マットで3n通りのセルのレイアウトの帳票を処理できる
ということになる。
の種類について説明する。まず、図4の表で表現されて
いるフォーマットを図で表現すると図7のようになる。
この図において、「○」という表記は、その交点の周り
でセルが隣接していないことを示す。この交点を「非隣
接点」と呼ぶ。従って、セルが共有する罫線が非隣接点
を介しているため、「Name(T)」は「Address(T)」と隣
接していないし、「Zip(H)」も「Tel(H)」と隣接してい
ない。この非隣接点以外の交点を「隣接点」とよぶ。図
7で表される一つのフォーマットで図1に示す3つの帳
票のサンプルを表現することができる。これら3つのサ
ンプルの違いは、セルの入り組み方の違いであり、ここ
ではこれらを「セル・レイアウトの違い」とよぶ。つま
り、一つの非隣接点で3通りのセルのレイアウトを表現
できるということを意味している。従って、フォーマッ
ト中に非隣接点がn個ある場合には、その一つのフォー
マットで3n通りのセルのレイアウトの帳票を処理できる
ということになる。
【0033】図6のような連結グラフとなる上位フォー
マット(図5)を用いることにより、すべてのサンプル
A,B,Cのレイアウトを一のフォーマットで解析する
ことができる。このようなフォーマットに基づいて、読
み取り装置で実際に読み込まれた帳票のビット・マップ
から、帳票中のどの位置にどのような情報が存在するか
を特定することができる。その後、文字認識技術を用い
て、その位置に存在するイメージとしての文字や記号の
認識を行うことにより、抽出すべき情報であるテキスト
が抽出される。
マット(図5)を用いることにより、すべてのサンプル
A,B,Cのレイアウトを一のフォーマットで解析する
ことができる。このようなフォーマットに基づいて、読
み取り装置で実際に読み込まれた帳票のビット・マップ
から、帳票中のどの位置にどのような情報が存在するか
を特定することができる。その後、文字認識技術を用い
て、その位置に存在するイメージとしての文字や記号の
認識を行うことにより、抽出すべき情報であるテキスト
が抽出される。
【0034】なお、図1に示すサンプルA,B,C以外
のレイアウトを有する帳票であっても、セルの隣接関係
が上位フォーマットと一致する限り、このフォーマット
でレイアウトを解析することができる。
のレイアウトを有する帳票であっても、セルの隣接関係
が上位フォーマットと一致する限り、このフォーマット
でレイアウトを解析することができる。
【0035】フォーマットを用いた実際の帳票の処理 基本的に、フォーマットはセルの隣接関係を元にしたグ
ラフにより規定されている。このフォーマットを用いて
実際の帳票を処理する場合には次のような手順になる。 (1)文書解析により帳票のイメージから罫線を抽出す
る。 (2)罫線に囲まれた領域を探して、セルを抽出する。 (3)実際のセルとフォーマットのセル情報とを比較す
ることによりセルであると認定する。
ラフにより規定されている。このフォーマットを用いて
実際の帳票を処理する場合には次のような手順になる。 (1)文書解析により帳票のイメージから罫線を抽出す
る。 (2)罫線に囲まれた領域を探して、セルを抽出する。 (3)実際のセルとフォーマットのセル情報とを比較す
ることによりセルであると認定する。
【0036】セルの隣接関係に基づいて記述されたフォ
ーマットは、基本的には、帳票のイメージ・データから
セルが特定されていることを前提として適用されるもの
である。従って、フォーマットの適用のためには、ま
ず、罫線で囲まれたセルが特定されていることが前提と
なっている。しかしながら、実際の帳票を処理する場合
には、かすれによる罫線の消失や汚れによる罫線の過剰
抽出が生じうる。これにより、本来罫線で囲まれること
でセルとして認識されるべき領域が、罫線のかすれ等で
完全に囲まれておらず、セルとして認識できない場合が
生じ得る。そこで、実際に帳票を処理する際に、セルを
正しく認識し、効果的にフォーマットを適用することが
できるように、フォーマットにおけるセルの記述を罫線
で表現することが好ましい。すなわち、隣接セルフォー
マットをセル間の隣接情報による表現をそれと等価な罫
線による表現に変換する。
ーマットは、基本的には、帳票のイメージ・データから
セルが特定されていることを前提として適用されるもの
である。従って、フォーマットの適用のためには、ま
ず、罫線で囲まれたセルが特定されていることが前提と
なっている。しかしながら、実際の帳票を処理する場合
には、かすれによる罫線の消失や汚れによる罫線の過剰
抽出が生じうる。これにより、本来罫線で囲まれること
でセルとして認識されるべき領域が、罫線のかすれ等で
完全に囲まれておらず、セルとして認識できない場合が
生じ得る。そこで、実際に帳票を処理する際に、セルを
正しく認識し、効果的にフォーマットを適用することが
できるように、フォーマットにおけるセルの記述を罫線
で表現することが好ましい。すなわち、隣接セルフォー
マットをセル間の隣接情報による表現をそれと等価な罫
線による表現に変換する。
【0037】隣接関係に関する情報は、隣接している一
対のセル、共有している罫線、セル間に存在する罫線の
4つである。例えば、図3(a)に示す状態について
は、セルA、セルB、罫線1、罫線2である。これらの
セルの隣接関係に基づいて、各罫線について次のような
情報が得られる。 (1)罫線2の上端は罫線1上にある(罫線1に接続し
ている)。 (2)罫線2の下端の位置は未定である。 (3)罫線1の左右端の位置は未定である。
対のセル、共有している罫線、セル間に存在する罫線の
4つである。例えば、図3(a)に示す状態について
は、セルA、セルB、罫線1、罫線2である。これらの
セルの隣接関係に基づいて、各罫線について次のような
情報が得られる。 (1)罫線2の上端は罫線1上にある(罫線1に接続し
ている)。 (2)罫線2の下端の位置は未定である。 (3)罫線1の左右端の位置は未定である。
【0038】また。図3(b)に示す状態については、
各罫線について次のような情報が得られる。 (1)罫線2の左端は罫線1上にある(罫線1に接続し
ている)。 (2)罫線2の右端の位置は未定である。 (3)罫線1の上下端の位置は未定である。
各罫線について次のような情報が得られる。 (1)罫線2の左端は罫線1上にある(罫線1に接続し
ている)。 (2)罫線2の右端の位置は未定である。 (3)罫線1の上下端の位置は未定である。
【0039】未定の端の位置については他のセル間の隣
接関係に関する情報により決定される。このように、セ
ルを罫線の集合として表現するように変換する。
接関係に関する情報により決定される。このように、セ
ルを罫線の集合として表現するように変換する。
【0040】この変換をフォーマット全体に適用し、罫
線およびその端点の情報を取り出す。ただし、取り出す
罫線・端点情報は、以下の規則に従うものとする。 (1)取り出された罫線が既存の罫線の延長である場合
には新しい罫線を作成せず、既存の罫線を延長する。 (2)罫線の端点を決定する場合、すでにその罫線が端
点の情報を持っている場合でも新たな端点を加え、複数
の端点情報を持たせる。
線およびその端点の情報を取り出す。ただし、取り出す
罫線・端点情報は、以下の規則に従うものとする。 (1)取り出された罫線が既存の罫線の延長である場合
には新しい罫線を作成せず、既存の罫線を延長する。 (2)罫線の端点を決定する場合、すでにその罫線が端
点の情報を持っている場合でも新たな端点を加え、複数
の端点情報を持たせる。
【0041】このような規則に従うと、図7のフォーマ
ットは、図8に示すように4本の水平線(罫線A乃至
D)と8本の垂直線(罫線a乃至h)で表現できる。な
お、罫線Bと罫線Cは、既存の罫線の延長であるにも拘
わらず、非隣接点を介しているため、別の罫線としてい
る点に留意されたい。罫線cと罫線fについても同様で
ある。
ットは、図8に示すように4本の水平線(罫線A乃至
D)と8本の垂直線(罫線a乃至h)で表現できる。な
お、罫線Bと罫線Cは、既存の罫線の延長であるにも拘
わらず、非隣接点を介しているため、別の罫線としてい
る点に留意されたい。罫線cと罫線fについても同様で
ある。
【0042】図5のフォーマットの表を、このような罫
線(図8)による表現に変換すると図9に示す表にな
る。ここで、「N()」、「A()」、「Z()」、「T()」とい
う表記はそれぞれ「Name()」、「Address()」、「Zi
p()」、「Tel()」を示しており、かっこ内のH、Tという
表記はそれぞれ、ヘッダ、テキストを示している。例え
ば、横罫線Aは、セルN(H)を構成するために、その下側
で縦罫線b、aと接している。また、横罫線Bは、セル
N(T)を構成するために、その上側で縦罫線a、cと接し
ている。一方、縦罫線aは、セルN(H)を構成するため
に、その左側で横罫線A、Bと接すると共に、セルN(T)
を構成するために、その右側で横罫線A、Bと接してい
る。
線(図8)による表現に変換すると図9に示す表にな
る。ここで、「N()」、「A()」、「Z()」、「T()」とい
う表記はそれぞれ「Name()」、「Address()」、「Zi
p()」、「Tel()」を示しており、かっこ内のH、Tという
表記はそれぞれ、ヘッダ、テキストを示している。例え
ば、横罫線Aは、セルN(H)を構成するために、その下側
で縦罫線b、aと接している。また、横罫線Bは、セル
N(T)を構成するために、その上側で縦罫線a、cと接し
ている。一方、縦罫線aは、セルN(H)を構成するため
に、その左側で横罫線A、Bと接すると共に、セルN(T)
を構成するために、その右側で横罫線A、Bと接してい
る。
【0043】さらに、フォーマットは、これらの罫線の
依存関係をも規定しておくことが好ましい。それぞれの
罫線はその端点で他の罫線に接続している。実際の帳票
における一の罫線を探索する場合、一の罫線の端点で接
する他の罫線の位置が先に特定されていれば、この一の
罫線の端点の位置をある程度特定することができる。例
えば、縦罫線の上端が横罫線と接続されている場合、横
罫線の位置が特定されていれば、縦罫線の上端のY座標
の値は特定される(ここで、横方向をX座標、縦方向を
Y座標とする)。図2(a)、(b)の例では、罫線2
が罫線1に依存している。
依存関係をも規定しておくことが好ましい。それぞれの
罫線はその端点で他の罫線に接続している。実際の帳票
における一の罫線を探索する場合、一の罫線の端点で接
する他の罫線の位置が先に特定されていれば、この一の
罫線の端点の位置をある程度特定することができる。例
えば、縦罫線の上端が横罫線と接続されている場合、横
罫線の位置が特定されていれば、縦罫線の上端のY座標
の値は特定される(ここで、横方向をX座標、縦方向を
Y座標とする)。図2(a)、(b)の例では、罫線2
が罫線1に依存している。
【0044】図9のフォーマットにおける罫線に関し、
罫線の端点の接続関係に基づいて、罫線の依存関係を求
める。図9の表から得られる依存グラフを表形式で表す
と、図10に示す表のようになる。この表中の左端の列
にある罫線が上端の行にある罫線に依存している場合
に"X"マークを付けている。
罫線の端点の接続関係に基づいて、罫線の依存関係を求
める。図9の表から得られる依存グラフを表形式で表す
と、図10に示す表のようになる。この表中の左端の列
にある罫線が上端の行にある罫線に依存している場合
に"X"マークを付けている。
【0045】罫線の依存関係を生成するにあたって、縦
罫線及び横罫線は区別せずに扱う。また、外周の罫線
(罫線A、D、b、h)は、他の罫線に依存しないもの
として扱う。外周の罫線とは、縦罫線(罫線b、h)に
関しては、左右のどちらか一方の側で他の罫線に接続さ
れておらず、接触セルの情報を有さないものをいい、横
罫線(罫線A、D)に関しては、上下のどちらか一方の
側で他の罫線に接続されておらず、接触セルの情報を有
さないものをいう。但し、罫線の依存関係がループして
いる場合は、適当な場所で依存関係を切って閉路をなく
す。
罫線及び横罫線は区別せずに扱う。また、外周の罫線
(罫線A、D、b、h)は、他の罫線に依存しないもの
として扱う。外周の罫線とは、縦罫線(罫線b、h)に
関しては、左右のどちらか一方の側で他の罫線に接続さ
れておらず、接触セルの情報を有さないものをいい、横
罫線(罫線A、D)に関しては、上下のどちらか一方の
側で他の罫線に接続されておらず、接触セルの情報を有
さないものをいう。但し、罫線の依存関係がループして
いる場合は、適当な場所で依存関係を切って閉路をなく
す。
【0046】このようにフォーマット中のセルの隣接関
係を、罫線により記述し、罫線の依存関係を求めておく
ことにより、実際の帳票から抽出された罫線がかすれて
いたり、汚れている場合においても、有効に罫線を抽出
でき、セルを特定することができる。なぜなら、ある罫
線の長さは依存関係のある両端の罫線の位置で決まるか
らである。従って、その罫線がかすれていても両端の罫
線からその長さ、位置を推定することができる。このこ
とは、罫線がかすれているだけでなく、交点がかすれて
取り出せない場合にも正確に罫線を抽出することを可能
にする。
係を、罫線により記述し、罫線の依存関係を求めておく
ことにより、実際の帳票から抽出された罫線がかすれて
いたり、汚れている場合においても、有効に罫線を抽出
でき、セルを特定することができる。なぜなら、ある罫
線の長さは依存関係のある両端の罫線の位置で決まるか
らである。従って、その罫線がかすれていても両端の罫
線からその長さ、位置を推定することができる。このこ
とは、罫線がかすれているだけでなく、交点がかすれて
取り出せない場合にも正確に罫線を抽出することを可能
にする。
【0047】図11は、抽出された罫線がかすれている
場合の処理を説明するための図である。同図(A)は、
フォーマットの一部分を示している。横罫線Aは、縦罫
線a、罫線cに依存している。また、同図(B)は、実
際の帳票から抽出された実際の罫線の成分を示してい
る。抽出された横罫線1はかすれていて縦罫線2、4に
まで到達していない。また、抽出された縦罫線4も、横
罫線1との交点付近でかすれている。このような場合、
フォーマット中の罫線の依存関係を参照することによ
り、帳票から抽出された罫線の位置や長さをある程度特
定できるため、同図(c)のような罫線が存在するもの
と判断することが可能となる。
場合の処理を説明するための図である。同図(A)は、
フォーマットの一部分を示している。横罫線Aは、縦罫
線a、罫線cに依存している。また、同図(B)は、実
際の帳票から抽出された実際の罫線の成分を示してい
る。抽出された横罫線1はかすれていて縦罫線2、4に
まで到達していない。また、抽出された縦罫線4も、横
罫線1との交点付近でかすれている。このような場合、
フォーマット中の罫線の依存関係を参照することによ
り、帳票から抽出された罫線の位置や長さをある程度特
定できるため、同図(c)のような罫線が存在するもの
と判断することが可能となる。
【0048】また、本方法ではフォーマット上での罫線
に接続している他の罫線の数と、抽出された罫線の接続
数との差をもとにコストを計算し、それが最小になるよ
うな組合せを最終結果とすることもできる。従って、汚
れなどにより余計な線分が抽出されても全体として最も
影響が少ない場合を探索することができる。従来は余計
な線分によって余計な交点、セルが抽出されてしまうと
その後の解析に大きな影響を及ぼしてしまうことがあっ
たが、本方法では局所的な汚れの影響は最小限に押える
ことができる。
に接続している他の罫線の数と、抽出された罫線の接続
数との差をもとにコストを計算し、それが最小になるよ
うな組合せを最終結果とすることもできる。従って、汚
れなどにより余計な線分が抽出されても全体として最も
影響が少ない場合を探索することができる。従来は余計
な線分によって余計な交点、セルが抽出されてしまうと
その後の解析に大きな影響を及ぼしてしまうことがあっ
たが、本方法では局所的な汚れの影響は最小限に押える
ことができる。
【0049】図12は、本実施例における帳票処理シス
テムのブロック図である。フォーマット記録部11に
は、セルの隣接関係に基づいたフォーマットの情報が記
憶されている。この情報は、それぞれのセルにどのよう
な情報(例えば、住所、氏名、電話番号等)が存在する
かということ及びセル間の隣接関係である。上述のよう
に、セル間の隣接関係は罫線で表現されていてもよい。
フォーマット生成部12は、帳票のサンプルからフォー
マットを生成し、セルの連結性を確認するためのもので
ある。さらにフォーマット生成部12は、新たなレイア
ウトを有する帳票のサンプルに基づいて、既存のフォー
マットを更新する機能も有している。新たなサンプルに
よって生成されたフォーマットが、セルの連結性を確保
できない場合には、生成されたフォーマットは不完全で
ある。従って、この場合には、フォーマットを更新せず
に、新たなサンプルに適合するフォーマットを新たに生
成して、これをフォーマット記録部11に記憶しなけれ
ばならない。
テムのブロック図である。フォーマット記録部11に
は、セルの隣接関係に基づいたフォーマットの情報が記
憶されている。この情報は、それぞれのセルにどのよう
な情報(例えば、住所、氏名、電話番号等)が存在する
かということ及びセル間の隣接関係である。上述のよう
に、セル間の隣接関係は罫線で表現されていてもよい。
フォーマット生成部12は、帳票のサンプルからフォー
マットを生成し、セルの連結性を確認するためのもので
ある。さらにフォーマット生成部12は、新たなレイア
ウトを有する帳票のサンプルに基づいて、既存のフォー
マットを更新する機能も有している。新たなサンプルに
よって生成されたフォーマットが、セルの連結性を確保
できない場合には、生成されたフォーマットは不完全で
ある。従って、この場合には、フォーマットを更新せず
に、新たなサンプルに適合するフォーマットを新たに生
成して、これをフォーマット記録部11に記憶しなけれ
ばならない。
【0050】読取装置13は、帳票をスキャンすること
により、帳票のイメージデータを生成する。このイメー
ジデータはイメージ記憶部14に記憶される。セル抽出
部15は、帳票のイメージデータからセル(縦横の罫
線)を抽出すると共に、イメージデータから帳票のセル
間の隣接関係を求める。レイアウト解析部16は、セル
抽出部15により抽出された帳票のセル間の隣接関係
と、フォーマット記憶部11に記憶されているフォーマ
ットが規定する隣接関係とのマッチングを行い、これら
を比較することにより、帳票中のあるセルがフォーマッ
トのどのセルに対応するのかを特定する。これによっ
て、レイアウト解析部16は、帳票中のある位置にどの
ような情報(例えば、住所)が存在するかを特定する。
レイアウト解析部16による帳票のレイアウトの解析結
果に従って、認識装置17は帳票中のある位置に存在す
る情報(例えば、住所として記入者が帳票中に具体的に
記入した文字、数字、記号等)を文字認識技術を用いて
認識する。
により、帳票のイメージデータを生成する。このイメー
ジデータはイメージ記憶部14に記憶される。セル抽出
部15は、帳票のイメージデータからセル(縦横の罫
線)を抽出すると共に、イメージデータから帳票のセル
間の隣接関係を求める。レイアウト解析部16は、セル
抽出部15により抽出された帳票のセル間の隣接関係
と、フォーマット記憶部11に記憶されているフォーマ
ットが規定する隣接関係とのマッチングを行い、これら
を比較することにより、帳票中のあるセルがフォーマッ
トのどのセルに対応するのかを特定する。これによっ
て、レイアウト解析部16は、帳票中のある位置にどの
ような情報(例えば、住所)が存在するかを特定する。
レイアウト解析部16による帳票のレイアウトの解析結
果に従って、認識装置17は帳票中のある位置に存在す
る情報(例えば、住所として記入者が帳票中に具体的に
記入した文字、数字、記号等)を文字認識技術を用いて
認識する。
【0051】図13は、帳票処理の手順を示す流れ図で
ある。まず、帳票中の各セルにどのような情報が存在す
るかを規定すると共に、セル間の隣接関係を規定したフ
ォーマットを用意する(ステップ101)。このフォー
マットは、フォーマット記憶部11中に記憶されてい
る。次に、帳票から複数のセルを抽出すると共に、前記
セル間の隣接関係を求める(ステップ102)。帳票に
おけるセル間の隣接関係を、フォーマットが規定するセ
ル間の隣接関係と比較し、帳票におけるあるセルがフォ
ーマットのどのセルに対応するのかを特定することによ
り、帳票中のある位置にどのような情報が存在するかを
特定する(ステップ103)。そして、特定された位置
に存在する情報を認識する(ステップ104)。各ステ
ップの詳細は、上述したとおりである。
ある。まず、帳票中の各セルにどのような情報が存在す
るかを規定すると共に、セル間の隣接関係を規定したフ
ォーマットを用意する(ステップ101)。このフォー
マットは、フォーマット記憶部11中に記憶されてい
る。次に、帳票から複数のセルを抽出すると共に、前記
セル間の隣接関係を求める(ステップ102)。帳票に
おけるセル間の隣接関係を、フォーマットが規定するセ
ル間の隣接関係と比較し、帳票におけるあるセルがフォ
ーマットのどのセルに対応するのかを特定することによ
り、帳票中のある位置にどのような情報が存在するかを
特定する(ステップ103)。そして、特定された位置
に存在する情報を認識する(ステップ104)。各ステ
ップの詳細は、上述したとおりである。
【0052】なお、上記の実施例は、セルが罫線で区切
られている例について説明したが、本発明は、罫線以外
の区切り(separator)でセルが仕切られている文書に
対しても適用が可能である。例えば、一定の幅以上の空
白がセル間に存在する場合には、この空白を区切りとみ
なし、この空白を上記の罫線と同様に取り扱うことがで
きる。
られている例について説明したが、本発明は、罫線以外
の区切り(separator)でセルが仕切られている文書に
対しても適用が可能である。例えば、一定の幅以上の空
白がセル間に存在する場合には、この空白を区切りとみ
なし、この空白を上記の罫線と同様に取り扱うことがで
きる。
【0053】
【発明の効果】このように本発明は、セルの隣接関係
(罫線によるセルの表現も含む)に基づいてフォーマッ
トを規定している。従って、処理対象である文書中のセ
ルの隣接関係がフォーマットに規定するものと同一であ
る限り、セルの位置や大きさが相違しても、一のフォー
マットで統一して処理することのできる。特に、セルの
隣接関係を罫線で表現することにより、文書中の罫線
が、かすれていたり、汚れていたりする場合において
も、効果的に文書のレイアウトを解析することができ
る。
(罫線によるセルの表現も含む)に基づいてフォーマッ
トを規定している。従って、処理対象である文書中のセ
ルの隣接関係がフォーマットに規定するものと同一であ
る限り、セルの位置や大きさが相違しても、一のフォー
マットで統一して処理することのできる。特に、セルの
隣接関係を罫線で表現することにより、文書中の罫線
が、かすれていたり、汚れていたりする場合において
も、効果的に文書のレイアウトを解析することができ
る。
【図1】具体的な帳票のサンプルを示す図である。
【図2】本実施例におけるフォーマットを生成する手順
を示すフロー図である。
を示すフロー図である。
【図3】セル間の隣接関係を説明するための図である。
【図4】サンプル中のすべてのセルの隣接関係をまとめ
た表である。
た表である。
【図5】図4の下位フォーマットを元に生成された上位
フォーマットを示す表である。
フォーマットを示す表である。
【図6】図5の上位フォーマットの連結性を示す無向グ
ラフである。
ラフである。
【図7】図5の上位フォーマットを示す図である。
【図8】図7の図を罫線で表現した図である。
【図9】図5のフォーマットの表を罫線による表現に変
換した表である。
換した表である。
【図10】罫線の依存関係を示した表である。
【図11】抽出された罫線がかすれている場合の処理を
説明するための図である。
説明するための図である。
【図12】帳票処理システムのブロック図である。
【図13】帳票処理の手順を示す流れ図である。
11・・・フォーマット記録部 12・・・フォーマット生成部 13・・・読取装置 14・・・イメージ記録部 15・・・セル抽出部 16・・・レイアウト解析部 17・・・認識装置
Claims (16)
- 【請求項1】記憶装置に記憶されたフォーマット・デー
タを参照することにより、複数のセルがある規則に従っ
て配置されている文書のレイアウト解析方法において、 前記文書のイメージ・データから複数のセルを抽出する
と共に、当該セル間の隣接関係を求めるステップと、 前記文書における前記セル間の隣接関係を、前記フォー
マット・データが規定するセル間の隣接関係と比較し、
前記文書におけるセルが対応する前記フォーマット・デ
ータが規定するセルを特定することにより、前記文書中
の情報の配置を特定するステップとを有することを特徴
とする方法。 - 【請求項2】それぞれのセルに存在する情報のタイプを
規定すると共に、当該セル間の隣接関係を規定したフォ
ーマット・データを予め用意するステップをさらに有す
ることを特徴とする請求項1に記載の方法。 - 【請求項3】前記特定された情報の配置に従って、前記
文書に含まれる情報を認識するステップをさらに有する
ことを特徴とする請求項1に記載の方法。 - 【請求項4】前記隣接関係は、一のセルと他のセルとが
隣接している場合、これらのセルが共有する罫線を用い
て表現されていることを特徴とする請求項1に記載の方
法。 - 【請求項5】上記フォーマット・データを用意するステ
ップは、 少なくとも1つのサンプルを用意するステップと、 前記少なくとも1つのサンプルの各々ごとに、複数のセ
ルを抽出するステップと、 前記少なくとも1つのサンプルの各々ごとに、前記複数
のセル間の隣接関係を求めるステップと、 前記複数のセルを頂点に対応付けると共に、前記隣接関
係のうち前記サンプルに共通するものを辺に対応付けた
フォーマット・データを作成するステップとを有するこ
とを特徴とする請求項2に記載の方法。 - 【請求項6】前記フォーマット・データ中のすべての前
記頂点は前記辺で連結されていることを特徴とする請求
項1に記載の方法。 - 【請求項7】前記フォーマット・データにおけるセルを
罫線の集合で表現することにより、前記フォーマット・
データは罫線の接続関係に基づいて記述されていること
を特徴とする請求項1に記載の方法。 - 【請求項8】前記フォーマット・データは、罫線間の依
存関係をさらに規定していることを特徴とする請求項7
に記載の方法。 - 【請求項9】記憶装置に記憶されたフォーマット・デー
タを参照することにより、複数のセルがある規則に従っ
て配置されている文書のレイアウトを解析するシステム
において、 それぞれのセルに存在する情報のタイプを規定すると共
に、当該セル間の隣接関係を規定したフォーマット・デ
ータを記憶する手段と、 前記文書のイメージ・データを抽出する手段と、 前記文書のイメージ・データから複数のセルを抽出する
と共に、当該セル間の隣接関係を求める手段と、 前記文書における前記セル間の隣接関係を、前記フォー
マット・データが規定する前記セル間の隣接関係と比較
し、前記文書におけるセルが対応する前記フォーマット
・データが規定するセルを特定することにより、前記文
書中の情報の配置を特定する手段と、 前記特定された情報の配置に従って、前記文書に含まれ
る情報を認識する手段とを有することを特徴とするシス
テム。 - 【請求項10】少なくとも1つのサンプルにおけるセル
の隣接関係に基づいてフォーマット・データを生成する
手段をさらに有することを特徴とする請求項9に記載の
システム。 - 【請求項11】上記フォーマット・データを生成する手
段は、新たなサンプルに基づいて、既存のフォーマット
・データを更新する機能を有していることを特徴とする
請求項10に記載のシステム。 - 【請求項12】セルの配置が異なる複数の文書のレイア
ウトを解析するためのフォーマット・データを作成する
方法において、 複数のセルがある規則に従って配置されているサンプル
を少なくとも1つ用意するステップと、 前記少なくとも1つのサンプルの各々ごとに、複数のセ
ルを抽出するステップと、 前記少なくとも1つのサンプルの各々ごとに、前記複数
のセル間の隣接関係を求めるステップと、 前記複数のセルを頂点に対応付けると共に、前記隣接関
係のうち前記サンプルに共通するものを辺に対応付けた
フォーマット・データを生成するステップとを有するこ
とを特徴とする方法。 - 【請求項13】セルの配置が異なる複数の文書のレイア
ウトを解析するためのフォーマット・データを作成する
方法において、 複数のセルがある規則に従って配置されているサンプル
を少なくとも1つ用意するステップと、 前記少なくとも1つのサンプルの各々ごとに、複数のセ
ルを抽出し、当該複数のセル間の隣接関係を求めるステ
ップと、 前記少なくとも1つのサンプルの各々ごとに、前記複数
のセルを頂点に対応付けると共に、前記隣接関係を辺に
対応付けた下位フォーマット・データを生成するステッ
プと、 前記複数のセルを頂点に対応付けると共に、それぞれの
前記下位フォーマット・データに共通する前記隣接関係
を辺に対応付けたフォーマット・データを生成するステ
ップとを有することを特徴とする方法。 - 【請求項14】前記隣接関係は、一のセルと他のセルと
が隣接している場合、これらのセルが共有する罫線を用
いて表現されていることを特徴とする請求項12または
13に記載の方法。 - 【請求項15】前記フォーマット・データ中のすべての
前記頂点が前記辺で連結されているかどうかを検証する
ステップをさらに有することを特徴とする請求項12ま
たは13に記載の方法。 - 【請求項16】前記フォーマット・データにおけるセル
は、罫線の集合として表現されていることを特徴とする
請求項12または13に記載の方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8189099A JPH1063744A (ja) | 1996-07-18 | 1996-07-18 | 文書のレイアウト解析方法及びシステム |
TW085115148A TW330995B (en) | 1996-07-18 | 1996-12-07 | Method and system for sequencing of text |
US08/888,555 US6009194A (en) | 1996-07-18 | 1997-07-07 | Methods, systems and computer program products for analyzing information in forms using cell adjacency relationships |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8189099A JPH1063744A (ja) | 1996-07-18 | 1996-07-18 | 文書のレイアウト解析方法及びシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH1063744A true JPH1063744A (ja) | 1998-03-06 |
Family
ID=16235343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8189099A Pending JPH1063744A (ja) | 1996-07-18 | 1996-07-18 | 文書のレイアウト解析方法及びシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US6009194A (ja) |
JP (1) | JPH1063744A (ja) |
TW (1) | TW330995B (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102519186A (zh) * | 2011-12-21 | 2012-06-27 | 青岛海尔空调电子有限公司 | 空调风冷热泵机组的除霜方法、空调风冷热泵机组 |
WO2018016552A1 (ja) * | 2016-07-21 | 2018-01-25 | 株式会社ミラボ | 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム |
US10452903B2 (en) | 2016-07-28 | 2019-10-22 | Kyocera Document Solutions Inc. | Information extraction device, image forming apparatus including information extraction device and method of controlling information extraction device |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005526314A (ja) * | 2002-05-20 | 2005-09-02 | タタ インフォテック リミティド | 文書構造識別器 |
JP2004139484A (ja) * | 2002-10-21 | 2004-05-13 | Hitachi Ltd | 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム |
US20050089209A1 (en) * | 2003-10-22 | 2005-04-28 | Ncr Corporation | Check and method of providing apriori reference image quality data for use in determining quality of an image of a financial document |
JP5253788B2 (ja) * | 2007-10-31 | 2013-07-31 | 富士通株式会社 | 画像認識装置、画像認識プログラムおよび画像認識方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63155386A (ja) * | 1986-12-19 | 1988-06-28 | Ricoh Co Ltd | 帳票デ−タ読取装置 |
JP2579397B2 (ja) * | 1991-12-18 | 1997-02-05 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 文書画像のレイアウトモデルを作成する方法及び装置 |
US5416849A (en) * | 1992-10-21 | 1995-05-16 | International Business Machines Corporation | Data processing system and method for field extraction of scanned images of document forms |
US5848184A (en) * | 1993-03-15 | 1998-12-08 | Unisys Corporation | Document page analyzer and method |
US5850490A (en) * | 1993-12-22 | 1998-12-15 | Xerox Corporation | Analyzing an image of a document using alternative positionings of a class of segments |
US5852676A (en) * | 1995-04-11 | 1998-12-22 | Teraform Inc. | Method and apparatus for locating and identifying fields within a document |
US5784487A (en) * | 1996-05-23 | 1998-07-21 | Xerox Corporation | System for document layout analysis |
-
1996
- 1996-07-18 JP JP8189099A patent/JPH1063744A/ja active Pending
- 1996-12-07 TW TW085115148A patent/TW330995B/zh active
-
1997
- 1997-07-07 US US08/888,555 patent/US6009194A/en not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102519186A (zh) * | 2011-12-21 | 2012-06-27 | 青岛海尔空调电子有限公司 | 空调风冷热泵机组的除霜方法、空调风冷热泵机组 |
WO2018016552A1 (ja) * | 2016-07-21 | 2018-01-25 | 株式会社ミラボ | 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム |
JPWO2018016552A1 (ja) * | 2016-07-21 | 2019-05-16 | 株式会社ミラボ | 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム |
JP2021152924A (ja) * | 2016-07-21 | 2021-09-30 | 株式会社ミラボ | 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム |
JP2022003579A (ja) * | 2016-07-21 | 2022-01-11 | 株式会社ミラボ | 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム |
US10452903B2 (en) | 2016-07-28 | 2019-10-22 | Kyocera Document Solutions Inc. | Information extraction device, image forming apparatus including information extraction device and method of controlling information extraction device |
Also Published As
Publication number | Publication date |
---|---|
TW330995B (en) | 1998-05-01 |
US6009194A (en) | 1999-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3822277B2 (ja) | 文字テンプレートセット学習マシン動作方法 | |
US6006240A (en) | Cell identification in table analysis | |
JP3640972B2 (ja) | ドキュメントの解読又は解釈を行う装置 | |
Yanikoglu et al. | Pink Panther: a complete environment for ground-truthing and benchmarking document page segmentation | |
US6226407B1 (en) | Method and apparatus for analyzing computer screens | |
JP2004139484A (ja) | 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム | |
JP5121599B2 (ja) | 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体 | |
US20100303356A1 (en) | Method for processing optical character recognition (ocr) data, wherein the output comprises visually impaired character images | |
JPH0750483B2 (ja) | 文書画像追加情報の蓄積方法 | |
US6320983B1 (en) | Method and apparatus for character recognition, and computer-readable recording medium with a program making a computer execute the method recorded therein | |
US7046847B2 (en) | Document processing method, system and medium | |
US7680329B2 (en) | Character recognition apparatus and character recognition method | |
CN115240213A (zh) | 表格图像识别方法、装置、电子设备及存储介质 | |
CN113610068A (zh) | 基于试卷图像的试题拆解方法、系统、存储介质及设备 | |
JPH11184894A (ja) | 論理要素抽出方法および記録媒体 | |
JPH1063744A (ja) | 文書のレイアウト解析方法及びシステム | |
JP4983464B2 (ja) | 帳票画像処理装置及び帳票画像処理プログラム | |
JP2008108114A (ja) | 文書処理装置および文書処理方法 | |
US9437020B2 (en) | System and method to check the correct rendering of a font | |
JP4347675B2 (ja) | 帳票ocrプログラム、方法及び装置 | |
JP3798179B2 (ja) | パターン抽出装置及び文字切り出し装置 | |
JP2009087378A (ja) | 帳票処理装置 | |
JPH10207981A (ja) | 帳票認識方法 | |
JP4213558B2 (ja) | 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置 | |
JP2006244526A (ja) | 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム |