Nothing Special   »   [go: up one dir, main page]

JPS62165284A - 文字列抽出方式 - Google Patents

文字列抽出方式

Info

Publication number
JPS62165284A
JPS62165284A JP61006412A JP641286A JPS62165284A JP S62165284 A JPS62165284 A JP S62165284A JP 61006412 A JP61006412 A JP 61006412A JP 641286 A JP641286 A JP 641286A JP S62165284 A JPS62165284 A JP S62165284A
Authority
JP
Japan
Prior art keywords
rectangle
circumscribed
rectangles
character
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61006412A
Other languages
English (en)
Inventor
Koji Fukuda
浩至 福田
Masatoshi Hino
樋野 匡利
Kuniaki Tabata
邦晃 田畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP61006412A priority Critical patent/JPS62165284A/ja
Publication of JPS62165284A publication Critical patent/JPS62165284A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Processing (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文書画像の処理方式に係り、特に文書中の文
字行の抽出方式に関する。
〔従来の技術〕
文書画像中の文字列を抽出する従来の方式には、黒画素
の連結成分の外接矩形を利用するものとして、同一行に
含まれる矩形間の行方向距離(縦書の場合には縦方向、
横書の場合には横方向)が近いことに着目する方法があ
る。例えば「新聞記事の本文を構成する文字の切りだし
ノと題する情報処理学会第24回(昭和57年前期)全
国大会予稿集第695頁〜696頁の報告では、本文領
域中の任意の2つの矩形間の行方向距離がある閾値以下
であれば、これらの2つの矩形を囲む最小矩形を元の2
つの矩形と置きかえてゆき、この処理を新たに矩形が生
成されなくなるまで繰り返し、その時点で得られている
矩形を文字列とする手法が述べられている。
しかしながら、上記方式では、図あるいはグラフを含ん
だ画像や、句読点などにより外接矩形の間隔が広くなる
場合の文字列抽出については考慮していない。
〔発明が解決しようとする問題点〕
上記従来技術は、同一の文字行内の矩形が成る閾値内で
隣接していることに着目して文字行を抽出している。し
かしながら、文書には文字以外に図形、線分1句読点、
ノイズなど性質の異なったデータが存在するため、黒画
素連結成分の外接矩形の間隔は一定ではない。このため
、閾値の設定次第、で次のような不具合が生しる。
(i)文字矩形間の距離を基準として閾値を設定する場
合: 句読点と文字との間の距離は、文字と文字との距離より
大きいため、句読点の位置で2つの矩形を統合する外接
矩形への置き換え処理が停止する場合がある。つまり、
同一の文字行に含まれるべきデータが別々の文字行要素
として抽出される。
(11)句読点と文字矩形間の距離を基準として閾値を
設定する場合: (i)の問題は解消できるが、周囲に存在するノイズを
文字列に組み込む可能性が大きい。また、図形、グラフ
等を含んだ文書では、文字の外接矩形と図形の外接矩形
に対して同様の閾値で処理が行なわれるので、文字と図
形との距離が成る閾値内に含まれる場合、これらが同一
文字行として抽出されてしまう。
本発明の目的は、これらの問題点を解消し、図形、ある
いはグラフを含んだ文書画像から文字列を確実に抽出で
きるようにした文字列抽出方式を提供することにある。
〔問題点を解決するための手段〕
上記目的は、文書中に含まれる文字2句読点。
図、グラフなどの性質ごとに外接矩形を分類し、同一文
字行とみなすための条件をこれらの分類毎に設定するこ
とにより達成される。例えば、文書中から抽出される最
も頻度の高い矩形は文字であり、これに比べて大きい矩
形は図形、これより小さい矩形はノイズあるいは記号で
あると推定できる。このように外接矩形を大きさで分類
し、分類ごとに矩形内容を識別することにより、文字行
の抽出を確実にすることができる。
〔作用〕
図またはグラフを含む画像や1分離文字、半角文字の挿
入により文字間のピッチが不揃いの文書に対しても、黒
画素連続成分の外接矩形の性質に着目して処理条件を可
変とすることにより、正確に文字行を抽出できる。
〔実施例〕
以下、本発明の実施例を図面を参照して説明する。第1
図は本発明による文字行抽出を概略的に示した図であり
、入力画像lより黒画素連結成分の外接矩形を抽出しく
ステップ2)、縦書きか横書きかの判定(ステップ3)
と、行用形の抽出処理(ステップ4)を行なうことによ
り、結果5を得る。黒画素連結成分の外接矩形の抽出方
式としては、連結成分の境界を追跡する方式(例えば、
゛′ディジタル画像処理; Rosenfeld、 K
oK著。
長尾真監訳、近代科学社 pp、 353〜361参照
)など、公知の手法を適用できる。また、縦書きと横書
きの判定処理3には、例えば各矩形の最も近い矩形まで
の距離を求めて判定する方式を採用できる。
第2図は上記行抽出を行なうためのハード構成を示す。
文書画像はスキャナ9により入力され、フレームメモリ
6にシステムバス】2を介して格納される。入力画像中
の黒画素連続成分の外接矩形の抽出処理2.縦書・横書
の判定処理3はマイクロプロセッサ(MPU)3により
行なわれ、この結果は一時的にメインメモリ8に蓄積さ
れる。
MPU3は、これらのデータに対して更に行用形の抽出
処理4を行ない、処理結果5をプロッタlOまたはディ
スプレイ11に出力する。
以下、本発明の主要部となる行用形の抽出処理4の実施
例について詳細な説明する。
この実施例では、隣接する2つの外接矩形を比較して同
一の行に含まれる矩形か否かを判定し、同一行に入ると
判定された場合には、これら2つの矩形を順次統合して
ゆく。この処理を全ての矩形の組合せについて行なうと
、最終的に行用形だけが残る。この場合、文書中には通
常の文字以外に図形、仕切線、印刷ノイズ、特殊な記号
など、互いに性質の異なる要素を示す黒画素が存在する
ため、文書画像中の全ての黒画素連結成分の外接矩形に
対して同一の矩形統合条件を画一的に適用することは困
難である。
そこで、本発明においては、第3図に示すように、黒画
素連結成分に外接する矩形を縦、横の寸法によりa−1
に分類し、矩形の大きさく分¥i)により行統合条件を
変えて処理することを特徴としている。図中、横軸は、
矩形の幅(Width : W)、縦軸は、矩形の高さ
くHight、:H)である。各矩形がどの分類に該当
するかを求めるためには外接矩形の大きさを示す情報が
必要である。外接矩形の表現形式は多種あるが、この実
施例では、第4図に示すように、各矩形を対角点の座標
で表現する形式を採用した場合について説明する。
対角点の座標をそれぞれ(Xm工。+’/m1nL(X
 m a X + ym a X)とすると、横書きの
場合のWとHの値は w=xmaX  Xml n      ”・(1)H
=ymax  Ymax      ・・・(2)で表
わされる。このWとHを用い、この矩形が第3図に示す
分類のどこに該当するかを判定することができる。分類
結果は、対角点座標と共に各矩形毎に第4図に示すテー
ブル形式でメインメモリ8に記憶される。
第3図の分類で、閾値となるWl、W2.Hl。
H2の値は、例えば次のようにして決められる。
先ず、各矩形について行方向で最も近い位置にある矩形
とのHの比を求め、その値が1/2〜2以内となる矩形
を抽出し、抽出した矩形の中での最大頻度となる矩形の
サイズH,Wを代表値に選び、それぞれの値をMH(M
ean Highj) +M W (Mean Wid
th)とおくと、Wl、W2゜Hl、H2は次式で示さ
れる。
H1=1/2xMH・・・(3) H2=4XMH・・・(4) W1=1/2XMW       ・・・(5)W2=
4XMW         ・・・(6)このようにし
てMH,MWを代表値として分類の閾値を設定すると、
文書画像中に含まれる図形。
線分1句読点などを通常の文字と区別して行抽出処理を
行なうことができる。各分類に含まれる矩形は、次のよ
うに推定できる。
分類a:ノイズ9句読点2文字の一部 分類り:横長の記号、アングライン 分類C:支切線(横長)、アングライン分類d:縦長の
記号9文字の一部 分類e:文字 分類f:図、接触文字 分類g:仕切線(縦長) 分類り、i:図 本発明では、このようにして求めた分類表を利用し、各
矩形が同一の文字行に含まれる文字あるいは記号などの
矩形に該当するか否かを判断しながら外接矩形を次々と
、統合してゆく。
外接矩形の統合は、例えば次のようにして行なう。今、
第4図の矩形41と42とが同一行に含まれる矩形と判
断されて、1つの矩形に統合処理される場合を考える。
この場合は、 xmtnα”m i n (Xm i nα+ xrn
 i 1.β)  ・−(7)Ymtnα=mtn(/
mtnα+Yminβ) ・・・(8)XmaXα:m
ax (xmaxα+ymaXβ) ・・・(9)”/
 m a xα= m a x (V m a xα+
 ymaXβ)  ・・・(10)として、矩形42が
消去される。ここで求められた座標(Xmlnα+Ym
inα)+(XmaXα。
Ymaxα)を対角線とする新たな矩形は統合後の矩形
である。つまり、統合処理で生成される矩形は、比較し
た2つの矩形の外接矩形となる。
第5図、第6図により統合条件の一例を説明する。
第5図では、2つの矩形の重心位置により統合の規則を
設ける方法を示している。重心の座標(g X + g
 7 )は、矩形の対角点の座標よりg x”   (
Xm t n+Xm a x)    ・−(II)g
y”   (ym ln+ymax)    −(12
)で表現できる。この場合、■n心のy PP、標が、
統合対象となる2つの矩形の!/mtn以上、ymax
以下であること(以下、この状態を重心のオーバ−ラン
プ条件を満たしているという)を条件としている。例え
ば、第5図の矩形51と矩形52を比較した場合、矩形
51の重心(Emlの行方向への延長線は、矩形52を
通過しており、上述した重心のオーバラップ条件を満た
している。逆に、矩形52の重心Gm2と矩形51の関
係も同様である。これに対し、矩形52と矩形53の関
係をみると、矩形53の重心Gm3は矩形52とオーバ
ラップしているが、矩形52の重心Gm、+は矩形53
に対してオーバラップしていない。
第6図は、矩形間の距離に注目した判定条件を示す。矩
形62の両側を行方向にQだけ拡大した場合、統合対象
となる矩形が拡大矩形とオーバラップするかどうかを判
定する。このオーバラップ判定には、次式の関係をみる
。今、矩形62を拡大して、矩形61を評価する場合を
例にとると。
判定式は次のようになる。
[max(Xm1nnl  Q+ Xm1nnl)<y
yB n(xmBycn2+D、xmaxnl))−a
nd−(max(ym i nn 2+  ym t 
nn 1)<m i n ()’ m a X n 2
 +  ym a X n l) ]この条件を満足す
ることを、以下、距離のオーバラップ条件を満足すると
いう。
以上の2つの条件を、パラメータを対象矩形の分類ごと
に定義して、文字行矩形を抽出した処理例を第7図に示
す。
第7図で(A)〜(E)は矩形の統合過程を示しており
、(A)は黒画素の連結成分の外接矩形の抽出と分類処
理の終了した時点の状態を示す。外接矩形71〜83に
対して以下の処理をする。
(B)分類eの矩形間の統合処理: 距離のオーバラップ条件のパラメータQ (矩形の拡張
幅)=01として、相互の矩形に対して重心のオーバラ
ップ条件を満たしていれば統合処理をする。
(C)分類eと分@d、b間の統合処理:距離のオーバ
ラップ条件のパラメータQ=Q2とし、どちらか一方向
の重心のオーバラップ条件を満たしていることを条件と
して統合処理をする。
両方向の重心についてオーバラップ条件を評価すると、
例えば、分離文字に相当する矩形78と79が統合され
ないことになる。
(D)分類eと分類8間の統合処理: 距離のオーバラップ条件のパラメータQ=Q 3とし、
重心のオーバラップ条件は評価しない。
(E)分類6間の統合処理: 距離のオーバラップ条件のパラメータQ=24として、
相互の矩形に対して重心のオーバラップ条件を満たして
いれば統合処理をする。
第1図に示した処理結果5は、各パラメータを統合対象
矩形の高さHから、Q工=2XH。
Q2=lXH,Q3=IXH,u4=2xHとして統合
処理した場合を示している。
〔発明の効果〕
本発明によれば、外接矩形の大きさにより統合条件を変
えたことにより、図形や写真などを含んだ画像中で文字
行の抽出を正確にできる。また、外接矩形を大きさによ
り分類しているため、文字行の抽出処理のみでなく、タ
イトルの抽出、アングラインの抽出1図の抽出など多く
の文書構造の抽出処理に利用できる。
【図面の簡単な説明】
第1図は本発明による画像処理の概要を示すブロック図
、第2図は本発明を実施する装置のハード構成図、第3
図は外接矩形の分類についての説明図、第4図は外接矩
形の座標と分類との関係を説明するための図、第5図は
矩形の重心を利用した統合条件についての説明図、第6
図は矩形の位置を利用した統合条件についての説明図、
第7図は本発明による文字行抽出処理の段階的な統合結
果を説明するための図。 ■・・・入力文書例、2・・・黒画素連続成分の外接矩
形抽出処理、3・・・縦書横書の判定処理、4・・・文
字行抽出処理、5・・・処理結果例、6・・フレームメ
モリ、7・・・マイクロプロセッサ、8・・・メインメ
モリ、9・・・スキャナ、10・・・プロッタ、11・
・・ディスプレイ、12・・・システムバス、41.4
2・・・黒画素連続成分の外接矩形、43・・・矩形テ
ーブル。 冷 31!1 第 5  凶 第 6  図

Claims (1)

    【特許請求の範囲】
  1. 1、ディジタル化された文書画像を処理する方式におい
    て、連結成分の外接矩形を用いて文字列を抽出する場合
    に外接矩形を大きさにより分類し、分類ごとに異なる条
    件で処理することを特徴とする文字列の抽出方式。
JP61006412A 1986-01-17 1986-01-17 文字列抽出方式 Pending JPS62165284A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61006412A JPS62165284A (ja) 1986-01-17 1986-01-17 文字列抽出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61006412A JPS62165284A (ja) 1986-01-17 1986-01-17 文字列抽出方式

Publications (1)

Publication Number Publication Date
JPS62165284A true JPS62165284A (ja) 1987-07-21

Family

ID=11637650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61006412A Pending JPS62165284A (ja) 1986-01-17 1986-01-17 文字列抽出方式

Country Status (1)

Country Link
JP (1) JPS62165284A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6446173A (en) * 1987-08-14 1989-02-20 Agency Ind Science Techn Extracting device for character string component
JPH02311975A (ja) * 1989-05-29 1990-12-27 Nec Corp 光学文字読取装置
JPH0728940A (ja) * 1993-06-30 1995-01-31 Internatl Business Mach Corp <Ibm> 文書処理のためのイメージ・セグメント化およびイメージ要素分類の方法
WO2009081791A1 (ja) * 2007-12-21 2009-07-02 Nec Corporation 情報処理システム、その方法及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6446173A (en) * 1987-08-14 1989-02-20 Agency Ind Science Techn Extracting device for character string component
JPH02311975A (ja) * 1989-05-29 1990-12-27 Nec Corp 光学文字読取装置
JPH0728940A (ja) * 1993-06-30 1995-01-31 Internatl Business Mach Corp <Ibm> 文書処理のためのイメージ・セグメント化およびイメージ要素分類の方法
WO2009081791A1 (ja) * 2007-12-21 2009-07-02 Nec Corporation 情報処理システム、その方法及びプログラム

Similar Documents

Publication Publication Date Title
JP2940936B2 (ja) 表領域識別方法
JP2802036B2 (ja) 文書処理のためのイメージ・セグメント化およびイメージ要素分類の方法
JP4261005B2 (ja) 領域ベースのイメージ2値化システム
JP4250483B2 (ja) 画像処理装置、画像処理方法ならびにプログラム、記憶媒体
JP2011180792A (ja) 画像処理装置及び画像処理方法、並びにコンピューター・プログラム
JPH0316377A (ja) 2値画像の縮小方法及び装置
JP2001060247A (ja) 画像処理装置および画像処理方法
JP2007183742A (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP3062382B2 (ja) 画像処理装置及び方法
JP4049560B2 (ja) 網点除去方法及びシステム
JPS62165284A (ja) 文字列抽出方式
JPS61141087A (ja) 画像処理方法及び装置
JP3636936B2 (ja) 濃淡画像の2値化方法および濃淡画像の2値化プログラムを記録した記録媒体
JPH10285399A (ja) 画像の二値化方法
CN115862044A (zh) 用于从图像中提取目标文档部分的方法、设备和介质
CN104715248B (zh) 一种对邮件广告图片的识别方法
JPH08221512A (ja) 画像処理装置及びその方法
JP2003317107A (ja) 罫線抽出方法及び装置
JPH05282492A (ja) 文字サイズ抽出方法
JP2612383B2 (ja) 文字認識処理方式
JP3020293B2 (ja) 属性判別方法
JP3210224B2 (ja) 文字認識装置
JPH11306282A (ja) 文字列領域抽出方法及び装置
JPH0620091A (ja) 文字サイズ抽出方法
JP2004240500A (ja) 画像処理装置、画像処理プログラムおよび記憶媒体