Nothing Special   »   [go: up one dir, main page]

JPH083832B2 - 文書画像の構造抽出方法 - Google Patents

文書画像の構造抽出方法

Info

Publication number
JPH083832B2
JPH083832B2 JP61154184A JP15418486A JPH083832B2 JP H083832 B2 JPH083832 B2 JP H083832B2 JP 61154184 A JP61154184 A JP 61154184A JP 15418486 A JP15418486 A JP 15418486A JP H083832 B2 JPH083832 B2 JP H083832B2
Authority
JP
Japan
Prior art keywords
white
document image
area
extraction method
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61154184A
Other languages
English (en)
Other versions
JPS6310282A (ja
Inventor
公一 江尻
彰 桜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61154184A priority Critical patent/JPH083832B2/ja
Publication of JPS6310282A publication Critical patent/JPS6310282A/ja
Publication of JPH083832B2 publication Critical patent/JPH083832B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 (技術分野) 本発明は、文書画像の文字行、図形部、文章等の領域
を認識、抽出する方法に関するものである。
(従来技術) 従来、文書画像の構造抽出法としては、黒画素あるい
は粗メッシュを単位とした非白画素の連続した領域を切
り出し、これを長方形近似して、近接した長方形を連結
する方法がよく知られている(例えばコンピュータビジ
ョン22−1 1983.1.27参照)。
しかしながら、この方法では、長方形の枠の中に書か
れた文章や図形は全て枠の内部に隠れてしまう。また、
2つの領域間に小さな黒い汚れがあると、その2つの領
域は接続されてしまう。例えば、第2図に示したよう
に、実線で示す2つの絵または図があり、破線で示す連
結画像領域A,C間にBのような汚れた部分や1本の細線
があると、A−B−Cが1つの図形領域に合併される。
(発明の目的) 文書画像においては、印字または記入された黒情報の
みならず、白情報(余白も含めて)も構造を表わしてい
ることが多い。本発明は、この白い部分を積極的に利用
して、文字行、図形部、文章等の画像領域を抽出する文
書画像の構造抽出方法を提供するものである。
(発明の構成) 対象とする文書画像から垂直、水平線分を取り除き、
次いで白い部分を矩形によって分割し、その結果の非白
部分を連結ラベリング処理して、文章あるいは図形部を
抽出するものである。
(実施例) 第1図は、本発明の一実施例の処理ステップを示した
ものである。まずステップ1においては、対象とする文
書画像の長い線分要素(垂直、水平成分のみ)を抽出
し、これを消去する。(線文の抽出法は、例えば情報処
理学会第25回=昭和57年後期=全国大会予稿5B−4参
照)。
次にステップ2として画像のメッシュ分割を行なう。
よく知られている方法にQuad−Treeの方法があり、第4
図のように、0層(原画),1層(原画の4画素を1画素
に置換),2層(1層の4画素を1画素に置換),…,の
ように順次縮退表現する。この表現法には多様な方法が
あるが、ここでは4画素(a,b,c,d)の和T、即ちT=
a+b+c+dがある閾値以上のときは黒、それ以外の
ときは白(0)とおく。
ステップ3では白い領域を矩形分割する。分割法は、
文献Pattern Recognition Vol.11.pp297〜312 Aoki“RE
CTANGULAR REGION CODING FOR IMAGE DATA COMPRESSIO
N"法によってもよい。第3図にその分割の一例を示す。
次にステップ4として、第3図(b)の非白の矩形領
域についてラベリング処理を行なう。これにより文字
行、図形部が矩形に切り出される。このとき、縦横幅が
大きい領域は図形、その他の領域は文字あるいは文章領
域とみなせる。即ち、 ◎横に長い非白領域は文字行の可能性が高い。
◎サイズの大きい非白領域はグラフや絵の可能性が高
い。
最後にステップ5として、非白領域を統合し、文書画
像の画像領域を抽出する。
この方法を利用すると、以下のような場合、さらに効
果的である。第2図の領域Bのように両側に広い白領域
を有する狭幅の非白領域は、不要なノイズである可能性
が高い。従って第5図のDのような非白領域は消去し、
2つの白領域E,Fを統合することができる。
(発明の効果) 以上説明したように、本発明によれば、非白領域が大
きなブロックとして切り出せるため、高速かつ安定して
文書画像の構造抽出が可能となる。
【図面の簡単な説明】
第1図は、本発明の一実施例の処理ステップを示す図、
第2図は、2つの絵または図がある文書画像の例を示す
図、第3図は、白領域の矩形分割例を示す図、第4図
は、画像のメッシュ分割法の一例を示す図、第5図は、
2つの近接した白領域間に非白領域がある場合の処理法
を示す図である。 A,C…連結画像領域、B,D…狭幅の非白領域、E,F…白領
域。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】対象とする文書画像から垂直線分及び水平
    線分を除去するプロセスと、白い部分を矩形によって分
    割するプロセスと、非白部分を連結ラベリング処理する
    プロセスとからなり、前記連結ラベリング処理された部
    分を文章あるいは図形部として抽出することを特徴とす
    る文書画像の構造抽出方法。
  2. 【請求項2】前記白い部分を矩形によって分割するプロ
    セスにおいて、複数の白領域が狭いギャップで隣接して
    いるとき、その複数の白領域を1つの領域とみなすこと
    を特徴とする特許請求の範囲第(1)項記載の文書画像
    の構造抽出方法。
JP61154184A 1986-07-02 1986-07-02 文書画像の構造抽出方法 Expired - Lifetime JPH083832B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61154184A JPH083832B2 (ja) 1986-07-02 1986-07-02 文書画像の構造抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61154184A JPH083832B2 (ja) 1986-07-02 1986-07-02 文書画像の構造抽出方法

Publications (2)

Publication Number Publication Date
JPS6310282A JPS6310282A (ja) 1988-01-16
JPH083832B2 true JPH083832B2 (ja) 1996-01-17

Family

ID=15578671

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61154184A Expired - Lifetime JPH083832B2 (ja) 1986-07-02 1986-07-02 文書画像の構造抽出方法

Country Status (1)

Country Link
JP (1) JPH083832B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2597006B2 (ja) * 1989-04-18 1997-04-02 シャープ株式会社 矩形座標抽出方法
JPH0732447B2 (ja) * 1989-05-16 1995-04-10 シャープ株式会社 読取装置
EP0461817A3 (en) * 1990-06-15 1993-11-18 American Telephone & Telegraph Image segmenting apparatus and methods

Also Published As

Publication number Publication date
JPS6310282A (ja) 1988-01-16

Similar Documents

Publication Publication Date Title
JP3253356B2 (ja) 文書画像の領域識別方法
EP1388816A3 (en) System and method facilitating document image compression utilizing mask
JP2001358925A (ja) 画像処理のための装置、方法及び記録媒体
JP3753357B2 (ja) 文字抽出方法および記録媒体
KR0167616B1 (ko) 화상 처리 장치 및 방법
JPH083832B2 (ja) 文書画像の構造抽出方法
JPH07220064A (ja) 画像サイズ削減方法
Ghorpade et al. Extracting text from video
KR920019198A (ko) 패턴특징 추출방법
Shiratori et al. An efficient text capture method for moving robots using DCT feature and text tracking
JP2890306B2 (ja) 表領域分離装置および表領域分離方法
Jomaa et al. Panel tracking for the extraction and the classification of speech balloons
Feigin et al. Line thinning algorithm
JPS6254380A (ja) 文字認識装置
Lee et al. Automatic person information extraction using overlay text in television news interview videos
JP2574795B2 (ja) 図面記号抽出方法
JPH1049676A (ja) 罫線認識方法
JP3341097B2 (ja) 光学文字読取装置
JPH0271379A (ja) 画像処理装置
JPH04106670A (ja) 文書画像処理装置
JP2562067B2 (ja) 文字画像の単語切出し装置
JPH07192083A (ja) 文書画像レイアウト解析装置
CN115988263A (zh) 视频的工程数据转换方法、装置、设备及存储介质
JPH03250385A (ja) 文字列抽出方式
JPH1049602A (ja) 帳票認識方法

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term