Nothing Special   »   [go: up one dir, main page]

JPH01124082A - Character recognizing device - Google Patents

Character recognizing device

Info

Publication number
JPH01124082A
JPH01124082A JP62283501A JP28350187A JPH01124082A JP H01124082 A JPH01124082 A JP H01124082A JP 62283501 A JP62283501 A JP 62283501A JP 28350187 A JP28350187 A JP 28350187A JP H01124082 A JPH01124082 A JP H01124082A
Authority
JP
Japan
Prior art keywords
character
characters
polygon
octagon
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62283501A
Other languages
Japanese (ja)
Inventor
Zuiseki Ro
呂 瑞鉐
Biei Chin
陳 美瑛
Inchiyuu En
袁 允中
Toshihiro Hayashi
俊宏 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP62283501A priority Critical patent/JPH01124082A/en
Publication of JPH01124082A publication Critical patent/JPH01124082A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PURPOSE:To highly accurately segment and recognize a character by deciding a character or a character group on the basis of the width of a character block, and in case of a character group, segmenting each character by a polygon, extracting each prescribed feature variable, comparing the extracted result with a reference character pattern, and recognizing a character pattern with the shortest distance. CONSTITUTION:A character/character group deciding means 32 decides a single character when the width of a character block is small, and in the other case, decides a character group. A polygon tracing means 33 traces the contour of a character and calculates the relational parameters of an octagon surrounding the character to obtain the octagon. A character boundary correcting means 34 segments a character completely by an octagon, and when the segmented octagon satisfies a specific condition, a connected character processing means 35 recognizes the segmented character as a connected character. Since the length of respective sides of a polygon is automatically adjusted, a necessary character can be surrounded by a polygon having respectively different shapes, so that the accuracy of character segmentation and the recognition ratio of a character can be improved.

Description

【発明の詳細な説明】 産業上の利用分野 本発明はまず電子計算機により原稿の文字を高い精度で
切り出し、次に文字パターンをマツチング計算(照合計
算)することにより、文字を認識する文字認識装置に関
するものである。
[Detailed Description of the Invention] Industrial Application Field The present invention is a character recognition device that recognizes characters by first cutting out characters from a document with high precision using an electronic computer, and then performing matching calculations (verification calculations) on character patterns. It is related to.

従来の技術 近年よりパーソナル・コンピュータやワートプロセッザ
が事務所や一般家庭に普及するようになり、いわゆるオ
フィス・オートメーション(0ffice  Auto
mation  )やホーム・オートメーション(Ho
me 八utomation  )の潮流をもたらした
。しかし、現在のパーソナル・コンピュ、−夕やワード
・プロセッサは、まだ、ギーボードによるデータの入力
にたよっている。ギーボートで入力する方式は、入力速
度がおそいことと、オペ−レータの倦怠感が起こり易い
という欠点があった。このために、高速度で取扱い易い
入力方式の開発が要望されている。この発明による文字
認識装置は、上記の要望を満すことができるように発明
されたものである。
Conventional technology In recent years, personal computers and power processors have become widespread in offices and households, resulting in so-called office automation.
ation) and home automation (Ho
It brought about the trend of automation. However, current personal computers and word processors still rely on data entry using keyboards. The system of inputting data using a gear board has the drawbacks that the input speed is slow and the operator is likely to feel tired. For this reason, there is a demand for the development of a high-speed and easy-to-use input method. The character recognition device according to the present invention was invented to be able to satisfy the above requirements.

第2図は、従来の文字認識装置を示すブロック図である
。同図において、10は、例えば、イメージ・スキャン
ナで原稿を走査し、その原稿にある白点を” o ”、
黒点を”1″とするバイナリ・データ(Binary 
Data )に変換したのちに、それをバッファ・メモ
リ部に貯蔵するためのイメージ・データ入力手段であり
、20はバッファ・メモリ部に貯蔵されたバイナリ・デ
ータを検査し、各文字並びになった文字列の位置座標を
検査して各文字の位置座標を検出して記録する文字列切
り出し手段である。30は上記各文字列の範囲にあるバ
イナリ・データを検出して記録する文字切り出し手段で
あり、40は切り出した上記各文字を解析し、例えばそ
の周辺特徴を計算して識別用の特徴を抽出する特徴抽出
手段である。55は、上記入力された文字と比較するた
めに各識別文字の特徴、例えばその周辺特徴がメモリ部
に貯蔵されている標準文字パターンである。50は、上
記特徴抽出手段40からの文字特徴と、上記標準文字パ
ターン55からのすべての文字の特徴とを逐一比較して
その距離を求め、距離のうちで最も小さいものを認識結
果にする比較手段である。60は上記認識結果を端末デ
゛イスプレイなどの表示装置に表示する出力手段である
FIG. 2 is a block diagram showing a conventional character recognition device. In the figure, 10, for example, scans a document with an image scanner and marks the white dots on the document with "o".
Binary data with the sunspot as “1”
20 is an image data input means for converting the data into a buffer memory section and storing it in a buffer memory section, and 20 inspects the binary data stored in the buffer memory section and detects the characters in each character sequence. This is a character string cutting means that inspects the position coordinates of a string, detects and records the position coordinates of each character. 30 is a character extraction means for detecting and recording binary data within the range of each character string, and 40 is a character extraction means for analyzing each of the extracted characters and, for example, calculating peripheral features thereof to extract features for identification. This is a feature extraction means for Reference numeral 55 denotes a standard character pattern in which the characteristics of each identification character, for example, its peripheral characteristics, are stored in a memory section for comparison with the input characters. Reference numeral 50 denotes a comparison between the character features from the feature extracting means 40 and all the character features from the standard character pattern 55 to find the distance between them, and the smallest of the distances is used as the recognition result. It is a means. 60 is an output means for displaying the recognition result on a display device such as a terminal display.

文字認識装置においては、文字切り出しが極めて重要な
前処理であり、文字切り出しに際し、もしエラーが生ず
るき、その次の識別が必然的に不正確となるからである
。そして、第2図に示す一般の文字認識装置における文
字切り出し手段30は、例えば、昭和61年度日本電子
通信学会総合全国大会で、発表された「文書清書システ
ムの第2部、文字切り出しアルゴリズム」に記載された
ようなものがあるが、それは、文字のヒストグラムが用
いられている。第3図に示すように、まず文字列の横軸
に投影されたヒストグラム量を計算し、そのヒストグラ
ム量がしきい値(スレッシュボールド)を超過したとこ
ろは、文字があることを表わし、ヒストグラム量がしき
い値よりも低いところは、文字間の分離点を表わす。ま
た、例えば、日本国の特公昭60−53916号には、
文字の各要素における外接四角形のパラメタの計算、比
較、組合せなどの手法により、文字を切り出す方法が開
示されており、正書体文字の「八」なとのような分離部
のある文字を切り出すことができるが、第4図に示すよ
うな斜書体(1ta−lie  )や、複数の文字が結
合している連結文字に対しては、やはり正確に切り出す
ことができないという欠点があった。
In a character recognition device, character segmentation is an extremely important preprocessing process, and if an error occurs during character segmentation, the subsequent identification will inevitably be inaccurate. The character extraction means 30 in the general character recognition device shown in FIG. There is something like the one described, but it uses a histogram of characters. As shown in Figure 3, first the amount of histogram projected on the horizontal axis of the character string is calculated, and the area where the amount of histogram exceeds the threshold value (threshold) indicates that there is a character, and the amount of histogram is calculated. The points where is below the threshold represent the separation points between characters. Also, for example, in Japanese Special Publication No. 60-53916,
A method of cutting out characters by calculating, comparing, and combining parameters of circumscribed rectangles in each element of the character is disclosed, and it is possible to cut out characters with separation parts such as the orthographic character "eight". However, it still has the disadvantage that it cannot accurately cut out italic type (1ta-lie) as shown in FIG. 4 or connected characters in which multiple characters are combined.

発明が解決しようとする問題点 すなわち、上記従来の文字のヒストグラム量による文字
切り出し手段は、字と字との間のヒストグラム量の変化
が激しい正書体文字、すなわち正規フォントの切り出し
に対して確かに有効であるが、斜書体文字、例えば第4
図に示したように、文字と文字との間にヒストグラムが
重なり合っている斜書体文字或いは連結文字に対しては
、ヒストグラム量による文字間の切り出しく分離点)を
判断することができなくなる。これは、ヒストグラム量
による文字を切り出す方法の致命的な欠点である。
The problem to be solved by the invention is that the above-mentioned conventional character extraction means based on the histogram amount of characters is not reliable for the extraction of orthographic characters with large changes in the histogram amount between characters, that is, regular fonts. valid, but italic characters, e.g.
As shown in the figure, for italic characters or connected characters whose histograms overlap between characters, it becomes impossible to determine the separation point between the characters based on the amount of histogram. This is a fatal drawback of the method of extracting characters based on histogram quantities.

本発明は上記問題点に鑑み、精度高く文字切り出し文字
の認識を行う文字認識装置を提供することを目的とする
SUMMARY OF THE INVENTION In view of the above problems, it is an object of the present invention to provide a character recognition device that recognizes cut-out characters with high accuracy.

問題点を解決するための手段 上記の問題点を解消するために、本発明は、所定の特徴
量で貯蔵される標準文字パターンと、画像を走査して2
値データに変換する画像データ入力手段と、前記入力さ
れた画像データから文字列を切り出す文字列切り出し手
段と、前記文字列方向に対して垂直に投影したヒストグ
ラム量を用いて文字の境界を検出する文字ブロック境界
検出手段と、文字ブロックの幅を基準として文字である
か、複数の文字である文字群かを判定する判定手段と、
文字群であれば、多角形により各文字を切り出す多角形
文字切り出し手段と、切り出した各文字に対してそれぞ
れ所定の特徴量を抽出する特徴抽出手段と、抽出した特
徴量と上記の標準文字、パターンとを比較してその距離
の最も小さい文字パターンを認識結果とする比較手段な
どを備えたことを特徴とする文字認識装置である。
Means for Solving the Problems In order to solve the above problems, the present invention provides standard character patterns stored with predetermined feature quantities and two
An image data input means for converting into value data, a character string cutting means for cutting out a character string from the input image data, and a histogram amount projected perpendicularly to the direction of the character string to detect character boundaries. a character block boundary detection means; a determination means for determining whether the character block is a character or a character group consisting of a plurality of characters based on the width of the character block;
In the case of a group of characters, a polygonal character extraction means for cutting out each character using a polygon, a feature extraction means for extracting a predetermined feature amount from each cut-out character, the extracted feature amount and the above standard character, This character recognition device is characterized by comprising a comparison means, etc., which compares the character pattern with the character pattern and determines the character pattern with the smallest distance as the recognition result.

作  用 この発明によれば、上記のように構成された文字認識装
置は斜書体文字、正書体文字或いは連結文字を問わず、
高い精度で文字を切り出すことができ、ひいては、文字
認識装置全体の認識率を向上させることができるもので
ある。
According to the present invention, the character recognition device configured as described above can recognize characters regardless of whether it is an italic character, an orthographic character, or a concatenated character.
Characters can be extracted with high precision, and the recognition rate of the entire character recognition device can be improved.

実施例 第1図は、本発明の一実施例を示すブロック図である。Example FIG. 1 is a block diagram showing one embodiment of the present invention.

第1図において、第2図のものと同一動作を行なうもの
は、同一符号を付している。第1図において、lOは、
原稿を走査して映像の2値データに変換させるイメージ
・データ入力手段、2゜は、縦軸に対するヒストグラム
量及びスレッシュホールド調整により文字列を切り出す
文字列切り出し手段と、31は、左から右へ文字列に沿
って、横軸に投影したヒストグラム量を計算し、文字ブ
ロック判断のスレッシュホールドに超えたがどうかを検
出する文字ブロック境界検出手段である。
In FIG. 1, parts that perform the same operations as those in FIG. 2 are given the same reference numerals. In FIG. 1, lO is
An image data input means for scanning a document and converting it into video binary data, 2° is a character string cutting means for cutting out a character string by adjusting the histogram amount and threshold for the vertical axis, and 31 is a character string cutting means for cutting out a character string from left to right. This is a character block boundary detection means that calculates the amount of histogram projected on the horizontal axis along the character string, and detects whether a threshold for determining a character block has been exceeded.

そのヒストグラム量は、下記の式により計算できる。The histogram amount can be calculated using the following formula.

なお、文字列は、座標 ’Yl(とyLの間に存在する
ものとする(第5図)。
It is assumed that the character string exists between the coordinates 'Yl( and yL) (Figure 5).

ここで、H(Xりは横軸に投影した点X1のヒストグラ
ムを示し、p (x+、y)は画素(Xl。
Here, H(X) indicates the histogram of point X1 projected on the horizontal axis, and p (x+, y) is the pixel (X1).

y)のイメージの2値化値である。黒点を”1°゛とし
、白点を”O゛とすると、文字ブロック境界の検出条件
は、ヒストグラム量が′°0“°の場合或いは既にその
行の右端に到達している場合とになる。
y) is the binarized value of the image. If the black point is ``1°'' and the white point is ``O'', then the condition for detecting a character block boundary is when the histogram amount is '°0''° or when the right end of the line has already been reached. .

32は、文字ブロックに含まれたものが単一の文字かま
たは複数個の文字からなる文字群であるかを判断するた
めの文字または文字群判断手段である。その判断基準は
下記の通りである。
Reference numeral 32 denotes a character or character group determination means for determining whether what is included in a character block is a single character or a character group consisting of a plurality of characters. The criteria for this judgment are as follows.

即ち、文字ブロックの幅が(Xav、+N、+ze)よ
りも小さい場合は、単一文字であると判断し、そうでな
い場合は、文字群であると判断する。ここで、X i 
v aは、切り出された文字の平均幅[その初期値(i
nitial  value)がX + n I tで
ある]を示し、N * + x eは、ノイズの幅(経
験値による)を示すものである。
That is, if the width of the character block is smaller than (Xav, +N, +ze), it is determined that it is a single character; otherwise, it is determined that it is a group of characters. Here, X i
v a is the average width of the extracted characters [its initial value (i
N*+xe indicates the width of the noise (according to empirical values).

33は、多角形の追跡手段である。本実施例では最大へ
辺の多角形とする。その追跡動作は、左から右へ文字ブ
ロックを走査し、第1番目の文字の最左側の黒点を探し
出してから、この黒点を始点として、当該文字の外廓を
追跡するとともに、第6図に示したように当該文字を囲
む八辺形の関係パラメタを計算して八辺形を得る。その
八辺形の幅及び高さを検出し、若し両方とも所定値より
小さければ、この六辺形内の文字をノイズとして廃棄す
る。次に、上記と同じような計算を、文字ブロック全体
の処理が終わるまで繰り返す。上記の八辺形に関係のあ
るパラメタの計算を第7図に示す。
33 is a polygon tracking means. In this embodiment, a polygon with the largest side is used. The tracking operation scans the character block from left to right, finds the black dot on the leftmost side of the first character, and then traces the outer edge of the character using this black dot as the starting point. As shown, the relational parameters of the octagon surrounding the character are calculated to obtain the octagon. The width and height of the octagon are detected, and if both are smaller than a predetermined value, the characters within this hexagon are discarded as noise. Next, calculations similar to those above are repeated until the entire block of characters has been processed. FIG. 7 shows the calculation of parameters related to the above octagon.

この八辺形の各辺は、下記のように定義する。Each side of this octagon is defined as follows.

辺1 : X ” Xmax 辺2: 2x+y=Cs 辺3 : y= ’! mm、 辺4:2x−y=c2 辺5:X:xInIh 辺6 : 2x+y−C1 辺5 : V = V+nin 辺6:2x−y=C4 上記のX ITla X s X 1.l+ 11、’
l m t x、’I+n+n、 C1,C2、C3、
及びC4の値を算出すれば、該文字を囲んだ八辺形を描
(ことができる。そして、この六辺形の幅はXI、、a
X−xlnll、で高さはy、nAX−ylnll。
Side 1: X ” 2x-y=C4 Above X ITla X s X 1.l+ 11,'
l m t x, 'I+n+n, C1, C2, C3,
By calculating the values of and C4, we can draw an octagon surrounding the character.The width of this hexagon is
X-xlnll, and the height is y, nAX-ylnll.

である。It is.

34は、文字境界補正手段であり、この手段で、例えば
”i ”、”j″、“′%″、′”−″及び一部分の漢
字が二つ又は二つ以上の分離部分を有する文字を六辺形
で完全に切り出すことができる。その補正方法は、第8
図に示すように、仮に第8図における“元の六辺形“の
枠が、上記六辺形の追跡手段33に至るまでに得た文字
枠とすれば、上下の斜線部分を検査し、もし黒点が存在
した場合には、この黒点を始点とし、もう−度上記の六
辺形の追跡手段33により、その外周を追跡し、それを
元の六辺形に納めることにより、当該文字の境界を補正
することができる。
34 is a character boundary correction means, and this means corrects characters such as "i", "j", "'%", '"-" and some Kanji characters having two or more separated parts. It can be completely cut into hexagons. The correction method is the 8th
As shown in the figure, if the frame of the "original hexagon" in FIG. If a black dot exists, the black dot is used as the starting point, and the outer periphery of the black dot is traced again using the hexagon tracing means 33 described above, and it is stored in the original hexagon to form the character. Boundaries can be corrected.

35は、連がっている2個又は2個以上の文字どうしを
切り出すための連結文字処理手段である。
35 is a connected character processing means for cutting out two or more consecutive characters.

切り出された六辺形が、下記の五つの条件を満足したも
のは、連結文字として認定する。
If the cut out hexagon satisfies the following five conditions, it is recognized as a connected character.

(1)、(x+nax−xmtn) > (xavex
7/4)(2)、  Vm+n > (j tap +
 5 )(3)、(C3C1)>  (XavaX 2
 )(4)、(2X Xmjn   C2)>  (Y
mtn+ Vmax)/2(5)0文字ブロックの中央
線付近のヒストグラム量が、どれも(VmaXV+n+
n) X3/4よりも少ないこと。
(1), (x+nax-xmtn) > (xavex
7/4) (2), Vm+n > (j tap +
5) (3), (C3C1)> (XavaX 2
)(4), (2X Xmjn C2)> (Y
mtn+ Vmax)/2(5)0 The histogram amount near the center line of the character block is (VmaXV+n+
n) Less than X3/4.

ここで、X n v eは、切り出された文字の平均幅
であり、t 1larは、文字列の始まり位置で、X□
88、X m t n s ylns x s V m
 + n、C1、C2、C3、C4は、全部前記の六辺
形の追跡手段33で述べた定義と同じである。
Here, X n v e is the average width of the extracted characters, t 1lar is the starting position of the character string, and X □
88, X m t n s ylns x s V m
+ n, C1, C2, C3, and C4 are all the same as the definitions described for the hexagonal tracking means 33 above.

連結文字を切り出すく分割)方法は、まず連結文字の横
軸上でのヒストグラム量を計算し、ヒストグラム量の最
も小さいものを選び、次に斜線(x+3y=c)に沿っ
て連結文字の斜方向ヒストグラム量を求め、その最も小
さいものを選んだのちに、両方の求めたヒストグラム量
を比較して、小さい方の点を区切り点とする方法である
The method for cutting out connected characters is to first calculate the histogram amount of the connected characters on the horizontal axis, select the one with the smallest histogram amount, and then divide the connected characters in the diagonal direction along the diagonal line (x+3y=c). In this method, the histogram amounts are determined, the smallest one is selected, and then both obtained histogram amounts are compared and the smaller point is used as the break point.

上記各手段による可変多角形で、一つの文字を囲い出す
ので、この多角形は、該文字の外接多角形になる。第9
図に示す六辺形は、各辺ごとにフォント(字体)の形状
に応じて、その辺の長さと位置が調整されるようになっ
ている。異なったフォントや大きさの異なる文字に対し
、本発明の文字認識装置では、多角形の辺の長さを自動
的に調整することにより、それぞれ異なった形状の多角
形で、必要な文字を囲い出すことができる。その斜書体
文字と結合文字に対する切り出しの成功例を第10図に
示す。ここで特に強調したい事は、この発明の文字切り
出し作用は、各種フォント(正書体又は斜書体)の文字
に対して有効であるのみならず、連結文字或いは一部分
が分離している文字に対しても、有効である。
Since one character is enclosed by the variable polygon formed by each of the above means, this polygon becomes a circumscribed polygon of the character. 9th
The hexagon shown in the figure has the length and position of each side adjusted according to the shape of the font. For characters with different fonts and sizes, the character recognition device of the present invention automatically adjusts the side lengths of the polygons to enclose the necessary characters with polygons of different shapes. I can put it out. An example of successful extraction of an italic character and a combined character is shown in FIG. What I would like to emphasize here is that the character extraction function of this invention is not only effective for characters in various fonts (orthographic or italic), but also for connected characters or characters that are partially separated. is also valid.

本実施例の文字認識装置のハードウェアの構成図を、第
11図に示す。第11図において、この発明になる文字
認識装置の中心部の認識ボード(Recognitio
n Board)には、ディジタル・シグナル・プロセ
ッサ(Digital Signal Process
or)が含まれている。認識処理の主要動動作は、のプ
ロセッサに実行させる。認識すべき原稿はイメージ・ス
キャンナにより、映像のバイナリ・データを得たのちに
、これらのデータを検査し、前記の処理によって、文字
列又は文字を切り出す。次に、切り出された文字の特徴
を表わすパラメータとしては、日本電子通信学会全国大
会論文集(1985年、P1577)に示される境界密
度(Boundary Density )や背景密度
(BackgroundDensity  )が公知で
ある。この特徴を計算するとともに、各文字ごとに、小
区間に分けて、所定バイト(byte )数の特徴量を
得る。これを、同様にして予め作成された標準文字パタ
ーンの対応区間に、同一バイト数の特徴量と逐一比較し
、距離の最も小さい文字パターンを認識結果とする。本
実施例の場合、標準文字パターンに複数種類のフォント
を含み、そして、クラスタリング(cluster−i
ng)手法を利用して、標準文字パターン全体を記憶す
るのに必要とする記憶体空間を節約しつつ、マルチフォ
ントの認識に対応することが可能である。
A hardware configuration diagram of the character recognition device of this embodiment is shown in FIG. In FIG. 11, a recognition board (Recognitio board) at the center of the character recognition device according to the present invention is shown.
n Board) is equipped with a digital signal processor (Digital Signal Processor).
or) is included. The main operations of the recognition process are executed by the processor. After obtaining binary image data of the document to be recognized using an image scanner, this data is inspected and character strings or characters are cut out by the above-described processing. Next, as parameters representing the characteristics of the extracted characters, the boundary density and background density shown in the Proceedings of the National Conference of the Japan Institute of Electronics and Communication Engineers (1985, P1577) are known. This feature is calculated, and each character is divided into small sections to obtain a feature amount of a predetermined number of bytes. This is compared point by point with feature quantities of the same number of bytes in the corresponding section of a standard character pattern created in advance in the same way, and the character pattern with the smallest distance is taken as the recognition result. In the case of this embodiment, the standard character pattern includes multiple types of fonts, and clustering (cluster-i)
ng) technique can be used to support multi-font recognition while saving the storage space required to store the entire standard character pattern.

この発明は、上記実施例に限定されることな(、その要
旨を変更しない限り、適当に変形して実施することがで
きる。例えば、文字を囲み出す多角形は、八辺形に限ら
れず、十辺形や六辺形を用いても、同じような区切り結
果が得られる。
This invention is not limited to the above-mentioned embodiments (and can be implemented with appropriate modifications as long as the gist is not changed. For example, the polygon surrounding the characters is not limited to an octagon, Similar segmentation results can be obtained using decagons or hexagons.

また、この発明の切り出し対象は、文字に限らず、図形
にも適用でき、しかもその切り出しの精度はなんら影響
されることがない。
Further, the cutting target of the present invention is not limited to characters, but can also be applied to figures, and the accuracy of the cutting is not affected in any way.

また、データの入力方式は、イメージ・スキャンナを使
用することに限られることなく、TVカメラ等による入
力方式を使っても、イメージ・データをメモリ部に記憶
させることができる。
Further, the data input method is not limited to using an image scanner, and image data can also be stored in the memory section by using an input method using a TV camera or the like.

発明の結果 本発明によれば、英文の大文字や小文字、数字及び特殊
記号など100個の文字を認識対象として、上記文字認
識装置により、多角形の演算法で文字を切り出すことが
できるとともに、境界密度と背景密度の特徴を算出する
ことにより、その特徴を抽出することができ、かつ文字
の切り出しの正確率が99.8%以上、文字の認識率が
98゜9%以上に達した結果が得られたので、実用性が
はるかに大きいである。
Results of the Invention According to the present invention, the above-mentioned character recognition device is able to cut out characters using polygonal arithmetic, and to recognize 100 characters such as uppercase and lowercase English letters, numbers, and special symbols. By calculating the characteristics of the density and background density, the characteristics can be extracted, and the accuracy rate of character extraction is 99.8% or more, and the character recognition rate is 98.9% or more. As a result, the practicality is much greater.

figure

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の文字認識装置の一実施例の構成を示す
ブロック図、第2図は従来例の文字認識装置の構成を示
すブロック図、第3図、第4図は従来例におけるヒスト
グラムによる文字切り出しの動作説明図、第5図は文字
列の一例を示す説明図、第6図は本発明の一実施例にお
ける八辺形パラメタの定義を示す説明図、第7図は八辺
形の定義を示す説明図、第8図は文字境界の補正領域を
示す説明図、第9図は八辺形の各辺の伸縮方向を示す説
明図、第10図は八辺形で連結文字と斜書体文字の切り
出しの成功例を示す説明図、第11図はこの発明の一実
施例におけるハードウェアの配置図である。 (lO)・・・イメージ・データ入力手段、(20)・
・・文字列切り出し手段、(31)・・・文字ブロック
境界検索手段、(32)・・・文字又は文字群判断手段
、(33)・・・八辺形の追跡手段、(34)・・・文
字境界補正手段、(35)・・・連結文字処理手段、(
40)・・・特徴抽出手段、(50)・・・比較手段、
(55)・・・標準文字パターン、(60)・・・出力
手段。 代理人の氏名 弁理士 中尾敏男 はか1名」ベム′へ
II′Iべ中  シベムベ)へ4酬塚
FIG. 1 is a block diagram showing the configuration of an embodiment of the character recognition device of the present invention, FIG. 2 is a block diagram showing the configuration of a conventional character recognition device, and FIGS. 3 and 4 are histograms in the conventional example. Figure 5 is an explanatory diagram showing an example of a character string, Figure 6 is an explanatory diagram showing the definition of octagonal parameters in an embodiment of the present invention, and Figure 7 is an octagonal diagram. Figure 8 is an explanatory diagram showing the correction area of character boundaries, Figure 9 is an explanatory diagram showing the expansion and contraction direction of each side of an octagon, and Figure 10 is an octagon with connected characters. FIG. 11, an explanatory diagram showing an example of successful extraction of italic characters, is a hardware layout diagram in an embodiment of the present invention. (lO)...image data input means, (20)...
... Character string extraction means, (31) ... Character block boundary search means, (32) ... Character or character group judgment means, (33) ... Octagon tracing means, (34) ...・Character boundary correction means, (35)...Concatenated character processing means, (
40)... Feature extraction means, (50)... Comparison means,
(55)...Standard character pattern, (60)...Output means. Name of agent: Patent attorney Toshio Nakao

Claims (3)

【特許請求の範囲】[Claims] (1) 所定の特徴量で貯蔵される標準文字パターンと
、画像を走査して2値データに変換する画像データ入力
手段と、前記入力された画像データから文字列を切り出
す文字列切り出し手段と、前記文字列方向に対して垂直
に投影したヒストグラム量を用いて文字の境界を検出す
る文字ブロック境界検出手段と、文字ブロックの幅を基
準として文字であるか、複数の文字である文字群かを判
定する判定手段と、文字群であれば、多角形により各文
字を切り出す多角形文字切り出し手段と、切り出した各
文字に対してそれぞれ所定の特徴量を抽出する特徴抽出
手段と、抽出した特徴量と上記の標準文字パターンとを
比較してその距離の最も小さい文字パターンを認識結果
とする比較手段などを備えたことを特徴とする文字認識
装置。
(1) A standard character pattern stored with predetermined feature quantities, an image data input means for scanning an image and converting it into binary data, and a character string cutting means for cutting out a character string from the input image data; character block boundary detection means for detecting character boundaries using a histogram amount projected perpendicularly to the character string direction; a determining means for determining, a polygonal character cutting means for cutting out each character using a polygon if it is a group of characters, a feature extracting means for extracting a predetermined feature amount for each cut out character, and an extracted feature amount. A character recognition device comprising a comparison means for comparing the character pattern and the standard character pattern described above and determining a character pattern having the smallest distance therebetween as a recognition result.
(2) 多角形文字切り出し手段は、各文字パターンの
枠を求める手段を備えたことを特徴とする特許請求範囲
第1項記載の文字認識装置。
(2) The character recognition device according to claim 1, wherein the polygonal character cutting means includes means for determining a frame of each character pattern.
(3) 多角形文字切り出し手段は、切り出された各文
字において各文字の分離部分を前記多角形に包含する文
字分離部補正手段を備えたことを特徴とする特許請求範
囲第2項記載の文字認識装置。(4) 多角形文字切り
出し手段は、多角形の条件により、複数の文字が結合し
ている連結文字であることを判定し、文字列方向に対し
て垂直方向又は斜方向上のヒストグラム量の最も小さい
ところを区切り点として連結文字を区切る連結文字処理
手段を備えたことを特徴とする特許請求範囲第2項記載
の文字認識装置。
(3) The character according to claim 2, wherein the polygonal character cutting means includes character separation part correction means for including the separated part of each character in the polygon in each cut out character. recognition device. (4) The polygonal character cutting means determines that it is a connected character in which multiple characters are connected according to the polygonal condition, and extracts the most of the histogram amount in the vertical or diagonal direction with respect to the character string direction. 3. The character recognition device according to claim 2, further comprising connected character processing means for separating connected characters by using smaller portions as break points.
JP62283501A 1987-11-10 1987-11-10 Character recognizing device Pending JPH01124082A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62283501A JPH01124082A (en) 1987-11-10 1987-11-10 Character recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62283501A JPH01124082A (en) 1987-11-10 1987-11-10 Character recognizing device

Publications (1)

Publication Number Publication Date
JPH01124082A true JPH01124082A (en) 1989-05-16

Family

ID=17666363

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62283501A Pending JPH01124082A (en) 1987-11-10 1987-11-10 Character recognizing device

Country Status (1)

Country Link
JP (1) JPH01124082A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018519574A (en) * 2016-01-05 2018-07-19 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 Text image processing method and apparatus

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62121589A (en) * 1985-11-22 1987-06-02 Oki Electric Ind Co Ltd Character segmenting system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62121589A (en) * 1985-11-22 1987-06-02 Oki Electric Ind Co Ltd Character segmenting system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018519574A (en) * 2016-01-05 2018-07-19 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 Text image processing method and apparatus
US10572728B2 (en) 2016-01-05 2020-02-25 Tencent Technology (Shenzhen) Company Limited Text image processing method and apparatus

Similar Documents

Publication Publication Date Title
US6226402B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
EP0381773B1 (en) Character recognition apparatus
US5625710A (en) Character recognition apparatus using modification of a characteristic quantity
Dori et al. Segmentation and recognition of dimensioning text from engineering drawings
JPH01124082A (en) Character recognizing device
JPH02116987A (en) Character recognizing device
JP2917427B2 (en) Drawing reader
JP2788506B2 (en) Character recognition device
JP3457094B2 (en) Character recognition device and character recognition method
JP3193573B2 (en) Character recognition device with brackets
JP2974396B2 (en) Image processing method and apparatus
JP2925303B2 (en) Image processing method and apparatus
JPH07160810A (en) Character recognizing device
JPH0573718A (en) Area attribute identifying system
JPH10214308A (en) Character discrimination method
JP2974167B2 (en) Large Classification Recognition Method for Characters
JPH0545992B2 (en)
JPH10162104A (en) Character recognition device
JP2918363B2 (en) Character classification method and character recognition device
JPH1021332A (en) Non-linear normalizing method
JPH05114048A (en) Method and device for recognizing character
JPH05114047A (en) Device for segmenting character
JPH05174189A (en) Character recognizing method
JPH08202822A (en) Character segmenting device and method thereof
JPH0896078A (en) Character recognizing device