JPH0256688A - Character segmenting device - Google Patents
Character segmenting deviceInfo
- Publication number
- JPH0256688A JPH0256688A JP63208892A JP20889288A JPH0256688A JP H0256688 A JPH0256688 A JP H0256688A JP 63208892 A JP63208892 A JP 63208892A JP 20889288 A JP20889288 A JP 20889288A JP H0256688 A JPH0256688 A JP H0256688A
- Authority
- JP
- Japan
- Prior art keywords
- character
- image data
- area
- binarization
- grayscale image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 claims abstract description 57
- 238000005520 cutting process Methods 0.000 claims description 31
- 238000000034 method Methods 0.000 claims description 23
- 238000003384 imaging method Methods 0.000 claims description 20
- 238000009826 distribution Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 9
- 230000003247 decreasing effect Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005484 gravity Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000010422 painting Methods 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
Landscapes
- Character Input (AREA)
Abstract
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は文字切出し装置、特に文字を含む濃淡画像デー
タの中から、個々の文字が存在する領域を抽出出力する
文字切出し装置の改良に関する。DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a character cutting device, and more particularly to an improvement in a character cutting device that extracts and outputs areas where individual characters exist from grayscale image data containing characters.
[従来の技術]
刻印文字は、経年変化や汚れに強く、各種生産工程にお
いて生産指示や管理の重要な情報を示す文字として幅広
く用いられている−特に自動車の生産工程では、車体を
構成する各部品やエンジン等に固有の番号を記すものと
して広く用いられている。[Prior art] Engraved characters are resistant to aging and dirt, and are widely used in various production processes to indicate production instructions and important information for management.Especially in the automobile production process, stamped characters are It is widely used as a unique number for parts, engines, etc.
このような刻印文字の認識には、通常、文字切出し装置
と文字識別装置とが組合せて用いられている。To recognize such stamped characters, a combination of a character cutting device and a character identification device is usually used.
従来の文字切出し装置は、ITVカメラ等を用いて刻印
文字を撮像しその濃淡画像を得るとともに、この濃淡画
像の各画素データを2値画像データに変換し0、この2
値画像データから各文字を検出し切出していた。Conventional character cutting devices image the engraved characters using an ITV camera or the like to obtain a grayscale image, and convert each pixel data of this grayscale image into binary image data.
Each character was detected and extracted from the value image data.
そして、文字識別装置は、このように切出された個々の
文字画像データを、あらかじめ登録した標準の文字画像
データと逐次重ね合せて比較するパターンマツチングを
行い、両画像の一致度あるいは類似度に基づいて文字の
識別を行っていた。Then, the character recognition device performs pattern matching in which the individual character image data extracted in this way is sequentially overlaid and compared with standard character image data registered in advance, and the degree of coincidence or similarity between the two images is determined. Characters were identified based on.
しかし、従来の文字切出し装置では、画像データ全体を
固定されたしきい値で2値化し文字の切出しを行ってい
るため、画像データの背景部に濃淡むらやノイズ等があ
ったり、画像データの文字部と背景部とのコントラスト
が個々の文字毎に変化するような場合には、所望の文字
を正確に検出し切出すことが難しいという問題があった
。However, with conventional character extraction devices, characters are extracted by binarizing the entire image data using a fixed threshold value, so there may be uneven shading or noise in the background of the image data. When the contrast between a character part and a background part changes for each character, there is a problem in that it is difficult to accurately detect and cut out a desired character.
すなわち、現在広く用いられている刻印機では、打刻条
件がいつも同じになるように制御することが器しく、刻
印文字毎に清の深さがばらつくことが多い、また打刻さ
れる鋼板が薄い場合には、不均一な打刻圧のため文字の
周囲に緩かな凹凸が生じることがある。このため、刻印
文字の濃淡画像データでは、文字部と背景部との濃度の
コントラストが個々の文字毎に変化し、さらに背景部の
濃度が部分的に変動する。In other words, with the currently widely used stamping machines, it is difficult to control the stamping conditions so that they are always the same, and the depth of the stamp often varies for each stamped character, and the steel plate being stamped is If it is thin, unevenness may occur around the characters due to uneven stamping pressure. Therefore, in the grayscale image data of stamped characters, the contrast in density between the character part and the background part changes for each individual character, and furthermore, the density of the background part varies partially.
また、認識対象となる文字の桁数が多い場合。Also, when the number of digits of characters to be recognized is large.
たとえば車体番号のように文字の桁数が多い場合には、
光源に対する各文字の酒の角度や向きが不均一となる。For example, when there are many digits like a vehicle number,
The angle and orientation of each character relative to the light source becomes uneven.
このため、刻印文字の画像では、同じ文字でも文字部の
濃度が文字線の部分毎に異なる場合が多い。For this reason, in images of engraved characters, even if the characters are the same, the density of the character portions often differs from character line to character line.
また、刻印文字が打刻された後に、防錆処理や塗装が施
されると、防錆処理や塗装のむらあるいは照明条件の変
化等に起因して画像の背景部に濃淡むらが発生する。さ
らに、刻印文字周辺には細かい傷や汚れが付着し易く、
このため画像の背景にはノイズが多く現れる。Further, if anti-rust treatment or painting is applied after the engraved characters are engraved, uneven shading occurs in the background of the image due to unevenness in the anti-corrosion treatment or painting, or changes in lighting conditions. Furthermore, small scratches and dirt easily adhere to the area around the engraved characters,
Therefore, a lot of noise appears in the background of the image.
しかし、画像の背景部に濃淡むちゃノイズが生じ、文字
部と背景部とのコントラストが個々の文字毎に変化し、
さらに1つの文字の中でも文字線の部分毎に濃度が異な
る濃淡画像データに対して、画像データ全体を固定され
たしきい値で2値化し文字の切出しを行う従来技術を用
いると、第7図に示すように1文字となるはずの画像が
部分的にとぎれたり、隣接する文字同士が接触して分離
できないことがあるという問題があった。However, excessive shading noise occurs in the background part of the image, and the contrast between the text part and the background part changes for each character.
Furthermore, if we use conventional technology that binarizes the entire image data with a fixed threshold value and cuts out the characters for grayscale image data in which the density differs for each part of the character line even within one character, as shown in Figure 7. As shown in Figure 2, there are problems in that an image that is supposed to be a single character is partially cut off, and adjacent characters sometimes come into contact with each other and cannot be separated.
また、1文字として抽出できた場合でも、文字の一部が
つぶれて部分的に太い文字画像になったり、逆に文字線
の一部が細すぎたり、文字領域の中にノイズが残ったり
するなど、様々に変形した文字画像が生じるという問題
があった。Also, even if it is extracted as a single character, part of the character may be crushed, resulting in a partially thick character image, or conversely, part of the character line may be too thin, or noise may remain in the character area. There is a problem in that variously deformed character images occur.
このような問題を解決するために、特開昭60−144
884号公報に開示された技術が知られている。In order to solve such problems, Japanese Patent Application Laid-Open No. 60-144
A technique disclosed in Japanese Patent No. 884 is known.
この従来技術は、光源に対する各文字の角度や向き等に
起因する画像濃度のばらつきを抑制するものであり、刻
印文字の撮像・に際し、刻印面に対し少なくとも2つの
異なる方向から斜光照射を行い、それぞれの照射に対応
した刻印文字の濃淡画像データを入力して2値画像化し
、これらの2値画像の論理和をとることで最終的な2値
画像を形成することを特徴としている。This conventional technology suppresses variations in image density caused by the angle and orientation of each character with respect to the light source, and when imaging the engraved characters, oblique light is irradiated onto the engraved surface from at least two different directions. It is characterized by inputting the grayscale image data of the engraved characters corresponding to each irradiation, converting it into a binary image, and forming the final binary image by calculating the logical sum of these binary images.
しかし、この従来技術も、入力した濃淡画像データ全体
を固定されたしきい値で2値化するため、2値化しきい
値を逐次設定し直しても、個々の文字部てを正確に検出
することが困難であるという問題があった。However, this conventional technology also binarizes the entire input grayscale image data using a fixed threshold, so even if the binarization threshold is successively reset, individual character parts cannot be detected accurately. The problem was that it was difficult to
また、濃淡画像データから文字を検出する別の技術とし
て、文字部と背景部との濃度の変化に注目した、特開昭
60−211583号公報に開示された技術が知られて
いる。Furthermore, as another technique for detecting characters from grayscale image data, there is known a technique disclosed in Japanese Patent Application Laid-Open No. 60-211583, which focuses on changes in density between a character portion and a background portion.
この従来技術は、カメラで撮像した濃淡の画像データの
各画素に対して、注目する画素および周辺に位置する画
素の濃度レベルのうち最小値を求め、その値でしきい値
を設定して、注目する画素と周辺の画素との濃度レベル
の差分値を評価し、文字のエツジ部分か否かを検出する
ことを特徴としている。This conventional technology calculates the minimum value among the density levels of the pixel of interest and surrounding pixels for each pixel of gray-scale image data captured by a camera, and sets a threshold value using that value. It is characterized by evaluating the difference value of the density level between the pixel of interest and surrounding pixels to detect whether it is an edge part of a character or not.
しかし、この従来技術も、刻印文字の画像のように個々
の文字毎に文字部と背景部との濃度差が変化し、1つの
文字の中で濃度が異なるような場合には、正確に文字を
検出し切出すことが難しいという問題があった。However, this conventional technology cannot accurately display characters when the difference in density between the character part and the background part changes for each individual character, such as in an image of engraved characters, and the density differs within one character. There was a problem in that it was difficult to detect and extract.
[発明が解決しようとする問題点]
本発明は、このような従来の課題に鑑みてなされたもの
であり、その目的は、前述した従来の問頭点を解決し、
背景部に濃淡むちゃノイズ等が含まれ、文字部と背景部
との濃度のコントラストが個々の文字毎に変化し、しか
も1つの文字の文字線の各部分で濃度が異なるような濃
淡画像データからでも、所望の文字を正確に検出し、か
つ検出した各文字がノイズを含まず、文字変形も少ない
2値画像となるよう切出すことができる文字切出し装置
を提供することにある。[Problems to be Solved by the Invention] The present invention has been made in view of such conventional problems, and its purpose is to solve the above-mentioned conventional problems,
From shading image data in which the background part contains noise, etc., the density contrast between the character part and the background part changes for each character, and the density differs in each part of the character line of one character. However, it is an object of the present invention to provide a character cutting device that can accurately detect desired characters and cut out each detected character so that it becomes a binary image containing no noise and less character deformation.
[問題点を解決するための手段]
前記目的を達成するため、第1図に示すように本発明に
かかる文字切出し装置は、
撮像手段1000を用いて画像化された文字を含む濃淡
画像データから、個々の文字を検出して切出す文字切出
し装置において4
濃淡画像データをいくつかの小領域に分割し、各小領域
毎に最適な文字領域検出用2値化しきい値を計算すると
共に濃淡画像データを各小領域毎に2値化する文字領域
検出用の分割領域別2値化手段1200と、
分割領域別2値化手段1200から出力される2値画像
データに基づき、文字列の存在する小領域を検出する文
字列領域検出手段1400と、文字列領域検出手段14
00で検出された文字列の存在する小領域において、個
々の文字が存在する小領域を逐次検出する文字領域検出
手段1500と、
個々の文字が存在する小領域毎にfi適な文字切出し用
2値化しきい値を計算し、濃淡画像データを各小領域毎
に2値化する文字領域別2値化手段1700と、
を含み、個々の文字画像データを切出し出力することを
特徴とする。[Means for Solving the Problems] In order to achieve the above object, as shown in FIG. , in a character cutting device that detects and cuts out individual characters, divides the grayscale image data into several small areas, calculates the optimal binarization threshold for character area detection for each small area, and divides the grayscale image data into several small areas. Based on binary image data outputted from divided area binarization means 1200 for character area detection, which binarizes data for each small area, and binary image data outputted from the divided area binarization means 1200, it is possible to determine whether a character string exists. Character string area detection means 1400 for detecting a small area, and character string area detection means 14
Character area detection means 1500 that sequentially detects small areas where individual characters exist in a small area where the character string detected as 00 exists; and character area detection means 1500 that sequentially detects small areas where individual characters exist; It is characterized in that it includes: binarization means for each character region 1700 that calculates a valorization threshold value and binarizes grayscale image data for each small region, and cuts out and outputs individual character image data.
ここにおいて、前記分割領域別2111化手段1200
は、文字の大きさに対応して予め定められた分割数で濃
淡画1象デ一タ全体を分割し、分割された各小領域毎に
濃度ヒストグラムを作成して、ヒストグラムからisな
しきい値を求めて濃淡画像データを各小領域毎に2値化
するよう形成することが好ましい。Here, the dividing area 2111 conversion means 1200
divides the entire grayscale image data into a predetermined number of divisions corresponding to the size of the characters, creates a density histogram for each divided small area, and calculates the is threshold value from the histogram. It is preferable to form the grayscale image data so as to obtain it and binarize it for each small area.
また、前記文字列領域検出手段1400は、2値化され
た画像データを文字列の並びと平行に走査して投影分布
を作り、投影分布と文字の大きさとに基づき文字列が存
在する領域を検出するよう形成され、
前記文字領域検出手段1500は、文字列が存在する小
領域の2値画像データを文字列の並びと垂直な方向に走
査して投影分布を作り、投影分布と、文字の大きさとに
基づき個々の文字が存在する小領域を逐次検出するよう
形成することが好ましい。Further, the character string area detection means 1400 scans the binarized image data in parallel with the arrangement of character strings to create a projection distribution, and detects an area where the character string exists based on the projection distribution and the size of the characters. The character area detection means 1500 scans the binary image data of a small area in which a character string exists in a direction perpendicular to the arrangement of character strings to create a projection distribution, and combines the projection distribution with the character It is preferable to sequentially detect small areas in which individual characters exist based on the size.
また、前記文字領域別2値化手段1700は、個々の文
字が存在する小領域毎に濃淡画像データの濃度ヒストグ
ラムを作成して各ヒストグラムから各小領域毎に最適な
しきい値を求め濃淡画像データを2値化するよう形成す
ることが好ましい。Further, the character area-by-character binarization means 1700 creates a density histogram of the grayscale image data for each small area in which each character exists, and calculates an optimal threshold value for each small area from each histogram to obtain the grayscale image data. It is preferable to form the image so as to binarize it.
また、文字領域別2値化手段1700の後段に、文字領
域別2値化手段1700から出力された個々の文字領域
毎の2値画像データの良否を判定し、良質な文字画像の
条件を満たすよう各文字領域毎に濃淡画像データを再2
値化し、文字画像を得る文字領域別再2値化手段180
0を設けることが好ましい。Further, at the subsequent stage of the character area-specific binarization means 1700, the quality of the binary image data for each character area outputted from the character area-specific binarization means 1700 is determined to satisfy the conditions for a high-quality character image. Rewrite the grayscale image data for each character area.
Re-binarization means 180 for character areas to obtain character images
It is preferable to provide 0.
また、前記文字領域別再2値化手段1800は、個々の
文字領域毎に2値画像データに対してラベリング処理を
行い、文字線のまとまりの程度および文字線幅の程度を
判定することによりしきい値を増減して文字領域におけ
る濃淡画像データを再2値化し、これをくりかえすこと
により良質な文字画像を得るよう形成することが好まし
い。Further, the character area-by-character re-binarization means 1800 performs labeling processing on the binary image data for each character area, and determines the degree of clustering of character lines and the degree of character line width. It is preferable to increase or decrease the threshold value to re-binarize the grayscale image data in the character area, and to repeat this process to obtain a high-quality character image.
また、文字領域検出手段1500と文字領域別°2値化
手段1700との間に、1つの文字の中での文字線のと
ぎれおよび2つ以上の文字同士の接触を検出し、文字領
域を修正して検出する文字領域修正検出手段1600を
設けることが好ましい。Furthermore, between the character area detection means 1500 and the character area-specific degree binarization means 1700, breaks in character lines within one character and contact between two or more characters are detected, and the character area is corrected. It is preferable to provide a character area correction detection means 1600 for detecting the correction.
また、撮像手段1000と分割領域2値化手段1200
とQ間に、撮像手段1000から出力された濃淡画像デ
ータの背景部の濃淡むらを緩和して、文字部の候補とな
る濃度を抽出する文字候補濃度抽出手段1100を設け
ることが好ましい。Further, an imaging means 1000 and a divided area binarization means 1200
It is preferable to provide a character candidate density extracting means 1100 between and Q, which alleviates the unevenness of shading in the background part of the shading image data output from the imaging means 1000 and extracts a density that becomes a candidate for the character part.
また、前記文字列領域検出手段1100は、濃淡画像デ
ータの狭い範囲で濃度が大きく変化する領域を、周りの
背景と同じ濃度で置換える処理を行い、処理を施した濃
淡画像データと元の濃淡画像データとの差分画像データ
を求めることにより、濃淡画像データの背景部分の潰淡
むらを緩和して文字候補となる領域の濃度を抽出するよ
う形成することが好ましい。Furthermore, the character string area detection means 1100 performs a process of replacing an area where the density changes greatly in a narrow range of the grayscale image data with the same density as the surrounding background, and replaces the processed grayscale image data with the original grayscale. It is preferable to extract the density of a region that is a character candidate by alleviating unevenness in the background portion of the grayscale image data by obtaining differential image data from the image data.
また、分割領域別2値化手段1200と文字列領域検出
手段1400との間に、分割領域別2値化手段1200
から出力された2値画像データからノイズを除去するノ
イズ除去手段1300を設けることが好ましい。Further, between the binarization means 1200 for each divided region and the character string region detection means 1400, the binarization means 1200 for each divided region
It is preferable to provide a noise removing means 1300 for removing noise from the binary image data output from.
[本発明の着眼点]
前述したように、従来の文字切出し技術では、刻印文字
を撮像手段1000を用いて撮影し、この撮像手段10
00から出力される濃淡の画像データを2値画像データ
に変換したり、また濃淡画像データを微分処理または差
分手段した後2値化して文字のエツジ部を表す画像デー
ータに変換し、これらの2値画像データから文字の切出
しを行っていた。[Point of View of the Present Invention] As described above, in the conventional character cutting technique, the engraved characters are photographed using the imaging means 1000.
The shading image data output from 00 is converted into binary image data, and the shading image data is subjected to differential processing or difference means and then binarized and converted into image data representing the edge portion of the character. Characters were extracted from value image data.
しかし、これらの従来技術は、いずれも刻印文字の濃淡
画1象データが、印刷文字などの濃淡画像データとは具
なり、文字部および背景部共にその濃度が部分的に変り
易いという点を充分に考慮していなかった。However, all of these conventional techniques do not adequately address the fact that the shading image data of engraved characters is different from the shading image data of printed characters, and the density of both the character portion and the background portion tends to change partially. was not taken into consideration.
これに対し、本発明者等は、文字部および背景部の濃度
がともに少しずつ変化する濃淡画像データから、個々の
文字を全て良質な2値画像として抽出するためにはどの
ようにしたらよいかについての研究を進め、この結果衣
の各点に着眼するに至った。In response, the present inventors have investigated how to extract all individual characters as high-quality binary images from grayscale image data in which the densities of both text and background parts change little by little. As a result of his research, he came to focus on each point of the garment.
本発明の第1の着眼点は、濃淡画像データから個々の文
字が存在する文字領域を検出するに際し、濃淡画像デー
タをいくつかの小領域に分割し、各小領域毎に最適なし
きい値を計算し、この最適しきい値を用いて濃淡画像デ
ータを各小領域毎に2値化することにある。The first point of focus of the present invention is that when detecting character areas where individual characters exist from grayscale image data, the grayscale image data is divided into several small areas, and an optimal threshold value is determined for each small area. The purpose is to calculate the optimum threshold value and to binarize the gray scale image data for each small area using the optimum threshold value.
すなわち、文字を検出するための2値画像データを考え
ると、個々の文字の文字線がとぎれていないこと、文字
同士が接触していないことが重要である。That is, when considering binary image data for detecting characters, it is important that the character lines of individual characters are not interrupted and that the characters are not in contact with each other.
そこで、画像全体を予め定めた分割数でいくつかの小領
域に分け、各小領域毎に文字領域検出用の21ia化し
きい値を計算して求め、画像データを各小領域単位で2
値化する。Therefore, the entire image is divided into several small areas by a predetermined number of divisions, and the 21ia threshold value for character area detection is calculated for each small area, and the image data is
Value.
そして、文字列および文字検出を行う際は、このように
して得られた2#!画像データに対して文字の大きさや
間隔の情報を加え、さらに簡単なとぎれ、接触の確認を
行うことにより、個々の文字領域を正確に検出すること
ができる。Then, when performing character string and character detection, the 2#! obtained in this way! By adding information about the size and spacing of characters to the image data, and also simply checking for breaks and contacts, it is possible to accurately detect individual character areas.
本発明の第2の着眼点は、検出された個々の文字領域に
基づいて各文字の画像データを切り出すに際し、検出し
た各文字毎の小領域で、濃度ヒストグラムにより最適な
文字切出し用2値化しきい値を計算により求め、このよ
うにして求めた各文字切出し用2値化しきい値を用いて
、濃淡画像データを各文字の小領域毎に2値化すること
にある。The second point of focus of the present invention is that when cutting out the image data of each character based on the detected individual character areas, the optimal binarization for character extraction is performed using the density histogram in the small area of each detected character. The purpose of this method is to obtain a threshold value by calculation, and use the thus obtained binarization threshold value for cutting out each character to binarize the grayscale image data for each small region of each character.
このようにすることにより、濃淡画像データから、個々
の文字を2値画像として切出すことができる。By doing so, each character can be extracted as a binary image from the grayscale image data.
このように、本発明によれば、前記第1および第2の着
眼点に従って、濃淡画像データを小領域に分割して文字
列および文字領域検出用に用いる2値画像データを作成
することにより、文字部、背景部共に濃度が少しずつ変
化するような濃淡画像データからでも、個々の文字を良
質な2値画像データとして抽出することができる。As described above, according to the present invention, in accordance with the first and second points of view, by dividing grayscale image data into small areas and creating binary image data used for character string and character area detection, Individual characters can be extracted as high-quality binary image data even from grayscale image data in which the density of both text and background parts changes little by little.
ところで、このようにして抽出した各文字の2値画像デ
ータの中には、文字部および背景部の部分的なばらつき
により、文字線がとぎれたり、背景にノイズが生じたり
、あるいは文字線幅が他の文字と著しく異なったりする
ものがある。By the way, in the binary image data of each character extracted in this way, there are cases where character lines are broken, noise occurs in the background, or character line widths are changed due to local variations in the character and background parts. Some characters are significantly different from other characters.
本発明の第3の着眼点は、このような文字の2値画像デ
ータを再2値化することにより、各文字を良好な2値画
像として切出すことにある。The third point of focus of the present invention is to cut out each character as a good binary image by re-binarizing the binary image data of such characters.
すなわち、検出した各文字領域毎に、文字線のまとまり
具合、文字線とノイズの区別、さらに適正な文字線幅か
否かを確認するために、本発明では、2値化された文字
画像データに対しラベリング処理を行い、異なるラベル
となった文字線を統合するよう再2値化を繰り返して行
う、そして、再2値化を繰り返しても、文字線に統合さ
れないラベルをノイズとみなして除去する。That is, in order to check for each detected character area how the character lines are clustered, to distinguish between character lines and noise, and to check whether the character line width is appropriate, the present invention uses binary character image data. Labeling is performed on the label, and re-binarization is repeated to integrate the character lines with different labels.Then, labels that are not integrated into the character lines even after repeated re-binarization are treated as noise and removed. do.
このような再2値化作業を繰り返して行うことにより、
濃淡画像データに含まれる各文字を、良質な2値画像と
して切出し、出力することができる。By repeating this re-binarization process,
Each character included in the grayscale image data can be cut out and output as a high-quality binary image.
[作用] 次に本発明の詳細な説明する。[Effect] Next, the present invention will be explained in detail.
まず、例えばITVカメラなどの撮像手段1000によ
り文字を読み取ると、この撮像手段1000からは、文
字を含む濃淡画像データが出力される。First, when characters are read by an imaging means 1000 such as an ITV camera, the imaging means 1000 outputs grayscale image data including the characters.
L12 −
第2図(a)には、このような濃淡画像データに含まれ
る文字列の一部が示されている。L12 - FIG. 2(a) shows a part of the character string included in such grayscale image data.
本発明の第1の特徴は、分割領域別2値化手段1200
を用いて、濃淡画像データをいくつかの小領域に分割し
、各小領域毎に最適な文字領域検出用2値化しきい値を
計算し、濃淡画像データを21化することにある。The first feature of the present invention is that the divided area binarization means 1200
The purpose of this method is to divide the grayscale image data into several small regions, calculate the optimal binarization threshold for character area detection for each small region, and convert the grayscale image data into 21 using the following method.
第2図(b)には、同図<a)の濃淡画像データを予め
定めた大きさに分割(破線が分割線を示す)したときの
1つの小領域か示されている。FIG. 2(b) shows one small region obtained by dividing the grayscale image data of FIG. 2(a) into predetermined sizes (dashed lines indicate dividing lines).
本発明においては、各小領域毎に文字領域検出用2値化
しきい値を計算するなめに、各小領域毎に画像データの
濃度ヒストグラムを作成し、この濃度ヒストグラムから
しきい値を求めている。In the present invention, in order to calculate the binarization threshold for text area detection for each small area, a density histogram of image data is created for each small area, and the threshold value is determined from this density histogram. .
同図(c)は、同図(b)の小領域内における画像デー
タの個々の要素(これを画素という)を、その濃度レベ
ル別に分け、各濃度レベル毎の頻度を説明した図(これ
を濃度ヒストグラムと呼ぶ)である、なお、同図(c)
は、撮像手段1000により、文字部が暗く、背景部が
明るい画像が出力された場合を表しており、この濃度ヒ
ストグラムからは、文字部および背景部を示す濃度レベ
ル付近においてその頻度が高い2つの山ができているこ
とが理解されよう。Figure (c) is a diagram illustrating the frequency of each density level by dividing the individual elements (called pixels) of the image data within the small area of figure (b) into their respective density levels. (referred to as a density histogram), as shown in Figure (c).
represents a case in which the imaging means 1000 outputs an image in which the text portion is dark and the background portion is bright; from this density histogram, it is found that there are two types of images that have a high frequency near the density levels indicating the text portion and the background portion. It will be understood that mountains are formed.
したがって、同図(c)に示すように、小領域が文字を
含む場合には、文字部の山と背景部の山との間の谷の部
分を見つけ、そこを文字領域検出用2値化しきい値とし
て求める4
また、小領域が文字を含まない場合には、濃度レベルが
ほぼ背景部のみに集中するので、山は1つとなる。した
がって、この場合には、背景部の山より暗いレベルを、
文字領域検出用2値化しきい値として求める。Therefore, as shown in (c) in the same figure, when a small area includes characters, the valley between the peaks of the text area and the background area is found and binarized for character area detection. Determined as threshold value 4 Furthermore, if the small area does not include any characters, the density level is concentrated almost only in the background area, so there is only one peak. Therefore, in this case, the level darker than the mountain in the background is
It is determined as a binarization threshold for character area detection.
このようにして各小領域毎に求めた最適な文字領域検出
用2値化しきい値を用い濃淡画像データの2値化を行う
と、第2図(d)に示すような2値画像データが得られ
る。When the grayscale image data is binarized using the optimal binarization threshold for character area detection determined for each small area in this way, the binary image data as shown in FIG. 2(d) is obtained. can get.
本発明の分割領域別2値化手段1200は、このような
2値化を各小領域毎に繰り返し行い、濃淡画像データ全
体を2値画像データに変換する。The segmented region binarization means 1200 of the present invention repeatedly performs such binarization for each small region and converts the entire grayscale image data into binary image data.
S −−
なお、濃淡画像データにおいて、背景部の濃度むらが著
しく、分割領域別2値化手段1200で2値化された文
字画像データに、文字線のつぶれ(特に閉曲線を構成す
る文字線で起こりやすい)や背景のノイズ、文字同士の
接触が多くある場合には、分割領域別2値化手段120
0の前段に文字候補濃度抽出手段1100を設けること
が好ましい。S -- In the grayscale image data, the density unevenness in the background part is significant, and the character image data binarized by the divided area binarization means 1200 has collapsed character lines (particularly in the character lines forming a closed curve). If there is a lot of noise in the background or contact between characters, the binarization means for each divided area 120 is used.
It is preferable to provide the character candidate density extraction means 1100 before the character 0.
この文字候補抽出手段は、撮像手段toooがら、例え
ば第6図(a)に示すように背景部の濃淡むらが著しい
濃淡画像データが出力された場合に、この濃淡画像デー
タに含まれる文字部の各画素を、周囲の画素の濃度レベ
ルのうち最も明るいレベル(背景部のレベル)で置き換
える処理を繰り返して行う、そして、文字部の暗いレベ
ルを全て背景部の明るいレベルで置き換えた後、各画素
毎に元の濃淡画像データとの差を取り、これを新しい濃
度レベルとする濃淡画像データを出力する。This character candidate extracting means, when the imaging means tooo outputs shading image data with significant shading unevenness in the background as shown in FIG. The process of replacing each pixel with the brightest density level (background level) of the surrounding pixels is repeated, and after replacing all the dark levels of the text area with the bright levels of the background area, each pixel At each time, the difference from the original grayscale image data is calculated, and grayscale image data with this difference as a new density level is output.
このようにすることにより、撮像手段1000から第6
図(a)で示すような濃淡画像データが出力されるよう
な場合でも、文字部はど濃度レベルの変化が急でない部
分は緩和され、第6図(b)で示すように、元の濃淡画
像データに比べて文字部が強調された濃淡画像データを
得ることができる。By doing this, from the imaging means 1000 to the sixth
Even when grayscale image data as shown in Figure 6(a) is output, parts where the density level does not change sharply are softened, and the original grayscale is restored as shown in Figure 6(b). It is possible to obtain grayscale image data in which character parts are emphasized compared to image data.
したがって、このような文字候補濃度抽出手段1100
を用いることにより、撮像手段1000から出力される
濃淡画像データにおける背景部濃淡むらが著しいような
場合でも、これに影響されることなく、分割領域別2値
化手段1200を用いて濃淡画1象データを全体文字領
域検出用の2値画像データに変換することができる。Therefore, such character candidate density extraction means 1100
By using this, even if there is significant unevenness in shading in the background part of the shading image data output from the imaging means 1000, the divided area binarization means 1200 can be used to convert one shading image into a single shading image without being affected by this. The data can be converted into binary image data for detecting the entire character area.
ノイズ および 列
ところで、このように分割領域別2値化手段1200か
ら出力される文字領域検出用2値画像データには、細か
なノイズが含まれることが多い。Noise and Column By the way, the binary image data for character area detection outputted from the segmented area binarization means 1200 as described above often contains fine noise.
このため、分割領域別2値化画像手段から出力される2
値画像データは、ノイズ除去手段1300を用いて、細
かいノイズを除去することが好ましい。Therefore, the 2 bits output from the divided area binarized image means
Preferably, fine noise is removed from the value image data using a noise removal means 1300.
第3図には、このようにして求められた2値画像データ
の一例が示されている。FIG. 3 shows an example of binary image data obtained in this manner.
本発明の装置は、文字列領域検出手段1400を用いて
、この2値画像データから文字列の存在する小領域を検
出する。The apparatus of the present invention uses a character string area detection means 1400 to detect a small area where a character string exists from this binary image data.
すなわち、この文字列領域検出手段1400は、第3図
に示す2値画像データに含まれる黒画素(文字部を表す
画素)を、文字列の並びに平行な方向に累積して分布図
を作り、この分布図から文字列の範囲を表す小領域を検
出する。第3図(a)には、この様子が示されている。That is, this character string area detection means 1400 creates a distribution map by accumulating black pixels (pixels representing character parts) included in the binary image data shown in FIG. 3 in a direction parallel to the arrangement of character strings, From this distribution map, a small area representing the range of character strings is detected. This situation is shown in FIG. 3(a).
そして、黒画素を累積した分布図において、変化の大き
な部分を文字列の範囲を表す境界線とし、文字の大きさ
の情報(この図では文字の高さ)を使って文字列の範囲
を表す小領域を確定する。Then, in the cumulative black pixel distribution map, the part with large changes is used as the boundary line representing the range of the character string, and the character size information (in this diagram, the height of the character) is used to represent the range of the character string. Define the small area.
文3」L1量M段
次に、本発明の装置は、文字領域検出手段1500を用
いて、文字列の存在する小領域から、個々の文字が存在
する小領域を逐次検出する。具体的には、検出した文字
列の範囲内において、文字列の並びに対し垂直方向に文
字部となる黒画素を累積し第3図<b)に示すような分
布図を作る。Sentence 3'' L1 amount M stages Next, the apparatus of the present invention uses the character area detection means 1500 to sequentially detect small areas where individual characters exist from the small areas where character strings exist. Specifically, within the range of the detected character string, the black pixels forming the character part are accumulated in the direction perpendicular to the arrangement of the character strings, and a distribution map as shown in FIG. 3<b) is created.
そして、この分布図において、変化の大きな部分・を文
字の範囲を表す境界線として、文字の大きさの情報(こ
の図では文字の幅)および文字間隔を用いて、文字の範
囲を表す小領域を確定する。In this distribution map, the parts with large changes are used as the boundaries representing the range of characters, and the information on the size of the characters (in this diagram, the width of the characters) and the spacing between characters are used to create small areas representing the range of characters. Confirm.
このとき、文字領域検出手段1500から検出される文
字領域は、時として文字のとぎれや文字間の接触により
、必ずしも正確でない場合もある。At this time, the character area detected by the character area detection means 1500 may not always be accurate due to breaks in characters or contact between characters.
このため、本発明においては、文字領域検出手段150
0から出力される文字領域を、文字領域修正検出手段に
入力し、文字のとぎれや文字間の接触を検出し補正する
よう形成することが好ましい。Therefore, in the present invention, the character area detection means 150
It is preferable to input the character area outputted from 0 to a character area correction detection means to detect and correct any breaks in characters or contact between characters.
−12・
本発明の装置は、このようにして個々の文字毎の小領域
が検出されると、文字領域別2値化手段1700を用い
て、個々の文字が存在する小領域毎に最適な文字切出し
用2値化しきい値を計算により求める。そして、求めた
しきい値を用いて文字画像データ抽出手段1100から
出力される濃淡画像データを各小領域毎(文字領域毎)
に2値化することにより、文字画像データを出力してい
る。-12. When the small area for each individual character is detected in this way, the device of the present invention uses the character area specific binarization means 1700 to determine the optimum value for each small area where each character exists. A binarization threshold for character segmentation is calculated. Then, using the determined threshold value, the grayscale image data output from the character image data extraction means 1100 is extracted for each small region (for each character region).
Character image data is output by binarizing it.
すなわち、この文字領域別2値化手段1700は、個々
の文字が存在する小領域毎に、画像データのヒストグラ
ムを作成し、各ヒストグラムから各画像領域毎に最適な
しきい値を計算により求める。そして、前記濃淡画像デ
ータを、各文字領域毎に2値化し、文字画像データとし
て出力している。That is, the character area-specific binarization means 1700 creates a histogram of image data for each small area in which individual characters exist, and calculates an optimal threshold value for each image area from each histogram. The grayscale image data is then binarized for each character area and output as character image data.
このようにして、本発明の文字切出し装置によれば、撮
像手段1000から出力された濃淡画像データから個々
の文字の領域を正確に検出することができるばかりでな
く、検出文字領域から文字画像を良質な2値画像データ
として出力することができる。In this way, according to the character cutting device of the present invention, not only can individual character regions be accurately detected from the gray scale image data output from the imaging means 1000, but also character images can be extracted from the detected character regions. It can be output as high quality binary image data.
本発明の第2の特徴は、このように文字領域が検出され
、2値化された各文字の画像データに対し、さらに文字
のとぎれ、ノイズの除去、文字線幅の確認等を行うこと
により、より良質な文字画像データを得ることにある。The second feature of the present invention is that character areas are detected in this way, and the binarized image data of each character is further removed by removing character breaks, noise, and checking the character line width. , to obtain better quality character image data.
このなめ、本発明の文字切出し装置は、文字領域別再2
値化手段1800を用い、文字領域別2値化手段170
0から出力された個々の文字領域毎の文字画像データの
良否を判定し、良質な文字画像の条件を満足するよう濃
淡画像データを再2値化し、各文字の良質な2値画像デ
ータを出力している。This lick, the character cutting device of the present invention,
Using the digitization means 1800, the binarization means 170 for each character area
Determine the quality of the character image data for each individual character area output from 0, re-binarize the grayscale image data so that it satisfies the conditions for a high-quality character image, and output high-quality binary image data for each character. are doing.
すなわち、この文字領域別再2値化手段1800は、検
出され2値化された文字画像データを、各文字領域毎に
ラベリング処理する。ラベリング処理とは、連続した画
素の集りか否かを示すために、隣合う画素に同じラベル
をつける処理であり、例えば第4図(a)に示すrl、
Jを例にとると、この文字画像データはラベル1、ラベ
ル2、ラベル3の3つのラベルに分類される。That is, the character area-based re-binarization means 1800 labels the detected and binarized character image data for each character area. Labeling processing is a process of attaching the same label to adjacent pixels in order to indicate whether or not they are a group of consecutive pixels. For example, rl shown in FIG.
Taking J as an example, this character image data is classified into three labels: label 1, label 2, and label 3.
この「L」のように、文字領域内の黒画素(文字部の画
素)のラベル数が、2以上の場合には、文字線がとぎれ
ているか、ノイズが存在するか、その双方が同時に現れ
ているかである。If the number of labels for black pixels in the character area (pixels in the character part) is 2 or more, as in this "L", either the character line is broken, noise exists, or both appear at the same time. That's what I'm doing.
そこで、文字線がとぎれているかどうかを判定するため
に、文字切出し用しきい値を変えて濃淡濃淡画像データ
の文字領域を再2値化し、各文字の2値画像データを得
る。Therefore, in order to determine whether or not the character line is broken, the character area of the grayscale image data is re-binarized by changing the character cutting threshold value to obtain binary image data of each character.
第4図(b)は、黒画素が増加するようにしきい値を変
えた場合であり、このようにすることにより、ラベル1
とラベル2の文字線はつながり、この2つのラベルが1
つに統合される。しかし、この場合には、ノイズを表す
ラベル3はまだ残っており、さらに新たなノイズか生じ
てラベル4となった場合を示している。ここで、各ラベ
ルの画素の集りを「島」と呼ぶことにする。Figure 4(b) shows the case where the threshold value is changed so that the number of black pixels increases; by doing this, label 1
The character lines of label 2 and are connected, and these two labels are 1
will be integrated into However, in this case, the label 3 representing noise still remains, and a new noise is generated to become label 4. Here, a collection of pixels of each label will be called an "island".
そして、前記ラベリング処理を行った後に、濃淡画像デ
ータに含まれる文字領域を再2値化するか否かの判断を
行う、この判断は、次のようにして行われる。After performing the labeling process, it is determined whether or not to re-binarize the character area included in the grayscale image data.This determination is made as follows.
まず、ラベリング処理の結果、2値化された文字画像デ
ータのラベル数が2以上である場合には、ラベル番号順
に画素の個数を計算し、最大の「島」、2番目の[島」
を選ぶ9次に、最大の「島」について、その「島」の高
さ、幅が文字の大きさとして適性がどうかを調べ、かつ
最大の「島」と2番目の「島」との画素数に充分な差が
あるかどうかを調べる。First, as a result of the labeling process, if the number of labels in the binarized character image data is 2 or more, the number of pixels is calculated in order of label numbers, and the largest "island", the second [island]
9 Next, for the largest "island", check whether the height and width of the "island" are suitable for the font size, and calculate the pixels between the largest "island" and the second "island". Check whether the numbers are sufficiently different.
第4図(a)に示す「L」の場合には、ラベル数が2以
上で、最大の「島」と、2番目の[島」にあまり差がな
いため、画素数を増やすようにしきい値を変えて再2値
化し、同図(b)に示すような文字画像データを得る。In the case of "L" shown in Figure 4 (a), the number of labels is 2 or more, and there is not much difference between the largest "island" and the second [island], so the threshold is set to increase the number of pixels. By changing the values and re-binarizing, character image data as shown in FIG. 2(b) is obtained.
同図(b)では、最大の「島」 (ラベル1)は、文字
の大きさを満足し、しかも2番目の「島」(ラベル3)
との差が充分であるため、これ以上再2値化する必要は
ない、そこで、ラベル3と、ラベル4の「島」はノイズ
と判断して除去し、同図(c)に示すような文字画像デ
ータを得る。In the same figure (b), the largest "island" (label 1) satisfies the font size, and the second "island" (label 3)
Since the difference between the two is sufficient, there is no need to re-binarize any further. Therefore, the "islands" of labels 3 and 4 are judged to be noise and removed, and the "islands" of labels 3 and 4 are removed, as shown in the same figure (c). Obtain character image data.
同図(a)に示す「5」も同様にして再2値化される。The number "5" shown in FIG. 3(a) is also re-binarized in the same manner.
また、同図(a>に示す他の文字は、そのラベル数が1
であるため、すぐに再2値化せず、まず「島」の総画素
数と輪郭線の長さとの比(これは平均の文字線幅に対応
する値となることが知られている)を計算し、この値が
適正であるかを判断する。この値が適正でない場合、例
えば°同図(a)に示す[0」のように文字線幅が細い
場合には、さらに文字線が太くなるようにしきい値を変
えて再2値化する。In addition, other characters shown in the same figure (a>) have 1 label.
Therefore, instead of re-binarizing immediately, first calculate the ratio of the total number of pixels of the "island" to the length of the outline (this is known to be a value corresponding to the average character line width) Calculate and determine whether this value is appropriate. If this value is not appropriate, for example, if the character line width is thin as shown in 0 shown in FIG.
このようにして、本発明によれば、撮像手段1000か
ら出力された濃淡画像データから、個々の文字領域を正
確に検出することができ、しかも検出した文字画像デー
タは、適正な文字線幅でノイズを伴わない良質な2値画
像データとなる。In this manner, according to the present invention, individual character areas can be accurately detected from the grayscale image data output from the imaging means 1000, and the detected character image data has an appropriate character line width. This results in high-quality binary image data without noise.
そして、文字領域切出し手段は、このようにして検出さ
れた個々の文字を画像データから切り出し出力すること
となる。Then, the character area cutting means cuts out each character detected in this way from the image data and outputs it.
[発明の効果]
以上説明したように、本発明によれば、撮像手段100
0から出力される濃淡画像データをいくつかの小領域に
分割し、分割した小領域毎に、濃淡画像データ毎に対す
るfi13i!なしきい値を自動的に求めて2値化し、
さらにこのようにして求めた2値画像データがより良質
な2値画像データとなるように再度21ii化する処理
を繰り返して行う。[Effects of the Invention] As explained above, according to the present invention, the imaging means 100
The grayscale image data output from 0 is divided into several small areas, and for each divided small area, fi13i! is applied to each grayscale image data. automatically finds the threshold value and binarizes it,
Further, the process of converting the binary image data obtained in this manner into 21ii again is repeated so that the binary image data obtained in this way becomes better quality binary image data.
このため、背景部の濃淡むらやノイズ、文字部と背景部
とのコントラストの変化、文字線毎の濃度の違いなどに
影響されることなく、濃淡画像データに含まれる各文字
を正確に検出し切出すことができるという効果がある。Therefore, each character included in the shading image data can be accurately detected without being affected by uneven shading or noise in the background, changes in the contrast between the text and background, or differences in the density of each character line. It has the effect of being able to be cut out.
さらに、本発明によれば、濃淡画像データの分割の大き
さを最初に適宜定めておくことにより、fIi像条件や
光源の照度変化などがある場合にも、各しきい値をその
都度設定し直すことなく自動的に求めることができる。Furthermore, according to the present invention, by appropriately determining the division size of the grayscale image data at the beginning, each threshold value can be set each time even when there are fIi image conditions or changes in illuminance of the light source. It can be calculated automatically without modification.
このなめ9、各種生産現場において濃淡画像データから
各種文字を切り出す場合に、従来技術に比べ大幅な省力
化を果すことができるという効果がある。This method 9 has the effect that when cutting out various characters from grayscale image data at various production sites, it is possible to significantly save labor compared to the conventional technology.
[実施例] 次に本発明の好適な実施例を図面に基づき説明する。[Example] Next, preferred embodiments of the present invention will be described based on the drawings.
第5図には、本発明が適用された文字認識装置10の好
適な実施例が示されており、同図において、自動車の車
体の構成部品である車体パネル12には、認識対象とな
る刻印文字Aが打刻されている。この刻印文字Aは、例
えば英数字および記号からなる19桁の文字列である。FIG. 5 shows a preferred embodiment of the character recognition device 10 to which the present invention is applied. The letter A is engraved. This stamped character A is, for example, a 19-digit character string consisting of alphanumeric characters and symbols.
実施例の文字認識装置10は、前記刻印文字Aを自動読
取りするためのものであって、刻印文字Aを撮影する撮
像手段100と、本発明に係る文字切出し装置200と
、文字識別装置300とから構成されている。The character recognition device 10 of the embodiment is for automatically reading the engraved character A, and includes an imaging means 100 for photographing the engraved character A, a character cutting device 200 according to the present invention, and a character identification device 300. It consists of
員」Ull
前記撮像装置100は、刻印文字Aを光源16で照明し
、テレビカメラ14で撮像している。刻印文字Aは、清
になっている文字部が影になり暗く、車体パネル12の
表面部分が明るい濃淡画像として促えられる。The imaging device 100 illuminates the engraved character A with a light source 16 and images it with a television camera 14. In the engraved character A, the clear character part is in shadow and dark, and the surface part of the vehicle body panel 12 is displayed as a bright and dark gray image.
そして、テレビカメラ14から出力される濃淡画像デー
タはA/D変換回路18でデジタル信号に変換された後
、文字切出し装置200へ向は出力される。The grayscale image data output from the television camera 14 is converted into a digital signal by the A/D conversion circuit 18 and then output to the character cutting device 200.
文ヱ」JLL鼠1
本実施例の文字切出し、装置200は、A/D変換回路
18から出力される濃淡画像データを、文字候補濃度抽
出回路20へ入力している。文ヱ”JLL漠1 The character extraction device 200 of this embodiment inputs the grayscale image data output from the A/D conversion circuit 18 to the character candidate density extraction circuit 20.
(イ)この文字候補濃度抽出回路20は、濃淡画像デー
タの背景部の濃淡むらを緩和し、文字部が強調された濃
淡画像データを抽出出力するよう形成されており、具体
的には第1の画像メモリ22、濃度置換回路24、第2
の画像メモリ26、差分回路28および第3の画像メモ
リ30から構成されている。(a) This character candidate density extraction circuit 20 is formed to reduce the unevenness of density in the background part of the grayscale image data and extract and output the grayscale image data in which the character part is emphasized. image memory 22, density replacement circuit 24, second
image memory 26, a difference circuit 28, and a third image memory 30.
そして、A/D変換回路18から出力される濃淡画像デ
ータは、第1の画像メモリ22に記憶された後、濃度置
換回路24により文字部の濃度が背景部の濃度に置き変
えられて第2の画像メモリ26に記憶される。After the grayscale image data outputted from the A/D conversion circuit 18 is stored in the first image memory 22, the density of the character part is replaced by the density of the background part by the density replacement circuit 24. The image is stored in the image memory 26 of.
そして、差分回路28は、第1の画像メモリ22に記憶
されている濃淡画像データから、第2の画像メモリ26
に記憶されている濃淡画像データを差分演算し、これを
第3の画像メモリ30に記憶する。Then, the difference circuit 28 converts the grayscale image data stored in the first image memory 22 into the second image memory 26.
A difference calculation is performed on the grayscale image data stored in the gradation image data, and this is stored in the third image memory 30.
このようにすることにより、例えばA/D変換回路18
から、第6図(a)に示すように、背景部に濃淡むらが
ある濃淡画像データが出力されるような場合でも、第3
の画像メモリ30内には、第6図(、b)に示すように
、背景部の濃淡むらが緩和され、文字候補となる領域の
濃度が抽出された濃淡画像データを得ることができる。By doing this, for example, the A/D conversion circuit 18
Therefore, as shown in FIG. 6(a), even when gray image data with uneven shading in the background is output,
In the image memory 30, as shown in FIG. 6(,b), it is possible to obtain grayscale image data in which the unevenness of grayscale in the background area has been alleviated and the density of the area serving as a character candidate has been extracted.
そして、第3の画像メモリ30に記憶された濃淡画像デ
ータは、分割領域別2値化回路32へ向は出力される。Then, the grayscale image data stored in the third image memory 30 is outputted to the binarization circuit 32 for each divided area.
(ロ)この分割領域別2値化回路32は、入力される濃
淡画像データを複数の小領域に分割し、この小領域毎に
最適な文字領域検出用2値化しきい値を演算し2値画像
化処理を施すことにより、第3の画像メモリ30から出
力される濃淡画像データ全体を211i画像データに変
換するよう形成されている。(b) This binarization circuit for divided areas 32 divides the input grayscale image data into a plurality of small areas, calculates an optimal binarization threshold for character area detection for each small area, and calculates a binary value for each small area. By performing imaging processing, the entire grayscale image data output from the third image memory 30 is converted into 211i image data.
この分割領域別2値化回路32は、具体的には領域分割
回路34、濃度ヒストグラム作成回路36.2値化しき
い値演算回路38および2値化回路40から構成されて
いる。Specifically, the binarization circuit 32 for each divided region includes a region division circuit 34, a density histogram creation circuit 36, a binarization threshold calculation circuit 38, and a binarization circuit 40.
そして、領域分割回路34では、予め定められた分割数
に従って、第3の画像メモリ30から入力される濃淡画
像データを複数の小領域に分割し、濃度ヒストグラム作
成回路36へ入力する。Then, the area dividing circuit 34 divides the grayscale image data inputted from the third image memory 30 into a plurality of small areas according to a predetermined number of divisions, and inputs the divided small areas to the density histogram creation circuit 36.
この濃度ヒストグラム作成回路36では、個々の小領域
毎に入力される濃淡画像データから、各小領域毎の濃度
ヒストグラムを作成し、2値化しきい値演算回路38へ
向は出力する。The density histogram creation circuit 36 creates a density histogram for each small area from the grayscale image data input for each individual small area, and outputs it to the binarization threshold calculation circuit 38.
2値化しきい値演算回路38は、入力される濃度ヒスト
グラムの濃度レベルのばらつき具合により、その小領域
が文字を含む領域か否かを判別し、文字を含む小領域の
場合には、例えば第2図(c)に示すように、文字の濃
度レベルを表す頻度の山と、背景濃度レベルを表す頻度
の山の間の谷の部分を、文字領域検出用の2値化しきい
値として求める。また、文字を含まない小領域の場合に
は、背景の濃度レベルの頻度の山より暗い濃度レベルを
求め、これを小領域の最適な2値化しきい値とする。The binarization threshold calculation circuit 38 determines whether or not the small area includes characters based on the degree of variation in the density level of the input density histogram. As shown in FIG. 2(c), the valley between the frequency peak representing the character density level and the frequency peak representing the background density level is determined as a binarization threshold for character area detection. Furthermore, in the case of a small area that does not include characters, a density level darker than the frequency peak of the background density level is determined, and this is used as the optimal binarization threshold for the small area.
そして、このようにして求めた各小領域の最適な2値化
しきい値を、2値化回路40へ出力し、2値化回路40
にて2値化した画像データをノイズ除去回路42へ向は
出力する。Then, the optimal binarization threshold value for each small area obtained in this way is output to the binarization circuit 40, and the binarization circuit 40
The binarized image data is output to the noise removal circuit 42.
このようにして、本発明によれば、各小領域毎に最適な
2値化しきい値を求めて2値画像化を行うため、濃淡画
像データの背景部に濃度むらがあったり、文字毎に背景
とのコントラストが異なる場合でも、文字のとぎれや文
字間の接触が少ない良質な2値画像データを得ることが
できる。In this way, according to the present invention, the optimal binarization threshold value is determined for each small area and binary image formation is performed. Even if the contrast with the background is different, high-quality binary image data with fewer breaks in characters and fewer contacts between characters can be obtained.
そして、前記ノイズ除去回路42は、入力された2値画
像データのうち、連続した黒画素数(文字部に相当する
画素数)が少ない領域をノイズとみなしてこれを消去し
た後、この2値画像データを文字列領域検出回路44へ
向は出力する。Then, the noise removal circuit 42 considers a region with a small number of consecutive black pixels (the number of pixels corresponding to a character part) to be noise among the input binary image data, and erases it. The image data is output to the character string area detection circuit 44.
(ハ)文字列領域検出回路44は、このようにして入力
される2値画像データを、文字列の並びと平行方向に走
査して黒画素(文字部の画素)を累積した投影分布図を
作る。そして、この分布図の変化の大きな部分を文字列
の存在する範囲とすると共に、この範囲が文字の高さと
比べて妥当かどうかを確認した上で、これを文字列を表
す小領域として検出し、検出した文字列領域の2値画像
データを文字領域検出回路46へ向は出力する。(c) The character string area detection circuit 44 scans the binary image data inputted in this way in a direction parallel to the arrangement of character strings, and generates a projection distribution map in which black pixels (pixels of the character part) are accumulated. make. Then, the part of this distribution map with large changes is defined as the range where the character string exists, and after checking whether this range is appropriate compared to the height of the character, this is detected as a small area representing the character string. , and outputs binary image data of the detected character string area to the character area detection circuit 46.
(ニ)文字領域検出回路46は、このようにして入力さ
れる文字列領域の2値画像データを、文字列の並びと垂
直方向に走査して、黒画素(文字部を表す画素)を累積
した投影分布図を作る。そして、この分布図の変化の大
きな部分を文字の左端および右端として組で見つけ、こ
の−組の左端および右端の幅が文字の幅と比較して妥当
か否かを確認する。そして、文字領域と確認された文字
の左端、右端座標およびその左端と右端とに囲まれた文
字画像データを、文字領域修正検出回路48へ向は出力
する。(d) The character area detection circuit 46 scans the binary image data of the character string area input in this way in the direction perpendicular to the arrangement of the character strings, and accumulates black pixels (pixels representing the character part). Create a projection distribution map. Then, a part of this distribution map with a large change is found as a set as the left end and right end of the character, and it is checked whether the widths of the left end and right end of this set are appropriate by comparing with the width of the character. Then, the left end and right end coordinates of the character confirmed to be in the character area and the character image data surrounded by the left end and right end are outputted to the character area correction detection circuit 48.
(ホ)文字領域修正検出回路48は、゛このよう゛にし
て入力される文字の左端、右端座標から文字の中心座標
を求める。そして、隣合う個々の文字毎の文字中心座標
の差から文字ピッチを求め、これをあらかじめ定められ
ている文字ピッチと比較し、文字のとぎれや文字間の接
触によりうまく検出できなかった文字がないかどうかを
調べる。(E) The character area modification detection circuit 48 determines the center coordinates of the character from the left and right end coordinates of the character input in this manner. Then, the character pitch is determined from the difference in the character center coordinates of each adjacent character, and this is compared with a predetermined character pitch, and there are no characters that could not be detected successfully due to character breaks or contact between characters. Find out if.
第7図(a)には文字領域検出回路46により検出され
た文字の境界線、同図(b)には文字領域修正検出回路
48により修正して検出された文字の境界線の一例が示
されている。FIG. 7(a) shows an example of a character boundary line detected by the character area detection circuit 46, and FIG. 7(b) shows an example of a character boundary line corrected and detected by the character area correction detection circuit 48. has been done.
すなわち、検出された文字領域が定められた文字ピッチ
より小さい場合には、例えば第7図(a)に示す「v」
のように−文字がとぎれていると判断し、それを第7図
(b)に示すよう一文字とみなして新たに左端、右端座
標を求め、文字幅として妥当かどうか、さらには中心座
標を求め、隣合う文字とのピッチが妥当か否かを確認す
る。That is, if the detected character area is smaller than the predetermined character pitch, the "v" shown in FIG. 7(a), for example.
It is determined that the character is broken, as shown in Figure 7 (b), and it is regarded as one character, and the left and right end coordinates are newly determined, and the center coordinates are determined to determine whether the character width is appropriate. , check whether the pitch between adjacent characters is appropriate.
また、検出された文字領域が定められた文字ピッチより
大きい場合には、例えば第7図(a)示す「4」のよう
に、その間に文字のとぎれあるいは文字間の接触により
誤って検出された文字があると判断して、再びその範囲
での投影分布図を調べ直し、第7図(b)に示すごとく
、定められたピッチと文字幅に合うよう文字の左端と右
端座標を再検出する。Furthermore, if the detected character area is larger than the predetermined character pitch, as in the case of "4" shown in Figure 7(a), erroneous detection may occur due to breaks in characters or contact between characters. It is determined that there is a character, and the projection distribution map in that range is checked again, and the left and right end coordinates of the character are re-detected to match the specified pitch and character width, as shown in Figure 7(b). .
そして、このように修正し検出した個々の文字毎の左端
と右端座標を、文字領域別2値化回路50へ向は出力す
る。Then, the left end and right end coordinates of each character corrected and detected in this manner are outputted to the character region-specific binarization circuit 50.
(へ)文字領域別2値化回路50は、このようにして文
字領域修正検出回路48から入力されるデータに基づき
、個々の文字が存在する各小領域毎に最適な文字切出し
用2値化しきい値を演算する。そして、このようにして
求めた最適な文字切出し用2値化しきい値を用いて、前
記第3の画像メモリ30から出力される濃淡画像データ
から、各文字領域の2値画像データを作成する。(f) The character area-by-character binarization circuit 50 performs optimal character extraction binarization for each small area in which individual characters exist, based on the data inputted from the character area correction detection circuit 48 in this way. Calculate the threshold. Then, using the optimal binary threshold value for character extraction obtained in this manner, binary image data of each character area is created from the grayscale image data output from the third image memory 30.
この文字領域別2値化回路50は、具体的には濃度ヒス
トグラム作成回路52.2値化しきい値演算回路54.
2値化回路56とから構成されている。Specifically, the character area-specific binarization circuit 50 includes a density histogram creation circuit 52, a binarization threshold calculation circuit 54.
It is composed of a binarization circuit 56.
そして、濃度ヒストグラム作成回路52は、文字領域修
正検出回路48から入力される個々の文字領域を示す座
標と、第3の画像メモリから入力される個々の文字領域
を示す座標に対応する濃淡画像データに基づき、濃度ヒ
ストグラムを作成し、2値化しきい値演算回路54へ向
は出力する。Then, the density histogram creation circuit 52 generates grayscale image data corresponding to the coordinates indicating each character area inputted from the character area correction detection circuit 48 and the coordinates indicating each character area inputted from the third image memory. Based on this, a density histogram is created and output to the binarization threshold calculation circuit 54.
2値化しきい値演算回路54は、この濃度ヒストグラム
により、文字の濃度レベルの山と背景の濃度レベルの山
との間の谷の部分を求めて、これを2値化しきい値とし
て出力する。The binarization threshold calculation circuit 54 uses this density histogram to find the valley between the peak of the character density level and the peak of the background density level, and outputs this as a binarization threshold.
このようにして、2値化しきい値演算回路54は、各文
字毎の最適2値化しきい値を演算し、2値化回路56へ
向は出力する。In this way, the binarization threshold calculation circuit 54 calculates the optimum binarization threshold for each character and outputs it to the binarization circuit 56.
2値化回路56は、個々の文字領域を示す座標に対応す
る濃淡画像データを、前記最適しきい値を用いて2値画
像化し、このようにして求めた各文字毎の2値画像デー
タを文字領域別再2値化回路58へ向は出力する。The binarization circuit 56 converts the gray scale image data corresponding to the coordinates indicating each character area into a binary image using the optimum threshold value, and converts the binary image data for each character obtained in this way into a binary image. The signal is output to the character area re-binarization circuit 58.
第6図(e)には、このようにして求めた各文字毎の最
適21iaiiI像データが示されている。同図から明
らかなように、本実施例の回路を用いることにより、第
6図(a)に示すように背景部に濃淡むらがあるような
濃淡画像データから、第6図(e)に示すように、各文
字毎の良質な2値画像データを得ることができる。FIG. 6(e) shows the optimum 21iaiii image data for each character obtained in this way. As is clear from the figure, by using the circuit of this embodiment, the image data as shown in FIG. As such, high-quality binary image data for each character can be obtained.
(ト)本実施例の装置は、このようにして求めた各文字
毎の2値画像データを文字領域別再2値化回路58へ入
力している。(g) In the apparatus of this embodiment, the binary image data for each character obtained in this manner is input to the re-binarization circuit 58 for each character area.
この文字領域別再2値化回路58は、個々の文字のとぎ
れや文字線幅の不適性を改善するために再度2値画像デ
ータ化(再2値化と記す)を繰り返して行い、良質な文
字画像を作成すると共に、文字領域内のノイズをも除去
するよう形成されている。具体的には、ラベリング回路
60、文字線判定回路62、再2値化しきい値設定回路
64、再2値化回路66およびノイズ除去回路68から
構成されている。This character area re-binarization circuit 58 repeatedly converts the image into binary image data (hereinafter referred to as "re-binarization") in order to improve the discontinuity of individual characters and the unsuitability of the character line width. It is formed to create a character image and also remove noise within the character area. Specifically, it includes a labeling circuit 60, a character line determination circuit 62, a re-binarization threshold setting circuit 64, a re-binarization circuit 66, and a noise removal circuit 68.
前記ラベリング回路60は、個々の文字毎の2値画像デ
ータに対し、黒画素(文字部に相当する画素)のまとま
りに同じラベルを付ける処理を行う。The labeling circuit 60 performs a process of attaching the same label to a group of black pixels (pixels corresponding to a character part) in binary image data for each character.
そして、文字線判定回路62は、ラベル付された文字画
像データを評価して、これを再2値化する必要があるか
どうかを判断する。Then, the character line determination circuit 62 evaluates the labeled character image data and determines whether it is necessary to re-binarize it.
すなわち、各文字画像データのラベル数が1の場合は、
この黒画素の集りが文字の大きさとして妥当であり、し
かも文字線幅が適性か否かを判断する。そして、この条
件を満足しない場合には、再2値化しきい値設定回路6
4へ、文字画像データを出力し、満足する場合にはノイ
ズ除去回路68へ文字画像データを出力する。In other words, if the number of labels for each character image data is 1,
It is determined whether this collection of black pixels is appropriate as a character size and character line width is appropriate. If this condition is not satisfied, the re-binarization threshold setting circuit 6
4, the character image data is output to the noise removal circuit 68, and if the result is satisfied, the character image data is output to the noise removal circuit 68.
また、各文字画像データのラベル数が2以上の場合には
、最大の黒画素の集りと2番目の黒画素の集りとを比較
する。そして、最大の集りが2番目の集りの2倍以上の
画素数を有し、かつ最大の集りが文字の大きさおよび文
字線幅の許容値を満足する場合にのみ、文字画像データ
をノイズ除去回路68へ出力し、それ以外は再2値化し
きい値設定回路へ出力する。Further, when the number of labels of each character image data is two or more, the largest group of black pixels and the second group of black pixels are compared. Then, the character image data is denoised only when the largest cluster has more than twice the number of pixels as the second cluster, and the largest cluster satisfies the tolerance values for character size and character line width. It is output to the circuit 68, and the others are output to the re-binarization threshold setting circuit.
再2値化しきい値設定回路64は、各文字画像データの
ラベル数が1で、文字線幅が太すぎる場合には、しきい
値を下げ、それ以外は全てしきい値を上げ、再2値化の
ための新しいしきい値として用いる。そして、再2値化
回路66にて、文字領域に相当する第3の画像メモリ3
0の濃淡画像データを再2値化し、これをラベ゛リング
回路60ノ\向は出力する。The re-binarization threshold setting circuit 64 lowers the threshold value when the number of labels of each character image data is 1 and the character line width is too thick, and raises the threshold value for all other cases, and performs re-binarization. Used as a new threshold for value conversion. Then, in the re-binarization circuit 66, the third image memory 3 corresponding to the character area is
The 0 grayscale image data is again binarized and outputted to the labeling circuit 60.
文字線判定回FI/i62は、前述したラベリング処理
と再2値化処理とからなる一連の処理を最大何回繰り返
すかを予め決めておき、規定回数終了した場合には、文
字線の判定条件を満足しなくても、2値化された文字画
像データをノイズ除去回路68へ向は出力する。The character line determination circuit FI/i62 determines in advance the maximum number of times to repeat the above-described series of processes consisting of the labeling process and the re-binarization process, and when the specified number of times is completed, the character line determination condition is Even if the condition is not satisfied, the binarized character image data is output to the noise removal circuit 68.
ノイズ除去回路68は、各文字領域の中で文字線以外の
ラベルをもつ黒画素の集りを消去し、文字抽出口#I7
0へ向は出力する。The noise removal circuit 68 erases a group of black pixels having labels other than character lines in each character area, and
Output towards 0.
文字抽出回路70は、ノイズ除去回路68から入力され
る文字領域の座標を伴った文字画像データを個別に切り
出し、文字識別装置300へ向は出力する。The character extraction circuit 70 individually cuts out the character image data together with the coordinates of the character area inputted from the noise removal circuit 68 and outputs it to the character identification device 300 .
第6図(f)には、このようにして文字領域別再2値化
検出回路58で再2値化され、文字抽出回路70から引
き出される各文字の2値画像データが示されている。同
図に示すように、例えば文字領域別2値化回路50から
同図(e)に示すように、文字のとぎれや、文字線幅の
不均一な文字画像データが出力されるような場合でも、
この文字領域別再2値化回路58を用いることにより、
同図(f)に示すように、個々の文字のとぎれや文字線
幅の不適性を改善し、しかもノイズを除去した文字画像
データを得ることができる。FIG. 6(f) shows the binary image data of each character that has been re-binarized by the character area re-binarization detection circuit 58 and extracted from the character extraction circuit 70. As shown in the figure, even when character image data with discontinuous characters or uneven character line widths is output from the character area binarization circuit 50 as shown in FIG. ,
By using this character area re-binarization circuit 58,
As shown in FIG. 5F, it is possible to obtain character image data in which the discontinuity of individual characters and inappropriate character line widths are improved, and noise is removed.
文ヱILL聚1
本実施例の文字識別装置300は、文字切出し装置20
0により切り出された個々の文字を、位置正規化回路7
2へ入力し、入力された文字の重心を求めて、その重心
を基準位置に合わせた後、類似度演算回路74へ向は出
力する。文ヱILL聚1 The character identification device 300 of this embodiment includes the character cutting device 20.
The individual characters cut out by 0 are processed by a position normalization circuit 7.
2, the center of gravity of the input character is determined, the center of gravity is aligned with the reference position, and then outputted to the similarity calculation circuit 74.
類似度演算回路74は、標準パターンメモリ78に予め
登録されている各文字種の標準パターンと、位置正規化
回路72から出力される各文字画像データとを逐次重ね
合せながら、文字の種類とその一致の程度を表す類似度
を計算し、文字種判定回路76へ向は出力する。The similarity calculation circuit 74 sequentially superimposes the standard pattern of each character type registered in advance in the standard pattern memory 78 and each character image data output from the position normalization circuit 72, and calculates the character types and their matches. The degree of similarity representing the degree of similarity is calculated and output to the character type determination circuit 76.
文字種判定回路76は、各文字の類似度を所定の判定基
準に照し合せ、判定された文字が正確に識別されたか否
かを判断する。The character type determination circuit 76 compares the degree of similarity of each character with a predetermined criterion and determines whether the determined character has been correctly identified.
以上説明したように、本発明に係る文字切出し装置20
0を用いることにより、刻印文字Aを正確に切り出し、
その判読を正確に行うことができる。As explained above, the character cutting device 20 according to the present invention
By using 0, the engraved character A can be accurately cut out,
The interpretation can be performed accurately.
なお、本発明は前述した実施例に限定されるものではな
く、本発明の要管の範囲内で各種の変形実施が可能であ
る。Note that the present invention is not limited to the embodiments described above, and various modifications can be made within the scope of the main aspects of the present invention.
例えば、前記実権例においては、刻印文字を例にとり説
明したが、本発明はこれに限らず、必要に応じて他の種
類の文字の認識に用いることもできる。For example, in the above-mentioned practical example, the explanation was given using stamped characters as an example, but the present invention is not limited to this, and can be used to recognize other types of characters as necessary.
また、前記実施例においては、光学的なIl像手段を用
いた場合を甫1にとり説明したが、本発明はこれに限ら
ず、必要に応じて他のタイプのflil像手段全手段て
も良い。Further, in the above embodiment, the case where an optical Il image means is used is explained as F1, but the present invention is not limited to this, and all other types of flI image means may be used as necessary. .
さらに、前記実施例においては、文字列が1つで横並び
の場合を例にとり説明したが、本発明はこれに限らず、
文字列が複数列である場合でも、また文字が縦並びの場
合でも、同様にして文字゛の切出しを行うことができる
。Further, in the above embodiment, the case where there is one character string and is arranged side by side has been explained as an example, but the present invention is not limited to this.
Even if there are multiple character strings or characters are arranged vertically, characters can be extracted in the same way.
【図面の簡単な説明】
第1図は、本発明に係るクレーム対応図、第2図は、本
発明に係る分割領域別の2値化動作を示す説明図、
第3図は、本発明に係る文字列領域検出動作および文字
領域検出動作を示す説明図、
第4図は、本発明に係る文字領域別再2値化動作を示す
説明図、
第5図は、本発明か適用された文字認識装置の好適な実
施例を示すブロック回路図、
第6図は第5図に示す文字認識装置の動作の一例を示す
説明図、
第7図は第5図に示す文字領域検出動作の一例を示す説
明図である。
14 ・・・
20 ・・・
32 ・・・
42 ・・・
44 ・・・
46 ・・・
48 ・・・
50 ・・・
58 ・・・
A ・・・
テレビカメラ
文字候補濃度検出回路
分割領域別2値化回路
ノイズ除去回路
文字列領域検出回路
文字領域検出回路
文字領域修正検出回路
文字領域別2値化回路
文字領域別再2値化回路
・・・ 撮像装置
・・・文字切出し装置
刻印文字
第4図
(b)
(C)
第
図[Brief Description of the Drawings] Fig. 1 is a claim correspondence diagram according to the present invention, Fig. 2 is an explanatory diagram showing the binarization operation for each divided area according to the present invention, and Fig. 3 is a diagram corresponding to the claims according to the present invention. FIG. 4 is an explanatory diagram showing the character string area detection operation and character area detection operation; FIG. 4 is an explanatory diagram showing the re-binarization operation for each character area according to the present invention; FIG. FIG. 6 is an explanatory diagram showing an example of the operation of the character recognition device shown in FIG. 5; FIG. 7 is an example of the character area detection operation shown in FIG. 5. FIG. 14 ... 20 ... 32 ... 42 ... 44 ... 46 ... 48 ... 50 ... 58 ... A ... TV camera character candidate density detection circuit by division area Binarization circuit Noise removal circuit Character string area detection circuit Character area detection circuit Character area correction detection circuit Binarization circuit for each character area Re-binarization circuit for each character area... Imaging device...Character cutting device Stamped character No. Figure 4 (b) (C) Figure 4
Claims (10)
像データから、個々の文字を検出して切出す文字切出し
装置において、 濃淡画像データをいくつかの小領域に分割し、各小領域
毎に最適な文字領域検出用2値化しきい値を計算すると
共に濃淡画像データを各小領域毎に2値化する文字領域
検出用の分割領域別2値化手段と、 分割領域別2値化手段から出力される2値画像データに
基づき、文字列の存在する小領域を検出する文字列領域
検出手段と、 文字列領域検出手段で検出された文字列の存在する小領
域において、個々の文字が存在する小領域を逐次検出す
る文字領域検出手段と、 個々の文字が存在する小領域毎に最適な文字切出し用2
値化しきい値を計算し、濃淡画像データを各小領域毎に
2値化する文字領域別2値化手段と、 を含み、個々の文字画像データを切出し出力することを
特徴とする文字切出し装置。(1) In a character cutting device that detects and cuts out individual characters from grayscale image data including characters imaged using an imaging means, the grayscale image data is divided into several small regions, and each small region is binarization means for each divided area for character area detection, which calculates an optimal binarization threshold for character area detection for each subarea, and binarizes grayscale image data for each small area; a character string area detection means for detecting a small area in which a character string exists based on binary image data output from the means; Character area detection means for sequentially detecting small areas where individual characters exist, and 2 for optimal character extraction for each small area where individual characters exist.
A character region-specific binarization means for calculating a valorization threshold and binarizing grayscale image data for each small region; and a character cutting device for cutting out and outputting individual character image data. .
分割領域別2値化手段は、文字の大きさに対応して予め
定められた分割数で濃淡画像データ全体を分割し、分割
された各小領域毎に濃度ヒストグラムを作成して、ヒス
トグラムから最適なしきい値を求めて濃淡画像データを
各小領域毎に2値化することを特徴とする文字切出し装
置。(2) In the apparatus according to claim (1), the dividing area-specific binarization means divides the entire grayscale image data into a predetermined number of divisions corresponding to the size of the characters, and A character cutting device characterized in that a density histogram is created for each small area, and an optimal threshold value is determined from the histogram to binarize grayscale image data for each small area.
の装置において、 前記文字列領域検出手段は、2値化された画像データを
文字列の並びと平行に走査して投影分布を作り、投影分
布と文字の大きさとに基づき文字列が存在する領域を検
出するよう形成され、前記文字領域検出手段は、文字列
が存在する小領域の2値画像データを文字列の並びと垂
直な方向に走査して投影分布を作り、投影分布と文字の
大きさとに基づき個々の文字が存在する小領域を逐次検
出することを特徴とする文字切出し装置。(3) In the apparatus according to any one of claims (1) and (2), the character string area detection means scans and projects the binarized image data in parallel with the arrangement of the character strings. The character area detecting means converts binary image data of a small area where a character string exists into an arrangement of character strings. A character cutting device is characterized in that a projection distribution is created by scanning in a direction perpendicular to the character, and small areas in which individual characters exist are sequentially detected based on the projection distribution and the size of the character.
の装置において、 前記文字領域別2値化手段は、個々の文字が存在する小
領域毎に濃淡画像データの濃度ヒストグラムを作成して
各ヒストグラムから各小領域毎に最適なしきい値を求め
濃淡画像データを2値化することを特徴とする文字切出
し装置。(4) In the apparatus according to any one of claims (1) to (3), the character area-specific binarization means generates a density histogram of the grayscale image data for each small area in which each character exists. A character cutting device that generates a histogram, determines an optimal threshold value for each small region from each histogram, and binarizes grayscale image data.
の装置において、 文字領域別2値化手段の後段に、文字領域別2値化手段
から出力された個々の文字領域毎の2値画像データの良
否を判定し、良質な文字画像の条件を満たすよう各文字
領域毎に濃淡画像データを再2値化し、文字画像を得る
文字領域別再2値化手段を設けたことを特徴とする文字
切出し装置。(5) In the device according to any one of claims (1) to (4), after the character area-based binarization means, each character area output from the character area-based binarization means is provided. A character area-specific re-binarization means is provided for determining the quality of the binary image data, re-binarizing the grayscale image data for each character area to satisfy the conditions for a high-quality character image, and obtaining a character image. A character cutting device featuring:
値画像データに対してラベリング処理を行い、文字線の
まとまりの程度および文字線幅の程度を判定することに
よりしきい値を増減して文字領域における濃淡画像デー
タを再2値化し、これをくりかえすことにより良質な文
字画像を得ることを特徴とする文字切出し装置。(6) In the apparatus according to claim (5), the character area-based re-binarization means may perform binarization for each character area.
The labeling process is performed on the value image data, and by determining the degree of clustering of character lines and the degree of character line width, the threshold value is increased or decreased to re-binarize the grayscale image data in the character area, and this process is repeated. A character cutting device characterized by obtaining high quality character images.
の装置において、 文字領域検出手段と文字領域別2値化手段との間に、1
つの文字の中での文字線のとぎれおよび2つ以上の文字
同士の接触を検出し、文字領域を修正して検出する文字
領域修正検出手段を設けたことを特徴とする文字切出し
装置。(7) In the device according to any one of claims (1) to (6), between the character area detection means and the character area specific binarization means, one
1. A character cutting device comprising a character area correction detection means for detecting a break in a character line within one character and a contact between two or more characters, and correcting and detecting a character area.
の装置において、 撮像手段と分割領域2値化手段との間に、撮像手段から
出力された濃淡画像データの背景部の濃淡むらを緩和し
て、文字部の候補となる濃度を抽出する文字候補濃度抽
出手段を設けたことを特徴とする文字切出し装置。(8) In the apparatus according to any one of claims (1) to (7), between the imaging means and the divided area binarization means, a background part of the grayscale image data output from the imaging means is provided. A character cutting device characterized by comprising a character candidate density extraction means for alleviating uneven shading and extracting densities as candidates for character portions.
囲で濃度が大きく変化する領域を、周りの背景と同じ濃
度で置換える処理を行い、処理を施した濃淡画像データ
と元の濃淡画像データとの差分画像データを求めること
により、濃淡画像データの背景部の濃淡むらを緩和して
文字候補となる領域の濃度を抽出するよう形成されたこ
とを特徴とする文字切出し装置。(9) In the apparatus according to claim (8), the character candidate density extraction means performs a process of replacing an area where the density changes greatly in a narrow range of the grayscale image data with the same density as the surrounding background. By calculating the difference image data between the processed grayscale image data and the original grayscale image data, the grayscale image data is formed so that the density unevenness in the background part of the grayscale image data is alleviated and the density of the area that becomes a character candidate is extracted. A character cutting device characterized by:
載の装置において、 分割領域別2値化手段と文字列領域検出手段との間に、
分割領域別2値化手段から出力された2値画像データか
らノイズを除去するノイズ除去手段を設けたことを特徴
とする文字切出し装置。(10) In the device according to any one of claims (1) to (9), between the divided area binarization means and the character string area detection means,
A character cutting device characterized by comprising a noise removing means for removing noise from binary image data outputted from a binarizing means for divided regions.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63208892A JPH0256688A (en) | 1988-08-23 | 1988-08-23 | Character segmenting device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63208892A JPH0256688A (en) | 1988-08-23 | 1988-08-23 | Character segmenting device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0256688A true JPH0256688A (en) | 1990-02-26 |
Family
ID=16563855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63208892A Pending JPH0256688A (en) | 1988-08-23 | 1988-08-23 | Character segmenting device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0256688A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03204791A (en) * | 1990-01-05 | 1991-09-06 | Nippon Steel Corp | Method and device for detecting marking |
JPH04268989A (en) * | 1991-02-25 | 1992-09-24 | Nippon Steel Corp | Method and device for recognizing character |
US6883707B2 (en) | 2003-01-08 | 2005-04-26 | Glory Ltd. | Bill serial number reading device and bill serial number reading method |
JP2006228232A (en) * | 2005-02-18 | 2006-08-31 | Fujitsu Ltd | Character dividing program, character dividing device and character dividing method |
KR100717674B1 (en) * | 2002-11-15 | 2007-05-11 | 바스프 악티엔게젤샤프트 | Fungicidal Mixtures Based on a Triazolopyrimidine Derivative and Amide Compounds |
US8160402B2 (en) | 2007-07-23 | 2012-04-17 | Sharp Kabushiki Kaisha | Document image processing apparatus |
JP2013527513A (en) * | 2010-03-10 | 2013-06-27 | マイクロソフト コーポレーション | Method and system for improving text resolution of text images recognized by optical characters |
JP2015028735A (en) * | 2013-07-30 | 2015-02-12 | 富士ゼロックス株式会社 | Image processing device and program |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5148933A (en) * | 1974-07-26 | 1976-04-27 | Sulzer Morat Gmbh | Tashokupataanno sosakaraerareru johoo shorisuru hohooyobisochi |
JPS59178872A (en) * | 1983-03-30 | 1984-10-11 | Fujitsu Ltd | Binary-coding system of contrast picture |
JPS61141087A (en) * | 1984-12-14 | 1986-06-28 | Hitachi Ltd | Method and device for processing picture |
JPS61193277A (en) * | 1985-02-20 | 1986-08-27 | Mitsubishi Electric Corp | Document reader |
JPS61210768A (en) * | 1985-03-14 | 1986-09-18 | Murata Mach Ltd | Binary coding method for picture signal |
JPS62175887A (en) * | 1986-01-30 | 1987-08-01 | Hitachi Ltd | Image processing method |
JPS62259192A (en) * | 1986-05-06 | 1987-11-11 | Toshiba Corp | Rejection correction system |
-
1988
- 1988-08-23 JP JP63208892A patent/JPH0256688A/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5148933A (en) * | 1974-07-26 | 1976-04-27 | Sulzer Morat Gmbh | Tashokupataanno sosakaraerareru johoo shorisuru hohooyobisochi |
JPS59178872A (en) * | 1983-03-30 | 1984-10-11 | Fujitsu Ltd | Binary-coding system of contrast picture |
JPS61141087A (en) * | 1984-12-14 | 1986-06-28 | Hitachi Ltd | Method and device for processing picture |
JPS61193277A (en) * | 1985-02-20 | 1986-08-27 | Mitsubishi Electric Corp | Document reader |
JPS61210768A (en) * | 1985-03-14 | 1986-09-18 | Murata Mach Ltd | Binary coding method for picture signal |
JPS62175887A (en) * | 1986-01-30 | 1987-08-01 | Hitachi Ltd | Image processing method |
JPS62259192A (en) * | 1986-05-06 | 1987-11-11 | Toshiba Corp | Rejection correction system |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03204791A (en) * | 1990-01-05 | 1991-09-06 | Nippon Steel Corp | Method and device for detecting marking |
JPH04268989A (en) * | 1991-02-25 | 1992-09-24 | Nippon Steel Corp | Method and device for recognizing character |
KR100717674B1 (en) * | 2002-11-15 | 2007-05-11 | 바스프 악티엔게젤샤프트 | Fungicidal Mixtures Based on a Triazolopyrimidine Derivative and Amide Compounds |
US6883707B2 (en) | 2003-01-08 | 2005-04-26 | Glory Ltd. | Bill serial number reading device and bill serial number reading method |
JP2006228232A (en) * | 2005-02-18 | 2006-08-31 | Fujitsu Ltd | Character dividing program, character dividing device and character dividing method |
US8160402B2 (en) | 2007-07-23 | 2012-04-17 | Sharp Kabushiki Kaisha | Document image processing apparatus |
JP2013527513A (en) * | 2010-03-10 | 2013-06-27 | マイクロソフト コーポレーション | Method and system for improving text resolution of text images recognized by optical characters |
JP2015028735A (en) * | 2013-07-30 | 2015-02-12 | 富士ゼロックス株式会社 | Image processing device and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | An approach to Korean license plate recognition based on vertical edge matching | |
US5784500A (en) | Image binarization apparatus and method of it | |
US20050163374A1 (en) | Methods and systems for automatic detection of continuous-tone regions in document images | |
CN110210440B (en) | Table image layout analysis method and system | |
JP2002133426A (en) | Ruled line extracting device for extracting ruled line from multiple image | |
CN101122953A (en) | Picture words segmentation method | |
US20050271275A1 (en) | Text character identification system and method thereof | |
CN116071763B (en) | Teaching book intelligent correction system based on character recognition | |
CN106326887A (en) | Method and device for checking optical character recognition result | |
CN112508913A (en) | Cable section edge detection method based on image detection | |
JPH0256688A (en) | Character segmenting device | |
US8200016B2 (en) | Method and apparatus for character string recognition | |
IL98293A (en) | Method of discriminating between text and graphics | |
JPH09311905A (en) | Line detecting method and character recognition device | |
JP3416058B2 (en) | Character extraction method of gray image and recording medium recording the program | |
JPH08305795A (en) | Character recognizing method | |
CN112200053A (en) | Table identification method fusing local features | |
KR100295360B1 (en) | Image Processing Method Using Shading Algorithm | |
CN112163581B (en) | License plate letter recognition method, system, device and storage medium | |
CN112633289A (en) | Method and system for segmenting sticky characters | |
JP4409713B2 (en) | Document image recognition apparatus and recording medium | |
JP2004094427A (en) | Slip image processor and program for realizing the same device | |
JPH02116987A (en) | Character recognizing device | |
JPH01244587A (en) | Character segmenting device | |
CN116994261B (en) | Intelligent recognition system for big data accurate teaching intelligent question card image |