JP3248965B2 - Binary threshold value determination device - Google Patents
Binary threshold value determination deviceInfo
- Publication number
- JP3248965B2 JP3248965B2 JP34237192A JP34237192A JP3248965B2 JP 3248965 B2 JP3248965 B2 JP 3248965B2 JP 34237192 A JP34237192 A JP 34237192A JP 34237192 A JP34237192 A JP 34237192A JP 3248965 B2 JP3248965 B2 JP 3248965B2
- Authority
- JP
- Japan
- Prior art keywords
- value
- image
- threshold value
- density
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/162—Quantising the image signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Input (AREA)
- Image Processing (AREA)
- Facsimile Image Signal Circuits (AREA)
- Character Input (AREA)
Description
【0001】[0001]
【産業上の利用分野】本発明は、例えば文字認識装置の
入力画像を得るために多値画像を2値化する際の2値化
しきい値を決定するために、学習機能を持つニューラル
ネットワークを用いた2値化しきい値決定装置に関す
る。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a neural network having a learning function for determining a binarization threshold for binarizing a multivalued image in order to obtain an input image of a character recognition device. The present invention relates to a binarization threshold value determining device used.
【0002】[0002]
【従来の技術】一般に、文字認識装置は2値画像を認識
対象としており、多値画像の場合には、これを2値化し
て入力させる必要がある。ここに、文字認識装置の認識
性能は、2値画像の品質に左右されるので、文字認識装
置の前段に品質のよい2値画像を得る2値化処理手段を
追加すれば、文字認識装置の性能を向上させ得るといえ
る。2. Description of the Related Art In general, a character recognition apparatus recognizes a binary image, and in the case of a multivalued image, it is necessary to input the binary image. Here, the recognition performance of the character recognition device depends on the quality of the binary image. Therefore, if a binarization processing unit for obtaining a high-quality binary image is added at the preceding stage of the character recognition device, the recognition performance of the character recognition device can be improved. It can be said that the performance can be improved.
【0003】そこで、多値画像を2値化するための2値
化しきい値を決定する手法として、従来、多くのものが
提案・発表されている。数例を挙げると、第1に、論文
「判別および最小2乗基準に基づく自動しきい値選定
法」(電子情報通信学会論文誌D Vol.J63 No.4 pp.3
49〜359) として発表された判別分析法がある。これ
は、しきい値選定の問題を一般的基本的枠組で捉え、分
離されるクラスの濃度レベルでの分離度を最大とする判
別基準の観点から、濃度ヒストグラムの0次と1次の累
積モーメントのみを用いるようにしたものであり、濃淡
画像の最小2乗近似の意味でも最適な手法として、多値
化の場合にも容易に拡張できるというものである。[0003] Therefore, as a method of determining a binarization threshold value for binarizing a multi-valued image, many methods have been conventionally proposed and announced. To give a few examples, first, a paper "Automatic threshold selection based on discrimination and least square criterion" (IEICE Transactions D Vol. J63 No.4 pp.3
49-359). This is because the problem of threshold selection is grasped in a general basic framework, and the 0th-order and 1st-order cumulative moments of the density histogram are considered from the viewpoint of a criterion for maximizing the degree of separation at the density level of the class to be separated. In this case, only an optimal method is used in the sense of least-squares approximation of a gray-scale image.
【0004】第2に、論文「平均隣接数に着目したしき
い値決定法」(電子情報通信学会論文誌D−II Vol.J
73 No.3 pp.360〜366) として発表された平均隣接数に
よる方法がある。これは、濃淡画像(多値画像)につい
てしきい値を変えながら2値化した時の連結成分のまと
まりの良さを表す尺度として「平均隣接数」を定義し、
この尺度が極大となる値を適切なしきい値として決定す
るようにしたものである。この際、変化させるしきい値
の数に比例して演算量が増えないようにするため、ラン
クフィルタとヒストグラム処理の組合せにより、変化さ
せるしきい値の数に依存しない演算量で、平均隣接数を
高速に算出し得るような工夫もなされている。[0004] Second, a paper “Threshold Determination Method Focusing on Average Number of Adjacent Numbers” (IEICE Transactions D-II Vol.J
73 No. 3 pp. 360-366). This defines the “average number of neighbors” as a measure of the goodness of the connected components when binarizing the grayscale image (multi-valued image) while changing the threshold value,
The value at which this measure becomes maximum is determined as an appropriate threshold value. At this time, in order to prevent the amount of calculation from increasing in proportion to the number of thresholds to be changed, the average number of neighbors is calculated by a combination of rank filter and histogram processing with the amount of calculation independent of the number of thresholds to be changed. Has been devised so that can be calculated at high speed.
【0005】第3に、論文「雑音の多い濃淡画像の新し
い2値化しきい値算出法(局所ヒストグラム差分法)の
提案」ないしは「雑音の多い濃淡画像のしきい値算出法
(局所ヒストグラム差分法)の特性」(1990年電子情報
通信学会秋季全国大会 D-365,366)として発表された
局所ヒストグラム差分法がある。これは、濃度の高い領
域と濃度の低い領域の単位面積当りのヒストグラム、即
ち、規格化ヒストグラムの差分を利用するものであり、
しきい値の計算に雑音の大きさやパターン率が関与せ
ず、真のしきい値を算出し得るというものである。Third, the paper "Proposal of a new method of calculating a binary threshold value of a noisy gray image (local histogram difference method)" or "a method of calculating a threshold value of a noisy gray image (local histogram difference method)" ) "(1990 IEICE Autumn National Convention D-365,366). This utilizes the difference between the high density area and the low density area per unit area histogram, that is, the difference between the normalized histograms.
The true threshold value can be calculated without regard to the noise level or the pattern rate in the calculation of the threshold value.
【0006】さらに、多値画像の2値化にニューラルネ
ットワークを用いた例として、論文「画像の最適2値化
を行う緩和型神経回路モデルとその並列コンピュータに
よる実現」(電子情報通信学会論文誌D−II Vol.J74
No.6 pp.678〜687) として発表された神経回路モデル
を用いた方法がある。これは、画像上の全ての局所近傍
系における画素の濃淡値と2値化画素間の誤差によって
定義されたエネルギー関数を最小化して、最適な2値化
を行うようにしたものである。Further, as an example of using a neural network for binarizing a multi-valued image, see the paper "Relaxed Neural Network Model for Optimizing Image Binarization and Its Realization by Parallel Computer" (Transactions of the Institute of Electronics, Information and Communication Engineers). D-II Vol.J74
No.6 pp.678-687) using a neural circuit model. This is to optimize the binarization by minimizing the energy function defined by the grayscale values of the pixels and the error between the binarized pixels in all the local neighborhood systems on the image.
【0007】[0007]
【発明が解決しようとする課題】ところが、これらの方
法の場合、下記のような欠点がある。例えば、判別分析
法や局所ヒストグラム法では、文字認識装置の前処理と
しては2値化しきい値決定の精度が充分でなく、原稿に
よっては品質の悪い2値画像しか得られないことがあ
る。また、平均隣接数による方法では、各2値化しきい
値を用いて得られた2値化画像全てについて処理を行う
(適応しきい値法)ので、処理時間が長くかかってしま
う。さらに、神経回路モデルを用いた方法では、注目点
の近傍の数画素の値を入力としているため、1ドットの
ノイズなどが発生しやすく、文字認識装置の前処理とし
てはあまり適当ではない。However, these methods have the following disadvantages. For example, in the discriminant analysis method and the local histogram method, the accuracy of the determination of the binarization threshold value is not sufficient as preprocessing of the character recognition device, and only a low-quality binary image may be obtained depending on the original. Further, in the method using the average number of neighbors, processing is performed on all of the binarized images obtained using the respective binarization thresholds (adaptive threshold method), so that the processing time is long. Further, in the method using the neural circuit model, since the values of several pixels near the point of interest are input, one-dot noise is likely to occur, which is not very suitable as preprocessing of the character recognition device.
【0008】このように何れの手法によっても、文字認
識装置の前処理としては、未だ、不充分である。特に、
判別分析法や局所ヒストグラム法では、濃度ヒストグラ
ムから得られる情報の内、一部の情報しか利用していな
いため、2値化しきい値決定の精度が充分でないと考え
られる。As described above, the preprocessing of the character recognition apparatus is still insufficient by any of the methods. In particular,
In the discriminant analysis method and the local histogram method, only a part of the information obtained from the density histogram is used, and therefore it is considered that the accuracy of determining the binarization threshold value is not sufficient.
【0009】[0009]
【課題を解決するための手段】請求項1記載の発明で
は、多値画像の各画素の濃度の平均値及び分散値を求め
る算出手段を設け、ニューラルネットワークに、求めら
れた濃度の平均値及び分散値を入力とする入力層と、入
力された多値画像に対する最適2値化しきい値を出力す
る出力層とを設けた。In the invention SUMMARY OF THE INVENTION 請 Motomeko 1, provided with calculating means for calculating a mean value and a variance value of the density of each pixel of the multivalued image, a neural network, the obtained density of the average value And an input layer that inputs a variance value and an output layer that outputs an optimal binarization threshold value for the input multi-valued image.
【0010】加えて、請求項2記載の発明では、ニュー
ラルネットワークに、多値画像から求められた濃度の平
均値及び分散値を入力層に与えて出力層から出力される
値より算出した2値化しきい値を用いて2値化した時の
文字認識装置の誤認識率をエラーとしてニューラルネッ
トワークの学習を行わせる学習制御手段を設けた。[0010] In addition, in the invention of claim 2, wherein, in the neural network, 2 value calculated from the value output from the output layer is given to the input layer of the average value and variance value of the density obtained from the multi-level image Learning control means for learning the neural network with an erroneous recognition rate of the character recognition device at the time of binarization using the threshold value as an error.
【0011】請求項3記載の発明では、多値画像の各画
素値から濃度ヒストグラムを作成する手段と、前記多値
画像の各画素の濃度の平均値及び分散値を求める算出手
段を設け、ニューラルネットワークに、これらの濃度ヒ
ストグラム、濃度の平均値及び分散値を入力とする入力
層と、入力された多値画像に対する最適2値化しきい値
を出力する出力層とを設けた。According to a third aspect of the present invention, there is provided a means for creating a density histogram from each pixel value of the multi-valued image, and a calculating means for calculating an average value and a variance value of the density of each pixel of the multi-valued image. The network is provided with an input layer for inputting the density histogram, the average value and the variance of the density, and an output layer for outputting an optimal binarization threshold value for the input multi-valued image.
【0012】加えて、請求項4記載の発明では、ニュー
ラルネットワークに、多値画像から作成された濃度ヒス
トグラム、求められた濃度の平均値及び分散値を入力層
に与えて出力層から出力される値より算出した2値化し
きい値を用いて2値化した時の文字認識装置の誤認識率
をエラーとしてニューラルネットワークの学習を行わせ
る学習制御手段を設けた。[0012] In addition, in the invention of claim 4, wherein, in the neural network, the concentration histogram created from the multi-level image, is output from the output layer is given to the input layer of the average value and the variance of the determined concentration Learning control means is provided for learning the neural network with the error recognition rate of the character recognition device when binarized using the binarization threshold value calculated from the value as an error.
【0013】さらに、請求項5記載の発明では、多値画
像の各画素の濃度と各画素の傾きに関する2次元のヒス
トグラムを作成する手段を設け、ニューラルネットワー
クに、作成された2次元のヒストグラムの各座標上での
頻度値を入力とする入力層と、入力された多値画像に対
する最適2値化しきい値を出力する出力層とを設けた。Further, in the invention according to the fifth aspect, means for creating a two-dimensional histogram relating to the density of each pixel of the multi-valued image and the inclination of each pixel is provided, and the neural network is provided with a means for generating the two-dimensional histogram. An input layer for inputting a frequency value on each coordinate and an output layer for outputting an optimal binarization threshold value for the input multi-valued image are provided.
【0014】加えて、請求項6記載の発明では、ニュー
ラルネットワークに、多値画像から作成された2次元の
ヒストグラムの各座標上での頻度値を入力層に与えて出
力層から出力される値より算出した2値化しきい値を用
いて2値化した時の文字認識装置の誤認識率をエラーと
してニューラルネットワークの学習を行わせる学習制御
手段を設けた。In addition, in the invention according to claim 6 , the frequency value on each coordinate of the two-dimensional histogram created from the multi-valued image is given to the input layer to the neural network, and the value output from the output layer is given. A learning control means is provided for learning the neural network with an erroneous recognition rate of the character recognition device at the time of binarization using the binarization threshold calculated as an error.
【0015】請求項7記載の発明では、請求項3又は4
記載の発明に関し、濃度ヒストグラムを多値画像の平均
値及び分散値により正規化するようにした。According to the seventh aspect of the present invention, the third or fourth aspect is provided.
In the described invention, the density histogram is normalized by the average value and the variance value of the multi-valued image.
【0016】[0016]
【作用】請求項1,2記載の発明においては、多値画像
の各画素の濃度の平均値及び分散値をニューラルネット
ワークに入力させて2値化しきい値を決定するので、よ
り多くの情報を得るものとなり、精度の高い2値化しき
い値の決定が可能となる。請求項3,4記載の発明にお
いては、これらの濃度ヒストグラム全体とともに多値画
像の各画素の濃度の平均値及び分散値をもニューラルネ
ットワークに入力させて2値化しきい値を決定するの
で、より精度の高い2値化しきい値の決定が可能とな
る。請求項5,6記載の発明においても、濃度ヒストグ
ラムに各画素の傾き情報も加味した2次元のヒストグラ
ムをニューラルネットワークに入力させて2値化しきい
値を決定するので、より精度の高い2値化しきい値の決
定が可能となる。請求項7記載の発明においては、これ
らの発明で扱う濃度ヒストグラムに関して、多値画像の
平均値及び分散値により正規化するようにしたので、ス
キャナなどの違いによる濃度ヒストグラムのバラツキの
少ないものとなる。[Action] In the invention 請 Motomeko 1, wherein, because it determines the binarization threshold by inputting the average value and the variance value of the density of each pixel of the multivalued image to the neural network, more information And it is possible to determine the binarization threshold with high accuracy. According to the third and fourth aspects of the present invention, the binarization threshold value is determined by inputting the average value and the variance value of the density of each pixel of the multivalued image together with the entirety of the density histogram to the neural network. It is possible to determine the binarization threshold with high accuracy. Also in the inventions according to claims 5 and 6 , since a two-dimensional histogram in which the inclination information of each pixel is added to the density histogram is input to the neural network to determine the binarization threshold value, binarization with higher accuracy is performed. The threshold can be determined. According to the seventh aspect of the present invention, the density histograms handled by these inventions are normalized by the average value and the variance of the multi-valued image, so that variations in the density histogram due to differences in scanners and the like are reduced. .
【0017】[0017]
【実施例】本発明の第一の実施例を図1ないし図3に基
づいて説明する。本実施例の処理装置は、画像読取装置
(スキャナ)1で読取られた多値画像情報を、2値化情
報に変換して文字認識装置2に与えるためのものであ
り、この2値化処理を行う2値化処理部3に対して2値
化のためのしきい値を出力する2値化しきい値決定装置
4として構成されている。まず、画像読取装置1は原稿
画像を例えば各画素を256階調なる多値画像情報とし
て読取るものである。読取られた多値画像情報は多値画
像メモリ5に保存される。2値化処理部3は2値化しき
い値決定装置4で決定された2値化しきい値を用いて多
値画像メモリ5上の多値画像を2値化するものである。
より具体的には、2値化しきい値より大きな画素値を持
つ画素を“1”、それ以外の画素を“0”とする2値画
像情報とし、文字認識装置2に出力する。文字認識装置
2では入力される2値画像情報に対して、行切出し、文
字切出し、マッチング、言語処理などを行い、2値画像
上の文字画像を文字コードに変換する処理を行うもので
ある。文字認識装置2による処理結果は、結果出力部6
を通して出力される。具体的には、ユーザが認識結果の
修正処理を行えるように、ディスプレイ7上に認識結果
を表示させたり、認識結果をファイル8に保存する。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A first embodiment of the present invention will be described with reference to FIGS. The processing device of the present embodiment is for converting multi-valued image information read by the image reading device (scanner) 1 into binary information and providing the binary information to the character recognition device 2. Is configured as a binarization threshold value determination device 4 that outputs a threshold value for binarization to a binarization processing unit 3 that performs the binarization. First, the image reading apparatus 1 reads a document image as multivalued image information in which each pixel has 256 gradations, for example. The read multilevel image information is stored in the multilevel image memory 5. The binarization processing unit 3 binarizes the multivalued image in the multivalued image memory 5 using the binarization threshold value determined by the binarization threshold value determination device 4.
More specifically, a pixel having a pixel value larger than the binarization threshold is set to “1”, and the other pixels are set to “0” as binary image information, which is output to the character recognition device 2. The character recognition device 2 performs line cutout, character cutout, matching, language processing, and the like on the input binary image information, and performs processing for converting a character image on the binary image into a character code. The processing result by the character recognition device 2 is output to a result output unit 6.
Is output through Specifically, the recognition result is displayed on the display 7 or the recognition result is stored in the file 8 so that the user can perform the correction processing of the recognition result.
【0018】しかして、本実施例の2値化しきい値決定
装置4は、濃度ヒストグラム作成部(作成手段)9と学
習機能を持つニューラルネットワーク10とにより構成
されている。濃度ヒストグラム作成部9は多値画像の各
画素値から濃度ヒストグラムを作成するものである。ニ
ューラルネットワーク10は作成された濃度ヒストグラ
ムに基づき2値化しきい値を求めるものである。Thus, the binarization threshold value determining device 4 of the present embodiment comprises a density histogram creating section (creating means) 9 and a neural network 10 having a learning function. The density histogram creating section 9 creates a density histogram from each pixel value of the multi-valued image. The neural network 10 calculates a binarization threshold based on the created density histogram.
【0019】このニューラルネットワーク10の詳細を
図2を参照して説明する。このニューラルネットワーク
10は例えば入力層11、中間層12及び出力層13よ
りなる3層構造のもので、例えば各濃度値に対応して2
56個のニューロンユニット(○で示す)からなる入力
層11には濃度ヒストグラムの各濃度値における頻度値
が入力されるように設定されている。入力層11の各ニ
ューロンユニットと中間層12の5個のニューロンユニ
ットとは各々結合係数を持って結合されている。出力層
13は1個のニューロンユニットよりなり、所定の演算
結果として、最適2値化しきい値Thを出力するもので
ある。ここに、中間層12の各ニューロンユニットと出
力層13のニューロンユニットとは、同図中右側に示す
ようtanh(X)なる結合関数で結合されており、出力層
13からは−1〜1間の値が出力されるように設定され
ている。ここに、出力層13のアウトプットをout とす
ると、2値化しきい値Thは、 Th=128(out +1) ………(1) として求められる。The details of the neural network 10 will be described with reference to FIG. The neural network 10 has a three-layer structure including an input layer 11, an intermediate layer 12, and an output layer 13, for example.
The input layer 11 composed of 56 neuron units (shown by ○) is set so that the frequency value at each density value of the density histogram is input. Each neuron unit of the input layer 11 and five neuron units of the intermediate layer 12 are coupled with coupling coefficients. The output layer 13 is composed of one neuron unit and outputs an optimum binarization threshold Th as a predetermined calculation result. Here, each neuron unit of the intermediate layer 12 and the neuron unit of the output layer 13 are connected by a connection function of tanh (X) as shown on the right side in FIG. Is set to be output. Here, assuming that the output of the output layer 13 is out, the binarization threshold Th is obtained as Th = 128 (out + 1) (1).
【0020】このような構成において、まず、ニューラ
ルネットワーク10の学習処理を行う必要がある。学習
データとしては、多値画像情報とこの多値画像情報を各
2値化しきい値で2値化した場合に文字認識装置2から
得られる誤認識率が用いられる。一般に、文字認識装置
2においては文字画像のかすれ、潰れの何れかを生じた
場合にも認識性能は劣化するので、2値化しきい値と文
字認識装置2で得られる誤認識率とは、図3に示すよう
な関係となる。In such a configuration, first, it is necessary to perform a learning process of the neural network 10. As the learning data, multivalued image information and an erroneous recognition rate obtained from the character recognition device 2 when the multivalued image information is binarized by each binarization threshold are used. In general, in the character recognition device 2, the recognition performance is deteriorated even when any of a character image is blurred or crushed. Therefore, the binarization threshold and the erroneous recognition rate obtained by the character recognition device 2 are as shown in FIG. The relationship shown in FIG.
【0021】学習の際には、入力層11に濃度ヒストグ
ラムを入力させ、対応する多値画像から得られた図3に
示すような関数をエラー関数として(1)式を用いて出
力層13のアウトプットout からエラーを算出し、バッ
クプロパゲーション法によって、図2に示すような構成
のニューラルネットワーク10の学習を行う。このよう
な制御は、学習制御手段(図示せず)により行われる。At the time of learning, a density histogram is input to the input layer 11, and a function as shown in FIG. 3 obtained from the corresponding multi-valued image is used as an error function in the output layer 13 using the equation (1). An error is calculated from the output out, and learning of the neural network 10 having the configuration shown in FIG. 2 is performed by the back propagation method. Such control is performed by learning control means (not shown).
【0022】学習後のニューラルネットワーク10を用
いる場合、2値化処理すべき多値画像から得られた濃度
ヒストグラムを入力層11に入力させ、出力層13より
出力される値より、(1)式に従い2値化しきい値を決
定し、決定された2値化しきい値を用いて2値化処理部
3で2値化し、文字認識装置2に入力させることにな
る。When the neural network 10 after learning is used, a density histogram obtained from a multi-valued image to be binarized is input to the input layer 11, and the value output from the output layer 13 is used to calculate the expression (1). The binarization threshold value is determined in accordance with the following formula, and the binarization processing unit 3 binarizes the binary threshold value using the determined binarization threshold value, and causes the character recognition device 2 to input the binarization threshold value.
【0023】このように、本実施例によれば、ニューラ
ルネットワーク10において濃度ヒストグラム全体を入
力とさせて2値化しきい値を決定するようにしているの
で、濃度ヒストグラムから多くの情報を得ていることに
なり、精度の高い2値化しきい値の決定となり、そのた
めの処理速度も充分な速さで実現し得る。As described above, according to the present embodiment, since the entire density histogram is input to the neural network 10 to determine the binarization threshold, much information is obtained from the density histogram. This means that the binarization threshold value is determined with high accuracy, and the processing speed for that can be realized at a sufficient speed.
【0024】つづいて、本発明の第二の実施例を図4に
より説明する。前記実施例で示した部分と同一部分は同
一符号を用いて示す(以下の実施例でも同様とする)。
本実施例は、2値化しきい値決定の精度をより向上させ
るようにしたものであり、前記実施例に加えて、多値画
像の各画素の濃度の平均値及び分散値情報も加味するよ
うに構成されている。このような平均値及び分散値は、
図1を参照すれば、濃度ヒストグラム作成部9部分にお
いて算出される。Next, a second embodiment of the present invention will be described with reference to FIG. The same parts as the parts shown in the above-mentioned embodiment are denoted by the same reference numerals (the same applies to the following embodiments).
This embodiment is designed to further improve the accuracy of the determination of the binarization threshold value. In addition to the embodiment, the average value and the variance value of the density of each pixel of the multi-valued image are taken into account. Is configured. Such mean and variance values are
Referring to FIG. 1, it is calculated in the density histogram creating section 9.
【0025】本実施例のニューラルネットワーク10
は、濃度ヒストグラムとともに、これらの各画素の濃度
の平均値及び分散値情報も入力とするものであり、入力
層11はニューロンユニットが2個付加されて、合計2
58個のニューロンユニットにより構成されている。な
お、より具体的には、多値画像から得られる濃度ヒスト
グラムの平均値、分散値を求め、多値画像から得られた
濃度ヒストグラムの分布を正規分布と仮定し、平均値が
0、分散値が1の標準正規分布となるように変換を行う
ことにより、正規化された濃度ヒストグラムを入力させ
るようにしている。このような濃度ヒストグラムの正規
化処理により、画像読取装置1の違いなどによる濃度ヒ
ストグラムのバラツキをなくすことができる。The neural network 10 of the present embodiment
Is input with the average value and the variance value of the density of each of these pixels together with the density histogram. The input layer 11 has two neuron units added, and a total of 2
It is composed of 58 neuron units. More specifically, the average value and the variance of the density histogram obtained from the multi-valued image are obtained, and the distribution of the density histogram obtained from the multi-valued image is assumed to be a normal distribution. Is converted into a standard normal distribution of 1 so that a normalized density histogram is input. Such normalization of the density histogram makes it possible to eliminate variations in the density histogram due to differences between the image reading apparatuses 1 and the like.
【0026】ここに、多値画像の各画素の濃度の平均値
及び分散値が2値化しきい値決定の精度に及ぼす影響が
大きいため、本実施例のニューラルネットワーク10で
は、濃度ヒストグラムとは別の階層のネットワークを形
成する構成とされている。即ち、出力層13にはバイア
ス値可変のバイアスyのみを加算する加算ユニット14
が結合され、この加算ユニット14の出力と分散値とを
乗算する乗算ユニット15が設けられ、平均値と可変結
合係数Xにより重み付けされたこの乗算ユニット15の
出力とを加算して2値化しきい値Thを出力する加算ユ
ニット16が設けられている。出力層13と加算ユニッ
ト14との間、加算ユニット14と乗算ユニット15と
の間、入力層11中の分散値用ユニットと乗算ユニット
15との間、入力層11中の平均値用ユニットと加算ユ
ニット16との間の結合重みは常に1とされている。Here, since the average value and the variance of the density of each pixel of the multi-valued image greatly affect the accuracy of the determination of the binarization threshold value, the neural network 10 of this embodiment is different from the density histogram. Is formed to form a hierarchical network. That is, the addition unit 14 that adds only the bias y having a variable bias value to the output layer 13.
And a multiplication unit 15 for multiplying the output of the addition unit 14 by the variance value is provided. The average value and the output of the multiplication unit 15 weighted by the variable coupling coefficient X are added to form a binarization threshold. An addition unit 16 that outputs the value Th is provided. Between the output layer 13 and the addition unit 14, between the addition unit 14 and the multiplication unit 15, between the variance value unit and the multiplication unit 15 in the input layer 11, and between the average value unit in the input layer 11 and the addition. The connection weight with the unit 16 is always set to one.
【0027】このような構成において、学習の際には、
入力層11に濃度ヒストグラム、濃度の平均値及び分散
値を入力し、対応する多値画像から得られた図3に示す
関数をエラー関数として、出力層13から出力される2
値化しきい値からエラーを算出し、バックプロパゲーシ
ョン法によって図4に示すような構成のニューラルネッ
トワーク10の学習を行う。In such a configuration, when learning,
The density histogram, the average value of the density, and the variance value are input to the input layer 11, and the function shown in FIG. 3 obtained from the corresponding multi-valued image is output from the output layer 13 as an error function.
An error is calculated from the threshold value, and learning of the neural network 10 having the configuration as shown in FIG. 4 is performed by the back propagation method.
【0028】学習後のニューラルネットワーク10を用
いる場合、2値化処理すべき多値画像から得られた濃度
ヒストグラム、濃度の平均値及び分散値を入力層11に
入力させ、出力層13より出力される値より2値化しき
い値を決定し、決定された2値化しきい値を用いて2値
化処理部3で2値化し、文字認識装置2に入力させるこ
とになる。When the trained neural network 10 is used, a density histogram, a density average value and a variance value obtained from a multivalued image to be binarized are input to the input layer 11 and output from the output layer 13. The binarization threshold value is determined from the threshold value, and the binarization processing unit 3 binarizes the binarization value using the determined binarization threshold value, and causes the character recognition device 2 to input the binarization threshold value.
【0029】さらに、本発明の第三の実施例を図5によ
り説明する。本実施例では、図1中に示した濃度ヒスト
グラム作成部9部分にて、多値画像の各画素の濃度と各
画素の傾きに関する図5に示すような2次元のヒストグ
ラムを作成するようにしたものである。また、本実施例
で用いるニューラルネットワーク10の構成は、基本的
には、図2に示したものに準ずるものであるが、このよ
うな2次元のヒストグラムの入力(各座標での頻度値)
を受ける入力層11は256×256=65536個の
ニューロンユニットにより構成されている。Further, a third embodiment of the present invention will be described with reference to FIG. In the present embodiment, the two-dimensional histogram as shown in FIG. 5 relating to the density of each pixel and the inclination of each pixel of the multi-valued image is created by the density histogram creating unit 9 shown in FIG. Things. The configuration of the neural network 10 used in the present embodiment is basically similar to that shown in FIG. 2, but input of such a two-dimensional histogram (frequency value at each coordinate).
The input layer 11 receiving the input data is composed of 256 × 256 = 65536 neuron units.
【0030】即ち、本実施例では、2値化しきい値決定
の精度をより向上させるため、濃度ヒストグラムに加え
て、各画素の傾き情報を入力として用いるようにしたも
のであり、各画素について濃度値と傾きとを求め、2次
元のヒストグラムの対応する座標の頻度値をインクリメ
ントすることで、図5に示すような2次元のヒストグラ
ムを作成するようにしたものである。例えば、図5中の
座標aは、傾き130、濃度130の画素数が20個
(頻度値=20)であることを示す。各画素の傾きgは
画素の座標が(x,y)(画素の値f(x,y))の時
に上下左右の4画素の値(f(x,y−1)、f(x,
y+1)、f(x−1,y)、f(x+1,y))か
ら、 g=〔4f(x,y)−{f(x-1,y)+f(x+1,y)+f(x,y-1)+f(x,y+1)}〕/8+128 …………………………(2) なる式を用いて算出される。That is, in this embodiment, in order to further improve the accuracy of the determination of the binarization threshold, in addition to the density histogram, the inclination information of each pixel is used as an input. The two-dimensional histogram as shown in FIG. 5 is created by calculating the value and the slope and incrementing the frequency value of the corresponding coordinates of the two-dimensional histogram. For example, the coordinate a in FIG. 5 indicates that the number of pixels having the inclination 130 and the density 130 is 20 (frequency value = 20). When the pixel coordinates are (x, y) (pixel value f (x, y)), the inclination g of each pixel is the value of four pixels (f (x, y−1), f (x, y,
y + 1), f (x-1, y), f (x + 1, y)), g = [4f (x, y)-{f (x-1, y) + f (x + 1, y) + f ( x, y-1) + f (x, y + 1)}] / 8 + 128 (2)
【0031】このような構成において、学習の際には、
入力層11に2次元のヒストグラムを入力し、対応する
多値画像から得られた図3に示す関数をエラー関数とし
て、出力層13から出力される2値化しきい値からエラ
ーを算出し、バックプロパゲーション法によってニュー
ラルネットワーク10の学習を行う。In such a configuration, when learning,
A two-dimensional histogram is input to the input layer 11, and an error is calculated from the binarization threshold value output from the output layer 13 using the function shown in FIG. 3 obtained from the corresponding multi-valued image as an error function. Learning of the neural network 10 is performed by the propagation method.
【0032】学習後のニューラルネットワーク10を用
いる場合、2次元のヒストグラムを入力層11に入力さ
せ、出力層13より出力される値より2値化しきい値を
決定し、決定された2値化しきい値を用いて2値化処理
部3で2値化し、文字認識装置2に入力させることにな
る。When the trained neural network 10 is used, a two-dimensional histogram is input to the input layer 11, a binarization threshold is determined from a value output from the output layer 13, and the determined binarization threshold is determined. The values are binarized by the binarization processing unit 3 and input to the character recognition device 2.
【0033】[0033]
【発明の効果】請求項1,2記載の発明によれば、多値
画像の各画素の濃度の平均値及び分散値をニューラルネ
ットワークに入力させて2値化しきい値を決定するよう
にしたので、より多くの情報が得られるものとなり、精
度の高い2値化しきい値の決定が可能となる。更に、請
求項3,4記載の発明によれば、これらの濃度ヒストグ
ラム全体とともに多値画像の各画素の濃度の平均値及び
分散値をもニューラルネットワークに入力させて2値化
しきい値を決定するようにしたので、より精度の高い2
値化しきい値の決定が可能となり、同様に、請求項5,
6記載の発明によれば、濃度ヒストグラムに各画素の傾
き情報も加味した2次元のヒストグラムをニューラルネ
ットワークに入力させて2値化しきい値を決定するよう
にしたので、より精度の高い2値化しきい値の決定が可
能となる。請求項7記載の発明によれば、これらの発明
で扱う濃度ヒストグラムに関して、多値画像の平均値及
び分散値により正規化するようにしたので、スキャナな
どの違いによる濃度ヒストグラムのバラツキの少ないも
のとなる。According to the invention 請 Motomeko 1, wherein according to the present invention was to determine the allowed input binary threshold value the average value and variance value of the density of each pixel of the multivalued image in a neural network Therefore, more information can be obtained, and the binarization threshold value can be determined with high accuracy. Further, according to the third and fourth aspects of the present invention, the binarization threshold value is determined by inputting the average value and the variance value of the density of each pixel of the multi-valued image together with the entire density histogram to the neural network. So that more accurate 2
Binarization threshold decision is possible, likewise, claim 5,
According to the invention described in the sixth aspect, the two-dimensional histogram in which the inclination information of each pixel is added to the density histogram is input to the neural network to determine the binarization threshold value. The threshold can be determined. According to the seventh aspect of the invention, the density histograms handled in these inventions are normalized by the average value and the variance value of the multi-valued image. Become.
【図1】本発明の第一の実施例を示すブロック図であ
る。FIG. 1 is a block diagram showing a first embodiment of the present invention.
【図2】そのニューラルネットワーク構成を示す模式図
である。FIG. 2 is a schematic diagram showing the configuration of the neural network.
【図3】2値化しきい値−誤認識率特性図である。FIG. 3 is a characteristic diagram of a binarization threshold value-misrecognition rate.
【図4】本発明の第二の実施例を示すニューラルネット
ワーク構成の模式図である。FIG. 4 is a schematic diagram of a neural network configuration showing a second embodiment of the present invention.
【図5】本発明の第三の実施例を示す2次元のヒストグ
ラムの説明図である。FIG. 5 is an explanatory diagram of a two-dimensional histogram showing a third embodiment of the present invention.
2 文字認識装置 9 作成手段ないしは算出手段 10 ニューラルネットワーク 11 入力層 13 出力層 2 Character recognition device 9 Creation means or calculation means 10 Neural network 11 Input layer 13 Output layer
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平4−297961(JP,A) 特開 平5−328133(JP,A) 馬場口 他,「コネクショニストモデ ルによる画像2値化の実験的検討」,電 子情報通信学会論文誌D−II,Vo l.J73−D−II,No.8,pp. 1281−1287,平成2年8月 (58)調査した分野(Int.Cl.7,DB名) G06K 9/38 G06N 3/00 G06T 1/00 G06T 5/00 ──────────────────────────────────────────────────続 き Continuation of the front page (56) References JP-A-4-297961 (JP, A) JP-A-5-328133 (JP, A) Babaguchi et al., "Experimental image binarization using a connectionist model" Examination ”, IEICE Transactions D-II, Vol. J73-D-II, No. 8, pp. 1281-1287, August 1990 (58) Fields investigated (Int. Cl. 7 , DB name) G06K 9/38 G06N 3/00 G06T 1/00 G06T 5/00
Claims (7)
ークを用いて、文字認識装置に対する入力画像として多
値画像を2値画像にするためのしきい値を決定する2値
化しきい値決定装置において、前記多値画像の各画素値
から濃度ヒストグラムを作成する手段と、前記多値画像
の各画素の濃度の平均値及び分散値を求める算出手段と
を設け、前記ニューラルネットワークに、求められた濃
度ヒストグラム並びに濃度の平均値及び分散値を入力と
する入力層と、入力された多値画像に対する最適2値化
しきい値を出力する出力層とを設けたことを特徴とする
2値化しきい値決定装置。1. A binarization threshold value determining device for determining a threshold value for converting a multi-valued image into a binary image as an input image to a character recognition device using a neural network having a learning function. Each pixel value of the multi-valued image
Means for creating a density histogram, the <br/> and calculating means for calculating a mean value and a variance value of the density of each pixel of the multivalued image provided from said neural network, conc obtained
An input layer for inputting a degree histogram and an average value and a variance value of density, and an output layer for outputting an optimal binarization threshold value for an input multi-valued image; Decision device.
ークを用いて、文字認識装置に対する入力画像として多
値画像を2値画像にするためのしきい値を決定する2値
化しきい値決定装置において、前記多値画像の各画素値
から濃度ヒストグラムを作成する手段と、前記多値画像
の各画素の濃度の平均値及び分散値を求める算出手段と
を設け、前記ニューラルネットワークに、求められた濃
度ヒストグラム並びに濃度の平均値及び分散値を入力と
する入力層と、入力された多値画像に対する最適2値化
しきい値を出力する出力層と、前記多値画像から求めら
れた濃度の平均値及び分散値を前記入力層に与えて前記
出力層から出力される値より算出した2値化しきい値を
用いて2値化した時の前記文字認識装置の誤認識率をエ
ラーとして前記ニューラルネットワークの学習を行わせ
る学習制御手段とを設けたことを特徴とする2値化しき
い値決定装置。2. A binarization threshold value determining device for determining a threshold value for converting a multi-valued image into a binary image as an input image to a character recognition device using a neural network having a learning function. Each pixel value of the multi-valued image
Means for creating a density histogram, the <br/> and calculating means for calculating a mean value and a variance value of the density of each pixel of the multivalued image provided from said neural network, conc obtained
An input layer for inputting the average value and variance value of the density histogram and the density, an output layer for outputting an optimal binarization threshold value for the input multi-valued image, and an average value of the density obtained from the multi-valued image And a variance value given to the input layer and binarized using a binarization threshold calculated from a value output from the output layer. A binary threshold value determining device, comprising: learning control means for performing learning.
ークを用いて、文字認識装置に対する入力画像として多
値画像を2値画像にするためのしきい値を決定する2値
化しきい値決定装置において、前記多値画像の各画素値
から濃度ヒストグラムを作成する手段と、前記多値画像
の各画素の濃度の平均値及び分散値を求める算出手段と
を設け、前記ニューラルネットワークに、これらの濃度
ヒストグラム、濃度の平均値及び分散値を入力とする入
力層と、入力された多値画像に対する最適2値化しきい
値を出力する出力層とを設けたことを特徴とする2値化
しきい値決定装置。3. A binarization threshold value determining device for determining a threshold value for converting a multivalued image into a binary image as an input image to a character recognition device using a neural network having a learning function, A means for creating a density histogram from each pixel value of the multi-valued image, and a calculating means for calculating an average value and a variance value of the density of each pixel of the multi-valued image are provided. An apparatus for determining a binarization threshold value, comprising: an input layer for inputting an average value and a variance value of density; and an output layer for outputting an optimal binarization threshold value for an input multi-valued image.
ークを用いて、文字認識装置に対する入力画像として多
値画像を2値画像にするためのしきい値を決定する2値
化しきい値決定装置において、前記多値画像の各画素値
から濃度ヒストグラムを作成する手段と、前記多値画像
の各画素の濃度の平均値及び分散値を求める算出手段と
を設け、前記ニューラルネットワークに、これらの濃度
ヒストグラム、濃度の平均値及び分散値を入力とする入
力層と、入力された多値画像に対する最適2値化しきい
値を出力する出力層と、前記多値画像から作成された濃
度ヒストグラム、求められた濃度の平均値及び分散値を
前記入力層に与えて前記出力層から出力される値より算
出した2値化しきい値を用いて2値化した時の前記文字
認識装置の誤認識率をエラーとして前記ニューラルネッ
トワークの学習を行わせる学習制御手段とを設けたを設
けたことを特徴とする2値化しきい値決定装置。4. A binarization threshold value determining device for determining a threshold value for converting a multivalued image into a binary image as an input image to a character recognition device using a neural network having a learning function, A means for creating a density histogram from each pixel value of the multi-valued image, and a calculating means for calculating an average value and a variance value of the density of each pixel of the multi-valued image are provided. An input layer for inputting the average value and the variance value of the density, an output layer for outputting an optimal binarization threshold value for the input multi-valued image, a density histogram created from the multi-valued image, a calculated density Erroneous recognition rate of the character recognition apparatus when the average value and the variance value are given to the input layer and binarized using a binarization threshold value calculated from a value output from the output layer And a learning control means for performing the learning of the neural network with the error as an error.
ークを用いて、文字認識装置に対する入力画像として多
値画像を2値画像にするためのしきい値を決定する2値
化しきい値決定装置において、前記多値画像の各画素の
濃度と各画素の傾きに関する2次元のヒストグラムを作
成する手段を設け、前記ニューラルネットワークに、作
成された2次元のヒストグラムの各座標上での頻度値を
入力とする入力層と、入力された多値画像に対する最適
2値化しきい値を出力する出力層とを設けたことを特徴
とする2値化しきい値決定装置。5. A binarization threshold value determining device for determining a threshold value for converting a multivalued image into a binary image as an input image to a character recognition device using a neural network having a learning function, A means for creating a two-dimensional histogram relating to the density of each pixel and the inclination of each pixel of the multi-valued image; and inputting a frequency value on each coordinate of the created two-dimensional histogram to the neural network. An apparatus for determining a binarization threshold value, comprising: an input layer; and an output layer for outputting an optimal binarization threshold value for an input multi-valued image.
ークを用いて、文字認識装置に対する入力画像として多
値画像を2値画像にするためのしきい値を決定する2値
化しきい値決定装置において、前記多値画像の各画素の
濃度と各画素の傾きに関する2次元のヒストグラムを作
成する手段を設け、前記ニューラルネットワークに、作
成された2次元のヒストグラムの各座標上での頻度値を
入力とする入力層と、入力された多値画像に対する最適
2値化しきい値を出力する出力層と、前記多値画像から
作成された2次元のヒストグラムの各座標上での頻度値
を前記入力層に与えて前記出力層から出力される値より
算出した2値化しきい値を用いて2値化した時の前記文
字認識装置の誤認識率をエラーとして前記ニューラルネ
ットワークの学習を行わせる学習制御手段とを設けたこ
とを特徴とする2値化しきい値決定装置。6. A binarization threshold value determining device for determining a threshold value for converting a multivalued image into a binary image as an input image to a character recognition device by using a neural network having a learning function, A means for creating a two-dimensional histogram relating to the density of each pixel and the inclination of each pixel of the multi-valued image; and inputting a frequency value on each coordinate of the created two-dimensional histogram to the neural network. An input layer, an output layer that outputs an optimal binarization threshold value for the input multi-valued image, and a frequency value on each coordinate of a two-dimensional histogram created from the multi-valued image is given to the input layer. The learning of the neural network is performed using the error recognition rate of the character recognition device as an error when binarizing using the binarization threshold calculated from the value output from the output layer. And a learning control means for performing the threshold value determination.
び分散値により正規化するようにしたことを特徴とする
請求項3又は4記載の2値化しきい値決定装置。7. The binarization threshold determining device according to claim 3 or 4, characterized in that so as to normalize the mean and the variance of the density histogram multivalued image.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34237192A JP3248965B2 (en) | 1992-12-22 | 1992-12-22 | Binary threshold value determination device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34237192A JP3248965B2 (en) | 1992-12-22 | 1992-12-22 | Binary threshold value determination device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06195511A JPH06195511A (en) | 1994-07-15 |
JP3248965B2 true JP3248965B2 (en) | 2002-01-21 |
Family
ID=18353216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP34237192A Expired - Fee Related JP3248965B2 (en) | 1992-12-22 | 1992-12-22 | Binary threshold value determination device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3248965B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0765161A (en) * | 1993-08-30 | 1995-03-10 | Nec Corp | Image processor |
US6549657B2 (en) | 1995-04-06 | 2003-04-15 | Canon Kabushiki Kaisha | Image processing apparatus and method |
JP4591784B2 (en) * | 2006-10-23 | 2010-12-01 | ノーリツ鋼機株式会社 | Method for creating conversion table for photographed image correction and photo printing apparatus for implementing this method |
JP2010164446A (en) * | 2009-01-16 | 2010-07-29 | Angle Try Kk | Visual inspection method of item to be inspected and program |
WO2021009804A1 (en) * | 2019-07-12 | 2021-01-21 | Eizo株式会社 | Method for learning threshold value |
CN113888578A (en) * | 2021-09-26 | 2022-01-04 | 合肥高维数据技术有限公司 | Binarization method of self-adaptive weighted threshold value technology |
-
1992
- 1992-12-22 JP JP34237192A patent/JP3248965B2/en not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
馬場口 他,「コネクショニストモデルによる画像2値化の実験的検討」,電子情報通信学会論文誌D−II,Vol.J73−D−II,No.8,pp.1281−1287,平成2年8月 |
Also Published As
Publication number | Publication date |
---|---|
JPH06195511A (en) | 1994-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0622750B1 (en) | Pattern recognition | |
US5668898A (en) | Device for detecting the inclination of image | |
JP3320759B2 (en) | Document image inclination detecting apparatus and method | |
US6347156B1 (en) | Device, method and storage medium for recognizing a document image | |
US5884296A (en) | Network and image area attribute discriminating device and method for use with said neural network | |
JPH0737087A (en) | Picture processor | |
US20050152604A1 (en) | Template matching method and target image area extraction apparatus | |
CN113792659B (en) | Document identification method and device and electronic equipment | |
CN113379707A (en) | RGB-D significance detection method based on dynamic filtering decoupling convolution network | |
CN112132151A (en) | Image character recognition system and method based on recurrent neural network recognition algorithm | |
JP3248965B2 (en) | Binary threshold value determination device | |
JP3099771B2 (en) | Character recognition method and apparatus, and recording medium storing character recognition program | |
KR101192365B1 (en) | System and method for detecting of face | |
JP4749879B2 (en) | Face discrimination method, apparatus, and program | |
JPH10271326A (en) | Image processor | |
CN114913607A (en) | Finger vein counterfeit detection method based on multi-feature fusion | |
Boiangiu et al. | Bitonal image creation for automatic content conversion | |
JP2812619B2 (en) | Image processing device | |
JP3687999B2 (en) | Character recognition device | |
JP2002314790A (en) | Color image information processing method, program used for implementing the method, and color image information processing unit | |
JPH1070652A (en) | Image area attribute discrimination device | |
JP2004104318A (en) | Image processing method, image processing unit, and program | |
JPH08251405A (en) | Device for discriminating attribute of image area | |
CN115496778A (en) | Image binarization method and device for improving edge smoothness and storage medium | |
JPH08251403A (en) | Device for discriminating attribute of image area |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071109 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081109 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081109 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091109 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |