JP2899383B2 - Character extraction device - Google Patents
Character extraction deviceInfo
- Publication number
- JP2899383B2 JP2899383B2 JP2207844A JP20784490A JP2899383B2 JP 2899383 B2 JP2899383 B2 JP 2899383B2 JP 2207844 A JP2207844 A JP 2207844A JP 20784490 A JP20784490 A JP 20784490A JP 2899383 B2 JP2899383 B2 JP 2899383B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- search
- route
- path
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Input (AREA)
Description
【発明の詳細な説明】 (産業上の利用分野) 本発明は、文書を認識する文字認識装置等において、
用紙等の媒体上に記録された文字列画像から文字パタン
を切出す文字切出し装置に関するものである。DETAILED DESCRIPTION OF THE INVENTION (Industrial Application Field) The present invention relates to a character recognition device and the like for recognizing a document.
The present invention relates to a character extracting device for extracting a character pattern from a character string image recorded on a medium such as paper.
(従来の技術) 従来、文字切出し装置により文字パタンを切出し、そ
の切出した文字パタンを認識する文字認識装置に関する
技術としては、例えば特開昭63−16391号公報に記載さ
れるものがあった。(Prior Art) Conventionally, as a technique relating to a character recognition device for extracting a character pattern by a character extraction device and recognizing the extracted character pattern, there is one disclosed in, for example, JP-A-63-16391.
一般に、文字枠を備えない活字や、手書きの文書を対
象とした文字認識装置においては、文字切出し装置を用
いて、例えば1行分の文字列画像を1文字毎の文字パタ
ンに切出して認識を行なう。In general, in a character recognition device for a character type having no character frame or a handwritten document, a character extraction device is used to extract a character string image for one line into a character pattern for each character, and perform recognition. Do.
前記文献に記載された文字切出し装置では、文字列画
像を文字列方向(行方向)と垂直な方向に投影して得ら
れる周辺分布に基づいて文字の切出しを行なっている。
即ち、文字列画像より周辺分布を検出し、該周辺分布値
が1以上となる連続領域のパタン(サブ文字パタン)を
抽出し、そのサブ文字パタンの幅と隣接するサブ文字パ
タン間の距離とに基づき、該サブ文字パタンの結合を行
なって文字パタンを決定している。In the character extracting device described in the above document, characters are extracted based on a peripheral distribution obtained by projecting a character string image in a direction perpendicular to the character string direction (line direction).
That is, a peripheral distribution is detected from a character string image, a pattern (sub character pattern) of a continuous area where the peripheral distribution value is 1 or more is extracted, and the width of the sub character pattern and the distance between adjacent sub character patterns are determined. , The character pattern is determined by combining the sub-character patterns.
(発明が解決しようとする課題) しかしながら、上記構成の装置では、文字枠を備えな
い活字や、手書きの文書等において、隣接する文字同士
が接触している場合や、オーバーラップしている場合
に、複数文字を含むサブ文字パタンが抽出されるので、
その結果、文字パタンを正しく切出すことができない。
そのため、切出された文字パタンを用いて、例えば文字
認識を行なうと、認識精度が低くなるという問題を生
じ、それを解決することが困難であった。(Problems to be Solved by the Invention) However, in the device having the above-described configuration, in the case where a character having no character frame, a handwritten document, and the like, adjacent characters are in contact with each other or overlap each other. , A sub-character pattern containing multiple characters is extracted.
As a result, character patterns cannot be cut out correctly.
Therefore, for example, when character recognition is performed using the cut-out character pattern, a problem that recognition accuracy is lowered occurs, and it has been difficult to solve the problem.
本発明は前記従来技術が持っていた課題として、文字
列画像中に他の文字パタンと接触したり、オーバーラッ
プする文字パタンが存在する場合、文字パタンを正しく
切出すことができないという点について解決した文字切
出し装置を提供するものである。The present invention solves the problem of the related art that a character pattern cannot be cut out correctly when a character string image comes into contact with another character pattern or an overlapping character pattern exists. A character extracting device is provided.
(課題を解決するための手段) 本発明は前記課題を解決するために、入力媒体上の文
字列より得られる文字列画像データから、文字パタンを
切出す文字切出し装置において、探索領域設定部、経路
検出部、境界線検出部、及び文字パタン切出し部を備え
ている。(Means for Solving the Problems) In order to solve the above problems, the present invention provides a character extracting apparatus for extracting a character pattern from character string image data obtained from a character string on an input medium, comprising: a search area setting unit; It has a route detection unit, a boundary detection unit, and a character pattern cutout unit.
ここで、探索領域設定部は、文字列画像データ中の隣
接する部分パタン間に境界線を設定するための探索始点
と探索終点と該探索始点及び探索終点間を結ぶ線分を軸
とした探索領域とを設定すると共に、前記経路検出部よ
り得られた経路と前記境界線検出部より得られた該経路
の有効性とに基づいて前記探索始点及び探索終点を更新
する機能を有している。経路検出部は、前記探索始点か
ら探索終点へ向かう探索領域内の経路において、該経路
上の各座標の画素濃度値を該座標での経路の向きに応じ
て定めた所定の係数で重み付けし、その累積値が最小と
なるよう該経路を検出するものである。境界線検出部
は、前記経路検出部で検出された経路とその経路の近傍
領域の画素濃度値とに基づいて該経路の有効性を判定
し、有効であると認められる場合に該経路を隣接する部
分パタン間の境界線であると判定するものである。さら
に、文字パタン切出し部は、前記隣接する部分パタン間
の境界線の位置に基づいて前記文字列画像データから文
字パタンの切出しを行なう機能を有している。Here, the search area setting unit performs a search with a search start point and a search end point for setting a boundary line between adjacent partial patterns in the character string image data, and a line segment connecting the search start point and the search end point as axes. A function of setting an area and updating the search start point and the search end point based on the route obtained by the route detection unit and the validity of the route obtained by the boundary detection unit. . The path detection unit weights the pixel density value of each coordinate on the path by a predetermined coefficient determined according to the direction of the path at the coordinates, in the path in the search area from the search start point to the search end point, The path is detected so that the accumulated value is minimized. The boundary detection unit determines the validity of the route based on the route detected by the route detection unit and the pixel density value of a region near the route, and determines that the route is adjacent when the route is recognized as valid. It is determined that it is a boundary line between the partial patterns to be performed. Further, the character pattern cutout section has a function of cutting out a character pattern from the character string image data based on a position of a boundary between the adjacent partial patterns.
前記探索領域は、前記探索始点と探索終点とを結ぶ線
分について対称でかつ該探索始点及び探索終点を頂点と
する凸多角形の形状としてもよい。The search area may have a convex polygonal shape that is symmetric about a line segment connecting the search start point and the search end point and has the search start point and the search end point as vertices.
(作用) 本発明によれば、以上のように文字切出し装置を構成
したので、文字列画像データが探索領域設定部に入力さ
れると、該探索領域設定部は、探索始点と、探索終点
と、探索始点及び探索終点間を結ぶ線分を軸とした探索
領域とを設定し、その設定値を経路検出部、境界線検出
部、及び文字パタン切出し部に与える。経路検出部で
は、入力された探索領域に基づき、最適な経路を検出
し、その検出結果を境界線検出部へ送る。境界線検出部
は、前記経路と近傍領域の画素濃度値とに基づいて該経
路の有効性を判定し、有効と認められる場合に該経路を
隣接する部分パタン間の境界線として設定し、その設定
結果を文字パタン切出し部へ与える。すると、文字パタ
ン切出し部は、隣接する部分パタン間の境界線の位置に
基づき、文字列画像から文字パタンの切出しを行なう。
これにより、隣接する文字同士が接触している場合や、
オーバーラップしている場合にも、各文字パタンを精度
良く切出せる。(Operation) According to the present invention, since the character segmenting apparatus is configured as described above, when character string image data is input to the search area setting unit, the search area setting unit sets a search start point, a search end point, , A search area centered on a line segment connecting the search start point and the search end point, and the set value is given to the path detection unit, the boundary detection unit, and the character pattern cutout unit. The route detector detects an optimal route based on the input search area, and sends the detection result to the boundary detector. The boundary detection unit determines the validity of the path based on the path and the pixel density value of the neighboring area, and sets the path as a boundary between adjacent partial patterns when the path is recognized as valid. The setting result is given to the character pattern cutout section. Then, the character pattern cutout unit cuts out the character pattern from the character string image based on the position of the boundary between adjacent partial patterns.
As a result, when adjacent characters are in contact with each other,
Even when they overlap, each character pattern can be accurately extracted.
また、探索領域を凸多角形とした場合には、少ない演
算量で、的確な経路の検出が行なえる。Also, when the search area is a convex polygon, accurate path detection can be performed with a small amount of calculation.
従って、前記課題を解決できるのである。 Therefore, the above problem can be solved.
(実施例) 第1図は、本発明の一実施例を示す文字切出し装置の
機能ブロック図である。(Embodiment) FIG. 1 is a functional block diagram of a character extracting apparatus according to an embodiment of the present invention.
第1図において、入力媒体上の文字列を読み取って文
字列画像データを出力する文字列画像入力部1が設けら
れ、その出力側には、該文字列画像データから1文字ず
つ文字パタンを切出す文字切出し装置10が接続されてい
る。In FIG. 1, a character string image input unit 1 for reading a character string on an input medium and outputting character string image data is provided, and on the output side, a character pattern is cut from the character string image data one character at a time. An output character extracting device 10 is connected.
文字列画像入力部1は、例えば1個または複数個の文
字列が記載された情報媒体上を光学的に走査し、その走
査結果を光電変換して2値化された電気信号(画像パタ
ン)を記憶し、さらにその画像パタンに含まれる文字列
画像を切出してその文字列画像データを文字切出し装置
10へ出力する機能を有している。画像パタンから文字列
画像を切出すためには、ヒストグラム法等といった種々
の文字切出し方法を用いることができる。The character string image input unit 1 optically scans, for example, an information medium on which one or a plurality of character strings are written, and converts the scan result into a binary electric signal (image pattern) by photoelectric conversion. And further extracts a character string image included in the image pattern and extracts the character string image data into a character extracting device.
It has the function of outputting to 10. To extract a character string image from an image pattern, various character extraction methods such as a histogram method can be used.
文字切出し装置10は、文字列画像入力部1より入力さ
れた文字列画像データ中の隣接する部分パタン間に境界
線を設定するための探索始点と、探索終点と、探索始点
及び探索終点間を結ぶ線分を軸とした探索領域とを、設
定する探索領域設定部11を備えている。ここで、部分パ
タンとは、例えば文字列画像中の個々の黒画素の塊であ
る。この探索領域設定部11の出力側には、経路検出部1
2、境界線検出部13、及び文字パタン切出し部14が接続
されている。The character cutout device 10 determines a search start point for setting a boundary between adjacent partial patterns in the character string image data input from the character string image input unit 1, a search end point, and a search start point and a search end point. A search area setting unit 11 is provided for setting a search area around a connected line segment. Here, the partial pattern is, for example, a block of individual black pixels in the character string image. The output of the search area setting unit 11 includes a route detection unit 1
2. The boundary detection unit 13 and the character pattern cutout unit 14 are connected.
経路検出部12は、探索始点から探索終点へ向かう探索
領域内の経路において、経路上の各座標の画素濃度値を
該座標での経路の向きに応じて定めた所定の係数で重み
付けし、その累積値が最小となるよう該経路を検出する
機能を有している。この経路検出部12は、探索領域内の
画素濃度値に基づき該探索領域の各画素に対応した経路
方向データを算出する経路方向データ算出部12aと、該
経路方向データに基づき経路を算出する経路算出部12b
とで、構成され、その出力側に境界線検出部13が接続さ
れている。The path detection unit 12 weights the pixel density value of each coordinate on the path with a predetermined coefficient determined according to the direction of the path at the coordinates in the path in the search area from the search start point to the search end point. It has a function of detecting the route so that the accumulated value is minimized. The route detection unit 12 includes a route direction data calculation unit 12a that calculates route direction data corresponding to each pixel in the search region based on the pixel density value in the search region, and a route that calculates a route based on the route direction data. Calculation unit 12b
The boundary detection unit 13 is connected to the output side.
境界線検出部13は、検出された経路と近傍領域の画素
濃度値とに基づいて該経路の有効性を判定し、有効であ
ると認められる場合に、該経路を隣接する部分パタン間
の境界線であると判定する機能を有し、その出力側に、
文字パタン切出し部14が接続されている。文字パタン切
出し部14は、隣接する部分パタン間の境界線の位置に基
づき、文字列画像データから文字パタンの切出しを行な
うものである。The boundary detection unit 13 determines the validity of the path based on the detected path and the pixel density value of the neighboring area. It has a function to determine that it is a line, and its output side has
The character pattern cutout unit 14 is connected. The character pattern cutout unit 14 cuts out a character pattern from character string image data based on the position of a boundary between adjacent partial patterns.
第2図は、第1図の動作フローチャートであり、この
図を参照しつつ、文字列画像入力部1より文字列画像デ
ータが入力されてから、文字パタンOUTが出力されるま
での文字切出し動作(1)〜(6)を以下説明する。FIG. 2 is an operation flowchart of FIG. 1. Referring to FIG. 2, a character extracting operation from input of character string image data from the character string image input unit 1 to output of a character pattern OUT will be described. (1) to (6) will be described below.
(1)探索領域設定(ステップS1) ステップS1において、探索領域設定部11は、次の3つ
の状態(a1)〜(a3)にいずれかを検知すると、各々の
場合に応じて探索領域の設定を行ない、対応する画像デ
ータを経路検出部103へ出力し、ステップS2へ進む。(1) Search Area Setting (Step S1) In step S1, when the search area setting unit 11 detects any of the following three states (a1) to (a3), the search area setting unit 11 sets the search area according to each case. And outputs the corresponding image data to the path detection unit 103, and proceeds to step S2.
(a1)文字列画像入力部1より文字列画像データを入力
した場合 探索領域設定部11は、文字列画像データを保存すると
共に、文字列画像データのパタンの先頭側に探索領域を
設定する。(A1) When the character string image data is input from the character string image input unit 1 The search area setting unit 11 stores the character string image data and sets a search area at the head of the pattern of the character string image data.
(a2)境界線検出部13において、有効な境界線が検出さ
れなかった場合 既に設定された探索領域を、文字列方向(例えば、行
方向)に所定値だけシフトした領域を、新たな探索領域
として設定する。(A2) When no valid boundary line is detected by the boundary line detection unit 13, an area obtained by shifting the already set search area by a predetermined value in the character string direction (for example, the row direction) is replaced with a new search area. Set as
シフト値は、例えば探索領域幅の1/2とする。 The shift value is, for example, 1/2 of the search area width.
(a3)境界線検出部13において有効な境界線が検出され
た場合 境界線位置に基づいて新たな探索領域を設定する。例
えば、文字列画像データからなるパタン上の境界線を構
成する座標の最も後方位置に、探索領域の先頭側の端を
合わせて、該探索領域を設定する。(A3) When a valid boundary is detected by the boundary detection unit 13 A new search area is set based on the position of the boundary. For example, the search area is set by aligning the leading end of the search area with the rearmost position of the coordinates forming the boundary on the pattern composed of the character string image data.
第3図は、探索領域の例を示す図である。図中、点線
で囲まれた領域20は、文字列画像データからなる画像パ
タン、ハッチングを付した四角形は、文字列画像データ
からなる画像パタンに含まれる黒画素を表わす。例え
ば、行方向をX、行方向に垂直な方向をYで表現する
と、探索領域21は、文字行上端よりA画素分上方の画素
21aを探索始点とし、文字行下端よりA画素分下方であ
ってかつX座標が画素21aと等しい画素、即ち画素21bを
探索終点として、該探索終点21aと探索終点21bとを結ぶ
線分を軸として幅2A+1を持つ六角形の領域で表わされ
る。FIG. 3 is a diagram showing an example of a search area. In the figure, an area 20 surrounded by a dotted line represents an image pattern composed of character string image data, and a hatched rectangle represents a black pixel included in an image pattern composed of character string image data. For example, if the row direction is represented by X and the direction perpendicular to the row direction is represented by Y, the search area 21 is a pixel above the top of the character line by A pixels.
21a is set as a search start point, and a pixel which is below the lower end of the character line by A pixels and whose X coordinate is equal to the pixel 21a, that is, a pixel 21b is set as a search end point, and a line connecting the search end point 21a and the search end point 21b is set as an axis. As a hexagonal area having a width of 2A + 1.
(2)経路方向評価値データg(X,Y)及び経路方向デ
ータd(X,Y)算出(ステップS2) ステップS2において、経路方向データ算出部12aは、
探索領域設定部11より探索領域の画像データを入力し、
該探索領域の画素(X,Y)の画素濃度値f(X,Y)に対応
した経路方向データd(X,Y)と、その経路方向データ
d(X,Y)を算出するための経路方向評価値データg
(X,Y)とを、次の2つのステップS2−1及びS2−2に
より生成する。(2) Calculation of route direction evaluation value data g (X, Y) and route direction data d (X, Y) (Step S2) In Step S2, the route direction data calculation unit 12a
Input the image data of the search area from the search area setting unit 11,
Path direction data d (X, Y) corresponding to the pixel density value f (X, Y) of the pixel (X, Y) in the search area, and a path for calculating the path direction data d (X, Y) Direction evaluation value data g
(X, Y) are generated by the following two steps S2-1 and S2-2.
ここで、例えば、画素濃度値f(X,Y)は白画素(背
景部)において10、黒画素(文字部)において100とす
る。また探索始点及び探索終点の座標を(XO,YS)及び
(XO,YE)とする。Here, for example, the pixel density value f (X, Y) is set to 10 for a white pixel (background portion) and 100 for a black pixel (character portion). Also the coordinates of the search start point and search end points and (X O, Y S) and (X O, Y E).
(2)(i)ステップS2−1 探索始点における経路方向データd(XO,YS)及び経
路方向評価値データg(XO,YS)に初期値を設定する。(2) (i) Step S2-1 path direction in the search start point data d (X O, Y S) to set the initial value and the path direction evaluation value data g (X O, Y S) on.
d(XO,YS)=1 ……(1) g(XO,YS)=0 ……(2) (2)(ii)ステップS2−2 X方向を主走査方向、Y方向を副走査方向、画素(XO
−1,YS+1)を走査開始位置、画素(XO,YE)を走査終
了位置として探索領域21内を走査し、各画素(X,Y)毎
に経路方向データd(X,Y)及び経路方向評価値データ
g(X,Y)を次式(3)により計算する。 d (X O, Y S) = 1 ...... (1) g (X O, Y S) = 0 ...... (2) (2) (ii) Step S2-2 X-direction in the main scanning direction, a Y-direction Sub-scanning direction, pixel (X O
-1, Y S +1) scan start position, the pixel (X O, scans the search area 21 Y E) as a scanning end position, each pixel (X, Y) path direction data d (X each, Y ) And the route direction evaluation value data g (X, Y) are calculated by the following equation (3).
g(X,Y)=min(G0,G1,G2) …(3) 但し、 G0=g(X−1,Y−1)+K0f(X,Y) G1=g(X,Y−1)+K1f(X,Y) G2=g(X+1,Y−1)+K2f(X,Y) ……(5) なお、(5)式においてg(X−1,Y−1)が探索領
域21の外に存在する場合には、g(X−1,Y−1)=∞
(無限大)として扱う。(5)式のg(X,Y−1)及び
g(X+1,Y−1)についても同様に扱う。g (X, Y) = min (G 0 , G 1 , G 2 ) (3) Where G 0 = g (X−1, Y−1) + K 0 f (X, Y) G 1 = g (X, Y−1) + K 1 f (X, Y) G 2 = g (X + 1, Y -1) + K 2 f (X , Y) ...... (5) If g (X−1, Y−1) is outside the search area 21 in equation (5), g (X−1, Y−1) = ∞.
(Infinity). The same applies to g (X, Y-1) and g (X + 1, Y-1) in the expression (5).
第4図は、画素P(X,Y)と隣接する3画素P0(X−
1,Y−1),P1(X,Y−1),P2(X+1,Y−1)を示す
図である。この図を用いて経路方向データ算出部12aの
より詳細な説明を行なう。FIG. 4 shows three pixels P 0 (X−X) adjacent to the pixel P (X, Y).
1, Y-1), P 1 (X, Y-1), is a diagram illustrating P 2 a (X + 1, Y-1 ). The route direction data calculation unit 12a will be described in more detail with reference to FIG.
(5)式は、注目画素Pに対し、隣接する3画素P0,
P1,P2の各々から画素Pを通過する経路を想定した場合
に、前記隣接画素P0,P1,P2の各々の経路方向評価デー
タに、画素Pの画素濃度値を前記経路の向きに応じて定
めた係数K0,K1,K2の各々で重み付けした値を加算した
値を示すものである。従って、(3)式で示されるg
(X,Y)は、画素(XO,YS)から画素(X,Y)へ至る任意
の経路のうち、該経路上の各画素の画素濃度値を該画素
での経路の向きに応じて定めた所定の係数で重み付けし
た値の累積値が最小となる場合の最小累積値である。Equation (5) shows that three pixels P 0 ,
When assuming a path through the P 1, each of the pixels P of P 2, the in the adjacent pixels P 0, P 1, each of the P 2 of path direction evaluation data, the route pixel density value of the pixel P It indicates a value obtained by adding values weighted by the coefficients K 0 , K 1 , and K 2 determined according to the directions. Therefore, g represented by the equation (3)
(X, Y) is an arbitrary path from the pixel (X O , Y S ) to the pixel (X, Y), and determines the pixel density value of each pixel on the path according to the direction of the path at the pixel. This is the minimum cumulative value in the case where the cumulative value of the values weighted by the predetermined coefficients defined in the above becomes the minimum.
さらに(4)式で示されるd(X,Y)は、画素(X,Y)
において前記最小累積値が得られる場合の前走査線(Y
−1)からの経路方向を示すデータであって、画素P0,
P1,P2を経た経路において前記最小累積値が得られる場
合に各々0,1,2なる値が得られる。Further, d (X, Y) expressed by the equation (4) is a pixel (X, Y)
At the time of the previous scanning line (Y
-1) is the data indicating the path direction from pixel P 0 ,
When the minimum cumulative value is obtained on the route passing through P 1 and P 2 , values 0, 1, and 2 are obtained.
第5図及び第6図は、第3図の探索領域21に対する経
路方向評価値データg(X,Y)及び経路方向データd
(X,Y)の例を示す図である。5 and 6 show the route direction evaluation value data g (X, Y) and the route direction data d for the search area 21 in FIG.
It is a figure showing an example of (X, Y).
このステップS2の処理が終わると、ステップS3へ進
む。When the process in step S2 ends, the process proceeds to step S3.
(3)経路検出(ステップS3) ステップS3において、経路算出部12bは、経路方向デ
ータ算出部12aより各画素に対応した経路方向データd
(X,Y)を入力すると、画素(XO,YS)から画素(XO,Y
E)へ至る任意の経路の内、該経路上の各画素の画素濃
度値を該画素での経路の向きに応じて定めた所定の係数
で重み付けした値の累積値が最小となる場合の経路を、
次のステップS3−1〜S3−3の手順で決定し、該経路を
形成する画素群の位置データを境界線検出部13へ出力す
る。(3) Path Detection (Step S3) In step S3, the path calculation unit 12b sends the path direction data d corresponding to each pixel from the path direction data calculation unit 12a.
(X, Y) by entering the pixel (X O, Y S) from the pixel (X O, Y
E ) Among the arbitrary routes to the route, the route in which the cumulative value of the values obtained by weighting the pixel density values of the respective pixels on the route with a predetermined coefficient determined according to the direction of the route at the pixel is the minimum. To
It is determined by the following steps S3-1 to S3-3, and the position data of the pixel group forming the path is output to the boundary detection unit 13.
(3)(i)ステップS3−1 Y=YEとして、副走査位置Yにおける経路のX座標DX
(Y)をDX(Y)=XOとする。(3) (i) Step S3-1: Y = Y E , and X coordinate DX of the path at the sub-scanning position Y
(Y) a DX (Y) = and X O.
(3)(ii)ステップS3−2 Yを1減算して、さらに、 d(DX(Y+1),Y+1)が0であれば DX(Y)=DX(Y+1)−1 d(DX(Y+1),Y+1)が1であれば DX(Y)=DX(Y+1) d(DX(Y+1),Y+1)が2であれば DX(Y)=DX(Y+1)+1 としてYがYSに等しくなるまでこのステップS3−2を繰
り返す。(3) (ii) Step S3-2 Subtract Y by 1, and if d (DX (Y + 1), Y + 1) is 0, DX (Y) = DX (Y + 1) -1 d (DX (Y + 1) , Y + 1) is 1, if DX (Y) = DX (Y + 1) d (DX (Y + 1), Y + 1) is 2, then DX (Y) = DX (Y + 1) +1 until Y becomes equal to Y S This step S3-2 is repeated.
(3)(iii)ステップS3−3 座標(DX(Y),Y)(Y=YS〜YE)の組を、経路とし
て決定する。(3) (iii) Step S3-3 coordinates (DX (Y), Y) pairs of (Y = Y S ~Y E) , determined as the path.
前述したように、d(X,Y)は、画素(XO,YS)から
画素(X,Y)へ至る任意の経路の内、該経路上の各画素
の画素濃度値を該画素での経路の向きに応じて定めた所
定の係数で重み付けした値の累積値が最小となる場合
の、前走査線(Y−1)からの経路方向を示すデータで
あるから、ステップS3−1〜S3−3に基づき、Y=YEよ
り順次Yを1ずつ減算しながら前記経路方向に対応した
座標を求めることによって、(XO,YE)〜(XO,YS)に
至る最適な経路を決定することができる。As described above, d (X, Y) is the pixel density value of each pixel on the path from the pixel (X O , Y S ) to the pixel (X, Y). Is the data indicating the path direction from the previous scanning line (Y-1) when the cumulative value of the values weighted by the predetermined coefficients determined according to the direction of the path becomes the minimum, and therefore, is determined in steps S3-1 to S3-1. based on S3-3, by determining the coordinates corresponding to the path direction while subtracting one sequentially from Y Y = Y E, optimum leading to (X O, Y E) ~ (X O, Y S) The route can be determined.
第6図において、丸印を付した画素は、このステップ
S3−3により得られた経路上の座標を示す。また、第7
図は、第6図の経路方向データd(X,Y)に対するステ
ップS3−3の結果を第3図の文字列画像パタンと対応付
けた図であり、図中黒丸印で示される画素は検出された
経路上の画素を表わす。In FIG. 6, the pixels with circles represent the steps in this step.
The coordinates on the route obtained by S3-3 are shown. Also, the seventh
The figure is a diagram in which the result of step S3-3 for the route direction data d (X, Y) in FIG. 6 is associated with the character string image pattern in FIG. 3, and the pixels indicated by black circles in the figure are detected. Represents the pixel on the path.
このステップS3が終了すると、ステップS4〜S6へと進
む。When step S3 ends, the process proceeds to steps S4 to S6.
(4)境界線検出(ステップS4〜S6) ステップS4において、境界線検出部13は、経路算出部
12bより経路を形成する画素群の位置データを入力し、
さらに探索領域設定部11より該経路の近傍領域の画像濃
度値を読み出して、該経路の隣接する部分パタン間の境
界線としての有効性を判定する。(4) Boundary Line Detection (Steps S4 to S6) In step S4, the boundary line detection unit 13 sets the route calculation unit
Input the position data of the pixel group forming the path from 12b,
Further, the image density value of a region near the route is read from the search region setting unit 11, and the validity as a boundary between adjacent partial patterns of the route is determined.
この判定は、(b1)隣接する部分パタン間の境界線の
長さが短い、(b2)該境界線上の黒画素数が少ない。
(b3)隣接する境界線間に含まれる黒画素数が多い、等
の境界線に関する一般的な傾向に基づいて行なう。例え
ば、次の3つの条件を共に満足した場合に、経路算出部
12bより得られた経路を、有効と判定する。In this determination, (b1) the length of the boundary between adjacent partial patterns is short, and (b2) the number of black pixels on the boundary is small.
(B3) This is performed based on a general tendency regarding a boundary line such as a large number of black pixels included between adjacent boundary lines. For example, when all of the following three conditions are satisfied, the route calculation unit
The route obtained from 12b is determined to be valid.
条件1 L<K1×H ;前記(b1)の性質に対応 ……(7) 条件2 B1<K2×H×LW ;前記(b2)の性質に対応 ……(8) 条件3 B2>K3×H×LW ;前記(b3)の性質に対応 ……(9) 但し、L、B1、B2は、各々経路長、経路上の黒画素
数、隣接する境界線との間に含まれる黒画素数である。
Hは文字列画像データの行方向に垂直な方向について大
きさ(高さ)である。LWは、文字列画像データに含まれ
る文字パタンの平均線幅である。平均線幅は、種々の方
法で検出できる。また、K1,K2,K3は経験的に定めた所
定の定数であり、例えばK1=1.5,K2=0.1,K3=0.4程度
の数値を設定する。Condition 1 L <K 1 × H; corresponding to the property of the above (b1)... (7) Condition 2 B 1 <K 2 × H × LW; corresponding to the property of the above (b2)... (8) Condition 3 B 2 > K 3 × H × LW; corresponding to the property of (b3) above (9) where L, B 1 , and B 2 are the path length, the number of black pixels on the path, and the distance from the adjacent boundary line, respectively. This is the number of black pixels included between them.
H is the size (height) in the direction perpendicular to the row direction of the character string image data. LW is the average line width of the character pattern included in the character string image data. The average line width can be detected in various ways. K 1 , K 2 , and K 3 are predetermined constants determined empirically. For example, values of K 1 = 1.5, K 2 = 0.1, and K 3 = 0.4 are set.
なお、本文字切出し装置10の動作初期時においては、
文字列画像データの先頭位置に、仮想的に境界線が設定
されているものとする。In the initial operation of the character extraction device 10,
It is assumed that a boundary line is virtually set at the head position of the character string image data.
このステップS4において、経路の有効性が認められな
い場合、次の探索領域を設定するために、境界線検出部
13が探索領域設定部11に指示を送り、ステップS1へ戻
る。If the validity of the route is not recognized in step S4, the boundary detection unit is set to set the next search area.
13 sends an instruction to the search area setting unit 11, and returns to step S1.
経路の有効性が確認された場合には、ステップS5にお
いて、境界線検出部13が、該経路を隣接する部分パタン
間の境界線として決定し、該境界線を形成する画素群の
位置データを保存する。そしてステップS6において、境
界線検出部13は、境界線の検出処理を終了するか否かを
判定する。検出処理を終了しない場合には、次の探索領
域を設定するために探索領域設定部11がステップS1を実
行する。これに対し、検出処理を終了する場合には、文
字パタン切出し部14がステップS7を実行する。When the validity of the path is confirmed, in step S5, the boundary detection unit 13 determines the path as a boundary between adjacent partial patterns, and determines position data of a pixel group forming the boundary. save. Then, in step S6, the boundary detection unit 13 determines whether to end the boundary detection processing. If the detection process is not completed, the search area setting unit 11 executes step S1 to set the next search area. On the other hand, when ending the detection processing, the character pattern cutout unit 14 executes step S7.
境界線の検出処理を終了するか否かの判定に当って
は、文字列画像データ中の境界線より後方の領域に、黒
画素が存在しないか否かを検出し、存在する場合には検
出処理を終了しないと判定し、存在しない場合には検出
処理を終了すると判定する。In determining whether or not to end the boundary line detection processing, it is determined whether or not black pixels do not exist in an area behind the boundary line in the character string image data. It is determined that the processing is not to be terminated, and if not, it is determined that the detection processing is to be terminated.
(5)探索領域設定から境界線検出までの総括(ステッ
プS1〜S6) 第8図は、ステップS1〜S6による部分パタン間の境界
線の検出例を示す図である。図中、30は文字列画像デー
タからなるパタンの例を表わし、行方向をX行方向に垂
直な方向をYで示してある。(5) Generalization from Search Area Setting to Boundary Line Detection (Steps S1 to S6) FIG. 8 is a diagram showing an example of detecting a boundary line between partial patterns in steps S1 to S6. In the figure, reference numeral 30 denotes an example of a pattern composed of character string image data, in which the row direction is indicated by Y and the direction perpendicular to the X row direction.
探索領域設定部11が文字列画像パタン30を入力する
と、探索領域31が設定され、経路検出部12が点線で示す
経路を検出する。境界線検出部13は(9)式の条件が満
足されていないことを検知して、該経路を無効とみな
し、次に探索領域設定部11が探索領域32を設定する。探
索領域32については、経路検出部12が点線で示す経路を
検出するが、境界線検出部13が、(8)式の条件が満足
されていないことを検知して、該経路を無効とみなし、
次に探索領域設定部11が探索領域33を設定する。When the search area setting unit 11 inputs the character string image pattern 30, the search area 31 is set, and the path detection unit 12 detects a path indicated by a dotted line. The boundary detection unit 13 detects that the condition of the expression (9) is not satisfied, regards the route as invalid, and then sets the search area 32 by the search area setting unit 11. For the search area 32, the route detection unit 12 detects the route indicated by the dotted line, but the boundary detection unit 13 detects that the condition of the expression (8) is not satisfied, and considers the route to be invalid. ,
Next, the search area setting unit 11 sets the search area 33.
探索領域33については、経路検出部12が点線で示す経
路を検出し、境界線検出部13が該経路を有効と判定して
該経路の位置データを保存し、次に探索領域設定部11が
探索領域34を設定する。以下同様の処理を繰り返すこと
により、領域35に示すごとく、点線で示された4組の境
界線が得られる。境界線検出部13は、最終的に4組の境
界線の位置情報を保存する。その結果、実質的に4個の
部分パタンP1〜P4が得られる。Regarding the search area 33, the path detection unit 12 detects the path indicated by the dotted line, the boundary line detection unit 13 determines that the path is valid, stores the position data of the path, and then the search area setting unit 11 The search area 34 is set. Thereafter, by repeating the same processing, four sets of boundary lines indicated by dotted lines are obtained as shown in the area 35. The boundary line detection unit 13 finally stores the position information of the four sets of boundary lines. As a result, substantially four partial patterns P1 to P4 are obtained.
(6)文字パタン切出し(ステップS7) ステップS7において、文字パタン切出し部14は、部分
パタン間の境界線の位置データを境界線検出部13より読
み出し、該境界線の位置に基づき、探索領域設定部11に
保存された文字列画像データより、1文字ずつの文字パ
タンを切出し、対応する文字パタンOUTのデータを出力
して文字切出し装置10の動作を終了する。(6) Character Pattern Extraction (Step S7) In step S7, the character pattern extraction unit 14 reads out the position data of the boundary between the partial patterns from the boundary detection unit 13, and sets the search area based on the position of the boundary. From the character string image data stored in the unit 11, a character pattern for each character is cut out, the data of the corresponding character pattern OUT is output, and the operation of the character cutout device 10 ends.
即ち、文字切出し処理では、文字パタンを構成する個
々の部分パタンの位置やパタンデータに基づいて切出し
位置を決定することが必要となる。そこで本実施例の文
字切出し方法では、前記境界線の位置に基づいて部分パ
タンを抽出し、該部分パタン及び該部分パタンの組合わ
せによる統合パタンの各々を文字候補パタンとして、文
字候補パタン毎に幾何学的文字評価値を検出する。そし
て該幾何学的文字評価値に基づき、最適な文字候補パタ
ン並びを求めてこれを文字切出し結果としている。That is, in the character cutout processing, it is necessary to determine the cutout position based on the positions of the individual partial patterns constituting the character pattern and the pattern data. Therefore, in the character extraction method according to the present embodiment, a partial pattern is extracted based on the position of the boundary line, and each of the partial pattern and an integrated pattern obtained by combining the partial patterns is used as a character candidate pattern. Detect geometric character evaluation values. Then, based on the geometric character evaluation value, an optimum character candidate pattern arrangement is obtained and used as a character cutout result.
ここで、統合パタンの設定に当っては、統合パタン幅
が所定の閾値(例えば、文字列画像パタンの高さの1.5
倍)を越えない範囲で設定を行なう。文字候補パタンi
に対する幾何学的文字評価値Viとしては、例えば次式
(10)を用い、値が小さい程文字らしいことを示すもの
とする。Here, when setting the integrated pattern, the integrated pattern width is set to a predetermined threshold (for example, 1.5 times the height of the character string image pattern).
Make settings within a range that does not exceed (double). Character candidate pattern i
As the geometric character evaluation value Vi for, for example, the following expression (10) is used, and a smaller value indicates a more likely character.
但し、Wi:文字候補パタンiのパタン幅 H:文字列画像パタン高さ また、最適な文字候補パタン並びの検出に当っては、次
式(11)で表わされる文字候補パタン並び に対する総合評価値 が、最小となる場合の文字候補パタン並びを文字切出し
結果とする。 However, Wi: the pattern width of the character candidate pattern i, H: the character string image pattern height In detecting the optimal character candidate pattern arrangement, the character candidate pattern arrangement represented by the following equation (11) is used. Overall evaluation value for Is the smallest, the character candidate pattern arrangement is taken as the character extraction result.
但し、ni:文字候補パタンiを構成する部分パタン数 第9図は、第8図の境界線検出例(領域35)に対する
幾何学的文字評価値例を示す図である。この図に基づ
き、(11)式が最小となる場合の文字候補パタン並びを
求めると、「東」(P1),「京」(P2),「都」(P3+
P4)が文字切出し結果として得られる。 Note that ni: the number of partial patterns constituting the character candidate pattern i. FIG. 9 is a diagram showing an example of a geometric character evaluation value for the example of boundary detection (the area 35) in FIG. Based on this figure, the character candidate pattern arrangement when equation (11) is minimized is obtained as follows: "East" (P1), "Kyo" (P2), "To" (P3 +
P4) is obtained as a character segmentation result.
従って、本実施例では、次のような利点を有してい
る。Therefore, this embodiment has the following advantages.
(i)経路検出部12は、探索始点から探索終点へ向かう
探索領域内の経路において、その経路上の各座標の画素
濃度値を該座標での経路の向きに応じて定めた所定の係
数で重み付けし、その累積値が最小となるよう境界線検
出用の経路を検出する。そのため、次の2つの性質(i
−1)、(i−2)を有する経路を得ることができる。(I) In the route in the search area from the search start point to the search end point, the route detection unit 12 determines a pixel density value of each coordinate on the route by a predetermined coefficient determined according to the direction of the route at the coordinates. Weighting is performed, and a path for detecting a boundary line is detected so that the accumulated value is minimized. Therefore, the following two properties (i
-1) and (i-2) can be obtained.
(i−1)経路が横切る文字構成画素(画素濃度値の高
い画素)の割合が小さい。(I-1) The ratio of character-constituting pixels (pixels with a high pixel density value) crossing the path is small.
(i−2)探索始点と探索終点とを結ぶ線分からの経路
のずれが小さい。(I-2) The deviation of the route from the line segment connecting the search start point and the search end point is small.
このように、本実施例では、入力文字列画像の隣接文
字同士が重なり合う場合、隣接文字間の背景領域(白画
素領域)中から探索始点と探索終点とを結ぶ線分からの
ずれが小さい経路を、隣接する部分パタン間の境界線と
して決定するので、隣接文字の各々の文字パタンOUTを
正しく切出すことができる。また、隣接文字同士が接触
する場合には、接触箇所を含む文字構成画素の塊内にお
いて、探索始点と探索終点とを結ぶ線分からのずれが小
さい経路であってしかも通過距離の小さい経路を、隣接
する部分パタン間の境界線として決定するので、隣接文
字の各々の文字パタンOUTを高精度に切出すことができ
る。これにより、従来に比べ文字切出しの精度が向上す
るので、例えば文字認識装置における文字切出しエラー
に基づく認識率の低下を回避でき、高精度な文字認識装
置を実現できる。As described above, in the present embodiment, when adjacent characters of the input character string image overlap each other, a path having a small deviation from a line segment connecting the search start point and the search end point from the background area (white pixel area) between the adjacent characters is determined. Is determined as a boundary line between adjacent partial patterns, so that the character pattern OUT of each adjacent character can be correctly extracted. Further, when adjacent characters are in contact with each other, a path having a small deviation from a line segment connecting the search start point and the search end point and having a small passage distance within a block of character constituent pixels including the contact point is Since it is determined as a boundary between adjacent partial patterns, each character pattern OUT of adjacent characters can be extracted with high accuracy. As a result, the accuracy of character extraction is improved as compared with the related art, so that it is possible to avoid a reduction in the recognition rate due to, for example, a character extraction error in the character recognition device, and to realize a highly accurate character recognition device.
なお、本発明は上記実施例に限定されず、種々の変形
が可能である。その変形例としては、例えば次のような
ものがある。Note that the present invention is not limited to the above embodiment, and various modifications are possible. For example, there are the following modifications.
(1)経路方向評価値データg(X,Y)を算出するため
に、パラメータK0,K1,K2の各々を(6)式のように定
めたが、対象とする文字パタンの特徴に応じてK0,K1,
K2を設定するのがよい。(1) In order to calculate the route direction evaluation value data g (X, Y), each of the parameters K 0 , K 1 , and K 2 is determined as in equation (6). K 0 , K 1 ,
It is preferable to set the K 2.
例えば、大幅な重なりや接触が存在しない文字で構成
される文字列画像(例えば、活字の文字列)の場合、K1
よりも大きくかつK1との差がより大きいK0及びK2を設定
すれば、探索始点と探索終点を結ぶ線分からのずれがよ
り小さい領域から経路が決定される。For example, in the case of a character string image (for example, a character string of a print type) composed of characters having no significant overlap or contact, K 1
If K 0 and K 2 are set to be larger than K 1 and larger than K 1 , the route is determined from an area where the deviation from the line segment connecting the search start point and the search end point is small.
(2)第3図では、探索領域21の位置及び形状を、幅2A
+1を持つ六角形に設定したが、この探索領域21の位置
及び形状を適宜変更してもよい。(2) In FIG. 3, the position and shape of the search area 21 are set to the width 2A.
Although a hexagon having +1 is set, the position and shape of the search area 21 may be changed as appropriate.
例えば、大幅な重なりや接触が存在しない文字で構成
される文字列画像(例えば、活字の文字列)の場合よ
り、より幅の狭い探索領域を設定し、逆に大幅な重なり
や接触が存在する文字で構成される文字列画像(例え
ば、手書きの文字列)の場合、より幅の広い探索領域を
設定すればよい。さらに、対象とする文字種の特徴に応
じて探索領域21の形状を六角形以外の四角形、八角形、
楕円形等にしてもよい。For example, a narrower search area is set than in the case of a character string image (for example, a character string of printed characters) composed of characters having no significant overlap or contact, and conversely, significant overlap or contact exists. In the case of a character string image composed of characters (for example, a handwritten character string), a wider search area may be set. Furthermore, the shape of the search area 21 is changed to a rectangle other than a hexagon, an octagon,
It may be elliptical or the like.
また、上記実施例では探索始点及び探索終点を文字列
画像の領域外に設定したが、必要に応じて文字列画像の
領域内に探索始点及び探索終点を設定してもよい。In the above embodiment, the search start point and the search end point are set outside the area of the character string image. However, the search start point and the search end point may be set within the area of the character string image as needed.
(3)経路方向評価値データg(X,Y)算出のために注
目画素(X,Y)に対し、3つの画素(X−1,Y−1),
(X,Y−1),(X+1,Y−1)における経路方向評価値
データg(X−1,Y−1),g(X,Y−1),g(X+1,Y−
1)を参照するよう文字切出し装置10を構成したが、必
要に応じて参照する画素数を増減してもよい。例えば、
g(X,Y)算出のために、5つの画素(X−2,Y−1),
(X−1,Y−1),(X,Y−1),(X+1,Y−1),
(X+2,Y−1)を参照すれば、上記実施例に比べ、よ
り入り込んだ重なり文字及び接触文字に対しても、正し
く部分パタン間の境界線を検出できる。(3) Three pixels (X−1, Y−1) and (X−1, Y−1) with respect to the pixel of interest (X, Y) for calculating the route direction evaluation value data g (X, Y)
Route direction evaluation value data g (X-1, Y-1), g (X, Y-1), g (X + 1, Y-) at (X, Y-1), (X + 1, Y-1)
Although the character extracting device 10 is configured to refer to 1), the number of pixels to be referenced may be increased or decreased as necessary. For example,
To calculate g (X, Y), five pixels (X−2, Y−1),
(X-1, Y-1), (X, Y-1), (X + 1, Y-1),
Referring to (X + 2, Y-1), it is possible to correctly detect the boundary between the partial patterns even for the overlapping characters and the touching characters that are more involved than in the above embodiment.
(4)探索始点のX座標と探索終点のX座標を等しく設
定したが、対象とする文字列画像の特徴に応じて適宜変
更するのが良い。例えば、文字列を構成する各文字が斜
めに傾いている場合(例えば、イタリック体で記載され
た英文文字列の場合)、探索始点及び探索終点を文字行
画像の文字並びと垂直な方向に対し斜めの直線上に設定
し、該探索始点と探索終点とを結ぶ線分を軸とした適当
な探索領域を設定して文字パタン切出しのための処理を
行なうのがよい。この場合には、経路方向評価値データ
g(X,Y)算出のためのパラメータK0,K1,…,K
m-1(但し、mはg(X,Y)算出のための参照画素数)
を、前記斜めの直線の方向により近い方向に対応する前
記パラメータの値をより小さく設定すれば良い。(4) Although the X coordinate of the search start point and the X coordinate of the search end point are set to be equal, it is preferable to appropriately change the X coordinate according to the characteristics of the target character string image. For example, if each character constituting the character string is obliquely inclined (for example, in the case of an English character string described in italics), the search start point and the search end point are set with respect to the direction perpendicular to the character arrangement of the character line image. It is preferable to set a diagonal straight line, set an appropriate search area around a line segment connecting the search start point and the search end point, and perform a process for extracting a character pattern. In this case, the parameters K 0 , K 1 ,..., K for calculating the route direction evaluation value data g (X, Y)
m-1 (where m is the number of reference pixels for calculating g (X, Y))
May be set to a smaller value of the parameter corresponding to a direction closer to the direction of the diagonal straight line.
(5)白画素に対応する画素濃度値を10、黒画素に対応
する画素濃度値を100として説明したが、これらの数値
は適宜変更してよい。(5) Although the pixel density value corresponding to the white pixel is set to 10 and the pixel density value corresponding to the black pixel is set to 100, these numerical values may be changed as appropriate.
(6)入力文字列画像が白黒2値のデータである場合に
つき説明したが、この入力文字列画像が多値データであ
る場合に対してもそのまま適用可能である。(6) The case where the input character string image is binary black and white data has been described. However, the present invention can be applied to the case where the input character string image is multivalued data.
(7)入力文字列画像の画素濃度値に基づいて経路を決
定する場合につき説明したが、この入力文字列画像に何
らかの処理を行なって得られる出力画像の画素濃度値に
基づき経路を決定しても良い。例えば、入力文字列画像
を該文字列画像の高さや、平均線幅等に基づいて定めら
れるM×N画素(但し、M,Nは正の整数)の大きさのブ
ロックに分割する。そして分割した各ブロックを1画素
とした2値または多値の縮小パタンを作成し、該縮小パ
タンの画素濃度値に基づいて経路を決定することも可能
である。この際、入力文字列画像が局所的にかすれてい
たり、画素濃度値が高くなっている場合に、これらの影
響を除去した縮小パタンが作成できるので、経路の誤っ
た決定を回避できる。(7) The case where the path is determined based on the pixel density value of the input character string image has been described. However, the path is determined based on the pixel density value of the output image obtained by performing some processing on the input character string image. Is also good. For example, the input character string image is divided into blocks of M × N pixels (where M and N are positive integers) determined based on the height of the character string image, the average line width, and the like. It is also possible to create a binary or multi-valued reduced pattern in which each divided block is defined as one pixel, and determine a path based on the pixel density value of the reduced pattern. At this time, if the input character string image is locally blurred or the pixel density value is high, a reduced pattern that eliminates these effects can be created, so that erroneous determination of the path can be avoided.
(8)第1図の文字切出し装置10内の各ブロックは、集
積回路等を用いた個別回路で構成したり、あるいはマイ
クロコンピュータ等を用いたプログラム制御により実行
する構成にしても良い。(8) Each block in the character extracting device 10 shown in FIG. 1 may be configured by an individual circuit using an integrated circuit or the like, or may be configured to be executed by program control using a microcomputer or the like.
(発明の効果) 以上詳細に説明したように、本発明によれば、探索領
域設定部が文字列画像の探索領域を設定し、その探索領
域に基づき経路検出部が最適な経路を検出し、境界線検
出部が前記経路を近傍領域の画素濃度値とに基づいて部
分パタン間の境界線を設定し、さらに、その境界線に基
づき文字パタン切出し部が文字パタンの切出しを行なう
ようにしている。そのため、経路検出部により、次の2
つの性質(i),(ii)を有する経路を得ることができ
る。(Effect of the Invention) As described in detail above, according to the present invention, the search area setting unit sets the search area of the character string image, and the path detection unit detects the optimal path based on the search area, The boundary detection unit sets a boundary between the partial patterns based on the route and the pixel density value of the neighboring area, and further, the character pattern cutout unit cuts out the character pattern based on the boundary. . Therefore, the following 2
A path having two properties (i) and (ii) can be obtained.
(i)経路が横切る文字構成画素(画素濃度値の高い画
素)の割合が小さい。(I) The ratio of character-constituting pixels (pixels having a high pixel density value) crossing the path is small.
(ii)経路の探索始点と探索終点とを結ぶ線分からのず
れが小さい。(Ii) The deviation from the line connecting the route search start point and the search end point is small.
これにより、入力文字列画像の隣接文字同士が重なり
合う場合には、隣接文字間の背景領域中から探索始点と
探索終点とを結ぶ線分からのずれが小さい経路を、隣接
する部分パタン間の境界線として決定するので、隣接文
字の各々の文字パタンを正しく切出すことができる。ま
た、隣接文字同士が接触する場合には、接触箇所を含む
文字構成画素の塊内において、探索始点と探索終点とを
結ぶ線分からのずれが小さい経路であってしかも通過距
離の小さい経路を、隣接する部分パタン間の境界線とし
て決定するので、隣接文字の各々の文字パタンを高精度
に切出すことができる。Accordingly, when adjacent characters of the input character string image overlap with each other, a path having a small deviation from a line connecting the search start point and the search end point from the background area between the adjacent characters is set as a boundary line between adjacent partial patterns. Therefore, the character pattern of each of the adjacent characters can be correctly extracted. Further, when adjacent characters are in contact with each other, a path having a small deviation from a line segment connecting the search start point and the search end point and having a small passage distance within a block of character constituent pixels including the contact point is Since it is determined as a boundary line between adjacent partial patterns, each character pattern of adjacent characters can be extracted with high accuracy.
従って、従来に比べ文字切出しの精度が向上するの
で、例えば文字認識装置における文字切出しエラーに基
づく認識率の低下を回避でき、高精度な文字認識装置を
実現できる。Therefore, since the accuracy of character extraction is improved as compared with the conventional art, it is possible to avoid a decrease in the recognition rate due to a character extraction error in a character recognition device, for example, and to realize a highly accurate character recognition device.
また、探索領域を凸多角形の形状にした場合には、少
ない演算量で、精度の良い、経路の検出が可能となる。In addition, when the search area is formed in a convex polygonal shape, the path can be detected with high accuracy and with a small amount of calculation.
第1図は本発明の実施例を示す文字切出し装置の機能ブ
ロック図、第2図は第1図の動作フローチャート、第3
図は探索領域の例を示す図、第4図は画素(X,Y)と隣
接する3画素を示す図、第5図は経路方向評価値データ
g(X,Y)の例を示す図、第6図は経路方向データd
(X,Y)の例を示す図、第7図は経路検出部12による経
路の検出例を示す図、第8図は境界線の検出例を示す
図、第9図は幾何学的文字評価値の例を示す図である。 1……文字列画像入力部、10……文字切出し装置、11…
…探索領域設定部、12……経路検出部、12a……経路方
向データ算出部、12b……経路算出部、13……境界線検
出部、14……文字パタン切出し部。FIG. 1 is a functional block diagram of a character extracting device showing an embodiment of the present invention, FIG. 2 is an operation flowchart of FIG. 1, and FIG.
FIG. 4 shows an example of a search area, FIG. 4 shows three pixels adjacent to a pixel (X, Y), FIG. 5 shows an example of route direction evaluation value data g (X, Y), FIG. 6 shows the route direction data d.
FIG. 7 is a diagram showing an example of (X, Y), FIG. 7 is a diagram showing an example of route detection by the route detection unit 12, FIG. 8 is a diagram showing an example of boundary line detection, and FIG. It is a figure showing an example of a value. 1 ... Character string image input unit, 10 ... Character cutout device, 11 ...
... Search area setting unit, 12... Route detection unit, 12a... Route direction data calculation unit, 12b... Route calculation unit, 13... Boundary line detection unit, 14.
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平3−92987(JP,A) 特開 平3−141482(JP,A) 特開 平4−68481(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06K 9/34 ────────────────────────────────────────────────── ─── Continuation of the front page (56) References JP-A-3-92987 (JP, A) JP-A-3-141482 (JP, A) JP-A-4-68481 (JP, A) (58) Field (Int.Cl. 6 , DB name) G06K 9/34
Claims (2)
像データを入力し、該文字列画像データ中の隣接する部
分パタン間に境界線を設定するための探索始点と探索終
点と該探索始点及び探索終点間を結ぶ線分を軸とした探
索領域とを設定する探索領域設定部と、 前記探索始点から探索終点へ向かう探索領域内の経路に
おいて、該経路上の各座標の画素濃度値を該座標での経
路の向きに応じて定めた所定の係数で重み付けし、その
累積値が最小となるよう該経路を検出する経路検出部
と、 前記経路検出部で検出された経路とその経路の近傍領域
の画素濃度値とに基づいて該経路の有効性を判定し、有
効であると認められる場合に該経路を隣接する部分パタ
ン間の境界線であると判定する境界線検出部と、 前記隣接する部分パタン間の境界線の位置に基づいて前
記文字列画像データから文字パタンの切出しを行なう文
字パタン切出し部とを備え、 前記探索領域設定部は、前記経路検出部より得られた経
路と前記境界線検出部より得られた該経路の有効性とに
基づいて前記探索始点及び探索終点を更新する構成にし
た、 ことを特徴とする文字切出し装置。A search start point and a search end point for inputting character string image data obtained from a character string on an input medium, and setting a boundary between adjacent partial patterns in the character string image data; A search area setting unit that sets a search area around a line segment connecting the start point and the search end point; and a pixel density value of each coordinate on the path in the search area from the search start point to the search end point. Is weighted by a predetermined coefficient determined according to the direction of the route at the coordinates, and a route detection unit that detects the route so that the accumulated value is minimized; a route detected by the route detection unit and the route A boundary detection unit that determines the validity of the path based on the pixel density value of the neighboring area, and determines that the path is a boundary between adjacent partial patterns when the path is recognized as valid. Boundary line between the adjacent partial patterns A character pattern cutout unit that cuts out a character pattern from the character string image data based on the position, wherein the search area setting unit is obtained by the path obtained by the path detection unit and the boundary line detection unit. A character extracting device, wherein the search start point and the search end point are updated based on the validity of the route.
つ該探索始点及び探索終点を頂点とする凸多角形の形状
とした文字切出し装置。2. The character segmenting device according to claim 1, wherein the search area is a convex polygonal shape that is symmetric with respect to a line segment connecting the search start point and the search end point and whose vertices are the search start point and the search end point. Character extraction device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2207844A JP2899383B2 (en) | 1990-08-06 | 1990-08-06 | Character extraction device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2207844A JP2899383B2 (en) | 1990-08-06 | 1990-08-06 | Character extraction device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0492992A JPH0492992A (en) | 1992-03-25 |
JP2899383B2 true JP2899383B2 (en) | 1999-06-02 |
Family
ID=16546467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2207844A Expired - Fee Related JP2899383B2 (en) | 1990-08-06 | 1990-08-06 | Character extraction device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2899383B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5672828B2 (en) * | 2010-08-03 | 2015-02-18 | 富士ゼロックス株式会社 | Image processing apparatus and image processing program |
JP5577948B2 (en) * | 2010-08-24 | 2014-08-27 | 富士ゼロックス株式会社 | Image processing apparatus and image processing program |
JP6003705B2 (en) | 2013-02-14 | 2016-10-05 | 富士ゼロックス株式会社 | Information processing apparatus and information processing program |
-
1990
- 1990-08-06 JP JP2207844A patent/JP2899383B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH0492992A (en) | 1992-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8582888B2 (en) | Method and apparatus for recognizing boundary line in an image information | |
JP4403513B2 (en) | Fingerprint ridge recognition device, fingerprint ridge recognition method, and program | |
JP3904840B2 (en) | Ruled line extraction device for extracting ruled lines from multi-valued images | |
JP3830998B2 (en) | Ruled line removal method and character recognition apparatus using the same | |
JPH0436433B2 (en) | ||
US8600175B2 (en) | Apparatus and method of processing image including character string | |
JP2899383B2 (en) | Character extraction device | |
JP3936436B2 (en) | Table recognition method | |
JPH09311905A (en) | Line detecting method and character recognition device | |
JP3597148B2 (en) | Fingerprint feature extraction device, fingerprint feature extraction method, and fingerprint extraction program | |
JP2963508B2 (en) | Character extraction device | |
JP2871601B2 (en) | Character string detecting apparatus and method | |
JP2002133424A (en) | Detecting method of inclination angle and boundary of document | |
JP2868134B2 (en) | Image processing method and apparatus | |
JP3096481B2 (en) | How to determine the type of form | |
JP2872768B2 (en) | Character extraction device | |
JP3883993B2 (en) | Image processing apparatus, method, and program | |
JP3019897B2 (en) | Line segmentation method | |
JP4282467B2 (en) | Image area separation method | |
JP3710164B2 (en) | Image processing apparatus and method | |
JP2720588B2 (en) | Character recognition device | |
JP2004334913A (en) | Document recognition device and document recognition method | |
JP3914592B2 (en) | Character pattern circumscribing frame determination method, character normalization device | |
JP3285837B2 (en) | Apparatus and method for extracting character string | |
JP2715930B2 (en) | Line detection method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |