JP4541995B2 - Figure recognition method - Google Patents
Figure recognition method Download PDFInfo
- Publication number
- JP4541995B2 JP4541995B2 JP2005244670A JP2005244670A JP4541995B2 JP 4541995 B2 JP4541995 B2 JP 4541995B2 JP 2005244670 A JP2005244670 A JP 2005244670A JP 2005244670 A JP2005244670 A JP 2005244670A JP 4541995 B2 JP4541995 B2 JP 4541995B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- pattern
- ratio
- character
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Image Analysis (AREA)
- Character Input (AREA)
- Image Processing (AREA)
- Character Discrimination (AREA)
- Editing Of Facsimile Originals (AREA)
Description
この発明は、図形認識(パターン認識)方法に関し、より詳細には、認識のためのカテゴリ情報の埋め込み、あるいは埋め込まれたカテゴリ情報を用いた図形認識に関する。 The present invention relates to a graphic recognition (pattern recognition) method, and more particularly, relates to graphic information embedding for recognition or embedding category information.
近年普及がめざましいデジタルカメラは、図形パターンの入力装置として優れた特性を有している。その携帯性やボタン一つの操作性は、スキャナは使いにくいと感じていたユーザにも受け入れられ易いと考えられる。実環境中にあって動かせない文字(例えば看板)を入力対象とできる点も魅力的である。 2. Description of the Related Art Digital cameras, which have been popular in recent years, have excellent characteristics as graphic pattern input devices. Its portability and operability with a single button are considered to be easily accepted by users who feel that the scanner is difficult to use. It is also attractive that characters that cannot be moved in a real environment (for example, a signboard) can be input.
しかし、入力された図形パターンを認識に用いようとする場合、例えば、実環境中の文字を認識しようとする場合には、図形処理技術の観点から様々な課題がある。例えば、撮影状況に起因した様々な歪みがある。すなわち、幾何歪み(特に射影変換歪み)、低解像度、非均質照明、ぼけ・手ぶれ、といった歪みを受けた文字は、従来のOCR用に開発された認識手法では手に負えない。 However, when an input graphic pattern is used for recognition, for example, when a character in an actual environment is to be recognized, there are various problems from the viewpoint of graphic processing technology. For example, there are various distortions caused by shooting conditions. That is, characters subjected to distortion such as geometric distortion (particularly projective transformation distortion), low resolution, non-homogeneous illumination, blur / blurring cannot be handled by a conventional recognition method developed for OCR.
こうした撮影状況に起因した歪みへの幾つかの対処法が提案されている(例えば、非特許文献1、2参照)。例えば、幾何歪みに対しては、各文字を対象とした弾性マッチング法や文書全体を対象としたdewarping手法が提案されている(例えば、非特許文献3参照)。また、非均質照明に対しては局所2値化といった手法が検討されている(例えば、非特許文献4、5、6参照)。これらの検討はいずれも、実環境中の文字をなるべく従来のOCRの枠組みで認識するための、特徴抽出や前処理に関する工夫であるといえる。 Several methods for dealing with distortion caused by such a photographing situation have been proposed (for example, see Non-Patent Documents 1 and 2). For example, for geometric distortion, an elastic matching method for each character and a dewarping method for the entire document have been proposed (for example, see Non-Patent Document 3). For non-homogeneous illumination, methods such as local binarization have been studied (for example, see Non-Patent Documents 4, 5, and 6). All of these studies can be said to be a device for feature extraction and preprocessing for recognizing characters in the real environment as much as possible by the conventional OCR framework.
このような、前述の種々の手法と異なる観点から、機械可読性を補強するような付加情報(認識情報)を予め文字パターンそのものに埋め込むアプローチがなされている。言い換えると、実環境での機械認識を容易なものにする工夫を文字パターン側に施す手法である。このような試みは、OCRやMICR(magnetic ink character recognition)の黎明期に既に為されている。すなわち、機械読み取りのために独特の形状を持たせたフォントである(例えば、非特許文献7、8参照)。例えば、C.M.C.7と呼ばれるMICRフォントは、広狭2種類の間隔を持つ7本の垂直線分を用いて設計されており、これら6つの間隔が文字コードを定める。 From a viewpoint different from the above-described various methods, an approach has been made in which additional information (recognition information) that reinforces machine readability is embedded in the character pattern itself in advance. In other words, the character pattern side is devised to facilitate machine recognition in a real environment. Such an attempt has already been made in the early days of OCR and MICR (Magnetic Ink Character Recognition). That is, it is a font having a unique shape for machine reading (see, for example, Non-Patent Documents 7 and 8). For example, C.I. M.M. C. The MICR font called 7 is designed by using seven vertical line segments having two types of wide and narrow intervals, and these six intervals define a character code.
あるいは、近年ではDataGlyphが知られている(例えば、非特許文献9参照)。DataGlyphは、外観への影響を極力排除した文字へのデータ埋め込み方式である。具体的には、文字図形を細かな「/」、「\」からなるテクスチャパターンで構成するというものである。
前述のように、文字認識を含む従来のパターン認識の研究は、人間可読性だけが高いパターンを何とかして機械認識することを目指してきた。一方、昨今は、ユビキタスコンピューティングに関する研究の隆盛が暗示するように、ビデオカメラ、携帯カメラなどの撮影装置がまさに遍在しており、各種パターンを機械認識すべき機会が多くなっている。こうした状況を考えると、人間可読性と機械可読性の両方が高いパターンを生成し、それを人間と機械の両者を仲立ちするメディアとして活用することが今後重要になってくるものと思われる。 As described above, research on conventional pattern recognition including character recognition has been aimed at somehow machine recognition of patterns that have only high human readability. On the other hand, recently, as the research on ubiquitous computing suggests, photographing devices such as video cameras and portable cameras are ubiquitous, and there are many opportunities for machine recognition of various patterns. Considering such a situation, it seems that it will become important in the future to generate a pattern with high human readable and machine readable characteristics and to use it as a media that mediates both human and machine.
しかし、前述したOCR/MICRフォントやDataGlyphなどは、いずれもスキャナでの撮像を前提として設計されたものであり、カメラでの撮像を前提としたものではない。従って、例えば、カメラで撮像されたDataGlyphから情報抽出する場合は、撮像時の歪みを補正しながら元のDataGlyphを推定するという方法をとらざるを得ない。 However, the above-described OCR / MICR font, DataGlyph, and the like are all designed on the premise of imaging with a scanner, and are not premised on imaging with a camera. Therefore, for example, when extracting information from DataGlyph imaged by the camera, a method of estimating the original DataGlyph while correcting distortion at the time of imaging must be taken.
スキャナだけではなくカメラでの撮像を想定した好適な情報の埋め込み手法、あるいは認識手法が望まれている。換言すれば、OCR/MICRフォントを、実環境中での文字認識に拡張し得る手法が望まれている。 A suitable information embedding method or recognition method assuming imaging not only by a scanner but also by a camera is desired. In other words, a technique that can extend the OCR / MICR font to character recognition in a real environment is desired.
この発明は、スキャナだけでなくカメラでの撮像に対しても好適な手法を用いて機械可読性を補強するような情報を図形に埋め込み、前記情報が埋め込まれた実環境中の図形、例えば文字パターンを高い精度で認識することのできる認識手法を提供するものである。 The present invention embeds information that reinforces machine readability in a figure using a technique suitable not only for scanning with a camera but also a camera, and a figure in a real environment in which the information is embedded, for example, a character pattern It is intended to provide a recognition method capable of recognizing the image with high accuracy.
上記の課題を解決するため、この発明は、特に次の2点に対する解決手段を提供するものである。
第1に、射影変換歪みに影響されない付加情報の埋め込み方法を提供する。この方法のより具体的な例として、水平縞模様状のパターン(以下、複比パターン)を埋め込んだ図形を提供する。
即ち、この発明は、図形を認識するために用いる認識情報を、不変量を用いて図形に埋め込み認識用図形を作成することを特徴とする認識情報の埋め込み方法を提供する。
In order to solve the above problems, the present invention provides means for solving the following two points.
First, a method of embedding additional information that is not affected by projective transformation distortion is provided. As a more specific example of this method, a figure in which a horizontal stripe pattern (hereinafter referred to as a cross ratio pattern) is embedded is provided.
That is, the present invention provides a recognition information embedding method characterized in that recognition information used for recognizing a graphic is created in a graphic for embedding recognition using the invariant.
当然のことながら、文字パターンはこの明細書でいう図形に含まれる。この縞目の間隔から計算される複比(複比については、例えば参考文献2参照)は射影変換に対する不変量であって、どのような角度から撮影した図形であっても、量子化等の影響がなければ、常に同じ複比を抽出できるものである。 As a matter of course, the character pattern is included in the figure in this specification. The cross ratio calculated from the spacing of the stripes (for example, see Reference 2) is an invariant to the projective transformation, and even if the figure is taken from any angle, it can be quantized or the like. If there is no influence, the same cross ratio can always be extracted.
ここで、認識すべき全ての種類の図形を予め複数のカテゴリに分類しておく。そして、複比の値と各カテゴリとを対応付けておけば、各図形が属するカテゴリを複比の値として埋め込むことができる。例えば、アルファベットの文字パターンに対して各カテゴリに1つの文字が属するように26のカテゴリに分類することができる。このようにすれば、各文字パターンが属するカテゴリを複比の値として埋め込んで認識用文字パターンを作成することができる。作成された認識用文字パターンに埋め込まれたカテゴリは、射影変換歪を受けても不変な情報として埋め込まれる。 Here, all types of figures to be recognized are classified in advance into a plurality of categories. If the cross ratio value is associated with each category, the category to which each figure belongs can be embedded as the cross ratio value. For example, an alphabetic character pattern can be classified into 26 categories so that one character belongs to each category. In this way, it is possible to create a recognition character pattern by embedding the category to which each character pattern belongs as a cross ratio value. The category embedded in the created recognition character pattern is embedded as invariant information even if it receives projective transformation distortion.
第2に、作成された認識用図形、例えば、認識用文字パターンから、埋め込まれた情報を抽出し、抽出した情報と通常のパターン認識、例えば、文字パターンの形状による通常の文字認識の結果を統合することで、認識用図形が射影変換歪みを受けたとしても高精度な認識が可能な認識方法を提供する。
即ち、この発明は、不変量を用いて認識用図形に埋め込まれた情報を抽出し、抽出した情報に基づいて前記認識用図形に対応する元の図形を認識することを特徴とする図形認識方法を提供する。
(参考文献2)佐藤:「コンピュータビジョン」、コロナ社、東京 (1999)
Secondly, embedded information is extracted from the created recognition graphic, for example, a recognition character pattern, and the extracted information and normal pattern recognition, for example, the result of normal character recognition based on the shape of the character pattern, are obtained. By integrating, it is possible to provide a recognition method capable of highly accurate recognition even if the recognition figure is subjected to projective transformation distortion.
That is, this invention extracts a graphic embedded in a recognition graphic using invariants, and recognizes an original graphic corresponding to the recognition graphic based on the extracted information. I will provide a.
(Reference 2) Sato: “Computer Vision”, Corona, Tokyo (1999)
この発明による認識情報の埋め込み方法は、不変量を用いて前記認識情報を図形に埋め込み認識用図形を作成するので、例えば、前記認識用図形が射影変換歪みを受ける場合であっても、射影変換に対する不変量を用いて前記認識情報を埋め込めば作成される認識用図形は高い認識精度を与えることができる。 The recognition information embedding method according to the present invention embeds the recognition information in a figure using an invariant and creates a recognition figure. For example, even if the recognition figure is subject to projective transformation distortion, a projective transformation is performed. A recognition graphic created by embedding the recognition information using an invariant with respect to can give high recognition accuracy.
前記図形が、文字画像であってもよい。このようにすれば、高い文字認識精度を与える認識用文字パターンを作成することができる。 The graphic may be a character image. In this way, a recognition character pattern that provides high character recognition accuracy can be created.
また、前記不変量が、前記認識用図形の射影変換に対する不変量であってもよい。さらに、前記不変量が複比であってもよい。このようにすれば、認識用図形が射影変換歪みを受ける場合であっても、埋め込まれた認識情報を正確に抽出させることができ、従って作成された認識用図形は、高い認識精度を与えることができる。 The invariant may be an invariant for the projective transformation of the recognition graphic. Further, the invariant may be a cross ratio. In this way, even if the recognition figure is subject to projective transformation distortion, the embedded recognition information can be accurately extracted, and thus the created recognition figure gives high recognition accuracy. Can do.
さらにまた、前記情報が、複数の平行縞のパターンを前記図形に重畳して埋め込まれるものであり、各縞の幅の比からその内容が得られるようにした情報であってもよい。このようにすれば、平行縞のパターンを重畳するという簡単な処理で図形に認識情報を埋め込むことができ、重畳された各縞の幅から簡単な処理で埋め込まれた認識情報を抽出させることができる。 Furthermore, the information may be information in which a plurality of parallel stripe patterns are embedded in the figure so as to be obtained from the ratio of the widths of the stripes. In this way, recognition information can be embedded in a figure by a simple process of superimposing parallel stripe patterns, and the recognition information embedded by a simple process can be extracted from the width of each superimposed stripe. it can.
また、この発明の図形認識方法は、不変量を用いて認識用図形に埋め込まれた情報を抽出し、抽出した情報に基づいて前記認識用図形に対応する元の図形を認識するので、例えば、前記認識用図形が射影変換歪みを受けて入力された場合、射影変換に対する不変量を用いて前記情報が埋め込まれていれば正確な情報を抽出して高い認識精度を実現することができる。 Further, the graphic recognition method of the present invention extracts information embedded in a recognition graphic using invariants, and recognizes the original graphic corresponding to the recognition graphic based on the extracted information. When the recognition graphic is input after being subjected to projective transformation distortion, if the information is embedded using an invariant for the projective transformation, accurate information can be extracted to achieve high recognition accuracy.
図形の認識が、前記認識用図形の形状的特徴であって前記情報と独立した形状的特徴と抽出された前記情報とに基づいて行われるようにしてもよい。ここで、前記情報と独立した形状的特徴とは、前記情報が埋め込まれない状態、即ち元の図形が有する形状的特徴であって、いわゆる通常のパターン認識として抽出される特徴であってもよい。例えば、図形が文字パターンであれば、いわゆる通常の文字認識によって認識される文字の特徴である。 The recognition of the graphic may be performed based on the geometric feature independent of the information and the extracted information. Here, the shape feature independent of the information may be a feature that is not embedded, that is, a shape feature of the original graphic and is extracted as so-called normal pattern recognition. . For example, if the figure is a character pattern, it is a feature of characters recognized by so-called normal character recognition.
元の図形が、文字画像であってもよい。このようにすれば、埋め込まれた情報を用いて、認識用文字パターンから高い文字認識精度で文字を認識することができる。 The original figure may be a character image. In this way, it is possible to recognize characters with high character recognition accuracy from the recognition character pattern using the embedded information.
また、前記認識用図形がカメラによって撮影された図形であってもよい。このようにすれば、カメラを用いて実環境中の図形を入力し、あるいは簡便な操作で図形を入力して認識を行うことができる。 The recognition graphic may be a graphic photographed by a camera. In this way, it is possible to perform recognition by inputting a figure in an actual environment using a camera or inputting a figure by a simple operation.
前記不変量が、前記認識用図形の射影変換に対する不変量であってもよい。さらに、前記不変量が複比であってもよい。このようにすれば、認識用図形が射影変換歪みを受けたものであっても、埋め込まれた情報を正確に抽出することができ、従って高い認識精度が得られる。 The invariant may be an invariant for the projective transformation of the recognition graphic. Further, the invariant may be a cross ratio. In this way, even if the recognition graphic has undergone projective transformation distortion, the embedded information can be extracted accurately, and thus high recognition accuracy can be obtained.
前記情報が、認識すべき全ての種類の図形を予め複数のカテゴリに分類して各図形がいずれのカテゴリに属するかを示すように埋め込まれた情報であってもよい。このようにすれば、好ましいカテゴリと複比の対応付けを選択することによって高い認識精度を得ることができる。例えば、文字パターンに対するカテゴリと、複比との対応を予め定めておき、文字パターンが属するカテゴリを認識用文字パターンに埋め込んでおく。入力した認識用文字パターンから埋め込まれた複比を抽出し、認識のための情報として用いることができる。文字形状の認識と複比の値として抽出したカテゴリの情報とを併用することで、たとえ認識用文字パターンが射影変換歪みを受けていたとしても、非常に高い認識精度を得ることができる。 The information may be information embedded so as to classify all types of graphics to be recognized into a plurality of categories and indicate which category each graphic belongs to. In this way, high recognition accuracy can be obtained by selecting a correspondence between a preferred category and a cross ratio. For example, the correspondence between the category for the character pattern and the cross ratio is determined in advance, and the category to which the character pattern belongs is embedded in the recognition character pattern. The embedded ratio can be extracted from the input recognition character pattern and used as information for recognition. By using the recognition of the character shape and the category information extracted as the cross ratio value, it is possible to obtain very high recognition accuracy even if the recognition character pattern is subjected to the projective transformation distortion.
以下、図面を用いてこの発明をさらに詳述する。以下の説明により、この発明をよりよく理解することが可能であろう。 Hereinafter, the present invention will be described in more detail with reference to the drawings. The following description will provide a better understanding of the present invention.
前述のように、この発明は、不変量を用いた付加情報の埋め込みに係るものであるが、不変量の好適な例として、射影変換歪みに対する不変量である複比をとりあげる。ただし、この発明の本質は射影変換歪に限定されるものではなく、また、複比に限定されるものではない。また、複比を元の図形に埋め込む好適な例として、元の図形にパターンとして水平縞模様状のパターンを重畳する態様をとりあげるが、付加情報を埋め込む態様はこれに限定されるものではない。さらに、付加情報を埋め込む対象として文字に注目するが、同様の技術は文字以外の図形についてもそのまま適用可能である。そのような図形としては、例えば、種々のマークやシンボル、会社のロゴや商標図形などが考えられる。このように、以下の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。 As described above, the present invention relates to the embedding of additional information using an invariant. As a suitable example of the invariant, a cross ratio that is an invariant with respect to projective transformation distortion is taken up. However, the essence of the present invention is not limited to the projective transformation distortion, and is not limited to the cross ratio. Further, as a preferred example of embedding the cross ratio in the original graphic, a mode of superimposing a horizontal stripe pattern as a pattern on the original graphic is taken, but the mode of embedding additional information is not limited to this. Furthermore, although attention is paid to characters as a target for embedding additional information, the same technique can be applied to figures other than characters as they are. Examples of such graphics include various marks and symbols, company logos, and trademark graphics. Thus, the following description should be considered in all respects as illustrative and not restrictive.
1.文字への複比埋め込みと抽出
まず、文字画像パターンに対し、ある複比を持つパターン(模様)を埋め込むことを考える。埋め込む複比の値と文字カテゴリの対応付けには様々な形態が考えられる。例えば、各カテゴリに異なる複比を埋め込んでもよいし、複数のカテゴリに同じ複比を埋め込んでもよい。前者の場合、複比さえ正しく抽出できれば、文字形状を使わなくても識別できることになる。以下、これらいずれの場合も含む一般的な場合について説明する。
1. First, consider embedding a pattern (pattern) having a certain ratio in a character image pattern. Various forms can be considered for the correspondence between the embedding cross ratio value and the character category. For example, different cross ratios may be embedded in each category, or the same cross ratio may be embedded in a plurality of categories. In the former case, if even the cross ratio can be extracted correctly, it can be identified without using the character shape. Hereinafter, general cases including both cases will be described.
1.1. 複比パターン
埋め込みの形式については様々考えられるが、ここでは文字線と背景を併せた文字画像全体に、5本の帯からなる平行縞を1セットとした模様(以下、複比パターン)を埋め込むことを考える。ただし、帯の数は5本に限定されるものではなく、これより多くしてもよい。この場合、複数の複比を埋め込むようにしてもよい。図2は、複比パターンを埋め込んだ文字画像及びその射影変換例を示す説明図である。このうち、図2(a)は複比パターンを埋め込んだ文字の例である。ここでは、説明の都合上、目立つように配色した複比パターンを用いている。
1.1. Various ratios of embedding patterns can be considered. Here, a pattern (hereinafter referred to as a cross ratio pattern) in which a set of five parallel stripes is embedded in the entire character image including the character lines and the background. Think about it. However, the number of bands is not limited to five, and may be increased. In this case, a plurality of cross ratios may be embedded. FIG. 2 is an explanatory diagram illustrating a character image in which a cross ratio pattern is embedded and a projective transformation example thereof. Among these, FIG. 2A is an example of a character in which a cross ratio pattern is embedded. Here, for convenience of explanation, a multi-ratio pattern that is conspicuously colored is used.
5本の帯のうち、最初と最後の帯は複比パターンの存在範囲を表すガイドである。これら2本のガイドに挟まれた残る3本の帯により埋め込む複比を表す。これら3本の帯の幅をl1,l2,l3とすると、このパターンによる複比は、
複比は本来連続的な値を持つものであるが、ここではそれを量子化したK通りの値rk(k=1,2,…,K)を考える。値rkの具体的な設定法については、後述する。
なお、複比パターンを表す帯は、ガイドを除く最低限の3つの場合のみを説明しているが、これが複数ある場合も考えられる。
The cross ratio originally has a continuous value, but here, K values r k (k = 1, 2,..., K) obtained by quantizing it are considered. The specific setting method of the value r k, described below.
Note that only a minimum of three bands excluding the guide have been described for the band representing the cross ratio pattern, but there may be a plurality of bands.
一般に帯がN個ある場合、N個から3つを選ぶ組み合わせに対して複比を記録することができる。このように複数の複比を記録することによって、次のような効果を得ることができる。まず、同じ値を複数の組み合わせに記録する場合、複比の読み取り誤りへの耐性を増すことが可能となる。また、組み合わせのそれぞれに異なる値を記録する場合には、記録できる情報の容量が増加する。 In general, when there are N bands, a multi-ratio can be recorded for a combination in which three of the N bands are selected. By recording a plurality of cross ratios in this way, the following effects can be obtained. First, in the case where the same value is recorded in a plurality of combinations, it is possible to increase the resistance to cross ratio reading errors. Further, when different values are recorded for each combination, the capacity of information that can be recorded increases.
1.2. 複比の抽出方式
複比rkを埋め込んだ文字画像から複比を抽出する際は、それを横断するような直線を引き(図2(b)中の直線p)、その線上のガイドに挟まれた区間について、帯の幅(同図l’1,l’2,l’3)を求め、li=l’i(i=1,2,3)として式(1)により複比を計算すればよい。量子化誤差などのノイズが無ければ、どのように直線を引いても、またどのように射影変換を受けても、埋め込んだ時と同じ複比rkが求まる。従って、この複比パターンを埋め込んだ文字画像をいかなる角度から撮影しても、原理的に常に同じ複比が取り出せることなる。
1.2. When extracting multiple ratio from embedded character image extraction method cross ratio r k of cross ratio is a straight line is drawn so as to traverse it (linear p in FIG. 2 (b)), flanked by the guide of the line The width of the band (l ′ 1 , l ′ 2 , l ′ 3 ) is obtained for the obtained section, and the cross ratio is calculated by the equation (1) as l i = l ′ i (i = 1, 2, 3). Calculate it. Without noise such as quantization error, how even a straight line drawn, and how even under projective conversion, determined the same cross ratio r k and when embedded. Therefore, in principle, the same cross ratio can always be obtained regardless of the angle at which a character image in which this cross ratio pattern is embedded is photographed.
実際には、量子化の影響等で、取り出した複比には誤差が入る。その対処法として、ランダムにP本の直線を引き、それぞれで求めたP個の複比の値から、真値を推定するといった処理を行う。具体的には、まず、P本の線それぞれについて上述の方法で複比rを求め、その複比rに最も近いrkを選択する。この選択処理を全P本の直線について行なった後、最も多く選択されたrkを、その文字パターンに埋め込まれた複比とする。 Actually, the extracted cross ratio has an error due to the influence of quantization or the like. As a countermeasure, P straight lines are drawn at random, and the true value is estimated from the P cross ratio values obtained respectively. Specifically, first, we obtain a cross ratio r in the manner described above for each line of the P present, selects the closest r k to the cross ratio r. After making this selection process for the linear total P present, the most selected r k, the cross-ratio embedded in the character pattern.
1.3 複比パターンの設計
複比パターンの各帯の幅を変えることで、様々に複比の値を制御することを考える。量子化誤差等の影響を最小化しようとすれば、例えば、参考文献3のような理論的解析が必要と思われるが、ここでは単純に以下のような手順で設定する。
複比パターンからガイドを除いた部分の幅をLとする。すなわちL=l1+l2+l3とする。このLならびにl1はK種の複比パターンにおいて共通とする。従って、l2+l3=L−l1を満たすl2,l3の組をK通り設定することでrk(k=1,2,…K)を定めることとする。
1.3 Design of cross ratio pattern Consider changing the cross ratio value by changing the width of each band of the cross ratio pattern. In order to minimize the influence of quantization error or the like, for example, theoretical analysis as in Reference 3 is considered necessary, but here, the following procedure is simply set.
Let L be the width of the portion excluding the guide from the cross ratio pattern. That is, L = l 1 + l 2 + l 3 . L and l 1 are common in the K-type cross ratio pattern. Therefore, l 2 + l 3 = L -l satisfy 1 l 2, l r k ( k = 1,2, ... K) 3 set to by setting K as a to define a.
具体的には、次式を満たすl2,l3によりrkを定める。
2.文字認識結果と複比抽出結果の統合
前述のように、埋め込む複比の種類Kが文字カテゴリ数|C|と同一の場合(Cは文字カテゴリの集合)、各カテゴリcにそれぞれ複比rcを埋め込んでおけば、文字形状を用いなくても、抽出した複比のみを用いて識別可能となる。しかし、漢字などカテゴリの多い文字集合を対象とすると、限られた解像度の下で、多種類の複比を定義することは難しい。
2. Integration of Character Recognition Result and Cross Ratio Extraction Result As described above, when the type K of embedded cross ratios is the same as the number of character categories | C | (C is a set of character categories), the respective ratios c c Can be identified using only the extracted cross ratio without using the character shape. However, when targeting character sets with many categories such as kanji, it is difficult to define multiple types of cross ratios with limited resolution.
より一般的なK<|C|の場合には、複比とカテゴリは一対多の関係となるため、複比単独での認識結果には曖昧性が残る。具体的には、第k複比rkを埋め込んだ文字カテゴリの集合をCk(⊂C)とすると、ある入力文字から複比rkが抽出されても、その文字がCkに含まれるカテゴリのいずれかまではわからない。そこで、文字形状を用いた認識結果(すなわち通常の文字認識の結果)と複比による認識結果とを統合することで、最終的な認識結果としてカテゴリを1つに絞り込むことを考える。 In the more general case of K <| C |, since the cross ratio and the category have a one-to-many relationship, ambiguity remains in the recognition result of the cross ratio alone. Specifically, when a set of character categories embedded the k cross ratio r k and C k (⊂C), be cross ratio r k from a certain input character extraction, the character is included in the C k I don't know any of the categories. Therefore, it is considered that the category is narrowed down to one as the final recognition result by integrating the recognition result using the character shape (that is, the result of normal character recognition) and the recognition result by the cross ratio.
Votingをはじめ、複数の識別器の統合方式にも多くの形態があるのと同様、この統合についても様々な方式が考えられる。ただし、一般的な識別器統合と今回の統合は以下2点で異なっている。第一は、上述のように、抽出された複比による認識結果には、曖昧性が残るという点である。第二は、複比による認識精度(すなわち複比の抽出精度)の方が、文字形状による認識精度に比べて圧倒的に高いという点である。後述の実験結果からも明らかになるように、撮影時の射影変換歪みが大きいと、文字形状による認識率は著しく低下する。一方、射影変換に対する不変量である複比は、もしノイズが無ければ常に正しく抽出される。実際にはノイズの影響で多少の誤抽出が発生するものの、文字形状による認識精度に比べると、複比の抽出精度は依然として相当高い。 In the same way as there are many forms of integration of a plurality of discriminators such as voting, various methods can be considered for this integration. However, general discriminator integration and this integration differ in the following two points. First, as described above, ambiguity remains in the recognition result based on the extracted cross ratio. The second is that the recognition accuracy by the cross ratio (that is, the extraction accuracy of the cross ratio) is overwhelmingly higher than the recognition accuracy by the character shape. As will be apparent from the experimental results described later, if the projective transformation distortion at the time of shooting is large, the recognition rate due to the character shape is significantly reduced. On the other hand, the cross ratio, which is an invariant to the projective transformation, is always correctly extracted if there is no noise. In practice, some erroneous extraction occurs due to noise, but the extraction accuracy of the cross ratio is still considerably higher than the recognition accuracy based on the character shape.
以上の点を考慮し、抽出された複比によりカテゴリを幾つかに絞込み、次に文字形状による認識結果により、カテゴリを唯一に決定することとする。具体的には、入力文字からまず複比rkを抽出し、それは正しいものと考えて、Ckのうちで文字形状による認識コスト(距離)が最も低かったカテゴリを最終的な認識結果とする。なお、K=|C|の場合、文字形状を用いずに複比だけで認識を行なうことになる。 Considering the above points, the categories are narrowed down to some by the extracted cross ratio, and then the category is uniquely determined by the recognition result by the character shape. Specifically, first extracts the cross ratio r k from the input character, it is considered correct, as the final recognition result category recognition costs character shape (distance) had the lowest among the C k . In the case of K = | C |, the recognition is performed only by the cross ratio without using the character shape.
この方式では、文字形状での認識の結果、正解カテゴリの認識コストsが高かったとしても、(i)複比rkが正しく抽出され、かつ(ii)Ck中の正解カテゴリ以外のカテゴリの認識コストがsより大きければ、正しい認識結果が得られる。逆に、複比抽出が失敗すると、文字形状による認識で正解が得られていたとしても誤認識に転じてしまう。しかし、前述のように複比の抽出精度は高いので、この改悪は少ないと考えられる。 In this method, the result of recognition in the character shape recognition cost s even if higher correct answer categories, (i) are cross ratio r k is correctly extracted, and (ii) C k in a non correct category category If the recognition cost is greater than s, a correct recognition result can be obtained. On the contrary, if the cross ratio extraction fails, even if the correct answer is obtained by the recognition by the character shape, the recognition ratio is changed to erroneous recognition. However, since the cross-ratio extraction accuracy is high as described above, it is considered that this deterioration is small.
同じ複比rkが割り当てられるカテゴリの集合Ckは、文字形状による認識において、互いに誤認識となりにくいカテゴリで構成されることが得策である。これは、上記(ii)の条件が成り立ち易くなるための工夫である。そのような割り当て{Ck|k=1,…,K}を構成するためには、まず文字形状による認識の際に用いる手法の誤認識特性を把握し、互いに誤認識となりにくいカテゴリ対を知得した後、なるべくそうしたカテゴリ対が一つの集合Ckに含まれるように複比割り当て{Ck|k=1,…,K}を定めればよい。この割り当ての効果についてはさらに後述する。 It is a good idea that the category set C k to which the same cross ratio r k is assigned is composed of categories that are unlikely to be erroneously recognized in recognition by the character shape. This is a device for easily satisfying the condition (ii). In order to construct such an assignment {C k | k = 1,..., K}, first, the misrecognition characteristics of the technique used for recognition by character shapes are grasped, and category pairs that are not likely to be misrecognized from each other are known. After obtaining, the cross ratio assignment {C k | k = 1,..., K} may be determined so that such category pairs are included in one set C k as much as possible. The effect of this assignment will be further described later.
(実験例)
3.1 準備
3.1.1. フォント画像
複比を埋め込む対象となる文字画像として、フォント“Arial”の英語大文字26画像を用いた。このフォント原画像の縦画素数は、各カテゴリで多少異なり、最小で194、最大で212、平均196であった。一方、横画素数はカテゴリ毎で差異が大きく、最小で52(“I”)、最大で251(“W”)、平均170であった。今回の実験において、フォントの種類は複比の抽出精度には影響しない。これは、複比パターンを文字線だけでなく背景部にも埋め込んでいるためであり、すなわち複比パターンを文字形状とは無関係に抽出できるためである。今後、文字線上にのみ複比パターンを埋め込むといった検討を行なえば、フォントによって複比抽出精度にも多少の差異が現れるものと考えられる。
(Experimental example)
3.1 Preparation 3.1.1. Font Image As a character image for embedding the cross ratio, an English capital letter 26 image of the font “Arial” was used. The number of vertical pixels of the font original image is slightly different in each category, and is 194 at the minimum, 212 at the maximum, and 196 on the average. On the other hand, the number of horizontal pixels varies greatly from category to category, with a minimum of 52 (“I”), a maximum of 251 (“W”), and an average of 170. In this experiment, the font type does not affect the extraction accuracy of the cross ratio. This is because the cross ratio pattern is embedded not only in the character line but also in the background portion, that is, the cross ratio pattern can be extracted regardless of the character shape. In the future, if a study of embedding the cross ratio pattern only on the character line is made, it is considered that some differences in the cross ratio extraction accuracy appear depending on the font.
3.1.2 複比パターンの設計
複比パターンについては、ガイドの幅を5画素、複比パターン全体の幅Lを150画素とし、さらにl1およびεについては15画素とした。この条件の下、前記項目1.3で述べた方法に従ってrk(k=1,2,…,K)を設定した。さらに、後述する方式に従いCkを定めた後、このrkによる複比パターンをカテゴリc∈Ckのフォントに埋め込んだ。図1は、すべてのカテゴリに異なる複比パターンを埋め込んだ場合(すなわちK=|C|=26)の文字画像の例を示す説明図である。
3.1.2 Design of cross ratio pattern For the cross ratio pattern, the width of the guide is 5 pixels, the width L of the entire cross ratio pattern is 150 pixels, and further l 1 and ε are 15 pixels. Under this condition, r k (k = 1,2, ..., K) according to the method described in the item 1.3 was set. Further, C k was determined according to the method described later, and then the cross ratio pattern by r k was embedded in a font of category cεC k . FIG. 1 is an explanatory diagram showing an example of a character image when different cross ratio patterns are embedded in all categories (that is, K = | C | = 26).
3.1.3 射影変換によるテストパターン生成
複比パターンを埋め込んだフォント画像について、その4隅のx,y座標をそれぞれ±δ(δ=0,4,8,…,48)画素だけ変位させて射影変換を施し、各δについて24×2=256個のテストパターンを生成した。図3は、射影変換により生成したテストパターンの例を示す説明図である。このように、δが36程度まで大きくなると、非現実的なレベルまで歪んだ文字画像が発生する。すなわち、今回のテストパターンには、意図的に撮影された場合よりも強く歪みを受けた文字パターンが含まれている。
3.1.3 Test pattern generation by projective transformation For a font image in which a cross ratio pattern is embedded, the x and y coordinates of its four corners are displaced by ± δ (δ = 0, 4, 8,..., 48) pixels, respectively. Then, projective transformation was performed, and 2 4 × 2 = 256 test patterns were generated for each δ. FIG. 3 is an explanatory diagram showing an example of a test pattern generated by projective transformation. Thus, when δ increases to about 36, a character image distorted to an unrealistic level is generated. That is, the current test pattern includes a character pattern that is more strongly distorted than when intentionally photographed.
3.1.4 文字形状による認識手法
前記項目2で述べたように、一般的なK<|C|の場合には、認識結果を確定するために、何らかの文字形状による認識手法(すなわち通常の文字認識手法)が必要となる。任意の手法が利用できるが、本実験では次の2つの公知の手法を使用した。
文字認識手法1−単純マッチング
この手法は、標準パターンと未知入力パターンを単純に重ね合わせて、両文字画像パターンのマッチングコスト、すなわち距離を求める手法である。
3.1.4 Recognition Method Based on Character Shape As described in item 2 above, in the case of general K <| C | Character recognition method). Although any method can be used, the following two known methods were used in this experiment.
Character Recognition Method 1—Simple Matching This method is a method in which a standard pattern and an unknown input pattern are simply overlapped to obtain a matching cost of both character image patterns, that is, a distance.
文字認識手法2−弾性マッチング
この手法は、直感的に説明すると、一方の文字画像パターンをゴム膜的に変形させながら重ね合わせる手法である。非特許文献3に示されているように、弾性マッチングには様々なものがあるが、ここでは次のような手法を用いた。図4は、本実験で用いた弾性マッチングの手法を示す説明図である。図4に示すように、入力パターンの各列が、その隣接関係を保ちながら、傾いた直線として標準パターン上に対応付けられる。その際、各列の内部でも1次元的な伸縮を許す。詳細は略すがこの写像全体の最適化には動的計画法(DP)に基づくアルゴリズムが利用できる。この弾性マッチング法の自由度は射影変換より高く、従って、原理的には任意の射影変換を補償可能である。
Character recognition method 2 -elastic matching This method, if intuitively described, is a method of superimposing one character image pattern while deforming it like a rubber film. As shown in Non-Patent Document 3, there are various types of elastic matching. Here, the following method is used. FIG. 4 is an explanatory diagram showing the elastic matching method used in this experiment. As shown in FIG. 4, each column of the input pattern is associated with the standard pattern as an inclined straight line while maintaining the adjacent relationship. At that time, one-dimensional expansion and contraction is allowed inside each row. Although details are omitted, an algorithm based on dynamic programming (DP) can be used to optimize the entire map. The degree of freedom of this elastic matching method is higher than that of the projective transformation, and therefore, in principle, any projective transformation can be compensated.
いずれの手法においても、前処理として文字大きさの線形正規化を行なった。また各画素の特徴量は、非常に単純に、1(文字線)、0(背景)と設定した。 In both methods, linear normalization of character size was performed as preprocessing. The feature amount of each pixel is set to 1 (character line) and 0 (background) very simply.
3.1.5 複比の割り当て
集合Ckの構成、すなわち複比rkをどのカテゴリcに割り当てるかについては、前記項目2.の後段でも述べたように、最終的な認識性能を大きく左右する要因として非常に重要である。本実験では次の2通りの割り当て方式を使用した。
3.1.5 Configuration of the assignment set C k of the cross ratio, namely either assign a Fukuhi r k in which category c, the item 2. As described later, it is very important as a factor that greatly affects the final recognition performance. In this experiment, the following two allocation methods were used.
割り当て方法1−単純割り当て方式
これは、カテゴリcにk=((c−1)mod K)+1を満たす複比rkを割り当てる方式である。
割り当て方法2−最適割り当て方式
これは、文字形状による認識手法の特性を考慮して、各カテゴリに複比を割り当てる方式(例えば、参考文献4参照)である。この方式では、文字形状による認識手法の混同行列を複比割り当ての手がかりとして用いる。例えば“H”という認識結果を与えうるカテゴリが“H”と“N”であることが混同行列からわかれば、それら2カテゴリには、曖昧性を避けるために異なる複比を割り当てる。この方針に従い、全カテゴリについて複比割り当てを定める。
Allocation method 1 simple assignment scheme which is a method of allocating a cross ratio r k satisfying k = ((c-1) mod K) +1 to category c.
Allocation method 2—optimal allocation method This is a method (for example, see Reference 4) in which a cross ratio is allocated to each category in consideration of the characteristics of the recognition method based on character shapes. In this method, the confusion matrix of the recognition method based on the character shape is used as a clue for the cross ratio assignment. For example, if it is found from the confusion matrix that categories that can give a recognition result of “H” are “H” and “N”, different cross ratios are assigned to these two categories in order to avoid ambiguity. In accordance with this policy, cross ratio assignment will be established for all categories.
表1に、前節で述べた弾性マッチング法を用いた際の、K=4,12,30の場合の単純割り当てと最適割り当てを示す。いずれのKの時も、最適割り当てにより、“C”と“V”には同じ複比が割り当てられる。このことは、それら2カテゴリ間で誤認識が起こりにくいことを示唆している。なお、最適割り当ての決定に際しては、δ=0〜48すべてのデータを対象とした認識結果から得られた混同行列を用いた。 Table 1 shows the simple assignment and the optimum assignment when K = 4, 12, 30 when the elastic matching method described in the previous section is used. At any K, the same cross ratio is assigned to “C” and “V” by the optimum assignment. This suggests that erroneous recognition is unlikely to occur between these two categories. In determining the optimum allocation, a confusion matrix obtained from recognition results for all data of δ = 0 to 48 was used.
3.2. 文字形状単独での認識結果
埋め込まれた複比情報を用いずに、前記項目3.1.4で述べた2つの手法(単純および弾性マッチング法)を用いて、文字形状単独での認識実験を行なった。標準パターンとしては、射影変換を受けていないフォント画像そのもの(すなわち図1の文字パターン)を用いた。図5に射影変換の程度δによる認識率の変化を示す。単純マッチングは射影変換に非常に敏感であり、変形量δが少しでも大きくなると、認識率は急激に低下することがわかる。一方、弾性マッチングには変形吸収能力があるため、δ=28程度まで一定した認識率を維持できていることがわかる。しかしそれ以上の変形が加わると、単純マッチング同様、認識率の低下が見られる。
3.2. Recognizing result of character shape alone Using the two methods (simple and elastic matching methods) described in item 3.1.4 above, the recognition experiment using character shape alone is not performed. I did it. As the standard pattern, the font image itself (that is, the character pattern in FIG. 1) that has not undergone projective transformation was used. FIG. 5 shows changes in the recognition rate depending on the degree of projective transformation δ. It can be seen that simple matching is very sensitive to projective transformation, and that the recognition rate rapidly decreases when the deformation amount δ increases even a little. On the other hand, since elastic matching has a deformation absorption capability, it can be seen that a constant recognition rate can be maintained up to about δ = 28. However, if more deformations are added, the recognition rate decreases as in simple matching.
この結果から、文字形状単独での認識だけでは、実環境においてバーコード並みの精度を達成することは困難と予想される。もちろん、改善の余地は多く残されている。例えば、今回は2値の画素値をのみ特徴量とした非常に単純な距離評価を行なっている。また、マッチング法についても、今回利用した弾性マッチングの自由度は射影変換よりも高いので、合わせ過ぎによる誤認識が起こっている可能性が高い。実際、弾性マッチングの最高認識率が90%程度に留まっているのは、この単純な特徴量と高すぎる自由度の相乗的影響により誤認識を多発しているためである。特に、δ〜0付近については、合わせ過ぎにより入力パターンとの距離が0となったカテゴリが複数発生し、タイブレイクの結果、不正解カテゴリが選ばれてしまった場合が多かった。従って、より洗練された特徴量やマッチング手法を用いれば、認識率を現状より相当改善できるものと考えられる。しかしながら、この実験結果の傾向、ならびに今回の実験があくまで計算機内でのシミュレーションである点を考慮すると、文字形状単独での認識性能には、やはり限界があると思われる。 From this result, it is expected that it is difficult to achieve the same accuracy as a barcode in an actual environment by only recognizing the character shape alone. Of course, much room for improvement remains. For example, this time, a very simple distance evaluation is performed using only binary pixel values as feature amounts. Also, with the matching method, since the degree of freedom of the elastic matching used this time is higher than that of the projective transformation, there is a high possibility that misrecognition due to excessive matching has occurred. Actually, the reason why the maximum recognition rate of elastic matching remains at about 90% is that misrecognition occurs frequently due to a synergistic influence of this simple feature amount and a too high degree of freedom. In particular, in the vicinity of δ to 0, a plurality of categories in which the distance from the input pattern becomes 0 due to over-matching occurred, and as a result of the tie break, an incorrect answer category was often selected. Therefore, it is considered that the recognition rate can be considerably improved from the current situation by using more sophisticated feature amounts and matching methods. However, considering the tendency of the experimental results and the fact that this experiment is a simulation in a computer, the recognition performance of the character shape alone seems to be limited.
3.3. 複比抽出精度
単純割り当てに従って複比を埋め込んだテストパターンについて、それらからの複比抽出精度を実測した。図6は、本実験の結果、テストパターンから抽出された複比の精度を示すグラフである。相当の射影変換を受けた場合でも、埋め込んだ複比rkは安定して抽出できていることがわかる。前節で述べた文字形状単独での認識結果と単純に比較すると、その誤認識の数には1〜2桁程度の違いがある。特に、K=4やK=12の場合の精度は、バーコード精度の認識性能を目指すに当たって複比パターンが有用であることを十分に示唆するものである。
3.3. Cross-ratio extraction accuracy For the test patterns in which the cross-ratio was embedded according to simple assignment, the cross-ratio extraction accuracy was measured. FIG. 6 is a graph showing the accuracy of the cross ratio extracted from the test pattern as a result of this experiment. Even when subjected to considerable projection conversion, cross-ratio r k embedded in it it can be seen that can be extracted in a stable manner. When compared with the recognition result of the character shape alone described in the previous section, there is a difference of about 1 to 2 digits in the number of recognition errors. In particular, the accuracy in the case of K = 4 and K = 12 sufficiently suggests that the cross ratio pattern is useful in aiming at the recognition performance of the barcode accuracy.
同図におけるK=26の結果は、複比単独での文字認識結果に相当する。意図して撮影する場合の射影変換歪みが高々δ=24以下であるとすれば、この実験例で用いたような単純な複比パターンでも、文字形状を用いずに98%以上の認識率が得られることがわかる。
誤抽出原因としては、量子化により複比パターンの各帯の幅(l’1,l’2,l’3)に誤差が含んだことが挙げられる。実際、K=26の場合を例に採ると、rkをrk±1として誤抽出した場合が全誤抽出の約85%であった。より深刻な誤抽出(rk±Δ,Δ≧2)は約10%であった。残る約5%は量子化の影響でガイドを捕捉できず、複比パターンそのものが検出できなかった場合であった。
The result of K = 26 in the figure corresponds to the character recognition result with the single ratio. If the projection transformation distortion when photographing intentionally is at most δ = 24 or less, even a simple cross ratio pattern as used in this experimental example has a recognition rate of 98% or more without using a character shape. It turns out that it is obtained.
As a cause of erroneous extraction, there is an error included in the width (l ′ 1 , l ′ 2 , l ′ 3 ) of each band of the cross ratio pattern due to quantization. In fact, taking the case of K = 26 as an example, if the extracted erroneously r k as r k ± 1 was about 85% of the total erroneously extracted. The more serious mis-extraction (r k ± Δ, Δ ≧ 2) was about 10%. The remaining 5% was when the guide could not be captured due to the influence of quantization, and the multi-ratio pattern itself could not be detected.
3.4.文字認識結果と複比抽出結果の統合結果
図7および図8は、文字形状単独による認識結果と複比による認識結果を統合した場合の認識率を示すグラフである。前者は単純マッチングを用いた場合、後者は弾性マッチングを用いた場合である。また、いずれも単純割り当てを用いた場合の結果である。
両図から、形状による文字認識結果と複比抽出結果を併用することで、前者単独での結果(図5)に比べ、認識率を大幅に向上できることがわかる。例えばδ=4の場合の弾性マッチングの結果を見ると、文字形状単独での認識率が89.8%だったのに対し、併用した場合はK=4で97.4%、K=12で99.1%、K=20で99.97%まで改善している。
3.4. Integration Result of Character Recognition Result and Cross Ratio Extraction Result FIGS. 7 and 8 are graphs showing the recognition rate when the recognition result by the character shape alone and the recognition result by the cross ratio are integrated. The former is when simple matching is used, and the latter is when elastic matching is used. In addition, both are the results when simple assignment is used.
From both figures, it can be seen that the recognition rate can be significantly improved by using the result of character recognition by shape and the result of cross ratio extraction in comparison with the result of the former alone (FIG. 5). For example, when the result of elastic matching in the case of δ = 4 is seen, the recognition rate of the character shape alone is 89.8%, but when combined, K = 4 is 97.4% and K = 12. 99.1%, K = 20, improving to 99.97%.
この改善理由を、図9を用いて考察する。図9は、δ=4のテストパターンを文字形状単独で認識した際の、弾性マッチングの混同行列を示す説明図である。この混同行列から、例えば形状により“H”に認識されたパターンの真のカテゴリとしては、“H”と“N”の2つの可能性が考えられることがわかる。すなわち、文字形状単独で認識では、これら2カテゴリの判別には曖昧性が残ると言える。一方、単純割り当て方式に従って複比が埋め込まれていたとすると、K=4,12,20の場合いずれも、“H”と“N”にはそれぞれ異なる複比が割り当てられる(表1参照)。結局、文字形状単独での認識で残っていた曖昧性は、複比により解消され、“H”、“N”は正しく認識できることになる。同様の曖昧性解消が他のカテゴリ間について生じたため、大幅な精度向上が得られたものと考えられる。 The reason for this improvement will be discussed with reference to FIG. FIG. 9 is an explanatory diagram showing a confusion matrix for elastic matching when a test pattern of δ = 4 is recognized by a character shape alone. From this confusion matrix, for example, it can be seen that there are two possibilities of “H” and “N” as the true category of a pattern recognized as “H” due to its shape. In other words, it can be said that ambiguity remains in the discrimination between these two categories when the character shape alone is recognized. On the other hand, if the cross ratio is embedded according to the simple assignment method, different cross ratios are assigned to “H” and “N” in both cases of K = 4, 12, and 20 (see Table 1). Eventually, the ambiguity remaining in the recognition of the character shape alone is eliminated by the cross ratio, and “H” and “N” can be correctly recognized. Since the same disambiguation occurred between other categories, it is considered that a significant improvement in accuracy was obtained.
再び図7および図8を見ると、射影歪みが大きくない場合(δ≦16程度)、複比単独による認識結果(K=26)よりも、文字形状による認識を併用した結果の方が、多くの場合高い認識率を得ていることがわかる。複比自身の抽出精度は文字形状による認識精度に比べて非常に高いものの、完全にカテゴリを絞り込めるほど多くの複比を埋め込むと、複比自体の抽出精度が悪化する(図6)。結局、今回の実験の設定では、複比の数をある程度少なめにしてその抽出精度を確保しておいた方が得策であったといえる。 7 and 8 again, when the projection distortion is not large (about δ ≦ 16), the result obtained by using the recognition by the character shape is more than the result of the recognition by the multi-ratio alone (K = 26). It can be seen that a high recognition rate is obtained. Although the extraction accuracy of the cross ratio itself is much higher than the recognition accuracy based on the character shape, if a large number of cross ratios are embedded to completely narrow down the category, the extraction accuracy of the cross ratio itself deteriorates (FIG. 6). After all, in this experiment setting, it can be said that it was better to secure the extraction accuracy by reducing the number of cross ratios to some extent.
3.5.割り当て方式の影響
図10は、本実験の結果、割り当て方式が認識率に及ぼす影響を示すグラフである。複比の種類Kを4と12とした場合それぞれについて、単純割り当てと最適割り当てを用いた結果について示している。文字形状による認識法としては弾性マッチングを用いている。
この結果から、最適割り当てを用いることにより相当の改善が得られることがわかる。特にδ≦20の場合、単純割り当てした12種の複比に比べ、最適割り当てした4種の複比の方が高い認識率が得られている点は注目に値する。このように、複比を割り当てる際には、文字形状による認識手法の特性を把握した上で、各カテゴリに適切な複比を割り当てることで、大幅な効率化を図ることができる。
3.5. Effect of Allocation Method FIG. 10 is a graph showing the effect of the allocation method on the recognition rate as a result of this experiment. The results of using simple assignment and optimum assignment are shown for each of cases where the cross ratio type K is 4 and 12. Elastic matching is used as a recognition method by character shape.
From this result, it can be seen that a considerable improvement can be obtained by using optimal allocation. In particular, in the case of δ ≦ 20, it is worth noting that a higher recognition rate is obtained with the optimally assigned four types of cross ratios than with the simply assigned double types of cross ratios. In this way, when assigning a cross ratio, it is possible to achieve significant efficiency by assigning an appropriate cross ratio to each category after grasping the characteristics of the recognition method based on the character shape.
最後に、前述した実施の形態の他にも、この発明について種々の変形例があり得ることは明らかである。そのような変形例は、この発明の特徴及び範囲に属さないと解釈されるべきものではない。本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更とが含まれることが意図される。 Finally, it is apparent that there can be various modifications of the present invention in addition to the above-described embodiment. Such variations are not to be construed as not belonging to the features and scope of the invention. The scope of the present invention is intended to include all modifications within the meaning and range equivalent to the scope of the claims.
(参考文献3) 金澤, 松永, 金谷:"複比による識別のための最良マーカーパタンの設計: 理論解析", 情処研報, 99-CVIM-115-13 (1999).
(参考文献4) 岩村, 内田, 大町, 黄瀬:"情報付加による認識率100%の実現 − 人にも機械にも理解可能な情報伝達のために −", 画像の認識・理解シンポジウム(MIRU2005) (2005).
(Reference 3) Kanazawa, Matsunaga, Kanaya: "Design of the best marker pattern for discrimination by multi-ratio: Theoretical analysis", Jisho Kenji, 99-CVIM-115-13 (1999).
(Reference 4) Iwamura, Uchida, Omachi, Kise: "Realization of 100% recognition rate by adding information-For information transmission that can be understood by both humans and machines-", Image Recognition and Understanding Symposium (MIRU2005) (2005).
1 認識用図形 1 Recognition figure
Claims (7)
決定された平行縞のパターンを前記図形に重畳してなる認識用図形を作成し、
前記平行縞のパターンは、前記平行縞の幅の比としての複比の値が前記カテゴリに応じて決定されることを特徴とする認識情報の埋め込み方法。 For a figure to be classified into any one of a plurality of categories by pattern recognition, a computer determines a plurality of parallel stripe patterns according to the category to which the figure belongs,
Create a recognition figure by superimposing the determined pattern of parallel stripes on the figure,
The method of embedding recognition information , wherein the parallel fringe pattern has a cross ratio as a ratio of widths of the parallel fringes determined according to the category .
抽出した比の値、または、抽出した比の値と前記図形の形状とに基づいて前記認識用図形が属するカテゴリを決定し、
前記平行縞のパターンは、前記カテゴリに応じた値の複比が前記平行縞の幅の比として表されてなることを特徴とする図形認識方法。 A computer extracts a ratio of the width of the parallel stripes from a recognition figure in which a pattern of parallel stripes is superimposed on a figure to be classified into any one of a plurality of categories ;
Determine the category to which the recognition graphic belongs based on the extracted ratio value or the extracted ratio value and the shape of the graphic ;
The pattern recognition method according to claim 1, wherein the parallel stripe pattern includes a cross ratio of values corresponding to the category as a ratio of widths of the parallel stripes .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005244670A JP4541995B2 (en) | 2005-08-25 | 2005-08-25 | Figure recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005244670A JP4541995B2 (en) | 2005-08-25 | 2005-08-25 | Figure recognition method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007060417A JP2007060417A (en) | 2007-03-08 |
JP4541995B2 true JP4541995B2 (en) | 2010-09-08 |
Family
ID=37923478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005244670A Expired - Fee Related JP4541995B2 (en) | 2005-08-25 | 2005-08-25 | Figure recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4541995B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6006676B2 (en) * | 2013-05-15 | 2016-10-12 | 日本電信電話株式会社 | Marker embedding device, marker detecting device, marker embedding method, marker detecting method, and program |
JP6006675B2 (en) * | 2013-05-15 | 2016-10-12 | 日本電信電話株式会社 | Marker detection apparatus, marker detection method, and program |
JP6006698B2 (en) * | 2013-08-27 | 2016-10-12 | 日本電信電話株式会社 | Marker embedding device, marker detecting device, marker embedding method, marker detecting method, and program |
JP6088410B2 (en) * | 2013-12-03 | 2017-03-01 | 日本電信電話株式会社 | Marker embedding device, marker embedding program, marker detection device, and marker detection program |
JP6101656B2 (en) * | 2014-03-28 | 2017-03-22 | 日本電信電話株式会社 | Marker embedding device, marker detection device, and program |
-
2005
- 2005-08-25 JP JP2005244670A patent/JP4541995B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007060417A (en) | 2007-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507251B (en) | Method and device for positioning answering area in test question image, electronic equipment and computer storage medium | |
JP5522408B2 (en) | Pattern recognition device | |
US7580576B2 (en) | Stroke localization and binding to electronic document | |
US6929183B2 (en) | Reconstruction of virtual raster | |
EP1374148B1 (en) | Method and device for recognition of a handwritten pattern | |
US7106904B2 (en) | Form identification method | |
Cheng et al. | Robust affine invariant feature extraction for image matching | |
JP5229050B2 (en) | Document area extraction apparatus, method, and program from image | |
JP6900164B2 (en) | Information processing equipment, information processing methods and programs | |
EP2605186B1 (en) | Method and apparatus for recognizing a character based on a photographed image | |
JPWO2014103297A1 (en) | Object identification device, method and program | |
US20060215233A1 (en) | Image processing apparatus and its method | |
WO2013076358A1 (en) | Text detection using multi-layer connected components with histograms | |
CN103577818A (en) | A method and device for image text recognition | |
JP2007221794A (en) | Method and apparatus for creating high fidelity glyph prototypes from low resolution glyph images | |
CN112819004B (en) | Image preprocessing method and system for OCR recognition of medical bills | |
JP4859061B2 (en) | Image correction method, correction program, and image distortion correction apparatus | |
JP4541995B2 (en) | Figure recognition method | |
CN110210467A (en) | A kind of formula localization method, image processing apparatus, the storage medium of text image | |
JP5630689B2 (en) | Character recognition method and character recognition device | |
JP2003091730A (en) | Image checkup device, image checkup method and image checkup program | |
JP2011107878A (en) | Position detection apparatus and position detection method | |
US8300941B2 (en) | Method and apparatus for reading a surface coded pattern | |
KR100603618B1 (en) | Apparatus and method for geometric distortion correction of document image using affine transformation | |
KR101660476B1 (en) | Metod for recognizing payment information in printed credit card |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080724 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100315 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100615 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100624 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130702 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |