JP6209067B2 - Image recognition apparatus and image recognition method - Google Patents
Image recognition apparatus and image recognition method Download PDFInfo
- Publication number
- JP6209067B2 JP6209067B2 JP2013240963A JP2013240963A JP6209067B2 JP 6209067 B2 JP6209067 B2 JP 6209067B2 JP 2013240963 A JP2013240963 A JP 2013240963A JP 2013240963 A JP2013240963 A JP 2013240963A JP 6209067 B2 JP6209067 B2 JP 6209067B2
- Authority
- JP
- Japan
- Prior art keywords
- gesture
- recognition
- meaning
- recognized
- movement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 26
- 230000033001 locomotion Effects 0.000 claims description 160
- 238000011156 evaluation Methods 0.000 claims description 16
- 230000001360 synchronised effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 210000003811 finger Anatomy 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 241001026509 Kata Species 0.000 description 1
- 241000348346 Suta Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Description
本発明は、画像認識装置、及び画像認識方法に関する。 The present invention relates to an image recognition apparatus and an image recognition method.
従来では、手話の自動翻訳システムとしては、手のモーション認識などの精度向上などに注力しており、予測変換で簡易に文字入力するという発想よりも、如何に入力精度を向上させるかという視点でのシステム研究がおこなわれていた。 In the past, automatic sign language translation systems have focused on improving the accuracy of hand motion recognition, etc., from the perspective of how to improve input accuracy rather than the idea of simply inputting characters by predictive conversion. System research was conducted.
例えば、2つのカメラでユーザの画像を撮影し、それぞれの画像の画素値の差の相対的に大きい領域をユーザ領域として、ユーザ領域中の頂部を頭領域として、頂部よりも尖った領域を手先領域と特定して、手先の動きからジェスチャを判定する技術が知られている(特許文献1)。 For example, a user's image is photographed with two cameras, a region having a relatively large difference in pixel values of the respective images is defined as a user region, a top portion in the user region is defined as a head region, and a region sharper than the top portion is defined as a tip. A technique is known that identifies a region and determines a gesture from the movement of the hand (Patent Document 1).
ところで、同一もしくは類似のジェスチャ動作で複数の意味を有する場合がある。この場合、仮にモーション認識の精度が高いとしても、正確に意味を判断することができないという問題点がある。 By the way, the same or similar gesture operation may have a plurality of meanings. In this case, even if the accuracy of motion recognition is high, there is a problem that the meaning cannot be accurately determined.
本発明は、このような問題点を解決するためになされたものであり、ジェスチャ動作の意味を正確に判断し得る画像認識装置及び画像認識方法を提供することを目的とする。 The present invention has been made to solve such problems, and an object thereof is to provide an image recognition apparatus and an image recognition method that can accurately determine the meaning of a gesture operation.
上述の課題を解決するために、本発明の画像認識装置は、撮影対象を画像データにして取得する画像取得手段と、画像取得手段により取得された画像データに基づいて、撮影対象のジェスチャを認識する第1認識手段と、画像取得手段により取得された画像データに基づいて、第1認識手段が認識したジェスチャ中における撮影対象の口の動作を認識し、撮影対象の口の動作の認識として、ジェスチャ中における口の動きに基づいた音数の認識を行う第2認識手段と、第1認識手段によるジェスチャの認識結果に対応する意味候補と、第2認識手段による撮影対象の口の動作の認識結果とに基づいて、ジェスチャの意味を判断する判断手段と、判断手段が判断したジェスチャの意味を出力する出力手段と、第2認識手段により認識された音数が、判断手段が判断した意味の文字数を上回った場合、第2認識手段により認識された音数と、判断手段が判断した意味の文字数との差分情報を未使用情報として保持する未使用情報保持手段と、備え、判断手段は、認識対象のジェスチャの直前のジェスチャ中における未使用情報がある場合、当該未使用情報を、第2認識手段により認識された認識された音数に加えてジェスチャの意味を判断する、 In order to solve the above-described problems, an image recognition apparatus according to the present invention recognizes a shooting target gesture based on an image acquisition unit that acquires a shooting target as image data and the image data acquired by the image acquisition unit. Based on the first recognition means and the image data acquired by the image acquisition means, the movement of the mouth of the shooting target in the gesture recognized by the first recognition means is recognized, and the movement of the mouth of the shooting target is recognized, Second recognition means for recognizing the number of sounds based on the movement of the mouth in the gesture, semantic candidates corresponding to the recognition result of the gesture by the first recognition means, and recognition of the movement of the mouth to be imaged by the second recognition means based on the results, and determining means for determining the meaning of the gesture, and output means for outputting the meaning of the gesture the determination means determines, the number of sounds that have been recognized by the second recognizing means Unused information holding means for holding, as unused information, difference information between the number of sounds recognized by the second recognizing means and the number of meaning characters judged by the judging means when the number of meaning characters judged by the judging means is exceeded When there is unused information in the gesture immediately before the gesture to be recognized, the determination unit adds the unused information to the recognized number of sounds recognized by the second recognition unit, and the meaning of the gesture To judge,
また、本発明に係る画像認識方法において、撮影対象のジェスチャを認識する画像認識装置の画像認識方法において、撮影対象を画像データにして取得する画像取得ステップと、画像取得ステップにより取得された画像データに基づいて、撮影対象のジェスチャを認識する第1認識ステップと、画像取得ステップにより取得された画像データに基づいて、第1認識ステップで認識したジェスチャ中における撮影対象の口の動作を認識し、撮影対象の口の動作の認識として、ジェスチャ中における口の動きに基づいた音数の認識を行う第2認識ステップと、第1認識ステップによるジェスチャの認識結果に対応する意味候補と、第2認識ステップによる撮影対象の口の動作の認識結果とに基づいて、ジェスチャの意味を判断する判断ステップと、判断ステップで判断したジェスチャの意味を出力する出力ステップと、第2認識ステップにより認識された音数が、判断ステップで判断した意味の文字数を上回った場合、第2認識ステップにより認識された音数と、判断ステップで判断した意味の文字数との差分情報を未使用情報として保持する未使用情報保持ステップと、備え、判断ステップは、認識対象のジェスチャの直前のジェスチャ中における未使用情報がある場合、当該未使用情報を、第2認識ステップにより認識された認識された音数に加えてジェスチャの意味を判断する。 In the image recognition method according to the present invention, in the image recognition method of recognizing an image recognition apparatus gestures imaging target, an image acquisition step of acquiring a photographed subject image data, image data acquired by the image acquisition step Based on the first recognition step for recognizing the gesture to be photographed, and based on the image data acquired by the image acquisition step, recognize the movement of the mouth to be photographed in the gesture recognized in the first recognition step , As recognition of the movement of the mouth to be photographed, a second recognition step for recognizing the number of sounds based on the movement of the mouth in the gesture, a semantic candidate corresponding to the result of the gesture recognition by the first recognition step, and a second recognition A determination step for determining the meaning of the gesture based on the recognition result of the movement of the mouth to be imaged in the step; An output step of outputting the meaning of the gesture which is determined at the decision step, the number of sounds that have been recognized by the second recognition step, if exceeded the number of characters meaning it is determined in decision step, the sound speed that has been recognized by the second recognition step And an unused information holding step for holding, as unused information, difference information between the meaning character number determined in the determining step and the determining step includes unused information in the gesture immediately before the gesture to be recognized The meaning of the gesture is determined by adding the unused information to the recognized number of sounds recognized in the second recognition step .
この発明によれば、撮影対象のジェスチャを認識すると共に、ジェスチャ中の撮影対象の口の動作を認識し、ジェスチャの認識結果と、撮影対象の口の動作認識結果とに基づいてジェスチャの意味を判断する。また、画像認識装置は、音数を用いて、ジェスチャを認識する。このように、画像認識装置は、撮影対象の口の動きも考慮して判断するので、正確にジェスチャを認識することができる。さらに、画像認識装置は、ジェスチャ時における撮影対象の口の動作とジェスチャとの同期が取れていない場合でも、同期のずれを修正することができる。
また、本発明の画像認識装置は、撮影対象を画像データにして取得する画像取得手段と、 画像取得手段により取得された画像データに基づいて、撮影対象のジェスチャを認識する第1認識手段と、画像取得手段により取得された画像データに基づいて、第1認識手段が認識したジェスチャ中における撮影対象の口の動作を認識し、撮影対象の口の動作の認識として、ジェスチャ中における口の動きに基づいた音数の認識を行う第2認識手段と、第1認識手段によるジェスチャの認識結果に対応する意味候補と、第2認識手段による撮影対象の口の動作の認識結果とに基づいて、ジェスチャの意味を判断する判断手段と、判断手段が判断したジェスチャの意味を出力する出力手段と、を備え、判断手段は、ジェスチャの意味候補の文字数と、第2認識手段により認識された音数との差が所定値以上である場合、第2認識手段により認識された音数を、ジェスチャの意味候補の何れか少なくとも1つの文字数と仮定して、ジェスチャの意味を判断する。
また、本発明の画像認識方法は、撮影対象のジェスチャを認識する画像認識装置の画像認識方法において、撮影対象を画像データにして取得する画像取得ステップと、画像取得ステップにより取得された画像データに基づいて、撮影対象のジェスチャを認識する第1認識ステップと、画像取得ステップにより取得された画像データに基づいて、第1認識ステップで認識したジェスチャ中における撮影対象の口の動作を認識し、撮影対象の口の動作の認識として、ジェスチャ中における口の動きに基づいた音数の認識を行う第2認識ステップと、第1認識ステップによるジェスチャの認識結果に対応する意味候補と、第2認識ステップによる撮影対象の口の動作の認識結果とに基づいて、ジェスチャの意味を判断する判断ステップと、判断ステップで判断したジェスチャの意味を出力する出力ステップと、を備え、判断ステップは、ジェスチャの意味候補の文字数と、第2認識ステップにより認識された音数との差が所定値以上である場合、第2認識ステップにより認識された音数を、ジェスチャの意味候補の何れか少なくとも1つの文字数と仮定して、ジェスチャの意味を判断する。
この発明によれば、画像認識装置は、ジェスチャ時における撮影対象の口の動作とジェスチャとの同期が取れていない場合でも、同期のずれを修正することができる。
According to the present invention, the gesture of the photographing target is recognized, the movement of the mouth of the photographing target in the gesture is recognized, and the meaning of the gesture is determined based on the recognition result of the gesture and the movement recognition result of the mouth of the photographing target. to decide. The image recognition device recognizes a gesture using the number of sounds. As described above, the image recognition apparatus makes a determination in consideration of the movement of the mouth to be imaged, and thus can accurately recognize the gesture. Furthermore, the image recognition apparatus can correct the synchronization shift even when the movement of the mouth to be imaged at the time of the gesture and the gesture are not synchronized.
The image recognition apparatus of the present invention includes an image acquisition unit that acquires a shooting target as image data, a first recognition unit that recognizes a shooting target gesture based on the image data acquired by the image acquisition unit, Based on the image data acquired by the image acquisition means, the movement of the mouth of the photographing target in the gesture recognized by the first recognition means is recognized, and the movement of the mouth in the gesture is recognized as the recognition of the movement of the mouth of the photographing target. Based on the second recognition means for recognizing the number of sounds based on, the semantic candidates corresponding to the recognition result of the gesture by the first recognition means, and the recognition result of the movement of the mouth to be imaged by the second recognition means. Determination means for determining the meaning of the gesture, and output means for outputting the meaning of the gesture determined by the determination means. The determination means includes the number of characters of the meaning meaning of the gesture, 2 If the difference from the number of sounds recognized by the recognition means is greater than or equal to a predetermined value, the number of sounds recognized by the second recognition means is assumed to be at least one of the gesture meaning candidates, Determine the meaning.
The image recognition method of the present invention is an image recognition method of an image recognition apparatus for recognizing a gesture to be photographed, wherein an image acquisition step for obtaining the photographing target as image data and the image data obtained by the image acquisition step are provided. Based on the first recognition step for recognizing the gesture to be photographed and the image data obtained by the image obtaining step, the movement of the mouth to be photographed in the gesture recognized in the first recognition step is recognized and photographed. As a recognition of the movement of the target mouth, a second recognition step for recognizing the number of sounds based on the movement of the mouth in the gesture, a semantic candidate corresponding to the result of the gesture recognition by the first recognition step, and a second recognition step A judgment step for judging the meaning of the gesture based on the recognition result of the movement of the mouth of the subject to be photographed. An output step for outputting the meaning of the gesture determined in the step, and the determining step includes a case where the difference between the number of characters of the gesture meaning candidate and the number of sounds recognized in the second recognition step is equal to or greater than a predetermined value. The meaning of the gesture is determined by assuming that the number of sounds recognized in the second recognition step is the number of at least one character of the gesture meaning candidates.
According to the present invention, the image recognition apparatus can correct the synchronization shift even when the movement of the mouth to be imaged at the time of the gesture and the gesture are not synchronized.
一般的に、ジェスチャをする人は、ジェスチャをしながら、そのジェスチャの意味を口に表す傾向がある。この発明では、上記傾向を考慮して、撮影対象の口の動作の認識結果も用いてジェスチャの認識をしているので、単にジェスチャのみから認識する場合に比べて正確にジェスチャの意味を判断することができる。 Generally, a person who makes a gesture tends to express the meaning of the gesture in the mouth while gesturing. In the present invention, in consideration of the above-mentioned tendency, since the gesture is recognized using the recognition result of the movement of the mouth to be photographed, the meaning of the gesture is judged more accurately than when the gesture is recognized only from the gesture. be able to.
また、本発明の画像認識装置において、第2認識手段は、撮影対象の口の動作の認識として、ジェスチャ中における口の動きに基づいた音数の認識をするようにしてもよい。この場合、画像認識装置は、音数を用いて、ジェスチャを認識する。このように、画像認識装置は、撮影対象の口の動きも考慮して判断するので、正確にジェスチャを認識することができる。 In the image recognition device of the present invention, the second recognition means may recognize the number of sounds based on the movement of the mouth in the gesture as the recognition of the movement of the mouth to be imaged. In this case, the image recognition apparatus recognizes the gesture using the number of sounds. As described above, the image recognition apparatus makes a determination in consideration of the movement of the mouth to be imaged, and thus can accurately recognize the gesture.
また、本発明の画像認識装置において、第2認識手段は、ジェスチャ中における、最初に口を開いた時間から、最後に口を閉じた時間までの期間内の、口の開閉の回数に基づいた音数を認識する、ようにしてもよい。この場合、画像認識装置は、ジェスチャに対応する口の動作に基づいた音数を正確に判断することができる。 In the image recognition apparatus of the present invention, the second recognition means is based on the number of times the mouth is opened and closed within a period from the time when the mouth is first opened to the time when the mouth is finally closed during the gesture. The number of sounds may be recognized. In this case, the image recognition apparatus can accurately determine the number of sounds based on the movement of the mouth corresponding to the gesture.
また、本発明の画像認識装置において、判断手段は、ジェスチャの意味候補の音数と、第2認識手段によるジェスチャ中における音数との合致度に基づいてジェスチャの意味を判断する、ようにしてもよい。この場合、画像認識装置は、意味候補の音数と、ジェスチャ中の音数との合致度により最終的なジェスチャの意味を判断するので、正確にジェスチャの意味を判断することができる。 In the image recognition apparatus of the present invention, the determination unit determines the meaning of the gesture based on the degree of coincidence between the number of sounds of the gesture meaning candidate and the number of sounds in the gesture by the second recognition unit. Also good. In this case, the image recognition apparatus determines the final meaning of the gesture based on the degree of coincidence between the number of sounds of the semantic candidates and the number of sounds in the gesture, and thus can accurately determine the meaning of the gesture.
また、本発明の画像認識装置において、第2認識手段は、口の動作の認識として、口の動作による音情報の認識をし、判断手段は、ジェスチャの意味候補の音情報と、第2認識手段による認識結果の音情報との一致度にさらに基づいてジェスチャの意味を判断する、ようにしてもよい。この場合、画像認識装置は、音情報(例えば、子音であるか否かなど)とジェスチャ候補との一致度にさらに基づいてジェスチャの意味を判断する。これにより、画像認識装置は、ジェスチャ時に発した音情報とジェスチャの意味候補の音情報とを対比するので、正確にジェスチャの意味を判断することができる。 In the image recognition apparatus of the present invention, the second recognizing unit recognizes the sound information based on the mouth movement as the mouth movement recognition, and the judging unit recognizes the sound information of the gesture meaning candidate and the second recognition unit. The meaning of the gesture may be determined based on the degree of coincidence with the sound information of the recognition result by the means. In this case, the image recognition apparatus determines the meaning of the gesture based further on the degree of coincidence between the sound information (for example, whether or not it is a consonant) and the gesture candidate. Thereby, the image recognition apparatus compares the sound information generated at the time of the gesture with the sound information of the gesture meaning candidate, and thus can accurately determine the meaning of the gesture.
また、本発明の画像認識装置において、判断手段は、ジェスチャにおける複数の意味候補のそれぞれの文字数で区別した文字数グループごとに、当該意味候補のそれぞれに対する文字数に基づいた評価値を含んだ評価管理情報を複数生成し、評価管理情報における評価値と、文字数グループで区別された文字数とを用いて、複数の意味候補から一の意味候補を選択することで、ジェスチャの意味を判断する、ようにしてもよい。このように、画像認識装置は、ジェスチャの複数の意味候補のそれぞれの文字数で区別した文字数グループごとに、当該意味候補のそれぞれに対する文字数に基づいた評価値と、文字数グループで区別された文字数により意味候補を判断するので、ジェスチャ時における撮影対象の口の動作とジェスチャとの同期が取れていない場合でも、同期のずれを修正することができる。 Further, in the image recognition device of the present invention, the determination means includes evaluation management information including an evaluation value based on the number of characters for each of the meaning candidates for each character number group distinguished by the number of characters of the plurality of meaning candidates in the gesture. Are generated, and the meaning of the gesture is determined by selecting one meaning candidate from the plurality of meaning candidates using the evaluation value in the evaluation management information and the number of characters distinguished by the character number group. Also good. As described above, the image recognition device uses the evaluation value based on the number of characters for each of the meaning candidates and the number of characters distinguished in the character number group for each character number group distinguished by the number of characters of the plurality of meaning candidates of the gesture. Since the candidate is determined, the synchronization shift can be corrected even when the movement of the mouth to be imaged at the time of the gesture and the gesture are not synchronized.
本発明によれば、ジェスチャ動作の意味を正確に判断することができる。 According to the present invention, it is possible to accurately determine the meaning of a gesture operation.
以下、図面を参照しながら、本実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。 Hereinafter, this embodiment will be described with reference to the drawings. Where possible, the same parts are denoted by the same reference numerals, and redundant description is omitted.
図1は、本実施形態の画像認識装置10の機能を示すブロック図である。この画像認識装置10は、手話者などのジェスチャをテキストやイメージなどに翻訳するための装置であり、ジェスチャ入力部11(画像取得手段)、ジェスチャ認識部12(第1認識手段)、ジェスチャDB13、文章解釈DB14、唇動作認識部15(第2認識手段)、未使用情報DB17(未使用情報保持手段)、判断部18(判断手段)、及び判断結果出力部19(出力手段)を含んで構成されている。この画像認識装置10は、例えば、携帯端末やスマートフォンなどの携帯端末であることが好適である。
FIG. 1 is a block diagram illustrating functions of the
図2は、画像認識装置10のハードウェア構成図である。図1に示される画像認識装置10は、物理的には、図2に示すように、一または複数のCPU101、主記憶装置であるRAM102及びROM103、入力デバイスであるキーボード及びマウス等の入力装置104、ディスプレイ等の出力装置105、ネットワークカード等のデータ送受信デバイスである通信モジュール106、半導体メモリ等の補助記憶装置107などを含むコンピュータシステムとして構成されている。図1における各機能は、図2に示すCPU101、RAM102等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで入力装置104、出力装置105、通信モジュール106を動作させるとともに、RAM102や補助記憶装置107におけるデータの読み出し及び書き込みを行うことで実現される。以下、図1に示す機能ブロックに基づいて、各機能ブロックを説明する。
FIG. 2 is a hardware configuration diagram of the
ジェスチャ入力部11は、手話者などの撮影対象者の動作を画像として取得する部分であり、例えばカメラである。
The
ジェスチャ認識部12は、ジェスチャ入力部11により取得された画像から特定した撮影対象者の動作に基づいて、ジェスチャを認識する部分である。ジェスチャ認識部12は、複数の画像から撮影対象者の指、腕、上体の動きを判別し、ジェスチャDB13及び文章解釈DB14を参照して判別した動きに対応する意味を認識する。
The
ジェスチャDB13は、手話者の動作をジェスチャ認識部12に認識させるための動作のパターンを記述するデータベースである。これはジェスチャ認識のための一般的なデータベースである。
The
ジェスチャDB13のデータ例を図3(A)に示す。図3(A)に示すように、ジェスチャDB13は、「ジェスチャID」と、「手の向き」と、「手の角度」と、「指の突起有無」と、「手の動きの情報」とを有する。
A data example of the
例えば、ジェスチャIDが「00000001」であるジェスチャは、手の向きが正面であり、手の角度が0度(指先が上を向いた状態)であり、「指の突起有無」に基づき、親指のみ上がっていて、「動き」に基づき、手が止まっていることを示す。 For example, a gesture whose gesture ID is “00000001” is that the direction of the hand is the front, the angle of the hand is 0 degrees (with the fingertip facing up), and only the thumb is based on “the presence or absence of a finger protrusion” Shows that the hand has stopped, based on "movement".
文章解釈DB14は、ジェスチャ認識部12が、ジェスチャDB13を参照して、ある程度の動作を認識すると、その意味を解釈するためのデータベースである。ここには動作のパターンの識別子とその意味(意図)とが対応付けて記述されることになる。これも一般的なジェスチャ解析のためのデータベースである。
The
文章解釈DB14のデータ例を図3(B)に示す。図3(B)に示すように、文章解釈DB14は、「ジェスチャID」と「意味」とを有する。
A data example of the
図3(B)の例では、ジェスチャIDが「00000001」のジェスチャは、指文字で「あ」の意味であることを示す。また、ジェスチャIDが「00002000」のジェスチャは、名詞の「スタイル」、「形」、「型」の意味があることを示す。すなわち、ジェスチャIDが「00002000」のジェスチャは、複数の意味を有している。 In the example of FIG. 3B, a gesture having a gesture ID “00000001” indicates that “a” means a finger character. A gesture with a gesture ID “00002000” indicates that the nouns “style”, “form”, and “type” have meanings. That is, a gesture having a gesture ID “00002000” has a plurality of meanings.
唇動作認識部15は、ジェスチャ認識部12が認識した動作単位で、唇の動きを口の動作として認識する。具体的に、唇動作認識部15は、ジェスチャ認識部12が認識した動作単位で唇の動きの回数を計測した結果に基づいて音数を認識する。より具体的には、唇動作認識部15は、ジェスチャ中における、最初に唇を開いた時間から、最後に唇を閉じた時間までの期間内の、唇の開閉の回数を計測した結果に基づいて音数を認識する。また、唇動作認識部15は、唇の形状に基づいて子音を発したか、母音を発したかを認識する。
The lip
なお、唇動作認識部15は、唇の動作の平均時間に基づいて、伸ばす音の有無を判断する。例えば、図4(A)に示すように、撮影対象者が「おーきなかばん」と発していた場合、「大きな(おーきな)」の唇の動きでは、唇動作認識部15は、3音ではなく、「き」「な」の時間情報から、「おー」が2音であると推定する。また、図4(B)に示すように、「からす」など、唇の動きが少ないものについても、唇動作認識部15は、同様に、前後の平均的な一音の時間から、唇の動きを類推する。
Note that the lip
判断部18は、ジェスチャ認識部12による認識結果と唇動作認識部15による認識結果とを用いてジェスチャの意味を判断する。具体的には、判断部18は、ジェスチャ認識部12により1つの認識結果が得られた場合は、その認識結果を示す意味を判断結果出力部19へ出力する。また、判断部18は、ジェスチャ認識部12により複数の認識結果が得られた場合は、唇動作認識部15による唇の動きに基づいた音数を用いて認識結果を絞り込む。
The
続いて、判断部18がジェスチャの意味を判断する具体例を、図5等を用いて説明する。図5(A)〜(E)は、「どんなヘアスタイルにする?」という手話動作を分割したものである。ジェスチャ認識部12が認識した結果に基づき、図5(A)〜(E)に動作を分割し、当該分割した単位で唇動作認識部15が唇の動きを認識する。図5(A)〜(E)に示すように、「どんなヘアスタイルにする?」という手話動作において、図5(C)の「スタイル」を示す動作の意味は、「スタイル」以外に、図3(B)に示すように「形(かたち)」、「型(かた)」という意味もあるので、ジェスチャ認識部12による認識結果のみでは、1つに意味を絞ることができない。
Next, a specific example in which the
そこで、判断部18は、唇動作認識部15による認識結果を用いて、ジェスチャの意味の絞り込みをする。具体的に、判断部18は、唇動作認識部15によって認識された音数及び唇の動作から導かれる子音情報に基づいて意味を絞り込む。
Therefore, the
図5に示した、「どんなヘアスタイルにする?」という手話動作において、図5(C)の「スタイル」の部分の候補として、図3(B)に示す文章解釈DB14に記載のように、スタイルを示す動作(ジェスチャIDが「00002000」の動作)の意味には、「スタイル」の他に「形」、「型」という意味がある。よって、ジェスチャの意味の候補として、「スタイル」、「形」、「型」がある。また、動作の意味に「に」を加えて話している可能性もあるので、「スタイルに」、「形に」、「型に」も候補に含まれる。このように、判断部18は、ジェスチャ認識部12が認識した動作の意味が名詞と判断される場合は、格助詞として1音付与したものも候補とする。
As shown in the
判断部18は、最初に各候補に対して唇動作認識部15によって認識された音数に基づいて重み付けをする。具体的には、判断部18は、候補の文字数が音数と合致する場合、その音数を候補の重みとする。唇動作認識部15は、「スタイル」に対応する動作中の音数が4音であると認識したので、判断部18は、4音の候補に対しては4点を付与する。また、判断部18は、4音以外の候補の重みを、候補の音数と4音との差分値分を4点から減算した値とする。図6に、各候補に対して重み付けした例を示す。候補1の「かたち」は、3音であるので3点、候補2の「かた」は、2音であるので2点、候補3の「すたいる」は、4音であるので4点、候補1aの「かたちに」は、4音であるので4点、候補2aの「かたに」は、3音であるので3点、候補3aの「すたいるに」は、5音であるので3点となる。
The
判断部18は、続いて各候補に対して唇動作認識部15が認識した子音情報との一致度に基づいた重み付けをする。この例では、唇動作認識部15は、「st??」と認識しており、第1音が「s」と認識し、第2音が「t」と認識し、第3音及び第4音が認識できなかったことを示す。
The
唇動作認識部15による子音情報の認識結果に基づき、判断部18は、各候補と子音情報とが一致しているか否かを判断し、一致していない場合には、0.5点減算する。認識できなかった部分に対しては、判断外とする。上記の例の場合、判断部18は、第3音及び第4音が認識できなかったので、判断対象は、第1音及び第2音とする。
Based on the recognition result of the consonant information by the lip
候補1の「かたち」は、第1音が一致しないので、0.5点減算し、2.5点となる。候補2の「かた」は、第1音が一致しないので、0.5点減算し、1.5点となる。候補3の「すたいる」は、第1音及び第2音が一致するので、減算しない。候補1aの「かたちに」は、第1音が一致しないので、0.5点減算し、3.5点となる。候補2aの「かたに」は、第1音が一致しないので、0.5点減算し、2.5点となる。候補3aの「すたいるに」は、第1音及び第2音が一致するので、減算しない。
Since the first sound does not match the candidate 1 “shape”, 0.5 points are subtracted to 2.5 points. Candidate 2 “Kata” does not match the first sound, so 0.5 points are subtracted to 1.5 points. The
上述のように、判断部18は、音数及び子音情報との一致度に基づいて算出した重みに対して、検出した音数(4音)で割ることにより正規化する。この結果、候補3の「すたいる」の重みが最も高いので、判断部18は、候補3を最優先候補とし、当該候補3に対応する正規化した値と、予め定義された閾値とを比較し、正規化した値が閾値以上であれば、判断部18は、候補3がジェスチャの意味であると判断する。
As described above, the
(唇の動きによる音数とジェスチャの意味の文字数とが乖離している場合)
図5に示した例では、ジェスチャとそのジェスチャに対応する唇の動きとの同期が取れている場合について説明したが、ジェスチャとそのジェスチャに対応する唇の動きによる音数との間にずれがある場合の判断方法について説明する。図7を用いて、「どんなヘアスタイルにする?」という手話動作において、ジェスチャと、ジェスチャに対応する唇の動きとの同期が取れていない場合の例を説明する。図7に示すように、対象となるジェスチャの意味の文字数と、当該ジェスチャに対応する唇の動きの回数に乖離がある場合(例えば、あるジェスチャの最大文字数と唇の動きの数が2以上乖離している場合)は、次のジェスチャに対応する唇の動きも含んでいると仮定して、複数のパターンでスコア化(重み付け)を行う。
(If the number of sounds from the movement of the lips is different from the number of characters in the meaning of the gesture)
In the example shown in FIG. 5, the case where the gesture and the movement of the lip corresponding to the gesture are synchronized has been described. However, there is a difference between the number of sounds due to the movement of the lip corresponding to the gesture and the gesture. A determination method in a case will be described. With reference to FIG. 7, an example in which the gesture and the movement of the lips corresponding to the gesture are not synchronized in the sign language action “What kind of hair style do you want?” Will be described. As shown in FIG. 7, when there is a divergence between the number of characters in the meaning of the target gesture and the number of lip movements corresponding to the gesture (for example, the maximum number of characters in a gesture and the number of lip movements are two or more divergences). If it is), it is assumed that the movement of the lips corresponding to the next gesture is included, and scoring (weighting) is performed with a plurality of patterns.
図7に示す例の場合、図7(A)に示す「どんな」の動作時、図7(B)に示す「ヘア」の動作時は、動作と唇の動きの同期が取れているが、図7(C)に示すように「スタイル」の動作時に、その次の「する」の唇の動きも認識してしまうと、「スタイル」の動作時に唇の動きが6回あったと判断することになり、ジェスチャの意味の文字数と、ジェスチャに対応する唇の動きの数(音数)との間に乖離があることになる。 In the case of the example shown in FIG. 7, the operation and the movement of the lips are synchronized during the “what” operation shown in FIG. 7A and the “hair” operation shown in FIG. As shown in FIG. 7 (C), when the movement of the next “Yes” lip is recognized during the “Style” operation, it is determined that the lip movement has occurred six times during the “Style” operation. Thus, there is a divergence between the number of characters in the meaning of the gesture and the number of lip movements (number of sounds) corresponding to the gesture.
判断部18では、ジェスチャ毎にジェスチャの意味の文字数と、音数とを比較して、比較した結果、乖離がある場合(例えば、あるジェスチャの最大小文字数と音数との差が2以上)には、次のジェスチャの音数も含んでいると判断して、音数がジェスチャの意味候補の文字数の何れかであると仮定して重み付けをする。判断部18は、ジェスチャ認識部12により認識されたジェスチャの意味候補が複数ある場合に、音数が複数の意味候補の文字数のそれぞれであると仮定して重み付けをする。
The
図7(C)のように、唇の動きが6回である場合に、図7(C)に対応する動作(ジェスチャID「00002000」)に対応するジェスチャの意味の文字数が2文字〜4文字のとき、判断部18は、音数が2文字〜4文字であると仮定して、音数が2文字〜4文字のそれぞれの場合に分けて(意味候補の文字数グループに分けて)重み付けをする。すなわち、判断部18は、唇動作認識部15により認識された音数を、ジェスチャの意味候補の何れか少なくとも1つの文字数であると仮定して重み付けをする。具体的には、判断部18は、図8(A)や図8(B)に示すように、意味候補の文字数グループごとに、各候補の重みの値(評価値と文字数とに基づいた値)を含むテーブル形式の情報を評価管理情報として生成する。
As shown in FIG. 7C, when the lips move 6 times, the number of characters in the meaning of the gesture corresponding to the operation corresponding to FIG. 7C (gesture ID “00002000”) is 2 to 4 characters. In this case, assuming that the number of sounds is 2 to 4 characters, the
図8(A)に唇動作認識部15により認識された音数が4文字であると仮定した場合における、各候補の重みの値と、各候補が適用された際の未使用の唇の動きの回数を示す。また、図8(B)に唇動作認識部15により認識された音数が3文字であると仮定した場合における、各候補の重みの値と、各候補が適用された際の未使用の唇の動きの回数を示す。ここで、未使用の唇の動きとは、ジェスチャの意味を判断するために使用されなかった唇の動きを示す。未使用の唇の動きの回数は、唇の動きの数と、各候補の文字数との差分値により求められる。なお、図8(A)及び(B)に示す候補は、代表的な候補(重みが高い値である候補)である。また、唇動作認識部15により認識された音数が2文字であると仮定した場合の各候補の重みの値、各候補が適用された際の未使用の唇の動きの回数の図は省略する。
The weight value of each candidate and the movement of unused lips when each candidate is applied, assuming that the number of sounds recognized by the lip
図8(A)に示す重みは、4文字の場合における、音数に基づいた重み付けと子音情報に基づいた重み付けをした結果を正規化(文字数で割った)したものである。図8(B)に示す重みは、3文字の場合における、音数に基づいた重み付けと子音情報に基づいた重み付けをした結果を正規化したものである。 The weight shown in FIG. 8A is obtained by normalizing (dividing by the number of characters) the result of weighting based on the number of sounds and weighting based on the consonant information in the case of 4 characters. The weight shown in FIG. 8B is obtained by normalizing the result of weighting based on the number of sounds and weighting based on the consonant information in the case of three characters.
判断部18は、唇動作認識部15により認識された音数が4,3又は2文字であると仮定した場合における(図8(A)及び(B)参照)、各候補の重みの値の中で最も高い値の候補を最優先候補とし、当該最優先候補に対応する重みの値と、予め定義された閾値とを比較し、最優先候補に対応する重みの値が閾値以上であれば、判断部18は、最優先候補がジェスチャの意味であると判断する。以上で、判断部18がジェスチャの意味を判断する具体例の説明を終える。
When it is assumed that the number of sounds recognized by the lip
また、判断部18は、未使用の唇の動きの回数を未使用情報として未使用情報DB17へ登録する。未使用情報DB17は、未使用情報を管理するデータベースである。判断結果出力部19は、判断部18による判断結果を出力する。なお、判断結果出力部19は、判断部18が判断した結果複数の候補が有る場合、選択を促すために候補の出力もする。
Further, the
つぎに、このように構成された画像認識装置10による手話の翻訳処理について説明する。図9は、画像認識装置10の手話の翻訳処理を示すフローチャートである。
Next, a sign language translation process performed by the
撮影対象となる手話者の手話動作が、ジェスチャ入力部11により撮影され、撮影対象の画像が入力される(ステップS1)。撮影された手話動作は、ジェスチャ認識部13により認識されるとともに、唇動作認識部15によって唇の動作の認識がなされる(ステップS2)。判断部18は、ジェスチャ認識部13がジェスチャ認識した結果、ジェスチャの意味の候補数が1つのみである場合(ステップS3;NO)、当該1つの認識結果が一意に絞られたので、認識完了し(ステップS12)、ステップS13へ移動する。判断部18は、ジェスチャ認識部13がジェスチャ認識した結果、候補数が複数ある場合において(ステップS3:YES)、唇動作認識部15によって認識した結果、唇の動作がある場合(ステップS4;YES)、ステップS5へ移動する。また、唇動作認識部15によって認識した結果、唇の動作がない場合において(ステップS4;NO)、直前のジェスチャに対応する唇の動きの内、未利用のデータがある場合(ステップS6;YES)、ステップS5へ移動し、直前のジェスチャに対応する唇の動きの内、未利用のデータがない場合(ステップS6;NO)、判断結果出力部19が複数のジェスチャの意味の候補を出力して、ジェスチャの意味の候補の選択を促す(ステップS11)。ジェスチャの意味が選択されると、判断部18は、選択されたジェスチャの意味をジェスチャの正式な意味であると判断し、ステップS13へ移動する。
The sign language action of the sign language to be photographed is photographed by the
ステップS5において、判断部18は、各ジェスチャの意味候補に対して重み付け処理をして、重み付け処理した結果、閾値を超えたものがあれば(ステップS7;YES)、認識完了する(ステップS9)。
In step S5, the
ステップS5において、判断部18が各ジェスチャの意味候補の重み付け処理をした結果、閾値を超えた候補が無ければ(ステップS7;NO)、判断結果出力部19が複数の候補を出力し、ジェスチャの意味の候補の選択を促す(ステップS8)。判断部18は、選択されたジェスチャの意味をジェスチャの正式な意味であると判断する。ステップS8又はステップS9の終了後、未利用のデータがある場合には、未利用データ登録処理をして(ステップS10)、ステップS13へ移動する。ここで未利用データ登録処理とは、判断部18が、未利用データを未使用情報DB17へ登録する処理をいう。
In step S5, if there is no candidate that exceeds the threshold (step S7; NO) as a result of the weighting process of the semantic candidates of each gesture by the
ステップS13において、ステップS1でジェスチャ入力部11により入力されたジェスチャ全てに対して、認識が完了したか否かを判断し、認識完了していない場合(ステップS13;NO)、ステップS2へ戻り、認識完了したジェスチャの認識及び当該ジェスチャに対応する唇動作の認識を行う(ステップS2)。
In step S13, it is determined whether or not the recognition has been completed for all the gestures input by the
ステップS13において、ステップS1でジェスチャ入力部11により入力されたジェスチャ全てに対して、認識が完了した場合(ステップS13;YES)、判断結果出力部19が判断部18による認識結果を出力して(ステップS14)、処理を終了する。
In step S13, when the recognition is completed for all the gestures input by the
つぎに、本実施形態における画像認識装置10の作用効果について説明する。
Next, functions and effects of the
本実施形態の画像認識装置10によれば、ジェスチャ認識部12は、ジェスチャ入力部11により入力された画像データから撮影対象のジェスチャを認識し、唇動作認識部15は、ジェスチャ入力部11により入力された画像データから撮影対象の唇の動作を認識し、判断部18は、ジェスチャ認識結果に対応する意味候補と、撮影対象の唇の動作の認識結果とに基づいて、ジェスチャの意味を判断し、判断結果出力部19は、ジェスチャの意味を出力する。
According to the
このように、画像認識装置10は、ジェスチャの認識結果だけでなく、当該ジェスチャ中の撮影対象の唇の動作の認識結果も用いて、ジェスチャの認識を行う。一般的に、ジェスチャをする人は、ジェスチャをしながら、そのジェスチャの意味を口に表す傾向がある。画像認識装置10は、この点を考慮して、撮影対象の唇の動作の認識結果も用いてジェスチャの認識をしているので、単にジェスチャのみから認識する場合に比べて正確にジェスチャの意味を判断することができる。
In this way, the
唇動作認識部15は、口の動作の認識として、ジェスチャ中における撮影対象の唇の動きに基づいた音数を認識する。この場合、画像認識装置10は、撮影対象の音数を用いてジェスチャを認識する。これにより、画像認識装置10は、ジェスチャの意味の音数と撮影対象の唇の動きに基づいた音数とを照らし合わせて、ジェスチャの意味を判断するので、正確にジェスチャを認識することができる。
The lip
唇動作認識部15は、ジェスチャ中における、最初に唇を開いた時間から、最後に唇を閉じた時間までの期間内の、唇の開閉の回数に基づいた音数を認識する。この場合、画像認識装置10は、ジェスチャに対応する唇動作に基づいた音数を正確に判断することができる。
The lip
判断部18は、ジェスチャの意味候補の音数と、唇動作認識部15によるジェスチャ中における音数との合致度に基づいてジェスチャの意味を判断する。この場合、画像認識装置は、ジェスチャの意味候補の音数と、唇の開閉回数との合致度によりジェスチャの意味を判断するので、正確にジェスチャの意味を判断することができる。
The
唇動作認識部15は、口の動作の認識として、唇の動作による音情報の認識をし、判断部18は、ジェスチャ意味候補の音情報と、第2認識手段による認識結果の音情報との一致度にさらに基づいてジェスチャの意味を判断する。この場合、画像認識装置10は、音情報(例えば、子音であるか否かなど)とジェスチャの意味候補との音情報に関する一致度に基づいてジェスチャの意味を判断する。これにより、画像認識装置10は、ジェスチャ時に発した音情報とジェスチャの意味候補の音情報とを対比するので、正確にジェスチャの意味を判断することができる。
The lip
唇動作認識部15により認識された音数が、判断部18が判断した意味の文字数を上回った場合、唇動作認識部15により認識された音数と、判断部18が判断した意味の文字数との差分情報を未使用情報として保持する未使用情報DB17をさらに備え、判断部18は、認識対象のジェスチャの直前のジェスチャ中における未使用情報がある場合、当該未使用情報を、唇動作認識部15により認識された音数に加えてジェスチャの意味を判断する。この場合、画像認識装置10は、ジェスチャと撮影対象の唇の動作との同期が取れていない場合でも、ずれを修正してジェスチャの認識をすることができる。
If the number of sounds recognized by the lip
判断部18は、ジェスチャの意味候補の文字数と唇動作認識部15により認識された唇の動作回数との差が所定値以上である場合、唇動作認識部15により認識された音数を、ジェスチャの意味候補の何れか少なくとも1つの文字数とする。この場合、画像認識装置10は、ジェスチャ時における撮影対象の唇の動作による音数と、ジェスチャの意味との同期が取れていない場合でも、ずれを修正してジェスチャの認識をすることができる。
When the difference between the number of characters of the gesture meaning candidates and the number of lip motions recognized by the lip
判断部18は、ジェスチャの意味候補が複数あり、各ジェスチャの意味候補の文字数が同一でない場合、唇動作認識部15により認識された音数を、複数のジェスチャの意味候補の文字数で場合分けして、ジェスチャの意味を判断する。より具体的には、判断部18は、ジェスチャにおける複数の意味候補のそれぞれの文字数で区別した文字数グループごとに、当該意味候補のそれぞれに対する文字数に基づいた評価値を含んだ評価管理情報を複数生成し、評価管理情報における評価値と、文字数グループで区別された文字数とを用いて、複数の意味候補から一の意味候補を選択することで、ジェスチャの意味を判断する。この場合、画像認識装置10は、ジェスチャの複数の意味候補のそれぞれの文字数で区別した文字数グループごとに、当該意味候補のそれぞれに対する文字数に基づいた評価値と、文字数グループで区別された文字数により意味候補を判断するので、ジェスチャ時における撮影対象の唇の動作による音数と、ジェスチャの意味との同期が取れていない場合でも、ずれを修正してジェスチャの認識をすることができる。
When there are a plurality of gesture meaning candidates and the number of characters in each gesture meaning is not the same, the
上述の実施形態では、同一動作から複数の意味候補を抽出する場合について述べたが、類似動作も含めて複数の意味候補を抽出するようにしてもよい。 In the above-described embodiment, the case where a plurality of semantic candidates are extracted from the same operation has been described. However, a plurality of semantic candidates including a similar operation may be extracted.
上述の実施形態では、先のジェスチャの意味を特定できない場合、ジェスチャの意味の候補を出力して選択を促すようにしていたが、先のジェスチャの意味の判断をスキップし、後のジェスチャの意味を特定して、その後にスキップした先のジェスチャの意味を特定するようにしてもよい。 In the above-described embodiment, when the meaning of the previous gesture cannot be specified, a candidate for the meaning of the gesture is output to prompt selection, but the determination of the meaning of the previous gesture is skipped, and the meaning of the subsequent gesture May be specified, and the meaning of the previous gesture skipped thereafter may be specified.
上述の実施形態では、口の動作として、唇動作認識部15が唇の動作を認識する場合について述べたが、口の動作として舌の動作も認識するようにしてもよい。この場合、唇の動作と舌の動作とに基づいて、子音を発したか、母音を発したかを認識する。
In the above-described embodiment, the case where the lip
10…画像認識装置、11…ジェスチャ入力部、12…ジェスチャ認識部、13…ジェスチャDB、14…文章解釈DB、15…唇動作認識部、17…未使用情報DB、18…判断部、19…判断結果出力部。
DESCRIPTION OF
Claims (8)
前記画像取得手段により取得された画像データに基づいて、撮影対象のジェスチャを認識する第1認識手段と、
前記画像取得手段により取得された画像データに基づいて、前記第1認識手段が認識したジェスチャ中における前記撮影対象の口の動作を認識し、前記撮影対象の口の動作の認識として、前記ジェスチャ中における口の動きに基づいた音数の認識を行う第2認識手段と、
前記第1認識手段によるジェスチャの認識結果に対応する意味候補と、前記第2認識手段による前記撮影対象の口の動作の認識結果とに基づいて、ジェスチャの意味を判断する判断手段と、
前記判断手段が判断したジェスチャの意味を出力する出力手段と、
前記第2認識手段により認識された音数が、前記判断手段が判断した意味の文字数を上回った場合、前記第2認識手段により認識された音数と、前記判断手段が判断した意味の文字数との差分情報を未使用情報として保持する未使用情報保持手段と、
備え、
前記判断手段は、認識対象のジェスチャの直前のジェスチャ中における未使用情報がある場合、当該未使用情報を、前記第2認識手段により認識された認識された音数に加えてジェスチャの意味を判断する、画像認識装置。 An image acquisition means for acquiring a shooting target as image data;
First recognition means for recognizing a gesture to be imaged based on image data acquired by the image acquisition means;
Based on the image data acquired by the image acquisition unit, the movement of the mouth of the photographing target in the gesture recognized by the first recognition unit is recognized, and the movement of the mouth of the shooting target is recognized as the movement of the mouth of the shooting target. Second recognition means for recognizing the number of sounds based on the movement of the mouth in
Determination means for determining the meaning of a gesture based on a meaning candidate corresponding to a gesture recognition result by the first recognition means and a recognition result of the mouth movement of the photographing target by the second recognition means;
Output means for outputting the meaning of the gesture determined by the determination means;
When the number of sounds recognized by the second recognizing means exceeds the number of characters determined by the determining means, the number of sounds recognized by the second recognizing means and the number of characters determined by the determining means Unused information holding means for holding the difference information as unused information,
Prepared ,
If there is unused information in the gesture immediately before the gesture to be recognized, the determining means determines the meaning of the gesture by adding the unused information to the recognized number of sounds recognized by the second recognizing means. An image recognition device.
前記画像取得手段により取得された画像データに基づいて、撮影対象のジェスチャを認識する第1認識手段と、
前記画像取得手段により取得された画像データに基づいて、前記第1認識手段が認識したジェスチャ中における前記撮影対象の口の動作を認識し、前記撮影対象の口の動作の認識として、前記ジェスチャ中における口の動きに基づいた音数の認識を行う第2認識手段と、
前記第1認識手段によるジェスチャの認識結果に対応する意味候補と、前記第2認識手段による前記撮影対象の口の動作の認識結果とに基づいて、ジェスチャの意味を判断する判断手段と、
前記判断手段が判断したジェスチャの意味を出力する出力手段と、
を備え、
前記判断手段は、前記ジェスチャの意味候補の文字数と、前記第2認識手段により認識された音数との差が所定値以上である場合、前記第2認識手段により認識された音数を、前記ジェスチャの意味候補の何れか少なくとも1つの文字数と仮定して、ジェスチャの意味を判断する、画像認識装置。 An image acquisition means for acquiring a shooting target as image data;
First recognition means for recognizing a gesture to be imaged based on image data acquired by the image acquisition means;
Based on the image data acquired by the image acquisition unit, the movement of the mouth of the photographing target in the gesture recognized by the first recognition unit is recognized, and the movement of the mouth of the shooting target is recognized as the movement of the mouth of the shooting target. Second recognition means for recognizing the number of sounds based on the movement of the mouth in
Determination means for determining the meaning of a gesture based on a meaning candidate corresponding to a gesture recognition result by the first recognition means and a recognition result of the mouth movement of the photographing target by the second recognition means;
Output means for outputting the meaning of the gesture determined by the determination means;
Equipped with a,
When the difference between the number of characters of the semantic meaning of the gesture and the number of sounds recognized by the second recognition unit is equal to or greater than a predetermined value, the determination unit determines the number of sounds recognized by the second recognition unit as An image recognition apparatus that determines the meaning of a gesture on the assumption that the number of characters is at least one of the gesture meaning candidates .
前記評価管理情報における評価値と、前記文字数グループで区別された文字数とを用いて、複数の意味候補から一の意味候補を選択することで、前記ジェスチャの意味を判断する、請求項2に記載の画像認識装置。 The determination means generates a plurality of evaluation management information including an evaluation value based on the number of characters for each of the meaning candidates for each character number group distinguished by the number of characters of each of the plurality of meaning candidates in the gesture,
By using the evaluation value in the evaluation management information, a number of characters are distinguished by the characters group, by selecting one of the meanings candidates from a plurality of sense candidates, to determine the meaning of the gesture, according to claim 2 Image recognition device.
撮影対象を画像データにして取得する画像取得ステップと、
前記画像取得ステップにより取得された画像データに基づいて、撮影対象のジェスチャを認識する第1認識ステップと、
前記画像取得ステップにより取得された画像データに基づいて、前記第1認識ステップで認識したジェスチャ中における前記撮影対象の口の動作を認識し、前記撮影対象の口の動作の認識として、前記ジェスチャ中における口の動きに基づいた音数の認識を行う第2認識ステップと、
前記第1認識ステップによるジェスチャの認識結果に対応する意味候補と、前記第2認識ステップによる前記撮影対象の口の動作の認識結果とに基づいて、ジェスチャの意味を判断する判断ステップと、
前記判断ステップで判断したジェスチャの意味を出力する出力ステップと、
前記第2認識ステップにより認識された音数が、前記判断ステップで判断した意味の文字数を上回った場合、前記第2認識ステップにより認識された音数と、前記判断ステップで判断した意味の文字数との差分情報を未使用情報として保持する未使用情報保持ステップと、
備え、
前記判断ステップは、認識対象のジェスチャの直前のジェスチャ中における未使用情報がある場合、当該未使用情報を、前記第2認識ステップにより認識された認識された音数に加えてジェスチャの意味を判断する、画像認識方法。 In an image recognition method of an image recognition apparatus for recognizing a gesture to be photographed ,
An image acquisition step of acquiring a shooting target as image data;
A first recognition step for recognizing a gesture to be imaged based on the image data acquired by the image acquisition step;
Based on the image data acquired in the image acquisition step, the movement of the mouth of the shooting target in the gesture recognized in the first recognition step is recognized, and the movement of the mouth of the shooting target is recognized as the movement of the mouth of the shooting target. A second recognition step for recognizing the number of sounds based on the mouth movement in
A determination step of determining the meaning of the gesture based on the meaning candidates corresponding to the gesture recognition result in the first recognition step and the recognition result of the mouth movement of the photographing target in the second recognition step;
An output step of outputting the meaning of the gesture determined in the determination step ;
If the number of sounds recognized in the second recognition step exceeds the number of characters determined in the determination step, the number of sounds recognized in the second recognition step and the number of characters determined in the determination step Unused information holding step for holding the difference information as unused information,
Prepared,
In the determination step, when there is unused information in the gesture immediately before the gesture to be recognized, the meaning of the gesture is determined by adding the unused information to the recognized number of sounds recognized in the second recognition step. An image recognition method.
撮影対象を画像データにして取得する画像取得ステップと、 An image acquisition step of acquiring a shooting target as image data;
前記画像取得ステップにより取得された画像データに基づいて、撮影対象のジェスチャを認識する第1認識ステップと、 A first recognition step for recognizing a gesture to be imaged based on the image data acquired by the image acquisition step;
前記画像取得ステップにより取得された画像データに基づいて、前記第1認識ステップで認識したジェスチャ中における前記撮影対象の口の動作を認識し、前記撮影対象の口の動作の認識として、前記ジェスチャ中における口の動きに基づいた音数の認識を行う第2認識ステップと、 Based on the image data acquired in the image acquisition step, the movement of the mouth of the shooting target in the gesture recognized in the first recognition step is recognized, and the movement of the mouth of the shooting target is recognized as the movement of the mouth of the shooting target. A second recognition step for recognizing the number of sounds based on the mouth movement in
前記第1認識ステップによるジェスチャの認識結果に対応する意味候補と、前記第2認識ステップによる前記撮影対象の口の動作の認識結果とに基づいて、ジェスチャの意味を判断する判断ステップと、 A determination step of determining the meaning of the gesture based on the meaning candidates corresponding to the gesture recognition result in the first recognition step and the recognition result of the mouth movement of the photographing target in the second recognition step;
前記判断ステップで判断したジェスチャの意味を出力する出力ステップと、 An output step of outputting the meaning of the gesture determined in the determination step;
を備え、With
前記判断ステップは、前記ジェスチャの意味候補の文字数と、前記第2認識ステップにより認識された音数との差が所定値以上である場合、前記第2認識ステップにより認識された音数を、前記ジェスチャの意味候補の何れか少なくとも1つの文字数と仮定して、ジェスチャの意味を判断する、画像認識方法。 When the difference between the number of characters of the meaning meaning of the gesture and the number of sounds recognized by the second recognition step is equal to or greater than a predetermined value, the determining step determines the number of sounds recognized by the second recognition step as An image recognition method for determining the meaning of a gesture on the assumption that the number of characters in any one of gesture meaning candidates is at least one.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013240963A JP6209067B2 (en) | 2013-11-21 | 2013-11-21 | Image recognition apparatus and image recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013240963A JP6209067B2 (en) | 2013-11-21 | 2013-11-21 | Image recognition apparatus and image recognition method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015102897A JP2015102897A (en) | 2015-06-04 |
JP6209067B2 true JP6209067B2 (en) | 2017-10-04 |
Family
ID=53378575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013240963A Expired - Fee Related JP6209067B2 (en) | 2013-11-21 | 2013-11-21 | Image recognition apparatus and image recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6209067B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898108B (en) * | 2014-09-03 | 2024-06-04 | 创新先进技术有限公司 | Identity authentication method, device, terminal and server |
CN113157080A (en) * | 2020-01-07 | 2021-07-23 | 宝马股份公司 | Instruction input method for vehicle, storage medium, system and vehicle |
CN112053450B (en) | 2020-09-10 | 2024-07-16 | 脸萌有限公司 | Text display method and device, electronic equipment and storage medium |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1049194A (en) * | 1996-07-30 | 1998-02-20 | Aqueous Res:Kk | Voice recognition device |
JPH11149296A (en) * | 1997-09-10 | 1999-06-02 | Oki Electric Ind Co Ltd | Word recognition device |
JPH11203023A (en) * | 1998-01-09 | 1999-07-30 | Norio Aigase | Character input system based on character image of associated character |
JPH11306316A (en) * | 1998-04-24 | 1999-11-05 | Toshiba Corp | Method and device for finger language recognition and record medium |
JP2004015250A (en) * | 2002-06-05 | 2004-01-15 | Nec Corp | Mobile terminal |
JP2008310382A (en) * | 2007-06-12 | 2008-12-25 | Omron Corp | Lip reading device and method, information processor, information processing method, detection device and method, program, data structure, and recording medium |
JP2012118679A (en) * | 2010-11-30 | 2012-06-21 | Nec Commun Syst Ltd | Information processor, word discrimination device, screen display operation device, word registration device and method and program related to the same |
US20130104089A1 (en) * | 2011-10-20 | 2013-04-25 | Fuji Xerox Co., Ltd. | Gesture-based methods for interacting with instant messaging and event-based communication applications |
-
2013
- 2013-11-21 JP JP2013240963A patent/JP6209067B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015102897A (en) | 2015-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6467965B2 (en) | Emotion estimation device and emotion estimation method | |
US8837786B2 (en) | Face recognition apparatus and method | |
JP6202157B2 (en) | Hand gesture identification method and apparatus | |
JP6798798B2 (en) | Method and device for updating data for user authentication | |
JP2020501264A (en) | System and method for performing fingerprint authentication using images captured with a mobile device | |
JP7107598B2 (en) | Authentication face image candidate determination device, authentication face image candidate determination method, program, and recording medium | |
KR20150127381A (en) | Method for extracting face feature and apparatus for perforimg the method | |
CN108596079B (en) | Gesture recognition method and device and electronic equipment | |
JP6287827B2 (en) | Information processing apparatus, information processing method, and program | |
JP2012512478A (en) | Method, apparatus and computer program for providing face pose estimation | |
JP6209067B2 (en) | Image recognition apparatus and image recognition method | |
JP2016099643A (en) | Image processing device, image processing method, and image processing program | |
Ouadjer et al. | Feature importance evaluation of smartphone touch gestures for biometric authentication | |
Patil et al. | Literature survey: sign language recognition using gesture recognition and natural language processing | |
Koch et al. | One-shot lip-based biometric authentication: Extending behavioral features with authentication phrase information | |
KR101869304B1 (en) | System, method and program for recognizing sign language | |
KR20190132885A (en) | Apparatus, method and computer program for detecting hand from video | |
US9674185B2 (en) | Authentication using individual's inherent expression as secondary signature | |
Gupta et al. | Multimodal biometric system using grasshopper optimization | |
Tang et al. | Extracting commands from gestures: Gesture spotting and recognition for real-time music performance | |
KR102563522B1 (en) | Apparatus, method and computer program for recognizing face of user | |
JP6144192B2 (en) | Image recognition apparatus and image recognition method | |
US20150103205A1 (en) | Method of controlling digital apparatus and image capture method by recognition of hand shape, and apparatus therefor | |
JP2001331804A (en) | Device and method for detecting image area | |
JP7400987B2 (en) | Face recognition device, face recognition method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160819 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170706 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170908 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6209067 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |