Nothing Special   »   [go: up one dir, main page]

JP2007156974A - Personal identification/discrimination system - Google Patents

Personal identification/discrimination system Download PDF

Info

Publication number
JP2007156974A
JP2007156974A JP2005353576A JP2005353576A JP2007156974A JP 2007156974 A JP2007156974 A JP 2007156974A JP 2005353576 A JP2005353576 A JP 2005353576A JP 2005353576 A JP2005353576 A JP 2005353576A JP 2007156974 A JP2007156974 A JP 2007156974A
Authority
JP
Japan
Prior art keywords
voice
unit
face image
authentication
personal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005353576A
Other languages
Japanese (ja)
Inventor
Tsuneo Kato
恒夫 加藤
Kenji Matsuo
賢治 松尾
Hisashi Kawai
恒 河井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2005353576A priority Critical patent/JP2007156974A/en
Publication of JP2007156974A publication Critical patent/JP2007156974A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Collating Specific Patterns (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a personal identification/discrimination device with a lower erroneous discrimination rate, for integrating a face image and voice to prevent impersonation using a face picture and recorded voice. <P>SOLUTION: The face image and voice of a user outputted from an imaging section 1 are separated with each other. A face image collation section 14 collates an amount of feature extracted from a static image of the face image and pre-registered personal face image data 15 by a face image feature amount extraction section 12, and outputs its likelihood α. A voice collation section 23 collates an amount of feature extracted from the voice and the preregistered personal voice data 24 by a voice feature amount extraction section 22, and outputs its likelihood β. A likelihood integrating section 4 outputs the integrated likelihood by integrating the likelihoods α and β, and an identification/discrimination determining section 6 identifies and/or discriminates the user on the basis of the integrated likelihoods. The likelihoods α and β can vary their thresholds on the basis of brightness of the face image from a brightness measuring section 16 and the magnitude of background noises from a background noise measuring section 25. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

この発明は個人認証・識別システムに関し、特に顔画像と音声とを統合することにより、高い精度で個人認証および識別できるようにした個人認証・識別システムに関する。   The present invention relates to a personal authentication / identification system, and more particularly to a personal authentication / identification system capable of performing personal authentication and identification with high accuracy by integrating facial images and sound.

入退室管理や情報システムへのアクセス管理などに、生体情報(バイオメトリクス)を用いる認証方式が検討されている。個人の認証、識別に利用できる生体情報としては、指紋、顔、声、虹彩、網膜、手のひらの静脈などが上げられる。   Authentication methods using biometric information (biometrics) are being studied for entrance / exit management and access control to information systems. Examples of biometric information that can be used for personal authentication and identification include fingerprints, faces, voices, irises, retinas, and palm veins.

従来の個人認証装置の一つとして、例えば下記の特許文献1に記されているものがある。この文献に記されている個人認証装置は、予め記憶された特定個人の顔画像と撮像された顔画像とを照合し、双方のパターンが近似していれば認証する画像識別部と、予め記憶された特定個人の音声と入力音声との波形を照合し、双方が近似していれば認証する音声識別部と、予め記憶されたキーワード又はID番号と、入力されたキーワード又はID番号とを照合し、双方が一致していれば認証するID認証部と、予め記憶された特定個人の指紋と入力された指紋とのパターンを照合し、双方が一致していれば認証する指紋認証部とのうちのいずれか2つ以上の組み合わせを用いて、個人認証するものであり、用いられた全てが認証された場合に、登録された個人であると認証するものである。
特開2000−259828号公報
As one of conventional personal authentication devices, for example, there is one described in Patent Document 1 below. The personal authentication device described in this document collates a face image of a specific individual stored in advance with a captured face image, and authenticates if both patterns are approximated, and stores in advance Compare the waveform of the voice of the specified individual and the input voice, and verify the voice identification unit that authenticates if both are approximated, the keyword or ID number stored in advance, and the input keyword or ID number The ID authentication unit that authenticates if both match, and the fingerprint authentication unit that verifies the pattern of a specific personal fingerprint stored in advance and the input fingerprint, and authenticates if both match A combination of two or more of these is used for personal authentication, and when all used are authenticated, it is authenticated as a registered individual.
JP 2000-259828 A

しかしながら、前記した先行技術では、前記画像識別部は、明るさや顔の角度が変化すると誤識別したり本人の顔写真により詐称できるという課題、また前記音声識別部は、背景雑音が大きいと誤識別したり録音された本人の声で詐称できるという課題があった。   However, in the above-described prior art, the problem that the image identification unit can be misidentified when the brightness or the angle of the face changes or can be misrepresented by the person's face photograph, and the voice identification unit misidentifies that the background noise is large. There is a problem that it can be spoofed by the voice of the recorded person.

本発明の目的は、前記した従来技術の課題を解決し、誤識別率の小さい、かつ顔写真や録音された本人の声で詐称できない顔画像と音声を統合した個人認証・識別装置を提供することにある。   SUMMARY OF THE INVENTION An object of the present invention is to solve the above-described problems of the prior art and provide a personal authentication / identification device that integrates face images and voices that have a low misidentification rate and that cannot be spoofed by facial photographs or recorded voices. There is.

前記した目的を達成するために、本発明は、顔画像と音声とを統合して行う個人認証・識別システムにおいて、ユーザの顔画像を少なくとも含む動画像を撮像する撮像部と、該動画像から音声と画像とを分離する音声・画像分離部と、予め個人の顔画像データを登録しておく個人顔画像登録データ部と、予め個人の音声データを登録しておく個人音声登録データ部と、前記音声・画像分離部で分離された顔画像の静止画像から、顔画像の特徴量を抽出する顔画像特徴量抽出部と、前記音声・画像分離部で分離された音声データから、音声の特徴量を抽出する音声特徴量抽出部と、前記顔画像特徴量抽出部で抽出された顔画像の特徴量から口唇の動きを検出する口唇動き検出部と、前記音声・画像分離部で分離された音声から音声区間を検出する音声区間検出部と、前記音声区間検出部で検出された音声データから、音声の特徴量を抽出する音声特徴量抽出部と、前記口唇動き検出部で検出された口唇の動きの時刻情報と、前記音声区間検出で検出された音声区間の時刻情報から口唇と音声の同期を検証する音声区間・口唇同期検証部と、前記顔画像特徴量抽出部で抽出された顔画像の特徴量と前記個人顔画像登録データ部に登録されている個人の顔画像データとを照合し、本人らしさを表す尤度αを出力する顔画像照合部と、前記音声特徴量抽出部で抽出された音声の特徴量と前記個人音声登録データ部に登録されている個人の音声データとを照合し、本人らしさを表す尤度βを出力する音声照合部と、前記顔画像照合部および音声照合部から通知された前記尤度αおよびβを組み合わせる尤度統合部と、該尤度統合部で統合された統合尤度を基にユーザを認証・識別する認証・識別判定部とを具備した点に特徴がある。   In order to achieve the above-described object, the present invention provides a personal authentication / identification system that integrates a face image and sound, an imaging unit that captures a moving image including at least a user's face image, and the moving image. A voice / image separation unit that separates audio and images, a personal face image registration data unit that registers personal face image data in advance, a personal voice registration data unit that registers personal voice data in advance, A facial image feature amount extracting unit that extracts a feature amount of a face image from a still image of the face image separated by the sound / image separation unit, and a sound feature from the sound data separated by the sound / image separation unit. A voice feature amount extraction unit that extracts a quantity, a lip movement detection unit that detects lip movement from the facial image feature amount extracted by the face image feature amount extraction unit, and a voice / image separation unit. Detecting speech segment from speech A voice segment detection unit; a voice feature amount extraction unit that extracts a voice feature amount from voice data detected by the voice segment detection unit; and lip movement time information detected by the lip movement detection unit; Voice segment / lip synchronization verification unit for verifying synchronization between lips and voice from time information of the voice segment detected by the voice segment detection, facial image feature amount extracted by the facial image feature amount extraction unit, and the individual A face image collation unit that collates personal face image data registered in the face image registration data unit and outputs a likelihood α representing personality, and a voice feature amount extracted by the voice feature amount extraction unit And the personal voice data registered in the personal voice registration data part, the voice collation part for outputting the likelihood β representing the identity, and the face image collation part and the voice collation part notified from the voice collation part Combines likelihood α and β It is characterized in that it comprises a likelihood integration unit for authentication and an authentication / identification determination unit for authenticating and identifying a user based on the integrated likelihood integrated by the likelihood integration unit.

また、音声区間・口唇同期検出部で口唇の動きが検出されない場合、口唇の動きと音声区間の重なりがない場合、または音声区間と同時の口唇の動き区間の割合が閾値以下の場合に、前記認証・識別判定部が本人認証・識別処理を行わないようにした点に他の特徴がある。   Further, when the movement of the lips is not detected by the voice section / lip synchronization detection unit, when there is no overlap between the movement of the lips and the voice section, or when the ratio of the lip movement section at the same time as the voice section is equal to or less than the threshold value, Another feature is that the authentication / identification determination unit does not perform personal authentication / identification processing.

本発明によれば、入退館管理システム、情報システムへのアクセス管理などにおいて、口唇の動きを加味した顔画像による認証・識別と音声による認証・識別の両方を用いるようにしたので、個別の認証・識別に比べて高い精度が得られる。   According to the present invention, both the authentication / identification by the face image and the authentication / identification by voice taking account of the movement of the lips are used in the entrance / exit management system, the access management to the information system, etc. High accuracy is obtained compared to authentication and identification.

また、明るさに変化がある場所や、背景雑音が大きい場所などに使用しても、ユーザの認証・識別を高い精度で行うことができるようになる。このため、本発明の認証・識別システムを使用できる環境が広がる。   Further, even when used in a place where there is a change in brightness or where background noise is large, user authentication / identification can be performed with high accuracy. For this reason, the environment in which the authentication / identification system of the present invention can be used is expanded.

また、顔の動画像が動画像記録部に記録・保存できるので、心理的に詐称を抑制する効果がある。さらに、写真や、録音音声を用いた詐称がし難くなり、信頼性を高めることができる。   In addition, since the moving image of the face can be recorded / saved in the moving image recording unit, there is an effect of psychologically suppressing spoofing. In addition, it is difficult to misrepresent a photograph or recorded sound, and the reliability can be improved.

以下に、図面を参照して本発明を詳細に説明する。図1は、本発明の一実施形態の構成を示すブロック図である。   Hereinafter, the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram showing a configuration of an embodiment of the present invention.

ビデオカメラ1は、入退室管理や情報システムへのアクセス管理などを行う場所、あるいは金融システムの金銭自動預金・支払機などの設置場所などに設けられている。個人認識・識別を行う場合には、ユーザに予め定められた指示、例えば「自分の名前を言って下さい。」という指示が出される。そして、ユーザが自分の名前を発声している様子が、ビデオカメラ1によって撮影される。   The video camera 1 is provided in a place where entrance / exit management, access management to an information system, or the like, or in an installation place of an automatic money deposit / payment machine or the like of a financial system. When performing personal recognition / identification, the user is given a predetermined instruction, for example, “Please say your name”. Then, the video camera 1 takes a picture of the user speaking his / her name.

音声・画像分離部2は、ビデオカメラ1から出力される動画像データから顔の静止画像データと音声データを得る。そして、静止画像データは顔画像認証・識別部10に、一方音声データは音声認証・識別部20に送られる。また、該動画像データは、動画像記録部3に記録される。   The audio / image separating unit 2 obtains still image data and audio data of the face from the moving image data output from the video camera 1. The still image data is sent to the face image authentication / identification unit 10, while the voice data is sent to the voice authentication / identification unit 20. The moving image data is recorded in the moving image recording unit 3.

該動画像記録部3は、図2に示されているように、一定時間以上動画像を記録したか否かの判断を行い(ステップS1)、この判断が肯定の場合には認証・識別判定部6に判定OK(ステップS2)、否定の場合には判定不可(NG)の信号pを出力する(ステップS3)。   As shown in FIG. 2, the moving image recording unit 3 determines whether or not a moving image has been recorded for a predetermined time (step S1). If this determination is affirmative, an authentication / identification determination is made. A determination OK (step S2) is output to the unit 6, and if it is negative, a determination p (NG) signal p is output (step S3).

前記顔画像認証・識別部10は、顔静止画像取得部11,顔画像特徴量抽出部12,口唇動き検出部13,顔画像照合部14,個人顔画像登録データ15および明るさ測定部16から構成されている。また、前記音声認証・識別部20は、音声区間検出部21,音声特徴量抽出部22,音声照合部23,個人音声登録データ24および背景雑音測定部25から構成されている。   The face image authentication / identification unit 10 includes a face still image acquisition unit 11, a face image feature amount extraction unit 12, a lip movement detection unit 13, a face image collation unit 14, an individual face image registration data 15, and a brightness measurement unit 16. It is configured. The voice authentication / identification unit 20 includes a voice section detection unit 21, a voice feature quantity extraction unit 22, a voice collation unit 23, personal voice registration data 24, and a background noise measurement unit 25.

顔画像認証・識別部10の顔静止画像取得部11は、音声・画像分離部2から顔の静止画像を取得する。顔画像特徴量抽出部12は、該顔の静止画像から特徴量を抽出し、顔画像照合部14に送る。顔画像照合部14は、予め登録されている個人顔画像登録データ15と照合し、本人らしさを表すスコア(尤度)αを出力する。また、明るさ測定部16は、顔の静止画像データの明るさを測定し、明るさに関するデータqを尤度統合部4に出力する。   The face still image acquisition unit 11 of the face image authentication / identification unit 10 acquires a still image of the face from the sound / image separation unit 2. The face image feature amount extraction unit 12 extracts a feature amount from the still image of the face and sends it to the face image collation unit 14. The face image collation unit 14 collates with the personal face image registration data 15 registered in advance, and outputs a score (likelihood) α representing the identity. Further, the brightness measuring unit 16 measures the brightness of the still image data of the face and outputs data q related to the brightness to the likelihood integrating unit 4.

なお、該顔画像照合部14は、図3に示すように、口唇動き検出部13により口唇の動き検出期間と判定された場合(ステップS4が肯定)、及び/又は音声区間検出部21により音声区間と判定された場合(ステップS5が肯定)には、顔画像照合を見合わせ(ステップS6)、これらの区間以外の区間の顔静止画像により顔画像照合を行う(ステップS7)。   Note that the face image matching unit 14, as shown in FIG. 3, when the lip movement detecting unit 13 determines that the lip movement is detected (step S 4 is affirmative) and / or the voice section detecting unit 21 If it is determined to be a section (step S5 is affirmative), face image matching is forgotten (step S6), and face image matching is performed using face still images of sections other than these sections (step S7).

この結果、顔画像照合部14は、完全に静止している顔画像の特徴量を用いて照合処理をすることができるので、顔画像照合の精度は向上する。   As a result, the face image matching unit 14 can perform the matching process using the feature amount of the completely stationary face image, so that the accuracy of the face image matching is improved.

一方、音声認証・識別部20の音声区間検出部21は、音声・画像分離部2から音声が入力されると、音声区間を検出し該音声区間の音声を音声特徴量抽出部22に送る。該音声特徴量抽出部22は、音声区間の音声特徴量を抽出し、音声照合部23にて、予め登録されていた個人音声登録データ24と照合を行い、本人らしさを表すスコア(尤度)βを出力する。   On the other hand, when voice is input from the voice / image separation unit 2, the voice section detection unit 21 of the voice authentication / identification unit 20 detects the voice section and sends the voice in the voice section to the voice feature quantity extraction unit 22. The voice feature amount extraction unit 22 extracts a voice feature amount of a voice section, and the voice collation unit 23 performs collation with the personal voice registration data 24 registered in advance, and a score (likelihood) representing personality. β is output.

音声区間・口唇同期検証部5は、音声区間検出部21からの音声区間(時間情報)と、口唇動き検出部13からの口唇動き検出区間(時間情報)を入力として、2つの区間を比較し、認証・識別判定部6に対して図4に示すような制御を行う。まず、ステップS11では、口唇の動きが検出されたか否かの判断を行う。この判断が肯定の場合にはステップS12の判断を行い、否定の場合にはステップS14に進む。前記ステップS12では、音声区間のうち、口唇の動き検出区間と重なる時間の割合が閾値以上か否かの判断を行う。この判断が肯定の場合には、ステップS13に進んで、認証・識別判定部6に対して、認証・識別可の信号tを送る。一方、ステップS12が否定の時には、ステップS14に進んで認証・識別不可(NG)の信号tを送る。   The voice section / lip synchronization verification unit 5 receives the voice section (time information) from the voice section detection unit 21 and the lip movement detection section (time information) from the lip movement detection unit 13 and compares the two sections. Then, the authentication / identification determination unit 6 is controlled as shown in FIG. First, in step S11, it is determined whether or not lip movement is detected. If this determination is affirmative, the determination in step S12 is performed. If the determination is negative, the process proceeds to step S14. In step S12, it is determined whether or not the ratio of the time overlapped with the lip movement detection section in the voice section is equal to or greater than a threshold value. If this determination is affirmative, the process proceeds to step S13, and an authentication / identification enable signal t is sent to the authentication / identification determination unit 6. On the other hand, when the determination in step S12 is negative, the process proceeds to step S14 to send an authentication / identification impossible (NG) signal t.

この結果、本人の顔写真では口唇の動きが検出されず、また録音された本人の声では口唇の動き検出=音声区間にはならないあるいは口唇の動きと音声区間とが適合しなくなるので、本人の顔写真や録音された本人の声による詐称はできなくなる。   As a result, the movement of the lips is not detected in the person's face photo, and the movement of the lips in the recorded person's voice is not a voice section or the movement of the lips and the voice section are not compatible. You can't misrepresent yourself with a photo of your face or your voice.

また、口唇の位置検出手段(図示せず)を追加して設けて、ユーザの口唇の位置を検出するようにすれば、マイク(図示せず)の位置に口元を近づけるように指示することができる。このようにすれば、ユーザの音声を正確に収集することができるようになる。   In addition, if a lip position detecting means (not shown) is additionally provided to detect the position of the user's lips, an instruction can be given to bring the mouth closer to the position of the microphone (not shown). it can. In this way, the user's voice can be collected accurately.

次に、尤度統合部4の動作を図5を参照して説明する。尤度統合部4は、認証・識別の判定に用いる本人らしさスコアを求めるために、顔画像認証・識別部10からのスコアαと音声認証・識別部20からのスコアβを組み合わせる(ステップS21)。次に、明るさが不足しているか否かの判断をする(ステップS22)。前記明るさ測定部16からの明るさ情報qが明るさ不足を示す場合(ステップS22が肯定)には、前記スコアαに対する予め定められている閾値Saを所定値だけ小さくし、前記スコアβに対する予め定められている閾値Sbを所定値だけ大きくする(ステップS23)。次いで、スコアα、βは、それぞれ小さくされたSa、大きくされたSbと比較され、スコアα≧Saおよびスコアβ≧Sbが成立するか否かの判断がなされ(ステップS24)、成立する場合には、閾値Sa,Sbを元の値に戻す(ステップS25)。一方、不成立の場合には、統合尤度γを例えば0とする(ステップS30)。   Next, the operation of the likelihood integration unit 4 will be described with reference to FIG. The likelihood integration unit 4 combines the score α from the face image authentication / identification unit 10 and the score β from the voice authentication / identification unit 20 in order to obtain a personality score used for determination of authentication / identification (step S21). . Next, it is determined whether or not the brightness is insufficient (step S22). When the brightness information q from the brightness measuring unit 16 indicates insufficient brightness (Yes in step S22), a predetermined threshold value Sa for the score α is decreased by a predetermined value, and the score β The predetermined threshold value Sb is increased by a predetermined value (step S23). Next, the scores α and β are compared with the decreased Sa and the increased Sb, respectively, and it is determined whether or not the scores α ≧ Sa and the score β ≧ Sb are satisfied (step S24). Returns the threshold values Sa and Sb to the original values (step S25). On the other hand, if not established, the integrated likelihood γ is set to 0, for example (step S30).

次に、前記背景雑音測定部25からの背景雑音情報rが予め定められた値より大であるか否かの判断がなされ(ステップS26)、大であれば、前記スコアαに対する前記閾値Saを所定値だけ大きくし、前記スコアβに対する前記閾値Sbを所定値だけ小さくする(ステップS27)。そして、スコアα、βは、それぞれ大きくされたSa、小さくされたSbと比較され、スコアα≧Saおよびβ≧Sbが成立するか否かの判定がなされ(ステップS28)、成立すればステップS29に進んで統合尤度γ=1,不成立であればステップS30に進んで統合尤度γ=0が認証・識別判定部6に出力される。ここに、γ=1はOK、γ=0はNGを表す。   Next, it is determined whether or not the background noise information r from the background noise measuring unit 25 is larger than a predetermined value (step S26). If it is larger, the threshold value Sa for the score α is set. The threshold value Sb for the score β is decreased by a predetermined value by increasing it by a predetermined value (step S27). The scores α and β are compared with the increased Sa and the decreased Sb, respectively, and it is determined whether or not the scores α ≧ Sa and β ≧ Sb are satisfied (step S28). If the integrated likelihood γ = 1 and not established, the process proceeds to step S30 where the integrated likelihood γ = 0 is output to the authentication / identification determining unit 6. Here, γ = 1 is OK, and γ = 0 is NG.

また、前記明るさ不足がなく(ステップS22の判断が否定)、前記背景雑音が所定値より小さい(ステップS26の判断が否定)場合には、ステップS28に進んで、スコアαおよびβはそれぞれ元の大きさの閾値Sa、Sbと比較される。そして、ステップS28の判断が肯定になればステップS29に進み、逆に否定になればステップS30に進む。   If the brightness is not insufficient (determination in step S22 is negative) and the background noise is smaller than a predetermined value (determination in step S26 is negative), the process proceeds to step S28, where the scores α and β are the original values. Are compared with threshold values Sa and Sb. And if judgment of step S28 becomes affirmation, it will progress to step S29, and conversely, if it becomes negative, it will progress to step S30.

認証・識別判定部6は、個人認証の判定もしくは複数ユーザからの個人の識別を行う。図6に示すように、認証・識別判定部6は、ステップS31において動画像記録部3からNG入力pが届いているか否かの判断を行い、この判断が肯定の場合にはステップS36に進んで前記統合尤度を破棄(γ=0)する。この判断が否定の時にはステップS32に進んで、前記音声区間・口唇同期検証部5からNG入力tが届いているか否かの判断を行い、この判断が肯定の場合にはステップS36に進んで前記統合尤度γを破棄(γ=0)する。   The authentication / identification determination unit 6 determines personal authentication or identifies individuals from a plurality of users. As shown in FIG. 6, the authentication / identification determination unit 6 determines whether or not the NG input p has arrived from the moving image recording unit 3 in step S31. If this determination is affirmative, the process proceeds to step S36. The integrated likelihood is discarded (γ = 0). When this determination is negative, the process proceeds to step S32, where it is determined whether or not an NG input t has arrived from the voice interval / lip synchronization verifying unit 5, and when this determination is affirmative, the process proceeds to step S36. The integrated likelihood γ is discarded (γ = 0).

次いで、ステップS32が否定の時には、ステップS33に進んで、個人認識を行うかまたは複数ユーザからの個人の識別を行うかの判断をする。前者の場合には、ステップS34に進んで、前記統合尤度γが1であるか否かの判断がなされる。この判断が肯定の場合には、個人認識結果は有効であるとして、受理される。しかしながら、統合尤度γ=0の場合には、ステップS36に進む。次に、前記ステップS33の判断が複数ユーザからの個人の識別の場合には、ステップS37に進んで、複数ユーザの登録データとの照合結果を収集し、ステップS38で最も統合尤度(スコア)の高いユーザを識別結果とする。   Next, when the determination in step S32 is negative, the process proceeds to step S33 to determine whether to perform individual recognition or to identify individuals from multiple users. In the former case, the process proceeds to step S34, where it is determined whether or not the integrated likelihood γ is 1. If this determination is affirmative, the personal recognition result is accepted as valid. However, if the combined likelihood γ = 0, the process proceeds to step S36. Next, when the determination in step S33 is identification of individuals from a plurality of users, the process proceeds to step S37 to collect collation results with the registration data of the plurality of users, and in step S38, the most integrated likelihood (score). A user with a high ID is used as an identification result.

以上、本発明の好ましい一実施形態について説明したが、本発明はこれに限定されることなく、本発明の趣旨の範囲内で種々の変形ができることは明らかである。   The preferred embodiment of the present invention has been described above, but the present invention is not limited to this, and it is obvious that various modifications can be made within the scope of the gist of the present invention.

本発明の一実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of one Embodiment of this invention. 動画像記録部の機能を示すフローチャートである。It is a flowchart which shows the function of a moving image recording part. 顔画像照合部の機能を示すフローチャートである。It is a flowchart which shows the function of a face image collation part. 音声区間・口唇同期検証部の機能を示すフローチャートである。It is a flowchart which shows the function of an audio | voice area and lip synchronization verification part. 尤度統合部の機能を示すフローチャートである。It is a flowchart which shows the function of a likelihood integration part. 認証・識別判定部の機能を示すフローチャートである。It is a flowchart which shows the function of an authentication and identification determination part.

符号の説明Explanation of symbols

1・・・ビデオカメラ、2・・・音声・画像分離部、3・・・動画像記録部、4・・・尤度統合部、5・・・音声区間・口唇同期検証部、6・・・認証・識別判定部、10・・・・顔画像認証・識別部、20・・・音声認識・識別部。   DESCRIPTION OF SYMBOLS 1 ... Video camera, 2 ... Audio | voice / image separation part, 3 ... Moving image recording part, 4 ... Likelihood integration part, 5 ... Voice section and lip synchronization verification part, 6. Authentication / identification determination unit, 10... Face image authentication / identification unit, 20.

Claims (8)

顔画像と音声とを統合して行う個人認証・識別システムにおいて、
ユーザの顔画像を少なくとも含む動画像を撮像する撮像部と、
該動画像から音声と画像とを分離する音声・画像分離部と、
予め個人の顔画像データを登録しておく個人顔画像登録データ部と、
予め個人の音声データを登録しておく個人音声登録データ部と、
前記音声・画像分離部で分離された顔画像の静止画像から、顔画像の特徴量を抽出する顔画像特徴量抽出部と、
前記顔画像特徴量抽出部で抽出された顔画像の特徴量から口唇の動きを検出する口唇動き検出部と、
前記音声・画像分離部で分離された音声から音声区間を検出する音声区間検出部と、
前記音声区間検出部で検出された音声データから、音声の特徴量を抽出する音声特徴量抽出部と、
前記口唇動き検出部で検出された口唇の動きの時刻情報と、前記音声区間検出で検出された音声区間の時刻情報から口唇と音声の同期を検証する音声区間・口唇同期検証部と、
前記顔画像特徴量抽出部で抽出された顔画像の特徴量と前記個人顔画像登録データ部に登録されている個人の顔画像データとを照合し、本人らしさを表す尤度αを出力する顔画像照合部と、
前記音声特徴量抽出部で抽出された音声の特徴量と前記個人音声登録データ部に登録されている個人の音声データとを照合し、本人らしさを表す尤度βを出力する音声照合部と、
前記顔画像照合部および音声照合部から通知された前記尤度αおよびβを組み合わせる尤度統合部と、
該尤度統合部で統合された統合尤度を基にユーザを認証・識別する認証・識別判定部とを具備したことを特徴とする個人認証・識別システム。
In a personal authentication / identification system that integrates facial images and audio,
An imaging unit that captures a moving image including at least a user's face image;
A sound / image separation unit for separating sound and image from the moving image;
A personal face image registration data section for registering personal face image data in advance;
A personal voice registration data section for registering personal voice data in advance;
A face image feature amount extraction unit that extracts a feature amount of a face image from a still image of the face image separated by the sound / image separation unit;
Lip movement detection unit for detecting lip movement from the feature value of the face image extracted by the face image feature value extraction unit;
A voice section detector for detecting a voice section from the voice separated by the voice / image separator;
A voice feature quantity extraction unit that extracts a voice feature quantity from the voice data detected by the voice section detection unit;
A voice interval / lip synchronization verification unit that verifies the synchronization of the lip and the voice from the time information of the lip movement detected by the lip movement detection unit and the time information of the voice interval detected by the voice interval detection;
The face which outputs the likelihood α representing personality by comparing the feature amount of the face image extracted by the face image feature amount extraction unit with the personal face image data registered in the personal face image registration data unit An image matching unit;
A speech collation unit that collates the speech feature amount extracted by the speech feature amount extraction unit with the personal speech data registered in the personal speech registration data unit, and outputs a likelihood β representing personality;
A likelihood integration unit that combines the likelihoods α and β notified from the face image verification unit and the voice verification unit;
A personal authentication / identification system comprising: an authentication / identification determination unit that authenticates / identifies a user based on the integrated likelihood integrated by the likelihood integration unit.
請求項1に記載の個人認証・識別システムにおいて、
前記音声区間・口唇同期検出部で口唇の動きが検出されない場合、または口唇の動きと音声区間に重なりがない場合に、前記認証・識別判定部が本人認証・識別処理を行わないようにすることを特徴とする個人認証・識別システム。
The personal authentication / identification system according to claim 1,
When the movement of the lips is not detected by the voice section / lip synchronization detection unit, or when there is no overlap between the movement of the lips and the voice section, the authentication / identification determination unit does not perform the authentication / identification process. A personal authentication and identification system.
請求項1に記載の個人認証・識別システムにおいて、
前記音声区間・口唇同期検出部で音声区間と同時の口唇の動き区間の割合が閾値以下の場合に、前記認証・識別判定部が本人認証・識別処理を行わないようにすることを特徴とする個人認証・識別システム。
The personal authentication / identification system according to claim 1,
The authentication / identification determination unit is configured to prevent the authentication / identification determination unit from performing personal authentication / identification processing when the ratio of the lip movement interval at the same time as the voice interval is equal to or less than a threshold in the voice interval / lip synchronization detection unit. Personal authentication / identification system.
請求項1に記載の個人認証・識別システムにおいて、
前記音声区間・口唇同期検出部で検出された口唇の動き区間および音声区間の顔画像を、顔画像照合部が照合対象から除外することを特徴とする個人認証・識別システム。
The personal authentication / identification system according to claim 1,
A personal authentication / identification system, wherein a face image collation unit excludes a face image of a lip movement segment and a voice segment detected by the voice segment / lip synchronization detection unit from a collation target.
請求項1に記載の個人認証・識別システムにおいて、
さらに口唇の位置検出手段を具備し、
ユーザに口唇の位置修正を指示することを特徴とする個人認証・識別システム。
The personal authentication / identification system according to claim 1,
Furthermore, it has a lip position detection means,
A personal authentication / identification system characterized by instructing a user to correct the position of a lip.
請求項1ないし5のいずれかに記載の個人認証・識別システムにおいて、
さらに顔の動画像を記録する動画像記録部を具備し、
記録された顔の動画像の時間が閾値以下の場合に、前記認証・識別判定部が本人認証・識別処理を行わないようにすることを特徴とする個人認証・識別システム。
The personal authentication / identification system according to any one of claims 1 to 5,
Furthermore, a moving image recording unit for recording a moving image of a face is provided,
A personal authentication / identification system in which the authentication / identification determination unit does not perform personal authentication / identification processing when the time of a recorded moving image of a face is equal to or less than a threshold value.
請求項1に記載の個人認証・識別システムにおいて、
さらに、前記顔画像の静止画像の明るさを測定する明るさ測定部を具備し、
前記明るさ測定部が測定した明るさが閾値以下の場合には、前記認証・識別判定部が顔画像照合の尤度αに対する閾値を低くし、代わりに音声照合の尤度βに対する閾値を高くすることを特徴とする個人認証・識別システム。
The personal authentication / identification system according to claim 1,
And a brightness measuring unit that measures the brightness of the still image of the face image,
If the brightness measured by the brightness measurement unit is less than or equal to a threshold value, the authentication / identification determination unit lowers the threshold value for the likelihood α of face image matching, and instead increases the threshold value for the likelihood β of speech matching. A personal authentication / identification system.
請求項1ないし6のいずれかに記載の個人認証・識別システムにおいて、
さらに音声の背景雑音を測定する背景雑音測定部を具備し、
背景雑音測定部が測定した背景雑音レベルが閾値以上の場合には、前記認証・識別判定部が音声照合の尤度βに対する閾値を低くし、代わりに顔画像照合の尤度αに対する閾値を高くすることを特徴とする個人認証・識別システム。
The personal authentication / identification system according to any one of claims 1 to 6,
Furthermore, a background noise measuring unit for measuring the background noise of speech is provided,
If the background noise level measured by the background noise measuring unit is equal to or higher than the threshold, the authentication / identification determining unit lowers the threshold for the likelihood β of speech matching, and instead increases the threshold for the likelihood α of face image matching. A personal authentication / identification system.
JP2005353576A 2005-12-07 2005-12-07 Personal identification/discrimination system Pending JP2007156974A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005353576A JP2007156974A (en) 2005-12-07 2005-12-07 Personal identification/discrimination system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005353576A JP2007156974A (en) 2005-12-07 2005-12-07 Personal identification/discrimination system

Publications (1)

Publication Number Publication Date
JP2007156974A true JP2007156974A (en) 2007-06-21

Family

ID=38241238

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005353576A Pending JP2007156974A (en) 2005-12-07 2005-12-07 Personal identification/discrimination system

Country Status (1)

Country Link
JP (1) JP2007156974A (en)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010185975A (en) * 2009-02-10 2010-08-26 Denso Corp In-vehicle speech recognition device
JP2010231397A (en) * 2009-03-26 2010-10-14 Fujifilm Corp Authentication device and authentication method
WO2012102111A1 (en) * 2011-01-27 2012-08-02 株式会社エヌ・ティ・ティ・ドコモ Mobile information terminal, grip characteristic learning method, and grip characteristic authentication method
WO2013005248A1 (en) * 2011-07-05 2013-01-10 三菱電機株式会社 Voice recognition device and navigation device
JPWO2013005248A1 (en) * 2011-07-05 2015-02-23 三菱電機株式会社 Voice recognition device and navigation device
JP2016517548A (en) * 2013-03-14 2016-06-16 インテル コーポレイション Provision of services based on voice and face recognition
JP2019522840A (en) * 2016-05-19 2019-08-15 アリババ グループ ホウルディング リミテッド Identity authentication method and apparatus
CN110419048A (en) * 2017-02-09 2019-11-05 莱恩奥罗克澳大利亚私人有限公司 System for identifying defined object
JP2020057300A (en) * 2018-10-04 2020-04-09 カシオ計算機株式会社 Identification device, robot, identification method, and program
CN111028833A (en) * 2019-12-16 2020-04-17 广州小鹏汽车科技有限公司 Interaction method and device for interaction and vehicle interaction
US10733424B2 (en) 2017-03-28 2020-08-04 Samsung Electronics Co., Ltd. Face verification method and apparatus
CN112149084A (en) * 2019-06-28 2020-12-29 北京海益同展信息科技有限公司 Information interaction method and information interaction device
CN114898475A (en) * 2022-05-13 2022-08-12 精英数智科技股份有限公司 Underground personnel identity identification method and device, electronic equipment and readable storage medium
US12136292B2 (en) 2017-03-28 2024-11-05 Samsung Electronics Co., Ltd. Face verification method and apparatus

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010185975A (en) * 2009-02-10 2010-08-26 Denso Corp In-vehicle speech recognition device
JP2010231397A (en) * 2009-03-26 2010-10-14 Fujifilm Corp Authentication device and authentication method
WO2012102111A1 (en) * 2011-01-27 2012-08-02 株式会社エヌ・ティ・ティ・ドコモ Mobile information terminal, grip characteristic learning method, and grip characteristic authentication method
WO2013005248A1 (en) * 2011-07-05 2013-01-10 三菱電機株式会社 Voice recognition device and navigation device
JPWO2013005248A1 (en) * 2011-07-05 2015-02-23 三菱電機株式会社 Voice recognition device and navigation device
KR101731404B1 (en) * 2013-03-14 2017-04-28 인텔 코포레이션 Voice and/or facial recognition based service provision
JP2016517548A (en) * 2013-03-14 2016-06-16 インテル コーポレイション Provision of services based on voice and face recognition
US10789343B2 (en) 2016-05-19 2020-09-29 Alibaba Group Holding Limited Identity authentication method and apparatus
JP2019522840A (en) * 2016-05-19 2019-08-15 アリババ グループ ホウルディング リミテッド Identity authentication method and apparatus
CN110419048A (en) * 2017-02-09 2019-11-05 莱恩奥罗克澳大利亚私人有限公司 System for identifying defined object
KR20190137778A (en) * 2017-02-09 2019-12-11 랭 오록 오스트레일리아 피티와이 엘티디 System for identifying defined objects
JP2020507177A (en) * 2017-02-09 2020-03-05 ライング オーローク オーストラリア ピーティーワイ リミテッドLaing O’Rourke Australia Pty Ltd System for identifying defined objects
CN110419048B (en) * 2017-02-09 2023-10-31 普雷西恩私人有限公司 System for identifying defined objects
KR102572811B1 (en) * 2017-02-09 2023-09-07 랭 오록 오스트레일리아 피티와이 엘티디 System for identifying defined objects
JP7238217B2 (en) 2017-02-09 2023-03-14 プレシエン ピーティーワイ リミテッド A system for identifying defined objects
US10733424B2 (en) 2017-03-28 2020-08-04 Samsung Electronics Co., Ltd. Face verification method and apparatus
US10891466B2 (en) 2017-03-28 2021-01-12 Samsung Electronics Co., Ltd. Face verification method and apparatus
US11256906B2 (en) 2017-03-28 2022-02-22 Samsung Electronics Co., Ltd. Face verification method and apparatus
US12136292B2 (en) 2017-03-28 2024-11-05 Samsung Electronics Co., Ltd. Face verification method and apparatus
US11715329B2 (en) 2017-03-28 2023-08-01 Samsung Electronics Co., Ltd. Face verification method and apparatus
US11727720B2 (en) 2017-03-28 2023-08-15 Samsung Electronics Co., Ltd. Face verification method and apparatus
JP2020057300A (en) * 2018-10-04 2020-04-09 カシオ計算機株式会社 Identification device, robot, identification method, and program
US11514269B2 (en) 2018-10-04 2022-11-29 Casio Computer Co., Ltd. Identification device, robot, identification method, and storage medium
JP7205148B2 (en) 2018-10-04 2023-01-17 カシオ計算機株式会社 ROBOT, CONTROL METHOD AND PROGRAM
CN111002303B (en) * 2018-10-04 2023-03-28 卡西欧计算机株式会社 Recognition device, robot, recognition method, and storage medium
CN111002303A (en) * 2018-10-04 2020-04-14 卡西欧计算机株式会社 Recognition device, robot, recognition method, and storage medium
CN112149084A (en) * 2019-06-28 2020-12-29 北京海益同展信息科技有限公司 Information interaction method and information interaction device
CN111028833A (en) * 2019-12-16 2020-04-17 广州小鹏汽车科技有限公司 Interaction method and device for interaction and vehicle interaction
CN114898475A (en) * 2022-05-13 2022-08-12 精英数智科技股份有限公司 Underground personnel identity identification method and device, electronic equipment and readable storage medium

Similar Documents

Publication Publication Date Title
JP2007156974A (en) Personal identification/discrimination system
JP7109634B2 (en) Identity authentication method and device
JP6151582B2 (en) Face recognition system
JP6483485B2 (en) Person authentication method
US8422746B2 (en) Face authentication system and authentication method thereof
US7949535B2 (en) User authentication system, fraudulent user determination method and computer program product
EP2913799A2 (en) System and method having biometric identification intrusion and access control
KR20010039771A (en) Methods and apparatus for audio-visual speaker recognition and utterance verification
CN111611568A (en) Face voiceprint rechecking terminal and identity authentication method thereof
JP4899552B2 (en) Authentication device, authentication method, authentication program, and computer-readable recording medium recording the same
CN111611437A (en) Method and device for preventing face voiceprint verification and replacement attack
JP5606948B2 (en) Face image authentication device
JP2017044778A (en) Authentication device
JP2003233816A (en) Access control system
US20230206686A1 (en) Face authentication method, storage medium, and face authentication device
JP6679291B2 (en) Applicant authentication device, authentication method, and security authentication system using the method
JP2003036442A (en) Device for authenticating individual
WO2016058540A1 (en) Identity authentication method and apparatus and storage medium
JP2003256813A (en) Operator monitoring device
CN111611569A (en) Face voiceprint rechecking terminal and identity authentication method thereof
JP2005292994A (en) Personal recognition system and passage control system
Mohammed et al. Evaluation of Voice & Ear Biometrics Authentication System
KR100360480B1 (en) Personal identification device and method thereof
Melin et al. Human Recognition using Face, Fingerprint and Voice
WO2021060256A1 (en) Facial authentication device, facial authentication method, and computer-readable recording medium