JP5323770B2 - User instruction acquisition device, user instruction acquisition program, and television receiver - Google Patents
User instruction acquisition device, user instruction acquisition program, and television receiver Download PDFInfo
- Publication number
- JP5323770B2 JP5323770B2 JP2010149860A JP2010149860A JP5323770B2 JP 5323770 B2 JP5323770 B2 JP 5323770B2 JP 2010149860 A JP2010149860 A JP 2010149860A JP 2010149860 A JP2010149860 A JP 2010149860A JP 5323770 B2 JP5323770 B2 JP 5323770B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- face
- users
- voice
- instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
- Position Input By Displaying (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Description
本発明は、テレビ、オーディオ機器、パソコンおよび各種家電等の機器を利用するユーザから、当該機器を制御するための指示を取得するユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機に関する。 The present invention relates to a user instruction acquisition device, a user instruction acquisition program, and a television receiver that acquire an instruction for controlling the device from a user who uses a device such as a television, an audio device, a personal computer, and various home appliances.
テレビ等の機器がユーザからの指示を受け取る方法としては、例えば最も基本的なものとして、リモコンによって指示を受け取る方法が挙げられる。また、特許文献1,2では、前記したようなリモコン操作の煩わしさを回避するために、リモコンの代わりに音声認識やジェスチャ(動作認識)を利用してユーザから指示を受け取る装置が提案されている。 As a method for a device such as a television to receive an instruction from a user, for example, the most basic method is a method of receiving an instruction with a remote controller. Patent Documents 1 and 2 propose an apparatus for receiving instructions from a user using voice recognition or gesture (motion recognition) instead of the remote control in order to avoid the troublesome operation of the remote control as described above. Yes.
しかしながら、前記したようなリモコンを用いた方法では、テレビ等の機器に指示する内容が固定であるため柔軟性に欠けており、また、リモコンの操作が複雑で扱いにくいという問題があった。そして、特許文献1,2で提案された音声認識やジェスチャを利用する装置では、常に音声認識を行っているため、ユーザが実際に指示をいったタイミングや複数のユーザのうちの誰が指示を行っているのかが分からず、さらに雑音にも反応してしまうという問題があった。また、特許文献1,2で提案された装置では、ユーザがディスプレイ画面に表示された擬人化されたエージェント画像を見ながら指示を行う等、日常的ではない不自然な状況下で指示を行う必要があり煩雑であるという問題があった。 However, the method using the remote controller as described above has a problem that the content to be instructed to a device such as a television is fixed and lacks flexibility, and the operation of the remote controller is complicated and difficult to handle. In the devices using speech recognition and gestures proposed in Patent Documents 1 and 2, since voice recognition is always performed, the timing when the user actually gives an instruction and who of the multiple users gives the instruction. There is a problem that it does not know whether it is, and also reacts to noise. In addition, in the devices proposed in Patent Documents 1 and 2, it is necessary for the user to give an instruction under an unnatural situation that is not everyday, such as giving an instruction while looking at an anthropomorphic agent image displayed on the display screen. There was a problem that it was complicated.
本発明はかかる点に鑑みてなされたものであって、ユーザの自然な発話あるいは動作によって機器を的確に指示制御することができ、かつ、ユーザが実際に指示を行っている場合のみ指示を取得するユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機を提供することを課題とする。 The present invention has been made in view of the above points, and it is possible to accurately instruct and control a device by a user's natural utterance or operation, and an instruction is acquired only when the user actually gives an instruction. It is an object to provide a user instruction acquisition device, a user instruction acquisition program, and a television receiver.
前記課題を解決するために請求項1に係るユーザ指示取得装置は、機器を利用する複数のユーザの中から当該機器を制御するための指示を行っているユーザを特定し、当該ユーザからの指示を取得するユーザ指示取得装置であって、カメラによって撮影された映像から、予め登録された前記複数のユーザのぞれぞれを認識するとともに前記複数のユーザのぞれぞれの顔の変化を検出し、当該顔の変化から前記複数のユーザのそれぞれが発話している期間を示す発話期間を生成する顔分析手段と、前記複数のユーザの映像から、前記複数のユーザの手の動作を認識する手動作分析手段と、前記顔分析手段によって生成された前記発話期間に基づいて、前記機器の周囲の音から音声を検出し、予め前記ユーザごとに登録された音響特徴量を用いて前記音声の内容および話者を認識する音声分析手段と、前記顔分析手段によって認識された前記複数のユーザの中に前記音声分析手段によって認識された前記話者が含まれている場合、当該話者を前記指示を行っているユーザとして特定し、前記顔分析手段によって検出された前記ユーザの顔の変化と、前記手動作分析手段によって認識された前記ユーザの手の動作と、前記音声分析手段によって認識された前記ユーザの音声の内容と、に対して予め定められたコマンドを生成するコマンド生成手段と、を備える構成とした。 In order to solve the above-mentioned problem, the user instruction acquisition device according to claim 1 specifies a user who gives an instruction to control the device from a plurality of users who use the device, and receives an instruction from the user. A user instruction acquisition device that recognizes each of the plurality of users registered in advance from an image captured by a camera and detects a change in the face of each of the plurality of users. Detecting a face analysis means for generating an utterance period indicating a period during which each of the plurality of users is speaking from the change of the face, and recognizing hand movements of the plurality of users from the images of the plurality of users. Based on the utterance period generated by the hand motion analysis means and the face analysis means, and detects sound from sounds around the device, and uses acoustic feature values registered in advance for each user Speech analysis means for recognizing the content of the recorded speech and the speaker, and when the speaker recognized by the speech analysis means is included in the plurality of users recognized by the face analysis means, The user is identified as the user who is giving the instruction, the face change of the user detected by the face analysis means, the movement of the user's hand recognized by the hand movement analysis means, and the voice analysis means And a command generation means for generating a predetermined command for the content of the user's voice recognized by the above.
このような構成によれば、ユーザ指示取得装置は、顔分析手段によってユーザの顔の変化から当該ユーザが発話している期間を生成し、ユーザが発話している場合のみ音声認識を行うため、音声認識の精度を高めることができる。また、顔認識で認識したユーザと音声認識で認識した話者とを比較することで、機器に対して音声指示を行ったユーザを特定できるため、複数のユーザが機器を利用する場合であっても、コマンドを的確に生成することができる。 According to such a configuration, the user instruction acquisition device generates a period during which the user is speaking from the change of the user's face by the face analysis unit, and performs voice recognition only when the user is speaking. The accuracy of voice recognition can be increased. In addition, since a user who has given a voice instruction to a device can be identified by comparing the user recognized by face recognition with the speaker recognized by voice recognition, a plurality of users use the device. The command can be generated accurately.
また、請求項2に係るユーザ指示取得装置は、前記顔分析手段が、前記映像から前記複数のユーザの顔の領域を検出する顔領域検出手段と、予め前記ユーザごとに登録された顔特徴量を用いて、前記顔の領域に対応するユーザを認識する顔認識手段と、前記複数のユーザの顔の領域から、当該複数のユーザの顔の変化を検出する顔変化検出手段と、前記複数のユーザの顔の変化から、当該複数のユーザが発話しているか否かを判定し、発話していると判定した場合に前記発話期間を生成する発話状態推定手段と、を備える構成とした。 According to a second aspect of the present invention, in the user instruction acquiring apparatus, the face analysis unit detects a plurality of face areas of the plurality of users from the video, and a facial feature amount registered in advance for each user. A face recognition means for recognizing a user corresponding to the face area, a face change detection means for detecting a change in the face of the plurality of users from the face areas of the plurality of users, It is configured to determine whether or not the plurality of users are speaking from the change of the user's face, and to determine a speech state estimation unit that generates the speech period when it is determined that the user is speaking.
このような構成によれば、ユーザ指示取得装置は、発話状態推定手段によって当該ユーザが発話しているのか否かを判定し、ユーザが発話していると判定した場合のみ発話期間を生成して音声分析手段に出力するため、音声認識の精度をより高めることができる。 According to such a configuration, the user instruction acquisition device determines whether or not the user is speaking by the speech state estimating means, and generates the speech period only when it is determined that the user is speaking. Since it outputs to a voice analysis means, the precision of voice recognition can be raised more.
また、請求項3に係るユーザ指示取得プログラムは、機器を利用する複数のユーザの中から当該機器を制御するための指示を行っているユーザを特定し、当該ユーザからの指示を取得するために、コンピュータを、カメラによって撮影された映像から、予め登録された前記複数のユーザのぞれぞれを認識するとともに前記複数のユーザのぞれぞれの顔の変化を検出し、当該顔の変化から前記複数のユーザのそれぞれが発話している期間を示す発話期間を生成する顔分析手段、前記複数のユーザの映像から、前記複数のユーザの手の動作を認識する手動作分析手段、前記顔分析手段によって生成された前記発話期間に基づいて、前記機器の周囲の音から音声を検出し、予め前記ユーザごとに登録された音響特徴量を用いて前記音声の内容および話者を認識する音声分析手段、前記顔分析手段によって認識された前記複数のユーザの中に前記音声分析手段によって認識された前記話者が含まれている場合、当該話者を前記指示を行っているユーザとして特定し、前記顔分析手段によって検出された前記ユーザの顔の変化と、前記手動作分析手段によって認識された前記ユーザの手の動作と、前記音声分析手段によって認識された前記ユーザの音声の内容と、に対して予め定められたコマンドを生成するコマンド生成手段、として機能させる構成とした。 A user instruction acquisition program according to claim 3 is for identifying a user who is giving an instruction to control the device from a plurality of users who use the device and acquiring an instruction from the user. The computer recognizes each of the plurality of users registered in advance from the video taken by the camera, detects a change in the face of each of the plurality of users, and changes the face A face analysis unit that generates a speech period indicating a period during which each of the plurality of users is speaking, a hand motion analysis unit that recognizes the motions of the plurality of users from the videos of the plurality of users, and the face Based on the utterance period generated by the analysis means, the voice is detected from the sounds around the device, and the contents of the voice and the acoustic feature amount registered in advance for each user are used. Voice analysis means for recognizing a speaker, and when the speaker recognized by the voice analysis means is included in the plurality of users recognized by the face analysis means, the instruction is given to the speaker. The user's face change detected by the face analysis means, the user's hand movement recognized by the hand movement analysis means, and the user's hand recognition recognized by the voice analysis means. It is configured to function as command generation means for generating a predetermined command for the content of the voice.
このような構成によれば、ユーザ指示取得プログラムは、顔分析手段によってユーザの顔の変化から当該ユーザが発話している期間を生成し、ユーザが発話している場合のみ音声認識を行うため、音声認識の精度を高めることができる。また、顔認識で認識したユーザと音声認識で認識した話者とを比較することで、機器に対して音声指示を行ったユーザを特定できるため、複数のユーザが機器を利用する場合であっても、コマンドを的確に生成することができる。 According to such a configuration, the user instruction acquisition program generates a period during which the user is speaking from the change of the user's face by the face analysis unit, and performs voice recognition only when the user is speaking. The accuracy of voice recognition can be increased. In addition, since a user who has given a voice instruction to a device can be identified by comparing the user recognized by face recognition with the speaker recognized by voice recognition, a plurality of users use the device. The command can be generated accurately.
また、請求項4に係るテレビ受像機は、ユーザに放送番組を提供するテレビ受像機であって、当該テレビ受像機に設置されたカメラの映像およびマイクの音を分析することで、前記ユーザの音声および動作による前記ユーザからの指示を取得する請求項1または請求項2に記載のユーザ指示取得装置を備える構成とした。 According to a fourth aspect of the present invention, there is provided a television receiver for providing a broadcast program to a user, and analyzing a video of a camera installed in the television receiver and a sound of a microphone, thereby analyzing the user's It was set as the structure provided with the user instruction | indication acquisition apparatus of Claim 1 or Claim 2 which acquires the instruction | indication from the said user by an audio | voice and operation | movement.
このような構成によれば、テレビ受像機は、顔分析手段によってユーザの顔の変化から当該ユーザが発話しているのか否かを判定し、ユーザが発話している場合のみ音声認識を行うため、音声認識の精度を高めることができる。また、顔認識で認識したユーザと音声認識で認識した話者とを比較することで、機器に対して音声指示を行ったユーザを特定できるため、複数のユーザが機器を利用する場合であっても、コマンドを的確に生成することができる。 According to such a configuration, the television receiver determines whether or not the user is speaking from the change of the user's face by the face analysis means, and performs voice recognition only when the user is speaking. The accuracy of voice recognition can be increased. In addition, since a user who has given a voice instruction to a device can be identified by comparing the user recognized by face recognition with the speaker recognized by voice recognition, a plurality of users use the device. The command can be generated accurately.
請求項1、請求項2、請求項3および請求項4に係る発明によれば、ユーザの顔の変化から当該ユーザの発話状態を自動的に判定するとともに、ユーザが機器に対して音声および動作による指示を行うだけでコマンドを生成することができる。従って、複雑な操作を行うことなく、ユーザの自然な行動の延長上でその指示内容を機器に伝え、当該機器を制御することができる。 According to the first, second, third, and fourth aspects of the invention, the user's utterance state is automatically determined from the change in the user's face, and the user speaks and operates the device. A command can be generated simply by giving an instruction. Therefore, the instruction content can be transmitted to the device and the device can be controlled on the extension of the natural action of the user without performing a complicated operation.
本発明の実施形態に係るユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機について、図面を参照しながら説明する。なお、以下の説明において、同一の構成については同一の名称及び符号を付し、詳細説明を省略する。 A user instruction acquisition device, a user instruction acquisition program, and a television receiver according to an embodiment of the present invention will be described with reference to the drawings. In the following description, the same configuration is given the same name and symbol, and detailed description is omitted.
[ユーザ指示取得装置]
ユーザ指示取得装置1は、テレビ等の機器を利用する複数のユーザの中から当該機器を制御するための指示を行っているユーザを特定し、当該ユーザからの指示を取得するためのものである。
[User Instruction Acquisition Device]
The user instruction acquisition device 1 is for specifying a user who gives an instruction for controlling the device from a plurality of users using the device such as a television and acquiring an instruction from the user. .
ユーザ指示取得装置1は、例えば図6に示すように、ユーザに放送番組を提供するテレビ受像機(以下、テレビという)Tと接続され、テレビT上部に設置されたカメラCrおよびマイクMから入力されたユーザの映像および音声を分析することでユーザの指示を取得する。そして、ユーザ指示取得装置1は、図1に示すように、これに対応するコマンドを生成し、当該コマンドを機器の制御部等に出力する。なお、ユーザ指示取得装置1は、図6に示すようにテレビTの外部に備えられるのではなく、当該テレビTの内部に内蔵されてもよい。 For example, as shown in FIG. 6, the user instruction acquisition device 1 is connected to a television receiver (hereinafter referred to as a television) T that provides a broadcast program to the user, and inputs from a camera Cr and a microphone M installed on the upper portion of the television T. The user's instruction is acquired by analyzing the user's video and audio. Then, as shown in FIG. 1, the user instruction acquisition device 1 generates a command corresponding to this, and outputs the command to the control unit of the device. Note that the user instruction acquisition device 1 is not provided outside the television T as shown in FIG. 6, but may be incorporated inside the television T.
ユーザ指示取得装置1は、ここでは図1に示すように、音声分析手段10と、顔分析手段20と、手動作分析手段30と、を備えている。また、ユーザ指示取得装置1は、前記したように、機器を利用するユーザの映像を撮影するためのカメラCrと、機器の周囲の音を集音するためのマイクMと、を備えている。なお、ユーザ指示取得装置1が備えるカメラCrとマイクMは、例えば前記した図6に示すように、機器の上部に設置され、機器を利用するユーザの映像と、機器の周囲の音と、を取得できるように構成されている。以下、ユーザ指示取得装置1が備える各構成について、詳細に説明する。 Here, as shown in FIG. 1, the user instruction acquisition device 1 includes a voice analysis unit 10, a face analysis unit 20, and a hand motion analysis unit 30. In addition, as described above, the user instruction acquisition device 1 includes the camera Cr for capturing the video of the user who uses the device, and the microphone M for collecting sounds around the device. Note that the camera Cr and the microphone M provided in the user instruction acquisition device 1 are installed on the upper part of the device, for example, as shown in FIG. 6 described above, and the video of the user who uses the device and the sound around the device. It is configured so that it can be obtained. Hereinafter, each component with which the user instruction | indication acquisition apparatus 1 is provided is demonstrated in detail.
音声分析手段10は、マイクMによって集音した機器の周囲の音から音声を検出し、予めユーザごとに登録された音響特徴量を用いて音声の内容および話者を認識するものである。音声分析手段10は、ここでは図1に示すように、音声検出手段11と、音声認識手段12と、話者認識手段13と、を備えている。 The voice analysis means 10 detects voice from sounds around the equipment collected by the microphone M, and recognizes the content of the voice and the speaker using the acoustic feature amount registered for each user in advance. Here, as shown in FIG. 1, the voice analysis means 10 includes a voice detection means 11, a voice recognition means 12, and a speaker recognition means 13.
音声検出手段11は、機器の周囲の音から音声を検出するためのものである。音声検出手段11は、図1に示すように、マイクMから機器の周囲の音が入力されると、予め登録された音声の周波数特性等を用いて、機器の周囲の音から音声を抽出する。また、音声検出手段11は、後記する発話状態推定手段24から、ユーザが発話している期間を示す発話期間が入力されると、当該発話期間に検出した音声を音声認識手段12および話者認識手段13に出力する。すなわち、音声検出手段11は、ユーザが発話している間のみ、検出した音声を音声認識手段12および話者認識手段13に対して出力するように構成されている。なお、音声検出手段11は、前記した音声の周波数特性のデータを予め保持する図示しない記憶部を備えている。
The sound detection means 11 is for detecting sound from sounds around the device. As shown in FIG. 1, when a sound around the device is input from the microphone M, the
音声認識手段12は、音声からその音声の内容を認識するためのものである。音声認識手段12は、具体的には、音声の時間波形から音響分析によって、例えば、スペクトルの低次DCT成分等の周波数特性を音響特徴量として抽出し、予め登録されている全ての単語の発音に応じた音響モデルと照合し、さらに言語モデル(単語の連続出現頻度分布)も用いることで、音響的および言語的に最も可能性の高い単語列を認識結果として得る。なお、音声認識手段12は、前記した音響モデルおよび言語モデルを予め保持する図示しない記憶部を備えている。
The voice recognition means 12 is for recognizing the contents of the voice from the voice. Specifically, the
音声認識手段12には、図1に示すように、音声検出手段11から音声が入力される。そして、音声認識手段12は、前記した手法によって音声から単語列を抽出し、これを音声情報としてコマンド生成手段40の情報取得部41に出力する(図3(a)参照)。
As shown in FIG. 1, voice is input to the
話者認識手段13は、音声からその音声の話者、すなわちどのユーザがその音声を発しているのかを認識するためのものである。話者認識手段13は、具体的には、音声から前記した音声認識手段12と同様の音響特徴量を抽出し、当該音響特徴量と特定の話者について予め登録されている話者モデルとを比較して、話者が誰であるかを判定する。
The speaker recognition means 13 is for recognizing a speaker of the voice, that is, which user is emitting the voice from the voice. Specifically, the
話者認識手段13における話者の判定には、ベイズ情報量基準を用いることもできる。また、音響特徴量を音素のクラスに分類し、音素クラスの混合モデルを使って照合することもできる。なお、話者認識手段13は、前記した話者モデルを予め保持する図示しない記憶部を備えている。また、この話者モデルは、例えばユーザが予め特定の単語を発話し、このユーザの音声を氏名あるいはニックネーム等の登録名とともに前記した記憶部に登録することで作成することができる。
A Bayes information criterion can be used for speaker determination in the speaker recognition means 13. It is also possible to classify acoustic features into phoneme classes and collate them using a phoneme class mixed model. The
話者認識手段13には、図1に示すように、音声検出手段11から音声が入力される。そして、話者認識手段13は、前記した手法によって音声から話者を判定し、これを話者 情報としてコマンド生成手段40の情報取得部41に出力する(図3(a)参照)。
As shown in FIG. 1, voice is input to the
顔分析手段20は、カメラCrによって撮影された映像から、顔画像認識処理によって予め登録された複数のユーザのそれぞれを認識するとともに、複数のユーザのそれぞれの顔の変化を検出するものである。また、顔分析手段20は、複数のユーザの顔の変化から当該複数のユーザが発話しているか否かを判定するとともに、複数のユーザのそれぞれが発話している期間を示す発話期間を生成するものである。顔分析手段20は、ここでは図1に示すように、顔領域検出手段21と、顔変化検出手段22と、顔認識手段23と、発話状態推定手段24と、を備えている。
The face analysis means 20 recognizes each of a plurality of users registered in advance by face image recognition processing from the video imaged by the camera Cr, and detects changes in the faces of the plurality of users. Further, the face analysis unit 20 determines whether or not the plurality of users are speaking from the change of the faces of the plurality of users, and generates an utterance period indicating a period during which each of the plurality of users is speaking. Is. As shown in FIG. 1, the face analysis unit 20 includes a face
顔領域検出手段21は、複数のユーザの映像から人物の顔の領域を検出するものである。顔領域検出手段21は、具体的には、複数のユーザの映像を構成する画像から、ユーザの普遍的な特徴を抽出し、それらの特徴を検出することで人物の顔の領域を検出する。なお、顔領域検出手段21は、画像からの前記普遍的特徴の抽出にハール関数を用いることで、高速処理が可能となる。 The face area detecting means 21 detects a human face area from a plurality of user images. Specifically, the face area detection means 21 extracts a user's universal features from images constituting a plurality of user images, and detects those features to detect a human face region. The face area detecting means 21 can perform high-speed processing by using a Haar function for extracting the universal feature from the image.
顔領域検出手段21には、図1に示すように、カメラCrから機器を利用する複数のユーザの映像が入力される。そして、顔領域検出手段21は、前記した手法によって映像からユーザの顔の領域を検出し、これを顔領域情報として顔変化検出手段22の各検出部および顔認識手段23に出力する。
As shown in FIG. 1, a plurality of users using the device are input to the face
顔変化検出手段22は、複数のユーザの映像から検出されたユーザの顔の領域から、それぞれのユーザの顔の変化を検出するものである。顔変化検出手段22は、例えば、顔領域検出手段21で3人分の顔の領域が検出された場合、当該3人分の顔の領域のそれぞれの顔の変化を検出する。顔変化検出手段22は、ここでは図1に示すように、顔の向き検出部221と、視線検出部222と、目の開閉検出部223と、口唇動き検出部224と、を備えている。
The face change detection unit 22 detects a change in each user's face from areas of the user's face detected from a plurality of user images. For example, when the face
顔の向き検出部221は、機器を基準とした複数のユーザの顔の向きを検出するものである。顔の向き検出部221は、例えば機器がテレビTである場合(図6参照)、前記した顔領域情報から、ユーザの顔の向きがテレビ画面の中央に対して水平方向および垂直方向にそれぞれどのくらいの角度回っているかを検出する。顔の向き検出部221は、具体的には、前記したハール関数や、後記するガボールウェーブレットによる特徴抽出により、例えばユーザの目と鼻と口の周りの特徴の配置情報をもとに、様々な顔の向きのテンプレートを記録しておき、それらテンプレートとのマッチングによってユーザの顔の向きを推定する。
The face
視線検出部222は、機器を基準とした複数のユーザの視線の向きを検出するものである。視線検出部222は、前記した顔領域情報から、ユーザの目の視線の向きが頭部に対して水平方向および垂直方向にそれぞれどのくらいの角度回っているかを検出する。視線検出部222は、顔領域検出手段21が検出したユーザの顔の領域をもとに、ユーザの顔内のパーツの配置情報に基づいてユーザの目の位置を推定し、事前に登録しておいた各視線の方向の画像パターンとのマッチングによりユーザの視線方向を推定する。なお、視線検出部222は、例えば機器がテレビTである場合(図6参照)、前記した顔の向き検出部221による検出結果と組み合わせることで、ユーザがテレビ画面のどのあたりを見ているかも推定することができる。
The line-of-
目の開閉検出部223は、ユーザが目を開けているか、あるいは閉じているかを検出するものである。目の開閉検出部223は、視線検出部222と同様に、顔領域検出手段21が検出したユーザの顔の領域をもとに、ユーザの顔内のパーツの配置情報に基づいてユーザの目の位置を推定し、その位置に黒い部分がある場合に目を開けていると判定し、その位置に黒い部分がなくなった場合に目を閉じていると判定する。
The eye opening /
口唇動き検出部224は、ユーザの口唇の動きを検出するものである。口唇動き検出部224は、顔領域検出手段21が検出したユーザの顔の領域をもとに、ユーザの顔内のパーツの配置情報に基づいてユーザの口の位置を推定し、ブロックマッチングやLucas−Kanadeの手法等の動き検出アルゴリズムによって口唇の動きベクトルを抽出し、動きベクトルのパワーがある閾値を越え、かつそのパワー変動に周期性が見られる場合に、ユーザの口唇が動いて発話していると判定する。
The lip
そして、顔変化検出手段22は、前記した顔の向き検出部221、視線検出部222、目の開閉検出部223および口唇動き検出部224が顔の領域ごとに検出した顔の変化を、顔変化情報として発話状態推定手段24の発話状態判定部241に出力するとともに(図2(a)参照)、コマンド生成手段40の情報取得部41に出力する(図3(a)参照)。
Then, the face change detection unit 22 detects the face change detected for each face region by the face
顔認識手段23は、複数のユーザの映像から検出されたユーザの顔の領域から、当該領域に含まれるユーザを認識するものである。顔認識手段23は、前記した顔領域検出手段21で検出された顔の領域に対して顔画像認識技術を適用し、誰が機器を利用しているのかを判定する。顔認識手段23は、例えば機器がテレビTである場合(図6参照)であって3人のユーザがテレビを視聴している場合、顔画像認識技術を用いて、3つの顔の領域からそれぞれの領域の顔に対応するユーザの氏名、あるいはニックネーム等の登録名を割り出す。
The
顔認識手段23は、具体的には、ガボールウェーブレットによる局所的な輝度成分の周波数分析結果を特徴とするテンプレートマッチング手法によって前記した顔の領域に含まれる顔からユーザを特定する。顔認識手段23は、具体的には、顔領域検出手段21が検出したユーザの顔の領域における目と鼻と口の周りで決めた位置の特徴量とその配置情報を顔特徴量として抽出し、予め登録されているユーザの画像特徴量と照合することでユーザを特定する。
Specifically, the
また、顔認識手段23は、表情変化などに対しても認識性能を落とさないために、特徴の配置の位置関係の変形も許す手法を用いることもできる。なお、顔認識手段23は、前記した顔特徴量を予め保持する図示しない記憶部を備えている。また、この顔特徴量は、例えばユーザが予め特定の角度から顔を撮影し、その顔画像を氏名あるいはニックネーム等の登録名とともにユーザ指示取得装置1に登録することで、作成することができる。
Further, the
顔認識手段23には、図1に示すように、顔領域検出手段21から顔領域情報が入力される。そして、顔認識手段23は、前記した手法によって顔領域情報からユーザを認識し、これを人物情報としてその検出時間とともにコマンド生成手段40の情報取得部41に出力する(図3(a)参照)。
As shown in FIG. 1, face area information is input to the face recognition means 23 from the face area detection means 21. Then, the
発話状態推定手段24は、複数のユーザの顔の変化から、当該複数のユーザが発話しているか否かを判定するとともに、複数のユーザが発話している期間を示す発話期間を生成するものである。発話状態推定手段24は、ここでは図2(a)に示すように、発話状態判定部241と、発話条件記憶部242と、を備えている。
The utterance state estimation unit 24 determines whether or not the plurality of users are speaking from the change of the faces of the plurality of users and generates an utterance period indicating a period during which the plurality of users are speaking. is there. Here, the utterance state estimation unit 24 includes an utterance
発話状態判定部241は、ユーザが発話しているか否かを判定するためのものである。発話状態判定部241には、図2(a)に示すように、顔変化検出手段22から、ユーザの顔の向き、ユーザの視線、ユーザの目の開閉、ユーザの口唇動き等の情報からなる顔変化情報と、これらのユーザの顔の変化を検出した検出時間(図示省略)と、が入力される。また、発話状態判定部241には、図2(a)に示すように、発話条件を予め保持する発話条件記憶部242から発話条件が入力される。
The utterance
ここで、発話条件とは、ユーザが発話していると判定するために予め定められた条件であり、図2(b)に示すように、ユーザの顔の向き、視線、目の開閉、口唇動き等の顔の変化の検出結果によって決定される条件のことを示している。すなわち、発話状態判定部241は、顔変化検出手段22によって検出されたユーザの顔の変化がこの発話条件を満たしている場合に限り、機器を利用するユーザが発話状態にあると判定する。
Here, the utterance condition is a predetermined condition for determining that the user is speaking, and as shown in FIG. 2B, the user's face direction, line of sight, eye opening / closing, lips It shows the condition determined by the detection result of the face change such as movement. That is, the utterance
発話条件は、ここでは図2(b)に示すように、ユーザの顔が時間率80%以上で正面を向いていること、ユーザの視線が時間率80%以上でテレビ画面方向を向いていること、ユーザの目が時間率80%以上で開いていること、ユーザの口唇が時間率50%以上で動いていること、の全ての条件を満たしているときに、ユーザが発話状態にあると規定している。なお、前記した時間率とは、ユーザの顔の変化の検出時間に対する顔の変化の持続時間の割合を示している。例えば、顔変化検出手段22においてユーザの顔の変化を2秒間検出した場合、顔の変化が1秒持続していれば時間率は50%となり、1.6秒間持続していれば時間率は80%となる。 As shown in FIG. 2B, the utterance condition here is that the user's face is facing the front at a time rate of 80% or more, and the user's line of sight is facing the TV screen direction at a time rate of 80% or more. In other words, when the user's eyes are open at a time rate of 80% or more and the user's lips are moving at a time rate of 50% or more, the user is in an utterance state. It prescribes. Note that the above-described time rate indicates the ratio of the duration of face change to the detection time of the user's face change. For example, when the face change detection unit 22 detects a change in the user's face for 2 seconds, the time rate is 50% if the face change lasts 1 second, and if the face change lasts 1.6 seconds, the time rate is 80%.
なお、図2(b)に示した発話条件はあくまでも例示であり、発話条件および時間率は、機器の種類あるいはユーザの種別によって適宜変更することができる。例えば、図2(b)における発話条件の検出対象から顔の向き、視線、目の開閉を除外し、ユーザの口唇のみが所定の時間率以上で動いていれば、ユーザが発話状態にあると判定することもできる。 Note that the utterance conditions shown in FIG. 2B are merely examples, and the utterance conditions and the time rate can be appropriately changed according to the type of device or the type of user. For example, if the face direction, line of sight, and opening / closing of eyes are excluded from the detection target of the utterance condition in FIG. 2B and only the user's lips are moving at a predetermined time rate or more, the user is in the utterance state. It can also be determined.
発話状態判定部241は、顔変化検出手段22から入力される顔変化情報と、発話条件記憶部242から入力される発話条件とを照合し、当該発話条件を満たしている場合は、前記した顔変化情報の検出時間から、ユーザが発話している期間を示す発話期間を生成する。そして、発話状態判定部241は、図1および図2(a)に示すように、当該発話期間を音声検出手段11に出力する。
The utterance
なお、発話状態判定部241は、発話状態か否かの判定結果を機器に表示することが出好ましい。例えば機器がテレビTである場合(図6参照)、発話状態判定部241は、ユーザが発話状態にあると判定すると、テレビ画面にユーザが発話状態にあることを表示する。このように、発話状態か否かの判定結果をテレビ画面に表示することで、ユーザがテレビTを見続けることが期待できるため、判定精度を高めることができる。以下、図1に戻ってユーザ指示取得装置1の残りの構成について、説明する。
Note that the utterance
手動作分析手段30は、カメラCrによって撮影した複数のユーザの映像から人物の手の領域を検出し、複数のユーザの手の動作を認識するものである。手動作分析手段30は、ここでは図1に示すように、手領域検出手段31と、手動作認識手段32と、を備えている。
The manual motion analysis means 30 detects a human hand region from a plurality of user images taken by the camera Cr, and recognizes the motion of the plurality of user hands. Here, as shown in FIG. 1, the hand motion analysis unit 30 includes a hand
手領域検出手段31は、複数のユーザの映像から人物の手の領域を検出するものである。手領域検出手段31は、具体的には、複数のユーザの映像を構成する画像から、肌色と大まかな形状情報を用いて人物の手の領域を検出する。また、手領域検出手段31は、例えば、ユーザが指さしまたは手を差し伸べながら指示するという前提がある場合は、距離画像を用い、最も手前に出ている部分を切り出すことで、手の領域を特定することもできる。
The hand region detection means 31 detects a human hand region from a plurality of user images. Specifically, the hand region detection means 31 detects a human hand region using skin color and rough shape information from images constituting a plurality of user images. Further, for example, when there is a premise that the user gives an instruction while pointing or extending the hand, the hand
手領域検出手段31には、図1に示すように、カメラCrから機器を利用する複数のユーザの映像が入力される。そして、手領域検出手段31は、前記した手法によって映像からユーザの手の領域を検出し、これを手領域情報として手動作認識手段32に出力する。
As shown in FIG. 1, the hand
手動作認識手段32は、複数のユーザの映像から検出されたユーザの手の領域から、ユーザの手の動作を認識するものである。手動作認識手段32は、手領域検出手段31で検出された領域に対して動作認識手法を適用し、予め定められたコマンドに対応するユーザの手の動作を認識する。手動作認識手段32は、具体的には、ユーザの手の領域から、事前に作成した、例えばSIFTやSURFと呼ばれる普遍的な特徴の時系列データ、すなわち各特徴をフレームごとに追跡していくことにより得られるデータからなる各動作認識のテンプレートと、ユーザの手の領域から抽出したこれらの特徴量の時系列データとのマッチングを取ることで、動作認識を行うことができる。なお、手動作認識手段32は、ユーザの手動作の有無のみならず、その手動作の種類(指さし、指ふり等)も認識する。
The hand movement recognition means 32 recognizes the movement of the user's hand from the user's hand area detected from the images of the plurality of users. The hand
手動作認識手段32には、図1に示すように、手領域検出手段31から手領域情報が入力される。そして、手動作認識手段32は、前記した手法によってユーザの手の動作を認識し、これを手動作情報としてその検出時間とともにコマンド生成手段40の情報取得部41に出力する(図3(a)参照)。
As shown in FIG. 1, hand region information is input to the hand
コマンド生成手段40は、顔分析手段20によって認識された複数のユーザの中に、音声分析手段10によって認識された話者が含まれている場合、顔分析手段20によって検出されたユーザの顔の変化と、手動作分析手段30によって認識されたユーザの手の動作と、音声分析手段10によって認識されたユーザの音声の内容と、に対して予め定められたコマンドを生成するものである。コマンド生成手段40は、ここでは図3(a)に示すように、情報取得部41と、コマンド生成部42と、コマンド条件記憶部43と、を備えている。
When a plurality of users recognized by the face analysis unit 20 include speakers recognized by the voice analysis unit 10, the
情報取得部41は、機器を制御するためのコマンドの生成に必要な情報を取得するものである。情報取得部41には、図3(a)に示すように、顔変化検出手段22から顔変化情報が、顔認識手段23から人物情報が、手動作認識手段32から手動作情報が、音声認識手段12から音声情報が、話者認識手段13から話者情報が入力される。
The
そして、情報取得部41は、顔認識手段23によって認識された人物の中に、話者認識手段13によって認識された話者が含まれている場合、すなわち、機器を利用する複数のユーザの中に、機器に対して音声指示を行ったユーザが含まれる場合、図3(a)に示すように、当該音声指示を行ったユーザの顔変化情報と、手動作情報と、音声情報と、をコマンド生成部42に出力する。このように、情報取得部41は、複数のユーザが機器を利用する場合において、顔認識手段23によって認識された複数のユーザの中から機器に指示を行っているユーザを特定することができる。なお、情報取得部41は、前記した顔変化情報、人物情報、手動作情報、音声情報および話者情報を一時的に保持するための図示しない記憶部を備えている。
Then, the
なお、顔変化検出手段22から情報取得部41に入力される顔変化情報は、顔領域検出手段21によって検出された顔の領域ごとの顔変化の情報である。また、顔認識手段23から情報取得部41に入力される人物情報も、同じく顔領域検出手段21によって検出された顔の領域ごとの氏名等の登録名の情報である。従って、情報取得部41は、顔の領域を基準とすることで、顔変化検出手段22から入力された顔変化情報がどのユーザの顔変化に関する情報であるかを判別することができる。
Note that the face change information input from the face change detection unit 22 to the
また、情報取得部41には、前記したように、顔認識手段23から人物情報とともにその検出時間が入力され、手動作認識手段32から手動作情報とともにその検出時間が入力される。従って、情報取得部41は、検出時間を基準とすることで、手動作認識手段32から入力された手動作情報がどのユーザの手動作に関する情報であるかを判別することができる。
Further, as described above, the detection time is input from the
コマンド生成部42は、機器を制御するための指示に対応するコマンドを生成するものである。コマンド生成部42には、図3(a)に示すように、情報取得部41から、機器に対して音声指示を行ったユーザの顔変化情報と、手動作情報と、音声情報と、が入力される。また、コマンド生成部42には、図3(a)に示すように、コマンド条件を予め保持するコマンド条件記憶部43からコマンド条件が入力される。
The
ここで、コマンド条件とは、予め定められたコマンド生成のための条件であり、図3(b)に示すように、ユーザの顔の向き、視線、目の開閉、口唇動き、手動作、音声等の検出結果によって決定される条件のことを示している。すなわち、コマンド生成部42は、顔変化検出手段22によって検出されたユーザの顔の変化と、手動作認識手段32によって認識されたユーザの手の動作と、音声認識手段12によって認識されたユーザの音声と、がこのコマンド条件を満たしている場合に限り、コマンドを生成する。
Here, the command condition is a predetermined condition for generating a command. As shown in FIG. 3B, the user's face direction, line of sight, eye opening / closing, lip movement, hand movement, voice, and the like. This indicates the condition determined by the detection result. That is, the
コマンド条件は、ここでは図3(b)に示すように、4つのパターンが規定されている。第1パターンは、図3(b)の検出結果の欄の第1列目であり、ユーザの顔が正面を向いており、ユーザの視線がテレビ画面方向を向いており、ユーザの目が開いており、ユーザの口唇が動いており、ユーザが手動作を行っており、ユーザが発話している場合に、音声指示内容および手動作指示内容を解析してコマンドを生成する旨が規定されている。これは、例えば図4(a)に示すユーザAのような状況の場合にコマンドを生成することを意味している。 Here, as shown in FIG. 3B, four patterns are defined as command conditions. The first pattern is the first column of the detection result column in FIG. 3B, the user's face is facing the front, the user's line of sight is facing the TV screen, and the user's eyes are open. If the user's lips are moving, the user is performing a manual operation, and the user is speaking, it is specified that the voice instruction content and the manual operation instruction content are analyzed to generate a command. Yes. This means that, for example, a command is generated in the case of a situation like the user A shown in FIG.
第2パターンは、図3(b)の検出結果の欄の第2列目であり、ユーザの顔が正面を向いており、ユーザの視線がテレビ画面方向を向いており、ユーザの目が開いており、ユーザの口唇が動いており、ユーザが手動作を行っておらず、ユーザが発話している場合に、音声指示内容を解析してコマンドを生成する旨が規定されている。これは、例えば図4(b)に示すユーザBのような状況の場合にコマンドを生成することを意味している。 The second pattern is the second column in the detection result column of FIG. 3B, the user's face is facing the front, the user's line of sight is facing the TV screen, and the user's eyes are open. When the user's lips are moving, the user is not performing a hand movement, and the user is speaking, it is specified that the voice instruction content is analyzed to generate a command. This means that, for example, a command is generated in the case of a situation like the user B shown in FIG.
第3パターンは、図3(b)の検出結果の欄の第3列目であり、ユーザの顔が横を向いており、ユーザの視線が横方向を向いており、ユーザの目が開いており、ユーザの口唇が動いており、ユーザが手動作を行っており、ユーザが発話している場合に、音声指示内容および手動作指示内容を解析してコマンドを生成する旨が規定されている。これは、例えば図4(c)に示すユーザCのような状況の場合にコマンドを生成することを意味している。 The third pattern is the third column in the detection result column of FIG. 3B, where the user's face is facing sideways, the user's line of sight is facing sideways, and the user's eyes are open. It is specified that when the user's lips are moving, the user is performing a manual motion, and the user is speaking, a command is generated by analyzing the voice instruction content and the manual motion instruction content. . This means that, for example, a command is generated in the case of a situation like the user C shown in FIG.
第4パターンは、図3(b)の検出結果の欄の第4列目であり、ユーザの顔が横を向いており、ユーザの視線が横方向を向いており、ユーザの目が閉じており、ユーザの口唇が動いており、ユーザが手動作を行っておらず、ユーザが発話している場合に、音声指示内容を解析してコマンドを生成する旨が規定されている。これは、例えば図4(d)に示すユーザDのような状況の場合にコマンドを生成することを意味している。 The fourth pattern is the fourth column in the detection result column of FIG. 3B, where the user's face is facing sideways, the user's line of sight is facing sideways, and the user's eyes are closed. When the user's lips are moving, the user is not performing hand movements, and the user is speaking, it is specified that the voice instruction content is analyzed to generate a command. This means that a command is generated in the case of a situation such as the user D shown in FIG.
なお、図3(b)に示したコマンド条件はあくまでも例示であり、機器の種類あるいはユーザの種別によって適宜変更することができる。例えば、図3(b)におけるコマンド条件の検出対象から顔の向き、視線、目の開閉を除外し、ユーザの口唇動きと音声のみをコマンド生成のための条件とすることもできる。 Note that the command conditions shown in FIG. 3B are merely examples, and can be changed as appropriate depending on the type of device or the type of user. For example, it is possible to exclude the face direction, line of sight, and eye opening / closing from the command condition detection target in FIG. 3B, and use only the user's lip movement and voice as conditions for command generation.
ここで、コマンド生成部42は、機器を制御するためのコマンドリストを予め保持する図示しないデータベースを備えている。そして、コマンド生成部42は、音声認識手段12が認識したユーザの音声の内容および、手動作認識手段32が認識したユーザの手の動作に相当するコマンドを、前記したデータベースで検索することで、ユーザの音声指示内容および手動作指示内容を解析する。
Here, the
なお、前記したデータベースには、ユーザが日常的に発する自然な言葉や動作と、コマンドが関連付けられている。例えば、機器がテレビTである場合(図6参照)、ユーザがテレビTの音量が不足していることに関して発する「音ちっちゃいよね」、「声小さいな」、「よく聞こえないな」というような言葉は、前記したデータベースにおいて、「テレビの音量を上げる」というコマンドと関連付けられている。また、同様に、ユーザがテレビの音量が大きすぎることに関して行う「耳を塞ぐ」という動作は、前記したデータベースにおいて、「テレビの音量を下げる」というコマンドと関連付けられている。 Note that the database described above associates commands and natural words and actions that are uttered by the user on a daily basis. For example, when the device is a television T (see FIG. 6), the user utters that the volume of the television T is insufficient, such as “sounds are tiny”, “sounds low”, “cannot hear well” The word is associated with the command “increase TV volume” in the database. Similarly, the operation of “closing the ear” performed by the user regarding the volume of the television being too loud is associated with the command “decreasing the volume of the television” in the database.
このように、コマンド生成部42のデータベースがユーザの自然な発話や動作に対応するコマンドリストを保持することで、ユーザが機器に対してより自然な状況下で指示を行うことができる。
Thus, the database of the
以上説明したような構成を備えるユーザ指示取得装置1は、顔分析手段20によってユーザの顔の変化から当該ユーザが発話しているのか否かを判定し、ユーザが発話している場合のみ音声認識を行うため、音声認識の精度を高めることができる。また、顔認識で認識したユーザと音声認識で認識した話者とを比較することで、機器に対して音声指示を行ったユーザを特定できるため、複数のユーザが機器を利用する場合であっても、コマンドを的確に生成することができる。 In the user instruction acquisition device 1 having the configuration described above, the face analysis unit 20 determines whether or not the user is speaking from the change of the user's face, and performs voice recognition only when the user is speaking. Therefore, the accuracy of voice recognition can be improved. In addition, since a user who has given a voice instruction to a device can be identified by comparing the user recognized by face recognition with the speaker recognized by voice recognition, a plurality of users use the device. The command can be generated accurately.
また、ユーザ指示取得装置1によれば、ユーザの顔の変化から当該ユーザの発話状態を自動的に判定するとともに、ユーザが機器に対して音声および動作による指示を行うだけでコマンドを生成することができる。従って、複雑な操作を行うことなく、ユーザの自然な行動の延長上でその指示内容を機器に伝え、当該機器を制御することができる。 Moreover, according to the user instruction acquisition device 1, the user's speech state is automatically determined from the change of the user's face, and the user generates a command only by giving an instruction by voice and operation to the device. Can do. Therefore, the instruction content can be transmitted to the device and the device can be controlled on the extension of the natural action of the user without performing a complicated operation.
ここで、ユーザ指示取得装置1は、一般的なコンピュータを、前記した各手段として機能させるプログラムにより動作させることで実現することができる。このプログラム(コンテンツ暗号化プログラム)は、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。 Here, the user instruction acquisition device 1 can be realized by operating a general computer by a program that functions as each of the above-described units. This program (content encryption program) can be distributed via a communication line, or can be distributed by writing on a recording medium such as a CD-ROM.
[ユーザ指示取得装置の動作]
ユーザ指示取得装置1の動作について、図5を参照しながら簡単に説明する。
まず、ユーザ指示取得装置1が動作を開始すると、カメラCrが機器を利用する複数のユーザの映像を取得し、これを顔領域検出手段21および手領域検出手段31に出力する。また、マイクMが機器の周囲の音を取得し、これを音声検出手段11に出力する。そして、音声検出手段11が、機器の周囲の音から音声を検出する(ステップS1)。次に、顔領域検出手段21が、複数のユーザの映像から人物の顔の領域を検出し、これを顔領域情報として顔変化検出手段22の各検出部および顔認識手段23に出力する(ステップS2)。
[Operation of User Instruction Acquisition Device]
The operation of the user instruction acquisition device 1 will be briefly described with reference to FIG.
First, when the user instruction acquisition device 1 starts operating, the camera Cr acquires videos of a plurality of users who use the device, and outputs them to the face area detection means 21 and the hand area detection means 31. In addition, the microphone M acquires sound around the device and outputs it to the sound detection means 11. And the audio | voice detection means 11 detects an audio | voice from the sound around an apparatus (step S1). Next, the face area detection means 21 detects a human face area from the images of a plurality of users, and outputs this as face area information to each detection unit of the face change detection means 22 and the face recognition means 23 (step). S2).
次に、顔変化検出手段22の各検出部が、複数のユーザの顔領域情報からユーザの顔の向き、視線、目の開閉、口唇動き等の顔の変化を検出し、これを顔変化情報として発話状態判定部241および情報取得部41に出力する(ステップS3)。次に、顔認識手段23が、複数のユーザの顔領域情報から当該領域に含まれる顔に対応する人物、すなわちユーザを認識し、これを人物情報として情報取得部41に出力する(ステップS4)。
Next, each detection unit of the face change detection means 22 detects a face change such as a user's face direction, line of sight, eye opening / closing, lip movement, etc. from a plurality of user face area information, and this is detected as face change information. To the utterance
また、手領域検出手段31が、複数のユーザの映像から人物の手の領域を検出し、これを手領域情報として手動作認識手段32に出力する(ステップS5)。次に、手動作認識手段32が、複数のユーザの手領域情報からユーザの手の動作を認識し、これを手動作情報として情報取得部41に出力する(ステップS6)。
Further, the hand
次に、発話状態判定部241が、複数のユーザの顔変化情報が発話条件記憶部242から入力される発話条件を満たしているかどうかを判断し、複数のユーザが発話しているか否かを判定する(ステップS7)。そして、発話状態判定部241は、複数のユーザが発話していると判定した場合、ユーザが発話している期間を示す発話期間を生成し、これを音声検出手段11に出力する。これにより、音声検出手段11が、機器の周囲の音声を音声認識手段12および話者認識手段13に出力する(ステップS7でYes)。一方、発話状態判定部241は、複数のユーザが発話していると判定しなかった場合、新たな入力があるまで待機する(ステップS7でNo)。
Next, the utterance
次に、音声認識手段12が、機器の周囲の音声からその音声の内容を認識し、これを音声情報として情報取得部41に出力する(ステップS8)。また、話者認識手段13が、機器の周囲の音声からその音声の話者を認識し、これを話者情報として情報取得部41に出力する(ステップS9)。
Next, the
次に、人物情報の人物の中に話者情報の話者が含まれる場合、情報取得部41が音声指示を行ったユーザの顔変化情報と、手動作情報と、音声情報と、をコマンド生成部42に出力する。そして、ユーザの顔変化情報と、手動作情報と、音声情報と、がコマンド条件を満たしている場合、コマンド生成部42がコマンドを生成する(ステップS10)。
Next, when the speaker of the speaker information is included in the person of the person information, command generation is performed on the face change information, the hand movement information, and the voice information of the user who has given the voice instruction by the
1 ユーザ指示取得装置
10 音声分析手段
11 音声検出手段
12 音声認識手段
13 話者認識手段
20 顔分析手段
21 顔領域検出手段
22 顔変化検出手段
23 顔認識手段
24 発話状態推定手段
30 手動作分析手段
31 手領域検出手段
32 手動作認識手段
40 コマンド生成手段
41 情報取得部
42 コマンド生成部
43 コマンド条件記憶部
221 顔の向き検出部
222 視線検出部
223 目の開閉検出部
224 口唇動き検出部
241 発話状態判定部
242 発話条件記憶部
Cr カメラ
M マイク
T テレビ受像機(テレビ)
DESCRIPTION OF SYMBOLS 1 User instruction | indication acquisition apparatus 10 Speech analysis means 11 Speech detection means 12 Speech recognition means 13 Speaker recognition means 20 Face analysis means 21 Face area detection means 22 Face change detection means 23 Face recognition means 24 Speech state estimation means 30 Manual motion analysis means 31 Hand region detection means 32 Hand movement recognition means 40 Command generation means 41
Claims (4)
カメラによって撮影された映像から、予め登録された前記複数のユーザのぞれぞれを認識するとともに前記複数のユーザのぞれぞれの顔の変化を検出し、当該顔の変化から前記複数のユーザのそれぞれが発話している期間を示す発話期間を生成する顔分析手段と、
前記複数のユーザの映像から、前記複数のユーザの手の動作を認識する手動作分析手段と、
前記顔分析手段によって生成された前記発話期間に基づいて、前記機器の周囲の音から音声を検出し、予め前記ユーザごとに登録された音響特徴量を用いて前記音声の内容および話者を認識する音声分析手段と、
前記顔分析手段によって認識された前記複数のユーザの中に前記音声分析手段によって認識された前記話者が含まれている場合、当該話者を前記指示を行っているユーザとして特定し、前記顔分析手段によって検出された前記ユーザの顔の変化と、前記手動作分析手段によって認識された前記ユーザの手の動作と、前記音声分析手段によって認識された前記ユーザの音声の内容と、に対して予め定められたコマンドを生成するコマンド生成手段と、
を備えることを特徴とするユーザ指示取得装置。 A user instruction acquisition device that identifies a user who gives an instruction to control the device from a plurality of users who use the device, and acquires an instruction from the user,
Recognizing each of the plurality of users registered in advance from video captured by the camera, detecting a change in the face of each of the plurality of users, and detecting the plurality of the plurality of users from the change in the face. Face analysis means for generating an utterance period indicating a period during which each of the users is speaking;
Manual motion analysis means for recognizing the motion of the hands of the plurality of users from the images of the plurality of users;
Based on the utterance period generated by the face analysis means, speech is detected from sounds around the device, and the speech content and speaker are recognized using acoustic feature values registered in advance for each user. Voice analysis means to
When the speaker recognized by the voice analysis unit is included in the plurality of users recognized by the face analysis unit, the speaker is identified as the user who is giving the instruction, and the face For the change of the user's face detected by the analysis means, the movement of the user's hand recognized by the hand movement analysis means, and the content of the user's voice recognized by the voice analysis means, Command generation means for generating a predetermined command;
A user instruction acquisition device comprising:
前記映像から前記複数のユーザの顔の領域を検出する顔領域検出手段と、
予め前記ユーザごとに登録された顔特徴量を用いて、前記顔の領域に対応するユーザを認識する顔認識手段と、
前記複数のユーザの顔の領域から、当該複数のユーザの顔の変化を検出する顔変化検出手段と、
前記複数のユーザの顔の変化から、当該複数のユーザが発話しているか否かを判定し、発話していると判定した場合に前記発話期間を生成する発話状態推定手段と、
を備えることを特徴とする請求項1に記載のユーザ指示取得装置。 The face analysis means includes
Face area detection means for detecting areas of the faces of the plurality of users from the video;
Face recognition means for recognizing a user corresponding to the face area using a face feature amount registered in advance for each user;
Face change detection means for detecting changes in the faces of the plurality of users from the areas of the faces of the plurality of users;
From the change of the faces of the plurality of users, it is determined whether or not the plurality of users are speaking, and when it is determined that they are speaking, the utterance state estimation means for generating the utterance period;
The user instruction acquisition apparatus according to claim 1, further comprising:
カメラによって撮影された映像から、予め登録された前記複数のユーザのぞれぞれを認識するとともに前記複数のユーザのぞれぞれの顔の変化を検出し、当該顔の変化から前記複数のユーザのそれぞれが発話している期間を示す発話期間を生成する顔分析手段、
前記複数のユーザの映像から、前記複数のユーザの手の動作を認識する手動作分析手段、
前記顔分析手段によって生成された前記発話期間に基づいて、前記機器の周囲の音から音声を検出し、予め前記ユーザごとに登録された音響特徴量を用いて前記音声の内容および話者を認識する音声分析手段、
前記顔分析手段によって認識された前記複数のユーザの中に前記音声分析手段によって認識された前記話者が含まれている場合、当該話者を前記指示を行っているユーザとして特定し、前記顔分析手段によって検出された前記ユーザの顔の変化と、前記手動作分析手段によって認識された前記ユーザの手の動作と、前記音声分析手段によって認識された前記ユーザの音声の内容と、に対して予め定められたコマンドを生成するコマンド生成手段、
として機能させることを特徴とするユーザ指示取得プログラム。 In order to identify a user who gives an instruction to control the device from a plurality of users who use the device, and to obtain an instruction from the user,
Recognizing each of the plurality of users registered in advance from video captured by the camera, detecting a change in the face of each of the plurality of users, and detecting the plurality of the plurality of users from the change in the face. Face analysis means for generating an utterance period indicating a period during which each of the users is speaking
Manual motion analysis means for recognizing the motions of the hands of the plurality of users from the images of the plurality of users;
Based on the utterance period generated by the face analysis means, speech is detected from sounds around the device, and the speech content and speaker are recognized using acoustic feature values registered in advance for each user. Voice analysis means to
When the speaker recognized by the voice analysis unit is included in the plurality of users recognized by the face analysis unit, the speaker is identified as the user who is giving the instruction, and the face For the change of the user's face detected by the analysis means, the movement of the user's hand recognized by the hand movement analysis means, and the content of the user's voice recognized by the voice analysis means, Command generating means for generating a predetermined command;
A user instruction acquisition program characterized by being made to function as:
当該テレビ受像機に設置されたカメラの映像およびマイクの音を分析することで、前記ユーザの音声および動作による前記ユーザからの指示を取得する請求項1または請求項2に記載のユーザ指示取得装置を備えることを特徴とするテレビ受像機。 A television receiver that provides broadcast programs to users,
The user instruction acquisition device according to claim 1 or 2, wherein an instruction from the user based on the voice and operation of the user is acquired by analyzing a video of a camera installed in the television receiver and a sound of a microphone. A television receiver comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010149860A JP5323770B2 (en) | 2010-06-30 | 2010-06-30 | User instruction acquisition device, user instruction acquisition program, and television receiver |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010149860A JP5323770B2 (en) | 2010-06-30 | 2010-06-30 | User instruction acquisition device, user instruction acquisition program, and television receiver |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012014394A JP2012014394A (en) | 2012-01-19 |
JP5323770B2 true JP5323770B2 (en) | 2013-10-23 |
Family
ID=45600756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010149860A Expired - Fee Related JP5323770B2 (en) | 2010-06-30 | 2010-06-30 | User instruction acquisition device, user instruction acquisition program, and television receiver |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5323770B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11635821B2 (en) | 2019-11-20 | 2023-04-25 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
Families Citing this family (149)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
JP5735453B2 (en) * | 2012-05-16 | 2015-06-17 | ヤフー株式会社 | Display control apparatus, display control method, information display system, and program |
JP5847646B2 (en) * | 2012-05-17 | 2016-01-27 | 日本電信電話株式会社 | Television control apparatus, television control method, and television control program |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR20150104615A (en) | 2013-02-07 | 2015-09-15 | 애플 인크. | Voice trigger for a digital assistant |
JP6149433B2 (en) * | 2013-03-11 | 2017-06-21 | 株式会社リコー | Video conference device, video conference device control method, and program |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014178491A1 (en) * | 2013-04-30 | 2014-11-06 | 포항공과대학교 산학협력단 | Speech recognition method and apparatus |
KR101430924B1 (en) | 2013-05-14 | 2014-08-18 | 주식회사 아빅스코리아 | Method for obtaining image in mobile terminal and mobile terminal using the same |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101959188B1 (en) | 2013-06-09 | 2019-07-02 | 애플 인크. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
DE112014003653B4 (en) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatically activate intelligent responses based on activities from remote devices |
JP6329833B2 (en) * | 2013-10-04 | 2018-05-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Wearable terminal and method for controlling wearable terminal |
JP2015087824A (en) * | 2013-10-28 | 2015-05-07 | オムロン株式会社 | Screen operation device and screen operation method |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
JP2022008717A (en) * | 2016-08-19 | 2022-01-14 | ヒュンダイ・アイティー カンパニー リミテッド | Method of controlling smart board based on voice and motion recognition and virtual laser pointer using the method |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | User interface for correcting recognition errors |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | Low-latency intelligent automated assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Multi-modal interfaces |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | Far-field extension for digital assistant services |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
JP2018205470A (en) * | 2017-06-01 | 2018-12-27 | 株式会社InfoDeliver | Interaction device, interaction system, interaction method and program |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
WO2019039352A1 (en) * | 2017-08-25 | 2019-02-28 | 日本電気株式会社 | Information processing device, control method, and program |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
KR102399809B1 (en) | 2017-10-31 | 2022-05-19 | 엘지전자 주식회사 | Electric terminal and method for controlling the same |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US20210005203A1 (en) * | 2018-03-13 | 2021-01-07 | Mitsubishi Electric Corporation | Voice processing apparatus and voice processing method |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
EP4130941A1 (en) | 2018-05-04 | 2023-02-08 | Google LLC | Hot-word free adaptation of automated assistant function(s) |
EP4343499A3 (en) | 2018-05-04 | 2024-06-05 | Google LLC | Adapting automated assistant based on detected mouth movement and/or gaze |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (en) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | Virtual assistant operation in multi-device environments |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN111326152A (en) * | 2018-12-17 | 2020-06-23 | 南京人工智能高等研究院有限公司 | Voice control method and device |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | User activity shortcut suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
WO2021234839A1 (en) * | 2020-05-20 | 2021-11-25 | 三菱電機株式会社 | Conversation indication detection device and conversation indication detection method |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
KR20240138831A (en) * | 2023-03-13 | 2024-09-20 | 엘지전자 주식회사 | Image display apparatus and method for unsing the same |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000231427A (en) * | 1999-02-08 | 2000-08-22 | Nec Corp | Multi-modal information analyzing device |
JP2000338987A (en) * | 1999-05-28 | 2000-12-08 | Mitsubishi Electric Corp | Utterance start monitor, speaker identification device, voice input system, speaker identification system and communication system |
JP2002091466A (en) * | 2000-09-12 | 2002-03-27 | Pioneer Electronic Corp | Speech recognition device |
JP4624577B2 (en) * | 2001-02-23 | 2011-02-02 | 富士通株式会社 | Human interface system with multiple sensors |
JP2006235712A (en) * | 2005-02-22 | 2006-09-07 | Canon Inc | Conversation recording device |
JP4984583B2 (en) * | 2006-03-15 | 2012-07-25 | オムロン株式会社 | Display device, projector, display system, display method, display program, and recording medium |
JP4715738B2 (en) * | 2006-12-19 | 2011-07-06 | トヨタ自動車株式会社 | Utterance detection device and utterance detection method |
JP2008310382A (en) * | 2007-06-12 | 2008-12-25 | Omron Corp | Lip reading device and method, information processor, information processing method, detection device and method, program, data structure, and recording medium |
JP2009032056A (en) * | 2007-07-27 | 2009-02-12 | Mitsuba Corp | Communication system |
-
2010
- 2010-06-30 JP JP2010149860A patent/JP5323770B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11635821B2 (en) | 2019-11-20 | 2023-04-25 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP2012014394A (en) | 2012-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5323770B2 (en) | User instruction acquisition device, user instruction acquisition program, and television receiver | |
CN110785735B (en) | Apparatus and method for voice command scenario | |
US11854550B2 (en) | Determining input for speech processing engine | |
JP7525304B2 (en) | Facilitated sound source enhancement using video data | |
US10083710B2 (en) | Voice control system, voice control method, and computer readable medium | |
US10275021B2 (en) | Display apparatus of front-of-the-eye mounted type | |
CN109637518A (en) | Virtual newscaster's implementation method and device | |
JPWO2005114576A1 (en) | Operation content determination device | |
JP2014153663A (en) | Voice recognition device, voice recognition method and program | |
US20140306811A1 (en) | System and method for integrating gesture and sound for controlling device | |
Yargıç et al. | A lip reading application on MS Kinect camera | |
JP2010256391A (en) | Voice information processing device | |
CN114779922A (en) | Control method for teaching apparatus, control apparatus, teaching system, and storage medium | |
Huang et al. | Audio-visual speech recognition using an infrared headset | |
CN111326152A (en) | Voice control method and device | |
Petridis et al. | Audiovisual laughter detection based on temporal features | |
Urbain et al. | Multimodal analysis of laughter for an interactive system | |
JP4992218B2 (en) | Information processing apparatus and method, and program | |
Petridis et al. | Prediction-based classification for audiovisual discrimination between laughter and speech | |
CN114911449A (en) | Volume control method and device, storage medium and electronic equipment | |
Gomez et al. | Mouth gesture and voice command based robot command interface | |
Chitu et al. | Automatic lip reading in the Dutch language using active appearance models on high speed recordings | |
JP7032284B2 (en) | A device, program and method for estimating the activation timing based on the image of the user's face. | |
Yusuf et al. | Designing evolving computer agent capable of emotion recognition and expression | |
Rajavel et al. | Optimum integration weight for decision fusion audio–visual speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130107 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130612 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130717 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |