JP2009042910A - 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム - Google Patents
情報処理装置、および情報処理方法、並びにコンピュータ・プログラム Download PDFInfo
- Publication number
- JP2009042910A JP2009042910A JP2007205646A JP2007205646A JP2009042910A JP 2009042910 A JP2009042910 A JP 2009042910A JP 2007205646 A JP2007205646 A JP 2007205646A JP 2007205646 A JP2007205646 A JP 2007205646A JP 2009042910 A JP2009042910 A JP 2009042910A
- Authority
- JP
- Japan
- Prior art keywords
- information
- target
- event
- user
- particle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Landscapes
- Manipulator (AREA)
- Position Input By Displaying (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】不確実で非同期な入力情報に基づく情報解析により、精度の高いユーザ位置およびユーザ識別情報を効率的に生成する構成を実現する
【解決手段】カメラやマイクによって取得される画像情報や音声情報に基づいてユーザの推定位置および推定識別データを含むイベント情報を入力して、複数ターゲットを設定した複数パーティクルを適用したパーティクルフィルタリング処理を行い仮説の更新取捨選択によりユーザ位置および識別情報を生成する。また、カメラの画像フレーム外に仮想ターゲットを設定した暫定ターゲットとイベント検出部の生成するイベント情報との尤度を検証し、検証結果に応じて暫定ターゲットを各パーティクルに追加する。本構成により、フレーム外ユーザの音声入力に対応した処理が可能となり、ユーザ位置や識別の正確な推定処理が実現される。
【選択図】図13
【解決手段】カメラやマイクによって取得される画像情報や音声情報に基づいてユーザの推定位置および推定識別データを含むイベント情報を入力して、複数ターゲットを設定した複数パーティクルを適用したパーティクルフィルタリング処理を行い仮説の更新取捨選択によりユーザ位置および識別情報を生成する。また、カメラの画像フレーム外に仮想ターゲットを設定した暫定ターゲットとイベント検出部の生成するイベント情報との尤度を検証し、検証結果に応じて暫定ターゲットを各パーティクルに追加する。本構成により、フレーム外ユーザの音声入力に対応した処理が可能となり、ユーザ位置や識別の正確な推定処理が実現される。
【選択図】図13
Description
本発明は、情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。さらに詳細には、外界からの入力情報、例えば画像、音声などの情報を入力し、入力情報に基づく外界環境の解析、具体的には言葉を発している人物の位置や誰であるか等の解析処理を実行する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。
人とPCやロボットなどの情報処理装置との相互間の処理、例えばコミュニケーションやインタラクティブ処理を行うシステムはマン−マシン インタラクション システムと呼ばれる。このマン−マシン インタラクション システムにおいて、PCやロボット等の情報処理装置は、人のアクション例えば人の動作や言葉を認識するために画像情報や音声情報を入力して入力情報に基づく解析を行う。
人が情報を伝達する場合、言葉のみならずしぐさ、視線、表情など様々なチャネルを情報伝達チャネルとして利用する。このようなすべてのチャネルの解析をマシンにおいて行うことができれば、人とマシンとのコミュニケーションも人と人とのコミュニケーションと同レベルに到達することができる。このような複数のチャネル(モダリティ、モーダルとも呼ばれる)からの入力情報の解析を行うインタフェースは、マルチモーダルインタフェースと呼ばれ、近年、開発、研究が盛んに行われている。
例えばカメラによって撮影された画像情報、マイクによって取得された音声情報を入力して解析を行う場合、より詳細な解析を行うためには、様々なポイントに設置した複数のカメラおよび複数のマイクから多くの情報を入力することが有効である。
具体的なシステムとしては、例えば以下のようなシステムが想定される。情報処理装置(テレビ)が、カメラおよびマイクを介して、テレビの前のユーザ(父、母、姉、弟)の画像および音声を入力し、それぞれのユーザの位置やどのユーザが発した言葉であるか等を解析し、テレビが解析情報に応じた処理、例えば会話を行ったユーザに対するカメラのズームアップや、会話を行ったユーザに対する的確な応答を行うなどのシステムが実現可能となる。
従来の一般的なマン−マシン インタラクション システムの多くは、複数チャネル(モーダル)からの情報を決定論的に統合して、複数のユーザが、それぞれどこにいて、それらは誰で、誰がシグナルを発したのかを決定するという処理を行っていた。このようなシステムを開示した従来技術として、例えば特許文献1(特開2005−271137号公報)、特許文献2(特開2002−264051号公報)がある。
しかし、従来のシステムにおいて行われるマイクやカメラから入力される不確実かつ非同期なデータを利用した決定論的な統合処理方法ではロバスト性にかけ、精度の低いデータしか得られないという問題がある。実際のシステムにおいて、実環境で取得可能なセンサ情報、すなわちカメラからの入力画像やマイクから入力される音声情報には様々な余分な情報、例えばノイズや不要な情報が含まれる不確実なデータであり、画像解析や音声解析処理を行う場合には、このようなセンサ情報から有効な情報を効率的に統合する処理が重要となる。
特開2005−271137号公報
特開2002−264051号公報
本発明は、上述の問題点に鑑みてなされたものであり、複数のチャネル(モダリティ、モーダル)からの入力情報の解析、具体的には、例えば周囲にいる人物の位置などの特定処理を行うシステムにおいて、画像、音声情報などの様々な入力情報に含まれる不確実な情報に対する確率的な処理を行ってより精度の高いと推定される情報に統合する処理を行うことによりロバスト性を向上させ、精度の高い解析を行う情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。
本発明の第1の側面は、
実空間における画像情報または音声情報のいずれかを含む情報を入力する複数の情報入力部と、
前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出部と、
ユーザの位置および識別情報についての仮説(Hypothesis)の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報の生成を実行する情報統合処理部を有し、
前記情報統合処理部は、
前記イベント検出部の生成するイベント情報を入力し、仮想的なユーザに対応する複数のターゲットを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報を生成する構成を有し、前記情報入力部を構成するカメラの取得する画像フレームの外部に仮想ターゲットを設定した暫定ターゲットと前記イベント検出部の生成するイベント情報との尤度が、画像フレームの内部にターゲットを設定した既存ターゲットに対応するイベント−ターゲット間尤度より大きい値である場合に、前記暫定ターゲットを各パーティクルに新規追加する処理を行うことを特徴とする情報処理装置にある。
実空間における画像情報または音声情報のいずれかを含む情報を入力する複数の情報入力部と、
前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出部と、
ユーザの位置および識別情報についての仮説(Hypothesis)の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報の生成を実行する情報統合処理部を有し、
前記情報統合処理部は、
前記イベント検出部の生成するイベント情報を入力し、仮想的なユーザに対応する複数のターゲットを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報を生成する構成を有し、前記情報入力部を構成するカメラの取得する画像フレームの外部に仮想ターゲットを設定した暫定ターゲットと前記イベント検出部の生成するイベント情報との尤度が、画像フレームの内部にターゲットを設定した既存ターゲットに対応するイベント−ターゲット間尤度より大きい値である場合に、前記暫定ターゲットを各パーティクルに新規追加する処理を行うことを特徴とする情報処理装置にある。
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記画像フレームの外部に仮想ターゲットを設定した暫定ターゲットとして、画像フレームの異なる方向のフレーム外部位置に仮想ターゲットを設定した複数の異なる暫定ターゲットを生成し、生成した複数の暫定ターゲットと前記イベント情報との尤度を個別に算出して、算出した暫定ターゲットのイベント−ターゲット間尤度の最大値が、既存ターゲットに対応するイベント−ターゲット間尤度より大きい値を有する場合に、その最大値に対応する暫定ターゲットを各パーティクルに新規追加する処理を行うことを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記情報入力部を構成するカメラの取得する画像フレームの外部に仮想ターゲットを設定した暫定ターゲットの他、均一データによって構成されるユーザ位置情報、ユーザ識別情報を持つ暫定ターゲットを生成し、生成した複数の暫定ターゲットと前記イベント情報との尤度を個別に算出し、算出した暫定ターゲットのイベント−ターゲット間尤度の最大値が、既存ターゲットに対応するイベント−ターゲット間尤度より大きい値を有する場合に、その最大値に対応する暫定ターゲットを各パーティクルに新規追加する処理を行うことを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記イベント検出部は、ガウス分布からなるユーザの推定位置情報と、ユーザ対応の確率値を示すユーザ確信度情報を含むイベント情報を生成する構成であり、前記情報統合処理部は、仮想的なユーザに対応するガウス分布からなるユーザ位置情報と、ユーザ対応の確率値を示すユーザの確信度情報を有するターゲットを複数設定したパーティクルを保持し、各パーティクルに設定されたターゲットと、前記イベント情報との類似度の指標値であるイベント−ターゲット間尤度を算出して、イベント−ターゲット間尤度の高いターゲットを優先的にイベント発生源仮説ターゲットとしたパーティクル設定処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記イベント−ターゲット間尤度と、各パーティクルに設定したパーティクル重みとの総和データをターゲット重みとして算出し、ターゲット重みの大きいターゲットを優先的にイベント発生源仮説ターゲットとしたパーティクル設定処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、各パーティクルに設定したイベント発生源仮説ターゲットと、前記イベント検出部から入力するイベント情報との尤度を算出し、該尤度の大小に応じた値をパーティクル重みとして各パーティクルに設定する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記パーティクル重みの大きいパーティクルを優先的に再選択するリサンプリング処理を実行して、パーティクルの更新処理を行う構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、各パーティクルに設定したターゲットについて、経過時間を考慮した更新処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、各パーティクルに設定したイベント発生源仮説ターゲットについて、前記イベント検出部の生成するイベント情報を適用した更新処理を行う構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記パーティクルの各々に設定したターゲットデータと前記パーティクル重みとの積算総和を、各ターゲット対応のユーザ位置情報およびユーザ識別情報としたターゲット情報を生成する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記パーティクルの各々に設定したイベント発生源仮説ターゲットの数に応じて、イベント発生源の確率値としてのシクナル情報の生成を行う構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報統合処理部は、前記パーティクルの各々に設定したターゲットデータと前記パーティクル重みとの積算総和に含まれるユーザ位置情報としてのガウス分布データのピーク値が予め設定した閾値未満である場合に、該ターゲットを削除する処理を実行する構成であることを特徴とする。
さらに、本発明の第2の側面は、
情報処理装置において情報解析処理を実行する情報処理方法であり、
複数の情報入力部が、実空間における画像情報または音声情報のいずれかを含む情報を入力する情報入力ステップと、
イベント検出部が、前記情報入力ステップにおいて入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出ステップと、
情報統合処理部が、ユーザの位置および識別情報についての仮説(Hypothesis)の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報の生成を実行する情報統合処理ステップを有し、
前記情報統合処理ステップは、
前記イベント検出部の生成するイベント情報を入力し、仮想的なユーザに対応する複数のターゲットを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報を生成する構成を有し、前記情報入力部を構成するカメラの取得する画像フレームの外部に仮想ターゲットを設定した暫定ターゲットと前記イベント検出部の生成するイベント情報との尤度が、画像フレームの内部にターゲットを設定した既存ターゲットに対応するイベント−ターゲット間尤度より大きい値である場合に、前記暫定ターゲットを各パーティクルに新規追加する処理を行うステップであることを特徴とする情報処理方法にある。
情報処理装置において情報解析処理を実行する情報処理方法であり、
複数の情報入力部が、実空間における画像情報または音声情報のいずれかを含む情報を入力する情報入力ステップと、
イベント検出部が、前記情報入力ステップにおいて入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出ステップと、
情報統合処理部が、ユーザの位置および識別情報についての仮説(Hypothesis)の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報の生成を実行する情報統合処理ステップを有し、
前記情報統合処理ステップは、
前記イベント検出部の生成するイベント情報を入力し、仮想的なユーザに対応する複数のターゲットを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報を生成する構成を有し、前記情報入力部を構成するカメラの取得する画像フレームの外部に仮想ターゲットを設定した暫定ターゲットと前記イベント検出部の生成するイベント情報との尤度が、画像フレームの内部にターゲットを設定した既存ターゲットに対応するイベント−ターゲット間尤度より大きい値である場合に、前記暫定ターゲットを各パーティクルに新規追加する処理を行うステップであることを特徴とする情報処理方法にある。
さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、前記画像フレームの外部に仮想ターゲットを設定した暫定ターゲットとして、画像フレームの異なる方向のフレーム外部位置に仮想ターゲットを設定した複数の異なる暫定ターゲットを生成し、生成した複数の暫定ターゲットと前記イベント情報との尤度を個別に算出して、算出した暫定ターゲットのイベント−ターゲット間尤度の最大値が、既存ターゲットに対応するイベント−ターゲット間尤度より大きい値を有する場合に、その最大値に対応する暫定ターゲットを各パーティクルに新規追加する処理を行うステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、前記情報入力部を構成するカメラの取得する画像フレームの外部に仮想ターゲットを設定した暫定ターゲットの他、均一データによって構成されるユーザ位置情報、ユーザ識別情報を持つ暫定ターゲットを生成し、生成した複数の暫定ターゲットと前記イベント情報との尤度を個別に算出し、算出した暫定ターゲットのイベント−ターゲット間尤度の最大値が、既存ターゲットに対応するイベント−ターゲット間尤度より大きい値を有する場合に、その最大値に対応する暫定ターゲットを各パーティクルに新規追加する処理を行うステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記イベント検出ステップは、ガウス分布からなるユーザの推定位置情報と、ユーザ対応の確率値を示すユーザ確信度情報を含むイベント情報を生成するステップであり、前記情報統合処理部は、仮想的なユーザに対応するガウス分布からなるユーザ位置情報と、ユーザ対応の確率値を示すユーザの確信度情報を有するターゲットを複数設定したパーティクルを保持し、前記情報統合処理ステップは、各パーティクルに設定されたターゲットと、前記イベント情報との類似度の指標値であるイベント−ターゲット間尤度を算出して、イベント−ターゲット間尤度の高いターゲットを優先的にイベント発生源仮説ターゲットとしたパーティクル設定処理を実行するステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、前記イベント−ターゲット間尤度と、各パーティクルに設定したパーティクル重みとの総和データをターゲット重みとして算出し、ターゲット重みの大きいターゲットを優先的にイベント発生源仮説ターゲットとしたパーティクル設定処理を実行するステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、各パーティクルに設定したイベント発生源仮説ターゲットと、前記イベント検出部から入力するイベント情報との尤度を算出し、該尤度の大小に応じた値をパーティクル重みとして各パーティクルに設定するステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、前記パーティクル重みの大きいパーティクルを優先的に再選択するリサンプリング処理を実行して、パーティクルの更新処理を行うステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、各パーティクルに設定したターゲットについて、経過時間を考慮した更新処理を実行するステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、各パーティクルに設定したイベント発生源仮説ターゲットについて、前記イベント検出部の生成するイベント情報を適用した更新処理を行うステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、前記パーティクルの各々に設定したターゲットデータと前記パーティクル重みとの積算総和を、各ターゲット対応のユーザ位置情報およびユーザ識別情報としたターゲット情報を生成するステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、前記パーティクルの各々に設定したイベント発生源仮説ターゲットの数に応じて、イベント発生源の確率値としてのシクナル情報の生成を行うステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報統合処理ステップは、前記パーティクルの各々に設定したターゲットデータと前記パーティクル重みとの積算総和に含まれるユーザ位置情報としてのガウス分布データのピーク値が予め設定した閾値未満である場合に、該ターゲットを削除する処理を実行するステップを含むことを特徴とする。
さらに、本発明の第3の側面は、
情報処理装置において情報解析処理を実行させるコンピュータ・プログラムであり、
複数の情報入力部に、実空間における画像情報または音声情報のいずれかを含む情報を入力させる情報入力ステップと、
イベント検出部に、前記情報入力ステップにおいて入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成させるイベント検出ステップと、
情報統合処理部に、ユーザの位置および識別情報についての仮説(Hypothesis)の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報の生成を実行させる情報統合処理ステップを有し、
前記情報統合処理ステップは、
前記イベント検出部の生成するイベント情報を入力し、仮想的なユーザに対応する複数のターゲットを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報を生成する構成を有し、前記情報入力部を構成するカメラの取得する画像フレームの外部に仮想ターゲットを設定した暫定ターゲットと前記イベント検出部の生成するイベント情報との尤度が、画像フレームの内部にターゲットを設定した既存ターゲットに対応するイベント−ターゲット間尤度より大きい値である場合に、前記暫定ターゲットを各パーティクルに新規追加する処理を行わせるステップであることを特徴とするコンピュータ・プログラムにある。
情報処理装置において情報解析処理を実行させるコンピュータ・プログラムであり、
複数の情報入力部に、実空間における画像情報または音声情報のいずれかを含む情報を入力させる情報入力ステップと、
イベント検出部に、前記情報入力ステップにおいて入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成させるイベント検出ステップと、
情報統合処理部に、ユーザの位置および識別情報についての仮説(Hypothesis)の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報の生成を実行させる情報統合処理ステップを有し、
前記情報統合処理ステップは、
前記イベント検出部の生成するイベント情報を入力し、仮想的なユーザに対応する複数のターゲットを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報を生成する構成を有し、前記情報入力部を構成するカメラの取得する画像フレームの外部に仮想ターゲットを設定した暫定ターゲットと前記イベント検出部の生成するイベント情報との尤度が、画像フレームの内部にターゲットを設定した既存ターゲットに対応するイベント−ターゲット間尤度より大きい値である場合に、前記暫定ターゲットを各パーティクルに新規追加する処理を行わせるステップであることを特徴とするコンピュータ・プログラムにある。
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能な汎用コンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ・システム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の一実施例の構成によれば、カメラやマイクによって取得される画像情報や音声情報に基づいてユーザの推定位置および推定識別データを含むイベント情報を入力して、複数のターゲットを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を行い、フィルタリングによる仮説の更新および取捨選択に基づいてユーザの位置および識別情報を生成する。また、カメラの取得する画像フレームの外部に仮想ターゲットを設定した暫定ターゲットとイベント検出部の生成するイベント情報との尤度が、画像フレームの内部にターゲットを設定した既存ターゲットに対応するイベント−ターゲット間尤度より大きい値である場合に、暫定ターゲットを各パーティクルに新規追加する処理を行う。本構成により、カメラの取得する画像フレームの外部にいるユーザからの音声入力イベントに対応した正しい推定処理が可能となり、ユーザ位置やユーザ識別情報を効率的に確実に生成することが可能となる。
以下、図面を参照しながら本発明の実施形態に係る情報処理装置、および情報処理方法、並びにコンピュータ・プログラムの詳細について説明する。
まず、図1を参照して本発明に係る情報処理装置の実行する処理の概要について説明する。本発明の情報処理装置100は、環境情報を入力するセンサ、ここでは一例としてカメラ21と、複数のマイク31〜34から画像情報、音声情報を入力し、これらの入力情報に基づいて環境の解析を行う。具体的には、複数のユーザ1,11〜4,14の位置の解析、およびその位置にいるユーザの識別を行う。
図に示す例において、例えばユーザ1,11〜ユーザ4,14が家族である父、母、姉、弟であるとき、情報処理装置100は、カメラ21と、複数のマイク31〜34から入力する画像情報、音声情報の解析を行い、4人のユーザ1〜4の存在する位置、各位置にいるユーザが父、母、姉、弟のいずれであるかを識別する。識別処理結果は様々な処理に利用される。例えば、例えば会話を行ったユーザに対するカメラのズームアップや、会話を行ったユーザに対してテレビから応答を行うなどの処理に利用される。
なお、本発明に係る情報処理装置100の主要な処理は、複数の情報入力部(カメラ21,マイク31〜34)からの入力情報に基づいて、ユーザの位置識別およびユーザの特定処理としてのユーザ識別処理を行うことである。この識別結果の利用処理については特に限定するものではない。カメラ21と、複数のマイク31〜34から入力する画像情報、音声情報には様々な不確実な情報が含まれる。本発明の情報処理装置100では、これらの入力情報に含まれる不確実な情報に対する確率的な処理を行って、精度の高いと推定される情報に統合する処理を行う。この推定処理によりロバスト性を向上させ、精度の高い解析を行う。
図2に情報処理装置100の構成例を示す。情報処理装置100は、入力デバイスとして画像入力部(カメラ)111、複数の音声入力部(マイク)121a〜dを有する。画像入力部(カメラ)111から画像情報を入力し、音声入力部(マイク)121から音声情報を入力し、これらの入力情報に基づいて解析を行う。複数の音声入力部(マイク)121a〜dの各々は、図1に示すように様々な位置に配置されている。
複数のマイク121a〜dから入力された音声情報は、音声イベント検出部122を介して音声・画像統合処理部131に入力される。音声イベント検出部122は、複数の異なるポジションに配置された複数の音声入力部(マイク)121a〜dから入力する音声情報を解析し統合する。具体的には、音声入力部(マイク)121a〜dから入力する音声情報に基づいて、発生した音の位置およびどのユーザの発生させた音であるかのユーザ識別情報を生成して音声・画像統合処理部131に入力する。
なお、情報処理装置100の実行する具体的な処理は、例えば図1に示すように複数のユーザが存在する環境で、ユーザA〜Dがどの位置にいて、会話を行ったユーザがどのユーザであるかを識別すること、すなわち、ユーザ位置およびユーザ識別を行うことであり、さらに声を発した人物などのイベント発生源を特定する処理である。
音声イベント検出部122は、複数の異なるポジションに配置された複数の音声入力部(マイク)121a〜dから入力する音声情報を解析し、音声の発生源の位置情報を確率分布データとして生成する。具体的には、音源方向に関する期待値と分散データN(me,σe)を生成する。また、予め登録されたユーザの声の特徴情報との比較処理に基づいてユーザ識別情報を生成する。この識別情報も確率的な推定値として生成する。音声イベント検出部122には、予め検証すべき複数のユーザの声についての特徴情報が登録されており、入力音声と登録音声との比較処理を実行して、どのユーザの声である確率が高いかを判定する処理を行い、全登録ユーザに対する事後確率、あるいはスコアを算出する。
このように、音声イベント検出部122は、複数の異なるポジションに配置された複数の音声入力部(マイク)121a〜dから入力する音声情報を解析し、音声の発生源の位置情報を確率分布データと、確率的な推定値からなるユーザ識別情報とによって構成される[統合音声イベント情報]を生成して音声・画像統合処理部131に入力する。
一方、画像入力部(カメラ)111から入力された画像情報は、画像イベント検出部112を介して音声・画像統合処理部131に入力される。画像イベント検出部112は、画像入力部(カメラ)111から入力する画像情報を解析し、画像に含まれる人物の顔を抽出し、顔の位置情報を確率分布データとして生成する。具体的には、顔の位置や方向に関する期待値と分散データN(me,σe)を生成する。また、予め登録されたユーザの顔の特徴情報との比較処理に基づいてユーザ識別情報を生成する。この識別情報も確率的な推定値として生成する。画像イベント検出部112には、予め検証すべき複数のユーザの顔についての特徴情報が登録されており、入力画像から抽出した顔領域の画像の特徴情報と登録された顔画像の特徴情報との比較処理を実行して、どのユーザの顔である確率が高いかを判定する処理を行い、全登録ユーザに対する事後確率、あるいはスコアを算出する。
なお、音声イベント検出部122や画像イベント検出部112において実行する音声識別や、顔検出、顔識別処理は従来から知られる技術を適用する。例えば顔検出、顔識別処理としては以下の文献に開示された技術の適用が可能である。
佐部 浩太郎,日台 健一,"ピクセル差分特徴を用いた実時間任意姿勢顔検出器の学習",第10回画像センシングシンポジウム講演論文集,pp.547−552,2004
特開2004−302644(P2004−302644A)[発明の名称:顔識別装置、顔識別方法、記録媒体、及びロボット装置]
佐部 浩太郎,日台 健一,"ピクセル差分特徴を用いた実時間任意姿勢顔検出器の学習",第10回画像センシングシンポジウム講演論文集,pp.547−552,2004
特開2004−302644(P2004−302644A)[発明の名称:顔識別装置、顔識別方法、記録媒体、及びロボット装置]
音声・画像統合処理部131は、音声イベント検出部122や画像イベント検出部112からの入力情報に基づいて、複数のユーザが、それぞれどこにいて、それらは誰で、誰が音声等のシグナルを発したのかを確率的に推定する処理を実行する。この処理については後段で詳細に説明する。音声・画像統合処理部131は、音声・画像統合処理部131は、音声イベント検出部122や画像イベント検出部112からの入力情報に基づいて、
(a)複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての[ターゲット情報]
(b)例えば話しをしたユーザなどのイベント発生源を[シグナル情報]として、処理決定部132に出力する。
(a)複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての[ターゲット情報]
(b)例えば話しをしたユーザなどのイベント発生源を[シグナル情報]として、処理決定部132に出力する。
これらの識別処理結果を受領した処理決定部132は、識別処理結果を利用した処理を実行する、例えば、例えば会話を行ったユーザに対するカメラのズームアップや、会話を行ったユーザに対してテレビから応答を行うなどの処理を行う。
上述したように、音声イベント検出部122は、音声の発生源の位置情報を確率分布データ、具体的には、音源方向に関する期待値と分散データN(me,σe)を生成する。また、予め登録されたユーザの声の特徴情報との比較処理に基づいてユーザ識別情報を生成して音声・画像統合処理部131に入力する。また、画像イベント検出部112は、画像に含まれる人物の顔を抽出し、顔の位置情報を確率分布データとして生成する。具体的には、顔の位置や方向に関する期待値と分散データN(me,σe)を生成する。また、予め登録されたユーザの顔の特徴情報との比較処理に基づいてユーザ識別情報を生成して音声・画像統合処理部131に入力する。
図3を参照して、音声イベント検出部122および画像イベント検出部112が生成し音声・画像統合処理部131に入力する情報の例について説明する。図3(A)は図1を参照して説明したと同様のカメラやマイクが備えられた実環境の例を示し、複数のユーザ1〜k,201〜20kが存在する。この環境で、あるユーザが話しをしたとすると、マイクで音声が入力される。また、カメラは連続的に画像を撮影している。
音声イベント検出部122および画像イベント検出部112が生成し音声・画像統合処理部131に入力する情報は、基本的に同様の情報であり、図3(B)に示す2つの情報によって構成される。すなわち、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらの2つの情報である。これらの2つの情報は、イベントの発生毎に生成される。音声イベント検出部122は、音声入力部(マイク)121a〜dから音声情報が入力された場合に、その音声情報に基づいて上記の(a)ユーザ位置情報、(b)ユーザ識別情報を生成して音声・画像統合処理部131に入力する。画像イベント検出部112は、例えば予め定めた一定のフレーム間隔で、画像入力部(カメラ)111から入力された画像情報に基づいて(a)ユーザ位置情報、(b)ユーザ識別情報を生成して音声・画像統合処理部131に入力する。なお、本例では、画像入力部(カメラ)111は1台のカメラを設定した例を示しており、1つのカメラに複数のユーザの画像が撮影される設定であり、この場合、1つの画像に含まれる複数の顔の各々について(a)ユーザ位置情報、(b)ユーザ識別情報を生成して音声・画像統合処理部131に入力する。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらの2つの情報である。これらの2つの情報は、イベントの発生毎に生成される。音声イベント検出部122は、音声入力部(マイク)121a〜dから音声情報が入力された場合に、その音声情報に基づいて上記の(a)ユーザ位置情報、(b)ユーザ識別情報を生成して音声・画像統合処理部131に入力する。画像イベント検出部112は、例えば予め定めた一定のフレーム間隔で、画像入力部(カメラ)111から入力された画像情報に基づいて(a)ユーザ位置情報、(b)ユーザ識別情報を生成して音声・画像統合処理部131に入力する。なお、本例では、画像入力部(カメラ)111は1台のカメラを設定した例を示しており、1つのカメラに複数のユーザの画像が撮影される設定であり、この場合、1つの画像に含まれる複数の顔の各々について(a)ユーザ位置情報、(b)ユーザ識別情報を生成して音声・画像統合処理部131に入力する。
音声イベント検出部122が音声入力部(マイク)121a〜dから入力する音声情報に基づいて、
(a)ユーザ位置情報
(b)ユーザ識別情報(話者識別情報)
これらの情報を生成する処理について説明する。
(a)ユーザ位置情報
(b)ユーザ識別情報(話者識別情報)
これらの情報を生成する処理について説明する。
音声イベント検出部122による(a)ユーザ位置情報の生成処理
音声イベント検出部122は、音声入力部(マイク)121a〜dから入力された音声情報に基づいて解析された声を発したユーザ、すなわち[話者]の位置の推定情報を生成する。すなわち、話者が存在すると推定される位置を、期待値(平均)[me]と分散情報[σe]からなるガウス分布(正規分布)データN(me,σe)として生成する。
音声イベント検出部122は、音声入力部(マイク)121a〜dから入力された音声情報に基づいて解析された声を発したユーザ、すなわち[話者]の位置の推定情報を生成する。すなわち、話者が存在すると推定される位置を、期待値(平均)[me]と分散情報[σe]からなるガウス分布(正規分布)データN(me,σe)として生成する。
音声イベント検出部122による(b)ユーザ識別情報(話者識別情報)の生成処理
音声イベント検出部122は、音声入力部(マイク)121a〜dから入力された音声情報に基づいて話者が誰であるかを、入力音声と予め登録されたユーザ1〜kの声の特徴情報との比較処理により推定する。具体的には話者が各ユーザ1〜kである確率を算出する。この算出値を(b)ユーザ識別情報(話者識別情報)とする。例えば入力音声の特徴と最も近い登録された音声特徴を有するユーザに最も高いスコアを配分し、最も異なる特徴を持つユーザに最低のスコア(例えば0)を配分する処理によって各ユーザである確率を設定したデータを生成して、これを(b)ユーザ識別情報(話者識別情報)とする。
音声イベント検出部122は、音声入力部(マイク)121a〜dから入力された音声情報に基づいて話者が誰であるかを、入力音声と予め登録されたユーザ1〜kの声の特徴情報との比較処理により推定する。具体的には話者が各ユーザ1〜kである確率を算出する。この算出値を(b)ユーザ識別情報(話者識別情報)とする。例えば入力音声の特徴と最も近い登録された音声特徴を有するユーザに最も高いスコアを配分し、最も異なる特徴を持つユーザに最低のスコア(例えば0)を配分する処理によって各ユーザである確率を設定したデータを生成して、これを(b)ユーザ識別情報(話者識別情報)とする。
画像イベント検出部112が画像入力部(カメラ)111から入力する画像情報に基づいて、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報)
これらの情報を生成する処理について説明する。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報)
これらの情報を生成する処理について説明する。
画像イベント検出部112による(a)ユーザ位置情報の生成処理
画像イベント検出部112は、画像入力部(カメラ)111から入力された画像情報に含まれる顔の各々について顔の位置の推定情報を生成する。すなわち、画像から検出された顔が存在すると推定される位置を、期待値(平均)[me]と分散情報[σe]からなるガウス分布(正規分布)データN(me,σe)として生成する。
画像イベント検出部112は、画像入力部(カメラ)111から入力された画像情報に含まれる顔の各々について顔の位置の推定情報を生成する。すなわち、画像から検出された顔が存在すると推定される位置を、期待値(平均)[me]と分散情報[σe]からなるガウス分布(正規分布)データN(me,σe)として生成する。
画像イベント検出部112による(b)ユーザ識別情報(顔識別情報)の生成処理
画像イベント検出部112は、画像入力部(カメラ)111から入力された画像情報に基づいて、画像情報に含まれる顔を検出し、各顔が誰であるかを、入力画像情報と予め登録されたユーザ1〜kの顔の特徴情報との比較処理により推定する。具体的には抽出された各顔が各ユーザ1〜kである確率を算出する。この算出値を(b)ユーザ識別情報(顔識別情報)とする。例えば入力画像に含まれる顔の特徴と最も近い登録された顔の特徴を有するユーザに最も高いスコアを配分し、最も異なる特徴を持つユーザに最低のスコア(例えば0)を配分する処理によって各ユーザである確率を設定したデータを生成して、これを(b)ユーザ識別情報(顔識別情報)とする。
画像イベント検出部112は、画像入力部(カメラ)111から入力された画像情報に基づいて、画像情報に含まれる顔を検出し、各顔が誰であるかを、入力画像情報と予め登録されたユーザ1〜kの顔の特徴情報との比較処理により推定する。具体的には抽出された各顔が各ユーザ1〜kである確率を算出する。この算出値を(b)ユーザ識別情報(顔識別情報)とする。例えば入力画像に含まれる顔の特徴と最も近い登録された顔の特徴を有するユーザに最も高いスコアを配分し、最も異なる特徴を持つユーザに最低のスコア(例えば0)を配分する処理によって各ユーザである確率を設定したデータを生成して、これを(b)ユーザ識別情報(顔識別情報)とする。
なお、カメラの撮影画像から複数の顔が検出された場合には、各検出顔に応じて、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報)
これらの情報を生成して、音声・画像統合処理部131に入力する。
また、本例では、画像入力部111として1台のカメラを利用した例を説明するが、複数のカメラの撮影画像を利用してもよく、その場合は、画像イベント検出部112は、各カメラの撮影画像の各々に含まれる各顔について、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報)
これらの情報を生成して、音声・画像統合処理部131に入力する。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報)
これらの情報を生成して、音声・画像統合処理部131に入力する。
また、本例では、画像入力部111として1台のカメラを利用した例を説明するが、複数のカメラの撮影画像を利用してもよく、その場合は、画像イベント検出部112は、各カメラの撮影画像の各々に含まれる各顔について、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報)
これらの情報を生成して、音声・画像統合処理部131に入力する。
次に、音声・画像統合処理部131の実行する処理について説明する。音声・画像統合処理部131は、上述したように、音声イベント検出部122および画像イベント検出部112から、図3(B)に示す2つの情報、すなわち、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらの情報を逐次入力する。なお、これらの各情報の入力タイミングは様々な設定が可能であるが、例えば、音声イベント検出部122は新たな音声が入力された場合に上記(a),(b)の各情報を音声イベント情報として生成して入力し、画像イベント検出部112は、一定のフレーム周期単位で、上記(a),(b)の各情報を音声イベント情報として生成して入力するといった設定が可能である。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらの情報を逐次入力する。なお、これらの各情報の入力タイミングは様々な設定が可能であるが、例えば、音声イベント検出部122は新たな音声が入力された場合に上記(a),(b)の各情報を音声イベント情報として生成して入力し、画像イベント検出部112は、一定のフレーム周期単位で、上記(a),(b)の各情報を音声イベント情報として生成して入力するといった設定が可能である。
音声・画像統合処理部131の実行する処理について、図4以下を参照して説明する。音声・画像統合処理部131は、ユーザの位置および識別情報についての仮説(Hypothesis)の確率分布データを設定し、その仮説を入力情報に基づいて更新することで、より確からしい仮説のみを残す処理を行う。この処理手法として、パーティクル・フィルタ(Particle Filter)を適用した処理を実行する。
パーティクル・フィルタ(Particle Filter)を適用した処理は、様々な仮説、本例では、ユーザの位置と誰であるかの仮説に対応するパーティクルを多数設定し、音声イベント検出部122および画像イベント検出部112から、図3(B)に示す2つの情報、すなわち、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらの入力情報に基づいて、より確からしいパーティクルのウェイトを高めていくという処理を行う。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらの入力情報に基づいて、より確からしいパーティクルのウェイトを高めていくという処理を行う。
パーティクル・フィルタ(Particle Filter)を適用した基本的な処理例について図4を参照して説明する。例えば、図4に示す例は、あるユーザに対応する存在位置をパーティクル・フィルタにより推定する処理例を示している。図4に示す例は、ある直線上の1次元領域におけるユーザ301の存在する位置を推定する処理である。
初期的な仮説(H)は、図4(a)に示すように均一なパーティクル分布データとなる。次に、画像データ302が取得され、取得画像に基づくユーザ301の存在確率分布データが図4(b)のデータとして取得される。この取得画像に基づく確率分布データに基づいて、図4(a)のパーティクル分布データが更新され、図4(c)の更新された仮説確率分布データが得られる。このような処理を、入力情報に基づいて繰り返し実行して、ユーザのより確からしい位置情報を得る。
なお、パーティクル・フィルタを用いた処理の詳細については、例えば[D. Schulz, D. Fox, and J. Hightower. People Tracking with Anonymous and ID−sensors Using Rao−Blackwellised Particle Filters.Proc. of the International Joint Conference on Artificial Intelligence (IJCAI−03)]に記載されている。
図4に示す処理例は、ユーザの存在位置のみについて、入力情報を画像データのみとした処理例として説明しており、パーティクルの各々は、ユーザ301の存在位置のみの情報を有している。
一方、本発明に従った処理は、音声イベント検出部122および画像イベント検出部112から、図3(B)に示す2つの情報、すなわち、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらの入力情報に基づいて、複数のユーザの位置と複数のユーザがそれぞれ誰であるかを判別する処理を行うことになる。従って、本発明におけるパーティクル・フィルタ(Particle Filter)を適用した処理では、音声・画像統合処理部131が、ユーザの位置と誰であるかの仮説に対応するパーティクルを多数設定して、音声イベント検出部122および画像イベント検出部112から、図3(B)に示す2つの情報に基づいて、パーティクル更新を行うことになる。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらの入力情報に基づいて、複数のユーザの位置と複数のユーザがそれぞれ誰であるかを判別する処理を行うことになる。従って、本発明におけるパーティクル・フィルタ(Particle Filter)を適用した処理では、音声・画像統合処理部131が、ユーザの位置と誰であるかの仮説に対応するパーティクルを多数設定して、音声イベント検出部122および画像イベント検出部112から、図3(B)に示す2つの情報に基づいて、パーティクル更新を行うことになる。
図5を参照して、本処理例で設定するパーティクルの構成について説明する。音声・画像統合処理部131は、予め設定した数=mのパーティクルを有する。図5に示すパーティクル1〜mである。各パーティクルには識別子としてのパーティクルID(PID=1〜m)が設定されている。
各パーティクルに、位置および識別を行うオブジェクトに対応する仮想的なオブジェクトに対応する複数のターゲットを設定する。本例では、例えば実空間に存在すると推定される人数以上の仮想のユーザに対応する複数のターゲットを各パーティクルに設定する。m個のパーティクルの各々はターゲット単位でデータをターゲット数分保持する。図5に示す例では、1つのパーティクルにn個のターゲットが含まれる。各パーティクルに含まれるターゲット各々が有するターゲットデータの構成を図6に示す。
各パーティクルに含まれる各ターゲットデータについて図6を参照して説明する。図6は、図5に示すパーティクル1(pID=1)に含まれる1つのターゲット(ターゲットID:tID=n)311のターゲットデータの構成である。ターゲット311のターゲットデータは、図6に示すように、以下のデータ、すなわち、
(a)各ターゲット各々に対応する存在位置の確率分布[ガウス分布:N(m1n,σ1n)]、
(b)各ターゲットが誰であるかを示すユーザ確信度情報(uID)
uID1n1=0.0
uID1n2=0.1
:
uID1nk=0.5
これらのデータによって構成される。
(a)各ターゲット各々に対応する存在位置の確率分布[ガウス分布:N(m1n,σ1n)]、
(b)各ターゲットが誰であるかを示すユーザ確信度情報(uID)
uID1n1=0.0
uID1n2=0.1
:
uID1nk=0.5
これらのデータによって構成される。
なお、(a)に示すガウス分布:N(m1n,σ1n)における[m1n,σ1n]の(1n)は、パーティクルID:pID=1におけるターゲットID:tID=nに対応する存在確率分布としてのガウス分布であることを意味する。
また、(b)に示すユーザ確信度情報(uID)における、[uID1n1]に含まれる(1n1)は、パーティクルID:pID=1におけるターゲットID:tID=nの、ユーザ=ユーザ1である確率を意味する。すなわちターゲットID=nのデータは、
ユーザ1である確率が0.0、
ユーザ2である確率が0.1、
:
ユーザkである確率が0.5、
であることを意味している。
また、(b)に示すユーザ確信度情報(uID)における、[uID1n1]に含まれる(1n1)は、パーティクルID:pID=1におけるターゲットID:tID=nの、ユーザ=ユーザ1である確率を意味する。すなわちターゲットID=nのデータは、
ユーザ1である確率が0.0、
ユーザ2である確率が0.1、
:
ユーザkである確率が0.5、
であることを意味している。
図5に戻り、音声・画像統合処理部131の設定するパーティクルについての説明を続ける。図5に示すように、音声・画像統合処理部131は、予め決定した数=mのパーティクル(PID=1〜m)を設定し、各パーティクルは、実空間に存在すると推定されるターゲット(tID=1〜n)各々について、
(a)各ターゲット各々に対応する存在位置の確率分布[ガウス分布:N(m,σ)]、
(b)各ターゲットが誰であるかを示すユーザ確信度情報(uID)
これらのターゲットデータを有する。
(a)各ターゲット各々に対応する存在位置の確率分布[ガウス分布:N(m,σ)]、
(b)各ターゲットが誰であるかを示すユーザ確信度情報(uID)
これらのターゲットデータを有する。
音声・画像統合処理部131は、音声イベント検出部122および画像イベント検出部112から、図3(B)に示すイベント情報、すなわち、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらのイベント情報を入力してm個のパーティクル(PID=1〜m)の更新処理を行う。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらのイベント情報を入力してm個のパーティクル(PID=1〜m)の更新処理を行う。
音声・画像統合処理部131、これらの更新処理を実行して、
(a)複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての[ターゲット情報]、
(b)例えば話をしたユーザなどのイベント発生源を示す[シグナル情報]、
これらを生成して処理決定部132に出力する。
(a)複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての[ターゲット情報]、
(b)例えば話をしたユーザなどのイベント発生源を示す[シグナル情報]、
これらを生成して処理決定部132に出力する。
[ターゲット情報]は、図5の右端のターゲット情報305に示すように、各パーティクル(PID=1〜m)に含まれる各ターゲット(tID=1〜n)対応データの重み付き総和データとして生成される。各パーティクルの重みについては後述する。
ターゲット情報305は、音声・画像統合処理部131が予め設定した仮想的なユーザに対応するターゲット(tID=1〜n)の
(a)存在位置
(b)誰であるか(uID1〜uIDkのいずれであるか)
これらを示す情報である。このターゲット情報は、パーティクルの更新に伴い、順次更新されることになり、例えばユーザ1〜kが実環境内で移動しない場合、ユーザ1〜kの各々が、n個のターゲット(tID=1〜n)から選択されたk個にそれぞれ対応するデータとして収束することになる。
(a)存在位置
(b)誰であるか(uID1〜uIDkのいずれであるか)
これらを示す情報である。このターゲット情報は、パーティクルの更新に伴い、順次更新されることになり、例えばユーザ1〜kが実環境内で移動しない場合、ユーザ1〜kの各々が、n個のターゲット(tID=1〜n)から選択されたk個にそれぞれ対応するデータとして収束することになる。
例えば、図5に示すターゲット情報305中の最上段のターゲット1(tID=1)のデータ中に含まれるユーザ確信度情報(uID)は、ユーザ2(uID12=0.7)について最も高い確率を有している。従って、このターゲット1(tID=1)のデータは、ユーザ2に対応するものであると推定されることになる。なお、ユーザ確信度情報(uID)を示すデータ[uID12=0.7]中の(uID12)内の(12)は、ターゲットID=1のユーザ=2のユーザ確信度情報(uID)に対応する確率であることを示している。
このターゲット情報305中の最上段のターゲット1(tID=1)のデータは、ユーザ2である確率が最も高く、このユーザ2は、その存在位置が、ターゲット情報305中の最上段のターゲット1(tID=1)のデータに含まれる存在確率分布データに示す範囲にいると推定されることなる。
このように、ターゲット情報305は、初期的に仮想的なオブジェクト(仮想ユーザ)として設定した各ターゲット(tID=1〜n)の各々について、
(a)存在位置
(b)誰であるか(uID1〜uIDkのいずれであるか)
の各情報を示す。従って、各ターゲット(tID=1〜n)のk個のターゲット情報の各々は、ユーザが移動しない場合は、ユーザ1〜kに対応するように収束する。
(a)存在位置
(b)誰であるか(uID1〜uIDkのいずれであるか)
の各情報を示す。従って、各ターゲット(tID=1〜n)のk個のターゲット情報の各々は、ユーザが移動しない場合は、ユーザ1〜kに対応するように収束する。
ターゲット(tID=1〜n)の数がユーザ数kより大きい場合、どのユーザにも対応しないターゲットが発生する。例えば、ターゲット情報305中の最下段のターゲット(tID=n)は、ユーザ確信度情報(uID)も最大で0.5であり、存在確率分布データも大きなピークを有していない。このようなデータは特定のユーザに対応するデータではないと判定される。なお、このようなターゲットについては、削除するような処理が行われる場合もある。ターゲットの削除処理については後述する。
先に説明したように、音声・画像統合処理部131は、入力情報に基づくパーティクルの更新処理を実行して、
(a)複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての[ターゲット情報]、
(b)例えば話をしたユーザなどのイベント発生源を示す[シグナル情報]、
これらを生成して処理決定部132に出力する。
(a)複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての[ターゲット情報]、
(b)例えば話をしたユーザなどのイベント発生源を示す[シグナル情報]、
これらを生成して処理決定部132に出力する。
ターゲット情報は、図5のターゲット情報305を参照して説明した情報である。音声・画像統合処理部131は、このターゲット情報の他に話をしたユーザなどのイベント発生源を示す[シグナル情報]についても生成して出力する。イベント発生源を示す[シグナル情報]は、音声イベントについては、誰が話をしたか、すなわち[話者]を示すデータであり、画像イベントについては、画像に含まれる顔が誰であるかを示すデータである。なお、画像イベントの場合のシグナル情報は、本例では結果としてターゲット情報のユーザ確信度情報(uID)から得られるものと一致することになる。
音声・画像統合処理部131が、音声イベント検出部122および画像イベント検出部112から、図3(B)に示すイベント情報、すなわち、ユーザ位置情報と、ユーザ識別情報(顔識別情報または話者識別情報)、これらのイベント情報を入力して、
(a)複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての[ターゲット情報]、
(b)例えば話をしたユーザなどのイベント発生源を示す[シグナル情報]、
これらの情報を生成して処理決定部132に出力する処理について、図7以下を参照して説明する。
(a)複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての[ターゲット情報]、
(b)例えば話をしたユーザなどのイベント発生源を示す[シグナル情報]、
これらの情報を生成して処理決定部132に出力する処理について、図7以下を参照して説明する。
図7は、音声・画像統合処理部131の実行する処理シーケンスを説明するフローチャートを示す図である。まず、ステップS101において、音声・画像統合処理部131は、音声イベント検出部122および画像イベント検出部112から、図3(B)に示すイベント情報、すなわち、ユーザ位置情報と、ユーザ識別情報(顔識別情報または話者識別情報)、これらのイベント情報を入力する。
イベント情報の取得に成功した場合は、ステップS102に進み、イベント情報の取得に失敗した場合は、ステップS121に進む。ステップS121の処理については後段で説明する。
イベント情報の取得に成功した場合は、音声・画像統合処理部131は、ステップS102以下において、入力情報に基づくパーティクル更新処理を行うことになるが、パーティクル更新処理の前にステップS102において、図5に示すm個のパーティクル(pID=1〜m)の各々にイベントの発生源の仮説を設定する。イベント発生源とは、例えば、音声イベントであれば、話をしたユーザがイベント発生源であり、画像イベントであれば、抽出した顔を持つユーザがイベント発生源である。
図5に示す例では、各パーティクルの最下段にイベント発生源の仮設データ(tID=xx)を示している。図5の例では、
パーティクル1(pID=1)は、tID=2、
パーティクル2(pID=2)は、tID=n、
:
パーティクルm(pID=m)は、tID=n、
このように各パーティクルについて、イベント発生源がターゲット1〜nのいずれであるかの仮説を設定する。図5に示す例では、各パーティクルについて、仮説として設定したイベント発生源のターゲットデータを二重線で囲んで示している。
パーティクル1(pID=1)は、tID=2、
パーティクル2(pID=2)は、tID=n、
:
パーティクルm(pID=m)は、tID=n、
このように各パーティクルについて、イベント発生源がターゲット1〜nのいずれであるかの仮説を設定する。図5に示す例では、各パーティクルについて、仮説として設定したイベント発生源のターゲットデータを二重線で囲んで示している。
このイベント発生源の仮説設定は、入力イベントに基づくパーティクル更新処理を行う前に毎回実行する。すなわち、各パーティクル1〜m各々にイベントの発生源仮説を設定して、その仮説の下で、イベントとして音声イベント検出部122および画像イベント検出部112から、図3(B)に示すイベント情報、すなわち、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらのイベント情報を入力してm個のパーティクル(PID=1〜m)の更新処理を行う。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらのイベント情報を入力してm個のパーティクル(PID=1〜m)の更新処理を行う。
パーティクル更新処理が行われた場合は、各パーティクル1〜m各々に設定されていたイベントの発生源の仮説はリセットされて、各パーティクル1〜m各々に新たな仮説の設定が行われる。この仮説の設定態様としては、
(1)ランダムな設定、
(2)音声・画像統合処理部131の有する内部モデルに従って設定、
上記(1),(2)のいずれかの手法で設定することが可能である。なお、パーティクルの数:mは、ターゲットの数:nより大きく設定されているので、複数のパーティクルが同一のターゲットをイベント発生源とした仮設に設定される。例えば、ターゲットの数:nが10とした場合、パーティクル数:m=100〜1000程度に設定した処理などが行われる。
(1)ランダムな設定、
(2)音声・画像統合処理部131の有する内部モデルに従って設定、
上記(1),(2)のいずれかの手法で設定することが可能である。なお、パーティクルの数:mは、ターゲットの数:nより大きく設定されているので、複数のパーティクルが同一のターゲットをイベント発生源とした仮設に設定される。例えば、ターゲットの数:nが10とした場合、パーティクル数:m=100〜1000程度に設定した処理などが行われる。
上記の(2)音声・画像統合処理部131の有する内部モデルに従って仮説を設定する処理の具体的処理例について説明する。
音声・画像統合処理部131は、まず、音声イベント検出部122および画像イベント検出部112から取得したイベント情報、すなわち、図3(B)に示す2つの情報、すなわち、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらのイベント情報と、
音声・画像統合処理部131の保持するパーティクルのターゲットの持つデータとの比較によって、各ターゲットの重み[WtID]を算出し、算出した各ターゲットの重み[WtID]に基づいて、各パーティクル(pID=1〜m)に対するイベント発生源の仮説を設定する。以下、具体的な処理例について説明する。
音声・画像統合処理部131は、まず、音声イベント検出部122および画像イベント検出部112から取得したイベント情報、すなわち、図3(B)に示す2つの情報、すなわち、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらのイベント情報と、
音声・画像統合処理部131の保持するパーティクルのターゲットの持つデータとの比較によって、各ターゲットの重み[WtID]を算出し、算出した各ターゲットの重み[WtID]に基づいて、各パーティクル(pID=1〜m)に対するイベント発生源の仮説を設定する。以下、具体的な処理例について説明する。
なお、初期状態では、各パーティクル(pID=1〜m)に設定されるイベント発生源の仮説は均等な設定とする。すなわちn個のターゲット(tID=1〜n)を持つm個のパーティクル(pID=1〜m)が設定されている構成では、
ターゲット1(tID=1)をイベント発生源とするパーティクルをm/n個、
ターゲット2(tID=2)をイベント発生源とするパーティクルをm/n個、
:
ターゲットn(tID=n)をイベント発生源とするパーティクルをm/n個、
というように、各パーティクル(pID=1〜m)に設定する初期的なイベント発生源の仮説ターゲット(tID=1〜n)を均等に割り振る設定とする。
ターゲット1(tID=1)をイベント発生源とするパーティクルをm/n個、
ターゲット2(tID=2)をイベント発生源とするパーティクルをm/n個、
:
ターゲットn(tID=n)をイベント発生源とするパーティクルをm/n個、
というように、各パーティクル(pID=1〜m)に設定する初期的なイベント発生源の仮説ターゲット(tID=1〜n)を均等に割り振る設定とする。
図7に示すフローのステップS101において、音声・画像統合処理部131が音声イベント検出部122および画像イベント検出部112からイベント情報、すなわち、図3(B)に示す2つの情報、すなわち、
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらのイベント情報を取得して、イベント情報の取得に成功すると、ステップS102において、音声・画像統合処理部131は、m個のパーティクル(PID=1〜m)の各々に対して、イベント発生源の仮説ターゲット(tID=1〜n)を設定する。
(a)ユーザ位置情報
(b)ユーザ識別情報(顔識別情報または話者識別情報)
これらのイベント情報を取得して、イベント情報の取得に成功すると、ステップS102において、音声・画像統合処理部131は、m個のパーティクル(PID=1〜m)の各々に対して、イベント発生源の仮説ターゲット(tID=1〜n)を設定する。
ステップS102におけるパーティクル対応の仮説ターゲットの設定の詳細について説明する。音声・画像統合処理部131は、まず、ステップS101で入力したイベント情報と、音声・画像統合処理部131の保持するパーティクルのターゲットの持つデータとの比較を行い、比較結果を用いて、各ターゲットのターゲット重み[WtID]を算出する。
ターゲット重み[WtID]の算出処理の詳細について図8を参照して説明する。ターゲット重みの算出は、図8の右端に示すように、各パーティクルに設定されるターゲット1〜nの各々に対応するn個のターゲット重みの算出処理として実行される。このn個のターゲット重みの算出に際しては、まず、図8(1)に示す入力イベント情報、すなわち、音声・画像統合処理部131が、音声イベント検出部122および画像イベント検出部112から入力したイベント情報と、各パーティクルの各ターゲットデータとの類似度の指標値としての尤度算出を行う。
図8(2)に示す尤度算出処理例は、(1)入力イベント情報と、パーティクル1の1つのターゲットデータ(tID=n)との比較によるイベント−ターゲット間尤度の算出例を説明する図である。なお、図8には、1つのターゲットデータとの比較例を示しているが、各パーティクルの各ターゲットデータについて、同様の尤度算出処理を実行する。
図8の下段に示す(2)尤度算出処理について説明する。図8(2)に示すように、尤度算出処理は、まず、
(a)ユーザ位置情報についてのイベントと、ターゲットデータとの類似度データとしてのガウス分布間尤度[DL]、
(b)ユーザ識別情報(顔識別情報または話者識別情報)についてのイベントと、ターゲットデータとの類似度データとしてのユーザ確信度情報(uID)間尤度[UL]
これらを個別に算出する。
(a)ユーザ位置情報についてのイベントと、ターゲットデータとの類似度データとしてのガウス分布間尤度[DL]、
(b)ユーザ識別情報(顔識別情報または話者識別情報)についてのイベントと、ターゲットデータとの類似度データとしてのユーザ確信度情報(uID)間尤度[UL]
これらを個別に算出する。
まず、(a)ユーザ位置情報についてのイベントと、ターゲットデータとの類似度データとしてのガウス分布間尤度[DL]の算出処理について説明する。
図8(1)に示す入力イベント情報中の、ユーザ位置情報に対応するガウス分布をN(me,σe)とし、
音声・画像統合処理部131の保持する内部モデルのあるパーティクルが持つあるターゲットのユーザ位置情報に対応するガウス分布をN(mt,σt)とする。図8に示す例では、パーティクル1(pID=1)のターゲットn(tID=n)のターゲットデータに含まれるガウス分布をN(mt,σt)とする。
図8(1)に示す入力イベント情報中の、ユーザ位置情報に対応するガウス分布をN(me,σe)とし、
音声・画像統合処理部131の保持する内部モデルのあるパーティクルが持つあるターゲットのユーザ位置情報に対応するガウス分布をN(mt,σt)とする。図8に示す例では、パーティクル1(pID=1)のターゲットn(tID=n)のターゲットデータに含まれるガウス分布をN(mt,σt)とする。
これら2つのデータのガウス分布の類似度を判定する指標としてのガウス分布間尤度[DL]は、以下の式によって算出する。
DL=N(mt,σt+σe)x|me
上記式は、中心mtで分散σt+σeのガウス分布においてx=meの位置の値を算出する式である。
DL=N(mt,σt+σe)x|me
上記式は、中心mtで分散σt+σeのガウス分布においてx=meの位置の値を算出する式である。
次に、(b)ユーザ識別情報(顔識別情報または話者識別情報)についてのイベントと、ターゲットデータとの類似度データとしてのユーザ確信度情報(uID)間尤度[UL]の算出処理について説明する。
図8(1)に示す入力イベント情報中の、ユーザ確信度情報(uID)の各ユーザ1〜kの確信度の値(スコア)をPe[i]とする。なお、iはユーザ識別子1〜kに対応する変数である。
音声・画像統合処理部131の保持する内部モデルのあるパーティクルが持つあるターゲットのユーザ確信度情報(uID)の各ユーザ1〜kの確信度の値(スコア)をPt[i]とする。図8に示す例では、パーティクル1(pID=1)のターゲットn(tID=n)のターゲットデータに含まれるユーザ確信度情報(uID)の各ユーザ1〜kの確信度の値(スコア)をPt[i]とする。
図8(1)に示す入力イベント情報中の、ユーザ確信度情報(uID)の各ユーザ1〜kの確信度の値(スコア)をPe[i]とする。なお、iはユーザ識別子1〜kに対応する変数である。
音声・画像統合処理部131の保持する内部モデルのあるパーティクルが持つあるターゲットのユーザ確信度情報(uID)の各ユーザ1〜kの確信度の値(スコア)をPt[i]とする。図8に示す例では、パーティクル1(pID=1)のターゲットn(tID=n)のターゲットデータに含まれるユーザ確信度情報(uID)の各ユーザ1〜kの確信度の値(スコア)をPt[i]とする。
これら2つのデータのユーザ確信度情報(uID)の類似度を判定する指標としてのユーザ確信度情報(uID)間尤度[UL]は、以下の式によって算出する。
UL=ΣPe[i]×Pt[i]
上記式は、2つのデータのユーザ確信度情報(uID)に含まれる各対応ユーザの確信度の値(スコア)の積の総和を求める式であり、この値をユーザ確信度情報(uID)間尤度[UL]とする。
UL=ΣPe[i]×Pt[i]
上記式は、2つのデータのユーザ確信度情報(uID)に含まれる各対応ユーザの確信度の値(スコア)の積の総和を求める式であり、この値をユーザ確信度情報(uID)間尤度[UL]とする。
もしくは、ユーザ確信度情報(uID)間尤度[UL]として、各積の最大値、すなわち、
UL=arg max(Pe[i]×Pt[i])
上記の値を算出し、この値をユーザ確信度情報(uID)間尤度[UL]として利用する構成としてもよい。
UL=arg max(Pe[i]×Pt[i])
上記の値を算出し、この値をユーザ確信度情報(uID)間尤度[UL]として利用する構成としてもよい。
入力イベント情報とあるパーティクル(pID)が持つ1つのターゲット(tID)との類似度の指標としてのイベント−ターゲット間尤度[LpID,tID]は、上記の2つの尤度、すなわち、
ガウス分布間尤度[DL]と、
ユーザ確信度情報(uID)間尤度[UL]
これら2つの尤度を利用して算出する。すなわち重みα(α=0〜1)を用いて、イベント−ターゲット間尤度[LpID,tID]は下式によって算出する。
[LpID,tID]=ULα×DL1−α
としてイベントとターゲットとの類似度の指標であるイベント−ターゲット間尤度[LpID,tID]を算出する。
ただし、α=0〜1とする。
ガウス分布間尤度[DL]と、
ユーザ確信度情報(uID)間尤度[UL]
これら2つの尤度を利用して算出する。すなわち重みα(α=0〜1)を用いて、イベント−ターゲット間尤度[LpID,tID]は下式によって算出する。
[LpID,tID]=ULα×DL1−α
としてイベントとターゲットとの類似度の指標であるイベント−ターゲット間尤度[LpID,tID]を算出する。
ただし、α=0〜1とする。
このイベント−ターゲット間尤度[LpID,tID]は、各パーティクルの各ターゲットについて各々算出し、このイベント−ターゲット間尤度[LpID,tID]に基づいて各ターゲットのターゲット重み[WtID]を算出する。
なお、イベント−ターゲット間尤度[LpID,tID]の算出に適用する重み[α]は、予め固定された値としてもよいし、入力イベントに応じて値を変更する設定としてもよい。例えば入力イベントが画像である場合において、顔検出に成功し位置情報は取得できたが顔識別に失敗した場合などは、α=0の設定として、ユーザ確信度情報(uID)間尤度:UL=1としてガウス分布間尤度[DL]のみに依存してイベント−ターゲット間尤度[LpID,tID]を算出して、ガウス分布間尤度[DL]のみに依存したターゲット重み[WtID]を算出する構成としてもよい。
また、入力イベントが音声である場合において、話者識別に成功し話者情報破取得できたが、位置情報の取得に失敗した場合などは、α=0の設定として、ガウス分布間尤度[DL]=1として、ユーザ確信度情報(uID)間尤度[UL]のみに依存してイベント−ターゲット間尤度[LpID,tID]を算出して、ユーザ確信度情報(uID)間尤度[UL]のみに依存したターゲット重み[WtID]を算出する構成としてもよい。
イベント−ターゲット間尤度[LpID,tID]に基づく、ターゲット重み[WtID]の算出式は、以下の通りである。
とする。なお、上記式において、[WpID]は、各パーティクル各々に設定されるパーティクル重みである。パーティクル重み[WpID]の算出処理については後段で説明する。パーティクル重み[WpID]は初期状態では、すべてのパーティクル(pID=1〜m)において均一な値が設定される。
図7に示すフローにおけるステップS101の処理、すなわち、各パーティクル対応のイベント発生源仮説の生成は、上記のイベント−ターゲット間尤度[LpID,tID]に基づいて算出したターゲット重み[WtID]に基づいて実行する。ターゲット重み[WtID]は、パーティクルに設定されるターゲット1〜n(tID=1〜n)に対応したn個のデータが算出される。
m個のパーティクル(pID=1〜m)各々に対するイベント発生源仮説ターゲットは、ターゲット重み[WtID]の比率に応じて割り振る設定とする。
例えばn=4で、ターゲット1〜4(tID=1〜4)に対応して算出されたターゲット重み[WtID]が、
ターゲット1:ターゲット重み=3
ターゲット2:ターゲット重み=2
ターゲット3:ターゲット重み=1
ターゲット4:ターゲット重み=5
である場合、m個のパーティクルのイベント発生源仮説ターゲットを
m個のパーティクル中の30%をイベント発生源仮説ターゲット1、
m個のパーティクル中の20%をイベント発生源仮説ターゲット2、
m個のパーティクル中の10%をイベント発生源仮説ターゲット3、
m個のパーティクル中の50%をイベント発生源仮説ターゲット4、
このような設定とする。
すなわちパーティクルに設定するイベント発生源仮説ターゲットをターゲットの重みに応じた配分比率とする。
例えばn=4で、ターゲット1〜4(tID=1〜4)に対応して算出されたターゲット重み[WtID]が、
ターゲット1:ターゲット重み=3
ターゲット2:ターゲット重み=2
ターゲット3:ターゲット重み=1
ターゲット4:ターゲット重み=5
である場合、m個のパーティクルのイベント発生源仮説ターゲットを
m個のパーティクル中の30%をイベント発生源仮説ターゲット1、
m個のパーティクル中の20%をイベント発生源仮説ターゲット2、
m個のパーティクル中の10%をイベント発生源仮説ターゲット3、
m個のパーティクル中の50%をイベント発生源仮説ターゲット4、
このような設定とする。
すなわちパーティクルに設定するイベント発生源仮説ターゲットをターゲットの重みに応じた配分比率とする。
この仮説設定の後、図7に示すフローのステップS103に進む。ステップS103では、各パーティクル対応の重み、すなわちパーティクル重み[WpID]の算出を行う。このパーティクル重み[WpID]は前述したように、初期的には各パーティクルに均一な値が設定されるが、イベント入力に応じて更新される。
図9、図10を参照して、パーティクル重み[WpID]の算出処理の詳細について説明する。パーティクル重み[WpID]は、イベント発生源の仮説ターゲットを生成した各パーティクルの仮説の正しさの指標に相当する。パーティクル重み[WpID]は、m個のパーティクル(pID=1〜m)の各々において設定されたイベント発生源の仮説ターゲットと、入力イベントとの類似度であるイベント−ターゲット間尤度として算出される。
図9には、音声・画像統合処理部131が、音声イベント検出部122および画像イベント検出部112から入力するイベント情報401と、音声・画像統合処理部131が、が保持するパーティクル411〜413を示している。核パーティクル411|413には、前述した処理、すなわち、図7に示すフローのステップS102におけるイベント発生源の仮説設定において設定された仮説ターゲットが1つずつ設定されている。図9中に示す例では、
パーティクル1(pID=1)411におけるターゲット2(tID=2)421、
パーティクル2(pID=2)412におけるターゲットn(tID=n)422、
パーティクルm(pID=m)413におけるターゲットn(tID=n)423、
これらの仮説ターゲットである。
パーティクル1(pID=1)411におけるターゲット2(tID=2)421、
パーティクル2(pID=2)412におけるターゲットn(tID=n)422、
パーティクルm(pID=m)413におけるターゲットn(tID=n)423、
これらの仮説ターゲットである。
図9の例において、各パーティクルのパーティクル重み[WpID]は、
パーティクル1:イベント情報401とターゲット2(tID=2)421とのイベント−ターゲット間尤度、
パーティクル2:イベント情報401とターゲットn(tID=n)422とのイベント−ターゲット間尤度、
パーティクルm:イベント情報401とターゲットn(tID=n)423とのイベント−ターゲット間尤度、
これらのイベント−ターゲット間尤度に対応することになる。
パーティクル1:イベント情報401とターゲット2(tID=2)421とのイベント−ターゲット間尤度、
パーティクル2:イベント情報401とターゲットn(tID=n)422とのイベント−ターゲット間尤度、
パーティクルm:イベント情報401とターゲットn(tID=n)423とのイベント−ターゲット間尤度、
これらのイベント−ターゲット間尤度に対応することになる。
図10は、パーティクル1(pID=1)のパーティクル重み[WpID]算出処理例を示している。図10(2)に示すパーティクル重み[WpID]算出処理は、先に、図8(2)を参照して説明したと同様の尤度算出処理であり、本例では、(1)入力イベント情報と、パーティクルから選択された唯一の仮説ターゲットとの類似度指標としてのイベント−ターゲット間尤度の算出として実行される。
図10の下段に示す(2)尤度算出処理も、先に図8(2)を参照して説明したと同様、
(a)ユーザ位置情報についてのイベントと、ターゲットデータとの類似度データとしてのガウス分布間尤度[DL]、
(b)ユーザ識別情報(顔識別情報または話者識別情報)についてのイベントと、ターゲットデータとの類似度データとしてのユーザ確信度情報(uID)間尤度[UL]
これらを個別に算出する。
(a)ユーザ位置情報についてのイベントと、ターゲットデータとの類似度データとしてのガウス分布間尤度[DL]、
(b)ユーザ識別情報(顔識別情報または話者識別情報)についてのイベントと、ターゲットデータとの類似度データとしてのユーザ確信度情報(uID)間尤度[UL]
これらを個別に算出する。
(a)ユーザ位置情報についてのイベントと、仮説ターゲットとの類似度データとしてのガウス分布間尤度[DL]の算出処理は以下の処理となる。
入力イベント情報中の、ユーザ位置情報に対応するガウス分布をN(me,σe)、
パーティクルから選択された仮説ターゲットのユーザ位置情報に対応するガウス分布をN(mt,σt)、
として、ガウス分布間尤度[DL]を、以下の式によって算出する。
DL=N(mt,σt+σe)x|me
上記式は、中心mtで分散σt+σeのガウス分布においてx=meの位置の値を算出する式である。
入力イベント情報中の、ユーザ位置情報に対応するガウス分布をN(me,σe)、
パーティクルから選択された仮説ターゲットのユーザ位置情報に対応するガウス分布をN(mt,σt)、
として、ガウス分布間尤度[DL]を、以下の式によって算出する。
DL=N(mt,σt+σe)x|me
上記式は、中心mtで分散σt+σeのガウス分布においてx=meの位置の値を算出する式である。
(b)ユーザ識別情報(顔識別情報または話者識別情報)についてのイベントと、仮説ターゲットとの類似度データとしてのユーザ確信度情報(uID)間尤度[UL]の算出処理は以下の処理となる。
入力イベント情報中の、ユーザ確信度情報(uID)の各ユーザ1〜kの確信度の値(スコア)をPe[i]とする。なお、iはユーザ識別子1〜kに対応する変数である。
パーティクルから選択された仮説ターゲットのユーザ確信度情報(uID)の各ユーザ1〜kの確信度の値(スコア)をPt[i]として、ユーザ確信度情報(uID)間尤度[UL]は、以下の式によって算出する。
UL=ΣPe[i]×Pt[i]
上記式は、2つのデータのユーザ確信度情報(uID)に含まれる各対応ユーザの確信度の値(スコア)の積の総和を求める式であり、この値をユーザ確信度情報(uID)間尤度[UL]とする。
入力イベント情報中の、ユーザ確信度情報(uID)の各ユーザ1〜kの確信度の値(スコア)をPe[i]とする。なお、iはユーザ識別子1〜kに対応する変数である。
パーティクルから選択された仮説ターゲットのユーザ確信度情報(uID)の各ユーザ1〜kの確信度の値(スコア)をPt[i]として、ユーザ確信度情報(uID)間尤度[UL]は、以下の式によって算出する。
UL=ΣPe[i]×Pt[i]
上記式は、2つのデータのユーザ確信度情報(uID)に含まれる各対応ユーザの確信度の値(スコア)の積の総和を求める式であり、この値をユーザ確信度情報(uID)間尤度[UL]とする。
パーティクル重み[WpID]は、上記の2つの尤度、すなわち、
ガウス分布間尤度[DL]と、
ユーザ確信度情報(uID)間尤度[UL]
これら2つの尤度を利用し、重みα(α=0〜1)を用いて下式によって算出する。
パーティクル重み[WpID]=ULα×DL1−α
上記式により、パーティクル重み[WpID]を算出する。
ただし、α=0〜1とする。
このパーティクル重み[WpID]は、各パーティクルについて各々算出する。
ガウス分布間尤度[DL]と、
ユーザ確信度情報(uID)間尤度[UL]
これら2つの尤度を利用し、重みα(α=0〜1)を用いて下式によって算出する。
パーティクル重み[WpID]=ULα×DL1−α
上記式により、パーティクル重み[WpID]を算出する。
ただし、α=0〜1とする。
このパーティクル重み[WpID]は、各パーティクルについて各々算出する。
なお、パーティクル重み[WpID]の算出に適用する重み[α]は、前述したイベント−ターゲット間尤度[LpID,tID]の算出処理と同様、予め固定された値としてもよいし、入力イベントに応じて値を変更する設定としてもよい。例えば入力イベントが画像である場合において、顔検出に成功し位置情報は取得できたが顔識別に失敗した場合などは、α=0の設定として、ユーザ確信度情報(uID)間尤度:UL=1としてガウス分布間尤度[DL]のみに依存してパーティクル重み[WpID]を算出する構成としてもよい。また、入力イベントが音声である場合において、話者識別に成功し話者情報破取得できたが、位置情報の取得に失敗した場合などは、α=0の設定として、ガウス分布間尤度[DL]=1として、ユーザ確信度情報(uID)間尤度[UL]のみに依存してパーティクル重み[WpID]を算出する構成としてもよい。
図7のフローにおけるステップS103の各パーティクル対応の重み[WpID]の算出は、このように図9、図10を参照して説明した処理として実行される。次に、ステップS104において、ステップS103で設定した各パーティクルのパーティクル重み[WpID]に基づくパーティクルのリサンプリング処理を実行する。
このパーティクルリサンプリング処理は、m個のパーティクルから、パーティクル重み[WpID]に応じてパーティクルを取捨選択する処理として実行される。具体的には、例えば、パーティクル数:m=5のとき、
パーティクル1:パーティクル重み[WpID]=0.40
パーティクル2:パーティクル重み[WpID]=0.10
パーティクル3:パーティクル重み[WpID]=0.25
パーティクル4:パーティクル重み[WpID]=0.05
パーティクル5:パーティクル重み[WpID]=0.20
これらのパーティクル重みが各々設定されていた場合、
パーティクル1は、40%の確率でリサンプリングされ、パーティクル2は10%の確率でリサンプリングされる。なお、実際にはm=100〜1000といった多数であり、リサンプリングされた結果は、パーティクルの重みに応じた配分比率のパーティクルによって構成されることになる。
パーティクル1:パーティクル重み[WpID]=0.40
パーティクル2:パーティクル重み[WpID]=0.10
パーティクル3:パーティクル重み[WpID]=0.25
パーティクル4:パーティクル重み[WpID]=0.05
パーティクル5:パーティクル重み[WpID]=0.20
これらのパーティクル重みが各々設定されていた場合、
パーティクル1は、40%の確率でリサンプリングされ、パーティクル2は10%の確率でリサンプリングされる。なお、実際にはm=100〜1000といった多数であり、リサンプリングされた結果は、パーティクルの重みに応じた配分比率のパーティクルによって構成されることになる。
この処理によって、パーティクル重み[WpID]の大きなパーティクルがより多く残存することになる。なお、リサンプリング後もパーティクルの総数[m]は変更されない。また、リサンプリング後は、各パーティクルの重み[WpID]はリセットされ、新たなイベントの入力に応じてステップS101から処理が繰り返される。
ステップS105では、各パーティクルに含まれるターゲットデータ(ユーザ位置およびユーザ確信度)の更新処理を実行する。各ターゲットは、先に図6等を参照して説明したように、
(a)ユーザ位置:各ターゲット各々に対応する存在位置の確率分布[ガウス分布:N(mt,σt)]、
(b)ユーザ確信度:各ターゲットが誰であるかを示すユーザ確信度情報(uID)として各ユーザ1〜kである確立値(スコア):Pt[i](i=1〜k)、すなわち、
uIDt1=Pt[1]
uIDt2=Pt[2]
:
uIDtk=Pt[k]
これらのデータによって構成される。
(a)ユーザ位置:各ターゲット各々に対応する存在位置の確率分布[ガウス分布:N(mt,σt)]、
(b)ユーザ確信度:各ターゲットが誰であるかを示すユーザ確信度情報(uID)として各ユーザ1〜kである確立値(スコア):Pt[i](i=1〜k)、すなわち、
uIDt1=Pt[1]
uIDt2=Pt[2]
:
uIDtk=Pt[k]
これらのデータによって構成される。
ステップS105におけるターゲットデータの更新は、(a)ユーザ位置、(b)ユーザ確信度の各々について実行する。まず、(a)ユーザ位置の更新処理について説明する。
ユーザ位置の更新は、
(a1)全パーティクルの全ターゲットを対象とする更新処理、
(a2)各パーティクルに設定されたイベント発生源仮説ターゲットを対象とした更新処理、
これらの2段階の更新処理として実行する。
(a1)全パーティクルの全ターゲットを対象とする更新処理、
(a2)各パーティクルに設定されたイベント発生源仮説ターゲットを対象とした更新処理、
これらの2段階の更新処理として実行する。
(a1)全パーティクルの全ターゲットを対象とする更新処理は、イベント発生源仮説ターゲットとして選択されたターゲットおよびその他のターゲットのすべてを対象として実行する。この処理は、時間経過に伴うユーザ位置の分散が拡大するという仮定に基づいて実行され、前回の更新処理からの経過時間とイベントの位置情報によってカルマン・フィルタ(Kalman Filter)を用い更新される。
以下、位置情報が1次元の場合の更新処理例について説明する。まず、前回の更新処理時間からの経過時間[dt]とし、全ターゲットについての、dt後のユーザ位置の予測分布を計算する。すなわち、ユーザ位置の分布情報としてのガウス分布:N(mt,σt)の期待値(平均):[mt]、分散[σt]について、以下の更新を行う。
mt=mt+xc×dt
σt 2=σt 2+σc2×dt
なお、
mt:予測期待値(predicted state)
σt 2:予測共分散(predicted estimate covariance)
xc:移動情報(control model)
σc2:ノイズ(process noise)
である。
なお、ユーザが移動しない条件の下で処理する場合は、xc=0として更新処理を行うことができる。
上記の算出処理により、全ターゲットに含まれるユーザ位置情報としてのガウス分布:N(mt,σt)を更新する。
mt=mt+xc×dt
σt 2=σt 2+σc2×dt
なお、
mt:予測期待値(predicted state)
σt 2:予測共分散(predicted estimate covariance)
xc:移動情報(control model)
σc2:ノイズ(process noise)
である。
なお、ユーザが移動しない条件の下で処理する場合は、xc=0として更新処理を行うことができる。
上記の算出処理により、全ターゲットに含まれるユーザ位置情報としてのガウス分布:N(mt,σt)を更新する。
さらに、各パーティクルに1つ設定されているイベント発生源の仮説となったターゲットに関しては、音声イベント検出部122や画像イベント検出部112から入力するイベント情報に含まれるユーザ位置を示すガウス分布:N(me,σe)を用いた更新処理を実行する。
K:カルマンゲイン(Kalman Gain)
me:入力イベント情報:N(me,σe)に含まれる観測値(Observed state)
σe 2:入力イベント情報:N(me,σe)に含まれる観測値(Observed covariance)
として、以下の更新処理を行う。
K=σt 2/(σt 2+σe 2)
mt=mt+K(xc−mt)
σt 2=(1−K)σt 2
K:カルマンゲイン(Kalman Gain)
me:入力イベント情報:N(me,σe)に含まれる観測値(Observed state)
σe 2:入力イベント情報:N(me,σe)に含まれる観測値(Observed covariance)
として、以下の更新処理を行う。
K=σt 2/(σt 2+σe 2)
mt=mt+K(xc−mt)
σt 2=(1−K)σt 2
次に、ターゲットデータの更新処理として実行する(b)ユーザ確信度の更新処理について説明する。ターゲットデータには上記のユーザ位置情報の他に、各ターゲットが誰であるかを示すユーザ確信度情報(uID)として各ユーザ1〜kである確立値(スコア):Pt[i](i=1〜k)が含まれている。ステップS105では、このユーザ確信度情報(uID)についても更新処理を行う。
各パーティクルに含まれるターゲットのユーザ確信度情報(uID):Pt[i](i=1〜k)についての更新は、登録ユーザ全員分の事後確率と、音声イベント検出部122や画像イベント検出部112から入力するイベント情報に含まれるユーザ確信度情報(uID):Pe[i](i=1〜k)によって、予め設定した0〜1の範囲の値を持つ更新率[β]を適用して更新する。
ターゲットのユーザ確信度情報(uID):Pt[i](i=1〜k)についての更新は、以下の式によって実行する。
Pt[i]=(1−β)×Pt[i]+β*Pe[i]
ただし、
i=1〜k
β:0〜1
である。なお、更新率[β]は、0〜1の範囲の値であり予め設定する。
Pt[i]=(1−β)×Pt[i]+β*Pe[i]
ただし、
i=1〜k
β:0〜1
である。なお、更新率[β]は、0〜1の範囲の値であり予め設定する。
ステップS105では、この更新されたターゲットデータに含まれる以下のデータ、すなわち、
(a)ユーザ位置:各ターゲット各々に対応する存在位置の確率分布[ガウス分布:N(mt,σt)]、
(b)ユーザ確信度:各ターゲットが誰であるかを示すユーザ確信度情報(uID)として各ユーザ1〜kである確立値(スコア):Pt[i](i=1〜k)、すなわち、
uIDt1=Pt[1]
uIDt2=Pt[2]
:
uIDtk=Pt[k]
これらのデータと、各パーティクル重み[WpID]とに基づいて、ターゲット情報を生成して、処理決定部132に出力する。
(a)ユーザ位置:各ターゲット各々に対応する存在位置の確率分布[ガウス分布:N(mt,σt)]、
(b)ユーザ確信度:各ターゲットが誰であるかを示すユーザ確信度情報(uID)として各ユーザ1〜kである確立値(スコア):Pt[i](i=1〜k)、すなわち、
uIDt1=Pt[1]
uIDt2=Pt[2]
:
uIDtk=Pt[k]
これらのデータと、各パーティクル重み[WpID]とに基づいて、ターゲット情報を生成して、処理決定部132に出力する。
なお、ターゲット情報の生成は、図5を参照して説明したように、各パーティクル(PID=1〜m)に含まれる各ターゲット(tID=1〜n)対応データの重み付き総和データとして生成される。図5の右端のターゲット情報305に示すデータである。ターゲット情報は、各ターゲット(tID=1〜n)各々の
(a)ユーザ位置情報、
(b)ユーザ確信度情報、
これらの情報を含む情報として生成される。
(a)ユーザ位置情報、
(b)ユーザ確信度情報、
これらの情報を含む情報として生成される。
例えば、ターゲット(tID=1)に対応するターゲット情報中の、ユーザ位置情報は、
上記式で表される。上記式において、Wiは、パーティクル重み[WpID]を示している。
また、ターゲット(tID=1)に対応するターゲット情報中の、ユーザ確信度情報は、
上記式で表される。上記式において、Wiは、パーティクル重み[WpID]を示している。
音声・画像統合処理部131は、これらのターゲット情報をn個の各ターゲット(tID=1〜n)各々について算出し、算出したターゲット情報を処理決定部132に出力する。
音声・画像統合処理部131は、これらのターゲット情報をn個の各ターゲット(tID=1〜n)各々について算出し、算出したターゲット情報を処理決定部132に出力する。
次に、図7に示すフローのステップS106の処理について説明する。音声・画像統合処理部131は、ステップS106において、n個のターゲット(tID=1〜n)の各々がイベントの発生源である確率を算出し、これをシグナル情報として処理決定部132に出力する。
先に説明したように、イベント発生源を示す[シグナル情報]は、音声イベントについては、誰が話をしたか、すなわち[話者]を示すデータであり、画像イベントについては、画像に含まれる顔が誰であるかを示すデータである。
音声・画像統合処理部131は、各パーティクルに設定されたイベント発生源の仮説ターゲットの数に基づいて、各ターゲットがイベント発生源である確率を算出する。すなわち、ターゲット(tID=1〜n)の各々がイベント発生源である確率を[P(tID=i)とする。ただしi=1〜nである。このとき、各ターゲットがイベント発生源である確率は、以下のように算出される。
P(tID=1):tID=1を割り当てた数/m
P(tID=2):tID=2を割り当てた数/m
:
P(tID=n):tID=nを割り当てた数/m
音声・画像統合処理部131は、この算出処理によって、生成した情報、すなわち、各ターゲットがイベント発生源である確率を[シグナル情報]として、処理決定部132に出力する。
P(tID=1):tID=1を割り当てた数/m
P(tID=2):tID=2を割り当てた数/m
:
P(tID=n):tID=nを割り当てた数/m
音声・画像統合処理部131は、この算出処理によって、生成した情報、すなわち、各ターゲットがイベント発生源である確率を[シグナル情報]として、処理決定部132に出力する。
ステップS106の処理が終了したら、ステップS101に戻り、音声イベント検出部122および画像イベント検出部112からのイベント情報の入力の待機状態に移行する。
以上が、図7に示すフローのステップS101〜S106の説明である。ステップS101において、音声・画像統合処理部131が、音声イベント検出部122および画像イベント検出部112から、図3(B)に示すイベント情報を取得できなかった場合も、ステップS121において、各パーティクルに含まれるターゲットの構成データの更新が実行される。この更新は、時間経過に伴うユーザ位置の変化を考慮した処理である。
このターゲット更新処理は、先に、ステップS105の説明において(a1)全パーティクルの全ターゲットを対象とする更新処理と同様の処理であり、時間経過に伴うユーザ位置の分散が拡大するという仮定に基づいて実行され、前回の更新処理からの経過時間とイベントの位置情報によってカルマン・フィルタ(Kalman Filter)を用い更新される。
位置情報が1次元の場合の更新処理例について説明する。まず、前回の更新処理時間からの経過時間[dt]とし、全ターゲットについての、dt後のユーザ位置の予測分布を計算する。すなわち、ユーザ位置の分布情報としてのガウス分布:N(mt,σt)の期待値(平均):[mt]、分散[σt]について、以下の更新を行う。
mt=mt+xc×dt
σt 2=σt 2+σc2×dt
なお、
mt:予測期待値(predicted state)
σt 2:予測共分散(predicted estimate covariance)
xc:移動情報(control model)
σc2:ノイズ(process noise)
である。
なお、ユーザが移動しない条件の下で処理する場合は、xc=0として更新処理を行うことができる。
上記の算出処理により、全ターゲットに含まれるユーザ位置情報としてのガウス分布:N(mt,σt)を更新する。
mt=mt+xc×dt
σt 2=σt 2+σc2×dt
なお、
mt:予測期待値(predicted state)
σt 2:予測共分散(predicted estimate covariance)
xc:移動情報(control model)
σc2:ノイズ(process noise)
である。
なお、ユーザが移動しない条件の下で処理する場合は、xc=0として更新処理を行うことができる。
上記の算出処理により、全ターゲットに含まれるユーザ位置情報としてのガウス分布:N(mt,σt)を更新する。
なお、各パーティクルのターゲットに含まれるユーザ確信度情報(uID)については、イベントの登録ユーザ全員分の事後確率、もしくはイベント情報からスコア[Pe]が取得できない限りは更新しない。
ステップS121の処理が終了したら、ステップS101に戻り、音声イベント検出部122および画像イベント検出部112からのイベント情報の入力の待機状態に移行する。
以上、図7を参照して音声・画像統合処理部131の実行する処理について説明した。音声・画像統合処理部131は、図7に示すフローに従った処理を音声イベント検出部122および画像イベント検出部112からのイベント情報の入力ごとに繰り返し実行する。この繰り返し処理により、より信頼度の高いターゲットを仮説ターゲットとして設定したパーティクルの重みが大きくなり、パーティクル重みに基づくリサンプリング処理により、より重みの大きいパーティクルが残存することになる。結果として音声イベント検出部122および画像イベント検出部112から入力するイベント情報に類似する信頼度の高いデータが残存することになり、最終的に信頼度の高い以下の各情報、すなわち、
(a)複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての[ターゲット情報]、
(b)例えば話をしたユーザなどのイベント発生源を示す[シグナル情報]、
これらが生成されて処理決定部132に出力される。
(a)複数のユーザが、それぞれどこにいて、それらは誰であるかの推定情報としての[ターゲット情報]、
(b)例えば話をしたユーザなどのイベント発生源を示す[シグナル情報]、
これらが生成されて処理決定部132に出力される。
[ターゲットの生成および削除]
上述した実施例において、音声・画像統合処理部131では、予めm個のパーティクルにそれぞれn個のターゲットを設定して処理を行う構成を説明したが、ターゲットの数は、適宜変更する設定としてよい、すなわち、必要に応じて、新たなターゲットの生成や、ターゲットの削除を行う構成としてもよい。
上述した実施例において、音声・画像統合処理部131では、予めm個のパーティクルにそれぞれn個のターゲットを設定して処理を行う構成を説明したが、ターゲットの数は、適宜変更する設定としてよい、すなわち、必要に応じて、新たなターゲットの生成や、ターゲットの削除を行う構成としてもよい。
(ターゲットの生成)
まず、音声・画像統合処理部131における新たなターゲットの生成処理について、図11を参照して説明する。新たなターゲットの生成は、例えば各パーティクルに対するイベント発生源仮説の設定時に行う。
まず、音声・画像統合処理部131における新たなターゲットの生成処理について、図11を参照して説明する。新たなターゲットの生成は、例えば各パーティクルに対するイベント発生源仮説の設定時に行う。
イベントと既存のn個の各ターゲットとのイベント−ターゲット間尤度を計算する際、暫定的にn+1番目のターゲットとして図11に示すような「位置情報」、「識別情報」に一様分布(「分散が十分大きいガウス分布」と「全Pt[i]が等しいUserID分布」)に設定した新たな暫定新規ターゲット501を生成する。
この暫定的な新規ターゲット(tID=n+1)を設定した後、新たなイベントの入力に基づいて、図7を参照して説明したフローにおけるステップS102のイベント発生源仮説の設定が行われ、この処理の際に、入力イベント情報と各ターゲット間の尤度算出が実行されて、各ターゲットのターゲット重み[WtID]の算出が行われる。このとき、図11に示す暫定ターゲット(tID=n+1)についても、入力イベント情報との尤度算出を実行して、暫定的なn+1番目のターゲットのターゲット重み(Wn+1)を算出する。
この暫定的なn+1番目のターゲットのターゲット重み(Wn+1)が、既存のn個のターゲットのターゲット重み(W1〜Wn)より大きいと判断された場合は、その新規ターゲットを全パーティクルに対して設定する。
なお、例えばカメラの撮影する1つの画像中に複数の顔イベントがあり、1つ1つの顔イベントに対して、図7に示すフローの処理を行う構成において、1画像中の顔の数(=イベント数)が、各パーティクルに設定されたターゲット数(n)より少ない場合、tID=n+1の暫定ターゲットの重みWn+1が、他のターゲットの重み(W1〜Wn)より大きくなくても、そのまま新規ターゲットとして全パーティクルに対して生成する処理を行う構成としてしても良い。
なお、新規ターゲットが生成された場合、イベント発生源の仮説の生成は事前に計算したターゲット重み[WtID]に基づいて確率的に行っても良いし、全てのパーティクルにおいてイベント発生源の仮説を新規ターゲットにしても良い。
(ターゲットの削除)
次に、音声・画像統合処理部131におけるターゲットの削除処理について、図12を参照して説明する。ターゲットの削除は、例えば図7に示す処理フローにおけるステップS105のターゲットデータの更新処理に際して実行する。
次に、音声・画像統合処理部131におけるターゲットの削除処理について、図12を参照して説明する。ターゲットの削除は、例えば図7に示す処理フローにおけるステップS105のターゲットデータの更新処理に際して実行する。
ステップS105では、先に説明したように、ターゲットデータの更新を実行して更新されたターゲットデータと、各パーティクル重み[WpID]とに基づいて、ターゲット情報を生成して、処理決定部132に出力する処理が行われる。例えば図12に示すターゲット情報520が生成される。ターゲット情報は、各ターゲット(tID=1〜n)各々の
(a)ユーザ位置情報、
(b)ユーザ確信度情報、
これらの情報を含む情報として生成される。
(a)ユーザ位置情報、
(b)ユーザ確信度情報、
これらの情報を含む情報として生成される。
音声・画像統合処理部131は、このように更新ターゲットに基づいてして生成したターゲット情報中のユーザ位置情報に着目する。ユーザ位置情報は、ガウス分布N(m,σ)として設定される。このガウス分布に一定のピークが検出されない場合は、特定のユーザの位置を示す有効な情報とはならない。音声・画像統合処理部131は、このようなピークを持たない分布データとなるターゲットを削除対象として選択する。
例えば、図12に示すターゲット情報520には、ターゲット1,2,nの3つのターゲット情報521,522,523を示しているが、これらのターゲット情報中のユーザ位置を示すガウス分布データのピークと予め定めた閾値531との比較を実行し、閾値531以上のピークを持たないデータ、すなわち、図12の例では、ターゲット情報523を削除ターゲットとする。
この例ではターゲット(tID=n)が削除ターゲットとして選択され。すべてのパーティクルから削除される。このようにユーザ位置を示すガウス分布(確率密度分布)の最大値が、削除の閾値よりも小さいときに、全パーティクルに対してそのターゲットを削除する。なお、適用する閾値は、固定値でも良いし、インタラクション対象ターゲットに関しては閾値を下げて削除されにくくするなど、ターゲット毎に変える構成としてもよい。
[画像フレーム外に仮想ターゲットを生成する処理例]
上述した[ターゲットの生成および削除]の説明では、新たなターゲットの生成および削除構成について説明したが、図2に示す画像イベント検出部112において、画像入力部(カメラ)111から入力する画像情報、すなわちカメラの撮影している画像フレームの外にユーザが存在する場合は、そのユーザに対する画像イベントを取得できないため、画像イベントからそのターゲットを生成することはできないという問題がある。
上述した[ターゲットの生成および削除]の説明では、新たなターゲットの生成および削除構成について説明したが、図2に示す画像イベント検出部112において、画像入力部(カメラ)111から入力する画像情報、すなわちカメラの撮影している画像フレームの外にユーザが存在する場合は、そのユーザに対する画像イベントを取得できないため、画像イベントからそのターゲットを生成することはできないという問題がある。
そのような状態でそのユーザが音声イベントを発生しても、そのユーザ対応のターゲットが生成されず、カメラフレーム内の他のターゲットから音声イベントが発生したと推定してしまい、この場合、誤った推定結果を生成することになる。
すなわち、暫定的にn+1番目のターゲットとして図11に示すような「位置情報」と、「識別情報」として一様分布(「分散が十分大きいガウス分布」と「全Pt[i]が等しいUserID分布」)のデータを設定した新たな暫定新規ターゲット501を生成し、この暫定的な新規ターゲット(tID=n+1)を設定した後、新たなイベントの入力に基づいて、図7を参照して説明したフローにおけるステップS102のイベント発生源仮説の設定が行われ、この処理の際に、入力イベント情報と各ターゲット間の尤度算出を実行して、各ターゲットのターゲット重み[WtID]の算出を行う。
このとき、図11に示す暫定ターゲット(tID=n+1)についても、入力イベント情報との尤度算出を実行して、暫定的なn+1番目のターゲットのターゲット重み(Wn+1)を算出する。この暫定的なn+1番目のターゲットのターゲット重み(Wn+1)が、既存のn個のターゲットのターゲット重み(W1〜Wn)より大きいと判断された場合は、その新規ターゲットを全パーティクルに対して設定する構成である。
しかし、この方法を適用した場合、カメラフレーム外からの音声イベントのようにその位置情報の平均値と既に存在するターゲットの位置情報の平均値がある程度離れていても、位置情報の分散が大きい場合はガウス分布間尤度がそれほど小さくならない傾向がある。
その結果、システムがターゲットとして認識していないユーザ、すなわち、図2に示す画像入力部(カメラ)111から入力する画像フレームの外のユーザからの音声イベントであっても、「イベント」と「一様分布のターゲット(n+1)」間の尤度が最大にならずターゲットを生成することができないため、既に存在するターゲットのみで音声イベント発生源である確率の計算を行ってしまうことがある。
そこで、各パーティクルでのイベント発生源の仮説生成においてターゲットの生成を確認する際、画像フレーム外に仮想ターゲットを生成する。以下、この処理例について説明する。
本処理例では、バックグランドモデル(Background Model)として画像入力部(カメラ)111から入力する画像フレーム外に仮想のターゲットを配置し、「イベント」と「既に存在するターゲット(1〜n)と一様分布のターゲット」間の尤度計算に加え、画像フレーム外に仮想のターゲットを配置したバックグランドモデル(Background Model)の仮想ターゲットとも尤度計算を行う。なお、ユーザID間尤度の計算においては、一様分布のターゲットと同様、図11に示す「全Pt[i]が等しいUserID分布」を持つ一様のデータを用いる。
新たなターゲットの生成は、例えば各パーティクルに対するイベント発生源仮説の設定時に行う。イベントと既存のn個の各ターゲットとのイベント−ターゲット間尤度を計算する際、暫定的にn+1番目のターゲットとして、画像フレーム外に仮想のターゲットを配置したバックグランドモデル(Background Model)の暫定的な仮想ターゲット(tID=n+1)を生成する。
この暫定的な新規ターゲット(tID=n+1)を設定した後、新たなイベントの入力に基づいて、図7を参照して説明したフローにおけるステップS102のイベント発生源仮説の設定を行う。
すなわち、入力イベント情報と各ターゲット間の尤度算出を実行して各ターゲットのターゲット重み[WtID]の算出を行う際に、バックグランドモデル(Background Model)の暫定的な仮想ターゲット(tID=n+1)についても、入力イベント情報との尤度算出を実行して、暫定的なn+1番目のターゲットのターゲット重み(Wn+1)を算出する。
この暫定的なn+1番目のターゲットのターゲット重み(Wn+1)が、既存のn個のターゲットのターゲット重み(W1〜Wn)より大きいと判断された場合は、その新規ターゲットを全パーティクルに対して設定する。
図13に、画像フレーム外に仮想のターゲットを配置したバックグランドモデル(Background Model)を含めたイベント−ターゲット間尤度の計算例を示す。
図13(a)はイベント検出を行う実環境を示している。画像入力部(カメラ)111から入力する画像情報、すなわちカメラの撮影している画像フレーム601の外に声を発したユーザ611が存在する。
図13(b)は、図2に示す音声イベント検出部122において検出された音声イベント情報を示している。音声イベント検出部122は、複数の異なるポジションに配置された複数の音声入力部(マイク)121a〜dから入力する音声情報を解析し、音声の発生源の位置情報を確率分布データとして生成する。具体的には、音源方向に関する期待値と分散データN(me,σe)を生成する。また、予め登録されたユーザの声の特徴情報との比較処理に基づいてユーザ識別情報を生成する。この識別情報も確率的な推定値として生成する。音声イベント検出部122には、予め検証すべき複数のユーザの声についての特徴情報が登録されており、入力音声と登録音声との比較処理を実行して、どのユーザの声である確率が高いかを判定する処理を行い、全登録ユーザに対する事後確率、あるいはスコアを算出する。
図13(c)は、音声画像統合処理部131が保持する既存のn個のターゲット(tID=1〜n)と、暫定的にn+1番目のターゲットとして生成した(X),(Y),(Z)の3つのターゲットを示している。
ターゲット(X)は、先に図11を参照して説明した暫定的な新規ターゲット(tID=n+1)であり、「位置情報」、「識別情報」に一様分布(「分散が十分大きいガウス分布」と「全Pt[i]が等しいUserID分布」)に設定した新たな暫定新規ターゲットである。
ターゲット(Y),(Z)は、上述したバックグランドモデル(Background Model)のターゲットであり、画像フレーム外に仮想のターゲットを配置した新規ターゲット(ID=n+1)である。ターゲット(Y)は、「位置情報」が、画像フレームの外の左側の位置に高い存在確率を持つ情報であり、「識別情報」は、(X)の一様分布ターゲットと同様、「全Pt[i]が等しいUserID分布」を持つ一様のデータである。
ターゲット(Z)は、「位置情報」が、画像フレームの外の右側の位置に高い存在確率を持つ情報であり、「識別情報」は、(X)の一様分布ターゲットと同様、「全Pt[i]が等しいUserID分布」を持つ一様のデータである。
これらの暫定的な新規ターゲット(tID=n+1)を設定した後、新たなイベントの入力に基づいて、図7を参照して説明したフローにおけるステップS102のイベント発生源仮説の設定が行われ、この処理の際に、入力イベント情報と各ターゲット間の尤度算出が実行されて、各ターゲットのターゲット重み[WtID]の算出が行われる。このとき、図13に示す3つの暫定ターゲット(X),(Y),(Z)についても、入力イベント情報との尤度算出を実行して、暫定的なn+1番目のターゲットとしてのターゲット重み(Wn+1)を算出する。
この暫定的なn+1番目のターゲット(X),(Y),(Z)のいずれかのターゲット重み(Wn+1)が、既存のn個のターゲットのターゲット重み(W1〜Wn)より大きいと判断された場合は、その新規ターゲットを全パーティクルに対して設定する。
ターゲット重みの算出例を図14に示す。ターゲット重みは、図14の右端に示すように、各パーティクルに設定されるターゲット1〜nの各々に対応するn個のターゲット重みの算出処理として実行される。このn個のターゲット重みの算出処理に際しては、先に図8を参照して説明したように、まず、入力イベント情報、すなわち、音声・画像統合処理部131が、音声イベント検出部122および画像イベント検出部112から入力したイベント情報と、各パーティクルの各ターゲットデータとの類似度の指標値としての尤度算出を行う。
図8を参照して説明したように、尤度算出処理は、
(a)ユーザ位置情報についてのイベントと、ターゲットデータとの類似度データとしてのガウス分布間尤度[DL]、
(b)ユーザ識別情報(顔識別情報または話者識別情報)についてのイベントと、ターゲットデータとの類似度データとしてのユーザ確信度情報(uID)間尤度[UL]
これらを個別に算出する。
(a)ユーザ位置情報についてのイベントと、ターゲットデータとの類似度データとしてのガウス分布間尤度[DL]、
(b)ユーザ識別情報(顔識別情報または話者識別情報)についてのイベントと、ターゲットデータとの類似度データとしてのユーザ確信度情報(uID)間尤度[UL]
これらを個別に算出する。
次に、入力イベント情報とあるパーティクル(pID)が持つ1つのターゲット(tID)との類似度の指標としてのイベント−ターゲット間尤度[LpID,tID]は、上記の2つの尤度、すなわち、
ガウス分布間尤度[DL]と、
ユーザ確信度情報(uID)間尤度[UL]
これら2つの尤度を利用して算出する。すなわち重みα(α=0〜1)を用いて、イベント−ターゲット間尤度[LpID,tID]は下式によって算出する。
[LpID,tID]=ULα×DL1−α
としてイベントとターゲットとの類似度の指標であるイベント−ターゲット間尤度[LpID,tID]を算出する。
ただし、α=0〜1とする。
ガウス分布間尤度[DL]と、
ユーザ確信度情報(uID)間尤度[UL]
これら2つの尤度を利用して算出する。すなわち重みα(α=0〜1)を用いて、イベント−ターゲット間尤度[LpID,tID]は下式によって算出する。
[LpID,tID]=ULα×DL1−α
としてイベントとターゲットとの類似度の指標であるイベント−ターゲット間尤度[LpID,tID]を算出する。
ただし、α=0〜1とする。
このイベント−ターゲット間尤度[LpID,tID]を、各パーティクルの各ターゲットについて各々算出し、このイベント−ターゲット間尤度[LpID,tID]に基づいて各ターゲットのターゲット重み[WtID]を算出する。
イベント−ターゲット間尤度[LpID,tID]に基づく、ターゲット重み[WtID]の算出式は、先に説明した通り、以下の算出式である。
図14に示すターゲット重みの算出例において、上段に記載のW1〜Wnは、すでに設定済みのターゲットについて算出したイベント−ターゲット間尤度である。下段の(X),(Y),(Z)として示す3つのWn+1は、図13を参照して説明した暫定的な新規ターゲット(tID=n+1)に対応するイベント−ターゲット間尤度である。
すなわち、(X)は、「位置情報」、「識別情報」に一様分布(「分散が十分大きいガウス分布」と「全Pt[i]が等しいUserID分布」)に設定した新たな暫定新規ターゲット、(Y),(Z)は、上述したバックグランドモデル(Background Model)のターゲットであり、画像フレーム外に仮想のターゲットを配置した新規ターゲット(ID=n+1)であり、これらに対応するイベント−ターゲット間尤度も算出する。
この暫定的なn+1番目のターゲット(X),(Y),(Z)のいずれかのターゲット重み(Wn+1)が、既存のn個のターゲットのターゲット重み(W1〜Wn)より大きいと判断された場合は、その新規ターゲットを全パーティクルに対して設定する。
なお、ターゲット生成確認時に用いたカメラフレーム外に仮想のターゲットは、他の処理では用いない。この処理例に従えば、カメラによって撮影された画像フレーム外のユーザからの音声イベントに対して、各ターゲットがイベント発生源である確率推定の性能が向上する。
このように、本処理例では、図1に示す情報処理装置100の音声・画像統合処理部131がイベント検出部112,122の生成するイベント情報を入力し、仮想的なユーザに対応する複数のターゲットを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報を生成する構成を有し、カメラの取得する画像フレームの外部に仮想ターゲットを設定した暫定ターゲットとイベント検出部112,122の生成するイベント情報との尤度が、画像フレームの内部にターゲットを設定した既存ターゲットに対応するイベント−ターゲット間尤度より大きい値である場合に、暫定ターゲットを各パーティクルに新規追加する処理を行う。
また、音声・画像統合処理部131は、暫定ターゲットとして、図13、図14を参照して説明したように、
(X)均一データによって構成されるユーザ位置情報、ユーザ識別情報を持つ暫定ターゲット
(Y),(Z)画像フレームの異なる方向のフレーム外部位置に仮想ターゲットを設定した複数の異なる暫定ターゲット
これらの異なるタイプの暫定ターゲットを生成し、生成した複数の暫定ターゲットとイベント情報との尤度を個別に算出して、算出した暫定ターゲットのイベント−ターゲット間尤度の最大値が、既存ターゲットに対応するイベント−ターゲット間尤度より大きい値を有する場合に、その最大値に対応する暫定ターゲットを各パーティクルに新規追加する処理を行う。本構成により、カメラの取得する画像フレームの外部にいるユーザからの音声入力イベントに対応した正しい推定処理が可能となり、ユーザ位置やユーザ識別情報を効率的に確実に生成することが可能となる。
(X)均一データによって構成されるユーザ位置情報、ユーザ識別情報を持つ暫定ターゲット
(Y),(Z)画像フレームの異なる方向のフレーム外部位置に仮想ターゲットを設定した複数の異なる暫定ターゲット
これらの異なるタイプの暫定ターゲットを生成し、生成した複数の暫定ターゲットとイベント情報との尤度を個別に算出して、算出した暫定ターゲットのイベント−ターゲット間尤度の最大値が、既存ターゲットに対応するイベント−ターゲット間尤度より大きい値を有する場合に、その最大値に対応する暫定ターゲットを各パーティクルに新規追加する処理を行う。本構成により、カメラの取得する画像フレームの外部にいるユーザからの音声入力イベントに対応した正しい推定処理が可能となり、ユーザ位置やユーザ識別情報を効率的に確実に生成することが可能となる。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の一実施例の構成によれば、カメラやマイクによって取得される画像情報や音声情報に基づいてユーザの推定位置および推定識別データを含むイベント情報を入力して、複数のターゲットを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を行い、フィルタリングによる仮説の更新および取捨選択に基づいてユーザの位置および識別情報を生成する。また、カメラの取得する画像フレームの外部に仮想ターゲットを設定した暫定ターゲットとイベント検出部の生成するイベント情報との尤度が、画像フレームの内部にターゲットを設定した既存ターゲットに対応するイベント−ターゲット間尤度より大きい値である場合に、暫定ターゲットを各パーティクルに新規追加する処理を行う。本構成により、カメラの取得する画像フレームの外部にいるユーザからの音声入力イベントに対応した正しい推定処理が可能となり、ユーザ位置やユーザ識別情報を効率的に確実に生成することが可能となる。
11〜14 ユーザ
21 カメラ
31〜34 マイク
100 情報処理装置
111 画像入力部
112 画像イベント検出部
121 音声入力部
122 音声イベント検出部
131 音声・画像統合処理部
132 処理決定部
201〜20k ユーザ
301 ユーザ
302 画像データ
305 ターゲット情報
311 ターゲットデータ
401 イベント情報
411〜413 パーティクル
421〜423 ターゲット
501 暫定新規ターゲット
520 ターゲット情報
521〜523 ターゲット情報
531 閾値
601 画像フレーム
611 ユーザ
21 カメラ
31〜34 マイク
100 情報処理装置
111 画像入力部
112 画像イベント検出部
121 音声入力部
122 音声イベント検出部
131 音声・画像統合処理部
132 処理決定部
201〜20k ユーザ
301 ユーザ
302 画像データ
305 ターゲット情報
311 ターゲットデータ
401 イベント情報
411〜413 パーティクル
421〜423 ターゲット
501 暫定新規ターゲット
520 ターゲット情報
521〜523 ターゲット情報
531 閾値
601 画像フレーム
611 ユーザ
Claims (25)
- 実空間における画像情報または音声情報のいずれかを含む情報を入力する複数の情報入力部と、
前記情報入力部から入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出部と、
ユーザの位置および識別情報についての仮説(Hypothesis)の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報の生成を実行する情報統合処理部を有し、
前記情報統合処理部は、
前記イベント検出部の生成するイベント情報を入力し、仮想的なユーザに対応する複数のターゲットを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報を生成する構成を有し、前記情報入力部を構成するカメラの取得する画像フレームの外部に仮想ターゲットを設定した暫定ターゲットと前記イベント検出部の生成するイベント情報との尤度が、画像フレームの内部にターゲットを設定した既存ターゲットに対応するイベント−ターゲット間尤度より大きい値である場合に、前記暫定ターゲットを各パーティクルに新規追加する処理を行うことを特徴とする情報処理装置。 - 前記情報統合処理部は、
前記画像フレームの外部に仮想ターゲットを設定した暫定ターゲットとして、画像フレームの異なる方向のフレーム外部位置に仮想ターゲットを設定した複数の異なる暫定ターゲットを生成し、生成した複数の暫定ターゲットと前記イベント情報との尤度を個別に算出して、算出した暫定ターゲットのイベント−ターゲット間尤度の最大値が、既存ターゲットに対応するイベント−ターゲット間尤度より大きい値を有する場合に、その最大値に対応する暫定ターゲットを各パーティクルに新規追加する処理を行うことを特徴とする請求項1に記載の情報処理装置。 - 前記情報統合処理部は、
前記情報入力部を構成するカメラの取得する画像フレームの外部に仮想ターゲットを設定した暫定ターゲットの他、均一データによって構成されるユーザ位置情報、ユーザ識別情報を持つ暫定ターゲットを生成し、生成した複数の暫定ターゲットと前記イベント情報との尤度を個別に算出し、算出した暫定ターゲットのイベント−ターゲット間尤度の最大値が、既存ターゲットに対応するイベント−ターゲット間尤度より大きい値を有する場合に、その最大値に対応する暫定ターゲットを各パーティクルに新規追加する処理を行うことを特徴とする請求項1に記載の情報処理装置。 - 前記イベント検出部は、
ガウス分布からなるユーザの推定位置情報と、ユーザ対応の確率値を示すユーザ確信度情報を含むイベント情報を生成する構成であり、
前記情報統合処理部は、
仮想的なユーザに対応するガウス分布からなるユーザ位置情報と、ユーザ対応の確率値を示すユーザの確信度情報を有するターゲットを複数設定したパーティクルを保持し、各パーティクルに設定されたターゲットと、前記イベント情報との類似度の指標値であるイベント−ターゲット間尤度を算出して、イベント−ターゲット間尤度の高いターゲットを優先的にイベント発生源仮説ターゲットとしたパーティクル設定処理を実行する構成であることを特徴とする請求項1〜3いずれかに記載の情報処理装置。 - 前記情報統合処理部は、
前記イベント−ターゲット間尤度と、各パーティクルに設定したパーティクル重みとの総和データをターゲット重みとして算出し、ターゲット重みの大きいターゲットを優先的にイベント発生源仮説ターゲットとしたパーティクル設定処理を実行する構成であることを特徴とする請求項4に記載の情報処理装置。 - 前記情報統合処理部は、
各パーティクルに設定したイベント発生源仮説ターゲットと、前記イベント検出部から入力するイベント情報との尤度を算出し、該尤度の大小に応じた値をパーティクル重みとして各パーティクルに設定する構成であることを特徴とする請求項4に記載の情報処理装置。 - 前記情報統合処理部は、
前記パーティクル重みの大きいパーティクルを優先的に再選択するリサンプリング処理を実行して、パーティクルの更新処理を行う構成であることを特徴とする請求項6に記載の情報処理装置。 - 前記情報統合処理部は、
各パーティクルに設定したターゲットについて、経過時間を考慮した更新処理を実行する構成であることを特徴とする請求項1〜3いずれかに記載の情報処理装置。 - 前記情報統合処理部は、
各パーティクルに設定したイベント発生源仮説ターゲットについて、前記イベント検出部の生成するイベント情報を適用した更新処理を行う構成であることを特徴とする請求項4に記載の情報処理装置。 - 前記情報統合処理部は、
前記パーティクルの各々に設定したターゲットデータと前記パーティクル重みとの積算総和を、各ターゲット対応のユーザ位置情報およびユーザ識別情報としたターゲット情報を生成する構成であることを特徴とする請求項6に記載の情報処理装置。 - 前記情報統合処理部は、
前記パーティクルの各々に設定したイベント発生源仮説ターゲットの数に応じて、イベント発生源の確率値としてのシクナル情報の生成を行う構成であることを特徴とする請求項4に記載の情報処理装置。 - 前記情報統合処理部は、
前記パーティクルの各々に設定したターゲットデータと前記パーティクル重みとの積算総和に含まれるユーザ位置情報としてのガウス分布データのピーク値が予め設定した閾値未満である場合に、該ターゲットを削除する処理を実行する構成であることを特徴とする請求項6に記載の情報処理装置。 - 情報処理装置において情報解析処理を実行する情報処理方法であり、
複数の情報入力部が、実空間における画像情報または音声情報のいずれかを含む情報を入力する情報入力ステップと、
イベント検出部が、前記情報入力ステップにおいて入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成するイベント検出ステップと、
情報統合処理部が、ユーザの位置および識別情報についての仮説(Hypothesis)の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報の生成を実行する情報統合処理ステップを有し、
前記情報統合処理ステップは、
前記イベント検出部の生成するイベント情報を入力し、仮想的なユーザに対応する複数のターゲットを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報を生成する構成を有し、前記情報入力部を構成するカメラの取得する画像フレームの外部に仮想ターゲットを設定した暫定ターゲットと前記イベント検出部の生成するイベント情報との尤度が、画像フレームの内部にターゲットを設定した既存ターゲットに対応するイベント−ターゲット間尤度より大きい値である場合に、前記暫定ターゲットを各パーティクルに新規追加する処理を行うステップであることを特徴とする情報処理方法。 - 前記情報統合処理ステップは、
前記画像フレームの外部に仮想ターゲットを設定した暫定ターゲットとして、画像フレームの異なる方向のフレーム外部位置に仮想ターゲットを設定した複数の異なる暫定ターゲットを生成し、生成した複数の暫定ターゲットと前記イベント情報との尤度を個別に算出して、算出した暫定ターゲットのイベント−ターゲット間尤度の最大値が、既存ターゲットに対応するイベント−ターゲット間尤度より大きい値を有する場合に、その最大値に対応する暫定ターゲットを各パーティクルに新規追加する処理を行うステップであることを特徴とする請求項13に記載の情報処理方法。 - 前記情報統合処理ステップは、
前記情報入力部を構成するカメラの取得する画像フレームの外部に仮想ターゲットを設定した暫定ターゲットの他、均一データによって構成されるユーザ位置情報、ユーザ識別情報を持つ暫定ターゲットを生成し、生成した複数の暫定ターゲットと前記イベント情報との尤度を個別に算出し、算出した暫定ターゲットのイベント−ターゲット間尤度の最大値が、既存ターゲットに対応するイベント−ターゲット間尤度より大きい値を有する場合に、その最大値に対応する暫定ターゲットを各パーティクルに新規追加する処理を行うステップであることを特徴とする請求項13に記載の情報処理方法。 - 前記イベント検出ステップは、
ガウス分布からなるユーザの推定位置情報と、ユーザ対応の確率値を示すユーザ確信度情報を含むイベント情報を生成するステップであり、
前記情報統合処理部は、仮想的なユーザに対応するガウス分布からなるユーザ位置情報と、ユーザ対応の確率値を示すユーザの確信度情報を有するターゲットを複数設定したパーティクルを保持し、
前記情報統合処理ステップは、
各パーティクルに設定されたターゲットと、前記イベント情報との類似度の指標値であるイベント−ターゲット間尤度を算出して、イベント−ターゲット間尤度の高いターゲットを優先的にイベント発生源仮説ターゲットとしたパーティクル設定処理を実行するステップであることを特徴とする請求項13〜15いずれかに記載の情報処理方法。 - 前記情報統合処理ステップは、
前記イベント−ターゲット間尤度と、各パーティクルに設定したパーティクル重みとの総和データをターゲット重みとして算出し、ターゲット重みの大きいターゲットを優先的にイベント発生源仮説ターゲットとしたパーティクル設定処理を実行するステップであることを特徴とする請求項16に記載の情報処理方法。 - 前記情報統合処理ステップは、
各パーティクルに設定したイベント発生源仮説ターゲットと、前記イベント検出部から入力するイベント情報との尤度を算出し、該尤度の大小に応じた値をパーティクル重みとして各パーティクルに設定するステップであることを特徴とする請求項16に記載の情報処理方法。 - 前記情報統合処理ステップは、
前記パーティクル重みの大きいパーティクルを優先的に再選択するリサンプリング処理を実行して、パーティクルの更新処理を行うステップであることを特徴とする請求項18に記載の情報処理方法。 - 前記情報統合処理ステップは、
各パーティクルに設定したターゲットについて、経過時間を考慮した更新処理を実行するステップであることを特徴とする請求項13〜15いずれかに記載の情報処理方法。 - 前記情報統合処理ステップは、
各パーティクルに設定したイベント発生源仮説ターゲットについて、前記イベント検出部の生成するイベント情報を適用した更新処理を行うステップであることを特徴とする請求項16に記載の情報処理方法。 - 前記情報統合処理ステップは、
前記パーティクルの各々に設定したターゲットデータと前記パーティクル重みとの積算総和を、各ターゲット対応のユーザ位置情報およびユーザ識別情報としたターゲット情報を生成するステップであることを特徴とする請求項18に記載の情報処理方法。 - 前記情報統合処理ステップは、
前記パーティクルの各々に設定したイベント発生源仮説ターゲットの数に応じて、イベント発生源の確率値としてのシクナル情報の生成を行うステップであることを特徴とする請求項16に記載の情報処理方法。 - 前記情報統合処理ステップは、
前記パーティクルの各々に設定したターゲットデータと前記パーティクル重みとの積算総和に含まれるユーザ位置情報としてのガウス分布データのピーク値が予め設定した閾値未満である場合に、該ターゲットを削除する処理を実行するステップを含むことを特徴とする請求項18に記載の情報処理方法。 - 情報処理装置において情報解析処理を実行させるコンピュータ・プログラムであり、
複数の情報入力部に、実空間における画像情報または音声情報のいずれかを含む情報を入力させる情報入力ステップと、
イベント検出部に、前記情報入力ステップにおいて入力する情報の解析により、前記実空間に存在するユーザの推定位置情報および推定識別情報を含むイベント情報を生成させるイベント検出ステップと、
情報統合処理部に、ユーザの位置および識別情報についての仮説(Hypothesis)の確率分布データを設定し、前記イベント情報に基づく仮説の更新および取捨選択により、前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報の生成を実行させる情報統合処理ステップを有し、
前記情報統合処理ステップは、
前記イベント検出部の生成するイベント情報を入力し、仮想的なユーザに対応する複数のターゲットを設定した複数のパーティクルを適用したパーティクルフィルタリング処理を実行して前記実空間に存在するユーザのユーザ位置情報およびユーザ識別情報を含む解析情報を生成する構成を有し、前記情報入力部を構成するカメラの取得する画像フレームの外部に仮想ターゲットを設定した暫定ターゲットと前記イベント検出部の生成するイベント情報との尤度が、画像フレームの内部にターゲットを設定した既存ターゲットに対応するイベント−ターゲット間尤度より大きい値である場合に、前記暫定ターゲットを各パーティクルに新規追加する処理を行わせるステップであることを特徴とするコンピュータ・プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007205646A JP2009042910A (ja) | 2007-08-07 | 2007-08-07 | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007205646A JP2009042910A (ja) | 2007-08-07 | 2007-08-07 | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009042910A true JP2009042910A (ja) | 2009-02-26 |
JP2009042910A5 JP2009042910A5 (ja) | 2010-09-16 |
Family
ID=40443613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007205646A Abandoned JP2009042910A (ja) | 2007-08-07 | 2007-08-07 | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009042910A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009140366A (ja) * | 2007-12-07 | 2009-06-25 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
JP2010226656A (ja) * | 2009-03-25 | 2010-10-07 | Canon Inc | 情報処理装置、制御方法及びプログラム |
JP2012525625A (ja) * | 2009-04-30 | 2012-10-22 | サムスン エレクトロニクス カンパニー リミテッド | マルチモーダル情報を用いるユーザ意図推論装置及び方法 |
JP2012234466A (ja) * | 2011-05-09 | 2012-11-29 | Nippon Telegr & Teleph Corp <Ntt> | 状態追跡装置、方法、及びプログラム |
JP2015191261A (ja) * | 2014-03-27 | 2015-11-02 | 株式会社メガチップス | 状態推定装置、プログラムおよび集積回路 |
WO2018168427A1 (ja) * | 2017-03-13 | 2018-09-20 | ソニー株式会社 | 学習装置、学習方法、音声合成装置、音声合成方法 |
-
2007
- 2007-08-07 JP JP2007205646A patent/JP2009042910A/ja not_active Abandoned
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009140366A (ja) * | 2007-12-07 | 2009-06-25 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
JP2010226656A (ja) * | 2009-03-25 | 2010-10-07 | Canon Inc | 情報処理装置、制御方法及びプログラム |
JP2012525625A (ja) * | 2009-04-30 | 2012-10-22 | サムスン エレクトロニクス カンパニー リミテッド | マルチモーダル情報を用いるユーザ意図推論装置及び方法 |
JP2012234466A (ja) * | 2011-05-09 | 2012-11-29 | Nippon Telegr & Teleph Corp <Ntt> | 状態追跡装置、方法、及びプログラム |
JP2015191261A (ja) * | 2014-03-27 | 2015-11-02 | 株式会社メガチップス | 状態推定装置、プログラムおよび集積回路 |
WO2018168427A1 (ja) * | 2017-03-13 | 2018-09-20 | ソニー株式会社 | 学習装置、学習方法、音声合成装置、音声合成方法 |
JPWO2018168427A1 (ja) * | 2017-03-13 | 2020-01-09 | ソニー株式会社 | 学習装置、学習方法、音声合成装置、音声合成方法 |
US11335322B2 (en) | 2017-03-13 | 2022-05-17 | Sony Corporation | Learning device, learning method, voice synthesis device, and voice synthesis method |
JP7070544B2 (ja) | 2017-03-13 | 2022-05-18 | ソニーグループ株式会社 | 学習装置、学習方法、音声合成装置、音声合成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4462339B2 (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
JP2009031951A (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
JP4730404B2 (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
US20110224978A1 (en) | Information processing device, information processing method and program | |
JP2013104938A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP2012038131A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP2010165305A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
CN112088315B (zh) | 多模式语音定位 | |
ES2540995T3 (es) | Sistema y método para reconocer un comando de voz de usuario en un entorno con ruido | |
JP5644772B2 (ja) | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム | |
KR101749100B1 (ko) | 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법 | |
KR102230667B1 (ko) | 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치 | |
JP2009042910A (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
JP2017228224A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN111916061A (zh) | 语音端点检测方法、装置、可读存储介质及电子设备 | |
WO2019171780A1 (ja) | 個人識別装置および特徴収集装置 | |
JP2013257418A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
US11460927B2 (en) | Auto-framing through speech and video localizations | |
JP4730812B2 (ja) | 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体 | |
JP7511374B2 (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム | |
JP2015177490A (ja) | 映像音声処理システム、情報処理装置、映像音声処理方法、及び映像音声処理プログラム | |
Sharma et al. | Real Time Online Visual End Point Detection Using Unidirectional LSTM. | |
Hui et al. | RBF neural network mouth tracking for audio-visual speech recognition system | |
JP2022126962A (ja) | 発話内容認識装置、学習データ収集システム、方法及びプログラム | |
Korchagin et al. | Multimodal cue detection engine for orchestrated entertainment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100730 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100730 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20130208 |