しかし、上述した、従来技術に示されている画像データの解析処理は、いずれも撮影画像データに基づく極めて複雑なアルゴリズムによる解析を必要とするものであり、効率的な処理とは言えず、専用のシステムの構築の必要性、コスト高、処理負荷が大きいといった問題がある。例えば、特許文献1に記載された処理は、複数の撮影角度より撮影された複数の二次元画像における各画素毎の動きの方向と強さを算出し、算出された動きの強さが所定値以上の領域を特定し、特定された特定領域を複数の二次元画像に対して対応させ、特定領域の三次元の位置と上記特定領域の三次元の動きとを算出する手順と、算出された特定領域の動きが撮影対象のどの部位に対応しているかを推定する手順という処理を必要とするものである。
また、特許文献2に記載の技術は、撮影画像の顔の領域からエッジ情報を抽出し、エッジ情報に基づいて、人の顔における目の位置を推定し、推定した画像中の濃淡画像を生成して、目における黒目の位置を解析して視線方向を算出するとともに、目の位置の上下方向に動き量が閾値以上である場合にうなずきがあったと判定する処理を実行するものであり、取得画像のエッジ画像生成、目の位置の算出、濃淡画像の生成など多くの処理工程が必要となるという問題がある。
本発明は、このような問題点を解決し、簡易な画像データの解析により効率的に被写体の動きを解析することを可能とした画像解析装置、および画像解析方法、並びにコンピュータ・プログラムを提供することを目的とする。
さらに、詳細には、カメラによる撮影画像から人の顔領域などの特定領域を抽出し、特定領域の位置データなど簡易なデータによって構成されるルールとの照合を実行して、被写体の動きを識別する画像解析装置、および画像解析方法、並びにコンピュータ・プログラムを提供するものである。
本発明の第1の側面は、画像解析装置であり、入力画像データから画像特徴を抽出する特徴抽出部と、画像特徴に関する複数の画像態様定義情報を格納した記憶部と、各入力画像データの画像特徴と一致する画像態様定義情報を前記記憶部から選択し、該選択情報を入力画像データ対応の定義情報として設定する定義情報照合部と、前記定義情報照合部において入力画像データに対応付けられた定義情報に基づいて、前記画像特徴を含む被写体の画像態様を識別する画像識別処理部と、を有することを特徴とする画像解析装置にある。
本構成によれば、入力画像データから画像特徴を抽出し、その画像特徴と、画像特徴に関する複数の画像態様定義情報との照合を行なって画像データの被写体情報の解析を行なう構成であるので、画像全体のマッチングなどを実行する必要がなく、簡略化した効率的な処理による被写体の姿勢や動作の判定が可能となる。
さらに、本発明の画像解析装置の一実施態様において、前記画像態様定義情報は、前記画像特徴を定義した簡易なルールの記述情報として構成されていることを特徴とする。
本構成によれば、新たな画像態様定義情報の追加が容易であり、様々な被写体の姿勢や動作に応じた定義情報を設定して画像解析を行うことが可能となる。
さらに、本発明の画像解析装置の一実施態様において、前記入力画像データは、動画像を構成する時系列に従った画像列であることを特徴とする。
本構成によれば、動画像を構成する時系列に従った画像列の解析により、被写体の起立する動作、挙手する動作など、時間軸に沿った被写体の動作を解析することが可能となる。
さらに、本発明の画像解析装置の一実施態様において、前記画像解析装置は、さらに、動画像を構成する時系列に従った画像列を構成する画像フレームから被写体の動きを検出する動き検出部を有し、前記特徴抽出部は、前記動き検出部においてフレーム間で動きの検出された領域を画像特徴領域として抽出する処理を実行する構成であり、前記ルール照合部は、動きの検出された画像特徴領域を含む画像フレームについて、画像態様定義情報との対応付け処理を実行する構成であることを特徴とする。
本構成によれば、動きの検出された領域のみを特徴領域として抽出し、その特徴領域の表示態様と、各種の特徴領域態様を定義した画像態様定義情報との照合を行なって画像の被写体情報の解析を行なう構成であるので、動き部分以外のデータの処理に対応する負荷の削減が可能となり効率的な被写体の動作判定が可能となる。
さらに、本発明の画像解析装置の一実施態様において、前記画像態様定義情報は、画像特徴を定義した簡易なルールの記述情報であり、特定領域の位置情報、特定領域のアスペクト比情報、特定領域のサイズ情報、特定領域の重心位置情報、特定領域間の距離情報、これらの各情報の少なくともいずれかの条件を定めた定義データであることを特徴とする。
本構成によれば、画像態様定義情報としての位置情報、アスペクト比情報、サイズ情報などを規定した簡易なルールとの照合を行なって画像フレームの被写体情報の解析を行なう構成であるので効率的な被写体の動作判定が可能となる。
さらに、本発明の画像解析装置の一実施態様において、前記画像態様定義情報は、前記画像特徴の態様を定義した条件式によって構成された情報であることを特徴とする。
本構成によれば、画像特徴と、位置情報、サイズ情報など定めた条件式との照合を行なって画像の被写体情報の解析を行なう構成であるので効率的な被写体の動作判定が可能となる。
さらに、本発明の画像解析装置の一実施態様において、前記画像識別処理部は、前記ルール照合部において動画像を構成する時系列に従った複数の画像フレームに対応付けられた画像態様定義情報の時系列シーケンスデータに基づいて、前記被写体の動作判定を実行する構成であることを特徴とする。
本構成によれば、複数の画像フレームの連続的な特定領域の表示態様の変遷に基づく動作判定を行なう構成であるので、動画像においても正確な被写体情報の動作解析が可能となる。
さらに、本発明の画像解析装置の一実施態様において、前記特徴抽出部は、画像データのカラー判別処理に基づいて入力画像データにおける特徴抽出を実行する構成であることを特徴とする。
本構成によれば、入力画像からの特徴抽出を画像データのカラー判別処理によって実行するので、例えば専用の顔解析装置などのシステムを用いることなく、エラーの少ない特徴抽出が可能となる。
さらに、本発明の画像解析装置の一実施態様において、入力画像データのカラー判別により人物のスキン(皮膚)領域と推定される部分を抽出するとともに、画像フレームから被写体の動きを検出する動き検出部からの情報に基づいて、フレーム間での動きが検出された領域を特徴領域として抽出し、前記ルール照合部は、入力画像データにおける特徴領域であるスキン領域の画像態様と一致する画像態様定義情報を選択し、該選択情報を画像フレーム対応の画像態様定義情報として設定し、前記画像識別処理部は、前記ルール照合部において画像フレームに対応付けられた画像態様定義情報に基づいて、前記特徴領域を構成要素とする人物の姿勢または動作識別処理を実行する構成であることを特徴とする。
本構成によれば、入力画像から特定領域として、人物の顔や手などのスキン領域を選択抽出し、その画像におけるスキン領域の表示態様と、各種の特徴領域の態様を定義した画像態様定義情報との照合を行なって画像の被写体解析を行なう構成であるので、人物の挙手動作や、起立動作、着席動作などの動作を簡易にかつ正確に判定することが可能となる。
さらに、本発明の第2の側面は、被写体を示す入力画像データから特徴を抽出する特徴抽出部と、画像特徴の態様を定義した定義情報を記憶する記憶部と、入力画像データと前記定義情報とを照合し、当該定義情報に基づいて被写体を識別する照合識別部とを具備することを特徴とする画像解析装置にある。
本構成によれば、入力画像データから画像特徴を抽出し、その画像特徴と、画像特徴に関する複数の画像態様定義情報との照合を行なって画像データの被写体情報の解析を行なう構成であるので、画像全体のマッチングなどを実行する必要がなく、簡略化した効率的な処理による被写体の姿勢や動作の判定が可能となる。
さらに、本発明の画像解析装置の一実施態様において、前記特徴抽出部は、前記特徴として前記被写体の少なくとも一部の特徴を示す特徴要素を抽出する構成である。
本構成によれば、被写体の少なくとも一部の特徴に基づく被写体の識別が実行され、被写体の姿勢や動作判定が確実に実行される。
さらに、本発明の画像解析装置の一実施態様において、前記画像特徴の態様は、前記被写体の少なくとも一部の特徴を示す特徴要素を含むものである。
本構成によれば、被写体の少なくとも一部の特徴に基づく被写体の識別が実行され、被写体の姿勢や動作判定が確実に実行される。
さらに、本発明の画像解析装置の一実施態様において、前記特徴要素は、画像上の領域を示すものである。
本構成によれば、例えば人物の顔や手などの画像上の領域に基づく被写体の識別が実行され、被写体の姿勢や動作判定が確実に実行される。
さらに、本発明の画像解析装置の一実施態様において、前記定義情報は、前記画像特徴を定義した簡易なルールの記述情報として構成されていることを特徴とする。
本構成によれば、新たな画像態様定義情報の追加が容易であり、様々な被写体の姿勢や動作に応じた定義情報を設定して画像解析を行うことが可能となる。
さらに、本発明の画像解析装置の一実施態様において、前記入力画像データは、動画像を構成する時系列に従った画像列であることを特徴とする。
本構成によれば、動画像を構成する時系列に従った画像列の解析により、被写体の起立する動作、挙手する動作など、時間軸に沿った被写体の動作を解析することが可能となる。
さらに、本発明の画像解析装置の一実施態様において、前記画像解析装置は、さらに、動画像を構成する時系列に従った画像列を構成する画像フレームから被写体の動きを検出する動き検出部を有し、前記特徴抽出部は、前記動き検出部においてフレーム間で動きの検出された領域を特徴領域として抽出する処理を実行する構成であり、前記照合識別部は、動きの検出された特徴領域を含む画像フレームについて、画像態様定義情報との対応付け処理を実行する構成であることを特徴とする。
本構成によれば、動きの検出された領域のみを特徴領域として抽出し、その特徴領域の表示態様と、各種の特徴領域態様を定義した画像態様定義情報との照合を行なって画像の被写体情報の解析を行なう構成であるので、動き部分以外のデータの処理に対応する負荷の削減が可能となり効率的な被写体の動作判定が可能となる。
さらに、本発明の画像解析装置の一実施態様において、前記画像態様定義情報は、前記特徴を定義した簡易なルールの記述情報であり、特定領域の位置情報、特定領域のアスペクト比情報、特定領域のサイズ情報、特定領域の重心位置情報、特定領域間の距離情報、これらの各情報の少なくともいずれかの条件を定めた定義データであることを特徴とする。
本構成によれば、画像態様定義情報としての位置情報、アスペクト比情報、サイズ情報などを規定した簡易なルールとの照合を行なって画像フレームの被写体情報の解析を行なう構成であるので効率的な被写体の動作判定が可能となる。
さらに、本発明の画像解析装置の一実施態様において、前記画像態様定義情報は、前記特徴の態様を定義した条件式によって構成された情報であることを特徴とする。
本構成によれば、画像特徴と、位置情報、サイズ情報など定めた条件式との照合を行なって画像の被写体情報の解析を行なう構成であるので効率的な被写体の動作判定が可能となる。
さらに、本発明の画像解析装置の一実施態様において、前記照合識別部は、動画像を構成する時系列に従った複数の画像フレームに対応付けられた画像態様定義情報の時系列シーケンスデータに基づいて前記被写体の動作判定を実行する構成であることを特徴とする。
本構成によれば、複数の画像フレームの連続的な特定領域の表示態様の変遷に基づく動作判定を行なう構成であるので、動画像においても正確な被写体情報の動作解析が可能となる。
さらに、本発明の画像解析装置の一実施態様において、前記特徴抽出部は、画像データのカラー判別処理に基づいて入力画像データにおける特徴抽出を実行する構成であることを特徴とする。
本構成によれば、入力画像からの特徴抽出を画像データのカラー判別処理によって実行するので、例えば専用の顔解析装置などのシステムを用いることなく、エラーの少ない特徴抽出が可能となる。
さらに、本発明の第3の側面は、被写体を示す入力画像データから被写体の特徴を示す特徴要素を抽出する特徴抽出部と、画像上の被写体の特徴を示す特徴要素の態様の条件を定義した定義情報を記憶する記憶部と、入力画像データと前記定義情報とを照合し、当該定義情報の条件に基づいて被写体を識別する照合識別部とを具備することを特徴とする画像解析装置にある。
本構成によれば、入力画像データから画像特徴を抽出し、その画像特徴と、画像特徴に関する複数の画像態様定義情報との照合を行なって画像データの被写体情報の解析を行なう構成であるので、画像全体のマッチングなどを実行する必要がなく、簡略化した効率的な処理による被写体の姿勢や動作の判定が可能となる。
さらに、本発明の画像解析装置の一実施態様において、前記定義情報は、特徴要素の大きさ、特徴要素間の関係、特徴要素の位置の条件の少なくとも一つを示すものであり、前記照合識別部は、当該条件を満足するときに、入力画像データを当該画像の定義内容を示す被写体として識別するものであることを特徴とする。
本構成によれば、新たな画像態様定義情報の追加が容易であり、様々な被写体の姿勢や動作に応じた定義情報を設定して画像解析を行うことが可能となる。
さらに、本発明のさらなる側面は、上述の画像解析装置に対応する処理を実行する画像解析方法およびコンピュータ・プログラムにある。
本構成によれば、入力画像データから画像特徴を抽出し、その画像特徴と、画像特徴に関する複数の画像態様定義情報との照合を行なって画像データの被写体情報の解析を行なう構成であるので、画像全体のマッチングなどを実行する必要がなく、簡略化した効率的な処理による被写体の姿勢や動作の判定が可能となる方法およびコンピュータ・プログラムが提供される。
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータシステムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、CDやFD、MOなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータシステム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の構成によれば、入力画像データから、例えば人の顔や手などの特定の画像特徴を抽出し、入力画像データの持つ画像特徴の態様と、各種の画像特徴態様を定義した例えば条件式などによって記述されたルールからなる画像態様定義情報との照合を行ない、各画像に適合するルールを選択して画像データに対応付けて、対応付けたルールまたはそのシーケンスに基づいて、画像特徴に対応する領域を構成要素とする被写体、例えば顔や手を持つ人物の姿勢や動作判定を行なう構成としたので、条件式などによって構成された記述データを満足する画像データであるか否かを判定する効率的な照合処理によって人物の姿勢判定や動作判定など正確な被写体識別が可能となる。
また、本発明の構成では、画像態様定義情報を、画像特徴としての特定領域の位置情報、アスペクト比情報、サイズ情報、重心位置情報、特定領域間の距離情報などの条件を定めた定義データ、例えば条件式として設定し、画像の態様がこれらの定義データを満足するか否かを判定する処理に基づくルール対応付けが可能であり、画像相互のマッチングを行なう従来方式に比較すると高速な処理が可能となる。また、画像態様定義情報は条件式などの記述データとして構成されるので、新たなルールの作成が容易であり、様々な動作に対応するルールの追加および動作判定への適用が効率的に実行できる。
以下、図面を参照しながら本発明の画像解析装置、および画像解析方法、並びにコンピュータ・プログラムの詳細について説明する。
図1は本発明の画像解析装置の構成を示すブロック図である。図1に示すように、本発明の画像解析装置は、例えばカメラ101〜10nの撮影画像を入力し、撮影画像に基づく動き検出を実行する。なお、処理対象とする画像データは、カメラから直接入力する画像に限らず、記憶手段に予め格納した画像データでもよい。
本発明の画像解析装置は、例えばカメラ101〜10nの撮影画像である処理対象画像データを入力するサンプリング部121、動作検出部122、特徴抽出部123、定義情報(ルール)照合部124、画像識別処理部125、定義情報(ルール)蓄積部126、アクション定義情報蓄積部127を有する。なお、定義情報(ルール)照合部124と画像識別処理部125とは一体化した照合識別部として構成してもよい。
サンプリング部121は、カメラ101〜10nの撮影画像、あるいは図示しないデータ記憶部から解析処理対象となる画像データを入力する。処理対象とする画像データは例えば動画像データであり、連続するフレーム画像データである。ここで、カメラ101〜10nは、例えば、あるミーティングルームに固定されたカメラであり、それぞれ異なる方向からミーティングの参加者を撮影しているカメラである。
サンプリング部は、入力画像から、後段の動き検出部103および特徴抽出部104において解析を実行するための画像を選択する処理を実行する。このサンプリング処理においては特に画像の解析を実行することなく、例えば、20フレーム毎に1つのフレームを選択する等間隔にデータ抽出するなどのサンプリング処理を実行する。
具体的には、図1に示すように、カメラ101から入力する画像ストリームデータを[S1]としたとき、画像ストリーム[S1]についてδ秒毎にn1フレームを抽出するなどの処理を実行する。カメラ102から入力する画像ストリームデータ[S2]についても、同様に各δ秒毎にn2フレームを抽出する。以下、すべてのストリームS1〜Snについて同様のサンプリング処理を実行する。
サンプリング部102で抽出されたサンプルフレーム画像データは、動き検出部103と特徴抽出部104に入力される。
動き検出部103の処理について説明する。動き検出部103は、サンプリング部102において抽出されたサンプルフレーム画像データに基づいて、複数フレーム間の差分抽出などにより、動きのある被写体領域を判別する動き抽出処理を実行する。
動き検出部103では、各ストリームSiについて個別に動き検出を実行する。まず、時間[t]において、時間[t]までに取得済みのサンプルフレームデータに基づいて、各ストリームのフレーム平均[Siavgt]を、下式(式1)に従って算出する。
Siavgt=(f1+f2+・・・ft−1)/(t−1)・・・(式1)
上記式において、fi+fjは、各サンプルフレームの対応画素の積算値fi(x,y)+fj(x,y)を示している。
次に、時間[t]におけるサンプルフレームデータ[ft]と、上記式(式1)に基づいて算出したフレーム平均[Siavgt]の差分[dsit]を下式(式2)によって算出する。
dsit=Siavgt−ft・・・(式2)
上記式は、時間tにおける現在フレーム[ft]と、上記式(式1)に基づいて算出したフレーム平均[Siavgt]の画像の対応画素の差分データを算出する式である。各画素についての差分データを上記式(式2)に基づいて算出する。
次に、差分データに基づくエッジ抽出を実行し、変化領域マスクを生成する。エッジ抽出は、上記式(式2)に基づいて算出された差分データ[dsit]に対して、例えばGaussian smoothing Filterを適用したフィルタリング処理によって実行され、この結果データに対する閾値判定により、動きのあった領域を判別するための変化領域マスクを生成する。
この変化領域マスクにおいてビット[1]の設定領域が、フレーム1〜t−1の平均値と、現時点(t)のフレームとの間に明らかな変化の発生した画素領域である。ビット[0]の設定領域は変化のない、すなわち動きのない領域として判別される。
このようにして得られた変化領域マスクとしてのバイナリイメージに対して、ホール除去などのためのDilation処理を施して、バイナリマスクを生成する。バイナリマスクにおいては、画素値=黒が変化領域を示す。
上述の動き検出部103の処理を模式的に説明した図が図2である。例えば図2(a)に示すのが、フレーム1〜t−1の画像f1〜ft−1であり、現時点(t)の画像を図2(b)に示す画像ftとしたとき、まず、図2(a)に示す画像f1〜ft−1に基づいて、上記式(式1)に基づいてフレーム平均[Siavgt]の画像を算出する。
次に、フレーム平均画像と、[Siavgt]と、図2(b)に示す画像ftとに基づいて、上記式(式2)に基づいて差分データ[dsit]を算出し、算出された差分データ[dsit]に対して、例えばGaussian smoothing Filterを適用したフィルタリング処理によってエッジ抽出を行い、閾値判定により、動きのあった領域を判別するための変化領域マスクを生成し、さらに、ホール除去などのためのDilation処理を施すことにより、図2(c)に示すような、黒い部分が変化領域を示すバイナリマスクが生成される。
バイナリマスクは、図に示すようにn×mにブロック分割され、各ブロックに対するスコアが設定される。スコアは、各ブロックに含まれる変化画素の積算値であり、この動き検出結果は、特徴抽出部123、定義情報(ルール)照合部124に入力され、特徴抽出部123での特定領域検出処理、および定義情報(ルール)照合部124でのルールとのマッチング処理に適用される。
次に、特徴抽出部123の処理について説明する。特徴抽出部123は、画像フレームから画像特徴、例えば特徴を持つ特定領域の抽出を実行する。例えば目的とする被写体の姿勢または動作識別が人の姿勢または動作の識別、例えば人が立ち上がった姿勢または動作、着席姿勢または動作、挙手の姿勢または動作などの識別を目的とした場合には、人の顔や手のスキン(皮膚)領域を画像特徴を持つ領域として抽出する。なお、何を画像特徴として抽出するかは、目的に応じて設定することが可能である。ここでは、一例として、人物の姿勢や動作を検出することを目的とした例として、人の顔や手のスキン領域を画像特徴に対応する特定領域として抽出する処理例について説明する。
本実施例においては、特徴抽出部123での特徴抽出には、カラーフィルタリングを適用する。なお、例えば人の顔の抽出処理は、このようなカラーフィルタリング処理に限らず、特別な顔検出装置、例えば文献[K. Murai and S. Nakamura "Real Time Face Detection for Multimodal Speech Recognition", in proceedings of ICME 2002, Vol.2, pp.373-376, 2002]に記載の顔検出専用のシステムなどを適用することも可能である。しかし、多くの顔検出システムは、正面向きでない顔の検出の精度が低下するなどの問題がある。
一方、単純なカラー検出を基本とするカラーベースのスキン検出は、顔の方向や、光環境の変化があった場合にも比較的正確な検出が可能であり、検出エラーが少なくなるという利点がある。本実施例で実行するスキン検出アルゴリズムは、例えば下記の文献
[A. Jaimes. Conceptual Structures and Computational Methods for Indexing and Organization of Visual Information, Ph.D. Thesis, Department of Electrical Engineering, Columbia University, February 2003]
に記述されたアルゴリズムをベースとしている。
特徴抽出部123での画像特徴抽出、すなわちスキン領域抽出アルゴリズムについて説明する。まず、サンプリング部から入力する各フレーム[fi]の画素値データをHSVカラー空間座標へ展開する。HSVカラー空間座標は、色相(H)、彩度(S)、輝度(V)の3次元座標である。このHSV空間において、特定の領域がスキン(皮膚)のカラー領域に対応する。
各フレーム[fi]の画素値データ中、HSVカラー空間座標におけるスキン(皮膚)のカラー領域に対応する画素をスキン画像領域として判定し、HSVカラー空間座標におけるスキン(皮膚)のカラー領域以外に属する画素データは、スキン領域以外であると判定する。
上述のカラーフィルタリングによるスキン領域の抽出は、サンプリング部121から入力する各フレーム[fi]各々に対して実行される。ただし、このカラーフィルタリング処理によっても、人のスキン(皮膚)と類似する画素値を持つ例えば壁やテーブルなどスキン(皮膚)領域以外の領域がスキン(皮膚)領域と判断される場合がある。
そこで、特徴抽出部123では、さらに、以下の処理を実行する。まず、上述のカラーフィルタリングによって抽出されたスキン領域をグルーピングする。スキン領域として判定された隣接する画素の集合をグループとして設定し、その境界を設定した境界領域としてのバウンディングボックスSbbを検出する。なお、一定の大きさより小さい領域は排除する。
次に、バウンディングボックスSbbと同一の中心を設定したバウンディングボックスSbbの近接領域を含むアクティブバウンディングボックスAbbを設定し、このアクティブバウンディングボックスAbb内においてフレーム間で動きが検出されているか否かを判定する。
動きの有無は、現フレームと過去に数フレーム遡ったフレーム間の差分情報に基づいて判定可能である。また、動き検出部103の処理結果に基づいて得られる、先に図2を参照して説明したバイナリマスクのブロック単位の情報、すなわち動きに応じたスコア情報を用いてもよい。動きのない領域はスキン領域から排除する。この処理によって動きのある領域が特定領域、すなわちスキン領域であると判定する。
図3は、特徴抽出部123において実行する画像特徴抽出処理としての特定領域(スキン領域)抽出処理シーケンスをフローチャートとして示した図である。
まず、ステップS101において、サンプリング部121から入力する各フレームの画像データをHSVカラー空間に展開する。次にステップS102において、スキン領域として判定された部分領域をグループ化してバウンディングボックスSbbを設定する。
ステップS103において、予め設定した閾値より小さな領域を排除する。次に、ステップS104において、バウンディングボックスSbbの近隣領域を含むアクティブバウンディングボックスAbbを設定する。
次にステップS105において、アクティブバウンディングボックスAbbにおいて動きが検出されたか否かを判定し、動きが検出された領域を、最終的にスキン領域、すなわち特定領域として抽出する。
以上の処理によって、特徴抽出部123は、サンプリング部121から入力する各フレームの画像から、カラー判別および動き判別に基づく画像特徴の抽出、すなわち特定領域(スキン領域)を抽出する。この抽出結果は、定義情報(ルール)照合部124に入力される。
次に、定義情報(ルール)照合部124において実行する処理の詳細について説明する。本発明の画像解析装置では、画像特徴としての特定領域についての位置情報などのレイアウト情報を記述した条件式などの画像態様定義情報をドメイン知識として設定し、この画像態様定義情報に基づいて、画像データから被写体の姿勢または動作などの識別、すなわちアクション判定を実行する。動作識別対象となる被写体は特定領域を構成要素とする被写体、例えばスキン領域を構成要素とする人物などである。
ドメイン知識としての画像態様定義情報を設定する上で、我々が観察した事項は、例えば以下に示す事項である。
*人物と、非人物領域との判別:人物によって占有されない非人物領域は、アクティビティが低い領域となる。このような領域のアクティビティは主にノイズや光環境の変化に基づく。
*視覚的構成:撮像対象となる例えばミーティングルームの物理的構成は、撮像画像すべてに渡り不変であり、例えば天井などは人物に占有される領域とはならず、アクティビティの低い状態が継続する。
*人物の構成:ミーティングにおけるアクションは人物によって発生する。また、人物は特有の物理的構成を持つ。
このような観察事項に基づいて、画像特徴を示す特定領域についての位置情報などを含むルールを生成する。すなわち、画像フレームにおける特定領域の表示態様情報としてのレイアウト情報を記述したルール、例えば条件式を生成する。このルールを画像態様定義情報として定義情報(ルール)蓄積部126に格納する。定義情報(ルール)照合部124では、定義情報(ルール)蓄積部126に格納された画像態様定義情報をテンプレートとして、各サンプル画像フレーム[fi]がどのルール(テンプレート)に対応するかの対応付けを行なう。
なお、定義情報(ルール)照合部124において、定義情報(ルール)蓄積部126に格納された画像態様定義情報との照合を実行する画像フレームは、サンプリング部121において抽出されたサンプル画像フレーム[fi]のすべてではなく、動き検出部122と、特徴抽出部123との処理によってスキン領域と認められた特定領域を含む選別された画像フレームのみを対象とすることができる。
定義情報(ルール)照合部124では、スキン領域と認められた特定領域を含む画像フレームと、定義情報(ルール)蓄積部126に格納された画像態様定義情報との照合を実行して、画像フレームの各々について、それぞれ画像態様定義情報を対応付ける。
定義情報(ルール)蓄積部126に格納された画像態様定義情報の例について、図4を参照して説明する。
定義情報(ルール)蓄積部126には、画像特徴の様々な態様を定義したテンプレートに相当する多数の画像態様定義情報が格納される。それぞれが、例えば人物の所定のアクション、例えば手を上げた状態、起立した状態など、様々な動作に対応する画像態様を示す条件データとして設定される。
図4に示す例では、定義情報(ルール)蓄積部126に[R00001]〜[Rnnnnn]の画像態様定義情報(テンプレート)が格納された例を示しており、その1つの画像態様定義情報の具体例を図4(a)に示している。画像態様定義情報は、例えば図4(a)に示すような特定領域の位置、サイズなどの特定領域情報をif,thenの条件式として設定した構成を持つ。
図4(a)に示す条件は、図4(b)に示す特定領域(area1,area2)の態様に対応している。
図4(a)に示す条件式は、
if (7<area1size<9)
and (1<area2size<2)
and (1<distance(area2,area1)<2)
and (1<y−distance(area2,area1)<2)
then
Template [R00xxx](挙手アクション)
の構成であり、
例えば、図4(c)に示す画像フレームに対して、定義情報(ルール)蓄積部126に格納された画像態様定義情報を対応付ける場合、図4(c)に示す画像フレームに対して定義情報(ルール)蓄積部126に格納された画像態様定義情報[R00000]から順次画像フレームとの照合処理を実行し、画像態様定義情報の条件に合致するものをその画像フレームの対応ルールとして選択する。ここでは、画像態様定義情報[R00xxx]が選択された例を示している。
例えば、図4(c)に示す画像フレームにおいて、この画像フレームの画像特徴を示す特定領域、すなわちスキン領域は、図4(c)に示す顔部分領域201と、手部分領域202であり、これらがそれぞれ図4(a)のルールの領域1(area1)と領域2(area2)に対応する。
図4(b)に示す画像態様定義情報は、領域1(area1)のサイズが7〜9、領域2(area2)のサイズが1〜2、領域1(area1)と領域2(area2)との距離が1〜2、領域1(area1)と領域2(area2)とのy方向の距離が1〜2という条件を設定しており、図4(c)に示す画像フレームは、この画像態様定義情報の条件を満足するので、図4(c)に示す画像フレームは、この画像態様定義情報、すなわち画像態様定義情報[R00201]対応のフレームであると判定される。
前述したように、定義情報(ルール)照合部124では、動きが認められ、スキン領域として判定された画像フレームと、定義情報(ルール)蓄積部126に格納された画像態様定義情報との照合を実行して、画像フレームの各々において識別された特定領域、すなわちここではスキン(皮膚)領域の表示態様と一致する画像態様定義情報を、画像フレーム対応のルールとして決定する。
なお、画像態様定義情報は、図4(a)に示すようなif−then形式の条件式に限らず、例えば特定領域の大きさ(size)、位置などの情報を記述したのみのデータ、あるいは表形式などのテーブルデータなどとして保持し、定義情報(ルール)照合部124では、これらのデータに基づく対応付け処理を実行してもよい。
画像態様定義情報として定義される情報は、画像特徴を示す情報であり、例えば画像特徴を示す特定領域に関する以下の情報である。
特定領域の位置情報(例えば座標データ)
特定領域のアスペクト比情報(縦横比)
特定領域のサイズ情報(面積)
特定領域の重心位置情報
特定領域間の距離情報
これらの情報の少なくともいずれかの条件を定めた定義データとして画像態様定義情報が設定される。
定義情報(ルール)照合部124で実行する具体的な処理例について説明する。例えば、カメラ101の撮像データとして取得される画像ストリームデータを[S1]とし、サンプリング部において抽出されたサンプル画像フレームを[fi]としたとき、動き検出部122と、特徴抽出部123との処理によって、動きが認められ、スキン領域として判定された領域を含む画像フレームが、[P1]、[P2]、[P3]の3枚抽出されたとする。
定義情報(ルール)照合部124では、これらの3枚の画像フレームについて、定義情報(ルール)蓄積部126に格納された画像態様定義情報との照合を実行して、画像フレーム[P1]〜[P3]の特定領域の表示状態を満足する画像態様定義情報を対応付ける。例えば、
画像フレーム[P1]→画像態様定義情報[R00003]
画像フレーム[P2]→画像態様定義情報[R00021]
画像フレーム[P3]→画像態様定義情報[R00102]
などの対応付けが実行される。
なお、画像フレーム[P1],[P2],[P3]は時間の経過に従って並べられた画像フレーム、すなわち、動きのあるスキン領域の検出された画像フレームのシーケンスである。なおルールの対応付け対象となる画像フレームの数は1以上任意の数が可能である。
画像識別処理部125では、定義情報(ルール)照合部124で対応付けられた画像フレームの画像態様定義情報シーケンスに基づく動作判定、すなわちアクションの識別処理を実行する。上記の例では、画像態様定義情報シーケンスは、[R00003]→[R00021]→[R00102]となる。
例えば2つの画像フレーム[P1],[P2]に基づく動作識別の実行例について図5を参照して説明する。
図5(a)は、人物の挙手アクションとして識別される例を示している。例えば、定義情報(ルール)照合部124において、
画像フレーム[P1]→画像態様定義情報[R001]
画像フレーム[P2]→画像態様定義情報[R002]
に対応するものと判定され、これらのルールシーケンス情報[R001]→[R002]が、画像識別処理部125に入力される。
画像識別処理部125は、様々なルールシーケンスに対応するアクション情報を設定したテーブルを格納したアクション定義情報蓄積部127のテーブルデータに基づいて、
画像態様定義情報[R001]→画像態様定義情報[R002]
のシーケンスに対応するアクション情報を抽出する。
アクション定義情報蓄積部127のテーブルデータには、画像態様定義情報[R001]→画像態様定義情報[R002]の対応アクションは、挙手アクションであると定義されており、画像識別処理部125は、このルールシーケンスが、挙手アクションであると結論付ける。
図5(b)は、人物の起立アクションとして識別される例を示している。例えば、定義情報(ルール)照合部124において、
画像フレーム[P1]→画像態様定義情報[R001]
画像フレーム[P2]→画像態様定義情報[R003]
に対応するものと判定され、これらのルールシーケンス情報[R001]→[R003]が画像識別処理部125に入力される。
画像識別処理部125はアクション定義情報蓄積部127から、
画像態様定義情報[R001]→画像態様定義情報[R003]
のシーケンスに対応するアクション情報を抽出する。
アクション定義情報蓄積部127のテーブルデータには、画像態様定義情報[R001]→画像態様定義情報[R003]の対応アクションは、起立アクションであると定義されており、画像識別処理部125は、このルールシーケンスが、起立アクションであると結論付ける。
アクション定義情報蓄積部127のテーブルデータは、様々なアクションに対応する画像態様定義情報シーケンスを定義している。図6を参照して、アクション定義情報蓄積部127のテーブルデータについて説明する。
図6には、(a)挙手アクション、(b)起立アクション、(c)着席アクションの3つのアクションに対応する画像態様定義情報シーケンスの例を示している。
(a)挙手アクションに対応する画像態様定義情報シーケンスとしては、例えば図6(a1)〜(a6)があり、これらのシーケンスが挙手アクションに対応するルールシーケンスとして、アクション定義情報蓄積部127のテーブルデータとして設定される。
なお、画像態様定義情報は、先に図4(a)を参照して説明したような条件を示すデータとして記述され、これらの記述データに対応する識別情報のシーケンスが、アクション定義情報蓄積部127のテーブルデータとして設定される。図6では、理解を容易にするため、図4(a)を参照して説明した条件データの表現態様を示して説明する。
例えば図6(a1)のシーケンスは、
画像フレーム[P1]:顔(face)領域が中央上部に位置し、手(hand)領域が左右下部それぞれに位置した状態を示す画像態様定義情報[R001]
画像フレーム[P2]:顔(face)領域が中央上部に位置し、手(hand)領域が左上部と右下部それぞれに位置した状態を示す画像態様定義情報[R002]
画像フレーム[P3]:顔(face)領域が中央上部に位置し、手(hand)領域が左右下部それぞれに位置した状態を示す画像態様定義情報[R001]
のシーケンスを示している。
すなわち、アクション定義情報蓄積部127のテーブルデータには、
画像態様定義情報[R001]→[R002]→[R001]のシーケンスに対応するアクションは、挙手アクションであると定義されており、画像識別処理部125は、画像態様定義情報[R001]→[R002]→[R001]のシーケンスを定義情報(ルール)照合部124から入力した場合には、挙手アクションであると判定する。
同様に、図6(a1)〜(a6)の全ての画像態様定義情報シーケンスは全て、アクション定義情報蓄積部127のテーブルデータに挙手アクションであると定義され、画像識別処理部125は、ルール照合124から入力する画像態様定義情報シーケンスが、これらのシーケンスである場合は、挙手アクションが発生したとの判定を行なう。
図6(b)は、起立アクションに対応する画像態様定義情報シーケンスを示している。
例えば図6(b1)のシーケンスは、
画像フレーム[P1]:顔(face)領域が中央下部に位置した状態を示す画像態様定義情報[R004]
画像フレーム[P2]:顔(face)領域が中央上部に位置した状態を示す画像態様定義情報[R005]
画像フレーム[P3]:顔(face)領域が中央下部に位置した状態を示す画像態様定義情報[R004]
のシーケンスを示している。
アクション定義情報蓄積部127のテーブルデータには、
画像態様定義情報[R004]→[R005]→[R004]のシーケンスに対応するアクションは、起立アクションであると定義されており、画像識別処理部125は、画像態様定義情報[R004]→[R005]→[R004]のシーケンス情報を定義情報(ルール)照合部124から入力した場合には、起立アクションが発生したと判定する。
図6(c)は、着席アクションに対応する画像態様定義情報シーケンスを示している。
例えば図6(c1)のシーケンスは、
画像フレーム[P1]:顔(face)領域が中央上部に位置した状態を示す画像態様定義情報[R005]
画像フレーム[P2]:顔(face)領域が中央下部に位置した状態を示す画像態様定義情報[R004]
画像フレーム[P3]:顔(face)領域が中央上部に位置した状態を示す画像態様定義情報[R005]
のシーケンスを示している。
アクション定義情報蓄積部127のテーブルデータには、
画像態様定義情報[R005]→[R004]→[R005]のシーケンスに対応するアクションは、着席アクションであると定義されており、画像識別処理部125は、画像態様定義情報[R005]→[R004]→[R005]のシーケンス情報を定義情報(ルール)照合部124から入力した場合には、着席アクションが発生したと判定する。
このように、定義情報(ルール)照合部124では、動きのあるスキン領域が検出された画像フレーム[P1]〜[Pn]について、それぞれ、定義情報(ルール)蓄積部126に格納された画像態様定義情報との照合を実行して、画像フレーム[P1]〜[Pn]の特定領域の表示状態を満足する画像態様定義情報[Rxxx]〜[Ryyy]を対応付ける。なお、画像フレーム[P1]〜[Pn]は時系列に並べられ、画像フレーム[P1]〜[Pn]に対応する画像態様定義情報[Rxxx]〜[Ryyy]も時系列データとして設定されたシーケンスデータである。
次に、画像識別処理部125は、アクション定義情報蓄積部127から画像態様定義情報シーケンスとアクションとを対応付けたテーブルに基づいて発生アクションを決定する。
すなわち、定義情報(ルール)照合部124からの入力情報、すなわち、時系列に並べられた画像フレーム[P1]〜[Pn]に対応する画像態様定義情報[Rxxx]〜[Ryyy]のルールシーケンスに対応するデータエントリを、アクション定義情報蓄積部127から取得したテーブルから検索、抽出して、抽出エントリに対応するアクションを、画像フレーム[P1]〜[Pn]から識別されるアクションとして決定する。
図7、図8を参照して、定義情報(ルール)照合部124の処理と、画像識別処理部125の処理手順について説明する。
まず、図7を参照して、定義情報(ルール)照合部124の処理手順について説明する。
定義情報(ルール)照合部124は、まず、ステップS201において、時系列に設定した画像フレーム[P1]〜[Pn]から1つずつ、ルール対応付け処理対象フレーム[Pi]として選択する。
ステップS202において、処理対象の画像フレーム[Pi]に一致する画像態様定義情報[Rx]を選択して、フレーム対応ルールを決定する。
ステップS203において、時系列に設定された画像フレーム[P1]〜[Pn]全てに対する画像態様定義情報の対応付けが終了したか否かを判定し、未終了の画像フレームがある場合は、ステップS201以下の処理を繰り返し実行する。全ての画像フレーム[P1]〜[Pn]に対する画像態様定義情報の対応付けが終了すると、ステップS204に進み、画像フレーム[P1]〜[Pn]に対応するルールシーケンス情報[Rx]〜[Ry]を画像識別処理部に出力する。
次に、図8を参照して、画像識別処理部125の処理手順について説明する。画像識別処理部125は、ステップS301において、時系列に設定した画像フレーム[P1]〜[Pn]に対応するルールシーケンス情報[Rx]〜[Ry]を定義情報(ルール)照合部124から入力する。
次にステップS302において、アクション定義情報蓄積部127に格納されたテーブルに基づいて、画像フレーム[P1]〜[Pn]に対応するルールシーケンス情報[Rx]〜[Ry]に一致するシーケンスを設定したエントリを抽出し、ステップS303において、その抽出エントリに設定された動作情報を発生アクションとして決定する。
以上の処理によって、例えばカメラによって撮影された画像データに基づく、発生動作の識別処理が実行される。このように識別された動作に基づいて、例えばビデオデータに対するインデックス付与などが実行される。
実際の処理として、ある1時間のミーティングを異なる方向からの4台のカメラで撮影したデータを用いた動作識別処理を行なった。各カメラの撮影フレームは、約3000フレームであり、計12000フレームを取得した。カメラ撮影データはMPEG−1データであり、352×240画素のフレームデータによって構成される。まず、カメラの撮影したデータストリームから1秒毎に1つのサンプルフレームを抽出し、このサンプルフレームについて、上述の特定領域、すなわちスキン領域検出および動き検出を行い、動きのあるスキン領域を持つ画像フレームについて画像態様定義情報との対応付け処理を実行し、そのシーケンスに基づく動作判定を行なった。結果として、手の動きや一般的な人物の動作について効率的で正確な判定がなされた。
本発明の画像解析装置および方法においては、例えば図4(a)に示したように、特定領域を定義したルールを設定し、各選別画像について対応するルールを選択することにより、動作シーケンスを判定するものであり、図4(a)に示したように、特定領域を定義したルールは、特定領域情報、すなわち、
特定領域の位置情報(例えば座標データ)
特定領域のアスペクト比情報(縦横比)
特定領域のサイズ情報(面積)
特定領域の重心位置情報
特定領域間の距離情報
これらの情報の少なくともいずれかの条件を定めた定義データとして設定されるものであり、その作成はきわめて容易であり、様々な新たな画像態様定義情報を生成することが可能であり、実施例で説明した挙手、起立、着席などの動作のみならず、例えば握手、うなずきなど、様々な動作を定義した画像態様定義情報を容易に作成することが可能となる。
従って、従来の、例えば画像データそのものをテンプレートとしてテンプレートマッチングを行なう手法に比較すると、テンプレートとして適用する画像態様定義情報の作成が極めて簡単であり、画像態様定義情報の生成により、様々な動作判定を効率的に実行することが可能となる。また、画像態様定義情報は画像データそのものをテンプレートとして設定した場合に比較すると、データ量が大幅に削減され、データ処理の効率化、メモリ量の削減、装置の小型化を実現することが可能となる。
最後に、上述した画像解析装置のハードウェア構成例について、図9を参照して説明する。
CPU(Central Processing Unit)501は、OS(Operating System)、上述の実施例において説明したサンプリング処理、特定領域検出処理、動き検出処理、ルール照合処理、動作識別処理の各処理の実行シーケンスを記述した各種コンピュータ・プログラムに従った処理を実行する制御部である。
ROM(Read Only Memory)502は、CPU501が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。
ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス506に接続されている。
キーボード508、ポインティングデバイス509は、ユーザにより操作される入力デバイスである。ディスプレイ510は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージで表示する。
HDD(Hard Disk Drive)511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、図1に示す定義情報(ルール)蓄積部126、アクション定義情報蓄積部127に格納されるデータの格納部としての役割、および各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。
接続ポート514は、外部接続機器522を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続され、CPU501、またはHDD511等からの供給データの送信、データ受信を実行する。
なお、図9に示す画像解析装置のハードウェア構成例は、PCを適用して構成した装置の一例であり、本発明の画像解析装置は、図9に示す構成に限らず、上述した実施例において説明した処理を実行可能な構成であればよい。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、冒頭に記載した特許請求の範囲の欄を参酌すべきである。
なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。