JP4449483B2

JP4449483B2 - 画像解析装置、および画像解析方法、並びにコンピュータ・プログラム

Info

Publication number: JP4449483B2
Application number: JP2004039053A
Authority: JP
Inventors: アレハンドロハイメス; 和昌村井
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-02-16
Filing date: 2004-02-16
Publication date: 2010-04-14
Anticipated expiration: 2024-02-16
Also published as: JP2005228274A

Description

本発明は、画像データに基づいて被写体の動きの識別処理を実行する画像解析装置、および画像解析方法、並びにコンピュータ・プログラムに関する。さらに、詳細には、例えばカメラによる撮影画像から人の顔領域などの特徴部分を抽出し、特徴部分の位置データなど簡易なデータによって構成されるルールとの照合を実行して、被写体の動きを識別する画像解析装置、および画像解析方法、並びにコンピュータ・プログラムに関する。

例えばミーティングなどの撮影データに基づいてミーティングにおけるトピックの変更などの時点に対応するインデックスを設定することで、インデックス付きのビデオデータを作成することができる。

このようなインデックスを自動的に設定する方法としては、例えば音声データに基づくスピーチ解析、画像データに基づく人物の顔抽出あるいは動作検出などの手法が考えられる。しかし、例えば音声データに基づくスピーチ解析によってトピック変更などの時点を判別するためには、膨大な辞書データや複雑な解析が必要であり、また、高精度な音声入力が必須となるという問題がある。

このような観点から、昨今では、音声データではなく、画像データに基づいて効率的にインデックスを付与する技術についての開発が多くなされている。例えば、ミーティングにおいて発生した動作を画像データに基づいて識別するものである。例えばミーティングビデオデータに対してインデックスを付与することにより、後日、ビデオデータの閲覧やサーチを行なう場合の効率性を高めることが可能となる。なお、例えば非特許文献１には、ミーティングルームにおける重複のない撮影画像を取得するためのカメラ配置構成や、明るさの変化の影響を少なくした画像解析に有用な画像データを取得するための処理構成について記載されている。

画像に基づく動作識別処理を開示した従来技術としては、例えば、特許文献１に記載の技術がある。特許文献１には、被写体を複数のカメラで異なる方向から撮影し、これらの複数の画像の解析を行うことで、被写体の３次元の動きを解析する手法が示されている。また、特許文献２には、人物の頭部の撮影画像に基づいて頭部の動きと、視線方向を検出して、人物のうなづき動作を高精度に検出する構成が示されている。
I. Mikic, K. Huang, and M. Trivedi, "Activity Monitoring and Summarization for an Intelligent Meeting Room," in proc. IEEE Workshop on Human Motion, Austin, Texas, Dec. 2000. 特開平１０−３３４２７０号公報特開２０００−１６３１９６号公報

しかし、上述した、従来技術に示されている画像データの解析処理は、いずれも撮影画像データに基づく極めて複雑なアルゴリズムによる解析を必要とするものであり、効率的な処理とは言えず、専用のシステムの構築の必要性、コスト高、処理負荷が大きいといった問題がある。例えば、特許文献１に記載された処理は、複数の撮影角度より撮影された複数の二次元画像における各画素毎の動きの方向と強さを算出し、算出された動きの強さが所定値以上の領域を特定し、特定された特定領域を複数の二次元画像に対して対応させ、特定領域の三次元の位置と上記特定領域の三次元の動きとを算出する手順と、算出された特定領域の動きが撮影対象のどの部位に対応しているかを推定する手順という処理を必要とするものである。

また、特許文献２に記載の技術は、撮影画像の顔の領域からエッジ情報を抽出し、エッジ情報に基づいて、人の顔における目の位置を推定し、推定した画像中の濃淡画像を生成して、目における黒目の位置を解析して視線方向を算出するとともに、目の位置の上下方向に動き量が閾値以上である場合にうなずきがあったと判定する処理を実行するものであり、取得画像のエッジ画像生成、目の位置の算出、濃淡画像の生成など多くの処理工程が必要となるという問題がある。

本発明は、このような問題点を解決し、簡易な画像データの解析により効率的に被写体の動きを解析することを可能とした画像解析装置、および画像解析方法、並びにコンピュータ・プログラムを提供することを目的とする。

さらに、詳細には、カメラによる撮影画像から人の顔領域などの特定領域を抽出し、特定領域の位置データなど簡易なデータによって構成されるルールとの照合を実行して、被写体の動きを識別する画像解析装置、および画像解析方法、並びにコンピュータ・プログラムを提供するものである。

本発明の第１の側面は、画像解析装置であり、入力画像データから画像特徴を抽出する特徴抽出部と、画像特徴に関する複数の画像態様定義情報を格納した記憶部と、各入力画像データの画像特徴と一致する画像態様定義情報を前記記憶部から選択し、該選択情報を入力画像データ対応の定義情報として設定する定義情報照合部と、前記定義情報照合部において入力画像データに対応付けられた定義情報に基づいて、前記画像特徴を含む被写体の画像態様を識別する画像識別処理部と、を有することを特徴とする画像解析装置にある。

本構成によれば、入力画像データから画像特徴を抽出し、その画像特徴と、画像特徴に関する複数の画像態様定義情報との照合を行なって画像データの被写体情報の解析を行なう構成であるので、画像全体のマッチングなどを実行する必要がなく、簡略化した効率的な処理による被写体の姿勢や動作の判定が可能となる。

さらに、本発明の画像解析装置の一実施態様において、前記画像態様定義情報は、前記画像特徴を定義した簡易なルールの記述情報として構成されていることを特徴とする。

本構成によれば、新たな画像態様定義情報の追加が容易であり、様々な被写体の姿勢や動作に応じた定義情報を設定して画像解析を行うことが可能となる。

さらに、本発明の画像解析装置の一実施態様において、前記入力画像データは、動画像を構成する時系列に従った画像列であることを特徴とする。

本構成によれば、動画像を構成する時系列に従った画像列の解析により、被写体の起立する動作、挙手する動作など、時間軸に沿った被写体の動作を解析することが可能となる。

さらに、本発明の画像解析装置の一実施態様において、前記画像解析装置は、さらに、動画像を構成する時系列に従った画像列を構成する画像フレームから被写体の動きを検出する動き検出部を有し、前記特徴抽出部は、前記動き検出部においてフレーム間で動きの検出された領域を画像特徴領域として抽出する処理を実行する構成であり、前記ルール照合部は、動きの検出された画像特徴領域を含む画像フレームについて、画像態様定義情報との対応付け処理を実行する構成であることを特徴とする。

本構成によれば、動きの検出された領域のみを特徴領域として抽出し、その特徴領域の表示態様と、各種の特徴領域態様を定義した画像態様定義情報との照合を行なって画像の被写体情報の解析を行なう構成であるので、動き部分以外のデータの処理に対応する負荷の削減が可能となり効率的な被写体の動作判定が可能となる。

さらに、本発明の画像解析装置の一実施態様において、前記画像態様定義情報は、画像特徴を定義した簡易なルールの記述情報であり、特定領域の位置情報、特定領域のアスペクト比情報、特定領域のサイズ情報、特定領域の重心位置情報、特定領域間の距離情報、これらの各情報の少なくともいずれかの条件を定めた定義データであることを特徴とする。

本構成によれば、画像態様定義情報としての位置情報、アスペクト比情報、サイズ情報などを規定した簡易なルールとの照合を行なって画像フレームの被写体情報の解析を行なう構成であるので効率的な被写体の動作判定が可能となる。

さらに、本発明の画像解析装置の一実施態様において、前記画像態様定義情報は、前記画像特徴の態様を定義した条件式によって構成された情報であることを特徴とする。

本構成によれば、画像特徴と、位置情報、サイズ情報など定めた条件式との照合を行なって画像の被写体情報の解析を行なう構成であるので効率的な被写体の動作判定が可能となる。

さらに、本発明の画像解析装置の一実施態様において、前記画像識別処理部は、前記ルール照合部において動画像を構成する時系列に従った複数の画像フレームに対応付けられた画像態様定義情報の時系列シーケンスデータに基づいて、前記被写体の動作判定を実行する構成であることを特徴とする。

本構成によれば、複数の画像フレームの連続的な特定領域の表示態様の変遷に基づく動作判定を行なう構成であるので、動画像においても正確な被写体情報の動作解析が可能となる。

さらに、本発明の画像解析装置の一実施態様において、前記特徴抽出部は、画像データのカラー判別処理に基づいて入力画像データにおける特徴抽出を実行する構成であることを特徴とする。

本構成によれば、入力画像からの特徴抽出を画像データのカラー判別処理によって実行するので、例えば専用の顔解析装置などのシステムを用いることなく、エラーの少ない特徴抽出が可能となる。

さらに、本発明の画像解析装置の一実施態様において、入力画像データのカラー判別により人物のスキン（皮膚）領域と推定される部分を抽出するとともに、画像フレームから被写体の動きを検出する動き検出部からの情報に基づいて、フレーム間での動きが検出された領域を特徴領域として抽出し、前記ルール照合部は、入力画像データにおける特徴領域であるスキン領域の画像態様と一致する画像態様定義情報を選択し、該選択情報を画像フレーム対応の画像態様定義情報として設定し、前記画像識別処理部は、前記ルール照合部において画像フレームに対応付けられた画像態様定義情報に基づいて、前記特徴領域を構成要素とする人物の姿勢または動作識別処理を実行する構成であることを特徴とする。

本構成によれば、入力画像から特定領域として、人物の顔や手などのスキン領域を選択抽出し、その画像におけるスキン領域の表示態様と、各種の特徴領域の態様を定義した画像態様定義情報との照合を行なって画像の被写体解析を行なう構成であるので、人物の挙手動作や、起立動作、着席動作などの動作を簡易にかつ正確に判定することが可能となる。

さらに、本発明の第２の側面は、被写体を示す入力画像データから特徴を抽出する特徴抽出部と、画像特徴の態様を定義した定義情報を記憶する記憶部と、入力画像データと前記定義情報とを照合し、当該定義情報に基づいて被写体を識別する照合識別部とを具備することを特徴とする画像解析装置にある。

さらに、本発明の画像解析装置の一実施態様において、前記特徴抽出部は、前記特徴として前記被写体の少なくとも一部の特徴を示す特徴要素を抽出する構成である。

本構成によれば、被写体の少なくとも一部の特徴に基づく被写体の識別が実行され、被写体の姿勢や動作判定が確実に実行される。

さらに、本発明の画像解析装置の一実施態様において、前記画像特徴の態様は、前記被写体の少なくとも一部の特徴を示す特徴要素を含むものである。

さらに、本発明の画像解析装置の一実施態様において、前記特徴要素は、画像上の領域を示すものである。

本構成によれば、例えば人物の顔や手などの画像上の領域に基づく被写体の識別が実行され、被写体の姿勢や動作判定が確実に実行される。

さらに、本発明の画像解析装置の一実施態様において、前記定義情報は、前記画像特徴を定義した簡易なルールの記述情報として構成されていることを特徴とする。

さらに、本発明の画像解析装置の一実施態様において、前記画像解析装置は、さらに、動画像を構成する時系列に従った画像列を構成する画像フレームから被写体の動きを検出する動き検出部を有し、前記特徴抽出部は、前記動き検出部においてフレーム間で動きの検出された領域を特徴領域として抽出する処理を実行する構成であり、前記照合識別部は、動きの検出された特徴領域を含む画像フレームについて、画像態様定義情報との対応付け処理を実行する構成であることを特徴とする。

さらに、本発明の画像解析装置の一実施態様において、前記画像態様定義情報は、前記特徴を定義した簡易なルールの記述情報であり、特定領域の位置情報、特定領域のアスペクト比情報、特定領域のサイズ情報、特定領域の重心位置情報、特定領域間の距離情報、これらの各情報の少なくともいずれかの条件を定めた定義データであることを特徴とする。

さらに、本発明の画像解析装置の一実施態様において、前記画像態様定義情報は、前記特徴の態様を定義した条件式によって構成された情報であることを特徴とする。

さらに、本発明の画像解析装置の一実施態様において、前記照合識別部は、動画像を構成する時系列に従った複数の画像フレームに対応付けられた画像態様定義情報の時系列シーケンスデータに基づいて前記被写体の動作判定を実行する構成であることを特徴とする。

さらに、本発明の第３の側面は、被写体を示す入力画像データから被写体の特徴を示す特徴要素を抽出する特徴抽出部と、画像上の被写体の特徴を示す特徴要素の態様の条件を定義した定義情報を記憶する記憶部と、入力画像データと前記定義情報とを照合し、当該定義情報の条件に基づいて被写体を識別する照合識別部とを具備することを特徴とする画像解析装置にある。

さらに、本発明の画像解析装置の一実施態様において、前記定義情報は、特徴要素の大きさ、特徴要素間の関係、特徴要素の位置の条件の少なくとも一つを示すものであり、前記照合識別部は、当該条件を満足するときに、入力画像データを当該画像の定義内容を示す被写体として識別するものであることを特徴とする。

さらに、本発明のさらなる側面は、上述の画像解析装置に対応する処理を実行する画像解析方法およびコンピュータ・プログラムにある。

本構成によれば、入力画像データから画像特徴を抽出し、その画像特徴と、画像特徴に関する複数の画像態様定義情報との照合を行なって画像データの被写体情報の解析を行なう構成であるので、画像全体のマッチングなどを実行する必要がなく、簡略化した効率的な処理による被写体の姿勢や動作の判定が可能となる方法およびコンピュータ・プログラムが提供される。

なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータシステムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、ＣＤやＦＤ、ＭＯなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータシステム上でプログラムに応じた処理が実現される。

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

本発明の構成によれば、入力画像データから、例えば人の顔や手などの特定の画像特徴を抽出し、入力画像データの持つ画像特徴の態様と、各種の画像特徴態様を定義した例えば条件式などによって記述されたルールからなる画像態様定義情報との照合を行ない、各画像に適合するルールを選択して画像データに対応付けて、対応付けたルールまたはそのシーケンスに基づいて、画像特徴に対応する領域を構成要素とする被写体、例えば顔や手を持つ人物の姿勢や動作判定を行なう構成としたので、条件式などによって構成された記述データを満足する画像データであるか否かを判定する効率的な照合処理によって人物の姿勢判定や動作判定など正確な被写体識別が可能となる。

また、本発明の構成では、画像態様定義情報を、画像特徴としての特定領域の位置情報、アスペクト比情報、サイズ情報、重心位置情報、特定領域間の距離情報などの条件を定めた定義データ、例えば条件式として設定し、画像の態様がこれらの定義データを満足するか否かを判定する処理に基づくルール対応付けが可能であり、画像相互のマッチングを行なう従来方式に比較すると高速な処理が可能となる。また、画像態様定義情報は条件式などの記述データとして構成されるので、新たなルールの作成が容易であり、様々な動作に対応するルールの追加および動作判定への適用が効率的に実行できる。

以下、図面を参照しながら本発明の画像解析装置、および画像解析方法、並びにコンピュータ・プログラムの詳細について説明する。

図１は本発明の画像解析装置の構成を示すブロック図である。図１に示すように、本発明の画像解析装置は、例えばカメラ１０１〜１０ｎの撮影画像を入力し、撮影画像に基づく動き検出を実行する。なお、処理対象とする画像データは、カメラから直接入力する画像に限らず、記憶手段に予め格納した画像データでもよい。

本発明の画像解析装置は、例えばカメラ１０１〜１０ｎの撮影画像である処理対象画像データを入力するサンプリング部１２１、動作検出部１２２、特徴抽出部１２３、定義情報（ルール）照合部１２４、画像識別処理部１２５、定義情報（ルール）蓄積部１２６、アクション定義情報蓄積部１２７を有する。なお、定義情報（ルール）照合部１２４と画像識別処理部１２５とは一体化した照合識別部として構成してもよい。

サンプリング部１２１は、カメラ１０１〜１０ｎの撮影画像、あるいは図示しないデータ記憶部から解析処理対象となる画像データを入力する。処理対象とする画像データは例えば動画像データであり、連続するフレーム画像データである。ここで、カメラ１０１〜１０ｎは、例えば、あるミーティングルームに固定されたカメラであり、それぞれ異なる方向からミーティングの参加者を撮影しているカメラである。

サンプリング部は、入力画像から、後段の動き検出部１０３および特徴抽出部１０４において解析を実行するための画像を選択する処理を実行する。このサンプリング処理においては特に画像の解析を実行することなく、例えば、２０フレーム毎に１つのフレームを選択する等間隔にデータ抽出するなどのサンプリング処理を実行する。

具体的には、図１に示すように、カメラ１０１から入力する画像ストリームデータを［Ｓ１］としたとき、画像ストリーム［Ｓ１］についてδ秒毎にｎ１フレームを抽出するなどの処理を実行する。カメラ１０２から入力する画像ストリームデータ［Ｓ２］についても、同様に各δ秒毎にｎ２フレームを抽出する。以下、すべてのストリームＳ１〜Ｓｎについて同様のサンプリング処理を実行する。

サンプリング部１０２で抽出されたサンプルフレーム画像データは、動き検出部１０３と特徴抽出部１０４に入力される。

動き検出部１０３の処理について説明する。動き検出部１０３は、サンプリング部１０２において抽出されたサンプルフレーム画像データに基づいて、複数フレーム間の差分抽出などにより、動きのある被写体領域を判別する動き抽出処理を実行する。

動き検出部１０３では、各ストリームＳ_ｉについて個別に動き検出を実行する。まず、時間［ｔ］において、時間［ｔ］までに取得済みのサンプルフレームデータに基づいて、各ストリームのフレーム平均［Ｓ_ｉａｖｇ_ｔ］を、下式（式１）に従って算出する。
Ｓ_ｉａｖｇ_ｔ＝（ｆ_１＋ｆ_２＋・・・ｆ_ｔ−１）／（ｔ−１）・・・（式１）

上記式において、ｆ_ｉ＋ｆ_ｊは、各サンプルフレームの対応画素の積算値ｆ_ｉ（ｘ，ｙ）＋ｆ_ｊ（ｘ，ｙ）を示している。

次に、時間［ｔ］におけるサンプルフレームデータ［ｆ_ｔ］と、上記式（式１）に基づいて算出したフレーム平均［Ｓ_ｉａｖｇ_ｔ］の差分［ｄｓ_ｉｔ］を下式（式２）によって算出する。
ｄｓ_ｉｔ＝Ｓ_ｉａｖｇ_ｔ−ｆ_ｔ・・・（式２）

上記式は、時間ｔにおける現在フレーム［ｆ_ｔ］と、上記式（式１）に基づいて算出したフレーム平均［Ｓ_ｉａｖｇ_ｔ］の画像の対応画素の差分データを算出する式である。各画素についての差分データを上記式（式２）に基づいて算出する。

次に、差分データに基づくエッジ抽出を実行し、変化領域マスクを生成する。エッジ抽出は、上記式（式２）に基づいて算出された差分データ［ｄｓ_ｉｔ］に対して、例えばＧａｕｓｓｉａｎｓｍｏｏｔｈｉｎｇＦｉｌｔｅｒを適用したフィルタリング処理によって実行され、この結果データに対する閾値判定により、動きのあった領域を判別するための変化領域マスクを生成する。

この変化領域マスクにおいてビット［１］の設定領域が、フレーム１〜ｔ−１の平均値と、現時点（ｔ）のフレームとの間に明らかな変化の発生した画素領域である。ビット［０］の設定領域は変化のない、すなわち動きのない領域として判別される。

このようにして得られた変化領域マスクとしてのバイナリイメージに対して、ホール除去などのためのＤｉｌａｔｉｏｎ処理を施して、バイナリマスクを生成する。バイナリマスクにおいては、画素値＝黒が変化領域を示す。

上述の動き検出部１０３の処理を模式的に説明した図が図２である。例えば図２（ａ）に示すのが、フレーム１〜ｔ−１の画像ｆ_１〜ｆ_ｔ−１であり、現時点（ｔ）の画像を図２（ｂ）に示す画像ｆ_ｔとしたとき、まず、図２（ａ）に示す画像ｆ_１〜ｆ_ｔ−１に基づいて、上記式（式１）に基づいてフレーム平均［Ｓ_ｉａｖｇ_ｔ］の画像を算出する。

次に、フレーム平均画像と、［Ｓ_ｉａｖｇ_ｔ］と、図２（ｂ）に示す画像ｆ_ｔとに基づいて、上記式（式２）に基づいて差分データ［ｄｓ_ｉｔ］を算出し、算出された差分データ［ｄｓ_ｉｔ］に対して、例えばＧａｕｓｓｉａｎｓｍｏｏｔｈｉｎｇＦｉｌｔｅｒを適用したフィルタリング処理によってエッジ抽出を行い、閾値判定により、動きのあった領域を判別するための変化領域マスクを生成し、さらに、ホール除去などのためのＤｉｌａｔｉｏｎ処理を施すことにより、図２（ｃ）に示すような、黒い部分が変化領域を示すバイナリマスクが生成される。

バイナリマスクは、図に示すようにｎ×ｍにブロック分割され、各ブロックに対するスコアが設定される。スコアは、各ブロックに含まれる変化画素の積算値であり、この動き検出結果は、特徴抽出部１２３、定義情報（ルール）照合部１２４に入力され、特徴抽出部１２３での特定領域検出処理、および定義情報（ルール）照合部１２４でのルールとのマッチング処理に適用される。

次に、特徴抽出部１２３の処理について説明する。特徴抽出部１２３は、画像フレームから画像特徴、例えば特徴を持つ特定領域の抽出を実行する。例えば目的とする被写体の姿勢または動作識別が人の姿勢または動作の識別、例えば人が立ち上がった姿勢または動作、着席姿勢または動作、挙手の姿勢または動作などの識別を目的とした場合には、人の顔や手のスキン（皮膚）領域を画像特徴を持つ領域として抽出する。なお、何を画像特徴として抽出するかは、目的に応じて設定することが可能である。ここでは、一例として、人物の姿勢や動作を検出することを目的とした例として、人の顔や手のスキン領域を画像特徴に対応する特定領域として抽出する処理例について説明する。

本実施例においては、特徴抽出部１２３での特徴抽出には、カラーフィルタリングを適用する。なお、例えば人の顔の抽出処理は、このようなカラーフィルタリング処理に限らず、特別な顔検出装置、例えば文献［K. Murai and S. Nakamura "Real Time Face Detection for Multimodal Speech Recognition", in proceedings of ICME 2002, Vol.2, pp.373-376, 2002］に記載の顔検出専用のシステムなどを適用することも可能である。しかし、多くの顔検出システムは、正面向きでない顔の検出の精度が低下するなどの問題がある。

一方、単純なカラー検出を基本とするカラーベースのスキン検出は、顔の方向や、光環境の変化があった場合にも比較的正確な検出が可能であり、検出エラーが少なくなるという利点がある。本実施例で実行するスキン検出アルゴリズムは、例えば下記の文献
［A. Jaimes. Conceptual Structures and Computational Methods for Indexing and Organization of Visual Information, Ph.D. Thesis, Department of Electrical Engineering, Columbia University, February 2003］
に記述されたアルゴリズムをベースとしている。

特徴抽出部１２３での画像特徴抽出、すなわちスキン領域抽出アルゴリズムについて説明する。まず、サンプリング部から入力する各フレーム［ｆ_ｉ］の画素値データをＨＳＶカラー空間座標へ展開する。ＨＳＶカラー空間座標は、色相（Ｈ）、彩度（Ｓ）、輝度（Ｖ）の３次元座標である。このＨＳＶ空間において、特定の領域がスキン（皮膚）のカラー領域に対応する。

各フレーム［ｆ_ｉ］の画素値データ中、ＨＳＶカラー空間座標におけるスキン（皮膚）のカラー領域に対応する画素をスキン画像領域として判定し、ＨＳＶカラー空間座標におけるスキン（皮膚）のカラー領域以外に属する画素データは、スキン領域以外であると判定する。

上述のカラーフィルタリングによるスキン領域の抽出は、サンプリング部１２１から入力する各フレーム［ｆ_ｉ］各々に対して実行される。ただし、このカラーフィルタリング処理によっても、人のスキン（皮膚）と類似する画素値を持つ例えば壁やテーブルなどスキン（皮膚）領域以外の領域がスキン（皮膚）領域と判断される場合がある。

そこで、特徴抽出部１２３では、さらに、以下の処理を実行する。まず、上述のカラーフィルタリングによって抽出されたスキン領域をグルーピングする。スキン領域として判定された隣接する画素の集合をグループとして設定し、その境界を設定した境界領域としてのバウンディングボックスＳ_ｂｂを検出する。なお、一定の大きさより小さい領域は排除する。

次に、バウンディングボックスＳ_ｂｂと同一の中心を設定したバウンディングボックスＳ_ｂｂの近接領域を含むアクティブバウンディングボックスＡ_ｂｂを設定し、このアクティブバウンディングボックスＡ_ｂｂ内においてフレーム間で動きが検出されているか否かを判定する。

動きの有無は、現フレームと過去に数フレーム遡ったフレーム間の差分情報に基づいて判定可能である。また、動き検出部１０３の処理結果に基づいて得られる、先に図２を参照して説明したバイナリマスクのブロック単位の情報、すなわち動きに応じたスコア情報を用いてもよい。動きのない領域はスキン領域から排除する。この処理によって動きのある領域が特定領域、すなわちスキン領域であると判定する。

図３は、特徴抽出部１２３において実行する画像特徴抽出処理としての特定領域（スキン領域）抽出処理シーケンスをフローチャートとして示した図である。

まず、ステップＳ１０１において、サンプリング部１２１から入力する各フレームの画像データをＨＳＶカラー空間に展開する。次にステップＳ１０２において、スキン領域として判定された部分領域をグループ化してバウンディングボックスＳ_ｂｂを設定する。

ステップＳ１０３において、予め設定した閾値より小さな領域を排除する。次に、ステップＳ１０４において、バウンディングボックスＳ_ｂｂの近隣領域を含むアクティブバウンディングボックスＡ_ｂｂを設定する。

次にステップＳ１０５において、アクティブバウンディングボックスＡ_ｂｂにおいて動きが検出されたか否かを判定し、動きが検出された領域を、最終的にスキン領域、すなわち特定領域として抽出する。

以上の処理によって、特徴抽出部１２３は、サンプリング部１２１から入力する各フレームの画像から、カラー判別および動き判別に基づく画像特徴の抽出、すなわち特定領域（スキン領域）を抽出する。この抽出結果は、定義情報（ルール）照合部１２４に入力される。

次に、定義情報（ルール）照合部１２４において実行する処理の詳細について説明する。本発明の画像解析装置では、画像特徴としての特定領域についての位置情報などのレイアウト情報を記述した条件式などの画像態様定義情報をドメイン知識として設定し、この画像態様定義情報に基づいて、画像データから被写体の姿勢または動作などの識別、すなわちアクション判定を実行する。動作識別対象となる被写体は特定領域を構成要素とする被写体、例えばスキン領域を構成要素とする人物などである。

ドメイン知識としての画像態様定義情報を設定する上で、我々が観察した事項は、例えば以下に示す事項である。
＊人物と、非人物領域との判別：人物によって占有されない非人物領域は、アクティビティが低い領域となる。このような領域のアクティビティは主にノイズや光環境の変化に基づく。
＊視覚的構成：撮像対象となる例えばミーティングルームの物理的構成は、撮像画像すべてに渡り不変であり、例えば天井などは人物に占有される領域とはならず、アクティビティの低い状態が継続する。
＊人物の構成：ミーティングにおけるアクションは人物によって発生する。また、人物は特有の物理的構成を持つ。

このような観察事項に基づいて、画像特徴を示す特定領域についての位置情報などを含むルールを生成する。すなわち、画像フレームにおける特定領域の表示態様情報としてのレイアウト情報を記述したルール、例えば条件式を生成する。このルールを画像態様定義情報として定義情報（ルール）蓄積部１２６に格納する。定義情報（ルール）照合部１２４では、定義情報（ルール）蓄積部１２６に格納された画像態様定義情報をテンプレートとして、各サンプル画像フレーム［ｆ_ｉ］がどのルール（テンプレート）に対応するかの対応付けを行なう。

なお、定義情報（ルール）照合部１２４において、定義情報（ルール）蓄積部１２６に格納された画像態様定義情報との照合を実行する画像フレームは、サンプリング部１２１において抽出されたサンプル画像フレーム［ｆ_ｉ］のすべてではなく、動き検出部１２２と、特徴抽出部１２３との処理によってスキン領域と認められた特定領域を含む選別された画像フレームのみを対象とすることができる。

定義情報（ルール）照合部１２４では、スキン領域と認められた特定領域を含む画像フレームと、定義情報（ルール）蓄積部１２６に格納された画像態様定義情報との照合を実行して、画像フレームの各々について、それぞれ画像態様定義情報を対応付ける。

定義情報（ルール）蓄積部１２６に格納された画像態様定義情報の例について、図４を参照して説明する。

定義情報（ルール）蓄積部１２６には、画像特徴の様々な態様を定義したテンプレートに相当する多数の画像態様定義情報が格納される。それぞれが、例えば人物の所定のアクション、例えば手を上げた状態、起立した状態など、様々な動作に対応する画像態様を示す条件データとして設定される。

図４に示す例では、定義情報（ルール）蓄積部１２６に［Ｒ００００１］〜［Ｒｎｎｎｎｎ］の画像態様定義情報（テンプレート）が格納された例を示しており、その１つの画像態様定義情報の具体例を図４（ａ）に示している。画像態様定義情報は、例えば図４（ａ）に示すような特定領域の位置、サイズなどの特定領域情報をｉｆ，ｔｈｅｎの条件式として設定した構成を持つ。

図４（ａ）に示す条件は、図４（ｂ）に示す特定領域（ａｒｅａ１，ａｒｅａ２）の態様に対応している。

図４（ａ）に示す条件式は、
ｉｆ（７＜ａｒｅａ１ｓｉｚｅ＜９）
ａｎｄ（１＜ａｒｅａ２ｓｉｚｅ＜２）
ａｎｄ（１＜ｄｉｓｔａｎｃｅ（ａｒｅａ２，ａｒｅａ１）＜２）
ａｎｄ（１＜ｙ−ｄｉｓｔａｎｃｅ（ａｒｅａ２，ａｒｅａ１）＜２）
ｔｈｅｎ
Ｔｅｍｐｌａｔｅ［Ｒ００ｘｘｘ］（挙手アクション）
の構成であり、

例えば、図４（ｃ）に示す画像フレームに対して、定義情報（ルール）蓄積部１２６に格納された画像態様定義情報を対応付ける場合、図４（ｃ）に示す画像フレームに対して定義情報（ルール）蓄積部１２６に格納された画像態様定義情報［Ｒ０００００］から順次画像フレームとの照合処理を実行し、画像態様定義情報の条件に合致するものをその画像フレームの対応ルールとして選択する。ここでは、画像態様定義情報［Ｒ００ｘｘｘ］が選択された例を示している。

例えば、図４（ｃ）に示す画像フレームにおいて、この画像フレームの画像特徴を示す特定領域、すなわちスキン領域は、図４（ｃ）に示す顔部分領域２０１と、手部分領域２０２であり、これらがそれぞれ図４（ａ）のルールの領域１（ａｒｅａ１）と領域２（ａｒｅａ２）に対応する。

図４（ｂ）に示す画像態様定義情報は、領域１（ａｒｅａ１）のサイズが７〜９、領域２（ａｒｅａ２）のサイズが１〜２、領域１（ａｒｅａ１）と領域２（ａｒｅａ２）との距離が１〜２、領域１（ａｒｅａ１）と領域２（ａｒｅａ２）とのｙ方向の距離が１〜２という条件を設定しており、図４（ｃ）に示す画像フレームは、この画像態様定義情報の条件を満足するので、図４（ｃ）に示す画像フレームは、この画像態様定義情報、すなわち画像態様定義情報［Ｒ００２０１］対応のフレームであると判定される。

前述したように、定義情報（ルール）照合部１２４では、動きが認められ、スキン領域として判定された画像フレームと、定義情報（ルール）蓄積部１２６に格納された画像態様定義情報との照合を実行して、画像フレームの各々において識別された特定領域、すなわちここではスキン（皮膚）領域の表示態様と一致する画像態様定義情報を、画像フレーム対応のルールとして決定する。

なお、画像態様定義情報は、図４（ａ）に示すようなｉｆ−ｔｈｅｎ形式の条件式に限らず、例えば特定領域の大きさ（ｓｉｚｅ）、位置などの情報を記述したのみのデータ、あるいは表形式などのテーブルデータなどとして保持し、定義情報（ルール）照合部１２４では、これらのデータに基づく対応付け処理を実行してもよい。

画像態様定義情報として定義される情報は、画像特徴を示す情報であり、例えば画像特徴を示す特定領域に関する以下の情報である。
特定領域の位置情報（例えば座標データ）
特定領域のアスペクト比情報（縦横比）
特定領域のサイズ情報（面積）
特定領域の重心位置情報
特定領域間の距離情報
これらの情報の少なくともいずれかの条件を定めた定義データとして画像態様定義情報が設定される。

定義情報（ルール）照合部１２４で実行する具体的な処理例について説明する。例えば、カメラ１０１の撮像データとして取得される画像ストリームデータを［Ｓ１］とし、サンプリング部において抽出されたサンプル画像フレームを［ｆ_ｉ］としたとき、動き検出部１２２と、特徴抽出部１２３との処理によって、動きが認められ、スキン領域として判定された領域を含む画像フレームが、［Ｐ１］、［Ｐ２］、［Ｐ３］の３枚抽出されたとする。

定義情報（ルール）照合部１２４では、これらの３枚の画像フレームについて、定義情報（ルール）蓄積部１２６に格納された画像態様定義情報との照合を実行して、画像フレーム［Ｐ１］〜［Ｐ３］の特定領域の表示状態を満足する画像態様定義情報を対応付ける。例えば、
画像フレーム［Ｐ１］→画像態様定義情報［Ｒ００００３］
画像フレーム［Ｐ２］→画像態様定義情報［Ｒ０００２１］
画像フレーム［Ｐ３］→画像態様定義情報［Ｒ００１０２］
などの対応付けが実行される。

なお、画像フレーム［Ｐ１］，［Ｐ２］，［Ｐ３］は時間の経過に従って並べられた画像フレーム、すなわち、動きのあるスキン領域の検出された画像フレームのシーケンスである。なおルールの対応付け対象となる画像フレームの数は１以上任意の数が可能である。

画像識別処理部１２５では、定義情報（ルール）照合部１２４で対応付けられた画像フレームの画像態様定義情報シーケンスに基づく動作判定、すなわちアクションの識別処理を実行する。上記の例では、画像態様定義情報シーケンスは、［Ｒ００００３］→［Ｒ０００２１］→［Ｒ００１０２］となる。

例えば２つの画像フレーム［Ｐ１］，［Ｐ２］に基づく動作識別の実行例について図５を参照して説明する。

図５（ａ）は、人物の挙手アクションとして識別される例を示している。例えば、定義情報（ルール）照合部１２４において、
画像フレーム［Ｐ１］→画像態様定義情報［Ｒ００１］
画像フレーム［Ｐ２］→画像態様定義情報［Ｒ００２］
に対応するものと判定され、これらのルールシーケンス情報［Ｒ００１］→［Ｒ００２］が、画像識別処理部１２５に入力される。

画像識別処理部１２５は、様々なルールシーケンスに対応するアクション情報を設定したテーブルを格納したアクション定義情報蓄積部１２７のテーブルデータに基づいて、
画像態様定義情報［Ｒ００１］→画像態様定義情報［Ｒ００２］
のシーケンスに対応するアクション情報を抽出する。

アクション定義情報蓄積部１２７のテーブルデータには、画像態様定義情報［Ｒ００１］→画像態様定義情報［Ｒ００２］の対応アクションは、挙手アクションであると定義されており、画像識別処理部１２５は、このルールシーケンスが、挙手アクションであると結論付ける。

図５（ｂ）は、人物の起立アクションとして識別される例を示している。例えば、定義情報（ルール）照合部１２４において、
画像フレーム［Ｐ１］→画像態様定義情報［Ｒ００１］
画像フレーム［Ｐ２］→画像態様定義情報［Ｒ００３］
に対応するものと判定され、これらのルールシーケンス情報［Ｒ００１］→［Ｒ００３］が画像識別処理部１２５に入力される。

画像識別処理部１２５はアクション定義情報蓄積部１２７から、
画像態様定義情報［Ｒ００１］→画像態様定義情報［Ｒ００３］
のシーケンスに対応するアクション情報を抽出する。

アクション定義情報蓄積部１２７のテーブルデータには、画像態様定義情報［Ｒ００１］→画像態様定義情報［Ｒ００３］の対応アクションは、起立アクションであると定義されており、画像識別処理部１２５は、このルールシーケンスが、起立アクションであると結論付ける。

アクション定義情報蓄積部１２７のテーブルデータは、様々なアクションに対応する画像態様定義情報シーケンスを定義している。図６を参照して、アクション定義情報蓄積部１２７のテーブルデータについて説明する。

図６には、（ａ）挙手アクション、（ｂ）起立アクション、（ｃ）着席アクションの３つのアクションに対応する画像態様定義情報シーケンスの例を示している。

（ａ）挙手アクションに対応する画像態様定義情報シーケンスとしては、例えば図６（ａ１）〜（ａ６）があり、これらのシーケンスが挙手アクションに対応するルールシーケンスとして、アクション定義情報蓄積部１２７のテーブルデータとして設定される。

なお、画像態様定義情報は、先に図４（ａ）を参照して説明したような条件を示すデータとして記述され、これらの記述データに対応する識別情報のシーケンスが、アクション定義情報蓄積部１２７のテーブルデータとして設定される。図６では、理解を容易にするため、図４（ａ）を参照して説明した条件データの表現態様を示して説明する。

例えば図６（ａ１）のシーケンスは、
画像フレーム［Ｐ１］：顔（ｆａｃｅ）領域が中央上部に位置し、手（ｈａｎｄ）領域が左右下部それぞれに位置した状態を示す画像態様定義情報［Ｒ００１］
画像フレーム［Ｐ２］：顔（ｆａｃｅ）領域が中央上部に位置し、手（ｈａｎｄ）領域が左上部と右下部それぞれに位置した状態を示す画像態様定義情報［Ｒ００２］
画像フレーム［Ｐ３］：顔（ｆａｃｅ）領域が中央上部に位置し、手（ｈａｎｄ）領域が左右下部それぞれに位置した状態を示す画像態様定義情報［Ｒ００１］
のシーケンスを示している。

すなわち、アクション定義情報蓄積部１２７のテーブルデータには、
画像態様定義情報［Ｒ００１］→［Ｒ００２］→［Ｒ００１］のシーケンスに対応するアクションは、挙手アクションであると定義されており、画像識別処理部１２５は、画像態様定義情報［Ｒ００１］→［Ｒ００２］→［Ｒ００１］のシーケンスを定義情報（ルール）照合部１２４から入力した場合には、挙手アクションであると判定する。

同様に、図６（ａ１）〜（ａ６）の全ての画像態様定義情報シーケンスは全て、アクション定義情報蓄積部１２７のテーブルデータに挙手アクションであると定義され、画像識別処理部１２５は、ルール照合１２４から入力する画像態様定義情報シーケンスが、これらのシーケンスである場合は、挙手アクションが発生したとの判定を行なう。

図６（ｂ）は、起立アクションに対応する画像態様定義情報シーケンスを示している。
例えば図６（ｂ１）のシーケンスは、
画像フレーム［Ｐ１］：顔（ｆａｃｅ）領域が中央下部に位置した状態を示す画像態様定義情報［Ｒ００４］
画像フレーム［Ｐ２］：顔（ｆａｃｅ）領域が中央上部に位置した状態を示す画像態様定義情報［Ｒ００５］
画像フレーム［Ｐ３］：顔（ｆａｃｅ）領域が中央下部に位置した状態を示す画像態様定義情報［Ｒ００４］
のシーケンスを示している。

アクション定義情報蓄積部１２７のテーブルデータには、
画像態様定義情報［Ｒ００４］→［Ｒ００５］→［Ｒ００４］のシーケンスに対応するアクションは、起立アクションであると定義されており、画像識別処理部１２５は、画像態様定義情報［Ｒ００４］→［Ｒ００５］→［Ｒ００４］のシーケンス情報を定義情報（ルール）照合部１２４から入力した場合には、起立アクションが発生したと判定する。

図６（ｃ）は、着席アクションに対応する画像態様定義情報シーケンスを示している。
例えば図６（ｃ１）のシーケンスは、
画像フレーム［Ｐ１］：顔（ｆａｃｅ）領域が中央上部に位置した状態を示す画像態様定義情報［Ｒ００５］
画像フレーム［Ｐ２］：顔（ｆａｃｅ）領域が中央下部に位置した状態を示す画像態様定義情報［Ｒ００４］
画像フレーム［Ｐ３］：顔（ｆａｃｅ）領域が中央上部に位置した状態を示す画像態様定義情報［Ｒ００５］
のシーケンスを示している。

アクション定義情報蓄積部１２７のテーブルデータには、
画像態様定義情報［Ｒ００５］→［Ｒ００４］→［Ｒ００５］のシーケンスに対応するアクションは、着席アクションであると定義されており、画像識別処理部１２５は、画像態様定義情報［Ｒ００５］→［Ｒ００４］→［Ｒ００５］のシーケンス情報を定義情報（ルール）照合部１２４から入力した場合には、着席アクションが発生したと判定する。

このように、定義情報（ルール）照合部１２４では、動きのあるスキン領域が検出された画像フレーム［Ｐ１］〜［Ｐｎ］について、それぞれ、定義情報（ルール）蓄積部１２６に格納された画像態様定義情報との照合を実行して、画像フレーム［Ｐ１］〜［Ｐｎ］の特定領域の表示状態を満足する画像態様定義情報［Ｒｘｘｘ］〜［Ｒｙｙｙ］を対応付ける。なお、画像フレーム［Ｐ１］〜［Ｐｎ］は時系列に並べられ、画像フレーム［Ｐ１］〜［Ｐｎ］に対応する画像態様定義情報［Ｒｘｘｘ］〜［Ｒｙｙｙ］も時系列データとして設定されたシーケンスデータである。

次に、画像識別処理部１２５は、アクション定義情報蓄積部１２７から画像態様定義情報シーケンスとアクションとを対応付けたテーブルに基づいて発生アクションを決定する。

すなわち、定義情報（ルール）照合部１２４からの入力情報、すなわち、時系列に並べられた画像フレーム［Ｐ１］〜［Ｐｎ］に対応する画像態様定義情報［Ｒｘｘｘ］〜［Ｒｙｙｙ］のルールシーケンスに対応するデータエントリを、アクション定義情報蓄積部１２７から取得したテーブルから検索、抽出して、抽出エントリに対応するアクションを、画像フレーム［Ｐ１］〜［Ｐｎ］から識別されるアクションとして決定する。

図７、図８を参照して、定義情報（ルール）照合部１２４の処理と、画像識別処理部１２５の処理手順について説明する。

まず、図７を参照して、定義情報（ルール）照合部１２４の処理手順について説明する。

定義情報（ルール）照合部１２４は、まず、ステップＳ２０１において、時系列に設定した画像フレーム［Ｐ１］〜［Ｐｎ］から１つずつ、ルール対応付け処理対象フレーム［Ｐｉ］として選択する。

ステップＳ２０２において、処理対象の画像フレーム［Ｐｉ］に一致する画像態様定義情報［Ｒｘ］を選択して、フレーム対応ルールを決定する。

ステップＳ２０３において、時系列に設定された画像フレーム［Ｐ１］〜［Ｐｎ］全てに対する画像態様定義情報の対応付けが終了したか否かを判定し、未終了の画像フレームがある場合は、ステップＳ２０１以下の処理を繰り返し実行する。全ての画像フレーム［Ｐ１］〜［Ｐｎ］に対する画像態様定義情報の対応付けが終了すると、ステップＳ２０４に進み、画像フレーム［Ｐ１］〜［Ｐｎ］に対応するルールシーケンス情報［Ｒｘ］〜［Ｒｙ］を画像識別処理部に出力する。

次に、図８を参照して、画像識別処理部１２５の処理手順について説明する。画像識別処理部１２５は、ステップＳ３０１において、時系列に設定した画像フレーム［Ｐ１］〜［Ｐｎ］に対応するルールシーケンス情報［Ｒｘ］〜［Ｒｙ］を定義情報（ルール）照合部１２４から入力する。

次にステップＳ３０２において、アクション定義情報蓄積部１２７に格納されたテーブルに基づいて、画像フレーム［Ｐ１］〜［Ｐｎ］に対応するルールシーケンス情報［Ｒｘ］〜［Ｒｙ］に一致するシーケンスを設定したエントリを抽出し、ステップＳ３０３において、その抽出エントリに設定された動作情報を発生アクションとして決定する。

以上の処理によって、例えばカメラによって撮影された画像データに基づく、発生動作の識別処理が実行される。このように識別された動作に基づいて、例えばビデオデータに対するインデックス付与などが実行される。

実際の処理として、ある１時間のミーティングを異なる方向からの４台のカメラで撮影したデータを用いた動作識別処理を行なった。各カメラの撮影フレームは、約３０００フレームであり、計１２０００フレームを取得した。カメラ撮影データはＭＰＥＧ−１データであり、３５２×２４０画素のフレームデータによって構成される。まず、カメラの撮影したデータストリームから１秒毎に１つのサンプルフレームを抽出し、このサンプルフレームについて、上述の特定領域、すなわちスキン領域検出および動き検出を行い、動きのあるスキン領域を持つ画像フレームについて画像態様定義情報との対応付け処理を実行し、そのシーケンスに基づく動作判定を行なった。結果として、手の動きや一般的な人物の動作について効率的で正確な判定がなされた。

本発明の画像解析装置および方法においては、例えば図４（ａ）に示したように、特定領域を定義したルールを設定し、各選別画像について対応するルールを選択することにより、動作シーケンスを判定するものであり、図４（ａ）に示したように、特定領域を定義したルールは、特定領域情報、すなわち、
特定領域の位置情報（例えば座標データ）
特定領域のアスペクト比情報（縦横比）
特定領域のサイズ情報（面積）
特定領域の重心位置情報
特定領域間の距離情報
これらの情報の少なくともいずれかの条件を定めた定義データとして設定されるものであり、その作成はきわめて容易であり、様々な新たな画像態様定義情報を生成することが可能であり、実施例で説明した挙手、起立、着席などの動作のみならず、例えば握手、うなずきなど、様々な動作を定義した画像態様定義情報を容易に作成することが可能となる。

従って、従来の、例えば画像データそのものをテンプレートとしてテンプレートマッチングを行なう手法に比較すると、テンプレートとして適用する画像態様定義情報の作成が極めて簡単であり、画像態様定義情報の生成により、様々な動作判定を効率的に実行することが可能となる。また、画像態様定義情報は画像データそのものをテンプレートとして設定した場合に比較すると、データ量が大幅に削減され、データ処理の効率化、メモリ量の削減、装置の小型化を実現することが可能となる。

最後に、上述した画像解析装置のハードウェア構成例について、図９を参照して説明する。

ＣＰＵ（Central Processing Unit）５０１は、ＯＳ（Operating System)、上述の実施例において説明したサンプリング処理、特定領域検出処理、動き検出処理、ルール照合処理、動作識別処理の各処理の実行シーケンスを記述した各種コンピュータ・プログラムに従った処理を実行する制御部である。

ＲＯＭ（Read Only Memory）５０２は、ＣＰＵ５０１が使用するプログラムや演算パラメータ等を格納する。ＲＡＭ（Random Access Memory）５０３は、ＣＰＵ５０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはＣＰＵバスなどから構成されるホストバス５０４により相互に接続されている。

ホストバス５０４は、ブリッジ５０５を介して、ＰＣＩ(Peripheral Component Interconnect/Interface)バスなどの外部バス５０６に接続されている。

キーボード５０８、ポインティングデバイス５０９は、ユーザにより操作される入力デバイスである。ディスプレイ５１０は、液晶表示装置またはＣＲＴ（Cathode Ray Tube）などから成り、各種情報をテキストやイメージで表示する。

ＨＤＤ（Hard Disk Drive）５１１は、ハードディスクを内蔵し、ハードディスクを駆動し、ＣＰＵ５０１によって実行するプログラムや情報を記録または再生させる。ハードディスクは、図１に示す定義情報（ルール）蓄積部１２６、アクション定義情報蓄積部１２７に格納されるデータの格納部としての役割、および各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。

ドライブ５１２は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体５２１に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース５０７、外部バス５０６、ブリッジ５０５、およびホストバス５０４を介して接続されているＲＡＭ５０３に供給する。

接続ポート５１４は、外部接続機器５２２を接続するポートであり、ＵＳＢ，ＩＥＥＥ１３９４等の接続部を持つ。接続ポート５１４は、インタフェース５０７、および外部バス５０６、ブリッジ５０５、ホストバス５０４等を介してＣＰＵ５０１等に接続されている。通信部５１５は、ネットワークに接続され、ＣＰＵ５０１、またはＨＤＤ５１１等からの供給データの送信、データ受信を実行する。

なお、図９に示す画像解析装置のハードウェア構成例は、ＰＣを適用して構成した装置の一例であり、本発明の画像解析装置は、図９に示す構成に限らず、上述した実施例において説明した処理を実行可能な構成であればよい。

以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、冒頭に記載した特許請求の範囲の欄を参酌すべきである。

なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。

例えば、プログラムは記録媒体としてのハードディスクやＲＯＭ（Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、ＣＤ−ＲＯＭ(Compact Disc Read Only Memory)，ＭＯ(Magneto optical)ディスク，ＤＶＤ(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。

なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、ＬＡＮ(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

以上、説明したように、本発明の構成によれば、入力画像データから、例えば人の顔や手などの特定の画像特徴を抽出し、その入力画像データの特徴態様と、各種の画像特徴態様を定義した例えば条件式などによって記述されたルールからなる画像態様定義情報との照合を行ない、各画像に適合するルールを選択して画像データに対応付けて、対応付けたルールまたはそのシーケンスに基づいて、画像特徴に対応する領域を構成要素とする被写体、例えば顔や手を持つ人物の姿勢や動作判定を行なう構成としたので、条件式などによって構成された記述データを満足する画像データであるか否かを判定する効率的な照合処理によって人物の姿勢判定や動作判定など正確な被写体識別が可能となる。

本発明に係る画像解析装置の構成を示すブロック図である。本発明に係る画像解析装置における動き検出部の実行する処理について説明する図である。本発明に係る画像解析装置における特徴抽出部の実行する処理について説明するフローチャートを示す図である。本発明に係る画像解析装置におけるルール照合部の実行する処理およびこの処理に適用する画像態様定義情報の具体例について説明する図である。本発明に係る画像解析装置における画像識別処理部の実行する処理について説明する図である。本発明に係る画像解析装置におけるアクション定義情報蓄積部の蓄積した情報に基づく動作判別処理について説明する図である。本発明に係る画像解析装置におけるルール照合部の実行する処理について説明するフローチャートを示す図である。本発明に係る画像解析装置における画像識別処理部の実行する処理について説明するフローチャートを示す図である。本発明に係る画像解析装置のハードウェア構成例を示す図である。

符号の説明

１０１〜１０ｎカメラ
１２１サンプリング部
１２２動き検出部
１２３特徴抽出部
１２４ルール照合部
１２５画像識別処理部
１２６ルール蓄積部
１２７アクション定義情報蓄積部
２０１顔部分領域
２０２手部分領域
５０１ＣＰＵ(Central processing Unit)
５０２ＲＯＭ（Read-Only-Memory）
５０３ＲＡＭ（Random Access Memory）
５０４ホストバス
５０５ブリッジ
５０６外部バス
５０７インタフェース
５０８キーボード
５０９ポインティングデバイス
５１０ディスプレイ
５１１ＨＤＤ（Hard Disk Drive）
５１２ドライブ
５１４接続ポート
５１５通信部
５２１リムーバブル記録媒体
５２２外部接続機器

Claims

画像解析装置であり、
時系列に従った画像列を構成する複数の画像フレームを入力し、当該画像フレームの各々のカラー判別により人物のスキン（皮膚）領域と推定される部分領域をグループ化してスキン領域バウンディングボックスを設定し、当該スキン領域バウンディングボックスおよびその近隣領域を含むアクティブバウンディングボックスを設定し、当該画像フレームからの被写体の動きを検出する動き検出部からの情報に基づいて、フレーム間での動きが検出された領域が前記アクティブバウンディングボックス内にあるときに、前記スキン領域を特徴領域として抽出する特徴抽出部と、
前記特徴領域の位置情報、アスペクト比情報、サイズ情報、重心位置情報、および前記特徴領域の間の距離情報の少なくとも１つに関して特徴付けられる複数の画像態様定義情報を格納した記憶部と、
前記特徴抽出部により抽出した各画像フレームの特徴領域と一致する画像態様定義情報を前記記憶部から選択し、該選択情報を前記各画像フレームの定義情報として設定する定義情報照合部と、
前記定義情報照合部において各画像フレームに対応付けられた定義情報に基づいて、前記特徴領域を含む被写体の動作態様を識別する動作態様識別処理部と、
を有することを特徴とする画像解析装置。
前記画像態様定義情報は、
前記特徴領域の位置情報、アスペクト比情報、サイズ情報、重心位置情報、および前記特徴領域の間の距離情報の少なくとも１つに関して定義した条件式によって構成された情報であることを特徴とする請求項１に記載の画像解析装置。
コンピュータを、
時系列に従った画像列を構成する複数の画像フレームを入力し、当該画像フレームの各々のカラー判別により人物のスキン（皮膚）領域と推定される部分領域をグループ化してスキン領域バウンディングボックスを設定し、当該スキン領域バウンディングボックスおよびその近隣領域を含むアクティブバウンディングボックスを設定し、当該画像フレームからの被写体の動きを検出する動き検出部からの情報に基づいて、フレーム間での動きが検出された領域が前記アクティブバウンディングボックス内にあるときに、前記スキン領域を特徴領域として抽出する特徴抽出部、
前記特徴領域の位置情報、アスペクト比情報、サイズ情報、重心位置情報、および前記特徴領域の間の距離情報の少なくとも１つに関して特徴付けられる複数の画像態様定義情報を格納した記憶部、
前記特徴抽出部により抽出した各画像フレームの特徴領域と一致する画像態様定義情報を前記記憶部から選択し、該選択情報を前記各画像フレームの定義情報として設定する定義情報照合部、
前記定義情報照合部において各画像フレームに対応付けられた定義情報に基づいて、前記特徴領域を含む被写体の動作態様を識別する動作態様識別処理部
として機能させるための画像解析処理用コンピュータ・プログラム。