JP2010079651A - 動作認識装置、方法及びプログラム - Google Patents
動作認識装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2010079651A JP2010079651A JP2008248059A JP2008248059A JP2010079651A JP 2010079651 A JP2010079651 A JP 2010079651A JP 2008248059 A JP2008248059 A JP 2008248059A JP 2008248059 A JP2008248059 A JP 2008248059A JP 2010079651 A JP2010079651 A JP 2010079651A
- Authority
- JP
- Japan
- Prior art keywords
- area
- region
- image
- moving
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】手などの認識対象物の動作を認識する際に、背景を誤認識する可能性を低減しつつ、機器の操作方法として十分な機能をユーザに提供可能な動作認識技術を提供する。
【解決手段】画像選択部53は、画像入力部51から入力され画像記憶部52に記憶された画像から3つの時刻に撮影された画像を選択し、2つの画像の異なる組み合わせを選択する。動領域抽出部54は、一方の組み合わせから動きのある動領域を抽出する。非動領域抽出部55は、他方の組み合わせから動きの少ない非動領域を抽出する。色領域抽出部56は、1つの画像から、認識対象物に固有の色を表す色領域を抽出する。対象領域検出部57は、動領域、非動領域及び色領域を用いて、認識対象物を表す対象領域を検出する。
【選択図】図1
【解決手段】画像選択部53は、画像入力部51から入力され画像記憶部52に記憶された画像から3つの時刻に撮影された画像を選択し、2つの画像の異なる組み合わせを選択する。動領域抽出部54は、一方の組み合わせから動きのある動領域を抽出する。非動領域抽出部55は、他方の組み合わせから動きの少ない非動領域を抽出する。色領域抽出部56は、1つの画像から、認識対象物に固有の色を表す色領域を抽出する。対象領域検出部57は、動領域、非動領域及び色領域を用いて、認識対象物を表す対象領域を検出する。
【選択図】図1
Description
本発明は、例えば手などの認識対象物の動作を認識し、その動作に応じて非接触で機器を操作可能にするための動作認識装置、方法及びプログラムに関する。
従来より、カメラで撮影された画像から、予め教示しておいたユーザの手形状を認識し、認識した手の形状に応じて非接触で機器を操作可能にする認識装置が提案されている(例えば、特許文献1参照)。この認識装置では、例えば、握りこぶしで親指を立てた手形状と、握りこぶしの手形状との2種類の手形状を対象としたときに、親指を立てた手形状をスイッチオン、握りこぶしの手形状をスイッチオフと予め登録しておく。この場合、ユーザが握りこぶしから親指を立てる動作をすると、その動作を認識装置が認識することにより、非接触で機器のスイッチを入れることができる。しかし、この技術では、画像から手形状を認識する場合に、手ではない背景の領域を手と誤って誤認識してしまう例があった。また、手が動いている途中を撮影した画像では、動きによるボケが生じて手の形状がはっきり映らないため、手形状の認識精度が低下して、操作に失敗する例があった。特に手の動きが早い場合には認識精度の低下は顕著であった。
一方、動いている手を検出する方式として、時系列の画像データから動きのある領域を抽出する動き検出手段と、色を検出する色検出手段とを備え、動きのある領域で且つ対象物を特徴づける色を含む領域を、動いている手の存在する対象領域として選択する方式が提案されている(例えば、特許文献2参照)。この方式では動きと色とによって対象領域を制限するため、背景の領域で手を誤認識する確率を低減させることができる。
しかし、特許文献2の方式では、静止した手を検出することができない恐れがあった。また、この方式では、手形状を認識せず動きだけを使うため、操作の選択肢が限られて、機器の操作方法として十分な機能をユーザに提供できない恐れがあった。
本発明は、上記に鑑みてなされたものであって、手などの認識対象物の動作を認識する際に、背景を誤認識する可能性を低減しつつ、機器の操作方法として十分な機能をユーザに提供可能な動作認識装置、方法及びプログラムを提供することを目的とする。
上述した課題を解決し、本発明は、動作認識装置であって、認識対象物が時系列画像から、互いに異なる少なくとも3つの時刻に各々撮影された画像を選択して、選択した前記画像のうち、互いに異なる少なくとも2つの時刻に各々撮影された画像の組み合わせを少なくとも2つ選択する画像選択部と、前記組み合わせのうち、一方の組み合わせにおける画像間の差分の画素値が予め定められた閾値以上の領域である動領域を抽出する動領域抽出部と、前記組み合わせのうち、他方の組み合わせにおける画像間の差分の画素値が予め定められた閾値より小さい領域である非動領域を抽出する非動領域抽出部と、前記少なくとも3つの時刻のうち少なくとも1つの時刻に撮影された画像から、前記認識対象物に固有の色を表す領域である色領域を抽出する色領域抽出部と、前記色領域に含まれる前記非動領域の面積が当該色領域の面積に対して第1比率以上である場合且つ前記色領域に含まれる前記動領域の面積が当該色領域の面積に対して第2比率以上である場合、当該色領域である対象領域を検出する対象領域検出部とを備えることを特徴とする。
また、本発明は、画像選択部と、動領域抽出部と、非動領域抽出部と、色領域抽出部と、対象領域検出部とを備える動作認識装置で実行される動作認識方法であって、前記画像選択部が、認識対象物が時系列画像から、互いに異なる少なくとも3つの時刻に各々撮影された画像を選択して、選択した前記画像のうち、互いに異なる少なくとも2つの時刻に各々撮影された画像の組み合わせを少なくとも2つ選択する画像選択ステップと、前記動領域抽出部が、前記組み合わせのうち、一方の組み合わせにおける画像間の差分の画素値が予め定められた閾値以上の領域である動領域を抽出する動領域抽出ステップと、前記非動領域抽出部が、前記組み合わせのうち、他方の組み合わせにおける画像間の差分の画素値が予め定められた閾値より小さい領域である非動領域を抽出する非動領域抽出ステップと、前記色領域抽出部が、前記少なくとも3つの時刻のうち少なくとも1つの時刻に撮影された画像から、前記認識対象物に固有の色を表す領域である色領域を抽出する色領域抽出ステップと、前記対象領域検出部が、前記色領域に含まれる前記非動領域の面積が当該色領域の面積に対して第1比率以上である場合且つ前記色領域に含まれる前記動領域の面積が当該色領域の面積に対して第2比率以上である場合、当該色領域である対象領域を検出する対象領域検出ステップとを含むことを特徴とする。
また、本発明は、上記の動作認識方法をコンピュータに実行させるためのプログラムである。
本発明によれば、背景を誤認識する可能性を低減しつつ、機器の操作方法として十分な機能をユーザに提供可能になる。
以下に添付図面を参照して、本発明に係る動作認識装置、方法及びプログラムの最良な実施の形態を詳細に説明する。
本実施の形態の動作認識装置は、例えば、CPU(Central Processing Unit)等の制御部と、ROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部と、HDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部と、これらを接続するバスとを備えており、通常のコンピュータを利用したハードウェア構成となっている。CPUは、記憶部や外部記憶部に記憶された各種プログラムを読み出して実行することにより、動作認識装置全体を制御し、各種機能を実現させる。動作認識装置の内部又は外部には、例えば、CMOSイメージセンサやCCDイメージセンサなどの撮像素子を有する撮像部と、情報を表示する表示部と、ユーザの指示入力を受け付けるキーボードやマウス等の入力部と、外部装置の通信を制御する通信I/F(interface)とが有線又は無線により各々接続される。
次に、このようなハードウェア構成において、CPUが記憶部や外部記憶部に記憶された各種プログラムを実行することにより実現される各種機能について説明する。図1は、動作認識装置100の機能的構成を例示する図である。同図に示される各部は、CPUのプログラム実行時にRAMなどの記憶部上に生成されるものである。動作認識装置100は、画像入力部51と、画像記憶部52と、画像選択部53と、動領域抽出部54と、非動領域抽出部55と、色領域抽出部56と、対象領域検出部57と、対象認識部58と、認識辞書記憶部59とを有する。
画像入力部51には、撮像部で撮影された認識対象物の画像が入力される。認識対象物とは、例えば人間の手である。画像入力部51は、入力された画像を画像記憶部2に出力する。画像記憶部52は、例えば、リングバッファであり、画像入力部51から入力された画像を時系列に記憶する。具体的には、画像記憶部52にはN(N:3以上の整数)フレーム分の画像を記憶する記憶エリアがあり、画像記憶部52は画像入力部51から入力された画像をこの記憶エリアに順次記憶していく。新しい画像が入力されると、‘N+1’フレーム前の最も古い画像が上書きされて、当該画像が記憶されていた記憶エリアに新しい画像が新たに記憶されることにより、最も遅い時刻に撮影されたNフレームの画像(最新の画像)が記憶される。また、画像入力部51での画像の撮影の間隔が不定である場合や不定期に欠落がある場合は、画像記憶部52は、画像と一緒に画像入力部51での撮影時刻を記憶する。尚、画像入力部51から入力される画像が常に一定間隔で撮影される場合、画像記憶部52は、画像と一緒にフレーム番号を記憶するようにしても良い。
画像選択部53は、画像記憶部52に記憶された画像から少なくとも2つの画像を選択し、互いに異なる少なくとも2つの時刻に各々撮影された画像の組み合わせを少なくとも2つ選択する。そして、画像選択部53は、一方の組み合わせを動領域抽出部54に出力し、他方の組み合わせを非動領域抽出部55に出力し、1つの画像を色領域抽出部56に出力する。画像選択部53が画像を選択する方法の一例は以下の通りである。画像選択部53は、画像記憶部2に記憶された画像から、最も遅い時刻に撮影された画像(撮影時刻を‘t’とする)と、その1フレーム前の画像(撮影時刻を‘t−1’とする)と、最も遅い時刻に撮影された画像のn(n:2以上の整数)フレーム前の画像(撮影時刻を‘t−n’とする)との3フレームの画像を選択する。そして画像選択部53は、撮影時刻‘t’の画像と撮影時刻‘t−n’の画像とを動領域抽出部54に出力し、撮影時刻‘t’の画像と撮影時刻‘t−1’の画像とを非動領域抽出部55に出力し、撮影時刻‘t’の画像を色領域抽出部56に出力する。即ち、画像選択部53は、3つの時刻のうち最も遅い時刻に撮影された画像と、最も早い時刻に撮影された画像とを動領域抽出部54に出力し、最も遅い時刻に撮影された画像と、最も遅い時刻と最も早い時刻との間の時刻に撮影された画像とを非動領域抽出部55に出力し、最も遅い時刻に撮影された画像を色領域抽出部56に出力する。
図2は、撮影時刻‘t’,‘t−1’,‘t−n’と、各撮影時刻に対応する画像の出力先との関係を模式的に示す図である。本実施の形態においては、認識対象物について、現在動きが小さいがある時間前には動きがあった領域を対象領域として検出するために、撮影時刻‘t−n’から撮影時刻‘t−1’までの間は、動きがあったとみなし、撮影時刻‘t−1’から撮影時刻‘t’までの間は、動きが少なかったとみなして動作認識装置100は処理を行う。このため、同図に示されるように、撮影時刻‘t−1’の画像と撮影時刻‘t’の画像とから実際に動きの少ない領域を抽出するために、これらの画像を非動領域抽出部55に画像選択部53は出力する。一方で、撮影時刻‘t’の画像と撮影時刻‘t―n’の画像とから実際に動きのある領域を抽出するために、これらの画像を動領域抽出部54に画像選択部53は出力する。
ここで、各撮影時刻‘t’,‘t−1’,‘t−n’に対応する実際の画像の例を参照しながら説明する。図3は、撮影時刻‘t’の画像を例示する図である。図4は、撮影時刻‘t−1’の画像を例示する図である。図5は、撮影時刻‘t−n’の画像を例示する図である。これらの図によれば、撮影時刻‘t−n’から撮影時刻‘t−1’までの間は手をやや下にさげるという動きがあり、撮影時刻‘t−1’から撮影時刻‘t’までの間は動きがほとんどなくなったことが示されている。このような3フレームの画像が選択された場合、後述するように、認識対象物について現在動きは小さいがある時間前には動きがあった領域が対象領域として精度高く検出されることになる。尚、撮影時刻‘t−1’から撮影時刻‘t’までの間にも実際には動きがあった場合などには、動作認識装置100は、対象領域を検出することができない。この場合、画像選択部53は、新たな撮影時刻(例えば‘t+1’とする)に対応する画像を最も遅い時刻に撮影された画像として選択して、以降処理が新たに行われることになる。また、外部から認識対象物の認識状態が入力され、認識対象物が表される対象領域が既に検出された状態であれば画像選択部53は画像の選択を行わない。
尚、画像選択部53は、各2フレームの画像間の撮影時刻の間隔が等しくなるように3フレームの画像を選択するようにしても良いが、動領域抽出部54に出力する2フレームの画像間の撮影時刻の間隔が、非動領域抽出部55に出力する2フレームの画像間の撮影時刻の間隔より長い方が望ましい。また、色領域抽出部56に出力する画像は、非動領域抽出部55に出力する画像の一方であれば良く、撮影時刻‘t’の画像であっても、撮影時刻‘t−1’の画像であっても良い。
動領域抽出部54は、画像選択部53から入力された2フレームの画像(撮影時刻‘t’の画像と撮影時刻‘t−n’の画像)から動きのある領域を抽出する。具体的には、動領域抽出部54は、2フレームの画像(IとI’とする)について画像間の差分処理を行って差分画像Dを生成する。より具体的には、動領域抽出部54は、画像の位置座標(x、y)毎に、以下の式1により明度の差の絶対値D(x,y)を求めて、差分画像Dを生成する。尚、I(x、y)は、画像Iの位置座標(x、y)における明度の値を示す。I’(x、y)は、画像I’の位置座標(x、y)における明度の値を示す。
D(x,y)=|I(x,y)−I’(x,y)|・・・(1)
D(x,y)=|I(x,y)−I’(x,y)|・・・(1)
尚、入力された画像がカラー画像である場合は、動領域抽出部54は、カラー画像からG成分又はY成分だけを抽出して、入力された画像をモノクロ画像に一旦変換してから、上述と同様に式1を用いて差分画像Dを生成する。
そして、差分画像を生成した後、動領域抽出部54は、差分画像の画素値が、第1閾値より高い領域を選択して、その領域を動きのある動領域として出力する。尚、第1閾値は例えば外部記憶部に予め記憶されている。図6は、図3に例示した撮影時刻‘t’の画像と図5に例示した撮影時刻‘t−n’の画像との差分画像を例示する図である。同図に示されるように、撮影時刻‘t−n’から撮影時刻‘t’まで間に動いた手の部分が白く表されており、白く表されている領域が動領域として抽出される。
非動領域抽出部55は、画像選択部53から入力された2フレームの画像(撮影時刻‘t’の画像と撮影時刻‘t−1’の画像)から動きの小さい領域を抽出する。具体的には、非動領域抽出部55は、動領域抽出部54と同様に、第2閾値より低い領域を選択して、その領域を動きの小さい非動領域として出力する。尚、第2閾値は例えば外部記憶部に予め記憶されている。第2閾値は第1閾値より小さいことが望ましいが、上述の第1の閾値と同じであっても良い。図7は、図3に例示した撮影時刻‘t’の画像と図4に例示した撮影時刻‘t−1’の画像との差分画像を例示する図である。同図に示されるように、両者の画像との差分はほとんどなく、身体のわずかな動きによって生じる身体の輪郭を表す部分が白く表されており、それ以外の黒く表されている部分、即ち、画像の略全体が非動領域として抽出される。
色領域抽出部56は、画像選択部53から入力された画像から、認識対象物に固有の色を表す領域である色領域を抽出する。例えば、色の表現方法としてRGBを用いる場合、認識対象物の色分布を予め測定しておく。この場合、認識対象物の色が、RGBの3次元空間中で以下の式2の平面方程式を満たすように、パラメータ(α1,β1,γ1,τ1)を設定することができる。
α1R+β1G+γ1B−τ1>0・・・(2)
α1R+β1G+γ1B−τ1>0・・・(2)
このようなパラメータを例えばm組(α1,β1,γ1,τ1)〜(αm,βm,γm,τm)用意して例えば外部記憶部に予め記憶させておく。色領域抽出部56は、画像選択部53から入力された画像を構成する画素のうち、m組の各パラメータが設定された方程式を全て満たす画素を選択することによって、認識対象物に固有の色を表す色領域を抽出する。例えば、認識対象物が手である場合、肌色に近い領域が色領域として抽出される。従って、手、腕及び顔が表される領域が色領域として抽出される。また、茶色に近い衣服が着用されている場合には衣服の部分の領域が色領域として抽出される。図8は、図3に例示した撮影時刻‘t’の画像から抽出された色領域を例示する図である。同図においては、向かって右側の手が表される領域、左側の腕が表される領域及び顔が表される領域が色領域として各々抽出されることが示されている。
対象領域検出部57は、動領域抽出部54で抽出された動領域、非動領域抽出部55で抽出された非動領域及び色領域抽出部56で抽出された色領域の情報を用いて、認識対象物が表される対象領域を検出する。具体的には、対象領域検出部57は、色領域抽出部56で抽出された色領域について、領域ラベリング処理を行って、連続していると見なすことができる連結領域毎にラベルIDを割り当てる。図9は、領域ラベリング処理の結果を例示する図である。同図においては、撮影時刻‘t’の画像について、顔が表される領域R1に対してラベルID‘1’が割り当てられ、手が表される領域R2に対してラベルID‘2’が割り当てられ、腕が表される領域R3に対してラベルID‘3’が割り当てられる。ここで、ラベルIDが割り当てられた色領域をラベル領域という。対象領域検出部57は、各ラベル領域を、非動領域抽出部55から出力された非動領域と比較し、ラベル領域に含まれる非動領域の面積がラベル領域の面積に比べて第1比率以上である場合、そのラベル領域を対象領域の候補として選択する。この結果、認識対象物に固有の色を表し且つ動きのない領域が対象領域の候補として検出される。尚、第1比率は例えば外部記憶部に予め記憶されている。
更に、対象領域検出部57は、選択したラベル領域と、動領域抽出部54から出力された動領域と比較し、ラベル領域に含まれる動領域の面積がラベル領域の面積に比べて第2比率以上である場合、そのラベル領域を対象領域として選択する。この結果、認識対象物に固有の色を表し且つ動きのない領域から、動きが常に小さい領域が排除され、認識対象物に固有の色を表し且つ現在動きが小さいがある時間前には動きがあった領域が対象領域として選択される。尚、第2比率は例えば外部記憶部に予め記憶されている。この第2比率は上述の第1比率と同じであっても良いし異なっていても良い。対象領域検出部57は、このように検出した対象領域を対象認識部58に出力する。
ここで、選択される対象領域について図6,7,9を参照しながら具体的に説明する。図9に示したラベル領域と、図7の差分画像において示される非動領域とを比較すると、全てのラベル領域について、ラベル領域に含まれる非動領域の面積はラベル領域の面積と略同じである。この場合、非動領域の面積は各ラベル領域の面積に比べて第1比率以上であるとして、各ラベル領域が対象領域として選択される。ここでは、ラベルID‘1’〜‘3’が各々割り当てられたラベル領域が全て対象領域として選択される。そして、これらのラベル領域と、図6の差分画像において示される動領域とを比較すると、ラベル領域に含まれる動領域の面積がラベル領域の面積に比べて第2比率以上であるラベル領域は、ここでは、ラベルID‘2’が割り当てられたものとなる。従って、手を表すラベル領域R2が、認識対象物に固有の色を表し且つ現在動きは小さいがある時間前には動きがあった対象領域として選択される。
認識辞書記憶部59は、認識対象物の様々な形状を各々表す画像を用いてテンプレート(認識辞書情報)を各々生成してこれを記憶する。認識辞書記憶部59の構成は、例えば特許文献1に示されたテンプレート生成蓄積部と略同様であるため、ここではその詳細な説明を省略する。
対象認識部58は、対象領域検出部57から入力された対象領域によって表される認識対象物の形状と、認識辞書記憶部59に記憶された複数のテンプレートによって表される形状とを各々照合し、対象領域によって表される認識対象物の形状とテンプレートによって表される形状との類似度を各々算出する。この照合の際、対象認識部58は、1つのテンプレートをずらしながら複数回の照合を行う。例えば、対象認識部58は、対象領域に対してテンプレートの位置を例えば3画素おきなどの一定間隔でずらしていき、テンプレートの中心が対象領域に含まれる場合にだけ照合を行う。また、この照合の際、対象認識部58は、認識辞書記憶部59に記憶されたテンプレートのサイズを予め定められた範囲内で変化させることによりテンプレートのスケールを変化させ、複数スケールのテンプレートについて照合を行う。そして、対象認識部58は、最も高い類似度が算出されるテンプレートによって表される形状が、認識対象物の形状であると認識する。そして、対象認識部58は、形状を認識した認識対象物の位置やサイズ、又は認識対象物の左上と右下との位置座標などの幾何情報を出力する。尚、認識対象物の形状は、最も高い類似度が算出されるテンプレートによるものではなく、類似度が最高値から一定範囲内の値を取る複数のテンプレートによって表される各形状を候補としても良い。また、認識対象物の形状は、類似度が一定の閾値を超える場合に最も高い類似度が算出されるテンプレートによるものとし、一定の閾値を超える類似度がない場合は類似度が最高値から一定範囲内の値を取るテンプレートによって表される各形状を候補としても良い。尚、対象認識部58の構成は、例えば特許文献1にて示されたジェスチャ識別部と略同様であるため、その詳細な説明を省略する。
次に、本実施の形態に係る動作認識装置の行う動作認識処理の手順について図10を用いて説明する。まず、動作認識装置100の画像選択部53は、撮像部で撮影された認識対象物の画像であって画像記憶部52に時系列に記憶された画像(時系列画像)から、最も遅い時刻に撮影された画像(撮影時刻‘t’)と、その1フレーム前の画像(撮影時刻‘t−1’)と、最も遅い時刻に撮影された画像のnフレーム前の画像(撮影時刻‘t−n’)との3フレームの画像を選択する。そして画像選択部53は、撮影時刻‘t’の画像と撮影時刻‘t−n’の画像とを動領域抽出部54に出力し、撮影時刻‘t’の画像と撮影時刻‘t−1’の画像とを非動領域抽出部55に出力し、撮影時刻‘t’の画像を色領域抽出部56に出力する(ステップS1)。動領域抽出部54は、ステップS1で出力された2フレームの画像(撮影時刻‘t’の画像と撮影時刻‘t−n’の画像)から動きのある動領域を抽出する(ステップS2)。また、非動領域抽出部55は、ステップS1で出力された2フレームの画像(撮影時刻‘t’の画像と撮影時刻‘t−1’の画像)から動きの小さい非動領域を抽出する(ステップS3)。色領域抽出部56は、ステップS1で出力された画像から、認識対象物に固有の色を表す色領域を抽出する(ステップS4)。次いで、対象領域検出部57は、ステップS2で抽出された動領域、ステップS3で抽出された非動領域及びステップS4で抽出された色領域の情報を用いて、認識対象物が表される対象領域を検出する(ステップS5)。
ここで、対象領域検出部57が対象領域を検出する対象領域検出処理の詳細な手順について図11を用いて説明する。まず、対象領域検出部57は、ステップS4で抽出された色領域について、領域ラベリング処理を行って、連続していると見なすことができる連結領域毎にラベルIDを割り当てる(ステップS20)。例えば、上述の図9で説明したように、撮影時刻‘t’の画像について、顔が表される領域R1に対してラベルID‘1’が割り当てられ、手が表される領域R2に対してラベルID‘2’が割り当てられ、腕が表される領域R3に対してラベルID‘3’が割り当てられる。このステップS20でラベルIDを割り当てられた色領域(ラベル領域)の数をP個とし、P個の各々のラベル領域に‘1’から‘P’までのラベルIDが割り当てられたとする。次に、対象領域検出部57は、処理対象のラベルIDを表す変数Iを‘1’に初期化する(ステップS21)。そして、対象領域検出部57は、ラベルIDが変数Iに等しいラベル領域をステップS3で抽出された非動領域と比較し、そのラベル領域に含まれる非動領域の面積がラベル領域の面積に比べて第1比率以上であるか否かを判断する(ステップS22)。そして、対象領域検出部57は、ラベル領域に含まれる非動領域の面積がラベル領域の面積に比べて第1比率以上であると判断した場合、そのラベル領域を対象領域の候補として選択する。この結果、認識対象物に固有の色を表し且つ動きのない領域が対象領域の候補として検出される。
次いで、対象領域検出部57は、ラベルIDが変数Iに等しいラベル領域であってステップS22の判断の結果対象領域として選択したラベル領域をステップS2で抽出された動領域と比較し、そのラベル領域に含まれる動領域の面積がラベル領域の面積に比べて第2比率以上であるか否かを判断する(ステップS23)。そして、対象領域検出部57は、ラベル領域に含まれる動領域の面積がラベル領域の面積に比べて第2比率以上であると判断した場合、そのラベル領域を対象領域として選択する。この結果、認識対象物に固有の色を表し且つ動きのない領域から、動きが常に小さい領域が排除され、認識対象物に固有の色を表し且つ現在動きが小さいがある時間前には動きがあった領域が対象領域として選択される。そして、対象領域検出部57は、ステップS23の判断の結果対象領域として選択した、ラベルIDが変数Iに等しいラベル領域を対象認識部58に出力し(ステップS24)、ステップS25に進む。
尚、ステップS22で、非動領域の面積がラベル領域の面積に比べて第1比率より小さいと判断した場合及びステップS23で、動領域の面積がラベル領域の面積に比べて第2比率より小さいと判断した場合、ステップS25に進む。ステップS25では、対象領域検出部57は、変数Iが‘P’より小さいか否かを判断し、変数Iが‘P’より小さいと判断した場合(ステップS25:YES)、対象領域検出部57は、変数Iに‘1’を加えて(ステップS26)、ステップS22に進む。変数Iが‘P’以上であると判断した場合(ステップS25:NO)、対象領域検出部57は、全てのラベル領域について処理を行ったことになるので、対象領域検出処理を終了する。
図10の説明に戻る。ステップS5のステップS24で対象領域が対象認識部58に出力された場合、対象認識部58は、当該対象領域によって表される認識対象物の形状と、認識辞書記憶部59に記憶された複数のテンプレートによって表される形状とを各々照合し、対象領域によって表される認識対象物の形状とテンプレートによって表される形状との類似度を各々算出する(ステップS6)。図9の例では、この類似度に基づいて、ラベルID‘2’が割り当てられたラベル領域R2から、認識対象物として手の形状が認識されることになる。
以上のように、少なくとも3つの画像を時系列に選択して、互いに異なる少なくとも2つの時刻に各々撮影された画像の組み合わせを少なくとも2つ選択し、一方の組み合わせから動きのある動領域を抽出すると共に、他方の組み合わせから動きの小さい非動領域を抽出し、1つの画像から認識体操物の色を表す色領域を抽出する。そして、動領域、非動領域及び色領域を用いて、過去に動きがあってその後動きが小さくなった認識対象物が表される対象領域、即ち、動作が開始された後動作を終了した認識対象物が表される対象領域を選択する。この結果、動きによるボケの少ない画像を選択して認識対象物の形状の認識に適用することができるので、認識精度を向上することができる。即ち、動きのある動作であっても、認識対象物の形状を精度良く認識することができる。従って、認識した形状に応じて機器の操作が行われる場合、ユーザの操作感を向上させることができる。
なお、本発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。また、以下に例示するような種々の変形が可能である。
上述した実施の形態において、動作認識装置100で実行される各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また当該各種プログラムを、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成しても良い。この場合には、プログラムは、動作認識装置100において上記記録媒体から読み出して実行することによりRAMなどの記憶部上にロードされ、上記機能的構成において説明した各部が記憶部上に生成される。
上述した実施の形態において、画像選択部53は、非動領域抽出部55に対して、最も遅い時刻に撮影された画像(撮影時刻は‘t’)とその1フレーム前の画像(撮影時刻は‘t−1’)とを出力したが、これに限らず、過去の画像として、最も遅い時刻に撮影された画像(撮影時刻は‘t’)の‘n−1’フレーム前の画像(撮影時刻は‘t−n+1’)と、その1フレーム前の画像(撮影時刻は‘t−n’)とを非動領域抽出部55に出力するようにしても良い。この場合、画像選択部53は、色領域抽出部56に対して、撮影時刻‘t−n+1’の画像又は撮影時刻‘t−n’の画像を出力すれば良い。即ち、画像選択部53は、3つの時刻のうち最も遅い時刻に撮影された画像と、最も遅い時刻と最も早い時刻との間の時刻に撮影された画像とを動領域抽出部54に出力し、最も遅い時刻に撮影された画像と、最も早い時刻に撮影された画像とを非動領域抽出部55に出力し、最も早い時刻に撮影された画像又は最も遅い時刻と最も早い時刻との間の時刻に撮影された画像を色領域抽出部56に出力する。このような構成によれば、動きが小さい状態から動きのある状態に遷移した、即ち、動作を開始した認識対象物を精度高く認識することができる。
上述した実施の形態において、画像選択部53は、3フレームの画像のうちの1つとして、最も遅い時刻に撮影された画像(撮影時刻は‘t’)の1フレーム前の画像(撮影時刻は‘t−1’)を選択するようにしたが、1フレーム前に限らず、複数フレーム前の画像を選択するようにしても良い。
上述した実施の形態において、図10のフローチャートにおいては、ステップS2で動領域を抽出する処理、ステップS3で非動領域を抽出する処理及びステップS4で色領域を抽出する処理を行ったが、これらの処理をこの順に行わなくても良いし、また、これらの処理を並行して行うようにしても良い。
上述した実施の形態において、画像選択部53は、3フレームの画像を選択するようにしたが、4フレーム以上の画像を選択するようにしても良い。この場合、画像選択部53は、3フレーム以上の画像を動領域抽出部54及び非動領域抽出部55のうち少なくとも一方に出力するようにしても良い。例えば、画像選択部53は、例えば、撮影時刻‘t’,‘t−2’,‘t−4’,…‘t−n’に各々対応する画像であって合計で‘n/2’フレームの画像を動領域抽出部54に出力し、撮影時刻‘t’,‘t−1’に各々対応する画像を非動領域抽出部55に出力し、撮影時刻‘t’の画像を色領域抽出部56に出力するようにしても良い。動領域抽出部54は、3フレーム以上の画像が入力された場合、それらの画像から2フレームずつ選択して差分処理と動領域の抽出とを各々行い、2つのフレーム毎に抽出された複数の動領域の論理和を取った領域を動領域として出力すれば良い。また、非動領域抽出部55は、3フレーム以上の画像が入力された場合、それらの画像から2フレームずつ選択して差分処理と非動領域の抽出とを各々行い、2つのフレーム毎に抽出された複数の動領域の論理積を取った領域を非動領域として出力すれば良い。
上述した実施の形態において、画像の撮影状況に応じて、画像選択部53が画像を選択する方法を適宜変更するようにしても良い。例えば、画像の撮影条件について、一般的な撮像部では、撮影するシーンが明るいと露光時間を短くしシーンが暗くなると露光時間を長くする露光調整手段を有している。撮影対象の運動速度が同じであれば、露光時間が短ければ動きによるボケは小さくなる。このため、撮影環境に対する照度センサの情報を取得する取得部や、画像全体の明度ヒストグラム情報を用いてシーンの明暗情報を計測する計測部を動作認識装置100は更に備え、画像選択部53は、これらの照度センサの情報や明暗情報を用いて、シーンが明るければ非動領域抽出部55に出力する各画像について撮影時刻間の間隔が長くなるように画像を選択し、シーンが暗ければ非動領域抽出部55に出力する各画像について撮影時刻間の間隔が短くなるように画像を選択する。このように、画像の撮影状況に応じて、画像選択部53が画像を選択する方法を動的に変更することにより、認識対象物に対してより好適な認識を行うことが可能になる。
51 画像入力部
52 画像記憶部
53 画像選択部
54 動領域抽出部
55 非動領域抽出部
56 色領域抽出部
57 対象領域検出部
58 対象認識部
59 認識辞書記憶部
100 動作認識処理
52 画像記憶部
53 画像選択部
54 動領域抽出部
55 非動領域抽出部
56 色領域抽出部
57 対象領域検出部
58 対象認識部
59 認識辞書記憶部
100 動作認識処理
Claims (12)
- 認識対象物を撮影した時系列画像から、互いに異なる少なくとも3つの時刻に各々撮影された画像を選択して、選択した前記画像のうち、互いに異なる少なくとも2つの時刻に各々撮影された画像の組み合わせを少なくとも2つ選択する画像選択部と、
前記組み合わせのうち、一方の組み合わせにおける画像間の差分の画素値が予め定められた閾値以上の領域である動領域を抽出する動領域抽出部と、
前記組み合わせのうち、他方の組み合わせにおける画像間の差分の画素値が予め定められた閾値より小さい領域である非動領域を抽出する非動領域抽出部と、
前記少なくとも3つの時刻のうち少なくとも1つの時刻に撮影された画像から、前記認識対象物に固有の色を表す領域である色領域を抽出する色領域抽出部と、
前記色領域に含まれる前記非動領域の面積が当該色領域の面積に対して第1比率以上である場合且つ前記色領域に含まれる前記動領域の面積が当該色領域の面積に対して第2比率以上である場合、当該色領域である対象領域を検出する対象領域検出部と、を備えることを特徴とする動作認識装置。 - 前記認識対象物の様々な形状を各々表す画像を用いて生成された認識辞書情報を記憶する認識辞書記憶部と、
前記認識辞書情報を用いて、前記対象領域において前記認識対象物を認識する対象認識部と、
を更に備えることを特徴とする請求項1に記載の動作認識装置。 - 前記画像選択部は、前記少なくとも3つの時刻のうち最も遅い時刻に撮影された画像及び最も早い時刻に撮影された画像の第1の組み合わせと、前記少なくとも3つの時刻のうち最も遅い時刻に撮影された画像及び最も遅い時刻と最も早い時刻との間の時刻に撮影された画像の第2の組み合わせとを選択し、
前記動領域抽出部は、前記第1の組み合わせにおける画像間の差分の画素値が予め定められた閾値以上の領域である動領域を抽出し、
前記非動領域抽出部は、前記第2の組み合わせにおける画像間の差分の画素値が予め定められた閾値より小さい領域である非動領域を抽出することを特徴とする請求項1又は請求項2に記載の動作認識装置。 - 前記色領域抽出部は、前記少なくとも3つの時刻のうち最も遅い時刻に撮影された画像又は最も遅い時刻と最も早い時刻との間の時刻に撮影された画像から、前記認識対象物に固有の色を表す領域である色領域を抽出することを特徴とする請求項3に記載の動作認識装置。
- 前記画像選択部は、前記少なくとも3つの時刻のうち最も遅い時刻に撮影された画像及び最も早い時刻に撮影された画像の第1の組み合わせと、前記少なくとも3つの時刻のうち最も遅い時刻に撮影された画像及び最も遅い時刻と最も早い時刻との間の時刻に撮影された画像の第2の組み合わせとを選択し、
前記動領域抽出部は、前記第2の組み合わせにおける画像間の差分の画素値が予め定められた閾値以上の領域である動領域を抽出し、
前記非動領域抽出部は、前記第1の組み合わせにおける画像間の差分の画素値が予め定められた閾値より小さい領域である非動領域を抽出することを特徴とする請求項1又は請求項2に記載の動作認識装置。 - 前記色領域抽出部は、前記少なくとも3つの時刻のうち最も早い時刻に撮影された画像又は最も遅い時刻と最も早い時刻との間の時刻から、前記認識対象物に固有の色を表す領域である色領域を抽出することを特徴とする請求項5に記載の動作認識装置。
- 前記画像選択部は、画像の撮影状況に応じて、前記少なくとも3つの時刻のうち、最も遅い時刻から最も遅い時刻と最も早い時刻との間の時刻までの時間間隔を変更して前記画像を選択して、前組み合わせを少なくとも2つ選択することを特徴とする請求項1乃至請求項6のいずれか1項に記載の動作認識装置。
- 前記動領域抽出部は、前記一方の組み合わせに3つ以上の画像が含まれる場合、各々異なる2つの画像の組み合わせにおける画像間の差分の画素値が予め定められた閾値以上の領域を組み合わせ毎に各々抽出し、抽出された各領域の論理和である動領域を抽出することを特徴とする請求項1乃至請求項7のいずれか1項に記載の動作認識装置。
- 前記非動領域抽出部は、前記他方の組み合わせに3つ以上の画像が含まれる場合、各々異なる2つの画像の組み合わせにおける画像間の差分の画素値が予め定められた閾値より小さい領域を組み合わせ毎に各々抽出し、抽出された各領域の論理積である非動領域を抽出することを特徴とする請求項1乃至請求項8のいずれか1項に記載の動作認識装置。
- 前記動領域抽出部は、前記一方の組み合わせにおける画像間の差分の画素値が第1閾値以上の前記動領域を抽出し、
前記非動領域抽出部は、他方の組み合わせにおける画像間の差分の画素値が、前記第1閾値より小さい第2閾値より小さい前記非動領域を抽出することを特徴とする請求項1乃至請求項9のいずれか1項に記載の動作認識装置。 - 画像選択部と、動領域抽出部と、非動領域抽出部と、色領域抽出部と、対象領域検出部とを備える動作認識装置で実行される動作認識方法であって、
前記画像選択部が、認識対象物が時系列画像から、互いに異なる少なくとも3つの時刻に各々撮影された画像を選択して、選択した前記画像のうち、互いに異なる少なくとも2つの時刻に各々撮影された画像の組み合わせを少なくとも2つ選択する画像選択ステップと、
前記動領域抽出部が、前記組み合わせのうち、一方の組み合わせにおける画像間の差分の画素値が予め定められた閾値以上の領域である動領域を抽出する動領域抽出ステップと、
前記非動領域抽出部が、前記組み合わせのうち、他方の組み合わせにおける画像間の差分の画素値が予め定められた閾値より小さい領域である非動領域を抽出する非動領域抽出ステップと、
前記色領域抽出部が、前記少なくとも3つの時刻のうち少なくとも1つの時刻に撮影された画像から、前記認識対象物に固有の色を表す領域である色領域を抽出する色領域抽出ステップと、
前記対象領域検出部が、前記色領域に含まれる前記非動領域の面積が当該色領域の面積に対して第1比率以上である場合且つ前記色領域に含まれる前記動領域の面積が当該色領域の面積に対して第2比率以上である場合、当該色領域である対象領域を検出する対象領域検出ステップと、
を含むことを特徴とする動作認識方法。 - 請求項11に記載の動作認識方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008248059A JP2010079651A (ja) | 2008-09-26 | 2008-09-26 | 動作認識装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008248059A JP2010079651A (ja) | 2008-09-26 | 2008-09-26 | 動作認識装置、方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010079651A true JP2010079651A (ja) | 2010-04-08 |
Family
ID=42210011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008248059A Pending JP2010079651A (ja) | 2008-09-26 | 2008-09-26 | 動作認識装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010079651A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901339A (zh) * | 2010-07-30 | 2010-12-01 | 华南理工大学 | 人手运动检测方法 |
JP2012216946A (ja) * | 2011-03-31 | 2012-11-08 | Sony Computer Entertainment Inc | 情報処理装置、情報処理方法、および位置情報のデータ構造 |
KR101298023B1 (ko) | 2010-09-17 | 2013-08-26 | 엘지디스플레이 주식회사 | 사용자 동적 기관 제스처 인식 방법 및 인터페이스와, 이를 사용하는 전기 사용 장치 |
JP2013196224A (ja) * | 2012-03-16 | 2013-09-30 | Fujitsu Ltd | 画像処理装置、画像処理方法及びプログラム |
KR101326230B1 (ko) | 2010-09-17 | 2013-11-20 | 한국과학기술원 | 사용자 동적 기관 제스처 인식 방법 및 인터페이스와, 이를 사용하는 전기 사용 장치 |
-
2008
- 2008-09-26 JP JP2008248059A patent/JP2010079651A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901339A (zh) * | 2010-07-30 | 2010-12-01 | 华南理工大学 | 人手运动检测方法 |
KR101298023B1 (ko) | 2010-09-17 | 2013-08-26 | 엘지디스플레이 주식회사 | 사용자 동적 기관 제스처 인식 방법 및 인터페이스와, 이를 사용하는 전기 사용 장치 |
KR101326230B1 (ko) | 2010-09-17 | 2013-11-20 | 한국과학기술원 | 사용자 동적 기관 제스처 인식 방법 및 인터페이스와, 이를 사용하는 전기 사용 장치 |
JP2012216946A (ja) * | 2011-03-31 | 2012-11-08 | Sony Computer Entertainment Inc | 情報処理装置、情報処理方法、および位置情報のデータ構造 |
US9699432B2 (en) | 2011-03-31 | 2017-07-04 | Sony Corporation | Information processing apparatus, information processing method, and data structure of position information |
JP2013196224A (ja) * | 2012-03-16 | 2013-09-30 | Fujitsu Ltd | 画像処理装置、画像処理方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4855556B1 (ja) | 動体検出装置、動体検出方法、動体検出プログラム、動体追跡装置、動体追跡方法及び動体追跡プログラム | |
KR102462644B1 (ko) | 전자 장치 및 그의 동작 방법 | |
JP4372051B2 (ja) | 手形状認識装置及びその方法 | |
US10146992B2 (en) | Image processing apparatus, image processing method, and storage medium that recognize an image based on a designated object type | |
JP2007316882A (ja) | 遠隔操作装置及び方法 | |
JP6639523B2 (ja) | 学習画像自動選別装置、学習画像自動選別方法および学習画像自動選別プログラム | |
JP2008113071A (ja) | 自動追尾装置 | |
KR20130134163A (ko) | 표적 추출 장치와 그 방법 및 상기 방법을 구현하는 프로그램이 기록된 기록 매체 | |
JP4687265B2 (ja) | 画像分析装置 | |
KR101712136B1 (ko) | 열화상 카메라를 이용한 객체의 실신 상황 감지 방법 및 장치 | |
JP2010079651A (ja) | 動作認識装置、方法及びプログラム | |
JP5887264B2 (ja) | 物体認識装置、方法、プログラム、および該ソフトウェアを格納したコンピュータ可読媒体 | |
KR101661211B1 (ko) | 얼굴 인식률 개선 장치 및 방법 | |
JP2008288684A (ja) | 人物検出装置及びプログラム | |
JP5747695B2 (ja) | 画像処理装置、画像処理方法及び画像処理プログラム | |
JP7401246B2 (ja) | 撮像装置、撮像装置の制御方法、及びプログラム | |
JP5451364B2 (ja) | 被写体追跡装置及びその制御方法 | |
JP2006048328A (ja) | 顔検出装置および顔検出方法 | |
US10140503B2 (en) | Subject tracking apparatus, control method, image processing apparatus, and image pickup apparatus | |
US11507768B2 (en) | Information processing apparatus, information processing method, and storage medium | |
US10885348B2 (en) | Information processing device, information processing method, and storage medium | |
JP5470529B2 (ja) | 動き検出装置、動き検出方法及び動き検出プログラム | |
US20220019851A1 (en) | Information processing apparatus and method, image capturing apparatus, and image capturing system | |
JP2021150865A (ja) | 画像処理装置、画像処理方法、及び画像処理プログラム | |
US20220309706A1 (en) | Image processing apparatus that tracks object and image processing method |