JP6116765B1

JP6116765B1 - 物体検出装置及び物体検出方法

Info

Publication number: JP6116765B1
Application number: JP2016552354A
Authority: JP
Inventors: 一之宮澤; 関口　俊一; 俊一関口; 秀明前原; 守屋　芳美; 芳美守屋; 彰峯澤; 亮史服部; 百代長瀬; 友哉澤田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2017-04-19
Anticipated expiration: 2035-12-02
Also published as: WO2017094140A1; US10643338B2; JPWO2017094140A1; CN108369739A; EP3376468A1; EP3376468B1; US20180204333A1; CN108369739B; EP3376468A4

Abstract

映像撮像部（１）により異なる時刻に撮像された映像間のオプティカルフローを算出するオプティカルフロー算出部（２）と、映像撮像部（１）により撮像された映像を複数の領域に分割し、その分割した領域毎に、当該分割領域に属する複数の画素についてのオプティカルフローを用いて、当該分割領域が検出対象の物体の一部又は全部を表している物体領域である可能性の尺度を示す評価値を算出する評価値算出部（４）と、評価値算出部（４）により算出された各分割領域の評価値と閾値を比較することで、検出対象の物体が存在している映像内の領域を特定する領域特定部（５）とを備える。

Description

この発明は、検出対象の物体が存在している映像内の領域を検出する物体検出装置及び物体検出方法に関するものである。

カメラによって撮影された映像から人や車などの物体を検出する処理は、例えば、ロボットや車載向けのビジョンセンサや、映像監視システムなどに搭載される重要な技術である。
所望の物体の検出する際には、機械学習に基づくパターン認識処理などの判別処理が用いられることが多い。

具体的には、カメラによって繰り返し撮像される映像の各フレームから、適当な大きさの局所領域であるウィンドウを切り出し、そのウィンドウ内の映像に対するパターン認識処理などの判別処理を実行して、そのウィンドウ内に物体が存在するか否かを判別することで、検出対象の物体が存在している映像内の領域を検出する。
パターン認識処理などの判別処理は演算量が多いことが知られている。また、一般的には、映像の各フレームのどの位置にどの程度の大きさの物体が存在しているかは未知であるため、ウィンドウのサイズや位置を少しずつ変えながら、パターン認識処理などの判別処理が繰り返し実行される。

したがって、一枚のフレームに対して膨大な回数の判別処理を実行しなければならず、演算量が膨大になることがある。
以下の特許文献１には、判別処理の回数を減らして演算量を削減する目的で、時間方向に輝度変化が大きい画素などを予め物体領域として検出し、その検出した物体領域だけを判別処理の対象としている物体検出装置が開示されている。

特開２００７−１８３２４号公報（段落［０００８］、図１）

従来の物体検出装置は以上のように構成されているので、演算量を削減して物体を検出するまでの処理時間を短縮することができるが、映像の撮影時にカメラが静止していることを前提としている。このため、ロボットや自動車などの移動体に搭載されたカメラや、ハンディカメラのように、撮影時に移動しているカメラにより撮像された映像には適用することができない。したがって、移動しながら撮影された映像からは、検出対象の物体が存在している映像内の領域を正確に検出することができないという課題があった。

この発明は上記のような課題を解決するためになされたもので、移動しながら撮影された映像からでも、検出対象の物体が存在している領域を正確に検出することができる物体検出装置及び物体検出方法を得ることを目的とする。

この発明に係る物体検出装置は、映像を繰り返し撮像する映像撮像部と、映像撮像部により異なる時刻に撮像された映像間のオプティカルフローを算出するオプティカルフロー算出部と、オプティカルフロー算出部により算出されたオプティカルフローを時間方向及び空間方向に集約し、任意の２つのオプティカルフローの差分絶対値を用いて、検出対象の物体が存在している映像内の領域を検出する物体検出部とを備え、オプティカルフロー算出部が、映像を構成している画素毎に、異なる時刻に撮像された映像間のオプティカルフローを算出し、物体検出部が、映像撮像部により撮像された映像を一つあるいは複数の領域に分割し、その分割した領域毎に、当該分割領域に属する複数の画素についてのオプティカルフローの角度の差分絶対値の総和と、オプティカルフローの長さの差分絶対値の総和とを算出して、角度の差分絶対値の総和と長さの差分絶対値の総和から、当該分割領域が検出対象の物体の一部又は全部を表している物体領域である可能性の尺度を示す評価値を算出する評価値算出部と、評価値算出部により算出された各分割領域の評価値と閾値を比較することで、検出対象の物体が存在している映像内の領域を特定する領域特定部とを備えるようにしたものである。

この発明によれば、映像撮像部により異なる時刻に撮像された映像間のオプティカルフローを算出するオプティカルフロー算出部を設け、物体検出部が、オプティカルフロー算出部により算出されたオプティカルフローを時間方向及び空間方向に集約し、任意の２つのオプティカルフローの差分絶対値を用いて、検出対象の物体が存在している映像内の領域を検出するように構成したので、移動しながら映像撮像部によって撮影された映像からでも、検出対象の物体が存在している領域を正確に検出することができる効果がある。

この発明の実施の形態１による物体検出装置を示す構成図である。この発明の実施の形態１による物体検出装置を示すハードウェア構成図である。オプティカルフロー算出部２及び物体検出部３がコンピュータで構成される場合のハードウェア構成図である。オプティカルフロー算出部２及び物体検出部３の処理内容を示すフローチャートである。オプティカルフローの算出例及びオプティカルフローの空間方向の集約例を示す説明図である。オプティカルフローの空間的な集合を時間方向に集約している例を示す説明図である。この発明の実施の形態２による物体検出装置を示す構成図である。この発明の実施の形態２による物体検出装置を示すハードウェア構成図である。物体検出部３における領域特定部６の処理内容を示すフローチャートである。領域補正部７の処理内容を示すフローチャートである。領域特定部６による探索ウィンドウの設定例を示す説明図である。探索ウィンドウと検出対象の物体との関係を示す説明図である。領域特定部６が探索ウィンドウの位置をずらしながら、探索ウィンドウ内に物体が存在しているか否かを判定する処理を示す説明図である。領域特定部６から出力された矩形の縦・横サイズや位置座標を参照しても、検出対象の物体の大きさや位置を正確に把握できない場合の一例を示す説明図である。領域補正部７による探索ウィンドウの設定例を示す説明図である。エッジ画像の一例を示す説明図である。探索ウィンドウとエッジ密度の関係を示す説明図である。この発明の実施の形態３による物体検出装置を示す構成図である。この発明の実施の形態３による物体検出装置を示すハードウェア構成図である。オプティカルフロー予測部３６の処理内容を示すフローチャートである。物体検出部３における評価値算出部３７及び領域特定部３８の処理内容を示すフローチャートである。オプティカルフロー予測部３６により求められたカメラ１１の運動とカメラ１１が写している空間形状に依存するオプティカルフローの一例を示す説明図である。オプティカルフロー算出部２により算出されたオプティカルフローの一例を示す説明図である。オプティカルフロー算出部２から出力されたオプティカルフローとオプティカルフロー予測部３６から出力されたオプティカルフローとの差分を示す説明図である。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面にしたがって説明する。

実施の形態１．
図１はこの発明の実施の形態１による物体検出装置を示す構成図であり、図２はこの発明の実施の形態１による物体検出装置を示すハードウェア構成図である。
図１及び図２において、映像撮像部１は例えば車両やロボットに搭載されているカメラあるいはハンディカメラのように、撮影時に移動可能なカメラ１１から構成されており、映像を繰り返し撮像する。映像撮像部１により繰り返し撮像された映像である各フレームの映像データは、後段のオプティカルフロー算出部２に出力される。

オプティカルフロー算出部２は例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を搭載している半導体集積回路あるいはワンチップマイコンなどから構成されているオプティカルフロー算出処理回路１２で実現されるものであり、映像撮像部１から出力された映像データを用いて、撮像時刻が異なる映像間、即ち、２つのフレーム間のオプティカルフローを算出する処理を実施する。
ここで、オプティカルフローは、時間的に連続している映像の中での物体の動きをベクトルで表しているものである。したがって、２つのフレーム間のオプティカルフローを算出するには、２つのフレームに存在している物体、即ち、移動物体や背景を含む静止物などの各物体の対応点が探索されたのち、２つのフレーム間の対応点の移動がベクトルで表現される。

物体検出部３は評価値算出部４及び領域特定部５から構成されており、オプティカルフロー算出部２により算出されたオプティカルフローを用いて、検出対象の物体が存在している映像内の領域を検出する処理を実施する。
評価値算出部４は例えばＣＰＵを搭載している半導体集積回路あるいはワンチップマイコンなどから構成されている評価値算出処理回路１３で実現されるものであり、映像撮像部１により撮像された映像であるフレームを複数の領域に分割し、その分割した領域毎に、当該分割領域に属する複数の画素についてのオプティカルフローを用いて、当該分割領域が検出対象の物体の一部又は全部を表している物体領域である可能性の尺度を示す評価値を算出する処理を実施する。
領域特定部５は例えばＣＰＵを搭載している半導体集積回路あるいはワンチップマイコンなどから構成されている領域特定処理回路１４で実現されるものであり、評価値算出部４により算出された各分割領域の評価値と閾値を比較することで、検出対象の物体が存在している映像内の領域を特定する処理を実施する。

図１では、物体検出装置の構成要素である映像撮像部１、オプティカルフロー算出部２及び物体検出部３のそれぞれが専用のハードウェアで構成されているものを想定しているが、オプティカルフロー算出部２及び物体検出部３がコンピュータで構成されているものであってもよい。
図３はオプティカルフロー算出部２及び物体検出部３がコンピュータで構成される場合のハードウェア構成図である。
オプティカルフロー算出部２及び物体検出部３がコンピュータで構成される場合、オプティカルフロー算出部２及び物体検出部３の処理内容を記述しているプログラムをコンピュータのプログラムメモリ２１に格納し、コンピュータのプロセッサ２２がプログラムメモリ２１に格納されているプログラムを実行するようにすればよい。なお、プログラムの実行結果や中間処理結果などは適宜ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２３に格納される。
図４はオプティカルフロー算出部２及び物体検出部３の処理内容を示すフローチャートである。

次に動作について説明する。
撮影時に移動可能なカメラ１１から構成されている映像撮像部１は、時間的に連続している映像を繰り返し撮像する。
即ち、映像撮像部１は、例えば、映像のサンプリング間隔がｔであれば、時間ｔを経過する毎に、当該時刻でのフレーム映像を撮像し、そのフレームの映像データをオプティカルフロー算出部２に出力する。

オプティカルフロー算出部２は、映像撮像部１からフレームの映像データを受ける毎に、当該フレームの映像データを記憶するとともに、任意の２つのフレームの映像データを用いて、任意の２つのフレーム間のオプティカルフローを算出する（図４のステップＳＴ１）。例えば、最新のフレームと、１つ前のフレームとの間のオプティカルフローを算出する。
オプティカルフロー算出部２がコンピュータで構成されている場合、プロセッサ２２がプログラムメモリ２１に格納されているプログラムを実行することで、映像撮像部１から出力されたフレームの映像データをＲＡＭ２３に格納するとともに、例えば、最新のフレームの映像データと１つ前のフレームの映像データとを用いて、最新のフレームと１つ前のフレームとの間のオプティカルフローを算出する。

ここで、図５はオプティカルフローの算出例及びオプティカルフローの空間方向の集約例を示す説明図である。
図５の例では、フレームを構成している画素毎に、最新のフレームと１つ前のフレームとの間のオプティカルフローを算出しており、１２×８個の画素についてのオプティカルフローを算出している。
図５では、各画素についてのオプティカルフローをベクトルで表しており、ベクトルの基端の位置が１つ前のフレームの画素位置、ベクトルの先端の位置が最新のフレームの画素位置を示している。ベクトルの基端の位置とベクトルの先端の位置とが、物体の同一部分の対応点となっている。

なお、オプティカルフローを算出する処理自体は公知の技術であり、例えば、以下の非特許文献１に、オプティカルフローの算出方法が開示されているため、オプティカルフローの算出処理の詳細は省略する。
［非特許文献１］
C. Zach, T. Pock and H. Bischof. “A Duality Based Approach for Realtime TV-L1 Optical Flow”, In Proceedings of Pattern Recognition (DAGM), Germany, pp. 214-223, 2007

物体検出部３は、オプティカルフロー算出部２が２つのフレーム間のオプティカルフローを算出すると、そのオプティカルフローを用いて、検出対象の物体が存在している映像内の領域を検出する。
以下、物体検出部３による領域検出処理を具体的に説明する。

物体検出部３の評価値算出部４は、オプティカルフロー算出部２が２つのフレーム間のオプティカルフローを算出すると、図５に示すように、フレームを複数の領域に分割して、分割した領域であるブロック単位にオプティカルフローを空間方向に集約する（図４のステップＳＴ２）。即ち、評価値算出部４は、各々のブロック内に属する各画素についてのオプティカルフローの集合をそれぞれ生成する。
図５では、フレームを６×４個の領域に分割し、各分割領域であるブロックが、それぞれ４個のオプティカルフローを含んでいる例を示している。
ここでは、ブロックの大きさが２×２の一定サイズである例を示しているが、ブロックの大きさは一定サイズである必要はなく、任意のサイズであってもよい。また、ブロックの形状は矩形である必要はない。

評価値算出部４は、ブロック単位にオプティカルフローを空間方向に集約すると、各ブロックに属する複数の画素についてのオプティカルフローを用いて、各ブロックが、検出対象の物体の一部又は全部を表している物体領域である可能性の尺度を示す評価値を算出する。
ただし、オプティカルフロー算出部２により算出されたオプティカルフローにはある程度の誤差が含まれている可能性がある。
そこで、評価値算出部４は、上記のように評価値を算出する前に、オプティカルフローに誤差が含まれていても、高精度な評価値を算出することができるようにする目的で、オプティカルフロー算出部２による算出時刻が異なる複数のオプティカルフローの中で、空間位置が同じブロックに属する複数の画素についてのオプティカルフローの空間的な集合を時間方向に集約して更に大きな集合を生成する（図４のステップＳＴ３）。
１つの算出時刻でのオプティカルフローだけでは、評価値を算出する上で誤差の影響を受ける可能性があるが、異なる算出時刻でのオプティカルフローの誤差の方向は様々な方向であることが考えられるため、時間方向にオプティカルフローの集合を生成することで、異なる算出時刻での複数のオプティカルフローの誤差を相殺して、誤差の影響を軽減することができる。

ここで、図６はオプティカルフローの空間的な集合を時間方向に集約している例を示す説明図である。
図６では、４つの連続するオプティカルフローの中で、同じ空間位置にあるオプティカルフローの空間的な集合を時間方向に集約している例を示している。これにより、同じ空間位置にある１つのブロック内に４×４個（＝１６個）のオプティカルフローの集合が生成される。
集約するオプティカルフローの数は、例えば、映像のフレームレートやカメラ１１及び検出対象の物体の移動速度に応じて決めることなどが考えられる。

評価値算出部４は、各ブロックに属する複数の画素についてのオプティカルフローの空間的な集合を時間方向に集約すると、ブロック毎に、時間方向に集約した当該ブロックでのオプティカルフローを用いて、当該ブロックが検出対象の物体の一部又は全部を表している物体領域である可能性の尺度を示す評価値を算出する（図４のステップＳＴ４）。
物体領域である可能性の尺度を示す評価値として、様々な尺度が考えられるが、効果的な尺度として、例えば、オプティカルフローのばらつきが挙げられる。一般的に、映像中の物体領域では、ばらつきが小さい安定したオプティカルフローの集合が得られるのに対し、物体領域以外の領域では、ばらつきが大きい不安定なオプティカルフローの集合が得られることが多いからである。
したがって、集合に含まれるオプティカルフローのばらつきを評価し、ばらつきが小さければ、その集合は物体領域に属し、ばらつきが大きければ、物体領域以外の領域に属すると判断することができる。ばらつきの評価尺度としては分散が知られている。

そこで、物体領域である可能性の尺度を示す評価値として、下記の式（１）に示すように、評価値算出部４が、集合に含まれるオプティカルフローから特徴量として、そのオプティカルフローの角度の分散と、そのオプティカルフローの長さの分散とを算出し、その特徴量である角度の分散と長さの分散とから算出することが考えられる。

式（１）において、Ｏは時間方向に集約されているオプティカルフローの集合、Ｎｏはオプティカルフローの集合の要素数である。
また、θ_ｉはｉ番目のオプティカルフローの角度、ｎ_ｉはｉ番目のオプティカルフローの長さである。
さらに、ｍ_θは時間方向に集約されているオプティカルフローの角度の平均値、ｍ_ｎは時間方向に集約されているオプティカルフローの長さの平均値である。
式（１）の第一項はオプティカルフローの角度の分散を示し、第二項はオプティカルフローの長さの分散を示している。
なお、集合に含まれるオプティカルフローのばらつきが小さければ、大きな値の評価値が算出され、集合に含まれるオプティカルフローのばらつきが大きければ、小さな値の評価値が算出される。
式（１）において、第一項と第二項のそれぞれに、補正のための係数を乗ずるようにしてもよい。

ここでは、評価値算出部４が、集合に含まれるオプティカルフローの角度の分散と長さの分散とから評価値を算出する例を示したが、オプティカルフローの角度の分散と長さの分散とから評価値を算出するものに限るものではなく、例えば、下記の式（２）に示すように、集合Ｏに属する任意の２つのオプティカルフローの角度と長さの差分絶対値の総和とから評価値を算出するようにしてもよい。

式（２）において、θ_ｊはｊ番目のオプティカルフローの角度、ｎ_ｊはｊ番目のオプティカルフローの長さである。
なお、２つのオプティカルフローの角度と長さの差分絶対値の総和が小さければ、大きな値の評価値が算出され、２つのオプティカルフローの角度と長さの差分絶対値の総和が大きければ、小さな値の評価値が算出される。

差分絶対値の総和が小さければ、集合が物体領域に属し、差分絶対値の総和が大きければ、集合が物体領域以外の領域に属すると判断することができるため、オプティカルフローの分散と同様に、効果的な尺度として用いることができる。
差分絶対値の総和を算出する場合、分散のように平均値の計算や二乗計算を含まないため、分散を算出する場合よりも演算量が小さくなり、高速に算出することが可能となる。
なお、第一項と第二項のそれぞれに、補正のための係数を乗ずるようにしてもよい。

物体検出部３の領域特定部５は、評価値算出部４が、あるブロックについての評価値を算出すると、その評価値と事前に設定されている閾値を比較し、その評価値が閾値以上であれば（図４のステップＳＴ５：ＹＥＳの場合）、当該ブロックが検出対象の物体の一部又は全部を表している物体領域であると判断する（ステップＳＴ６）。
一方、その評価値が閾値未満であれば（ステップＳＴ５：ＮＯの場合）、当該ブロックが検出対象の物体の一部又は全部を表している物体領域ではないと判断する（ステップＳＴ７）。
閾値としては、例えば、検出対象の物体が存在しない背景だけの映像の各ブロックの評価値をそれぞれ算出し、全てのブロックの評価値の中で、最も大きい評価値より少し大きい値となる当該評価値の１．２倍程度の値などが考えられる。
ここでは、閾値が事前に設定されている例を示しているが、例えば、映像に応じて適応的に計算するようにしてもよい。背景の映像が複雑であるほど、評価値が小さくなるため、閾値も小さくなることが想定される。

評価値算出部４が全てのブロックについて評価値を算出し、領域特定部５が全てのブロックについて当該評価値から物体領域であるか否かを判定するまで、ステップＳＴ４〜ＳＴ７の処理を繰り返し実行する（ステップＳＴ８）。
領域特定部５は、全てのブロックについて、物体領域であるか否かを判定すると、その判定結果から検出対象の物体が存在している映像内の領域を特定し、その特定した領域に属する１つ以上のブロックの空間上の位置を示す位置情報を出力する。

以上で明らかなように、この実施の形態１によれば、映像撮像部１により異なる時刻に撮像された映像間のオプティカルフローを算出するオプティカルフロー算出部２を設け、物体検出部３が、オプティカルフロー算出部２により算出されたオプティカルフローを用いて、検出対象の物体が存在している映像内の領域を検出するように構成したので、移動しながら映像撮像部１によって撮影された映像からでも、検出対象の物体が存在している領域を正確に検出することができる効果を奏する。
また、物体検出部３の評価値算出部４がブロックの評価値を算出して、領域特定部５が当該評価値から当該ブロックが物体領域であるか否かを判定する際、ブロックのサイズを変えながら評価値の算出処理と判定処理を繰り返す必要がないため、少ない演算量で検出対象の物体が存在している領域を検出することができる効果を奏する。
なお、ここでの判定処理は、評価値に対する閾値処理であって、演算量が多いパターン認識処理などの判別処理とは異なるため、少ない演算量でブロックが物体領域であるか否かを判定することができる。

この実施の形態１によれば、評価値算出部４が、空間位置が同じブロックに属する複数の画素についてのオプティカルフローの空間的な集合を時間方向に集約して更に大きな集合を生成するように構成したので、異なる時刻のフレームにおける誤差方向が異なる複数のオプティカルフローの誤差を相殺して、オプティカルフローの誤差の影響が小さな評価値を算出することができる効果を奏する。

なお、この実施の形態１では、評価値算出部４が、オプティカルフローに誤差が含まれていても、高精度な評価値を算出することができるようにする目的で、オプティカルフロー算出部２による算出時刻が異なる複数のオプティカルフローの中で、空間位置が同じブロックに属する複数の画素についてのオプティカルフローの空間的な集合を時間方向に集約して更に大きな集合を生成するものを示している。これにより、高精度な評価値が得られるが、評価値を算出する際の演算量の増大を防止するために、時間方向に集約した各ブロックにおけるオプティカルフローの集合の中から、評価値の算出に用いるオプティカルフローとして、Ｐ（％）のオプティカルフローを選択するようにしてもよい。
Ｐ（％）の値は、例えば、プロセッサ２２の性能やＲＡＭ２３のサイズに応じて決めればよく、任意の値に設定することができる。

実施の形態２．
上記実施の形態１では、分割領域であるブロックが物体領域であるか否かを判定するものを示したが、１つ以上のブロックからなる探索ウィンドウを設定し、その探索ウィンドウ内に物体が存在しているか否かを判定するようにしてもよい。

図７はこの発明の実施の形態２による物体検出装置を示す構成図であり、図８はこの発明の実施の形態２による物体検出装置を示すハードウェア構成図である。
図７及び図８において、図１及び図２と同一符号は同一または相当部分を示すので説明を省略する。
領域特定部６は例えばＣＰＵを搭載している半導体集積回路あるいはワンチップマイコンなどから構成されている領域特定処理回路１５で実現されるものであり、複数のブロックからなる探索ウィンドウを設定する処理を実施する。
また、領域特定部６は評価値算出部４により算出された各ブロックの評価値の中から、その探索ウィンドウに含まれるブロックの評価値を読み出し、その読み出した評価値から、その探索ウィンドウ内に物体が存在している可能性の尺度を示すスコアを算出し、そのスコアと閾値を比較することで、検出対象の物体が存在している映像内の領域を特定する処理を実施する。

領域補正部７は例えばＣＰＵを搭載している半導体集積回路あるいはワンチップマイコンなどから構成されている領域補正処理回路１６で実現されるものであり、領域特定部６により特定された領域を補正する処理を実施する。
即ち、領域補正部７は領域特定部６により特定された領域内の映像特徴量、領域特定部６により特定された領域のサイズを拡大した領域内の映像特徴量及び領域特定部６により特定された領域を縮小した領域内の映像特徴量を算出して、算出した複数の映像特徴量を比較し、領域特定部６により特定された領域の補正後の領域として、領域特定部６により特定された領域、そのサイズを拡大した領域及び縮小した領域の中から、複数の映像特徴量の比較結果にしたがっていずれか１つの領域を選択する処理を実施する。

図７では、物体検出装置の構成要素である映像撮像部１、オプティカルフロー算出部２、物体検出部３及び領域補正部７のそれぞれが専用のハードウェアで構成されているものを想定しているが、オプティカルフロー算出部２、物体検出部３及び領域補正部７がコンピュータで構成されているものであってもよい。
オプティカルフロー算出部２、物体検出部３及び領域補正部７が図３に示すようなコンピュータで構成される場合、オプティカルフロー算出部２、物体検出部３及び領域補正部７の処理内容を記述しているプログラムがコンピュータのプログラムメモリ２１に格納し、コンピュータのプロセッサ２２がプログラムメモリ２１に格納されているプログラムを実行するようにすればよい。
図９は物体検出部３における領域特定部６の処理内容を示すフローチャートであり、図１０は領域補正部７の処理内容を示すフローチャートである。

次に動作について説明する。
ただし、領域特定部６及び領域補正部７以外は、上記実施の形態１と同様であるため、ここでは、領域特定部６及び領域補正部７の処理内容を説明する。
領域特定部６は、評価値算出部４が、空間位置が同じブロックに属する複数の画素についてのオプティカルフローの空間的な集合を時間方向に集約して更に大きな集合を生成すると、複数のブロックからなる探索ウィンドウを設定する（図９のステップＳＴ１１）。
図１１は領域特定部６による探索ウィンドウの設定例を示す説明図である。
図１１では、評価値算出部４により算出された各ブロックの評価値が、映像の各フレームと対応する形で平面上に分布しているものとして、各ブロックの評価値が分布している面を評価値面と表しており、その評価値面上に探索ウィンドウを設定している。図１１の例では、２つのブロックからなる探索ウィンドウを設定している。
図１１のように、探索ウィンドウが矩形の形状である場合、その探索ウィンドウを特定するパラメータとして、矩形の縦・横サイズと、矩形の左上隅等の位置を示す座標とが用いられる。
ただし、探索ウィンドウの形状は矩形であるものに限るものではなく、任意の形状でよい。

領域特定部６は、探索ウィンドウを設定すると、評価値算出部４により算出された各ブロックの評価値の中から、その探索ウィンドウに含まれるブロックの評価値を読み出し、その読み出した評価値から、その探索ウィンドウ内に物体が存在している可能性の尺度を示すスコアを算出する（図９のステップＳＴ１２）。
領域特定部６により算出されるスコアとして、例えば、探索ウィンドウに含まれるブロックの評価値の総和などが考えられる。
ただし、探索ウィンドウのスコアとして、探索ウィンドウに含まれるブロックの評価値の総和を算出する場合、探索ウィンドウのサイズが大きい程、スコアが大きくなる。探索ウィンドウのサイズに比例してスコアが大きくならないようにするため、評価値面内に分布している評価値の平均値などをオフセットとして計算して、探索ウィンドウに含まれる各ブロックの評価値から当該オフセットをそれぞれ減算し、オフセット減算後の各ブロックの評価値の総和などを算出するようにしてもよい。

探索ウィンドウが検出対象の物体を過不足なく含んでいる場合、探索ウィンドウのスコアが大きな値になる。一方、探索ウィンドウが検出対象の物体を含んでいない場合や、検出対象の物体を含んでいても、その物体の大きさが、探索ウィンドウのサイズと比べて小さい場合、探索ウィンドウのスコアが小さな値になる。
図１２は探索ウィンドウと検出対象の物体との関係を示す説明図である。
図１２において、探索ウィンドウ（１）は検出対象の物体を過不足なく含んでいる場合を示し、探索ウィンドウ（２）は検出対象の物体を含んでいない場合を示している。
また、探索ウィンドウ（３）は検出対象の物体を含んでいても、その物体の大きさが、探索ウィンドウのサイズと比べて小さい場合を示している。

領域特定部６は、探索ウィンドウのスコアを算出すると、そのスコアと事前に設定されている閾値を比較し、そのスコアが閾値以上であれば（図９のステップＳＴ１３：ＹＥＳの場合）、その探索ウィンドウ内に物体が存在していると判断し（ステップＳＴ１４）、その探索ウィンドウを特定するパラメータである矩形の縦・横サイズ及び位置座標をＲＡＭ２３に格納する。
そのスコアが閾値未満であれば（ステップＳＴ１３：ＮＯの場合）、その探索ウィンドウ内に物体が存在していないと判断する（ステップＳＴ１５）。
閾値としては、例えば、検出対象の物体が存在しない背景だけの映像の各探索ウィンドウのスコアをそれぞれ算出し、全ての探索ウィンドウのスコアの中で、最も大きいスコアより少し大きい値となる当該スコアの１．２倍程度の値などが考えられる。
ここでは、閾値が事前に設定されている例を示しているが、例えば、映像に応じて適応的に計算するようにしてもよい。背景の映像が複雑であるほど、スコアが小さくなるため、閾値も小さくなることが想定される。

図１３は領域特定部６が探索ウィンドウの位置をずらしながら、探索ウィンドウ内に物体が存在しているか否かを判定する処理を示す説明図である。
領域特定部６は、図１３に示すように、評価値面で探索ウィンドウの位置をずらしながら、評価値面の全ての位置で判定処理が終了するまで、ステップＳＴ１２〜ＳＴ１５の処理を繰り返し実行する（ステップＳＴ１６，ＳＴ１７）。探索ウィンドウの位置のずらしは、例えば、１画素ずつずらすことなどが考えられる。
領域特定部６は、評価値面の全ての位置で判定処理が終了すると、その判定結果から検出対象の物体が存在している映像内の領域を特定し、即ち、検出対象の物体が存在している探索ウィンドウの位置を特定し、その探索ウィンドウを特定するパラメータである矩形の縦・横サイズ及び位置座標を出力する。

ここでは、サイズが一定の探索ウィンドウの位置をずらしながら、評価値面の全ての位置で判定処理を実施するものを示したが、異なるサイズの探索ウィンドウを複数用意し、複数の探索ウィンドウの位置をずらしながら、評価値面の全ての位置で判定処理を実施するようにしてもよい。
この場合、サイズが異なる複数の探索ウィンドウの中で、評価値が最も高くなる探索ウィンドウは、そのサイズが検出対象の物体の大きさとほぼ一致していることが考えられるため、評価値が最も高くなる探索ウィンドウを特定するようにすれば、検出対象の物体の大きさが未知であっても、検出対象の物体が存在している映像内の領域を特定することができる。即ち、検出対象の物体の大きさを特定することができる。
ただし、サイズが異なる複数の探索ウィンドウを用いる場合、判定処理の演算量が増加して、処理に要する時間が長くなるため、用意する探索ウィンドウの個数は、領域特定部６を実現する領域特定処理回路１５、あるいは、領域特定部６を構成するコンピュータにおけるプロセッサ２２の処理能力に応じて適宜決定される。

領域特定部６から出力される位置座標を参照すれば、検出対象の物体の位置を把握することができる。また、サイズが異なる複数の探索ウィンドウを用いる場合、領域特定部６から出力される矩形の縦・横サイズを参照すれば、検出対象の物体の大きさを把握することができる。
しかし、時間方向にオプティカルフローの集合を生成することで、異なる算出時刻での複数のオプティカルフローの誤差を相殺しても、オプティカルフローの誤差が残存する場合がある。
オプティカルフローの誤差が残存する場合、サイズが異なる複数の探索ウィンドウの中で、評価値が最も高くなる探索ウィンドウを特定しても、評価値が最も高くなる探索ウィンドウのサイズ及び位置と、検出対象の物体の大きさ及び位置との一致度が小さくなることがある。
これにより、領域特定部６から出力された矩形の縦・横サイズや位置座標を参照しても、検出対象の物体の大きさや位置を正確に把握できないことがある。
図１４は領域特定部６から出力された矩形の縦・横サイズや位置座標を参照しても、検出対象の物体の大きさや位置を正確に把握できない場合の一例を示す説明図である。
図１４では、評価値が最も高くなる探索ウィンドウのサイズより、検出対象の物体の大きさが小さくなっている例を示している。

そこで、この実施の形態２では、領域特定部６により特定された領域を補正する領域補正部７を設けている。
以下、図１０を参照しながら、領域補正部７の処理内容を具体的に説明する。

領域補正部７は、領域特定部６から出力された矩形の縦・横サイズや位置座標を参照して、探索ウィンドウを評価値面に設定する（図１０のステップＳＴ２１）。
図１５は領域補正部７による探索ウィンドウの設定例を示す説明図である。
この探索ウィンドウの形状は矩形に限るものではないが、領域特定部６により検出対象の物体が存在していると判断された探索ウィンドウよりも十分に小さなウィンドウを探索ウィンドウとして設定する。例えば、領域特定部６により検出対象の物体が存在していると判断された探索ウィンドウのサイズの０．５倍程度のサイズの探索ウィンドウを設定する。
ただし、設定する探索ウィンドウの中心座標が、領域特定部６により検出対象の物体が存在していると判断された探索ウィンドウの中心座標と一致するように設定する。

領域補正部７は、探索ウィンドウを評価値面に設定すると、その探索ウィンドウ内の映像特徴量を算出する（図１０のステップＳＴ２２）。
映像特徴量は、処理対象の映像フレームの画素値から計算される特徴量であり、映像の色、エッジ、勾配などに基づく特徴量が考えられる。
色に基づく特徴量としては、探索ウィンドウ内の映像における各色の出現頻度を表す色ヒストグラムが考えられる。
エッジに基づく特徴量としては、探索ウィンドウの周上に存在するエッジの密度を表すエッジ密度が考えられる。
勾配に基づく特徴量としては、探索ウィンドウ内の映像における画素値の勾配方向の出現頻度を表すＨＯＧ（ＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）などが考えられる。
この実施の形態２では、映像特徴量がエッジ密度である例を説明する。

領域補正部７は、探索ウィンドウ内の映像特徴量として、エッジ密度を算出する場合、探索ウィンドウ内の映像に対して、例えば、Ｃａｎｎｙ（ＣａｎｎｙＥｄｇｅＤｅｔｅｃｔｉｏｎ）フィルタや微分フィルタを適用することで、エッジ画像を取得する。
エッジ画像は、例えば、画像のエッジに位置する画素（以下、「エッジ画素」と称する）が“１”、画像のエッジに位置しない画素（以下、「非エッジ画素」と称する）が“０”となるような画像のことである。
領域補正部７は、エッジ画像を取得すると、その探索ウィンドウの周上において、エッジ画素の総数を計数し、そのエッジ画素の総数を探索ウィンドウの周囲長で除算することで、エッジ密度を算出する。

図１６はエッジ画像の一例を示す説明図である。
図１６では、１０×１０の画素からなるエッジ画像の例を示しており、グレーで表す画素が非エッジ画素、白で表す画素がエッジ画素である。
このエッジ画像において、領域補正部７により設定された探索ウィンドウが、８×８の画素からなる場合、探索ウィンドウの周囲の画素は、図１６に示すように、太い実線で囲まれている２８個の画素である。
したがって、図１６の例では、エッジ画素の総数が７で、ウィンドウの周囲長が２８であるため、エッジ密度は、７÷２８＝０．２５となる。

領域補正部７は、探索ウィンドウ内の映像特徴量として、エッジ密度を算出すると、そのエッジ密度とＲＡＭ２３に格納されている過去の最大エッジ密度を比較し、その算出したエッジ密度が過去の最大エッジ密度より大きければ（図１０のステップＳＴ２３：ＹＥＳの場合）、その算出したエッジ密度を過去の最大エッジ密度として、ＲＡＭ２３に上書き保存する（ステップＳＴ２４）。また、その探索ウィンドウを特定するパラメータである矩形の縦・横サイズと位置座標をＲＡＭ２３に格納する。
過去の最大エッジ密度は、領域補正部７により過去に算出されたエッジ密度の中で、最も大きなエッジ密度を意味する。ただし、領域補正部７により最初にエッジ密度が算出される時点では、過去の最大エッジ密度として、０の初期値がＲＡＭ２３に格納されているものとする。

領域補正部７は、現在設定中の探索ウィンドウのサイズが、想定している最大のサイズでなければ（ステップＳＴ２５：ＮＯの場合）、現在設定中の探索ウィンドウのサイズを拡大する（ステップＳＴ２６）。例えば、現在設定中の探索ウィンドウのサイズの１．１倍のサイズに拡大する。
図１７は探索ウィンドウとエッジ密度の関係を示す説明図である。
図１７の例では、想定している最大のサイズが探索ウィンドウ（４）のサイズであるため、現在設定中の探索ウィンドウのサイズが探索ウィンドウ（４）のサイズより小さければ、現在設定中の探索ウィンドウのサイズを拡大する。
図１７において、探索ウィンドウ（１）は最初に設定されたウィンドウであり、探索ウィンドウ（２）は探索ウィンドウ（１）が拡大されたウィンドウである。
また、探索ウィンドウ（３）は探索ウィンドウ（２）が拡大されたウィンドウであり、探索ウィンドウ（４）は探索ウィンドウ（３）が拡大されたウィンドウである。

図１７では、説明の簡単化のため、領域補正部７により設定される探索ウィンドウが４個である例を示しているが、領域補正部７の補正精度を高めるため、実際には、４個以上の探索ウィンドウが設定されることが想定される。
このとき、領域特定部６により検出対象の物体が存在していると判断された探索ウィンドウと同じサイズのウィンドウのほかに、その探索ウィンドウよりも小さなサイズのウィンドウと大きなサイズのウィンドウとを含んでいれば、領域補正部７により設定される探索ウィンドウの個数は問わないが、領域補正部７により設定される探索ウィンドウの個数が増えると、領域補正部７の演算量が増加して、処理に要する時間が長くなるため、領域補正部７により設定される探索ウィンドウの個数は、領域補正部７を実現する領域補正処理回路１６、あるいは、領域補正部７を構成するコンピュータにおけるプロセッサ２２の処理能力に応じて適宜決定される。

領域補正部７は、現在設定中の探索ウィンドウのサイズを拡大すると、その探索ウィンドウ内の映像特徴量を算出する（図１０のステップＳＴ２２）。この実施の形態２では、探索ウィンドウ内の映像特徴量として、上記と同様に、エッジ密度を算出する。
領域補正部７は、探索ウィンドウ内の映像特徴量として、エッジ密度を算出すると、そのエッジ密度とＲＡＭ２３に格納されている過去の最大エッジ密度を比較し、その算出したエッジ密度が過去の最大エッジ密度より大きければ（ステップＳＴ２３：ＹＥＳの場合）、その算出したエッジ密度を過去の最大エッジ密度として、ＲＡＭ２３に上書き保存する。また、その探索ウィンドウを特定するパラメータである矩形の縦・横サイズと位置座標をＲＡＭ２３に格納する（ステップＳＴ２４）。

領域補正部７は、現在設定中の探索ウィンドウのサイズが、想定している最大のサイズになるまで、ステップＳＴ２２〜ＳＴ２６を繰り返し実行することで、探索ウィンドウ（１）〜（４）の映像特徴量としてエッジ密度を算出すると、探索ウィンドウ（１）〜（４）のエッジ密度の中で最大のエッジ密度、即ち、ＲＡＭ２３に格納されている最大エッジ密度に対応する探索ウィンドウを特定する（ステップＳＴ２７）。
図１７の例では、探索ウィンドウ（１）〜（４）のエッジ密度の中で、最大のエッジ密度が、探索ウィンドウ（３）のエッジ密度であるため、探索ウィンドウ（３）が特定される。
探索ウィンドウの境界と物体領域の境界とが正確に一致したときにエッジ密度が非常に大きくなる。探索ウィンドウ（３）は、探索ウィンドウ（１）（２）（４）よりも、物体領域の境界に対して、ウィンドウ境界がより一致しているため、最大のエッジ密度となっている。

領域補正部７は、ＲＡＭ２３に格納されている最大エッジ密度に対応する探索ウィンドウを特定すると、領域特定部６により特定された領域の補正後の領域を示す情報として、最大エッジ密度に対応する探索ウィンドウを特定するパラメータである矩形の縦・横サイズと位置座標を出力する（ステップＳＴ２８）。

また、この他にも領域補正部７は、領域特定部６により特定された領域に含まれる色やオプティカルフローなどに基づいて領域を補正するようにしてもよい。この場合は、色やオプティカルフローが領域特定部６により特定された領域に含まれる色やオプティカルフローと類似している領域を映像内から探索することで領域補正を行う。

以上で明らかなように、この実施の形態２によれば、領域特定部６により特定された領域内の映像特徴量、領域特定部６により特定された領域のサイズを拡大した領域内の映像特徴量及び領域特定部６により特定された領域を縮小した領域内の映像特徴量を算出して、算出した複数の映像特徴量を比較し、領域特定部６により特定された領域の補正後の領域として、領域特定部６により特定された領域、サイズを拡大した領域及び縮小した領域の中から、複数の映像特徴量の比較結果にしたがっていずれか１つの領域を選択するように構成したので、例えば、時間方向にオプティカルフローの集合を生成するだけでは、オプティカルフローの誤差が残存する場合でも、検出対象の物体が存在している領域を正確に検出することができる効果を奏する。

この実施の形態２では、最初に、領域特定部６により検出対象の物体が存在していると判断された探索ウィンドウよりも十分に小さなウィンドウを探索ウィンドウとして設定してから、その探索ウィンドウのサイズを徐々に拡大する例を説明したが、最初に、領域特定部６により検出対象の物体が存在していると判断された探索ウィンドウよりも十分に大きなウィンドウを探索ウィンドウとして設定してから、その探索ウィンドウのサイズを徐々に縮小するものであってもよい。

実施の形態３．
上記実施の形態１，２では、オプティカルフロー算出部２により算出されたオプティカルフローを用いて、検出対象の物体が存在している映像内の領域を検出するものを示したが、オプティカルフロー算出部２により算出されたオプティカルフローのほかに、カメラ１１の運動とカメラ１１が写している空間形状に依存するオプティカルフローを予測し、その予測したオプティカルフローを用いて、検出対象の物体が存在している映像内の領域を検出するようにしてもよい。

図１８はこの発明の実施の形態３による物体検出装置を示す構成図であり、図１９はこの発明の実施の形態３による物体検出装置を示すハードウェア構成図である。
図１８及び図１９において、図７及び図８と同一符号は同一または相当部分を示すので説明を省略する。
カメラパラメータ取得部３１は例えばＣＰＵを搭載している半導体集積回路あるいはワンチップマイコンなどから構成されているカメラパラメータ取得処理回路４１で実現されるものであり、映像撮像部１を構成しているカメラ１１の焦点距離や撮像素子の大きさなどのカメラパラメータを取得する。
なお、カメラパラメータ取得部３１は、カメラ１１から直接カメラパラメータを読み出すものであってもよいが、例えば、ハードディスク４５からカメラパラメータを読み出すものであってもよい。

カメラ運動取得部３２は運動センサ４２によって構成されており、カメラ１１の傾きや移動速度などの運動パラメータを取得する。運動センサ４２としては、例えば、ジャイロセンサや加速度センサなどが考えられる。
カメラ位置取得部３３は位置センサ４３によって構成されており、カメラ１１の空間中の位置座標を取得する。位置センサ４３としては、例えば、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）、磁気センサや超音波センサなどが考えられる。
３次元地図取得部３４は例えばＣＰＵを搭載している半導体集積回路あるいはワンチップマイコンなどから構成されている３次元地図取得処理回路４４で実現されるものであり、カメラ位置取得部３３により取得された位置座標を参照して、３次元地図記憶部３５からカメラ１１が存在している空間の３次元地図を読み出す処理を実施する。
３次元地図は、レーザースキャナやステレオカメラなどを用いて計測されることで、事前に３次元地図記憶部３５に格納されているものとする。なお、屋内施設であれば、その屋内施設の設計図などから３次元地図が生成されて、３次元地図記憶部３５に格納されていることも考えられる。
３次元地図記憶部３５はハードディスク４５から構成されており、３次元地図を記憶している。

オプティカルフロー予測部３６は例えばＣＰＵを搭載している半導体集積回路あるいはワンチップマイコンなどから構成されているオプティカルフロー予測処理回路４６で実現されるものであり、カメラ運動取得部３２により取得された運動パラメータと、カメラ位置取得部３３により取得されたカメラ１１の空間中の位置座標と、３次元地図取得部３４により取得されたカメラ１１が存在する空間の３次元地図とを用いて、その空間の３次元形状に依存するオプティカルフローを予測する処理を実施する。
また、オプティカルフロー予測部３６はカメラパラメータ取得部３１により取得されたカメラパラメータを用いて、その予測した３次元形状に依存するオプティカルフローを２次元画像平面に投影することで、カメラ１１の運動とカメラ１１が写している空間形状に依存するオプティカルフローを求め、そのオプティカルフローを評価値算出部３７に出力する処理を実施する。

物体検出部３は評価値算出部３７及び領域特定部３８から構成されており、オプティカルフロー算出部２から出力されたオプティカルフローとオプティカルフロー予測部３６から出力されたオプティカルフローとを用いて、検出対象の物体が存在している映像内の領域を検出する処理を実施する。
評価値算出部３７は例えばＣＰＵを搭載している半導体集積回路あるいはワンチップマイコンなどから構成されている評価値算出処理回路４７で実現されるものであり、オプティカルフロー算出部２から出力されたオプティカルフローとオプティカルフロー予測部３６から出力されたオプティカルフローとから、映像を構成している画素毎に、当該画素が検出対象の物体の一部を表している画素である可能性の尺度を示す評価値を算出する処理を実施する。
領域特定部３８は例えばＣＰＵを搭載している半導体集積回路あるいはワンチップマイコンなどから構成されている領域特定処理回路４８で実現されるものであり、評価値算出部３７により算出された各画素の評価値と閾値を比較することで、検出対象の物体が存在している映像内の領域を特定する処理を実施する。

図１８では、物体検出装置の構成要素である映像撮像部１、オプティカルフロー算出部２、カメラパラメータ取得部３１、カメラ運動取得部３２、カメラ位置取得部３３、３次元地図取得部３４、３次元地図記憶部３５、オプティカルフロー予測部３６、物体検出部３及び領域補正部７のそれぞれが専用のハードウェアで構成されているものを想定しているが、オプティカルフロー算出部２、オプティカルフロー予測部３６、物体検出部３及び領域補正部７がコンピュータで構成されているものであってもよい。
オプティカルフロー算出部２、オプティカルフロー予測部３６、物体検出部３及び領域補正部７が図３に示すようなコンピュータで構成される場合、オプティカルフロー算出部２、オプティカルフロー予測部３６、物体検出部３及び領域補正部７の処理内容を記述しているプログラムをコンピュータのプログラムメモリ２１に格納し、コンピュータのプロセッサ２２がプログラムメモリ２１に格納されているプログラムを実行するようにすればよい。
図２０はオプティカルフロー予測部３６の処理内容を示すフローチャートであり、図２１は物体検出部３における評価値算出部３７及び領域特定部３８の処理内容を示すフローチャートである。

次に動作について説明する。
撮影時に移動可能なカメラ１１から構成されている映像撮像部１は、上記実施の形態１と同様に、時間的に連続している映像を繰り返し撮像する。
即ち、映像撮像部１は、例えば、映像のサンプリング間隔がｔであれば、時間ｔを経過する毎に、当該時刻でのフレーム映像を撮像し、そのフレームの映像データをオプティカルフロー算出部２に出力する。

オプティカルフロー算出部２は、上記実施の形態１と同様に、映像撮像部１からフレームの映像データを受ける毎に、当該フレームの映像データを記憶するとともに、任意の２つのフレームの映像データを用いて、任意の２つのフレーム間のオプティカルフローを算出する。例えば、最新のフレームと、１つ前のフレームとの間のオプティカルフローを算出する。

カメラパラメータ取得部３１は、映像撮像部１を構成しているカメラ１１の焦点距離や撮像素子の大きさなどのカメラパラメータを取得し、そのカメラパラメータをオプティカルフロー予測部３６に出力する。
カメラ運動取得部３２は、カメラ１１の傾きや移動速度などの運動パラメータを取得し、その運動パラメータをオプティカルフロー予測部３６に出力する。
カメラ位置取得部３３は、カメラ１１の空間中の位置座標を取得し、その位置座標をオプティカルフロー予測部３６及び３次元地図取得部３４に出力する。
３次元地図取得部３４は、カメラ位置取得部３３から位置座標を受けると、その位置座標を参照して、３次元地図記憶部３５からカメラ１１が存在している空間の３次元地図を読み出し、カメラ１１が存在している空間の３次元地図をオプティカルフロー予測部３６に出力する。

検出対象の物体が存在していない空間でのオプティカルフローは、カメラ１１の運動と、カメラ１１が写している空間の背景などの３次元形状とに依存して決まる。
一方、検出対象の物体が存在している映像から算出されるオプティカルフローは、カメラ１１の運動と、カメラ１１が写している空間の背景などの３次元形状と、空間中の検出対象の物体の形状及び運動とに依存して決まる。
また、カメラ１１が写している３次元空間が、どのように２次元の画像平面に投影されるかは、カメラパラメータに依存して決まる。

そのため、オプティカルフロー予測部３６は、カメラ運動取得部３２から出力された運動パラメータと、カメラ位置取得部３３から出力されたカメラ１１の空間中の位置座標と、３次元地図取得部３４から出力されたカメラ１１が存在する空間の３次元地図とを用いて、その空間の３次元形状に依存するオプティカルフローを予測する（図２０のステップＳＴ３１）。
この実施の形態３では、オプティカルフロー予測部３６により予測されるオプティカルフローは、カメラ１１が写している空間中に検出対象の物体が存在していない状態で予測されているものとする。
なお、カメラ１１の運動パラメータと、カメラ１１の空間中の位置座標と、カメラ１１が存在する空間の３次元地図とを用いて、その空間の３次元形状に依存するオプティカルフローを予測する処理自体は公知の技術であるため詳細な説明を省略する。

オプティカルフロー予測部３６は、カメラ１１が存在する空間の３次元形状に依存するオプティカルフローを予測すると、カメラパラメータ取得部３１から出力されたカメラパラメータを用いて、その予測したオプティカルフローを２次元画像平面に投影することで、カメラ１１の運動とカメラ１１が写している空間形状に依存するオプティカルフローを求め、そのオプティカルフローを物体検出部３の評価値算出部３７に出力する（ステップＳＴ３２）。
予測したオプティカルフローを２次元画像平面に投影する処理自体は公知の技術であるため詳細な説明を省略する。

ここで、図２２はオプティカルフロー予測部３６により求められたカメラ１１の運動とカメラ１１が写している空間形状に依存するオプティカルフローの一例を示す説明図である。
また、図２３はオプティカルフロー算出部２により算出されたオプティカルフローの一例を示す説明図である。
この実施の形態３では、オプティカルフロー算出部２により算出されたオプティカルフローは、カメラ１１が写している空間中に検出対象の物体が存在している状態で算出されているものとする。このため、図２３に示すオプティカルフローは、カメラ１１の運動とカメラ１１が写している空間形状に依存するオプティカルフローと、空間に存在する検出対象の物体の形状及び運動に依存するオプティカルフローとが合成された状態となる。

物体検出部３の評価値算出部３７は、映像フレームを構成している画素単位で、オプティカルフロー算出部２から出力されたオプティカルフローとオプティカルフロー予測部３６から出力されたオプティカルフローとを比較することで、映像フレームを構成している画素が、検出対象の物体の一部を表している画素である可能性の尺度を示す評価値を算出する（図２１のステップＳＴ４１）。
フレーム中の座標ｉにおける評価値として、例えば、下記の式（３）に示すように、双方のオプティカルフローの差分ノルムを用いることができる。

式（３）において、ｆ_ｉはオプティカルフロー算出部２から出力された座標ｉのオプティカルフロー、ｇ_ｉはオプティカルフロー予測部３６から出力された座標ｉのオプティカルフロー、||・||はノルムを表す記号である。
図２４はオプティカルフロー算出部２から出力されたオプティカルフローとオプティカルフロー予測部３６から出力されたオプティカルフローとの差分を示す説明図である。
図２４において、物体領域は、双方のオプティカルフローの差分に相当している。

物体検出部３の領域特定部３８は、評価値算出部３７が映像フレームを構成している画素の評価値を算出すると、その画素の評価値と事前に設定されている閾値を比較し、その評価値が閾値以上であれば（図２１のステップＳＴ４２：ＹＥＳの場合）、当該画素が検出対象の物体の一部を表している画素であると判断する（ステップＳＴ４３）。
一方、当該画素の評価値が閾値未満であれば（ステップＳＴ４２：ＮＯの場合）、当該画素が検出対象の物体の一部を表している画素ではないと判断する（ステップＳＴ４４）。
閾値としては、例えば、検出対象の物体が存在しない背景だけの映像の各画素の評価値をそれぞれ算出し、全ての画素の評価値の中で、最も大きい評価値より少し大きい値となる当該評価値の１．２倍程度の値などが考えられる。
ここでは、閾値が事前に設定されている例を示しているが、例えば、映像に応じて適応的に計算するようにしてもよい。背景の映像が複雑であるほど、評価値が小さくなるため、閾値も小さくなることが想定される。

評価値算出部３７が全ての画素について評価値を算出し、領域特定部３８が全ての画素について当該評価値から検出対象の物体の一部を表している画素であるか否かを判定するまで、ステップＳＴ４１〜ＳＴ４４の処理を繰り返し実行する（ステップＳＴ４５）。
領域特定部３８は、全ての画素について、検出対象の物体の一部を表している画素であるか否かを判定すると、その判定結果から検出対象の物体が存在している映像内の領域を特定し、その特定した領域に属する１つ以上の画素の空間上の位置を示す位置情報を出力する。

この実施の形態３では、映像フレームを構成している画素毎に、当該画素が検出対象の物体の一部を表している画素であるか否かを判定するものを示したが、複数の画素からなる探索ウィンドウを設定し、その探索ウィンドウ内に物体が存在しているか否かを判定するようにしてもよい。
具体的には、以下の通りである。

この実施の形態３では、評価値算出部３７により算出された各画素の評価値が、映像の各フレームと対応する形で平面上に分布しているものとし、各画素の評価値が分布している面を評価値面と称する。因みに、上記実施の形態２では、図１１に示すように、複数の画素からなるブロック単位の評価値が分布している面を評価値面としており、評価値の算出単位が実施の形態３と相違している。
領域特定部３８は、評価値算出部３７が映像フレームを構成している各画素の評価値を算出すると、複数の画素からなる探索ウィンドウを設定する。
探索ウィンドウの形状は特に問わないが、探索ウィンドウの形状を矩形とする場合、その探索ウィンドウを特定するパラメータとして、矩形の縦・横サイズと、矩形の左上隅等の位置を示す座標とが用いられる。

領域特定部３８は、探索ウィンドウを設定すると、評価値算出部３７により算出された各画素の評価値の中から、その探索ウィンドウに含まれる画素の評価値を読み出し、その読み出した評価値から、その探索ウィンドウ内に物体が存在している可能性の尺度を示すスコアを算出する。
領域特定部３８により算出されるスコアとして、例えば、探索ウィンドウに含まれる画素の評価値の総和などが考えられる。
ただし、探索ウィンドウのスコアとして、探索ウィンドウに含まれる画素の評価値の総和を算出する場合、探索ウィンドウのサイズが大きい程、スコアが大きくなる。探索ウィンドウのサイズに比例してスコアが大きくならないようにするため、評価値面内に分布している評価値の平均値などをオフセットとして計算して、探索ウィンドウに含まれる各画素の評価値から当該オフセットをそれぞれ減算し、オフセット減算後の各画素の評価値の総和などを算出するようにしてもよい。

探索ウィンドウが検出対象の物体を過不足なく含んでいる場合、探索ウィンドウのスコアが大きな値になる。一方、探索ウィンドウが検出対象の物体を含んでいない場合や、検出対象の物体を含んでいても、その物体の大きさが、探索ウィンドウのサイズと比べて小さい場合、探索ウィンドウのスコアが小さな値になる。
このことは、上記実施の形態２と同様であり、図１２には探索ウィンドウと検出対象の物体との関係を示している。
図１２において、探索ウィンドウ（１）は検出対象の物体を過不足なく含んでいる場合を示し、探索ウィンドウ（２）は検出対象の物体を含んでいない場合を示している。
また、探索ウィンドウ（３）は検出対象の物体を含んでいても、その物体の大きさが、探索ウィンドウのサイズと比べて小さい場合を示している。

領域特定部３８は、探索ウィンドウのスコアを算出すると、上記実施の形態２における領域特定部６と同様に、そのスコアと事前に設定されている閾値を比較し、そのスコアが閾値以上であれば、その探索ウィンドウ内に物体が存在していると判断し、その探索ウィンドウを特定するパラメータである矩形の縦・横サイズ及び位置座標をＲＡＭ２３に格納する。
そのスコアが閾値未満であれば、その探索ウィンドウ内に物体が存在していないと判断する。
閾値としては、例えば、検出対象の物体が存在しない背景だけの映像の各探索ウィンドウのスコアをそれぞれ算出し、全ての探索ウィンドウのスコアの中で、最も大きいスコアより少し大きい値となる当該スコアの１．２倍程度の値などが考えられる。
ここでは、閾値が事前に設定されている例を示しているが、例えば、映像に応じて適応的に計算するようにしてもよい。背景の映像が複雑であるほど、スコアが小さくなるため、閾値も小さくなることが想定される。

領域特定部３８は、上記実施の形態２における領域特定部６と同様に、評価値面で探索ウィンドウの位置をずらしながら、評価値面の全ての位置で判定処理を実施する。
領域特定部３８は、評価値面の全ての位置で判定処理が終了すると、その判定結果から検出対象の物体が存在している映像内の領域を特定し、即ち、検出対象の物体が存在している探索ウィンドウの位置を特定し、その探索ウィンドウを特定するパラメータである矩形の縦・横サイズ及び位置座標を出力する。

ここでは、サイズが一定の探索ウィンドウの位置をずらしながら、評価値面の全ての位置で判定処理を実施するものを示したが、異なるサイズの探索ウィンドウを複数用意し、複数の探索ウィンドウの位置をずらしながら、評価値面の全ての位置で判定処理を実施するようにしてもよい。
この場合、検出対象の物体の大きさが未知であっても、検出対象の物体が存在している映像内の領域を特定することができる。即ち、検出対象の物体の大きさを特定することができる。
ただし、サイズが異なる複数の探索ウィンドウを用いる場合、判定処理の演算量が増加して、処理に要する時間が長くなるため、用意する探索ウィンドウの個数は、領域特定部３８を実現する領域特定処理回路４８、あるいは、領域特定部３８を構成するコンピュータにおけるプロセッサ２２の処理能力に応じて適宜決定される。

領域特定部３８から出力される位置座標を参照すれば、検出対象の物体の位置を把握することができる。また、サイズが異なる複数の探索ウィンドウを用いる場合、領域特定部３８から出力される矩形の縦・横サイズを参照すれば、検出対象の物体の大きさを把握することができる。
しかし、オプティカルフロー算出部２により算出されたオプティカルフローに誤差がある場合、サイズが異なる複数の探索ウィンドウの中で、評価値が最も高くなる探索ウィンドウを特定しても、評価値が最も高くなる探索ウィンドウのサイズ及び位置と、検出対象の物体の大きさ及び位置との一致度が小さくなることがある。
これにより、領域特定部３８から出力された矩形の縦・横サイズや位置座標を参照しても、検出対象の物体の大きさや位置を正確に把握できないことがある。
そこで、この実施の形態３でも、領域特定部３８により特定された領域を補正する領域補正部７を設けている。
領域補正部７の処理内容は、上記実施の形態２と同様であるため詳細な説明を省略する。

以上で明らかなように、この実施の形態３によれば、カメラパラメータ取得部３１により取得されたカメラパラメータと、カメラ運動取得部３２により取得された運動パラメータと、カメラ位置取得部３３により取得されたカメラ１１の空間中の位置座標と、３次元地図取得部３４により取得されたカメラ１１が存在する空間の３次元地図とを用いて、カメラ１１の運動とカメラ１１が写している空間形状に依存するオプティカルフローを予測するオプティカルフロー予測部３６を設け、評価値算出部３７が、オプティカルフロー算出部２から出力されたオプティカルフローとオプティカルフロー予測部３６から出力されたカメラ１１の運動とカメラ１１が写している空間形状に依存するオプティカルフローとから、映像を構成している画素毎に、当該画素が検出対象の物体の一部を表している画素である可能性の尺度を示す評価値を算出し、領域特定部３８が、評価値算出部３７により算出された各画素の評価値と閾値を比較することで、検出対象の物体が存在している映像内の領域を特定するように構成したので、上記実施の形態１と同様に、移動しながら映像撮像部１によって撮影された映像からでも、検出対象の物体が存在している領域を正確に検出することができる効果を奏する。

なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

この発明は、移動しながら撮影された映像からでも、検出対象の物体が存在している領域を正確に検出する必要があるものに適している。

１映像撮像部、２オプティカルフロー算出部、３物体検出部、４評価値算出部、５，６領域特定部、７領域補正部、１１カメラ、１２オプティカルフロー算出処理回路、１３評価値算出処理回路、１４，１５領域特定処理回路、１６領域補正処理回路、２１プログラムメモリ、２２プロセッサ、２３ＲＡＭ、３１カメラパラメータ取得部、３２カメラ運動取得部、３３カメラ位置取得部、３４３次元地図取得部、３５３次元地図記憶部、３６オプティカルフロー予測部、３７評価値算出部、３８領域特定部、４１カメラパラメータ取得処理回路、４２運動センサ、４３位置センサ、４４３次元地図取得処理回路、４５ハードディスク、４６オプティカルフロー予測処理回路、４７評価値算出処理回路、４８領域特定処理回路。

Claims

映像を繰り返し撮像する映像撮像部と、
前記映像撮像部により異なる時刻に撮像された映像間のオプティカルフローを算出するオプティカルフロー算出部と、
前記オプティカルフロー算出部により算出されたオプティカルフローを時間方向及び空間方向に集約し、任意の２つのオプティカルフローの差分絶対値を用いて、検出対象の物体が存在している映像内の領域を検出する物体検出部とを備え、
前記オプティカルフロー算出部は、前記映像を構成している画素毎に、異なる時刻に撮像された映像間のオプティカルフローを算出し、
前記物体検出部は、
前記映像撮像部により撮像された映像を一つあるいは複数の領域に分割し、その分割した領域毎に、当該分割領域に属する複数の画素についての前記オプティカルフローの角度の差分絶対値の総和と、前記オプティカルフローの長さの差分絶対値の総和とを算出して、前記角度の差分絶対値の総和と前記長さの差分絶対値の総和から、当該分割領域が検出対象の物体の一部又は全部を表している物体領域である可能性の尺度を示す評価値を算出する評価値算出部と、
前記評価値算出部により算出された各分割領域の評価値と閾値を比較することで、検出対象の物体が存在している映像内の領域を特定する領域特定部とを備えたことを特徴とする物体検出装置。
映像を繰り返し撮像する映像撮像部と、
前記映像撮像部により異なる時刻に撮像された映像間のオプティカルフローを算出するオプティカルフロー算出部と、
前記オプティカルフロー算出部により算出されたオプティカルフローを時間方向及び空間方向に集約し、任意の２つのオプティカルフローの差分絶対値を用いて、検出対象の物体が存在している映像内の領域を検出する物体検出部とを備え、
前記オプティカルフロー算出部は、前記映像を構成している画素毎に、異なる時刻に撮像された映像間のオプティカルフローを算出し、
前記物体検出部は、
前記映像撮像部により撮像された映像を一つあるいは複数の領域に分割し、その分割した領域毎に、当該分割領域に属する複数の画素についての前記オプティカルフローの角度の差分絶対値の総和と、前記オプティカルフローの長さの差分絶対値の総和とを算出して、前記角度の差分絶対値の総和と前記長さの差分絶対値の総和から、当該分割領域が検出対象の物体の一部又は全部を表している物体領域である可能性の尺度を示す評価値を算出する評価値算出部と、
前記評価値算出部により算出された各分割領域の評価値が映像内で最大となる領域を探索することで、検出対象の物体が存在している映像内の領域を特定する領域特定部とを備えたことを特徴とする物体検出装置。
前記物体検出部により検出された領域を補正する領域補正部を備え、
前記領域補正部は、前記物体検出部により検出された領域内の映像特徴量、前記検出された領域の位置及びサイズを変更した領域内の映像特徴量を算出して、算出した複数の映像特徴量を比較し、
前記物体検出部により検出された領域の補正後の領域として、前記物体検出部により検出された領域、前記変更した領域の中から、前記複数の映像特徴量の比較結果にしたがっていずれか１つの領域を選択することを特徴とする請求項１または請求項２記載の物体検出装置。
映像撮像部が、映像を繰り返し撮像し、
オプティカルフロー算出部が、前記映像撮像部により異なる時刻に撮像された映像間のオプティカルフローを算出し、
物体検出部が、前記オプティカルフロー算出部により算出されたオプティカルフローを時間方向及び空間方向に集約し、任意の２つのオプティカルフローの差分絶対値を用いて、検出対象の物体が存在している映像内の領域を検出する際、
前記オプティカルフロー算出部が、前記映像を構成している画素毎に、異なる時刻に撮像された映像間のオプティカルフローを算出し、
前記物体検出部の評価値算出部が、前記映像撮像部により撮像された映像を一つあるいは複数の領域に分割し、その分割した領域毎に、当該分割領域に属する複数の画素についての前記オプティカルフローの角度の差分絶対値の総和と、前記オプティカルフローの長さの差分絶対値の総和とを算出して、前記角度の差分絶対値の総和と前記長さの差分絶対値の総和から、当該分割領域が検出対象の物体の一部又は全部を表している物体領域である可能性の尺度を示す評価値を算出し、
前記物体検出部の領域特定部が、前記評価値算出部により算出された各分割領域の評価値と閾値を比較することで、検出対象の物体が存在している映像内の領域を特定することを特徴とする物体検出方法。
映像撮像部が、映像を繰り返し撮像し、
オプティカルフロー算出部が、前記映像撮像部により異なる時刻に撮像された映像間のオプティカルフローを算出し、
物体検出部が、前記オプティカルフロー算出部により算出されたオプティカルフローを時間方向及び空間方向に集約し、任意の２つのオプティカルフローの差分絶対値を用いて、検出対象の物体が存在している映像内の領域を検出する際、
前記オプティカルフロー算出部が、前記映像を構成している画素毎に、異なる時刻に撮像された映像間のオプティカルフローを算出し、
前記物体検出部の評価値算出部が、前記映像撮像部により撮像された映像を一つあるいは複数の領域に分割し、その分割した領域毎に、当該分割領域に属する複数の画素についての前記オプティカルフローの角度の差分絶対値の総和と、前記オプティカルフローの長さの差分絶対値の総和とを算出して、前記角度の差分絶対値の総和と前記長さの差分絶対値の総和から、当該分割領域が検出対象の物体の一部又は全部を表している物体領域である可能性の尺度を示す評価値を算出し、
前記物体検出部の領域特定部が、前記評価値算出部により算出された各分割領域の評価値が映像内で最大となる領域を探索することで、検出対象の物体が存在している映像内の領域を特定することを特徴とする物体検出方法。