Nothing Special   »   [go: up one dir, main page]

JPH1042273A - 三次元位置認識利用システム - Google Patents

三次元位置認識利用システム

Info

Publication number
JPH1042273A
JPH1042273A JP8195081A JP19508196A JPH1042273A JP H1042273 A JPH1042273 A JP H1042273A JP 8195081 A JP8195081 A JP 8195081A JP 19508196 A JP19508196 A JP 19508196A JP H1042273 A JPH1042273 A JP H1042273A
Authority
JP
Japan
Prior art keywords
depth
image
dimensional
point
movement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8195081A
Other languages
English (en)
Inventor
Yukinori Matsumoto
幸則 松本
Hajime Terasaki
肇 寺崎
Kazuhide Sugimoto
和英 杉本
Tsutomu Arakawa
勉 荒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP8195081A priority Critical patent/JPH1042273A/ja
Publication of JPH1042273A publication Critical patent/JPH1042273A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Burglar Alarm Systems (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 奥行きを高い精度で自動的に求めた上でこれ
を利用する技術が殆どない。 【解決手段】 入力映像から、被写体の画面上の動き情
報を抽出する(工程1)。このとき、ブロックマッチン
グ等の手法を使う。つづいて三次元空間における被写体
の現実の動きを算出する(工程2)。入力映像はもとの
三次元的な動きの投影であるから、複数の代表点の動き
から三次元表示の動きが逆変換によって求められる。こ
の結果、被写体の座標が判明するため、被写体の奥行き
情報が獲得できる(工程3)。この奥行きを用いて、各
種システムを構築する(工程4)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は物体の三次元位置
認識利用システム、特に、単眼カメラから撮影された二
次元画像またはステレオカメラから撮影された三次元画
像に写し出された被写体の三次元位置を認識し、これを
利用する各種システムに関する。
【0002】
【従来の技術】テレビジョン技術分野においては、従来
より二次元画像の奥行きをもとに三次元画像、すなわち
疑似立体画像を生成する技術が知られている。この例と
して、特公昭55−36240号公報には、外部から与
えられた奥行き情報を用いた立体画像表示装置が開示さ
れている。また、雑誌PIXEL(No.128)(1
993年5月1日発行)の97〜102ページには、奥
行き情報を利用した疑似立体画像システムが提案されて
いる。さらに、特表平4−504333号公報(WO8
8/04804)にも同様に、奥行き情報を利用して疑
似立体視を実現する方法が開示されている。
【0003】また、フレーム間の対応関係の把握から奥
行き情報を生成するアイデア自体も既知である。例え
ば、特開平7−71940号公報で「従来の技術」とし
て、(1)ステレオカメラで撮影された2つの画像間
で、点や線の対応付けを行い、実際のシーン空間(三次
元空間)における点や線の位置を推定する技術、(2)
カメラを移動しながら被写体を連続的に撮影し、画像上
の特徴点を追跡することで、各特徴点のシーン空間にお
ける実際の位置を推定する技術、の存在が指摘されてい
る。
【0004】
【発明が解決しようとする課題】このように、奥行き情
報を用いて疑似立体画像を生成する技術自体は知られて
いるが、奥行き情報を疑似立体画像の生成以外の画像処
理のために利用する提案はあまりない。
【0005】そこで本発明の目的は、まず二次元動画像
(すなわち単眼カメラから撮影した動画像)、または三
次元画像(すなわちステレオカメラから撮影した画像)
から物体、すなわち被写体の奥行きを正確に求める技術
を提案したうえで、この奥行き情報を有効利用する各種
三次元位置認識利用システムを提供することにある。
【0006】
【課題を解決するための手段】
(1)本発明の三次元位置認識利用システムは、物体の
三次元位置を認識して利用するシステムであって、撮影
された物体の奥行きを抽出する抽出手段を備え、抽出さ
れた奥行きをもとに警備を行う。
【0007】この構成によれば、物体が撮影されたと
き、抽出手段によってその物体の奥行きが抽出される。
抽出手段はハードウエア的、ソフトウエア的、それらの
混合など、いずれの態様で構成してもよい。「抽出」と
は、検出、算出などの概念を含み、奥行きを認識または
特定することをいう。物体の奥行きが判明すれば、その
物体の動きもわかるため、これを警備に用いる。
【0008】(2)(1)のときさらに、物体が近づい
たときに所定の処理を行うことにしてもよい。所定の処
理の例として、その物体を拡大して撮影したり、警備関
係者に警告を発したり、警備区域の照明を明るくした
り、警備に関連する処理であればどのような処理をなし
てもよい。
【0009】(3)本発明の別のシステムでは、抽出さ
れた奥行きをもとにコンピュータビジョン技術における
セグメント・マッチングのための前処理が行われる。
「セグメント・マッチング」とは領域の対応関係を把握
するため、領域の持つ何らかの特徴に着目して行う画像
対比処理をいう。「前処理」とは、セグメント・マッチ
ングを円滑に行うための準備をいう。
【0010】(4)(3)のときさらに、前記前処理
は、物体の奥行きを利用してセグメント・マッチングに
おける探索エリアを狭める処理であってもよい。すなわ
ち、セグメント・マッチングでは、2つのフレーム間で
対応しあう画像領域を発見しようとするが、この際、予
め対応しそうな領域を奥行きから推測することができ
る。この推測により、対応関係を探索すべきエリアの絞
り込みを行う。
【0011】(5)本発明の別のシステムでは、抽出さ
れた奥行きをもとにユーザからの指示が認識され、これ
が受け付けられる。ユーザの指示は何らかの動作を伴う
と考えられるため、この動作が起きている箇所の奥行き
をもとに指示の内容を特定しようというものである。
【0012】(6)(5)のときさらに、撮影された物
体のうち最も奥行きの小さな箇所の動きをユーザの指示
と判断してこれを受け付けてもよい。
【0013】(7)本発明のさらに別のシステムでは、
抽出された奥行きをもとに疑似立体画像の表示制御が行
われる。表示制御の例として疑似立体画像が正しく知覚
される位置の調整がある。
【0014】(8)(7)のときさらに、撮影された物
体の位置に疑似立体画像の観視者が存在すると判断し、
この位置にて疑似立体画像が良好に表示されるよう表示
位置制御を行ってもよい。特に、観視者の頭の位置を前
記奥行きとともに輪郭検出等の画像処理技術と組み合わ
せて特定すれば、その頭の位置で疑似立体画像が最も効
果的に表示されるよう制御することも可能である。
【0015】
【発明の実施の形態】本発明の好適な実施形態を適宜図
面を参照しながら説明する。
【0016】実施形態1では、単眼カメラから撮影され
た二次元動画像から奥行き情報を抽出し、これを警備シ
ステムの距離センサとして利用する技術を説明する。
【0017】実施形態2では、多眼カメラ、すなわちス
テレオカメラによる映像をもとに実施形態1同様の処理
を行う。実施形態3〜5では、それぞれ実施形態1また
は2同様に奥行き情報を抽出し、これをそれぞれ、コン
ピュータビジョン、コンピュータシステムのユーザイン
タフェイス、疑似立体表示の制御に利用する。
【0018】実施形態1.本実施形態ではまず、コンピ
ュータビジョンにおける手法をテレビジョン分野をはじ
めとする画像処理分野に応用し、奥行き情報に基づく正
しい立体画像を生成する技術を説明する。
【0019】本実施形態では、二次元動画像の動きを検
出し、この動きからその動画像のシーンと撮影視点との
三次元運動を算出し、この相対的な三次元運動と画像各
部位の動きをもとに、前記撮影視点から画像各部位まで
の相対距離を算出することによって、奥行き情報を導出
する。
【0020】この技術を別の表現でいえば、処理の対象
となる二次元動画像から複数の映像フレーム(以下単に
「フレーム」ともいう)を選択し、これらのフレーム間
における二次元的な位置の変位から映像各部位が現実の
三次元空間において占める相対位置関係を導出し、その
結果に従って奥行きを決定する。すなわち、前記二次元
的な位置の変位から前記映像各部位の三次元的な動きを
算出し、この動きから三角測量の原理によって前記映像
各部位の三次元空間における位置座標を算出し、その結
果に従って奥行きを決定する。ここで「フレーム」と
は、1つの画像処理単位であり、例えばMPEGでいう
フレームピクチャやフィールドピクチャを含む概念であ
る。
【0021】二次元動画像の場合、前記「複数の映像フ
レーム」は、異なる時刻に撮影されたフレームであるか
ら以降これを「異時刻フレーム」と呼び、後述の多眼カ
メラによって同時に撮影された複数フレーム、すなわち
「同時刻フレーム」と区別する。「二次元的な位置の変
位」とは、フレーム平面上における位置の変位をいう。
実施形態1では、異時刻フレームが問題になるため、
「二次元的な位置の変位」は、時間経過に伴う位置の変
化、すなわち動きを指す。なお後述の同時刻フレームの
場合は、「二次元的な位置の変位」が複数フレーム間の
位置のずれを指すことに注意すべきである。
【0022】図1は本実施形態によって三次元表示画像
を生成するための主な工程を示す図である。本実施形態
は以下の工程に従って元となる二次元映像から奥行き情
報を抽出し、これを利用する。ここで工程1〜3が映像
の解析による奥行き情報の抽出、工程4がその利用、特
に実施形態1では警備システムへの利用に関するもので
ある。まず各工程の概略を説明する。
【0023】[工程1]二次元動き情報の抽出 映像に含まれる被写体の動き情報を抽出する。この動き
情報は二次元情報である。表示画面を座標平面上にと
り、被写体のこの画面上の動きを二次元座標で記述す
る。
【0024】本工程では、被写体の動きの把握のために
映像フレーム間の対応関係を検出する。基準フレームで
ある時刻tの映像フレーム(以降「フレームt」とい
う)に予め複数の代表点を設定しておき、別の時刻t'
の対象フレーム(以降「フレームt' 」という)におけ
る前記各代表点の対応点を追跡する。フレームtとt'
は異時刻フレームを形成するが、これらは時間的に隣接
するフレームである必要はない。また本工程の特徴は、
被写体の水平方向のみならず、任意の方向の動きから二
次元動き情報を抽出できる点にある。本明細書では、以
降 t、t' がそれぞれ時刻を示す。
【0025】本明細書では以降「フレーム」といえば、
フィールドなど広く映像構成単位全般を指すものとし、
例えば525本の走査線によって構成されるテレビ受像
器の1フレームや、640×480画素によって構成さ
れるパーソナルコンピュータの一画面のみを指すもので
はない。また、代表点はフレームtのみならず、フレー
ムt、t' の両方に設定してもよい。
【0026】[工程2]三次元動き情報の算出 被写体の二次元的な動きが判明すれば、この被写体の三
次元空間における現実の動き情報(以下、三次元動き情
報ともいう)を算出する。この際、代表点と対応点の組
を多数とることにより、被写体が実際に起こす動きを並
進および回転の両運動成分によって記述する。
【0027】[工程3]奥行き情報の獲得 被写体の現実の動きの様子がわかれば、各時刻における
被写体の相対位置関係が判明する。この関係がわかれば
被写体またはその各部位(以降単に「映像各部位」とも
いう)の奥行き情報が求められる。
【0028】[工程4]奥行き情報の利用 奥行き情報をもとに警備システムを構築する。例えば、
ある場所に対して一定の距離以内に近づいてくる物体が
あれば、警告を発するなどの処理を行う。
【0029】以上が概略である。以降、各工程を詳述す
る。
【0030】[工程1]二次元動き情報の抽出 図2は映像フレーム間の対応関係を検出するためのフロ
ーチャートである。同図に示す各ステップを説明する。
【0031】(S10)フレームtに代表点を設定 図3に示すように、まず基準フレームtに代表点を設定
する。同図では、フレームtを8×8画素ごとにメッシ
ュによって分割し、各代表点を格子点に置いている。こ
こでは左からi番目、上からj番目の代表点をPt
(i, j)と記述し、Pt (i, j)に対する時刻t'
の対応点をPt'(i, j)と記述する。また、必要に応
じてPt (i, j)のx、y座標をそれぞれ、Pt
(i, j)x 、Pt (i, j)y と記述する。
【0032】なお本ステップにおいて、代表点は格子点
に限らず任意の箇所に配置してもよい。極端な場合は全
画素を代表点とすることもできる。
【0033】(S11)対応点候補領域の設定 例えば図3に示すPt (6, 4)という代表点を考えた
場合、Pt'(6, 4)の存在しうる領域を予め設定す
る。これは映像の動きがある限度以上に急激な場合を除
き、Pt'(6, 4)がPt (6, 4)の近傍にあるとい
う仮定に基づく。本実施形態では、例えばPt (6,
4)の近傍100×60画素の領域にPt'(6, 4)が
入るものとし、Pt'(6, 4)の検出の際の計算量を削
減する。
【0034】本ステップについては以下の応用が可能で
ある。
【0035】1.映像が比較的激しく動いているときは
フレームt、t' が隣接するようにt' を決める。代表
点の位置変化は最小に抑制され、対応点が前記領域に入
らないおそれも最小となる。ただし当然ながら、予め候
補領域を画面全体とする方法も考えられる。その場合、
計算量が増加するが、映像の大きな動きによって対応点
を取り逃すおそれは減る。
【0036】2.本実施形態では単にPt'(6, 4)が
Pt (6, 4)の近傍にあると仮定したが、いったんP
t (6, 4)の複数フレームにおける移動軌跡が判明し
たときは、この軌跡の延長線上に候補領域を決めること
も可能である。映像の動きがある程度一定している場
合、この方法による対応点候補領域の絞り込みは非常に
有効である。
【0037】(S12)対応点候補領域における非類似
度の計算 つづいて、候補領域から対応点の位置を具体的に決めて
いく。ただし本ステップでは、前ステップとは逆に、映
像の動きが緩慢過ぎる場合に問題が生じる。動きが少な
いと動き情報の抽出が困難になり、抽出された情報が大
きな誤差を含む可能性があるためである。
【0038】そこでこのようなときには、予めフレーム
t、t' がある程度離れるようt' を選択する。この
際、映像各部位の変化量を統計的に処理し、例えば変化
の大きさまたは変化量の分散が所定値を超えるような
t' を選択すればよい。この他の方法として、所定数以
上の特徴点(後述)の動きの総和が所定値を超えるよう
なt’、または特徴点の動きの分散が所定値を超えるよ
うなt’を選択してもよい。
【0039】本ステップでは、対応点の位置を決めるべ
く、フレームt、t' 間でブロックマッチングによる非
類似度の計算を行う。前記対応点候補領域内のある点を
中心とする近傍ブロックと代表点の近傍ブロックとの間
で濃度の2乗誤差の総和、すなわち非類似度を求め、こ
れが最小になる点を計算上の対応点と決める。
【0040】図4はブロックマッチングの様子を示す図
で、本実施形態では9画素で1ブロックと定義し、中央
の画素を代表点とする。
【0041】同図において、まずフレームt上にPt
(i, j)を含むブロック1を取り、フレームt' 側で
は対応点の仮の候補Pt'(i, j)を含むブロック2を
取る。ここで一般に、画素(x, y)の時刻tにおける
画素値をIt (x, y)と記述すれば、非類似度(E1
とする)は、
【数1】 E1=ΣΣ{It(Pt(i,j)x+u,Pt(i,j)y+v)-It'(Pt'(i,j)x+u,Pt'(i,j)y+v)}2 (式1) によって求められる。ここで2つのΣはu、vに関す
る。これらはそれぞれ、 u=−1,0,1 v=−1,0,1 の値を取り、仮のPt'(i, j)に対して合計9画素に
関する2乗誤差総和が計算できる。そこでPt'(i,
j)を候補領域内で少しずつ動かしていき、E1が最小
になる点を対応点と決めればよい。
【0042】図5はPt'(i, j)ごとにE1の値を縦
方向に表した模式図であり、同図の場合、非類似度が急
峻なピークをとる点Qが対応点と決まる。以降、同様に
他の代表点についても対応点を決めていく。
【0043】なお、本ステップには以下の応用または変
形がある。
【0044】1.ここでは濃淡画像を前提に、濃度の2
乗誤差を計算したが、カラー画像の場合、RGB各濃度
の2乗誤差の総和、すなわちE1R +E1G +E1B
非類似度としてもよい。これは他の色空間による濃度、
例えばHVC濃度であってもよい。2乗誤差の代わりに
単なる誤差の絶対値、すなわち残差の総和を採用しても
よい。2.本ステップでは1ブロックを9画素とした
が、通常はある程度多数の画素によってブロックを定義
することが望ましい。例えば通常のパーソナルコンピュ
ータまたはワークステーションの高解像度画面を想定す
る場合、実験の結果、16×16画素程度のブロックに
よって良好な結果が得られている。
【0045】(S13)対応点の初期位置の決定 前ステップにより、一応は対応点を求めることができ
た。しかしこの段階では対応点の位置が正しいとは限ら
ない。被写体の境界やエッジについては対応点が比較的
正しく求まるものの、例えば変化の乏しい映像部位で
は、対応点の位置は相当誤差を含んでいるとみるべきで
ある。図5でいえばE1が明確なピークをとらない状態
といってよい。図6は前ステップの結果求められた対応
点と代表点の関係を示す図で、同図に示すごとく、家や
木、特にそれらの輪郭等の特徴的な点については対応点
が良好に求まるが、空や地面については誤差が大きい。
【0046】そこで本ステップと次ステップにより、対
応点の位置補正を行う。本ステップでは、まず対応点の
初期位置という概念を導入し、実際にその初期位置を決
める。つづいて、次ステップで繰り返し計算による位置
精度の改善を図る。
【0047】本ステップにおける対応点初期位置の決定
には以下の方針が考えられる。
【0048】1.前ステップで求められた全対応点を同
等に扱う 全対応点の位置をそのままそれらの初期位置として次ス
テップへ投入する。
【0049】2.対応点の扱いに差異を設ける 当初よりある程度正しい位置にあると思われる対応点
(以降「特徴点」という)の位置はそのまま初期位置と
して使い、そうでない対応点(以降「非特徴点」とい
う)の初期位置については、前記特徴点のそれをもとに
決めるというものである。ここで特徴点としては以下の
点を想定することができるが、これらの点は現実には一
致することも多い。なお、これらの対応点に対応するも
との代表点も、本明細書では特徴点とよぶことにする。
【0050】(1)前ステップのE1が明確なピークを
示した対応点 このような対応点の位置精度は一般に高いためである。
【0051】(2)直交エッジ成分が多く存在する箇所
にある対応点 建物の角などの部分では対応点の位置がかなり正しいと
思われるためである。 (3)フレームt、t' 、・・・において位置が安定的
に変化している対応点 ここで変化の安定性は、動きベクトルの一定性というこ
とができる。ここでは、フレームの進行に伴って移動方
向、移動距離が一定な対応点を選ぶ。具体的には、例え
ば動きベクトルのばらつきが所定値以下の対応点を選定
する。こうした対応点は的確に追跡されているはずであ
り、代表点と正しい対応関係にあると判断できるためで
ある。ただし、例えば映像を撮影するカメラが不規則に
動いた場合には、その影響を加味して判断する。
【0052】こうして特徴点が選定されれば、これらは
そのまま初期位置として使い、非特徴点の初期位置は特
徴点の位置を補間したり、または特徴点の近傍から順に
決めていくことができる。すなわち、前ステップによる
非特徴点の位置精度は低いため、精度の高い特徴点から
幾何的に非特徴点の初期位置を与えるのである。なお当
然ながら、(3)の特徴点を見つける場合にも前ステッ
プの方法を有効利用できる。
【0053】以上、特徴点の選定に基づいた対応点初期
位置の決定方法を述べたが、この他、動的計画法(ダイ
ナミック・プログラミング)を用いて対応点の初期値を
求めてもよい。
【0054】(S14)対応点の改善処理 対応点の位置の妥当性を評価するために式を導入し、繰
り返し計算によって位置精度を改善する。S12ステッ
プでは非類似度を評価する式1を導入したが、ここでは
さらに、対応点間の相対位置関係の妥当性を評価する式
を導入し、これら2つの評価結果を統合して位置の改善
を図る。
【0055】図7は相対位置を評価する原理を説明する
図である。同図において、各点はそれぞれ対応点を表し
ている。このうち、図中のPt'(i, j)を中心に考え
ると、これには以下の4つの対応点、
【数2】Pt'(i-1,j )、Pt'(i+1,j )、Pt'(i,j-
1 )、Pt'(i,j+1 ) が隣接している。Pt'(i, j)は通常、これら4つの
点の重心付近に存在すると考えるのが妥当である。これ
は、映像各部位が動いても画素単位の微視的な見方をす
れば相対位置関係がほぼ保たれるという経験則に基づい
ている。なお、この性質を数学的にいえば、(i, j)
の関数Pt'(i, j)の2次微分がほぼ0であるという
ことにほかならない。
【0056】従って上記4点の重心を(St'(i,j)x ,S
t'(i,j)y )と表記すれば、
【数3】 E2={Pt'(i,j)x-St'(i,j)x }2 +{Pt'(i,j)y-St'(i,j)y }2 (式2) が相対位置の妥当性評価式となる。この式だけを考えれ
ば、E2が最小値になるときに対応点の位置が最も望ま
しい状態となる。
【0057】本ステップでは、式1および式2の評価結
果を適当な結合定数kで加算し、 E=E1/N+k・E2 (式3) で表されるEを最終的な評価式とする(Nはブロックマ
ッチングの際に定義された1つのブロックに含まれる画
素数である)。すなわち、まず各対応点についてEを計
算し、続いて全対応点のEの総和ΣEを計算し、ΣEが
最小値となるよう、各対応点の位置をすこしずつ変化さ
せる。ΣEの値が収束するか、または繰り返し計算を所
定の上限回数に達するまで行い、改善処理を施す。より
具体的には、各対応点の位置を変化させるとき、以下の
いずれかの方法を実施すればよい。
【0058】(1)オイラー方程式を解く方法 ΣEが極値、ここでは極小値をとる条件を示すオイラー
方程式を数値的に解くことによって対応点を得る。この
手法自体は既知である。これは、各代表点を含むブロッ
クでの画像傾き情報と、対応ブロック間の画素差分情報
から改善すべき方向を見い出し、これに基づいて対応点
の位置を初期位置から徐々に動かしていき、最終解を求
める。
【0059】(2)固定探索手法 まず、対応点候補領域において、改善対象の対応点のE
が最小になる点を探し、これを新たな対応点とする。こ
のとき、他の点の位置を不動とみなして探索を行う点に
特徴がある。この処理を順次全対応点に対して行う。
【0060】(3)混合手法 (2)の手法によれば、画素単位の精度で対応点の位置
が求まる。一方、(1)によれば、理論上画素単位以下
の精度で位置を求めることができる。そこで、まず
(2)の手法によって画素単位の精度で対応関係を求
め、しかる後にオイラー方程式を適用して精度を高める
ことも可能である。
【0061】なお実験によれば、同じ精度で比較した場
合、(2)の手法によって(1)よりも短時間で好まし
い解が得られている。
【0062】図8は図6の対応点候補に対して本ステッ
プの改善処理を行った結果を示す図である。実験によれ
ば、カラー画像の場合、kは5〜200程度で良好な結
果が得られることがわかった。図6と図8はともに模式
的な図であるが、実験の結果、実際にこれらの図に近い
改善が見られた。
【0063】以上が工程1の詳細である。本工程の特徴
は被写体の任意方向の動きから二次元動き情報を抽出で
きる点にある。これは代表点と対応点という概念で動き
を把握する利点であり、水平方向の動きを検出して時間
差を決定する従来の技術に比べ、広い応用を可能とする
ものである。
【0064】なお本工程には、以下の応用または変形が
ある。
【0065】1.E2導出の際、上下左右の4点のみな
らず、斜め方向の4点を加えた計8点の重心を考える。
いかなる組合せが最適であるかは映像の種類にも依存す
るため、適宜実験によって決めていくことが望ましい。
【0066】2.式3による評価は、E1のみによる評
価結果が思わしくなかった対応点から優先的に行う。こ
れはE1の結果が悪い対応点は一般に位置の誤差が大き
いと考えられるためであり、こうした対応点の位置を早
期に、かつ大幅に改善することが望ましいためである。
【0067】3.位置改善の際、幾何情報も利用する。
フレームtにおいて幾何的に特徴のある領域、例えば直
線を形成していた複数の代表点については、それらの対
応点も直線を形成するように位置を補正する。これは映
像上直線に見える部分は現実の三次元空間でも直線であ
る可能性が高く、一方、三次元空間の直線はフレーム
t' でも直線となるべきだからである。本来奥行きは直
線に沿って一様に変化するものであり、直線に沿う変化
は視覚的に容易に把握されるため、この方法による改善
効果は大きい。なお、他の幾何情報として、画像領域の
エッジなどが考えられる。
【0068】4.さらに別のフレームについても対応点
を求める。本工程ではフレームtに対するフレームt'
の対応点を求めたが、さらに第三のフレームt''におけ
る対応点も求め、映像各部位の平均化された動きを求め
ることができる。この方法は、フレームt' における対
応点位置を改善していくのではない。多くのフレームで
対応点をとることにより、対応点の位置とそのフレーム
が撮影された時間から映像各部位の動きを統計的に決め
ていくものである。
【0069】[工程2]三次元動き情報の算出 工程1により、映像各部位の画面上の二次元的な動きが
判明した。工程2ではこの情報から各部位の三次元的な
動きを算出する。映像は被写体の現実の動きを平面に投
影したものであり、本工程では代表点と対応点の位置関
係からもとの動きを導出する。
【0070】一般に被写体の三次元空間における動き
は、並進運動と回転運動の合成として記述することがで
きる。ここではまず、動きが並進運動のみで構成される
場合の計算方法を説明し、後に一般化された方法を概説
する。
【0071】1.動きが並進運動のみの場合 図9はある点Pの画面上の移動と三次元空間での現実の
移動の対応を示す図である。同図では画面上の二次元座
標を大文字X等で、現実の三次元座標を小文字x等で表
記するものとし、三次元座標のうちx、y軸を画面上
に、z軸を奥行き方向にとっている。また、視点から画
面までの距離を1とする。
【0072】この図に示す通り、P(X, Y)は画面上
をP' (X',Y' )へ移動するが、この間、この点は三
次元空間においてS(x, y, z)からS(x',y',
z' )へと移動する。ここで、
【数4】 (x',y',z' )=(x, y, z)+(a, b, c) とすれば、画面までの距離が1なので、 X =x/z, Y =y/z X' =x' /z' , Y' =y' /z' となる。これを解けば、 X' =(Xz+a)/(z+c) Y' =(Yz+b)/(z+c) となるため、zを消去し、次式が求められる。
【0073】
【数5】 (a−X' c)(Y' −Y)=(b−Y' c)(X' −X) (式4) 式4は画面上の動き情報で表現されているため、工程1
で得られた情報によって未知数a, b, cを決めること
ができる。しかしこの際、現実にはk倍の大きさの物体
がk倍離れたところをk倍の速さで移動するケースにお
いて、このkの値(スケールファクター)を決めること
はできず、a, b, cについてはそれらの比のみを求め
ることが可能となる。数学的にいえば、(X, Y)と
(X',Y' )の対応を3組与えても、この連立方程式を
行列表示した際の係数行列のランク(階数)は高々2で
あり、a, b, cは相対値としてしか決まらない。そこ
で本工程では、仮にc=1と正規化してa, bを表すこ
とにする。比のみでも、次工程による処理が可能なため
である。
【0074】並進運動の別の解法として、式4から誤差
eを、
【数6】 e ={(a-X'c)(Y'-Y) −(b-Y'c)(X'-X) }2 ={(Y'-Y)a-(X'-X)b−(XY'-X'Y)c}2 (式5) と定義し、代表点と対応点の全対応関係についてeの総
和Σeをとり、この値を最小にするa, b, cを次の式
から求めてもよい。
【0075】 d(Σe)/da=0 (式6) d(Σe)/db=0 (式7) d(Σe)/dc=0 (式8) より具体的には、式6〜8はそれぞれ次の形に展開され
る。
【0076】
【数7】 a Σ(Y'-Y)2 -bΣ(X'-X)(Y'-Y)-cΣ(Y'-Y)(XY'-X'Y)=0 (式9) -a Σ(X'-X)(Y'-Y)+bΣ(X'-X)2 +cΣ(X'-X)(XY'-X'Y)=0 (式10) -a Σ(Y'-Y)(XY'-X'Y)+b Σ(X'-X)(XY'-X'Y)+c Σ(XY'-X'Y) 2 =0 (式11) 以上が並進運動に関する計算方法の例である。
【0077】2.動きが回転運動を含む場合 回転運動はx, y, z方向の3つの変位と各軸を中心と
する3つの回転角、例えばα, β, γによって記述する
ことができる。回転角はオイラー角またはロールピッチ
法などによって表現することができる。
【0078】ここで上記合計6つの変数を決定すればよ
いが、ここでも上述のごとくスケールファクターが決ま
らないため、ある変数を1として各変数の比を求める。
理論的上、代表点と対応点を5組とれば運動を記述する
ことができる。
【0079】ここで注意すべきは、組のとりかたによっ
ては動きの様子が線形解法によって求まらないことがあ
る点である。こうした場合を考慮する際、組を8以上と
ればよいことが知られている。8組の変化から線形解法
によって回転運動を記述しうる根拠については、例えば
「動きからの単眼立体視による形状認識の線形解法につ
いて」(出口・秋場、計測自動制御学会論文集vol.26,
No.6,714/720 (1990))などに示されている。
【0080】[工程3]奥行き情報の獲得 工程2によって映像各部位の三次元的な動きの相対量が
わかった。工程3では、この相対量から各部位の奥行き
情報を導出する。本工程では説明のために、被写体は静
止しており、それを撮影するカメラの側が動くものと仮
定する。映像処理の際には被写体とカメラの相対運動が
問題となるため、この仮定によって良好な結果が得られ
る。
【0081】映像のある部位の動きを回転行列Rと並進
ベクトル(a, b, c)により、 (x',y',z' )=R(x, y, z)+(a, b, c) と表す場合、この逆変換、
【数8】 (x, y, z)=R-1{(x',y',z' )−(a, b, c)} (式12) をカメラの動きと考える。
【0082】図10はカメラの三次元移動とある点Pの
画面上の移動から点Pの三次元座標を導く原理を説明す
る図である。同図からわかるように、この原理は一般に
三角測量の原理として知られるもので、位置の異なる2
点から点Pの方向を見たとき、点Pの現実の位置(図中
の点S)はそれら2つの視線の交点に存在するというも
のである。
【0083】同図では、時刻t〜t' の間にカメラが矢
印で示すように式12に従って移動したとする。フレー
ムtでは点Sが点Pt に、t' では点Pt'にそれぞれ投
影されている。点Sは図中の2つの直線Lt、Lt' の
交点にある。
【0084】ここでカメラの方向とLt、Lt' のなす
角θt、θt' は既知であり、一方カメラの移動方向と
距離が判明しているため、点Sの三次元座標を求めるこ
とが可能となる。この座標により、映像各部位の奥行き
情報が判明する。
【0085】ここで注意すべきは、前述のごとくc=1
という正規化のため、求められた座標も一定の割合で拡
大または圧縮されていることである。しかしこの場合で
も、奥行き情報は一様に拡大圧縮されているため、奥行
きの相互関係は正しい。
【0086】以上が本工程の概要であるが、本工程では
前工程までの誤差を考慮する必要がある。誤差により、
通常は前記Lt、Lt' が計算上交わらないためであ
る。こうした事情に配慮し、本工程では両直線の最接近
点の中点のz座標を点Sの奥行き値と近似する。これを
数式によって説明する。
【0087】上記Lt、Lt' の方向ベクトルをそれぞ
れ(u, v, w)、(u',v',w' )とする。ここで実
数パラメータα、βにより両直線は、 Lt :(x, y, z)+α(u, v, w) Lt' :(x',y',z' )+β(u',v',w' ) (式13) と表すことができる。従って、
【数9】e = {(x+βu)-(x'+ αu')}2 +{(y+ βv)-(y'+
αv')}2+{(z+βw)-(z'+ αw')}2 とし、eを最小にするα、βをde/dα=0、de/
dβ=0より求める。すなわち、
【数10】 (u2 +v2 +w2 ) α-(uu'+vv'+ww')β+(x-x')u+(y-y')v+(z-z')w=0 (u' 2 +v' 2 +w' 2 ) β-(uu'+vv'+ww')α+(x-x')u'+(y-y')v'+(z-z')w'=0 を解いてα、βを求め、最終的に点Sの奥行き値を、
【数11】{(z+αw)+(z'+ βw')}/2 とすればよい。ここで仮に誤差が0だったとすれば、こ
の座標は両直線の交点のz座標に一致する。
【0088】また別の方法として、これら両直線を一旦
フレームtの画面に透視投影し、投影後の最近接点のz
座標を求めることもできる。ここでLtは代表点である
一点に投影され、一方Lt' は一般に直線に投影され
る。Lt' が式13で表記されるならば、投影後の各点
のx、y座標は、Lt' 上の各点のそれらをそのz座標
で割ることにより、 x = f(x'+ βu')/(z'+βw') (式14) y = f(y'+ βv')/(z'+βw') (式15) と書くことができる。ここでfは視点からフレームtの
画面までの距離で、実際にはf=1などとして扱えばよ
い。式14、15からβを消去すれば投影後の直線(以
下Liという)が以下のように求まる。
【0089】kx+my+f n=0 ただしここで、 k=v'z'-w'y' 、m=w'x'-u'z' 、n=u'y'-v'x' とおいている。
【0090】求めるべき最近接点は、代表点PtからL
iに下ろした垂線とLiの交点(以下Dとする)であ
り、その座標は、 x=(m 2 X-kn-kmY)/(k 2 +m2 ) (式16) y=(k 2 Y-mn-kmX)/(k 2 +m2 ) となる。ここで点Tに対応するもとのLt' 上の点をE
(x'',y'',z'' )とすれば、点Eは、式16を式14に
代入してβを求め、これをLt' の式に代入することよ
って求められる。ここでβは、 β=(xz'-fx' )/(fu'-xw') であるため、これを式13へ代入し、点Eのz座標 z''
は、 z'' =z'+ w'(xz'-fx' )/(fu'-xw' ) と求まる。これを点Sの奥行き値とすればよい。
【0091】なお、画像処理の際の誤差によって上記の
奥行きが負の値となる場合(点Sがカメラの後方に存在
することになる場合)、この計算結果は信頼することが
できない。このときは正の奥行き値を持つ近傍の代表点
から補間するなどの処理を行う。
【0092】以上、いずれの方法をとるかは別として、
求められた映像各部位の奥行きは、例えば代表点ごとに
数値として与えればよい。図11はフレームtにおいて
各代表点に数値が与えられた状態を示す図で、例えばP
t (2, 3)、Pt (4, 3)それぞれの奥行きは10
0、200となり、後者の実際の位置は前者よりも2倍
離れたところにあることがわかる。
【0093】[工程4]奥行き情報の利用 工程3で求められた奥行き情報に応じて警備システムを
構築する。一例として、監視カメラおよびPCによるシ
ステムが考えられる。すなわち、人やその他任意の物体
が近寄ることが禁止されている区域に監視カメラを設置
し、この監視カメラで撮影された映像をPCに送って解
析することにより、被写体の奥行きを抽出する。被写体
が近づくことにより、その奥行きが所定の値以下になっ
たとき、PC経由で警告音を発する、警備員に通報す
る、その区域の照明を明るくする、被写体の映像を記録
する、などの処理を行う。
【0094】警備システムには、レーザや超音波を対象
物体に当ててその反射から距離を測定するシステムがあ
るが、その場合レーザ等を振るためのスキャン機構が必
要になる。本実施形態ではそうしたスキャン機構が不要
である。また別の警備システムとして、物体の赤外線を
感知するものもあるが、そのシステムでは熱を発しない
物体を見つけることができない。その意味でも、熱に関
係のない本実施形態は有利である。
【0095】なお、本警備システムでは、例えばある距
離D以内に近づいた物体の画像領域のみを画像全体から
切り出すことも可能である。これは画像全体の中から、
奥行きがD以内である領域を選択すればよい。こうして
切り出した領域を拡大したり、その領域の動きに追従し
て観察するなどの処理も可能である。
【0096】実施形態2.実施形態1では、入力映像が
単眼カメラによって撮影されるものとした。ここでは、
多眼カメラによるステレオ映像を入力映像とする場合を
実施形態1との相違点を中心に説明する。
【0097】図12は実施形態2の主な工程を示す。同
図と実施形態1の図1との主な違いは以下の通りであ
る。
【0098】1.工程1の「動き情報」が「変位情報」
に変更される 実施形態1では異時刻フレームを扱ったが、実施形態2
では基本的に同時刻フレームを扱う。同時刻の場合、被
写体に動きを定義することはできないため、代わりに同
時刻フレーム間の被写体の位置のずれ、すなわち変位の
情報を抽出する。
【0099】2.工程2が不要となる 図1の工程2「三次元動き情報の算出」に対応するステ
ップがない。多眼の場合、はじめから図10の状態で撮
影がなされるため、三角測量の原理によって直接奥行き
情報が獲得できるためである。
【0100】なお、複数カメラの相対位置関係に狂いが
発生しうる多眼カメラシステムを用いる場合、この狂い
を補正するセルフキャリブレーションを行ったほうがよ
い。この場合、工程2をセルフキャリブレーション工程
として利用する。セルフキャリブレーションの手法につ
いては、例えば、富田、高橋「ステレオカメラのセルフ
キャリブレーション」(情報処理Vol.31,No.5(1990)
650 〜659 ページ)、特開平02−138671号公
報、特開平02−138672号公報などに示されてい
る。以下、実施形態2の工程1〜3を説明する。
【0101】[工程1]二次元変位情報の抽出 実施形態1の説明において、「動き」を「変位」に置き
換える他、フレームt、t' の組をフレーム1、2に置
き換えればよい。フレーム1、2はそれぞれステレオカ
メラを構成する左右のカメラ1、2から撮影された映像
を指し、撮影時刻はtで固定とする。実施形態2では、
最低これら2枚のフレームのみから最終画像を得ること
ができる。すなわち多眼撮影の場合は、入力は静止映像
であってもよい。その他、実施形態1の工程1との相違
は以下の通りである。
【0102】(1)実施形態1のS11(対応点候補領
域の設定)では、映像の動きの激しさまたは各部位の移
動軌跡に基づき、異時刻フレームの選択または対応点候
補領域を絞り込んで対応点検出処理の計算量削減を行っ
た。実施形態2では絞り込みの方法を以下のように変更
し、同様に有効な計算量削減を実現する。
【0103】まず、通常どおり多眼カメラが水平に設置
されると仮定する。このとき、対応点のy座標(上下方
向の座標)はほぼ等くなる。この仮定と画像処理に伴う
誤差およびカメラの設置誤差を考慮し、対応点候補領域
を横長の帯状領域に限定する。さらに、フレームt'
(t' =t−1)において対応する代表点の位置の差が
xであれば、フレームtにおける対応点探索領域も、や
はり差がxとなる近傍に限定することができる。
【0104】(2)実施形態1のS12(対応点候補領
域における非類似度の計算)では、映像の動きが緩慢過
ぎる場合に統計処理を導入したが、実施形態2ではこの
作業も不要である。
【0105】(3)実施形態1のS12同様、実施形態
2でも対応点の位置を決めるべくブロックマッチングを
行うが、ここではバイアスド・ブロックマッチングを採
用したほうがよい場合がある。バイアスド・ブロックマ
ッチングは、多眼カメラを構成する各カメラが異なる特
性を持つ場合、有効に機能する。例えば、カメラ2がカ
メラ1よりも青味がかった映像を送出するとすれば、フ
レーム2の色濃度から青(B)の成分を一定量差し引い
た後、すなわち色偏向定数αB を引いた後、ブロックマ
ッチングを行うべきである。こうした処理を行わない場
合、E1とE2を加算する式3の意味が失せる恐れがあ
る。実際には、例えばRGBで色濃度を表す場合、前記
の青(B)のみならず、赤(R)と緑(G)についても
それぞれ色偏向定数αR 、αG を引くべきである。バイ
アスド・ブロックマッチングは、映像の類似性を数値化
する際、2つのカメラの特性を一致させるキャリブレー
ション作用をもつ。バイアスド・ブロックマッチング
は、映像の類似性と相対位置の妥当性を同一ステージで
評価することの適切さを保証する。
【0106】図4および式1を基礎として、バイアスド
・ブロックマッチングを式で説明する。ここでは、実施
形態1で用いたPt (i, j)をフレーム1、2に対応
して単にP1、P2と表記し、It (i, j)も同様に
I1、I2と表記する。このとき式1は、
【数12】 E1= ΣΣ{I1(P1x+u,P1y+v) −I2(P2x+u,P2y+v) }2 (式17) と簡単になる。この式が濃淡画像の場合の通常のブロッ
クマッチングを表す。
【0107】一方、バイアスド・ブロックマッチングで
は、式17を、
【数13】 E1= ΣΣ{I1(P1x+u,P1y+v) −I2(P2x+u,P2y+v) −α}2 (式18) とすればよい。カラー画像の場合、αはαR 、αG また
はαB であり、RGBそれぞれの画像において求めたE
1の和、すなわちE1R +E1G +E1B でマッチング
を行う。さらに見やすさを考えて、I1(P1x+u,P1y+v) を
単にI1、I2(P2x+u,P2y+v) を単にI2と表記すれば、
式18は、 E1= ΣΣ(I1-I2-α)2 (式19) となる。I1、I2はu、vの関数であるが、αは定数
である。
【0108】αの最適値を考える。カメラ1、2は同じ
被写体を撮影しているはずだから、フレーム1、2の映
像は、映像各部位の変位は別として、ほぼ同様の内容を
含む。すなわちカメラの特性が近づくほど、式19のE
1の値は小さくなる。この事実から逆に、αはE1を最
小にする値とすべきことがわかる。式19は、
【数14】 E1=ΣΣ{(I1-I2 )2 −2 α(I1-I2 )+α2 } =ΣΣ(I1-I2 )2 −2 αΣΣ(I1-I2 )+ΣΣα2 (式20) 領域の総画素数をNと仮定すれば、ΣΣ1=Nだから、
式20は、
【数15】 E1=ΣΣ(I1-I2 )2 −2 αΣΣ(I1-I2 )+Nα2 (式21) となる。従って、 dE1/dα=−2ΣΣ(I1-I2 )+2Nα であるから、 α={ΣΣ(I1-I2 )}/N (式22) のとき、E1は最小となる。このαは、ブロックマッチ
ングの対象となる2つの領域間の各画素の色濃度差の平
均値と言い換えられる。式22を式21に代入して計算
すれば、
【数16】 E1=ΣΣ(I1-I2 )2 −{ΣΣ(I1-I2 )}2 /N (式23) となるため、結局バイアスド・ブロックマッチングでは
式23を計算すればよいことになる。式23の採用によ
り、仮にカメラ1と2が完全に同じ被写体を写している
とすれば、E1はほぼ0となる。一方、このとき式2か
らE2もほぼ0となるため、バイアスドブロックマッチ
ングは、映像類似性の判断と、相対位置の妥当性の判断
の原点を一致させる効果がある。以降、実施形態1同様
の処理を経て最良マッチングを探索すればよい。
【0109】ここでは当然ながら、HVC濃度などRG
B濃度以外の色空間による濃度を採用してもよい。2乗
誤差の代わりに1乗誤差、すなわち残差に基づいてブロ
ックマッチングを行ってもよい。なお、式22で与えら
れる補正値αの値がある範囲を超えた場合、バイアスド
・ブロックマッチングを中止してもよい。カメラ1、2
は同じ被写体を写していても、写す角度が違うため、仮
にこれらのカメラの特性が完全に同じであっても、当然
撮影された映像にはある程度の差異がある。これをすべ
て補正してしまうと、不必要にE1の値が小さくなり、
正しい評価ができない場合もありうる。
【0110】なお、バイアスド・ブロックマッチングを
中止した場合、通常のブロックマッチングによる評価値
を映像類似性の評価値としてもよいが、補正が許される
範囲の上限値(これをTとする)の分だけ補正した後の
値を映像類似性の評価値としてもよい。その場合の評価
値は、以下の式で計算される。
【0111】E1=ΣΣ(I1-I2 )2 −{ΣΣ(I1-I2
)}2 /N+Nx2 ただし、x=|ΣΣ(I1−I2)/N|−Tで与えられ
る。
【0112】(4)実施形態1のS13(対応点の初期
位置の決定)では、特徴点として、異時刻フレームt、
t' 、・・・において位置が安定的に変化している点を
選んだが、ここでは選定基準を加重する。
【0113】図13は実施形態2で導入される特徴点の
選定基準を示す図である。同図において、F10〜F1
2の3枚がカメラ1によって撮影された異時刻フレー
ム、F20〜F22の3枚がカメラ2によって撮影され
た異時刻フレームである。それぞれ左右2枚の組が同時
刻フレームを示す。ここではある点Pに注目し、点Pの
位置の異時刻フレーム間の動きをベクトルAnで、点P
の同時刻フレーム間の変位をベクトルBn(n:自然
数)でそれぞれ表している。
【0114】以上の設定の下、実施形態2では、次の基
準を満足する点を特徴点として選定する。
【0115】(a)ベクトルBnがほぼ一定であるか、
ほぼ一定変化するあるいは、この他、 (b)ベクトルAnがほぼ一定であるか、ほぼ一定変化
する の基準も追加し、(a)、(b)をともに満足する点を
特徴点として選定してもよい。
【0116】(b)は実施形態1で導入した条件に相当
する。既述のごとく、多眼撮影では同時刻フレームのみ
から奥行き情報を求めることができる。しかしその前提
となる映像間の対応関係の正確な把握は、これとは別問
題であり、異時刻フレーム間の情報も積極的に利用すべ
きである。上記の2条件を同時に満たす点は、相当正確
に追跡されていると考えられるため、二次元変位情報の
抽出に対して重要な手掛かりを与える。ただし入力が静
止映像の場合は、既知の動的計画法(ダイナミック・プ
ログラミング)によって対応点を求めることもできる。
【0117】[工程2]奥行き情報の獲得 工程1で求められた映像各部位の変位から各部位の奥行
き情報を導出する。多眼の場合、ある時刻tで図10の
状態が実現されるので、以下、実施形態1の工程3の方
法によって奥行き情報を獲得すればよい。
【0118】ここで注意すべきは、撮影カメラの位置関
係が固定であるため、この関係およびカメラの倍率また
は焦点距離が既知であれば、実施形態1で決まらないと
されたスケールファクターcも含め、実施形態2では正
しい奥行き情報が求まる。
【0119】[工程3]奥行き情報の利用 実施形態1の工程4(奥行き情報の利用)と同等の処理
を行えばよい。
【0120】実施形態3.実施形態1、2では抽出した
奥行き情報を利用して警備システムを構築したが、実施
形態3では奥行き情報をコンピュータビジョン技術の一
部に利用する。
【0121】コンピュータビジョンと呼ばれる研究分野
では、ロボットの自動制御を主目的とし、対象の三次元
構造や三次元運動を推定する手法が研究されている。具
体的には、ロボットの自律走行のために、ステレオカメ
ラから物体を撮影したり、または単眼カメラを移動させ
ながら物体を撮影することにより、物体までの距離を正
しく把握する手法などである。この手法のいくつかの観
点については、例えば「1990年画像符号化シンポシ
ジウム(PCSJ90)」の57ページに記載されてい
る。
【0122】コンピュータビジョンにおいて物体までの
距離を把握する際、セグメント・マッチングが行われる
ことが多い。セグメント・マッチングは画像領域間のマ
ッチングをとるという意味ではブロック・マッチングと
共通するが、画像の何らかの特徴領域を対象にマッチン
グをとる点で通常のブロック・マッチングとは異なる。
特徴領域を対象に処理をなすことより、通常のブロック
・マッチングよりも高い精度で物体の三次元位置を特定
するためである。
【0123】図14はエッジセグメントを対象としてセ
グメント・マッチングをとる方法を示す図である。同図
(a)はステレオカメラのうち左カメラから撮影された
映像で、いまエッジ120が探索の対象である。一方、
同図(b)は右カメラの映像で、複数のエッジ122〜
126が存在する。現実の映像の場合、エッジがさらに
多数存在することは容易に想像できる。実際の処理の
際、まず右カメラの映像からエッジをもつ領域を選定
し、これらのそれぞれについて詳細なセグメント・マッ
チングを行う。ロボットの制御の場合、物体の位置認識
には非常に高い精度が要求されるため、セグメント・マ
ッチングに要する時間は一般に非常に長い。
【0124】本実施形態はこの課題の解消を図る。すな
わち、まず実施形態1の工程1〜3を行い、画像各部位
の奥行き情報を得る。この際、エッジなど特徴領域の選
定を行う必要はないため、処理時間は比較的短い。こう
してある程度の精度で奥行きが判明すれば、この奥行き
情報によってセグメント・マッチングによる探索領域を
絞り込むことができる。
【0125】図15は探索領域の絞り込み原理を説明す
る図である。同図(a)に示す左カメラの映像に含まれ
るエッジ130が探索の対象エッジであり、これを同図
(b)の右カメラの映像から探すものとする。エッジ1
30は左カメラの映像の右端からx0の位置にあるとす
る。なお、ここでカメラは平行に設置されているとす
る。
【0126】この前提において、このエッジ130の奥
行きzの値により、エッジ130が右カメラの映像のい
ずれの位置に見えるべきかが、数学的に一意的に決ま
る。例えばzが無限大なら視差がないはずだから、同図
(a)(b)で、カメラ間隔だけ離れた同じ位置、すな
わち映像の右端からx0+l(lは画像上におけるカメ
ラ間隔)の位置に見えることになる。同図(b)ではこ
の位置を直線L1で示している。この位置からzが小さ
くなるに従い、同図(b)においてエッジ130は次第
に左に寄っていく。ここではその様子をz=100、5
0、10という数値を例に、それぞれ直線L2、L3、
L4という位置で模式的に示している。
【0127】一方、こうした数学的な考察とは別に、映
像の各部位の奥行きは実施形態1の工程1〜3で判明し
ている。そこで、実施形態1の方法で得られた奥行きの
分布と図15(b)の分布から、奥行きの一致する位置
を求めれば、この位置がエッジ130に対応するセグメ
ントである確率が高い。図15(b)のある領域132
がz=50の直線L3上にあり、かつその領域の奥行き
が工程1〜3によって50程度の値に求まれば、領域1
32付近にエッジ130の対応領域の存在する可能性が
高い。そこで、この領域132付近に絞って詳細なセグ
メント・マッチングを実施すればよい。
【0128】以上、本実施形態によれば、セグメント・
マッチングの処理時間を大幅に短縮できるのみならず、
よく似たセグメントが多数存在する画像における誤対応
を低減することも可能となる。
【0129】実施形態4.本実施形態では、実施形態
1、2で抽出した奥行き情報をコンピュータシステムの
ユーザインタフェイス、具体的には指示入力に利用す
る。
【0130】周知のごとく、ユーザが指示をコンピュー
タに入力する場合、キーボード、マウス、タッチパネル
などを用いることが多い。こうした入力装置を使わない
ユーザインタフェイスについても研究されているが、従
来は一般に、人の顔や手の形状のモデルをコンピュータ
内に保持し、このモデルと実際のユーザの顔の表情や手
の形とを対比することにより、指示を読み取ろうとする
ものであった。しかし現実には、正確なモデルを持つこ
とが困難であったり、手などのいわゆる「柔らかいモデ
ル」のマッチングは精度や処理時間の面で問題があり、
実用化が困難であった。本実施形態では、奥行き情報を
もとにコンピュータシステムの比較的簡易的なユーザイ
ンタフェイスを実現する。
【0131】図16は本実施形態のシステムの構成とそ
の利用方法を示す模式図である。同図では、ユーザ14
0がPC142に対して指示を行う。PC142の一部
にはユーザ140を撮影するカメラ144が設置されて
いる。この構成にて、ユーザ140は指先146によ
り、上下左右等の簡単な動作を行う。カメラ144から
撮影されたユーザ140の映像についてはPC142内
部で実施形態1または実施形態2の工程1〜3に従い、
奥行き情報が計算される。
【0132】ここで、ユーザの指先146はカメラ14
4から最も近い位置にあるため、奥行きが最小になる映
像部分を選定することにより、指先146を認識するこ
とができる。以降、指先146が動いたとき、奥行きが
最小になる映像部分を追跡することによって指先146
の動きを知ることができる。PC142は、指先146
がある方向に動いたことがわかれば、その方向に画面上
のカーソルを動かす等の処理を行えばよいし、指先14
6が例えば円を描けば「OK」サインとして何らかの処
理を実行すればよい。
【0133】実施形態5.本実施形態では、実施形態
1、2によって抽出された奥行き情報を三次元表示装置
の表示制御に利用する。
【0134】画像の立体表示はいくつかの方法で実現さ
れている。代表的なものに、画面にレンチキュラーレン
ズを重ねた表示装置がある。レンチキュラーレンズは表
面に微細な弧状の凸部が連続的に多数設けられており、
このレンズの屈折作用によって、右目からは右目用画像
を構成する画素のみが、また左目からは左目用画像を構
成する画素のみが見える仕組みになっている。この右目
用および左目用画像には視差がつけられており、立体視
が可能となる。
【0135】レンチキュラーレンズを用いる表示装置の
課題は、観視者の頭の位置が少しでもずれると逆立体視
(逆視ともいう)状態になることである。逆立体視と
は、右目から左目用の画素が、左目から右目用の画素が
それぞれ見える状態である。この問題に対処すべく、ヘ
ッドトラッキング技術が知られている。ヘッドトラッキ
ング技術は、「三次元映像の基礎」(泉武博監修,NH
K放送技術研究所編、オーム社)の154、155ペー
ジに紹介されるように、観視者の頭の動きを赤外線、磁
気、超音波などで検出し、頭の移動に連動させて右目用
の画素と左目用の画素を適宜入れ換えるものである。こ
の他に、表示装置の上部に赤外線センサをおき、観視者
の頭の動きを検出してレンチキュラースクリーンの位置
を機械的に変更する装置がある旨も記載されている。
【0136】しかしながらこれらのヘッドトラッキング
技術では、赤外線、超音波についてはスキャン機構やア
レイ構造が必要となる。磁気的な検出の場合は観視者が
頭にセンサをつけることが必要になる。
【0137】本実施形態のシステムは、こうした課題を
解消するものである。本実施形態では、実施形態4の図
16のごとく、立体表示を行う表示装置にカメラを併設
し、このカメラから観視者を撮影する。このカメラの映
像から観視者の奥行きを含む三次元的な位置が判明する
ため、観視者の位置に適合する表示制御を行う。
【0138】制御方法の例として、観視者の奥行きが小
さいとき、すなわち観視者が表示装置に近い場合は、立
体表示すべき左右画像の視差を全体に少なめに調整し、
観視者から見て表示面(つまり画面位置)よりも向こう
側で被写体が像を結ぶよう配慮する。この逆に、観視者
の奥行きが大きいときは、表示面よりもこちら側に像を
結ぶよう調整したり、被写体間で奥行き感の差が明確に
なるよう、与える視差の範囲を広げる等の措置をとるこ
とができる。
【0139】図17は本システムの構成図である。同図
のごとくこのシステムは、表示装置として左目で見るた
めの左ディスプレイパネル158と右目で見るための右
ディスプレイパネル160を採用する。また、観視者を
撮影するカメラ152と、その映像から観視者の頭の奥
行きを抽出する奥行き抽出部162が設けられている。
【0140】表示すべき画像は入力端子150に与えら
れる。この画像は左目用の画像であり、本システムでは
この画像から画素を変位させて右目用画像を生成する。
画素の変位によって視差が生じ、立体視が可能となる。
入力端子150から入力された画像はバッファメモリ1
54と右目用画像生成部156に並行して入力される。
バッファメモリ154は、右目用画像生成部156によ
る処理遅延を吸収するよう働く。左ディスプレイパネル
158は、バッファメモリ154から出力された画像を
表示し、右ディスプレイパネル160は、右目用画像生
成部156によって変位の与えられた画像を表示する。
【0141】奥行き抽出部162で抽出された観視者の
頭の奥行きは、右目用画像生成部156に入力される。
ここで、この奥行きが小さいときには画素の変位量を小
さくとり、奥行きが大きいときは大きくとる。この結
果、観視者の位置に応じて良好な立体視が実現する。な
お、ここでは右目用画像のみを生成したが、左目用画像
についてももとの画像の画素に変位を加えることで生成
してもよい。
【0142】
【発明の効果】本発明の三次元位置認識利用システムを
警備システムとして用いる場合、赤外線や超音波の反射
を見る警備システムで必要なスキャン機構が不要であ
り、赤外線を感知するセンサと異なり、熱を発しない物
体でも検出することができる。
【0143】本発明の三次元位置認識利用システムをコ
ンピュータビジョンの前処理に用いる場合、セグメント
・マッチングの時間短縮と誤対応の低減が可能になる。
【0144】本発明の三次元位置認識利用システムをコ
ンピュータのユーザインタフェイスに用いる場合、キー
ボードなどの入力装置がいらない。また、表情や手の形
状などをテンプレートまたはモデルとして保持する必要
がない。さらに、表情の認識などに比べて処理時間が短
かい。
【0145】本発明の三次元位置認識利用システムを疑
似立体画像の表示制御に用いる場合、観視者の位置を知
るためのハードウエア構成が簡単になる。
【図面の簡単な説明】
【図1】 実施形態1によって三次元表示画像を生成す
るための主な工程を示す図である。
【図2】 映像フレーム間の対応関係を検出するための
フローチャートである。
【図3】 基準フレームtに代表点を設定する様子を示
す図である。
【図4】 ブロックマッチングの様子を示す図である。
【図5】 仮の対応点Pt'(i, j)ごとにE1の値を
縦方向に示した模式図である。
【図6】 S12ステップの結果求められた対応点と代
表点の関係を示す図である。
【図7】 対応点の相対位置を評価する原理を説明する
図である。
【図8】 図6の対応点候補に対して本ステップの改善
処理を行った結果を示す図である。
【図9】 ある点Pの画面上の移動と三次元空間での移
動の対応を示す図である。
【図10】 カメラの三次元移動とある点Pの画面上の
移動から点Pの三次元座標を導く原理を説明する図であ
る。
【図11】 フレームtにおいて各代表点に数値が与え
られた状態を示す図である。
【図12】 実施形態2の主な工程を示す図である。
【図13】 実施形態2で導入される特徴点の選定基準
を示す図である。
【図14】 エッジセグメントを対象としてセグメント
・マッチングをとる方法を示す図である。
【図15】 実施形態3による探索領域の絞り込み原理
を説明する図である。
【図16】 実施形態4のシステムの構成とその利用方
法を示す模式図である。
【図17】 実施形態5のシステムの構成図である。
【符号の説明】
120,130 探索の対象のエッジ、122〜126
エッジ、132 領域、140 ユーザ、142 P
C、144 カメラ、146 指先、150入力端子、
152 カメラ、154 バッファメモリ、156 右
目用画像生成部、158 左ディスプレイパネル、16
0 右ディスプレイパネル、162奥行き抽出部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 荒川 勉 大阪府守口市京阪本通2丁目5番5号 三 洋電機株式会社内

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 物体の三次元位置を認識して利用するシ
    ステムであって、撮影された物体の奥行きを抽出する抽
    出手段を備え、抽出された奥行きをもとに警備を行うこ
    とを特徴とするシステム。
  2. 【請求項2】 前記システムは、物体が近づいたときに
    所定の処理を行う請求項1に記載のシステム。
  3. 【請求項3】 物体の三次元位置を認識して利用するシ
    ステムであって、撮影された物体の奥行きを抽出する抽
    出手段を備え、抽出された奥行きをもとにコンピュータ
    ビジョン技術におけるセグメント・マッチングのための
    前処理を行うことを特徴とするシステム。
  4. 【請求項4】 前記前処理は、物体の奥行きを利用して
    セグメント・マッチングにおける探索エリアを狭める処
    理である請求項3に記載のシステム。
  5. 【請求項5】 物体の三次元位置を認識して利用するシ
    ステムであって、撮影された物体の奥行きを抽出する抽
    出手段を備え、抽出された奥行きをもとにユーザからの
    指示を認識してこれを受け付けることを特徴とするシス
    テム。
  6. 【請求項6】 撮影された物体のうち最も奥行きの小さ
    な箇所の動きをユーザの指示と判断してこれを受け付け
    る請求項5に記載のシステム。
  7. 【請求項7】 物体の三次元位置を認識して利用するシ
    ステムであって、撮影された物体の奥行きを抽出する抽
    出手段を備え、抽出された奥行きをもとに疑似立体画像
    の表示制御を行うことを特徴とするシステム。
  8. 【請求項8】 撮影された物体の位置に疑似立体画像の
    観視者が存在すると判断し、この位置にて疑似立体画像
    が良好に表示されるよう表示位置制御を行う請求項7に
    記載のシステム。
JP8195081A 1996-07-24 1996-07-24 三次元位置認識利用システム Pending JPH1042273A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8195081A JPH1042273A (ja) 1996-07-24 1996-07-24 三次元位置認識利用システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8195081A JPH1042273A (ja) 1996-07-24 1996-07-24 三次元位置認識利用システム

Publications (1)

Publication Number Publication Date
JPH1042273A true JPH1042273A (ja) 1998-02-13

Family

ID=16335243

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8195081A Pending JPH1042273A (ja) 1996-07-24 1996-07-24 三次元位置認識利用システム

Country Status (1)

Country Link
JP (1) JPH1042273A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002541568A (ja) * 1999-03-31 2002-12-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ シーンの第1の画像から第2の画像への画素ブロックの移動量を検出する方法
KR100492148B1 (ko) * 2002-10-16 2005-06-02 박동윤 이동물체의 거리와 이동방향을 제공하는 인공지능형영상경비 시스템
JP2018004357A (ja) * 2016-06-29 2018-01-11 キヤノン株式会社 情報処理装置、情報処理装置の制御方法およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002541568A (ja) * 1999-03-31 2002-12-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ シーンの第1の画像から第2の画像への画素ブロックの移動量を検出する方法
KR100492148B1 (ko) * 2002-10-16 2005-06-02 박동윤 이동물체의 거리와 이동방향을 제공하는 인공지능형영상경비 시스템
JP2018004357A (ja) * 2016-06-29 2018-01-11 キヤノン株式会社 情報処理装置、情報処理装置の制御方法およびプログラム

Similar Documents

Publication Publication Date Title
US7825948B2 (en) 3D video conferencing
US9305206B2 (en) Method for enhancing depth maps
KR100799990B1 (ko) 2차원 영상의 3차원 영상 변환 장치 및 방법
JPH08331607A (ja) 三次元表示画像生成方法
KR101891201B1 (ko) 전방향 카메라의 깊이 지도 획득 방법 및 장치
Meilland et al. Dense visual mapping of large scale environments for real-time localisation
Wei Converting 2d to 3d: A survey
CN112207821B (zh) 视觉机器人的目标搜寻方法及机器人
US20220148207A1 (en) Processing of depth maps for images
CN109902675B (zh) 物体的位姿获取方法、场景重构的方法和装置
JP3197801B2 (ja) 二次元表示画像生成方法
KR100560464B1 (ko) 관찰자의 시점에 적응적인 다시점 영상 디스플레이 시스템을 구성하는 방법
Pachidis et al. Pseudo-stereo vision system: a detailed study
Shere et al. Temporally consistent 3D human pose estimation using dual 360deg cameras
CN117333659A (zh) 一种基于多目摄像头的多目标检测方法、系统及摄像机
JPH1042273A (ja) 三次元位置認識利用システム
CN111145361A (zh) 一种裸眼3d显示视觉提升方法
JP3253328B2 (ja) 距離動画像入力処理方法
CN111489384A (zh) 基于互视角的遮挡评估方法及装置、设备、系统和介质
Urban et al. Self-localization of a multi-fisheye camera based augmented reality system in textureless 3D building models
EP4303817A1 (en) A method and an apparatus for 360-degree immersive video
Tanaka et al. Dynamically visual learning for people identification with sparsely distributed cameras
JP2001175860A (ja) フィードバック処理のある3次元物体認識装置及び方法並びに記録媒体
Gnanasekera et al. An Enhanced Computer Vision Based Hand Movement Capturing System with Stereo Vision
KR20150031522A (ko) 깊이 정보를 이용한 템플릿 매칭 기반 고속 얼굴 추적 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060228

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060328

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060627