JP6778912B2

JP6778912B2 - 映像表示方法及び映像表示装置

Info

Publication number: JP6778912B2
Application number: JP2016141921A
Authority: JP
Inventors: 哲史吉川; 敏康杉尾; 徹松延; 達也小山
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-02-03
Filing date: 2016-07-19
Publication date: 2020-11-04
Anticipated expiration: 2036-07-19
Also published as: EP3413570A1; EP3413570B1; EP3413570A4; JP2017139725A

Description

本発明は、同一の場面が互いに異なる複数の視点から撮影されることで得られた複数の映像を用いて映像を表示する映像表示方法又は映像表示装置に関する。

映像配信方法として、特許文献１には、多視点映像配信システムにおいて、カメラの撮影条件を制御する技術が開示されている。また、特許文献２には、複数の視点から撮影された映像を視点移動に連動して配信する技術が開示されている。

特開２００２−１６５２００号公報特開２０１２−０９４９９０号公報

このようなシステムでは、より適切に映像を表示できることが望まれている。

そこで、本発明は、適切に映像を表示できる映像表示方法又は映像表示装置を提供することを目的とする。

上記目的を達成するために、本発明の一態様に係る映像表示方法は、同一の場面が互いに異なる複数の視点から撮影されることで得られた複数の第１映像から選択されることで得られた複数の第２映像を取得する第１取得ステップと、前記複数の第２映像に対応する複数の第１視点から一つの第１視点を第１選択視点として選択し、前記複数の第２映像に含まれる、前記第１選択視点に対応する第２映像を表示する第１表示ステップと、互いに異なる複数の視点から、前記複数の第１映像より後に前記場面が撮影されることで得られた複数の第３映像から選択されることで得られた複数の第４映像を取得する第２取得ステップと、前記複数の第４映像に対応する複数の第２視点に前記第１選択視点が含まれるかを判定する判定ステップと、前記複数の第２視点に前記第１選択視点が含まれると判定された場合、前記複数の第４映像に含まれる、前記第１選択視点に対応する第４映像を表示する第２表示ステップと、前記複数の第２視点に前記第１選択視点が含まれないと判定された場合、前記複数の第２視点から一つの第２視点を第２選択視点として選択し、前記複数の第４映像に含まれる、前記第２選択視点に対応する第４映像を表示する第３表示ステップとを含む。

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

本発明は、適切に映像を表示できる映像表示方法又は映像表示装置を提供できる。

実施の形態１に係る映像配信システムの構成を示す図である。実施の形態１に係るサーバのブロック図である。実施の形態１に係るカメラ情報算出処理のフローチャートである。実施の形態１に係る三次元再構成を説明するための図である。実施の形態１に係る映像選択処理のフローチャートである。実施の形態１に係る初期カメラ選択処理のフローチャートである。実施の形態１に係るカメラ切替判定処理のフローチャートである。実施の形態１に係る追跡カメラ切替判定処理のフローチャートである。実施の形態１に係る切替カメラ選択処理のフローチャートである。実施の形態１に係る二次元画像を用いて被写体を追跡する動作を説明するための図である。実施の形態１に係る二次元画像を用いて被写体を追跡する動作を説明するための図である。実施の形態１に係る三次元モデルを用いて被写体を追跡する動作を説明するための図である。実施の形態１に係る二次元画像及び三次元モデルを用いて被写体を追跡する動作を説明するための図である。実施の形態１に係るリセット判定処理のフローチャートである。実施の形態１に係る、イベント会場における空間撮影モードでのカメラ選択を説明するための図である。実施の形態１に係る、イベント会場における空間撮影モードでのカメラ選択を説明するための図である。実施の形態１に係る、イベント会場における追跡撮影モードでのカメラ選択を説明するための図である。実施の形態１に係る、イベント会場における追跡撮影モードでのカメラ選択を説明するための図である。実施の形態１に係る、イベント会場における追跡撮影モードでのカメラ選択を説明するための図である。実施の形態１に係る、監視環境における空間撮影モードでのカメラ選択を説明するための図である。実施の形態１に係る、監視環境における追跡撮影モードでのカメラ選択を説明するための図である。実施の形態１に係る初期カメラ選択処理のフローチャートである。実施の形態１に係るカメラ単体の評価値算出処理のフローチャートである。実施の形態１に係る対象領域の選択例を示す図である。実施の形態１に係る対象被写体の選択例を示す図である。実施の形態１に係るカメラ位置評価値算出処理のフローチャートである。実施の形態１に係る俯瞰モードにおけるカメラ選択例を示す図である。実施の形態１に係る集中モードにおけるカメラ選択例を示す図である。実施の形態１に係るカメラ選択方法のフローチャートである。実施の形態１の変形例に係る三次元モデル情報の一例を示す模式図である。実施の形態１の変形例に係る三次元モデル情報の一例を示す模式図である。実施の形態１の変形例に係る三次元モデル情報の一例を示す模式図である。実施の形態２に係る送信部のブロック図である。実施の形態２に係る送信部における処理を示すフローチャートである。実施の形態２に係る端末装置のブロック図である。実施の形態２に係る端末装置における処理を示すフローチャートである。実施の形態２に係るＵＩデータの一例を示す模式図である。実施の形態２に係るＵＩデータの一例を示す模式図である。実施の形態２に係るＵＩデータ生成処理のフローチャートである。実施の形態２に係るカメラ位置情報更新処理のフローチャートである。実施の形態２に係る選択カメラの消失時の例を示す模式図である。実施の形態２における選択カメラ消失時の処理例を示す模式図である。実施の形態２における選択カメラ消失時の処理例を示す模式図である。実施の形態２における選択カメラ消失時の処理例を示す模式図である。実施の形態２の変形例に係る送信部のブロック図である。実施の形態２の変形例に係る送信部における処理を示すフローチャートである。実施の形態２の変形例に係る端末装置のブロック図である。実施の形態２の変形例に係る端末装置における処理を示すフローチャートである。実施の形態２の変形例に係る端末装置におけるカメラ選択処理の結果を示した模式図である。実施の形態２に係る選択カメラ消失時の処理例を示す模式図である。実施の形態２の変形例に係るシステムの一例を示す図である。実施の形態２の変形例に係る中継装置のブロック図である。実施の形態２の変形例に係る中継装置における処理を示すフローチャートである。実施の形態２に係る映像表示処理を示すフローチャートである。映像情報処理システムの構成を示す図である。カメラ起動時に表示される通知画面の一例を示す図である。コンテンツ配信サービスを実現するコンテンツ供給システムの全体構成図である。デジタル放送用システムの全体構成図である。スマートフォンの一例を示す図である。スマートフォンの構成例を示すブロック図である。

（本発明の基礎となった知見）
映像配信システムとして、例えば、複数のユーザが所有する複数のカメラ（例えばスマートフォン等）で撮影された映像をサーバで保存し、視聴者に配信するシステムが想定される。このようなシステムでは、サーバで保有する映像の数が膨大になるが、視聴者が所有する端末装置が表示可能な映像の数には限りがある。

このような場合、全ての映像を視聴者が確認し、その中から所望の映像を選択することは難しい。また、複数のユーザが所有する複数のカメラの種類（機能）はそれぞれ異なることが想定されるので、これに対応する必要がある。

また、上記のように、サーバにおいて、複数のカメラの映像のうち一部を抽出して端末装置に送信する場合には、サーバから送信される複数の映像に、現在視聴中の視点の映像が含まれなくなる場合がある。このような場合にも適切に映像を表示する必要がある。

本発明の一態様に係る映像表示方法は、同一の場面が互いに異なる複数の視点から撮影されることで得られた複数の第１映像から選択されることで得られた複数の第２映像を取得する第１取得ステップと、前記複数の第２映像に対応する複数の第１視点から一つの第１視点を第１選択視点として選択し、前記複数の第２映像に含まれる、前記第１選択視点に対応する第２映像を表示する第１表示ステップと、互いに異なる複数の視点から、前記複数の第１映像より後に前記場面が撮影されることで得られた複数の第３映像から選択されることで得られた複数の第４映像を取得する第２取得ステップと、前記複数の第４映像に対応する複数の第２視点に前記第１選択視点が含まれるかを判定する判定ステップと、前記複数の第２視点に前記第１選択視点が含まれると判定された場合、前記複数の第４映像に含まれる、前記第１選択視点に対応する第４映像を表示する第２表示ステップと、前記複数の第２視点に前記第１選択視点が含まれないと判定された場合、前記複数の第２視点から一つの第２視点を第２選択視点として選択し、前記複数の第４映像に含まれる、前記第２選択視点に対応する第４映像を表示する第３表示ステップとを含む。

これにより、選択視点の映像を取得できなくなった際も、ユーザに対して映像を途切れさせることなく提示することが可能となる。

例えば、前記第３表示ステップでは、前記複数の第２視点のうち、前記第１選択視点に最も近い第２視点を前記第２選択視点として選択してもよい。

これにより、映像が切り替わった際の視点変化を小さくすることが可能となる。

例えば、前記第３表示ステップでは、前記複数の第２視点の評価値に基づき、評価が最も高い第２視点を前記第２選択視点として選択してもよい。

これにより、選択視点の切替の際に、例えば、送信側がユーザに提示したい視点を選択させることが可能となる。

例えば、前記評価値は、前記複数の第２視点の映像が視聴された回数に基づき決定されてもよい。

これにより、ユーザに対して人気のある視点を自動的に提示することが可能となる。

例えば、前記第１取得ステップでは、さらに、前記複数の第１視点を示す第１視点情報を取得し、前記第１表示ステップでは、さらに、前記複数の第１視点及び前記第１選択視点を表示し、前記第２取得ステップでは、さらに、前記複数の第２視点を示す第２視点情報を取得し、前記第２表示ステップでは、さらに、前記複数の第２視点及び前記第１選択視点を表示し、前記第３表示ステップでは、さらに、前記複数の第２視点及び前記第２選択視点を表示してもよい。

これにより、複数の視点を示す情報及び選択視点を示す情報をユーザに提示できる。

例えば、前記映像情報方法は、さらに、前記複数の第２映像から複数の第５映像を選択する第１選択ステップと、前記複数の第４映像から複数の第６映像を選択する第２選択ステップとを含み、前記第１表示ステップでは、前記複数の第５映像に対応する複数の第３視点から一つの第３視点を前記第１選択視点として選択し、前記複数の第５映像に含まれる、前記第１選択視点に対応する第５映像を表示し、前記判定ステップでは、前記複数の第６映像に対応する複数の第４視点に前記第１選択視点が含まれるかを判定し、前記第２表示ステップでは、前記複数の第４視点に前記第１選択視点が含まれると判定された場合、前記複数の第６映像に含まれる、前記第１選択視点に対応する第６映像を表示し、前記第３表示ステップでは、前記複数の第４視点に前記第１選択視点が含まれないと判定された場合、前記複数の第４視点から一つの第４視点を前記第２選択視点として選択し、前記複数の第６映像に含まれる、前記第２選択視点に対応する第６映像を表示してもよい。

これにより、例えば、サーバは、複数の端末装置に同一の複数の視点の映像を送信し、各端末装置において、当該端末装置のユーザに適した複数の映像を選択できる。よって、ユーザに適した映像を当該ユーザに提示できる。

例えば、前記第３表示ステップでは、前記複数の第４視点に前記第１選択視点が含まれないと判定され、かつ、前記複数の第２視点に前記第１選択視点が含まれる場合、前記複数の第４映像に含まれる、前記第１選択視点に対応する第４映像を表示し、前記複数の第４視点に前記第１選択視点が含まれないと判定され、かつ、前記複数の第２視点に前記第１選択視点が含まれない場合、前記複数の第６映像に含まれる、前記第２選択視点に対応する第６映像を表示してもよい。

これにより、ユーザが望む特定の視点の映像を継続して提示できる。

また、本発明の一態様に係る映像表示装置は、処理回路と、メモリとを備え、前記処理回路は、前記メモリを用いて前記映像表示方法を実行する。

また、本発明の一態様に係るプログラムは、前記映像表示方法をコンピュータに実行させるためのプログラムである。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

（実施の形態１）
（１）本実施の形態に係るカメラ選択方法では、多数のＮ台の母数カメラから、推定したカメラ位置及びカメラ姿勢（撮影方向）に基づき表示アプリケーションなどで表示可能なＭ本の映像を撮影しているカメラを初期選択する。また、当該カメラ選択方法では、初期選択したＭ台のカメラについて、カメラ切替が必要かを判定し、必要な場合は、Ｎ−Ｍ台のカメラから新たなカメラを選択する。

また、当該カメラ選択方法では、選択されているカメラ全体をリセットした場合は、新たに初期選択を行う。

また、母数カメラ台数Ｎ及び初期選択で選ばれたカメラ台数Ｍは随時増減してもよい。

（２）カメラ位置及びカメラ姿勢の推定は、Ｎ本以下の映像を使用する方法、或いはカメラのセンサ情報を使用する方法、又はこの両方を使用する方法がある。

（３）初期選択の方法は、撮影対象空間を死角なく撮影する方法、或いは特定の被写体を複数の方向から撮影する方法、又はこの両方を含む方法がある。

（４）Ｍ本の映像内のシーン、又はカメラの動きを任意の時間間隔毎に確認し、カメラを切替えるかどうか判定する。例えば、切替えるカメラ台数は１台以上Ｍ台以下である。また、１台のカメラを切替える場合、切替え前にカメラが撮影していたシーンに近いシーンを撮影しているカメラを選択する。また、切替え前のカメラ１台に対し、新たに２台以上を選択してもよい。

１より多くＭ台未満のカメラを切替える場合、１台のカメラを切替える場合と同様の選択処理を切替えるカメラそれぞれに対して行う。また、Ｍ台のカメラを切替える場合、初期選択と同じ処理を行う。この時、Ｍの値を増減させてもよい。

これにより、視聴可能な映像の母数が膨大な場合でも、視聴者、サーバ管理者、映像管理者、及び映像監視者に負担をかけることなく、視聴者にとって価値の高い多視点映像コンテンツの配信を実現できる。

まず、本実施の形態に係る映像配信システム１００の構成を説明する。図１は、本実施の形態に係る映像配信システム１００の全体構成を示すブロック図である。この映像配信システム１００は、各々がネットワーク１０４Ａ又は１０４Ｂを介して通信可能な、複数のカメラ１０１と、端末装置１０２と、サーバ１０３とを含む。

複数のカメラ１０１は、異なる視点から同一の場面を同一の時間帯に撮影することで複数の視点映像を生成する。各カメラ１０１は、複数のユーザの各々に携帯される。例えば、複数のカメラ１０１は、スポーツスタジアムのような場所にいる複数の観客に所有される。また、各カメラ１０１は、映像の撮影、及び音声の取得を行う。また、各カメラ１０１は、映像の撮影と同時に、カメラ１０１の位置情報及び姿勢情報（撮影方向）などを示す映像以外のセンサ情報をＧＰＳ、ＷｉＦｉ又はジャイロセンサなどを用いて取得する。カメラ１０１は、少なくとも撮影機能を有する機器であればよく、例えば、デジタルスチルカメラ、デジタルビデオカメラ、スマートフォン、又は携帯端末等である。なお、複数のカメラ１０１には、観客が所有するカメラだけでなく、固定カメラ又は放送用のカメラが含まれてもよい。また、各カメラ１０１は、撮影された視点映像、音声、及びセンサ情報を、ネットワーク１０４Ａを経由してサーバ１０３へ送信する。

また、本実施の形態では、複数のカメラ１０１は、例えば、ユーザに携帯されるデジタルカメラ又はスマートフォン等であり、各カメラ１０１の種類（機能）はそれぞれ異なる場合が想定される。

ネットワーク１０４Ａ及び１０４Ｂは、例えば、インターネットである。なお、図１では、ネットワーク１０４Ａ及び１０４Ｂを個別に記載しているが、単一のネットワークを介して、複数のカメラ１０１と、端末装置１０２と、サーバ１０３とが接続されてもよい。また、機器間の通信の一部又は全ては、ネットワーク１０４Ａ又は１０４Ｂを介さず、直接行われてもよい。また、機器間の接続は、有線接続及び無線接続のどちらであってもよい。

サーバ１０３は、複数のカメラ１０１で撮影された視点映像を一時的に保持する。また、サーバ１０３は、端末装置１０２を介したユーザ１０６からの指示に従って、保持する複数の視点映像の一部をネットワーク１０４Ｂ経由で端末装置１０２に配信する。その際、サーバ１０３は、膨大な数の視点映像の中から、カメラ情報を用いた選択方法により端末装置１０２で再生可能な数の映像を選択する。カメラ情報は、カメラの位置、方向、及び焦点距離を示す。カメラ情報は、予めサーバに登録されている情報、映像と同時に取得されたセンサ情報、映像を処理して算出した情報、又は、センサ情報と映像情報とを用いて算出した情報である。選択方法は、撮影対象空間を死角なく撮影する方法、或いは特定の被写体を複数の方向から撮影する方法、又はその両方である。なお、カメラ情報は、上記情報に加え、画角（ズーム倍率）の情報を含んでもよい。

また、サーバ１０３は、ユーザ１０６の指示、或いは撮影シーン又はカメラの動きの解析結果に従って視点映像の切替等の処理を行う。

端末装置１０２は、ユーザ１０６の指示に従ってサーバ１０３から視点映像を受信し、ユーザ１０６の指示に従った方法にて視点映像をモニタ１０５に出力する。なお、モニタ１０５は、ＰＣモニタ、又は、タブレット端末、スマートフォン、携帯電話或いはノートＰＣのモニタなど、どのような出力デバイスであってもよい。なお、ここでは端末装置１０２とモニタ１０５とを個別に記載しているが、モニタ１０５は端末装置１０２に含まれてもよい。

また、ユーザからの指示は、例えば、画面タッチ操作又はマウスなどにより行われるが、どのような入力デバイスが用いられてもよい。

ユーザの指示は、サーバ１０３へ送信される。ユーザの指示は、サーバ１０３での映像の配信開始、又は視点映像の切替のトリガとして用いられる。また、ユーザの指示に基づきサーバ１０３は映像選択方法を決定する。

なお、音声データは必ずしも全てのカメラ１０１で取得される必要はない。また、映像配信システム１００は、音声のみを取得するマイクを含んでもよい。サーバ１０３は、選択された映像に付加されている音声をそのまま一緒に端末装置１０２に配信してもよいし、対象領域又は対象被写体に最も近いカメラ１０１（又はマイク）で取得された音声を選択してもよいし、取得した中から音質の良い音声を選択してもよいし、複数の音声を音声合成することにより配信する音声を作成してもよい。

なお、複数の視点映像が複数のカメラ１０１からリアルタイムに送信され、当該視点映像を、ユーザ１０６が端末装置１０２を用いてリアルタイムに視聴してもよいし、映像の送信及び視聴の少なくとも一方がリアルタイムに行なわれなくてもよい。つまり、ユーザ１０６は過去に撮影された視点映像を任意のタイミングで視聴してもよい。また、以下で述べる、映像信号（映像）の送信及び受信とは、主に、映像信号が連続的に送信又は受信されるストリーム送信及び受信を意味する。

次に、サーバ１０３の構成を説明する。図２は、サーバ１０３の構成を示すブロック図である。このサーバ１０３は、受信部１１１と、蓄積部１１２と、制御部１１３と、カメラ情報算出部１１４と、初期カメラ選択部１１５と、カメラ切替判定部１１６と、切替カメラ選択部１１７と、リセット判定部１１８と、送信部１１９とを備える。

受信部１１１は、複数のカメラ１０１から送信された視点映像及びセンサ情報を受信する。蓄積部１１２は、受信部１１１で受信された視点映像及びセンサ情報に、送信元のカメラ１０１を識別するＩＤ情報を付与して格納する。センサ情報とは、ＷｉＦｉ、ＧＰＳ、又はジャイロセンサ等から出力される情報であり、カメラ位置及びカメラ姿勢を特定可能な情報である。また、蓄積部１１２は、視点映像及びセンサ情報を用いて、カメラ情報算出部１１４で算出されたカメラ位置及びカメラ姿勢を格納する。

なお、蓄積部１１２は、受信部１１１が受信した視点映像及びセンサ情報をそのまま格納してもよいし、例えば、カメラ情報算出部１１４で三次元再構成処理を行うために、複数の視点映像をそれぞれフレームに分割し、同じ時刻のフレームを１つのセットとして格納してもよい。

制御部１１３は、各処理部の制御を行う。

カメラ情報算出部１１４は、蓄積部１１２から複数の視点映像を取得し、三次元再構成方法により、カメラ位置及びカメラ姿勢を算出する。なお、カメラ情報算出部１１４は、蓄積部１１２からセンサ情報を取得し、当該センサ情報を用いてカメラ位置及びカメラ姿勢を算出してもよいし、視点映像及びセンサ情報の両方を用いてカメラ位置及びカメラ姿勢を算出してもよい。算出されたカメラ位置及びカメラ姿勢は蓄積部１１２に格納される。

初期カメラ選択部１１５は、被写体を撮影している膨大な数のカメラ１０１から、ユーザに提供する視点数の選択カメラを選択する。初期カメラ選択部１１５は、この選択に、カメラ情報算出部１１４で算出されたカメラ位置及びカメラ姿勢を使用する。

カメラ切替判定部１１６は、表示中の映像を撮影しているカメラで撮影対象の空間又は被写体を捉えられているか確認し、捉えられていない場合はカメラを切替えると判定する。

切替カメラ選択部１１７は、カメラ切替判定部１１６によりカメラを切替えると判定された場合、新たなカメラを選択する。切替カメラ選択部１１７は、この選択に、カメラ情報算出部１１４で算出されたカメラ位置及びカメラ姿勢を使用する。また、切替カメラ選択部１１７は、適切なカメラが存在しない場合には、選択カメラの台数を減らす。

リセット判定部１１８は、ユーザ１０６よりリセット指示が出た場合、又は、選択カメラの台数が０或いは閾値以下になった場合、初期カメラ選択を再度行う。

以下、サーバ１０３の動作を説明する。まず、カメラ情報算出部１１４の処理を説明する。図３は、カメラ情報算出部１１４によるカメラ情報算出処理のフローチャートである。

まず、カメラ情報算出部１１４は、入力処理として、複数のカメラ１０１により撮影された視点映像、センサ情報、又はその両方を蓄積部１１２から取得する（Ｓ１０１）。なお、いずれの情報を取得するかは、制御部１１３により指示される。また、カメラ情報算出部１１４は、三次元再構成処理を行うために、複数の視点映像をフレームに分割し、同時刻のフレーム同士の画像セットを作成してもよい。

入力処理により取得された情報が視点映像である場合（Ｓ１０２でＹｅｓ）、カメラ情報算出部１１４は、三次元再構成処理を行う（Ｓ１０３）。具体的には、カメラ情報算出部１１４は、複数の視点映像を用いて各カメラの三次元再構成を行うことで、カメラ位置及びカメラ姿勢を算出する。三次元再構成では、エピポーラ幾何を拘束条件とし、ｘ、ｙ、ｚの３軸からなる三次元座標空間における各カメラの並進ベクトル及び回転行列が算出される。エピポーラ幾何に基づく三次元再構成の具体例については、図４を用いて後ほど詳細に説明する。並進ベクトルＴ及び回転行列Ｒはそれぞれ下記（式１）及び（式２）で表現される。並進ベクトルＴは三次元空間におけるカメラ位置を示し、回転行列Ｒは三次元空間の各軸に対するカメラの傾き、つまりカメラ姿勢を示す。なお、α、β、γはそれぞれカメラをｘ、ｙ、ｚ軸周りに回転させた角度を示す。

入力処理により取得された情報がセンサ情報である場合（Ｓ１０２でＮｏかつＳ１０４でＹｅｓ）、カメラ情報算出部１１４は、ＷｉＦｉ、ＧＰＳ又はジャイロセンサ等のセンサ情報を用いてカメラ位置及びカメラ姿勢を算出する（Ｓ１０５）。例えば、カメラ情報算出部１１４は、三次元座標空間を設定し、三次元座標空間におけるカメラ位置の座標及び三次元座標空間の各軸に対するカメラの傾き、つまりカメラ姿勢を算出する。

次に、カメラ情報算出部１１４は、ステップＳ１０３又はＳ１０５で算出したカメラ位置及びカメラ姿勢は蓄積部１１２に格納する（Ｓ１０６）。

また、ステップＳ１０１〜Ｓ１０６の一連の処理が、所定の時間間隔で繰り返し実行される。

なお、映像入力の判定（Ｓ１０２）とセンサ情報入力の判定（Ｓ１０４）の処理順は、この順序に限定されず、逆の順序であってもよし、一部又は全てが並列に行われてもよい。

以下、図４を用いて三次元再構成の原理を説明する。

例えば、三次元再構成では、エピポーラ幾何を拘束条件として、世界座標系におけるカメラの座標及び姿勢が算出される。さらに、カメラにより撮影された画像上の点の世界座標系における三次元位置が算出される。

ここで、図４に示す０は、世界座標系の原点であり、Ｔ_１、Ｔ_２、Ｔ_３は、世界座標系におけるカメラ１、カメラ２、カメラ３のカメラ座標であり、Ｒ_１、Ｒ_２、Ｒ_３は、世界座標系に対するカメラ１、カメラ２、カメラ３のカメラ座標系の傾きであり、Ｍは被写体上の点であり、ｍ_１、ｍ_２、ｍ_３は、カメラ１、カメラ２、カメラ３で撮影された画像１、画像２、画像３に写った被写体上の点Ｍの位置である。

各カメラの位置及び撮影方向を取得するには、世界座標系におけるカメラの回転行列及び並進ベクトルを算出する必要がある。まず、画像１と画像２との回転行列及び並進ベクトルを算出する方法を述べる。画像１上の点ｍ_１＝（ｕ_１、ｖ_１、１）と画像２上の点ｍ_２＝（ｕ_２、ｖ_２、１）とが対応している時、両者にはエピポーラ方程式ｍ_１ ^ＴＦｍ_２＝０の関係が成り立つ。ここでＦをＦｕｎｄａｍｅｎｔａｌｍａｔｒｉｘ（Ｆ行列）と呼ぶ。

各カメラの内部パラメータＫを用いた変換式である（式３）によりそれぞれの点を各カメラ座標系の点である（式４）及び（式５）として取得でき、エピポーラ方程式が（式６）のにように書き換えられる。

ここで、ＥをＥｓｓｅｎｔｉａｌｍａｔｒｉｘ（Ｅ行列）と呼ぶ。また、複数の対応点を用いてＥ行列の各要素を算出できる。また、画像間の点ｍ_１及びｍ_２のような対応点を複数用いてＦ行列の各要素を算出した後、変換式ＥＫ^−１ＦＫによりＥ行列を取得してもよい。このＥ行列を分解することにより、世界座標系において画像１から画像２への回転行列及び並進ベクトルを取得できる。

世界座標系におけるカメラ１の位置及び世界座標系の各軸に対するカメラ１の傾きが既知の場合は、上記相対関係を用いて、世界座標系におけるカメラ１及びカメラ２の位置及び姿勢を取得できる。世界座標系におけるカメラ１の位置及び姿勢は、映像以外のセンサ情報から算出してもよし、予め計測しておいてもよい。なお、カメラ１のカメラ座標系を世界座標系として、他のカメラの位置及び姿勢を算出してもよい。

また、画像１と画像２との回転行列及び並進ベクトルを用いて形成される三角形により世界座標系上の三次元点Ｍを取得できる。

また、本実施の形態では、上記の幾何学的関係を３視点以上に拡張する。画像１と画像２に対し画像３を追加する例として具体的には、画像２と画像３、及び画像１と画像３についてもそれぞれＥ行列を算出し、各カメラ間の相対的な回転行列及び並進ベクトルを取得し、これらを統合することにより、画像３のカメラの世界座標系における回転行列及び並進ベクトルを算出できる。また、画像３と画像１及び画像２とのそれぞれで対応点から画像３の回転行列及び並進ベクトルを算出してもよい。詳細には、画像１と画像３、及び画像２と画像３で対応点を求める。ここで、画像１上のｍ_１及び画像２上のｍ_２に対応する画像３上のｍ_３が得られた場合、この対応点の三次元座標Ｍは取得できているため、画像３上の点と三次元空間内の座標との対応を取得できる。この時、下記（式７）の関係が成り立つ。

ここでＰをＰｅｒｓｐｅｃｔｉｖｅｍａｔｒｉｘ（Ｐ行列）と呼ぶ。Ｐ行列、Ｅ行列及び内部行列には、Ｐ＝ＫＥという関係が成り立つため、画像３のＥ行列を取得できる。これにより回転行列及び並進ベクトルが求められる。

以下、サーバ１０３による映像選択処理について説明する。図５は、サーバ１０３による映像選択処理のフローチャートである。

まず、初期カメラ選択部１１５は、初期カメラ選択処理を行う（Ｓ１１１）。具体的には、初期カメラ選択部１１５は、被写体を撮影している膨大な数のカメラ１０１から、ユーザに提供する任意の数のカメラを選択する。初期カメラ選択部１１５は、この選択に、カメラ情報算出部１１４で算出されたカメラ位置及びカメラ姿勢を使用する。

次に、カメラ切替判定部１１６は、カメラ切替判定処理を行う（Ｓ１１２）。具体的には、カメラ切替判定部１１６は、表示中の映像を撮影しているカメラで撮影対象の空間又は被写体を捉えられているか確認し、捉えられていない場合、カメラを切替えると判定する。

ステップＳ１１２においてカメラを切替えると判定された場合（Ｓ１１３でＹｅｓ）、切替カメラ選択部１１７は、新たなカメラを選択する切替カメラ選択処理を行う（Ｓ１１４）。具体的には、カメラ切替判定部１１６は、この選択に、カメラ情報算出部１１４で算出されたカメラ位置及びカメラ姿勢を使用する。

なお、適切なカメラが存在しない場合、切替カメラ選択部１１７は、選択するカメラの台数を減らしてもよい。また、切替前のカメラ１台に対し、適切なカメラが複数存在する場合は、切替カメラ選択部１１７は、選択するカメラの台数を増やしてもよい。

次に、リセット判定部１１８は、リセット判定処理を行う（Ｓ１１５）。具体的には、リセット判定部１１８は、ユーザよりリセット指示が出た場合、又は、選択するカメラの台数が０或いは閾値以下になった場合、現在選択されている全てのカメラをリセットすると判定する。

ステップＳ１１５においてリセットすると判定された場合（Ｓ１１６でＹｅｓ）、新たに初期カメラ選択が行われる（Ｓ１１１）。なお、このとき、初期カメラ選択部１１５は、新たに初期選択するカメラの台数を現在の選択カメラの台数から増加又は減少させてもよい。

また、ステップＳ１１２〜Ｓ１１６の一連の処理が、所定の時間間隔で繰り返し実行される。

以下、初期カメラ選択部１１５による初期カメラ選択処理（図５のＳ１１１）について説明する。図６は、初期映像選択処理（Ｓ１１１）のフローチャートである。

本実施の形態では、撮影モードとして、空間撮影モード、追跡撮影モード、及びハイブリッド撮影モードの３つの撮影モードが存在する。なお、３つの撮影モードの全てが用いられる必要はなく、一つ又は二つの撮影モードのみが用いられてもよい。

これの撮影モードの選択は、制御部１１３によって制御される。具体的には、制御部１１３は、ユーザの指定、イベントの発生、追跡対象の自動検知、又は選択カメラ台数に基づき、撮影モードを選択する。

空間撮影モードとは、指定された実空間中の領域である対象領域を撮影するためにカメラを選択するモードである。追跡撮影モードとは、指定された実空間中の動いている人物又は物体などのオブジェクトである対象被写体を追跡撮影するためにカメラを選択するモードである。ハイブリッド撮影モードは、空間撮影モード及び追跡撮影モードの両方を組み合わせたモードである。

撮影モードが空間撮影モードである場合（Ｓ１２１でＹｅｓ）、初期カメラ選択部１１５は、ユーザの指定した映像上の領域に対応する三次元領域、又はシーン解析により重要と判定した三次元領域である対象領域を最も多く含んでいる映像を撮影している１台のカメラをメインカメラとして選択する（Ｓ１２２）。また、このカメラを空間メインカメラとも呼ぶ。

また、初期カメラ選択部１１５は、三次元再構成を行った場合、映像上の領域と三次元位置の対応付けに三次元モデルを使用する。また、初期カメラ選択部１１５は、シーン解析では、撮影対象空間の中心、又は撮影対象空間への出入口を重要と判定する。

次に、初期カメラ選択部１１５は、メインカメラを基準として撮影対象空間を均等な間隔、又は死角なく撮影するように複数のサブカメラを選択する（Ｓ１２３）。これらのカメラを空間サブカメラとも呼ぶ。

一方、撮影モードが追跡撮影モードである場合（Ｓ１２４でＹｅｓ）、初期カメラ選択部１１５は、ユーザの指定した１つの被写体、又はシーン解析により重要と判定した１つの被写体である対象被写体を最も多く含んでいる映像を撮影している１台のカメラをメインカメラとして選択する（Ｓ１２５）。このカメラを追跡メインカメラとも呼ぶ。なお、初期カメラ選択部１１５は、対象被写体が複数ある場合は、１つの対象被写体に対し１台のメインカメラを選択する。

また、初期カメラ選択部１１５は、シーン解析では、異常行動している人物、又は試合で最も注目されている人物等を重要と判定する。

なお、初期カメラ選択部１１５は、対象被写体が最も多く含んでいることを基準とする代わりに、対象被写体を最も正面から撮影していることを基準としてもよい。

次に、初期カメラ選択部１１５は、メインカメラを基準として被写体を均等な間隔で取り囲むように複数のサブカメラを選択する（Ｓ１２６）。これらのカメラを追跡サブカメラとも呼ぶ。

一方、撮影モードがハイブリッド撮影モードである場合（Ｓ１２１でＮｏかつＳ１２４でＮｏ）、初期カメラ選択部１１５は、空間撮影モードのメインカメラの選択と同様の方法で空間メインカメラを１台選択し、対象撮影モードのメインカメラ選択と同様の方法で追跡メインカメラを１台選択する（Ｓ１２７）。

次に、初期カメラ選択部１１５は、サブカメラの台数を任意の割合で空間撮影モードと対象撮影モードに割当てる。そして、初期カメラ選択部１１５は、空間撮影モードと同じ方法で空間サブカメラを選択し、追跡撮影モードと同じ方法で追跡サブカメラを選択する（Ｓ１２８）。

なお、空間撮影モードの確認（Ｓ１２１）と追跡撮影モードの確認（Ｓ１２４）との順序は、この順序に限らず、逆の順序であってもよし、一部又は全てが並列に行われてもよい。

以下、カメラ切替判定部１１６によるカメラ切替判定処理（図５のＳ１１２）について説明する。図７は、カメラ切替判定処理（Ｓ１１２）のフローチャートである。

カメラ切替判定部１１６は、初期カメラ選択処理で選択された複数のカメラの各々に対してステップＳ１３１〜Ｓ１３３の処理を行う。

まず、カメラ切替判定部１１６は、処理対象のカメラ（以下、対象カメラと記す）が空間カメラ（空間メインカメラ又は空間サブカメラ）であるかを判定する（Ｓ１３１）。

対象カメラが空間カメラである場合（Ｓ１３１でＹｅｓ）、カメラ切替判定部１１６は、対象カメラが動くことにより指定された撮影領域がフレームアウトした場合、切替が必要と判定する（Ｓ１３２）。具体的には、カメラ切替判定部１１６は、カメラ位置の移動量及び撮影方向の回転量が、カメラの視野角に応じて事前に設定された、カメラ位置の移動量及び撮影方向の回転量の閾値を超えた場合、撮影領域がフレームアウトしたと判定する。

一方、対象カメラが追跡カメラ（追跡メインカメラ又は追跡サブカメラ）である場合（Ｓ１３１でＮｏ）、カメラ切替判定部１１６は、追跡カメラ切替判定処理を行う（Ｓ１３３）。例えば、カメラ切替判定部１１６は、カメラ情報取得処理において三次元再構成を行った場合は三次元モデルを使用して追跡を行う。

以下、追跡カメラ切替判定処理（図７のＳ１３３）について説明する。図８は、追跡カメラ切替判定処理（Ｓ１３３）のフローチャートである。

まず、カメラ切替判定部１１６は、二次元画像上で追跡を行うか、三次元モデル内で追跡を行うかを判定する（Ｓ１４１）。具体的には、カメラ切替判定部１１６は、三次元再構成を行わない場合は、二次元画像上で追跡を行うと判定する。また、カメラ切替判定部１１６は、三次元再構成を行う場合は、サーバの許容負荷、要求追跡精度、又はユーザ指定に基づき、二次元画像上で追跡を行うか、三次元モデル内で追跡を行うかを選択する。

なお、カメラ切替判定部１１６は、二次元画像上で追跡を行う処理と、三次元モデル内で追跡を行う処理とを選択的に行うのではなく、どちらか一方のみを行ってもよい。

二次元画像上で追跡を行う場合（Ｓ１４１でＹｅｓ）、カメラ切替判定部１１６は、シーン解析により指定された又はユーザにより指定された、画像中の対象被写体を選択中の追跡カメラが撮影している時系列画像のみを使用した対象被写体の追跡を開始する（Ｓ１４２）。

カメラ切替判定部１１６は、撮影フレームレート間隔で、現在のフレームと過去のフレームとの間で同一の被写体を対応付ける（Ｓ１４３）。

追跡が成功した場合（Ｓ１４４でＹｅｓ）、つまり、被写体の対応付けが成功した場合、カメラ切替判定部１１６は、次のフレームに対してステップＳ１４３以降の処理を行う。一方、追跡が失敗した場合（Ｓ１４４でＮｏ）、つまり、被写体の対応付けが失敗した場合、カメラ切替判定部１１６は、選択中のカメラでは対象被写体を追跡できなくなったと判定し、カメラ切替が必要と判定する（Ｓ１４５）。

一方、三次元モデル内で追跡を行う場合（Ｓ１４１でＮｏ）、カメラ切替判定部１１６は、対象被写体を三次元モデルに対応付け、三次元モデル内での対象被写体の追跡を開始する（Ｓ１４６）。

カメラ切替判定部１１６は、撮影フレームレート間隔で、現在の三次元モデルと過去の三次元モデルとで同一の被写体を対応付ける。そして、カメラ切替判定部１１６は、対応付けられた被写体を選択中の追跡カメラの現時刻のフレームへ投影する（Ｓ１４７）。

追跡が成功した場合、つまり、フレーム間での三次元モデルの対応付けが完了し、かつ、投影により得られた現時刻のフレーム内に対象被写体が含まれる場合（Ｓ１４８でＹｅｓ）、カメラ切替判定部１１６は、次のフレームに対してステップＳ１４７以降の処理を行う。一方、追跡が失敗した場合（Ｓ１４８でＮｏ）、つまり、フレーム間での三次元モデルの対応付けが失敗した場合、又は、投影により得られた現時刻のフレーム内に対象被写体が含まれない場合、カメラ切替判定部１１６は、選択中のカメラでは対象被写体を追跡できなくなったと判定し、カメラ切替が必要と判定する（Ｓ１４５）。

また、追跡カメラ切替判定処理及び追跡カメラの切替カメラ選択処理は、二次元画像のみで被写体を追跡するケースと三次元モデルのみで被写体を追跡するケースとこれらの両方を用いるケースとの３つがある。各ケースの詳細は図１０〜図１２で説明する。

以下、切替カメラ選択処理（図５のＳ１１４）について説明する。図９は、切替カメラ選択処理（Ｓ１１４）のフローチャートである。

切替が必要と判定されたカメラの各々に対して、図９に示すステップＳ１５１〜Ｓ１５７の処理が行われる。

対象カメラが空間カメラである場合（Ｓ１５１でＹｅｓ）、切替カメラ選択部１１７は、任意に設定された範囲にある複数台の候補カメラから、カメラ位置、カメラ姿勢、及び焦点距離が、切替前の空間カメラの初期映像選択時のカメラ位置、カメラ姿勢、及び焦点距離に最も近いカメラを新たな空間カメラとして選択する（Ｓ１５２）。

具体的には、下記評価式（式８）が用いられる。

ｓｃｏｒｅ＝ｗ１＊（ｐｏｓ（ｃＡ）−ｐｏｓ（ｃＢ））＾２
＋ｗ２＊（ｄｉｒ（ｃＡ）−ｄｉｒ（ｃＢ））＾２
＋ｗ３＊（ｆｏｒ（ｃＡ）−ｆｏｒ（ｃＢ））＾２・・・（式８）

ここで、ｗ１、ｗ２及びｗ３は重み係数であり、ｐｏｓ（ｃｋ）はカメラｋのカメラ位置を示し、ｄｉｒ（ｃｋ）はカメラｋのカメラ姿勢を示し、ｆｏｒ（ｃｋ）はカメラｋの焦点距離を示し、ｃＡは切替前の空間カメラを示し、ｃＢは候補カメラを示す。

上記の評価式を使用する場合、切替カメラ選択部１１７は、複数台の候補カメラの中で最もｓｃｏｒｅの小さな１台を新たな空間カメラとして選択する。

一方、対象カメラが追跡カメラである場合（Ｓ１５１でＮｏ）、切替カメラ選択部１１７は、二次元画像のみを用いて切替カメラの選択を行うか、三次元モデルを用いて切替カメラの選択を行うかを判定する（Ｓ１５３）。なお、この判定の手法は、例えば、上述したステップＳ１４１と同様である。

切替カメラ選択部１１７は、二次元画像のみを用いて切替カメラを選択する場合（Ｓ１５３でＹｅｓ）、カメラ切替判定部１１６で追跡した被写体がフレームから消失した時の位置を推定する。そして、切替カメラ選択部１１７は、その推定位置を撮影しているカメラのうち、被写体が最も中心に存在、又は被写体が最も大きく映っているカメラを選択する（Ｓ１５４）。

一方、切替カメラ選択部１１７は、三次元モデルを用いて切替カメラを選択する場合（Ｓ１５３でＮｏ）、カメラ切替判定処理において、二次元画像上で被写体の追跡を行ったか、三次元モデル上で被写体の追跡を行ったかを判定する（Ｓ１５５）。

二次元画像上で被写体の追跡を行った場合（Ｓ１５５でＹｅｓ）、切替カメラ選択部１１７は、カメラ切替判定部１１６で追跡した被写体が消失した１つ前のフレームの被写体の三次元モデルを算出する。そして、切替カメラ選択部１１７は、その三次元モデルを撮影しているカメラのうち、被写体が最も中心に存在、又は被写体が最も大きく映っているカメラを選択する（Ｓ１５６）。

一方、三次元モデル上で被写体の追跡を行った場合（Ｓ１５５でＮｏ）、切替カメラ選択部１１７は、カメラ切替判定部１１６で追跡した被写体を撮影しているカメラのうち、被写体が最も中心に存在、又は被写体が最も大きく映っているカメラを選択する（Ｓ１５７）。

なお、いずれの切替方法においても、切替カメラ選択部１１７は、切替に適したカメラが存在しない場合は、切替を行わず、選択するカメラ台数を減らしてもよいし、切替えに適したカメラが複数存在する場合は、１台のカメラを複数のカメラに増やしてもよい。

なお、カメラの撮影モードの確認（Ｓ１５１）、切替方法の確認（Ｓ１５３）、及び追跡方法の確認（Ｓ１５５）の処理順は、この順序に限定されず、任意の順序であってよい。また、一部又は全てが並列に行われてもよい。

以下、追跡カメラ切替判定処理及び切替カメラ選択処理において、二次元画像のみを用いて被写体を追跡する動作を詳細に説明する。図１０及び図１１は、この動作を説明するための図である。

図１０は、追跡カメラで時刻ｔ、ｔ＋１及びｔ＋２に撮影されたフレーム２０１Ａ、２０１Ｂ及び２０１Ｃを示す図である。

まず、カメラ切替判定部１１６は、時刻ｔ＋１において、時刻ｔ＋１のフレーム２０１Ｂと時刻ｔのフレーム２０１Ａとの間の対応付けにより被写体２０２を追跡する。なお、この対応付けは、連続するフレーム間で行う必要はなく、１以上のフレームを跨いだ２つのフレーム間で行われてもよいし、未来の例えば、時刻ｔ＋２のフレームも含めた３以上のフレーム間で行われてもよい。

具体的には、カメラ切替判定部１１６は、この対応付けを、被写体を囲む矩形領域のテンプレートマッチングを用いて行う。なお、カメラ切替判定部１１６は、矩形領域を分割したサブ領域毎のテンプレートマッチングの結果を統合し、統合された結果を用いて対応付けを行ってもよいし、被写体上の複数の特徴点又は局所特徴量の対応付けにより、フレーム間の対応付けを行ってもよい。

また、カメラ切替判定部１１６は、被写体領域を正解領域とし、その周辺領域を非正解領域としたオンライン学習を行うことによる追跡を行ってもよい。

また、カメラ切替判定部１１６は、被写体の追跡を選択中のカメラ１台のみを用いて行うのではなく、選択中のカメラを含む複数のカメラを用いて行い、複数のカメラの追跡結果を統合し、統合結果を用いて追跡を行ってもよい。例えば、カメラ切替判定部１１６は、予め複数視点から撮影された被写体を学習したデータベースを用いて特定物体識別を行うことで、各カメラの映像における同一被写体を認識する。

また、時刻ｔ＋２において、被写体２０２が追跡カメラからフレームアウトする。図１１は、時刻ｔ＋２における実空間の状況を示す図である。カメラ１０１Ａは、選択中の追跡カメラであり、領域２０３Ａを撮影している。

時刻ｔ＋２で被写体２０２がフレームアウトしたため、カメラ切替判定部１１６はカメラの切替が必要であると判定する。

また、切替カメラ選択部１１７は、カメラ情報算出部１１４で算出した選択中の追跡カメラの位置、姿勢及び焦点距離から画像の視野に映る領域２０３Ａを算出する。そして、切替カメラ選択部１１７は、フレームアウトした被写体２０２がこの領域２０３Ａの右側付近にいると推定する。

切替カメラ選択部１１７は、領域２０３Ａの右側付近を撮影している複数のカメラのうち、被写体２０２を最も中心に撮影している、又は被写体の面積が最も大きい映像を撮影しているカメラ１０１Ｂを新たな追跡カメラとして選択する。この例では、カメラ１０１Ｂは、被写体２０２を含む領域２０３Ｂを撮影している。

ここで、追跡を続行するためには、カメラ１０１Ｂで撮影された画像内で被写体２０２を特定する必要がある。例えば、切替カメラ選択部１１７は、カメラ１０１Ａの時刻ｔ＋１のフレームとカメラ１０１Ｂの時刻ｔ＋２のフレームとの間で対応付けを行う。例えば、この対応付けには、カメラ１０１Ａのフレーム間で実施した追跡方法と同様の方法を用いる。

なお、２つのカメラ１０１Ａと１０１Ｂとの間の視野の違いを補正するために、切替カメラ選択部１１７は、さらにカメラ位置、姿勢及び焦点距離などのカメラ情報を用いて、射影変換したフレームを用いて追跡を行ってもよい。

また、カメラ切替は、被写体がフレームアウトした場合に限らず、被写体が選択中の追跡カメラの撮影領域内に存在しているが、オクルージョンによりフレームから消失した場合にも行われる。

また、切替カメラ選択部１１７は、必ずしも被写体がフレームから消失して即座にカメラを切替える必要はなく、消失中も被写体の動きを推定し続け、再びフレーム内に出現するのを待ってもよい。つまり、切替カメラ選択部１１７は、予め定められた期間（複数フレーム）の間、被写体がフレーム内に含まれない場合にカメラ切替を行ってもよい。

以下、追跡カメラ切替判定処理及び切替カメラ選択処理において、三次元モデルのみを用いて被写体を追跡する動作を詳細に説明する。図１２は、この動作を説明するための図である。

まず、時刻ｔにおいて、画像（フレーム２０１Ａ）上において追跡対象の被写体２０２が指定された場合、画像上の被写体２０２を三次元モデル内で特定する必要がある。

カメラ切替判定部１１６は、カメラ情報算出部１１４において算出された、選択中の追跡カメラの位置、姿勢及び焦点距離を用いて、画像と三次元空間との透視投影行列を算出する。カメラ切替判定部１１６は、この透視投影行列を用いて、画像内の被写体２０２上の特徴点を三次元空間へ投影することにより、三次元モデル内での被写体２０２を特定する。

時刻ｔ＋１においては、カメラ切替判定部１１６は、時刻ｔ＋１の三次元モデルと時刻ｔの三次元モデルとの間の対応付けにより被写体２０２を追跡する。なお、対応付けは連続する時刻の三次元モデル間で行う必要はなく、１以上の時刻（フレーム）を跨いだ２つの時刻の三次元モデル間で行われてもよいし、未来の例えば、時刻ｔ＋２の三次元モデルも含めた３以上の時刻の三次元モデル間で行われてもよい。

具体的には、カメラ切替判定部１１６は、対応付けを、被写体を囲むボクセルのマッチングを用いて行う。なお、カメラ切替判定部１１６は、ボクセルを分割したサブボクセル毎のマッチング結果を統合し、統合された結果を用いて対応付けを行ってもよいし、被写体上の複数の三次元特徴点又は三次元局所特徴量の対応付けにより、被写体の対応付けを行ってもよい。

また、カメラ切替判定部１１６は、追跡中において、各時刻の三次元モデル中の被写体２０２を各時刻の画像平面へ投影し、得られた画像を用いて被写体２０２がカメラの視野内に存在するか確認する。具体的には、カメラ切替判定部１１６は、この投影を、時刻ｔでの画像と三次元モデルとの対応付けと同様の方法で行う。

時刻ｔ＋２において、被写体２０２が追跡カメラからフレームアウトする。切替カメラ選択部１１７は、新たな追跡カメラを選択するために、被写体２０２の三次元モデルを各カメラの画像平面へ投影する。切替カメラ選択部１１７は、この投影を、時刻ｔでの画像と三次元モデルとの対応付けと同様の方法で行う。

そして、切替カメラ選択部１１７は、投影された被写体２０２が最も中心にある、又は被写体の面積が最も大きな画像を撮影したカメラ１０１を選択する。

なお、図１０及び図１１で説明した二次元画像を用いる場合と同様に、カメラ切替は、被写体がフレームアウトした場合に限らず、被写体が選択中の追跡カメラの撮影領域内に存在しているが、オクルージョンによりフレームから消失した場合にも行われる。

また、切替カメラ選択部１１７は、必ずしも被写体がフレームから消失して即座にカメラを切替えることはなく、消失中も被写体の動きを推定し続け、再びフレーム内に出現するのを待ってもよい。

以下、追跡カメラ切替判定処理及び切替カメラ選択処理において、二次元画像及び三次元モデルの両方を用いて被写体を追跡する動作を詳細に説明する。図１３は、この場合の動作を説明するための図である。

時刻ｔにおいては、カメラ切替判定部１１６は、図１０で説明した二次元画像を用いる場合と同様の方法により被写体２０２の追跡を行う。

時刻ｔ＋２では追跡カメラが被写体２０２を見失っているため、切替カメラ選択部１１７は、被写体２０２の追跡に成功できている中で最新の時刻ｔ＋１のフレーム２０１Ｂと時刻ｔ＋１の三次元モデルとを用いて、新たな追跡カメラを選択する。

カメラ切替判定部１１６は、時刻ｔ＋１のフレーム２０１Ｂ中の被写体２０２と時刻ｔ＋１の三次元モデル中の被写体２０２との対応付けを、図１０で説明した二次元画像を用いる場合と同様の方法により行う。また、切替カメラ選択部１１７は、三次元モデルを用いた新たな追跡カメラの選択を、図１２と同様の方法により行う。カメラ切替判定部１１６は、ここで選択された新たな追跡カメラの撮影する時系列画像を用いて、図１０及び図１１と同じ方法により被写体２０２の追跡を継続する。

なお、図１０〜図１２と同様に、カメラ切替は、被写体がフレームアウトした場合に限らず、被写体が選択中の追跡カメラの撮影領域内に存在しているが、オクルージョンによりフレームから消失した場合にも行われる。

なお、図１２及び図１３においては、カメラ情報算出部１１４は、カメラ位置、姿勢、及び焦点距離の算出のみを行い、カメラ切替判定部１１６により被写体２０２の三次元モデルの再構成が行われてもよい。その場合、カメラ切替判定部１１６は、母数となる全てのカメラ１０１の映像を使用してもよいし、被写体２０２を映している映像のみ使用してもよいし、選択中の追跡カメラ及びその近傍のカメラの映像のみを使用してもよい。

なお、図８及び図１０〜図１３の追跡カメラ切替判定処理の被写体追跡においては、カメラ切替判定部１１６は、ユーザに表示する選択カメラとは独立して、母数カメラの中から追跡に適したものを選択し、それらを用いて追跡を行ってもよい。

以下、リセット判定処理（図５のＳ１１５）について説明する。図１４は、リセット判定処理（Ｓ１１５）のフローチャートである。

撮影モードが空間撮影モードである場合（Ｓ１６１でＹｅｓ）、リセット判定部１１８は、下記の４つの条件のうち１つでも満たされる場合にカメラ選択のリセットが必要と判定する（Ｓ１６２）。（１）ユーザにより別の撮影モードへの切替が指定された。（２）ユーザにより別の対象領域が指定された。（３）シーン解析により別の重要領域（対象領域）が指定された。（４）空間カメラの台数が０台或いは下限台数以下、又は上限台数以上である。

撮影モードが追跡撮影モードである場合（Ｓ１６３でＹｅｓ）、リセット判定部１１８は、下記４つの条件のうち１つでも満たされる場合にカメラ選択のリセットが必要と判定する（Ｓ１６４）。（１）ユーザにより別の撮影モードへの切替が指定された。（２）ユーザにより別の対象被写体が指定された。（３）シーン解析により別の重要被写体（対象被写体）が指定された。（４）追跡カメラの台数が０台或いは下限台数以下、又は上限台数以上である。

撮影モードがハイブリッド撮影モードである場合（Ｓ１６１でＮｏかつＳ１６３でＮｏ）、リセット判定部１１８は、空間撮影モードと同様の条件、及び追跡撮影モードと同様の条件のうち１つでも満たされる場合にカメラ選択のリセットが必要と判定する（Ｓ１６５）。

以下、イベント会場（例えば、スポーツ競技場又はライブ会場等）における空間撮影モードでのカメラ選択の具体例を説明する。図１５及び図１６は、イベント会場における空間撮影モードでのカメラ選択の具体例を説明するための図である。

まず、図１５を用いて、カメラ間隔が均等になるように複数の選択カメラを選択する例について説明する。

初期カメラ選択部１１５は、ユーザの指定した映像上の領域に対応する三次元領域、又はシーン解析により重要と判定した三次元領域である対象領域を最も多く含んでいる映像を撮影しているカメラ１０１Ａをメインカメラとして選択する。また、初期カメラ選択部１１５は、メインカメラを基準として撮影方向が均等な間隔となるようにサブカメラを選択する。

また、サーバ１０３は、カメラの選択結果と共に各選択カメラがメインカメラとサブカメラのどちらであるかという情報を出力してもよい。この情報は表示アプリで使用される。

図１５のようにバスケットコートを３６０°囲むように観客席が設置されているイベント会場を例として説明する。

初期カメラ選択部１１５は、色々な座席からの観戦風景をユーザが視聴できるようにメインカメラ１０１Ａの座席位置を基準として、均等な座席間隔となるようにサブカメラ１０１Ｂ〜１０１Ｅを選択する。メインカメラ１０１Ａは、ユーザが指定した位置に最も近いカメラであってもよいし、ユーザが指定した位置を最も中心又は大きく撮影しているカメラであってもよいし、最も会場が見やすい位置に最も近いカメラであってもよい。会場の見やすさは予め設定されている。

サブカメラ１０１Ｂ〜１０１Ｅは、メインカメラ１０１Ａとイベント会場の中心位置を基に選択される。

例えば、初期カメラ選択部１１５は、メインカメラ及びサブカメラであわせて５台のカメラを選択する場合、イベント会場の中心にあるセンターサークルの中心を原点として、メインカメラを０°の方位とすると、約７２°間隔となるようにサブカメラを選択する。原点に対する方位は、カメラ位置及びカメラ方向に基づき算出される。なお、原点は、必ずしもイベント会場の中心でなくてもよく、ゴール、電光掲示板又はベンチの位置などであってもよい。

または、初期カメラ選択部１１５は、指定位置を映しているカメラから５台を選択する全ての組合せについてカメラ間隔を算出し、センターサークルの中心を原点として、５台のカメラが最も均等に配置されている組合せを選択してもよい。この時、各カメラをメイン及びサブに区別する必要はない。

次に、図１６を用いて撮影位置を基にカメラを選択する例を説明する。図１６に示すようにバスケットコートを３６０°囲むように観客席が設置されているイベント会場を例として説明する。

初期カメラ選択部１１５は、色々な座席からの観戦風景をユーザが視聴できるように、イベント会場であるバスケットコートを死角なく撮影するように空間カメラを選択する。
例えば、初期カメラ選択部１１５は、５台のカメラを選択する場合、予めカメラ５台分がそれぞれ撮影する視野である撮影視野を設定しておく。これらの撮影視野はユーザが選択してもよいし、初期カメラ選択部１１５がバスケットコートを５等分するように撮影視野を設定してもよい。

初期カメラ選択部１１５は、各撮影視野に最も近い視野を撮影しているカメラを空間カメラとして選択する。なお、初期カメラ選択部１１５は、カメラの視野を、カメラ位置、カメラ姿勢及び焦点距離から算出する。

なお、初期カメラ選択部１１５は、撮影視野を、選択したカメラ映像を切替えると、映像がシームレスに繋がって見えるように重複なく設定してもよい。また、選択映像を合成して広視野角の映像を生成し、当該映像を表示アプリで表示できる場合、初期カメラ選択部１１５は、合成に適するように撮影視野が互いに重複するように複数の撮影視野を設定してもよい。

以下、イベント会場における追跡撮影モードでのカメラ選択の具体例を説明する。図１７、図１８及び図１９は、イベント会場における追跡撮影モードでのカメラ選択の具体例を説明するための図である。

図１７は、対象被写体が１名の場合の初期カメラ選択処理を説明するための図である。図１７に示すように、バスケットの試合において、１人の対象被写体に注目する場合を説明する。

例えば、初期カメラ選択部１１５は、ユーザによる被写体の指定、又はシーン解析によりボールを持っている人物を特定し、特定した人物である１名の注目プレイヤを被写体２０２（対象被写体）として選択する。

初期カメラ選択部１１５は、注目プレイヤを正面又は最も大きく撮影しているカメラ１０１Ａをメインカメラとして選択し、メインカメラを基準として、均等な撮影方向となるようにサブカメラ１０１Ｂ〜１０１Ｅを選択する。例えば、初期カメラ選択部１１５は、５台のカメラを選択する場合、注目プレイヤの位置を原点として、メインカメラを０°の方位とすると、約７２°間隔となるようにサブカメラを選択する。初期カメラ選択部１１５は、原点に対する方位をカメラ位置及びカメラ方向に基づき算出する。なお、対象被写体は、人物に限らず、ゴール又は電光掲示板であってもよい。

図１８は、イベント会場における追跡撮影モードにおける、被写体が１名の場合の切替カメラ選択処理を説明するための図である。図１８に示すように、バスケットの試合において、１人の対象被写体に注目する場合を説明する。

追跡撮影モードでは、切替カメラ選択部１１７は、被写体を追跡し、現在の追跡カメラが被写体を捉えられなくなった場合にカメラの切替を行う。例えば、切替カメラ選択部１１７は、ある追跡カメラの視野から被写体が消失しそうになった場合、被写体の追跡結果に応じて被写体をより視野の中央に映しているカメラを探索し、探索により得られたカメラを、元の追跡カメラの代わりに新たな追跡カメラに設定する。

多視点映像を用いた三次元再構成を行う場合は、被写体が三次元モデルとして再構成されているため、切替カメラ選択部１１７は、三次元空間内で被写体の追跡を行う。切替カメラ選択部１１７は、被写体上の三次元点を視野の最も中心又は最も大きく映しているカメラに追跡カメラを切り替えていく。

多視点映像を用いた三次元再構成を行わない場合は、切替カメラ選択部１１７は、二次元映像による被写体の追跡を行う。この時の追跡において、切替カメラ選択部１１７は、過去のフレームと現在のフレームとを用いて、被写体の次の動きを予測し、被写体の行き先の空間を撮影しているカメラに追跡カメラを切り替える。

例えば、図１８に示すように被写体２０２が動く場合、切替カメラ選択部１１７は、当該被写体２０２の追跡を行う。

被写体２０２の三次元モデルを再構成する場合は、切替カメラ選択部１１７は、三次元空間で追跡を行い、再構成しない場合は、二次元映像で被写体２０２の動きを予測する。そして、切替カメラ選択部１１７は、被写体２０２を視野の最も中心又は最も大きく映しているカメラ１０１Ｆに選択カメラを切り替える。

図１９は、イベント会場において被写体が複数名の場合の動作を説明するための図である。図１９に示すようにバスケットの試合において、複数の被写体２０２Ａ及び２０２Ｂに注目する場合を説明する。

初期カメラ選択部１１５は、ユーザによる被写体の指定又はシーン解析により２名以上の注目プレイヤを被写体２０２Ａ及び２０２Ｂとして選択し、１名に少なくとも１つのカメラを割当てる。初期カメラ選択部１１５は、それぞれの注目プレイヤを正面又は最も大きく撮影しているカメラをメインカメラとして選択する。つまり、注目プレイヤの人数と同数のメインカメラが存在する。次に、初期カメラ選択部１１５は、それぞれのメインカメラを基準として、均等な撮影方向となるようにサブカメラを選択する。

例えば、２名の注目プレイヤを５台のカメラで撮影する場合、初期カメラ選択部１１５は、注目プレイヤＡ（被写体２０２Ａ）に３台のカメラを割り当て、注目プレイヤＢ（被写体２０２Ｂ）に２台のカメラを割当てる。各注目プレイヤにメインカメラが１台ずつ割り当てられているので、初期カメラ選択部１１５は、注目プレイヤＡについては、注目プレイヤＡの位置を原点とし、メインカメラ１０１Ａを０°の方位とし、約１２０°間隔になるようにサブカメラ１０１Ｂ及び１０１Ｃを選択する。また、初期カメラ選択部１１５は、注目プレイヤＢについても同様に、注目プレイヤＢの位置を原点とし、メインカメラ１０１Ｄを０°の方位とし、約１８０°間隔になるようにサブカメラ１０１Ｅを選択する。

また、初期カメラ選択部１１５は、選択カメラの台数を、ユーザの指定による優先度の高いプレイヤ、又は、シーン解析によりボールを持っている、或いはボールにより近いプレイヤに多く割当てるようにする。また、初期カメラ選択部１１５は、注目プレイヤの数が選択カメラ台数を超える場合も同様に優先度をつけて、高い順に選択カメラを割当てる。

また、カメラ切替判定部１１６は、図１８と同様の方法で注目プレイヤの追跡を行う。
なお、初期カメラ選択部１１５は、選択カメラの数の範囲内で、空間撮影モードと追跡撮影モードとの組合せであるハイブリッド撮影モードでカメラを選択してもよい。

以下、図２０及び図２１を用いて、ショッピングセンターの監視環境における動作例を説明する。図２０は、ショッピングセンターの監視環境における空間撮影モードでのカメラ選択を説明するため図である。

図２０に示すようにショッピングセンターにおいて、天井又は柱に設置された固定カメラと警備員が装着するモバイルカメラによる監視環境を例として説明する。

初期カメラ選択部１１５は、ショッピングセンター全体を監視できるように死角なくカメラを選択する。また、初期カメラ選択部１１５は、ユーザがＵＩ上で指定した場所或いは人、又は、商材の出入口のように監視において重要と判断される場所を撮影しているカメラをメインカメラに設定する。そして、初期カメラ選択部１１５は、メインカメラが撮影していない場所を補うようにサブカメラを選択する。

例えば、図２０の例では、出入口付近を撮影しているカメラ１０１Ａがメインカメラとして選択され、ショッピングセンター全体を監視できるようにサブカメラ１０１Ｂ〜１０１Ｅが選択される。

また、初期カメラ選択部１１５は、ショッピングセンターにおける固定の監視カメラが撮影できる領域及び死角となる領域を事前情報として取得する。なお、死角となる領域は警備員がモバイルカメラで撮影することにより補ってもよい。

図２１は、ショッピングセンターの監視環境における追跡撮影モードでのカメラ選択を説明するための図である。

図２１に示すように、ショッピングセンターの監視において、１人の被写体２０２に注目する場合を説明する。

初期カメラ選択部１１５は、ユーザがＵＩ上で指定した被写体、又はシーン解析により異常行動している人物を特定し、特定した少なくとも１名の注目人物を対象被写体として選択する。また、初期カメラ選択部１１５は、注目人物とカメラとの距離、注目人物の正面に対するカメラの角度、又は注目人物の画像上の面積（画素数）を基にショッピングセンター内のカメラの順位付けを行い、上位から選択するカメラ台数分のカメラを選択する。この時、初期カメラ選択部１１５は、最上位のカメラをメインカメラとして選択する。

図２１に示す例では、カメラ１０１Ａがメインカメラとして選択され、カメラ１０１Ｂ〜１０１Ｄがサブカメラとして選択される。

なお、対象被写体は人物に限らず、出火場所又は商品の転倒などのイベント発生場所が対象被写体として設定されてもよい。

なお、図１５から図２１のいずれの場合においても、サーバ１０３が端末装置１０２に配信する音声は、メインカメラで取得した音声であってもよいし、メインカメラに最も近い端末で取得した音声であってもよいし、ユーザがＵＩ上で指定した場所に最も近い端末で取得した音声であってもよいし、被写体に最も近い端末で取得した音声であってもよいし、最も音質の良い音声であってもよいし、複数端末から取得した音声を合成することで得られた音声であってもよい。

以下、図６で説明した初期カメラ選択処理の詳細及び別の例について説明する。図２２は、初期カメラ選択処理のフローチャートである。

まず、初期カメラ選択部１１５は、カメラ単体の評価値を算出する（Ｓ２０１）。そして、初期カメラ選択部１１５は、算出した評価値に基づき、一台のメインカメラを選択する。具体的には、初期カメラ選択部１１５は、評価値が最も高いカメラをメインカメラとして選択する。

次に、初期カメラ選択部１１５は、選択するカメラの台数を取得する（Ｓ２０２）。例えば、初期カメラ選択部１１５は、ユーザにより指定された、又は予め設定されているカメラの台数を取得する。

次に、初期カメラ選択部１１５は、カメラ位置による組み合わせ評価値（カメラ位置評価値）を算出する（Ｓ２０３）。具体的には、初期カメラ選択部１１５は、メインカメラと、選択台数−１台のサブカメラとの組合せごとに、カメラ位置に基づき評価値を算出する。

次に、初期カメラ選択部１１５は、ステップＳ２０１及びＳ２０３で算出されたカメラ単体の評価値及びカメラ位置評価値を用いてカメラ群を選択する（Ｓ２０４）。具体的には、初期カメラ選択部１１５は、２つの評価値から得られた総合評価値が最も高いカメラ群を選択する。

例えば、初期カメラ選択部１１５は、カメラ群に含まれる複数のカメラ各々のカメラ単体の評価値の総和と、当該カメラ群のカメラ位置評価値との積を総合評価値として算出する。なお、総合評価値の算出方法はこれに限らず、重み付け加算等の任意の手法を用いてよい。

最後に、初期カメラ選択部１１５は、選択したカメラ群を出力する（Ｓ２０５）。

なお、ここでは、初期カメラ選択部１１５は、先にメインカメラを選択し、当該選択カメラを含むカメラ群に対して、総合評価値に基づく判定を行っているが、全ての組み合わせから総合評価値が最も高い組み合わせを先に求め、その組み合わせに含まれる複数のカメラの中でカメラ単体の評価値が最も高いカメラをメインカメラとして選択してもよい。

以下、カメラ単体の評価値算出処理（図２２のＳ２０１）について説明する。図２３は、カメラ単体の評価値算出処理のフローチャートである。

まず、初期カメラ選択部１１５は、ポイントクラウドを取得する（Ｓ２１１）。ここでポイントクラウドとは、再構成された三次元モデル及びカメラ位置情報を含む。

次に、初期カメラ選択部１１５は、三次元モデル上の対象被写体（対象物体）又は対象領域の点群にフラグを付与する（Ｓ２１２）。

図２４は対象領域２１１の選択例を示す図である。図２５は対象被写体２１２の選択例を示す図である。また、対象被写体又は対象領域の選択方法としては、ユーザが手動で対象被写体又は対象領域を選択する方法と、自動的に対象被写体又は対象領域を選択する方法とがある。

ユーザが手動で対象被写体又は対象領域を選択する場合、ユーザはＵＩ上から対象被写体又は対象領域を選択する。そして、初期カメラ選択部１１５は、二次元平面上の選択領域を三次元モデル上に逆投影することで、三次元モデル上の対象被写体又は対象領域を選択する。

自動的に対象被写体又は対象領域を選択する場合であって、サーバ１０３が予めマップ情報を取得している場合、初期カメラ選択部１１５は、出入り口などの重点監視領域を対象領域として選択する。または、初期カメラ選択部１１５は、姿勢認識等により不審者を自動検知し、当該不審者を対象被写体として選択する。

また、サーバ１０３が予めマップ情報を取得していない場合、初期カメラ選択部１１５は、人間の流量の多い領域ほど重要度が高いと判定し、人間の流量の多い領域を対象領域として選択する。または、初期カメラ選択部１１５は、姿勢認識等により不審者を自動検知し、当該不審者を対象被写体として選択する。

次に、初期カメラ選択部１１５は、カメラ位置情報を用いて点群を二次元平面に投影することで画像を作成する（Ｓ２１３）。

次に、初期カメラ選択部１１５は、投影された各画像中のフラグが付与されている領域を抽出する（Ｓ２１４）。

次に、初期カメラ選択部１１５は、各画像中の抽出された領域の評価値を算出することで、当該画像（カメラ）の評価値を算出する（Ｓ２１５）。

例えば、初期カメラ選択部１１５は、抽出された領域の画像中の大きさが大きいほど評価値を上げる。また、初期カメラ選択部１１５は、可視化領域の割合が大きいほど評価値を上げてもよい。ここで可視化領域とは、抽出された領域を実際に画像中で確認できる面積の割合であり、対象領域又は対象被写体の手前に他の物体等が存在する場合には、この割合が小さくなる。また、初期カメラ選択部１１５は、対象領域又は対象被写体の各部分に優先度を付け、優先度が高い部分がより多く又は大きく写っているほど評価値を上げてもよい。例えば、初期カメラ選択部１１５は、被写体の顔が写っている場合に評価値を上げてもよい。また、初期カメラ選択部１１５は、画像の鮮明度等が高いほど、又は歪みが小さいほど評価値を上げてもよい。

以下、カメラ位置評価値算出処理（図２２のＳ２０３）について説明する。図２６は、カメラ位置評価値算出処理のフローチャートである。

まず、初期カメラ選択部１１５は、選択モードを取得する（Ｓ２３１）。ここで、選択モードとは、俯瞰モードと、集中モードとを含む。例えば、初期カメラ選択部１１５は、ユーザにより指定された、又は予め設定されている選択モードを取得する。

俯瞰モードは、図２７に示すように、対象被写体２１２（又は対象領域）を全方向から等間隔で撮影しているカメラ１０１Ａ〜１０１Ｄを選択するモードである。集中モードは、図２８に示すように、対象被写体２１２（又は対象領域）を特定の方向から撮影しているカメラ１０１Ａ〜１０１Ｄを集中的に選択するモードである。例えば、スポーツ観戦等で、スタジアムの全方向に観客席が設けられている場合には、俯瞰モードが有効である。また、コンサートなど、ステージの一方の方向のみに観客席が設けられている場合、又は、ユーザが特定の視点方向からの映像を集中的に見たい場合に集中モードが有効である。

次に、初期カメラ選択部１１５は、選択された台数分のカメラを含むカメラ群を複数抽出する（Ｓ２３２）。次に、初期カメラ選択部１１５は、選択モードに応じて各カメラ群のカメラ位置評価値を算出する（Ｓ２３３）。

具体的には、俯瞰モードの場合には、初期カメラ選択部１１５は、複数のカメラが目標代表点より一定角度毎に存在しているかどうかに応じてカメラ位置評価値を決定する。具体的には、初期カメラ選択部１１５は、複数のカメラが等間隔であるほど評価値を上げる。また、初期カメラ選択部１１５は、カメラの撮像範囲に対する対象被写体の写っている面積の割外が、所定値よりも高い場合には、位置情報を優先してもよい。つまり、初期カメラ選択部１１５は、対象被写体がアップになりすぎている場合には評価値を下げてもよい。

また、集中モードの場合には、初期カメラ選択部１１５は、複数のカメラがどれだけ指定方向に存在しているかに応じてカメラ位置評価値を決定する。具体的には、初期カメラ選択部１１５は、複数のカメラが指定方向に集中しているほど評価値を上げる。

なお、初期カメラ選択部１１５は、被写体の向き（顔の方向など）を考慮し、被写体がカメラの方向を向いているほど評価値を上げてもよい。この場合、例えば、顔認識等により被写体の向きを検知できる。

また、カメラ群の抽出（Ｓ２３２）及びカメラ位置評価値の算出（Ｓ２３３）の方法としては以下の方法を用いることができる。

例えば、初期カメラ選択部１１５は、総当りであらゆるカメラの組み合わせをカメラ群として抽出する。または、初期カメラ選択部１１５は、複数のカメラを、類似する構成（位置が近い等）のカメラ群が同一のクラスになるように分類し、各クラスの代表カメラの全ての組み合わせをカメラ群として抽出してもよい。または、初期カメラ選択部１１５は、カメラ単体の評価値に基づきメインカメラを選択し、当該メインカメラを含むあらゆるカメラの組み合わせをカメラ群として抽出してもよい。

また、時間方向でのカメラ切り替え判定として以下の手法を用いてもよい。例えば、カメラ切替判定部１１６は、以前に選択されたカメラ群の情報を保持しておく。カメラ切替判定部１１６は、各時間において、カメラ群評価値を保持し、切り替えるかどうかを選択する。この際、時間方向には切り替え頻度を制御するパラメータを用意し、カメラ切替判定部１１６は、当該パラメータを用いて切り替えを行うかどうかを判定する。具体的には、カメラ切替判定部１１６は、当該パラメータを用いることで、前回の切り替えから経過した時間が短いほど、切り替えを行わないように制御する。例えば、カメラ切替判定部１１６は、前回の切り替えからの経過時間が第１時間未満の場合には、切り替えを行わないと判断し、第１時間以上かつ第２時間未満の場合には第１基準で判定を行い、第２時間以上の場合には第１基準より緩い（第１基準よりも切り替えると判定されやすい）第２基準で判定を行ってもよい。

また、上述した図５の説明では、サーバ１０３は、初期カメラ選択処理（Ｓ１１１）の後、カメラ切替又はリセットが必要な場合に、カメラ切替及びリセットを行っているが、所定の周期で初期カメラ選択処理のみを繰り返し行ってもよい。この場合にも、上記と同様のパラメータを用い、切り替えが頻繁に行われないように制御してもよい。

以上のように、本実施の形態に係るカメラ選択方法は、同一の場面を撮影しているＮ（２以上の自然数）台のカメラ１０１から、表示する映像の撮影元のＭ（ＭはＮより小さい自然数）台のカメラ１０１（選択カメラ）を選択するカメラ選択方法であって、図２９に示す処理を行う。

まず、サーバ１０３は、Ｎ台のカメラ１０１の位置及び撮影方向を取得する（Ｓ２４１）。具体的には、サーバ１０３は、Ｎ台のカメラ１０１で撮影された画像を用いて三次元再構成を行うことで、Ｎ台のカメラ１０１の位置及び撮影方向を算出する。または、サーバ１０３は、Ｎ台のカメラ１０１の各々から送信された、当該カメラ１０１が備えるセンサ（例えばＧＰＳ、ＷｉＦｉ又はジャイロセンサ等）で得られた情報を用いて、Ｎ台のカメラの位置及び撮影方向を算出する。

次に、サーバ１０３は、取得されたＮ台のカメラ１０１の位置及び撮影方向に基づき、Ｎ台のカメラ１０１からＭ台のカメラ１０１を選択する（Ｓ２４２）。具体的には、サーバ１０３は、Ｎ台のカメラ１０１の位置及び撮影方向に基づき、Ｍ台のカメラ１０１により対象空間を死角なく撮影できるようにＭ台のカメラ１０１を選択する。つまり、サーバ１０３は、Ｎ台のカメラ１０１の位置及び撮影方向に基づき、Ｍ台のカメラ１０１の撮影空間の重複がより少なく、かつ、Ｍ台のカメラ１０１の撮影空間が対象空間をカバーする割合がより大きくなるＭ台のカメラ１０１を優先して選択する。または、サーバ１０３は、Ｎ台のカメラ１０１の位置及び撮影方向に基づき、対象空間又は対象被写体を複数の方向から等間隔に撮影しているＭ台のカメラ１０１を優先して選択する。

なお、サーバ１０３は、ステップＳ２４１において、さらに、Ｎ台のカメラ１０１の焦点距離を取得し、ステップＳ２４２において、取得されたＮ台のカメラ１０１の位置、撮影方向及び焦点距離に基づき、Ｎ台のカメラ１０１からＭ台のカメラ１０１を選択してもよい。

これにより、当該カメラ選択方法は、カメラの位置及び撮影方向に基づき、複数のカメラから自動的に適切なカメラを選択できる。

また、図５に示すように、サーバ１０３は、さらに、ステップＳ２４２（Ｓ１１１）の後のフレームにおいて、選択されているＭ台のカメラ１０１のうちの一部のカメラを他のカメラに切り替えるか否かを判定する（Ｓ１１２）。具体的には、図８に示すように、サーバ１０３は、フレーム間で対象被写体を追跡し、対象被写体の追跡に失敗した場合に、選択するカメラを切り替えると判定する。より具体的には、サーバ１０３は、フレーム間で対象被写体の三次元モデルを対応付け、対応付けた対象被写体の三次元モデルを現時刻のフレームに投影し、得られたフレーム内に対象被写体が存在しない場合に、追跡が失敗したと判定する（Ｓ１４７）。

また、サーバ１０３は、ステップＳ１１２において、切り替えると判定された場合に（Ｓ１１２でＹｅｓ）、Ｎ台のカメラ１０１の位置及び撮影方向に基づき、上記一部のカメラの代わりの新たなカメラを選択する（Ｓ１１４）。

また、サーバ１０３は、さらに、ステップＳ２４２（Ｓ１１１）の後のフレームにおいて、ステップＳ２４２（Ｓ１１１）を再度行うか否かを判定する（Ｓ１１５）。サーバ１０３は、ステップＳ１１５において、ステップＳ２４２（Ｓ１１１）を行うと判定された場合（Ｓ１１６でＹｅｓ）、Ｎ台のカメラ１０１の位置及び撮影方向に基づき、Ｎ台のカメラ１０１からＭ台のカメラ１０１を再度選択する（Ｓ１１１）。

また、ステップＳ１１２では、前回の切り替えからの経過時間が第１時間未満の場合には、切り替えを行わないと判断し、経過時間が第１時間以上かつ前記第１時間より長い第２時間未満の場合には上記一部のカメラを他のカメラに切り替えるか否かを第１基準で判定し、経過時間が第２時間以上の場合には上記一部のカメラを他のカメラに切り替えるか否かを第１基準より緩い第２基準で判定してもよい。

また、図２２に示すように、サーバ１０３は、ステップＳ２４２（Ｓ１１１）において、Ｎ台のカメラで撮影された映像に基づき、Ｎ台のカメラの各々の第１評価値（カメラ単体の評価値）を算出する（Ｓ２０１）。また、サーバ１０３は、Ｎ台のカメラ１０１の位置及び撮影方向に基づき、Ｎ台のカメラ１０１に含まれるＭ台のカメラ１０１の組み合わせであるカメラ群の各々の第２評価値（カメラ位置評価値）を算出する（Ｓ２０３）。そして、サーバ１０３は、カメラ群に含まれるＭ台のカメラの第１評価値と、当該カメラ群の第２評価値とに基づき、当該カメラ群の第３評価値を算出し、第３評価値が最も高いカメラ群に含まれるＭ台のカメラを選択する（Ｓ２０４）。

（実施の形態１の変形例）
実施の形態１において、初期カメラ選択部１１５ではカメラ単体の評価値算出処理（図２２のＳ２０１）において、図２３に示すステップＳ２１１でポイントクラウドを取得しているが、三次元モデル及びカメラ位置情報を表現できる情報であればこれに限らない。例えば、ステップＳ２１１で取得されるポイントクラウドの代わりに、三次元空間におけるボクセル情報を利用してもよい。このことに関して、図３０Ａ〜図３０Ｃに示す模式図を用いて説明を行う。図３０Ａは、とある三次元空間から取得されたポイントクラウドの一例を示している。

例えば、推定されたカメラパラメータと各カメラ映像及び各カメラでの背景画像とを利用して、視体積交差法などにより三次元モデルが生成される。初期カメラ選択部１１５は、生成された三次元モデルとカメラパラメータとを用いて、ステップＳ２１２からＳ２１５の処理を行っても良い。この処理により得られる結果の一例は、図３０Ｂに示すようなボクセルデータである。また、ボクセルデータに対するステップＳ２１２のフラグ付与処理は、ポイントクラウドの場合に各点に対して行っていた操作を、例えば生成された人モデル及び体積情報を含むボクセル単位にフラグを付与することで実現できる。この場合、点群ではなく立体物としての再構成が容易なため三次元モデル中の隙間等を削減できる。これにより、投影画像における欠落を抑制することが可能となることでより精度の高い評価値を生成できる。

また、物体を円柱など、対象物の形状を少なくとも一部単純化した簡単なモデルで表現した簡易三次元モデルが用いられても良い。これを実現するため手法の一例としては、撮像空間の地面を仮定し、例えば一定間隔毎にその地面を分割し、各分割された地面上に対象物に相当するサイズの円柱モデル又は角柱モデルを定義する。そして、各カメラパラメータを用いて、それぞれのカメラ映像を三次元空間に逆投影して、前述した柱モデルに物体が存在する尤度を推定する。この処理により取得できる結果の一例は、図３０Ｃに示すようなモデル情報である。この簡易モデル情報に対するステップＳ２１２のフラグ付与処理は、各角柱等の単位に対してフラグ付与の処理を行うことで実現可能である。この手法を用いることにより、三次元モデル情報を生成する処理及び投影画像を作成し評価値を算出する処理が簡略化される。これにより、処理量を低減することができる。

また、物体を表現する三次元情報としてＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）などで利用されるメッシュモデルなどを入力として用いてもよい。メッシュモデルは、各メッシュの頂点情報を格納したモデルであり、ポイントクラウドに各点の接続情報を追加することでメッシュモデルを表現することも可能である。

また、映像中の二次元情報から人の姿勢又は物体の向きなどの情報を抽出し、抽出した情報を基にメッシュモデルを変形させ、その変形させたメッシュモデルを簡易三次元モデルで取得した位置に配置することで、三次元情報を生成してもよい。これによると、三次元的な認識及び情報処理を行うことなく、物体の三次元的な情報を加味した三次元モデルを仮想的に生成可能である。これにより、算出される評価値の精度の向上ができる。また、メッシュモデルを配置する位置情報を探索することで、ＡＲ（ＡｕｇｕｍｅｎｔｅｄＲｅａｌｉｔｙ）のような現実空間上にＣＧなどの仮想空間及びオブジェクトを投影するといった技術における最適な投影位置の探索及び評価にもこの手法を適用できる。

なお、これらの三次元情報に対するステップＳ２１２のタグ付け処理においては、三次元情報のみを用いてフラグ付与を行うだけでなく、二次元画像からの解析結果と三次元情報とを組み合わせて用いてもよい。例えば、映像中での物体検出結果の各結果領域から、色情報やＨｏＧ（ＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔａｔｉｏｎ）などの特徴量情報、歩容情報、及び選手の背番号といった識別情報を抽出する。この識別情報を用いて異なるカメラ間の検出結果に関する同定処理を行い、各カメラでの同一被写体を認識する。この同定処理において識別情報を用いてマッチング処理を行う場合に、カメラパラメータから推測される撮像範囲を考慮し、同一撮像範囲に含まれる検出結果間においてのみマッチング処理を行う。これによると、識別情報のマッチングを行う組み合わせの数を減らすことが可能であり、計算量を削減できる。

このように、本変形例に係るカメラ選択方法は、同一の場面を撮影しているＮ（２以上の自然数）台のカメラから、表示する映像の撮影元のＭ（ＭはＮより小さい自然数）台のカメラを選択するカメラ選択方法であって、前記Ｎ台のカメラの各々に対して、三次元情報を投影することで得られた、当該カメラで撮影した画像に対応する画像に基づき、当該カメラの評価値を算出する評価値算出ステップと、前記評価値に基づき、前記Ｎ台のカメラから前記Ｍ台のカメラを選択する選択ステップとを含む。

これにより、当該カメラ選択方法は、カメラの評価値に基づき、複数のカメラから適切にカメラを選択できる。

例えば、三次元情報は、ポイントクラウドであってもよい。

これにより、物体の特徴的な点を多く持つポイントクラウドを投影することにより、投影画像中において物体を重点的に再現できるので、評価値の計算を容易に行うことができる。

例えば、三次元情報は、ボクセル空間での三次元情報である。

これにより、密な情報になりやすいボクセル空間での情報を投影することにより、投影画像中の画素の欠落等が少なくなるため、評価値の精度が向上する。

（実施の形態２）
本実施の形態では、実施の形態１で説明した、送信部１１９から送信された情報を可視化する受信装置（端末装置１０２）の構成及び動作を説明する。

まず、実施の形態１及びその変形例における送信部１１９に関して図３１及び図３２を用いて説明を行う。なお、サーバ１０３に含まれる送信部１１９以外の動作は実施の形態１及びその変形例と同様であるため、説明を割愛する。

図３１は、送信部１１９の一例を示すブロック図である。送信部１１９は、多重化部３０１と、情報送信部３０２とを含む。この送信部１１９は、カメラ位置情報及びカメラ映像を含む送信情報を生成し、生成した送信情報を送信する。

図３２は、送信部１１９の処理を示すフローチャートである。まず、多重化部３０１は、初期カメラ選択部１１５及び切替カメラ選択部１１７で選択されたカメラに関するカメラ位置情報を取得する（Ｓ３０１）。ここで、カメラ位置情報は、選択された複数のカメラの各々位置及び撮影方向（姿勢）を示す。

次に、多重化部３０１は、選択されたカメラに関する映像情報であるカメラ映像を取得する（Ｓ３０２）。つまり、カメラ映像は、切替カメラ選択部１１７で選択された複数のカメラで撮影された映像である。次に、多重化部３０１は、ステップＳ３０１及びＳ３０２で取得されたカメラ位置情報及びカメラ映像を多重化することにより送信情報を生成する（Ｓ３０３）。最後に、送信部１１９は、ステップＳ３０３にて生成した送信情報を端末装置１０２に送信する（Ｓ３０４）。

続いて、図３３及び図３４を用いて端末装置１０２の構成及び動作を説明する。図３３は、端末装置１０２の構成例を示すブロック図である。端末装置１０２は、受信部３１１と、分離部３１２と、表示情報生成部３１３とを含む。この端末装置１０２は、サーバ１０３から送信されてきた送信情報からモニタ１０５での表示に用いるＵＩデータを生成する。

図３４は、端末装置１０２による処理を示すフローチャートである。まず、受信部３１１は、サーバ１０３から送信された送信情報を受信する（Ｓ３１１）。続いて、分離部３１２は、送信情報からカメラ映像及びカメラ位置情報を分離する（Ｓ３１２）。次に、表示情報生成部３１３は、ステップＳ３１２で取得されたカメラ映像情報及びカメラ位置情報から、モニタ１０５で表示するためのＵＩデータを生成する（Ｓ３１３）。次に、表示情報生成部３１３は、ステップＳ３１３で生成されたＵＩデータを、モニタ１０５に送信する（Ｓ３１４）。これら一連の処理により、ユーザ１０６に情報が提示される。

ここでＵＩデータとは、モニタ１０５に画像又は映像を表示することでユーザ１０６に情報提示を行うために用いられる情報であり、少なくともカメラ映像及びカメラ位置情報を提示するための情報を含む。また以降では、ステップＳ３１２で取得するような、端末装置１０２にて受信したカメラ位置情報に含まれる一台以上のカメラを候補カメラ群と呼ぶ。

ここで、ステップＳ３１３で生成されるＵＩデータの一例を、図３５及び図３６に示す模式図を用いて説明する。図３５に示すＵＩデータでは、画面右側に候補カメラ群に含まれるカメラの位置を表示するカメラＵＩが提示され、画面左側に映像表示領域が存在する。以降、この映像表示領域に表示されている映像に対応する候補カメラ群に含まれるカメラであって、端末装置１０２において候補カメラ群から選択された一つのカメラを選択カメラと呼ぶ。また、選択カメラに対応するカメラ映像を選択映像と呼ぶ。この際、選択カメラを視覚的に強調して示すため、カメラＵＩでは選択カメラが斜線をかけた状態で表示されている。なお、選択カメラを視覚的に強調できればよく、斜線である必要はない。例えば、選択カメラに色を付けてもよいし、選択カメラの輪郭線を太くしてもよい。

図３６に示す例では、図３５と同様に画面右側にカメラＵＩが表示される。一方で、画面左側の映像表示領域では領域が分割される。また、選択カメラを含む、候補カメラ群の一部又は全てのカメラの映像が分割された領域の各々に表示されている。この際、選択カメラに対応する選択映像が映像表示領域中のどの映像かを明示するために、映像表示領域では選択映像の枠を実線とし、それ以外の映像枠を破線としている。ただし、これに関しても視覚的に選択映像が明示可能であればよい。例えば、実線と破線とによって区別する以外にも、色を変更することや枠線の太さを変更すること、または、選択映像の枠のみ点滅させることで選択映像を明示してもよい。

また、選択カメラは１台である必要はなく２台以上のカメラが選択カメラとして選択されていてもよい。この時に、カメラＵＩに示す各選択カメラが、映像表示領域中のどの映像と対応付いているか明示するために、選択カメラ毎に、塗りつぶす色や輪郭線の太さといった効果をそれぞれ変更してもよい。つまり、カメラＵＩに示す各選択カメラと、映像表示領域中の選択映像と対応関係を示すために、対応する選択カメラと選択映像とに同じ表示形態を用いてもよい。これにより、映像表示領域とカメラＵＩとでの提示情報の視覚的な整合性を提示できるので、ユーザの認知が容易になる。

なお、ＵＩデータは、映像表示領域とカメラＵＩとを最低限含んでいればよく、これ以外の情報が含まれてもよい。例えば、ＵＩデータは、スポーツ放送などにおける得点又は時間経過などを示す情報が含まれてもよい。また、カメラ位置を表示するカメラＵＩは、三次元的にカメラ位置を表示してもよいし、例えば上面図のように高さ情報を排除した二次元的な表示が用いられてもよい。カメラ位置を三次元的に表示する場合、ユーザは、各カメラの三次元的な位置関係を把握することが可能となるので、ユーザがカメラを指定する際などにおいて有益である。一方、カメラ位置を二次元的に表示する場合、ＵＩ上での情報量を少なくすることができるので、ＵＩの生成及び表示に必要な計算量の削減できる。これにより、性能の低い端末でも表示が可能になる。

なお、以降の説明において、図３５に示すＵＩデータを基に説明を行うが、これ以外のＵＩデータを対象に処理を行っても同様の効果を得られる。

続いて、図３４示すステップＳ３１３のＵＩデータ生成処理に関して図３７を用いて説明する。図３７は、ＵＳデータ生成処理（Ｓ３１３）のフローチャートである。

まず、表示情報生成部３１３は、送信情報に基づきカメラ位置情報の更新処理を行う（Ｓ３２１）。次に、表示情報生成部３１３は、ステップＳ３２１での更新処理に基づき、表示するカメラ映像を取得する（Ｓ３２２）。最後に、表示情報生成部３１３は、ステップＳ３２１及びＳ３２２で取得された情報を用いてＵＩデータを生成する（Ｓ３２３）。これら一連の操作により、表示情報生成部３１３は、送信情報からＵＩデータを生成する。

続いて、ステップＳ３２１のカメラ位置情報の更新処理の詳細を説明する。図３８は、カメラ位置情報の更新処理（Ｓ３２１）のフローチャートである。

まず、表示情報生成部３１３は、新たに受信したＭ個（２以上）のカメラ位置情報を取得することで、新たな候補カメラ群を特定する情報を取得する（Ｓ３３１）。続いて、表示情報生成部３１３は、受信時刻において映像表示領域にて表示されている映像に対応する現在時刻の選択カメラの情報を取得する（Ｓ３３２）。次に、表示情報生成部３１３は、ステップＳ３３１で取得した新たなカメラ位置情報に基づき、新たな候補カメラ群に、ステップＳ３３２で取得した現在時刻の選択カメラが含まれているかを判定する（Ｓ３３３）。

新たな候補カメラ群に現在時刻の選択カメラが含まれていないと判定された場合（Ｓ３３３でＮｏ）、表示情報生成部３１３は、選択カメラを変更する選択カメラ切替処理を行う（Ｓ３３４）。

次に、表示情報生成部３１３は、新たな候補カメラ群に含まれる全カメラに対応する複数のカメラ映像の全てが無効かを判定する（Ｓ３３５）。新たな候補カメラ群に含まれるカメラのうち少なくとも一つのカメラのカメラ映像が有効な場合（Ｓ３３５でＮｏ）、表示情報生成部３１３は、選択映像が有効かを判定する（Ｓ３３６）。選択映像が無効な場合（Ｓ３３６でＮｏ）、表示情報生成部３１３は、カメラ映像が無効と判定されたカメラを除外して、ステップＳ３３４の処理を行う。候補カメラ群中の全カメラに対応するカメラ映像が無効な場合（Ｓ３３５でＹｅｓ）、表示情報生成部３１３は、カメラ配置情報切替処理を行い、候補カメラ群のうちのいずれかのカメラを選択カメラとして選択する（Ｓ３３７）。また、選択映像が有効な場合（Ｓ３３６でＹｅｓ）、表示情報生成部３１３は、カメラ配置情報切替処理を行い、選択カメラの映像を表示する（Ｓ３３７）。

この時、ステップＳ３３５及びＳ３３６等におけるカメラ映像の有効／無効の一例としては、映像が再生できる状態であるか否かが挙げられる。例えば、サーバ１０３から端末装置１０２に届くまでの経路におけるデータ欠落等により、カメラ映像が再生できなくなる場合がある。

また、カメラ位置情報の更新処理において、現在時刻の選択カメラが次時刻の候補カメラ群に含まれないことが発生する場合がある。具体的には、時間変化又はカメラ台数の変更などにより、カメラＵＩで表示される候補カメラ群が変更される際に、現在時刻での選択カメラが候補カメラ群から除外される（つまり、選択カメラが表示カメラから除外される）場合がある。これにより、現在時刻の選択カメラの映像が取得できなくなる。これに対応するために、表示情報生成部３１３は、ステップＳ３３３及びＳ３３４の処理を行う。

以下、この場合の動作例を図３９の模式図を用いて説明する。図３９は、時刻（Ｔ）方向に時刻変化する時刻ｔ−２、時刻ｔ−１、及び時刻ｔにおけるＵＩデータの一例を示す。ここで、説明のために時刻ｔのカメラＵＩにおいて、時刻ｔ−１における選択カメラを点線で表示しているが、時刻ｔ−１における選択カメラは時刻ｔのカメラＵＩに表示されなくてもよい。

時刻ｔにおいて、カメラＵＩ上に存在しない時刻ｔ−１における選択カメラの選択を維持してしまうと、時刻ｔで映像表示領域に表示する映像を取得できないため、映像を表示することができない。これに対して、例えば、図３９に示すように、映像表示領域において、太斜線又は黒一色の映像などを表示することにより映像欠落を示す。これにより、選択中のカメラの映像が存在しないことをユーザに提示できる。このように、ユーザに選択カメラの映像の消失を視覚的に通知できる。なお、提示の際に用いる情報はこの限りではなく、映像が欠落する直前の映像の静止画を表示してもよいし、これらの映像に加えて文字情報を用いた提示を行ってもよい。つまり、ユーザに対してカメラの消失を提示できる表示方法なら提示手段は限定されるものではない。

なお、表示情報生成部３１３は、選択中のカメラが除外された際に、候補カメラ群から選択カメラを自動的に選択し設定してもよい。これによると、カメラの再選択をするためのユーザ操作が不要となるので、ユーザ体験を向上させることができる。

図４０Ａ〜図４０Ｃは、この場合のカメラの選択手法を示す模式図である。図４０Ａに示すように、表示情報生成部３１３は、時刻ｔにおける候補カメラ群から選択カメラをランダムに選択してもよい。また、図４０Ｂに示すように、表示情報生成部３１３は、時刻ｔの候補カメラ群のうち、時刻ｔ−１における選択カメラと位置が最も近いカメラを時刻ｔにおける選択カメラとして設定してもよい。また、図４０Ｃに示すように、表示情報生成部３１３は、時刻ｔの候補カメラ群の各カメラの評価値を取得し、その評価値に基づいて選択カメラを設定してもよい。例えば、表示情報生成部３１３は、評価値が最も高いカメラを選択カメラに設定する。例えば、サーバ１０３から選択優先順といった情報を評価値として端末装置１０２へ送ってもよいし、端末装置１０２が各カメラ映像を解析することで評価値を算出してもよい。サーバ１０３から送られる評価値は、例えば、複数のユーザによる各映像の視聴率又は視聴回数といった統計情報、或いは、サーバ１０３におけるカメラ選択処理で用いた各種評価値である。また、端末装置１０２で評価値を算出する場合には、端末装置１０２は、例えば、映像中の人間の数、又は広告情報の面積に基づき評価値を算出する。具体的には、映像中の人間の数が多いほど評価値が高くなり、広告情報の面積が大きいほど評価値が高くなる。

これらによると、ランダムに選択カメラを設定することで、軽量な処理でカメラ選択処理を行うことができるので選択処理に係る処理量を抑えることが可能となる。また、位置が近いカメラを選択カメラとして設定することで、映像表示領域に表示される映像の差異が小さくなりやすく、視点位置が極端に変化することを抑制できる。また、評価値に基づいて選択カメラを設定することで、送信側においてユーザに提示したい情報を制御することが可能となる。

なお、ステップＳ３３４の選択カメラ切替処理は、ステップＳ３３３の現在時刻の選択カメラが候補カメラ群に含まれているかの判定によって処理が行われない場合があるが、ステップＳ３３３の処理を行わず常に選択カメラ切替処理が行われてもよい。この際、例えば視聴率又は視聴回数の評価値を用いて常に評価の高いカメラを選択カメラとして設定することで、ユーザ１０６に対して自動的にダイジェスト動画を提供することが可能となる。これによると、ダイジェスト映像を別ストリームとして送ることなく、ユーザに対して送信側の意図する映像を提示できる。

なお、実施の形態２で述べた端末装置１０２で行われている処理がサーバ１０３で行われてもよい。つまり、サーバ１０３は、ＵＩデータを生成し、その情報をモニタ１０５に出力してもよい。これによると、端末装置１０２は、ＵＩデータを受信しモニタ１０５に送信するだけでよいため、端末装置１０２での処理がほぼなくなる。よって、低性能な端末を用いてサービスを実現可能となる。

また、端末装置１０２は、手続きに関する情報を受信して実施してもかまわない。例えば、事前にサーバ１０３又は別の装置は、ｊａｖａｓｃｒｉｐｔ等のスクリプト言語で記述された処理内容を端末装置１０２に対して送信する。そして、端末装置１０２に含まれるＣＰＵ（ＣｏｍｐｕｔｅｒＰｒｏｃｅｓｓＵｎｉｔ）をはじめとする汎用プロセッサは、受信した処理内容を実施する。これによると、専用の端末装置を用意する必要がなくなる。

（実施の形態２の変形例）
本変形例においては、端末装置１０２は、サーバ１０３からＭ台のカメラ情報（カメラ映像及びカメラ位置情報）を取得した後に、カメラ選択処理を行うことでＭ台のカメラ情報をＬ台のカメラ情報（ＬはＭよりも小さい自然数）に削減し、Ｌ台のカメラ情報に対して上記と同様の処理を行うことでＵＩデータを生成する。具体的には、サーバ１０３は、カメラをＮ台からＭ台に減らす大まかなカメラ選択を行った結果を複数の端末装置１０２にマルチキャスト送信する。それぞれの端末装置１０２は、カメラをＭ台からＬ台に減らす詳細なカメラ選択処理を行う。これにより、モニタ１０５に表示するＵＩデータを各ユーザの需要に応じて変えることが可能になる。ここで、Ｎ、Ｍ、Ｌはそれぞれ自然数であり、Ｎ＞Ｍ＞Ｌの関係にある。

これによると、全ユーザに一括のデータをマルチキャスト送信することが可能となりサーバ１０３側でのデータ送信処理の簡易化と、各ユーザの需要に応じたＵＩデータの表示をユーザ毎に切り替えることとを同時に実現できる。

なお、実施の形態２における送信部１１９は、送信情報としてカメラ位置情報とカメラ映像とを送っていたが、本変形例においてはカメラ選択における評価情報（評価値）も送信される。

本変形例における送信部１１９Ａに関して図４１及び図４２を用いて説明を行う。図４１は、本変形例に係る送信部１１９Ａの一例を示すブロック図である。送信部１１９Ａは、多重化部３０１Ａと情報送信部３０２Ａとを含む。この送信部１１９Ａは、カメラ位置情報、カメラ映像及び評価値を含む送信情報を生成し、生成した送信情報を送信する。

図４２は、送信部１１９Ａの処理を示すフローチャートである。なお、サーバ１０３に含まれる送信部１１９Ａ以外の動作は実施の形態２と同様であるため、説明を割愛する。

まず、多重化部３０１Ａは、初期カメラ選択部１１５及び切替カメラ選択部１１７で選択されたカメラに関するカメラ位置情報を取得する（Ｓ３４１）。次に、多重化部３０１Ａは、選択されたカメラに関する映像情報であるカメラ映像を取得する（Ｓ３４２）。

続いて、多重化部３０１Ａは、カメラ選択で使用される、各カメラ映像の評価値を取得する（Ｓ３４３）。次に、多重化部３０１Ａは、ステップＳ３４１、Ｓ３４２及びＳ３４３で取得したカメラ位置情報、カメラ映像及び評価値を多重化することにより送信情報を生成する（Ｓ３４４）。最後に、情報送信部３０２Ａは、ステップＳ３４４にて生成された送信情報を端末装置１０２Ａに対して送信する（Ｓ３４５）。

なお、ステップＳ３４３で取得される評価値は、例えば、ステップＳ２０１又はＳ２０３で算出された評価値、或いは、複数のユーザの視聴情報から統計処理により取得された情報（例えば、視聴率又は視聴回数）であり、カメラ位置情報に含まれる各カメラの評価値である。また、評価値そのものではなく、端末装置１０２においてカメラ選択を行う際に用いられる補助情報が評価値として用いられてもよい。例えば、注目対象の被写体の三次元座標、又は、注目対象の被写体の画面内のサイズを示す情報が評価値として用いられてもよい。

続いて、図４３及び図４４を用いて本変形例における端末装置１０２Ａの構成及び動作を説明する。図４３は、端末装置１０２Ａの一例を示すブロック図である。端末装置１０２Ａは、受信部３１１Ａと、分離部３１２Ａと、カメラ選択部３１４と、表示情報生成部３１３Ａとを含む。この端末装置１０２Ａは、サーバ１０３から送信されてきた送信情報からモニタ１０５に表示するＵＩデータを生成する。

図４４は、端末装置１０２Ａによる処理を示すフローチャートである。まず、受信部３１１Ａは、サーバ１０３から送信された送信情報を受信する（Ｓ３５１）。続いて、分離部３１２Ａは、送信情報からカメラ映像、カメラ位置情報及び評価値を分離する（Ｓ３５２）。次に、カメラ選択部３１４は、ステップＳ３５２で抽出したカメラ映像、カメラ位置情報及び評価値を用いて、カメラ選択処理を行う（Ｓ３５３）。次に、表示情報生成部３１３Ａは、ステップＳ３５３で選択した複数のカメラのカメラ位置情報及びカメラ映像を用いて、モニタ１０５で表示するためのＵＩデータを生成する（Ｓ３５４）。次に、表示情報生成部３１３Ａは、ステップＳ３５４で生成されたＵＩデータを、モニタ１０５に送信する（Ｓ３５５）。これら一連の処理により、ユーザ１０６にＵＩデータが提示される。

ここで、ステップＳ３５３でのカメラ選択処理に関して図４５の模式図を用いて説明を行う。図４５に示す例では、端末装置１０２Ａが受信したカメラ位置情報には８台分のカメラ位置情報が含まれる。端末装置１０２Ａは、この８台から４台を選択するカメラ選択処理（Ｓ３５３）を行う。具体的には、このカメラ選択処理は、図６に示すフローチャートで行った処理、又は図２２に示すフローチャートのような解析的な処理でもよいし、サーバで付与された評価値を用いて、例えば視聴率の高い順から予め定められた台数のカメラを選択するなどの簡易的な処理でもよい。

なお、ステップＳ３５４及びＳ３５５の処理は図３４に示すステップＳ３１３及びＳ３１４の処理と同様の処理を用いればよいため、ここでは説明を割愛する。

なお、選択カメラに対応するカメラ映像が欠落した場合における処理は、図３９及び図４０Ａ〜図４０Ｃに関して述べたとおりであるが、変形例においては以下の処理を追加してもよい。追加する処理の一例に関して図４６の模式図を用いて説明を行う。なお、図４６において、カメラＵＩに一つ前の時刻での選択カメラを点線で記載しているが、実際には表示されなくてもよい。図４６に示すように、一つ前の時刻での選択カメラの映像をそのまま表示してもよい。具体的には、ある時刻での選択カメラが次時刻における、端末装置１０２Ａが受信した候補カメラ群には含まれているが、ステップＳ３５３のカメラ選択処理で得た候補カメラ群に含まれない場合がある。この場合、端末装置１０２Ａは、現在時刻の選択カメラのカメラ映像を受信しているので、引き続き選択カメラのカメラ映像を表示する。これによると、特定のカメラからの映像を見たいユーザに対して、ユーザが意図しない映像変化が起こることを抑制できる。

また、上記説明では、カメラ選択処理（Ｓ３５３）を端末装置１０２Ａで行う例を述べたが、サーバ１０３と端末装置１０２との間に配置された中継装置３２０がカメラ選択処理を行ってもよい。これに関して、図４７の模式図を用いて説明を行う。図４７に示す例では、サーバ１０３は、ネットワーク１０４Ｂを介して、中継装置３２０及び端末装置１０２Ａが接続されている。また、中継装置３２０は、ネットワーク１０４Ｃを介して、端末装置１０２と接続されている。なお、図４７に示す端末装置１０２及び１０２Ａは、上述した実施の形態のいずれの端末装置であってもよいが、端末装置１０２の機能は、例えば、実施の形態２と同様であり、端末装置１０２Ａの機能は、例えば、実施の形態２の変形例と同様である。

サーバ１０３は、Ｎ台のカメラ情報を含む送信情報を送信する。中継装置３２０は、サーバ１０３からの送信情報を用いて、上述したカメラ選択処理を行うことでＭ台（Ｎ＞Ｍ）のカメラ情報を含む送信情報を作成する。この際、中継装置３２０は、受信したカメラ情報に１台以上のカメラ情報が含まれる場合に、カメラ情報で示されるカメラを候補カメラ群として扱う。続いて、端末装置１０２は、中継装置３２０からの送信情報を元にＵＩデータを作成する。

この例は、例えば、サッカーなどの競技を撮影している環境を想定している。具体的には、スタジアム内にブロードバンドな環境（ネットワーク１０４Ｂ）が存在する。一方、スタジアム内と、外部とはインターネット（ネットワーク１０４Ｃ）で接続されている。このように、ネットワーク環境の異なるユーザが混在する場合に上記例は有用である。この場合、インターネット上のユーザに対して送信できる情報量とスタジアム内にいるユーザに対して送信できる情報量とが異なる。よって、インターネット上のユーザに合わせてサーバ１０３が送信する情報に含まれるカメラ台数を設定すると、スタジアムにいるユーザに対して、より多くの情報を提供可能な場合であっても、送信する情報量が制限されてしまう。これに対して、カメラ台数を減少させる中継装置３２０を用いることで、スタジアム内にいるユーザ及びインターネット越しのユーザそれぞれの通信速度に適した情報量の情報を送信することが可能となる。

図４８は、中継装置３２０の一例を示すブロック図である。中継装置３２０は、受信部３２１と、分離部３２２と、カメラ選択部３２３と、多重化部３２４と、情報送信部３２５とを含む。中継装置３２０は、サーバ１０３から送信されたＮ台のカメラに関する送信情報に対して、カメラ選択処理を行うことで、Ｍ台のカメラに関するカメラ情報を生成し、生成したカメラ情報を含む送信情報を端末装置１０２に送信する。

図４９は、中継装置３２０で行う処理の一例を示すフローチャートである。まず、受信部３２１は、サーバ１０３から送信された、Ｎ台のカメラ情報を含む送信情報を受信する（Ｓ３６１）。次に、多重化部３２４は、送信情報からカメラ映像、カメラ位置情報及び評価値を抽出する（Ｓ３６２）。次に、カメラ選択部３２３は、ステップＳ３６２で抽出されたカメラ映像、カメラ位置情報及び評価値を用いてカメラ選択処理を行う（Ｓ３６３）。なお、この処理の詳細は、例えば、上述した端末装置１０２Ａにおけるカメラ選択処理と同様である。

次に、多重化部３２４は、ステップＳ３６３で選択されたカメラのカメラ映像、カメラ位置情報及び評価値を多重化することで送信情報を生成する（Ｓ３６４）。次に、情報送信部３２５は、ステップＳ３６４で生成された送信情報を、端末装置１０２に送信する（Ｓ３６５）。

なお、中継装置３２０は１つである必要はなく、サーバ１０３と中継装置３２０との間に別の中継装置が配置されてもよい。つまり、多段に中継装置が配置されてもよい。

なお、実施の形態２及びその変形例において、サーバ１０３でＮ台からＭ台のカメラ選択を行う必要はなく、端末装置１０２又は１０２Ａに対して複数のカメラ位置情報とそれに対応するカメラ映像とが入力されればよい。

以上のように、実施の形態２及びその変形例に係る映像表示装置（端末装置１０２又は１０２Ａ）は、図５０に示す映像表示方法を行う。

まず、映像表示装置は、第１時刻において、同一の場面が互いに異なる複数の視点から撮影されることで得られた複数の第１映像から選択されることで得られた複数の第２映像（カメラ映像）を取得する（Ｓ３７１）。例えば、外部の装置（サーバ１０３）において、複数の第１映像から複数の第２映像が選択され、複数の第２映像が映像表示装置に送信される。また、映像表示装置は、さらに、複数の第２映像に対応する（複数の第２映像の撮影元の視点（カメラ位置）である）複数の第１視点を示す第１視点情報（カメラ位置情報）を取得する。

次に、映像表示装置は、複数の第１視点から一つの第１視点を第１選択視点として選択し、複数の第２映像に含まれる、第１選択視点に対応する第２映像を表示する（Ｓ３７２）。また、映像表示装置は、さらに、複数の第１視点及び第１選択視点を表示する。

次に、映像表示装置は、第１時刻より後の第２時刻において（つまり複数の第１映像より後に）、互いに異なる複数の視点から上記場面が撮影されることで得られた複数の第３映像から選択されることで得られた複数の第４映像を取得する（Ｓ３７３）。また、映像表示装置は、さらに、複数の第２視点を示す第２視点情報（カメラ位置情報）を取得する。

ここで、上述したように、第２時刻で取得された複数の第４映像の複数の第２視点は、第１時刻で取得された複数の第２映像の複数の第１視点と異なる場合がある。

次に、映像表示装置は、複数の第４映像に対応する複数の第２視点に第１選択視点が含まれるかを判定する（Ｓ３７４）。

複数の第２視点に第１選択視点が含まれると判定された場合（Ｓ３７４でＹｅｓ）、映像表示装置は、複数の第４映像に含まれる、第１選択視点に対応する第４映像を表示する（Ｓ３７５）。また、映像表示装置は、さらに、複数の第２視点及び第１選択視点を表示する。つまり、映像表示装置は、第１時刻と同一の視点（第１選択視点）の映像を継続して表示する。

一方、複数の第２視点に第１選択視点が含まれないと判定された場合（Ｓ３７４でＮｏ）、映像表示装置は、複数の第２視点から一つの第２視点を第２選択視点として選択する（Ｓ３７６）。具体的には、例えば、図４０Ｂに示すように、映像表示装置は、複数の第２視点のうち、第１選択視点に最も近い第２視点を第２選択視点として選択する。または、図４０Ｃに示すように、映像表示装置は、複数の第２視点の評価値に基づき、評価が最も高い第２映像を第２選択視点として選択する。例えば、この評価値は、複数の第２視点の映像が視聴された回数に基づき決定される。

次に、映像表示装置は、複数の第４映像に含まれる、第２選択視点に対応する第４映像を表示する（Ｓ３７７）。また、映像表示装置は、さらに、複数の第２視点及び第２選択視点を表示する。つまり、映像表示装置は、視点を切り替えることで、第１時刻の第１選択視点と異なる第２選択視点の映像を表示する。

また、実施の形態２の変形例において図４３〜図４５を用いて説明したように、映像表示装置は、さらに、複数の第２映像から複数の第５映像を選択し、複数の第４映像から複数の第６映像を選択してもよい。この場合、映像表示装置は、ステップＳ３７２において、複数の第５映像に対応する複数の第３視点から一つの第３視点を第１選択視点として選択し、複数の第５映像に含まれる、第１選択視点に対応する第５映像を表示する。また、映像表示装置は、ステップＳ３７４において、複数の第６映像に対応する複数の第４視点に第１選択視点が含まれるかを判定する。また、映像表示装置は、複数の第４視点に第１選択視点が含まれると判定された場合（Ｓ３７４でＹｅｓ）、ステップＳ３７５において、複数の第６映像に含まれる、第１選択視点に対応する第６映像を表示する。また、映像表示装置は、複数の第４視点に第１選択視点が含まれないと判定された場合（Ｓ３７４でＮｏ）、ステップＳ３７６及びＳ３７７において、複数の第４視点から一つの第４視点を第２選択視点として選択し、複数の第６映像に含まれる、第２選択視点に対応する第６映像を表示する。

また、図４６を用いて説明したように、映像表示装置は、ステップＳ３７６及びＳ３７７において、複数の第４視点に第１選択視点が含まれないと判定され、かつ、複数の第２視点に第１選択視点が含まれる場合、複数の第４映像に含まれる、第１選択視点に対応する第４映像を表示し、複数の第４視点に前記第１選択視点が含まれないと判定され、かつ、複数の第２視点に第１選択視点が含まれない場合、複数の第６映像に含まれる、第２選択視点に対応する第６映像を表示してもよい。

なお、ここでは、視点を選択する例を述べているが、カメラを選択してもよい。つまり、上記説明における視点をカメラに置き換えてもよい。

以上、実施の形態に係るカメラ選択方法、映像配信システム、映像表示方法及び映像表示装置について説明したが、本発明は、この実施の形態に限定されるものではない。

また、上記実施の形態に係る映像配信システムに含まれる各装置に含まれる各処理部は典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。

また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

言い換えると、映像配信システムに含まれる各装置又は映像表示装置は、処理回路（ｐｒｏｃｅｓｓｉｎｇｃｉｒｃｕｉｔｒｙ）と、当該処理回路に電気的に接続された（当該処理回路からアクセス可能な）記憶装置（ｓｔｏｒａｇｅ）とを備える。処理回路は、専用のハードウェア及びプログラム実行部の少なくとも一方を含む。また、記憶装置は、処理回路がプログラム実行部を含む場合には、当該プログラム実行部により実行されるソフトウェアプログラムを記憶する。処理回路は、記憶装置を用いて、上記実施の形態に係るカメラ選択方法又は映像表示方法を実行する。

さらに、本発明は上記ソフトウェアプログラムであってもよいし、上記プログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体であってもよい。また、上記プログラムは、インターネット等の伝送媒体を介して流通させることができるのは言うまでもない。

また、上記で用いた数字は、全て本発明を具体的に説明するために例示するものであり、本発明は例示された数字に制限されない。

また、上記のカメラ選択方法又は映像表示方法等に含まれるステップが実行される順序は、本発明を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

以上、本発明の一つ又は複数の態様に係る映像配信システム、カメラ選択方法、映像表示装置及び映像表示方法について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の一つ又は複数の態様の範囲内に含まれてもよい。

（実施の形態３）
上記各実施の形態で示した画像処理方法及び装置の構成の他の応用例とそれを用いたシステムを説明する。当該システムは、インテリジェント化と対象空間の広域化とが進む映像システムに適用でき、例えば、（１）店舗或いは工場のセキュリティカメラ、又は警察の車載カメラなどに実装される監視システム、（２）個人所有のカメラ或いは各車載カメラ、又は道路に備えられたカメラなどを用いた交通情報システム、（３）ドローンなど遠隔操作又は自動制御可能な装置を用いた環境調査又は配送システム、及び（４）エンターテイメント施設又はスタジアム等における設置カメラ、ドローン等の移動カメラ、又は個人所有のカメラなどを用いた映像などのコンテンツ送受信システムなどに適用できる。

図５１は、本実施の形態における映像情報処理システムｅｘ１００の構成を示す図である。本実施の形態においては、死角の発生を防止する例、及び特定の領域を撮影禁止にする例について説明する。

図５１に示す映像情報処理システムｅｘ１００は、映像情報処理装置ｅｘ１０１と、複数のカメラｅｘ１０２と、映像受信装置ｅｘ１０３とを含む。なお、映像受信装置ｅｘ１０３は、必ずしも映像情報処理システムｅｘ１００に含まれる必要はない。

映像情報処理装置ｅｘ１０１は、保存部ｅｘ１１１と、解析部ｅｘ１１２とを備える。Ｎ個のカメラｅｘ１０２のそれぞれは、映像を撮影する機能と撮影した映像データを映像情報処理装置ｅｘ１０１に送信する機能とを有する。また、カメラｅｘ１０２は、撮影中の映像を表示する機能を有する場合もある。なお、カメラｅｘ１０２は、撮影された映像信号をＨＥＶＣ又はＨ．２６４のような符号化方式を用いてエンコードしたうえで映像情報処理装置ｅｘ１０１に送信してよいし、エンコードされていない映像データを映像情報処理装置ｅｘ１０１に送信してもよい。

ここで、各カメラｅｘ１０２は、監視カメラ等の固定カメラ、無人飛行型ラジコンや車等に搭載された移動カメラ、又は、ユーザが所持するユーザカメラである。

移動カメラは、映像情報処理装置ｅｘ１０１から送信された指示信号を受信し、受信された指示信号に応じて、移動カメラ自体の位置又は撮影方向を変更する。

また、撮影開示前に複数のカメラｅｘ１０２の時刻が、サーバ又は基準カメラの時刻情報などを用いてキャリブレーションされる。また、複数のカメラｅｘ１０２の空間位置が、撮影対象となる空間のオブジェクトの写り方又は基準カメラからの相対位置に基づいてキャリブレーションされる。

情報処理装置ｅｘ１０１に含まれる保存部ｅｘ１１１は、Ｎ個のカメラｅｘ１０２から送信された映像データを保存する。

解析部ｅｘ１１２は、保存部ｅｘ１１１に保存された映像データから死角を検出し、死角の発生を防止するための移動カメラへの指示を示す指示信号を移動カメラへ送信する。移動カメラは指示信号に従って移動を行い、撮影を継続する。

解析部ｅｘ１１２は、例えば、ＳｆＭ（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ）を用いて死角検出を行う。ＳｆＭとは、異なる位置から撮影された複数の映像から被写体の三次元形状を復元する手法であり、被写体形状及びカメラ位置を同時に推定する形状復元技術として広く知られている。例えば、解析部ｅｘ１１２は、ＳｆＭを用いて、保存部ｅｘ１１１に保存された映像データから施設内又はスタジアム内の三次元形状を復元し、復元できない領域を死角として検出する。

なお、解析部ｅｘ１１２は、カメラｅｘ１０２の位置及び撮影方向が固定であり、位置及び撮影方向の情報が既知の場合は、これらの既知の情報を用いてＳｆＭを行ってもよい。また、移動カメラの位置及び撮影方向が、移動カメラが備えるＧＰＳ及び角度センサ等により取得できる場合は、移動カメラは、当該移動カメラの位置及び撮影方向の情報を解析部ｅｘ１１２に送信し、解析部ｅｘ１１２は、送信された位置及び撮影方向の情報を用いてＳｆＭを行ってもよい。

なお、死角検出の方法は上述したＳｆＭを用いた方法に限られるものではない。例えば、解析部ｅｘ１１２は、レーザレンジファインダなどのデプスセンサの情報を用いることで、撮影対象であるオブジェクトの空間距離を把握してもよい。また、解析部ｅｘ１１２は、カメラ位置、撮影方向及びズーム倍率等の情報を、空間内の予め設定したマーカ又は特定のオブジェクトが画像に含まれるか、含まれる場合にはそのサイズ等から検出してもよい。このように、解析部ｅｘ１１２は、各カメラの撮影領域を検出できる任意の方法を用いて、死角の検出を行う。また、解析部ｅｘ１１２は、複数の撮影対象について互いの位置関係等の情報を映像データ又は近接距離センサ等から取得し、取得した位置関係に基づいて死角が発生する可能性の高い領域を特定してもよい。

ここで死角とは、撮影したい領域中で映像が存在しない部分だけでなく、他の部分と比較して画質の悪い部分、及び予め定められた画質を得られていない部分などを含む。この検出対象の部分は、当該システムの構成又は目的に応じて適宜設定されればよい。例えば、撮影される空間中の特定の被写体について、要求される画質が高く設定されてもよい。また、逆に撮影空間中の特定の領域について、要求される画質が低く設定されてもよいし、映像が撮影されていなくても死角と判定しないように設定されてもよい。

なお、上述した画質とは、映像中の撮影対象となる被写体が占める面積（例えばピクセル数）、又は撮影対象となる被写体にピントが合っているかといった映像に関する様々な情報を含むものであり、それらの情報又はその組み合わせを基準に死角であるか否かが判定されればよい。

なお、上記の説明では、実際に死角となっている領域の検出について説明したが、死角の発生を防止するために検出する必要のある領域は実際に死角となっている領域に限定されない。例えば、複数の撮影対象が存在し、少なくともその一部が移動している場合には、ある撮影対象とカメラとの間に別の撮影対象が入ることによって新たな死角が生じる可能性がある。これに対し、解析部ｅｘ１１２は、例えば撮影された映像データ等から複数の撮影対象の動きを検出し、検出された複数の撮影対象の動きとカメラｅｘ１０２の位置情報に基づいて、新たに死角となる可能性のある領域を推定してもよい。この場合、映像情報処理装置ｅｘ１０１は、死角となる可能性のある領域を撮影するように移動カメラに指示信号を送信し、死角の発生を防止してもよい。

なお、移動カメラが複数ある場合、映像情報処理装置ｅｘ１０１は、死角、又は死角となる可能性がある領域を撮影させるために指示信号を送信する移動カメラを選択する必要がある。また、移動カメラ及び死角、又は死角となる可能性がある領域がそれぞれ複数存在する場合、映像情報処理装置ｅｘ１０１は、複数の移動カメラのそれぞれについて、どの死角、又は死角となる可能性がある領域を撮影させるかを決定する必要がある。例えば、映像情報処理装置ｅｘ１０１は、死角、又は死角となる可能性のある領域と各移動カメラが撮影中の領域の位置とに基づいて、死角、又は死角となる領域に最も近い移動カメラを選択する。また、映像情報処理装置ｅｘ１０１は、各移動カメラについて、当該移動カメラが現在撮影中の映像データが得られない場合に新たに死角が発生するか否かを判定し、現在撮影中の映像データが得られなくても死角が発生しないと判断された移動カメラを選択してもよい。

以上の構成により、映像情報処理装置ｅｘ１０１は、死角を検出し、死角を防止するように移動カメラに対して指示信号を送信することにより、死角の発生を防止できる。

（変形例１）
なお、上記説明では、移動カメラに移動を指示する指示信号が送信される例を述べたが、指示信号は、ユーザカメラのユーザに移動を指示するための信号であってもよい。例えば、ユーザカメラは、指示信号に基づき、ユーザにカメラの方向を変更するように指示する指示画像を表示する。なお、ユーザカメラは、ユーザの移動の指示として、地図上に移動経路を示した指示画像を表示してもよい。また、ユーザカメラは、取得される画像の質を向上させるために撮影方向、角度、画角、画質、及び撮影領域の移動など詳細な撮影の指示を表示してもよく、さらに映像情報処理装置ｅｘ１０１側で制御可能であれば、映像情報処理装置ｅｘ１０１は、そのような撮影に関するカメラｅｘ１０２の特徴量を自動で制御してもよい。

ここで、ユーザカメラは、例えば、スタジアム内の観客又は施設内の警備員が持つスマートフォン、タブレット型端末、ウェアラブル端末、又はＨＭＤ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）である。

また、指示画像を表示する表示端末は、映像データを撮影するユーザカメラと同一である必要はない。例えば、ユーザカメラに予め対応付けられた表示端末に対して、ユーザカメラが指示信号又は指示画像を送信し、当該表示端末が指示画像を表示してもよい。また、ユーザカメラに対応する表示端末の情報が、予め映像情報処理装置ｅｘ１０１に登録されてもよい。この場合は、映像情報処理装置ｅｘ１０１は、ユーザカメラに対応する表示端末に対して指示信号を直接送信することで、表示端末に指示画像を表示させてもよい。

（変形例２）
解析部ｅｘ１１２は、例えばＳｆＭを用いて、保存部ｅｘ１１１に保存された映像データから施設内又はスタジアム内の三次元形状を復元することで自由視点映像（三次元再構成データ）を生成してもよい。この自由視点映像は、保存部ｅｘ１１１に保存される。映像情報処理装置ｅｘ１０１は、映像受信装置ｅｘ１０３から送信される視野情報（及び／又は、視点情報）に応じた映像データを保存部ｅｘ１１１から読み出して、映像受信装置ｅｘ１０３に送信する。なお、映像受信装置ｅｘ１０３は、複数のカメラの一つであってもよい。

（変形例３）
映像情報処理装置ｅｘ１０１は、撮影禁止領域を検出してもよい。この場合、解析部ｅｘ１１２は撮影画像を解析し、移動カメラが撮影禁止領域を撮影している場合には移動カメラに対して撮影禁止信号を送信する。移動カメラは撮影禁止信号を受信している間は撮影を停止する。

解析部ｅｘ１１２は、例えば、ＳｆＭを用いて復元された三次元の仮想空間と、撮影映像とのマッチングを取ることで、空間内で予め設定されている移動カメラが撮影禁止領域を撮影中かを判定する。または、解析部ｅｘ１１２は、空間内に配置されたマーカ又は特徴的なオブジェクトをトリガーとして移動カメラが撮影禁止領域を撮影中かを判定する。撮影禁止領域とは、例えば施設内又はスタジアム内のトイレなどである。

また、ユーザカメラが撮影禁止領域を撮影している場合には、ユーザカメラは、無線又は有線で接続されるディスプレイ等にメッセージを表示したり、スピーカ又はイヤホンから音又は音声を出力したりすることで、現在の場所が撮影禁止場所であることをユーザに知らせてもよい。

例えば、上記メッセージとして、現在カメラを向けている方向が撮影禁止である旨が表示される。または、表示される地図上に撮影禁止領域と現在の撮影領域とが示される。また、撮影の再開は、例えば、撮影禁止信号が出力されなくなれば自動的に行われる。または、撮影禁止信号が出力されておらず、かつ、ユーザが撮影再開を行う操作をした場合に、撮影が再開されてもよい。また、撮影の停止と再開とが短期間で複数回起こった場合には、再度キャリブレーションが行われてもよい。または、ユーザに現在位置を確認したり移動を促したりするための通知が行われてもよい。

また、警察など特別な業務の場合には、記録のためこのような機能をオフにするパスコード又は指紋認証などが用いられてもよい。さらに、そのような場合であっても撮影禁止領域の映像が外部に表示されたり保存される場合には自動でモザイクなど画像処理が行われてもよい。

以上の構成により、映像情報処理装置ｅｘ１０１は、撮影禁止の判定を行い、撮影を停止するようにユーザに通知することで、ある領域を撮影禁止に設定できる。

（変形例４）
映像から三次元の仮想空間を構築するためには、複数視点の映像を集める必要があるため、映像情報処理システムｅｘ１００は、撮影映像を転送したユーザに対してインセンティブを設定する。例えば、映像情報処理装置ｅｘ１０１は、映像を転送したユーザに対し、無料又は割引料金で映像配信を行ったり、オンライン又はオフラインの店又はゲーム内で使用できるような金銭的な価値、又はゲームなどのバーチャル空間での社会的地位など非金銭的な価値のあるポイントを付与する。また、映像情報処理装置ｅｘ１０１は、リクエストが多いなど価値のある視野（及び／又は、視点）の撮影映像を転送したユーザに対しては特に高いポイントを付与する。

（変形例５）
映像情報処理装置ｅｘ１０１は、解析部ｅｘ１１２の解析結果に基づき、ユーザカメラに対して付加情報を送信してもよい。この場合、ユーザカメラは撮影映像に付加情報を重畳して、画面に表示する。付加情報とは、例えば、スタジアムでの試合が撮影されている場合には、選手名又は身長などの選手の情報であり、映像内の各選手に対応付けて当該選手の名前又は顔写真などが表示される。なお、映像情報処理装置ｅｘ１０１は、映像データの一部又は全部の領域に基づきインターネット経由の検索により、付加情報を抽出してもよい。また、カメラｅｘ１０２は、Ｂｌｕｅｔｏｏｔｈ（登録商標）をはじめとする近距離無線通信又は、スタジアム等の照明から可視光通信によりそのような付加情報を受け取り、受け取った付加情報を、映像データにマッピングしてもよい。また、カメラｅｘ１０２は、このマッピングを、カメラｅｘ１０２に有線又は無線により接続される記憶部に保持されるテーブルであって、可視光通信技術により得られる情報と付加情報との対応関係を示すテーブルなどの一定規則に基づいて行なってもよいし、インターネット検索により最も確からしい組み合わせの結果を用いて行なってもよい。

また、監視システムにおいては、施設内の警備員が持つユーザカメラに対して、例えば注意人物の情報が重畳されることで、監視システムの高精度化を図ることができる。

（変形例６）
解析部ｅｘ１１２は，自由視点映像とユーザカメラの撮影映像とのマッチングを取ることで、ユーザカメラが施設内又はスタジアム内のどの領域を撮影中かを判定してもよい。なお、撮影領域の判定方法はこれに限られず、上述した各実施の形態で説明した様々な撮影領域の判定方法又はその他の撮影領域の判定方法を用いられてもよい。

映像情報処理装置ｅｘ１０１は、解析部ｅｘ１１２の解析結果に基づき、ユーザカメラに対して過去映像を送信する。ユーザカメラは撮影映像に過去映像を重畳して、又は撮影映像を過去映像に置換して、画面に表示する。

例えば、ハーフタイム中に、過去映像として前半のハイライトシーンが表示される。これにより、ユーザはハーフタイム中に、前半のハイライトシーンを自分が見ている方向の映像として楽しむことができる。なお過去映像は、前半のハイライトシーンに限らず、そのスタジアムで行われた過去の試合のハイライトシーンなどでもよい。また、映像情報処理装置ｅｘ１０１が過去映像を配信するタイミングはハーフタイム中に限らず、例えば試合終了後でも、試合中でもよい。特に試合中の場合には、解析部ｅｘ１１２の解析結果に基づき、映像情報処理装置ｅｘ１０１はユーザが見逃した重要と考えられるシーンを配信してもよい。また、映像情報処理装置ｅｘ１０１はユーザからリクエストがあった場合のみ過去映像を配信してもよく、又は過去映像の配信前に配信許可のメッセージを配信してもよい。

（変形例７）
映像情報処理装置ｅｘ１０１は、解析部ｅｘ１１２の解析結果に基づき、ユーザカメラに対して広告情報を送信してもよい。ユーザカメラは撮影映像に広告情報を重畳して、画面に表示する。

広告情報は例えば変形例６で示した、ハーフタイム中又は試合終了後の過去映像配信直前に配信されてもよい。これにより、配信業者は広告主からの広告料を得ることができ、ユーザに安価又は無料で映像配信サービスを提供できる。また、映像情報処理装置ｅｘ１０１は、広告情報の配信直前に広告配信許可のメッセージを配信してもよいし、ユーザが広告を視聴した場合のみ無料でサービスを提供してもよいし、広告を視聴しない場合より安価にサービスを提供してもよい。

また、広告に従ってユーザが「今すぐ注文する」などをクリックすると、当該システム又は何らかの位置情報に基づいてユーザの位置を把握しているスタッフ又は会場の自動の配送システムが注文された飲み物を席まで届けてくれる。決裁はスタッフへの手渡しでもよいし、予めモバイル端末のアプリ等に設定されているクレジットカード情報に基づいて行われてもよい。また、広告にはｅコマースサイトへのリンクが含まれ、通常の自宅配送等のオンラインショッピングが可能な状態になっていてもよい。

（変形例８）
映像受信装置ｅｘ１０３は、カメラｅｘ１０２（ユーザカメラ）の一つであってもよい。この場合、解析部ｅｘ１１２は、自由視点映像とユーザカメラの撮影映像とのマッチングを取ることで、ユーザカメラが施設内又はスタジアム内のどの領域を撮影中かを判定する。なお、撮影領域の判定方法はこれに限らない。

例えば、ユーザが、画面に表示されている矢印の方向にスワイプ操作をすると、ユーザカメラはその方向へ視点を移動させることを示す視点情報を生成する。映像情報処理装置ｅｘ１０１は、解析部ｅｘ１１２が判定したユーザカメラの撮影領域から視点情報の分だけ移動させた領域を撮影した映像データを保存部ｅｘ１１１から読み出し、当該映像データのユーザカメラへの送信を開始する。そしてユーザカメラは撮影映像ではなく、映像情報処理装置ｅｘ１０１から配信された映像を表示する。

以上により、施設内又はスタジアム内のユーザは、画面スワイプのような簡易な動作で、好きな視点からの映像を視聴できる。例えば野球場の３塁側で観戦している観客が、１塁側の視点からの映像を視聴できる。また、監視システムにおいては、施設内の警備員が画面スワイプのような簡易な動作で、自身が確認したい視点又はセンターからの割り込みとして注視すべき映像などを、視点を適用的に変えながら視聴することができるので、監視システムの高精度化を図ることができる。

また、施設内又はスタジアム内のユーザへの映像の配信は、例えばユーザカメラと撮影対象との間に障害物が存在し、見えない領域がある場合等にも有効である。この場合、ユーザカメラは、ユーザカメラの撮影領域のうち障害物が含まれる一部の領域の映像を、撮影映像から、映像情報処理装置ｅｘ１０１からの配信映像に切り替えて表示してもよいし、画面全体を撮影映像から配信映像に切り替えて表示してもよい。また、ユーザカメラは、撮影映像と配信映像とを合成して障害物を透過して視聴対象が見えているような映像を表示してもよい。この構成によると、障害物の影響でユーザの位置から撮影対象が見えない場合にも、映像情報処理装置ｅｘ１０１から配信された映像を視聴することができるので、障害物の影響を軽減することができる。

また、障害物により見えない領域の映像として配信映像を表示する場合は、上述した画面スワイプのようなユーザによる入力処理に応じた表示の切り替え制御とは異なる表示の切り替え制御が行われてもよい。例えば、ユーザカメラの移動及び撮影方向の情報、並びに予め得られている障害物の位置情報に基づいて撮影領域に障害物が含まれると判定される場合に、撮影映像から配信映像への表示の切り替えが自動的に行われもよい。また、撮影映像データの解析により撮影対象ではない障害物が映っていると判定された場合に、撮影映像から配信映像への表示の切り替えが自動的に行われてもよい。また、撮影映像に含まれる障害物の面積（例えばピクセル数）が所定の閾値を超えた場合、又は撮影対象の面積に対する障害物の面積の比が所定の割合を超えた場合に、撮影映像から配信映像への表示の切り替えが自動的に行われてもよい。

なお、ユーザの入力処理に応じて撮影映像から配信映像への表示の切り替え及び配信映像から撮影映像への表示の切り替えが行われてもよい。

（変形例９）
各カメラｅｘ１０２で撮影された映像データの重要度に基づき映像データを映像情報処理装置ｅｘ１０１に転送する速度が指示されてもよい。

この場合、解析部ｅｘ１１２は保存部ｅｘ１１１に保存された映像データ、又は当該映像データを撮影したカメラｅｘ１０２の重要度を判定する。ここでの重要度の判定は、例えば映像中に含まれる人の数或いは移動物体の数、映像データの画質などの情報、又はその組み合わせに基づいて行われる。

また、映像データの重要度の判定は、映像データが撮影されたカメラｅｘ１０２の位置又は映像データが撮影している領域に基づいてもよい。例えば、対象のカメラｅｘ１０２の近くに撮影中の他のカメラｅｘ１０２が複数存在する場合に、対象のカメラｅｘ１０２で撮影された映像データの重要度を低くする。また、対象のカメラｅｘ１０２の位置が他のカメラｅｘ１０２から離れていても同じ領域を撮影している他のカメラｅｘ１０２が複数存在する場合に、対象のカメラｅｘ１０２で撮影された映像データの重要度を低くする。また、映像データの重要度の判定は、映像配信サービスにおけるリクエストの多さに基づいて行われてもよい。なお、重要度の判定方法は、上述したものやその組み合わせに限られず、監視システム又は映像配信システムの構成又は目的に応じた方法であればよい。

また、重要度の判定は撮影された映像データに基づくものでなくてもよい。例えば、映像情報処理装置ｅｘ１０１以外の端末へ映像データを送信するカメラｅｘ１０２の重要度が高く設定されてもよい。逆に、映像情報処理装置ｅｘ１０１以外の端末へ映像データを送信するカメラｅｘ１０２の重要度が低く設定されてもよい。これにより、例えば、映像データの伝送を必要とする複数のサービスが通信帯域を共有している場合に、各サービスの目的又は特性に応じた通信帯域の制御の自由度が高くなる。これにより、必要な映像データが得られないことによる各サービスの品質の劣化を防止できる。

また、解析部ｅｘ１１２は、自由視点映像とカメラｅｘ１０２の撮影映像とを用いて、映像データの重要度を判定してもよい。

映像情報処理装置ｅｘ１０１は、解析部ｅｘ１１２で行われた重要度の判定結果に基づき、カメラｅｘ１０２に対して通信速度指示信号を送信する。映像情報処理装置ｅｘ１０１は、例えば、重要度が高い映像を撮影しているカメラｅｘ１０２に対して高い通信速度を指示する。また、映像情報処理装置ｅｘ１０１は、速度の制御だけではなく、重要な情報については、欠落によるデメリットを低減するために複数回送るような方式を指示する信号を送信してもよい。これにより、施設内又はスタジアム内全体の通信を効率的に行うことができる。なお、カメラｅｘ１０２と映像情報処理装置ｅｘ１０１との通信は、有線通信であっても無線通信であってもよい。また、映像情報処理装置ｅｘ１０１は、有線通信及び無線通信のいずれか一方のみを制御してもよい。

カメラｅｘ１０２は、通信速度指示信号に従った通信速度で、撮影映像データを映像情報処理装置ｅｘ１０１に送信する。なお、カメラｅｘ１０２は所定の回数再送が失敗した場合には、その撮影映像データの再送を停止し、次の撮影映像データの転送を開始してもよい。これにより、施設内又はスタジアム内全体の通信を効率的に行うことができ、解析部ｅｘ１１２における処理の高速化を実現できる。

また、カメラｅｘ１０２は、それぞれに割り当てられた通信速度が撮影した映像データを転送するために十分な帯域でない場合は、撮影した映像データを、割り当てられた通信速度で送信可能なビットレートの映像データに変換し、変換後の映像データを送信してもよし、映像データの転送を中止してもよい。

また、上述したように死角の発生を防止するために映像データが使用される場合、撮影された映像データに含まれる撮影領域のうちの一部の領域のみが死角を埋めるために必要である可能性がある。この場合、カメラｅｘ１０２は、少なくとも、映像データから、死角の発生を防止するために必要とされる領域のみを抽出することで抽出映像データを生成し、生成された抽出映像データを映像情報処理装置ｅｘ１０１に送信してもよい。この構成によると、死角の発生の抑制をより少ない通信帯域で実現できる。

また、例えば、付加情報の重畳表示又は映像配信が行われる場合には、カメラｅｘ１０２は、映像情報処理装置ｅｘ１０１にカメラｅｘ１０２の位置情報及び撮影方向の情報を送信する必要がある。この場合、映像データを転送するためには十分ではない帯域しか割り当てられなかったカメラｅｘ１０２は、カメラｅｘ１０２で検出された位置情報及び撮影方向の情報のみを送信してもよい。また、映像情報処理装置ｅｘ１０１においてカメラｅｘ１０２の位置情報及び撮影方向の情報を推定する場合は、カメラｅｘ１０２は、撮影した映像データを、位置情報及び撮影方向の情報の推定に必要な解像度に変換し、変換された映像データを映像情報処理装置ｅｘ１０１に送信してもよい。この構成によると、少ない通信帯域しか割り当てられなかったカメラｅｘ１０２に対しても、付加情報の重畳表示又は映像配信のサービスを提供できる。また、映像情報処理装置ｅｘ１０１は、より多くのカメラｅｘ１０２から撮影領域の情報を取得できるため、例えば注目されている領域を検出する等の目的で、撮影領域の情報を利用するような場合においても有効である。

なお、上述した割り当てられた通信帯域に応じた映像データの転送処理の切り替えは、通知された通信帯域に基づいてカメラｅｘ１０２が行ってもよいし、映像情報処理装置ｅｘ１０１が各カメラｅｘ１０２の動作を決定し、決定された動作を示す制御信号を各カメラｅｘ１０２に通知してもよい。これにより、動作の切り替えの判定に必要な計算量、カメラｅｘ１０２の処理能力、及び必要となる通信帯域等に応じて、適切に処理の分担を行える。

（変形例１０）
解析部ｅｘ１１２は、映像受信装置ｅｘ１０３から送信された視野情報（及び／又は、視点情報）に基づき、映像データの重要度を判定してもよい。例えば、解析部ｅｘ１１２は、視野情報（及び／又は、視点情報）が示す領域を多く含む撮影映像データの重要度を高く設定する。また、解析部ｅｘ１１２は、映像中に含まれる人の数、又は移動物体の数を考慮して、映像データの重要度を判定してもよい。なお、重要度の判定方法はこれに限らない。

なお、本実施の形態で説明した通信制御方法は、必ずしも複数の映像データから三次元形状の再構築を行うシステムにおいて用いられる必要はない。例えば複数のカメラｅｘ１０２が存在する環境において、映像データを選択的又は伝送速度に差をつけて有線通信及び／又は無線通信で送信する場合であれば、本実施の形態で説明した通信制御方法は有効である。

（変形例１１）
映像配信システムにおいて、映像情報処理装置ｅｘ１０１は、撮影シーンの全体を示す概観映像を映像受信装置ｅｘ１０３に送信してもよい。

具体的には、映像情報処理装置ｅｘ１０１は、映像受信装置ｅｘ１０３から送信された配信リクエストを受信した場合、保存部ｅｘ１１１から施設内又はスタジアム内全体の概観映像を読み出し、当該外観映像を映像受信装置ｅｘ１０３に送信する。この概観映像は更新間隔が長くてもよく（低フレームレートでもよく）、また画質が低くてもよい。視聴者は、映像受信装置ｅｘ１０３の画面上に表示された概観映像中で、見たい部分をタッチする。これにより、映像受信装置ｅｘ１０３は、タッチされた部分に対応する視野情報（及び／又は、視点情報）を映像情報処理装置ｅｘ１０１に送信する。

映像情報処理装置ｅｘ１０１は、視野情報（及び／又は、視点情報）に応じた映像データを保存部ｅｘ１１１から読み出し、当該映像データを映像受信装置ｅｘ１０３に送信する。

また、解析部ｅｘ１１２は、視野情報（及び／又は、視点情報）で示される領域に対して優先的に三次元形状の復元（三次元再構成）を行うことで自由視点映像を生成する。解析部ｅｘ１１２は、施設内又はスタジアム内全体の三次元形状を、概観を示す程度の精度で復元する。これにより、映像情報処理装置ｅｘ１０１は、三次元形状の復元を効率的に行うことができる。その結果、視聴者が見たい領域の自由視点映像の高フレームレート化、及び高画質を実現できる。

（変形例１２）
なお、映像情報処理装置ｅｘ１０１は、例えば、設計図面などから事前に生成された施設又はスタジアムの三次元形状復元データを事前映像として、予め保存しておいてもよい。なお、事前映像はこれに限らず、デプスセンサから得られる空間の凹凸と、過去又はキャリブレーション時の画像又は映像データから導出されるピクチャとをオブジェクトごとにマッピングした仮想空間データであってもよい。

例えば、スタジアムでサッカーが行われている場合、解析部ｅｘ１１２は、選手及びボールのみに限定して三次元形状の復元を行い、得られた復元データと事前映像とを合成することで自由視点映像を生成してもよい。あるいは、解析部ｅｘ１１２は、選手及びボールに対して優先して三次元形状の復元を行ってもよい。これにより、映像情報処理装置ｅｘ１０１は、三次元形状の復元を効率的に行うことができる。その結果、視聴者が注目する選手及びボールに関する自由視点映像の高フレームレート化及び高画質化を実現できる。また、監視システムにおいては、解析部ｅｘ１１２は、人物及び移動物体のみに限定して、又はそれらを優先して三次元形状の復元を行ってもよい。

（変形例１３）
各装置の時刻は、サーバの基準時刻等に基づき、撮影開始時にキャリブレーションされてもよい。解析部ｅｘ１１２は、複数のカメラｅｘ１０２で撮影された複数の撮影映像データのうち、時刻設定の精度に応じて、予め設定された時間範囲内に属する時刻に撮影された複数の映像データを用いて、三次元形状の復元を行う。この時刻の検出には、例えば撮影映像データが保存部ｅｘ１１１に格納された時刻が用いられる。なお、時刻の検出方法はこれに限らない。これにより、映像情報処理装置ｅｘ１０１は、三次元形状の復元を効率的に行うことができるので、自由視点映像の高フレームレート化及び高画質化を実現できる。

または、解析部ｅｘ１１２は、保存部ｅｘ１１１に保存された複数の映像データのうち、高画質データのみを用いて、又は高画質データを優先的に用いて、三次元形状の復元を行ってもよい。

（変形例１４）
解析部ｅｘ１１２は、カメラ属性情報を用いて、三次元形状の復元を行ってもよい。例えば、解析部ｅｘ１１２は、カメラ属性情報を用いて、視体積交差法又はマルチビューステレオ法などの手法により三次元映像を生成してもよい。この場合、カメラｅｘ１０２は、撮影映像データとカメラ属性情報とを映像情報処理装置ｅｘ１０１に送信する。カメラ属性情報は、例えば、撮影位置、撮影角度、撮影時刻、又はズーム倍率などである。

これにより、映像情報処理装置ｅｘ１０１は、三次元形状の復元を効率的に行うことができるので、自由視点映像の高フレームレート化及び高画質化を実現できる。

具体的には、カメラｅｘ１０２は、施設内又はスタジアム内に三次元座標を定義し、カメラｅｘ１０２がどのあたりの座標をどの角度から、どれ位のズームで、どの時間に撮ったかという情報を映像と共にカメラ属性情報として映像情報処理装置ｅｘ１０１に送信する。また、カメラｅｘ１０２の起動時に、施設内又はスタジアム内の通信ネットワーク上の時計とカメラ内の時計との同期がとられ、時間情報が生成される。

また、カメラｅｘ１０２の起動時又は任意のタイミングで施設内又はスタジアム内の特定のポイントにカメラｅｘ１０２を向けることにより、カメラｅｘ１０２の位置及び角度情報が取得される。図５２は、カメラｅｘ１０２に起動時に、カメラｅｘ１０２の画面上に表示される通知の一例を示す図である。ユーザがこの通知に従い、スタジアム北側の広告中のサッカーボール中心にある「＋」に、画面中央に表示された「＋」を合わせて、カメラｅｘ１０２のディスプレイをタッチすると、カメラｅｘ１０２は、カメラｅｘ１０２から広告までのベクトル情報を取得しカメラ位置及び角度の基準を特定する。その後、カメラｅｘ１０２のモーション情報からその時々のカメラ座標及び角度が特定される。もちろん、この表示に限るものではなく、矢印等を用いて撮影期間中も座標、角度、又は撮影領域の移動速度等を指示するような表示が用いられてもよい。

カメラｅｘ１０２の座標の特定は、ＧＰＳ、ＷｉＦｉ（登録商標）、３Ｇ、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、及び５Ｇ（無線ＬＡＮ）の電波を用いて行われてもよいし、ビーコン（Ｂｌｕｅｔｏｏｔｈ（登録商標）、超音波）など近距離無線を利用して行われてもよい。また、施設内又はスタジアム内のどの基地局に撮影映像データが届いたかという情報が用いられてもよい。

（変形例１５）
当該システムはスマートフォン等のモバイル端末上で動作するアプリケーションとして提供されてもよい。

上記システムへのログインには、各種ＳＮＳ等のアカウントが用いられてもよい。なお、アプリ専用のアカウント、又は機能が制限されたゲストアカウントが用いられてもよい。このようにアカウントが用いられることで、好みの映像又は好みのアカウント等を評価することができる。また、撮影中又は視聴中の映像データに類似した映像データ、撮影中又は視聴中の映像データの視点に類似した視点の映像データなどに優先的に帯域を割り振ることで、これらの映像データの解像度を高めることができる。これにより、これらの視点からの三次元形状の復元をより精度よく行うことができる。

また、ユーザは、当該アプリケーションで、好みの画像映像を選択し、相手方をフォローすることで、選択した画像を他のユーザよりも優先して見たり、相手方の承認などを条件にテキストチャット等でつながりをもつことができる。このように、新たなコミュニティの生成が可能である。

このようにユーザ同士がコミュニティ内でつながることにより、撮影自体、また撮影した画像の共有などが活発化し、より精度の高い三次元形状の復元を促すことができる。

また、コミュニティ内のつながりの設定に応じて、ユーザは、他人が撮影した画像又は映像を編集したり、他人の画像と自分の画像とをコラージュして新たな画像又は映像を作成したりできる。これにより、新たな画像又は映像を当該コミュニティ内の人のみでシェアするなど、新たな映像作品のシェアが可能になる。また、この編集においてＣＧのキャラクタを挿入するなどにより、拡張現実（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）のゲーム等にも映像作品を利用できる。

また、当該システムによると三次元モデルデータが逐次出力可能になるため、ゴールシーンなどの特徴的なシーンでの三次元モデルデータに基づき、施設が有する３Ｄプリンタなどが立体オブジェクトを出力することができる。これにより、試合後に、その試合中のシーンに基づくオブジェクトをキーホルダーのようなお土産として売ったり、参加ユーザに配布することも可能である。もちろん通常の写真として、もっとも良い視点からの画像をプリントすることも可能である。

（変形例１６）
上記システムを用いて、例えば、警察の車載カメラ、及び警察官のウェアラブルカメラの映像などから、地域全体の大雑把な状態を、当該システムに接続されたセンターで管理することができる。

一般のパトロールの時は、例えば数分おきで静止画の送受信が行なわれる。また、センターは、過去の犯罪データ等を用いて分析した結果に基づいた犯罪マップに基づいて犯罪発生の可能性が高い地域を特定する、もしくはこのように特定された犯罪発生確率に関連する地域データを保持している。特定された犯罪発生確率の高い地域では、画像の送受信の頻度を上げたり、画像を動画に変更したりしてもよい。また、事件発生時は、動画、又はＳｆＭ等を用いた三次元再構成データが用いられてもよい。また、センターもしくは各端末が、同時にデプスセンサ又はサーモセンサなど他のセンサの情報を用いて画像又は仮想空間を補正することで、警察官は、より正確に状況を把握できる。

また、センターは、三次元再構成データを用いることで、複数の端末にそのオブジェクトの情報をフィードバックできる。これにより、各端末を持つ個々人がオブジェクトをトラッキングできる。

また、最近では、建造物或いは環境の調査、又はスポーツなどの臨場感ある撮影等の目的で、クワッドコプター、ドローンなどの飛行可能な装置による空中からの撮影が行なわれる。このような自律移動装置による撮影は、画像がブレるということが問題になりやすいが、ＳｆＭは位置及び傾きによりそのブレを補正しながら三次元化を行なうことが可能である。これにより、画質の向上、及び空間の復元精度の向上を実現できる。

また、車外を撮影する車載カメラの設置が、国によっては義務付けられている。このような車載カメラにおいても、複数の画像からモデル化された三次元データを用いることで、行き先の方向の天気及び路面の状態、並びに渋滞度合い等をより精度よく把握できる。

（変形例１７）
上記システムは、例えば、複数のカメラを利用して建物又は設備の測距又はモデリングを行うシステムにも適用できる。

ここで、例えば、１台のドローンを用いて建物を上空から撮影し、建物の測距又はモデリングを行う場合には、測距中にカメラに動物体が写りこむことで測距の精度が低下するという課題がある。また、動物体の測距及びモデリングを行えないという課題がある。

一方で、上述したように複数のカメラ（固定カメラ、スマートフォン、ウェアラブルカメラ及びドローン等）を用いることで、動物体の有無にかかわらず安定した精度で建物の測距及びモデリングを実現できる。また、動物体の測距及びモデリングを実現できる。

具体的には、例えば、建築現場において作業員のヘルメット等にカメラが取り付けられる。これにより、作業員の作業に並行して建物の測距を行うことができる。また、作業の効率化及びミス防止にも用いることができる。また、作業員に装着されたカメラで撮影された映像を用いて建物をモデリングできる。さらに、遠隔地にいる管理者が、モデリングされた建物を見ることで進捗具合を確認できる。

また、当該システムは、工場又は発電所の機械等、停止できない設備の点検に使用できる。また、当該システムは、橋或いはダムの開閉、又は、遊園地の乗り物の動作等に異常がないかを点検する場合に使用できる。

また、当該システムにより、道路の渋滞具合又は交通量を監視することで、各時間帯の道路の渋滞具合又は交通量を示す地図を生成することができる。

（実施の形態４）
上記各実施の形態で示した画像処理方法の構成を実現するためのプログラムを記憶メディアに記録することにより、上記各実施の形態で示した処理を独立したコンピュータシステムにおいて簡単に実施することが可能となる。記憶メディアは、磁気ディスク、光ディスク、光磁気ディスク、ＩＣカード、半導体メモリ等、プログラムを記録できるものであればよい。

さらにここで、上記各実施の形態で示した画像処理方法の応用例とそれを用いたシステムを説明する。当該システムは、画像処理方法を用いた装置を有することを特徴とする。システムにおける他の構成について、場合に応じて適切に変更することができる。

図５３は、コンテンツ配信サービスを実現するコンテンツ供給システムｅｘ２００の全体構成を示す図である。通信サービスの提供エリアを所望の大きさに分割し、各セル内にそれぞれ固定無線局である基地局ｅｘ２０６、ｅｘ２０７、ｅｘ２０８、ｅｘ２０９、ｅｘ２１０が設置されている。

このコンテンツ供給システムｅｘ２００は、インターネットｅｘ２０１にインターネットサービスプロバイダｅｘ２０２および通信網ｅｘ２０４、および基地局ｅｘ２０６からｅｘ２１０を介して、コンピュータｅｘ２１１、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）ｅｘ２１２、カメラｅｘ２１３、スマートフォンｅｘ２１４、ゲーム機ｅｘ２１５などの各機器が接続される。

しかし、コンテンツ供給システムｅｘ２００は図５３のような構成に限定されず、いずれかの要素を組合せて接続するようにしてもよい。また、固定無線局である基地局ｅｘ２０６からｅｘ２１０を介さずに、各機器が電話線、ケーブルテレビ、又は光通信などの通信網ｅｘ２０４に直接接続されてもよい。また、各機器が近距離無線等を介して直接相互に接続されていてもよい。

カメラｅｘ２１３はデジタルビデオカメラ等の動画撮影が可能な機器であり、カメラｅｘ２１６はデジタルカメラ等の静止画撮影、動画撮影が可能な機器である。また、スマートフォンｅｘ２１４は、ＧＳＭ（登録商標）（ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ）方式、ＣＤＭＡ（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）方式、Ｗ−ＣＤＭＡ（Ｗｉｄｅｂａｎｄ−ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）方式、若しくはＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）方式、ＨＳＰＡ（ＨｉｇｈＳｐｅｅｄＰａｃｋｅｔＡｃｃｅｓｓ）、又は高周波帯域を利用した通信方式などに対応するスマートフォン機、またはＰＨＳ（ＰｅｒｓｏｎａｌＨａｎｄｙｐｈｏｎｅＳｙｓｔｅｍ）等であり、いずれでも構わない。

コンテンツ供給システムｅｘ２００では、カメラｅｘ２１３等が基地局ｅｘ２０９、通信網ｅｘ２０４を通じてストリーミングサーバｅｘ２０３に接続されることで、ライブ配信等が可能になる。ライブ配信では、ユーザがカメラｅｘ２１３を用いて撮影するコンテンツ（例えば、音楽ライブの映像等）に対して符号化処理を行い、ストリーミングサーバｅｘ２０３に送信する。一方、ストリーミングサーバｅｘ２０３は要求のあったクライアントに対して送信されたコンテンツデータをストリーム配信する。クライアントとしては、上記符号化処理されたデータを復号化することが可能な、コンピュータｅｘ２１１、ＰＤＡｅｘ２１２、カメラｅｘ２１３、スマートフォンｅｘ２１４、ゲーム機ｅｘ２１５等がある。配信されたデータを受信した各機器では、受信したデータを復号化処理して再生する。

なお、撮影したデータの符号化処理はカメラｅｘ２１３で行っても、データの送信処理をするストリーミングサーバｅｘ２０３で行ってもよいし、互いに分担して行ってもよい。同様に配信されたデータの復号化処理はクライアントで行っても、ストリーミングサーバｅｘ２０３で行ってもよいし、互いに分担して行ってもよい。また、カメラｅｘ２１３に限らず、カメラｅｘ２１６で撮影した静止画像および／または動画像データを、コンピュータｅｘ２１１を介してストリーミングサーバｅｘ２０３に送信してもよい。この場合の符号化処理はカメラｅｘ２１６、コンピュータｅｘ２１１、ストリーミングサーバｅｘ２０３のいずれで行ってもよいし、互いに分担して行ってもよい。さらに復号された画像の表示についても、システムにつながった複数の機器が連動して同じ画像を表示してもよいし、大きな表示部を有する装置で全体の画像を表示し、スマートフォンｅｘ２１４等では画像の一部の領域を拡大して表示してもよい。

また、これら符号化・復号化処理は、一般的にコンピュータｅｘ２１１や各機器が有するＬＳＩｅｘ５００において処理する。ＬＳＩｅｘ５００は、ワンチップであっても複数チップからなる構成であってもよい。なお、動画像符号化・復号化用のソフトウェアをコンピュータｅｘ２１１等で読み取り可能な何らかの記録メディア（ＣＤ−ＲＯＭ、フレキシブルディスク、ハードディスクなど）に組み込み、そのソフトウェアを用いて符号化・復号化処理を行ってもよい。さらに、スマートフォンｅｘ２１４がカメラ付きである場合には、そのカメラで取得した動画データを送信してもよい。このときの動画データはスマートフォンｅｘ２１４が有するＬＳＩｅｘ５００で符号化処理されたデータである。

また、ストリーミングサーバｅｘ２０３は複数のサーバや複数のコンピュータであって、データを分散して処理したり記録したり配信するものであってもよい。

以上のようにして、コンテンツ供給システムｅｘ２００では、符号化されたデータをクライアントが受信して再生することができる。このようにコンテンツ供給システムｅｘ２００では、ユーザが送信した情報をリアルタイムでクライアントが受信して復号化し、再生することができ、特別な権利や設備を有さないユーザでも個人放送を実現できる。

なお、コンテンツ供給システムｅｘ２００の例に限らず、図５４に示すように、デジタル放送用システムｅｘ３００にも、上記各実施の形態を適用してもよい。具体的には、放送局ｅｘ３０１では映像データに音楽データなどが多重化された多重化データが電波を介して通信または衛星ｅｘ３０２に伝送される。この映像データは上記各実施の形態で説明した動画像符号化方法により符号化されたデータである。これを受けた放送衛星ｅｘ３０２は、放送用の電波を発信し、この電波を衛星放送の受信が可能な家庭のアンテナｅｘ３０４が受信する。受信した多重化データを、テレビ（受信機）ｅｘ４００またはセットトップボックス（ＳＴＢ）ｅｘ３１７等の装置が復号化して再生する。

また、ＤＶＤ、ＢＤ等の記録メディアｅｘ３１５、もしくはＳＤなどのメモリｅｘ３１６に記録した多重化データを読み取り復号化する、または記録メディアｅｘ３１５もしくはメモリｅｘ３１６に映像信号を符号化し、さらに場合によっては音楽信号と多重化して書き込むリーダ／レコーダｅｘ３１８にも上記各実施の形態で示した動画像復号化装置または動画像符号化装置を実装することが可能である。この場合、再生された映像信号はモニタｅｘ３１９に表示され、多重化データが記録された記録メディアｅｘ３１５、又はメモリｅｘ３１６により他の装置やシステムにおいて映像信号を再生することができる。また、ケーブルテレビ用のケーブルｅｘ３０３または衛星／地上波放送のアンテナｅｘ３０４に接続されたセットトップボックスｅｘ３１７内に動画像復号化装置を実装し、これをテレビのモニタｅｘ３１９で表示してもよい。このときセットトップボックスではなく、テレビ内に動画像復号化装置を組み込んでもよい。

図５５は、スマートフォンｅｘ２１４を示す図である。また、図５６は、スマートフォンｅｘ２１４の構成例を示す図である。スマートフォンｅｘ２１４は、基地局ｅｘ２１０との間で電波を送受信するためのアンテナｅｘ４５０、映像、静止画を撮ることが可能なカメラ部ｅｘ４６５、カメラ部ｅｘ４６５で撮像した映像、アンテナｅｘ４５０で受信した映像等が復号化されたデータを表示する液晶ディスプレイ等の表示部ｅｘ４５８を備える。スマートフォンｅｘ２１４は、さらに、タッチパネル等である操作部ｅｘ４６６、音声を出力するためのスピーカ等である音声出力部ｅｘ４５７、音声を入力するためのマイク等である音声入力部ｅｘ４５６、撮影した映像、静止画、録音した音声、または受信した映像、静止画、メール等の符号化されたデータもしくは復号化されたデータを保存可能なメモリ部ｅｘ４６７、又は図５４に例示されたメモリｅｘ３１６、もしくはユーザを特定し、ネットワークをはじめ各種データへのアクセスの認証をするためのＳＩＭｅｘ４６８とのインタフェース部であるスロット部ｅｘ４６４を備える。

スマートフォンｅｘ２１４は、表示部ｅｘ４５８及び操作部ｅｘ４６６等を統括的に制御する主制御部ｅｘ４６０に対して、電源回路部ｅｘ４６１、操作入力制御部ｅｘ４６２、映像信号処理部ｅｘ４５５、カメラインタフェース部ｅｘ４６３、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）制御部ｅｘ４５９、変調／復調部ｅｘ４５２、多重／分離部ｅｘ４５３、音声信号処理部ｅｘ４５４、スロット部ｅｘ４６４、メモリ部ｅｘ４６７がバスｅｘ４７０を介して互いに接続されている。

電源回路部ｅｘ４６１は、ユーザの操作により終話及び電源キーがオン状態にされると、バッテリパックから各部に対して電力を供給することによりスマートフォンｅｘ２１４を動作可能な状態に起動する。

スマートフォンｅｘ２１４は、ＣＰＵ、ＲＯＭ、ＲＡＭ等を有する主制御部ｅｘ４６０の制御に基づいて、音声通話モード時に音声入力部ｅｘ４５６で収音した音声信号を音声信号処理部ｅｘ４５４でデジタル音声信号に変換し、これを変調／復調部ｅｘ４５２でスペクトラム拡散処理し、送信／受信部ｅｘ４５１でデジタルアナログ変換処理および周波数変換処理を施した後にアンテナｅｘ４５０を介して送信する。またスマートフォンｅｘ２１４は、音声通話モード時にアンテナｅｘ４５０を介して受信した受信データを増幅して周波数変換処理およびアナログデジタル変換処理を施し、変調／復調部ｅｘ４５２でスペクトラム逆拡散処理し、音声信号処理部ｅｘ４５４でアナログ音声信号に変換した後、これを音声出力部ｅｘ４５７から出力する。

さらにデータ通信モード時に電子メールを送信する場合、本体部の操作部ｅｘ４６６等の操作によって入力された電子メールのテキストデータは操作入力制御部ｅｘ４６２を介して主制御部ｅｘ４６０に送出される。主制御部ｅｘ４６０は、テキストデータを変調／復調部ｅｘ４５２でスペクトラム拡散処理をし、送信／受信部ｅｘ４５１でデジタルアナログ変換処理および周波数変換処理を施した後にアンテナｅｘ４５０を介して基地局ｅｘ２１０へ送信する。電子メールを受信する場合は、受信したデータに対してこのほぼ逆の処理が行われ、表示部ｅｘ４５８に出力される。

データ通信モード時に映像、静止画、または映像と音声を送信する場合、映像信号処理部ｅｘ４５５は、カメラ部ｅｘ４６５から供給された映像信号を上記各実施の形態で示した動画像符号化方法によって圧縮符号化し、符号化された映像データを多重／分離部ｅｘ４５３に送出する。また、音声信号処理部ｅｘ４５４は、映像、静止画等をカメラ部ｅｘ４６５で撮像中に音声入力部ｅｘ４５６で収音した音声信号を符号化し、符号化された音声データを多重／分離部ｅｘ４５３に送出する。

多重／分離部ｅｘ４５３は、映像信号処理部ｅｘ４５５から供給された符号化された映像データと音声信号処理部ｅｘ４５４から供給された符号化された音声データを所定の方式で多重化し、その結果得られる多重化データを変調／復調部（変調／復調回路部）ｅｘ４５２でスペクトラム拡散処理をし、送信／受信部ｅｘ４５１でデジタルアナログ変換処理及び周波数変換処理を施した後にアンテナｅｘ４５０を介して送信する。

データ通信モード時にホームページ等にリンクされた動画像ファイルのデータを受信する場合、または映像およびもしくは音声が添付された電子メールを受信する場合、アンテナｅｘ４５０を介して受信された多重化データを復号化するために、多重／分離部ｅｘ４５３は、多重化データを分離することにより映像データのビットストリームと音声データのビットストリームとに分け、同期バスｅｘ４７０を介して符号化された映像データを映像信号処理部ｅｘ４５５に供給するとともに、符号化された音声データを音声信号処理部ｅｘ４５４に供給する。映像信号処理部ｅｘ４５５は、上記各実施の形態で示した動画像符号化方法に対応した動画像復号化方法によって復号化することにより映像信号を復号し、ＬＣＤ制御部ｅｘ４５９を介して表示部ｅｘ４５８から、例えばホームページにリンクされた動画像ファイルに含まれる映像、静止画が表示される。また音声信号処理部ｅｘ４５４は、音声信号を復号し、音声出力部ｅｘ４５７から音声が出力される。

また、上記スマートフォンｅｘ２１４等の端末は、テレビｅｘ４００と同様に、符号化器・復号化器を両方持つ送受信型端末の他に、符号化器のみの送信端末、復号化器のみの受信端末という３通りの実装形式が考えられる。さらに、デジタル放送用システムｅｘ３００において、映像データに音楽データなどが多重化された多重化データを受信、送信するとして説明したが、音声データ以外に映像に関連する文字データなどが多重化されたデータであってもよいし、多重化データではなく映像データ自体であってもよい。

また、本発明はかかる上記実施の形態に限定されるものではなく、本発明の範囲を逸脱することなく種々の変形または修正が可能である。

本発明は、複数のカメラで撮影された映像を配信する映像配信システム等に適用できる。

１００映像配信システム
１０１、１０１Ａ、１０１Ｂ、１０１Ｃ、１０１Ｄ、１０１Ｅ、１０１Ｆカメラ
１０２、１０２Ａ端末装置
１０３サーバ
１０４Ａ、１０４Ｂ、１０４Ｃネットワーク
１０５モニタ
１０６ユーザ
１１１受信部
１１２蓄積部
１１３制御部
１１４カメラ情報算出部
１１５初期カメラ選択部
１１６カメラ切替判定部
１１７切替カメラ選択部
１１８リセット判定部
１１９、１１９Ａ送信部
２０１Ａ、２０１Ｂ、２０１Ｃフレーム
２０２、２０２Ａ、２０２Ｂ被写体
２０３Ａ、２０３Ｂ領域
２１１対象領域
２１２対象被写体
３０１、３０１Ａ、３２４多重化部
３０２、３０２Ａ、３２５情報送信部
３１１、３１１Ａ、３２１受信部
３１２、３１２Ａ、３２２分離部
３１３、３１３Ａ表示情報生成部
３１４、３２３カメラ選択部
３２０中継装置

Claims

同一の場面が互いに異なる複数の視点から撮影されることで得られた複数の第１映像から選択されることで得られた複数の第２映像を取得する第１取得ステップと、
前記複数の第２映像に対応する複数の第１視点から一つの第１視点を第１選択視点として選択し、前記複数の第２映像に含まれる、前記第１選択視点に対応する第２映像を表示する第１表示ステップと、
互いに異なる複数の視点から、前記複数の第１映像より後に前記場面が撮影されることで得られた複数の第３映像から選択されることで得られた複数の第４映像を取得する第２取得ステップと、
前記複数の第４映像に対応する複数の第２視点に前記第１選択視点が含まれるかを判定する判定ステップと、
前記複数の第２視点に前記第１選択視点が含まれると判定された場合、前記複数の第４映像に含まれる、前記第１選択視点に対応する第４映像を表示する第２表示ステップと、
前記複数の第２視点に前記第１選択視点が含まれないと判定された場合、前記複数の第２視点から一つの第２視点を第２選択視点として選択し、前記複数の第４映像に含まれる、前記第２選択視点に対応する第４映像を表示する第３表示ステップとを含む
映像表示方法。
前記第３表示ステップでは、前記複数の第２視点のうち、前記第１選択視点に最も近い第２視点を前記第２選択視点として選択する
請求項１記載の映像表示方法。
前記第３表示ステップでは、前記複数の第２視点の評価値に基づき、評価が最も高い第２視点を前記第２選択視点として選択する
請求項１記載の映像表示方法。
前記評価値は、前記複数の第２視点の映像が視聴された回数に基づき決定される
請求項３記載の映像表示方法。
前記第１取得ステップでは、さらに、前記複数の第１視点を示す第１視点情報を取得し、
前記第１表示ステップでは、さらに、前記複数の第１視点及び前記第１選択視点を表示し、
前記第２取得ステップでは、さらに、前記複数の第２視点を示す第２視点情報を取得し、
前記第２表示ステップでは、さらに、前記複数の第２視点及び前記第１選択視点を表示し、
前記第３表示ステップでは、さらに、前記複数の第２視点及び前記第２選択視点を表示する
請求項１〜４のいずれか１項に記載の映像表示方法。
前記映像表示方法は、さらに、
前記複数の第２映像から複数の第５映像を選択する第１選択ステップと、
前記複数の第４映像から複数の第６映像を選択する第２選択ステップとを含み、
前記第１表示ステップでは、前記複数の第５映像に対応する複数の第３視点から一つの第３視点を前記第１選択視点として選択し、前記複数の第５映像に含まれる、前記第１選択視点に対応する第５映像を表示し、
前記判定ステップでは、前記複数の第６映像に対応する複数の第４視点に前記第１選択視点が含まれるかを判定し、
前記第２表示ステップでは、前記複数の第４視点に前記第１選択視点が含まれると判定された場合、前記複数の第６映像に含まれる、前記第１選択視点に対応する第６映像を表示し、
前記第３表示ステップでは、前記複数の第４視点に前記第１選択視点が含まれないと判定された場合、前記複数の第４視点から一つの第４視点を前記第２選択視点として選択し、前記複数の第６映像に含まれる、前記第２選択視点に対応する第６映像を表示する
請求項１〜５のいずれか１項に記載の映像表示方法。
前記第３表示ステップでは、
前記複数の第４視点に前記第１選択視点が含まれないと判定され、かつ、前記複数の第２視点に前記第１選択視点が含まれる場合、前記複数の第４映像に含まれる、前記第１選択視点に対応する第４映像を表示し、
前記複数の第４視点に前記第１選択視点が含まれないと判定され、かつ、前記複数の第２視点に前記第１選択視点が含まれない場合、前記複数の第６映像に含まれる、前記第２選択視点に対応する第６映像を表示する
請求項６記載の映像表示方法。
処理回路と、メモリとを備え、
前記処理回路は、前記メモリを用いて請求項１記載の映像表示方法を実行する
映像表示装置。
請求項１記載の映像表示方法をコンピュータに実行させるための
プログラム。