WO2021171982A1

WO2021171982A1 - 画像処理装置、３ｄモデルの生成方法、学習方法およびプログラム

Info

Publication number: WO2021171982A1
Application number: PCT/JP2021/004517
Authority: WO
Inventors: 真人島川
Original assignee: ソニーグループ株式会社
Priority date: 2020-02-28
Filing date: 2021-02-08
Publication date: 2021-09-02
Also published as: US20230056459A1; JPWO2021171982A1; CN115176282A

Abstract

映像生成表示装置（１０ａ）（画像処理装置）の撮像部（４３）（第１の取得部）は、時刻毎に照明デバイス（１１）の状態が変化する状況下にある被写体（１８）（オブジェクト）を時刻毎に撮像した画像を取得して、照明制御情報入力部（４１）（第２の取得部）は、照明デバイス（１１）の状態を、撮像部（４３）が画像を撮像する時刻毎に取得する。そして、前景切り出し処理部（４４ａ）（切り出し部）は、照明制御情報入力部（４１）が取得した時刻毎の照明デバイス（１１）の状態に基づいて、撮像部（４３）が撮像した画像から被写体（１８）を切り出して、モデリング処理部（４６）（モデル生成部）は、前景切り出し処理部（４４ａ）が切り出した被写体（１８）の３Ｄモデル（１８Ｍ）を生成する。

Description

画像処理装置、３Ｄモデルの生成方法、学習方法およびプログラム

　本開示は、画像処理装置、３Ｄモデルの生成方法、学習方法およびプログラムに関し、特に、時刻毎に照明の状態が変化する場合であっても、高品質な３Ｄモデルやボリュメトリック映像を生成することができる画像処理装置、３Ｄモデルの生成方法、学習方法およびプログラムに関する。

　従来、現実の３Ｄ空間をセンシングした情報、例えば異なる視点から被写体を撮像した多視点映像を用いて、視聴空間内に３Ｄオブジェクトを生成し、そのオブジェクトが視聴空間内に存在しているかのように見える映像（ボリュメトリック映像）を生成する方法が提案されている（例えば、特許文献１）。

国際公開第２０１７／０８２０７６号

　しかしながら、特許文献１では、専用のスタジオ等の安定した照明環境下で被写体の切り出しを行っており、時々刻々と照明環境が変化するライブ会場のような環境下で、被写体の切り出しを行うことには言及していなかった。

　照明環境が変化すると、モデリングの対象となる領域を切り出す処理（前景切り出し処理）を高精度に行うことが難しい。また、被写体を撮像した画像から生成されるテクスチャには、照明の状態が反映されているため、被写体が本来持つ色とは異なる色で観測される。したがって、照明の影響をキャンセルするのが難しいという問題があった。

　本開示では、時刻毎に照明の状態が変化する場合であっても、高品質な３Ｄモデルやボリュメトリック映像を生成することができる画像処理装置、３Ｄモデルの生成方法、学習方法およびプログラムを提案する。

　上記の課題を解決するために、本開示に係る一形態の画像処理装置は、時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得する第１の取得部と、前記照明の状態を前記時刻毎に取得する第２の取得部と、前記第２の取得部が取得した前記時刻毎の前記照明の状態に基づいて、前記画像から前記オブジェクトを切り出す切り出し部と、前記切り出し部が切り出した前記オブジェクトの３Ｄモデルを生成するモデル生成部と、を備える画像処理装置である。

　また、本開示に係る一形態の画像処理装置は、時刻毎に変化する照明の状態に基づいて、当該時刻毎に照明の状態が変化する状況下にあるオブジェクトを前記時刻毎に撮像した画像から前記オブジェクトを切り出すことによって生成された３Ｄモデルを取得する取得部と、前記取得部が取得した前記３Ｄモデルのレンダリングを行うレンダリング部と、を備える画像処理装置である。

サーバ装置が被写体の３Ｄモデルを生成する流れの概要を示す図である。３Ｄモデルを表現するために必要なデータの内容について説明する図である。第１の実施形態の映像生成表示装置の装置構成の一例を示すブロック図である。第１の実施形態のサーバ装置のハードウエア構成の一例を示すハードウエアブロック図である。第１の実施形態の携帯端末のハードウエア構成の一例を示すハードウエアブロック図である。第１の実施形態の映像生成表示装置の機能構成の一例を示す機能ブロック図である。第１の実施形態の映像生成表示装置に係る入出力データのデータ形式の一例を示す図である。照明情報処理部が照明付背景画像をシミュレーションする処理について説明する図である。テクスチャ補正処理の方法について説明する図である。第１の実施形態の映像生成表示装置が表示する映像の一例を示す図である。第１の実施形態における照明情報処理の流れの一例を示すフローチャートである。第１の実施形態における前景切り出し処理の流れの一例を示すフローチャートである。第１の実施形態におけるテクスチャ補正処理の流れの一例を示すフローチャートである。第２の実施形態の映像生成表示装置の機能構成の一例を示す機能ブロック図である。ディープラーニングを利用した前景切り出し処理の概要を説明する図である。ディープラーニングを利用したテクスチャ補正処理の概要を説明する図である。第２の実施形態における前景切り出し処理の流れの一例を示すフローチャートである。第２の実施形態におけるテクスチャ補正処理の流れの一例を示すフローチャートである。学習データの生成手順の一例を示すフローチャートである。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　また、以下に示す項目順序に従って本開示を説明する。
　　１．第１の実施形態
　　　１－１．前提事項の説明－３Ｄモデルの生成
　　　１－２．前提事項の説明－３Ｄモデルのデータ構造
　　　１－３．映像生成表示装置の概略構成
　　　１－４．サーバ装置のハードウエア構成
　　　１－５．携帯端末のハードウエア構成
　　　１－６．映像生成表示装置の機能構成
　　　１－７．照明付背景画像のシミュレーション方法
　　　１－８．前景切り出し処理
　　　１－９．テクスチャ補正処理
　　　１－１０．第１の実施形態の映像生成表示装置が行う照明情報処理の流れ
　　　１－１１．第１の実施形態の映像生成表示装置が行う前景切り出し処理の流れ
　　　１－１２．第１の実施形態の映像生成表示装置が行うテクスチャ補正処理の流れ
　　　１－１３．第１の実施形態の効果
　　２．第２の実施形態
　　　２－１．第２の実施形態の映像生成表示装置の機能構成
　　　２－２．前景切り出し処理
　　　２－３．テクスチャ補正処理
　　　２－４．第２の実施形態の映像生成表示装置が行う処理の流れ
　　　２－５．第２の実施形態の変形例
　　　２－６．第２の実施形態の効果

（１．第１の実施形態）
［１－１．前提事項の説明－３Ｄモデルの生成］
　図１は、サーバ装置が被写体の３Ｄモデルを生成する流れの概要を示す図である。

　図１に示すように、被写体１８の３Ｄモデル１８Ｍは、複数のカメラ１４（１４ａ，１４ｂ，１４ｃ）による被写体１８の撮像と、３Ｄモデリングにより被写体１８の３Ｄ情報を有する３Ｄモデル１８Ｍを生成する処理と、を経て行われる。

　具体的には、複数のカメラ１４は、図１に示すように、現実世界に存在する被写体１８を取り囲むように、被写体１８の外側に、被写体１８の方向を向いて配置される。図１は、カメラの台数が３台の例を示しており、カメラ１４ａ，１４ｂ，１４ｃが被写体１８の周りに配置されている。なお、図１においては、人物が被写体１８とされている。また、カメラ１４の台数は３台に限定されるものではなく、より多くの台数のカメラを備えてもよい。

　異なる視点から、３台のカメラ１４ａ，１４ｂ，１４ｃによって、同期してボリュメトリック撮影された複数の視点画像を用いて３Ｄモデリングが行われ、３台のカメラ１４ａ，１４ｂ，１４ｃの映像フレーム単位で被写体１８の３Ｄモデル１８Ｍが生成される。

　３Ｄモデル１８Ｍは、被写体１８の３Ｄ情報を有するモデルである。３Ｄモデル１８Ｍは、被写体１８の表面形状を表す形状情報を、例えば、ポリゴンメッシュと呼ばれる、頂点（Vertex）と頂点との繋がりで表現したメッシュデータの形式で有する。また、３Ｄモデル１８Ｍは、各ポリゴンメッシュに対応した、被写体１８の表面状態を表すテクスチャ情報を有する。なお、３Ｄモデル１８Ｍが有する情報の形式はこれらに限定されるものではなく、その他の形式の情報であってもよい。

　３Ｄモデル１８Ｍを再構成する際には、メッシュ位置に応じて、当該メッシュの色や模様や質感を表すテクスチャを貼り付ける、いわゆるテクスチャマッピングを行う。テクスチャマッピングは、３Ｄモデル１８Ｍのリアリティを向上させるために、視点位置に応じた（View　Dependent：以下ＶＤと呼ぶ）テクスチャを貼り付けるのが望ましい。これにより、３Ｄモデル１８Ｍを任意の仮想視点から撮像した際に、視点位置に応じてテクスチャが変化するため、より高画質の仮想画像が得られる。しかし、計算量が増大するため、３Ｄモデル１８Ｍには、視線位置に依らない（View　Independent：以下ＶＩと呼ぶ）テクスチャを貼り付けてもよい。

　読み出された３Ｄモデル１８Ｍを含むコンテンツデータは、再生装置である携帯端末８０に伝送されて再生される。３Ｄモデル１８Ｍのレンダリングが行われて、３Ｄモデル１８Ｍを含むコンテンツデータが再生されることにより、ユーザ（視聴者）の視聴デバイスに３Ｄ形状を有する映像が表示される。

　図１の例では、スマートフォンやタブレット端末等の携帯端末８０が視聴デバイスとして用いられる。即ち、携帯端末８０のディスプレイ１１１に、３Ｄモデル１８Ｍを含む画像が表示される。

［１－２．前提事項の説明－３Ｄモデルのデータ構造］
　次に、図２を用いて、３Ｄモデル１８Ｍを表現するために必要なデータの内容について説明する。図２は、３Ｄモデルを表現するために必要なデータの内容について説明する図である。

　被写体１８の３Ｄモデル１８Ｍは、被写体１８の形状を示すメッシュ情報Ｍと、被写体１８の表面の質感（色合い、模様等）を示すテクスチャ情報Ｔとによって表現される。

　メッシュ情報Ｍは、３Ｄモデル１８Ｍの表面上のいくつかの部位を頂点として、それらの頂点の繋がりによって３Ｄモデル１８Ｍの形状を表す（ポリゴンメッシュ）。また、メッシュ情報Ｍの代わりに、被写体１８を観測する視点位置から被写体１８の表面までの距離を表すデプス情報Ｄｐ（非図示）を用いてもよい。被写体１８のデプス情報Ｄｐは、例えば、隣接する撮像装置で撮像された画像から検出した、被写体１８の同じ領域に対する視差に基づいて算出する。なお、撮像装置の代わりに測距機構を備えるセンサ（例えばＴＯＦ（Time　Of　Flight）カメラ）や赤外線（ＩＲ）カメラを設置して、被写体１８までの距離を得てもよい。

　本実施形態では、テクスチャ情報Ｔとして２通りのデータを使用する。１つは、３Ｄモデル１８Ｍを観測する視点位置に依らない（ＶＩ）テクスチャ情報Ｔａである。テクスチャ情報Ｔａは、３Ｄモデル１８Ｍの表面のテクスチャを、例えば、図２に示すＵＶテクスチャマップのような展開図の形式で記憶したデータである。即ち、テクスチャ情報Ｔａは、視点位置に依らないデータである。例えば、３Ｄモデル１８Ｍが洋服を着た人物である場合に、テクスチャ情報Ｔａとして、洋服の模様と人物の皮膚や毛髪とを含むＵＶテクスチャマップが用意される。そして、３Ｄモデル１８Ｍを表すメッシュ情報Ｍの表面に、当該メッシュ情報Ｍに対応するテクスチャ情報Ｔａを貼り付ける（ＶＩレンダリング）ことによって、３Ｄモデル１８Ｍを描画することができる。そして、このとき、３Ｄモデル１８Ｍの観測位置が変化した場合であっても、同じ領域を表すメッシュには同じテクスチャ情報Ｔａを貼り付ける。このように、テクスチャ情報Ｔａを用いたＶＩレンダリングは、３Ｄモデル１８Ｍが着用している洋服のテクスチャ情報Ｔａを、洋服の部位を表す全てのメッシュに貼り付けることによって実行されるため、一般に、データサイズが小さく、レンダリング処理の計算負荷も軽い。但し、貼り付けられたテクスチャ情報Ｔａは一様であって、観測位置を変更してもテクスチャは変化しないため、テクスチャの品質は一般に低い。

　もう１つのテクスチャ情報Ｔは、３Ｄモデル１８Ｍを観測する視点位置に依存する（ＶＤ）テクスチャ情報Ｔｂである。テクスチャ情報Ｔｂは、被写体１８を多視点から観測した画像の集合によって表現される。即ち、テクスチャ情報Ｔａは、視点位置に応じたデータである。具体的には、被写体１８をＮ台のカメラで観測した場合、テクスチャ情報Ｔｂは、各カメラが同時に撮像したＮ枚の画像で表現される。そして、３Ｄモデル９０Ｍの任意のメッシュに、テクスチャ情報Ｔｂをレンダリングする場合、Ｎ枚の画像の中から、該当するメッシュに対応する領域を全て検出する。そして、検出された複数の領域にそれぞれ写ったテクスチャを重み付けして、該当するメッシュに貼り付ける。このように、テクスチャ情報Ｔｂを用いたＶＤレンダリングは、一般に、データサイズが大きく、レンダリング処理の計算負荷は重い。しかし、貼り付けられたテクスチャ情報Ｔｂは、観測位置に応じて変化するため、テクスチャの品質は一般に高い。

［１－３．映像生成表示装置の概略構成］
　次に、図３を用いて、第１の実施形態の映像生成表示装置の概略構成を説明する。図３は、第１の実施形態の映像生成表示装置の装置構成の一例を示すブロック図である。

　映像生成表示装置１０ａは、被写体１８の３Ｄモデル１８Ｍを生成する。また、映像生成表示装置１０ａは、生成した被写体１８の３Ｄモデル１８Ｍを自由視点から視聴したボリュメトリック映像を再生する。映像生成表示装置１０ａは、サーバ装置２０ａと、携帯端末８０とを備える。なお、映像生成表示装置１０ａは、本開示における画像処理装置の一例である。また、被写体１８は、本開示におけるオブジェクトの一例である。

　サーバ装置２０ａは、被写体１８の３Ｄモデル１８Ｍを生成する。サーバ装置２０ａは、更に、照明制御モジュール３０と、ボリュメトリック映像生成モジュール４０ａとを備える。

　照明制御モジュール３０は、照明デバイス１１に対して、時刻毎の照明制御情報１７を設定する。照明制御情報１７は、例えば、照明の位置、向き、色、明るさ等を含む情報である。なお、照明デバイス１１は、複数台が接続されて、被写体１８を異なる方向から照明する。照明制御モジュール３０の詳細な機能構成は後述する。

　ボリュメトリック映像生成モジュール４０ａは、被写体１８を異なる位置から撮像するように設置された複数台のカメラ１４が撮総したカメラ画像に基づいて、被写体１８の３Ｄモデル１８Ｍを生成する。ボリュメトリック映像生成モジュール４０ａの詳細な機能構成は後述する。

　携帯端末８０は、サーバ装置２０ａから送信された被写体１８の３Ｄモデル１８Ｍを受信する。そして、携帯端末８０は、被写体１８の３Ｄモデル１８Ｍを自由視点から視聴したボリュメトリック映像を再生する。携帯端末８０は、ボリュメトリック映像再生モジュール９０を備える。なお、携帯端末８０は、具体的には、スマートフォン、テレビモニタ、ＨＭＤ（Head　Mount　Display）等の映像再生機能を備える装置であれば、その種類は問わない。

　ボリュメトリック映像再生モジュール９０は、ボリュメトリック映像生成モジュール４０ａが生成した被写体１８の３Ｄモデル１８Ｍを自由視点から視聴した時刻毎の画像をレンダリングすることによってボリュメトリック映像を生成する。そして、ボリュメトリック映像再生モジュール９０は、生成したボリュメトリック映像を再生する。ボリュメトリック映像再生モジュール９０の詳細な機能構成は後述する。

［１－４．サーバ装置のハードウエア構成］
　次に、図４を用いて、サーバ装置２０ａのハードウエア構成を説明する。図４は、第１の実施形態のサーバ装置のハードウエア構成の一例を示すハードウエアブロック図である。

　サーバ装置２０ａは、ＣＰＵ（Central　Processing　Unit）５０と、ＲＯＭ（Read　Only　Memory）５１と、ＲＡＭ（Random　Access　Memory）５２と、記憶部５３と、入出力コントローラ５４と、通信コントローラ５５とが内部バス６０で接続された構成を有する。

　ＣＰＵ５０は、記憶部５３に格納されている制御プログラムＰ１と、ＲＯＭ５１に格納されている各種データファイルとをＲＡＭ５２上に展開して実行することによって、サーバ装置２０ａの全体の動作を制御する。即ち、サーバ装置２０ａは、制御プログラムＰ１によって動作する一般的なコンピュータの構成を有する。なお、制御プログラムＰ１は、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供されてもよい。また、サーバ装置２０ａは、一連の処理をハードウエアによって実行してもよい。なお、ＣＰＵ５０が実行する制御プログラムＰ１は、本開示で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。

　記憶部５３は、例えばフラッシュメモリにより構成されて、ＣＰＵ５０が実行する制御プログラムＰ１と、被写体１８の３Ｄモデル１８Ｍとを記憶する。また、３Ｄモデル１８Ｍは、サーバ装置２０ａ自身が生成したものであってもよいし、その他の外部機器から取得したものであってもよい。

　入出力コントローラ５４は、タッチパネルインタフェース５６を介して、照明デバイス１１やカメラ１４等に係る情報を表示するディスプレイ６２に積層されたタッチパネル６１の操作情報を取得する。また、入出力コントローラ５４は、ディスプレイインタフェース５７を介して、ディスプレイ６２に画像情報や照明デバイス１１に係る情報等を表示する。

　また、入出力コントローラ５４は、カメラインタフェース５８を介して、カメラ１４と接続される。入出力コントローラ５４は、カメラ１４の撮像制御を行うことによって、被写体１８を取り囲むように配置された複数のカメラ１４で、被写体１８を同時に撮像する。また、入出力コントローラ５４は、撮像した複数の画像をサーバ装置２０ａに入力する。

　また、入出力コントローラ５４は、照明インタフェース５９を介して、照明デバイス１１と接続される。入出力コントローラ５４は、照明デバイス１１に対して、照明状態を制御する照明制御情報１７（図６参照）を出力する。

　さらに、サーバ装置２０ａは、通信コントローラ５５を介して、携帯端末８０との間で通信を行う。これによって、サーバ装置２０ａは、携帯端末８０に対して、被写体１８のボリュメトリック映像を送信する。

［１－５．携帯端末のハードウエア構成］
　次に、図５を用いて、携帯端末８０のハードウエア構成を説明する。図５は、第１の実施形態の携帯端末のハードウエア構成の一例を示すハードウエアブロック図である。

　携帯端末８０は、ＣＰＵ１００と、ＲＯＭ１０１と、ＲＡＭ１０２と、記憶部１０３と、入出力コントローラ１０４と、通信コントローラ１０５とが内部バス１０９で接続された構成を有する。

　ＣＰＵ１００は、記憶部１０３に格納されている制御プログラムＰ２と、ＲＯＭ１０１に格納されている各種データファイルとをＲＡＭ１０２上に展開して実行することによって、携帯端末８０の全体の動作を制御する。即ち、携帯端末８０は、制御プログラムＰ２によって動作する一般的なコンピュータの構成を有する。なお、制御プログラムＰ２は、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供されてもよい。また、携帯端末８０は、一連の処理をハードウエアによって実行してもよい。なお、ＣＰＵ１００が実行する制御プログラムＰ２は、本開示で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。

　記憶部１０３は、例えばフラッシュメモリにより構成されて、ＣＰＵ１００が実行する制御プログラムＰ２と、サーバ装置２０ａから取得した３Ｄモデル１８Ｍとを記憶する。なお、３Ｄモデル１８Ｍは、携帯端末８０がサーバ装置２０ａに対して指示した特定の被写体１８、即ち描画の対象となる被写体１８の３Ｄモデルである。そして、３Ｄモデル１８Ｍは、前記したメッシュ情報Ｍとテクスチャ情報Ｔａとテクスチャ情報Ｔｂを含むものである。

　入出力コントローラ１０４は、タッチパネルインタフェース１０６を介して、携帯端末８０に係る情報を表示するディスプレイ１１１に積層されたタッチパネル１１０の操作情報を取得する。また、入出力コントローラ１０４は、ディスプレイインタフェース１０７を介して、ディスプレイ１１１に、被写体１８を含むボリュメトリック映像等を表示する。

　また、携帯端末８０は、通信コントローラ１０５を介して、サーバ装置２０ａとの間で通信を行う。これによって、携帯端末８０は、サーバ装置２０ａから、３Ｄモデル１８Ｍに係る情報等を取得する。

［１－６．映像生成表示装置の機能構成］
　次に、図６を用いて、第１の実施形態の映像生成表示装置１０ａの機能構成を説明する。図６は、第１の実施形態の映像生成表示装置の機能構成の一例を示す機能ブロック図である。

　サーバ装置２０ａのＣＰＵ５０は、制御プログラムＰ１をＲＡＭ５２上に展開して動作させることによって、図６に示す照明制御ＵＩ部３１と、照明制御情報出力部３２と、照明制御情報入力部４１と、照明情報処理部４２と、撮像部４３と、前景切り出し処理部４４ａと、テクスチャ補正処理部４５ａと、モデリング処理部４６と、テクスチャ生成部４７とを機能部として実現する。

　照明制御ＵＩ部３１は、照明制御情報出力部３２を介して、照明デバイス１１に対して、明るさ、色、照明方向等の照明制御情報１７を与える。具体的には、照明制御ＵＩ部３１は、操作者が専用のＵＩ画面において、タッチパネル６１を操作することによって設定した操作内容に対応する照明制御情報１７を、照明制御情報出力部３２に送信する。なお、照明制御ＵＩ部３１において、照明デバイス１１を時間とともにどのように設定するかを示す照明シナリオ１６を予め生成して記憶しておいてもよい。

　照明制御情報出力部３２は、照明制御ＵＩ部３１から送信された照明制御情報１７を受信する。また、照明制御情報出力部３２は、受信した照明制御情報１７を照明デバイス１１と、照明制御情報入力部４１と、後述する照明シミュレーション制御部７３とに送信する。

　照明制御情報入力部４１は、照明制御情報出力部３２から照明制御情報１７を受信する。また、照明制御情報入力部４１は、照明制御情報１７を照明情報処理部４２に送信する。なお、照明制御情報入力部４１は、本開示における第２の取得部の一例である。

　照明情報処理部４２は、照明制御情報１７と、背景データ１２と、照明デバイス設定情報１３と、カメラキャリブレーション情報１５とを用いて、その時刻における照明の状態に基づく照明付背景画像、即ち、被写体１８が存在しない状態で照明が照射された画像をシミュレーションする。詳細は後述する（図８参照）。

　撮像部４３は、時刻毎に照明の状態が変化する状況下にある被写体１８（オブジェクト）をカメラ１４が時刻毎に撮像した画像を取得する。なお、撮像部４３は、本開示における第１の取得部の一例である。

　前景切り出し処理部４４ａは、照明制御情報入力部４１が取得した時刻毎の照明デバイス１１の状態に基づいて、カメラ１４が撮像した画像の中から被写体１８（オブジェクト）の領域を切り出す。なお、前景切り出し処理部４４ａは、本開示における切り出し部の一例である。なお、前景切り出し処理部４４ａが行う具体的な処理の内容は後述する。

　テクスチャ補正処理部４５ａは、照明制御情報入力部４１が取得した時刻毎の照明デバイス１１の状態に基づいて、カメラ１４が撮像した画像に写る被写体１８のテクスチャを、時刻毎の照明デバイス１１の状態に応じて補正する。なお、テクスチャ補正処理部４５ａは、本開示における補正部の一例である。テクスチャ補正処理部４５ａが行う具体的な処理の内容は後述する。

　モデリング処理部４６は、前景切り出し処理部４４ａが切り出した被写体１８（オブジェクト）の３Ｄモデルを生成する。なお、モデリング処理部４６は、本開示におけるモデル生成部の一例である。

　テクスチャ生成部４７は、各カメラ１４からのテクスチャ情報を纏めて、圧縮及び符号化処理を行って、ボリュメトリック映像再生モジュール９０に送信する。

　また、携帯端末８０のＣＰＵ１００は、制御プログラムＰ２をＲＡＭ１０２上に展開して動作させることによって、図６に示すレンダリング部９１と、再生部９２とを機能部として実現する。

　レンダリング部９１は、ボリュメトリック映像生成モジュール４０ａから取得した被写体１８（オブジェクト）の３Ｄモデルおよびテクスチャを描画（レンダリング）する。なお、レンダリング部９１は、本開示における描画部の一例である。

　再生部９２は、レンダリング部９１が描画したボリュメトリック映像を、ディスプレイ１１１で再生する。

　なお、図６には示さないが、ボリュメトリック映像再生モジュール９０は、離れた場所にある複数のボリュメトリック映像生成モジュール４０ａからのモデルデータ４８とテクスチャデータ４９とを取得する構成としてもよい。そして、ボリュメトリック映像再生モジュール９０を、離れた場所で撮影された複数のオブジェクトをひとつのボリュメトリック映像に合成して再生する用途に使用してもよい。その際、離れた場所における照明環境は一般に異なっているが、ボリュメトリック映像生成モジュール４０ａが生成した被写体１８の３Ｄモデル１８Ｍは、後述するように、モデル生成時の照明の影響を受けないものとなるため、ボリュメトリック映像再生モジュール９０は、異なる照明環境で生成された複数の３Ｄモデル１８Ｍを合成して、任意の照明環境下で再生することが可能である。

［１－７．照明付背景画像のシミュレーション方法］
　次に、図７，図８を用いて、照明情報処理部が照明付背景画像をシミュレーションする処理の内容を説明する。図７は、第１の実施形態の映像生成表示装置に係る入出力データのデータ形式の一例を示す図である。図８は、照明情報処理部が照明付背景画像をシミュレーションする処理について説明する図である。

　照明情報処理部４２には、照明制御情報出力部３２から照明制御情報１７が入力される。また、照明情報処理部４２には、照明デバイス設定情報１３と、カメラキャリブレーション情報１５と、背景データ１２とがそれぞれ入力される。

　これらの入力情報は、図７に示すデータ形式を有する。照明制御情報１７は、時刻毎、照明デバイス１１毎に、当該照明デバイス１１に与えられる各種パラメータ値を記述したものである。

　照明デバイス設定情報１３は、照明デバイス１１毎に、当該照明デバイス１１の初期状態を示す各種パラメータ値を記述したものである。なお、記述されるパラメータは、例えば、照明デバイス１１のタイプ、設置位置、設置方向、色設定、明るさ設定等である。

　カメラキャリブレーション情報１５は、カメラ１４毎に、当該カメラ１４の内部キャリブレーションデータと外部キャリブレーションデータとを記述したものである。内部キャリブレーションデータは、カメラ１４固有の内部パラメータ（レンズやフォーカス設定によって最終的に得られる画像の歪み補正を行うためのパラメータ）に関するキャリブレーションデータである。外部キャリブレーションデータは、カメラ１４の位置や向きに関するキャリブレーションデータである。

　背景データ１２は、所定の照明状態において、カメラ１４毎に予め撮像された、背景画像を格納したデータである。

　そして、ボリュメトリック映像生成モジュール４０ａの前景切り出し処理部４４ａは、照明デバイス１１の時間変動を考慮して、カメラ１４が撮像した画像の中から被写体１８の領域が切り出されたモデルデータ４８を出力する。また、ボリュメトリック映像生成モジュール４０ａのテクスチャ補正処理部４５ａは、照明デバイス１１の影響が除去されたテクスチャデータ４９を出力する。

　モデルデータ４８は、フレーム毎に、当該フレームにおける被写体１８のメッシュデータを格納したものである。

　テクスチャデータ４９は、フレーム毎に、各カメラ１４の外部キャリブレーションデータとテクスチャ画像とを格納したものである。なお、各カメラ１４の位置関係が固定されている場合には、外部キャリブレーションデータは、最初のフレームのみに格納しておけばよい。一方、各カメラ１４の位置関係が変化する場合は、外部キャリブレーションデータは、各カメラ１４の位置関係が変化した各フレームに格納される。

　前景切り出し処理部４４ａが、照明デバイス１１の時間変動を考慮して、被写体１８を切り出すために、照明情報処理部４２は、図８に示す照明付背景画像Ｉａを生成する。照明付背景画像Ｉａは、時刻毎、カメラ１４毎に生成される。

　より詳細には、照明情報処理部４２は、同じ時刻の照明制御情報１７と照明デバイス設定情報１３とに基づいて、時刻毎の照明デバイス１１の設定状態を算出する。

　照明情報処理部４２は、各カメラ１４が撮像した背景データ１２に対して、各カメラ１４のカメラキャリブレーション情報１５を用いて歪み補正を行う。そして、照明情報処理部４２は、歪み補正済みの背景データ１２に対して、時刻毎の照明デバイス１１の設定状態に基づく照明パターンをシミュレーションすることによって、照明付背景画像Ｉａを生成する。

　こうして生成された照明付背景画像Ｉａは、前景切り出し照明画像Ｉｂおよびテクスチャ補正照明画像Ｉｃとして利用される。前景切り出し照明画像Ｉｂとテクスチャ補正照明画像Ｉｃとは実質的には同じ画像情報であるが、以後の説明のために、便宜上分けて記載する。

　前景切り出し照明画像Ｉｂおよびテクスチャ補正照明画像Ｉｃは、各カメラ１４で、各時刻において、照明がどのような状態で観測されるかを示す２Ｄ画像情報である。なお、照明がどのような状態で観測されるかがわかる情報であれば、情報の形式は、画像情報に限定されるものではない。

［１－８．前景切り出し処理］
　前記した前景切り出し照明画像Ｉｂは、該当する時刻に該当するカメラ１４で撮像されると予測される照明状態を表す画像である。前景切り出し処理部４４ａ（図６参照）は、同じ時刻にカメラ１４で実際に撮像された画像から、前景切り出し照明画像Ｉｂを差し引く前景背景間差分を行うことによって、前景、即ち被写体１８の領域を切り出す。

　なお、このとき、前景切り出し処理部４４ａはクロマキー処理を行ってもよい。但し、本実施形態にあっては、照明の影響によって、背景色が領域毎に異なっている。したがって、前景切り出し処理部４４ａは、通常用いられる単一背景色に基づくクロマキー処理ではなく、前景切り出し照明画像Ｉｂの領域毎に、背景であると判断する色の閾値を設定する。そして、前景切り出し処理部４４ａは、カメラ１４で実際に撮像された画像の明るさと、設定された閾値とを比較することによって、背景であるかを弁別して前景を切り出す。

　また、前景切り出し処理部４４ａは、前景背景間差分とクロマキー処理とを併用して、被写体１８の領域を切り出してもよい。

［１－９．テクスチャ補正処理］
　次に、図９を用いて、映像生成表示装置１０ａが行うテクスチャ補正処理を説明する。図９は、テクスチャ補正処理の方法について説明する図である。

　テクスチャ補正処理部４５ａ（図６参照）は、カメラ１４が撮像した画像に写る被写体１８のテクスチャを、時刻毎の照明デバイス１１の状態に応じて色補正する。

　テクスチャ補正処理部４５ａは、前記したテクスチャ補正照明画像Ｉｃと、カメラ１４が実際に撮像したカメラ画像Ｉｄとに対して、同様な色補正を行う。但し、本実施形態にあっては、照明の影響によって、被写体１８のテクスチャは領域毎に異なっているため、図９に示すように、テクスチャ補正照明画像Ｉｃとカメラ画像Ｉｄとをそれぞれ同じ大きさの複数の小領域に分割して、小領域毎に色補正を実行する。なお、デジタル画像処理において色補正は広く実施されており、ここでも、既知の手法に準じて行えばよい。

　テクスチャ補正処理部４５ａは、テクスチャ補正処理を行った結果、テクスチャ補正画像Ｉｅを生成して出力する。即ち、テクスチャ補正画像Ｉｅは、標準照明下で観測されると推定されるテクスチャを示す画像である。

　なお、テクスチャ補正処理は、被写体１８の領域のみに適用されればよいため、カメラ画像Ｉｄのうち、前記した前景切り出し処理によって切り出された被写体１８の領域のみに対して行ってもよい。

　前記した前景切り出し処理およびテクスチャ補正処理によって、照明状態に依存しない被写体１８の３Ｄモデル１８Ｍが得られる。そして、ボリュメトリック映像再生モジュール９０は、図１０に示すボリュメトリック映像Ｉｖを生成して表示する。ボリュメトリック映像Ｉｖには、カメラ１４がカメラ画像Ｉｄを撮像したのと同じ時刻の照明情報が再現されるとともに、被写体１８の３Ｄモデル１８Ｍが描画される。

　また、異なる照明状態で生成された複数のオブジェクトを、１つのボリュメトリック映像に合成する場合に、撮影時の照明の影響を取り除くことができる。

［１－１０．第１の実施形態の映像生成表示装置が行う照明情報処理の流れ］
　次に、図１１を用いて、映像生成表示装置１０ａが行う照明情報処理の流れを説明する。図１１は、第１の実施形態における照明情報処理の流れの一例を示すフローチャートである。

　照明情報処理部４２は、各カメラ１４が予め撮像した背景データ１２を取得する（ステップＳ１０）。

　照明情報処理部４２は、カメラキャリブレーション情報１５（内部キャリブレーションデータ）を用いて、ステップＳ１０で取得した背景データ１２の歪み補正を行う（ステップＳ１１）。

　照明情報処理部４２は、照明制御情報出力部３２から照明制御情報１７を取得する。また、照明情報処理部４２は、照明デバイス設定情報１３を取得する（ステップＳ１２）。

　照明情報処理部４２は、照明付背景画像Ｉａを生成する（ステップＳ１３）。

　照明情報処理部４２は、カメラキャリブレーション情報１５（外部キャリブレーションデータ）を用いて、ステップＳ１３で生成した照明付背景画像Ｉａの歪み補正を行う（ステップＳ１４）。

　照明情報処理部４２は、照明付背景画像Ｉａを前景切り出し処理部４４ａに出力する（ステップＳ１５）。

　照明情報処理部４２は、照明付背景画像Ｉａをテクスチャ補正処理部４５ａに出力する（ステップＳ１６）。

　照明情報処理部４２は、最終フレームかを判定する（ステップＳ１７）。最終フレームであると判定される（ステップＳ１７：Ｙｅｓ）と、映像生成表示装置１０ａは、図１１の処理を終了する。一方、最終フレームであると判定されない（ステップＳ１７：Ｎｏ）と、ステップＳ１０に戻る。

［１－１１．第１の実施形態の映像生成表示装置が行う前景切り出し処理の流れ］
　次に、図１２を用いて、映像生成表示装置１０ａが行う前景切り出し処理の流れを説明する。図１２は、第１の実施形態における前景切り出し処理の流れの一例を示すフローチャートである。

　撮像部４３は、各カメラ１４が時刻毎に撮像したカメラ画像Ｉｄを取得する（ステップＳ２０）。

　また、撮像部４３は、カメラキャリブレーション情報１５（内部キャリブレーションデータ）を用いて、ステップＳ２０で取得したカメラ画像Ｉｄの歪み補正を行う（ステップＳ２１）。

　前景切り出し処理部４４ａは、照明情報処理部４２から、照明付背景画像Ｉａを取得する（ステップＳ２２）。

　前景切り出し処理部４４ａは、同時刻の全景背景差分によって、カメラ画像Ｉｄから前景（被写体１８）を切り出す（ステップＳ２３）。

　前景切り出し処理部４４ａは、最終フレームかを判定する（ステップＳ２４）。最終フレームであると判定される（ステップＳ２４：Ｙｅｓ）と、映像生成表示装置１０ａは、図１２の処理を終了する。一方、最終フレームであると判定されない（ステップＳ２４：Ｎｏ）と、ステップＳ２０に戻る。

［１－１２．第１の実施形態の映像生成表示装置が行うテクスチャ補正処理の流れ］
　次に、図１３を用いて、映像生成表示装置１０ａが行うテクスチャ補正処理の流れを説明する。図１３は、第１の実施形態におけるテクスチャ補正処理の流れの一例を示すフローチャートである。

　撮像部４３は、各カメラ１４が時刻毎に撮像したカメラ画像Ｉｄを取得する（ステップＳ３０）。

　また、撮像部４３は、カメラキャリブレーション情報１５（内部キャリブレーションデータ）を用いて、ステップＳ３０で取得したカメラ画像Ｉｄの歪み補正を行う（ステップＳ３１）。

　テクスチャ補正処理部４５ａは、照明情報処理部４２から、照明付背景画像Ｉａを取得する（ステップＳ３２）。

　テクスチャ補正処理部４５ａは、同時刻の歪み補正済のカメラ画像Ｉｄと、照明付背景画像Ｉａとを、同サイズの小領域に分割する（ステップＳ３３）。

　テクスチャ補正処理部４５ａは、ステップＳ３３で分割した小領域毎にテクスチャ補正を行う（ステップＳ３４）。

　テクスチャ補正処理部４５ａは、最終フレームかを判定する（ステップＳ３５）。最終フレームであると判定される（ステップＳ３５：Ｙｅｓ）と、映像生成表示装置１０ａは、図１３の処理を終了する。一方、最終フレームであると判定されない（ステップＳ３５：Ｎｏ）と、ステップＳ３０に戻る。

［１－１３．第１の実施形態の効果］
　以上説明したように、第１の実施形態の映像生成表示装置１０ａ（画像処理装置）によると、撮像部４３（第１の取得部）は、時刻毎に照明デバイス１１の状態が変化する状況下にある被写体１８（オブジェクト）を時刻毎に撮像した画像を取得して、照明制御情報入力部４１（第２の取得部）は、照明デバイス１１の状態を、撮像部４３が画像を撮像する時刻毎に取得する。そして、前景切り出し処理部４４ａ（切り出し部）は、照明制御情報入力部４１が取得した時刻毎の照明デバイス１１の状態に基づいて、撮像部４３が撮像した画像から被写体１８を切り出して、モデリング処理部４６（モデル生成部）は、前景切り出し処理部４４ａが切り出した被写体１８の３Ｄモデルを生成する。

　これにより、例えば音楽ライブ会場のように時刻毎に照明の状態が変化する場合であっても、高精度に被写体の領域を切り出すことができる。したがって、高品質な３Ｄモデルやボリュメトリック映像を生成することができる。

　また、第１の実施形態の映像生成表示装置１０ａ（画像処理装置）によると、テクスチャ補正処理部４５ａ（補正部）は、照明制御情報入力部４１が取得した時刻毎の照明デバイス１１の状態に基づいて、撮像部４３が撮像した画像のテクスチャを、時刻毎の照明デバイス１１の状態に応じて補正する。

　これにより、時刻毎に照明の状態が変化する状態で撮像された画像に写る被写体１８のテクスチャから、通常照明下で観測される被写体１８のテクスチャを推定することができる。

　また、第１の実施形態の映像生成表示装置１０ａ（画像処理装置）において、照明デバイス１１の状態は、少なくとも、照明デバイス１１の位置と、方向と、色と、明るさとを含む。

　これにより、時刻毎に変化する照明デバイス１１の詳細な状態を、確実に取得することができる。

　また、第１の実施形態の映像生成表示装置１０ａ（画像処理装置）において、カメラ１４が撮像する画像は、被写体１８（オブジェクト）の周囲から、当該被写体１８の方向を撮像したものである。

　これにより、被写体１８を様々な自由視点から観測した３Ｄモデル１８Ｍを生成することができる。

　また、第１の実施形態の映像生成表示装置１０ａ（画像処理装置）において、モデリング処理部４６（モデル生成部）は、時刻毎に変化する照明デバイス１１の状態に基づいて、当該時刻毎に照明デバイス１１の状態が変化する状況下にある被写体１８（オブジェクト）を時刻毎に撮像した画像から、被写体１８の領域を切り出すことによって、被写体１８の３Ｄモデル１８Ｍを生成する。そして、レンダリング部９１（描画部）は、モデリング処理部４６が生成した３Ｄモデル１８Ｍを描画する。

　これにより、照明の状態が変化する状況で撮像された画像の中から被写体１８の領域を切り出して、自由視点から見た映像を描画することができる。

　また、第１の実施形態の映像生成表示装置１０ａ（画像処理装置）において、テクスチャ補正処理部４５ａ（補正部）は、時刻毎に変化する照明デバイス１１の状態に基づいて、当該時刻毎に照明デバイス１１の状態が変化する状況下にある被写体１８（オブジェクト）を時刻毎に撮像した画像から、被写体１８のテクスチャを、時刻毎の前記照明デバイス１１の状態に応じて補正する。そして、レンダリング部９１（描画部）は、テクスチャ補正処理部４５ａが補正したテクスチャを用いて、被写体１８を描画する。

　これにより、照明の状態が変化する状況で撮像された画像に写る被写体１８のテクスチャを補正して、自由視点から見たボリュメトリック映像を描画することができる。

　また、第１の実施形態の映像生成表示装置１０ａ（画像処理装置）は、時刻毎に照明の状態が変化する状況下にある被写体１８（オブジェクト）を時刻毎に撮像した画像と、照明デバイス１１の状態とを時刻毎に取得して、時刻毎に取得された照明デバイス１１の状態に基づいて、被写体１８の画像から被写体１８の領域を切り出して、被写体１８のモデルデータ４８を生成する。

　これにより、時刻毎に照明の状態が変化する場合であっても、高精度に被写体の領域を切り出すことができるため、高品質な３Ｄモデルを生成することができる。

（２．第２の実施形態）
［２－１．第２の実施形態の映像生成表示装置の機能構成］
　第１の実施形態で説明した映像生成表示装置１０ａは、照明制御情報１７に基づいて時刻毎の照明状態を取得し、取得した時刻毎の照明状態に基づいて、前景の切り出しとテクスチャ補正とを行う。この方法によると、簡便な計算処理によって、オブジェクトの切り出しとテクスチャ補正を行うことが可能であるが、より複雑な環境にも安定して対応させるように、汎用性を向上させる必要ある。以下に説明する第２の実施形態の映像生成表示装置１０ｂは、深層学習（ディープラーニング）を用いて作成した学習モデルを利用することによって、前景の切り出しとテクスチャ補正の汎用性をより高めるものである。

　図１４を用いて、第２の実施形態の映像生成表示装置１０ｂの機能構成を説明する。図１４は、第２の実施形態の映像生成表示装置の機能構成の一例を示す機能ブロック図である。なお、映像生成表示装置１０ｂのハードウエア構成は、映像生成表示装置１０ａのハードウエア構成と同じである（図４，図５参照）。

　映像生成表示装置１０ｂは、サーバ装置２０ｂと、携帯端末８０とを備える。サーバ装置２０ｂは、照明制御モジュール３０と、ボリュメトリック映像生成モジュール４０ｂと、照明シミュレーションモジュール７０と、学習データ生成モジュール７５とを備える。

　照明制御モジュール３０は、第１の実施形態で説明した通りである（図６参照）。

　ボリュメトリック映像生成モジュール４０ｂは、第１の実施形態で説明したボリュメトリック映像生成モジュール４０ａに対して、前景切り出し処理部４４ａの代わりに前景切り出し処理部４４ｂを備える。また、テクスチャ補正処理部４５ａの代わりにテクスチャ補正処理部４５ｂを備える。

　前景切り出し処理部４４ｂは、照明制御情報入力部４１が取得した時刻毎の照明デバイス１１の状態と、被写体１８の領域との関係を学習した学習データに基づいて、カメラ１４が撮像した画像の中から被写体１８（オブジェクト）の領域を切り出す。

　テクスチャ補正処理部４５ｂは、照明制御情報入力部４１が取得した時刻毎の照明デバイス１１の状態と、被写体１８のテクスチャとの関係を学習した学習データに基づいて、カメラ１４が撮像した画像に写る被写体１８のテクスチャを、時刻毎の照明デバイス１１の状態に応じて補正する。

　照明シミュレーションモジュール７０は、照明制御情報１７に基づいて、背景ＣＧデータ１９上またはボリュメトリック映像上に、時刻毎に変化する照明の状態を模擬した照明シミュレーション映像を生成する。照明シミュレーションモジュール７０は、ボリュメトリック映像生成部７１と、照明シミュレーション生成部７２と、照明シミュレーション制御部７３を備える。

　ボリュメトリック映像生成部７１は、被写体１８のモデルデータ４８とテクスチャデータ４９と、仮想視点位置とに基づいて、被写体１８のボリュメトリック映像を生成する。

　照明シミュレーション生成部７２は、与えられた照明制御情報１７と、ボリュメトリック映像生成部７１が生成したボリュメトリック映像と、仮想視点位置とに基づいて、被写体１８が照明された状態で観測されるシミュレーション映像を生成する。

　照明シミュレーション制御部７３は、照明制御情報１７と仮想視点位置とを照明シミュレーション生成部７２に送信する。

　学習データ生成モジュール７５は、前景切り出し処理を行うための学習モデルと、テクスチャ補正処理を行うための学習モデルを生成する。学習データ生成モジュール７５は、学習データ生成制御部７６を備える。

　学習データ生成制御部７６は、照明シミュレーションモジュール７０が生成した照明シミュレーション映像に基づいて、前景切り出し用の学習データ７７と、テクスチャ補正用の学習データ７８とを生成する。なお、学習データ７７は、本開示における第１の学習データの一例である。また、学習データ７８は、本開示における第２の学習データの一例である。なお、学習データ７７と学習データ７８の具体的な生成方法は後述する。

［２－２．前景切り出し処理］
　次に、図１５を用いて、映像生成表示装置１０ｂが行う前景切り出し処理を説明する。図１５は、ディープラーニングを利用した前景切り出し処理の概要を説明する図である。

　前景切り出し処理部４４ｂは、学習データ７７を用いて、カメラ１４が撮像したカメラ画像Ｉｄの中から、被写体１８の領域を切り出す。このときに行われる前景切り出し処理は、学習データ生成制御部７６が生成した学習データ７７（第１の学習データ）に基づいて行われる。

　学習データ７７は、学習データ生成制御部７６が、カメラ画像Ｉｄと、背景データ１２に格納された背景画像Ｉｆと、前景切り出し照明画像Ｉｂと、そこから得られる被写体１８の領域との関係を深層学習させることによって生成した、一種の識別器である。そして、この学習データ７７は、ともに同時刻における任意のカメラ画像Ｉｄと、背景画像Ｉｆと、前景切り出し照明画像Ｉｂとの入力に対して、被写体１８の領域が切り出された被写体画像Ｉｇを出力する。

　信頼性の高い学習データ７７を生成するためには、なるべく多くのデータによって学習を行う必要がある。そのため、映像生成表示装置１０ｂは、照明シミュレーションモジュール７０が、背景ＣＧデータ１９に対して照明デバイス１１によってなされる照明環境に、モデルデータ４８に基づく３Ｄモデルを配置したボリュメトリック映像を模擬することによって、学習データ７７の生成を、できるだけ網羅的に行う。詳細な処理の流れは後述する（図１９参照）。

［２－３．テクスチャ補正処理］
　次に、図１６を用いて、映像生成表示装置１０ｂが行うテクスチャ補正処理を説明する。図１６は、ディープラーニングを利用したテクスチャ補正処理の概要を説明する図である。

　テクスチャ補正処理部４５ｂは、学習データ７８を用いて、カメラ１４が撮像したカメラ画像の中の被写体１８のテクスチャを、例えば標準照明状態におけるテクスチャに補正する。このときに行われるテクスチャ処理は、学習データ生成制御部７６が生成した学習データ７８（第２の学習データ）に基づいて行われる。

　学習データ７８は、学習データ生成制御部７６が、カメラ画像Ｉｄと、テクスチャ補正照明画像Ｉｃと、そこから得られる被写体１８のテクスチャとの関係を深層学習させることによって生成した、一種の識別器である。そして、この学習データ７８は、ともに同時刻における任意のカメラ画像Ｉｄと、テクスチャ補正照明画像Ｉｃとの入力に対して、被写体１８の領域がテクスチャ補正されたテクスチャ補正画像Ｉｅを出力する。

　信頼性の高い学習データ７８を生成するためには、なるべく多くのデータによって学習を行う必要がある。そのため、映像生成表示装置１０ｂは、照明シミュレーションモジュール７０が、照明デバイス１１によってなされる照明環境に、モデルデータ４８に基づく３Ｄモデルを配置したボリュメトリック映像を模擬することによって、学習データ７８の生成を、できるだけ網羅的に行う。詳細な処理の流れは後述する（図１９参照）。

［２－４．第２の実施形態の映像生成表示装置が行う処理の流れ］
　次に、図１７，図１８，図１９を用いて、映像生成表示装置１ｂが行う処理の流れを説明する。図１７は、第２の実施形態における前景切り出し処理の流れの一例を示すフローチャートである。図１８は、第２の実施形態におけるテクスチャ補正処理の流れの一例を示すフローチャートである。そして、図１９は、学習データの具体的な生成手順の一例を示すフローチャートである。

　まず、図１７を用いて、第２の実施形態における前景切り出し処理の流れを説明する。撮像部４３は、各カメラ１４が時刻毎に撮像したカメラ画像Ｉｄを取得する（ステップＳ４０）。

　また、撮像部４３は、カメラキャリブレーション情報１５（内部キャリブレーションデータ）を用いて、ステップＳ４０で取得したカメラ画像Ｉｄの歪み補正を行う（ステップＳ４１）。

　前景切り出し処理部４４ｂは、照明情報処理部４２から、前景切り出し照明画像Ｉｂを取得する。また、前景切り出し処理部４４ｂは、背景画像Ｉｆを取得する（ステップＳ４２）。

　前景切り出し処理部４４ｂは、同時刻の前景切り出し照明画像Ｉｂと背景画像Ｉｆと歪み補正済のカメラ画像Ｉｄを入力として、学習データ７７を用いて推論を行い、カメラ画像Ｉｄから前景を切り出す（ステップＳ４３）。

　前景切り出し処理部４４ｂは、最終フレームかを判定する（ステップＳ４４）。最終フレームであると判定される（ステップＳ４４：Ｙｅｓ）と、映像生成表示装置１０ｂは、図１７の処理を終了する。一方、最終フレームであると判定されない（ステップＳ４４：Ｎｏ）と、ステップＳ４０に戻る。

　次に、図１８を用いて、第２の実施形態におけるテクスチャ補正処理の流れを説明する。撮像部４３は、各カメラ１４が時刻毎に撮像したカメラ画像Ｉｄを取得する（ステップＳ５０）。

　また、撮像部４３は、カメラキャリブレーション情報１５（内部キャリブレーションデータ）を用いて、ステップＳ５０で取得したカメラ画像Ｉｄの歪み補正を行う（ステップＳ５１）。

　テクスチャ補正処理部４５ｂは、照明情報処理部４２から、カメラ画像Ｉｄと同時刻のテクスチャ補正照明画像Ｉｃを取得する。また、前景切り出し処理部４４ｂは、背景画像Ｉｆを取得する（ステップＳ５２）。

　テクスチャ補正処理部４５ｂは、同時刻の歪み補正済のカメラ画像Ｉｄとテクスチャ補正照明画像Ｉｃとを入力として、学習データ７８を用いて推論を行い、カメラ画像Ｉｄに写った被写体１８のテクスチャを補正する（ステップＳ５３）。

　テクスチャ補正処理部４５ｂは、最終フレームかを判定する（ステップＳ５４）。最終フレームであると判定される（ステップＳ５４：Ｙｅｓ）と、映像生成表示装置１０ｂは、図１８の処理を終了する。一方、最終フレームであると判定されない（ステップＳ５４：Ｎｏ）と、ステップＳ５０に戻る。

　次に、図１９を用いて、学習データ７７，７８の生成手順を説明する。図１９は、学習データの生成手順の一例を示すフローチャートである。

　学習データ生成制御部７６は、各照明デバイス１１のパラメータの組み合わせから１つを選択する（ステップＳ６０）。

　学習データ生成制御部７６は、ボリュメトリック映像コンテンツの中から１つを選択する（ステップＳ６１）。

　学習データ生成制御部７６は、オブジェクトの配置位置と向きを１つ選択する（ステップＳ６２）。

　学習データ生成制御部７６は、仮想視点位置を１つ選択する（ステップＳ６３）。

　学習データ生成制御部７６は、選択した情報を照明シミュレーションモジュール７０に与えて、シミュレーション映像（ボリュメトリック映像と照明付背景画像Ｉａ（前景切り出し照明画像Ｉｂ，テクスチャ補正照明画像Ｉｃ））を生成する（ステップＳ６４）。

　学習データ生成制御部７６は、ステップＳ６４で生成されたシミュレーション映像に対して、オブジェクトの切り出し処理とテクスチャ補正処理を行い、その結果得られた学習データ７７と学習データ７８を蓄積する（ステップＳ６５）。

　学習データ生成制御部７６は、仮想視点位置候補を全て選択したかを判定する（ステップＳ６６）。仮想視点位置候補を全て選択したと判定される（ステップＳ６６：Ｙｅｓ）と、ステップＳ６７に進む。一方、仮想視点位置候補を全て選択したと判定されない（ステップＳ６６：Ｎｏ）と、ステップＳ６３に戻る。

　学習データ生成制御部７６は、オブジェクトの配置位置と向きを全て選択したかを判定する（ステップＳ６７）。オブジェクトの配置位置と向きを全て選択したと判定される（ステップＳ６７：Ｙｅｓ）と、ステップＳ６８に進む。一方、オブジェクトの配置位置と向きを全て選択したと判定されない（ステップＳ６７：Ｎｏ）と、ステップＳ６２に戻る。

　学習データ生成制御部７６は、ボリュメトリック映像コンテンツを全て選択したかを判定する（ステップＳ６８）。ボリュメトリック映像コンテンツを全て選択したと判定される（ステップＳ６８：Ｙｅｓ）と、ステップＳ６９に進む。一方、ボリュメトリック映像コンテンツを全て選択したと判定されない（ステップＳ６８：Ｎｏ）と、ステップＳ６１に戻る。

　学習データ生成制御部７６は、照明デバイス１１のパラメータを全て選択したかを判定する（ステップＳ６９）。照明デバイス１１のパラメータを全て選択したと判定される（ステップＳ６９：Ｙｅｓ）と、映像生成表示装置１０ｂは、図１９の処理を終了する。一方、照明デバイス１１のパラメータを全て選択したと判定されない（ステップＳ６９：Ｎｏ）と、ステップＳ６０に戻る。

　[２－５．第２の実施形態の変形例]
　以上、第２の実施形態について説明したが、説明した機能の実現方法には、様々な変形が可能である。

　例えば、前景切り出し処理を行う際に、前景切り出し照明画像Ｉｂを用いる代わりに、数値情報である照明制御情報１７を、学習データ生成制御部７６に直接入力して推論を行うようにしてもよい。また、仮想視点位置を入力する代わりに、カメラ１４の外部キャリブレーションデータ（カメラ１４の位置と向きを規定するデータ）を、学習データ生成制御部７６に直接入力して推論を行うようにしてもよい。更に、標準照明下の背景画像Ｉｆを入力せずに推論を行うようにしてもよい。

　また、テクスチャ補正処理を行う際に、テクスチャ補正照明画像Ｉｃを用いる代わりに、数値情報である照明制御情報１７を、学習データ生成制御部７６に直接入力して推論を行うようにしてもよい。また、仮想視点位置を入力する代わりに、カメラ１４の外部キャリブレーションデータ（カメラ１４の位置と向きを規定するデータ）を、学習データ生成制御部７６に直接入力して推論を行うようにしてもよい。

　また、テクスチャ補正処理の結果を用いて、従来手法によって前景切り出し処理を行ってもよい。この場合、必要なのは学習データ７８のみであって、学習データ７７を生成する必要はない。

　なお、学習データ生成制御部７６が深層学習を行う際に用いる入出力モデルは、どのような形式のモデルを用いてもよい。また、前フレームの推論結果を、新たなフレームの推論を行う際にフィードバックさせてもよい。

［２－６．第２の実施形態の効果］
　以上説明したように、第２の実施形態の映像生成表示装置１０ｂ（画像処理装置）によると、前景切り出し処理部４４ｂ（切り出し部）は、照明制御情報入力部４１（第２の取得部）が取得した時刻毎の照明デバイス１１の状態と、被写体１８（オブジェクト）の領域との関係を学習した学習データ７７（第１の学習データ）に基づいて、撮像部４３（第１の取得部）が取得した画像から被写体１８の領域を切り出す。

　これにより、使用環境によらずに、被写体１８（前景）を高精度に切り出すことができる。

　また、第２の実施形態の映像生成表示装置１０ｂ（画像処理装置）によると、テクスチャ補正処理部４５ｂ（補正部）は、照明制御情報入力部４１（第２の取得部）が取得した時刻毎の照明デバイス１１の状態と、被写体１８（オブジェクト）のテクスチャとの関係を学習した学習データ７８（第２の学習データ）に基づいて、撮像部４３（第１の取得部）が取得した被写体１８のテクスチャを、時刻毎の照明デバイス１１の状態に応じて補正する。

　これにより、使用環境によらずに、被写体１８のテクスチャを安定して補正することができる。

　また、第２の実施形態の映像生成表示装置１０ｂ（画像処理装置）によると、モデリング処理部４６（モデル生成部）は、時刻毎の照明デバイス１１の状態と、時刻毎に撮像した画像の中の被写体１８（オブジェクト）の領域との関係を学習した学習データ７７（第１の学習データ）に基づいて、被写体１８が写った画像から被写体１８の領域を切り出すことによって、被写体１８の３Ｄモデル１８Ｍを生成する。

　これにより、使用環境によらずに、被写体１８の３Ｄモデル１８Ｍを高精度に生成することができる。特に、被写体１８を周囲から同時刻に撮像した画像を同時に推論することができるため、各画像からの領域の切り出し結果に整合性を持たせることができる。

　また、第２の実施形態の映像生成表示装置１０ｂ（画像処理装置）によると、テクスチャ補正処理部４５ｂ（補正部）は、時刻毎の照明デバイス１１の状態と、被写体１８（オブジェクト）のテクスチャとの関係を学習した学習データ７８（第２の学習データ）に基づいて、時刻毎に撮像した被写体１８のテクスチャを、時刻毎の照明デバイス１１の状態に応じて補正する。

　これにより、使用環境によらずに、被写体１８のテクスチャを安定して補正することができる。特に、被写体１８を周囲から同時刻に撮像した画像を同時に推論することができるため、各画像に対するテクスチャ補正結果に整合性を持たせることができる。

　また、第２の実施形態の映像生成表示装置１０ｂ（画像処理装置）において、学習データ生成制御部７６は、時刻毎に照明デバイス１１の状態が変化する状況下にある被写体１８（オブジェクト）を時刻毎に撮像した画像と、照明デバイス１１の状態とを時刻毎に取得して、取得した時刻毎の照明デバイス１１の状態に基づいて、被写体１８を含む画像から被写体１８を切り出して、時刻毎の照明デバイス１１の状態と、切り出された被写体１８の領域との関係を学習して学習データ７７を生成する。

　これにより、被写体１８を切り出すための学習データ７７を容易に生成することができる。特に、ボリュメトリック映像の生成を行う映像生成表示装置１０ｂにあっては、各種仮想視点、各種照明条件、各種被写体を自在に組み合わせた学習データ７７を容易かつ網羅的に、大量に生成することが可能である。

　また、第２の実施形態の映像生成表示装置１０ｂ（画像処理装置）において、学習データ生成制御部７６は、時刻毎に照明デバイス１１の状態が変化する状況下にある被写体１８（オブジェクト）を時刻毎に撮像した画像と、照明デバイス１１の状態とを時刻毎に取得して、取得した時刻毎の照明デバイス１１の状態に基づいて、時刻毎の照明デバイス１１の状態と、被写体１８のテクスチャとの関係を学習して学習データ７８を生成する。

　これにより、被写体１８のテクスチャを補正するための学習データ７８を容易に生成することができる。特に、ボリュメトリック映像の生成を行う映像生成表示装置１０ｂにあっては、各種仮想視点、各種照明条件、各種被写体を自在に組み合わせた学習データ７８を容易かつ網羅的に、大量に生成することが可能である。

　なお、本明細書に記載された効果は、あくまで例示であって限定されるものではなく、他の効果があってもよい。また、本開示の実施形態は、上述した実施形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本開示は、以下のような構成もとることができる。

　（１）
　時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得する第１の取得部と、
　前記照明の状態を前記時刻毎に取得する第２の取得部と、
　前記第２の取得部が取得した前記時刻毎の前記照明の状態に基づいて、前記画像から前記オブジェクトの領域を切り出す切り出し部と、
　前記切り出し部が切り出した前記オブジェクトの３Ｄモデルを生成するモデル生成部と、
　を備える画像処理装置。
　（２）
　前記第２の取得部が取得した前記時刻毎の前記照明の状態に基づいて、前記画像のテクスチャを、前記時刻毎の前記照明の状態に応じて補正する補正部を更に備える、
　前記（１）に記載の画像処理装置。
　（３）
　前記切り出し部は、
　前記第２の取得部が取得した時刻毎の前記照明の状態と、前記オブジェクトの領域との関係を学習した第１の学習データに基づいて、前記第１の取得部が取得した前記画像から前記オブジェクトの領域を切り出す、
　前記（１）又は（２）に記載の画像処理装置。
　（４）
　前記補正部は、
　前記第２の取得部が取得した時刻毎の前記照明の状態と、前記オブジェクトのテクスチャとの関係を学習した第２の学習データに基づいて、前記第１の取得部が取得した前記オブジェクトのテクスチャを、前記時刻毎の前記照明の状態に応じて補正する、
　前記（１）乃至（３）のいずれか１つに記載の画像処理装置。
　（５）
　前記照明の状態は、
　少なくとも、照明の位置と、照明の方向と、照明の色と、照明の明るさとを含む、
　前記（１）乃至（４）のいずれか１つに記載の画像処理装置。
　（６）
　前記画像は、
　前記オブジェクトの周囲から、当該オブジェクトの方向を撮像したものである、
　前記（１）乃至（５）のいずれか１つに記載の画像処理装置。
　（７）
　時刻毎に変化する照明の状態に基づいて、当該時刻毎に照明の状態が変化する状況下にあるオブジェクトを前記時刻毎に撮像した画像から、前記オブジェクトの領域を切り出すことによって、前記オブジェクトの３Ｄモデルを生成するモデル生成部と、
　前記モデル生成部が生成した前記３Ｄモデルを描画する描画部と、
　を備える画像処理装置。
　（８）
　時刻毎に変化する照明の状態に基づいて、当該時刻毎に照明の状態が変化する状況下にあるオブジェクトを前記時刻毎に撮像した画像から、前記オブジェクトのテクスチャを、前記時刻毎の前記照明の状態に応じて補正する補正部を更に備えて、
　前記描画部は、前記補正部が補正したテクスチャを用いて前記オブジェクトを描画する、
　前記（７）に記載の画像処理装置。
　（９）
　前記モデル生成部は、
　前記時刻毎の前記照明の状態と、前記時刻毎に撮像した画像から切り出された前記オブジェクトの領域との関係を学習した第１の学習データに基づいて、前記画像から前記オブジェクトの領域を切り出すことによって、前記オブジェクトの３Ｄモデルを生成する、
　前記（７）又は（８）に記載の画像処理装置。
　（１０）
　前記補正部は、
　時刻毎の前記照明の状態と、前記オブジェクトのテクスチャとの関係を学習した第２の学習データに基づいて、前記時刻毎に撮像した前記オブジェクトのテクスチャを、前記時刻毎の前記照明の状態に応じて補正する、
　前記（７）乃至（９）のいずれか１つに記載の画像処理装置。
　（１１）
　時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得して、
　前記照明の状態を前記時刻毎に取得して、
　前記時刻毎に取得された前記照明の状態に基づいて、前記画像から前記オブジェクトを切り出して、
　切り出された前記オブジェクトの３Ｄモデルを生成する、
　３Ｄモデルの生成方法。
　（１２）
　時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得して、
　前記照明の状態を前記時刻毎に取得して、
　取得した前記時刻毎の前記照明の状態に基づいて、前記画像から前記オブジェクトを切り出して、
　前記時刻毎の前記照明の状態と、切り出された前記オブジェクトの領域との関係を学習する、
　学習方法。
　（１３）
　時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得して、
　前記照明の状態を前記時刻毎に取得して、
　取得した前記時刻毎の前記照明の状態に基づいて、前記時刻毎の前記照明の状態と、前記オブジェクトのテクスチャとの関係を学習する、
　前記（１２）に記載の学習方法。
　（１４）
　コンピュータを、
　時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得する第１の取得部と、
　前記照明の状態を前記時刻毎に取得する第２の取得部と、
　前記第２の取得部が取得した前記時刻毎の前記照明の状態に基づいて、前記画像から前記オブジェクトの領域を切り出す切り出し部と、
　前記切り出し部が切り出した前記オブジェクトの３Ｄモデルを生成するモデル生成部と、
　して機能させるプログラム。
　（１５）
　コンピュータを、
　時刻毎に変化する照明の状態に基づいて、当該時刻毎に照明の状態が変化する状況下にあるオブジェクトを前記時刻毎に撮像した画像から、前記オブジェクトの領域を切り出すことによって、前記オブジェクトの３Ｄモデルを生成するモデル生成部と、
　前記取得部が取得した前記３Ｄモデルを描画する描画部と、
　して機能させるプログラム。

　１０ａ，１０ｂ…映像生成表示装置（画像処理装置）、１１…照明デバイス、１２…背景データ、１３…照明デバイス設定情報、１４…カメラ、１５…カメラキャリブレーション情報、１６…照明シナリオ、１７…照明制御情報、１８…被写体（オブジェクト）、１８Ｍ…３Ｄモデル、２０ａ，２０ｂ…サーバ装置、３０…照明制御モジュール、３１…照明制御ＵＩ部、３２…照明制御情報出力部、４０ａ，４０ｂ…ボリュメトリック映像生成モジュール、４１…照明制御情報入力部（第２の取得部）、４２…照明情報処理部、４３…撮像部（第１の取得部）、４４ａ，４４ｂ…前景切り出し処理部（切り出し部）、４５ａ，４５ｂ…テクスチャ補正処理部（補正部）、４６…モデリング処理部（モデル生成部）、４７…テクスチャ生成部、４８…モデルデータ、４９…テクスチャデータ、７０…照明シミュレーションモジュール、７５…学習データ生成モジュール、７７…学習データ（第１の学習データ）、７８…学習データ（第２の学習データ）、８０…携帯端末、９０…ボリュメトリック映像再生モジュール、９１…レンダリング部（描画部）、９２…再生部、Ｉａ…照明付背景画像、Ｉｂ…前景切り出し照明画像、Ｉｃ…テクスチャ補正照明画像、Ｉｄ…カメラ画像、Ｉｅ…テクスチャ補正画像、Ｉｆ…背景画像、Ｉｇ…被写体画像

Claims

　時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得する第１の取得部と、
　前記照明の状態を前記時刻毎に取得する第２の取得部と、
　前記第２の取得部が取得した前記時刻毎の前記照明の状態に基づいて、前記画像から前記オブジェクトの領域を切り出す切り出し部と、
　前記切り出し部が切り出した前記オブジェクトの３Ｄモデルを生成するモデル生成部と、
　を備える画像処理装置。
　前記第２の取得部が取得した前記時刻毎の前記照明の状態に基づいて、前記画像のテクスチャを、前記時刻毎の前記照明の状態に応じて補正する補正部を更に備える、
　請求項１に記載の画像処理装置。
　前記切り出し部は、
　前記第２の取得部が取得した時刻毎の前記照明の状態と、前記オブジェクトの領域との関係を学習した第１の学習データに基づいて、前記第１の取得部が取得した前記画像から前記オブジェクトの領域を切り出す、
　請求項１に記載の画像処理装置。
　前記補正部は、
　前記第２の取得部が取得した時刻毎の前記照明の状態と、前記オブジェクトのテクスチャとの関係を学習した第２の学習データに基づいて、前記第１の取得部が取得した前記オブジェクトのテクスチャを、前記時刻毎の前記照明の状態に応じて補正する、
　請求項２に記載の画像処理装置。
　前記照明の状態は、
　少なくとも、照明の位置と、照明の方向と、照明の色と、照明の明るさとを含む、
　請求項１に記載の画像処理装置。
　前記画像は、
　前記オブジェクトの周囲から、当該オブジェクトの方向を撮像したものである、
　請求項１に記載の画像処理装置。
　時刻毎に変化する照明の状態に基づいて、当該時刻毎に照明の状態が変化する状況下にあるオブジェクトを前記時刻毎に撮像した画像から、前記オブジェクトの領域を切り出すことによって、前記オブジェクトの３Ｄモデルを生成するモデル生成部と、
　前記モデル生成部が生成した前記３Ｄモデルを描画する描画部と、
　を備える画像処理装置。
　時刻毎に変化する照明の状態に基づいて、当該時刻毎に照明の状態が変化する状況下にあるオブジェクトを前記時刻毎に撮像した画像から、前記オブジェクトのテクスチャを、前記時刻毎の前記照明の状態に応じて補正する補正部を更に備えて、
　前記描画部は、前記補正部が補正したテクスチャを用いて前記オブジェクトを描画する、
　請求項７に記載の画像処理装置。
　前記モデル生成部は、
　前記時刻毎の前記照明の状態と、前記時刻毎に撮像した画像の中の前記オブジェクトの領域との関係を学習した第１の学習データに基づいて、前記画像から前記オブジェクトの領域を切り出すことによって、前記オブジェクトの３Ｄモデルを生成する、
　請求項７に記載の画像処理装置。
　前記補正部は、
　時刻毎の前記照明の状態と、前記オブジェクトのテクスチャとの関係を学習した第２の学習データに基づいて、前記時刻毎に撮像した前記オブジェクトのテクスチャを、前記時刻毎の前記照明の状態に応じて補正する、
　請求項８に記載の画像処理装置。
　時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得して、
　前記照明の状態を前記時刻毎に取得して、
　前記時刻毎に取得された前記照明の状態に基づいて、前記画像から前記オブジェクトを切り出して、
　切り出された前記オブジェクトの３Ｄモデルを生成する、
　３Ｄモデルの生成方法。
　時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得して、
　前記照明の状態を前記時刻毎に取得して、
　取得した前記時刻毎の前記照明の状態に基づいて、前記画像から前記オブジェクトを切り出して、
　前記時刻毎の前記照明の状態と、切り出された前記オブジェクトの領域との関係を学習する、
　学習方法。
　時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得して、
　前記照明の状態を前記時刻毎に取得して、
　取得した前記時刻毎の前記照明の状態に基づいて、前記時刻毎の前記照明の状態と、前記オブジェクトのテクスチャとの関係を学習する、
　請求項１２に記載の学習方法。
　コンピュータを、
　時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得する第１の取得部と、
　前記照明の状態を前記時刻毎に取得する第２の取得部と、
　前記第２の取得部が取得した前記時刻毎の前記照明の状態に基づいて、前記画像から前記オブジェクトの領域を切り出す切り出し部と、
　前記切り出し部が切り出した前記オブジェクトの３Ｄモデルを生成するモデル生成部と、
　して機能させるプログラム。
　コンピュータを、
　時刻毎に変化する照明の状態に基づいて、当該時刻毎に照明の状態が変化する状況下にあるオブジェクトを前記時刻毎に撮像した画像から、前記オブジェクトの領域を切り出すことによって、前記オブジェクトの３Ｄモデルを生成するモデル生成部と、
　前記モデル生成部が生成した前記３Ｄモデルを描画する描画部と、
　して機能させるプログラム。