JP2018129008A - Image compositing device, image compositing method, and computer program - Google Patents
Image compositing device, image compositing method, and computer program Download PDFInfo
- Publication number
- JP2018129008A JP2018129008A JP2017023667A JP2017023667A JP2018129008A JP 2018129008 A JP2018129008 A JP 2018129008A JP 2017023667 A JP2017023667 A JP 2017023667A JP 2017023667 A JP2017023667 A JP 2017023667A JP 2018129008 A JP2018129008 A JP 2018129008A
- Authority
- JP
- Japan
- Prior art keywords
- subject
- dimensional
- frame
- image
- joint information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Processing (AREA)
Abstract
Description
本発明は、自由視点映像を生成するための技術に関する。 The present invention relates to a technique for generating a free viewpoint video.
自由視点映像では、複数の位置に配置されたカメラで撮った映像を用いて任意の視点の映像が合成される。このような合成処理によって、あらゆる視点からの映像を見ることが可能である。このような自由視点映像の技術は、次世代の映像メディアとして古くから研究が進められてきた。自由視点映像では、シーン中の被写体の三次元形状の復元を行うことで、実際にはカメラが配置されていない位置を視点とした映像を生成することを可能とする。 In a free viewpoint video, a video of an arbitrary viewpoint is synthesized using videos taken by cameras arranged at a plurality of positions. With such a composition process, it is possible to view images from any viewpoint. This kind of free-viewpoint video technology has long been studied as the next-generation video media. In the free viewpoint video, by restoring the three-dimensional shape of the subject in the scene, it is possible to generate a video with the viewpoint where the camera is not actually arranged.
高品質な自由視点映像を実現することができる代表的な研究の一つとして、Colletらの研究が挙げられる(非特許文献1参照)。この研究は、自由視点映像の撮影、合成及び配信の一連のパイプラインを提案した研究である。この研究の技術により、高品質な自由視点映像を合成することが可能である。しかし、大量のカメラ及び赤外カメラが必要とされる。また、被写体領域を抽出するために背景を均一色に限定する必要がある。さらに、これらの特殊な環境に特化したキャリブレーションを行う必要がある。このように、撮影環境に対して非常に厳しい制約条件がある。そのため、実際のシーンでの利用は難しい。 Collet et al. (See Non-Patent Document 1) is a representative study that can realize a high-quality free viewpoint video. This is a study that proposed a series of pipelines for shooting, compositing, and distributing free-viewpoint images. The technology of this research makes it possible to synthesize high-quality free viewpoint images. However, a large number of cameras and infrared cameras are required. Further, it is necessary to limit the background to a uniform color in order to extract the subject area. Furthermore, it is necessary to perform calibration specialized for these special environments. Thus, there are very strict constraints on the shooting environment. Therefore, it is difficult to use in actual scenes.
他の研究として、距離センサを用いることで比較的現実的な制約下での自由視点映像合成方法が提案されている(非特許文献2参照)。しかしながら、この提案による技術では、合成品質が十分には高くない。合成品質を低下させる大きな要因の一つとして、オクル―ジョン及び時間方向のちらつきが挙げられる。オクル―ジョンに関しては、取得できていない情報を再現する必要があるため、事前情報等を用いずに解決することは原理的に不可能である。時間方向のちらつきに関しては、距離センサが赤外光の干渉などを受けることにより、フレームによって取得する情報にばらつきが生じることが原因である。こちらについては、距離情報のフィルタリングなどによって解決が試みられている。しかしながら、改善はされているものの、未だに十分には解消されていない。オクルージョン及び時間方向のちらつきは、わずかに生じるだけでも視聴者が大きな違和感を覚えてしまうため、解決すべき問題である。 As another research, a free viewpoint video composition method under a relatively realistic constraint by using a distance sensor has been proposed (see Non-Patent Document 2). However, with the technique according to this proposal, the synthesis quality is not sufficiently high. One of the major factors that degrade the synthesis quality is occlusion and time flicker. Regarding occlusion, since it is necessary to reproduce information that cannot be obtained, it is impossible in principle to solve it without using prior information. The flickering in the time direction is caused by variations in information acquired by the frames due to the interference of infrared light by the distance sensor. In this case, attempts have been made to solve the problem by filtering distance information. However, although it has been improved, it has not been fully resolved. Occlusion and flickering in the time direction are problems to be solved because even if they occur only slightly, the viewer feels uncomfortable.
このように、従来の自由視点映像の技術には、解決すべき問題が残されており、実際のシーンで使用可能といえる制約条件で十分な品質の画像を生成することは実現されていない。
上記事情に鑑み、本発明は、背景を均一色に限定する等の厳しい制約条件を課すことなく得られた映像を用いることによって、任意の視野及び時刻における画像をより高い品質で生成する技術の提供を目的としている。
As described above, there are still problems to be solved in the conventional free viewpoint video technology, and it has not been realized to generate an image with sufficient quality under the constraint that it can be used in an actual scene.
In view of the above circumstances, the present invention is a technique for generating an image at an arbitrary field of view and time with higher quality by using an image obtained without imposing severe restrictions such as limiting the background to a uniform color. The purpose is to provide.
本発明の一態様は、複数の動画像と、前記動画像を撮影した複数のカメラの視野に関するカメラパラメータと、前記動画像に撮影されている被写体の三次元形状に関するパラメータと、の入力を受け付ける入力部と、各時刻におけるフレームについて、前記被写体の三次元関節情報を推定する三次元関節情報推定部と、各時刻のフレームにおける前記三次元関節情報の推定結果と、前記被写体の三次元形状に関するパラメータと、に基づいて各時刻における前記被写体の三次元形状を示す情報を取得する形状変形部と、前記被写体の三次元形状を示す情報に基づいて、指定された時刻における指定された視野の前記被写体の画像を含む画像を生成する画像合成部と、を備える画像合成装置である。 One embodiment of the present invention receives input of a plurality of moving images, camera parameters related to the fields of view of the plurality of cameras that captured the moving images, and parameters related to the three-dimensional shape of the subject captured in the moving images. An input unit, a three-dimensional joint information estimation unit for estimating the three-dimensional joint information of the subject for the frame at each time, an estimation result of the three-dimensional joint information in the frame at each time, and a three-dimensional shape of the subject A shape deforming unit that acquires information indicating the three-dimensional shape of the subject at each time based on the parameter, and the information on the specified field of view at the specified time based on the information indicating the three-dimensional shape of the subject. And an image composition unit that generates an image including an image of a subject.
本発明の一態様は、上記の画像合成装置であって、前記被写体の三次元形状に関するパラメータは、前記被写体の三次元形状を示す基準形状情報と、前記基準形状情報によって示される前記三次元形状における各関節の情報を示す基準関節情報と、を含む。 One aspect of the present invention is the above-described image composition device, wherein the parameters relating to the three-dimensional shape of the subject include reference shape information indicating the three-dimensional shape of the subject, and the three-dimensional shape indicated by the reference shape information. And reference joint information indicating information on each joint.
本発明の一態様は、上記の画像合成装置であって、前記動画像を構成する各時刻におけるフレームについて、前記フレームの画像に基づいて前記被写体の関節情報を推定する対象となるフレームである推定フレームを判定するフレーム分類部をさらに備え、前記三次元関節情報推定部は、前記推定フレームについては、前記推定フレームの画像に基づいて前記被写体の三次元関節情報を推定し、前記推定フレーム以外のフレームについては、前記推定フレームにおける前記三次元関節情報の推定結果を用いた補間処理によって前記三次元関節情報を推定する。 One aspect of the present invention is the above-described image composition device, in which the frame at each time constituting the moving image is a frame that is a target for estimating joint information of the subject based on the image of the frame. A frame classification unit for determining a frame; and the three-dimensional joint information estimation unit estimates the three-dimensional joint information of the subject based on an image of the estimation frame for the estimation frame, For the frame, the 3D joint information is estimated by an interpolation process using the estimation result of the 3D joint information in the estimated frame.
本発明の一態様は、上記の画像合成装置であって、各時刻におけるフレームについて、前記被写体の二次元関節情報を推定し、推定結果の信頼度を取得する二次元関節情報推定部をさらに備え、前記三次元関節情報推定部は、前記推定フレームについては、前記二次元関節情報推定部において高い信頼度が取得された一部のフレームに関する情報のみに基づいて前記三次元関節情報を推定する。 One aspect of the present invention is the above-described image composition device, further including a two-dimensional joint information estimation unit that estimates the two-dimensional joint information of the subject for the frame at each time and acquires the reliability of the estimation result. The three-dimensional joint information estimation unit estimates the three-dimensional joint information for the estimated frame based only on information about a part of frames for which high reliability is acquired by the two-dimensional joint information estimation unit.
本発明の一態様は、複数の動画像と、前記動画像を撮影した複数のカメラの視野に関するカメラパラメータと、前記動画像に撮影されている被写体の三次元形状に関するパラメータと、の入力を受け付ける入力ステップと、各時刻におけるフレームについて、前記被写体の三次元関節情報を推定する三次元関節情報推定ステップと、各時刻のフレームにおける前記三次元関節情報の推定結果と、前記被写体の三次元形状に関するパラメータと、に基づいて各時刻における前記被写体の三次元形状を示す情報を取得する形状変形ステップと、前記被写体の三次元形状を示す情報に基づいて、指定された時刻における指定された視野の前記被写体の画像を含む画像を生成する画像合成ステップと、を有する画像合成方法である。 One embodiment of the present invention receives input of a plurality of moving images, camera parameters related to the fields of view of the plurality of cameras that captured the moving images, and parameters related to the three-dimensional shape of the subject captured in the moving images. An input step, a three-dimensional joint information estimation step for estimating the three-dimensional joint information of the subject for the frame at each time, an estimation result of the three-dimensional joint information in the frame at each time, and a three-dimensional shape of the subject A shape deformation step for acquiring information indicating the three-dimensional shape of the subject at each time based on the parameter, and the information on the specified field of view at the specified time based on the information indicating the three-dimensional shape of the subject. And an image composition step for generating an image including an image of the subject.
本発明の一態様は、コンピュータを、上記の画像合成装置として機能させるためのコンピュータプログラムである。 One embodiment of the present invention is a computer program for causing a computer to function as the above-described image composition device.
本発明により、背景を均一色に限定する等の厳しい制約条件を課すことなく得られた映像を用いることによって、任意の視野及び時刻における画像をより高い品質で生成することが可能となる。 According to the present invention, it is possible to generate an image at an arbitrary field of view and time with higher quality by using an image obtained without imposing severe restrictions such as limiting the background to a uniform color.
図1は実施形態における画像合成装置10の構成例を示す概略ブロック図である。画像合成装置10は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、画像合成プログラムを実行する。画像合成プログラムの実行によって、画像合成装置10は、入力部11、フレーム分類部12、二次元関節情報推定部13、三次元関節情報推定部14、形状変形部15及び画像合成部16を備える装置として機能する。なお、画像合成装置10の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。画像合成プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。画像合成プログラムは、電気通信回線を介して送信されてもよい。
FIG. 1 is a schematic block diagram illustrating a configuration example of an
まず、入力部11について説明する。入力部11は、複数の動画像、各動画像を撮影したカメラのパラメータ(以下「カメラパラメータ」という。)、所定の被写体の三次元形状を示す基準形状情報、所定の被写体の三次元関節情報を示す基準関節情報、所定の被写体の変形パラメータ、の入力を受け付ける。複数の動画像は、複数の位置に配置された各カメラによって同時刻に同一のシーンを撮影することによって得られた動画像である。例えば、サッカー場などのフィールドを取り囲むように配置された複数のカメラによって上記フィールドを同時刻(例えば同日の13時から14時までの1時間)に撮影することによって得られる動画像が入力される。動画像は、カラーの動画像であってもよいし、グレースケールの動画像であってもよいし、二値の動画像であってもよい。動画像のデータは、各カメラからリアルタイムに入力されてもよいし、ハードディスクドライブ(HDD)等の記録媒体に記録された動画像が入力されてもよい。各動画像は完全に同一の時刻に撮影されてものである必要は無く前後に多少の時間のずれが生じていてもよい。動画像の各フレームには、各フレームが撮影された時刻(以下「フレーム時刻」という。)が付与されていることが好ましい。フレーム時刻が付与されていない場合には、入力部11は撮影開始時刻と動画像の再生時間とに基づいて各フレームに対してフレーム時刻を付与してもよい。以降の説明では、簡単のため動画像内に存在する人物は一人であり、その人物が基準形状情報等を用いてレンダリングが行われる対象の被写体(以下「注目被写体」という。)であるものとする。複数の注目被写体が存在する場合は、入力部11は、動画像内で人物領域を切り出す処理を行うことによって、動画像を注目被写体ごとに分割してもよい。それぞれの注目被写体に関する動画像に対して、注目被写体が一人である場合と同様の処理を行うことによって、複数の注目被写体が存在する場合であっても同様の処理が可能となる。
First, the
カメラパラメータは、動画像を撮影した各カメラの視点位置、視線方向、視野角などのパラメータである。カメラパラメータは、カメラ内部のパラメータと、カメラ外部のパラメータとの両方を含んでもよい。カメラパラメータは、動画像を取得する前に、各カメラにおいてカメラキャリブレーションを行うことによって取得されてもよい。 The camera parameters are parameters such as a viewpoint position, a line-of-sight direction, and a viewing angle of each camera that has captured a moving image. The camera parameter may include both a parameter inside the camera and a parameter outside the camera. The camera parameter may be acquired by performing camera calibration in each camera before acquiring the moving image.
基準形状情報は、入力される動画像に撮影された被写体のうち、所定の基準に基づいて予め定められた被写体(注目被写体)の三次元形状を示す。例えば、特に注目される可能性の高い被写体について、基準形状情報が入力される。例えばサッカーの試合の動画像が入力される場合には、サッカーの試合に出場する選手(スタメンの選手及びベンチ入りした選手)全員の基準形状情報が入力されてもよい。基準形状情報は、注目被写体に対して予め三次元形状復元の処理を行うことによって得られてもよい。例えば、注目被写体に対して距離センサ等の測定機器を用いた測定を行うことによって得られたデータに基づいて基準形状情報が生成されてもよい。例えば、複数の位置のカメラによって撮影された静止画像を用いることによって基準形状情報が生成されてもよい。基準形状情報は、例えば人物の各関節の位置と、人物の表面形状と、人物の表面の画像(テクスチャ画像)と、を有するデータ(三次元人物モデルデータ)であってもよい。三次元人物モデルデータを用いることによって、所望の視野で所望の姿勢の人物の画像を生成することが可能となる。なお、基準形状情報における注目被写体の姿勢は、TポーズやAスタンスのような姿勢であってもよいし、他の姿勢であってもよい。また、入力部11は、入力された基準形状情報において欠損やノイズが生じていた場合には、Poisson Surface Reconstruction(参考文献1)や一般的な空間フィルタリングなどの手法を用いて表面形状の高品質化を行ってもよい。このような処理が行われることによって、その後に復元された形状は連続した表面を保持する。その結果、視点位置の変化による欠損が生じにくくなる。
参考文献1:M. Kazhdan, M. Bolitho, H. Hoppe, “Poisson Surface Reconstruction,” Symposium on Geometry Processing 2006, 61-70.
The reference shape information indicates a three-dimensional shape of a subject (a subject of interest) that is predetermined based on a predetermined reference among subjects captured in the input moving image. For example, the reference shape information is input for a subject that is particularly likely to receive attention. For example, when a moving image of a soccer game is input, the reference shape information of all players (stamen players and players on a bench) participating in the soccer game may be input. The reference shape information may be obtained by performing a three-dimensional shape restoration process on the subject of interest in advance. For example, the reference shape information may be generated based on data obtained by performing measurement using a measuring device such as a distance sensor on the subject of interest. For example, the reference shape information may be generated by using still images taken by cameras at a plurality of positions. The reference shape information may be data (three-dimensional human model data) including, for example, the position of each joint of the person, the surface shape of the person, and an image (texture image) of the person's surface. By using the three-dimensional person model data, it is possible to generate an image of a person in a desired posture with a desired visual field. Note that the posture of the subject of interest in the reference shape information may be a posture such as a T pose or an A stance, or may be another posture. In addition, the
Reference 1: M. Kazhdan, M. Bolitho, H. Hoppe, “Poisson Surface Reconstruction,” Symposium on Geometry Processing 2006, 61-70.
基準関節情報は、入力された基準形状情報の姿勢における各関節の三次元関節情報である。三次元関節情報は、関節の位置と、関節の角度とを表す。関節の位置は、例えばxyz座標で表される。関節の角度は、例えばxyz軸を中心としたオイラー角によって表される。基準関節情報は、基準形状情報を生成する際にモーションキャプチャ等の測定技術を用いて測定されてもよいし、注目被写体が撮影された画像に対して推定処理を行うことによって取得されてもよい。 The reference joint information is three-dimensional joint information of each joint in the posture of the input reference shape information. The three-dimensional joint information represents a joint position and a joint angle. The position of the joint is expressed by, for example, xyz coordinates. The angle of the joint is represented by, for example, Euler angles with the xyz axis as the center. The reference joint information may be measured using a measurement technique such as motion capture when generating the reference shape information, or may be acquired by performing an estimation process on an image in which the subject of interest is captured. .
変形パラメータは、基準形状情報に対応する注目被写体の関節が変化した際に、動画像内の注目被写体の形状がどのように変形するかを定めるパラメータである。変形パラメータは、例えば関節の回転に応じた形状の変化を定義するパラメータである。変形パラメータは、予め測定などによって取得されてもよい。例えば、一般的なスキニング手法を用いることによって関節と形状の頂点との距離に反比例するように変形パラメータが定められてもよい。変形パラメータは、ソフトウェアを用いて手動で定められてもよい。 The deformation parameter is a parameter that determines how the shape of the subject of interest in the moving image is deformed when the joint of the subject of interest corresponding to the reference shape information changes. The deformation parameter is a parameter that defines a change in shape according to the rotation of the joint, for example. The deformation parameter may be acquired in advance by measurement or the like. For example, the deformation parameter may be determined so as to be inversely proportional to the distance between the joint and the shape vertex by using a general skinning technique. The deformation parameter may be determined manually using software.
次に、フレーム分類部12について説明する。図2は、フレーム分類部12の構成例を示す図である。フレーム分類部12には、入力部11において入力された複数の動画像が入力される。図2の例では、L台の異なる視点位置のカメラによって撮影されたL個の動画像がフレーム分類部12に入力される。フレーム分類部12は、フレーム分離部121及び関節情報推定フラグ付与部122を有する。フレーム分離部121は、各動画像をフレーム毎の画像に分離する。このとき、フレーム分離部121は、異なる動画像から得られたフレーム同士で、フレーム時刻に基づいて同時刻に撮影されたフレームの画像であることを示す所定の条件を満たすフレーム同士を関連づけする。所定の条件は、ある基準となる動画像のフレームに対して、他の動画像から得られるフレームのうち最もフレーム時刻が近いフレームであることを示す条件であってもよい。同時刻に撮影されたと推定された各フレームが関連づけられた一組のフレームセットを、同時刻フレームセットとよぶ。以下の処理では、同時刻フレームセットに含まれる各フレームは、実際のフレーム時刻にかかわらず、同一の時刻に撮影されたものとして扱われてもよい。
Next, the
関節情報推定フラグ付与部122は、各同時刻フレームセットに対して、その動画像フレームセットの画像に基づいて三次元関節情報の推定を行うか否かを示すフラグ(以下「関節情報推定フラグ」という。)の値を付与する。関節情報推定フラグには、推定フラグ及び非推定フラグの二種類の値がある。推定フラグが与えられた場合には、その同時刻フレームセットにおいてフレームの画像やカメラパラメータを用いて三次元関節情報の推定が行われる。一方、非推定フラグが与えられた場合には、その同時刻フレームセットにおいて補間処理によって三次元関節情報の推定が行われる。関節情報推定フラグ付与部122は、例えば所定の周期で同時刻フレームセットに推定フラグを付与し、他の同時刻フレームセットに非推定フラグを付与してもよい。関節情報推定フラグ付与部122は、画像内で所定の条件が満たされた同時刻フレームセットに対し推定フラグを付与してもよい。所定の条件とは、例えば画像内で注目被写体の移動速度が極値を示したことであってもよい。移動速度は、注目被写体全体の移動速度であってもよいし、一部の間接や身体部分(例えば腕や顔)の移動速度であってもよい。この場合、二次元関節情報推定部13は、画像内で注目被写体の移動速度を判定し、その移動速度が極値を示した場合に推定フラグを付与してもよい。二次元関節情報推定部13は、同時刻フレームセットにおいていずれか一つのフレームが所定の条件を満たした場合には、その同時刻フレームセットに対して推定フラグを付与してもよいし、同時刻フレームセットにおいて所定数以上のフレームにおいて所定の条件が満たされた場合にその同時刻フレームセットに対して推定フラグを付与してもよい。なお、推定フラグが付与されなかった全ての同時刻フレームセットに対して非推定フラグが付与される。以下の説明では、関節情報推定フラグを付与された各同時刻フレームセットの各フレームの画像のことを分類済みフレーム画像と称する。
The joint information estimation
次に二次元関節情報推定部13について説明する。図3は、二次元関節情報推定部13の構成例を示す図である。二次元関節情報推定部13には、推定フラグが付与された同時刻フレームセット(各視点の画像)が入力される。二次元関節情報推定部13は、入力された同時刻フレームセットに含まれる各視点のフレーム画像において、二次元関節情報(画像上の関節の位置)を推定する。また、二次元関節情報推定部13は、各視点のフレーム画像において、二次元関節情報の推定結果の信頼度を取得する。信頼度は、その二次元関節情報の推定結果が実際の値にどの程度近いと推定されるかを示す値である。例えば、信頼度が高いほど、推定結果が実際の値に近いと推定されることを示す。これらの処理は例えば以下の参考文献2に記載のDeepCutが用いられてもよいし、他の手法が用いられてもよい。
参考文献2:L. Pishchulin, E. Insafutdinov, S. Tang, B. Andres, M. Andriluka, P. Gehler, B. Schiele, “DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2016).
Next, the two-dimensional joint
Reference 2: L. Pishchulin, E. Insafutdinov, S. Tang, B. Andres, M. Andriluka, P. Gehler, B. Schiele, “DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2016).
次に、三次元関節情報推定部14について説明する。図4は、三次元関節情報推定部14の構成例を示す図である。三次元関節情報推定部14は、二次元関節情報推定部13における推定結果に基づいて、各同時刻フレームセットにおける注目被写体のその時刻における三次元関節情報を推定する。三次元関節情報推定部14は、三次元関節情報計算部141及び三次元関節情報補間部142を有する。
Next, the three-dimensional joint
三次元関節情報計算部141には、推定フラグが付与された同時刻フレームセットにおいて二次元関節情報推定部13で取得された二次元関節情報及び信頼度と、各カメラのカメラパラメータとが入力される。三次元関節情報計算部141は、注目被写体の全ての関節について以下の処理を繰り返し行う。まず、三次元関節情報計算部141は、処理の対象となっている関節について、信頼度が高い方から所定数(例えば2つ)のフレームを選択する。三次元関節情報計算部141は、処理の対象となっている関節の三次元情報を、選択されたフレームにおける二次元関節情報と、選択されたフレームにおけるカメラパラメータと、を用いて推定する。例えば、1対のフレーム画像上の二次元関節情報を、カメラパラメータを用いて三次元空間に直線として投影し、直線同士の距離が最短となる2点を結ぶ線分の中点を、三次元関節情報の関節位置として推定してもよい。なお、信頼度に基づいて選択される所定数のフレームは、処理の対象となっている関節毎に異なってもよい。
The three-dimensional joint
三次元関節情報計算部141は、全ての関節について三次元の位置を推定すると、推定結果に基づいて各関節の角度を推定する。関節の角度は、回転行列を導出して求められてもよいし、クォータニオンを用いて求められてもよい。三次元関節情報計算部141は、上述した処理を、推定フラグが付与された全ての同時刻フレームセットに対して実行する。上述のように、三次元関節情報計算部141は、信頼度が高い所定数の二次元関節情報を用いて三次元関節情報を推定する。そのため、二次元関節情報に含まれる誤差を抑制することが可能となる。
When the three-dimensional joint
三次元関節情報補間部142は、非推定フラグが付与された全ての同時刻フレームセットに対し、以下の処理を繰り返し行う。まず、三次元関節情報補間部142は、処理の対象となった同時刻フレームセットの各フレームについて、時刻的に最も近いフレームであって且つ推定フラグが付与されたフレームを、より早い時刻のフレームとより遅い時刻のフレームと一つずつ選択する。三次元関節情報補間部142は、選択された各フレームについて、三次元関節情報計算部141による推定結果(三次元関節情報)を取得する。三次元関節情報補間部142は、取得された推定結果に基づいて、関節位置及び角度に対してフレーム時刻の差分に応じた補間を行うことで、非推定フラグが付与された各フレームの三次元関節情報を推定する。この時、補間に用いられる係数に対して何らかの重み付けがなされてもよい。このように、全ての時刻のフレームに対して三次元関節情報計算部141による推定処理を行うのではなく、間引きされた一部のフレーム(推定フラグが付与されたフレーム)に対してのみ三次元関節情報計算部141による推定処理を実行し、残りのフレームに対しては推定結果に基づいた補間処理が行われる。このような処理により、フレームごとの形状のちらつきを抑制することが可能である。
The three-dimensional joint information interpolation unit 142 repeatedly performs the following processing for all the same-time frame sets to which the non-estimation flag is assigned. First, the three-dimensional joint information interpolating unit 142 determines, for each frame of the same-time frame set to be processed, a frame that is closest in time and has an estimation flag attached to a frame at an earlier time. And later frames one by one. The three-dimensional joint information interpolation unit 142 acquires an estimation result (three-dimensional joint information) by the three-dimensional joint
次に、形状変形部15について説明する。形状変形部15には、基準形状情報、基準関節情報、三次元関節情報推定部14による推定結果(三次元関節情報)、変形パラメータが入力される。形状変形部15は、三次元関節情報推定部14で推定された三次元関節情報と基準関節情報とを比較する。形状変形部15は、比較結果と変形パラメータとに基づいて、基準形状を変形させる。形状変形部15は、全ての同時刻フレームセットにおいて得られた三次元関節情報に対して上記の処理を実行する。
Next, the
図5は、形状変形部15の構成例を示す図である。以下、図5を例に形状変形部15について詳細に説明する。形状変形部15は、関節変位計算部151及び変形部152を有する。
FIG. 5 is a diagram illustrating a configuration example of the
関節変位計算部151は、三次元関節情報推定部14で推定された三次元関節情報と基準関節情報との差分を算出する。例えば、関節変位計算部151は、推定された三次元関節情報における三次元座標と、基準関節情報における三次元座標との差分を算出し、x軸、y軸及びz軸における位置のずれを取得する。また、関節変位計算部151は、推定された三次元関節情報における三次元の角度と、基準関節情報における三次元の角度との差分を算出し、x軸、y軸及びz軸を中心とした回転角のずれを取得する。
The joint
変形部152は、推定された三次元関節情報と基準関節情報との差分と、変形パラメータと、に基づいて、基準形状を変形する。このような処理によって、変形部152は、処理の対象となっている同時刻フレームセットのフレーム時刻において注目被写体がとっていた姿勢と同じ姿勢となるように、基準形状を変形させる。変形部152は、このように変形された後の形状の情報を、変形形状情報として出力する。このような処理が全ての同時刻フレームセットにおいて実行されることによって、各同時刻フレームセットに対応する変形形状情報が取得される。変形部152は、各フレーム時刻に対応付けて変形形状情報を記憶装置に記録してもよい。
The deforming
画像合成部16は、指定された視野及び時刻における自由視点映像を生成する。視野及び時刻は、例えば自由視点映像を再生する装置によって指定されてもよいし、自由視点映像を視聴する者によって指定されてもよい。画像合成部16は、指定された時刻に相当するフレーム時刻の変形形状情報を取得する。取得される変形形状情報は、その時刻における注目被写体の位置や姿勢を示している。画像合成部16は、取得された変形形状情報を用いて、指定された視野における画像をレンダリングする。このとき、注目被写体の画像は変形形状情報を用いたレンダリングによって得られる。画像合成部16は、注目被写体の背景の画像については、予め得られている背景を示すモデルデータに基づいてレンダリングしてもよいし、対応する同時刻フレームセットにおいて近い視野の1又は複数のフレーム画像を用いてアフィン変換等の画像処理を行うことによってレンダリングしてもよい。画像合成部16は、背景の画像と注目被写体の画像とを合成することによって、指定された視野及び時刻における自由視点映像を生成する。画像合成部16は、動画像が要求されている場合には、以上の処理を時間軸にそって繰り返し実行することによって自由視点における映像を生成してもよい。
The
図6は、画像合成装置10の処理の具体例を示すフローチャートである。以下、画像合成装置10の処理の流れの具体例について説明する。まず、入力部11が、複数の動画像、各動画像を撮影したカメラのカメラパラメータ、注目被写体の三次元形状を示す基準形状情報、注目被写体の三次元関節情報を示す基準関節情報、注目被写体の変形パラメータ、の入力を受け付ける(ステップS101,S102)。次に、フレーム分類部12は、各同時刻フレームセットについて、推定フラグ又は非推定フラグを付与する(ステップS103)。
FIG. 6 is a flowchart illustrating a specific example of processing of the
不図示の制御部は、処理対象となる同時刻フレームセットを、未処理の同時刻フレームセットの中から選択する(ステップS104)。処理対象の同時刻フレームセットが推定フラグが付与されたものである場合、二次元関節情報推定部13は、処理対象の同時刻フレームセットにおいて、注目被写体の二次元関節情報を推定する(ステップS105)。次に、三次元関節情報推定部14は、処理対象の同時刻フレームセットにおいて、注目被写体の二次元関節情報を推定する(ステップS106)。
A control unit (not shown) selects a simultaneous frame set to be processed from unprocessed simultaneous frame sets (step S104). When the processing target simultaneous frame set is provided with the estimation flag, the two-dimensional joint
図7は、ステップS106の処理の詳細を示すフローチャートである。処理対象の同時刻フレームセットが推定フラグが付与されたものである場合(ステップS201−YES)、三次元関節情報推定部14の三次元関節情報計算部141が処理を行う。具体的には、三次元関節情報計算部141は、二次元関節情報及び信頼度と、各カメラのカメラパラメータとの入力を受け付ける(ステップS202)。三次元関節情報計算部141は、処理の対象となっている関節について、信頼度が高い方から所定数(例えば2つ)のフレームを選択する(ステップS203)。そして、三次元関節情報計算部141は、処理の対象となっている関節の三次元情報を、選択されたフレームの画像と、選択されたフレームに対応するカメラパラメータと、を用いて推定する(ステップS204)。
FIG. 7 is a flowchart showing details of the process in step S106. When the same time frame set to be processed has an estimation flag (step S201—YES), the 3D joint
ステップS201の処理において、処理対象の同時刻フレームセットが非推定フラグが付与されたものである場合(ステップS201−NO)、三次元関節情報推定部14の三次元関節情報補間部142が処理を行う。具体的には、三次元関節情報補間部142は、推定フラグが付与された同時刻フレームセットにおける三次元関節情報を用いて補間処理を行うことによって、三次元関節情報を取得する(ステップS205)。以上で図7の説明は終了する。
In the process of step S201, when the non-estimation flag is assigned to the processing target simultaneous frame set (step S201-NO), the 3D joint information interpolation unit 142 of the 3D joint
図6の説明に戻る。S104〜S106の処理は、全ての同時刻フレームセットに対して実行される(ステップS107)。その後、形状変形部15は、各同時刻フレームセットにおける三次元関節情報の推定結果、基準関節情報及び変形パラメータに基づいて基準形状を変形することによって変形形状情報を生成する(ステップS108)。
Returning to the description of FIG. The processing of S104 to S106 is executed for all the same time frame sets (step S107). Thereafter, the
その後、自由視点映像を生成するタイミングにおいて、画像合成部16は、形状変形部15によって予め取得されている変形形状を用いて、指定された時刻及び視野における注目被写体の画像をレンダリングする(ステップS109)。そして、画像合成部16は、得られた画像に背景の画像を合成することによって、合成画像を生成し出力する(ステップS110)。
Thereafter, at the timing of generating the free viewpoint video, the
このように構成された画像合成装置10では、自由視点映像を生成するために以下のような処理が行われる。実際に撮影された複数の動画像に基づいて、各フレーム時刻における注目被写体の各関節の三次元関節情報が推定される。三次元関節情報の推定結果に基づいて、予め得られていた注目被写体の基準形状が変形され、各フレーム時刻における注目被写体の変形形状情報が得られる。そして、実際に自由視点映像を生成する際には、指定された時刻における注目被写体の変形形状情報を用いて指定された視野におけるレンダリングを行うことによって、注目被写体の映像が生成される。そのため、例えば実際に撮影された複数の動画像では陰となって得られていなかった部分の映像(例えば、注目被写体の脇の部分や顎下の部分など)についても、オクルージョンの問題が生じることを抑止することが可能となる。
In the
また、各フレーム時刻における変形形状情報を取得する際に、全てのフレーム時刻において注目被写体の三次元関節情報を独立に動画像から推定するのではなく、一部のフレーム時刻(推定フラグが付与されたフレーム時刻)の同時刻フレームセットのみにおいて動画像から三次元関節情報が推定される。そして、残りのフレーム時刻(非推定フラグが付与されたフレーム時刻)の動画像フレームセットにおいては、動画像からではなく、推定フラグが付与された同時刻フレームセットにおける推定結果に基づいた補間処理によって三次元関節情報が得られる。そのため、少なくとも推定フラグが付与された同時刻フレームセットから次の推定フラグが付与された同時刻フレームセットまでの間で時間方向のちらつきが生じにくい。このような処理によって、時間方向のちらつきを抑止することが可能となる。 In addition, when acquiring the deformed shape information at each frame time, the 3D joint information of the subject of interest is not estimated independently from the moving image at every frame time, but a part of the frame time (estimation flag is assigned). 3D joint information is estimated from the moving image only in the same time frame set at (frame time). In the moving image frame set at the remaining frame time (frame time to which the non-estimation flag is assigned), the interpolation processing is based on the estimation result in the same time frame set to which the estimation flag is assigned, not from the moving image. Three-dimensional joint information can be obtained. Therefore, flickering in the time direction is unlikely to occur at least between the same-time frame set to which the estimation flag is assigned and the same-time frame set to which the next estimation flag is given. Such processing makes it possible to suppress flickering in the time direction.
(変形例)
上述した画像合成装置10による処理の対象は人物であったが、必ずしも処理の対象は人物に限定される必要は無い。処理の対象は、関節を有する生物又は物体であればどのようなものであってもよい。例えば、動物が処理の対象となってもよい。この場合、予め得られる基準形状情報、基準関節情報、変形パラメータはいずれも動物に関する情報である。例えば、ロボットが処理の対象となっても良い。この場合、予め得られる基準形状情報、基準関節情報、変形パラメータはいずれもロボットに関する情報である。
(Modification)
Although the object of processing by the
上述した画像合成装置10は、複数の情報処理装置を組み合わせたシステムとして構成されてもよい。例えば、入力部11、フレーム分類部12、二次元関節情報推定部13、三次元関節情報推定部14及び形状変形部15を備えた装置と、入力部11及び画像合成部16を備えた装置と、を備えるシステムが構築されてもよい。
The
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
10…画像合成装置, 11…入力部, 12…フレーム分類部, 121…フレーム分離部, 122…関節情報推定フラグ付与部, 13…二次元関節情報推定部, 14…三次元関節情報推定部, 141…三次元関節情報計算部, 142…三次元関節情報補間部, 15…形状変形部, 151…関節変位計算部, 152…変形部, 16…画像合成部, 202…画像生成部, 211…ネットワーク構築部, 212…パラメータ学習部, 21…画像取得部, 22…画像加工部
DESCRIPTION OF
Claims (6)
各時刻におけるフレームについて、前記被写体の三次元関節情報を推定する三次元関節情報推定部と、
各時刻のフレームにおける前記三次元関節情報の推定結果と、前記被写体の三次元形状に関するパラメータと、に基づいて各時刻における前記被写体の三次元形状を示す情報を取得する形状変形部と、
前記被写体の三次元形状を示す情報に基づいて、指定された時刻における指定された視野の前記被写体の画像を含む画像を生成する画像合成部と、
を備える画像合成装置。 An input unit that receives input of a plurality of moving images, camera parameters related to the fields of view of the plurality of cameras that captured the moving images, and parameters related to the three-dimensional shape of the subject captured in the moving images;
For a frame at each time, a three-dimensional joint information estimation unit for estimating the three-dimensional joint information of the subject,
A shape deforming unit that acquires information indicating the three-dimensional shape of the subject at each time based on the estimation result of the three-dimensional joint information in the frame at each time and a parameter related to the three-dimensional shape of the subject;
An image composition unit that generates an image including an image of the subject in a designated field of view at a designated time based on information indicating the three-dimensional shape of the subject;
An image synthesizing apparatus.
前記三次元関節情報推定部は、前記推定フレームについては、前記推定フレームの画像に基づいて前記被写体の三次元関節情報を推定し、前記推定フレーム以外のフレームについては、前記推定フレームにおける前記三次元関節情報の推定結果を用いた補間処理によって前記三次元関節情報を推定する、請求項1又は2に記載の画像合成装置。 A frame classifying unit for determining an estimated frame that is a target for estimating joint information of the subject based on an image of the frame for each time frame constituting the moving image;
The three-dimensional joint information estimation unit estimates the three-dimensional joint information of the subject based on the image of the estimated frame for the estimated frame, and the three-dimensional joint in the estimated frame for frames other than the estimated frame The image synthesis apparatus according to claim 1, wherein the three-dimensional joint information is estimated by an interpolation process using a joint information estimation result.
前記三次元関節情報推定部は、前記推定フレームについては、前記二次元関節情報推定部において高い信頼度が取得された一部のフレームに関する情報のみに基づいて前記三次元関節情報を推定する、請求項3に記載の画像合成装置。 For a frame at each time, further comprising a two-dimensional joint information estimation unit that estimates the two-dimensional joint information of the subject and acquires the reliability of the estimation result,
The three-dimensional joint information estimation unit estimates the three-dimensional joint information based on only information about a part of frames for which the high reliability is acquired in the two-dimensional joint information estimation unit for the estimation frame. Item 4. The image composition device according to Item 3.
各時刻におけるフレームについて、前記被写体の三次元関節情報を推定する三次元関節情報推定ステップと、
各時刻のフレームにおける前記三次元関節情報の推定結果と、前記被写体の三次元形状に関するパラメータと、に基づいて各時刻における前記被写体の三次元形状を示す情報を取得する形状変形ステップと、
前記被写体の三次元形状を示す情報に基づいて、指定された時刻における指定された視野の前記被写体の画像を含む画像を生成する画像合成ステップと、
を有する画像合成方法。 An input step for receiving input of a plurality of moving images, camera parameters related to the fields of view of the plurality of cameras that captured the moving images, and parameters related to the three-dimensional shape of the subject captured in the moving images;
For a frame at each time, a three-dimensional joint information estimation step for estimating the three-dimensional joint information of the subject;
A shape deformation step of obtaining information indicating the three-dimensional shape of the subject at each time based on the estimation result of the three-dimensional joint information in the frame at each time and a parameter relating to the three-dimensional shape of the subject;
An image synthesis step for generating an image including an image of the subject in a designated field of view at a designated time based on information indicating the three-dimensional shape of the subject;
An image composition method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017023667A JP6730204B2 (en) | 2017-02-10 | 2017-02-10 | Image synthesizing apparatus, image synthesizing method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017023667A JP6730204B2 (en) | 2017-02-10 | 2017-02-10 | Image synthesizing apparatus, image synthesizing method, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018129008A true JP2018129008A (en) | 2018-08-16 |
JP6730204B2 JP6730204B2 (en) | 2020-07-29 |
Family
ID=63173387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017023667A Active JP6730204B2 (en) | 2017-02-10 | 2017-02-10 | Image synthesizing apparatus, image synthesizing method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6730204B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023521952A (en) * | 2020-07-27 | 2023-05-26 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 3D Human Body Posture Estimation Method and Apparatus, Computer Device, and Computer Program |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011238222A (en) * | 2010-04-30 | 2011-11-24 | Liberovision Ag | Computer execution method for estimating pause of multi-joint object model, computer execution method for rendering virtual image, and computer execution method for determining segmentalization of source image segment |
JP2013020578A (en) * | 2011-07-14 | 2013-01-31 | Nippon Telegr & Teleph Corp <Ntt> | Three-dimensional posture estimation device, three-dimensional posture estimation method and program |
JP2013092876A (en) * | 2011-10-25 | 2013-05-16 | Nippon Telegr & Teleph Corp <Ntt> | Attitude estimation device, attitude estimation method, and attitude estimation program |
JP2013120556A (en) * | 2011-12-08 | 2013-06-17 | Kddi Corp | Object attribute estimation device and video plotting device |
JP2016126425A (en) * | 2014-12-26 | 2016-07-11 | Kddi株式会社 | Free viewpoint image generation apparatus, method and program |
-
2017
- 2017-02-10 JP JP2017023667A patent/JP6730204B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011238222A (en) * | 2010-04-30 | 2011-11-24 | Liberovision Ag | Computer execution method for estimating pause of multi-joint object model, computer execution method for rendering virtual image, and computer execution method for determining segmentalization of source image segment |
JP2013020578A (en) * | 2011-07-14 | 2013-01-31 | Nippon Telegr & Teleph Corp <Ntt> | Three-dimensional posture estimation device, three-dimensional posture estimation method and program |
JP2013092876A (en) * | 2011-10-25 | 2013-05-16 | Nippon Telegr & Teleph Corp <Ntt> | Attitude estimation device, attitude estimation method, and attitude estimation program |
JP2013120556A (en) * | 2011-12-08 | 2013-06-17 | Kddi Corp | Object attribute estimation device and video plotting device |
JP2016126425A (en) * | 2014-12-26 | 2016-07-11 | Kddi株式会社 | Free viewpoint image generation apparatus, method and program |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023521952A (en) * | 2020-07-27 | 2023-05-26 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 3D Human Body Posture Estimation Method and Apparatus, Computer Device, and Computer Program |
JP7503643B2 (en) | 2020-07-27 | 2024-06-20 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 3D human body posture estimation method and apparatus, computer device, and computer program |
US12175787B2 (en) | 2020-07-27 | 2024-12-24 | Tencent Technology (Shenzhen) Company Limited | Three-dimensional human pose estimation method and related apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP6730204B2 (en) | 2020-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6676562B2 (en) | Image synthesizing apparatus, image synthesizing method, and computer program | |
Achenbach et al. | Fast generation of realistic virtual humans | |
US10789765B2 (en) | Three-dimensional reconstruction method | |
KR101238608B1 (en) | A system and method for 3D space-dimension based image processing | |
KR101560508B1 (en) | Method and arrangement for 3-dimensional image model adaptation | |
JP6816058B2 (en) | Parameter optimization device, parameter optimization method, program | |
JP2019057248A (en) | Image processing system, image processing device, image processing method and program | |
JP5725953B2 (en) | Imaging apparatus, control method therefor, and information processing apparatus | |
EP3186787A1 (en) | Method and device for registering an image to a model | |
EP3216216A1 (en) | Methods and systems for multi-view high-speed motion capture | |
CN105427385A (en) | High-fidelity face three-dimensional reconstruction method based on multilevel deformation model | |
CN111080776B (en) | Human body action three-dimensional data acquisition and reproduction processing method and system | |
US20180225882A1 (en) | Method and device for editing a facial image | |
WO2021161878A1 (en) | Image processing device, image processing method, method of generating learned model, and program | |
CN107918948B (en) | 4D video rendering method | |
JP2019128641A (en) | Image processing device, image processing method and program | |
JPWO2018052100A1 (en) | Image processing apparatus, image processing method, and image processing program | |
JPH10240908A (en) | Video composing method | |
JP7318814B2 (en) | DATA GENERATION METHOD, DATA GENERATION PROGRAM AND INFORMATION PROCESSING DEVICE | |
CN113763544A (en) | Image determination method, image determination device, electronic equipment and computer-readable storage medium | |
JP6730204B2 (en) | Image synthesizing apparatus, image synthesizing method, and computer program | |
JP2019032660A (en) | Imaging system and imaging method | |
JP2019512781A (en) | Method for reconstructing 3D multi-viewpoint by feature tracking and model registration. | |
Imre et al. | Calibration of nodal and free-moving cameras in dynamic scenes for post-production | |
JP7045964B2 (en) | Image processing equipment, methods and programs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200324 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200630 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200702 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6730204 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |