JP2013012045A - Image processing method, image processing system, and computer program - Google Patents
Image processing method, image processing system, and computer program Download PDFInfo
- Publication number
- JP2013012045A JP2013012045A JP2011144417A JP2011144417A JP2013012045A JP 2013012045 A JP2013012045 A JP 2013012045A JP 2011144417 A JP2011144417 A JP 2011144417A JP 2011144417 A JP2011144417 A JP 2011144417A JP 2013012045 A JP2013012045 A JP 2013012045A
- Authority
- JP
- Japan
- Prior art keywords
- depth
- image
- likelihood
- estimation
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、被写体にテクスチャが少ない領域やオクルージョンがあり、ステレオマッチング法で対応付けが難しい場合に有効な技術に関する。 The present invention relates to a technique that is effective when a subject has a region with little texture and occlusion and is difficult to associate with a stereo matching method.
複数のカメラから撮影された多視点画像を用いて、仮想の視点位置から見た画像を合成することを仮想視点画像合成という。図10は、多視点画像を用いて任意の視点位置の画像を合成する従来技術の処理の流れを示す図である。以下、多視点画像を用いて任意の視点位置の画像を合成するため従来技術の処理の流れについて説明する。まず、多視点画像及びカメラパラメータが入力される(ステップSa1)。次に、二次元の画像群から三次元情報(奥行き)を推定する(ステップSa2)。そして、多視点画像と、カメラパラメータと、奥行きとに基づいて、仮想視点画像を合成する(ステップSa3)。このとき、奥行きの推定精度が低いと、仮想視点の合成画像の品質が劣化してしまう。 Combining images viewed from a virtual viewpoint position using multi-viewpoint images taken from a plurality of cameras is called virtual viewpoint image composition. FIG. 10 is a diagram showing a flow of processing in the prior art for synthesizing an image at an arbitrary viewpoint position using a multi-viewpoint image. Hereinafter, the flow of processing in the prior art for synthesizing an image at an arbitrary viewpoint position using a multi-viewpoint image will be described. First, multi-viewpoint images and camera parameters are input (step Sa1). Next, three-dimensional information (depth) is estimated from the two-dimensional image group (step Sa2). Then, the virtual viewpoint image is synthesized based on the multi-viewpoint image, the camera parameter, and the depth (step Sa3). At this time, if the depth estimation accuracy is low, the quality of the synthesized image of the virtual viewpoint deteriorates.
奥行きを推定する手法にステレオマッチング法がある。ステレオマッチング法では、多視点画像間の画素の対応づけとカメラの内部パラメータと外部パラメータとが用いられる。そして、三角測量の原理により、注目画素の実空間での位置が計算により求められる。図11は、ステレオマッチング法による処理の概略を示す図である。例えば、図11に示すように、地点P1及び地点P2から注目地点Aを見ると仮定する。この場合、地点P1及びP2を結んだ直線の距離と、注目地点Aと地点P1と地点P2とを頂点とした三角形の各頂点の角度とが得られれば、地点P1(もしくは地点P2)から注目地点Aへの距離を求めることができる。 There is a stereo matching method for estimating the depth. In the stereo matching method, pixel correspondence between multi-viewpoint images, camera internal parameters, and external parameters are used. Then, the position of the pixel of interest in real space is obtained by calculation based on the principle of triangulation. FIG. 11 is a diagram showing an outline of processing by the stereo matching method. For example, as shown in FIG. 11, it is assumed that the point of interest A is viewed from the points P1 and P2. In this case, if the distance between the straight lines connecting the points P1 and P2 and the angles of the vertices of the triangle with the point of interest A, the point P1, and the point P2 as vertices are obtained, attention is drawn from the point P1 (or the point P2). The distance to the point A can be obtained.
しかしながら、模様(テクスチャ)が少ない領域や、周期的なテクスチャが存在する領域や、オクルージョンの影響を受けた領域がある場合には、その領域内の画素の対応付けは困難である。図12は、従来技術における問題点を示す図である。例えば、図12に示すように、鳥のような被写体Cが横切るなど、オクルージョンが生じた場合を考えると、地点P1からは注目地点Aが見えないので対応付けができない。 However, when there is a region with a small pattern (texture), a region where a periodic texture exists, or a region affected by occlusion, it is difficult to associate pixels in the region. FIG. 12 is a diagram showing a problem in the prior art. For example, as shown in FIG. 12, considering a case where occlusion occurs, such as when a subject C such as a bird crosses, the point of interest A cannot be seen from the point P1, so that the association cannot be made.
このとき、ステレオマッチング法では、地点P2から見える注目地点Aについて、地点P1から似たような形状として見える地点Bと誤って対応付けされやすい。そのため、奥行き推定が間違った地点Aのような画素の影響により、合成された画像に不自然な像(アーティファクト)が生じる。これが仮想視点画像合成の品質に繋がる重要な課題である。 At this time, in the stereo matching method, the point of interest A that can be seen from the point P2 is likely to be erroneously associated with the point B that looks like a similar shape from the point P1. Therefore, an unnatural image (artifact) is generated in the synthesized image due to the influence of the pixel such as the point A where the depth estimation is wrong. This is an important issue that leads to the quality of virtual viewpoint image composition.
従来の仮想視点画像合成手法では、このような対応付けが困難な画素について、画像をセグメンテーションすることにより対応するアプローチがあった。 In the conventional virtual viewpoint image synthesis method, there has been an approach for dealing with such a pixel that is difficult to be associated by segmenting the image.
例えば、画素の色(R、G、B)情報を基にして画像を細かくセグメンテーションし、同じセグメント内の画素は、同一の被写体、つまり同一平面(曲面)上に存在すると仮定していた。この仮定により、注目画素の奥行きが所属するセグメントの平面の奥行きとなるように、奥行きを補正する手法(例えば非特許文献1参照)がある。 For example, the image is finely segmented based on pixel color (R, G, B) information, and it is assumed that pixels in the same segment exist on the same subject, that is, on the same plane (curved surface). Based on this assumption, there is a method of correcting the depth so that the depth of the target pixel becomes the depth of the plane of the segment to which the pixel belongs (see, for example, Non-Patent Document 1).
他にも奥行きを補正する手法として、画像の色情報から前景と背景を分離する手法がある。これは、被写体が前景と背景との2種類という前提のもと、ステレオマッチング法により対応付けが困難な画素について、その画素と類似した色を持つ被写体(前景か背景)を検出し、その被写体の奥行き情報を用いて、その画素の奥行きの尤度を補正する手法(例えば非特許文献2、3参照)がある。 As another technique for correcting the depth, there is a technique for separating the foreground and the background from the color information of the image. This is based on the premise that there are two types of subjects, foreground and background, and detects a subject (foreground or background) having a color similar to that pixel for a pixel that is difficult to be matched by the stereo matching method. There is a method of correcting the likelihood of the depth of the pixel using the depth information (see, for example, Non-Patent Documents 2 and 3).
上述の仮想視点画像合成の研究では、ある画素の奥行き情報を補正するときに、その画素と同一のセグメント内の画素の奥行き情報を用いて補正を行っていた。この手法では、カメラを密に置ける環境で、対応付けの誤りが狭い領域で起こるような場合には有効である。しかしながら、注目画素周辺の広範囲において対応付けが誤っている場合、つまり同一セグメント内の大部分の画素の対応付けが誤っている場合には、セグメント内の大部分の画素の奥行き推定精度が低くなってしまう。そのため、そのセグメントの奥行き推定結果を用いても、注目画素の奥行きを正しく補正することは難しいという問題があった。 In the above-described research on virtual viewpoint image synthesis, when correcting the depth information of a certain pixel, the correction is performed using the depth information of the pixel in the same segment as the pixel. This method is effective in an environment where cameras can be placed densely and an error in association occurs in a narrow area. However, if the correspondence is incorrect in a wide area around the target pixel, that is, if the correspondence of most pixels in the same segment is incorrect, the depth estimation accuracy of most pixels in the segment is low. End up. Therefore, there is a problem that it is difficult to correct the depth of the target pixel correctly even if the depth estimation result of the segment is used.
また、前景の被写体と背景の被写体とを分離する手法では、各被写体の色特徴を利用することは有効ではある。しかし、仮想視点画像合成の場合には、奥行きは多値であり、前景の奥行きと背景の奥行きとの2値で近似することが難しいという問題がある。 Further, in the method of separating the foreground subject and the background subject, it is effective to use the color feature of each subject. However, in the case of the virtual viewpoint image composition, the depth is multivalued, and there is a problem that it is difficult to approximate with the binary of the foreground depth and the background depth.
本発明は、このような事情を考慮してなされたものであり、テクスチャが少ない領域や、オクルージョンの影響により画像間の対応付けが困難な場合であっても、奥行き推定誤差を抑制し、高品質な仮想視点画像を合成することができる技術を提供することにある。 The present invention has been made in consideration of such circumstances, and suppresses depth estimation errors even when it is difficult to associate images with each other due to the influence of occlusion due to an area with little texture. The object is to provide a technique capable of synthesizing a quality virtual viewpoint image.
本発明の一態様は、複数の異なる視点から被写体を撮影した多視点画像に基づいて、任意の仮想視点位置から見た前記被写体の画像を合成する画像処理方法であって、ステレオマッチング法により、前記多視点画像に対して、各画素の奥行きに対する尤度を算出する第1のステップと、前記第1のステップで求めた尤度に基づいて、個々の画素の奥行きを推定する第2のステップと、奥行きの推定精度が高いと推定されるための条件を満たす高精度推定画素の奥行き推定結果を用いて、画像特徴から奥行きに対する尤度を推定するための推定関数を算出する第3のステップと、奥行きの推定精度が低いと推定されるための条件を満たす補正対象画素に対して、前記第3のステップで算出された推定関数を用いて、尤度の補正を行う第4のステップと、前記第4のステップで行われた補正後の尤度を用いて、画像全体の奥行きを再推定する第5のステップと、前記第5のステップで再推定した奥行きと、前記多視点画像とに基づいて、前記仮想視点位置に応じた前記被写体の画像を合成する第6のステップとを有する。 One aspect of the present invention is an image processing method for synthesizing an image of a subject viewed from an arbitrary virtual viewpoint position based on a multi-viewpoint image obtained by photographing the subject from a plurality of different viewpoints, and by a stereo matching method, A first step of calculating the likelihood of each pixel depth for the multi-viewpoint image, and a second step of estimating the depth of each pixel based on the likelihood obtained in the first step And a third step of calculating an estimation function for estimating the likelihood for the depth from the image feature using the depth estimation result of the high-precision estimation pixel that satisfies the condition for estimating that the depth estimation accuracy is high And a fourth step in which likelihood correction is performed using the estimation function calculated in the third step with respect to the correction target pixel that satisfies the condition for estimating that the depth estimation accuracy is low. And a fifth step of re-estimating the depth of the entire image using the likelihood after correction performed in the fourth step, the depth re-estimated in the fifth step, and the multi-viewpoint And a sixth step of synthesizing the subject image according to the virtual viewpoint position based on the image.
本発明の一態様は、複数の異なる視点から被写体を撮影した多視点画像に基づいて、任意の仮想視点位置から見た前記被写体の画像を合成する画像処理装置であって、ステレオマッチング法により、前記多視点画像に対して、各画素の奥行きに対する尤度を算出する尤度算出部と、前記尤度算出部で求めた尤度に基づいて、個々の画素の奥行きを推定する奥行き推定部と、奥行きの推定精度が高いと推定されるための条件を満たす高精度推定画素の奥行き推定結果を用いて、画像特徴から奥行きに対する尤度を推定するための推定関数を算出する尤度推定関数算出部と、奥行きの推定精度が低いと推定されるための条件を満たす補正対象画素に対して、前記尤度推定関数算出部で算出された推定関数を用いて、尤度の補正を行う尤度補正部と、前記尤度補正部で行われた補正後の尤度を用いて、画像全体の奥行きを再推定する奥行き再推定部と、前記奥行き再推定部により再推定された奥行きと、前記多視点画像とに基づいて、前記仮想視点位置に応じた前記被写体の画像を合成する画像合成部とを備える。 One aspect of the present invention is an image processing apparatus that synthesizes an image of a subject viewed from an arbitrary virtual viewpoint position based on a multi-viewpoint image obtained by photographing the subject from a plurality of different viewpoints, and by a stereo matching method, A likelihood calculating unit that calculates the likelihood of the depth of each pixel with respect to the multi-viewpoint image; and a depth estimating unit that estimates the depth of each pixel based on the likelihood obtained by the likelihood calculating unit; The likelihood estimation function calculation that calculates the estimation function for estimating the likelihood for the depth from the image feature using the depth estimation result of the high-precision estimation pixel that satisfies the condition for estimating the depth estimation accuracy is high And likelihood that the likelihood correction is performed using the estimation function calculated by the likelihood estimation function calculation unit for the correction target pixel that satisfies the condition for estimating that the depth estimation accuracy is low. Correction part and A depth re-estimation unit that re-estimates the depth of the entire image using the likelihood after correction performed by the likelihood correction unit, the depth re-estimated by the depth re-estimation unit, and the multi-viewpoint image And an image synthesis unit that synthesizes the image of the subject according to the virtual viewpoint position.
本発明の一態様は、複数の異なる視点から被写体を撮影した多視点画像に基づいて、任意の仮想視点位置から見た前記被写体の画像を合成する画像処理装置のコンピュータに、ステレオマッチング法により、前記多視点画像に対して、各画素の奥行きに対する尤度を算出する尤度算出ステップと、前記尤度算出ステップで求めた尤度に基づいて、個々の画素の奥行きを推定する奥行き推定ステップと、奥行きの推定精度が高いと推定されるための条件を満たす高精度推定画素の奥行き推定結果を用いて、画像特徴から奥行きに対する尤度を推定するための推定関数を算出する尤度推定関数算出ステップと、奥行きの推定精度が低いと推定されるための条件を満たす補正対象画素に対して、前記尤度推定関数算出ステップで算出された推定関数を用いて、尤度の補正を行う尤度補正ステップと、前記尤度補正ステップで行われた補正後の尤度を用いて、画像全体の奥行きを再推定する奥行き再推定ステップと、前記奥行き再推定ステップで再推定された奥行きと、多視点画像とに基づいて、前記仮想視点位置に応じた前記被写体の画像を合成する画像合成ステップと、を実行させるためのコンピュータプログラムである。 According to one aspect of the present invention, a stereo matching method is used in a computer of an image processing apparatus that synthesizes an image of the subject viewed from an arbitrary virtual viewpoint position based on a multi-viewpoint image obtained by photographing the subject from a plurality of different viewpoints. A likelihood calculating step for calculating a likelihood for the depth of each pixel with respect to the multi-viewpoint image; and a depth estimating step for estimating the depth of each pixel based on the likelihood obtained in the likelihood calculating step; The likelihood estimation function calculation that calculates the estimation function for estimating the likelihood for the depth from the image feature using the depth estimation result of the high-precision estimation pixel that satisfies the condition for estimating the depth estimation accuracy is high The estimation function calculated in the likelihood estimation function calculating step for the correction target pixel that satisfies the step and the condition for estimating that the depth estimation accuracy is low. A likelihood correction step for correcting the likelihood, a depth re-estimation step for re-estimating the depth of the whole image using the likelihood after the correction performed in the likelihood correction step, and the depth re-estimation step. A computer program for executing an image synthesis step of synthesizing an image of the subject according to the virtual viewpoint position based on the depth re-estimated in the estimation step and a multi-viewpoint image.
本発明により、テクスチャが少ない領域や、オクルージョンの影響により画像間の対応付けが困難な場合であっても、奥行き推定誤差を抑制し、高品質な仮想視点画像を合成することが可能となる。 According to the present invention, it is possible to suppress a depth estimation error and synthesize a high-quality virtual viewpoint image even in a case where it is difficult to associate images with each other due to an area with little texture or the influence of occlusion.
<概略>
まず、本発明の実施形態である仮想視点画像合成システム(以下、単に「仮想視点画像合成システム」という。)の概略について説明する。
仮想視点画像合成システムは、卓球や、テニスなどのスポーツの鑑賞や、大学等の授業を撮影した遠隔教育の教材向けに、視聴者があたかも撮影した環境にいると思えるような臨場感のある画像を高品質に合成する。そのため、本仮想視点画像合成システムによれば、光線空間法や、視体積交差法のようにカメラを密に配置する撮影環境や、被写体を全方位から撮影できるような撮影環境ではなくても、高品質な仮想視点画像の合成を実現する。すなわち、仮想視点画像合成システムは、実際の競技場や、イベント会場などにおける撮影を対象として、卓球やテニス等のスポーツシーン、またライブコンサートのようなイベントシーンにおいても、高品質な仮想視点画像の合成を実現する。
<Outline>
First, an outline of a virtual viewpoint image composition system (hereinafter simply referred to as “virtual viewpoint image composition system”) according to an embodiment of the present invention will be described.
The virtual viewpoint image composition system is a realistic image that allows viewers to feel as if they were in a shooting environment for table tennis, tennis and other sports appreciation, as well as distance learning materials for classes such as universities. Is synthesized with high quality. Therefore, according to this virtual viewpoint image composition system, even if it is not a shooting environment where the cameras are densely arranged like the ray space method or the visual volume intersection method, or a shooting environment where the subject can be shot from all directions, Realize high-quality virtual viewpoint image composition. In other words, the virtual viewpoint image composition system is intended for shooting at actual stadiums and event venues, and for high-quality virtual viewpoint images in sports scenes such as table tennis and tennis, and even in event scenes such as live concerts. Realize synthesis.
上述したような合成を実現するため、仮想視点画像合成システムは、対応付けが困難な領域の画素、もしくはセグメントされた領域について、その画素や、セグメントされた領域の奥行きの尤度を画像の特徴から補正する関数を算出する。そして、その関数の結果により補正を行う。画像特徴とは、色情報、テクスチャ情報、又は動き情報を意味する。 In order to realize the above-described composition, the virtual viewpoint image composition system determines the likelihood of the depth of the pixel or the segmented region for the pixel of the region or the segmented region that is difficult to be matched. The function to be corrected is calculated from Then, correction is performed based on the result of the function. The image feature means color information, texture information, or motion information.
具体的には以下の通りである。まず、仮想視点画像合成システムは、事前に検出した対応付け精度が高い画素(以下では高精度推定画素と呼ぶ)を用いて、奥行き値毎に画像特徴を抽出する。次に、仮想視点画像合成システムは、奥行き値毎に求めた画像特徴と、対応付けが困難な領域の画素(以下、補正対象画素と呼ぶ)との特徴とを比較する。そして、仮想視点画像合成システムは、最も類似した画像特徴を持つ奥行き値を用いて、対応付けが困難な画素の奥行きを補正する。対応付けが困難な画素と対応付けが困難な小領域(セグメントされた小領域)とは、スケール(空間的な大きさ)が違うだけで本質的な違いはない。以下の説明では、対応付けが困難な画素の補正方法についてのみ説明をする。 Specifically, it is as follows. First, the virtual viewpoint image composition system extracts an image feature for each depth value using a pixel with high matching accuracy detected in advance (hereinafter referred to as a high accuracy estimation pixel). Next, the virtual viewpoint image composition system compares the image feature obtained for each depth value with the feature of a pixel in a region that is difficult to associate (hereinafter referred to as a correction target pixel). Then, the virtual viewpoint image composition system corrects the depth of the pixel that is difficult to be associated using the depth value having the most similar image feature. A pixel that is difficult to associate and a small region that is difficult to associate (segmented small region) are not different from each other only in the scale (spatial size). In the following description, only a correction method for pixels that are difficult to associate will be described.
<詳細>
次に、仮想視点画像合成システムの詳細について説明する。
図1は、仮想視点画像合成システムの構成を示すブロック図である。被写体撮影部101は、複数台のカメラで構成される多視点画像取得システムである。被写体撮影部101は、撮影した映像信号S1をカメラ画像取得部102に供給する。カメラパラメータ入力部103は、キャリブレーションしたカメラパラメータP1を入力する装置である。仮想視点位置入力部105は、ユーザーが希望する視点位置を入力する装置である。カメラパラメータ入力部103と仮想視点位置入力部105は、例えば、キーボードや、マウス、タッチ入力装置などのユーザーインタフェースや、DVD(Digital Versatile Disc)や、USB(Universal Serial Bus)メモリ等の外部記憶装置である。
<Details>
Next, details of the virtual viewpoint image composition system will be described.
FIG. 1 is a block diagram illustrating a configuration of a virtual viewpoint image synthesis system. The subject photographing unit 101 is a multi-viewpoint image acquisition system including a plurality of cameras. The subject photographing unit 101 supplies the photographed video signal S1 to the camera image acquisition unit 102. The camera parameter input unit 103 is a device that inputs calibrated camera parameters P1. The virtual viewpoint position input unit 105 is an apparatus that inputs a viewpoint position desired by the user. The camera parameter input unit 103 and the virtual viewpoint position input unit 105 are, for example, a user interface such as a keyboard, a mouse, or a touch input device, or an external storage device such as a DVD (Digital Versatile Disc) or a USB (Universal Serial Bus) memory. It is.
仮想視点画像合成装置100は、カメラ画像取得部102、奥行き推定部104、仮想視点位置決定部106、画像データ記憶部107、画像合成部108、及び合成画像出力部109を備える。カメラ画像取得部102は、被写体撮影部101からの映像信号S1を取得し、画像データD1として画像データ記憶部107に供給する。仮想視点位置決定部106は、仮想視点位置入力部105により与えられた、仮想視点位置のカメラパラメータを決定し、画像合成部108に供給する。 The virtual viewpoint image composition device 100 includes a camera image acquisition unit 102, a depth estimation unit 104, a virtual viewpoint position determination unit 106, an image data storage unit 107, an image composition unit 108, and a composite image output unit 109. The camera image acquisition unit 102 acquires the video signal S1 from the subject photographing unit 101 and supplies it to the image data storage unit 107 as image data D1. The virtual viewpoint position determination unit 106 determines the camera parameter of the virtual viewpoint position given by the virtual viewpoint position input unit 105 and supplies the camera parameter to the image composition unit 108.
画像データ記憶部107は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。画像データ記憶部107は、カメラ画像・カメラパラメータ記憶部107a、奥行き記憶部107b、及び合成画像記憶部107cを備える。各記憶部は、同一の記憶装置上に構成されても良いし、それぞれ異なる記憶装置上に構成されても良い。カメラ画像・カメラパラメータ記憶部107aは、カメラ画像取得部102からの画像データD1を記憶する。奥行き記憶部107bは、後述する奥行き推定部104から出力される推定された奥行きデータD2を記憶する。合成画像記憶部107cは、後述する画像合成部108から出力される画像データD3を記憶する。被写体撮影部101のカメラによる被写体撮影で予め撮影したシーンの画像とキャリブレーションで求めたカメラパラメータP1と奥行き推定部104の出力結果D2とを、それぞれカメラ画像・カメラパラメータ記憶部107aと奥行き記憶部107bとに記憶しておき、ユーザーが希望する仮想視点位置の入力に応じて画像合成を独立して実行することが可能となる。 The image data storage unit 107 is configured using a storage device such as a magnetic hard disk device or a semiconductor storage device. The image data storage unit 107 includes a camera image / camera parameter storage unit 107a, a depth storage unit 107b, and a composite image storage unit 107c. Each storage unit may be configured on the same storage device, or may be configured on different storage devices. The camera image / camera parameter storage unit 107a stores the image data D1 from the camera image acquisition unit 102. The depth storage unit 107b stores estimated depth data D2 output from the depth estimation unit 104 described later. The composite image storage unit 107c stores image data D3 output from the image composition unit 108 described later. An image of a scene captured in advance by subject photographing by the camera of the subject photographing unit 101, a camera parameter P1 obtained by calibration, and an output result D2 of the depth estimation unit 104 are respectively converted into a camera image / camera parameter storage unit 107a and a depth storage unit. 107b, and image synthesis can be executed independently according to the input of the virtual viewpoint position desired by the user.
奥行き推定部104は、カメラ画像・カメラパラメータ記憶部107aからカメラパラメータP1と画像データD1とを取り出し、奥行き推定結果D2を出力して奥行き記憶部107bに供給する。
画像合成部108は、カメラ画像・カメラパラメータ記憶部107aからカメラパラメータP1と画像データD1を取り出し、奥行き記憶部107bから奥行き推定結果D2を取り出して、合成画像(仮想視点から見た画像)データD3を出力する。
The depth estimation unit 104 extracts the camera parameter P1 and the image data D1 from the camera image / camera parameter storage unit 107a, outputs a depth estimation result D2, and supplies the result to the depth storage unit 107b.
The image composition unit 108 retrieves the camera parameter P1 and the image data D1 from the camera image / camera parameter storage unit 107a, retrieves the depth estimation result D2 from the depth storage unit 107b, and composes image (image viewed from a virtual viewpoint) data D3. Is output.
合成画像出力部109は、合成画像記憶部107cに記憶された合成画像データD3を、出力用画像データとして読み出し、ディスプレイ表示用の映像信号S2として合成画像表示部110に出力する。合成画像表示部110は、例えば、ディスプレイ端子等の合成画像出力部109に接続されたCRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)等の表示装置である。合成画像表示部110は、合成画像出力部109からの映像信号S2に従って合成画像を表示する。なお、合成画像表示部110は、例えば、二次元平面状の装置でもよいし、装置利用者を取り囲むような曲面状の表示装置であってもよい。 The composite image output unit 109 reads the composite image data D3 stored in the composite image storage unit 107c as output image data, and outputs it as a video signal S2 for display display to the composite image display unit 110. The composite image display unit 110 is a display device such as a CRT (Cathode Ray Tube), LCD (Liquid Crystal Display), or PDP (Plasma Display Panel) connected to the composite image output unit 109 such as a display terminal. The composite image display unit 110 displays a composite image in accordance with the video signal S2 from the composite image output unit 109. The composite image display unit 110 may be, for example, a two-dimensional planar device or a curved display device that surrounds the device user.
(画像合成方法の説明)
次に、本実施形態の仮想視点画像合成装置100による仮想視点画像合成方法について説明する。図2は、本実施形態による仮想視点画像合成方法を説明するためのフローチャートである。仮想視点画像合成において、カメラの配置は、本来自由でよい。しかし、本実施形態では、複数台のカメラで共通視野を確保しやすくするために、格子状、もしくは一直線上にカメラを配置する。図3は、本実施形態による仮想視点画像合成方法で用いるカメラの配置例を示す概念図である。図3に示すように、カメラCn−2、Cn−1、Cn、Cn+1、…の向きは、並行、もしくは特定の被写体を注視点Mとするように放射線状に配置されており、全てのカメラCn−2、Cn−1、Cn、Cn+1、…は同期している。
(Description of image composition method)
Next, a virtual viewpoint image composition method by the virtual viewpoint image composition apparatus 100 of the present embodiment will be described. FIG. 2 is a flowchart for explaining the virtual viewpoint image synthesis method according to this embodiment. In the virtual viewpoint image composition, the arrangement of the cameras may be originally free. However, in this embodiment, the cameras are arranged in a lattice shape or on a straight line in order to easily secure a common field of view with a plurality of cameras. FIG. 3 is a conceptual diagram illustrating an arrangement example of cameras used in the virtual viewpoint image synthesis method according to the present embodiment. As shown in FIG. 3, the directions of the cameras C n−2 , C n−1 , C n , C n + 1 ,... Are arranged in parallel or in a radial pattern so that a specific subject is the gazing point M. , All cameras C n-2 , C n−1 , C n , C n + 1 ,... Are synchronized.
[多視点画像とカメラパラメータの入力]
まず、カメラパラメータ入力部103で、前処理として各カメラのカメラパラメータをキャリブレーションにより求める(ステップS1)。カメラ番号をn(=1,2,3,…,N)、カメラの内部パラメータをAn、外部パラメータをRn、Tn、カメラCnの画像の画素の位置をmnとすると、カメラCnの画像上の位置mn=[xn,yn]とカメラCnの座標系の位置Mc=[Xc,Yc,Zc]、世界座標系の位置M=[X,Y,Z]の関係は次式(1)、(2)で求まる。
[Multi-viewpoint image and camera parameter input]
First, the camera parameter input unit 103 obtains camera parameters of each camera by calibration as preprocessing (step S1). The camera number n (= 1,2,3, ..., N ), the internal parameters of the camera A n, the external parameter R n, T n, when the position of the pixel of the camera C n of an image and m n, camera position on C n images m n = [x n, y n] position of the coordinate system of the camera C n Mc = [X c, Y c, Z c], the position M = [X world coordinate system, Y , Z] is obtained by the following equations (1) and (2).
数式(1)と数式(2)より、 From Equation (1) and Equation (2),
となる。但し、snは奥行き方向のスケールを決める正の定数、右上添え字のTは転置行列を意味し、チルダ(〜)mnとチルダ(〜)Mとは拡張ベクトルであり、チルダ(〜)mn=[xn,yn,1]T,チルダ(〜)M=[X,Y,Z,1]Tである。
画像の奥行きが分かれば、数式(1)により定数snが決定されカメラCnの座標系での位置Mcが分かる。そして、数式(2)により世界座標系での位置Mを求めることができる。
また、カメラCnの画素mnの奥行きがZ=dのとき、カメラCn−1の画像上の画素mn−1は、ホモグラフィ行列Hn,n−1により求めることができる。
It becomes. Here, s n is a positive constant that determines the scale in the depth direction, T in the upper right subscript means a transposed matrix, tilde (~) mn and tilde (~) M are extension vectors, and tilde (~) m n = [x n , y n , 1] T , tilde (˜) M = [X, Y, Z, 1] T
If the depth of the image is known, it is found position M c in the coordinate system of the constant s n is determined camera C n by Equation (1). Then, the position M in the world coordinate system can be obtained from Equation (2).
Further, when the depth of the pixel m n of the camera C n is Z = d, the pixel m n-1 on the camera C n-1 of the image can be obtained homography matrix H n, the n-1.
[奥行きに対する尤度の計算]
次に、奥行き推定部104が、カメラCnの画像Inについて、奥行きに対する尤度をステレオマッチング法により求める(ステップS2)。カメラCn以外の全てのカメラの画像についても、同様にして奥行きを推定することが可能である。多視点画像を前提としているので、2眼ステレオで利用されるSSD(Sum of Squared Difference)を拡張した複数基線長を利用したステレオマッチング法(参考文献1:奥富,金出:複数の基線長を利用したステレオマッチング法, 信学論, vol. J75-D-II, no. 8, pp. 1317-1327 (1992))のSSSD(Sum of SSDs)を尤度の計算に用いる。
[Calculation of likelihood to depth]
Next, the depth estimation unit 104, the image I n of camera C n, obtains a likelihood for depth by a stereo matching method (step S2). The depth can be estimated in the same manner for images of all cameras other than the camera C n . Since multi-viewpoint images are assumed, a stereo matching method using multiple baseline lengths expanded from SSD (Sum of Squared Difference) used in binocular stereo (Reference 1: Okutomi, Kinde: Multiple baseline lengths) The stereo matching method used, SSSD (Sum of SSDs) of the theory of theory, vol. J75-D-II, no. 8, pp. 1317-1327 (1992)) is used for the likelihood calculation.
以下では、NCC(Normalized Cross Correlation)を用いた場合の尤度の計算を示す。カメラCnの画像Inの注目画素pについて、奥行きdに対する尤度Lp(d)は、次式(6)で表現される。 Below, the calculation of likelihood when NCC (Normalized Cross Correlation) is used is shown. For the target pixel p of the image I n of camera C n, the likelihood L p for the depth d (d) is expressed by the following equation (6).
但し、OはカメラCnの周辺カメラの集合とし、rは数式(4)のホモグラフィ行列により求まるカメラCoの画像Ioの画素の位置、νγは画像Ioにおいて画素r周辺の局所領域の画像のR,G,Bの輝度値を並べたベクトルである。νp・νγは、ベクトルの内積を表し、normは、ベクトルの大きさを表し、1−ノルム、2−ノルム等を意味する。Γpは、奥行きdを変化させたとき、尤度Lp(d)の総和が1になるようにする正規化係数である。 Where O is a set of peripheral cameras of the camera C n , r is the position of the pixel of the image I o of the camera Co obtained by the homography matrix of Equation (4), and ν γ is a local region around the pixel r in the image I o This is a vector in which the luminance values of R, G, and B of the images are arranged. ν p · ν γ represents an inner product of vectors, norm represents the magnitude of the vector, and means 1-norm, 2-norm, and the like. Γ p is a normalization coefficient that makes the sum of the likelihoods L p (d) become 1 when the depth d is changed.
図4は、本実施形態による奥行きに対する尤度の計算方法を説明するための概念図である。また、図5は、複数の画像間のエピポーラ線(EL1、EL2)を説明するための概念図である。周辺領域とは、図4に示すように、注目画素pの周辺の3×3や、5×5、7×7画素等の領域である。νpや、νγは、R,G,B成分の値をラスタースキャンしたベクトルで表すことができる。例えば、局所領域の大きさが3×3の場合には、それぞれの成分が9次元なので、νpは27(=9次元×3成分)次元のベクトルとなる。 FIG. 4 is a conceptual diagram for explaining a method of calculating likelihood with respect to depth according to the present embodiment. FIG. 5 is a conceptual diagram for explaining epipolar lines (EL1, EL2) between a plurality of images. As shown in FIG. 4, the peripheral region is a region of 3 × 3, 5 × 5, 7 × 7 pixels, etc. around the pixel of interest p. ν p and ν γ can be represented by a raster scan vector of R, G, and B component values. For example, when the size of the local region is 3 × 3, each component is 9-dimensional, so ν p is a 27 (= 9-dimensional × 3-component) -dimensional vector.
数式(6)により、カメラCnの画素pについて複数の画像間のエピポーラ線(図5を参照)上の局所領域の相関情報を計算することにより尤度を求めている。また、カメラCnに対して、周辺カメラCoの選び方は撮影環境に依存する。共通視野がなるべく多いカメラを選ぶことで対応付けが行いやすくなる。そのため、カメラCnから近い2台以上のカメラを選んだ方が好ましい。 The equation (6), seeking likelihood by computing the correlation information of the local region on the epipolar lines between the plurality of images (see Figure 5) for pixel p of the camera C n. In addition, with respect to the camera C n, the choice of peripheral camera C o is dependent on the shooting environment. Matching is facilitated by selecting cameras with as many common fields of view as possible. Therefore, it is preferable to chose two or more cameras close to the camera C n.
[奥行き推定]
次に、奥行き推定部104が、個々の画素の尤度に基づいて奥行きを推定する(ステップS3)。本実施形態では、個々の画素の尤度と平滑化項で定義されるエネルギー関数の最小化問題を解くことで、多視点画像の奥行きを推定する手法を用いる。この手法は、個々の画素の奥行きに対する尤度と近傍画素の奥行きの推定結果とが近い値になるような平滑化項により、エネルギー関数が定義される。ステレオマッチング法の尤度の結果だけでは、被写体表面が凸凹な奥行きに推定されがちである。しかし、平滑化項を設定することで推定結果が滑らかになる効果があり、その有効性が報告されている(参考文献2:Li Hong, George Chen : Segment-based Stereo matching Using Graph Cuts, in Proc. of CVPR, vol.1, pp. 74-81 (2004))。
カメラCnの画像Inについて、注目画素をp、近傍画素をqで表わすと、エネルギー関数は、以下の数式(7)、(8)、(9)ように定義される。
[Depth estimation]
Next, the depth estimation unit 104 estimates the depth based on the likelihood of each pixel (step S3). In this embodiment, a method of estimating the depth of a multi-viewpoint image by solving the minimization problem of the energy function defined by the likelihood of each pixel and the smoothing term is used. In this method, the energy function is defined by a smoothing term such that the likelihood with respect to the depth of each pixel is close to the estimation result of the depth of neighboring pixels. The subject surface tends to be estimated to have an uneven depth only by the result of the likelihood of the stereo matching method. However, setting smoothing terms has the effect of smoothing the estimation results, and its effectiveness has been reported (Reference 2: Li Hong, George Chen: Segment-based Stereo matching Using Graph Cuts, in Proc of CVPR, vol.1, pp. 74-81 (2004)).
The image I n of camera C n, expressed the pixel of interest p, neighboring pixels in q, the energy function, the following equation (7), (8), is defined as (9).
但し、大文字のD(p)は、画素pの推定された奥行きであり、ELikelihoodは、画素pの奥行きがD(p)と推定されたときのコストを出力する関数であり、Esmoothは、平滑化項であり、λは、2つの関数を重視する比率である。尤度が大きい程、コストは小さくなる。Esmoothは、画素pと近傍画素の奥行きの推定結果D(p)とD(q)の差が小さいほど、小さいコストを出力する関数である。 Where uppercase D (p) is the estimated depth of pixel p, E Likelihood is a function that outputs the cost when the depth of pixel p is estimated to be D (p), and E smooth is , Is a smoothing term, and λ is a ratio that emphasizes two functions. The higher the likelihood, the lower the cost. E smooth is a function that outputs a smaller cost as the difference between the depth estimation results D (p) and D (q) of the pixel p and the neighboring pixels is smaller.
また、平滑化項については、数式(9)以外にも、近傍画素qとの色の違いによりコストの大きさを変化させるような次式(10)の形や、pとqの画素の奥行きが違うときには、一定のコストを算出する次式(11)にしてもよい。 As for the smoothing term, in addition to the formula (9), the form of the following formula (10) that changes the cost due to the color difference from the neighboring pixel q, and the depth of the pixels of p and q If they are different, the following equation (11) may be used to calculate a certain cost.
ここで、I(p)とI(q)は、カメラCnの画素pと画素qの色情報であり、画素pとqの位置の[R,G,B]成分を並べたベクトルであり、||I(p)−I(q)||は、2−ノルムを表す。数式(10)の平滑化項は、色が切り替わるところでは、近傍画素の奥行きも変化しやすい効果が得られる。 Here, I (p) and I (q) is the color information of the pixel p and the pixel q of the camera C n, be a vector obtained by arranging [R, G, B] component of the position of the pixel p and q , || I (p) -I (q) || represents a 2-norm. The smoothing term of Equation (10) provides an effect that the depth of neighboring pixels is likely to change where the color changes.
最後に、数式(7)のエネルギー関数Etotalが最小にするような奥行きを求める。この最小化問題は、Simulated Annealing法や、Graph Cuts法、Belief Propagation法などのアルゴリズムにより近似解を得ることができる。 Finally, a depth that minimizes the energy function E total of Equation (7) is obtained. For this minimization problem, an approximate solution can be obtained by an algorithm such as the Simulated Annealing method, the Graph Cuts method, or the Belief Propagation method.
[奥行き推定結果の評価]
次に、奥行き推定部104が、奥行きを補正する対象の画素(補正対象画素)の検出と、奥行き推定精度が高い画素(高精度推定画素)の検出とを行う(ステップS4)。奥行き推定部104は、補正対象画素として、ステレオマッチング法での対応付けが困難な画素を選択する。以下で、2通りの評価方法について述べる。
(1)ステレオマッチング法の尤度を用いた評価
テクスチャが少ない領域の画素やオクルージョンの領域では、数式(6)において画素pの奥行きに対する尤度関数の値の最大値が小さくなる傾向がある。また、奥行き推定を誤った場合には、その奥行きを用いて仮想視点画像を合成したときにアーティファクトが生じる。
[Evaluation of depth estimation results]
Next, the depth estimation unit 104 performs detection of a pixel whose depth is to be corrected (correction target pixel) and detection of a pixel with high depth estimation accuracy (high accuracy estimation pixel) (step S4). The depth estimation unit 104 selects a pixel that is difficult to associate with the stereo matching method as the correction target pixel. Two evaluation methods will be described below.
(1) In a pixel in an area where the evaluation texture using the likelihood of the stereo matching method is small or an occlusion area, the maximum value of the likelihood function value with respect to the depth of the pixel p in Equation (6) tends to be small. In addition, if the depth estimation is incorrect, an artifact occurs when the virtual viewpoint image is synthesized using the depth.
そこで奥行き推定部104は、補正対象画素として、尤度の最大値が閾値Th_likeよりも小さい画素で、かつ、推定した奥行きの値で合成した画像と実カメラの映像との差分が閾値Th_diffよりも大きい画素を選択しても良い。逆に、奥行き推定部104は、尤度の最大値が閾値Th_likeよりも大きい画素で、かつ、推定した奥行きの値で合成した画像と実カメラの映像との差分が閾値Th_diffよりも小さい画素を、高精度推定画素として選択しても良い。 Accordingly, the depth estimation unit 104 is a pixel whose maximum likelihood value is smaller than the threshold Th_like as the correction target pixel, and the difference between the image synthesized with the estimated depth value and the video of the actual camera is smaller than the threshold Th_diff. Large pixels may be selected. On the other hand, the depth estimation unit 104 calculates a pixel whose maximum likelihood value is larger than the threshold value Th_like and whose difference between the image synthesized with the estimated depth value and the video of the actual camera is smaller than the threshold value Th_diff. Alternatively, it may be selected as a high-precision estimated pixel.
これらの閾値は、例えば事前に実験を行う事によって決められるパラメータである。本実施形態では、画像全体の尤度の平均値と差分の平均を、それぞれ閾値Th_likeとTh_diffとした。以下では、高精度推定画素をuで表わし、高精度推定画素の集合をUと表現する。
(2) 近傍カメラ画像との比較による評価
カメラCnの画像Iiの画素pについて推定精度の評価を述べる.
画素pの推定された奥行きをDi(p)、その奥行きをもとに式(4)のホモグラフィ行列により近傍カメラCoへ射影した画素の位置をq、またカメラCoの画素qの推定された奥行きをDo(q)と表現すると、以下の式で評価をする。
These threshold values are parameters determined by conducting an experiment in advance, for example. In the present embodiment, the average value of the likelihood of the entire image and the average of the differences are set as threshold values Th_like and Th_diff, respectively. Hereinafter, the high-precision estimated pixel is represented by u, and the set of high-precision estimated pixels is represented by U.
(2) Evaluation by comparison with neighboring camera images The evaluation of the estimation accuracy for the pixel p of the image Ii of the camera Cn is described.
The estimated depth of the pixel p is Di (p), the position of the pixel projected to the neighboring camera Co by the homography matrix of the equation (4) based on the depth is q, and the pixel q of the camera Co is estimated. When the depth is expressed as Do (q), the following expression is used for evaluation.
画素pについて、近傍カメラCoの画素qの奥行きと色を比較したSDとSIについて、閾値Th_SD; Th_SIを設定し、その閾値以下の画素について推定精度が高い画素と判定した。これらの閾値は実験的に決めるパラメータである。 For the pixel p, the threshold Th_SD; Th_SI is set for SD and SI that compare the depth and color of the pixel q of the neighboring camera Co, and the pixels that are equal to or lower than the threshold are determined to have high estimation accuracy. These thresholds are experimentally determined parameters.
[画像特徴から奥行き推定関数fの算出]
次に、カメラCnの補正をする画素pについて、奥行き推定関数を算出する(ステップS5)。以下、奥行き推定関数の算出について、図6及び図7を用いて説明する。図6及び図7は、画像特徴から奥行き推定関数fの算出方法を説明するための概念図である。奥行き推定関数の算出には、補正対象画素pから半径R以内の高精度推定画素u(∈U)を用いる(図6、図7を参照)。ここで、画素集合UはカメラCnの近傍のカメラCo(o=…n−2,n−1,n,n+1,…)をカメラCnに射影した画素も含める。カメラCoの高精度推定画素をuo、画素uoをカメラCnに射影した座標の画素をuo nで表わすと、尤度推定関数の算出の際に用いる高精度推定画素uの集合Uは、次式(12)、(13)のように求まる。
[Calculation of depth estimation function f from image features]
Next, a depth estimation function is calculated for the pixel p to be corrected by the camera C n (step S5). Hereinafter, calculation of the depth estimation function will be described with reference to FIGS. 6 and 7. 6 and 7 are conceptual diagrams for explaining a method of calculating the depth estimation function f from the image feature. For the calculation of the depth estimation function, a high-precision estimated pixel u (∈U) within a radius R from the correction target pixel p is used (see FIGS. 6 and 7). Here, the pixel set U cameras C in the vicinity of n cameras C o (o = ... n- 2, n-1, n, n + 1, ...) also include pixels projected on the camera C n. Expressed camera C o accurate estimate pixels u o of the pixel of coordinates obtained by projecting the pixel u o to camera C n by u o n, a set of high-precision estimated pixel u used in the calculation of likelihood estimation function U is obtained by the following equations (12) and (13).
次に、カメラCnの奥行き方向に多層平面をD枚設定し、各層(d(=1,2,…,D))に所属する高精度推定画素u(∈U)から画像特徴を抽出する。画像特徴は、奥行きがdの高精度推定画素uを含むN×Nの局所領域から抽出される。例えば、N=1として高精度推定画素uの色(R,G,B)成分を並べた三次元のベクトルや、図4で示したように、5×5の領域のR,G,Bをラスタースキャンして並べたテクスチャ情報を含むベクトルや、HOG(Histograms of Oriented Gradients)特徴や、SURF(Speeded-Up Robust Features)特徴を用いる。 Next, D multi-layer planes are set in the depth direction of the camera C n , and image features are extracted from high-precision estimated pixels u (∈U) belonging to each layer (d (= 1, 2,..., D)). . The image feature is extracted from an N × N local region including the high-precision estimated pixel u having a depth of d. For example, when N = 1, a three-dimensional vector in which the color (R, G, B) components of the high-precision estimated pixel u are arranged, or R, G, B in a 5 × 5 region as shown in FIG. Vectors including texture information arranged by raster scanning, HOG (Histograms of Oriented Gradients) features, and SURF (Speeded-Up Robust Features) features are used.
高精度推定画素uの奥行きがdに推定された画素の集合をUd、その画素uの特徴ベクトルをvdで表わす。奥行き推定関数は、この辞書ベクトルと補正画素の画像特徴ベクトルとの類似度や距離から奥行きを推定する。類似度の算出方法は、例えば、辞書ベクトルと補正画素の画像特徴ベクトルとのマハラノビス距離や、最近傍探索した結果得られた最近傍ベクトルと補正画素の画像特徴ベクトルとの距離や、辞書ベクトルから生成される部分空間と補正画素との特徴ベクトルの内積角度などによって計算される。
以下では、マハラノビス距離を用いたときの奥行き推定関数fが、補正画素について奥行きdに所属される尤度F(d)の算出方法を示す。補正画素の特徴ベクトルをxpで表すと、次式(14)、(15)、(16)、(17)で表される。
A set of pixels in which the depth of the high-precision estimated pixel u is estimated to be d is represented by Ud, and a feature vector of the pixel u is represented by vd. The depth estimation function estimates the depth from the similarity or distance between the dictionary vector and the image feature vector of the correction pixel. The similarity calculation method is, for example, the Mahalanobis distance between the dictionary vector and the image feature vector of the correction pixel, the distance between the nearest neighbor vector obtained as a result of the nearest neighbor search and the image feature vector of the correction pixel, or the dictionary vector. It is calculated by the inner product angle of the feature vector of the generated partial space and the correction pixel.
In the following, a method for calculating the likelihood F (d) in which the depth estimation function f when using the Mahalanobis distance belongs to the depth d for the correction pixel will be described. When the feature vector of the correction pixel is expressed by xp, it is expressed by the following equations (14), (15), (16), and (17).
[尤度の補正]
次に、補正対象画素について、その画素が属する被写体の奥行き情報により尤度を補正する(ステップS6)。補正対象画素pのステレオマッチング法で求めた尤度Lp(d)について、補正後の尤度L’p(d)は次式(18)で表される。
[Likelihood correction]
Next, the likelihood of the correction target pixel is corrected based on the depth information of the subject to which the pixel belongs (step S6). For the likelihood Lp (d) obtained by the stereo matching method of the correction target pixel p, the corrected likelihood L′ p (d) is expressed by the following equation (18).
ここで、w(0<w<1)は、ステレオマッチング法で計算した尤度と奥行き推定関数の出力のいずれを重視するかを表す割合いとを調整するパラメータである。wが大きいとステレオマッチング法の尤度を重視することとなり、実験的に決定する。 Here, w (0 <w <1) is a parameter for adjusting the likelihood calculated by the stereo matching method and the ratio indicating which of the outputs of the depth estimation function is important. If w is large, the likelihood of the stereo matching method is emphasized, and is determined experimentally.
[画像の奥行きの再推定]
次に、個々の画素の尤度と平滑化項で定義されるエネルギー関数の最小化問題を解くことで、奥行きを再推定する(ステップS7)。すなわち、数式(7)に補正後の尤度を代入することで、奥行きを再推定する。
[Re-estimation of image depth]
Next, the depth is re-estimated by solving the minimization problem of the energy function defined by the likelihood of each pixel and the smoothing term (step S7). That is, the depth is re-estimated by substituting the corrected likelihood into Equation (7).
[仮想視点位置の画像合成]
次に、画像合成部108が、仮想視点位置に近いカメラを選択し、選択されたN個のカメラ画像と推定された奥行き情報とから3Dワーピング法により画像を合成する(ステップS8)。色をブレンドする際には、各カメラと仮想視点との位置の近さや、推定された奥行きの尤度の強さに応じた加重平均を行う。
[Image composition of virtual viewpoint position]
Next, the image composition unit 108 selects a camera close to the virtual viewpoint position, and composes an image by the 3D warping method from the selected N camera images and the estimated depth information (step S8). When blending colors, a weighted average is performed according to the proximity of the position of each camera and the virtual viewpoint and the strength of the estimated likelihood of depth.
ここで、図8は、仮想視点位置の画像合成を説明するための概念図である。3Dワーピング法は、多視点画像と画像の奥行き(デプスマップ)を基にして、仮想視点位置のカメラCvの画像の画素mvの色Iv(mv)を決める方法である。図8に2台のカメラの例を示す。カメラの選択は、仮想視点から適当な距離の範囲にあるカメラを用いればよいので、2台以上でも可能である。 Here, FIG. 8 is a conceptual diagram for explaining the image composition of the virtual viewpoint position. The 3D warping method is a method of determining the color I v (m v ) of the pixel m v of the image of the camera C v at the virtual viewpoint position based on the multi-view image and the depth (depth map) of the image. FIG. 8 shows an example of two cameras. The cameras can be selected by using cameras within a suitable distance from the virtual viewpoint, so two or more cameras can be selected.
カメラC1とカメラC2の内部パラメータと外部パラメータをそれぞれA1、A2、R1、T1、R2、T2とし、カメラC1とカメラC2の画像の奥行きをD1,D2とする。このとき、点Mの色はカメラC1、カメラC2それぞれから式(3)により仮想視点カメラCvへ射影される。仮想視点カメラの内部パラメータをAv、外部パラメータをRv、Tvとすると、 The internal parameters and the external parameters of the camera C 1 and the camera C 2 are respectively A 1 , A 2 , R 1 , T 1 , R 2 , T 2, and the depths of the images of the camera C 1 and the camera C 2 are D 1 , D 2 . At this time, the color of the point M is projected from the cameras C 1 and C 2 to the virtual viewpoint camera C v according to the equation (3). Assuming that the internal parameters of the virtual viewpoint camera are A v and the external parameters are R v and T v ,
となる。ここで、チルダ(〜)mv 1とチルダ(〜)mv 2は、カメラC1とカメラC2の画素m1、m2を数式(3)で射影したときの、位置の拡張ベクトルである。 It becomes. Here, the tilde (˜) m v 1 and the tilde (˜) m v 2 are extended vectors of positions when the pixels m 1 and m 2 of the camera C 1 and the camera C 2 are projected by Expression (3). is there.
仮想視点とカメラC1、カメラC2との距離の比と画素m1と画素m2の奥行きの尤度により、仮想視点の画像の画素mvの色I(mv)を加重平均により求める。仮想視点とカメラC1とカメラC2の距離の比率をα:(1−α)(0<α<1)とし、尤度をL(Dm1):L(Dm2)とすると、 The color I (m v ) of the pixel m v of the image of the virtual viewpoint is obtained by a weighted average based on the ratio of the distance between the virtual viewpoint and the camera C 1 and the camera C 2 and the likelihood of the depths of the pixels m 1 and m 2. . When the ratio of the distance between the virtual viewpoint and the camera C 1 and the camera C 2 is α: (1-α) (0 <α <1) and the likelihood is L (Dm 1 ): L (Dm 2 ),
但し、L(Dm1)、L(Dm2)は、カメラC1、カメラC2の画像の画素m1、m2について、奥行き推定時に計算した尤度である。また、距離の比率と尤度の比率を加算によりw1とw2を求めたが、どちらか一方のみを利用することや、比率を掛け算することで求めてもよい。 However, L (Dm 1 ) and L (Dm 2 ) are likelihoods calculated at the time of depth estimation for the pixels m 1 and m 2 of the images of the cameras C 1 and C 2 . Although the ratio and the ratio of the likelihood of the distance to determine the w 1 and w 2 by the addition, and to use only one or the other may be determined by multiplying the ratio.
ここで、図9A及び図9Bは、本実施形態による、3Dワーピング法について説明するための概念図である。式(4)により画素を奥行きに応じて射影した際に、図9に示すように異なる点Pと点Qが仮想視点カメラCvから見ると、一直線上に存在する場合がある。このときは、点Pと点QについてカメラCvの座標系における奥行きが小さい方の点Pが仮想カメラCvから見える。例えば、カメラC1から見える点PとカメラC2から見える点Qについて、カメラCvの座標系での奥行きがそれぞれDv(P)、Dv(Q)としたときに、(Dv(Q)−Dv(P))>δとすると、 Here, FIG. 9A and FIG. 9B are conceptual diagrams for explaining the 3D warping method according to the present embodiment. When performing projection in accordance with the depth of the pixel by Expression (4), different from P and the point Q as shown in FIG. 9 when viewed from a virtual viewpoint camera C v, it may be present on a straight line. At this time, P points towards the depth is small in the coordinate system of the camera C v for points P and Q are visible from the virtual camera C v. For example, regarding the point P visible from the camera C 1 and the point Q visible from the camera C 2 , when the depth in the coordinate system of the camera C v is D v (P) and D v (Q), respectively (D v ( Q) −D v (P))> δ,
となる。但し、δは閾値のパラメータであり、事前に予備実験により決める。閾値δ以下の場合には、数式(21)により色を混合する。 It becomes. However, δ is a threshold parameter and is determined in advance by a preliminary experiment. If it is less than or equal to the threshold δ, the colors are mixed according to Equation (21).
次に、本発明の実施形態である仮想視点画像合成装置100の効果について説明する。 Next, effects of the virtual viewpoint image composition device 100 according to the embodiment of the present invention will be described.
従来手法では、対応付けが困難な領域(画素)について、同一セグメント内の画素の奥行き情報を用いて補正を行っていた。従来手法では、他にも、前景や、背景というように被写体の奥行きが2値であることを前提に、対応付けが困難な画素と類似した色の被写体(前景もしくは背景)の奥行き情報を用いた補正も行っていた。 In the conventional method, for regions (pixels) that are difficult to associate, correction is performed using depth information of pixels in the same segment. The conventional method also uses depth information of a subject (foreground or background) having a color similar to that of a pixel that is difficult to associate, assuming that the subject's depth is binary, such as foreground and background. The correction that was done was also performed.
しかし、前者の手法では、同一セグメント内の大部分の画素の奥行き推定精度が高くないと、正しく補正が行えない。つまり、テクスチャが少ない領域やオクルージョンの影響を受ける領域が広範囲な場合には、奥行き推定誤差が大きくなる可能性がある。また、同一の被写体が同一のセグメントになることが前提となるが、高精度に画像をセグメンテーションすることが難しい。 However, with the former method, correction cannot be performed correctly unless the depth estimation accuracy of most pixels in the same segment is high. That is, when the area with less texture or the area affected by occlusion is wide, the depth estimation error may increase. In addition, it is assumed that the same subject becomes the same segment, but it is difficult to segment an image with high accuracy.
後者の手法では、被写体が前景又は背景に存在している、つまり、奥行きは、2段階で近似することを前提としている。しかし、仮想視点画像合成では、奥行きの値は、多値であるため適用が難しい。また、後者の手法は、色情報を基にして背景と前景とを分離するものである。しかし、前景と背景に類似した色がある場合には、分離が困難となる。 In the latter method, it is assumed that the subject exists in the foreground or background, that is, the depth is approximated in two stages. However, in the virtual viewpoint image composition, the depth value is multivalued, so that it is difficult to apply. The latter method separates the background and the foreground based on the color information. However, when there are colors similar to the foreground and background, separation becomes difficult.
一方、上述した仮想視点画像合成装置100によれば、画像間の対応付けが困難な場合であっても奥行き推定誤差を抑制することが可能である。そのため、このような場合であっても高品質な仮想視点画像を合成できる。これにより、被写体のパーツ(顔、足、手など)にアーティファクトが生じることを防止し、合成画像の品質を向上させることが可能となる。 On the other hand, according to the virtual viewpoint image composition device 100 described above, it is possible to suppress a depth estimation error even when it is difficult to associate images. Therefore, even in such a case, a high-quality virtual viewpoint image can be synthesized. As a result, it is possible to prevent artifacts from occurring in the parts (face, foot, hand, etc.) of the subject and improve the quality of the composite image.
なお、画像間の対応付けが困難な場合とは、例えば、テクスチャが少ない領域が広範囲である場合や、オクルージョンの影響を受ける領域が広範囲な場合である。また、被写体の境界付近に、被写体と類似した色を持つ別の被写体が存在する場合も、画像間の対応付けが困難であった。また、被写体のパーツに生じるアーティファクトとは、例えばパーツの一部が欠損してしまった画像や、パーツの一部が拡大又は縮小されてしまった画像のことである。 Note that the case where it is difficult to associate images is, for example, a case where a region with little texture is wide or a region affected by occlusion is wide. In addition, when there is another subject having a color similar to the subject near the subject boundary, it is difficult to associate the images. Artifacts generated in a subject part are, for example, an image in which a part of the part is lost or an image in which a part of the part is enlarged or reduced.
<変形例>
補正対象画素を選択する処理は、上述したものに限定される必要は無い。例えば、注目画素周辺にテクスチャが少ない場合に、その注目画素を補正対象画素として選択しても良い。例えば、注目画素周辺に繰り返しテクスチャがある場合に、その注目画素を補正対象画素として選択しても良い。例えば、注目画素周辺がオクルージョンの影響を受けている場合に、その注目画素を補正対象画素として選択しても良い。例えば、テクスチャが少ないか否かについては、以下のような手法によって判定することができる。まず、注目画像に対してソーベルフィルタ(Sobel Filter:水平、垂直方向の輝度値の微分フィルタ)を適用する。そして、画素毎にフィルタ後の値をエッジ強度として使用し、エッジ強度に基づいてテクスチャが多いか少ないかの判定が可能である。
<Modification>
The process for selecting the correction target pixel is not necessarily limited to the above-described process. For example, when there are few textures around the target pixel, the target pixel may be selected as a correction target pixel. For example, when there is a repetitive texture around the target pixel, the target pixel may be selected as a correction target pixel. For example, when the periphery of the target pixel is affected by occlusion, the target pixel may be selected as a correction target pixel. For example, whether or not the texture is small can be determined by the following method. First, a Sobel filter (horizontal and vertical luminance value differential filter) is applied to the image of interest. Then, the value after filtering is used as the edge strength for each pixel, and it is possible to determine whether the texture is large or small based on the edge strength.
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
100…仮想視点画像合成装置, 101…被写体撮影部, 102…カメラ画像取得部, 103…カメラパラメータ入力部, 104…奥行き推定部, 105…仮想視点位置入力部, 106…仮想視点位置決定部, 107…画像データ記憶部, 107a…カメラ画像・カメラパラメータ記憶部, 107b…奥行き記憶部, 107c…合成画像記憶部, 108…画像合成部, 109…合成画像出力部, 110…合成画像表示部 DESCRIPTION OF SYMBOLS 100 ... Virtual viewpoint image synthesizer, 101 ... Subject imaging | photography part, 102 ... Camera image acquisition part, 103 ... Camera parameter input part, 104 ... Depth estimation part, 105 ... Virtual viewpoint position input part, 106 ... Virtual viewpoint position determination part, DESCRIPTION OF SYMBOLS 107 ... Image data storage part, 107a ... Camera image / camera parameter storage part, 107b ... Depth storage part, 107c ... Composite image storage part, 108 ... Image composition part, 109 ... Composite image output part, 110 ... Composite image display part
Claims (3)
ステレオマッチング法により、前記多視点画像に対して、各画素の奥行きに対する尤度を算出する第1のステップと、
前記第1のステップで求めた尤度に基づいて、個々の画素の奥行きを推定する第2のステップと、
奥行きの推定精度が高いと推定されるための条件を満たす高精度推定画素の奥行き推定結果を用いて、画像特徴から奥行きに対する尤度を推定するための推定関数を算出する第3のステップと、
奥行きの推定精度が低いと推定されるための条件を満たす補正対象画素に対して、前記第3のステップで算出された推定関数を用いて、尤度の補正を行う第4のステップと、
前記第4のステップで行われた補正後の尤度を用いて、画像全体の奥行きを再推定する第5のステップと、
前記第5のステップで再推定した奥行きと、前記多視点画像とに基づいて、前記仮想視点位置に応じた前記被写体の画像を合成する第6のステップと
を有する画像処理方法。 An image processing method for synthesizing an image of a subject viewed from an arbitrary virtual viewpoint position based on a multi-viewpoint image obtained by photographing the subject from a plurality of different viewpoints,
A first step of calculating a likelihood for the depth of each pixel with respect to the multi-viewpoint image by a stereo matching method;
A second step of estimating the depth of each pixel based on the likelihood obtained in the first step;
A third step of calculating an estimation function for estimating the likelihood for the depth from the image feature using the depth estimation result of the high-precision estimation pixel that satisfies the condition for estimating that the depth estimation accuracy is high;
A fourth step of performing likelihood correction using the estimation function calculated in the third step for a correction target pixel that satisfies a condition for estimating that the depth estimation accuracy is low;
A fifth step of re-estimating the depth of the entire image using the corrected likelihood performed in the fourth step;
An image processing method comprising: a sixth step of synthesizing the subject image corresponding to the virtual viewpoint position based on the depth re-estimated in the fifth step and the multi-viewpoint image.
ステレオマッチング法により、前記多視点画像に対して、各画素の奥行きに対する尤度を算出する尤度算出部と、
前記尤度算出部で求めた尤度に基づいて、個々の画素の奥行きを推定する奥行き推定部と、
奥行きの推定精度が高いと推定されるための条件を満たす高精度推定画素の奥行き推定結果を用いて、画像特徴から奥行きに対する尤度を推定するための推定関数を算出する尤度推定関数算出部と、
奥行きの推定精度が低いと推定されるための条件を満たす補正対象画素に対して、前記尤度推定関数算出部で算出された推定関数を用いて、尤度の補正を行う尤度補正部と、
前記尤度補正部で行われた補正後の尤度を用いて、画像全体の奥行きを再推定する奥行き再推定部と、
前記奥行き再推定部により再推定された奥行きと、前記多視点画像とに基づいて、前記仮想視点位置に応じた前記被写体の画像を合成する画像合成部と
を備えることを特徴とする画像処理装置。 An image processing apparatus that synthesizes an image of a subject viewed from an arbitrary virtual viewpoint position based on a multi-viewpoint image obtained by photographing the subject from a plurality of different viewpoints,
A likelihood calculating unit that calculates a likelihood for the depth of each pixel with respect to the multi-viewpoint image by a stereo matching method;
A depth estimation unit that estimates the depth of each pixel based on the likelihood obtained by the likelihood calculation unit;
A likelihood estimation function calculation unit that calculates an estimation function for estimating the likelihood with respect to the depth from the image feature using the depth estimation result of the high-precision estimation pixel that satisfies the condition for estimating that the depth estimation accuracy is high. When,
A likelihood correction unit that corrects likelihood using the estimation function calculated by the likelihood estimation function calculation unit for a correction target pixel that satisfies a condition for estimating that the depth estimation accuracy is low; ,
A depth re-estimation unit that re-estimates the depth of the entire image using the likelihood after correction performed in the likelihood correction unit;
An image processing device comprising: an image composition unit that composes an image of the subject according to the virtual viewpoint position based on the depth re-estimated by the depth re-estimation unit and the multi-viewpoint image. .
ステレオマッチング法により、前記多視点画像に対して、各画素の奥行きに対する尤度を算出する尤度算出ステップと、
前記尤度算出ステップで求めた尤度に基づいて、個々の画素の奥行きを推定する奥行き推定ステップと、
奥行きの推定精度が高いと推定されるための条件を満たす高精度推定画素の奥行き推定結果を用いて、画像特徴から奥行きに対する尤度を推定するための推定関数を算出する尤度推定関数算出ステップと、
奥行きの推定精度が低いと推定されるための条件を満たす補正対象画素に対して、前記尤度推定関数算出ステップで算出された推定関数を用いて、尤度の補正を行う尤度補正ステップと、
前記尤度補正ステップで行われた補正後の尤度を用いて、画像全体の奥行きを再推定する奥行き再推定ステップと、
前記奥行き再推定ステップで再推定された奥行きと、多視点画像とに基づいて、前記仮想視点位置に応じた前記被写体の画像を合成する画像合成ステップと
を実行させるためのコンピュータプログラム。 A computer of an image processing apparatus that synthesizes an image of the subject viewed from an arbitrary virtual viewpoint position based on a multi-viewpoint image obtained by photographing the subject from a plurality of different viewpoints.
A likelihood calculating step of calculating a likelihood for the depth of each pixel with respect to the multi-viewpoint image by a stereo matching method;
A depth estimation step for estimating the depth of each pixel based on the likelihood obtained in the likelihood calculation step;
A likelihood estimation function calculating step for calculating an estimation function for estimating a likelihood with respect to a depth from an image feature using a depth estimation result of a high-precision estimation pixel that satisfies a condition for estimating that the depth estimation accuracy is high When,
A likelihood correction step of correcting the likelihood using the estimation function calculated in the likelihood estimation function calculation step for a correction target pixel that satisfies the condition for estimating that the depth estimation accuracy is low; ,
A depth re-estimation step of re-estimating the depth of the entire image using the likelihood after correction performed in the likelihood correction step;
A computer program for executing an image synthesis step of synthesizing an image of the subject according to the virtual viewpoint position based on the depth re-estimated in the depth re-estimation step and a multi-viewpoint image.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011144417A JP2013012045A (en) | 2011-06-29 | 2011-06-29 | Image processing method, image processing system, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011144417A JP2013012045A (en) | 2011-06-29 | 2011-06-29 | Image processing method, image processing system, and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013012045A true JP2013012045A (en) | 2013-01-17 |
Family
ID=47685878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011144417A Withdrawn JP2013012045A (en) | 2011-06-29 | 2011-06-29 | Image processing method, image processing system, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013012045A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101458986B1 (en) * | 2013-04-22 | 2014-11-13 | 광운대학교 산학협력단 | A Real-time Multi-view Image Synthesis Method By Using Kinect |
WO2015025955A1 (en) * | 2013-08-23 | 2015-02-26 | 株式会社東芝 | Image-processing unit, method and program, and three-dimensional image display unit |
JP2015516627A (en) * | 2012-03-22 | 2015-06-11 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | Image enhancement |
CN106651794A (en) * | 2016-12-01 | 2017-05-10 | 北京航空航天大学 | Projection speckle correction method based on virtual camera |
JP2018096826A (en) * | 2016-12-13 | 2018-06-21 | 日本電信電話株式会社 | Point group pixel position determining apparatus, method, and program |
JP2018534699A (en) * | 2015-11-20 | 2018-11-22 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | System and method for correcting erroneous depth information |
WO2019087958A1 (en) * | 2017-11-01 | 2019-05-09 | キヤノン株式会社 | Information processing device, information processing method, and program |
-
2011
- 2011-06-29 JP JP2011144417A patent/JP2013012045A/en not_active Withdrawn
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015516627A (en) * | 2012-03-22 | 2015-06-11 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | Image enhancement |
KR101458986B1 (en) * | 2013-04-22 | 2014-11-13 | 광운대학교 산학협력단 | A Real-time Multi-view Image Synthesis Method By Using Kinect |
WO2015025955A1 (en) * | 2013-08-23 | 2015-02-26 | 株式会社東芝 | Image-processing unit, method and program, and three-dimensional image display unit |
US10304187B2 (en) | 2013-08-23 | 2019-05-28 | Toshiba Medical Systems Corporation | Image processing apparatus and method, computer program product, and stereoscopic image display apparatus |
JP2018534699A (en) * | 2015-11-20 | 2018-11-22 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | System and method for correcting erroneous depth information |
CN106651794A (en) * | 2016-12-01 | 2017-05-10 | 北京航空航天大学 | Projection speckle correction method based on virtual camera |
JP2018096826A (en) * | 2016-12-13 | 2018-06-21 | 日本電信電話株式会社 | Point group pixel position determining apparatus, method, and program |
WO2019087958A1 (en) * | 2017-11-01 | 2019-05-09 | キヤノン株式会社 | Information processing device, information processing method, and program |
US11514606B2 (en) | 2017-11-01 | 2022-11-29 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and non-transitory computer-readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105374019B (en) | A kind of more depth map fusion methods and device | |
US11348267B2 (en) | Method and apparatus for generating a three-dimensional model | |
JP6561216B2 (en) | Generating intermediate views using optical flow | |
EP2383699B1 (en) | Method for estimating a pose of an articulated object model | |
US9445071B2 (en) | Method and apparatus generating multi-view images for three-dimensional display | |
JP2012194751A (en) | Image processing method, image processing system and computer program | |
WO2017076106A1 (en) | Method and device for image splicing | |
TWI767985B (en) | Method and apparatus for processing an image property map | |
JP2013012045A (en) | Image processing method, image processing system, and computer program | |
Zhi et al. | Toward dynamic image mosaic generation with robustness to parallax | |
JP2016508652A (en) | Determining object occlusion in image sequences | |
WO2018171008A1 (en) | Specular highlight area restoration method based on light field image | |
WO2015188666A1 (en) | Three-dimensional video filtering method and device | |
Cho et al. | Hole filling method for depth image based rendering based on boundary decision | |
CN109493282A (en) | A kind of stereo-picture joining method for eliminating movement ghost image | |
EP3616399B1 (en) | Apparatus and method for processing a depth map | |
Jung | A modified model of the just noticeable depth difference and its application to depth sensation enhancement | |
CN101945299B (en) | Camera-equipment-array based dynamic scene depth restoring method | |
US20230419524A1 (en) | Apparatus and method for processing a depth map | |
Gao et al. | Design of signal processing pipeline for stereoscopic cameras | |
JP6835665B2 (en) | Information processing equipment and programs | |
Huang et al. | Warping-based novel view synthesis from a binocular image for autostereoscopic displays | |
Khayotov et al. | Efficient Stitching Algorithm for Stereoscopic VR Images | |
조재형 | Boundary Decision-Based Hole Filling Method For Depth Image-Based Rendering | |
Sun et al. | Texture optimization for seamless view synthesis through energy minimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20130606 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130801 |
|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140902 |