CN102428501A

CN102428501A - 图像处理装置

Info

Publication number: CN102428501A
Application number: CN2009801593209A
Authority: CN
Inventors: 下山贤一; 三岛直; 三田雄志; 井田孝
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-09-18
Filing date: 2009-09-18
Publication date: 2012-04-25
Also published as: WO2011033673A1; US9053575B2; JP4966431B2; JPWO2011033673A1; US20120069009A1

Abstract

本发明的图像处理装置根据二维图像生成高质量的三维图像。具备：检测部，检测输入图像内的目标；深度图生成部，选择记述像素的纵深值的至少1个深度模板中的、与所检测出的所述目标的种类对应的深度模板，按照所述输入图像内的所述检测出的目标的位置，在深度图上配置所选择出的深度模板，从而生成记述所述输入图像中的每个像素的纵深值的所述深度图；校正部，根据与关注像素对应的所述输入图像内的对应关注像素的像素值、和与周边像素对应的所述输入图像内的对应周边像素的像素值的关系，计算所述深度图内的至少1个所述关注像素和所述周边像素的权重，根据关注像素的所述纵深值和所述周边像素的所述纵深值的所述权重的加权和，校正所述关注像素的纵深值；以及图像生成部，根据由所述校正部校正后的深度图和所述输入图像生成多个视差图像。

Description

图像处理装置

技术领域

本发明涉及根据二维图像生成三维显示用的图像的图像处理装置。

背景技术

在日本特愿2008-504887号公报(专利文献1)公开的三维图像的生成方法中，首先从包含移动物体的二维图像中，进行移动物体的检测和追踪。然后，在检测位置设定标准模板，利用具有检测物体的大小、对比度的线进行校正，从而将图像分离为包含检测物体的前景部分和背景部分。对前景/背景分别提供纵深模型，由此生成三维图像。

专利文献1：日本特愿2008-504887号公报

发明内容

但是，在日本特愿2008-504887号公报(专利文献1)的方法中，在二维图像中利用图像中的边缘等线的信息来进行分段，所以存在与实际的三维信息一致的部分仅为目标的周边部这样的问题。另外，在分段后提供纵深模型这样的方式中，所提供的纵深模型未必与三维信息一致，所以存在在设成三维图像时，画质有时显著恶化这样的问题。

本发明提供一种能够根据二维图像生成高质量的三维图像的图像处理装置。

作为本发明的一个实施方式的一种图像处理装置，其特征在于，具备：检测部，检测输入图像内的目标；深度图生成部，选择记述像素的纵深值的至少1个深度模板中的、与所检测出的所述目标的种类对应的深度模板，按照所述输入图像内的所述检测出的目标的位置，在深度图上配置所选择出的深度模板，从而生成记述所述输入图像中的每个像素的纵深值的所述深度图；校正部，根据与关注像素对应的所述输入图像内的对应关注像素的像素值、和与周边像素对应的所述输入图像内的对应周边像素的像素值的关系，计算所述深度图内的至少1个所述关注像素和所述周边像素的权重，根据关注像素的所述纵深值和所述周边像素的所述纵深值的所述权重的加权和，校正所述关注像素的纵深值；以及图像生成部，根据由所述校正部校正后的深度图和所述输入图像，生成多个视差图像。

根据本发明，能够根据二维图像生成高质量的三维图像。

附图说明

图1示出实施例1的图像处理装置的结构例。

图2示出实施例2的图像处理装置的结构例。

图3示出实施例3的图像处理装置的结构例。

图4示出实施例4的图像处理装置的结构例。

图5示出深度模板的一个例子。

图6示出对图5的深度模板进行了3D显示的状态。

图7示出在图上配置了深度模板的例子。

图8示出视差矢量的计算方法。

图9示出将视差矢量分割成的左视差矢量以及右视差矢量。

具体实施方式

以下，参照附图，说明本发明的一个实施方式。另外，对进行相互同样的动作的结构、处理附加公共的符号，省略重复的说明。

实施例1

图1示出本实施例的图像处理装置的结构例。

图像输入部10输入成为处理的对象的二维图像。所输入的二维图像包含多个像素的像素值。图像输入部10能够从所有的设备或者介质输入输入图像。例如，图像输入部10既可以从HDD等记录介质输入图像数据，也可以从经由网络连接的外部装置输入图像数据。

目标检测部100解析输入图像，检测输入图像中包含的目标及其位置。

深度模板存储部120针对目标的每个种类，存储记述了分别对应的目标的各像素的纵深值(深度值)的深度模板(depth template)20。

深度图生成部200通过从存储部120读出与由目标检测部100检测出的目标对应的深度模板20，并按照所检测出的目标的位置在初始图上配置该深度模板20，生成记述了与输入图像的各像素对应的纵深值的深度图(depth map)。

深度图校正部(校正部)300将深度图上的各像素依次选择为关注像素，用关注像素和其周边像素进行加权平滑化，从而校正关注像素的纵深值。关注像素以及各周边像素的权重根据与关注像素对应的输入图像的像素(对应关注像素)的像素值、和与各周边像素对应的输入图像中的像素(对应周边像素)的像素值之差来计算。

三维用图像生成部400根据输入图像、和校正后的深度图生成多个视差图像(右眼用图像和左眼用图像)。所生成的多个视差图像用于立体图像的显示。例如，通过以时分复用交替显示多个视差图像，能够使观察者识别立体图像。使观察者佩带例如液晶眼镜等专用眼镜，与各视差图像的显示相符合地切换左右的液晶快门，从而向左右的眼睛交替输入左眼用图像、右眼用图像，由此观察者能够识别立体图像。以下，详细说明目标检测部100、深度模板20、深度图生成部200、深度图校正部300、三维用图像生成部400。在以后的说明中以以下的事项(1)～(4)为前提。

(1)以输入图像的左上角为原点，将横方向设为x轴、将纵方向设为y轴。但是，坐标的设定方法不限于此。另外，将输入图像的坐标(x，y)的像素值表示为P(x，y)。此处，像素值表示图像的明亮度或者颜色分量，例如相当于亮度、明度、特定的色通道等。

(2)在深度图中，以图的左上角为原点，将横方向设定为X轴、将纵方向设定为Y轴。但是，坐标的设定方法不限于此。另外，将图的坐标(X，Y)下的像素值表示为Z(X，Y)。此时，像素值表示纵深信息，值越大，纵深(深度)越大。

(3)输入图像的坐标与图的坐标一一对应。只要没有特别记述，输入图像的尺寸与图的尺寸相等，输入图像的坐标(x，y)和图的坐标(X，Y)相互对应。

(4)只要没有特别记述，将输入图像的像素值记述为“像素值”，将其值域设为[0、255](0以上255以下)。进而，将深度图的像素值记述为“纵深值”，将其值域设为[0、255](0以上255以下)。

首先，叙述目标检测部100。

目标检测部100从输入图像中检测成为对象的目标的整体或者一部分、及其位置。成为检测对象的目标也可以是任意种类，并且，也可以在图像中有多个。例如，也可以是人物整体、人物的一部分(脸、手、脚)、车辆、植物等，并且也可以根据人物的脸的朝向将其分别作为不同种类的目标来处理。以下，将在输入图像上的坐标(x，y)中检测出的第i个目标的输入图像上的位置表示为Ai(x，y)。

检测目标的方法能够使用一般已知的方法。另外，也可以根据成为检测对象的目标而组合使用各种方法。例如，在将检测对象目标设成人物的情况下，考虑使用检测人物的一部分即脸的脸检测手法的方法。例如，能够使用参考文献1(三田雄志、金子敏充、堀修，“基于适合于脸检测的共生的Joint Haar-like特征(顔検出に適した共起に基づくJoint Haar-like特徴)”电子信息通信学会论文志D-IIVol.J89-D-II No.8 pp.1791-1801、2006)中叙述的方法。通过该方法，能够根据图像的Haar-like特征检测脸，求出以详细地包围脸的方式配置的矩形的位置和大小。即，可知脸的位置和大小。另外，通过改变检测所使用的词典，还可以检测脸的朝向。

接下来，叙述深度模板20。

针对目标的每个种类准备深度模板20。深度模板表现了目标的实际的三维形状的概略形状。具体而言，在从希望检测的方向观察目标时，将其纵深作为像素值以二维图像表现的是深度模板。例如，在检测对象目标是人物的上半身的情况下，深度模板如图5所示。在图5中，纵深值越小(越接近黑)纵深越小，纵深值越大(越接近白)纵深越大。

图6是对图5进行了3D(维)显示的图。深度模板具有这样的三维的信息。预先针对希望检测的目标的每个种类，准备1个以上的这样的深度模板，并保存到存储部120中。

接下来，叙述深度图生成部200。

深度图生成部200在与由目标检测部100检测出的目标的位置Ai(x，y)对应的图上的位置Bi(X，Y)，配置与所检测出的目标对应的深度模板。由此，生成深度图。

图7是从某输入图像检测人物，并在图(初始图)上配置了深度模板的例子。从图7(a)的输入图像通过目标检测部100检测人物的脸，该脸的左上角是坐标A1(x，y)。此时，如图7(b)所示，以使左上角位于与人物的脸的左上角对应的深度图上的位置B1(X，Y)的方式，配置相应的深度模板。

此处，有时，由于检测多个目标，深度模板在深度图上重叠。对于多个深度模板重叠的坐标的纵深值的提供方法，考虑各种方法。例如，考虑以下的(1)～(6)的方法。

(1)使用平均。即，使用重叠于该坐标的多个深度模板的该坐标下的纵深值的平均。

(2)使用最小值。即，使用重叠于该坐标的深度模板的该坐标下的纵深值的最小值。

(3)使用加权平均。使用重叠于该坐标的多个深度模板的该坐标下的纵深值的加权平均。例如，越是纵深小的值的模板，权重越大。

(4)使用中值。即，使用重叠于该坐标的深度模板的该坐标下的纵深值的中值。

(5)对目标的种类附加位次，使用与位次最高的目标对应的模板的纵深值。在存在多个相同位次的目标时，对这些目标应用(1)～(4)的方法。

此处，对初始图的各坐标设定了初始值(基准值)。作为基准值，例如，也可以设定纵深最大的基准值255(纵深最大)。在配置深度模板时，对于模板的纵深值，基准值被更新(盖写)。或者，也可以依照(1)～(5)的方法，更新纵深值。

接下来，叙述深度图校正部300。

深度图校正部300通过用深度图上的关注像素D(X，Y)和其周边像素进行加权平滑化来校正深度图。周边像素是相对关注像素存在于距离近的范围内的像素。例如，表示关注像素和存在于特定的一定距离范围内的像素。

按照与关注像素D(X、Y)对应的输入图像中的对应关注像素C(x，y)和其周边像素(对应周边像素)的像素值的关系，设定校正时使用的权重。基本上，根据对应关注像素C(x、y)的像素值和对应周边像素的像素值的差分来设定权重。例如，设定为差分越小权重越大，差分越大权重越小即可。

为了这样的深度图的校正，能够使用例如双边滤波器。如果将校正后的纵深值设为Z’(X，Y)，则能够用式(1)来表示使用了双边滤波器的深度图校正。此处，k是滤波器的窗尺寸。

式(1)：使用了双边滤波器的深度图校正

Z^{'} (X, Y) = \frac{Σ_{n = - k}^{k} Σ_{m = - k}^{k} Z (X + m, Y + n) * W (x, y, m, n)}{Σ_{n = - k}^{k} Σ_{m = - k}^{k} W (x, y, m, n)}

W(x，y，m，n)＝W₁(m，n)*W₂(P(x，y)，P(x+m，y+n))

例如，在式(1)中如果在W₁、W₂中使用高斯分布，则如下变化。

W_{1} (m, n) = \frac{1}{\sqrt{2 {πσ}_{1}}} \exp {- \frac{m^{2} + n^{2}}{2 {σ_{1}}^{2}}}

W_{2} (P (x, y), P (x + m, y + n)) = \frac{1}{\sqrt{2 π σ_{2}}} \exp {- \frac{{(P (x, y) - P (x + m, y + n))}^{2}}{2 {σ_{2}}^{2}}}

σ1、σ2是高斯分布的标准偏差。W₁评价对应关注像素与对应周边像素在空间上的距离。W₂评价对应关注像素的像素值与对应周边像素的像素值的距离，意味着值的差越小明亮度越接近。根据式(1)可知，空间上的距离的差分越小，权重越大，并且像素值之间的距离越近，权重越大。另外，m＝0、n＝0意味着关注像素自身。在该情况下，当然，P(x、y)与P(x+m、y+n)的差分为0。在式1的Z’(X、Y)中，计算各周边像素以及关注像素的纵深值的加权平均。

另外，在深度图的校正中还可以使用ε滤波器。使用了ε滤波器的深度图校正能够用式(2)来表示。根据输入图像进行ε滤波器的值的选择，在深度图上进行滤波。

式(2)：使用了ε滤波器的深度图校正

Z^{'} (X, Y) = \frac{Σ_{n = - k}^{k} Σ_{m = - k}^{k} Z (X, Y) * W (x, y, m, n) + Z (X + m, Y + n) * (1 - W (x, y, m, n))}{Σ_{n = - k}^{k} Σ_{m = - k}^{k} {W (x, y, m, n) + (1 - W (x, y, m, n))}}

W(x，y，m，n)＝W₁(m，n)*W₂(P(x，y)，P(x+m，y+n))

W₁、W₂如下设定即可。

W₁(m，n)＝1

W_{2} (P (x, y), P (x + m, y + n)) = \{\begin{matrix} 0 : P (x, y) - P (x + m, y + n) \leq ϵ \\ 1 : P (x, y) - P (x + m, y + n) > ϵ \end{matrix}

此处，k是滤波器的窗尺寸、ε是ε滤波器的阈值。对于W₂，对应关注像素C(x、y)的像素值P(x、y)与对应周边像素C(x+m、y+n)的像素值P(x+m、y+n)的差分大于阈值，则取1，如果是阈值以下，则取0。因此，在差分为阈值以下时，增大周边像素的权重，在差分大于阈值时，使周边像素的权重成为0，并且针对关注像素的权重增大。另外，m＝0、n＝0意味着关注像素自身。按照这样设定的权重，计算各周边像素以及关注像素的纵深值的加权平均。具体而言，针对各周边像素分别计算所选择的纵深值和关注像素的纵深值的平均。此处，W₁始终设成1，但还可以在W₁中使用高斯分布等。

另外，在深度图的校正中还可以使用中值滤波器。在对应关注像素和对应周边像素中搜索中值，以在像素值与中值一致时选择与该像素值的像素对应的深度图上的像素的方式，进行滤波。中值在滤波器的窗范围内求出。在中值滤波器的情况下，如以下的式(3)那样设定式(1)的权重W₁、W₂即可。

式(3)：使用了中值滤波器的深度图校正的情况下

W₁(m，n)＝1

W₂在对应周边像素C(x+m、y+n)的像素值P(x+m、y+n)与中值一致时取1，在不一致时取0。这是因为，在存在多个中值的情况下取其平均。另外，也可以不设定为0、1，而是越是具有与中值的差分小的像素值的像素(对应关注像素或者对应周边像素)，使W₂的权重越大，作为加权中值滤波器来设定。

接下来，叙述三维用图像生成部400。

三维用图像生成部400将校正后的深度图通过差异(视差)变换部410变换为差异图，根据差异图和输入图像通过视差图像生成部420生成视差图像。

首先，叙述差异变换部410。

差异变换部410根据深度图中的各像素的纵深值z求解各像素的视差矢量(差异值)，生成记述了各像素的视差矢量的差异图。此处，视差矢量表示使输入图像移动多少来生成视差图像。这样，差异变换部410将深度图变换为差异图。

以下，说明根据纵深值z求解视差矢量d的方法。

能够如图8所示，利用将右眼、左眼、以及对象物连接的三角形、与由画面上的视差(右视差以及左视差)和对象物形成的三角形的相似性，计算视差矢量d。此处，定义以下的参数z、d、b、z_s、z₀、L_z。

纵深：z

视差矢量：d[cm]

眼睛距离：b[cm]

直至画面的距离：z_s[cm]

突出距离：z₀[cm]

实空间中的纵深尺寸：L_z[cm]

b、z_s、z₀、L_z预先设定任意的值。

纵深值z如上所述是0-255的范围，0表示眼前最近、255表示最靠里(在图8中下侧的横虚线对应于0、上侧的横虚线对应于255)。但是，该值仅为假想值，与实际的距离不同。

此处，如果使用实空间中的纵深尺寸L_z，计算每1深度单位的实空间上的距离，则能够如下那样表示。Z_max是纵深值的最大值，此处，Z_max＝255。

从纵深向实空间的变换：

因此，画面至对象物的距离能够如以下那样表示。

z¹＝γz-z₀

立体视觉的参数b、z_s、z₀、L_z能够根据希望提供的立体视觉任意决定。例如，按照实际的画面的位置决定z_s(到画面的距离)，在希望增大从画面的突出的情况下增大z₀(突出距离)。另外，实空间中的纵深的深浅能够根据L_z决定。

如果决定立体视觉的参数，则能够使用上述两个三角形的相似，通过以下的式(纵深视差矢量变换模型)，根据纵深值z计算视差矢量d。

式(4)：纵深视差矢量变换模型

d∶b＝(z′)∶(z_s+z′)

d = b (\frac{z^{'}}{z_{s} + z^{'}}) :

单位[cm]

d的单位是实空间上的距离(cm)，所以需要变换为像素(pixel)单位。其通过以下的式来表示。

如上所述，差异变换部410针对深度图中的各像素分别根据纵深值z求出视差矢量，生成记述了针对各像素的各个的视差矢量的差异图。

接下来，叙述视差图像生成部420。

视差图像生成部420根据输入图像和差异图，生成希望生成的张数量的视差图像。

例如，如果是如图9所示，根据左眼/右眼的中间的视点得到的输入图像，则左视差图像和右视差图像能够根据将视差矢量d_pixel分割为-1/2和1/2的下述左右的视差矢量来生成。

式(5)：左右的视差矢量

d_{L} = - \frac{1}{2} d

d_{R} = \frac{1}{2} d

更详细而言，左视差图像能够通过使输入图像的像素值P(x、y)按照d_L来移动从而生成。右视差图像能够通过使输入图像的像素值P(x、y)按照d_R来移动从而生成。仅通过单纯地移动，还有可能产生孔，所以在孔的区域中根据周边的视差矢量进行内插而埋入影像即可。此处，虽然以2视差的情况为例子，但即使在多视差的情况下也同样地处理即可。

以上，根据本实施例，配置与从输入图像检测出的目标相应的深度模板来生成深度图，依据根据输入图像中的对应关注像素和对应周边像素的像素值之间的距离而决定的针对周边像素的权重，来校正深度图中的关注像素的纵深值。由此，能够以高对比度(例如，不会使边缘变得模糊)得到与输入图像的实际的三维信息适合的深度图，因而能够生成能够识别高质量的立体图像的视差图像。

实施例2

图2示出本实施例的图像处理装置的结构例。图像输入部10输入成为处理的对象的二维图像。

目标检测部101检测输入图像中包含的目标、和其种类、位置、大小、朝向。

存储部120针对目标的每个种类，分别存储具有对应的目标的各像素的纵深值的深度模板20。

深度模板修正部500从存储部120读出与由目标检测部101检测出的目标的种类对应的深度模板，与该目标的大小、朝向对应地修正深度模板。

深度图生成部200通过根据由目标检测部100检测出的目标的位置，在图上配置由深度模板修正部500修正后的深度模板，生成深度图。

深度图校正部300通过将深度图上的各像素选择为关注像素，并用关注像素和其周边像素进行加权平滑化，从而校正关注像素的纵深值，由此校正深度图。校正的方法能够使用与实施例1同样的方法。

存储部130存储通过某种手段提供的、与输入图像对应的深度图即其他深度图30。

深度图合成部600从存储部30读出其他深度图30，将其他深度图30与由深度图校正部300校正后的深度图合成。

三维用图像生成部400根据由深度图合成部600合成的深度图、和输入图像生成视差图像。

以下，进一步详细说明目标检测部101、深度模板修正部500、其他深度图信息30、深度图合成部600。

叙述目标检测部101。

目标检测部101从输入图像中检测成为对象的目标的整体或者一部分的位置、大小、朝向。另外，检测目标的种类。除了检测大小和朝向这点以外，与实施例1的目标检测部100的动作相同。

叙述深度模板修正部500。

深度模板修正部500与所检测出的目标的大小以及朝向对应地，修正从存储部120读出的深度模板。如果与目标的大小、朝向对应地准备了所有模板，则其量变大。因此，根据目标的检测信息，对事先准备的深度模板施加修正。

在所检测出的目标的尺寸、与所准备的深度模板的尺寸不同的情况下，对深度模板的尺寸进行放大缩小即可。放大缩小使用一般已知的方法即可。另外，在所检测出的目标的朝向与所准备的深度模板的朝向不同的情况下，改变深度模板的朝向即可。使用一般已知的变形(morphing)手法等来进行朝向的改变即可。

叙述其他深度图30。

其他深度图30是与通过其他手段等提供的输入图像相关的深度图。对于该其他深度图30，例如，从整体的构图等考虑记述了背景的构图深度等的其他深度图。另外，在运动图像等的处理的情况下，考虑将t帧前的图像中使用的深度图等用作其他深度图。

叙述深度图合成部600。

深度图合成部600合成由深度图校正部300校正后的深度图和其他深度图30。合成的其他深度图也可以是任意种类。

合成的方法有各种方法，但基本上通过各深度图的对应的像素彼此合成即可。各像素中的合成方法例如考虑以下的方法。

(1)使用各像素的纵深值的平均值。

(2)使用各像素的纵深值中的最大值。

(3)使用各像素的纵深值中的最小值。

(4)使用各像素的纵深值的加权平均。例如，设纵深越小，权重越大。

(5)使用各像素的纵深值的中值。

以上，根据本实施例2，即使在将配置深度模板而得到的深度图与其他深度图合成的情况下，也能够得到实现高对比度的深度图，由此能够生成能够识别高质量的立体图像的视差图像。

实施例3

图3示出本实施例的图像处理装置的结构例。

图像输入部10输入成为处理的对象的二维图像。

目标检测部100从输入图像中检测目标、和其种类、位置。

存储部140针对目标的每个种类，存储记述了分别对应的目标的各像素的差异值(视差值)的差异模板40。

差异图生成部700通过从存储部140读出与由目标检测部100检测出的目标的种类对应的差异模板40，并与所检测出的目标的位置对应地在图上配置差异模板40，从而生成差异图。

在差异图校正部(校正部)800中，通过将差异图上的各像素选择为关注像素，并用关注像素和其周边像素进行加权平滑化，校正关注像素的差异值，由此校正差异图。此时，根据与关注像素对应的输入图像的像素(对应关注像素)的像素值和与各周边像素对应的输入图像中的像素(对应周边像素)的像素值之差，来计算关注像素以及各周边像素的权重。

三维用图像生成部400根据输入图像、和校正后的差异图生成视差图像。

以下，进一步详细说明差异模板40、差异图生成部700、差异图校正部800、三维用图像生成部400。

在以下的说明中，在差异图中，将图的左上角设定为原点，将横方向设定为X轴，将纵方向设定为Y轴。坐标的设定方法不限于此。进而，将差异图的坐标(X，Y)下的像素值(差异值)表示为d(X，Y)。事先将输入图像的坐标和差异图的坐标1对1对应。另外，在没有特别记述的情况下，输入图像的尺寸与图的尺寸相等，输入图像的坐标(x，y)与图的坐标(X，Y)对应。

叙述差异模板40。

差异模板40针对目标的每个种类准备，具有相应的种类的目标的差异(视差)值。差异模板40能够通过根据与图1的差异变换部410同样的处理来变换深度模板20而取得。

叙述差异图生成部700。

差异图生成部700通过与图1的深度图生成部200同样地，在与由目标检测部101检测出的目标的位置Ai(x，y)对应的差异图上的位置Bi(X，Y)，配置与所检测出的目标的种类对应的差异模板，来生成差异图。

叙述差异图校正部800。

差异图校正部800与图1的深度图校正部300同样地，用差异图上的关注像素E(X，Y)和其周边像素进行加权平滑化来校正差异图。此时，所使用的权重是按照与关注像素E对应的输入图像中的对应关注像素C(x，y)和对应周边像素(与周边像素对应的输入图像中的像素)的像素值的分布而设定的。基本上，与对应关注像素和对应周边像素的像素值的差分对应地设定权重。例如，设定为差分越小权重越大，差分越大权重越小。

在差异图的校正中，能够与实施例1同样地使用例如双边滤波器。在该情况下，如果将校正后的差异值设成d’(X，Y)，则能够通过式(6)表示差异图的校正。

式(6)：使用了双边滤波器的差异图校正

d^{'} (X, Y) = \frac{Σ_{n = - k}^{k} Σ_{m = - k}^{k} d (X + m, Y + n) * W (x, y, m, n)}{Σ_{n = - k}^{k} Σ_{m = - k}^{k} W (x, y, m, n)}

W(x，y，m，n)＝W₁(m，n)*W₂(P(x，y)，P(x+m，y+n))

。此处，k是滤波器的窗尺寸。

例如，如果在式(6)中使用W₁、W₂，则有

W_{1} (m, n) = \frac{1}{\sqrt{2 {πσ}_{1}}} \exp {- \frac{m^{2} + n^{2}}{2 {σ_{1}}^{2}}}

W_{2} (P (x, y), P (x + m, y + n)) = \frac{1}{\sqrt{2 π σ_{2}}} \exp {- \frac{{(P (x, y) - P (x + m, y + n))}^{2}}{2 {σ_{2}}^{2}}} .

另外，还可以使用ε滤波器、加权ε滤波器、中值滤波器、或者加权中值滤波器。各滤波器的校正方法的详细说明参照实施例1的说明。

叙述三维用图像生成部400。

三维用图像生成部400在视差图像生成部420中，根据由差异图校正部800得到的差异图、和输入图像，与实施例1同样地，生成视差图像。

以上，根据本实施例，配置与从输入图像检测出的目标对应的差异模板来生成差异图，依照根据输入图像中的对应关注像素与对应周边像素的像素值之间的距离来决定的针对周边像素的权重，而校正差异图中的关注像素的差异值。由此，能够高对比度(例如，不会使边缘模糊)地得到与输入图像的实际的三维信息适合的差异图，因而能够生成能够识别高质量的立体图像的视差图像。

实施例4

图4示出本实施例的图像处理装置的结构例。

图像输入部10输入成为处理的对象的二维图像。

目标检测部101从输入图像检测目标、和其种类、位置、大小、朝向。

存储部140针对目标的每个种类存储差异模板40。

差异模板修正部900从存储部140读出与由目标检测部101检测出的目标的种类对应的差异模板40，根据所检测出的目标的大小、朝向等修正该差异模板40。

差异图生成部700通过根据由目标检测部101检测出的目标的位置和种类中的至少前者，在图上配置由差异模板修正部900修正后的差异模板，生成差异图。

差异图校正部800用差异图上的关注像素和其周边像素进行加权平滑化并校正差异图。处理的详细内容与实施例3相同。

存储部150存储与通过某种手段提供的输入图像对应的差异图即其他差异图50。

差异图合成部910合成由差异图校正部800校正后的差异图和其他差异图50。

以下，进一步详细说明差异模板修正部900、差异图生成部700、其他差异图50、差异图合成部910、三维用图像生成部400。

叙述差异模板修正部900。

差异模板修正部900与图2的深度模板修正部500同样地，根据所检测出的目标的大小以及朝向，来修正差异模板。修正的方法能够使用与深度模板修正部500同样的方法。

叙述差异图生成部700。

差异图生成部700与图2的深度图生成部200同样地，在与由目标检测部101检测出的目标的位置Ai(x，y)对应的差异图上的位置Bi(X，Y)，配置由差异模板修正部900修正后的差异模板。

叙述其他差异图50。

其他差异图50是与通过其他手段提供的输入图像相关的差异图。作为其他差异图50，例如，能够根据整体的构图等使用背景的构图差异等。另外，在运动图像等的处理的情况下，能够使用t帧前的图像中使用的差异图等。

叙述差异图合成部910。

差异图合成部910合成由差异图校正部800校正后的差异图、和其他差异图50。合成的其他差异图可以是任意种类。另外，合成的方法能够使用与图2的深度图合成部600的处理同样的方法。

叙述三维用图像生成部400。

三维用图像生成部400在视差图像生成部420中，根据由差异图合成部910生成的差异图和输入图像来生成视差图像。

以上，根据本实施例4，即使在将配置差异模板而得到的差异图与其他差异图合成的情况下，也可以得到实现高对比度的差异图，由此能够生成能够识别高质量的立体图像的视差图像。

Claims

1.一种图像处理装置，其特征在于，具备：

检测部，检测输入图像内的目标；

深度图生成部，选择记述像素的纵深值的至少1个深度模板中的、与所检测出的所述目标的种类对应的深度模板，按照所述输入图像内的所述检测出的目标的位置，在深度图上配置所选择出的深度模板，从而生成记述所述输入图像中的每个像素的纵深值的所述深度图；

校正部，根据与关注像素对应的所述输入图像内的对应关注像素的像素值、和与周边像素对应的所述输入图像内的对应周边像素的像素值的关系，计算所述深度图内的至少1个所述关注像素和所述周边像素的权重，根据关注像素的所述纵深值和所述周边像素的所述纵深值的所述权重的加权和，校正所述关注像素的纵深值；以及

图像生成部，根据由所述校正部校正后的深度图和所述输入图像，生成多个视差图像。

2.根据权利要求1所述的图像处理装置，其特征在于，

所述检测部检测所述目标的大小以及朝向中的至少一方，

所述深度图生成部根据所述目标的大小以及朝向中的至少一方，修正所述选择出的深度模板，在所述深度图上配置修正后的深度模板。

3.根据权利要求2所述的图像处理装置，其特征在于，

所述校正部以越是与所述对应关注像素的像素值的差分小的所述对应周边像素，则使与所述对应周边像素对应的周边像素的权重越大的方式，计算所述周边像素的权重。

4.根据权利要求1所述的图像处理装置，其特征在于，

所述校正部对和所述对应关注像素的像素值与所述对应周边像素的像素值之差大于阈值的对应周边像素对应的周边像素的所述权重分配0，并且增大针对所述关注像素的所述权重。

5.根据权利要求1所述的图像处理装置，其特征在于，

所述校正部求出所述对应关注像素和所述对应周边像素的像素值中的中值，针对所述对应周边像素以及所述对应关注像素中的、具有与所述中值不一致的像素值的像素，对所述权重分配0，计算具有与所述中值一致的像素值的像素的所述纵深值的平均，从而校正所述关注像素的纵深值。

6.根据权利要求1所述的图像处理装置，其特征在于，

还具备合成所述校正后的深度图和特定的被提供的其他深度图的深度图合成部，

所述图像生成部使用合成后的深度图来生成所述多个视差图像。

7.一种图像处理装置，其特征在于，具备：

检测部，检测输入图像内的目标；

差异图生成部，选择记述像素的差异值的至少1个差异模板中的、与所检测出的目标的种类对应的差异模板，按照所述输入图像内的所述检测出的目标的位置，在差异图上配置所选择出的差异模板，从而生成记述所述输入图像中的每个像素的差异值的所述差异图；

校正部，根据与关注像素对应的所述输入图像内的对应关注像素的像素值和与周边像素对应的所述输入图像内的对应周边像素的像素值的关系，计算所述差异图内的至少1个所述关注像素和所述周边像素的权重，根据所述关注像素的所述差异值和所述周边像素的所述差异值的所述权重的加权和，校正所述关注像素的差异值；以及

图像生成部，根据由所述校正部校正后的差异图和所述输入图像，生成多个视差图像。