CN107818554B

CN107818554B - 信息处理设备和信息处理方法

Info

Publication number: CN107818554B
Application number: CN201610818143.2A
Authority: CN
Inventors: 顾舒航; 陈崇雨; 张磊
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-09-12
Filing date: 2016-09-12
Publication date: 2023-04-21
Anticipated expiration: 2036-09-12
Also published as: US20180075315A1; CN107818554A; US10614337B2

Abstract

本公开涉及信息处理设备和信息处理方法。根据一个实施例的信息处理设备包括处理电路，处理电路被配置为获取彼此具有像素对应关系的第一深度图像、第二深度图像和强度图像，其中第二深度图像在图像质量方面优于第一深度图像。处理电路还被配置为基于第一深度图像、第二深度图像和强度图像进行训练过程，以得出解析稀疏表示模型的参数，其中该模型对第一深度图像、第二深度图像和强度图像之间的关系进行建模。处理电路被配置为输出所得出的参数。

Description

信息处理设备和信息处理方法

技术领域

本公开一般涉及信息处理，更具体地，涉及与导引深度图像恢复有关的信息处理设备和信息处理方法。

背景技术

深度图像在诸如机器人科学、人机交互以及增强现实等许多应用中起到重要作用。常规的深度感测主要基于立体测量或激光测量。近来，诸如RGB-D(彩色图像-深度图像)摄像机和飞行时间(ToF)距离传感器等消费级深度感测产品被广泛应用。然而，由消费级深度传感器获得的深度图像在图像质量方面可能存在某些不足，例如可能存在分辨率低、噪声水平高以及深度值丢失(即，深度图中某些位置的深度值为空(null)，其也称为深度值的空洞(hole))等问题。引导深度图像恢复(guided depth image restoration)提供了用于提升深度图像的质量的手段，其利用强度图像如RGB图像的信息来提升深度图像的图像质量。

发明内容

对强度图像和深度图像之间的关系的建模是引导深度图像恢复的重要方面，已有的引导深度图像恢复方法通常基于手动设置的参数来进行上述建模。已有的引导深度图像恢复方法大致可分为基于滤波的方法、基于优化的方法以及基于字典学习的方法。

例如，通过将RGB值引入滤波权重计算过程，基于滤波的方法已被应用到RGB引导深度恢复问题。然而，这种方式在高精度深度图像恢复方面还不够理想，其一般需要手动设置参数来适应不同的图像。此外，基于滤波的方法通常只对两个像素之间的关系进行公式化，这种一次关系对于测量复杂的局部结构效果不佳。

另一类方法旨在将深度恢复问题转化为目标函数，并且将优化解用作恢复结果。这些方法中使用的优化函数通常由手动设置的函数形式和手动设置的参数构成。这些手动设置的函数和参数通常较为简单，因而不能很好地对退化深度图像、高质量深度图像以及强度图像之间的关系建模。

基于字典学习的方法利用字典原子(dictionary atom)来对深度图像块与强度图像块之间的统计依赖关系进行建模。该方法对深度图像块和强度图像块同时进行稀疏重构，需要使用具有高维特征向量的字典原子。更高的维数意味着更多的原子个数，使得训练阶段和测试阶段均存在较大计算负担。此外，基于字典学习的方法采用数据驱动训练策略。字典原子被训练以用同样的系数表示强度图像块和深度图像块，由于在测试阶段相应高质量深度图像块是未知的，因此这种策略导致训练阶段和测试阶段中的系数不一致。

针对引导深度图像恢复的以上问题中的至少一部分问题提出了本发明的实施例。

在下文中给出了关于本发明实施例的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，以下概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

根据一个实施例，提供一种信息处理设备，其包括处理电路。处理电路被配置为获取彼此具有像素对应关系的第一深度图像、第二深度图像和强度图像，其中第二深度图像在图像质量方面优于第一深度图像。处理电路还被配置为基于第一深度图像、第二深度图像和强度图像进行训练过程，以得出解析稀疏表示模型的参数，其中该模型对第一深度图像、第二深度图像和强度图像之间的关系进行建模。处理电路还被配置为输出所得出的参数。

根据另一个实施例，提供一种信息处理方法，其包括获取彼此具有像素对应关系的第一深度图像、第二深度图像和强度图像的步骤，其中第二深度图像在图像质量方面优于第一深度图像。该方法还包括基于第一深度图像、第二深度图像和强度图像进行训练过程以得出解析稀疏表示模型的参数的步骤，其中该模型用于对第一深度图像、第二深度图像和强度图像之间的关系进行建模。该方法还包括输出所得出的参数的步骤。

根据又一个实施例，提供一种信息处理设备，其包括处理电路。处理电路被配置为获取解析稀疏表示模型的参数，其中该模型对彼此具有像素对应关系的第一深度图像、第二深度图像和强度图像之间的关系进行建模，其中第二深度图像在图像质量方面优于第一深度图像，并且该参数是通过基于训练图像进行的训练过程而得出的。处理电路还被配置为获取输入深度图像和输入强度图像，以及利用该模型，基于输入深度图像和输入强度图像得出在图像质量方面优于输入深度图像的估计深度图像。

根据再一个实施例，提供一种信息处理方法，包括获取解析稀疏表示模型的参数的步骤，其中该模型对彼此具有像素对应关系的第一深度图像、第二深度图像和强度图像之间的关系进行建模，其中第二深度图像在图像质量方面优于第一深度图像，并且该参数是通过基于训练图像进行的训练过程而得出的。该方法还包括获取输入深度图像和输入强度图像的步骤，以及利用该模型，基于输入深度图像和输入强度图像得出在图像质量方面优于输入深度图像的估计深度图像的步骤。

根据本发明的实施例，能够获得表示深度图像和强度图像之间的复杂关系的模型，从而能够更准确地进行导引深度图像恢复。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1是示出根据本发明一个实施例的信息处理设备的配置示例的框图；

图2是示出根据本发明一个实施例的信息处理方法的过程示例的流程图；

图3是示出根据本发明另一个实施例的信息处理设备的配置示例的框图；

图4是示出根据又一个实施例的信息处理设备的配置示例的框图；

图5是示出根据再一个实施例的信息处理设备的配置示例的框图；

图6是示出根据又一个实施例的信息处理设备的配置示例的框图；

图7是示出根据本发明另一个实施例的信息处理方法的过程示例的流程图；

图8是示出根据本发明一个实施例的信息处理设备的配置示例的框图；

图9是示出根据本发明另一个实施例的信息处理设备的配置示例的框图；

图10是示出实现本公开的方法和设备的计算机的示例性结构的框图；

图11是用于说明根据本发明实施例所涉及的模型的训练阶段与测试阶段的过程示例的示意图；

图12是用于说明根据本发明一个实施例的分级的引导深度图像恢复过程的示意图；

图13A至图13D示出了通过根据本发明示例实施例的方案得到的分辨率提升效果的示例；以及

图14A至图14D示出了通过根据本发明示例实施例的方案得到的空洞填充效果的示例。

具体实施方式

下面将参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

在描述本发明的具体实施例之前，首先参照图11对总体方案进行简要描述。如图11所示，所提出的方案涉及训练阶段1110和测试阶段1120。在训练阶段中，基于已知的低质量训练深度图像1112、训练强度图像1114以及高质量训练深度图像1118进行训练过程，以得到对低质量训练深度图像1112、训练强度图像1114以及高质量训练深度图像1118之间的参数化关系进行建模的模型，即参数化关系公式化1116。训练过程得到的结果可以包括该模型的参数。在测试阶段1120(即对训练出的模型进行应用的阶段)，利用在训练阶段得到的参数，通过估计函数1126从低质量深度图像1122和强度图像1124得出高质量深度图像1128。其中，低质量深度图像1122和强度图像1124例如包括RGB-D数据，其可以是在测试阶段实时拍摄的，也可以来自预先存储的文件。这里，“低质量”例如包括低分辨率、高噪声或较多的空洞等。相应地，“高质量”例如包括高分辨率、低噪声或较少的空洞等。

还需要指出，训练阶段和测试阶段可以由同一设备执行，也可以分别由不同的设备执行。在由不同的设备执行的情况下，例如，训练阶段可以由设备制造方在设备制造阶段执行，测试阶段可以在用户侧执行。

信息处理设备例如可以被实现为个人计算机(例如桌上型计算机、膝上型计算机等)、工作站、游戏机(例如体感游戏机)、电视机、移动终端(诸如智能电话、平板计算机、便携式游戏终端等)或者摄像装置(例如摄像机、监视器)等。然而，本发明实施例的应用范围不限于以上列举的方面，而是可以用于任何能够获取强度图像和深度图像的设备，或者与够能获取强度图像和深度图像的设备通信耦合或电气耦合以对深度图像和强度图像进行处理的设备。

图1示出了根据本发明一个实施例的信息处理设备100的配置示例。根据该实施例的信息处理设备对应于上述训练过程，即基于训练图像获得模型参数的过程，并且信息处理设备100可以实现为制造方设备或者用户设备。

如图1所示，根据本实施例的信息处理设备100包括处理电路110。处理电路110例如可以实现为特定芯片、芯片组或者中央处理单元(CPU)等。

处理电路110包括获取单元111、训练单元113和输出单元115。需要指出，虽然附图中以功能块的形式示出了获取单元111、训练单元113和输出单元115，然而应理解，获取单元111、训练单元113和输出单元115的功能也可以由处理电路110作为一个整体来实现，而并不一定是通过处理电路110中分立的实际部件来实现。另外，虽然图中以一个框示出处理电路110，然而信息处理设备100可以包括多个处理电路，并且可以将获取单元111、训练单元113和输出单元115的功能分布到多个处理电路中，从而由多个处理电路协同操作来执行这些功能。

获取单元111被配置为获取彼此具有像素对应关系的第一深度图像、第二深度图像和强度图像，其中第二深度图像在图像质量方面优于第一深度图像。在下文中，第一深度图像也可以被称为低质量深图像，第二深度图像也可以被称为高质量深度图像。

深度图像和强度图像之间的像素对应关系是指，强度图像中的特定像素与深度图像中相应像素均对应于同一时刻拍摄的同一目标区域。其中，强度图和深度图之间的像素对应关系可以通过摄像机标定(camera calibration)技术确定，而同一时刻采集例如可以通过硬件同步电路来保证。强度图像和高质量深度图像例如是由强度图像拍摄装置和高质量深度图像拍摄装置获取的。

低质量深度图像可以是通过在图像质量方面对高质量深度图像进行劣化处理获得的。

如前面已经提到的，图像质量例如可以包括分辨率、空洞水平、以及噪声水平中的一个或更多个。相应地，可以通过对高质量深度图像进行分辨率、空洞水平或噪声水平方面劣化处理来获得相应的低质量深度图像。

以下分别给出在分辨率、空洞水平、以及噪声水平方面进行劣化处理来生成低质量深度图像的示例方式的描述：

(1)分辨率

给定强度图像(例如RGB图像)和其相应的高分辨率深度图像，分别从强度图像和高分辨率深度图像中相应地提取多个图像块(例如每个图像块具有72×72像素)，并且通过对深度图像的每个图像块进行下采样以得到低分辨率图像块。强度图像块和相应的低分辨率深度图像块可以作为训练图像数据集合，这些训练图像可以用于确定相应模型的参数，以用于深度图像分辨率提升。

(2)空洞水平

深度图的空洞是指深度图中深度值缺失的部分，空洞水平高意味着深度图中缺少深度值的部分较多。

给定强度图像和其相应的深度图像，分别从强度图像和深度图像中相应地提取多个图像块(例如每个图像块具有72×72像素)，并且通过将深度图像块中的某些部分的深度值设置为空(null)来产生空洞。强度图像块和相应的生成了空洞的深度图像块可以作为训练图像数据集合，这些训练图像可以用于确定模型的参数，以用于深度图像空洞填充。

(3)噪声水平

给定强度图像和其相应的深度图像，分别从强度图像和深度图像中相应地提取多个图像块(例如每个图像块具有72×72像素)，并且在深度图像块中生成特定类型的噪声(例如白高斯噪声)。强度图像块和相应的生成了噪声的深度图像块可以作为训练图像数据集合，这些训练图像可以用于确定模型的参数，以用于例如针对相应类型噪声的深度图像降噪。

应理解，本发明不限于以上示例中的具体细节，而是可以根据具体的应用和需要选择具体的设置。

另外，低质量深度图像和高质量深度图像也可以是分别通过具有不同配置的图像获取设备获取的，其中，具有不同配置的图像获取设备可以是具有不同图像获取质量的不同设备，也可以是采用不同参数设置(例如不同的分辨率设置等)的同种设备。

例如，在采用不同设备获取不同质量的深度图像时，可以使用经标定的不同摄像装置同时分别获得高质量图像和低质量图像。另外，在拍摄对象为静态的情况下，可以用同一拍摄装置获得高质量图像和低质量图像。例如，可以通过图像拍摄装置拍摄强度图像和高(或低)质量深度图像，并且在改变图像拍摄装置的配置之后再获得低(或高)质量深度图像。

在获取了作为训练图像的第一深度图像、第二深度图像和强度图像的情况下，训练单元113被配置为基于第一深度图像、第二深度图像和强度图像进行训练过程，以得出解析稀疏表示模型的参数。其中，该模型对第一深度图像、第二深度图像和强度图像之间的关系进行建模。换句话说，所训练的模型能够用于根据强度图像和低质量深度图像来恢复高质量深度图像。

解析稀疏表示模型(Analysis sparse representation model)具有对复杂局部结构进行建模的能力，其已经被成功地应用于单一自然图像恢复(single natural imagerestoration)问题，例如基于强度图像来恢复强度图像。

另外，先前提到的基于字典学习的方法利用的是合成稀疏表示模型(Synthesissparse representation model)。与此不同，在本实施例的训练过程中所要得出的是解析稀疏表示模型的参数。这里对合成稀疏表示模型和解析稀疏表示模型进行简要说明，以便于理解两者的区别。合成稀疏表示模型假设信号x可以表示为从字典D中选出的少量原子(atom)的线性组合，即x＝Dα(其中α是稀疏的)，而解析稀疏表示模型通过乘法操作生成表示系数并且假设系数是稀疏的，即β＝Px(其中β是稀疏的)。字典学习的方法通过要求几组图像间有共同的表达系数，对多组图像进行建模。本发明实施例基于解析表示模型,即通过滤波器作用在信号上的响应Px(其中P表示滤波器)对图像进行建模，其与字典学习方法具有本质不同。接下来，继续对本发明实施例进行说明。

引导深度图像恢复利用强度图像的引导来进行深度图像的恢复，相应地，该模型中需要引入强度图像的局部结构信息。该模型可以包含用于根据强度图像来生成权重的权重生成函数。更具体地，该权重生成函数可以用于基于强度图像中的结构信息来影响深度滤波响应的正则化。

根据一个实施例，该模型可以包括保真项与一个或更多个正则项之和，其中每个正则项包括各自的罚函数和各自的权重生成函数。例如，该模型可以具有下式的形式：

min_xE(x)＝Γ(x,y)+∑_i<w_i(g；β_i),ρ_i(P_ix；α_i)>, 式(1)

其中，x表示高质量深度图像，y表示低质量深度图像，g表示强度图像(也可以称为引导图像)，Γ(x,y)表示保真项，i为正则项下标，<,>表示内积，w_i表示权重生成函数，β_i为权重生成函数的参数，ρ_i表示罚函数，P_ix表示滤波器响应，α_i为罚函数ρ_i的参数。

训练单元113所要得出的参数可以包括每个权重生成函数的参数以及每个罚函数的参数。对于式(1)表示的模型，所要得出的参数可以包括与权重生成函数w_i的参数β_i以及罚函数ρ_i的参数α_i。

接下来，以具有式(1)的示例形式的模型为例说明训练单元113基于训练图像进行训练过程以得出解析稀疏表示模型的参数的示例过程。应理解，以下示例中给出的具体形式和细节仅是说明性的而非限制性的。

在式(1)中，保真项Γ(x,y)描述从高质量深度图像x到低质量深度图像y的退化，权重w_i是与强度图像g的每个像素相关联的列矢量，权重w_i由参数β_i控制。ρ_i(P_ix)是通过逐点地将罚函数ρ_i(·)应用于滤波器相应P_ix而得到的列矢量。其中P_i是高度稀疏矩阵，其可以实现为图像x与滤波器核p_i的二维卷积，即

接下来，更详细地说明保真项Γ(x,y)、罚函数ρ_i(P_ix)以及权重生成函数w_i(g；β_i)的更具体的示例形式。

如前所述，保真项Γ(x,y)反映低质量深度图像y与高质量深度图像x之间的退化模型。以前面描述过的分辨率提升(上采样)和空洞填充的应用为例，保真项Γ(x,y)可以具有以下式(2)表示的形式：

其中，M为对角矩阵，τ与保真力的强度有关。例如，对于分辨率上采样应用，M的对角元素指示高质量深度图像x与低质量深度图像y间的对应点。在空洞填充应用的情况下，M可以是二值矩阵，其仅控制观察点之间的差。

已有对滤波器响应使用稀疏罚函数以提升分段光滑输出的方法(例如参见文献[1]：“Rudin,L.I.,Osher,S.,Fatemi,E.:Nonlinear total variation based noiseremoval algorithms.Physica D:Nonlinear Phenomena,1992”以及文献[2]：“Roth,S.,Black,M.J.:Fields of experts.International Journal of Computer Vision,2009”)。然而，这些方法中采用的手动设置的罚函数不能很好地对深度图像和强度图像之间的复杂关系进行建模。

相比之下，根据本发明实施例的方案，对分线性罚函数ρ_i(·)进行参数化，并且根据训练数据来学习出该罚函数，能够改进对深度图像和强度图像之间的复杂关系进行建模。

具体地，可以将模型表示为罚函数的一阶导，即φ_i(·)＝ρ_i′(·)，为了能够对深度图像与强度图像之间的复杂关系进行建模，可以使用M个高斯径向基(RBF)来拟合函数φ_i(·)：

其中μ_j为第j个RBF核的中心，γ_j为第j个缩放因子，α_i,j为对应的拟合系数。不同的拟合系数对应不同的罚函数，训练过程中通过不断更新α，得到最优的罚函数。这种形式是非常灵活的，其使得能够对深度图像与强度图像之间的复杂关系进行建模。

在上述示例模型中，引入了权重生成函数w_i(g；β_i)以基于强度图像中的结构信息来引导深度滤波相应的正则化。尽管强度图像和深度图像基于同一场景并且具有某种结构依赖关系，然而强度图像和深度图像的值具有不同的物理意义。权重函数应该能够避免这种与结构无关的强度信息，同时提取有助于定位深度图像中的边缘的结构信息。

可以通过以下式(4)所表示的函数来根据强度图像g生成加权图：

其中，W_i(m,n)是加权图中位置(m,n)处的权值，

R_m,n表示提取图像g中位置(m,n)处的局部图像块的操作，β_i表示提取结构特征的相应线性滤波器，通过对归一化后的强度图像块e_m,n中各点进行线性加权提取强度图像中的结构信息。利用对强度图像的局部归一化操作来避免不同强度大小的影响。式(4)中的函数形式W_i(m,n)＝exp(-(·)²)使得加权函数是关于滤波响应变化剧烈的阶跃偶函数，其有助于使加权图关注于强度图像中的结构变化而非强度值的变化。

通过利用上述式(2)至(4)表示的示例函数，能够根据训练数据来学习出参数，例如{α_i,β_i,p_i}。其中α_i为控制罚函数ρ_i(·)的具体形式的参数，β_i为控制加权函数w_i的形式的参数，p_i为第i个滤波器。

然而，本领域技术人员能够明白，本发明不限于以上示例中给出的具体函数形式和参数。加权图生成函数W_i(m,n)可以为以强度图g为输入，参数为β的非负函数，通过参数β提取强度图中的局部结构信息，其可以具有多种具体函数形式，例如<β_i,e_m,n>²等。根据具体应用，可以采用不同的函数形式，并且根据训练数据得出相应的参数。

输出单元115被配置为输出所得出的参数。例如，所输出的参数可以被提供给并且存储在用户设备中，从而用户设备能够利用该参数进行深度图像优化处理。

如前所述，可以在不同的图像质量方面对深度图进行优化，相应地，训练单元113可以被配置为利用不同的训练图像集合来分别得出针对不同图像质量优化的模型参数。

相应地，根据一个实施例，训练单元113被配置为针对多个图像质量方面中的每个，分别利用相应的损失函数以得出相应的参数。这种训练方式可以被称为任务驱动训练方式，而所得出的模型参数可以被称为特定于任务的参数。

换句话说，假设存在S组训练样本(分别对应于S种不同图像质量方面的优化)

其中y^(s)表示低质量图像，

表示高质量图像，可以通过由下式表示的任务驱动训练方式来得出模型参数：

其中，广义函数

表示使用所提出的模型，使用输入数据y^(s)和模型参数θ生成估计图像

的过程。使用特定于任务(例如分辨率提高、空洞填充、降噪等)的高质量图像

和与参数有关的估计图像

之间的损失函数

来学习针对特定任务的最佳参数θ。

此外，式(5)表示的加权系数表示模型有可能导致具有多个参数{α_i,β_i,p_i}_i＝1…N的非凸最小化问题。为了便于该问题的求解，根据一个实施例，训练单元113所进行的训练过程可以包括分级训练过程。相应地，输出单元115可以被配置为输出通过每级训练过程得到的参数。

在分级训练过程中，通过每一级的训练可以得出一组相应的参数。此外，根据一个实施例，通过每级训练过程得到的参数还可以包括与该级训练过程的估计可靠度有关的参数。

仍以前面参照式(1)至(4)描述的模型为例对分级训练过程进行说明。

根据一个示例实施例，可以通过梯度下降方法求解上述式(1)，其中每个分级操作可以由下式表示：

其中，t为表示级的下标，w_t,i是第t级中的第i个权重生成函数，diag(w_t,i)是对角元为矢量w_t,i的方阵，x_t是x在第t-1级的估计结果，

为保真项的导数，

表示对滤波器执行水平上下翻转后的滤波操作，函数φ_t,i为罚函数ρ_i的导数。

在保真项具有前面的式(2)的示例形式的情况下，使(6A)可以进一步表示为：

其中，τ_t表示与该级训练过程的估计可靠度有关的参数。

可以使用平方误差来度量当前估计与真实值之间的损失。因此，可以如以下式(7)所示地以贪婪方式学习分级参数：

可以通过链式法则来计算损失函数关于参数{τ_t,α_t,i,β_t,i,p_t,i}的梯度。通过若干步的操作，能够得到很好的结果。

以上描述了与训练阶段有关的信息处理设备的示例实施例，其中，将引导深度图像恢复问题表示为加权解析表示模型，在训练阶段基于训练数据得出模型的参数。另外，根据一些实施例，参数可以包括与特定任务有关的参数。这些参数被输出以用于相应的深度图恢复过程。此外，为了便于求解该模型，在一些实施例中，可以以迭代方式进行求解，其中根据训练数据学习分级模型参数。

在对以上信息处理设备的实施例的描述过程中，显然也公开了一些方法和过程，接下来在不重复前面已经描述过的细节的情况下，给出对根据本发明一个实施例的信息处理方法的说明。

图2示出了根据一个实施例的信息处理方法的过程示例。该方法对应于前述训练阶段，用于得出系数表示模型的参数。

在S210，获取彼此具有像素对应关系的第一深度图像、第二深度图像和强度图像，其中第二深度图像在图像质量方面优于第一深度图像。

在S220，基于第一深度图像、第二深度图像和强度图像进行训练过程，以得出解析稀疏表示模型的参数，其中该模型用于对第一深度图像、第二深度图像和强度图像之间的关系进行建模。

在S230，输出所得出的参数。

以上描述了与训练阶段有关的实施例的信息处理设备和信息处理方法。接下来，说明与测试(应用)阶段有关的实施例。如前所述，测试阶段也可以由进行训练阶段的设备执行。或者，测试阶段可以另外的设备执行。例如，测试阶段可以在用户侧执行。相应地，进行测试阶段的信息处理设备可以包括用户设备，例如个人计算机(例如桌上型计算机、膝上型计算机等)、工作站、游戏机(例如体感游戏机)、电视机、移动终端(诸如智能电话、平板计算机、便携式游戏终端等)或者摄像装置(例如摄像机、监视器等)等。

如图3所示，根据一个实施例的信息处理设备300包括处理电路310。处理电路310例如可以实现为特定芯片、芯片组或者CPU等。

处理电路310包括第一获取单元311、第二获取单元313和得出单元315。需要指出，虽然附图中以功能块的形式示出了各单元，然而应理解，上述单元的功能也可以由处理电路310作为一个整体来实现，而并不一定是通过分立的实际部件来实现。另外，虽然图中以一个框示出处理电路310，然而信息处理设备300可以包括多个处理电路，并且可以将个单元的功能分布到多个处理电路中，从而由多个处理电路协同操作来执行这些功能。

第一获取单元311被配置为获取解析稀疏表示模型的参数，其中该模型对彼此具有像素对应关系的第一深度图像、第二深度图像和强度图像之间的关系进行建模，其中第二深度图像在图像质量方面优于第一深度图像，并且该参数是通过基于训练图像进行的训练过程而得出的。

例如，该参数是通过根据前面描述的训练阶段的实施例的方式得出的，第一获取单元311可以例如从存储介质中获取预先存储参数。

第二获取单元313被配置为获取输入深度图像和输入强度图像。与作为训练图像的上述第一深度图像、第二深度图像以及强度图像不同，输入深度图像和输入强度图像例如可以是在用户侧获取的图像。输入深度图像例如是由用户侧的深度图像获取装置获得的在图像质量方面需要提升的深度图像。

得出单元315被配置为利用该模型，基于输入深度图像和输入强度图像，得出在图像质量方面优于输入深度图像的估计深度图像。

由于根据第一获取单元311所获取的参数而确定的模型能够较好地表示深度图像和强度图像之间的复杂关系，从而得出单元315能够更准确地进行导引深度图像恢复，以提高第二获取单元313所获取的深度图像的质量。

此外，根据一个实施例，第一获取单元311所获取的参数可以包括通过分级训练过程得出的参数，即，该参数可以包括通过每级训练过程得到的参数。此外，根据一个实施例，第一获取单元311所获取的通过每级训练过程得到的参数可以包括与该级的训练结果的可靠度有关的参数。相应地，得出单元315可以被配置为根据每级训练过程得到的参数，通过分级过程得出高质量深度图像。

接下来，结合具体示例说明得出单元315得出估计深度图像的过程。在以下示例中，采用与前面针对训练阶段的实施例给出的示例中的符号相应的符号，并且省略对某些细节的重复说明。

在以下示例中，假设由第一获取单元311获取了通过分级训练过程的到的参数，例如{τ_t,α_t,i,β_t,i,p_t,i}，并且得出单元315以分级方式得出估计深度图像的过程。然而，在第一获取单元311获取了模型的非分级的参数集合例如{α_i,β_i,p_i}的情况下，得出单元315可以利用由参数集合确定的模型以非分级的方式直接得出估计深度图。

用y表示由第二获取单元313获取的输入深度图像，用x表示得出单元315得出的估计深度图像，通过由以下式(8)表示的方式通过分级的方式得出估计深度图，

也就是说，在第1级，利用与第1级相对应的参数，基于输入深度图像和输入强度图像得出第1级的估计深度图像，其中将x初始设置为等于y，即x₀＝y；

在第t级，利用与第t级相对应的参数，基于输入深度图像、输入强度图像以及在第t－1级得出的估计深度图像(x_t)得出第t级的估计深度图像(x_t+1)；

在第t+1级，利用与第t+1级相对应的参数，基于输入深度图像、输入强度图像以及在第t级得出的估计深度图像(x_t+1)得出第t+1级的估计深度图像。

在上述过程中，输入强度图像的影响被包含在权重w_t,i中，具体可参见前面的式(4)及其说明。另外，上述示例中的式(8)可以作为前面参照图11说明的估计函数1126的一个示例。

图12示意性地示出了一个级中的处理。在第t级中：首先对滤波器响应{p_t, _ix_t}_i＝1...N应用一组分线性函数；然后，根据引导强度图像生成加权图以引入场景的局部结构信息；最后，将不同的分量进行组合以得到新的深度图估计x_t+1，x_t+1为当前估计x_t的增强版本。

此外，根据一个实施例，第一获取单元311获取的参数可以包括针对多个图像质量方面中的每个分别进行的训练过程而得出的参数。该参数例如包括根据前面描述的任务驱动训练方式得出的特定于任务的参数。

相应地，得出单元315可以被配置为特定于任务的深度图优化，即，利用根据相应参数确定的模型，得出在相应图像质量方面优于输入深度图像的估计深度图像。

接下来，以深度图像超分辨率应用和深度图像空洞填充应用作为示例，描述示例实施例的深度图像优化的效果。以下示例中的具体参数设置仅是说明性的而非限制性的。

(1)深度图像超分辨率应用

在该示例实施方式中，训练数据集合是通过选择米德尔堡数据集合(Middleburydata set，参见文献[3]：“Hirschmuller,H.,Scharstein,D.:Evaluation of costfunctions for stereo matching.In:Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2007”)中的18的深度图像强度图像对并且提取250个72x72像素的小图像作为训练数据集合。使用高质量数据集合生成了低分辨率深度图像。为了测试不同的缩放因子，高分辨率深度图像被下采样至36x36、18x18以及9x9。然后，以缩放因子2、4和8进行了训练过程。其中，针对缩放因子2、4和8分别设置了分级数量4、5和6。

训练得到的模型被应用于米德尔堡数据集合中的未在训练集合中使用的剩余的三个数据集合(艺术(Art)、书(Books)、莫比乌斯(Moebius))来提升深度图像的分辨率。

图13A至图13D用于示出通过上述示例方式得到的分辨率提升的效果。其中图13A示出了强度图像及其局部区域；图13B示出了高分辨率深度图像及相应局部区域；图13C示出了低分辨率深度图像(通过双线性内插法得到)及相应局部区域；图13D示出了通过示例实施方式得到的分辨率提升的深度图像及相应局部区域。可以看出，与低分辨率深度图像相比，根据示例实施方式得到的分辨率提升很好地恢复了深度图像。

(2)深度图像空洞填充应用

在本示例实施方式中，采用与深度图像超分辨率应用的示例实施方式相同的训练数据，并利用根据本示例实施例的方式训练了空洞填充模型，以使低质量深度图像中的空洞最小化。采用了非平衡采样方法来生成训练图像和测试图像中的空洞，其中在边缘区域出现空洞的概率更高。

图14A至图14D用于示出通过上述示例方式得到的空洞填充的效果。其中图14A示出了强度图像及其局部区域；图14B示出了低质量(即，包含空洞的)深度图像及相应局部区域；图14C示出了高质量深度图像及相应局部区域；图14D示出了通过示例实施方式得到的空洞填充后的深度图像及相应局部区域。可以看出，与低质量深度图像相比，根据示例实施方式得到的空洞填充很好地恢复了深度图像。

另外，根据一些实施例，信息处理设备可以包括图像获取装置。并且，第二获取单元313获取的深度图像和强度图像例如可以是由图像获取装置实时获取的图像。

图4示出了根据一个实施例的信息处理设备的配置示例。如图4所示，信息处理设备400包括处理电路410，处理电路410包括第一获取单元411、第二获取单元413和得出单元415。信息处理设备400还包括图像获取装置420，被配置为获取对象的深度图像和强度图像以作为输入深度图像和输入强度图像。第二获取单元413从图像获取装置420获取输入深度图像和输入强度图像。除此之外，第一获取单元411、第二获取单元413和得出单元415的其他方面的配置与前面参照图3说明的相应单元类似，因此在此省略其重复说明。

图像获取装置420例如可以包括RGB-D数据采集装置，其包括深度图像拍摄装置如深度传感器以及强度图像拍摄装置如彩色摄像机。其中，彩色摄像机例如能够采集连续的彩色图像序列，可以是市面上任意一款摄像机；深度传感器负责采集连续的深度图序列，可以是类似Kinect的结构光深度获取设备，也可以是ToF摄像机。

图像获取装置420能提供同一时刻采集到的具有像素对应关系的深度图和强度图。其中，强度图和深度图之间的像素对应关系可以通过摄像机标定技术确定，而同一时刻采集例如可以通过硬件同步电路来保证。RGB-D数据采集模块的输出，是同步的彩色图和深度图序列，也称为RGB-D序列或者RGB-D数据流。

此外，根据一个实施例，成像的对象可以包括人，并且信息处理设备可以通过对象识别来实现人机接口的功能，例如用于不需要控制器(controller-free)的人机交互接口。此外，作为人机接口的应用示例包括但不限于：FaceShift(脸部捕捉)是基于深度数据对人脸进行解析，然后把人的表情转移到虚拟角色上的一款产品；例如Xbox 360的体感游戏机能够基于深度数据对人的动作进行解析和识别，实现对游戏角色动作的控制；智能电视上可以集成手势识别的算法，用于帮助用户控制电视。本发明的涉及人机接口的实施例可以与此类示例应用结合，通过提高深度图像的质量来进一步提高上述应用的效果。

如图5所示，根据本实施例的信息处理设备500包括处理电路510以及图像获取装置520。处理电路510包括第一获取单元511、第二获取单元513、得出单元515、识别单元517以及生成单元519。其中，第一获取单元511、第二获取单元513、得出单元515以及图像获取装置520的配置与前面描述的实施例类似，在此省略其重复说明。

识别单元517被配置为基于由图像获取装置520获取的输入强度图像和/或由得出单元517得出的估计深度图像，识别例如作为成像对象的人的表情、动作或手势等。

可以基于模式识别领域中已知的技术如深度神经网络等实现识别单元517的识别处理。

生成单元519可以被配置为基于识别单元517所识别出的表情、动作(例如包括人身体的部分或整体的动作)或手势生成相应的操作指令。

此外，除了人机接口功能之外，根据本发明实施例的深度图像处理还可以用于三维图像重建。

如图6所示，根据一个实施例的信息处理设备600包括处理电路610，处理电路610包括第一获取单元611、第二获取单元613、得出单元615以及重建单元617。第一获取单元611、第二获取单元613以及得出单元615的配置与前面描述的实施例类似，在此省略其重复说明。

重建单元617被配置为基于第二获取单元613所获取的输入强度图像和/或得出单元615所得出的估计深度图像，进行对象的三维重建过程。

例如，三维重建过程可以包括深度融合(depth fusion)和/或纹理映射(Texturemapping)。

纹理映射是指把对象的纹理特征设置到的三维模型的相应位置上，纹理特征例如包括色彩、光照、表面结构的细致变化等，以使得三维模型表面的效果更真实。

如果给定的深度图序列是在不同角度下对某个物体或者场景拍摄所得的，那么通过深度融合技术可以获得这个物体或者场景的三维模型。深度图的融合需要知道每个深度图在拍摄时候的姿态。如果连续两帧深度图的姿态区别不大，那么可以先通过迭代最近点(Iterative closest point)方法从深度图中获取拍摄姿态，然后根据深度图对应的姿态将多张深度图融合为一个完整的三维模型。深度融合技术例如包括基于可见度(visiblity)的方法、基于总方差(total variance)的方法、基于概率的方法以及基于八叉树的方法等。

以上结合示例实施例说明了根据本发明实施例的信息处理设备及其示例应用。然而，本发明实施例可应用的方面不限于上述方面，而是可以包括各种与深度图像有关的应用领域。

图7示出了根据一个实施例的信息处理方法的过程示例。

在S710，获取解析稀疏表示模型的参数，其中该模型对彼此具有像素对应关系的第一深度图像、第二深度图像和强度图像之间的关系进行建模，其中第二深度图像在图像质量方面优于第一深度图像，并且该参数是通过基于训练图像进行的训练过程而得出的；

在S720，获取输入深度图像和输入强度图像；

在S730，利用该模型，基于输入深度图像和输入强度图像得出在图像质量方面优于输入深度图像的估计深度图像。

此外，本发明实施例还包括以下信息处理设备。

如图8所示，根据一个实施例的信息处理设备800包括：获取装置810，被配置为获取彼此具有像素对应关系的第一深度图像、第二深度图像和强度图像，其中第二深度图像在图像质量方面优于第一深度图像；训练装置820，被配置为基于第一深度图像、第二深度图像和强度图像进行训练过程，以得出解析稀疏表示模型的参数，其中该模型对第一深度图像、第二深度图像和强度图像之间的关系进行建模；以及输出装置830，被配置为输出所得出的参数。

如图9所示，根据另一个实施例的信息处理设备900包括：第一获取装置911，被配置为获取解析稀疏表示模型的参数，其中该模型对彼此具有像素对应关系的第一深度图像、第二深度图像和强度图像之间的关系进行建模，其中第二深度图像在图像质量方面优于第一深度图像，并且该参数是通过基于训练图像进行的训练过程而得出的；第二获取装置913，被配置为获取输入深度图像和输入强度图像；得出装置915，被配置为利用该模型，基于输入深度图像和输入强度图像得出在图像质量方面优于输入深度图像的估计深度图像。

作为示例，上述方法的各个步骤以及上述装置的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合。在通过软件或固件实现的情况下，可以从存储介质或网络向具有专用硬件结构的计算机(例如图10所示的通用计算机1000)安装构成用于实施上述方法的软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在图10中，运算处理单元(即CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM 1003中，也根据需要存储当CPU 1001执行各种处理等等时所需的数据。CPU 1001、ROM 1002和RAM1003经由总线1004彼此链路。输入/输出接口1005也链路到总线1004。

下述部件链路到输入/输出接口1005：输入部分1006(包括键盘、鼠标等等)、输出部分1007(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分1008(包括硬盘等)、通信部分1009(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1009经由网络比如因特网执行通信处理。根据需要，驱动器1010也可链路到输入/输出接口1005。可拆卸介质1011比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1010上，使得从中读出的计算机程序根据需要被安装到存储部分1008中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1011安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1002、存储部分1008中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明的实施例还涉及一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以用相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在上述实施例和示例中，采用了数字组成的附图标记来表示各个步骤和/或单元。本领域的普通技术人员应理解，这些附图标记只是为了便于叙述和绘图，而并非表示其顺序或任何其他限定。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，上述的所有实施例和示例均是示例性的，而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

Claims

1.一种信息处理设备，包括：

处理电路，被配置为

获取彼此具有像素对应关系的第一深度图像、第二深度图像和强度图像，其中所述第二深度图像在图像质量方面优于所述第一深度图像；

基于所述第一深度图像、所述第二深度图像和所述强度图像进行训练过程，以得出解析稀疏表示模型的参数，其中所述模型对所述第一深度图像、所述第二深度图像和所述强度图像之间的关系进行建模；以及

输出所得出的参数；

其中，所述像素对应关系是指强度图像中的特定像素与深度图像中相应像素均对应于同一时刻拍摄的同一目标区域；并且

所述模型包含用于根据所述强度图像来生成权重的权重生成函数，所述权重生成函数用于基于所述强度图像中的结构信息来影响深度滤波响应的正则化。

2.根据权利要求1所述的信息处理设备，其中，所述模型包括保真项与一个或更多个正则项之和，其中每个所述正则项包括各自的罚函数和各自的权重生成函数。

3.根据权利要求2所述的信息处理设备，其中，所述参数包括每个所述权重生成函数的参数以及每个所述罚函数的参数。

4.根据权利要求2所述的信息处理设备，其中，所述模型包括具有以下形式的目标函数：

min_xE(x)＝Γ(x,y)+∑_iw_i(g；β_i),ρ_i(P_ix；α_i),

其中，x表示所述第二深度图像，y表示所述第一深度图像，g表示所述强度图像，Γ(x,y)表示所述保真项，i为正则项下标，·,·表示内积，w_i表示所述权重生成函数，β_i为所述权重生成函数的参数，ρ_i表示所述罚函数，P_ix表示滤波器响应，α_i为所述罚函数的参数。

5.根据权利要求4所述的信息处理设备，其中，所述训练过程包括得出通过对所述目标函数计算梯度而得到的以下分级函数的每级的参数:

为保真项的导数，

6.根据权利要求1至4中任一项所述的信息处理设备，其中，所述训练过程包括分级训练过程，并且所述输出包括输出通过每级训练过程得到的所述参数，其中，通过每级训练过程得到的所述参数还包括与该级训练过程的估计可靠度有关的参数。

7.根据权利要求1至4中任一项所述的信息处理设备，其中，所述获取包括：

在所述图像质量方面对所述第二深度图像进行劣化处理，以获得所述第一深度图像；或者

分别通过具有不同配置的图像获取设备获取所述第一深度图像和所述第二深度图像。

8.根据权利要求1至4中任一项所述的信息处理设备，其中，所述训练过程包括：针对多个图像质量方面中的每个，分别利用相应的损失函数以得出相应的参数。

9.根据权利要求1至4中任一项所述的信息处理设备，其中，所述图像质量包括以下方面中的一个或更多个：

分辨率；

空洞水平；以及

噪声水平。

10.一种信息处理方法，包括：

基于所述第一深度图像、所述第二深度图像和所述强度图像进行训练过程，以得出解析稀疏表示模型的参数，其中所述模型用于对所述第一深度图像、所述第二深度图像和所述强度图像之间的关系进行建模；以及

输出所得出的参数；

11.一种信息处理设备，包括：

处理电路，被配置为

获取解析稀疏表示模型的参数，其中所述模型对彼此具有像素对应关系的第一深度图像、第二深度图像和强度图像之间的关系进行建模，其中所述第二深度图像在图像质量方面优于所述第一深度图像，并且所述参数是通过基于训练图像进行的训练过程而得出的；

获取输入深度图像和输入强度图像；

利用所述模型，基于所述输入深度图像和所述输入强度图像，得出在所述图像质量方面优于所述输入深度图像的估计深度图像

12.根据权利要求11所述的信息处理设备，其中，所述训练过程包括分级训练过程，所述参数包括通过每级训练过程得到的参数，并且，通过每级训练过程得到的所述参数包括与该级的训练结果的可靠度有关的参数。

13.根据权利要求12所述的信息处理设备，其中，所述处理电路被配置为通过以下分级估计过程得出所述估计深度图像：

在第1级，利用与第1级相对应的所述参数，基于所述输入深度图像和所述输入强度图像得出第1级的估计深度图像；以及

在第t+1级，利用与第t+1级相对应的所述参数，基于所述输入深度图像、所述输入强度图像以及在第t级得出的估计深度图像得出第t+1级的估计深度图像，其中t为自然数。

14.根据权利要求11所述的信息处理设备，其中，所述参数包括针对多个图像质量方面中的每个分别进行的训练过程而得出的参数。

15.根据权利要求11至14中任一项所述的信息处理设备，还包括：

图像获取装置，被配置为获取对象的深度图像和强度图像以作为所述输入深度图像和所述输入强度图像。

16.根据权利要求15所述的信息处理设备，其中，所述处理电路还被配置为：

基于所述输入强度图像和/或所述估计深度图像，识别表情、动作或手势。

17.根据权利要求16所述的信息处理设备，其中，所述处理电路还被配置为：基于所识别的表情、动作或手势生成相应的操作指令。

18.根据权利要求11至14中任一项所述的信息处理设备，其中，所述处理电路还被配置为：

基于所述输入强度图像和/或所述估计深度图像，进行对象的三维重建过程，其中所述三维重建过程包括深度融合和/或纹理映射。

19.一种信息处理方法，包括步骤：

获取输入深度图像和输入强度图像；

利用所述模型，基于所述输入深度图像和所述输入强度图像得出在所述图像质量方面优于所述输入深度图像的估计深度图像；