CN117274349A

CN117274349A - 基于rgb-d相机一致性深度预测的透明物体重建方法及系统

Info

Publication number: CN117274349A
Application number: CN202311235849.2A
Authority: CN
Inventors: 任博; 蔡宇翔; 朱一凡; 张海威
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2023-12-22

Abstract

本发明提供了一种基于RGB‑D相机一致性深度预测的透明物体重建方法及系统，获取RGB‑D相机的包含透明物体的RGB图像、深度图像和相机内参信息；利用透明物体分割网络，基于所述RGB图像，得到透明物体的掩码；将掩码应用在所述深度图像上，获取非透明物体区域的深度值，并利用相机内参信息获取该图像在三维空间的点云；基于掩码、RGB图像和三维空间点云，利用预先训练的一致性深度预测神经网络进行深度图像预测，得到恢复出的深度图像；基于所述恢复出的深度图像、RGB图像和相机内参信息，进行三维重建，得到最终结果。本发明可以对存在以透明物体为前景的场景进行准确重建。

Description

基于RGB-D相机一致性深度预测的透明物体重建方法及系统

技术领域

本发明属于计算机视觉技术领域和三维重建技术领域，具体涉及一种基于RGB-D相机一致性深度预测的透明物体重建方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

三维重建任务是指给定物体或者场景的部分视角下相机拍摄到的数据，重建出对应的物体或场景，现有方法可以通过使用RGB-D相机和SLAM算法进行场景的重建。

三维重建是计算机视觉，机器人，AR/VR等研究中的经典问题。现有的基于经典SLAM算法的三维重建方法有较长的研究历史，该类方法基于RGB-D图像，经过运动估计，多帧优化和建图来完成场景或者物体的重建。但该类方法无法处理存在缺陷的数据，即相机获取的深度图像存在误差时，该类算法无法重建出正确的结果。基于深度学习的深度估计算法研究历史较短，该类方法通过大量的数据利用神经网络的拟合能力，对输入的RGB图像获取深度值。然而已有的方法都只关注室内场景或者单张包含透明物体的图像，对于包含透明物体的连续数据无法给出多视角一致的深度估计。不一致的深度会在RGB-D重建中造成严重的重建错误。

综上，虽然现有重建的方法可以很好的处理常规的室内场景重建，但对于存在以透明物体为前景的场景，无法得到正确的结果。

发明内容

本发明为了解决上述问题，提出了一种基于RGB-D相机一致性深度预测的透明物体重建方法及系统，本发明可以对存在以透明物体为前景的场景进行准确重建。

根据一些实施例，本发明采用如下技术方案：

一种基于RGB-D相机一致性深度预测的透明物体重建方法，包括以下步骤：

获取RGB-D相机的包含透明物体的RGB图像、深度图像和相机内参信息；

利用透明物体分割网络，基于所述RGB图像，得到透明物体的掩码；

将掩码应用在所述深度图像上，获取非透明物体区域的深度值，并利用相机内参信息获取该图像在三维空间的点云；

基于所述掩码、RGB图像和三维空间点云，利用预先训练的一致性深度预测神经网络进行深度图像预测，得到恢复出的深度图像；

基于所述恢复出的深度图像、RGB图像和相机内参信息，进行三维重建，得到最终结果。

作为可选择的实施方式，所述深度图像为获取RGB图像的同时，获取当前视角下物体相对于相机的距离，表示为深度图像。

作为可选择的实施方式，利用透明物体分割网络，基于所述RGB图像，得到透明物体的掩码的具体过程包括利用语义分割数据集，以及预先分割好的包含透明物体RGB图像和和掩码的数据集训练预先构建的深度卷积神经网络，得到透明物体分割网络，将获取的RGB图像逐帧输入透明物体分割网络中得到逐帧的掩码。

作为可选择的实施方式，预测深度图像的步骤，包括：

利用相机内参和除去透明物体区域的深度信息，将图像投影为三维空间的点云；

使用金字塔结构的卷积神经网络从相邻的图像中分别提炼特征信息；

将场景的最大最小深度值划分为固定的个数，构成不同的深度空间，通过将每个空间下当前图像提炼的特征信息投影到相邻图像的坐标系中，得到融合有相邻帧图像信息的融合特征，将融合特征与点云特征进行拼接；

将拼接后的特征通过卷积神经网络输出概率，表示当前图像的真实深度值在每一个不同空间中的概率，通过累加函数叠加所述概率得到网络估计最终的深度值。

进一步的，三维空间的点云的计算过程包括：

P(u,v)＝(K^-1p)d

其中u,v分别代表图像坐标系下的横轴位置和纵轴位置，P(u,v)代表该位置计算得到的点云坐标，K^-1代表相机内参矩阵的逆，p代表图像坐标系下点的位置，d代表该点处的深度值，透明物体区域通过掩码的作用将深度值归0，其他区域保持不变。

进一步的，图像的特征提取部分表示为一个映射函数：

F＝Θ_F(C)

其中F为图像C的特征，Θ_F为由卷积神经网络构成的映射函数；

或，空间划分的公式为其中d_max,d_min是根据原始深度信息获取的深度最大和深度,L是人为定义的划分空间数目；

或，将当前图像投影到相邻图像的公式为：

其中p为投影坐标系和原始坐标系，d_l为每个空间的深度值，/>为李代数下的相邻图像位姿的变换矩阵，(K^-1p)d_l为当前深度空间下点云的坐标，将点云坐标的[X,Y,Z]，转化为[X,Y,Z,1]，即在最后一位补1，以对齐矩阵，特征的投影由特征图在投影坐标系的双线性插值插值构成。

作为可选择的实施方式，所述一致性深度预测神经网络的训练过程包括：利用软件模拟真实场景RGB-D相机拍摄透明物体的过程，记录每张图片的深度信息；

预测深度图像；

构建和真实深度值的损失函数，利用神经网络反向传播的机制训练深度预测网络。

进一步的，所述损失函数为：

其中表示深度的真实值和表面法向的真实值，α,β是设置的加权参数，和/>分别表示掩码区域的损失值和非掩码区域的损失值；

其中Θ_N用卷积神经网络组成的映射函数，分布表示第l个空间下的P(u+1,v)-P(u,v)和P(u,v+1)-P(u,v)，×表示向量外积；

D^*为累加的深度值，σ_l为概率，d_l为每个空间的深度值。

作为可选择的实施方式，进行三维重建的具体过程包括：对于输入的每帧数据，读取其相邻帧的数据，进行深度图像的预测，获取模型在当前帧的恢复数据并缓存结果用于下一帧的预测；

用当前帧恢复得到深度数据替换获取的原始深度数据，利用即时定位和地图构建技术重建场景。

一种基于RGB-D相机一致性深度预测的透明物体重建系统，包括：

获取模块，被配置为获取RGB-D相机的包含透明物体的RGB图像、深度图像和相机内参信息；

图像掩码计算模块，被配置为利用透明物体分割网络，基于所述RGB图像，得到透明物体的掩码；

点云计算模块，被配置为将掩码应用在所述深度图像上，获取非透明物体区域的深度值，并利用相机内参信息获取该图像在三维空间的点云；

深度图像预测模块，被配置为基于所述掩码、RGB图像和三维空间点云，利用预先训练的一致性深度预测神经网络进行深度图像预测，得到恢复出的深度图像；

三维重建模块，被配置为基于所述恢复出的深度图像、RGB图像和相机内参信息，进行三维重建，得到最终结果。

与现有技术相比，本发明的有益效果为：

本发明可以对包含透明物体的场景进行实时重建，通过神经网络中一致性约束结构，可以避免相邻帧之间预测的深度值不一致的问题，从而恢复出一个连续视角一致性的结果，进而重建出整个场景。

本发明先获取透明物体的掩码，再将掩码应用在原始的深度图像上获取非透明物体区域的深度值，使用相机内参和除去透明物体区域的深度信息将图像投影为三维空间的点云，从相邻的图像中分别提炼特征信息，构成不同的深度空间，通过将每个空间下当前图像提炼的特征信息投影到相邻图像的坐标系中，得到融合了相邻帧图像信息的融合特征，当前图像的真实深度值在每一个不同空间中的概率，通过累加函数叠加这些概率得到网络估计最终的深度值，特别针对于透明物体的特点，在点云计算、深度图像预测等过程中进行有针对性的设置，保证了能够适用于拍摄图像包含透明物体的场景中。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是一种实施例中的基于RGB-D相机一致性深度预测的透明物体重建方法的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

一种基于RGB-D相机一致性深度预测的透明物体重建方法，如图1所示，包括如下步骤：

通过“RealSense D435i RGB-D”手持相机，拍摄包含透明物体的场景的图片，在获取RGB图像的同时，通过传感器获取当前视角下物体相对于相机的距离，表示为深度图像。

通过预先相机标定，确定相机的内参信息，该信息是相机的固定属性，不会发生变化，可以直接应用在不同的场景的拍摄中。

使用开源的语义分割数据集，以及预先分割好的包含透明物体RGB图像和和掩码的数据集训练一个深度卷积神经网络。将拍摄到的RGB图像逐帧输入网络中得到逐帧的掩码。该步骤需要在系统算法之外预先处理。

进一步地，该网络输出的掩码有时不能正确的仅包含透明物体，但只要将透明物体包含在掩码为1的区域，后续的算法也可以预测其深度值。

根据本发明提供的一种基于RGB-D相机一致性深度预测的透明物体重建方法，所述的预测深度图像的步骤，包括：

使用相机内参和除去透明物体区域的深度信息将图像投影为三维空间的点云。

使用金字塔结构的卷积神经网络从相邻的图像中分别提炼特征信息。

将场景的最大最小深度值划分为固定的个数，构成不同的深度空间，通过将每个空间下当前图像提炼的特征信息投影到相邻图像的坐标系中，得到融合了相邻帧图像信息的融合特征，将融合的特征与点云的特征拼接得到。

将融合的特征通过卷积神经网络输出概率，表示当前图像的真实深度值在每一个不同空间中的概率，通过累加函数叠加这些概率得到网络估计最终的深度值。

进一步地，划分深度空间的个数由人为决定，较多的空间会让结果更加的准确，但也会带来更大的计算量，影响重建的实时性能。

根据本发明提供的一种基于RGB-D相机一致性深度预测的透明物体重建方法，所述的重建三维物体的步骤包括：

对于输入的每帧数据，读取其相邻帧的数据，根据权利要求4中所述的计算步骤，获取模型在当前帧的恢复数据并缓存结果用于下一帧的预测。用当前帧恢复出来深度数据替换相机采集的原始数据，使用经典SLAM框架ElasticFusion重建场景。

根据本发明提供的一种基于RGB-D相机一致性深度预测的透明物体重建方法，所述的三维空间的点云计算公式为：

P(u,v)＝(K^-1p)d

根据本发明提供的一种基于RGB-D相机一致性深度预测的透明物体重建方法，所述的图像特征提取，深度空间划分，概率计算和累加公式的具体表示如下：

将图像的特征提取部分表示为一个映射函数：

F＝Θ_F(C)

其中F为图像C的特征，Θ_F为由卷积神经网络构成的映射函数。

空间划分的公式为其中d_max,d_min是根据原始深度信息获取的深度最大和深度,L是人为定义的划分空间数目。

将当前图像投影到相邻图像的公式为：

其中p为投影坐标系和原始坐标系，d_l为每个空间的深度值，/>为李代数下的相邻图像位姿的变换矩阵。由于矩阵需要对齐，(K^-1p)d_l为当前深度空间下点云的坐标，由于需要对齐矩阵，将点云坐标的[X,Y,Z]，转化为[X,Y,Z,1]，即在最后一位补1。特征的投影由特征图在投影坐标系的双线性插值插值构成。

概率计算的公式为：

σ_l＝Softmax(Θ_P([F,Θ_D({p})]))

其中Θ_P为由卷积神经网络构成的映射函数，{p}表示上述当前图像的点云构成的集合，Θ_D为点云集合到点云特征的映射函数。[·]表示将该特征与投影的特征拼接。

使用每个空间的深度值和其概率，得到累加的深度值，公式为：

本实施例的SLAM重建包括如下步骤：

使用相邻图像深度信息计算得到的点云通过ICP算法计算目标差值函数，并同时加上使用RGB特征点匹配法计算得到的匹配差值，使用凸优化算法将该差值最小化从而求解出相机的相对运行，使用BA优化和位姿图优化的方法优化多帧连续的相机位姿，将每帧的图像利用相机位姿和相机内参投影到三维空间，将多帧的图像融合得到最终的重建结果。

进一步地，我们SLAM重建得到的结果并非是点云图，而是使用了面片的稠密重建结果。每个面片包含半径，法向量等信息，将面片的中心导出即可得到点云的重建结果。

需要进行说明的是，基于RGB-D相机一致性深度预测的透明物体重建方法是基于深度神经网络恢复场景的深度信息然后再实时进行重建的，重建的运行速度大致为15FPS，重建时需要预先训练网络，即使用真实的深度数据监督模型的训练。

根据本实施例提供的一种基于RGB-D相机一致性深度预测的透明物体重建方法，所述的训练网络时构建损失函数的方法为：

在构建损失函数时，模型需要额外的表面法向约束分支。其计算公式为

其中Θ_N用卷积神经网络组成的映射函数，分布表示第l个空间下的P(u+1,v)-P(u,v)和P(u,v+1)-P(u,v)，×表示向量外积。

模型最终的损失函数为：

其中表示深度的真实值和表面法向的真实值。α,β是人为设置的加权参数，和/>分别表示掩码区域的损失值和非掩码区域的损失值。

训练模型需要建立一个数据集用于测试本发明基于RGB-D相机一致性深度预测的重建方法，数据集包括20个合成场景和5个现实场景。由于显示场景的真实深度和模型不可知，所有的训练过程都建立在合成数据集上。

进一步地，合成数据集部分基于开源软件Blender构建数据集，三维模型采用现有技术公开的各种常见物品三维模型，放置在预设房间场景中央，渲染时使相机均匀环绕房间，相机摄像头始终朝向房间中央物体，渲染300-400张分辨率为640×480的图像。在渲染的20个场景中，划分出5个场景用于验证和指标对比，剩余的15个场景用于训练。

在一个实施例中，拍摄真实数据方法为，使用RGB-D相机进行拍摄，拍摄时使用常见透明物体如玻璃杯，玻璃花瓶等作为常规物体，尽可能在物体背后放一些平板的遮挡物，用于确定场景的深度边界；拍摄时将相机和物体保持一定的距离防止深度相机获取的背景深度值存在错误，同时围绕物体进行半圆周的环绕运动。

为证明本实施例提供的一种基于RGB-D相机一致性深度预测的重建方法，将目标最先进的透明物体深度预测方法(但仅考虑单张图像)的方法与本方法在自创的合成数据集上进行深度估计和三维重建的对比，其中三维重建的对比使用相通的重建算法，但是替换我们的深度预测算法为对应的方法，比较重建的结果。这些方法包括ClearGrasp(分别估计表面法向，遮挡边界，掩码)，LIDF(使用了一种隐式的深度函数来估计深度)，TransCG(使用编码器-解码器的结构)。

用于深度预测的对比的指标包括：

RMSE：预测深度值和真实深度值的均方根误差

REL：预测深度值和真实深度值的相对误差

MAE：预测深度值和真实深度值的平均绝对误差

Threshold 1.05/1.10/1.25：相对误差在1.05,1.10,1.25范围内像素点的百分比数目

用于三维重建的对比的指标包括：

Chamfer：倒角距离，如果该距离较大,则说明两组点云区别较大；如果距离较小,则说明重建效果较好。该指标用于衡量重建结果的精确程度。不过该指标无法在衡量尺度不同的重建结果时存在一定的局限性。

Prec，Recall，F-Score：通过在重建结果和真实结果上采样200k个点，计算点与点直接的距离，该距离和一个阈值进行比较，一般这个阈值被设置为5cm。通过匹配点找到预测模型和真实模型的对应点，定义预测模型小于阈值，真实模型也小于阈值为TP；预测模型小于阈值，真实模型大于阈值为FP；预测模型大于阈值，真实模型小于阈值为FN，预测模型大于阈值，真实模型大于阈值为TN。精确率为TP和TP+FP的比值，召回率为TP和TP+FN的比值，F值由精确率和召回率共同计算。

表1本实施例与现有先进方法在合成数据集上深度预测对比结果

表1为本实施例提供的基于RGB-D相机一致性深度预测的重建方法与其他方法在所有合成数据集上的深度预测指标的平均结果，该比较仅仅只考虑深度预测的指标，可以看到和真实值的数值指标对比上，我们的方法在大多数情况下都有更好的结果，但深度恢复的指标仅仅考虑单张图片的误差，在使用深度信息重建的时候，连续图片的深度一致性也十分重要，因此我们还进行了三维重建的误差的对比。

表2为本发明提供的基于RGB-D相机一致性深度预测的重建方法与其他方法在同一合成数据集上重建的指标的平均结果，由于LIDF方法没有提供对应的深度预测接口，重建结果对比中就忽略了它：

表2本实施例与现有先进方法在合成数据集上重建对比结果

方法	ClearGrasp	TransCG	本实施例的方法
				Chamfer↓	0.055	0.046	0.027
Prec↑	0.540	0.627	0.650
				Recall↑	0.580	0.651	0.721
F-Score↑	0.551	0.618	0.666

Chamfer↓表示倒角距离越小结果越精确，我们的方法在该指标上更小的结果表示我们重建的结果和真实结果平均误差更小，更加接近真实的结果的位置。但该方法对于模型的尺度比较敏感，小的场景本身也会得到一个较小的倒角距离，所以还需要基于点与点匹配的指标Prec，Recall，F-Score来评测。Prec↑，Recall↑F-Score↑表示该值越大越好，从这些指标我们方法更好的结果上可以看出，本发明提供的方法得到的模型整体形状更加的准确。

根据表1和表2可知，本实施例提供的一种基于RGB-D相机一致性深度预测的重建方法效果明显优于现有其他的技术方法。

在其他实施例中，上述参数的取值均可以根据情况进行修改或调整。

实施例二

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，本领域技术人员不需要付出创造性劳动所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于RGB-D相机一致性深度预测的透明物体重建方法，其特征是，包括以下步骤：

2.如权利要求1所述的一种基于RGB-D相机一致性深度预测的透明物体重建方法，其特征是，所述深度图像为获取RGB图像的同时，获取当前视角下物体相对于相机的距离，表示为深度图像。

3.如权利要求1所述的一种基于RGB-D相机一致性深度预测的透明物体重建方法，其特征是，利用透明物体分割网络，基于所述RGB图像，得到透明物体的掩码的具体过程包括利用语义分割数据集，以及预先分割好的包含透明物体RGB图像和和掩码的数据集训练预先构建的深度卷积神经网络，得到透明物体分割网络，将获取的RGB图像逐帧输入透明物体分割网络中得到逐帧的掩码。

4.如权利要求1所述的一种基于RGB-D相机一致性深度预测的透明物体重建方法，其特征是，预测深度图像的步骤，包括：

5.如权利要求4所述的一种基于RGB-D相机一致性深度预测的透明物体重建方法，其特征是，三维空间的点云的计算过程包括：

P(u,v)＝(K^-1p)d

6.如权利要求4所述的一种基于RGB-D相机一致性深度预测的透明物体重建方法，其特征是，图像的特征提取部分表示为一个映射函数：

F＝Θ_F(C)

或，将当前图像投影到相邻图像的公式为：

7.如权利要求1或4所述的一种基于RGB-D相机一致性深度预测的透明物体重建方法，其特征是，所述一致性深度预测神经网络的训练过程包括：利用软件模拟真实场景RGB-D相机拍摄透明物体的过程，记录每张图片的深度信息；

预测深度图像；

8.如权利要求7所述的一种基于RGB-D相机一致性深度预测的透明物体重建方法，其特征是，所述损失函数为：

其中表示深度的真实值和表面法向的真实值，α,β是设置的加权参数，/>和/>分别表示掩码区域的损失值和非掩码区域的损失值；

D^*为累加的深度值，σ_l为概率，d_l为每个空间的深度值。

9.如权利要求1所述的一种基于RGB-D相机一致性深度预测的透明物体重建方法，其特征是，进行三维重建的具体过程包括：对于输入的每帧数据，读取其相邻帧的数据，进行深度图像的预测，获取模型在当前帧的恢复数据并缓存结果用于下一帧的预测；

10.一种基于RGB-D相机一致性深度预测的透明物体重建系统，其特征是，包括：