CN114549765A

CN114549765A - 三维重建方法及装置、计算机可存储介质

Info

Publication number: CN114549765A
Application number: CN202210189237.3A
Authority: CN
Inventors: 鲍慊; 刘武; 孙宇; 梅涛; 周伯文
Original assignee: Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-05-27

Abstract

本公开涉及三维重建方法及装置、计算机可存储介质，涉及计算机技术领域。三维重建方法包括：获取待处理图像，所述待处理图像包括多个待重建对象；根据所述待处理图像，利用第一神经网络，确定所述每个待重建对象的初始三维形状与姿态参数；利用第二神经网络，对每个待重建对象的初始三维形状与姿态参数进行调整，得到所述每个待重建对象的目标三维形状与姿态参数；根据每个待重建对象的目标三维形状与姿态参数，确定与所述每个待重建对象对应的三维模型。根据本公开，可以提高三维重建的准确性。

Description

三维重建方法及装置、计算机可存储介质

技术领域

本公开涉及计算机技术领域，特别涉及三维重建方法及装置、计算机可存储介质。

背景技术

相关技术中，首先提取包括多个待重建对象的图像中的每个待重建对象的图像特征，然后对每个待重建对象的图像特征进行回归得到相应的三维形状与姿态参数，最后根据三维形状与姿态参数确定每个待重建对象的三维模型。

发明内容

单张图像中包括多个待重建对象的三维重建场景中，多个待重建对象之间通常会存在遮挡、拥挤等复杂情况，相关技术无法准确地进行这种场景的三维重建。

针对上述技术问题，本公开提出了一种解决方案，可以提高三维重建的准确性。

根据本公开的第一方面，提供了一种三维重建方法，包括：获取待处理图像，所述待处理图像包括多个待重建对象；根据所述待处理图像，利用第一神经网络，确定所述每个待重建对象的初始三维形状与姿态参数；利用第二神经网络，对每个待重建对象的初始三维形状与姿态参数进行调整，得到所述每个待重建对象的目标三维形状与姿态参数；根据每个待重建对象的目标三维形状与姿态参数，确定与所述每个待重建对象对应的三维模型。

在一些实施例中，确定所述每个待重建对象的初始三维形状与姿态参数包括：根据所述待处理图像，利用所述第一神经网络，提取每个待重建对象的图像特征；针对每个待重建对象，根据对应的图像特征，利用所述第一神经网络，确定所述每个待重建对象的初始三维形状与姿态参数；对每个待重建对象的初始三维形状与姿态参数进行调整包括：根据所述第一神经网络提取的每个待重建对象的图像特征及其确定的相应的初始三维形状与姿态参数，利用所述第二神经网络，对所述每个待重建对象的初始三维形状与姿态参数进行调整。

在一些实施例中，所述图像特征包括特征图，所述三维重建方法还包括：将所述每个待重建对象的初始三维形状与姿态参数投影到对应的特征图上，得到投影区域；针对每个待重建对象，基于预设采样范围，在相应的投影后的特征图上进行采样，得到采样特征，所述预设采样范围为所述投影区域及其周围的预设像素范围内的周围区域；其中，根据每个待重建对象的初始三维形状与姿态参数和图像特征，对所述每个待重建对象的初始三维形状与姿态参数进行调整包括：针对每个待重建对象，根据对应的采样特征和初始三维形状与姿态参数，利用所述第二神经网络，对所述每个待重建对象的初始三维形状与姿态参数进行调整，得到所述目标三维形状与姿态参数。

在一些实施例中，所述第二神经网络包括特征提取网络和回归网络，根据对应的采样特征和初始三维形状与姿态参数，利用所述第二神经网络，对所述每个待重建对象的初始三维形状与姿态参数进行调整，得到所述目标三维形状与姿态参数包括：针对每个待重建对象，根据对应的采样特征，利用所述第二神经网络的特征提取网络，确定目标特征向量；针对每个待重建对象，根据对应的初始三维形状与姿态参数和所述目标特征向量，利用所述第二神经网络的回归网络，确定所述目标三维形状与姿态参数。

在一些实施例中，所述第二神经网络的特征提取网络为多层感知器或者全连接神经网络。

在一些实施例中，对每个待重建对象的初始三维形状与姿态参数进行调整包括：根据所述多个待重建对象的初始参数信息，将所述多个待重建对象投影到同一个参考二维图像中；确定所述多个待重建对象在所述参考二维图像中的重叠率；在所述重叠率大于重叠率阈值的情况下，利用第二神经网络，对每个待重建对象的初始三维形状与姿态参数进行调整，得到所述目标三维形状与姿态参数。

在一些实施例中，所述重叠率为所述多个待重建对象在所述参考二维图像中的重叠面积占其在所述参考二维图像中的总面积的比例。

在一些实施例中，所述第一神经网络包括特征提取网络和回归网络，确定所述每个待重建对象的初始三维形状与姿态参数包括：根据所述待处理图像，利用所述第一神经网络的特征提取网络，提取每个待重建对象的图像特征；针对每个待重建对象，根据对应的图像特征，利用所述第一神经网络的回归网络，确定所述每个待重建对象的初始三维形状与姿态参数。

在一些实施例中，所述图像特征包括特征图，利用所述第一神经网络的回归网络，确定所述每个待重建对象的初始三维形状与姿态参数包括：针对每个待重建对象，确定相应特征图的特征向量；根据所述每个待重建对象所对应的特征向量，利用所述第一神经网络的回归网络，确定所述每个待重建对象的初始三维形状与姿态参数。

在一些实施例中，所述第一神经网络的特征提取网络为区域卷积神经网络或中心网络。

在一些实施例中，第一神经网络和第二神经网络为不同的神经网络。

根据本公开第二方面，提供了一种三维重建装置，包括：获取模块，被配置为获取待处理图像，所述待处理图像包括多个待重建对象；第一确定模块，被配置为根据所述待处理图像，利用第一神经网络，确定所述每个待重建对象的初始三维形状与姿态参数；调整模块，被配置为利用第二神经网络，对每个待重建对象的初始三维形状与姿态参数进行调整，得到所述每个待重建对象的目标三维形状与姿态参数；第二确定模块，被配置为根据每个待重建对象的目标三维形状与姿态参数，确定与所述每个待重建对象对应的三维模型。

根据本公开第三方面，提供了一种三维重建装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行上述任一实施例所述的三维重建方法。

根据本公开的第四方面，提供了一种计算机可存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上述任一实施例所述的三维重建方法。

在上述实施例中，可以提高三维重建的准确性。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是示出根据本公开一些实施例的三维重建方法的流程图；

图2是示出根据本公开一些实施例的三维重建方法的示意图；

图3是示出根据本公开一些实施例的三维重建装置的框图；

图4是示出根据本公开一些实施例的三维重建装置的框图；

图5是示出用于实现本公开一些实施例的计算机系统的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1是示出根据本公开一些实施例的三维重建方法的流程图。

如图1所示，三维重建方法包括步骤S1-步骤S4。

在步骤S1中，获取待处理图像。待处理图像包括多个待重建对象。

在步骤S2中，根据待处理图像，利用第一神经网络，确定每个待重建对象的初始三维形状与姿态参数。在一些实施例中，三维形状与姿态参数表征待重建对象的三维形状和姿态。例如，三维形状与姿态参数为SMPL(Skinned Multi-Person Linear，蒙皮多人线性)模型参数。以待重建对象为人体为例，形状参数控制人体的高矮胖瘦；姿态参数，一般用人体的24个关节点的旋转角来表示，姿态参数控制人体的姿态动作。

在一些实施例中，根据待处理图像，利用第一神经网络，提取每个待重建对象的图像特征。并针对每个待重建对象，根据对应的图像特征，利用第一神经网络，确定每个待重建对象的初始三维形状与姿态参数。图像特征表征了每个待重建对象的对象特征。例如，在待重建对象为人体时，图像特征表征了该人体的人体特征。在一些实施例中，图像特征包括特征图。

在一些实施例中，第一神经网络包括第一特征提取网络和第一回归网络。首先，根据待处理图像，利用第一神经网络的第一特征提取网络，提取每个待重建对象的图像特征。然后，针对每个待重建对象，根据对应的图像特征，利用第一神经网络的第一回归网络，确定每个待重建对象的初始三维形状与姿态参数。

以图像特征包括特征图为例，利用第一神经网络的第一回归网络，确定每个待重建对象的初始三维形状与姿态参数包括：针对每个待重建对象，确定相应特征图的特征向量；根据每个待重建对象所对应的特征向量，利用第一神经网络的第一回归网络，确定每个待重建对象的初始三维形状与姿态参数。例如，利用第一神经网络的特征向量化模块确定特征图的特征向量。

在一些实施例中，第一神经网络的第一特征提取网络为区域卷积神经网络(Region Convolutional Neural Networks，R-CNN)或中心网络(CenterNet)。

在步骤S3中，利用第二神经网络，对每个待重建对象的初始三维形状与姿态参数进行调整，得到每个待重建对象的目标三维形状与姿态参数。通过第一神经网络与第二神经网络级联，由第一神经网络进行初始处理，再由第二神经网络对初始处理的结果进行进一步优化调整，可以提高三维重建的准确性。

在一些实施例中，第二神经网络不同于第一神经网络。可以是参数不同，也可以是网络结构不同。

在一些实施例中，根据第一神经网络提取的每个待重建对象的图像特征及其确定的相应的初始三维形状与姿态参数，利用第二神经网络，对每个待重建对象的初始三维形状与姿态参数进行调整。通过结合利用第一神经网络得到的中间结果(即提取的图像特征)，对初始三维形状与姿态参数进行调整，可以提高对每个待重建对象本身的特征的关注度，从而进一步提高三维重建的准确性。

在一些实施例中，以图像特征包括特征图为例，在对初始三维形状与姿态参数进行调整之前，将每个待重建对象的初始三维形状与姿态参数投影到对应的特征图上，得到投影区域。针对每个待重建对象，基于预设采样范围，在相应的投影后的特征图上进行采样，得到采样特征。预设采样范围为投影区域及其周围的预设像素范围内的周围区域。例如，投影像素所在区域周围的K倍像素范围。K的取值为1.1～1.5。这些采样点相比于特征图具有更细粒度的表征能力，能够更精细地描述待重建对象的特征，并且能够更准确地定位待重建对象在图中的位置。

在一些实施例中，根据相机参数，将三维形状与姿态参数投影到二维的特征图上。相机参数包括尺寸参数和平移参数，尺寸参数图像中的人体大小，平移参数反映了人体在图像中相对于图像中心的平移范围。

进而，针对每个待重建对象，根据对应的采样特征和初始三维形状与姿态参数，利用第二神经网络，对每个待重建对象的初始三维形状与姿态参数进行调整，得到目标三维形状与姿态参数。在上述实施例中，以初始三维形状与姿态参数在特征图的投影区域为中心，扩散采样，可以在初始三维形状与姿态参数的基础上增加一些密切相关的特征，从而提高待重建对象本身的特征的关注度和完整度，从而提高三维重建的准确性。

在一些实施例中，第二神经网络包括第二特征提取网络和第二回归网络。针对每个待重建对象，根据对应的采样特征，利用第二神经网络的第二特征提取网络，确定目标特征向量。针对每个待重建对象，根据对应的初始三维形状与姿态参数和目标特征向量，利用第二神经网络的第二回归网络，确定目标三维形状与姿态参数。

在一些实施例中，第二神经网络的第二特征提取网络为多层感知器(MultilayerPerceptron，MLP)或者全连接神经网络。

在一些实施例中，根据多个待重建对象的初始参数信息，将多个待重建对象投影到同一个参考二维图像中；确定多个待重建对象在参考二维图像中的重叠率；在重叠率大于重叠率阈值的情况下，利用第二神经网络，对每个待重建对象的初始三维形状与姿态参数进行调整，得到目标三维形状与姿态参数。例如，重叠率阈值为0.2。

例如，重叠率为多个待重建对象在参考二维图像中的重叠面积占其在参考二维图像中的总面积的比例。又例如，重叠率还可以为参考二维图像中，多个待重建对象中存在重叠区域的待重建对象的数量占多个待重建对象的总数量的比例。

在上述实施例中，通过仅对重叠率大于重叠率阈值的待处理图像中的待重建对象进行三维重建，兼顾了三维重建的效率与准确率。

在步骤S4中，根据每个待重建对象的目标三维形状与姿态参数，确定与每个待重建对象对应的三维模型。

在一些实施例中，在训练第一神经网络和第二神经网络的损失函数都是三维形状与姿态参数的估计值与真实标签纸的平方根误差(Mean Squared Error，MSE)，属于有监督的训练。

图2是示出根据本公开一些实施例的三维重建方法的示意图。

如图2所示，待处理图像中包括两个人体，作为两个待重建对象。

将待处理图像输入到第一神经网络的第一特征提取网络中得到两个人体的特征图F₁和特征图F₂。

针对特征图F₁和F₂，分别确定相应的特征向量V1和V2。特征向量V1和V2分别输入到相应的第一回归网络中，分别得到相应的初始三维形状与姿态参数P₁和P₂(图2中为了更加直观，构建出了与参数对应的初始三维模型)。

根据初始三维形状与姿态参数P₁和P₂，将两个人体投影到同一个参考二维图像中，并计算两个人体在参考二维图像中的重叠率。

例如，参考二维图像中的重叠率大于重叠率阈值。图2以其中的一个人体为例进行调整步骤的说明。将初始三维形状与姿态参数P₁投影到相应的特征图F₁上。并在投影后的特征图F₁上进行采样，得到采样特征。为直观表示，图2以人体模型展示了采样特征，可见采样特征比初始三维形状与姿态参数范围更大。特征图F₁所包含的区域范围较大，含有与人P₁互相遮挡的人P₂的信息；而将P₁投影到F₁之后得到的新特征，更集中关注于人P₁。

将采样特征输入到第二神经网络的第二特征提取网络中，得到目标特征向量V1＇。将目标特征向量V1＇和初始三维形状与姿态参数P₁输入到第二神经网络的第二回归网络中，得到目标三维形状与姿态参数

从图2可以看出，目标三维形状与姿态参数

对应的三维模型与待处理图像对应的人体的形状与姿态更为接近。

图3是示出根据本公开一些实施例的三维重建装置的框图。

如图3所示，三维重建装置3包括获取模块31、第一确定模块32、调整模块33和第二确定模块34。

获取模块31被配置为获取待处理图像，例如执行如图1所示的步骤S1。待处理图像包括多个待重建对象。

第一确定模块32被配置为根据待处理图像，利用第一神经网络，确定每个待重建对象的初始三维形状与姿态参数，例如执行如图1所示的步骤S2。

调整模块33被配置为利用第二神经网络，对每个待重建对象的初始三维形状与姿态参数进行调整，得到每个待重建对象的目标三维形状与姿态参数，例如执行如图1所示的步骤S3。

第二确定模块34被配置为根据每个待重建对象的目标三维形状与姿态参数，确定与每个待重建对象对应的三维模型，例如执行如图1所示的步骤S4。

图4是示出根据本公开一些实施例的三维重建装置的框图。

如图4所示，三维重建装置4包括存储器41；以及耦接至该存储器41的处理器42。存储器41用于存储执行三维重建方法对应实施例的指令。处理器42被配置为基于存储在存储器41中的指令，执行本公开中任意一些实施例中的三维重建方法。

图5是示出用于实现本公开一些实施例的计算机系统的框图。

如图5所示，计算机系统50可以通用计算设备的形式表现。计算机系统50包括存储器510、处理器520和连接不同系统组件的总线500。

存储器510例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质，例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行三维重建方法中的至少一种的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。

处理器520可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地，诸如判断模块和确定模块的每个模块，可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现，也可以通过执行相应步骤的专用电路来实现。

总线500可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。

计算机系统50还可以包括输入输出接口530、网络接口540、存储接口550等。这些接口530、540、550以及存储器510和处理器520之间可以通过总线500连接。输入输出接口530可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口540为各种联网设备提供连接接口。存储接口550为软盘、U盘、SD卡等外部存储设备提供连接接口。

这里，参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个框以及各框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的处理器，以产生一个机器，使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。

这些计算机可读程序指令也可存储在计算机可读存储器中，这些指令使得计算机以特定方式工作，从而产生一个制造品，包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。

本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

通过上述实施例中的三维重建方法及装置、计算机可存储介质，可以提高三维重建的准确性。

至此，已经详细描述了根据本公开的三维重建方法及装置、计算机可存储介质。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

Claims

1.一种三维重建方法，包括：

获取待处理图像，所述待处理图像包括多个待重建对象；

根据所述待处理图像，利用第一神经网络，确定所述每个待重建对象的初始三维形状与姿态参数；

利用第二神经网络，对每个待重建对象的初始三维形状与姿态参数进行调整，得到所述每个待重建对象的目标三维形状与姿态参数；

根据每个待重建对象的目标三维形状与姿态参数，确定与所述每个待重建对象对应的三维模型。

2.根据权利要求1所述的三维重建方法，其中，

确定所述每个待重建对象的初始三维形状与姿态参数包括：

根据所述待处理图像，利用所述第一神经网络，提取每个待重建对象的图像特征；

针对每个待重建对象，根据对应的图像特征，利用所述第一神经网络，确定所述每个待重建对象的初始三维形状与姿态参数；对每个待重建对象的初始三维形状与姿态参数进行调整包括：

根据所述第一神经网络提取的每个待重建对象的图像特征及其确定的相应的初始三维形状与姿态参数，利用所述第二神经网络，对所述每个待重建对象的初始三维形状与姿态参数进行调整。

3.根据权利要求2所述的三维重建方法，其中，所述图像特征包括特征图，所述三维重建方法还包括：

将所述每个待重建对象的初始三维形状与姿态参数投影到对应的特征图上，得到投影区域；

针对每个待重建对象，基于预设采样范围，在相应的投影后的特征图上进行采样，得到采样特征，所述预设采样范围为所述投影区域及其周围的预设像素范围内的周围区域；其中，

根据每个待重建对象的初始三维形状与姿态参数和图像特征，对所述每个待重建对象的初始三维形状与姿态参数进行调整包括：针对每个待重建对象，根据对应的采样特征和初始三维形状与姿态参数，利用所述第二神经网络，对所述每个待重建对象的初始三维形状与姿态参数进行调整，得到所述目标三维形状与姿态参数。

4.根据权利要求3所述的三维重建方法，其中，所述第二神经网络包括特征提取网络和回归网络，根据对应的采样特征和初始三维形状与姿态参数，利用所述第二神经网络，对所述每个待重建对象的初始三维形状与姿态参数进行调整，得到所述目标三维形状与姿态参数包括：

针对每个待重建对象，根据对应的采样特征，利用所述第二神经网络的特征提取网络，确定目标特征向量；

针对每个待重建对象，根据对应的初始三维形状与姿态参数和所述目标特征向量，利用所述第二神经网络的回归网络，确定所述目标三维形状与姿态参数。

5.根据权利要求4所述的三维重建方法，其中，所述第二神经网络的特征提取网络为多层感知器或者全连接神经网络。

6.根据权利要求1所述的三维重建方法，其中，对每个待重建对象的初始三维形状与姿态参数进行调整包括：

根据所述多个待重建对象的初始参数信息，将所述多个待重建对象投影到同一个参考二维图像中；

确定所述多个待重建对象在所述参考二维图像中的重叠率；

在所述重叠率大于重叠率阈值的情况下，利用第二神经网络，对每个待重建对象的初始三维形状与姿态参数进行调整，得到所述目标三维形状与姿态参数。

7.根据权利要求6所述的三维重建方法，其中，所述重叠率为所述多个待重建对象在所述参考二维图像中的重叠面积占其在所述参考二维图像中的总面积的比例。

8.根据权利要求1所述的三维重建方法，其中，所述第一神经网络包括特征提取网络和回归网络，确定所述每个待重建对象的初始三维形状与姿态参数包括：

根据所述待处理图像，利用所述第一神经网络的特征提取网络，提取每个待重建对象的图像特征；

针对每个待重建对象，根据对应的图像特征，利用所述第一神经网络的回归网络，确定所述每个待重建对象的初始三维形状与姿态参数。

9.根据权利要求8所述的三维重建方法，其中，所述图像特征包括特征图，利用所述第一神经网络的回归网络，确定所述每个待重建对象的初始三维形状与姿态参数包括：

针对每个待重建对象，确定相应特征图的特征向量；

根据所述每个待重建对象所对应的特征向量，利用所述第一神经网络的回归网络，确定所述每个待重建对象的初始三维形状与姿态参数。

10.根据权利要求8所述的三维重建方法，其中，所述第一神经网络的特征提取网络为区域卷积神经网络或中心网络。

11.根据权利要求1所述的三维重建方法，其中，第一神经网络和第二神经网络为不同的神经网络。

12.一种三维重建装置，包括：

获取模块，被配置为获取待处理图像，所述待处理图像包括多个待重建对象；

第一确定模块，被配置为根据所述待处理图像，利用第一神经网络，确定所述每个待重建对象的初始三维形状与姿态参数；

调整模块，被配置为利用第二神经网络，对每个待重建对象的初始三维形状与姿态参数进行调整，得到所述每个待重建对象的目标三维形状与姿态参数；

第二确定模块，被配置为根据每个待重建对象的目标三维形状与姿态参数，确定与所述每个待重建对象对应的三维模型。

13.一种三维重建装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行如权利要求1至11任一项所述的三维重建方法。

14.一种计算机可存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现如权利要求1至11任一项所述的三维重建方法。