CN112669441B

CN112669441B - 一种对象重建方法、装置、电子设备和存储介质

Info

Publication number: CN112669441B
Application number: CN202011431958.8A
Authority: CN
Inventors: 张知行; 郭益林; 宋丛礼; 万鹏飞; 郑文
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2023-10-17
Anticipated expiration: 2040-12-09
Also published as: CN112669441A

Abstract

本公开关于一种对象重建方法、装置、电子设备和存储介质，其中，对象重建方法包括：将多帧待处理图像输入第一编码器进行特征提取，得到每帧待处理图像对应的第一特征信息；将第一特征信息输入对象重建模型中的特征提取网络进行特征提取，得到非固有特征信息和一个固有特征信息；将每个非固有特征信息分别和固有特征信息进行拼接，得到每帧待处理图像对应的一个全局特征信息；将全局特征信息输入对象重建模型中的渲染器进行渲染处理，得到每帧待处理图像对应的一个三维重建图像。这种方式下，可以使得在对象的特征提取时，将固有特征信息和非固有特征信息进行解耦，便于特征的迁移，如此，可以在渲染器进行图像重建时，得到效果更好的重建图像。

Description

一种对象重建方法、装置、电子设备和存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种对象重建方法、装置、电子设备和存储介质。

背景技术

对象的三维重建具有广泛的应用场景，比如人脸的三维重建可以被用于表情迁移的监督信号。

举个例子，一个高度解耦的人脸三维重建模型可以十分有效的辅助其他表情以及姿态迁移的模型。当前技术中，常用的人脸三维重建模型的目标都是为了更加准确地描述基于全局特征的人脸三维信息，但是却没有考虑模型的不同特征之间的解耦性能。也正是因为模型的不同特征之间的解耦性能不能满足要求，使得模型产生的三维人脸形变统计模型(3Dmorphablemodel，3DMM)参数中的形状基以及表情基的参数并不完全独立，这就导致了在对象在某部分特征迁移项目中，由于该部分特征的监督信号不够准确，限制了该部分特征迁移模型的效果。

发明内容

本公开提供一种对象重建方法、装置、电子设备和存储介质，以至少解决相关技术中由于部分特征的监督信号不够准确，限制了该部分特征迁移模型的效果的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种对象重建方法，包括：

获取包含目标对象的多帧待处理图像；

将多帧待处理图像输入对象重建模型中的第一编码器进行特征提取，得到每帧待处理图像对应的第一特征信息；

将每帧待处理图像对应的第一特征信息输入对象重建模型中的特征提取网络进行特征提取，得到每帧待处理图像对应的非固有特征信息和多帧待处理图像对应的一个固有特征信息；

将每个非固有特征信息分别和固有特征信息进行拼接，得到每帧待处理图像对应的一个全局特征信息；

将每帧待处理图像对应的一个全局特征信息输入对象重建模型中的渲染器进行渲染处理，得到每帧待处理图像对应的一个三维重建图像。

可选的，特征提取网络包括第二编码器；

将每帧待处理图像对应的第一特征信息输入对象重建模型中的特征提取网络进行特征提取，得到每帧待处理图像对应的非固有特征信息包括：

将每帧待处理图像对应的第一特征信息输入第二编码器进行特征提取，得到每帧待处理图像对应的非固有特征信息。

可选的，特征提取网络包括平均特征层和第三编码器；

将每帧待处理图像对应的第一特征信息输入对象重建模型中的特征提取网络进行特征提取，得到多帧待处理图像对应的一个固有特征信息包括：

将每帧待处理图像对应的第一特征信息输入平均特征层进行求平均值处理，得到融合特征信息；

将融合特征信息输入第三编码器进行特征提取，得到多帧待处理图像对应的一个固有特征信息。

可选的，对象重建模型的训练方法包括：

获取包含第一参考对象的多帧样本图像；

将多帧样本图像输入神经网络中的第一编码器进行特征提取，得到每帧样本图像对应的第一特征信息；

将每帧样本图像对应的第一特征信息输入神经网络中的特征提取网络进行特征提取，得到每帧样本图像对应的非固有特征信息和多帧样本图像对应的一个固有特征信息；

将每帧样本图像对应的非固有特征信息分别和多帧样本图像对应的一个固有特征信息进行拼接，得到每帧样本图像对应的一个全局特征信息；

将每帧样本图像对应的一个全局特征信息输入神经网络中的渲染器进行渲染处理，得到每帧样本图像的一个三维重建图像；

将每帧样本图像的一个三维重建图像进行投影，得到每帧样本图像对应的投影图像；

根据每帧样本图像以及每帧样本图像对应的投影图像训练神经网络，得到对象重建模型。

可选的，根据每帧样本图像以及每帧样本图像对应的投影图像训练神经网络，得到对

象重建模型包括：

利用每帧样本图像以及每帧样本图像对应的投影图像确定损失值；

当损失值大于预设阈值时，基于损失值进行反向传播，对神经网络进行网络参数更新以得到更新后的神经网络；

重复将多帧样本图像输入更新后的神经网络，得到每帧样本图像的一个三维重建图像，并将每帧样本图像的一个三维重建图像进行投影，得到每帧样本图像对应的投影图像的过程，直至利用每帧样本图像以及每帧样本图像对应的投影图像确定的损失值不大于预设阈值时，将神经网络确定为对象重建模型。

可选的，非固有特征信息为目标对象特征中会随视频播放发生变化的特征信息；

固有特征信息为目标对象特征中不会随视频播放发生变化的特征信息。

可选的，非固有特征信息至少包括下述之一：表情、姿态、光照、皮肤反射；

固有特征信息至少包括下述之一：形状、纹理。

根据本公开实施例的第二方面，提供一种对象重建装置，包括：

图像获取模块，被配置为执行获取包含目标对象的多帧待处理图像；

第一特征信息提取模块，被配置为执行将多帧待处理图像输入对象重建模型中的第一编码器进行特征提取，得到每帧待处理图像对应的第一特征信息；

第二特征信息提取模块，被配置为执行将每帧待处理图像对应的第一特征信息输入对象重建模型中的特征提取网络进行特征提取，得到每帧待处理图像对应的非固有特征信息和多帧待处理图像对应的一个固有特征信息；

特征信息拼接模块，被配置为执行将每个非固有特征信息分别和固有特征信息进行拼接，得到每帧待处理图像对应的一个全局特征信息；

图像重建模块，被配置为执行将每帧待处理图像对应的一个全局特征信息输入对象重建模型中的渲染器进行渲染处理，得到每帧待处理图像对应的一个三维重建图像。

可选的，特征提取网络包括第二编码器；第二特征信息提取模块包括非固有特征信息提取子模块；

非固有特征信息提取子模块，被配置为执行将每帧待处理图像对应的第一特征信息输入第二编码器进行特征提取，得到每帧待处理图像对应的非固有特征信息。

可选的，特征提取网络包括平均特征层和第三编码器；第二特征信息提取模块包括固有特征信息提取子模块；

固有特征信息提取子模块，被配置为执行将每帧待处理图像对应的第一特征信息输入平均特征层进行求平均值处理，得到融合特征信息；

可选的，对象重建装置还包括对象重建模型训练模块，被配置为执行：

获取包含第一参考对象的多帧样本图像；

可选的，对象重建模型训练模块，被配置为执行：

固有特征信息至少包括下述之一：形状、纹理。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现如上述第一方面中任一项的方法。

根据本公开实施例的第四方面，提供一种存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例的第一方面中任一方法。

根据本公开实施例的第五方面，提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例的第一方面中任一方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

将多帧待处理图像输入对象重建模型中的第一编码器进行特征提取，得到每帧待处理图像对应的第一特征信息；将每帧待处理图像对应的第一特征信息输入对象重建模型中的特征提取网络进行特征提取，得到每帧待处理图像对应的非固有特征信息和多帧待处理图像对应的一个固有特征信息；将每个非固有特征信息分别和固有特征信息进行拼接，得到每帧待处理图像对应的一个全局特征信息；将每帧待处理图像对应的一个全局特征信息输入对象重建模型中的渲染器进行渲染处理，得到每帧待处理图像对应的一个三维重建图像。这种方式下，可以使得在对象的特征提取时，将固有特征信息和非固有特征信息进行解耦，便于特征的迁移，如此，可以在渲染器进行图像重建时，可以得到效果更好的重建图像。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用环境的示意图；

图2是根据一示例性实施例示出的一种对象重建方法的流程图；

图3是根据一示例性实施例示出的一种第一编码器的结构图；

图4是根据一示例性实施例示出的一种对象重建模型的结构图；

图5是根据一示例性实施例示出的一种特征提取网络的结构图；

图6是根据一示例性实施例示出的一种特征信息的获取方法的流程图；

图7是根据一示例性实施例示出的一种编码器的结构图；

图8是根据一示例性实施例示出的一种对象重建模型的训练过程的流程图；

图9是根据一示例性实施例示出的一种对象重建模型的训练过程的流程图；

图10是根据一示例性实施例示出的一种对象重建装置的框图；

图11是根据一示例性实施例示出的一种用于对象重建的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

请参阅图1，图1根据一示例性实施例示出的一种应用环境的示意图，如图1所示，包括服务器01和终端02。可选的，服务器01和终端02可以通过无线链路连接，也可以通过有线链路连接，本公开在此不做限定。

在一个可选的实施例中，服务器01可以用于根据获取的包含目标对象的多帧待处理图像重建得到多个三维重建图像。具体的，服务器01可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选的，该服务器01上运行的操作系统可以包括但是不限于IOS、Linux、Windows、Unix、Android系统等。

在一个可选的实施例中，终端02可以协助服务器01重建得到多个三维重建图像。终端可以是包含目标对象的多帧待处理图像的提供方，用于向服务器01发送多帧待处理图像。具体的，终端02可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、智能可穿戴设备等类型的电子设备。可选的，电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

此外，需要说明的是，图1所示的仅仅是本公开提供的图像处理方法的一种应用环境，在实际应用中，还可以包括其他应用环境，例如多个三维重建图像的重建，也可以在终端02上实现。

图2是根据一示例性实施例示出的一种对象重建方法的流程图，如图2所示，对象重建方法用于服务器、终端等电子设备中，包括以下步骤。

在步骤S201中，获取包含目标对象的多帧待处理图像。

在一个可选的实施例中，多帧待处理图像可以是服务器从终端处获取的。在一个具体的实施例中，该终端可以是图像采集设备，比如摄像头，当检测到目标对象经过摄像头时，通过连续多帧的拍摄获取包含该目标对象的多帧待处理图像。在另一个具体的实施例中，该终端可以是一个视频拍摄设备，通过对该目标对象进行视频录入后，通过截取该视频获得包含目标对象的多帧待处理图像。在一个可选的实施例中，多帧待处理图像还可以是服务器从互联网图库中搜索获取的。

可选的，上述的多帧待处理图片可以是连续的多帧待处理图像，比如说，终端作为图像采集设备，其帧率为30帧每秒，则多帧待处理图像可以是其中连续的10帧待处理图像。

可选的，考虑到本公开是为了将非固有特征和固有特征解耦，因此要求非固有特征在多帧待处理图像上存在变化，而上段描述的连续多帧待图像可能由于时间过短造成目标对象变化并不明显的后果，这也就无法使得后续进行非固有特征和固有特征解耦。这种情况下，上述的多帧待处理图像可以是采样得到的多帧待处理图像，基于上述30帧每秒的图像采集设备继续说明，采样得到的多帧待处理图像可以是每隔5帧采样一张图像，得到一定数量的待处理图像。如此，通过采样去增加采集得到的多帧待处理图像的时间跨度，保证目标对象在此时间跨度内有足够的变化。

可选的，上述的多帧待处理图像之间也可以不是同一个终端提供的，可以是由多个终端在同一个时间段内采集到的，也可以是由多个终端在不同时间段内采集到的。

在步骤S203中，将多帧待处理图像输入对象重建模型中的第一编码器进行特征提取，得到每帧待处理图像对应的第一特征信息。

在一个可选的实施方式中，上述的第一编码器可以是基于深度学习网络中的神经卷积网络构建的。本说明书实施例中，第一编码器包括的卷积层、池化层和上采样层，其中，卷积层、赤化层和上采样层的数量可以结合实际应用需求进行设置。在实际应用中，数据往往不是线性可分的，为了引入非线性因数，可以在神经卷积网络中引入激活层。另外，为了防止该深度学习网络由于网络深度导致梯度消失和梯度爆炸的问题，可选的，可以使用数据的初始化(normlized initializatiton)和正则化(batch normlization)解决该梯度的问题。然而由于网络深度加深了，会带来另外的网络性能的退化问题，即网络深度加深了，错误率却上升了。因此，可以利用归一化层来解决退化问题，归一化层同时也解决了梯度问题，使得网络的性能也提升了。相应的，本说明书实施例中，神经卷积网络的每个卷积层之后可以依次连接归一化层和激活层。

在一个具体的实施例中，卷积层、归一化层、激活层、池化层的大小以及上采样层的上采样倍数可以结合实际应用需求设置。如图3所示，图3是根据一示例性实施例示出的一种第一编码器的结构图。图3中，输入可以为多帧待处理图像，例如多帧384*384的待处理图像，从输入开始第一编码器可以依次包括5*5的卷积层(归一化层、激活层)、2*2的池化层、5*5的卷积层(归一化层、激活层)、3*3的卷积层(归一化层、激活层)、2*2的池化层、3*3的卷积层、3*3的卷积层，经过上述第一编码器，可以得到多个第一特征信息。

在步骤S205中，将每帧待处理图像对应的第一特征信息输入对象重建模型中的特征提取网络进行特征提取，得到每帧待处理图像对应的非固有特征信息和多帧待处理图像对应的一个固有特征信息。

在一个可选的实施例中，如果多帧待处理图像是基于同一个视频中采集得到的，上述非固有特征信息为目标对象特征中会随视频播放发生变化的特征信息。在一个具体的实施例中，上述非固有特征信息至少包括下述之一：表情、姿态、光照、皮肤反射。

在一个可选的实施例中，固有特征信息为目标对象特征中不会随视频播放发生变化的特征信息。在一个具体的实施例中，上述第二种类特征至少包括下述之一：形状、纹理。

可选的，将非固有特征信息和固有特征信息投射到目标对象上来说，假设目标对象为人脸，上述的非固有特征信息是指预设时间内会发生改变的特征，固有特征信息是指预设时间内不会发生改变的特征。上述的预设时间内可以是根据多帧待处理图像携带的时间戳确定得到的时间段，也可以是研究中确定的目标对象形状、纹理改变幅度较小的一段时间。

在本公开的实施方式中，上述包括固有特征和非固有特征的目标对象可以是脸部(包括人脸和动物来的脸)、生物体(包括人体、动物体、植物体)。比如，脸部的非固有特征信息为表情、姿态、光照、皮肤反射中的一个或者多个，固有特征信息为形状、纹理中的一个或者多个。比如，人体的非固有特征信息为姿态、光照中的一个或者多个，固有特征信息为形状。为了方便阐述，下文的例子中将以人脸为目标对象进行说明。

在一个可选的实施方式中，对象重建模型包括第一编码器、特征提取网络和渲染器，该第一编码器和特征提取网络用于对多帧待处理图像进行特征提取，得到一个固有特征信息和多个非固有特征信息，图4是根据一示例性实施例示出的一种对象重建模型的结构图，包括第一编码器401、特征提取网络402和渲染器403。其中，第一编码器401用于对多帧待处理图像进行特征提取，得到第一特征信息。特征提取网络402用于对第一特征信息进行提取，得到每帧待处理图像对应的非固有特征信息和多帧待处理图像对应的一个固有特征信息。该渲染器403可以用于后期的三维图像重建。

在一个可选的实施例中，上述的特征提取网络402可以包括多个模块，用于对第一特征信息进行特征提取，分别得到每帧待处理图像对应的非固有特征信息和多帧待处理图像对应的一个固有特征信息。可选的，图5是根据一示例性实施例示出的一种特征提取网络的结构图，如图所示，该特征提取网络402可以包括第二编码器4021、平均特征层4022和第三编码器4023。基于图5所示的结构，图6是根据一示例性实施例示出的一种特征信息的获取方法的流程图，包括：

在步骤S601中，将每帧待处理图像对应的第一特征信息输入第二编码器进行特征提取，得到每帧待处理图像对应的非固有特征信息。

可选的，第二编码器可以是基于深度学习网络中的神经卷积网络构建的。其包含的卷积层、赤化层和上采样层的数量可以结合实际应用需求进行设置。具体的结构可以参考第一编码器的结构，这里不再赘述。

在步骤S603中，将每帧待处理图像对应的第一特征信息输入平均特征层进行求平均值处理，得到融合特征信息。

在步骤S603中，对第一特征信息进行求平均值处理可以被认为是对其进行加权求和的一种，也就是可以确定出每个第一特征信息的权重，并根据每个第一特征信息的权重和第一特征信息确定出第二特征信息。举个例子，假设有10个第一特征信息，分别确定出这10个第一特征信息的权重Q₀-Q₉后，将第一特征信息分别乘以其对应的权重Q，随后求这10个乘积的总和，得到融合特征信息。其中，每个第一特征信息的权重是基于整个图像重建模型的训练过程中确定的。

在步骤S605中，将融合特征信息输入第三编码器进行特征提取，得到多帧待处理图像对应的一个固有特征信息。

可选的，第三编码器可以是基于深度学习网络中的神经卷积网络构建的。其包含的卷积层、赤化层和上采样层的数量可以结合实际应用需求进行设置。具体的结构可以参考第三编码器的结构，这里不再赘述。

在一个可选的实施例中，比如图4和图5所示的结构图中，本公开仅仅示例出了一个第一编码器、一个第二编码器和一个第三编码网络对多帧待处理图像进行特征提取，得到多个非固有特征信息和一个固特征信息，其中，多帧待处理图像可以在一个第一编码器中依次进行特征提取，得到每帧待处理图像对应的第一特征信息，同样的，多个第一特征信息也可以在一个第二编码器中串行的进行特征提取，得到每帧待处理图像对应的非固有特征信息。

然而，在实际应用过程中，第一编码器和第二编码器的个数可以根据输入的待处理图像的帧数进行调整和设置。如图7所示，图7是根据一示例性实施例示出的一种编码器的结构图，包括多个第一编码器401(401-1至401-n)、多个第二编码器4021(4021-1至4021-n)平均特征层4022和第三编码器4023，举个例子，假设输入n帧待处理图像，则可以由n个第一编码网路分别对应地处理，得到n个第一特征信息，将n个第一特征信息输入n个第二编码器，利用n个第二编码器对n个第一特征信息进行特征提取，得到n个非固有特征信息。将n个第一特征信息输入平均特征层进行求平均值处理，得到融合特征信息；并利用第三编码器对融合特征信息进行特征提取，得到固有特征信息。

在步骤S207中，将每个非固有特征信息分别和固有特征信息进行拼接，得到每帧待处理图像对应的一个全局特征信息。

在步骤S209中，将每帧待处理图像对应的一个全局特征信息输入对象重建模型中的渲染器进行渲染处理，得到每帧待处理图像对应的一个三维重建图像。

下面基于目标对象为人脸介绍步骤S209中的渲染器，相关技术中，通常使用三维人脸人脸形变统计模型3DMM作为渲染器，用于解决二维人脸图像恢复至三维图像的问题。然而，3DMM都是基于一组人脸形状和纹理的统计模型来表示任意一张人脸，并没与涉及到表情、姿态等非固有特征，仍然存在重建人脸判别性较差，参数求解难的问题。

随着科技的发展，基础人脸模型(Base Face Model，BFM)数据库的提出有效扩大了3DMM的适用场景，BFM可以拟合任意三维人脸并保存3DMM参数。BFM提供了一组形状，表情，纹理的基，且可以根据改变参数来改变人脸的年龄肥胖程度，其中形状基为一个199*n维的主成分，以及199*1维的主成分均方误差。纹理基和形状基维度相同，表情基有100*n维主成分和100*1维。本公开的渲染器可以是一个可微分渲染器，通过该可微分渲染器对多个全局特征信息进行渲染处理，得到多帧待处理图像对应的多个三维重建图像。

一种可选的实施方式中，也可以通过单帧图像和编码器提取特征信息(即BFM参数)，利用渲染器通过BFM参数进行渲染，得到三维人脸图像，但是单帧图像进行运算会导致形状参数和表情参数解耦不够好，没有办法独立使用两组参数，生成更满足要求的三维人脸图像。

在一个可选的实施例中，上述方法还包括对对象重建模型的训练过程，如图8所示，图8是根据一示例性实施例示出的一种对象重建模型的训练过程的流程图，包括：

在步骤S801中，获取包含第一参考对象的多帧样本图像。

在步骤S803中，将多帧样本图像输入神经网络中的第一编码器进行特征提取，得到每帧样本图像对应的第一特征信息。

在步骤S805中，将每帧样本图像对应的第一特征信息输入神经网络中的特征提取网络进行特征提取，得到每帧样本图像对应的非固有特征信息和多帧样本图像对应的一个固有特征信息。

在步骤S807中，将每帧样本图像对应的非固有特征信息分别和多帧样本图像对应的一个固有特征信息进行拼接，得到每帧样本图像对应的一个全局特征信息。

在步骤S809中，将每帧样本图像对应的一个全局特征信息输入神经网络中的渲染器进行渲染处理，得到每帧样本图像的一个三维重建图像；

在步骤S811中，将每帧样本图像的一个三维重建图像进行投影，得到每帧样本图像对应的投影图像。

在步骤S813中，根据每帧样本图像以及每帧样本图像对应的投影图像训练神经网络，得到对象重建模型。

如图9所示，图9是根据一示例性实施例示出的一种对象重建模型的训练过程的流程图，包括：

在步骤S901中，利用每帧样本图像以及每帧样本图像对应的投影图像确定损失值。

可选的，该损失值是由损失函数确定的，损失函数可以包括但不限于L2损失函数(均方误差)、L1(损失函数平均绝对误差)等回归损失函数。也可以包括但不限于逻辑损失函数、Hinge(铰链)损失函数、指数损失函数等分类损失函数。

可选的，该损失函数可以包括但不限于L2损失函数(均方误差)、L1(损失函数平均绝对误差)、Huber损失函数(平滑平均绝对误差)等回归损失函数。

可选的，上述的损失值可以表征每个样本图像和每个样本图像对应的投影图像在每个像素点上的差异程度。可选的，上述的损失值可以表征每个样本图像和每个样本图像对应的投影图像在图像关键点上的差异程度。

在一个可选的实施例中，假设目标对象是人脸，关键点可以是沿着脸部轮廓和/或五官轮廓定位的点。举个例子，上述的图像关键点可以是人脸上预设的关键点，比如说眼角，嘴角，鼻尖等等

在步骤S903中，当损失值大于预设阈值时，基于损失值进行反向传播，对神经网络进行网络参数更新以得到更新后的神经网络。

在步骤S905中，重复将多帧样本图像输入更新后的神经网络，得到每帧样本图像的一个三维重建图像，并将每帧样本图像的一个三维重建图像进行投影，得到每帧样本图像对应的投影图像的过程，直至利用每帧样本图像以及每帧样本图像对应的投影图像确定的损失值不大于预设阈值时，将神经网络确定为对象重建模型。

综上，本公开实施例可以在对象的特征提取时，通过编码器将固有特征信息和非固有特征信息进行解耦，便于特征的迁移，如此，可以在渲染器进行图像重建时，可以得到效果更好的重建图像。

图10是根据一示例性实施例示出的一种对象重建装置框图。参照图10，该装置包括图像获取模块1001、第一特征信息提取模块1002、第二特征信息提取模块1003、特征信息拼接模块1004和图像重建模块1005。

图像获取模块1001，被配置为执行获取包含目标对象的多帧待处理图像；

第一特征信息提取模块1002，被配置为执行将多帧待处理图像输入对象重建模型中的第一编码器进行特征提取，得到每帧待处理图像对应的第一特征信息；

第二特征信息提取模块1003，被配置为执行将每帧待处理图像对应的第一特征信息输入对象重建模型中的特征提取网络进行特征提取，得到每帧待处理图像对应的非固有特征信息和多帧待处理图像对应的一个固有特征信息；

特征信息拼接模块1004，被配置为执行将每个非固有特征信息分别和固有特征信息进行拼接，得到每帧待处理图像对应的一个全局特征信息；

图像重建模块1005，被配置为执行将每帧待处理图像对应的一个全局特征信息输入对象重建模型中的渲染器进行渲染处理，得到每帧待处理图像对应的一个三维重建图像。

获取包含第一参考对象的多帧样本图像；

可选的，对象重建模型训练模块，被配置为执行：

固有特征信息至少包括下述之一：形状、纹理。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图11是根据一示例性实施例示出的一种用于对象重建的电子设备1100的框图。该电子设备可以是服务器，还可以是具有服务器同样功能的其他设备，其内部结构图可以如图11所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对象重建方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种服务器，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的对象重建方法。

在示例性实施例中，还提供了一种存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的对象重建方法。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的对象重建方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种对象重建方法，其特征在于，包括：

获取包含目标对象的多帧待处理图像；

将所述多帧待处理图像输入对象重建模型中的第一编码器进行特征提取，得到每帧所述待处理图像对应的第一特征信息；

将每帧所述待处理图像对应的第一特征信息输入所述对象重建模型中的特征提取网络进行特征提取，得到每帧所述待处理图像对应的非固有特征信息和所述多帧待处理图像对应的一个固有特征信息；

将每个所述非固有特征信息分别和所述固有特征信息进行拼接，得到每帧所述待处理图像对应的一个全局特征信息；

将每帧所述待处理图像对应的一个全局特征信息输入所述对象重建模型中的渲染器进行渲染处理，得到每帧所述待处理图像对应的一个三维重建图像；

所述对象重建模型的训练方法包括：

获取包含第一参考对象的多帧样本图像；

将所述多帧样本图像输入神经网络中的所述第一编码器进行特征提取，得到每帧所述样本图像对应的第一特征信息；

将每帧所述样本图像对应的第一特征信息输入所述神经网络中的所述特征提取网络进行特征提取，得到每帧所述样本图像对应的非固有特征信息和所述多帧样本图像对应的一个固有特征信息；

将每帧所述样本图像对应的非固有特征信息分别和所述多帧样本图像对应的一个固有特征信息进行拼接，得到每帧所述样本图像对应的一个全局特征信息；

将每帧所述样本图像对应的一个全局特征信息输入所述神经网络中的所述渲染器进行渲染处理，得到每帧所述样本图像的一个三维重建图像；

将每帧所述样本图像的一个三维重建图像进行投影，得到每帧所述样本图像对应的投影图像；

根据每帧所述样本图像以及每帧所述样本图像对应的投影图像训练所述神经网络，得到所述对象重建模型。

2.根据权利要求1所述的对象重建方法，其特征在于，所述特征提取网络包括第二编码器；

所述将每帧所述待处理图像对应的第一特征信息输入所述对象重建模型中的特征提取网络进行特征提取，得到每帧所述待处理图像对应的非固有特征信息包括：

将每帧所述待处理图像对应的第一特征信息输入所述第二编码器进行特征提取，得到每帧所述待处理图像对应的非固有特征信息。

3.根据权利要求1所述的对象重建方法，其特征在于，所述特征提取网络包括平均特征层和第三编码器；

所述将每帧所述待处理图像对应的第一特征信息输入所述对象重建模型中的特征提取网络进行特征提取，得到所述多帧待处理图像对应的一个固有特征信息包括：

将每帧所述待处理图像对应的第一特征信息输入所述平均特征层进行求平均值处理，得到融合特征信息；

将所述融合特征信息输入所述第三编码器进行特征提取，得到所述多帧待处理图像对应的一个固有特征信息。

4.根据权利要求1所述的对象重建方法，其特征在于，所述根据每帧所述样本图像以及每帧所述样本图像对应的投影图像训练所述神经网络，得到所述对象重建模型包括：

利用每帧所述样本图像以及每帧所述样本图像对应的投影图像确定损失值；

当所述损失值大于预设阈值时，基于所述损失值进行反向传播，对所述神经网络进行网络参数更新以得到更新后的神经网络；

重复将所述多帧样本图像输入更新后的所述神经网络，得到每帧所述样本图像的一个三维重建图像，并将每帧所述样本图像的一个三维重建图像进行投影，得到每帧所述样本图像对应的投影图像的过程，直至利用每帧所述样本图像以及每帧所述样本图像对应的投影图像确定的损失值不大于所述预设阈值时，将所述神经网络确定为所述对象重建模型。

5.根据权利要求1-3任一所述的对象重建方法，其特征在于，

所述非固有特征信息为目标对象特征中会随视频播放发生变化的特征信息；

所述固有特征信息为所述目标对象特征中不会随视频播放发生变化的特征信息。

6.根据权利要求5所述的对象重建方法，其特征于，

所述非固有特征信息至少包括下述之一：表情、姿态、光照、皮肤反射；

所述固有特征信息至少包括下述之一：形状、纹理。

7.一种对象重建装置，其特征在于，包括：

第一特征信息提取模块，被配置为执行将所述多帧待处理图像输入对象重建模型中的第一编码器进行特征提取，得到每帧所述待处理图像对应的第一特征信息；

第二特征信息提取模块，被配置为执行将每帧所述待处理图像对应的第一特征信息输入所述对象重建模型中的特征提取网络进行特征提取，得到每帧所述待处理图像对应的非固有特征信息和所述多帧待处理图像对应的一个固有特征信息；

特征信息拼接模块，被配置为执行将每个所述非固有特征信息分别和所述固有特征信息进行拼接，得到每帧所述待处理图像对应的一个全局特征信息；

图像重建模块，被配置为执行将每帧所述待处理图像对应的一个全局特征信息输入所述对象重建模型中的渲染器进行渲染处理，得到每帧所述待处理图像对应的一个三维重建图像；

所述对象重建装置还包括对象重建模型训练模块，被配置为执行：

获取包含第一参考对象的多帧样本图像；

8.根据权利要求7所述的对象重建装置，其特征在于，所述特征提取网络包括第二编码器；所述第二特征信息提取模块包括非固有特征信息提取子模块；

所述非固有特征信息提取子模块，被配置为执行将每帧所述待处理图像对应的第一特征信息输入所述第二编码器进行特征提取，得到每帧所述待处理图像对应的非固有特征信息。

9.根据权利要求7所述的对象重建装置，其特征在于，所述特征提取网络包括平均特征层和第三编码器；所述第二特征信息提取模块包括固有特征信息提取子模块；

所述固有特征信息提取子模块，被配置为执行将每帧所述待处理图像对应的第一特征信息输入所述平均特征层进行求平均值处理，得到融合特征信息；

10.根据权利要求7所述的对象重建装置，其特征在于，所述对象重建模型训练模块，被配置为执行：

11.根据权利要求7-9任一所述的对象重建装置，其特征在于，

12.根据权利要求11所述的对象重建装置，其特征于，

所述固有特征信息至少包括下述之一：形状、纹理。

13.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的对象重建方法。

14.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的对象重建方法。