CN109978989A

CN109978989A - 三维人脸模型生成方法、装置、计算机设备及存储介质

Info

Publication number: CN109978989A
Application number: CN201910140602.XA
Authority: CN
Inventors: 陈雅静; 宋奕兵; 凌永根; 暴林超; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2019-07-05
Anticipated expiration: 2039-02-26
Also published as: US20210286977A1; TWI788630B; TW202032503A; US11636613B2; EP3933783A4; EP3933783A1; WO2020173442A1; CN109978989B

Abstract

本发明公开了一种三维人脸模型生成方法、装置、计算机设备及存储介质，属于计算机技术领域。所述方法包括：获取二维人脸图像；调用人脸模型生成模型，人脸模型生成模型用于提取二维人脸图像的全局特征和局部特征，基于全局特征和局部特征，获取三维人脸模型参数，基于三维人脸模型参数，生成二维人脸图像对应的三维人脸模型；将二维人脸图像输入人脸模型生成模型中，输出二维人脸图像对应的三维人脸模型。本发明中人脸模型生成模型在生成过程中综合全局特征和局部特征获取三维人脸模型，这样得到的三维人脸模型相比于只根据局部特征得到的三维人脸模型，人脸细节体现的更明显，人脸细节处理的更精细，还原度高，从而三维人脸模型更真实。

Description

三维人脸模型生成方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种三维人脸模型生成方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，基于图像生成三维人脸模型的技术已经在很多领域得到了应用，例如，该技术已经广泛应用于人脸识别、公安、医疗、游戏或影视娱乐等领域。

目前，三维人脸模型生成方法通常是通过提取二维人脸图像的全局特征，根据该全局特征，计算得到三维人脸模型参数，从而可以根据三维人脸模型参数计算得到三维人脸模型。

上述三维人脸模型生成方法中仅提取了二维人脸图像的全局特征，基于全局特征计算得到的三维人脸模型并未关注人脸细节，例如，五官形状、表情或纹理等处理较为粗糙，得到三维人脸模型不够真实，并不能很好还原二维人脸图像中人脸的细节。

发明内容

本发明实施例提供了一种三维人脸模型生成方法、装置、计算机设备及存储介质，可以解决相关技术中三维人脸模型不够真实，并不能很好还原二维人脸图像中人脸的细节的问题。所述技术方案如下：

一方面，提供了一种三维人脸模型生成方法，所述方法包括：

获取二维人脸图像；

调用人脸模型生成模型，所述人脸模型生成模型用于提取所述二维人脸图像的全局特征和局部特征，基于所述全局特征和局部特征，获取三维人脸模型参数，基于所述三维人脸模型参数，生成所述二维人脸图像对应的三维人脸模型；

将所述二维人脸图像输入所述人脸模型生成模型中，输出所述二维人脸图像对应的三维人脸模型。

一方面，提供了一种三维人脸模型生成装置，所述装置包括：

获取模块，用于获取二维人脸图像；

调用模块，用于调用人脸模型生成模型，所述人脸模型生成模型用于提取所述二维人脸图像的全局特征和局部特征，基于所述全局特征和局部特征，获取三维人脸模型参数，基于所述三维人脸模型参数，生成所述二维人脸图像对应的三维人脸模型；

生成模块，用于将所述二维人脸图像输入所述人脸模型生成模型中，输出所述二维人脸图像对应的三维人脸模型。

一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现所述三维人脸模型生成方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现所述三维人脸模型生成方法所执行的操作。

本发明实施例通过人脸模型生成模型，对二维人脸图像进行处理，生成三维人脸模型，在生成过程中既提取了全局特征，又提取了局部特征，从而综合二者获取三维人脸模型，这样得到的三维人脸模型相比于只根据局部特征得到的三维人脸模型，人脸细节体现的更明显，人脸细节处理的更精细，还原度高，从而三维人脸模型更真实。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种三维人脸模型生成方法的实施环境；

图2是本发明实施例提供的一种人脸模型生成模型训练方法的流程图；

图3是本发明实施例提供的一种人脸模型生成模型的结构示意图；

图4是本发明实施例提供的一种三维人脸模型生成方法的流程图；

图5是本发明实施例提供的一种人脸模型生成装置的结构示意图；

图6是本发明实施例提供的一种终端的结构示意图；

图7是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种三维人脸模型生成方法的实施环境，该实施环境可以包括至少一个计算机设备，参见图1，仅以该实施环境包括多个计算机设备为例进行说明。其中，该多个计算机设备可以通过有线连接方式实现数据交互，也可以通过无线网络连接方式实现数据交互，本发明实施例对此不作限定。

在本发明实施例中，计算机设备101可以基于二维人脸图像，生成三维人脸模型，得到该二维人脸图像对应的三维人脸模型，该过程是三维人脸重建过程。在一种可能实现方式中，该计算机设备101中可以存储有人脸模型生成模型，该计算机设备101可以基于存储的该人脸模型生成模型对二维人脸图像进行处理，实现三维人脸模型生成过程。在另一种可能实现方式中，该计算机设备101也可以在有人脸模型生成需求时调用其它计算机设备上的人脸模型生成模型进行人脸模型生成的过程，本发明实施例对此不作限定，下述均以该计算机设备101存储有人脸模型生成模型为例进行说明。

在一种可能实现方式中，该人脸模型生成模型可以在该计算机设备101上训练得到，也可以在其他计算机设备上训练得到，例如，该其他计算机设备可以为计算机设备102。计算机设备102还可以将该训练好的人脸模型生成模型封装后发送至该计算机设备101，从而计算机设备101可以接收并存储该训练好的人脸模型生成模型。本发明实施例对该人脸模型生成模型的训练设备不作限定。

在一种可能实现方式中，该计算机设备101可以进行图像采集，得到二维人脸图像，并调用存储的人脸模型生成模型对该二维人脸图像进行处理，得到三维人脸模型。在另一种可能实现方式中，该计算机设备101可以接收其他计算机设备发送的人脸模型生成请求，该人脸模型生成请求中携带有二维人脸图像，该计算机设备101可以实现上述三维人脸模型生成步骤，并将生成的三维人脸模型发送至该其他计算机设备。本发明实施例对具体采用哪种实现方式不作限定。

具体地，该计算机设备101和计算机设备102均可以被提供为终端，也可以被提供为服务器，本发明实施例对此不作限定。

图2是本发明实施例提供的一种人脸模型生成模型训练方法的流程图，该人脸模型生成模型训练方法可以应用于计算机设备，该计算机设备可以为上述计算机设备101，也可以为上述计算机设备102，本发明实施例对此不作限定。该计算机设备可以为终端，也可以为服务器，本发明实施例对此也不作限定。参见图2，该人脸模型生成模型训练方法可以包括以下步骤：

201、计算机设备获取多个样本二维人脸图像。

在本发明实施例中，计算机设备可以基于样本二维人脸图像，对初始模型进行训练，得到人脸模型生成模型，从而后续可以基于该训练好的人脸模型生成模型，生成三维人脸模型。

在一种可能实现方式中，该多个样本二维人脸图像可以存储于该计算机设备中，在该计算机设备需要进行人脸模型生成模型训练时，可以从该本地存储中获取该多个样本二维人脸图像。在另一种可能实现方式中，该多个样本二维人脸图像也可以存储于其他计算机设备中，在该计算机设备需要进行人脸模型生成模型训练时，从该其他计算机设备处获取该多个样本二维人脸图像。例如，该计算机设备可以从图像数据库，获取多个二维人脸图像作为样本图像。本发明实施例对该样本二维人脸图像的获取方式不作限定。

需要说明的是，该人脸模型生成模型的训练过程可以采用无监督学习的方式，计算机设备可以获取多个样本二维人脸图像，基于样本二维人脸图像即可完成模型训练过程，该样本二维人脸图像可以无需携带有标签信息。该标签信息一般是指人工合成的三维人脸模型参数，为伪真实数据。

202、计算机设备调用初始模型，将该多个样本二维人脸图像输入该初始模型中。

计算机设备获取到样本二维人脸图像后，可以基于该样本二维人脸图像对初始模型进行训练，因而，计算机设备可以调用初始模型，将样本二维人脸图像输入初始模型中，该初始模型中的模型参数为初始值，计算机设备可以根据该初始模型对样本二维人脸图像进行处理的情况，对该初始模型的模型参数进行调整，以使得调整后的初始模型基于二维人脸图像能够得到与二维人脸图像更相像、人脸细节更好的三维人脸模型。

其中，该初始模型可以存储于该计算机设备中，也可以存储于其他计算机设备中，该计算机设备从其他计算机设备处获取该初始模型，本发明实施例对此不作限定。

203、对于每个样本二维人脸图像，计算机设备中的初始模型提取该样本二维人脸图像的全局特征和局部特征。

计算机设备将多个样本二维人脸图像输入初始模型后，该初始模型可以对输入的多个样本二维人脸图像进行处理。具体地，初始模型可以基于每个样本二维人脸图像进行三维人脸模型生成步骤，得到三维人脸模型。

该三维人脸模型生成步骤中，对于每个样本二维人脸图像，初始模型可以先提取样本二维人脸图像的特征，基于该样本二维人脸图像的特征，生成三维人脸模型，这样得到的三维人脸模型与样本二维人脸图像才可以具有相同的特征，二者更相似。

具体地，该初始模型可以获取该样本二维人脸图像的全局特征和局部特征，其中，该全局特征是指对样本二维人脸图像进行特征提取得到的全部特征。局部特征是指对样本二维人脸图像的局部区域进行特征提取得到的特征。例如，该全局特征可以体现该样本二维人脸图像的全部区域，局部特征可以体现该样本二维人脸图像的局部区域，例如，该样本二维人脸图像中人脸的五官。又例如，该局部区域可以为眼睛和鼻子，或眼睛和嘴巴，当然，也可以为其他区域，本发明实施例对此不作限定。该特征提取过程中既考虑到了全局特征，又考虑到了局部特征，这样在对样本二维人脸图像有了整体把握的同时，还能对人脸细节进行进一步优化，从而综合全局特征和局部特征得到的三维人脸模型效果更好。

下面针对每个样本二维人脸图像的全局特征和局部特征的提取过程进行详细说明，具体可以通过下述步骤一至步骤三实现：

步骤一、计算机设备可以基于多个卷积层，对该样本二维人脸图像进行特征提取，得到该样本二维人脸图像的全局特征。

计算机设备可以通过对样本二维人脸图像进行多次卷积，来提取该样本二维人脸图像的全局特征。在一个具体的可能实施例中，该初始模型可以采用人脸视觉几何组(Visual Geometry Group-Face，VGG-Face)网络，初始模型可以使用该VGG-Face网络中的多个卷积层对样本二维人脸图像进行特征提取。在另一个具体的可能实施例中，该初始模型还可以采用其他人脸识别网络实现，例如，可以采用FaceNet,该FaceNet是一种人脸识别网络。本发明实施例对该初始模型具体采用哪种人脸识别网络不作限定。

在一种可能实现方式中，该步骤一可以通过编码器实现，该全局特征可以采用全局特征向量的形式表示。该步骤一可以为：计算机设备可以基于编码器的多个卷积层，对该样本二维人脸图像进行编码，得到该样本二维人脸图像的全局特征向量。

进一步地，该全局特征向量也可以为特征图的形式，例如，可以为矩阵的形式，当然，也可以为其他形式，例如数组的形式，本发明实施例对此不作限定。例如，上一个卷积层均可以对样本二维人脸图像进行处理得到一个特征图，并将该特征图输入下一个卷积层，由该下一个卷积层继续对输入的特征图进行处理，得到一个特征图。

步骤二、计算机设备获取该样本二维人脸图像的关键点的中心位置。

在该步骤二中，计算机设备可以对样本二维人脸图像进行关键点检测，得到该样本二维人脸图像的关键点的位置，其中，该关键点可以是指该人脸的五官和脸部轮廓等部位。例如，人脸可以包括68个关键点。计算机设备可以基于得到的关键点的位置，获取该关键点的中心位置。例如，计算机设备在得到68个关键点的位置时，可以计算该68个关键点的中心位置。其中，该计算机设备进行关键点检测的过程可以采用任一种关键点检测技术实现，本发明实施例对此不作限定。

步骤三、计算机设备基于该中心位置，从该多个卷积层中至少一个目标卷积层得到的特征中，提取部分特征作为该样本二维人脸图像的局部特征。

该步骤二和步骤三为计算机设备获取样本二维人脸图像的局部特征的过程，在该过程中，计算机设备先基于人脸的关键点的中心位置，从样本二维人脸图像的全部特征中截取部分特征，可以得到人脸的五官或脸部轮廓部位的特征，从而在后续生成三维人脸模型时，基于获取到的局部特征，可以使得生成的三维人脸模型中人脸的五官或脸部轮廓处理的更细致。

在一种可能实现方式中，上述步骤一中，上一个卷积层均可以对样本二维人脸图像进行处理得到一个特征图，并将该特征图输入下一个卷积层，由该下一个卷积层继续对输入的特征图进行处理，得到一个特征图。计算机设备获取局部特征时，即可从上述多个卷积层中的某一个或某几个卷积层得到的特征图中截取部分特征。该某一个或某几个卷积层即为至少一个目标卷积层。例如，以该初始模型采用VGG-Face网络为例，该至少一个目标卷积层可以为卷积层con2_2和卷积层con3_3，该至少一个目标卷积层可以由相关技术人员进行设置或调整，本发明实施例对此不作限定。这样对不同层次的卷积层得到的特征进行部分特征的提取，得到的局部特征也包括了人脸的底层信息和高层信息，局部特征更丰富，最终体现在三维人脸模型中人脸细节也更细致。

具体地，不同的目标卷积层可能对应于不同的目标尺寸，对于每个目标卷积层，计算机设备从该目标卷积层得到的特征图中，以该中心位置为中心，截取该目标卷积层对应的目标尺寸的特征图作为该样本二维人脸图像的局部特征。例如，计算机设备以该中心位置为中心，从con2_2得到的特征图中截取大小为64x64的特征图，从con3_3得到的特征图中截取大小为32x32的特征图。该大小为64x64的特征图和该大小为32x32的特征图可以体现该样本二维人脸图像中人脸的五官或脸部轮廓等部位对应的特征。在该局部特征的过程中，可以将该目标卷积层看做局部编码器中的卷积层，基于局部编码器获取得到局部特征。

在一种可能实现方式中，步骤一可以通过编码器实现，全局特征可以采用全局特征向量的形式表示，该步骤三也可以从上述编码器中的目标卷积层中提取局部特征，该局部特征也可以采用局部特征向量的形式表示。该步骤三可以为：计算机设备从该编码器的多个卷积层中至少一个目标卷积层得到的全局特征向量中，提取该全局特征向量的部分特征值，基于该部分特征值，获取该二维人脸图像的第一局部特征向量。相应地，下述步骤204中，计算三维人脸模型参数的过程可以基于第一解码器实现，具体可以参见下述步骤204，本发明实施例在此不多做赘述。

在一个具体的可能实施例中，从该全局特征向量中提取的部分特征值组成的向量与上述步骤一中经过多个卷积层得到的全局特征向量的形式不同，后续还需要基于该全局特征向量和局部特征向量计算三维人脸模型参数，因而，在提取到部分特征值后，计算机设备还可以基于第二解码器，对该部分特征值进行进一步处理，使得得到的局部特征向量与全局特征向量形式相同，更容易融合以计算三维人脸模型参数。

在该实施例中，计算机设备基于该部分特征值，获取该二维人脸图像的第一局部特征向量的过程可以基于第二解码器实现，则上述获取局部特征的过程可以为：计算机设备提取该至少一个目标卷积层得到的全局特征向量中的部分特征值；计算机设备基于第二解码器，对提取到的部分特征值进行解码，得到该二维人脸图像的第一局部特征向量。该第一局部特征向量即用于与全局特征向量结合以获取三维人脸模型参数。

在一种可能实现方式中，人脸可以包括多个部位，例如，眼睛、鼻子、嘴巴等，计算机设备在提取该全局特征中的部分特征时，可以获取到多个区域对应的部分特征，然后可以将该多个区域对应的部分特征进行整合，得到该样本二维人脸图像的局部特征。对不同的目标卷积层得到的部分特征中还可以均包括该多个区域对应的部分特征，如果对多个目标卷积层进行了部分特征提取，计算机设备也需要对该多个目标卷积层对应的部分特征进行整合。

在该实现方式中，对于每个目标卷积层，计算机设备可以提取该目标卷积层中全局特征向量中多个区域对应的部分特征值，基于第二解码器，对提取到的部分特征值进行解码，得到多个区域的第一局部特征向量，每个区域对应于人脸的一个器官部位；计算机设备可以对该多个区域的第一局部特征向量进行拼接，得到该二维人脸图像的第一局部特征向量。

例如，以目标卷积层为con2_2和con3_3，多个区域为左眼、右眼和嘴巴为例，计算机设备在con2_2中可以获取到左眼、右眼和嘴巴的特征，在con3_3中也可以获取到左眼、右眼和嘴巴的特征，也即是，计算机设备获取到了多个层次中多个区域的局部特征。在一个具体示例中，每个层次每个区域的局部特征均可以对应一个第二解码器，计算机设备可以对每个层次每个区域提取到的局部特征进行解码，得到每个层次每个区域对应的第一局部特征向量。计算机设备可以将该多个区域对应的多个第一局部特征向量拼接在一起，得到该二维人脸图像的第一局部特征向量。

204、计算机设备中的初始模型基于该全局特征和局部特征，获取三维人脸模型参数。

对于每个样本二维人脸图像，初始模型在获取到全局特征和局部特征后，可以综合二者，计算三维人脸模型参数，在一种可能实现方式中，该三维人脸模型参数可以为三维可变人脸模型(three dimensional morphable model，3DMM)的参数。

在一种可能实现方式中，初始模型在得到全局特征和局部特征时基于编码器实现，在该步骤204中，初始模型可以基于第一解码器对全局特征和局部特征进行解码，得到三维人脸模型参数。在上述步骤203中可以得知，该全局特征可以为编码得到的全局特征向量，该局部特征可以为编码并解码得到的第一局部特征向量，则该步骤204中，计算机设备可以基于第一解码器，对该全局特征向量和该第一局部特征向量进行解码，得到三维人脸模型参数。

在一个具体的可能实施例中，该第一解码器中可以包括一层全连接层，计算机设备可以基于该全连接层，对该全局特征向量和该第一局部特征向量进行计算，得到三维人脸模型参数。

需要说明的是，该三维人脸模型参数可以包括人脸的纹理信息、表情信息、形状信息等人脸信息。当然，该三维人脸模型参数还可以包括其他人脸信息，例如，姿态信息等，本发明实施例对此不作限定。通过该三维人脸模型参数即可以获知该人脸在纹理、表情、形状上的情况，因而，计算机设备可以下述步骤205，对该三维人脸模型参数进行处理，得到三维人脸模型。

205、计算机设备中的初始模型基于该三维人脸模型参数，输出该样本二维人脸图像对应的三维人脸模型。

该三维人脸模型参数即包括了多种人脸信息，初始模型可以根据该多种人脸信息生成三维人脸模型，使得生成的三维人脸模型的人脸信息与该三维人脸模型参数所指示的人脸信息相同。例如，该三维人脸模型的纹理信息应该与三维人脸模型参数所包括的纹理信息相同，三维人脸模型中人脸的表情应该与三维人脸模型参数所包括的表情信息对应的表情相同，人脸形状同理，在此不多做赘述。

在一种可能实现方式中，该三维人脸模型可以为多个脸部模型的组合，计算机设备可以根据该三维人脸模型参数和多个初始脸部模型，得到三维人脸模型。具体地，该计算机设备可以根据该三维人脸模型参数，计算得到该多个脸部模型的系数，从而对该多个初始脸部模型和对应的系数进行计算，得到多个脸部模型，将该多个脸部模型拼接可以得到该三维人脸模型。

在另一种可能实现方式中，该三维人脸模型可以基于平均人脸模型和该三维人脸模型参数确定，计算机设备可以基于该三维人脸模型参数，获取多个主成分部分的系数，然后将系数作为该主成分部分的权重，对该多个主成分部分进行加权求和，从而在平均人脸模型与该加权求和结果进行求和，得到最终的三维人脸模型。其中，每个主成分部分可以只是人脸形状，也可以是指纹理等，本发明实施例对此不作限定。基于该三维人脸模型参数生成三维人脸模型的过程还可以通过其他方式实现，本发明实施例对具体采用哪种实现方式不作限定。

需要说明的是，上述步骤202至步骤205为调用初始模型，将该多个样本二维人脸图像输入该初始模型中，对于每个样本二维人脸图像，由该初始模型提取该样本二维人脸图像的全局特征和局部特征；基于该全局特征和局部特征，获取三维人脸模型参数，基于该三维人脸模型参数，输出该样本二维人脸图像对应的三维人脸模型的过程，初始模型对每个样本二维人脸图像进行处理，可以得到对应的三维人脸模型。

206、计算机设备中的初始模型对该三维人脸模型进行投影，得到该三维人脸模型对应的二维人脸图像。

初始模型生成三维人脸模型后，可以确定该三维人脸模型与输入的样本二维人脸图像的相似度，从而确定本次人脸模型生成的效果是好还是坏，以衡量该初始模型的人脸模型生成功能，在该初始模型的人脸模型生成功能不好时，可以对初始模型的模型参数进行调整，一直到调整后的初始模型的人脸模型生成功能满足条件时可以停止调整，也即完成了模型训练过程。

初始模型在确定三维人脸模型与样本二维人脸图像的相似度时，可以将该三维人脸模型渲染为二维人脸图像，再去比较渲染得到的二维人脸图像与输入的样本二维人脸图像的相似度。其中，该渲染过程可以为：初始模型基于该全局特征，获取该样本二维人脸图像的拍摄信息，该拍摄信息用于指示拍摄该样本二维人脸图像时的拍摄姿势、光照或拍摄背景中至少一种；初始模型基于该拍摄信息，对该三维人脸模型进行投影，得到该三维人脸模型对应的二维人脸图像。

其中，该拍摄信息体现出来的内容是需要从该样本二维人脸图像的整体得出的，因而初始模型可以基于全局特征进行拍摄信息获取步骤。计算机设备在获取到全局特征后，可以根据该全局特征分析得到该样本二维人脸图像的拍摄信息，也即是，可以获知拍摄者拍摄该样本二维人脸图像的姿势，或者可以获知该样本二维人脸图像是在什么样的光照条件下拍摄得到的，或者可以获知该样本二维人脸图像的拍摄背景是什么样的。这样在投影时基于同样的拍摄姿势、同样的光照情况或同样的拍摄背景下对三维人脸模型进行投影，则可以提高投影得到的二维人脸图像和输入的样本二维人脸图像之间的可比性，也可以使得获取到的相似度更准确。

具体地，计算机设备可以采用正交投影的方式对三维人脸模型进行投影，也可以采用透视投影的方式对三维人脸模型进行投影，当然，还可以采用其他投影方式，本发明实施例对采用的投影方式不作限定。例如，以采用正交投影为例，该投影过程可以为：计算机设备按照该拍摄信息，将该三维人脸模型人脸按照拍摄信息中的拍摄姿势进行旋转，然后计算机设备采用正交投影，把三维人脸模型投影到二维，并根据三维人脸模型的法向量、纹理信息、和光照模型计算得到二维人脸图像中每个像素点的像素值，具体地，该像素值可以为红绿蓝色彩模式(Red Green Blue，RGB)的值。其中，该光照模型可以采用球谐关照模型，也可以采用Phong反射模型(Phong reflection model)，当然，还可以采用其他光照模型，本发明实施例对此不作限定。

207、计算机设备中的初始模型获取该三维人脸模型对应的二维人脸图像和该样本二维人脸图像的相似度。

计算机设备投影得到二维人脸图像后，可以对比该二维人脸图像和输入的样本二维人脸图像，以确定初始模型对样本二维人脸图像进行处理后得到的三维人脸图像是否能够还原该样本二维人脸图像中人脸的特征。

计算机设备可以从多个角度对比两个人脸图像，以得到该两个人脸图像在多个角度上的相似度。具体地，可以既关注人脸底层的信息，例如，人脸的形状、表情、纹理等，也关注人脸高层的语义信息，例如，两个图像中人脸的身份是否一致。在一种可能实现方式中，该步骤207中初始模型获取相似度的过程可以通过下述步骤一至步骤四实现：

步骤一、计算机设备中的初始模型基于该三维人脸模型对应的二维人脸图像的关键点与该样本二维人脸图像对应的关键点的位置，获取第一相似度。

在该步骤一中，初始模型可以关注图像的底层信息，初始模型可以确定两个图像中人脸的关键点位置是否一致，以此来判断两个图像的相似度。在一种可能实现方式中，该第一相似度可以基于第一损失函数确定，该初始模型可以基于第一损失函数、该三维人脸模型对应的二维人脸图像和该样本二维人脸图像，获取第一相似度。例如，该第一损失函数可以为关键点损失(Landmark Loss)函数。当然，该第一损失函数还可以为其他损失函数，在此仅为一种示例说明，本发明实施例对此不作限定。

在一个具体的可能实施例中，该第一相似度可以采用L2距离的表达方式，也即是该第一相似度可以为L2损失，该L2损失又称均方误差(Mean Squared Error，MSE)，也即是，初始模型可以计算两个图像的关键点的位置之间的差值，并计算差值的平方值的期望值。该L2损失越小，则说明两个图像的关键点位置的相似度越大，两个图像的关键点越一致。当然，上述仅为一种示例性说明，该第一相似度还可以采用其他表达方式，例如，L1距离，本发明实施例对此不作限定。

步骤二、计算机设备中的初始模型基于该三维人脸模型对应的二维人脸图像的像素点的像素值与该样本二维人脸图像对应像素点的像素值，获取第二相似度。

在该步骤二中，初始模型可以关注图像的底层信息，初始模型可以确定两个图像中的像素点的像素值的差异，如果相差很大，则两个图像的相似度较低，如果相差很小，则两个图像的相似度较高。

在一种可能实现方式中，该第二相似度可以基于第二损失函数确定，该初始模型可以基于第二损失函数、该三维人脸模型对应的二维人脸图像和该样本二维人脸图像，获取第二相似度。例如，该第二损失函数可以为光度损失(Photometric Loss)函数。当然，该第二损失函数还可以为其他损失函数，在此仅为一种示例说明，本发明实施例对此不作限定。

在一个具体的可能实施例中，该第一相似度可以采用L21距离的表达方式，也即是，初始模型可以计算两个图像对应像素点的像素值之间的L21距离。当然，该第一相似度也可以采用其他表达方式，例如，L2距离，或L1距离等，本发明实施例对此不作限定。

步骤三、计算机设备中的初始模型对该三维人脸模型对应的二维人脸图像和该样本二维人脸图像进行匹配，得到第三相似度，该第三相似度用于指示该二维人脸图像中人脸的身份和该样本二维人脸图像中人脸的身份是否相同。

在该步骤三中，初始模型可以关注两个图像的高层语义信息，初始模型可以确定两个图像中人脸的身份是否一致，并以此作为该初始模型的人脸重建的准确性，这样可以保证生成三维人脸模型后，生成的人脸与输入的二维人脸图像中人脸的身份一致，也即是，通过对两个图像进行人脸识别，均可以正确识别该人脸的身份，且并未因人脸重建过程导致无法识别出该用户的身份。

在一种可能实现方式中，该第三相似度可以基于人脸识别模型确定，也即是，该第三相似度基于人脸识别模型对该三维人脸模型对应的二维人脸图像和该样本二维人脸图像进行人脸识别得到。在该实现方式中，初始模型可以基于人脸识别模型，对该三维人脸模型对应的二维人脸图像和该样本二维人脸图像进行人脸识别，得到第三相似度。

具体地，初始模型可以调用人脸识别模型，将该三维人脸模型对应的二维人脸图像和该样本二维人脸图像输入该人脸识别模型，由该人脸识别模型对该三维人脸模型对应的二维人脸图像和该样本二维人脸图像进行人脸识别，输出第三相似度。其中，该人脸识别模型可以为训练好的模型，初始模型可以使用该人脸识别模型识别图像中人脸的身份。

在一个具体的可能实施例中，该人脸识别模型获取第三相似度的过程可以基于第三损失函数实现，也即是，该初始模型可以基于第三损失函数、该三维人脸模型对应的二维人脸图像和该样本二维人脸图像，获取第三相似度。例如，该第三损失函数可以为感知损失(Perceptual Loss)函数。当然，该第三损失函数还可以为其他损失函数，在此仅为一种示例说明，本发明实施例对此不作限定。

例如，该人脸识别模型可以为VGG-Face网络，将该三维人脸模型对应的二维人脸图像和该样本二维人脸图像输入该VGG-Face网络中，该VGG-Face网络中的多个卷积层可以分别对该二维人脸图像和该样本二维人脸图像进行特征提取，得到两个特征向量，进而可以计算该两个特征向量的欧氏距离，将该欧式距离作为第三相似度。其中，该VGG-Face网络中卷积层进行多次特征提取，PC7层可以输出该两个特征向量。

需要说明的是，使用VGG-Face网络作为人脸识别模型，由于该VGG-Face网络对光照不敏感，可以使得光照颜色和肤色分离，从而学习到更加自然的肤色和更加真实的光照。且形状上通过光影变化和人脸识别信息比对，可以让生成的三维人脸模型的面部结构与输入的二维人脸图像更加相似。综合这两点，本发明提供的方法对不同分辨率、不同光照条件不同背景下的二维人脸图像都比较鲁棒。

进一步地，上述方法中获取单张图片比较容易，这也使得该方法更具有可推广性。在一种可能实现方式中，该方法中，计算机设备还可以对二维人脸图像进行预处理，例如，可以对二维人脸图像进行人脸检测，当该二维人脸图像中包括多个人脸时，可以将该二维人脸图像裁剪为多个人脸对应的多个人脸图像，从而针对每个人脸图像，执行上述生成三维人脸模型的步骤。

在一种可能实现方式中，上述步骤一至步骤三中，初始模型可以分别基于第一损失函数、第二损失函数、第三损失函数，以及该三维人脸模型对应的二维人脸图像和该样本二维人脸图像，获取第一相似度、第二相似度以及第三相似度。上述内容已示出，本发明实施例在此不多做赘述。

需要说明的是，对于该步骤一至步骤三，计算机设备可以无需全部执行该步骤一至步骤三，可以根据步骤四中的设置，初始模型需要基于哪几个角度的相似度，确定两个图像的相似度，则执行上述步骤一至步骤三中的相应的步骤即可。且该步骤一至步骤三的执行顺序可以任意，也即是，该步骤一至步骤三可以按照任意顺序进行排列，也可以由计算机设备同时执行该步骤一至步骤三，本发明实施例对该步骤一至步骤三的执行顺序不作限定。

步骤四、计算机设备中的初始模型基于该第一相似度和该第二相似度中至少一种相似度，以及该第三相似度，获取该三维人脸模型对应的二维人脸图像和该样本二维人脸图像的相似度。

初始模型在获取到多个角度的相似度时，可以综合考虑该多个相似度，获取两个图像的相似度。具体地，该步骤四中可以包括三种情况：

在情况一中，计算机设备中的初始模型基于该第一相似度和该第三相似度，获取该三维人脸模型对应的二维人脸图像和该样本二维人脸图像的相似度。具体地，计算机设备中的初始模型可以对所述第一相似度和该第三相似度进行加权求和，得到该三维人脸模型对应的二维人脸图像和该样本二维人脸图像的相似度。本发明实施例对多个相似度的权重不作限定。

在情况二中，计算机设备中的初始模型基于该第二相似度和该第三相似度，获取该三维人脸模型对应的二维人脸图像和该样本二维人脸图像的相似度。具体地，计算机设备中的初始模型可以对该第二相似度和该第三相似度进行加权求和，得到该三维人脸模型对应的二维人脸图像和该样本二维人脸图像的相似度。本发明实施例对多个相似度的权重不作限定。

在情况三中，计算机设备中的初始模型基于该第一相似度、该第二相似度和该第三相似度，获取该三维人脸模型对应的二维人脸图像和该样本二维人脸图像的相似度。具体地，计算机设备中的初始模型可以对所述第一相似度、该第二相似度和该第三相似度进行加权求和，得到该三维人脸模型对应的二维人脸图像和该样本二维人脸图像的相似度。本发明实施例对多个相似度的权重不作限定。

在上述三种情况中，初始模型既考虑到了图像的底层信息，也考虑到了图像高层的语义信息，这样对该两个图像的分析更全面，更准确，从而可以保证生成的三维人脸模型可以准确还原输入的二维人脸图像的底层和高层信息，还原度高，与原输入图像更相似，更真实。

上述仅提供了三种情况，该初始模型还可以考虑其他角度获取两个图像的相似度，在一种可能实现方式中，上述步骤203中，该初始模型还可以在得到第一局部特征向量后，还可以基于该第一局部特征向量进行重建输入的局部特征，来对比重建的局部特征与直接从全局特征中提取到的局部特征是否一致，获取第四相似度，以该第四相似度来训练局部编码器更好的抓住底层局部信息，使得人脸细节体现的更明显。

具体地，该样本二维人脸图像的局部特征为第一局部特征向量，该第一局部特征向量基于从全局特征中提取到的部分特征值确定。初始模型可以基于该第一局部特征向量，获取第二局部特征向量，该第二局部特征向量的特征值和该从全局特征中提取到的部分特征值的分布情况相同。其中，该第二局部特征向量即为重建得到的局部特征向量。初始模型可以基于该第二局部特征向量和从该全局特征中提取到的对应的部分特征值之间的距离，获取第四相似度。

在一个具体的可能实施例中，该第四相似度可以基于第四损失函数确定，初始模型可以基于第四损失函数、该第二局部特征向量和从该全局特征中提取到的对应的部分特征值，获取第四相似度。例如，该第四损失函数可以为Patch Reconstruction Loss函数。当然，该第四损失函数还可以为其他损失函数，本发明实施例对此不作限定。

其中，上述第二局部特征向量和从全局特征中提取到的部分特征值之间的距离可以为L1距离，也即是，第四相似度可以采用L1距离的表达方式，也即是该第一相似度可以为L1损失，该L1损失又称平均绝对误差(Mean Absolute Deviation，MAE)，也即是，初始模型可以计算第二局部特征向量和对应的特征值之间的偏差的绝对值的平均值。该L1损失越小，则说明重建的第二局部特征向量和提取到的部分特征值之间的相似度越大，也说明局部编码器更好地抓住了局部信息。当然，上述仅为一种示例性说明，该第四相似度还可以采用其他表达方式，例如，L2距离，本发明实施例对此不作限定。

相应地，上述步骤四中，初始模型可以基于该第一相似度和该第二相似度中至少一种相似度、该第三相似度和该第四相似度，获取该三维人脸模型对应的二维人脸图像和该样本二维人脸图像的相似度。也即是，在上述步骤四中的三种情况中，初始模型还可以考虑第四相似度，具体可以对第一相似度和该第二相似度中至少一种相似度、第三相似度和第四相似度进行加权求和，得到该三维人脸模型对应的二维人脸图像和该样本二维人脸图像的相似度，本发明实施例对具体采用哪种实现方式不作限定。

208、计算机设备基于该相似度，对该初始模型的模型参数进行调整，直至符合目标条件时停止，得到人脸模型生成模型。

得到两个图像之间的相似度后，则可以基于相似度对模型参数进行调整，上述步骤203至步骤205为一次迭代过程，在每次迭代过程后，该计算机设备可以执行步骤206至步骤208，基于相似度对训练的初始模型的模型参数进行调整，直到符合目标条件时，人脸模型生成模型训练完成。

其中，该目标条件可以为相似度收敛，也可以为迭代次数达到目标次数，也即是上述每次迭代过程后对模型参数进行调整，直到某次迭代后相似度收敛，或者某次迭代后迭代次数达到目标次数时，人脸模型生成模型训练完成。当然，该目标条件还可以为其他预设条件，需要说明的是，该目标条件可以由相关技术人员预先设置，本发明实施例对此不作限定。

下面通过一个具体示例对上述人脸模型生成模型的训练过程进行说明，参见图3，该人脸模型生成模型中可以包括三个模块，第一个模块是编码器(encoder)，负责把输入图片编码成特征向量(对应于上述步骤203)；第二个模块是解码器，负责把特征向量解码成3DMM、姿势以及光照参数(对应于上述步骤204和步骤206中所示的拍摄信息的获取过程)；第三个模块是人脸识别网络，负责判断原图和渲染图是否为同一个人(对应于上述步骤207中所示的第三相似度的获取过程)。

输入图片通过基于VGG-Face结构的全局编码器，得到全局特征向量。随后，局部编码器会关注VGG-Face中conv2_2和conv3_3层的眼睛和嘴巴的特征，并利用它们编码出局部特征向量。这些不同层次和不同区域的局部特征向量会接起来，跟全局特征向量一起送到解码器。由于姿势和光照是全局信息，所以由全局特征向量通过一层全连接层解码得到姿势和光照参数。而脸部形状、表情和纹理等3DMM参数则由全局和局部特征向量共同解码得到，这样既可以保留全局信息，也可以保留局部细节。然后，拟合的3DMM参数可以重建一个3D人脸模型，再利用姿势和光照参数将3D人脸模型重新渲染成一张2D图片，该渲染过程是模拟原始输入图片的光照条件和相机拍照角度以及内参对3D人脸模型进行拍照的过程。这张渲染的2D输出图片，会跟输入图片做比较，并通过这些比较结果的反馈信息，不断地更新编码器和解码器的网络权重。

本发明实施例通过样本二维人脸图像对初始模型进行训练，得到人脸模型生成模型，在训练过程中，初始模型提取了样本二维人脸图像的全局特征和局部特征，综合二者生成的三维人脸模型的人脸细节体现的更明显，人脸模型生成模型的生成效果更好。

进一步地，本发明实施例中还可以根据三维人脸模型投影得到的二维人脸图像与输入的样本二维人脸图像进行了底层信息和高层的语义信息的对比，以此来调整模型参数，使得生成的三维人脸模型在底层信息和高层的语音信息上均能准确还原输入的原始图像，还原度高，三维人脸模型更真实。

上述图2所示实施例中对人脸模型生成模型的训练过程进行了详细说明，在计算机设备需要生成三维人脸模型时即可基于上述训练好的人脸模型生成模型生成三维人脸模型过程，得到三维人脸模型。下面通过图4所示实施例对基于人脸模型生成模型生成三维人脸模型过程进行详细说明。

图4是本发明实施例提供的一种三维人脸模型生成方法的流程图，该三维人脸模型生成方法可以应用于计算机设备上，参见图4，该方法可以包括以下步骤：

401、计算机设备获取二维人脸图像。

计算机设备可以通过多种方式获取该二维人脸图像，例如，在用户想要生成三维人脸模型时，可以基于该计算机设备的图像采集功能，对自己或其他人进行图像采集，得到二维人脸图像。又例如，该计算机设备可以根据第一操作指令，从目标地址下载该二维人脸图像。又例如，该计算机设备可以根据第二操作指令，从本地存储的图像中选择一个图像作为该二维人脸图像。具体该获取过程采用哪种方式可以基于应用场景确定，本发明实施例对此不作限定。

在一种可能实现方式中，该步骤401还可以为：当接收到人脸模型生成指令时，计算机设备获取二维人脸图像。该人脸模型生成指令可以由人脸模型生成操作触发，在计算机设备检测到人脸模型生成操作时，可以获取该人脸模型生成操作触发的人脸模型生成指令，并根据该人脸模型生成指令，执行该步骤401。当然，该人脸模型生成指令还可以为其他计算机设备发送至该计算机设备，本发明实施例对此不作限定。

402、计算机设备调用人脸模型生成模型。

其中，该人脸模型生成模型用于提取该二维人脸图像的全局特征和局部特征，基于该全局特征和局部特征，获取三维人脸模型参数，基于该三维人脸模型参数，生成该二维人脸图像对应的三维人脸模型。

该人脸模型生成模型可以基于上述图2所示的模型训练过程训练得到。在计算机设备有人脸模型生成需求时，可以调用该训练好的人脸模型生成模型生成三维人脸模型。

403、计算机设备将该二维人脸图像输入该人脸模型生成模型中，由该人脸模型生成模型提取该二维人脸图像的全局特征和局部特征。

该步骤403与上述步骤203同理，计算机设备将二维人脸图像输入人脸模型生成模型后，该人脸模型生成模型可以对输入的二维人脸图像进行处理。该三维人脸模型生成步骤中，人脸模型生成模型可以先提取二维人脸图像的特征，基于该二维人脸图像的特征生成三维人脸模型。

具体地，该人脸模型生成模型可以获取该二维人脸图像的全局特征和局部特征，其中，该全局特征是指对二维人脸图像进行特征提取得到的全部特征。局部特征是指对二维人脸图像的局部区域进行特征提取得到的特征。例如，该全局特征可以体现该二维人脸图像的全部区域，局部特征可以体现该二维人脸图像的局部区域，例如，该二维人脸图像中人脸的五官。又例如，该局部区域可以为眼睛和鼻子，或眼睛和嘴巴，当然，也可以为其他区域，本发明实施例对此不作限定。该特征提取过程中既考虑到了全局特征，又考虑到了局部特征，这样在对二维人脸图像有了整体把握的同时，还能对人脸细节进行进一步优化，从而综合全局特征和局部特征得到的三维人脸模型效果更好。

同理地，该步骤403中二维人脸图像的全局特征和局部特征的提取过程也可以通过步骤一至步骤三实现：

步骤一、计算机设备可以基于多个卷积层，对该二维人脸图像进行特征提取，得到该二维人脸图像的全局特征。

步骤二、计算机设备获取该二维人脸图像的关键点的中心位置。

步骤三、计算机设备基于该中心位置，从该多个卷积层中至少一个目标卷积层得到的特征中，提取部分特征作为该二维人脸图像的局部特征。

该步骤一至步骤三均与上述步骤203中所示内容同理，在一种可能实现方式中，对于每个目标卷积层，计算机设备从该目标卷积层得到的特征图中，以该中心位置为中心，截取该目标卷积层对应的目标尺寸的特征图作为该二维人脸图像的局部特征。

与步骤203中所示内容同理地，全局特征的提取过程可以为：计算机设备中的人脸模型生成模型基于编码器的多个卷积层，对该二维人脸图像进行编码，得到该二维人脸图像的全局特征向量。相应地，局部特征的提取过程可以为：计算机设备中的人脸模型生成模型从该编码器的多个卷积层中至少一个目标卷积层得到的全局特征向量中，提取该全局特征向量的部分特征值，基于该部分特征值，获取该二维人脸图像的第一局部特征向量。

同理地，在局部编码器后也可以设置有第二解码器，计算机设备中的人脸模型生成模型可以提取该至少一个目标卷积层得到的全局特征向量中的部分特征值；基于第二解码器，对提取到的部分特征值进行解码，得到该二维人脸图像的第一局部特征向量。

需要说明的是，该步骤403中所示内容均与上述步骤203中所示内容同理，该步骤203还有一些内容在该步骤403中并未示出，但均可以应用于步骤403中，由于该步骤403和步骤203同理，本发明实施例在此不多做赘述。

404、计算机设备中的人脸模型生成模型基于该全局特征和局部特征，获取三维人脸模型参数。

该步骤404与上述步骤204同理，人脸模型生成模型可以基于全局特征和局部特征，计算得到三维人脸模型参数，同理地，在一种可能实现方式中，计算机设备可以基于第一解码器，对该全局特征向量和该第一局部特征向量进行解码，得到三维人脸模型参数。本发明实施例在此不多做赘述。

405、计算机设备中的人脸模型生成模型基于该三维人脸模型参数，输出该二维人脸图像对应的三维人脸模型。

该步骤405与上述步骤205同理，得到三维人脸模型参数后，人脸模型生成模型还可以基于该三维人脸模型参数计算得到三维人脸模型，也即是，人脸模型生成模型基于该三维人脸模型参数生成二维人脸图像对应的三维人脸模型，从而输出该生成的三维人脸模型。同理地，该生成过程可以采用步骤205中所示的任一种方式，本发明实施例在此不多赘述。

需要说明的是，该步骤403至步骤405为将该二维人脸图像输入该人脸模型生成模型中，输出该二维人脸图像对应的三维人脸模型的过程，在该过程中既关注了全局特征，又关注了局部特征，从而综合二者获取三维人脸模型，这样得到的三维人脸模型相比于只根据局部特征得到的三维人脸模型，人脸细节体现的更明显，人脸细节处理的更精细，还原度高，从而三维人脸模型更真实。

在一种可能实现方式中，该方法中，计算机设备还可以对二维人脸图像进行预处理，例如，可以对二维人脸图像进行人脸检测，当该二维人脸图像中包括多个人脸时，可以将该二维人脸图像裁剪为多个人脸对应的多个人脸图像，从而针对每个人脸图像，执行上述生成三维人脸模型的步骤。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图5是本发明实施例提供的一种人脸模型生成装置的结构示意图，参见图5，该装置可以包括：

获取模块501，用于获取二维人脸图像；

调用模块502，用于调用人脸模型生成模型，该人脸模型生成模型用于提取该二维人脸图像的全局特征和局部特征，基于该全局特征和局部特征，获取三维人脸模型参数，基于该三维人脸模型参数，生成该二维人脸图像对应的三维人脸模型；

生成模块503，用于将该二维人脸图像输入该人脸模型生成模型中，输出该二维人脸图像对应的三维人脸模型。

在一种可能实现方式中，该生成模块503用于：

基于多个卷积层，对该二维人脸图像进行特征提取，得到该二维人脸图像的全局特征；

获取该二维人脸图像的关键点的中心位置；

基于该中心位置，从该多个卷积层中至少一个目标卷积层得到的特征中，提取部分特征作为该二维人脸图像的局部特征。

在一种可能实现方式中，该生成模块503用于对于每个目标卷积层，从该目标卷积层得到的特征图中，以该中心位置为中心，截取该目标卷积层对应的目标尺寸的特征图作为该二维人脸图像的局部特征。

在一种可能实现方式中，该生成模块503用于：

基于编码器的多个卷积层，对该二维人脸图像进行编码，得到该二维人脸图像的全局特征向量；

相应地，该生成模块503还用于从该编码器的多个卷积层中至少一个目标卷积层得到的全局特征向量中，提取该全局特征向量的部分特征值，基于该部分特征值，获取该二维人脸图像的第一局部特征向量；

相应地，该生成模块503还用于基于第一解码器，对该全局特征向量和该第一局部特征向量进行解码，得到三维人脸模型参数。

在一种可能实现方式中，该生成模块503用于提取该至少一个目标卷积层得到的全局特征向量中的部分特征值；基于第二解码器，对提取到的部分特征值进行解码，得到该二维人脸图像的第一局部特征向量。

在一种可能实现方式中，该获取模块501还用于获取多个样本二维人脸图像；

该调用模块502，还用于调用初始模型，将该多个样本二维人脸图像输入该初始模型中，对于每个样本二维人脸图像，由该初始模型提取该样本二维人脸图像的全局特征和局部特征；基于该全局特征和局部特征，获取三维人脸模型参数，基于该三维人脸模型参数，输出该样本二维人脸图像对应的三维人脸模型；

该装置还包括：

投影模块，用于对该三维人脸模型进行投影，得到该三维人脸模型对应的二维人脸图像；

该获取模块501还用于获取该三维人脸模型对应的二维人脸图像和该样本二维人脸图像的相似度；

调整模块，用于基于该相似度，对该初始模型的模型参数进行调整，直至符合目标条件时停止，得到人脸模型生成模型。

在一种可能实现方式中，该投影模块还用于：

基于该全局特征，获取该样本二维人脸图像的拍摄信息，该拍摄信息用于指示拍摄该样本二维人脸图像时的拍摄姿势、光照或拍摄背景中至少一种；

基于该拍摄信息，对该三维人脸模型进行投影，得到该三维人脸模型对应的二维人脸图像。

在一种可能实现方式中，该获取模块501还用于：

基于该三维人脸模型对应的二维人脸图像的关键点与该样本二维人脸图像对应的关键点的位置，获取第一相似度；

基于该三维人脸模型对应的二维人脸图像的像素点的像素值与该样本二维人脸图像对应像素点的像素值，获取第二相似度；

对该三维人脸模型对应的二维人脸图像和该样本二维人脸图像进行匹配，得到第三相似度，该第三相似度用于指示该二维人脸图像中人脸的身份和该样本二维人脸图像中人脸的身份是否相同；

基于该第一相似度和该第二相似度中至少一种相似度，以及该第三相似度，获取该三维人脸模型对应的二维人脸图像和该样本二维人脸图像的相似度。

在一种可能实现方式中，该获取模块501还用于基于人脸识别模型，对该三维人脸模型对应的二维人脸图像和该样本二维人脸图像进行人脸识别，得到第三相似度。

在一种可能实现方式中，该获取模块501还用于分别基于第一损失函数、第二损失函数、第三损失函数，以及该三维人脸模型对应的二维人脸图像和该样本二维人脸图像，获取第一相似度、第二相似度以及第三相似度。

在一种可能实现方式中，该样本二维人脸图像的局部特征为第一局部特征向量，该第一局部特征向量基于从全局特征中提取到的部分特征值确定；

相应地，该获取模块501还用于：

基于该第一局部特征向量，获取第二局部特征向量，该第二局部特征向量的特征值和该从全局特征中提取到的部分特征值的分布情况相同；

基于该第二局部特征向量和从该全局特征中提取到的对应的部分特征值之间的距离，获取第四相似度；

相应地，该获取模块501还用于：

基于该第一相似度和该第二相似度中至少一种相似度、该第三相似度和该第四相似度，获取该三维人脸模型对应的二维人脸图像和该样本二维人脸图像的相似度。

在一种可能实现方式中，该获取模块501还用于基于第四损失函数、该第二局部特征向量和从该全局特征中提取到的对应的部分特征值，获取第四相似度。

本发明实施例提供的装置，通过人脸模型生成模型，对二维人脸图像进行处理，生成三维人脸模型，在生成过程中既提取了全局特征，又提取了局部特征，从而综合二者获取三维人脸模型，这样得到的三维人脸模型相比于只根据局部特征得到的三维人脸模型，人脸细节体现的更明显，人脸细节处理的更精细，还原度高，从而三维人脸模型更真实。

需要说明的是：上述实施例提供的人脸模型生成装置在生成三维人脸模型时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的人脸模型生成装置与人脸模型生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述计算机设备可以被提供为下述图6所示的终端，也可以被提供为下述图7所示的服务器，本发明实施例对此不作限定。

图6是本发明实施例提供的一种终端的结构示意图。该终端600可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本发明中方法实施例提供的三维人脸模型生成方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本发明对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时，由处理器601根据用户对显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制显示屏605的显示亮度。具体地，当环境光强度较高时，调高显示屏605的显示亮度；当环境光强度较低时，调低显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图7是本发明实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)701和一个或一个以上的存储器702，其中，该存储器702中存储有至少一条指令，该至少一条指令由该处理器701加载并执行以实现上述各个方法实施例提供的三维人脸模型生成方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的三维人脸模型生成方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种三维人脸模型生成方法，其特征在于，所述方法包括：

获取二维人脸图像；

2.根据权利要求1所述的方法，其特征在于，所述提取所述二维人脸图像的全局特征和局部特征，包括：

基于多个卷积层，对所述二维人脸图像进行特征提取，得到所述二维人脸图像的全局特征；

获取所述二维人脸图像的关键点的中心位置；

基于所述中心位置，从所述多个卷积层中至少一个目标卷积层得到的特征中，提取部分特征作为所述二维人脸图像的局部特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所述中心位置，从所述多个卷积层中至少一个目标卷积层得到的特征中，提取部分特征作为所述二维人脸图像的局部特征，包括：

对于每个目标卷积层，从所述目标卷积层得到的特征图中，以所述中心位置为中心，截取所述目标卷积层对应的目标尺寸的特征图作为所述二维人脸图像的局部特征。

4.根据权利要求2所述的方法，其特征在于，所述基于多个卷积层，对所述二维人脸图像进行特征提取，得到所述二维人脸图像的全局特征，包括：

基于编码器的多个卷积层，对所述二维人脸图像进行编码，得到所述二维人脸图像的全局特征向量；

相应地，所述基于所述中心位置，从所述多个卷积层中至少一个目标卷积层得到的特征中，提取部分特征作为所述二维人脸图像的局部特征，包括：

从所述编码器的多个卷积层中至少一个目标卷积层得到的全局特征向量中，提取所述全局特征向量的部分特征值，基于所述部分特征值，获取所述二维人脸图像的第一局部特征向量；

相应地，所述基于所述全局特征和局部特征，获取三维人脸模型参数，包括：

基于第一解码器，对所述全局特征向量和所述第一局部特征向量进行解码，得到三维人脸模型参数。

5.根据权利要求4所述的方法，其特征在于，所述从所述编码器的多个卷积层中至少一个目标卷积层得到的全局特征向量中，提取所述全局特征向量的部分特征值，基于所述部分特征值，获取所述二维人脸图像的第一局部特征向量，包括：

提取所述至少一个目标卷积层得到的全局特征向量中的部分特征值；基于第二解码器，对提取到的部分特征值进行解码，得到所述二维人脸图像的第一局部特征向量。

6.根据权利要求1所述的方法，其特征在于，所述人脸模型生成模型的训练过程包括：

获取多个样本二维人脸图像；

调用初始模型，将所述多个样本二维人脸图像输入所述初始模型中，对于每个样本二维人脸图像，由所述初始模型提取所述样本二维人脸图像的全局特征和局部特征；基于所述全局特征和局部特征，获取三维人脸模型参数，基于所述三维人脸模型参数，输出所述样本二维人脸图像对应的三维人脸模型；

对所述三维人脸模型进行投影，得到所述三维人脸模型对应的二维人脸图像；

获取所述三维人脸模型对应的二维人脸图像和所述样本二维人脸图像的相似度；

基于所述相似度，对所述初始模型的模型参数进行调整，直至符合目标条件时停止，得到人脸模型生成模型。

7.根据权利要求6所述的方法，其特征在于，所述对所述三维人脸模型进行投影，得到所述三维人脸模型对应的二维人脸图像，包括：

基于所述全局特征，获取所述样本二维人脸图像的拍摄信息，所述拍摄信息用于指示拍摄所述样本二维人脸图像时的拍摄姿势、光照或拍摄背景中至少一种；

基于所述拍摄信息，对所述三维人脸模型进行投影，得到所述三维人脸模型对应的二维人脸图像。

8.根据权利要求6所述的方法，其特征在于，所述获取所述三维人脸模型对应的二维人脸图像和所述样本二维人脸图像的相似度，包括：

基于所述三维人脸模型对应的二维人脸图像的关键点与所述样本二维人脸图像对应的关键点的位置，获取第一相似度；

基于所述三维人脸模型对应的二维人脸图像的像素点的像素值与所述样本二维人脸图像对应像素点的像素值，获取第二相似度；

对所述三维人脸模型对应的二维人脸图像和所述样本二维人脸图像进行匹配，得到第三相似度，所述第三相似度用于指示所述二维人脸图像中人脸的身份和所述样本二维人脸图像中人脸的身份是否相同；

基于所述第一相似度和所述第二相似度中至少一种相似度，以及所述第三相似度，获取所述三维人脸模型对应的二维人脸图像和所述样本二维人脸图像的相似度。

9.根据权利要求8所述的方法，其特征在于，所述对所述三维人脸模型对应的二维人脸图像和所述样本二维人脸图像进行匹配，得到第三相似度，包括：

基于人脸识别模型，对所述三维人脸模型对应的二维人脸图像和所述样本二维人脸图像进行人脸识别，得到第三相似度。

10.根据权利要求8所述的方法，其特征在于，所述第一相似度、所述第二相似度以及所述第三相似度的获取过程包括：

分别基于第一损失函数、第二损失函数、第三损失函数，以及所述三维人脸模型对应的二维人脸图像和所述样本二维人脸图像，获取第一相似度、第二相似度以及第三相似度。

11.根据权利要求8所述的方法，其特征在于，所述样本二维人脸图像的局部特征为第一局部特征向量，所述第一局部特征向量基于从全局特征中提取到的部分特征值确定；

相应地，所述方法还包括：

基于所述第一局部特征向量，获取第二局部特征向量，所述第二局部特征向量的特征值和所述从全局特征中提取到的部分特征值的分布情况相同；

基于所述第二局部特征向量和从所述全局特征中提取到的对应的部分特征值之间的距离，获取第四相似度；

相应地，所述基于所述第一相似度和所述第二相似度中至少一种相似度，以及所述第三相似度，获取所述三维人脸模型对应的二维人脸图像和所述样本二维人脸图像的相似度，包括：

基于所述第一相似度和所述第二相似度中至少一种相似度、所述第三相似度和所述第四相似度，获取所述三维人脸模型对应的二维人脸图像和所述样本二维人脸图像的相似度。

12.根据权利要求11所述的方法，其特征在于，所述基于所述第二局部特征向量和从所述全局特征中提取到的对应的部分特征值之间的距离，获取第四相似度，包括：

基于第四损失函数、所述第二局部特征向量和从所述全局特征中提取到的对应的部分特征值，获取第四相似度。

13.一种三维人脸模型生成装置，其特征在于，所述装置包括：

获取模块，用于获取二维人脸图像；

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的三维人脸模型生成方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的三维人脸模型生成方法所执行的操作。