CN113470182A

CN113470182A - 人脸几何特征编辑方法及深度人脸重塑编辑方法

Info

Publication number: CN113470182A
Application number: CN202111029442.5A
Authority: CN
Inventors: 高林; 陈姝宇; 姜悦人
Original assignee: Zhongke Computing Technology Innovation Research Institute
Current assignee: Zhongke Computing Technology Innovation Research Institute
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-10-01
Anticipated expiration: 2041-09-03
Also published as: CN113470182B

Abstract

本发明涉及一种人脸几何特征编辑方法及深度人脸重塑编辑方法，为：获取几何基础人脸图像，从几何基础人脸图像上检测出人脸关键点；根据几何基础人脸图像上五官位置将人脸关键点连接成网格，将网格输入图卷积变分自动编码器进行编码；图卷积变分自动编码器在人脸数据集上针对人脸关键点训练而成，将自然人脸脸型参数化，使其隐空间的特征能解码出自然光滑且符合人脸几何特征的人脸关键点；获取人脸关键点中用户确定的不动点和经用户拖动的拖动点，图卷积变分自动编码器根据拖动点拖动前后坐标差和不动点位置优化人脸关键点中其余点位置和人脸关键点连接成的网格；将优化出的网格渲染成人脸几何特征图。本发明适用于计算机视觉、计算机图形学领域。

Description

人脸几何特征编辑方法及深度人脸重塑编辑方法

技术领域

本发明涉及一种人脸几何特征编辑方法及深度人脸重塑编辑方法。适用于计算机视觉、计算机图形学领域。

背景技术

人脸图像编辑是计算机视觉和图形学重要的研究方向之一，在大众传媒和影视工业中有着广泛的应用。早期传统的人脸编辑方法主要通过图像扭曲和像素计算渲染来实现编辑，难以生成细节和处理眼睛和嘴的隐藏区域。

近年来可交互的人脸编辑方法可大致分为两类：一类是从条件输入整体深度生成人脸进行编辑，如Zhu等人于2020年发表于Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition的“Sean: Image synthesis with semanticregion-adaptive normalization”；另一类是将局部修改视为图像补全的方法，如Jo等人于2019年发表于Proceedings of the IEEE/CVF International Conference onComputer Vision的SC-FEGAN: Face Editing Generative Adversarial Network WithUser's Sketch and Color。

上述方法虽然能生成自然的结果，但是需要用户提供高质量绘画的逼近网络训练数据的线稿图输入或语义图输入。当输入的线稿图或语义图不够真实，结果就会对应出现瑕疵。这对于初学者或没有绘画技巧的用户而言使用起来相对困难。

目前也有一些工作对输入的线稿输入进行优化，如Yang等人于2020年发表于Proceedings of the European conference on computer vision的“Deep plasticsurgery: Robust and controllable image editing with human-drawn sketches”，但是要达到良好效果依然需要用户的对输入进行调整。

现有的传统的液化变形等编辑方法无法自然高效地处理嘴和眼睛的大尺度编辑，编辑程度有限，如图4所示。近年的人脸编辑将语义图和线稿图作为条件输入网络训练，生成结果高度拟合到输入，而初学者新手用户的输入往往比较抽象化，与训练集相差较大。大部分工作直接将用户输入网络因而生成结果存在瑕疵。目前也存在一些工作对用户输入的线稿进行了优化，有一定的效果，但是仍然需要用户反复微调，因为线稿图编辑的自由度太高，进行优化后相应地用户控制的精准度也下降了。基于绘画的交互在控制的精准性和生成结果的自然程度之间存在权衡，现有人脸编辑技术对于普通用户来说不易使用，编辑效率低。

发明内容

本发明要解决的技术问题是：针对上述存在的问题，提供一种人脸几何特征编辑方法及深度人脸重塑编辑方法。

本发明所采用的技术方案是：一种人脸几何特征编辑方法，其特征在于：

获取几何基础人脸图像，并从几何基础人脸图像上检测出人脸关键点；

根据几何基础人脸图像上五官位置将人脸关键点连接成网格，将网格输入图卷积变分自动编码器进行编码；所述图卷积变分自动编码器在人脸数据集上针对人脸关键点训练而成，将自然人脸脸型参数化，使其隐空间的特征能解码出自然光滑且符合人脸几何特征的人脸关键点；

获取人脸关键点中用户确定的不动点和经用户拖动的拖动点，图卷积变分自动编码器根据拖动点拖动前后坐标差和不动点位置优化人脸关键点中其余点位置和人脸关键点连接成的网格；

将优化出的网格渲染成人脸几何特征图。

所述图卷积变分自动编码器的训练包括：

统计计算人脸数据库中关键点的平均关键点；

进行Delaunay三角化确定平均关键点的连接关系固定拓扑，并将连接关系作为图卷积的临边关系；

在人脸数据集上训练一个针对人脸平面关键点的图卷积变分自动编码器，训练过程与经典变分自动编码器过程相同，用L2损失函数约束解码输出的关键点坐标与输入一致，通过训练将自然人脸脸型参数化，使其隐空间的特征能解码出自然光滑且符合人脸几何特征的人脸关键点。

所述图卷积变分自动编码器根据拖动点拖动前后坐标差和不动点位置优化人脸关键点中其余点位置和人脸关键点连接成的网格，包括：

将用户拖动点后的网格视为局部缺失顶点的网格，将不动点和拖动点外其余人脸关键点视为可自由移动的缺失点；最初的网格用于隐空间编码初始化；

根据最小化隐空间解码出的网格和设置不动点和拖动点后的网格对应的相异点，来迭代优化出最终变形网格。

一种深度人脸重塑编辑方法，其特征在于：

将人脸几何特征图根据人脸部位进行分割，得到人脸各部位对应的局部几何特征；所述人脸几何特征图根据所述人脸几何特征编辑方法编辑而成；

将人脸外貌特征图根据人脸部位输入相应部位的局部生成模块，提取人脸各部位对应的局部外貌特征；

通过局部生成模块基于局部几何特征和局部外貌特征生成人脸各部位对应的包含相应局部几何特征和局部外貌特征的人脸局部特征；

通过经训练的全局融合模块将人脸各部位对应的人脸局部特征融合生成具有所述人脸几何特征图几何特征及所述人脸外貌特征图外貌特征的人脸编辑图像。

所述局部生成模块基于局部几何特征和局部外貌特征生成人脸各部位对应的包含相应局部几何特征和局部外貌特征的人脸局部特征，包括：

局部几何特征输入得到局部生成模块的卷积骨架中；

人脸外貌特征图经过卷积层编码到高维特征，特征按照位置编码拆分为h·w个索引的序列，其中h和w是高维特征的第三维和第四维的维数，其维度对应图像上的高和宽；

每个序列和可学习的位置编码参数合并后送入Transformer编码器进行重组，得到骨架中Sandwich归一化层对应的参数并注入，最后卷积骨架输出编辑的图像。

合并在局部生成模块中最后降维到3的卷积层之前的特征。

所述全局融合模块使用U-net结构的网络将人脸各部位对应的人脸局部特征融合到一起。

所述局部生成模块和全局融合模块的训练包括：

在局部生成模块和全局融合模块中均采用一个双尺度PatchGAN鉴别器

来匹配生成结果和实际结果之间的分布，如下式：

其中

为判别器的输出，而

为生成器的输出，I _in为人脸外貌特征图，L _in为人脸几何特征图。

所述局部生成模块和全局融合模块的训练包括：

采用了Pix2PixHD中所用的多尺度判别器的特征匹配损失函数，如下式：

其中

是判别器层数，

是第i层特征元素的个数，k是多尺度判别器的尺度序号，I _in为人脸外貌特征图，L _in为人脸几何特征图，I _out为输出的结果图像。

约束输入输出图像转换到CIELAB颜色空间中的a和b通道的色差，如下式：

其中Lab()_ab为将RGB图像转换为CIELAB颜色空间并取出a和b通道的函数。

在局部生成模块和全局融合模块训练中，采用预训练网络VGG19对输入输出图像编码，作高层特征损失函数；

在全局融合模块训练中使用预训练人脸识别网络ArcFace对输入输出进行判别，计算特征余弦相似度来作损失函数，如下式：

其中

代指人脸识别网络ArcFace，VGG代指预训练网络VGG19；

和

为局部生成模块中输入和输出的人脸图像；

和

是全局融合模块中输入和输出的人脸图像。

一种深度人脸重塑编辑装置，其特征在于：

几何特征提取单元，用于将人脸几何特征图根据人脸部位进行分割，得到人脸各部位对应的局部几何特征；所述人脸几何特征图根据权利要求1~3任意一项所述人脸几何特征编辑方法编辑而成；

外貌特征提取单元，用于将人脸外貌特征图根据人脸部位输入相应部位的局部生成模块，提取人脸各部位对应的局部外貌特征；

局部生成单元，用于通过局部生成模块基于局部几何特征和局部外貌特征生成人脸各部位对应的包含相应局部几何特征和局部外貌特征的人脸局部特征；

全局融合单元，用于通过经训练的全局融合模块将人脸各部位对应的人脸局部特征融合生成具有所述人脸几何特征图几何特征及所述人脸外貌特征图外貌特征的人脸图像。

一种存储介质，其上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现权利要求4~11任意一项所述深度人脸重塑编辑方法的步骤。

一种计算机设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现所述深度人脸重塑编辑方法的步骤。

一种交互界面，其特征在于，包括：

展示区Ⅰ，用于展示用户上传的几何基础人脸图像及几何基础人脸图像检测出的、可供用户操作的人脸关键点；

展示区Ⅱ，用于展示所述展示区Ⅰ中人脸关键点对应的人脸几何特征图；

展示区Ⅲ，用于展示用户上传的人脸外貌特征图；

展示区Ⅳ，用于展示采用所述深度人脸重塑编辑方法编辑生成的人脸编辑图像。

本发明的有益效果是：本发明利用图卷积网络编码人脸关键点，根据用户拖动点和当前网络输出对应点作损失，迭代优化隐含层向量，最后获得对应变形的形状，从而可根据用户拖动较快地迭代优化出变形后的人脸关键点形状。

本发明将人脸外貌特征图根据部位划分，分为四个部位（双眼、鼻子、嘴巴和背景），每个部位单独用基于Transformer设计的外貌编码器进行局部编码，生成相应的局部外貌特征，然后根据变形的关键点图生成对应的局部几何特征，最后用一个U-net结构的全局融合模块将各部分特征拼接合成最终结果，接合成的图像同时具有用户拖动编辑后的几何形状特征和人脸外貌特征图的外貌特征。

本发明基于人脸关键点变形结合深度生成网络对人脸肖像进行重塑编辑，补充了现有人脸编辑技术手段方案，相比其他基于绘画的编辑方式，本发明拖拽编辑更易于普通用户使用。

附图说明

图1为实施例的网络构架结构图，其中该半边展示了人脸关键点变形网络及优化流程，右半边展示了局部到全局的生成网络。

图2为实施例中用户动态编辑图片的过程示意图。

图3展示了实施例的多例形状编辑效果。

图4展示了实施例与传统图像扭曲方法效果的对比。

图5展示了实施例两个连续编辑的效果。

图6展示了本实施例的实时拖拽交互界面。

具体实施方式

如图1所示，本实施例为一种基于关键点拖拽的可实时交互的深度人脸重塑编辑方法，具体包括以下步骤：

将变形编辑好的人脸几何特征图（语义掩模图）根据人脸部位进行分割，分割成双眼、鼻子、嘴巴和背景四个部位，得到人脸各个部位分别对应的局部几何特征，并输入到局部生成模块卷积骨架中；

将人脸外貌特征图I _in（人脸真实图像）根据人脸部位（双眼、鼻子、嘴巴和背景）输入相应的局部生成模块，提取人脸各部位对应的局部外貌特征；

通过经训练的全局融合模块将人脸各部位对应的人脸局部特征融合生成人脸编辑图像I _out。理想情况下，人脸编辑图像I _out有着与人脸几何特征图相同的面部几何特征和与人脸外貌特征图相同的面部外貌特征。

本实施例中人脸几何特征图基于几何基础人脸图像采用人脸几何特征编辑方法编辑而成。

本例中人脸几何特征编辑方法包括以下步骤：

获取几何基础人脸图像（人脸真实图像，可与人脸外貌特征图I _in为同一张图或不同张），并从几何基础人脸图像上检测出人脸关键点

；

根据几何基础人脸图像上五官位置将关键点连接成2D平面的网格

，将网格输入图卷积变分自动编码器（VAE）进行编码；

获取用户对人脸关键点

的操作，包括用户将人脸关键点

中一些点设为不动点，以及对人脸关键点

中一些点的拖动操作，图卷积变分自动编码器根据拖动前后关键点坐标差作损失函数来迭代优化网格的隐空间编码，使迭代优化后网络输出的网格

符合用户拖动编辑同时又保留原来的形状特征；

获得编辑好的网格后将网格渲染成语义掩模图，将其作为深度人脸重塑编辑方法中输入的人脸几何特征图。

本实施例将3D网格变形的思路运用到平面人脸关键点的变形中，之所以直接采用平面2D关键点，是因为目前人脸平面关键点检测已经十分准确，相对而言3D人脸重建不仅数据更大重建更慢而且相比2D关键点往往误差更大。2D关键点数据紧凑，能很好地刻画人脸的形状特征。

本实施例首先统计计算人脸数据库中关键点的平均关键点，然后进行Delaunay三角化确定顶点的连接关系固定拓扑，并将连接关系作为图卷积的临边关系，随后在人脸数据集上训练一个针对人脸平面关键点的图卷积变分自动编码器（VAE），训练过程与经典变分自动编码器过程相同，用L2损失函数约束解码输出的关键点坐标与输入一致，通过训练将自然人脸脸型参数化，使其隐空间的特征能解码出自然光滑且符合人脸几何特征分布的人脸关键点。

用户拖动点后的网格将被视为局部缺失顶点的网格

，即除了用户设定的不动点和拖动点外，其余点视为可自由移动的缺失点，将最初的网格

用于隐空间编码初始化。本例将最小化隐空间解码出的网格和用户定义的网格对应的相异点，来迭代优化出最终变形网格，如下式所示：

其中

代表解码器，

是用于选出和

相同点序列的矩阵。

本实施例中为了更好地使网络学到人脸外貌纹理分布的特点以及更好地控制局部的细节，结合Transformer编码器设计局部生成模块，在各结构化区域图像上进行了训练。如图1右半区域所示，人脸外貌特征图I _in先经过卷积层编码到高维特征，然后特征按照位置编码被拆分为h·w个索引的序列（h和w是高维特征的第三维和第四维的维数，其维度对应图像上的高和宽），每个序列可视为外貌的高维特征的 “单词”，每个序列和可学习的位置编码参数合并后将送入Transformer编码器进行重组，得到卷积语义掩模图骨架中Sandwich归一化层对应的参数并注入，最后卷积骨架输出编辑的图像。

本例的局部生成模块中将随机噪声注入到卷积骨架中，以加强生成的鲁棒性和避免细节模糊。

为了将各部统一合成，本实施例中全局融合模块使用一个U-net结构的网络将四个部分的输出融合到一起。为了尽可能保留局部生成模块的生成细节，同时尽量消除各部位生成结果间风格的差异，合并在局部生成模块中最后降维到3的卷积层之前的特征，因为这些特征保持了较高的维度信息丰富，同时其尺寸和输入图片尺寸一致，方便各部位直接对齐。

本实施例中全局融合模块将每个人脸局部特征按照每部分在图片中坐标位置复制到输入图片尺寸大小的零值张量中，然后四个和输入图片尺寸相同大小的特征再在维度上连接构成U-net网络的输入。

为了尽量不改变包括人脸以外的未修改的图片部位，本实施例用关键点凸包将背景扣出，送入卷积网络编码并注入到了全局融合模块的解码器中，使最终生成结果能很好地与背景融合。

为使局部生成模块和全局融合模块能学到人脸脸型的分布以及提高生成编辑图像质量，本实施例对数据集进行了一系列预处理，并设计利用了多种损失函数来约束生成结果。本实施例先训练局部生成模块，然后再固定局部生成模块的参数，训练全局融合模块。

本实施例使用CelebA-HQ作为训练数据集，并进行了一系列预处理：

首先，通过深度人脸对齐识别方法筛选掉人脸左右角度在

以外的侧脸；

然后用Face++稠密人脸关键点预测API对数据集人脸进行检测，每张人脸保存772个关键点并渲染出语义掩膜图。

本实施例同时筛除掉带有墨镜的图片，因为这种情况下眼部关键点难以预估且无法表示眼镜的形状。四个部位双眼、鼻子、嘴巴、背景的窗口大小依次设置为128×320、160×160、192×192、512×512，所有图像都缩放到512×512大小。

本实施例以生成对抗网络经典的训练方式进行训练，在局部生成模块和全局融合模块中均采用一个双尺度PatchGAN鉴别器

来匹配生成结果和实际结果之间的分布，如下式所示：

其中

为判别器的输出，而

为生成器的输出，

为输入的人脸几何特征图，

为输入的人脸外貌特征图。

为了实现对局部生成模块和全局融合模块更鲁棒的训练，本例采用Pix2PixHD中所用的多尺度判别器的特征匹配损失函数，如下式：

其中

是判别器层数，

为了使生成结果的色调保持一致，本实施例对输入输出图像转换到CIELAB颜色空间中的a和b通道的色差进行了约束，如下式：

编辑生成结果好坏关键之一是要保持人物的特征属性，本实施例针对局部和全局阶段，使用了混合的损失函数进行控制。在局部和全局网络训练中，都采用预训练网络VGG19对输入输出图像编码，作高层特征损失函数。在全局融合中为了使人物特征更好地保持，本实施例还使用预训练人脸识别网络ArcFace对输入输出进行判别，计算特征余弦相似度来作损失函数，如下式中所示：

其中

代指人脸识别网络ArcFace，需要注意的是该网络计算的损失函数只适用于全局人脸，不适合用于局部的训练。，VGG代指预训练网络VGG19；

和

为局部生成模块中输入和输出的人脸图像；

和

是全局融合模块中输入和输出的人脸图像。

几何特征主要包括两方面的内容：1. 外形信息，例如五官的形状、人物脸型、头发长短等；2. 几何细节，即人脸的几何特征的细节的表达，例如人物脸部的皱纹、头发的走向等。

外貌特征主要包括三个内容：1. 颜色信息，例如人脸的发色、肤色、唇色等色彩信息；2. 材质信息，即人脸的头发和皮肤的质感，例如皮肤的光滑程度等；3. 光照信息，即光照条件对人脸的明暗的影响，例如光线的亮暗、阴影的变化等信息。在某些情况下，以上因素对外观的影响是相互的，如光照变化可能会影响肤色的表达，外观特征并未对以上每个因素之间做明确的划分。

图2为实施例中用户动态编辑图片的过程示意图。本实施例对普通用户来说易于使用，用户拖动一个人脸关键点后，将实时进行关键点网格变形，自动生成编辑效果，用户可以对各部位进行连续编辑。

图3展示了实施例的多例形状编辑效果，用户可以快速拖拽人脸关键点以实现诸如降低发际线（最左列）、表情控制、瘦脸等功能，对应人脸关键点连线图在图3第一行列出，拖动的点在小框中显示，小框中箭头为拖动方向。

图4展示了本实施例与传统图像扭曲方法效果的对比，第一张图像为原始图形，第二张图像为变形前后的特征点，第三张图像为传统方法的结果，最后一张图像为本实施例的处理结果。传统图像扭曲的方法难以处理眼睛和嘴的部位，这里的例子把嘴拉开后，图像扭曲的方法无法生成牙齿等图像因此非常不自然，而本实施例的方法可以自动生成对应缺失的部分。

图5展示了本实施例中两个连续编辑的效果，对应人脸关键点连线图在第一行和第三行列出。

图6展示了本实施例中可供用户实时拖拽的交互界面，交互界面包括展示区Ⅰ、展示区Ⅱ和展示区Ⅳ，其中展示区Ⅰ用于展示用户上传的几何基础人脸图像及几何基础人脸图像检测出的、可供用户操作的人脸关键点；展示区Ⅱ用于展示人脸关键点对应的人脸几何特征图；展示区Ⅳ用于展示采用深度人脸重塑编辑方法编辑生成的人脸编辑图像。该交互界面对应的深度人脸重塑编辑方法中几何基础人脸图像和人脸外貌特征图相同，故人脸外貌特征图不设置另外的展示区域。

本实施例还提供一种深度人脸重塑编辑装置，包括几何特征提取单元、外貌特征提取单元、局部生成单元和全局融合单元，其中几何特征提取单元用于将人脸几何特征图根据人脸部位进行分割，得到人脸各部位对应的局部几何特征；外貌特征提取单元用于将人脸外貌特征图根据人脸部位输入相应部位的局部生成模块，提取人脸各部位对应的局部外貌特征；局部生成单元用于通过局部生成模块基于局部几何特征和局部外貌特征生成人脸各部位对应的包含相应局部几何特征和局部外貌特征的人脸局部特征；全局融合单元用于通过经训练的全局融合模块将人脸各部位对应的人脸局部特征融合生成具有所述人脸几何特征图几何特征及所述人脸外貌特征图外貌特征的人脸图像。

本实施例还提供一种存储介质，其上存储有能被处理器执行的计算机程序，该计算机程序被执行时实现本实施例中深度人脸重塑编辑方法的步骤。

本实施例还提供一种计算机设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，该计算机程序被执行时实现本实施例中深度人脸重塑编辑方法的步骤。