CN113763236A

CN113763236A - 一种商业短视频根据地域动态调整脸部特征的方法

Info

Publication number: CN113763236A
Application number: CN202111066835.3A
Authority: CN
Inventors: 李晓龙; 高竞竞; 孙伟
Original assignee: Second Shadow Workshop Beijing Technology Co ltd
Current assignee: Second Shadow Workshop Beijing Technology Co ltd
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2021-12-07

Abstract

本发明公开了一种商业短视频根据地域动态调整脸部特征的方法，包括如下步骤：S1、人脸定位：根据人脸特征区域所具有的颜色特性和空间分布，在图像中定位出眼睛、鼻子的五官的主要特征位置，然后再确定其填充区域；S2、特征转换：完成输入人脸肤色、表情的特征向目标人脸肤色、表情的转换的过程；S3、目标数据集选取：根据选择的地区，选择不同的数据集进行训练；S4、目标输出：通过这几个目标数据集来进行训练，获得不同地区对应的VAE解码器，从而输出不同地区对应的不同脸部特征的图片，通过神经网络模型训练，将原始的视频进行分帧获取图像，然后根据不同的地域，获取相应地域的脸部特征，完成图像特征转换，最终拼接合成输出新的视频。

Description

一种商业短视频根据地域动态调整脸部特征的方法

技术领域

本发明涉及商业短视频技术领域，具体为一种商业短视频根据地域动态调整脸部特征的方法。

背景技术

短视频的制作一般都由演员、导演、剪辑师等工作人员共同完成，这样会受到演员片酬、档期、制作团队水平等诸多因素限制，现在有的短视频已经采用AI合成的技术完成，可以大大降低制作视频的人力成本，便于广告主更加灵活的投放视频；

有些短视频推广的产品属于国际化产品，投放范围可能不只是在国内，也有可能是在欧美地区或者东南亚地区，这样的话，意味着视频中的演员脸部特征也应该相应地切换成该地区的脸部特征，这样才能保证一个比较良好的投放效果；

所以我们需要一种可以动态调整脸部特征的方法，从而制作出针对不同地区的商业短视频，并进行投放推广。

发明内容

本发明提供一种商业短视频根据地域动态调整脸部特征的方法，可以有效解决上述背景技术中提出有些短视频推广的产品属于国际化产品，投放范围可能不只是在国内，也有可能是在欧美地区或者东南亚地区，这样的话，意味着视频中的演员脸部特征也应该相应地切换成该地区的脸部特征，这样才能保证一个比较良好的投放效果的问题。

为实现上述目的，本发明提供如下技术方案：一种商业短视频根据地域动态调整脸部特征的方法，包括如下步骤：

S1、人脸定位：根据人脸特征区域所具有的颜色特性和空间分布，在图像中定位出眼睛、鼻子的五官的主要特征位置，然后再确定其填充区域；

S2、特征转换：完成输入人脸肤色、表情的特征向目标人脸肤色、表情的转换的过程；

S3、目标数据集选取：根据选择的地区，选择不同的数据集进行训练；

S4、目标输出：通过这几个目标数据集来进行训练，获得不同地区对应的VAE解码器，从而输出不同地区对应的不同脸部特征的图片。

根据上述技术方案，所述S1中该部分分为了两个步骤：人脸检测和人脸对齐，为了提高人脸检测和对齐速度，采用了MTCNN+DAN网络模型完成了本部分；

DAN网络在正向传播过程中信息存在损失，因此在Feed Forward NN模块最后全连接层之前加入attention机制，提高网络学习能力。

根据上述技术方案，所述S2中采用了VAE+DCGAN网络进行训练，由于VAE使用了极大似然函数使得其生成的图形模糊，而DCGAN的generator输入都是随机的，比如采样某个噪声输入，训练起来比较难；

VAE是由一个编码器一个解码器组成，编码器可以将数据映射到一个低维的空间分布，而解码器可以将这个分布还原回原始数据，因此解码器的作用就相当于是GAN中的generator生成器；

训练的过程主要分为以下三步：

A1、首先，给VAE的编码器输入了一张原始视频分帧后的图片，并用VAE的解码器A来重新还原原始图片的脸部特征；

A2、然后，把目标数据集的图片输入至同一个编码器，并用VAE的另一个解码器B来还原目标人的脸部特征；

A3、不断重复上面的操作，直到两个解码器能够分别还原出两个人的脸，同时编码器也能够学会通过抓取人脸关键信息，从而分辨出二者不同的脸部特征。

根据上述技术方案，等到以上的训练步骤都完成以后，我们就能把一张原始的照片输入至编码器，然后直接把代码传输至解码器B，这时候解码器B会作出这样的判定：这不是原始的脸部特征，需要输出目标脸部特征；

通过这样的过程，我们就完成了特征转换，然后我们继续通过DCGAN网络进行继续训练，提高结果的准确度；

总体来说，VAE会使生成的数据更加精准，DCGAN网络会使生成的人脸更为清晰，显著提升了特征转换的效果。

根据上述技术方案，所述S3中数据集一般可以采用公开的数据集进行训练，将会准备以下几个数据集以供选择：

PubFig: Public Figures Face Databas哥伦比亚大学的公众人物脸部数据集，包含有200个人的58k+人脸图像，主要用于非限制场景下的人脸识别，如果选择欧美地区，则选择这个数据集进行训练；

CASIA-FaceV5 该数据集包含了来自500个人的2500张亚洲人脸图片，如果选择中日韩地区，则选择这个数据集进行训练；

FairFace：缓解种族偏见人脸数据集，包含 108,501 张图像，强调数据集中种族构成的均衡，定义了 7 个种族组：白人、黑人、印度人、东亚人、东南亚人、中东人和拉丁人，图像是从YFCC-100M Flickr数据集中收集的，并标注了种族、性别和年龄组，如果选择东南亚地区，则选择这个数据集中的东南亚人进行训练。

与现有技术相比，本发明的有益效果：本发明结构科学合理，使用安全方便，通过神经网络模型训练，将原始的视频进行分帧获取图像，然后根据不同的地域，获取相应地域的脸部特征，完成图像特征转换，最终拼接合成输出新的视频，

在特征转换阶段使用了VAE+DCGAN混合模型进行训练，VAE的作用是通过设置好的地区选择相应的数据集来进行训练，从而获得不同的VAE解码器，这样就可以还原出不同脸部特征的图像，然后将解码后的结果作为DCGAN的生成器继续参与训练，进一步细化图像，最终使得拼接合成的视频更加清晰，视觉效果更好。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1是本发明的方法步骤结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：如图1所示，本发明提供技术方案一种商业短视频根据地域动态调整脸部特征的方法，包括如下步骤：

根据上述技术方案，S1中该部分分为了两个步骤：人脸检测和人脸对齐，为了提高人脸检测和对齐速度，采用了MTCNN+DAN网络模型完成了本部分；

根据上述技术方案，S2中采用了VAE+DCGAN网络进行训练，由于VAE使用了极大似然函数使得其生成的图形模糊，而DCGAN的generator输入都是随机的，比如采样某个噪声输入，训练起来比较难；

训练的过程主要分为以下三步：

根据上述技术方案，S3中数据集一般可以采用公开的数据集进行训练，将会准备以下几个数据集以供选择：

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种商业短视频根据地域动态调整脸部特征的方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种商业短视频根据地域动态调整脸部特征的方法，其特征在于，所述S1中该部分分为了两个步骤：人脸检测和人脸对齐，采用了MTCNN+DAN网络模型完成了本部分；

DAN网络在正向传播过程中信息存在损失，因此在Feed Forward NN模块最后全连接层之前加入attention机制。

3.根据权利要求1所述的一种商业短视频根据地域动态调整脸部特征的方法，其特征在于，所述S2中采用了VAE+DCGAN网络进行训练，训练的过程主要分为以下三步：

4.根据权利要求3所述的一种商业短视频根据地域动态调整脸部特征的方法，其特征在于，训练步骤都完成以后，我们就能把一张原始的照片输入至编码器，然后直接把代码传输至解码器B，这时候解码器B会作出这样的判定：这不是原始的脸部特征，需要输出目标脸部特征，然后继续通过DCGAN网络进行继续训练，提高结果的准确度。

5.根据权利要求1所述的一种商业短视频根据地域动态调整脸部特征的方法，其特征在于，所述S3中数据集采用公开的数据集进行训练，将会准备以下几个数据集以供选择：

PubFig: Public Figures Face Databas哥伦比亚大学的公众人物脸部数据集，包含有200个人的58k+人脸图像；

CASIA-FaceV5 该数据集包含了来自500个人的2500张亚洲人脸图片；

FairFace：缓解种族偏见人脸数据集，包含 108,501 张图像，强调数据集中种族构成的均衡，定义了 7 个种族组：白人、黑人、印度人、东亚人、东南亚人、中东人和拉丁人，图像是从YFCC-100M Flickr数据集中收集的，并标注了种族、性别和年龄组。