CN113763236A - 一种商业短视频根据地域动态调整脸部特征的方法 - Google Patents
一种商业短视频根据地域动态调整脸部特征的方法 Download PDFInfo
- Publication number
- CN113763236A CN113763236A CN202111066835.3A CN202111066835A CN113763236A CN 113763236 A CN113763236 A CN 113763236A CN 202111066835 A CN202111066835 A CN 202111066835A CN 113763236 A CN113763236 A CN 113763236A
- Authority
- CN
- China
- Prior art keywords
- face
- facial features
- regions
- data set
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001815 facial effect Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000006243 chemical reaction Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000009432 framing Methods 0.000 claims abstract description 6
- 210000001508 eye Anatomy 0.000 claims abstract description 4
- 210000000697 sensory organ Anatomy 0.000 claims abstract description 4
- 238000001514 detection method Methods 0.000 claims description 5
- 210000000887 face Anatomy 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000000116 mitigating effect Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 abstract description 3
- 230000015572 biosynthetic process Effects 0.000 abstract description 2
- 238000003786 synthesis reaction Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种商业短视频根据地域动态调整脸部特征的方法,包括如下步骤:S1、人脸定位:根据人脸特征区域所具有的颜色特性和空间分布,在图像中定位出眼睛、鼻子的五官的主要特征位置,然后再确定其填充区域;S2、特征转换:完成输入人脸肤色、表情的特征向目标人脸肤色、表情的转换的过程;S3、目标数据集选取:根据选择的地区,选择不同的数据集进行训练;S4、目标输出:通过这几个目标数据集来进行训练,获得不同地区对应的VAE解码器,从而输出不同地区对应的不同脸部特征的图片,通过神经网络模型训练,将原始的视频进行分帧获取图像,然后根据不同的地域,获取相应地域的脸部特征,完成图像特征转换,最终拼接合成输出新的视频。
Description
技术领域
本发明涉及商业短视频技术领域,具体为一种商业短视频根据地域动态调整脸部特征的方法。
背景技术
短视频的制作一般都由演员、导演、剪辑师等工作人员共同完成,这样会受到演员片酬、档期、制作团队水平等诸多因素限制,现在有的短视频已经采用AI合成的技术完成,可以大大降低制作视频的人力成本,便于广告主更加灵活的投放视频;
有些短视频推广的产品属于国际化产品,投放范围可能不只是在国内,也有可能是在欧美地区或者东南亚地区,这样的话,意味着视频中的演员脸部特征也应该相应地切换成该地区的脸部特征,这样才能保证一个比较良好的投放效果;
所以我们需要一种可以动态调整脸部特征的方法,从而制作出针对不同地区的商业短视频,并进行投放推广。
发明内容
本发明提供一种商业短视频根据地域动态调整脸部特征的方法,可以有效解决上述背景技术中提出有些短视频推广的产品属于国际化产品,投放范围可能不只是在国内,也有可能是在欧美地区或者东南亚地区,这样的话,意味着视频中的演员脸部特征也应该相应地切换成该地区的脸部特征,这样才能保证一个比较良好的投放效果的问题。
为实现上述目的,本发明提供如下技术方案:一种商业短视频根据地域动态调整脸部特征的方法,包括如下步骤:
S1、人脸定位:根据人脸特征区域所具有的颜色特性和空间分布,在图像中定位出眼睛、鼻子的五官的主要特征位置,然后再确定其填充区域;
S2、特征转换:完成输入人脸肤色、表情的特征向目标人脸肤色、表情的转换的过程;
S3、目标数据集选取:根据选择的地区,选择不同的数据集进行训练;
S4、目标输出:通过这几个目标数据集来进行训练,获得不同地区对应的VAE解码器,从而输出不同地区对应的不同脸部特征的图片。
根据上述技术方案,所述S1中该部分分为了两个步骤:人脸检测和人脸对齐,为了提高人脸检测和对齐速度,采用了MTCNN+DAN网络模型完成了本部分;
DAN网络在正向传播过程中信息存在损失,因此在Feed Forward NN模块最后全连接层之前加入attention机制,提高网络学习能力。
根据上述技术方案,所述S2中采用了VAE+DCGAN网络进行训练,由于VAE使用了极大似然函数使得其生成的图形模糊,而DCGAN的generator输入都是随机的,比如采样某个噪声输入,训练起来比较难;
VAE是由一个编码器一个解码器组成,编码器可以将数据映射到一个低维的空间分布,而解码器可以将这个分布还原回原始数据,因此解码器的作用就相当于是GAN中的generator生成器;
训练的过程主要分为以下三步:
A1、首先,给VAE的编码器输入了一张原始视频分帧后的图片,并用VAE的解码器A来重新还原原始图片的脸部特征;
A2、然后,把目标数据集的图片输入至同一个编码器,并用VAE的另一个解码器B来还原目标人的脸部特征;
A3、不断重复上面的操作,直到两个解码器能够分别还原出两个人的脸,同时编码器也能够学会通过抓取人脸关键信息,从而分辨出二者不同的脸部特征。
根据上述技术方案,等到以上的训练步骤都完成以后,我们就能把一张原始的照片输入至编码器,然后直接把代码传输至解码器B,这时候解码器B会作出这样的判定:这不是原始的脸部特征,需要输出目标脸部特征;
通过这样的过程,我们就完成了特征转换,然后我们继续通过DCGAN网络进行继续训练,提高结果的准确度;
总体来说,VAE会使生成的数据更加精准,DCGAN网络会使生成的人脸更为清晰,显著提升了特征转换的效果。
根据上述技术方案,所述S3中数据集一般可以采用公开的数据集进行训练,将会准备以下几个数据集以供选择:
PubFig: Public Figures Face Databas哥伦比亚大学的公众人物脸部数据集,包含有200个人的58k+人脸图像,主要用于非限制场景下的人脸识别,如果选择欧美地区,则选择这个数据集进行训练;
CASIA-FaceV5 该数据集包含了来自500个人的2500张亚洲人脸图片,如果选择中日韩地区,则选择这个数据集进行训练;
FairFace:缓解种族偏见人脸数据集,包含 108,501 张图像,强调数据集中种族构成的均衡,定义了 7 个种族组:白人、黑人、印度人、东亚人、东南亚人、中东人和拉丁人,图像是从YFCC-100M Flickr数据集中收集的,并标注了种族、性别和年龄组,如果选择东南亚地区,则选择这个数据集中的东南亚人进行训练。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,通过神经网络模型训练,将原始的视频进行分帧获取图像,然后根据不同的地域,获取相应地域的脸部特征,完成图像特征转换,最终拼接合成输出新的视频,
在特征转换阶段使用了VAE+DCGAN混合模型进行训练,VAE的作用是通过设置好的地区选择相应的数据集来进行训练,从而获得不同的VAE解码器,这样就可以还原出不同脸部特征的图像,然后将解码后的结果作为DCGAN的生成器继续参与训练,进一步细化图像,最终使得拼接合成的视频更加清晰,视觉效果更好。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明的方法步骤结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1所示,本发明提供技术方案一种商业短视频根据地域动态调整脸部特征的方法,包括如下步骤:
S1、人脸定位:根据人脸特征区域所具有的颜色特性和空间分布,在图像中定位出眼睛、鼻子的五官的主要特征位置,然后再确定其填充区域;
S2、特征转换:完成输入人脸肤色、表情的特征向目标人脸肤色、表情的转换的过程;
S3、目标数据集选取:根据选择的地区,选择不同的数据集进行训练;
S4、目标输出:通过这几个目标数据集来进行训练,获得不同地区对应的VAE解码器,从而输出不同地区对应的不同脸部特征的图片。
根据上述技术方案,S1中该部分分为了两个步骤:人脸检测和人脸对齐,为了提高人脸检测和对齐速度,采用了MTCNN+DAN网络模型完成了本部分;
DAN网络在正向传播过程中信息存在损失,因此在Feed Forward NN模块最后全连接层之前加入attention机制,提高网络学习能力。
根据上述技术方案,S2中采用了VAE+DCGAN网络进行训练,由于VAE使用了极大似然函数使得其生成的图形模糊,而DCGAN的generator输入都是随机的,比如采样某个噪声输入,训练起来比较难;
VAE是由一个编码器一个解码器组成,编码器可以将数据映射到一个低维的空间分布,而解码器可以将这个分布还原回原始数据,因此解码器的作用就相当于是GAN中的generator生成器;
训练的过程主要分为以下三步:
A1、首先,给VAE的编码器输入了一张原始视频分帧后的图片,并用VAE的解码器A来重新还原原始图片的脸部特征;
A2、然后,把目标数据集的图片输入至同一个编码器,并用VAE的另一个解码器B来还原目标人的脸部特征;
A3、不断重复上面的操作,直到两个解码器能够分别还原出两个人的脸,同时编码器也能够学会通过抓取人脸关键信息,从而分辨出二者不同的脸部特征。
根据上述技术方案,等到以上的训练步骤都完成以后,我们就能把一张原始的照片输入至编码器,然后直接把代码传输至解码器B,这时候解码器B会作出这样的判定:这不是原始的脸部特征,需要输出目标脸部特征;
通过这样的过程,我们就完成了特征转换,然后我们继续通过DCGAN网络进行继续训练,提高结果的准确度;
总体来说,VAE会使生成的数据更加精准,DCGAN网络会使生成的人脸更为清晰,显著提升了特征转换的效果。
根据上述技术方案,S3中数据集一般可以采用公开的数据集进行训练,将会准备以下几个数据集以供选择:
PubFig: Public Figures Face Databas哥伦比亚大学的公众人物脸部数据集,包含有200个人的58k+人脸图像,主要用于非限制场景下的人脸识别,如果选择欧美地区,则选择这个数据集进行训练;
CASIA-FaceV5 该数据集包含了来自500个人的2500张亚洲人脸图片,如果选择中日韩地区,则选择这个数据集进行训练;
FairFace:缓解种族偏见人脸数据集,包含 108,501 张图像,强调数据集中种族构成的均衡,定义了 7 个种族组:白人、黑人、印度人、东亚人、东南亚人、中东人和拉丁人,图像是从YFCC-100M Flickr数据集中收集的,并标注了种族、性别和年龄组,如果选择东南亚地区,则选择这个数据集中的东南亚人进行训练。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,通过神经网络模型训练,将原始的视频进行分帧获取图像,然后根据不同的地域,获取相应地域的脸部特征,完成图像特征转换,最终拼接合成输出新的视频,
在特征转换阶段使用了VAE+DCGAN混合模型进行训练,VAE的作用是通过设置好的地区选择相应的数据集来进行训练,从而获得不同的VAE解码器,这样就可以还原出不同脸部特征的图像,然后将解码后的结果作为DCGAN的生成器继续参与训练,进一步细化图像,最终使得拼接合成的视频更加清晰,视觉效果更好。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种商业短视频根据地域动态调整脸部特征的方法,其特征在于:包括如下步骤:
S1、人脸定位:根据人脸特征区域所具有的颜色特性和空间分布,在图像中定位出眼睛、鼻子的五官的主要特征位置,然后再确定其填充区域;
S2、特征转换:完成输入人脸肤色、表情的特征向目标人脸肤色、表情的转换的过程;
S3、目标数据集选取:根据选择的地区,选择不同的数据集进行训练;
S4、目标输出:通过这几个目标数据集来进行训练,获得不同地区对应的VAE解码器,从而输出不同地区对应的不同脸部特征的图片。
2.根据权利要求1所述的一种商业短视频根据地域动态调整脸部特征的方法,其特征在于,所述S1中该部分分为了两个步骤:人脸检测和人脸对齐,采用了MTCNN+DAN网络模型完成了本部分;
DAN网络在正向传播过程中信息存在损失,因此在Feed Forward NN模块最后全连接层之前加入attention机制。
3.根据权利要求1所述的一种商业短视频根据地域动态调整脸部特征的方法,其特征在于,所述S2中采用了VAE+DCGAN网络进行训练,训练的过程主要分为以下三步:
A1、首先,给VAE的编码器输入了一张原始视频分帧后的图片,并用VAE的解码器A来重新还原原始图片的脸部特征;
A2、然后,把目标数据集的图片输入至同一个编码器,并用VAE的另一个解码器B来还原目标人的脸部特征;
A3、不断重复上面的操作,直到两个解码器能够分别还原出两个人的脸,同时编码器也能够学会通过抓取人脸关键信息,从而分辨出二者不同的脸部特征。
4.根据权利要求3所述的一种商业短视频根据地域动态调整脸部特征的方法,其特征在于,训练步骤都完成以后,我们就能把一张原始的照片输入至编码器,然后直接把代码传输至解码器B,这时候解码器B会作出这样的判定:这不是原始的脸部特征,需要输出目标脸部特征,然后继续通过DCGAN网络进行继续训练,提高结果的准确度。
5.根据权利要求1所述的一种商业短视频根据地域动态调整脸部特征的方法,其特征在于,所述S3中数据集采用公开的数据集进行训练,将会准备以下几个数据集以供选择:
PubFig: Public Figures Face Databas哥伦比亚大学的公众人物脸部数据集,包含有200个人的58k+人脸图像;
CASIA-FaceV5 该数据集包含了来自500个人的2500张亚洲人脸图片;
FairFace:缓解种族偏见人脸数据集,包含 108,501 张图像,强调数据集中种族构成的均衡,定义了 7 个种族组:白人、黑人、印度人、东亚人、东南亚人、中东人和拉丁人,图像是从YFCC-100M Flickr数据集中收集的,并标注了种族、性别和年龄组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111066835.3A CN113763236A (zh) | 2021-09-13 | 2021-09-13 | 一种商业短视频根据地域动态调整脸部特征的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111066835.3A CN113763236A (zh) | 2021-09-13 | 2021-09-13 | 一种商业短视频根据地域动态调整脸部特征的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113763236A true CN113763236A (zh) | 2021-12-07 |
Family
ID=78795106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111066835.3A Pending CN113763236A (zh) | 2021-09-13 | 2021-09-13 | 一种商业短视频根据地域动态调整脸部特征的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113763236A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024051760A1 (zh) * | 2022-09-09 | 2024-03-14 | 杭州阿里巴巴海外互联网产业有限公司 | 视频处理方法及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778376A (zh) * | 2012-10-23 | 2014-05-07 | 索尼公司 | 信息处理装置和存储介质 |
CN110956079A (zh) * | 2019-10-12 | 2020-04-03 | 深圳壹账通智能科技有限公司 | 人脸识别模型构建方法、装置、计算机设备和存储介质 |
CN111027465A (zh) * | 2019-12-09 | 2020-04-17 | 韶鼎人工智能科技有限公司 | 一种基于光照迁移的视频人脸替换方法 |
CN111402118A (zh) * | 2020-03-17 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 图像替换方法、装置、计算机设备和存储介质 |
CN112102157A (zh) * | 2020-09-09 | 2020-12-18 | 咪咕文化科技有限公司 | 视频换脸方法、电子设备和计算机可读存储介质 |
-
2021
- 2021-09-13 CN CN202111066835.3A patent/CN113763236A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778376A (zh) * | 2012-10-23 | 2014-05-07 | 索尼公司 | 信息处理装置和存储介质 |
CN110956079A (zh) * | 2019-10-12 | 2020-04-03 | 深圳壹账通智能科技有限公司 | 人脸识别模型构建方法、装置、计算机设备和存储介质 |
CN111027465A (zh) * | 2019-12-09 | 2020-04-17 | 韶鼎人工智能科技有限公司 | 一种基于光照迁移的视频人脸替换方法 |
CN111402118A (zh) * | 2020-03-17 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 图像替换方法、装置、计算机设备和存储介质 |
CN112102157A (zh) * | 2020-09-09 | 2020-12-18 | 咪咕文化科技有限公司 | 视频换脸方法、电子设备和计算机可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024051760A1 (zh) * | 2022-09-09 | 2024-03-14 | 杭州阿里巴巴海外互联网产业有限公司 | 视频处理方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rastgoo et al. | Sign language production: A review | |
US11727717B2 (en) | Data-driven, photorealistic social face-trait encoding, prediction, and manipulation using deep neural networks | |
CN112949535B (zh) | 一种基于生成式对抗网络的人脸数据身份去识别方法 | |
CN111783658B (zh) | 基于双生成对抗网络的两阶段表情动画生成方法 | |
CN111861945B (zh) | 一种文本引导的图像修复方法和系统 | |
Li et al. | Two-stage single image reflection removal with reflection-aware guidance | |
CN108389239A (zh) | 一种基于条件多模式网络的微笑脸部视频生成方法 | |
WO2023024653A1 (zh) | 图像处理方法、图像处理装置、电子设备以及存储介质 | |
Rastgoo et al. | All you need in sign language production | |
CN111354246A (zh) | 一种用于帮助聋哑人交流的系统及方法 | |
DE102021109050A1 (de) | Durch ein neuronales generative adversarial netzwerk unterstützte videokompression und -übertragung | |
CN117575746A (zh) | 虚拟试穿方法、装置、电子设备及存储介质 | |
US20240169701A1 (en) | Affordance-based reposing of an object in a scene | |
CN113763236A (zh) | 一种商业短视频根据地域动态调整脸部特征的方法 | |
Ju et al. | Improving skip connection in u-net through fusion perspective with mamba for image dehazing | |
CN116258627A (zh) | 一种极端退化人脸图像超分辨率恢复系统和方法 | |
CN118116583A (zh) | 面向医学诊疗数据的跨模态对抗性噪音生成系统及方法 | |
CN117152283B (zh) | 一种利用扩散模型的语音驱动人脸图像生成方法及系统 | |
CN114693565B (zh) | 一种基于跳跃连接多尺度融合的gan图像修复方法 | |
CN113781376B (zh) | 一种基于分治融合的高清人脸属性编辑方法 | |
CN115050083A (zh) | 矫正口型模型、模型的训练及其应用方法 | |
CN114926458A (zh) | 红外口罩人脸图像的生成方法、装置和人脸识别系统 | |
CN115690238A (zh) | 图像生成及模型训练方法、装置、设备和存储介质 | |
CN115035007A (zh) | 基于像素级对齐生成对抗网络的人脸老化系统及建立方法 | |
Yang et al. | Shapeediter: a stylegan encoder for face swapping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |