CN110868598A

CN110868598A - 基于对抗生成网络的视频内容替换方法及系统

Info

Publication number: CN110868598A
Application number: CN201910989000.1A
Authority: CN
Inventors: 孙锬锋; 蒋兴浩; 唐致远; 许可
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-03-06
Anticipated expiration: 2039-10-17
Also published as: CN110868598B

Abstract

本发明提供了一种基于对抗生成网络的视频内容替换方法及系统，包括：对视频帧中的源目标图像进行提取；对源目标图像进行语义分割；使用图像变换操作对源目标图像进行数据增强；将增强后的数据集配对的语义分割图一同输入网络训练生成式对抗模型；精确检测源目标图像ROI区域并进行切割和摆正；以ROI区域图像作为生成模型输入获取生成目标图像与合成掩膜；使用高斯模糊后的掩膜控制生成目标图像边缘平滑化和去模糊；直方图匹配策略调整生成目标图像的色调与帧源目标图像保持一致；生成视频帧抗抖动处理；融合源图像与生成目标图像。本发明明显改善了生成的清晰度，相较于传统技术，具有易操作、成本低、效果好、耗时短等特点和优势。

Description

基于对抗生成网络的视频内容替换方法及系统

技术领域

本发明涉及视频图像处理及人工智能交叉领域，具体地，涉及一种基于对抗生成网络的视频内容替换方法及系统，尤其涉及一种基于对抗网络的目标图像生成视频替换方法。

背景技术

随着影视行业的迅速发展，计算机科学与应用逐渐渗透到了影视制作的各个方面，不仅加速了制作进程，更使人类的创造力能够在影视作品上得以前所未有的呈现。然而，随着VFX的应用带来的巨大的后期人力需求和设备购置需要，影视产业的成本居高难下，许多大制作成本达到上亿美元。在影视大厂不断钻研如何提高VFX特效的真实度和张力的同时，也在研究如何减少VFX的成本开销。同时，VFX的高投入也让许多有想法的创作家无法将自己的创意付诸实现。如何在保持甚至提高VFX效果的同时降低成本，是一个具有挑战性和研究价值的问题。随着算力的指数式增长，深度学习被提出并应用到了各个领域中，以解决传统计算机程序所无法解决的问题。在影视制作中，深度学习已开始在超分辨率、物体追踪等领域发挥了巨大作用，人们也在积极探索深度学习的更多可能性。生成式对抗网络作为其中的一个重要分支，自提出以来在图像生成领域展现了其惊人的成果。

生成式对抗网络(GAN)自提出以来，在图像生成、图像编辑、表示学习等领域取得了瞩目的成绩。GAN的灵感来自于零和博弈，生成器与判别器在博弈学习中逐渐收敛，生成器最终能学习到输入样本的分布，而判别器最终训练为一个识别样本空间的二元分类器。基于GAN训练的模型可实现文字转图像、线稿转绘画、风格迁移和数据预测等任务。GAN通过约束对抗损失来确保生成的图像理论上无法与真实图像相区别，是图像生成领域强有力的工具。但GAN也存在众多问题，为解决这些问题，扩大GAN的应用领域和价值，大量关注GAN的研究人员相继提出了基于GAN改进的模型，包括但不限于通过向生成网络和判别网络输入条件信息进行约束的条件生成对抗网络、结合深度卷积神经网络进一步提取图像语义信息的基于DCGAN解决和减少训练困难、模式坍缩问题的WGAN、利用cGAN和自编码器实现通用图像转换的pix2pix、基于pxi2pix通过双向转换一致性损失实现非监督的图像转换的CycleGAN、基于CycleGAN结合时域信息实现视频转换的RecycleGAN、基于CycleGAN同时解决多领域图像转换的StarGAN、和最新的通过多层风格嵌入解决高分辨率真实图像生成的英伟达研究成果StyleGAN。其中CycleGAN是目前常见的深度学习人脸替换解决方案，而RecycleGAN针对视频隐藏的时域信息进一步优化了CycleGAN。但前两者生成只能生成较低分辨率的图像，StyleGAN的提出为高清图像生成提供了一条解决方案。无配对图像到图像翻译关注在无配对监督数据情况下的图像转换任务。由于欠缺配对图像数据，缺少输入空间到输出空间的一致性关系，这是一个非常具有挑战性的任务。基于深度学习的自动编码器可发现多领域图像的底层语义通用模式，进而实现多领域图像通用编码器的学习，再通过学习各领域图像的高层细节专用解码器，实现领域间的图像翻译任务。GAN的出现结合这一提取底层信息-重建高层信息的思路，研究人员提出了CoGAN其通过共享生成器和判别器神经网络部分编码底层信息的参数来实现图像潜在语义的通用表示学习，再通过生成器输出图像翻译结果。另一种广为使用的网络为CycleGAN，网络中加入的双向转换一致性损失确保了输出图像与输入图像语义上的一致性。而最新的基于CycleGAN提出的、专用于视频到视频的RecycleGAN关注无配对图像到图像与视频到视频翻译的欠约束性，指出需要进一步充分利用各种辅助信息，如视频中编码的时域信息进行图像翻译。

针对计算机自动化的目标图像替换，目前公开的专利数目并不多，其中公开号为CN201611122803，标题为《一种图像替换方法及装置》的中国专利提供了一种目标图像替换方案，该方法通过从视频中方获取第一人脸图像后，再获取待替换照片，并识别出所述待替换照片中的第二人脸图像，再将第二人脸图像替换第一人脸图像来实现视频中的人脸目标替换，然而该方法仅仅生硬地将已有的图像粘贴到目标图上，不能生成用户所没有拍摄过的面部图像，且无法实现保留源目标图像的语义信息，例如表情、眼神等取决于外部输入的第二人脸图像，而非源视频，应用场景相当受限。公开号为CN201810975216，标题为《一种人脸图像替换方法和装置》的中国专利提供了另一种目标图像替换方案，该方法获取目标人脸图像集后，对其进行扭曲处理，输入神经网络进行训练后，将得到能够将训练场景图像中的脸部图像替换为目标人脸图像的目标神经网络，然而该方法对于目标人脸图像的处理过于粗糙，不能充分利用关键点、语义分割、重要区域等外部信息进行有指导的图像生成，且网络设计过于简单，无法胜任清晰图像生成的场景，并且该方法仅关注人脸图像替换问题，而未解决广义的目标图像替换问题，无法媲美人工制作的影视特效。

在VFX制作虚拟场景中，通过深度学习，特别是对抗式生成网络的方法来辅助视频中的目标图像替换将有可能大大精筒后期处理与前期准备工作，减成本的同时获得真实效果。将生成式对抗网络应用在目标图像生成视频替换上具有相当的研究价值。为此，本发明提出一种基于对抗网络的目标图像生成视频替换方法。该方法不仅可以自动实现与以往人工制作相媲美的视频目标图像替换效果，而且易操作、成本低、效果好、耗时短。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于对抗生成网络的视频内容替换方法及系统。

根据本发明提供的一种基于对抗生成网络的视频内容替换方法，包括

步骤S1：使用卷积网络对视频帧中的源目标图像进行提取，获得提取的源目标图像；

步骤S2：对提取出的源目标图像标记关键点，连结关键点着色进行语义分割，输出源目标图像的关键点数据与语义分割图；

步骤S3：对提取的源目标图像和输出的语义分割图进行成对的数据增强操作，包括对图像进行图像变换操作，获得数据增强后的源目标图像和语义分割图；

步骤S4：将提取的源目标图像、输出的语义分割图以及数据增强后的源目标图像和语义分割图，一同输入生成式对抗网络进行网络训练，获得生成式对抗网络模型；

步骤S5：根据步骤S1输出的源目标图像，及步骤S2输出的关键点数据，检测源目标图像ROI区域并进行切割和摆正，获得ROI区域图像；

步骤S6：将ROI区域图像输入获得的生成式对抗网络模型，获取生成目标图像与生成掩膜；

步骤S7：根据获取的生成目标图像，使用高斯模糊后的掩膜控制所述生成目标图像边缘平滑化和去模糊，获取边缘掩膜；

步骤S8：根据获取到生成目标图像，将生成目标图像的直方图匹配到输入的源目标图像上，确保两者色调一致，获取精调生成目标图像；

步骤S9：根据源视频中当前视频帧时间轴之前的历史视频帧的源目标图像中心点位置和当前视频帧的源目标图像中心点位置，调节当前帧的真实目标图像中心点位置，获取实际坐标值；

步骤S10：将获取的生成掩膜、边缘掩膜、精调生成目标图像以及实际坐标值，与源视频中的原图像进行以帧为单位的图像融合，最终输出替换目标图像的特效视频。

优选地，所述步骤S1包括：使用FFMPEG对视频文件进行帧解码提取帧图像，将每个帧图像输入预训练目标检测模型中获取源目标图像位置坐标与预设关键点，并根据位置坐标对源目标图像进行留取预设背景的截取，根据预设关键点坐标对源目标图像进行摆正；

所述提取包括：位置检测、截取以及摆正；

源目标图像指源视频帧图像中进行内容替换的区域图像；

预训练目标检测模型：为具有对帧图像进行源目标图像检测和关键点标定能力的检测模型。

优选地，所述步骤S2包括：

使用针对源目标图像的预训练关键点精细标注模型对提取的源目标图像进行关键点检测和标注，根据关键点对源目标图像中的关键区域进行连结标定并进行区域着色，输出源目标图像的出语义分割图；

预训练关键点精细标注模型：关键点数量多于预训练目标检测模型，以及检测能力比预训练目标检测模型更精准的关键点检测模型。

优选地，所述步骤S3：

所述图像变换操作包括以下任一种或任多种：翻转、旋转、平移、缩放、裁剪、运动模糊以及畸变。

优选地，所述步骤S4包括：

将获取的源目标图像、源目标图像的出语义分割图、数据增强后的源目标图像和语义分割图作为训练数据输入设计的生成式对抗网络进行训练，获取两个能够各自生成源域与目标域图像的生成式对抗网络模型；

所述设计的生成式对抗网络包括：

生成器设计步骤：

以自编码器为模型设计，共有两个生成器，互相共享编码器的同时各自独占一个解码器；

在生成式对抗网络的训练阶段两个生成器的训练目标为分别重构输入的源目标图像，与替换源视频帧图像中源目标图像的替换目标图像，其中编码器输入为截取摆正和数据增强后的源目标图像，结构上基于预设步长的下采样卷积神经网络，采用输入及输出网络宽、中间网络窄的瓶颈结构设计，并引入适用于卷积网络的注意力机制扩大感受野，每层归一化方法均采用适用于图像训练的实例归一化；

解码器输入为共享编码器的输出语义向量，以及获得的语义分割图，结构上基于子像素卷积神经网络，每一层采用了以语义分割图为监督的空间自适应层归一化方法引导生成目标图像的不同部分，同时也引入了注意力机制引导掩膜的生成；

判别器设计步骤：

判别器输入为标注为真的源目标图像，即来源于源视频帧图像的源目标图像，与标注为假的源目标图像，即来源于生成器输出的图像，其训练目标为成功分类真假目标图像，与生成器共同组成生成式对抗网络；其结构上基于预设步长的下采样卷积神经网络，引入了注意力机制；输出层通过单层卷积输出多维判别结果，该判别结果取平均后将用于对抗损失的计算，即为判别器D(x)的输出；

在训练过程中，生成器与判别器交叉训练，生成器每训练一轮，训练时输出的合成目标图像将被标注为假数据接着输入下一轮判别器的训练中，判别器得到一轮训练后，下一轮继续生成器的训练；

生成器和判别器的训练依靠于神经网络的反向传播算法，反向传播算法中的输出偏差值，即损失值，由总损失提供；

对抗损失设计步骤：对抗损失包括判别器损失和生成器损失，是引导训练生成式对抗网络的生成器和判别器进行相互博弈和对抗学习输入分布的损失函数；采用了混合策略，混合源目标图像，生成器生成的掩膜，与生成的图像后再输入判别器，提高训练稳定性，将原先的sigmoid交叉熵损失修改为最小二乘损失加快收敛；

其中判别器损失表示如下：

其中，

表示：判别器当前的损失值；

p_data(x)表示：源视频帧图像中源目标图像所具有的分布；

下标data表示：源视频帧中的源目标图像数据；

p(x)表示：数据的概率分布；

表示：从源目标图像分布下的数据集，即源视频帧中的源目标图像中采样作为x进行损失计算；

D表示：判别器函数；

λx表示：混合策略中对x加权后的源目标图像；

λ表示：混合策略中的混合度；

G(x)表示：生成器的输出图像；

x表示：来源于源视频帧图像中的源目标图像；

G_mf(x)表示：生成器输出掩膜与生成器输出图像融合后的输出图像；

下标m表示：掩膜；

下标f表示：掩膜与图像的融合函数；

生成器损失表示如下：

其中，

表示：生成器当前的损失值；

重构损失设计步骤：

重构损失函数评估生成器输出的生成目标图像与源目标图像的像素级差距，监督生成器还原输入的目标图像；其函数表示如下：

其中，

|| ||₁表示：L1范数，表示向量中每个元素绝对值之和；

表示：重构损失值；

G_m(x)表示：生成器输出掩膜；

循环转换损失设计步骤：

循环转换损失通过将源目标图像转换为生成目标图像后，再以生成目标图像作为输入转换回源域，计算经两次转换得到的源域生成目标图像与源目标图像之间的像素级差距，监督生成器保留源目标图像的语义信息；其中，循环转换损失包括掩膜的转换损失与掩膜结合图像转换损失两部分；

掩膜转换损失定义如下：

其中，

表示：掩膜循环转换损失值；

表示：从转换目标图像分布下的数据集，即转换目标视频帧中的转换目标图像中采样作为y进行损失计算；

G_mA表示：具有生成源目标图像掩膜能力的生成器；

G_mB(x)表示：将源目标图像输入具有生成转换目标图像掩膜能力的生成器后得到的转换目标图像掩膜输出；

G_mB表示：具有生成转换目标图像掩膜能力的生成器；

G_mA(y)表示：将转换目标图像输入具有生成源目标图像掩膜能力的生成器后得到的源目标图像掩膜输出；

y表示：目标视频帧图像中的转换目标图像；

x表示：从源视频帧中采样的源目标图像数据；

下标B表示：转换目标图像的分布域；

下标A表示：源目标图像的分布域；

下标data_A表示：于视频中提取的源目标图像数据；

小标data_B表示：于视频中提取的转换目标图像数据；

掩膜结合图像转换损失定义如下：

其中，

表示：掩膜结合图像后的循环转换损失值；

G_A表示：具有生成源目标图像能力的生成器；

G_B表示：具有生成转换目标图像能力的生成器；

G_B(x)表示：将源目标图像输入具有生成转换目标图像能力的生成器后得到的转换目标图像输出；

G_A(y)表示：将转换目标图像输入具有生成源目标图像能力的生成器后得到的源目标图像输出；

感知损失设计步骤：

通过使用预训练模型将高维图像数据转为低维语义向量，直接评估生成目标图像与源目标图像之间的语义距离，监督生成器输出图像语义与源目标图像一致；感知损失函数表示如下：

其中，

|| ||₂表示：L2范数，表示向量的欧氏距离；

表示：感知损失值；

C_j表示：第j层网络的输出通道数量；

H_j表示：第j层网络的输出的高；

W_j表示：第j层网络的输出的宽；

φ_j表示：第j层网络的激活函数；

下标j表示：预训练模型的网络层级索引；

φ_j(x)表示：第j层网络的激活值；

总变分损失设计步骤：

总变分损失作为损失函数中的正则项，约束掩膜的学习，减少生成目标图像的噪音数据，监督生成器输出光滑的图像；总变分损失原为对图像梯度幅值的积分，但由于计算机图像表示的离散性，连续域上的积分变为像素离散域内的求和；损失函数定义如下：

其中，

表示：总变分损失值；

H_o表示：生成器输出图像的高；

W_o表示：生成器输出图像的宽；

下标i表示：生成器输出图像的高度轴像素索引；

下标j表示：生成器输出图像的宽度轴像素索引；

V_aniso(G(x))表示：生成器输出图像的变分；

G_m(x)_i+1，j表示：生成器输出图像在坐标(i+1，j)处的像素值；

G_m(x)_i，j+1表示：生成器输出图像在坐标(i，j+1)处的像素值；

G_m(x)_i，j表示：生成器输出图像在坐标(i，j)处的像素值；

梯度损失设计步骤：

梯度损失评估输入图像与生成图像之间的梯度差异，保留必要的梯度信息，避免总变分损失的去噪平滑效果造成的边缘淡化；损失函数定义如下：

其中，

表示：梯度损失值；

V_aniso(x)表示：来源于帧图像的输入图像的变分；

其中M_focus(x)为目标图像关键区域掩膜，选择预置该值以指导模型特别关注某一区域内的梯度信息，追踪具有复杂结构和运动部位的目标时，预置该项显著提高追踪效果和细节捕捉；

总损失设计步骤：

总损失最终用于计算当前模型与理想模型的差距，通过反向传播算法来逐步调节当前模型的参数值，以逐渐逼近理想模型；结合文前提出的损失函数，本发明模型的总损失函数可表示如下：

其中，

表示：当前的总损失值；

下标G表示：生成器；

λ₁表示：生成器损失的权值，为用户可选的超参数；

λ₂表示：重构损失的权值，为用户可选的超参数；

λ₃表示：循环转换损失的权值，为用户可选的超参数；

λ₄表示：感知损失的权值，为用户可选的超参数；

λ₅表示：总变分损失的权值，为用户可选的超参数；

λ₆表示：梯度损失的权值，为用户可选的超参数。

优选地，所述步骤S5包括：

根据步骤S1中输出的源目标图像，及步骤S2输出的对应的关键点数据，对源目标图像区域进行截取，截取的图像尺寸小于提取的源目标图像的尺寸，排除提取的源目标图像中残留的背景图像因素，并根据关键点进行图像摆正。

优选地，所述步骤S7包括：根据生成目标图像形状与边缘信息生成经高斯模糊处理的边缘掩膜；

所述步骤S8包括；根据获取到生成目标图像，采用直方图匹配策略调整生成目标图像的色调与帧源目标图像保持一致，获取精调生成目标图像；

步骤S9：根据源视频中当前视频帧时间轴之前的历史视频帧的源目标图像中心点位置和当前视频帧的源目标图像中心点位置输入卡尔曼滤波器，调节当前帧的真实目标图像中心点位置。

根据本发明提供的一种基于对抗生成网络的视频内容替换系统，包括

模块S1：使用卷积网络对视频帧中的源目标图像进行提取，获得提取的源目标图像；

模块S2：对提取出的源目标图像标记关键点，连结关键点着色进行语义分割，输出源目标图像的关键点数据与语义分割图；

模块S3：对提取的源目标图像和输出的语义分割图进行成对的数据增强操作，包括对图像进行图像变换操作，获得数据增强后的源目标图像和语义分割图；

模块S4：将提取的源目标图像、输出的语义分割图以及数据增强后的源目标图像和语义分割图，一同输入生成式对抗网络进行网络训练，获得生成式对抗网络模型；

模块S5：根据模块S1输出的源目标图像，及模块S2输出的关键点数据，检测源目标图像ROI区域并进行切割和摆正，获得ROI区域图像；

模块S6：将ROI区域图像输入获得的生成式对抗网络模型，获取生成目标图像与生成掩膜；

模块S7：根据获取的生成目标图像，使用高斯模糊后的掩膜控制所述生成目标图像边缘平滑化和去模糊，获取边缘掩膜；

模块S8：根据获取到生成目标图像，将生成目标图像的直方图匹配到输入的源目标图像上，确保两者色调一致，获取精调生成目标图像；

模块S9：根据源视频中当前视频帧时间轴之前的历史视频帧的源目标图像中心点位置和当前视频帧的源目标图像中心点位置，调节当前帧的真实目标图像中心点位置，获取实际坐标值；

模块S10：将获取的生成掩膜、边缘掩膜、精调生成目标图像以及实际坐标值，与源视频中的原图像进行以帧为单位的图像融合，最终输出替换目标图像的特效视频。

优选地，所述模块S1包括：使用FFMPEG对视频文件进行帧解码提取帧图像，将每个帧图像输入预训练目标检测模型中获取源目标图像位置坐标与预设关键点，并根据位置坐标对源目标图像进行留取预设背景的截取，根据预设关键点坐标对源目标图像进行摆正；

所述提取包括：位置检测、截取以及摆正；

源目标图像指源视频帧图像中进行内容替换的区域图像；

所述模块S2包括：

所述模块S3：

优选地，所述模块S4包括：

所述设计的生成式对抗网络包括：

生成器设计模块：

判别器设计模块：

对抗损失设计模块：对抗损失包括判别器损失和生成器损失，是引导训练生成式对抗网络的生成器和判别器进行相互博弈和对抗学习输入分布的损失函数；采用了混合策略，混合源目标图像，生成器生成的掩膜，与生成的图像后再输入判别器，提高训练稳定性，将原先的sigmoid交叉熵损失修改为最小二乘损失加快收敛；

其中判别器损失表示如下：

其中，

表示：判别器当前的损失值；

p_data(x)表示：源视频帧图像中源目标图像所具有的分布；

下标data表示：源视频帧中的源目标图像数据；

p(x)表示：数据的概率分布；

D表示：判别器函数；

λx表示：混合策略中对x加权后的源目标图像；

λ表示：混合策略中的混合度；

G(x)表示：生成器的输出图像；

x表示：来源于源视频帧图像中的源目标图像；

下标m表示：掩膜；

下标f表示：掩膜与图像的融合函数；

生成器损失表示如下：

其中，

表示：生成器当前的损失值；

重构损失设计模块：

其中，

|| ||₁表示：L1范数，表示向量中每个元素绝对值之和；

表示：重构损失值；

G_m(x)表示：生成器输出掩膜；

循环转换损失设计模块：

掩膜转换损失定义如下：

其中，

表示：掩膜循环转换损失值；

G_mA表示：具有生成源目标图像掩膜能力的生成器；

G_mB表示：具有生成转换目标图像掩膜能力的生成器；

y表示：目标视频帧图像中的转换目标图像；

x表示：从源视频帧中采样的源目标图像数据；

下标B表示：转换目标图像的分布域；

下标A表示：源目标图像的分布域；

下标data_A表示：于视频中提取的源目标图像数据；

小标data_B表示：于视频中提取的转换目标图像数据；

掩膜结合图像转换损失定义如下：

其中，

表示：掩膜结合图像后的循环转换损失值；

G_A表示：具有生成源目标图像能力的生成器；

G_B表示：具有生成转换目标图像能力的生成器；

感知损失设计模块：

其中，

|| ||₂表示：L2范数，表示向量的欧氏距离；

表示：感知损失值；

C_j表示：第j层网络的输出通道数量；

H_j表示：第j层网络的输出的高；

W_j表示：第j层网络的输出的宽；

φ_j表示：第j层网络的激活函数；

下标j表示：预训练模型的网络层级索引；

φ_j(x)表示：第j层网络的激活值；

总变分损失设计模块：

其中，

表示：总变分损失值；

H_o表示：生成器输出图像的高；

W_o表示：生成器输出图像的宽；

下标i表示：生成器输出图像的高度轴像素索引；

下标j表示：生成器输出图像的宽度轴像素索引；

V_aniso(G(x))表示：生成器输出图像的变分；

G_m(x)_i，j表示：生成器输出图像在坐标(i，j)处的像素值；

梯度损失设计模块：

其中，

表示：梯度损失值；

V_aniso(x)表示：来源于帧图像的输入图像的变分；

总损失设计模块：

其中，

表示：当前的总损失值；

下标G表示：生成器；

λ₁表示：生成器损失的权值，为用户可选的超参数；

λ₂表示：重构损失的权值，为用户可选的超参数；

λ₃表示：循环转换损失的权值，为用户可选的超参数；

λ₄表示：感知损失的权值，为用户可选的超参数；

λ₅表示：总变分损失的权值，为用户可选的超参数；

λ₆表示：梯度损失的权值，为用户可选的超参数。

所述模块S5包括：

根据模块S1中输出的源目标图像，及模块S2输出的对应的关键点数据，对源目标图像区域进行截取，截取的图像尺寸小于提取的源目标图像的尺寸，排除提取的源目标图像中残留的背景图像因素，并根据关键点进行图像摆正。

所述模块S7包括：根据生成目标图像形状与边缘信息生成经高斯模糊处理的边缘掩膜；

所述模块S8包括；根据获取到生成目标图像，采用直方图匹配策略调整生成目标图像的色调与帧源目标图像保持一致，获取精调生成目标图像；

所述模块S9包括：根据源视频中当前视频帧时间轴之前的历史视频帧的源目标图像中心点位置和当前视频帧的源目标图像中心点位置输入卡尔曼滤波器，调节当前帧的真实目标图像中心点位置。

与现有技术相比，本发明具有如下的有益效果：

1、本发明针对影视特效中常见的目标图像替换场景，通过关键点分析、语义分割图析出，设计了一种基于对抗网络的目标图像生成视频替换方法，保留了视频中目标图像的语义信息，如人的表情、物体的状态等，而替换了目标图像的外部特征，如人的容貌、物体的外观等。在训练好替换生成模型后，该发明能实现自动的视频中目标图像替换，无需人工介入，相较于传统技术，具有易操作、成本低、效果好、耗时短等特点和优势；

2、本发明关注启发式地设计了语义分割图作为掩膜的控制权重图，和空间自适应标准化的输入，明显改善了生成的清晰度，是一种基于深度学习技术实现的视频特效技术。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为基于对抗生成网络的目标图像生成视频内容替换方法的流程示意图。

图2为基于对抗生成网络的目标图像生成视频内容替换方法实施结果示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

针对当前影视制作中目标图像替换的耗时长、开销大等不足，本发明的目的是提出一种有效的视频目标图像替换方法。该方法不仅可以自动实现与以往人工制作相媲美的视频目标图像替换效果，而且易操作、成本低、效果好、耗时短。

具体地，所述步骤S1包括：使用FFMPEG对视频文件进行帧解码提取帧图像，将每个帧图像输入预训练目标检测模型中获取源目标图像位置坐标与预设关键点，并根据位置坐标对源目标图像进行留取预设背景的截取，根据预设关键点坐标对源目标图像进行摆正；

所述提取包括：位置检测、截取以及摆正；

源目标图像指源视频帧图像中进行内容替换的区域图像；

预训练目标检测模型：为具有对帧图像进行源目标图像检测和关键点标定能力的检测模型。进一步地，所述检测模型包括：能够对人脸图像进行检测框选与数个关键点标定的MTCNN预训练模型，其效率高速度快。

具体地，所述步骤S2包括：

预训练关键点精细标注模型：关键点数量多于预训练目标检测模型，以及检测能力比预训练目标检测模型更精准的关键点检测模型。进一步地，所述关键点检测模型包括：能够对人脸图像进行多达68个关键点检测的dlib模型，其运行速度相对较慢。

具体地，所述步骤S3：

具体地，所述步骤S4包括：

所述设计的生成式对抗网络包括：

生成器设计步骤：

判别器设计步骤：

其中判别器损失表示如下：

其中，

表示：判别器当前的损失值；

p_data(x)表示：源视频帧图像中源目标图像所具有的分布；

下标data表示：源视频帧中的源目标图像数据；

p(x)表示：数据的概率分布；

D表示：判别器函数；

λx表示：混合策略中对x加权后的源目标图像；

λ表示：混合策略中的混合度；

G(x)表示：生成器的输出图像；

x表示：来源于源视频帧图像中的源目标图像；

下标m表示：掩膜；

下标f表示：掩膜与图像的融合函数；

生成器损失表示如下：

其中，

表示：生成器当前的损失值；

重构损失设计步骤：

其中，

|| ||₁表示：L1范数，表示向量中每个元素绝对值之和；

表示：重构损失值；

G_m(x)表示：生成器输出掩膜；

循环转换损失设计步骤：

掩膜转换损失定义如下：

其中，

表示：掩膜循环转换损失值；

G_mA表示：具有生成源目标图像掩膜能力的生成器；

G_mB表示：具有生成转换目标图像掩膜能力的生成器；

y表示：目标视频帧图像中的转换目标图像；

x表示：从源视频帧中采样的源目标图像数据；

下标B表示：转换目标图像的分布域；

下标A表示：源目标图像的分布域；

下标data_A表示：于视频中提取的源目标图像数据；

小标data_B表示：于视频中提取的转换目标图像数据；

掩膜结合图像转换损失定义如下：

其中，

表示：掩膜结合图像后的循环转换损失值；

G_A表示：具有生成源目标图像能力的生成器；

G_B表示：具有生成转换目标图像能力的生成器；

感知损失设计步骤：

其中，

|| ||₂表示：L2范数，表示向量的欧氏距离；

表示：感知损失值；

C_j表示：第j层网络的输出通道数量；

H_j表示：第j层网络的输出的高；

W_j表示：第j层网络的输出的宽；

φ_j表示：第j层网络的激活函数；

下标j表示：预训练模型的网络层级索引；

φ_j(x)表示：第j层网络的激活值；

总变分损失设计步骤：

其中，

表示：总变分损失值；

H_o表示：生成器输出图像的高；

W_o表示：生成器输出图像的宽；

下标i表示：生成器输出图像的高度轴像素索引；

下标j表示：生成器输出图像的宽度轴像素索引；

V_aniso(G(x))表示：生成器输出图像的变分；

G_m(x)_i，j表示：生成器输出图像在坐标(i，j)处的像素值；

梯度损失设计步骤：

其中，

表示：梯度损失值；

V_aniso(x)表示：来源于帧图像的输入图像的变分；

总损失设计步骤：

其中，

表示：当前的总损失值；

下标G表示：生成器；

λ₁表示：生成器损失的权值，为用户可选的超参数；

λ₂表示：重构损失的权值，为用户可选的超参数；

λ₃表示：循环转换损失的权值，为用户可选的超参数；

λ₄表示：感知损失的权值，为用户可选的超参数；

λ₅表示：总变分损失的权值，为用户可选的超参数；

λ₆表示：梯度损失的权值，为用户可选的超参数。

具体地，所述步骤S5包括：

具体地，所述步骤S7包括：根据生成目标图像形状与边缘信息生成经高斯模糊处理的边缘掩膜；

具体地，所述模块S1包括：使用FFMPEG对视频文件进行帧解码提取帧图像，将每个帧图像输入预训练目标检测模型中获取源目标图像位置坐标与预设关键点，并根据位置坐标对源目标图像进行留取预设背景的截取，根据预设关键点坐标对源目标图像进行摆正；

所述提取包括：位置检测、截取以及摆正；

源目标图像指源视频帧图像中进行内容替换的区域图像；

所述模块S2包括：

所述模块S3：

具体地，所述模块S4包括：

所述设计的生成式对抗网络包括：

生成器设计模块：

判别器设计模块：

其中判别器损失表示如下：

其中，

表示：判别器当前的损失值；

p_data(x)表示：源视频帧图像中源目标图像所具有的分布；

下标data表示：源视频帧中的源目标图像数据；

p(x)表示：数据的概率分布；

D表示：判别器函数；

λx表示：混合策略中对x加权后的源目标图像；

λ表示：混合策略中的混合度；

G(x)表示：生成器的输出图像；

x表示：来源于源视频帧图像中的源目标图像；

下标m表示：掩膜；

下标f表示：掩膜与图像的融合函数；

生成器损失表示如下：

其中，

表示：生成器当前的损失值；

重构损失设计模块：

其中，

|| ||₁表示：L1范数，表示向量中每个元素绝对值之和；

表示：重构损失值；

G_m(x)表示：生成器输出掩膜；

循环转换损失设计模块：

掩膜转换损失定义如下：

其中，

表示：掩膜循环转换损失值；

G_mA表示：具有生成源目标图像掩膜能力的生成器；

G_mB表示：具有生成转换目标图像掩膜能力的生成器；

y表示：目标视频帧图像中的转换目标图像；

x表示：从源视频帧中采样的源目标图像数据；

下标B表示：转换目标图像的分布域；

下标A表示：源目标图像的分布域；

下标data_A表示：于视频中提取的源目标图像数据；

小标data_B表示：于视频中提取的转换目标图像数据；

掩膜结合图像转换损失定义如下：

其中，

表示：掩膜结合图像后的循环转换损失值；

G_A表示：具有生成源目标图像能力的生成器；

G_B表示：具有生成转换目标图像能力的生成器；

感知损失设计模块：

其中，

|| ||₂表示：L2范数，表示向量的欧氏距离；

表示：感知损失值；

C_j表示：第j层网络的输出通道数量；

H_j表示：第j层网络的输出的高；

W_j表示：第j层网络的输出的宽；

φ_j表示：第j层网络的激活函数；

下标j表示：预训练模型的网络层级索引；

φ_j(x)表示：第j层网络的激活值；

总变分损失设计模块：

其中，

表示：总变分损失值；

H_o表示：生成器输出图像的高；

W_o表示：生成器输出图像的宽；

下标i表示：生成器输出图像的高度轴像素索引；

下标j表示：生成器输出图像的宽度轴像素索引；

V_aniso(G(x))表示：生成器输出图像的变分；

G_m(x)_i，j表示：生成器输出图像在坐标(i，j)处的像素值；

梯度损失设计模块：

其中，

表示：梯度损失值；

V_aniso(x)表示：来源于帧图像的输入图像的变分；

总损失设计模块：

其中，

表示：当前的总损失值；

下标G表示：生成器；

λ₁表示：生成器损失的权值，为用户可选的超参数；

λ₂表示：重构损失的权值，为用户可选的超参数；

λ₃表示：循环转换损失的权值，为用户可选的超参数；

λ₄表示：感知损失的权值，为用户可选的超参数；

λ₅表示：总变分损失的权值，为用户可选的超参数；

λ₆表示：梯度损失的权值，为用户可选的超参数。

所述模块S5包括：

下面通过优选例，对本发明进行更为具体地说明。

优选例1

本发明的技术方案为：基于对抗网络的目标图像生成视频替换方法，如图1所示，为基于对抗生成网络的目标图像生成视频内容替换方法的流程示意图，包括以下步骤：

S1：使用卷积网络对视频帧中的源目标图像进行位置检测和框选；

S2：对源目标图像标记关键点，连结关键点着色进行语义分割；

S3：使用翻转、旋转、平移、畸变等图像变换操作对提取出的源目标图像进行数据增强丰富数据集；

S4：将增强后的数据集，及其配对的语义分割图一同输入网络训练生成式对抗模型；

S5：精确检测源目标图像ROI区域并进行切割和摆正；

S6：以ROI区域图像作为生成模型输入获取生成目标图像与合成掩膜；

S7：使用高斯模糊后的掩膜控制生成目标图像边缘平滑化和去模糊；

S8：直方图匹配策略调整生成目标图像的色调与帧源目标图像保持一致；

S9：根据历史的源目标图像中心点位置和当前检测的源目标图像中心点位置调节当前帧的真实目标图像中心点位置；

S10：融合源图像与生成目标图像。

所述步骤S1包括使用FFMPEG对视频文件进行帧解码提取帧图像，将每个帧图像输入预训练卷积网络目标检测模型中获取源目标图像位置坐标与部分关键点，并根据位置坐标对源目标图像进行截取，根据部分关键点坐标对目标图像进行摆正；

所述步骤S2包括使用针对目标图像的预训练关键点精细标注模型对S1中截取和摆正的源目标图像进行更多更精细关键点的检测和标注，根据预设规则连结检测到的具体关键点并进行区域着色，作为之后步骤中合成目标图像的语义输入；

所述步骤S3包括对S1输出的源目标图像和S2输出的语义分割图进行成对的数据增强操作，包括对图像进行翻转、旋转、平移、缩放、裁剪、运动模糊、畸变等操作；

所述步骤S4包括将前三个阶段的输出图像作为训练数据输入预设计的生成式对抗网络进行训练，以获取两个能够各自生成源域与目标域图像的生成器模型。网络的设计细节如下部分：

(4-1)生成器：生成器为以自编码器为模型设计，共有两个生成器，互相共享编码器的同时各自独占一个解码器；训练阶段两个生成器的训练目标为分别重构输入的源目标图像与替换目标图像，其中编码器输入为截取摆正和数据增强后的源目标图像，结构上基于步长为2的下采样卷积神经网络，采用了Bottleneck的结构设计，并引入了适用于卷积网络的注意力机制扩大感受野，每层归一化方法均采用适用于图像训练的实例归一化；解码器输入为共享编码器的输出语义向量，以及步骤S2的输出语义分割图，结构上基于子像素卷积神经网络，每一层采用了以语义分割图为监督的空间自适应层归一化方法引导生成目标图像的不同部分，同时也引入了注意力机制引导掩膜的生成。

(4-2)判别器：判别器输入为标注为真的源目标图像与标注为假的生成目标图像，其训练目标为成功分类真假目标图像，与生成器共同组成生成式对抗网络。其结构上基于步长为2的下采样卷积神经网络，同样引入了注意力机制；输出层通过单层卷积输出8x8x1的多维判别结果。

(4-3)对抗损失：采用了mixup策略提高训练稳定性，将原先的sigmoid交叉熵损失修改为最小二乘损失加快收敛。其中判别器损失表示如下：

生成器损失表示如下：

(4-4)重构损失：重构损失函数评估生成器输出的生成目标图像与源目标图像的像素级差距，监督生成器尽可能还原输入的目标图像。其函数表示如下：

(4-5)循环转换损失：循环转换损失通过将源目标图像转换为生成目标图像后，再以生成目标图像作为输入转换回源域，计算经两次转换得到的源域生成目标图像与源目标图像之间的像素级差距，监督生成器保留源目标图像的语义信息。其中，循环转换损失包括掩膜的转换损失与掩膜结合图像转换损失两部分。掩膜转换损失定义如下：

掩膜结合图像转换损失定义如下：

(4-6)感知损失：感知损失通过使用预训练模型将高维图像数据转为低维语义向量，直接评估生成目标图像与源目标图像之间的语义距离，监督生成器输出图像语义与源目标图像一致。感知损失函数表示如下：

(4-7)总变分损失：总变分损失作为损失函数中的正则项，约束掩膜的学习，减少生成目标图像的噪音数据，监督生成器输出光滑的图像。总变分损失原为对图像梯度幅值的积分，但由于计算机图像表示的离散性，连续域上的积分变为像素离散域内的求和。损失函数定义如下：

(4-8)梯度损失：梯度损失评估输入图像与生成图像之间的梯度差异，保留必要的梯度信息，避免总变分损失的去噪平滑效果造成的边缘淡化。损失函数定义如下：

其中M_focus(x)为目标图像关键区域掩膜，为可选项，用户可选择预置该值以指导模型特别关注某一区域内的梯度信息，追踪具有复杂结构和运动部位的目标时，预置该项可显著提高追踪效果和细节捕捉。

(4-9)总损失：结合文前提出的损失函数，本发明模型的总损失函数可表示如下：

所述步骤S5包括根据S2步骤中输出的源目标图像及其对应的关键点数据进一步精调和变换源目标图像区域；

所述步骤S6包括以S5的输出源目标图像作为已完成训练的生成器模型输入，得到精调区域后的生成目标图像与生成掩膜；

所述步骤S7包括根据生成目标图像形状与边缘信息生成经高斯模糊处理的边缘掩膜；

所述步骤S8包括将生成目标图像的直方图匹配到输入的源目标图像上，确保两者色调一致；

所述步骤S9包括使用卡尔曼滤波器对过去和现在的测量值和误差值进行分析预测当前目标图像位置的实际值；

所述步骤S10包括根据S6输出的生成掩膜，S7输出的边缘掩膜，S8输出的精调生成目标图像，S9输出的实际坐标值，和源视频中的原图像进行以帧为单位的图像融合，最终输出替换目标图像的特效视频。如图2所示，为基于对抗生成网络的目标图像生成视频内容替换方法实施结果示意图。

优选例2：

一种基于对抗生成网络的目标图像生成视频内容替换方法，包括以下步骤：

S1：使用卷积网络对视频帧中的源目标图像进行位置检测、截取和摆正，其中源目标图像指代源视频帧图像中需要进行内容替换的区域图像；

S2：对源目标图像标记关键点，连结关键点着色进行语义分割，输出为源目标图像的语义分割图；

S4：将增强后的数据集，及其配对的语义分割图一同输入网络训练生成式对抗模型。其中语义分割图为S2步骤的输出；生成式对抗模型基于二人博弈的思想对输入数据的分布进行学习，训练成功的生成式对抗模型将具有生成与输入数据相似分布的输出的能力，在本发明中，即指具有生成训练数据中所不存在的目标图像的能力，其输出的模型文件将用于S6中的生成目标图像获取；

S5：精确检测源目标图像ROI区域并进行切割和摆正；

S10：融合源图像与生成目标图像。

所述步骤S1包括使用FFMPEG对视频文件进行帧解码提取帧图像，将每个帧图像输入预训练目标检测模型中获取源目标图像位置坐标与部分关键点，并根据位置坐标对源目标图像进行留取部分背景的粗略截取，根据部分关键点坐标对目标图像进行摆正，即检测、截取和摆正。其中源目标图像指代源视频帧图像中需要进行内容替换的区域图像，预训练目标检测模型可为任意的、具有对帧图像进行源目标图像检测和少量关键点标定能力的检测模型；

所述步骤S2包括使用针对源目标图像的预训练关键点精细标注模型对S1中截取和摆正的源目标图像进行关键点检测和标注，根据关键点对源目标图像中的关键区域进行连结标定并进行区域着色，作为之后步骤中合成目标图像的语义输入。其中预训练关键点精细标注模型可为任意的、具有对源目标图像进行相较于S1中的预训练目标检测模型更多、更精准的关键点检测能力的检测模型；

所述步骤S3包括对S1输出的源目标图像和S2输出的语义分割图进行成对的数据增强操作，包括对图像进行翻转、旋转、平移、缩放、裁剪、运动模糊、畸变等操作，其输出为数据增强后的源目标图像和语义分割图；

所述步骤S4包括将S1输出的源目标图像、S2输出的语义分割图、S3输出的数据增强后的源目标图像和语义分割图作为训练数据输入一对生成式对抗网络进行训练，以获取两个能够各自生成源域与目标域图像的生成器模型。在训练过程中，生成器与判别器交叉训练，生成器每训练一轮，其训练时输出的合成目标图像将被标注为假数据紧接着输入下一轮判别器的训练中，判别器得到一轮训练后，下一轮继续生成器的训练。具体的，生成器和判别器的训练依靠于神经网络的反向传播算法，该算法中的输出偏差值，即损失值，由总损失提供。该生成式对抗网络的设计细节与功能效用如下部分所示：

(4-1)生成器：生成器为以自编码器为模型设计，共有两个生成器，互相共享编码器的同时各自独占一个解码器；训练阶段两个生成器的训练目标为分别重构输入的源目标图像，与将用于替换源视频帧图像中源目标图像的替换目标图像，其中编码器输入为截取摆正和数据增强后的源目标图像，结构上基于步长为2的下采样卷积神经网络，采用了输入输出网络宽、中间网络窄的瓶颈结构设计，并引入了适用于卷积网络的注意力机制扩大感受野，每层归一化方法均采用适用于图像训练的实例归一化；解码器输入为共享编码器的输出语义向量，以及步骤S2的输出语义分割图，结构上基于子像素卷积神经网络，每一层采用了以语义分割图为监督的空间自适应层归一化方法引导生成目标图像的不同部分，同时也引入了注意力机制引导掩膜的生成。

(4-2)判别器：判别器输入源目标图像，其中来源于源视频帧图像的源目标图像，将其标注为真；而来源于本S4步骤中生成器训练一轮时输出的合成目标图像，将其标注为假。判别器的训练目标为成功分类真假目标图像，与生成器共同组成生成式对抗网络。其结构上基于步长为2的下采样卷积神经网络，同样引入了注意力机制；输出层通过单层卷积输出8x8x1的多维判别结果，该结果取平均后将用于4-3中对抗损失的计算，即为下文中判别器D(x)的输出。

(4-3)对抗损失：采用了混合策略，混合源目标图像，生成器生成的掩膜，与生成的图像后再输入判别器，提高训练稳定性，将原先的sigmoid交叉熵损失修改为最小二乘损失加快收敛。其中判别器损失表示如下：

其中，

表示：判别器当前的损失值；

D表示：判别器函数；

λx表示：混合策略中对x加权后的源目标图像；

λ表示：混合策略中的混合度；

G(x)表示：生成器的输出图像；

x表示：来源于源视频帧图像中的源目标图像；

m表示：生成器输出掩膜；

f表示：掩膜与图像的融合函数

生成器损失表示如下：

其中，

表示：生成器当前的损失值；

其中，

表示：重构损失值；

其中，

表示：掩膜循环转换损失值；

表示：从转换目标图像分布下的数据集，即转换视目标频帧中的转换目标图像中采样作为y进行损失计算；

G_mA表示：具有生成源目标图像掩膜能力的生成器；

G_mB表示：具有生成转换目标图像掩膜能力的生成器；

y表示：目标视频帧图像中的转换目标图像；

掩膜结合图像转换损失定义如下：

其中，

表示：掩膜结合图像后的循环转换损失值；

G_A表示：具有生成源目标图像能力的生成器；

G_B表示：具有生成转换目标图像能力的生成器；

其中，

表示：感知损失值；

C_j表示：第j层网络的输出通道数量；

H_j表示：第j层网络的输出的高；

W_j表示：第j层网络的输出的宽；

φ_j表示：第j层网络的激活函数；

j表示：预训练模型的网络层级索引；

φ_j(x)表示：第j层网络的激活值；

(4-7)总变分损失：总变分损失作为损失函数中的正则项，约束掩膜的学习，减少生成目标图像的噪音数据，监督生成器输出光滑的图像。总变分损失原为对图像梯度幅值的积分，但由于计算机图像表示的离散性，连续域上的积分变为像素离散域内的求和。

损失函数定义如下：

其中，

表示：总变分损失值；

H_o表示：生成器输出图像的高；

W_o表示：生成器输出图像的宽；

V_aniso(G(x))表示：生成器输出图像的变分；

G_m(x)_i，j表示：生成器输出图像在坐标(i，j)处的像素值；

其中，

表示：梯度损失值；

V_aniso(x)表示：来源于帧图像的输入图像的变分；

(4-9)总损失：总损失最终用于计算当前模型与理想模型的差距。本S4步骤中生成式对抗模型的训练，即生成器和判别器的训练依靠于神经网络的反向传播算法，该算法中的输出偏差值，即损失值，由总损失提供。结合文前提出的损失函数，本发明模型的总损失函数可表示如下：

其中，

表示：当前的总损失值；

λ₁表示：生成器损失的权值，为用户可选的超参数；

λ₂表示：重构损失的权值，为用户可选的超参数；

λ₃表示：循环转换损失的权值，为用户可选的超参数；

λ₄表示：感知损失的权值，为用户可选的超参数；

λ₅表示：总变分损失的权值，为用户可选的超参数；

λ₆表示：梯度损失的权值，为用户可选的超参数；

所述步骤S5包括根据S2步骤中输出的源目标图像及其对应的关键点数据对源目标图像区域进行相较于S1中的截取步骤更小的有限区域内的源目标图像截取，尽可能排除S1输出源目标图像中残留的背景图像因素，并根据关键点进行图像摆正；

所述步骤S9包括将源视频中当前帧时间轴之前的目标图像中心坐标序列和当前帧的目标图像中心坐标输入卡尔曼滤波器。滤波器输出的坐标位置，即为当前目标图像中心坐标的检测位置的纠偏，相较于直接检测的中心坐标更接近真实坐标；

所述步骤S10包括根据S6输出的生成掩膜，S7输出的边缘掩膜，S8输出的精调生成目标图像，S9输出的实际坐标值，和源视频中的原图像进行以帧为单位的图像融合，最终输出替换目标图像的特效视频。

本发明实施实例仅为本发明的较佳实施例而已，并不用以限制本发明，也是为了让读者更好的理解本发明的原理和基本内容，本发明的保护范围并不以上述实施实例为限，本领域技术开发人员按照本发明所叙述的内容所做的修改替换、等效操作皆应纳入保护范围。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于对抗生成网络的视频内容替换方法，其特征在于，包括：

2.根据权利要求1所述的一种基于对抗生成网络的视频内容替换方法，其特征在于，所述步骤S1包括：使用FFMPEG对视频文件进行帧解码提取帧图像，将每个帧图像输入预训练目标检测模型中获取源目标图像位置坐标与预设关键点，并根据位置坐标对源目标图像进行留取预设背景的截取，根据预设关键点坐标对源目标图像进行摆正；

所述提取包括：位置检测、截取以及摆正；

源目标图像指源视频帧图像中进行内容替换的区域图像；

3.根据权利要求2所述的一种基于对抗生成网络的视频内容替换方法，其特征在于，所述步骤S2包括：

4.根据权利要求1所述的一种基于对抗生成网络的视频内容替换方法，其特征在于，所述步骤S3：

5.根据权利要求1所述的一种基于对抗生成网络的视频内容替换方法，其特征在于，所述步骤S4包括：

所述设计的生成式对抗网络包括：

生成器设计步骤：

判别器设计步骤：

其中判别器损失表示如下：

其中，

表示：判别器当前的损失值；

p_data(x)表示：源视频帧图像中源目标图像所具有的分布；

下标data表示：源视频帧中的源目标图像数据；

p(x)表示：数据的概率分布；

D表示：判别器函数；

λx表示：混合策略中对x加权后的源目标图像；

λ表示：混合策略中的混合度；

G(x)表示：生成器的输出图像；

x表示：来源于源视频帧图像中的源目标图像；

下标m表示：掩膜；

下标f表示：掩膜与图像的融合函数；

生成器损失表示如下：

其中，

表示：生成器当前的损失值；

重构损失设计步骤：

其中，

|| ||₁表示：L1范数，表示向量中每个元素绝对值之和；

表示：重构损失值；

G_m(x)表示：生成器输出掩膜；

循环转换损失设计步骤：

掩膜转换损失定义如下：

其中，

表示：掩膜循环转换损失值；

G_mA表示：具有生成源目标图像掩膜能力的生成器；

G_mB表示：具有生成转换目标图像掩膜能力的生成器；

y表示：目标视频帧图像中的转换目标图像；

x表示：从源视频帧中采样的源目标图像数据；

下标B表示：转换目标图像的分布域；

下标A表示：源目标图像的分布域；

下标data_A表示：于视频中提取的源目标图像数据；

小标data_B表示：于视频中提取的转换目标图像数据；

掩膜结合图像转换损失定义如下：

其中，

表示：掩膜结合图像后的循环转换损失值；

G_A表示：具有生成源目标图像能力的生成器；

G_B表示：具有生成转换目标图像能力的生成器；

感知损失设计步骤：

其中，

|| ||₂表示：L2范数，表示向量的欧氏距离；

表示：感知损失值；

C_j表示：第j层网络的输出通道数量；

H_j表示：第j层网络的输出的高；

W_j表示：第j层网络的输出的宽；

φ_j表示：第j层网络的激活函数；

下标j表示：预训练模型的网络层级索引；

φ_j(x)表示：第j层网络的激活值；

总变分损失设计步骤：

其中，

表示：总变分损失值；

H_o表示：生成器输出图像的高；

W_o表示：生成器输出图像的宽；

下标i表示：生成器输出图像的高度轴像素索引；

下标j表示：生成器输出图像的宽度轴像素索引；

V_aniso(G(x))表示：生成器输出图像的变分；

G_m(x)_i，j表示：生成器输出图像在坐标(i，j)处的像素值；

梯度损失设计步骤：

其中，

表示：梯度损失值；

V_aniso(x)表示：来源于帧图像的输入图像的变分；

总损失设计步骤：

其中，

表示：当前的总损失值；

下标G表示：生成器；

λ₁表示：生成器损失的权值，为用户可选的超参数；

λ₂表示：重构损失的权值，为用户可选的超参数；

λ₃表示：循环转换损失的权值，为用户可选的超参数；

λ₄表示：感知损失的权值，为用户可选的超参数；

λ₅表示：总变分损失的权值，为用户可选的超参数；

λ₆表示：梯度损失的权值，为用户可选的超参数。

6.根据权利要求1所述的一种基于对抗生成网络的视频内容替换方法，其特征在于，所述步骤S5包括：

7.根据权利要求1所述的一种基于对抗生成网络的视频内容替换方法，其特征在于，所述步骤S7包括：根据生成目标图像形状与边缘信息生成经高斯模糊处理的边缘掩膜；

8.一种基于对抗生成网络的视频内容替换系统，其特征在于，包括

9.根据权利要求8所述的一种基于对抗生成网络的视频内容替换系统，其特征在于，所述模块S1包括：使用FFMPEG对视频文件进行帧解码提取帧图像，将每个帧图像输入预训练目标检测模型中获取源目标图像位置坐标与预设关键点，并根据位置坐标对源目标图像进行留取预设背景的截取，根据预设关键点坐标对源目标图像进行摆正；

所述提取包括：位置检测、截取以及摆正；

源目标图像指源视频帧图像中进行内容替换的区域图像；

所述模块S2包括：

所述模块S3：

10.根据权利要求8所述的一种基于对抗生成网络的视频内容替换系统，其特征在于，所述模块S4包括：

所述设计的生成式对抗网络包括：

生成器设计模块：

判别器设计模块：

其中判别器损失表示如下：