CN112562720B

CN112562720B - 一种唇形同步的视频生成方法、装置、设备及存储介质

Info

Publication number: CN112562720B
Application number: CN202011372011.4A
Authority: CN
Inventors: 李�权; 王伦基; 叶俊杰; 成秋喜; 胡玉针; 李嘉雄; 朱杰; 刘华清; 韩蓝青
Original assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Current assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2024-07-12
Anticipated expiration: 2040-11-30
Also published as: CN112562720A

Abstract

本发明公开了一种唇形同步的视频生成方法、装置、设备及存储介质，方法包括：获取了原始视频数据后，对所述原始视频数据中的语音数据进行人物标注，得到第一数据，并对标注好的原始视频数据进行人脸检测，得到第二数据，然后根据所述第一数据和所述第二数据，训练得到生成网络、唇形同步判别网络和图像质量判别网络，并根据所述生成网络、唇形同步判别网络和图像质量判别网络构建人物唇形生成模型，最后通过所述人物唇形生成模型对输入的序列图片进行处理，生成唇形同步的图像数据。本发明能够准确生成视频中人物讲话时的唇形图像，可广泛应用于视频数据处理技术领域。

Description

一种唇形同步的视频生成方法、装置、设备及存储介质

技术领域

本发明涉及视频数据处理技术领域，尤其是一种唇形同步的视频生成方法、装置、设备及存储介质。

背景技术

随着视频内容丰富多样性不断的增长，对视频内容的创作方式提出了新的需求，让这些视频可以通过不同的语言观看也是一个急需解决的关键问题。例如一堂系列讲座，或者一个大范围的新闻演讲，一部非常好看的电影，甚至是非常有趣的动画。如果将它们翻译成所需的目标语言，这样让更多不同语言环境下的观众都能更好的观看接触到这个视频。通过这样的方式翻译说话的面部视频或创作新的视频，需要解决的关键问题是纠正口型，并且使之与目标语音相匹配。

目前的一些技术需要在训练中看到的特定人物的静态图像或者视频人物动作和背景没有复杂的变化，才能实现人物唇形生成。然而，在复杂动态背景、无限制的说话人脸视频中，就无法准确地改变任意身份的嘴唇动作，导致视频的人物唇形部分与新音频不同步。

发明内容

有鉴于此，本发明实施例提供一种准确性高的唇形同步的视频生成方法、装置、设备及存储介质。

本发明的一个方面提供了一种唇形同步的视频生成方法，包括：

获取原始视频数据，所述原始视频数据包括人物在不同场景下的语音数据和图像数据；

对所述原始视频数据中的语音数据进行人物标注，得到第一数据，所述第一数据用于确定每一段语音数据对应的人脸在视频图像中位置；

对标注好的原始视频数据进行人脸检测，得到第二数据，所述第二数据用于确定每一帧图像中人脸的位置；

根据所述第一数据和所述第二数据，训练得到生成网络、唇形同步判别网络和图像质量判别网络；所述唇形同步判别网络用于判断人物唇形与人物音频的同步性，所述图像质量判别网络用于判断生成图像的真假与质量；

根据所述生成网络、唇形同步判别网络和图像质量判别网络构建人物唇形生成模型；

通过所述人物唇形生成模型对输入的序列图片进行处理，生成唇形同步的图像数据。

在一些实施例中，所述方法还包括对原始视频数据中的语音数据和图像数据进行预处理；

具体地，所述对原始视频数据中的语音数据进行预处理包括：

将语音数据进行归一化处理，得到音频波形数据；

将所述音频波形数据转化为声音频谱图，频谱图包括但不限于梅尔频谱、线性频谱；

所述对原始视频数据中的图像数据进行预处理包括：

将图像数据的序列帧中每一帧图像包含唇形的下半部分像素点置0，以使所述生成网络生成补全唇形图像；

确定与所述序列帧数量相同的参考帧，所述参考帧用于编码人物特征信息。

在一些实施例中，所述生成网络包括声音编码器、图像编码器、图像解码生成器；

其中，所述声音编码器，用于通过卷积编码从预处理得到的声音频谱图中提取所述第一数据和所述第二数据中的声音特征；

所述图像编码器，用于通过卷积编码从预处理得到的图像数据的序列帧中提取图像特征；

所述图像解码生成器，用于根据所述声音特征和所述图像特征，生成人物唇形图像。

在一些实施例中，所述人物唇形生成模型的目标损失函数为：

Loss＝(1-S_w-S_g)·L₁+S_w·L_sync+S_g·L_gen

其中，S_w为唇形同步判别网络对整体损失值的影响；S_g为图像质量判别网络对整体损失值的影响；Loss为人物唇形生成模型总体损失函数值；L₁为真实图像与生成图像的均方误差损失值；L_sync为生成人物唇形视频与音频同步率的损失值；L_gen为图像判别网络对真实图像与生成图像判别损失值。

在一些实施例中，所述输入的序列图片带有标签限制条件；

所述标签限制条件包括可变尺寸边缘像素轮廓限制、人脸唇形关键点轮廓限制、头部轮廓限制以及背景限制。

本发明的另一方面还提供了一种唇形同步的视频生成装置，包括：

获取模块，用于获取原始视频数据，所述原始视频数据包括人物在不同场景下的语音数据和图像数据；

语音标注模块，用于对所述原始视频数据中的语音数据进行人物标注，得到第一数据，所述第一数据用于确定每一段语音数据对应的人脸在视频图像中位置；

人脸检测模块，用于对标注好的原始视频数据进行人脸检测，得到第二数据，所述第二数据用于确定每一帧图像中人脸的位置；

训练模块，用于根据所述第一数据和所述第二数据，训练得到生成网络、唇形同步判别网络和图像质量判别网络；所述唇形同步判别网络用于判断人物唇形与人物音频的同步性，所述图像质量判别网络用于判断生成图像的真假与质量；

构建模块，用于根据所述生成网络、唇形同步判别网络和图像质量判别网络构建人物唇形生成模型；

生成模块，用于通过所述人物唇形生成模型对输入的序列图片进行处理，生成唇形同步的图像数据。

在一些实施例中，还包括预处理模块；

所述预处理模块，用于：

将语音数据进行归一化处理，得到音频波形数据；

以及，

本发明的另一方面还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明的另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明的实施例在获取了原始视频数据后，对所述原始视频数据中的语音数据进行人物标注，得到第一数据，并对标注好的原始视频数据进行人脸检测，得到第二数据，然后根据所述第一数据和所述第二数据，训练得到生成网络、唇形同步判别网络和图像质量判别网络，并根据所述生成网络、唇形同步判别网络和图像质量判别网络构建人物唇形生成模型，最后通过所述人物唇形生成模型对输入的序列图片进行处理，生成唇形同步的图像数据。本发明能够准确生成视频中人物讲话时的唇形图像。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的唇形同步的视频生成方法的整体步骤图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

针对现有技术存在的问题，本发明研究了人物唇形生成以及与声音匹配的问题，任意一个说话人的人脸唇形可以与任意的目标语音匹配，包括真人声音与合成语音。并且真实世界的视频包含快速变换的姿势、比例和照明变化，生成的人脸结果也必须无缝地融合到原始目标视频中。

本发明首先采用端到端模型对声音与视频图像进行encode编码，再通过decode解码生成与声音匹配的唇形图像。同时本发明采用了一个强大的唇形同步鉴别器，可以准确地判断生成唇形与语音的同步准确性与逼真唇形运动，用于指导生成更加同步的唇形；并且本发明采用了一个高质量的图像质量判别器，可以准确地判断图像的真假与质量好坏，用于指导生成更加逼真的唇形图像。本发明进行了广泛的定量和主观的人类评估，并在许多基准上都大大优于目前的方法。

本发明实施例提供了一种唇形同步的视频生成方法，如图1所示，方法包括：

S1、获取原始视频数据，所述原始视频数据包括人物在不同场景下的语音数据和图像数据；

其中，本发明实施例的视频中语音数据为多人多语言混合语音数据，视频中图像数据为各种场景、比例、光照的说话人脸数据，同时视频分辨率尽可能在1080p以上。

S2、对所述原始视频数据中的语音数据进行人物标注，得到第一数据，所述第一数据用于确定每一段语音数据对应的人脸在视频图像中位置；

具体地，本发明实施例通过标注将视频分割成语音与说话人视频匹配的多个小段并保存。对采集好的数据进行语音与说话人匹配标注，标注出视频中每一段语音对应的说话人人脸在视频图像中的位置，同时保证语音和视频时长同步。

S3、对标注好的原始视频数据进行人脸检测，得到第二数据，所述第二数据用于确定每一帧图像中人脸的位置；

具体地，本发明实施例对标注好的视频片段每一帧进行人脸检测，通过人脸检测得到每一帧中人脸的位置，并将得到的人脸位置信息向下巴方向延伸5-50个像素，确保人脸检测框能够覆盖整个人脸。接着通过优化后的人脸检测框对每一帧人脸图像进行截取并保存，同时也将视频片段的语音数据进行保存。

S4、根据所述第一数据和所述第二数据，训练得到生成网络、唇形同步判别网络和图像质量判别网络；所述生成网络用于生成人物唇形图像，所述唇形同步判别网络用于判断人物唇形与人物音频的同步性，所述图像质量判别网络用于判断生成图像的真假与质量；

S5、根据所述生成网络、唇形同步判别网络和图像质量判别网络构建人物唇形生成模型；

需要说明的是，本发明实施例构建一种基于条件GAN(生成对抗网络)的高清人物唇形生成模型，整体模型结构共分为高清人物图像生成网络与判别网络两大部分，生成网络主要用于生成高清人物唇形图像，输入数据是经过预处理的条件掩模Mask与参考帧以及音频，输出是与音频同步的高清人物唇形图像帧。判别网络是在模型训练中使用，其作用是判断生成的人物图像是否真实与唇形与音频是否同步，并在计算生成图像与真实图像、生成唇形与真实唇形同步的差值后，反馈loss至生成网络,优化生成网络的生成图像质量与唇形同步质量。

S6、通过所述人物唇形生成模型对输入的序列图片进行处理，生成唇形同步的图像数据。

在一些实施例中，上述步骤S4的训练步骤之前，还包括：对原始视频数据中的语音数据和图像数据进行预处理；

将语音数据进行归一化处理，得到音频波形数据；

所述对原始视频数据中的图像数据进行预处理包括：

本发明实施例将声音与图像输入条件GAN网络模型之前，分别对声音与图像进行预处理。声音预处理是将音频数据归一化，接着把音频波形数据转化为声音频谱图，频谱图包括但不限于梅尔频谱、线性频谱等。图像数据预处理是将待生成的视频序列帧中每一帧图像包含唇形的下半部分全置于0，让生成网络来生成补全唇形图像，同时选择与生成视频序列同样数量的参考帧，用于编码人物特征信息，提供更好的生成效果。同时，为了保证生成视频的前后帧关联，本发明在训练时设置不同视频系列帧输入，生成网络将在训练过程中学习到视频前后帧的关联关系，使得生成的视频更加流畅自然，根据不同视频场景与人物的生成要求，生成视频序列帧数可选择为1、3、5、7、9等。

具体地，本发明实施例的生成网络可分为声音编码器、图像编码器、图像解码生成器。首先将预处理后的声音频谱图输入声音编码器，通过卷积编码提取声音特征。同时也将预处理后的图像序列数据输入到图像编码器中，通过卷积编码提取图像特征，输入图像分辨率包括但不限于96x96、128x128、256x256、512x512等。接着将提取好的声音与图像特征输入图像解码生成器，最终生成与声音同步的人物唇形图像，根据不同的生成需求，生成图像可包括但不限于96x96、128x128、256x256、512x512等。

具体地，判别网络可分为唇形同步判别网络与图像质量判别网络，其作用是用在训练中，对生成网络生成的图像质量与唇形同步做检测，并给出图像质量判别值与唇形同步判别值，指导生成网络生成更高清真实的图像与更真实同步的唇形。其中唇形同步判别网络为预训练网络，输入为当前帧的音频与对应生成的图像帧，输出为生成的每帧唇形图像与对应的音频同步匹配度，判别器通过判断并给出反馈值，进而指导生成网络训练时优化改进，生成与声音更加同步的唇形图像。图像质量判别网络与生成网络同时训练，输入为生成图像与真实图像，输出为图像真实度的概率值，用于对生成的图像质量好坏进行判断，在训练的过程中指导生成网络生成出更加逼真的图像。

Loss＝(1-S_w-S_g)·L₁+S_w·L_sync+S_g·L_gen

其中，S_w为唇形同步判别网络对整体损失值的影响；S_g为图像质量判别网络对整体损失值的影响；Loss为人物唇形生成模型总体损失函数值；L₁为真实图像与生成图像的均方误差损失值；L_sync为生成人物唇形视频与音频同步率的损失值；L_gen为图像判别网络对真实图像与生成图像判别损失值

具体地，该公式中损失函数总体loss分别由图像L1的loss、唇形视频与音频同步的loss、图像质量的loss加权求和得到。Sw和Sg分别为唇形同步判别器与图像质量判别器对整体loss影响的权重系数，可根据需求调整判别器在整体图像生成中影响的权重。在GANloss中判别网络D通过迭代不断去最大化目标函数，生成网络G通过迭代不断去最小化图像L1的loss、唇形视频与音频同步的loss、图像质量的loss，进而保证生成更加清晰细节的唇形图像。

在一些实施例中，所述输入的序列图片带有标签限制条件；

具体地，本发明实施例为了生成逼真的人物唇形图像，输入数据为带有标签限制条件的序列图片，限制条件可为可变尺寸边缘像素轮廓、人脸唇形关键点轮廓限制、头部轮廓以及背景等。通过在图片中包含限制条件，使得可对生成内容进行更加精细的内容控制，生成更加可控的高清图像。并且可根据后续使用中产生的新生成需求，增加新的输入限制条件，使生成内容根据需求扩展变得更加丰富。

综上所述，本发明只需通过输入声音与待翻译的视频就能生成能与声音匹配的的高清人物视频，可作为一种通用高清视频翻译生成框架。具体地，本发明训练了一个精确的唇形同步判别器可以用于指导生成网络生成准确、自然的唇部运动。针对不同应用领域(公开新闻、演讲教育、影视剧目等)生成不同形象且与声音匹配的人脸高清图像。该发明完全采用从无到有智能化方式生成，无需每段视频都必须有真实人物进行录制，具有更快的制作效率与更加丰富的扩展形式。

相较于现有技术，本发明提出了一种新颖的视频人物唇形生成与同步模型，它可以使用任意语音生成任意说话人的人脸同步唇形视频，并且比目前其它工作生成的唇形更精确，泛化性也更好。

本发明还提出了一个新的唇形同步判别模型，以便对各种各样复杂环境视频中的唇形同步进行准确的判断。

本发明的模型不依赖于特定的数据训练，是一种独立于说话人的生成模型，哪怕在训练中没有出现的人物唇形数据，也能够生成与语音匹配的唇形。

训练模块，用于根据所述第一数据和所述第二数据，训练得到生成网络、唇形同步判别网络和图像质量判别网络；所述生成网络用于生成人物唇形图像，所述判别网络用于判断人物唇形与人物音频的同步性；

在一些实施例中，还包括预处理模块；

所述预处理模块，用于：

将语音数据进行归一化处理，得到音频波形数据；

以及，

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种唇形同步的视频生成方法，其特征在于，包括：

根据所述第一数据和所述第二数据，训练得到生成网络、唇形同步判别网络和图像质量判别网络；所述生成网络用于生成人物唇形图像，所述唇形同步判别网络用于判断人物唇形与人物音频的同步性，所述图像质量判别网络用于判断生成图像的真假与质量；

通过所述人物唇形生成模型对输入的序列图片进行处理，生成唇形同步的图像数据；

其中，所述生成网络包括声音编码器、图像编码器、图像解码生成器；

其中，所述声音编码器用于通过卷积编码从预处理得到的声音频谱图中提取所述第一数据和所述第二数据中的声音特征；

所述图像解码生成器，用于根据所述声音特征和所述图像特征，生成人物唇形图像；

其中，所述人物唇形生成模型的目标损失函数为：

Loss＝(1-S_w-S_g)·L₁+S_w·L_sync+S_g·L_gen

2.根据权利要求1所述的一种唇形同步的视频生成方法，其特征在于，所述方法还包括对原始视频数据中的语音数据和图像数据进行预处理；

将语音数据进行归一化处理，得到音频波形数据；

所述对原始视频数据中的图像数据进行预处理包括：

3.根据权利要求1所述的一种唇形同步的视频生成方法，其特征在于，所述输入的序列图片带有标签限制条件；

4.一种唇形同步的视频生成装置，其特征在于，包括：

训练模块，用于根据所述第一数据和所述第二数据，训练得到生成网络、唇形同步判别网络和图像质量判别网络；所述生成网络用于生成人物唇形图像，所述唇形同步判别网络用于判断人物唇形与人物音频的同步性，所述图像质量判别网络用于判断生成图像的真假与质量；

生成模块，用于通过所述人物唇形生成模型对输入的序列图片进行处理，生成唇形同步的图像数据；

其中，所述人物唇形生成模型的目标损失函数为：

Loss＝(1-S_w-S_g)·L₁+S_w·L_sync+S_g·L_gen

5.根据权利要求4所述的一种唇形同步的视频生成装置，其特征在于，还包括预处理模块；

所述预处理模块，用于：

将语音数据进行归一化处理，得到音频波形数据；

将所述音频波形数据转化为声音频谱图，频谱图包括但不限于梅尔频谱、线性频谱；以及，

6.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1-3中任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1-3中任一项所述的方法。