WO2023174182A1

WO2023174182A1 - 渲染模型训练、视频的渲染方法、装置、设备和存储介质

Info

Publication number: WO2023174182A1
Application number: PCT/CN2023/080880
Authority: WO
Inventors: 张子阳; 王耀园; 李明磊; 何炜华; 张瑀涵; 程捷
Original assignee: 华为技术有限公司
Priority date: 2022-03-18
Filing date: 2023-03-10
Publication date: 2023-09-21
Also published as: CN116824016A; EP4394711A1

Abstract

本申请公开了渲染模型训练、视频的渲染方法、装置、设备和存储介质，属于图像处理技术领域。渲染模型训练方法包括：获取包括目标对象的面部的第一视频(201)；基于三维面部模型对第一视频中的目标对象的面部动作进行映射，得到包括三维面部的第二视频(202)；将第二视频作为初始渲染模型的输入，以第一视频作为初始渲染模型的输出监督，对初始渲染模型进行训练，得到目标渲染模型(203)。通过利用基于三维面部模型生成的第二视频作为训练渲染模型的样本，避免了在训练渲染模型前需要在较高的录制要求下录制大量的低清晰度视频，进而减少了训练渲染模型时所需的计算资源和时间。

Description

渲染模型训练、视频的渲染方法、装置、设备和存储介质

本申请要求于2022年03月18日提交的申请号为202210273192.8、发明名称为“渲染模型训练、视频的渲染方法、装置、设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像处理技术领域，特别涉及渲染模型训练、视频的渲染方法、装置、设备和存储介质。

背景技术

随着图像处理技术的发展，基于渲染模型渲染出的视频的清晰度越来越高。如何训练得到渲染模型，成为渲染出清晰度较高的视频的关键。

相关技术中，为了使渲染模型可以渲染出清晰度高的视频，需要根据较高的录制要求录制大量的低清晰度视频和高清晰度视频。其中，低清晰度视频为清晰度低于阈值的视频，高清晰度视频为清晰度高于阈值的视频。之后，通过将低清晰度视频作为输入渲染模型的样本视频，将与低清晰度视频对应的高清晰度视频作为监督视频对渲染模型进行训练，以使训练后的渲染模型可以渲染出与监督视频的清晰度相应的视频。

由于上述训练方式在训练渲染模型时，需要根据较高的录制要求录制大量的高清晰度视频与低清晰度视频，不仅获取样本的难度较大，且训练渲染模型时所需的计算资源较多，训练时间较长。

发明内容

本申请提供了一种渲染模型训练、视频的渲染方法、装置、设备和存储介质，以解决相关技术提供的问题，技术方案如下：

第一方面，提供了一种渲染模型训练方法，所述方法包括：获取包括目标对象的面部的第一视频；基于三维面部模型对所述第一视频中的所述目标对象的面部动作进行映射，得到包括三维面部的第二视频；将所述第二视频作为初始渲染模型的输入，以所述第一视频作为所述初始渲染模型的输出监督，对所述初始渲染模型进行训练，得到目标渲染模型。

本申请提供的技术方案，通过引入三维面部模型，并利用基于三维面部模型生成的包括三维面部的第二视频作为训练渲染模型的样本，避免了在训练渲染模型前需要较高的录制要求下录制大量的低清晰度视频，进而减少了训练渲染模型时所使用的计算资源和时间，并且通过三维面部模型的引入能够使训练出的目标渲染模型具备较高的泛化能力。

在一种可能的实现方式中，所述基于三维面部模型对所述第一视频中的所述目标对象的面部动作进行映射，得到包括三维面部的第二视频，包括：提取所述第一视频的每一帧画面中的所述目标对象的面部关键点，得到多组面部关键点，所述面部关键点的组数与所述第一视频的帧数相同，一帧画面对应一组面部关键点；将所述三维面部模型与每组面部关键点进行拟合，得到多个三维面部画面；根据所述三维面部画面与所述第一视频的每一帧画面的对应关系，将所述多个三维面部画面进行组合，得到包括所述三维面部的第二视频。

面部关键点具有较好的稳定性，因而，在第一视频的清晰度较低时也能较好地从第一视频中提取到目标对象的面部关键点，进而根据提取到的目标对象的面部关键点与三维面部模型进行拟合，得到第二视频，提高了获取第二视频的可靠性。

在一种可能的实现方式中，所述将所述三维面部模型与每组面部关键点进行拟合，得到多个三维面部画面，包括：利用神经网络将所述三维面部模型与每组面部关键点进行拟合，得到所述多个三维面部画面。

在一种可能的实现方式中，所述将所述第二视频作为初始渲染模型的输入，以所述第一视频作为所述初始渲染模型的输出监督，对所述初始渲染模型进行训练，得到目标渲染模型，包括：将所述第二视频输入初始渲染模型，由所述初始渲染模型对所述第二视频进行渲染得到第三视频；计算所述第一视频和所述第三视频的每一帧画面之间的相似度；根据所述相似度调整所述初始渲染模型的参数，将调整参数后的初始渲染模型作为所述目标渲染模型。

利用通过提取面部关键点的方式生成的第二视频来训练渲染模型，可以使得训练完成的渲染模型具有更好泛化能力。

在一种可能的实现方式中，所述根据所述相似度调整所述初始渲染模型的参数，将调整参数后的初始渲染模型作为所述目标渲染模型，包括：根据所述相似度调整所述初始渲染模型中的预训练层的权重，将调整权重后的初始渲染模型作为所述目标渲染模型，所述预训练层为所述初始渲染模型中的至少一层网络，所述预训练层包括的网络层数少于所述初始渲染模型中的网络总层数。通过调整预训练层的参数，可以降低调整渲染模型时所需计算资源，使得渲染模型可以更快地完成训练，提高训练效率。

在一种可能的实现方式中，所述将调整参数后的初始渲染模型作为所述目标渲染模型，包括：响应于根据调整参数后的初始渲染模型生成的视频中的每一帧画面，与所述第一视频中的每一帧画面之间的相似度均不小于相似度阈值，将调整参数后的初始渲染模型作为所述目标渲染模型。

在一种可能的实现方式中，所述获取包括目标对象的面部的第一视频，包括：获取包括所述目标对象的第四视频；对所述第四视频的每一帧画面进行裁剪，保留所述第四视频的每一帧画面中所述目标对象的面部区域，得到所述第一视频。通过从包括目标对象的第四视频中裁剪出包括目标对象的面部的第一视频，并通过第一视频来体现目标对象的面部动作，可以在使用较少计算资源的情况下，完成对目标对象的面部关键点的提取。

第二方面，提供了一种视频的渲染方法，所述方法包括：获取包括目标对象的待渲染视频；基于三维面部模型对所述待渲染视频中目标对象的面部动作进行映射，得到包括三维面部的中间视频；获取与所述目标对象对应的目标渲染模型；基于所述目标渲染模型对所述中间视频进行渲染，得到目标视频。

通过引入三维面部模型来帮助对待渲染视频进行渲染，使得待渲染视频的清晰度在较低的情况下，依然可以通过目标渲染模型较好地渲染出目标视频。

在一种可能的实现方式中，所述获取包括目标对象的待渲染视频，包括：获取基于所述目标对象建立的虚拟对象生成模型；基于所述虚拟对象生成模型生成所述待渲染视频。

在一种可能的实现方式中，所述基于所述虚拟对象生成模型生成所述待渲染视频，包括：获取用于生成所述待渲染视频的文本；将所述文本转化为所述目标对象的语音，所述语音的内容与所述文本的内容对应；基于所述语音获取至少一组音唇同步参数；将所述至少一组音唇同步参数输入所述虚拟对象生成模型，由所述虚拟对象生成模型基于所述至少一组音唇同步参数，驱动所述目标对象对应的虚拟对象的面部做出相应的动作，得到所述至少一组音唇同步参数对应的虚拟视频；对所述虚拟视频进行渲染，得到所述待渲染视频。

在一种可能的实现方式中，所述基于所述目标渲染模型对所述中间视频进行渲染，得到目标视频，包括：基于所述目标渲染模型对所述中间视频中每一帧画面进行渲染，得到与所述中间视频的帧数相同数量的渲染后的画面；根据渲染后的画面与所述中间视频中每一帧画面的对应关系，将渲染后的画面进行组合，得到所述目标视频。

在一种可能的实现方式中，所述基于三维面部模型对所述待渲染视频中目标对象的面部动作进行映射，得到包括三维面部的中间视频，包括：对所述待渲染视频的每一帧画面进行裁剪，保留所述待渲染视频的每一帧画面中所述目标对象的面部区域，得到面部视频；基于所述三维面部模型对所述面部视频中目标对象的面部动作进行映射，得到所述中间视频。通过对待渲染视频进行裁剪来得到面部视频，再基于三维面部模型对面部视频中目标对象的面部动作进行映射，能够在使用较少计算资源的情况下，完成对目标对象的面部动作的映射。

第三方面，提供了一种渲染模型训练装置，所述装置包括：

获取模块，用于获取包括目标对象的面部的第一视频；

映射模块，用于基于三维面部模型对所述第一视频中的所述目标对象的面部动作进行映射，得到包括三维面部的第二视频；

训练模块，用于将所述第二视频作为初始渲染模型的输入，以所述第一视频作为所述初始渲染模型的输出监督，对所述初始渲染模型进行训练，得到目标渲染模型。

在一种可能的实现方式中，所述映射模块，用于提取所述第一视频的每一帧画面中的所述目标对象的面部关键点，得到多组面部关键点，所述面部关键点的组数与所述第一视频的帧数相同，一帧画面对应一组面部关键点；将所述三维面部模型与每组面部关键点进行拟合，得到多个三维面部画面；根据所述三维面部画面与所述第一视频的每一帧画面的对应关系，将所述多个三维面部画面进行组合，得到包括所述三维面部的第二视频。

在一种可能的实现方式中，所述映射模块，用于利用神经网络将所述三维面部模型与每组面部关键点进行拟合，得到所述多个三维面部画面。

在一种可能的实现方式中，所述训练模块，用于将所述第二视频输入初始渲染模型，由所述初始渲染模型对所述第二视频进行渲染得到第三视频；计算所述第一视频和所述第三视频的每一帧画面之间的相似度；根据所述相似度调整所述初始渲染模型的参数，将调整参数后的初始渲染模型作为所述目标渲染模型。

在一种可能的实现方式中，所述训练模块，用于根据所述相似度调整所述初始渲染模型中的预训练层的权重，将调整权重后的初始渲染模型作为所述目标渲染模型，所述预训练层为所述初始渲染模型中的至少一层网络，所述预训练层包括的网络层数少于所述初始渲染模型中的网络总层数。

在一种可能的实现方式中，所述训练模块，用于响应于根据调整参数后的初始渲染模型生成的视频中的每一帧画面，与所述第一视频中的每一帧画面之间的相似度均不小于相似度阈值，将调整参数后的初始渲染模型作为所述目标渲染模型。

在一种可能的实现方式中，所述获取模块，用于获取包括所述目标对象的第四视频；对所述第四视频的每一帧画面进行裁剪，保留所述第四视频的每一帧画面中所述目标对象的面部区域，得到所述第一视频。

第四方面，提供了一种视频的渲染装置，所述装置包括：

获取模块，用于获取包括目标对象的待渲染视频；

映射模块，用于基于三维面部模型对所述待渲染视频中目标对象的面部动作进行映射，得到包括三维面部的中间视频；

所述获取模块，还用于获取与所述目标对象对应的目标渲染模型；

渲染模块，用于基于所述目标渲染模型对所述中间视频进行渲染，得到目标视频。

在一种可能的实现方式中，所述获取模块，用于获取基于所述目标对象建立的虚拟对象生成模型；基于所述虚拟对象生成模型生成所述待渲染视频。

在一种可能的实现方式中，所述获取模块，用于获取用于生成所述待渲染视频的文本；将所述文本转化为所述目标对象的语音，所述语音的内容与所述文本的内容对应；基于所述语音获取至少一组音唇同步参数；将所述至少一组音唇同步参数输入所述虚拟对象生成模型，由所述虚拟对象生成模型基于所述至少一组音唇同步参数，驱动所述目标对象对应的虚拟对象的面部做出相应的动作，得到所述至少一组音唇同步参数对应的虚拟视频；对所述虚拟视频进行渲染，得到所述待渲染视频。

在一种可能的实现方式中，所述渲染模块，用于基于所述目标渲染模型对所述中间视频中每一帧画面进行渲染，得到与所述中间视频的帧数相同数量的渲染后的画面；根据渲染后的画面与所述中间视频中每一帧画面的对应关系，将渲染后的画面进行组合，得到所述目标视频。

在一种可能的实现方式中，所述映射模块，用于对所述待渲染视频的每一帧画面进行裁剪，保留所述待渲染视频的每一帧画面中所述目标对象的面部区域，得到面部视频；基于所述三维面部模型对所述面部视频中目标对象的面部动作进行映射，得到所述中间视频。

第五方面，提供了一种通信装置，该装置包括：收发器、存储器和处理器。其中，该收发器、该存储器和该处理器通过内部连接通路互相通信，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，以控制收发器接收信号，并控制收发器发送信号，并且当该处理器执行该存储器存储的指令时，使得该处理器执行第一方面或第一方面的任一种可能的实施方式中的方法，或者第二方面或第二方面的任一种可能的实施方式中的方法。

第六方面，提供了另一种通信装置，该装置包括：收发器、存储器和处理器。其中，该收发器、该存储器和该处理器通过内部连接通路互相通信，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，以控制收发器接收信号，并控制收发器发送信号，并且当该处理器执行该存储器存储的指令时，使得该处理器执行第一方面或第一方面的任一种可能的实施方式中的方法，或者第二方面或第二方面的任一种可能的实施方式中的方法。

可选地，所述处理器为一个或多个，所述存储器为一个或多个。

可选地，所述存储器可以与所述处理器集成在一起，或者所述存储器与处理器分离设置。

在具体实现过程中，存储器可以为非瞬时性(non-transitory)存储器，例如只读存储器(read only memory，ROM)，其可以与处理器集成在同一块芯片上，也可以分别设置在不同的芯片上，本申请对存储器的类型以及存储器与处理器的设置方式不做限定。

第七方面，提供了一种通信系统，该系统包括上述第三方面或第三方面的任一种可能实施方式中的装置以及第四方面或第四方面中的任一种可能实施方式中的装置。

第八方面，提供了一种计算机程序(产品)，所述计算机程序(产品)包括：计算机程序代码，当所述计算机程序代码被计算机运行时，使得所述计算机执行上述各方面中的方法。

第九方面，提供了一种计算机可读存储介质，计算机可读存储介质存储程序或指令，当所述程序或指令在计算机上运行时，上述各方面中的方法被执行。

第十方面，提供了一种芯片，包括处理器，用于从存储器中调用并运行所述存储器中存储的指令，使得安装有所述芯片的通信设备执行上述各方面中的方法。

第十一方面，提供另一种芯片，包括：输入接口、输出接口、处理器和存储器，所述输入接口、输出接口、所述处理器以及所述存储器之间通过内部连接通路相连，所述处理器用于执行所述存储器中的代码，当所述代码被执行时，所述处理器用于执行上述各方面中的方法。

附图说明

图1为本申请实施例提供的一种实施环境的示意图；

图2为本申请实施例提供的一种渲染模型训练方法的流程图；

图3为本申请实施例提供的一种一帧画面裁剪前后的示意图；

图4为本申请实施例提供的一种视频的渲染方法的流程图；

图5为本申请实施例提供的一种渲染模型训练装置的示意图；

图6为本申请实施例提供的一种视频的渲染练装置的示意图；

图7为本申请实施例提供的一种电子设备的结构示意图；

图8为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释，而非旨在限定本申请。

语音驱动虚拟对象是新兴起的一项技术，引起了人们的广泛关注。相比于真实对象而言，虚拟对象在可控性、风险性和成本方面更具有优势。利用语音驱动虚拟对象技术能够根据一段音频生成对应的一段虚拟对象视频，该过程包括：将语音输入生成音唇同步参数的模型，由生成音唇同步参数的模型根据该语音生成音唇同步参数；将音唇同步参数输入虚拟对象生成模型，由虚拟对象生成模型基于音唇同步参数生成虚拟对象视频。

其中，在由虚拟对象生成模型基于音唇同步参数生成虚拟对象视频时，由虚拟对象生成模型根据音唇同步参数驱动虚拟对象做出相应的面部动作，然后由虚拟对象生成模型中包括的渲染模型将该虚拟对象做出面部动作后的画面渲染出来，得到虚拟对象视频。

渲染模型渲染能力的优劣直接影响虚拟对象视频的清晰度，因而，为了使虚拟对象视频的清晰度更高，相关技术中，通过使用较高录制要求下录制的大量高清晰度视频与对应的低清晰度视频作为样本来训练渲染模型，以使渲染模型可以渲染出清晰度更高的虚拟对象视频。但是，相关技术中获取训练样本的难度较大，且训练渲染模型时所需的计算资源较多，训练时间较长。而且，相关技术中训练出的渲染模型在应用时也需要较大的计算资源，不利于在终端侧的应用。

对此，本申请实施例提供了一种渲染模型训练方法，该方法可以避免使用较高录制要求下录制大量的低清晰度视频作为样本来训练渲染模型，减少了训练渲染模型时所需的计算资源和时间。且在渲染模型训练完成后应用时所需的计算资源较少，能够适用于终端侧。本申请实施例还提供了一种视频的渲染方法，该方法中用于对视频进行渲染的渲染模型为，基于本申请实施例提供的渲染模型训练方法训练出的渲染模型，该方法能够在输入的视频清晰度较低的情况下完成对视频的渲染。

如图1所示，本申请实施例提供了一种实施环境。该实施环境可以包括：终端11和服务器12。

其中，终端11可以从服务器12中获取所需的内容，例如，视频。可选地，终端11配置有摄像装置，基于该摄像装置终端11可以获取到视频。

本申请实施例提供的渲染模型训练方法可以由终端11执行，也可以由服务器12执行，还可以由终端11和服务器12共同执行，本申请实施例对此不加以限定。本申请实施例提供的视频的渲染方法可以由终端11执行，也可以由服务器12执行，还可以由终端11和服务器12共同执行，本申请实施例对此不加以限定。此外，本申请实施例提供的渲染模型训练方法和视频的渲染方法可以由相同的设备执行，也可以由不同的设备执行，本申请实施例对此不加以限定。

在一种可能实现方式中，终端11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如PC(Personal Computer，个人计算机)、手机、智能手机、PDA(Personal Digital Assistant，个人数字助手)、可穿戴设备、PPC(Pocket PC，掌上电脑)、平板电脑、智能车机、智能电视、智能音箱、智能语音交互设备、智能家电、车载终端等。服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。

本领域技术人员应能理解上述终端11和服务器12仅为举例，其他现有的或今后可能出现的终端或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

基于上述图1所示的实施环境，本申请实施例提供了一种渲染模型训练方法，以该方法应用于终端11为例。如图2所示，本申请实施例提供的渲染模型训练方法可以包括如下步骤201至步骤203。

步骤201，获取包括目标对象的面部的第一视频。

关于如何获取包括目标对象的面部的第一视频，本申请实施例不做限制。目标对象在进行说话、运动等行为时，面部会有相应的动作。而面部的动作可以被摄像装置记录下来，形成包含目标对象的面部的视频。因而，在示例性实施例中，获取包括目标对象的面部的第一视频，包括：基于配置在终端的摄像装置对目标对象的面部进行拍摄，从而获取到包括目标对象的面部的第一视频。在另一个示例性实施例中，获取包括目标对象的面部的第一视频，包括：获取包括目标对象的第四视频；对第四视频对应的每一帧画面进行裁剪，保留第四视频对应的每一帧画面中目标对象的面部区域，得到第一视频。

可选地，获取包括目标对象的面部的第一视频的方式，还可以是由除了终端外的其它设备拍摄到第一视频后将第一视频传输给终端，进而使得终端完成对第一视频的获取。

可选地，第四视频也可以是由除了终端之外的其他设备拍摄到第四视频后将第四视频传输给终端，进而使得终端完成对第四视频的获取。可选地，服务器中存储有第四视频，获取第四视频的方式还可以是直接从服务器中获取第四视频。

在示例性实施例中，对第四视频的每一帧画面进行裁剪，保留第四视频的每一帧画面中目标对象的面部区域，得到第一视频，包括：基于图像识别技术确定第四视频的每一帧画面中目标对象的面部对应的区域；基于图像分割技术从第四视频的每一帧画面中裁剪出目标对象的面部对应的区域，得到与第四视频的帧数相同数量的面部图像；依据每一个面部图像与第四视频中每一帧画面的对应关系，将全部的面部图像进行组合，得到第一视频。

示例性地，一帧画面裁剪前后如图3所示，图3中的(1)为第四视频中的一帧画面，图3中的(2)为裁剪得到的包括目标对象的面部的一个面部图像。需要说明的是，图3仅用于帮助理解本申请实施例，图3中的(1)和(2)对应的外围框线的大小与对应的画面的大小无关。

需要说明的是，训练渲染模型所使用的样本与渲染模型的用途有关。例如，若渲染模型用于对包括老虎的视频进行渲染，则训练该渲染模型时应使用包括该老虎的视频作为训练样本，即渲染模型的训练是有针对性的。本申请实施例以渲染模型用于渲染包括目标对象的视频为例进行说明，即以包括目标对象的视频作为训练渲染模型的样本来进行说明。当渲染模型用于对其他类型的视频进行渲染时，同样可以应用本申请实施例提供的渲染模型训练方法对渲染模型进行训练。

步骤202，基于三维面部模型对第一视频中目标对象的面部动作进行映射，得到包括三维面部的第二视频。

示例性地，三维面部模型是包括面部样式的三维模型。在示例性实施例中，基于三维面部模型对第一视频中目标对象的面部动作进行映射，得到包括三维面部的第二视频之前，还包括：获取三维面部模型。在示例性实施例中，三维面部模型预先存储在终端的存储器中，此时，获取三维面部模型，包括：从存储器中获取三维面部模型。在另一个示例性实施例中，三维面部模型预先存储在服务器中，获取三维面部模型，包括：基于通信网络从服务器中获取三维面部模型。关于三维面部模型是哪一种具体的三维面部模型，本申请实施例不做限制。可选地，应用在本申请实施例中的三维面部模型可以是三维可变形面部模型(3 dimensions morphable face model，3DMM)。

在示例性实施例中，基于三维面部模型对第一视频中目标对象的面部动作进行映射，得到包括三维面部的第二视频，包括：提取第一视频的每一帧画面中目标对象的面部关键点，得到多组面部关键点，面部关键点的组数与第一视频的帧数相同，一帧画面对应一组面部关键点；将三维面部模型与每组面部关键点进行拟合，得到多个三维面部画面；根据三维面部画面与第一视频中每一帧画面的对应关系，将多个三维面部画面进行组合，得到包括三维面部的第二视频。

通过引入三维面部模型，并利用基于三维面部模型生成的第二视频作为训练渲染模型的样本，避免了在训练渲染模型前需要较高的录制要求下录制大量的低清晰度视频，进而减少了训练渲染模型时所使用的计算资源和时间。

在示例性实施例中，提取第一视频的每一帧画面中目标对象的面部关键点，得到多组面部关键点，包括：确定在第一视频的每一帧画面中面部关键点的位置；提取在第一视频的每一帧画面中面部关键点的位置处的坐标，得到多组面部关键点，面部关键点的组数与第一视频的帧数相同，一帧画面对应一组面部关键点。

在示例性实施例中，确定在第一视频的每一帧画面中面部关键点的位置，包括：基于用于确定关键位置的神经网络确定在第一视频的每一帧画面中面部关键点的位置。确定每一个面部关键点的位置后，可以直接根据每一个面部关键点的位置确定该位置对应的坐标，得到每一个面部关键点的坐标，进而提取在第一视频的每一帧画面中面部关键点的位置处的坐标，得到多组面部关键点。

在示例性实施例中，目标对象的面部关键点包括但不限于头部关键点、唇部关键点、眼部关键点和眉部关键点。关于每一组面部关键点中关键点的数量，本申请实施例不做限制，可根据经验设定。在示例性实施例中，面部关键点分布在设定的区域，例如，在唇部区域分布有20个面部关键点，在左眼区域和右眼区域各分部有6个关键点，在头部(脸颊)区域分布有17个关键点，在左眉区域和右眉区域各分布有5个关键点，在鼻部区域分布有9个关键点。由于面部关键点具有较好的稳定性，因而，在第一视频的清晰度较低时也能较好地从第一视频中提取到目标对象的面部关键点，进而根据提取到的目标对象的面部关键点与三维面部模型进行拟合，得到第二视频。也就是说，通过提取第一视频中目标对象的面部关键点与三维面部模型拟合的方式，来生成第二视频的方式稳定性强、受第一视频清晰度的影响小，在第一视频清晰度较低时同样可以较好地生成第二视频。

关于如何将三维面部模型与每一组面部关键点进行拟合，本申请实施例不做限制。可选地，可以基于神经网络将三维面部模型与每一组面部关键点进行拟合，得到多个三维面部画面。示例性地，用于实现三维面部模型与面部关键点拟合的神经网络为残差网络(residual neural network，ResNet)。可选地，还可以基于贝叶斯模型将三维面部模型与每一组面部关键点进行拟合。

由于三维面部画面是根据第一视频中每一帧画面提取到的面部关键点与三维面部模型进行拟合得到的画面，因而，一个三维面部画面对应第一视频中的一帧画面。在示例性实施例中，可以根据三维面部画面与第一视频中每一帧画面的对应关系，将多个三维面部画面组合成包括三维面部的第二视频。

步骤203，将第二视频作为初始渲染模型的输入，以第一视频作为初始渲染模型的输出监督，对初始渲染模型进行训练，得到目标渲染模型。

在示例性实施例中，将第二视频作为初始渲染模型的输入，以第一视频作为初始渲染模型的输出监督，对初始渲染模型进行训练，得到目标渲染模型，包括：将第二视频输入初始渲染模，由初始渲染模型对第二视频进行渲染得到第三视频；计算第一视频和第三视频每一帧画面之间的相似度；根据该相似度调整初始渲染模型的参数，将调整参数后的初始渲染模型作为目标渲染模型。利用以提取面部关键点的方式生成的第二视频来训练渲染模型，可以使得训练完成的渲染模型具有更好泛化能力。其中，相似度代表第三视频与第一视频的相似程度，相似度越高则代表初始渲染模型的渲染能力越好。而训练初始渲染模型的目标是，使得初始渲染模型对第二视频进行渲染输出的第三视频与第一视频尽可能的相似。

初始渲染模型可以是任意一种渲染模型，本申请实施例对此不做限制，可选地，初始渲染模型可以是生成对抗网络(generative adversarial network，GAN)模型，或者是卷积神经网络(convolutional neural networks，CNN)模型，或者是U-net模型。

在一些实施例中，初始渲染模型包括预训练层，预训练层为初始渲染模型中的至少一层网络，预训练层包括的网络层数少于初始渲染模型中的网络总层数。此种情况下，调整初始渲染模型的参数时，不必调整初始渲染模型的全部参数，对预训练层的权重进行调整即可。在示例性实施例中，根据该相似度调整初始渲染模型的参数，将调整参数后的初始渲染模型作为目标渲染模型，包括：根据相似度值调整初始渲染模型中的预训练层的权重，将调整权重后的初始渲染模型作为目标渲染模型。

在示例性实施例中，预训练层包括初始渲染模型对应的网络层中从后往前参考数量个网络层，示例性地，初始渲染模型包括从前到后的A、B、C、D、E共5层网络，若预训练层对应的参考数量为2，则预训练层包括的网络层为D、E；若预训练层对应的参考数量为3，则预训练层包括的网络层为C、D、E。关于预训练层包括的网络层数本申请实施例不做限制，可以根据经验设置，也可以根据应用场景进行设置。例如，初始渲染模型是CNN模型，且该CNN模型包括输入层、多个卷积层、池化层和全连接层，其中预训练层包括该多个卷积层中的部分卷积层以及池化层和全连接层。由于预训练层是渲染模型对应的网络层中的部分网络层，所以对预训练层的权重进行调整涉及的网络层数较少，进而调整预训练层的权重所需的计算资源也较少，相应地提高了训练渲染模型的效率。

在调整初始渲染模型的参数时，需要确定调整参数后的初始渲染模型达到何种效果时才能作为目标渲染模型。关于初始渲染模型达到何种效果时才能作为目标渲染模型，本申请实施例不做限制，可选地，将调整参数后的初始渲染模型作为目标渲染模型，包括：响应于根据调整参数后的初始渲染模型生成的视频中的每一帧画面，与第一视频中的每一帧画面之间的相似度均不小于相似度阈值，将调整参数后的初始渲染模型作为目标渲染模型。

在训练渲染模型时引入三维面部模型，并利用基于三维面部模型生成的第二视频对渲染模型进行训练，可以降低训练渲染模型时所需的样本量，通常只需要几分钟的第二视频与对应的第一视频即可完成对渲染模型的训练。渲染模型渲染出的视频的清晰度与第一视频的清晰度强相关，因此，通常第一视频为清晰度较高的视频，以使利用第一视频和第二视频训练得到的渲染模型能够渲染出清晰度较高的视频。

基于上述图1所示的实施环境，本申请实施例提供了一种视频的渲染方法，以该方法应用于终端11为例。如图4所示，本申请实施例提供的视频的渲染方法可以包括如下步骤401至步骤403。

步骤401，获取包括目标对象的待渲染视频。

在示例性实施例中，待渲染视频为虚拟对象视频，虚拟对象视频由基于目标对象建立的虚拟对象生成模型生成，也就是说，待渲染视频由基于目标对象建立的虚拟对象生成模型生成。可选地，待渲染视频可以在终端生成，也可以在除了终端之外的其他设备生成后，由除了终端之外的其他设备将待渲染视频发往终端。本申请实施例以终端基于虚拟对象生成模型生成待渲染视频为例进行说明，此种情况下，获取包括目标对象的待渲染视频，包括：获取基于目标对象建立的虚拟对象生成模型；基于虚拟对象生成模型生成待渲染视频。

当然，本申请实施例以待渲染视频为虚拟对象视频为例进行说明，但并不表示待渲染视频仅可以是虚拟对象视频，待渲染视频同样可以为直接对目标对象进行拍摄得到的视频，或者是其他方式生成的包括目标对象的视频。

可选地，本申请实施例中所使用的虚拟对象生成模型可以是嘴型同步wave2lip模型，还可以是其他任意一种虚拟对象生成模型，本申请实施例对此不做限制。

在示例性实施例中，基于目标对象建立的虚拟对象生成模型存储在终端的存储器中，获取基于目标对象建立的虚拟对象生成模型，包括：直接从终端的存储器中获取该虚拟对象生成模型。在另一个示例性实施例中，该虚拟对象生成模型存在服务器的存储器中，获取基于目标对象建立的虚拟对象生成模型，包括：从服务器中获取该虚拟对象生成模型。其中，基于目标对象建立的虚拟对象生成模型为完成训练的虚拟对象生成模型，能够利用音唇同步参数调驱动虚拟对象做出对应的面部动作，进而生成包括目标对象的视频。

在示例性实施例中，基于虚拟对象生成模型生成待渲染视频，包括：获取用于生成待渲染视频的文本；将该文本转化为目标对象的语音，该语音的内容与文本的内容对应；基于该语音获取至少一组音唇同步参数；将该至少一组音唇同步参数输入虚拟对象生成模型，由虚拟对象生成模型基于该至少一组音唇同步参数，驱动目标对象对应的虚拟对象的面部做出相应的动作，得到该至少一组音唇同步参数对应的虚拟视频；对虚拟视频进行渲染，得到待渲染视频。其中，虚拟对象生成模型包括目标对象对应的虚拟对象。通常，待渲染视频中的每一帧画面均为静态的画面，该静态的画面中，唇部对应有一定的形状。而一组音唇同步参数用于驱动虚拟对象生成待渲染视频中相应的一帧画面。

可选地，用于生成待渲染视频的文本由人工输入至终端中，当终端检测到该文本的输入后相应地完成了获取用于生成待渲染视频的文本。可选地，用于生成待渲染视频的文本由人工输入至除了终端之外的其他设备中，由其他设备将该文本发往终端，此时，获取用于生成待渲染视频的文本，包括：接收其他设备发送来的用于生成待渲染视频的文本。

在示例性实施例中，将该文本转化为目标对象的语音，包括：基于任一能够将文本转换为语音的模型将该文本转换为目标对象的语音，其中，该任一能够将文本转换为语音的模型基于目标对象的音频训练得到，以使该任一能够将文本转换为语音的模型具备将文本转换为目标对象的语音的能力。示例性地，该任一能够将文本转换为语音的模型可以是Char2Wav模型(一种语音合成模型)。

在示例性实施例中，基于该语音获取至少一组音唇同步参数，包括：将该语音输入用于根据音频生成音唇同步参数的神经网络模型，由该神经网络模型基于该语音生成至少一组音唇同步参数。示例性地，用于根据音频生成音唇同步参数的神经网络模型可以是长短期记忆网络(long short-term memory，LSTM)模型。

步骤402，基于三维面部模型对待渲染视频中目标对象的面部动作进行映射，得到包括三维面部的中间视频。

在基于三维面部模型对待渲染视频中目标对象的面部动作进行映射，得到包括三维面部的中间视频之前，还包括：获取三维面部模型。关于如何获取三维面部模型在图2对应的渲染模型训练方法的实施例步骤202中已经说明，在此不再赘述。

在示例性实施例中，基于三维面部模型对待渲染视频中目标对象的面部动作进行映射，得到包括三维面部的中间视频，包括：对待渲染视频的每一帧画面进行裁剪，保留待渲染视频的每一帧画面中目标对象的面部区域，得到面部视频；基于三维面部模型对面部视频中目标对象的面部动作进行映射，得到中间视频。

其中，对待渲染视频的每一帧画面进行裁剪，保留待渲染视频的每一帧画面中目标对象的面部区域，得到面部视频的实现方式参见图2对应的渲染模型训练方法的步骤201中，对第四视频进行裁剪得到第一视频，在此不再赘述。基于三维面部模型对面部视频中目标对象的面部进行映射，得到中间视频的实现方式参见图2对应的渲染模型训练方法的步骤202，在此不再赘述。

步骤403，获取与目标对象对应的目标渲染模型，基于目标渲染模型对中间视频进行渲染，得到目标视频。

在示例性实施例中，目标渲染模型在除了终端之外的其他设备中完成训练后发往终端，此种情况下，获取与目标对象对应的目标渲染模型，包括：接收其他设备发送来的目标渲染模型。在另一个示例性实施例中，目标渲染模型在终端中训练完成且存储在终端的存储器中，此种情况下，获取与目标对象对应的目标渲染模型，包括：从存储器中获取目标渲染模型。示例性地，目标渲染模型为基于图2对应的渲染模型训练方法训练得到的目标渲染模型。

由于目标渲染模型渲染出的视频的清晰度，由训练出目标渲染模型的监督样本的清晰度决定，因而，在监督样本的清晰度高于待渲染视频的清晰度时，基于目标渲染模型对中间视频进行渲染后输出的目标视频的清晰度高于待渲染视频的清晰度。

在示例性实施例中，基于目标渲染模型对中间视频进行渲染，得到目标视频，包括：基于目标渲染模型对中间视频中的每一帧画面进行渲染，得到与中间视频的帧数相同数量的渲染后的画面；根据渲染后的画面与中间视频中每一帧画面的对应关系，将渲染后的画面进行组合，得到目标视频。其中，目标视频的清晰度与用于训练出目标渲染模型的监督视频的清晰度对应。

在虚拟对象生成模型生成的待渲染视频的清晰度较低，且目标渲染模型对应的监督样本的清晰度较高时，通过目标渲染模型对待渲染视频进行渲染，可以得到清晰度较高的目标视频。也就是说，通过将低清晰度的虚拟对象生成模型与目标渲染模型搭配使用，可以使终端在花费较少计算资源的情况下生成高清晰度的目标视频。

以上介绍了本申请实施例的渲染模型训练方法和视频的渲染方法，与上述方法对应，本申请实施例还提供了渲染模型训练装置和视频的渲染装置。如图5所示，本申请实施例还提供了一种渲染模型训练装置，该装置包括：

获取模块501，用于获取包括目标对象的面部的第一视频；

映射模块502，用于基于三维面部模型对第一视频中的目标对象的面部动作进行映射，得到包括三维面部的第二视频；

训练模块503，用于将第二视频作为初始渲染模型的输入，以第一视频作为初始渲染模型的输出监督，对初始渲染模型进行训练，得到目标渲染模型。

在一种可能的实现方式中，映射模块502，用于提取第一视频的每一帧画面中的目标对象的面部关键点，得到多组面部关键点，面部关键点的组数与第一视频的帧数相同，一帧画面对应一组面部关键点；将三维面部模型与每组面部关键点进行拟合，得到多个三维面部画面；根据三维面部画面与第一视频的每一帧画面的对应关系，将多个三维面部画面进行组合，得到包括三维面部的第二视频。

在一种可能的实现方式中，映射模块502，用于利用神经网络将三维面部模型与每组面部关键点进行拟合，得到多个三维面部画面。

在一种可能的实现方式中，训练模块503，用于将第二视频输入初始渲染模型，由初始渲染模型对第二视频进行渲染得到第三视频；计算第一视频和第三视频的每一帧画面之间的相似度；根据相似度调整初始渲染模型的参数，将调整参数后的初始渲染模型作为目标渲染模型。

在一种可能的实现方式中，训练模块503，用于根据相似度调整初始渲染模型中的预训练层的权重，将调整权重后的初始渲染模型作为目标渲染模型，预训练层为初始渲染模型中的至少一层网络，预训练层包括的网络层数少于初始渲染模型中的网络总层数。

在一种可能的实现方式中，训练模块503，用于响应于根据调整参数后的初始渲染模型生成的视频中的每一帧画面，与第一视频中的每一帧画面之间的相似度均不小于相似度阈值，将调整参数后的初始渲染模型作为目标渲染模型。

在一种可能的实现方式中，获取模块501，用于获取包括目标对象的第四视频；对第四视频的每一帧画面进行裁剪，保留第四视频的每一帧画面中目标对象的面部区域，得到第一视频。

如图6所示，本申请实施例还提供了一种视频的渲染装置，装置包括：

获取模块601，用于获取包括目标对象的待渲染视频；

映射模块602，用于基于三维面部模型对待渲染视频中目标对象的面部动作进行映射，得到包括三维面部的中间视频；

获取模块601，还用于获取与目标对象对应的目标渲染模型；

渲染模块603，用于基于目标渲染模型对中间视频进行渲染，得到目标视频。

在一种可能的实现方式中，获取模块601，用于获取基于目标对象建立的虚拟对象生成模型；基于虚拟对象生成模型生成待渲染视频。

在一种可能的实现方式中，获取模块601，用于获取用于生成待渲染视频的文本；将文本转化为目标对象的语音，语音的内容与文本的内容对应；基于语音获取至少一组音唇同步参数；将至少一组音唇同步参数输入虚拟对象生成模型，由虚拟对象生成模型基于至少一组音唇同步参数，驱动目标对象对应的虚拟对象的面部做出相应的动作，得到至少一组音唇同步参数对应的虚拟视频；对虚拟视频进行渲染，得到待渲染视频。

在一种可能的实现方式中，渲染模块603，用于基于目标渲染模型对中间视频中每一帧画面进行渲染，得到与中间视频的帧数相同数量的渲染后的画面；根据渲染后的画面与中间视频中每一帧画面的对应关系，将渲染后的画面进行组合，得到目标视频。

在一种可能的实现方式中，映射模块602，用于对待渲染视频的每一帧画面进行裁剪，保留待渲染视频的每一帧画面中目标对象的面部区域，得到面部视频；基于三维面部模型对面部视频中目标对象的面部动作进行映射，得到中间视频。

应理解的是，上述图5和图6提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

参见图7，图7示出了本申请一个示例性实施例提供的电子设备的结构示意图。图7所示的电子设备用于执行上述图2所示的渲染模型训练方法或图4所示的视频的渲染方法所涉及的操作。该电子设备例如是终端等，该电子设备可以由一般性的总线体系结构来实现。

如图7所示，电子设备包括至少一个处理器701、存储器703以及至少一个通信接口704。

处理器701例如是通用中央处理器(central processing unit，CPU)、数字信号处理器(digital signal processor，DSP)、网络处理器(network processer，NP)、图形处理器(Graphics Processing Unit，GPU)、神经网络处理器(neural-network processing units，NPU)、数据处理单元(Data Processing Unit，DPU)、微处理器或者一个或多个用于实现本申请方案的集成电路。例如，处理器701包括专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。PLD例如是复杂可编程逻辑器件(complex programmable logic device，CPLD)、现场可编程逻辑门阵列(field-programmable gate array，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合。其可以实现或执行结合本发明实施例公开内容所描述的各种逻辑方框、模块和电路。处理器也可以是实现计算功能的组合，例如包括一个或多个微处理器组合，DSP和微处理器的组合等等。

可选的，电子设备还包括总线。总线用于在电子设备的各组件之间传送信息。总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。

存储器703例如是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其它类型的静态存储设备，又如是随机存取存储器(random access memory，RAM)或者可存储信息和指令的其它类型的动态存储设备，又如是电可擦可编程只读存储器(electrically erasable programmable read-only Memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备，或者是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器703例如是独立存在，并通过总线与处理器701相连接。存储器703也可以和处理器701集成在一起。

通信接口704使用任何收发器一类的装置，用于与其它设备或通信网络通信，通信网络可以为以太网、无线接入网(RAN)或无线局域网(wireless local area networks，WLAN)等。通信接口704可以包括有线通信接口，还可以包括无线通信接口。示例性地，通信接口704可以为以太(Ethernet)接口、快速以太(Fast Ethernet，FE)接口、千兆以太(Gigabit Ethernet，GE)接口，异步传输模式(Asynchronous Transfer Mode，ATM)接口，无线局域网(wireless local area networks，WLAN)接口，蜂窝网络通信接口或其组合。以太网接口可以是光接口，电接口或其组合。在本申请实施例中，通信接口704可以用于电子设备与其他设备进行通信。

作为一种实施例，处理器701可以包括一个或多个CPU，如图7中所示的CPU0和CPU1。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

作为一种实施例，电子设备可以包括多个处理器，如图7中所示的处理器701和处理器 705。这些处理器中的每一个可以是一个单核处理器(single-CPU)，也可以是一个多核处理器(multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(如计算机程序指令)的处理核。

作为一种实施例，电子设备还可以包括输出设备和输入设备。输出设备和处理器701通信，可以以多种方式来显示信息。例如，输出设备可以是液晶显示器(liquid crystal display，LCD)、发光二级管(light emitting diode，LED)显示设备、阴极射线管(cathode ray tube，CRT)显示设备或投影仪(projector)等。输入设备和处理器701通信，可以以多种方式接收用户的输入。例如，输入设备可以是鼠标、键盘、触摸屏设备或传感设备等。

在一些实施例中，存储器703用于存储执行本申请方案的程序代码710，处理器701可以执行存储器703中存储的程序代码710。也即是，电子设备可以通过处理器701以及存储器703中的程序代码710，来实现方法实施例提供的渲染模型训练方法或视频的渲染方法。程序代码710中可以包括一个或多个软件模块。可选地，处理器701自身也可以存储执行本申请方案的程序代码或指令。

图2所示的渲染模型训练方法或图4所示的视频的渲染方法的各步骤通过电子设备的处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤，为避免重复，这里不再详细描述。

图8是本申请实施例提供的一种服务器的结构示意图，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(central processing units，CPU)801和一个或多个存储器802，其中，该一个或多个存储器802中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器801加载并执行，以使该服务器实现上述各个方法实施例提供的渲染模型训练方法或视频的渲染方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种通信装置，该装置包括：收发器、存储器和处理器。其中，该收发器、该存储器和该处理器通过内部连接通路互相通信，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，以控制收发器接收信号，并控制收发器发送信号，并且当该处理器执行该存储器存储的指令时，使得该处理器执行渲染模型训练方法或视频的渲染方法。

应理解的是，上述处理器可以是CPU，还可以是其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field－programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(advanced RISC machines，ARM)架构的处理器。

进一步地，在一种可选的实施例中，上述存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic random access memory，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

本申请实施例还提供了一种计算机可读存储介质，存储介质中存储有至少一条指令，指令由处理器加载并执行，以使计算机实现如上任一所述的渲染模型训练方法或视频的渲染方法。

本申请实施例还提供了一种计算机程序(产品)，当计算机程序被计算机执行时，可以使得处理器或计算机执行上述方法实施例中对应的各个步骤和/或流程。

本申请实施例还提供了一种芯片，包括处理器，用于从存储器中调用并运行所述存储器中存储的指令，使得安装有所述芯片的通信设备执行如上任一所述的渲染模型训练方法或视频的渲染方法。

本申请实施例还提供另一种芯片，包括：输入接口、输出接口、处理器和存储器，所述输入接口、输出接口、所述处理器以及所述存储器之间通过内部连接通路相连，所述处理器用于执行所述存储器中的代码，当所述代码被执行时，所述处理器用于执行如上任一所述的渲染模型训练方法或视频的渲染方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(solid state disk))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例中描述的各方法步骤和模块，能够以软件、硬件、固件或者其任意组合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各实施例的步骤及组成。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机程序指令。作为示例，本申请实施例的方法可以在机器可执行指令的上下文中被描述，机器可执行指令诸如包括在目标的真实或者虚拟处理器上的器件中执行的程序模块中。一般而言，程序模块包括例程、程序、库、对象、类、组件、数据结构等，其执行特定的任务或者实现特定的抽象数据结构。在各实施例中，程序模块的功能可以在所描述的程序模块之间合并或者分割。用于程序模块的机器可执行指令可以在本地或者分布式设备内执行。在分布式设备中，程序模块可以位于本地和远程存储介质二者中。

用于实现本申请实施例的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器，使得程序代码在被计算机或其他可编程的数据处理装置执行的时候，引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。

在本申请实施例的上下文中，计算机程序代码或者相关数据可以由任意适当载体承载，以使得设备、装置或者处理器能够执行上文描述的各种处理和操作。载体的示例包括信号、计算机可读介质等等。

信号的示例可以包括电、光、无线电、声音或其它形式的传播信号，诸如载波、红外信号等。

机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备，或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备，或其任意合适的组合。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、设备和模块的具体工作过程，可以参见前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、设备或模块的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

该作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

该集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例中方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如，在不脱离各种所述示例的范围的情况下，第一图像可以被称为第二图像，并且类似地，第二图像可以被称为第一图像。第一图像和第二图像都可以是图像，并且在某些情况下，可以是单独且不同的图像。

还应理解，在本申请的各个实施例中，各个过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本申请中术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上，例如，多个第二报文是指两个或两个以上的第二报文。本文中术语“系统”和“网络”经常可互换使用。

应理解，在本文中对各种所述示例的描述中所使用的术语只是为了描述特定示例，而并非旨在进行限制。如在对各种所述示例的描述和所附权利要求书中所使用的那样，单数形式“一个(“a”，“an”)”和“该”旨在也包括复数形式，除非上下文另外明确地指示。

还应理解，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。术语“和/或”，是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中的字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，术语“包括”(也称“includes”、“including”、“comprises”和/或“comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。

还应理解，术语“若”和“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“若确定...”或“若检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

还应理解，说明书通篇中提到的“一个实施例”、“一实施例”、“一种可能的实现方式”意味着与实施例或实现方式有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”、“一种可能的实现方式”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的包括目标对象的面部的第一视频是在充分授权的情况下获取的。

Claims

一种渲染模型训练方法，其特征在于，所述方法包括：

获取包括目标对象的面部的第一视频；

基于三维面部模型对所述第一视频中的所述目标对象的面部动作进行映射，得到包括三维面部的第二视频；

将所述第二视频作为初始渲染模型的输入，以所述第一视频作为所述初始渲染模型的输出监督，对所述初始渲染模型进行训练，得到目标渲染模型。
根据权利要求1所述的方法，其特征在于，所述基于三维面部模型对所述第一视频中的所述目标对象的面部动作进行映射，得到包括三维面部的第二视频，包括：

提取所述第一视频的每一帧画面中的所述目标对象的面部关键点，得到多组面部关键点，所述面部关键点的组数与所述第一视频的帧数相同，一帧画面对应一组面部关键点；

将所述三维面部模型与每组面部关键点进行拟合，得到多个三维面部画面；

根据所述三维面部画面与所述第一视频的每一帧画面的对应关系，将所述多个三维面部画面进行组合，得到包括所述三维面部的第二视频。
根据权利要求2所述的方法，其特征在于，所述将所述三维面部模型与每组面部关键点进行拟合，得到多个三维面部画面，包括：

利用神经网络将所述三维面部模型与每组面部关键点进行拟合，得到所述多个三维面部画面。
根据权利要求1-3任一所述的方法，其特征在于，所述将所述第二视频作为初始渲染模型的输入，以所述第一视频作为所述初始渲染模型的输出监督，对所述初始渲染模型进行训练，得到目标渲染模型，包括：

将所述第二视频输入初始渲染模型，由所述初始渲染模型对所述第二视频进行渲染得到第三视频；

计算所述第一视频和所述第三视频的每一帧画面之间的相似度；

根据所述相似度调整所述初始渲染模型的参数，将调整参数后的初始渲染模型作为所述目标渲染模型。
根据权利要求4所述的方法，其特征在于，所述根据所述相似度调整所述初始渲染模型的参数，将调整参数后的初始渲染模型作为所述目标渲染模型，包括：

根据所述相似度调整所述初始渲染模型中的预训练层的权重，将调整权重后的初始渲染模型作为所述目标渲染模型，所述预训练层为所述初始渲染模型中的至少一层网络，所述预训练层包括的网络层数少于所述初始渲染模型中的网络总层数。
根据权利要求4或5所述的方法，其特征在于，所述将调整参数后的初始渲染模型作为所述目标渲染模型，包括：

响应于根据调整参数后的初始渲染模型生成的视频中的每一帧画面，与所述第一视频中的每一帧画面之间的相似度均不小于相似度阈值，将调整参数后的初始渲染模型作为所述目标渲染模型。
根据权利要求1-6任一所述的方法，其特征在于，所述获取包括目标对象的面部的第一视频，包括：

获取包括所述目标对象的第四视频；

对所述第四视频的每一帧画面进行裁剪，保留所述第四视频的每一帧画面中所述目标对象的面部区域，得到所述第一视频。
一种视频的渲染方法，其特征在于，所述方法包括：

获取包括目标对象的待渲染视频；

基于三维面部模型对所述待渲染视频中目标对象的面部动作进行映射，得到包括三维面部的中间视频；

获取与所述目标对象对应的目标渲染模型；

基于所述目标渲染模型对所述中间视频进行渲染，得到目标视频。
根据权利要求8所述的方法，其特征在于，所述获取包括目标对象的待渲染视频，包括：

获取基于所述目标对象建立的虚拟对象生成模型；

基于所述虚拟对象生成模型生成所述待渲染视频。
根据权利要求9所述的方法，其特征在于，所述基于所述虚拟对象生成模型生成所述待渲染视频，包括：

获取用于生成所述待渲染视频的文本；

将所述文本转化为所述目标对象的语音，所述语音的内容与所述文本的内容对应；

基于所述语音获取至少一组音唇同步参数；

将所述至少一组音唇同步参数输入所述虚拟对象生成模型，由所述虚拟对象生成模型基于所述至少一组音唇同步参数，驱动所述目标对象对应的虚拟对象的面部做出相应的动作，得到所述至少一组音唇同步参数对应的虚拟视频；

对所述虚拟视频进行渲染，得到所述待渲染视频。
根据权利要求8-10任一所述的方法，其特征在于，所述基于所述目标渲染模型对所述中间视频进行渲染，得到目标视频，包括：

基于所述目标渲染模型对所述中间视频中每一帧画面进行渲染，得到与所述中间视频的帧数相同数量的渲染后的画面；

根据渲染后的画面与所述中间视频中每一帧画面的对应关系，将渲染后的画面进行组合，得到所述目标视频。
根据权利要求8-11任一所述的方法，其特征在于，所述基于三维面部模型对所述待渲染视频中目标对象的面部动作进行映射，得到包括三维面部的中间视频，包括：

对所述待渲染视频的每一帧画面进行裁剪，保留所述待渲染视频的每一帧画面中所述目标对象的面部区域，得到面部视频；

基于所述三维面部模型对所述面部视频中目标对象的面部动作进行映射，得到所述中间视频。
一种渲染模型训练装置，其特征在于，所述装置包括：

获取模块，用于获取包括目标对象的面部的第一视频；

映射模块，用于基于三维面部模型对所述第一视频中的所述目标对象的面部动作进行映射，得到包括三维面部的第二视频；

训练模块，用于将所述第二视频作为初始渲染模型的输入，以所述第一视频作为所述初始渲染模型的输出监督，对所述初始渲染模型进行训练，得到目标渲染模型。
根据权利要求13所述的装置，其特征在于，所述映射模块，用于提取所述第一视频的每一帧画面中的所述目标对象的面部关键点，得到多组面部关键点，所述面部关键点的组数与所述第一视频的帧数相同，一帧画面对应一组面部关键点；将所述三维面部模型与每组面部关键点进行拟合，得到多个三维面部画面；根据所述三维面部画面与所述第一视频的每一帧画面的对应关系，将所述多个三维面部画面进行组合，得到包括所述三维面部的第二视频。
根据权利要求14所述的装置，其特征在于，所述映射模块，用于利用神经网络将所述三维面部模型与每组面部关键点进行拟合，得到所述多个三维面部画面。
根据权利要求13-15任一所述的装置，其特征在于，所述训练模块，用于将所述第二视频输入初始渲染模型，由所述初始渲染模型对所述第二视频进行渲染得到第三视频；计算所述第一视频和所述第三视频的每一帧画面之间的相似度；根据所述相似度调整所述初始渲染模型的参数，将调整参数后的初始渲染模型作为所述目标渲染模型。
根据权利要求16所述的装置，其特征在于，所述训练模块，用于根据所述相似度调整所述初始渲染模型中的预训练层的权重，将调整权重后的初始渲染模型作为所述目标渲染模型，所述预训练层为所述初始渲染模型中的至少一层网络，所述预训练层包括的网络层数少于所述初始渲染模型中的网络总层数。
根据权利要求16或17所述的装置，其特征在于，所述训练模块，用于响应于根据调整参数后的初始渲染模型生成的视频中的每一帧画面，与所述第一视频中的每一帧画面之间的相似度均不小于相似度阈值，将调整参数后的初始渲染模型作为所述目标渲染模型。
根据权利要求13-18任一所述的装置，其特征在于，所述获取模块，用于获取包括所述目标对象的第四视频；对所述第四视频的每一帧画面进行裁剪，保留所述第四视频的每一帧画面中所述目标对象的面部区域，得到所述第一视频。
一种视频的渲染装置，其特征在于，所述装置包括：

获取模块，用于获取包括目标对象的待渲染视频；

映射模块，用于基于三维面部模型对所述待渲染视频中目标对象的面部动作进行映射，得到包括三维面部的中间视频；

所述获取模块，还用于获取与所述目标对象对应的目标渲染模型；

渲染模块，用于基于所述目标渲染模型对所述中间视频进行渲染，得到目标视频。
根据权利要求20所述的装置，其特征在于，所述获取模块，用于获取基于所述目标对象建立的虚拟对象生成模型；基于所述虚拟对象生成模型生成所述待渲染视频。
根据权利要求21所述的装置，其特征在于，所述获取模块，用于获取用于生成所述待渲染视频的文本；将所述文本转化为所述目标对象的语音，所述语音的内容与所述文本的内容对应；基于所述语音获取至少一组音唇同步参数；将所述至少一组音唇同步参数输入所述虚拟对象生成模型，由所述虚拟对象生成模型基于所述至少一组音唇同步参数，驱动所述目标对象对应的虚拟对象的面部做出相应的动作，得到所述至少一组音唇同步参数对应的虚拟视频；对所述虚拟视频进行渲染，得到所述待渲染视频。
根据权利要求20-22任一所述的装置，其特征在于，所述渲染模块，用于基于所述目标渲染模型对所述中间视频中每一帧画面进行渲染，得到与所述中间视频的帧数相同数量的渲染后的画面；根据渲染后的画面与所述中间视频中每一帧画面的对应关系，将渲染后的画面进行组合，得到所述目标视频。
根据权利要求20-23任一所述的装置，其特征在于，所述映射模块，用于对所述待渲染视频的每一帧画面进行裁剪，保留所述待渲染视频的每一帧画面中所述目标对象的面部区域，得到面部视频；基于所述三维面部模型对所述面部视频中目标对象的面部动作进行映射，得到所述中间视频。
一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器；所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以使所述计算机设备实现如权利要求1-7中任一所述的渲染模型训练方法，或者如权利要求8-12中任一所述的视频的渲染方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1-7中任一所述的渲染模型训练方法，或者如权利要求8-12中任一所述的视频的渲染方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序/指令，所述计算机程序/指令被处理器执行，以使计算机实现如权利要求1-7中任一所述的渲染模型训练方法，或者如权利要求8-12中任一所述的视频的渲染方法。