CN113570684A

CN113570684A - 图像处理方法、装置、计算机设备和存储介质

Info

Publication number: CN113570684A
Application number: CN202110088576.8A
Authority: CN
Inventors: 曹赟; 朱俊伟; 朱飞达; 陈旭; 倪辉; 贺珂珂; 邰颖; 汪铖杰; 李季檩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-10-29

Abstract

本申请涉及一种图像处理方法、装置、计算机设备和存储介质。其中的方法包括：获取包含面部区域的初始模板图像和初始输入图像，获取初始模板图像的面部状态特征，并获取初始输入图像的初始面部形状特征；根据面部状态特征及初始面部形状特征对初始模板图像和初始输入图像进行三维面部重构，得到三维重构面部图像；对三维重构面部图像进行二维投影，获取得到的二维重构面部图像对应的重构面部形状特征，将初始模板图像的面部区域按照重构面部形状特征进行调整，得到目标模板图像；获取初始输入图像的面部身份特征，根据面部身份特征和目标模板图像进行融合处理，得到目标图像。采用本方法能够提高图像处理效率。

Description

图像处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种图像处理方法、装置、计算机设备和存储介质。

背景技术

随着人工智能在图像处理技术上的不断发展，在计算机设备上对图像进行个性化处理，生成新的图像变得越来越普遍。例如，用户通过终端拍照后，对拍摄的照片进行美化等个性化处理，生成新的图像。

然而，目前这种图像处理方式需要用户手动操作，比如手动选择需要处理的图像区域或者手动选择美化图像的素材等。这种图像处理方式操作繁琐，而且对用户动手能力要求较高，导致图像处理的效率偏低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高图像处理效率的图像处理方法、装置、计算机设备和存储介质。

一种图像处理方法，所述方法包括：

获取包含面部区域的初始模板图像和初始输入图像；

获取所述初始模板图像的面部状态特征，并获取所述初始输入图像的初始面部形状特征；

根据所述面部状态特征及所述初始面部形状特征对所述初始模板图像和所述初始输入图像进行三维面部重构，得到三维重构面部图像；

对所述三维重构面部图像进行二维投影，得到二维重构面部图像；

获取所述二维重构面部图像对应的重构面部形状特征，将所述初始模板图像的面部区域按照所述重构面部形状特征进行调整，得到目标模板图像；

获取所述初始输入图像的面部身份特征，根据所述面部身份特征和所述目标模板图像进行融合处理，得到目标图像。

一种图像处理装置，所述装置包括：

图像获取模块，用于获取包含面部区域的初始模板图像和初始输入图像；

特征获取模块，用于获取所述初始模板图像的面部状态特征，并获取所述初始输入图像的初始面部形状特征；

三维重构模块，用于根据所述面部状态特征及所述初始面部形状特征对所述初始模板图像和所述初始输入图像进行三维面部重构，得到三维重构面部图像；

二维投影模块，用于对所述三维重构面部图像进行二维投影，得到二维重构面部图像；

调整模块，用于获取所述二维重构面部图像对应的重构面部形状特征，将所述初始模板图像的面部区域按照所述重构面部形状特征进行调整，得到目标模板图像；

融合模块，用于获取所述初始输入图像的面部身份特征，根据所述面部身份特征和所述目标模板图像进行融合处理，得到目标图像。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取包含面部区域的初始模板图像和初始输入图像；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取包含面部区域的初始模板图像和初始输入图像；

上述图像处理方法、装置、计算机设备和存储介质，在获取到包含面部区域的初始模板图像和初始输入图像后，进一步获取所述初始模板图像的面部状态特征，并获取所述初始输入图像的初始面部形状特征，根据所述面部状态特征及所述初始面部形状特征对所述初始模板图像和所述初始输入图像进行三维面部重构，得到三维重构面部图像，接着对所述三维重构面部图像进行二维投影，得到二维重构面部图像，获取所述二维重构面部图像对应的重构面部形状特征，将所述初始模板图像的面部区域按照所述重构面部形状特征进行调整，得到目标模板图像，最后获取所述初始输入图像的面部身份特征，根据所述面部身份特征和所述初始输入图像进行融合处理，得到目标图像，实现了目标图像的自动生成，避免了人工处理的繁琐操作，极大地提高了图像处理的效率。

进一步，由于在进融合时，是根据初始输入图像面部身份特征和目标模板图像进行融合的，而目标模板图像的面部形状特征与初始输入图像的面部形状特征是匹配的，最终得到的目标图像与初始输入图像的面部身份特征相似、且与初始输入图像的面部形状特征相似，从而保障得到的目标图像与初始输入图像的面部身份特征一致性，同时保障得到的目标图像与初始输入图像的主观相似度。

附图说明

图1为一个实施例中图像处理方法的应用环境图；

图2为一个实施例中图像处理方法的流程示意图；

图3为另一个实施例中图像处理方法的流程示意图；

图3A为一个实施例中3DMM库的示意图；

图3B为另一个实施例中3DMM库中某一行的部分表情的示意图；

图4为一个实施例中对初始模板图像进行优化的流程示意图；

图5为一个实施例中Pix2PixHD模型的生成器的结构示意图；

图6为一个实施例中融合处理的流程示意图；

图7A为一个实施例中身份证照模板示例；

图7B为一个实施例中各国签证模板示例；

图7C为一个实施例中简历照模板示例；

图8A为一个实施例中优化证件照模板的过程示意图；

图8B为一个实施例中图像融合的过程示意图；

图8C为一个实施例中人像增强的过程示意图；

图9为一个实施例中图像处理装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的图像处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102和服务器104均可单独用于执行本申请实施例中提供的视频数据处理方法。终端102和服务器104也可协同用于执行本申请实施例中提供的视频数据处理生成方法。

例如，服务器104可存储包含面部区域的模板图像集合，在进行图像处理时，服务器104根据终端102的请求向终端102返回模型图像集合，终端的用户从模板图像集合中选择一个模板图像作为初始模板图像，同时用户通过终端进行自拍得到包含面部区域的初始输入图像，并发送至服务器，服务器从而可以获取到初始模板图像和初始输入图像，服务器104进一步获取初始模板图像的面部状态特征，并获取初始输入图像的初始面部形状特征，然后根据面部状态特征及初始面部形状特征对初始模板图像和初始输入图像进行三维面部重构，得到三维重构面部图像，对三维重构面部图像进行二维投影，得到二维重构面部图像，服务器进一步获取二维重构面部图像对应的重构面部形状特征，将初始模板图像的面部区域按照重构面部形状特征进行调整，得到目标模板图像，最后，服务器获取初始输入图像的面部身份特征，根据面部身份特征和目标模板图像进行融合处理，得到目标图像，将目标图像返回至终端102。

其中，服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

需要说明的是，本申请实施例提供的图像处理方法，旨在根据一张初始模板图像及一张初始输入图像生成对应的目标图像，生成的目标图像的面部身份特征、面部形状特征与初始输入图像相似，且目标图像中除面部身份特征、面部形状特征之外的其他属性特征(包括发型，着装，背景，光线，姿态，表情等)与初始模板图像一致。

本申请实施例提供的图像处理方法涉及人工智能领域。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案主要涉及人工智能的计算机视觉技术和机器学习等技术。其中：

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请通过下述的实施例对涉及的计算机视觉技术和机器学习等技术进行说明。

在一个实施例中，如图2所示，提供了一种图像处理方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤202，获取包含面部区域的初始模板图像和初始输入图像。

其中，初始模板图像和初始输入图像都是包括面部区域的图像。面部区域可以是目标对象的面部对应的图像区域，这里的目标对象可以是自然人、动物或者虚拟角色等的面部对应的图像区域。

需要说明的是，基于本申请提供的图像处理方法的目的，用于提供面部身份特征的图像为初始输入图像，用于与初始输入图像的面部身份特征进行融合的图像为模板图像。

具体地，终端获取一张初始模板图像和一张初始输入图像，初始模板图像和初始输入图像均包括面部区域。通常地，初始模板图像和初始输入图像包含的面部区域为不同目标对象对应的面部区域。

在一个实施例中，初始输入图像可以是用户提供的图像，比如用户通过终端拍摄的人物照片等。初始模板图像可以是终端提供给用户选择作为模板的图像，比如游戏角色图像或者公众人物图像等。在另外的实施例中，初始模板图像和初始输入图像可以都是用户提供的图像。此时，用户则需要指定提供的图像中，作为初始输入图像的图像和作为初始输入图像的图像。

在一个具体的实施例中，终端上可运行有图像处理应用，终端可根据用户操作开启图像处理应用，图像处理应用则可获取用户拍摄并选定的照片作为初始输入图像，并获取用户从模板图像集中选中的图像作为初始模板图像。

步骤204，获取初始模板图像的面部状态特征，并获取初始输入图像的初始面部形状特征。

其中，面部形状特征指的是与面部的形状轮廓相关的特征，例如可以是与五官、脸型等相关的数据。面部状态特征则是与面部的状态相关的特征，面部状态特征可以包括面部姿态、面部表情、面部位置角度。

具体地，终端在获取到包含面部区域的初始模板图像和初始输入图像后，可以进一步获取初始模板图像的面部状态特征，并进一步获取初始输入图像的面部形状特征，得到初始面部形状特征。

可以理解的是，基于本申请提供的图像处理方法的目的，根据具体实施时采用的三维重构技术的不同，初始面部形状特征和面部状态特征可以为不同类型的数据。这里的三维重构指的是根据一张或多张图像重构三维模型的过程(通常简称三维建模)。三维建模技术包括但不限于基于图像技术的建模方法、基于深度学习的建模方法以及基于三维人脸模型数据库的建模方法。本申请实施例主要以基于三维人脸模型数据库的建模方法进行说明，具体参考后续实施例的描述。

在一个实施例中，终端可以选择基于机器学习的神经网络来对初始模板图像提取面部状态特征以及对初始输入图像提取面部形状特征，可以理解，对初始模板图像提取面部状态特征和对初始输入图像提取面部形状特征采用不同的神经网络。对初始模板图像提取面部状态特征的神经网络采用包含面部的图像和表情标注进行训练得到；对初始输入图像提取面部形状特征的神经网络采用包含面部的图像和面部形状标注训练得到。

在另一个实施例中，终端可以从预先建立的三维人脸模型数据库中获取三维人脸模型数据，并进一步获取初始输入图像对应于该数据库中各个三维形状基的形状权重系数作为初始输入图像的初始面部形状特征，同时获取初始模板图像对应于该数据库中各个三维表情基的表情权重系数作为初始输入图像的面部状态特征。

步骤206，根据面部状态特征及面部形状特征对初始模板图像和初始输入图像进行三维面部重构，得到三维重构面部图像。

其中，三维面部重构指的是重建三维面部模型的过程(即上文提到的三维建模)。三维重构面部图像指的是包含面部的三维模型。在一个实施例中，当初始模板图像和初始输入图像包含的面部区域为人脸区域时，三维重构面部图像为三维人脸模型。

具体地，终端根据面部状态特征及初始面部形状特征对初始模板图像和初始输入图像进行三维面部重构，得到三维重构面部图像，该三维重构面部图像的面部状态特征与初始模板图像的面部状态特征匹配、且面部形状特征与初始输入图像的初始面部形状特征匹配。

在一个实施例中，终端可以将面部状态特征及初始面部形状特征输入训练后的基于机器学习的神经网络中，该神经网络首先对面部状态特征及初始面部形状特征进行融合，基于融合后的特征进行三维面部重构，得到三维重构面部图像。

在另一个实施例中，终端可以基于各个三维形状基和确定出的各个三维形状基的形状权重系数，确定三维重构人脸形状，并基于各个三维表情基和确定出的各个三维表情基的表情权重系数，确定三维重构人脸表情，最后基于定三维重构人脸形状和三维重构人脸表情，生成三维重构面部图像。

步骤208，对三维重构面部图像进行二维投影，得到二维重构面部图像。

其中，二维投影指的是投影至二维平面，二维投影得到的为二维平面图。

具体地，终端首先对三维重构面部图像建立空间坐标系，选定观察点P，然后通过空间坐标变换，将原来的空间坐标系转换为以观察点为原点，PO为z轴的空间坐标系，终端进一步根据初始模板图像的面部状态特征确定投影平面，最将三维空间坐标映射到预先确定的投影平面上，得到二维重构面部图像。

在一个实施例中，终端可以根据初始模板图像的面部状态特征确定投影平面。例如，终端可以根据初始模板图像的位置角度确定投影平面。

可以理解的是，在进行二维投影的过程中，面部形状特征并不会发生明显变化，得到的二维重构面部图像与三维重构面部图像的面部形状特征是匹配的，而三维重构面部图像的面部状态特征与初始模板图像的面部状态特征是匹配，那么得到的二维重构面部图像与初始模板图像的面部状态特征是匹配。

步骤210，获取二维重构面部图像对应的重构面部形状特征，将初始模板图像的面部区域按照重构面部形状特征进行调整，得到目标模板图像。

具体地，终端获取二维重构面部图像的面部形状特征，得到重构面部形状特征，将初始模板图像的面部区域按照重构面部形状特征进行形变调整，得到目标模板图像。

可以理解的是，由于本申请实施例中的目标模板图像是通过将初始模板图像的面部区域按照重构面部形状特征进行调整，而重构面部形状特征与初始面部形状特征匹配，那么得到的目标模板图像的面部形状特征是与初始面部形状特征相似的。

还可以理解的是，本申请实施例中的目标模板图像是通过将初始模板图像的面部区域按照二维重构面部图像的重构面部形状特征进行调整的，而二维重构面部图像的面部状态特征与初始模板图像是匹配的，那么本申请的形变调整与初始输入图像的姿态没有关系，因此本申请对初始输入图像的姿态没有限制，初始输入图像可以是任意姿态的图像。

在一个实施例中，终端可对二维重构面部图像进行人脸配准，获取该二维重构面部图像的五官脸型特征点，作为该二维重构面部图像的重构面部形状特征。五官脸型特征点可以是但不限于眼睛、鼻子、嘴巴、眉毛和脸部轮廓等的关键点。

在一个实施例中，终端可通过三角面片拉伸或者像素重采样的方式，利用重构面部形状特征对初始模板图像的面部区域进行形变调整，使得初始模板图像的面部形状特征和初始输入图像匹配，得到目标模板图像。

步骤212，获取初始输入图像的面部身份特征，根据面部身份特征和初始模板图像进行融合处理，得到目标图像。

其中，面部身份特征指的是可用于身份识别的特征。融合是指通过一个数据表示多于一个数据，并包含这多于一个数据表达的信息。

具体地，终端可通过数学计算或者基于计算学习的神经网络对初始输入图像进行人脸识别得到面部身份特征，并进一步获取目标模板图像的属性特性，根据面部身份特征和属性特性进行融合处理，得到目标图像，该目标图像可以同时表达初始输入图像的面部身份特征以及目标模板图像的属性特性。

需要说明的是，属性特征指的是面部区域中除面部身份特征之外的其他特征，属性特性中包括面部形状特征，还包括诸如发型，着装，背景，光线，姿态等等。

上述图像处理方法中，在获取到包含面部区域的初始模板图像和初始输入图像后，进一步获取初始模板图像的面部状态特征，并获取初始输入图像的初始面部形状特征，根据面部状态特征及初始面部形状特征对初始模板图像和初始输入图像进行三维面部重构，得到三维重构面部图像，接着对三维重构面部图像进行二维投影，得到二维重构面部图像，获取二维重构面部图像对应的重构面部形状特征，将初始模板图像的面部区域按照重构面部形状特征进行调整，得到目标模板图像，最后获取初始输入图像的面部身份特征，根据面部身份特征和初始输入图像进行融合处理，得到目标图像，实现了目标图像的自动生成，避免了人工处理的繁琐操作，极大地提高了图像处理的效率。

在一个实施例中，如图3所示，提供一种图像处理方法，包括优化模板图像的步骤以及融合处理的步骤，其中优化模板图像的步骤包括：

步骤302，获取包含面部区域的初始模板图像和初始输入图像。

步骤304，从预先建立的三维人脸模型数据库中获取三维人脸模型数据；三维人脸模型数据包括三维形状基集合及三维表情基集合。

其中，三维人脸模型数据库指的是用于存储三维人脸模型数据的数据库。这里的三维人脸模型为三维可变性人脸模型(3D Morphable Face Model)，因此该三维人脸模型数据库可以简称为3DMM库。3DMM库包括预设数量的三维形状基和三维表情基。其中，三维形状基为三维形状基底模型，三维表情基为三维表情基底模型。3DMM库可利用高精度一起扫描多组人脸3D数据,并进行对齐.之后利用主成分分析(Principal Component Analysis，PCA)从这些三维形状和颜色数据中得到更低维的子空间，可变性体现在可以在这些PCA子空间进行组合变形,将一个人脸的特性转移到另外一个人脸,或者生成新的人脸。

如图3A所示，为一个实施例中3DMM库的示意图。其中，每一行是同一个人，一共有m个人故有m行，每一个对应一个形状，故有m个不同的形状，一行中每一列对应不同的表情，一共有n个表情故有n列。

可以理解的是，在其他实施例中，每一列的表情还可以是各种不同位置角度下的表情。参考图3B，为一个实施例中，3DMM库中某一行的部分表情的示意图，其中301、302、303、304分别对应不同的位置、角度、表情。

步骤306，获取初始输入图像对应于各个三维形状基的形状权重系数，将形状权重系数确定为初始输入图像的初始面部形状特征。

具体地，终端可以先获取初始输入图像中各个特征部位的特征点，然后分别对每一特征点进行3D拟合处理，得到每一个特征点对应的三维特征点，3D拟合处理即对二维图像加上深度值的过程。得到的三维特征点可以表示为：(x,y,z)，其中，x表示该三维特征点对应的像素点的横坐标值；y表示为该三维特征点对应的像素点的横坐标值；z表示为该三维特征点的深度值。其中，x和y与初始输入图像的特征点的x和y值相同。

在一个实施例中，终端在获得各个特征点的三维特征点后，可以将三维特征点构成的形状与各个三维形状基进行匹配，确定出能够构成初始输入图像的形状的各个三维形状基的权重系数。可以理解为求解线性方程f(x)＝a1x1+a2x2+a3x3+...+aixi+...+anxn中系数的过程，上述公式中f(x)表示为初始输入图像的三维特征点所构成的形状；xi表示为第i个三维形状基；ai表示第i个三维形状基的权重系数。基于上述过程即可确定出能够形成初始输入图像中人脸的形状的各个三维形状基的权重系数，终端将确定出的各个三维形状基的权重系数作为初始输入图像的初始面部形状特征。

在另一个实施例中，终端可以将初始输入图像得到的三维特征点的像素值求取平均值，并对各个三维形状基的三维特征点的像素值求取平均值，将基于初始输入图像得到的三维特征点对应的平均值分别与各个三维形状基的三维特征点对应的平均值的比值确定为各个三维形状基各自对应的权重系数。

步骤308，获取初始模板图像对应于各个三维表情基的表情权重系数，将表情权重系数确定为初始模板图像的面部状态特征。

在一个实施例中，终端可以先获取初始模板图像中各个特征部位的特征点，然后分别对每一特征点进行3D拟合处理，得到每一个特征点对应的三维特征点，终端进一步将初始模板图像得到的三维特征点构成矩阵C，分别将每一个三维表情基的三维特征点构成矩阵Mi，然后可以确定矩阵C与Mi之间的差值矩阵，然后对差值矩阵取绝对值，记为Di，然后可以确定出每一个Di中元素的和值，由于元素的和值越小，表明该三维表情基中展示的表情与初始模板图像中展示的表情越贴近，Di的元素和值越大，则表明该三维表情基中展示的表情与初始模板图像中展示的表情相差较大，基于此，可以将元素的和值最小的基本表情基底模型的权重系数设较大的值，将元素的和值最大的基本表情基底模型的权重系数设较小的值，从而得到初始模板图像中展示的表情对应于各个三维表情基的权重系数。

步骤310，基于各个三维形状基和确定出的各个三维形状基的形状权重系数，确定三维重构人脸形状。

步骤312，基于各个三维表情基和确定出的各个三维表情基的表情权重系数，确定三维重构人脸表情。

可以理解，由于三维形状基、三维表情基，实质上都是矩阵构成的，那么终端可以对各个三维形状基的矩阵与各个三维形状基各自对应的权重系数进行加权求和处理，得到的加权求和结果即为三维重构人脸形状，对各个三维表情基的矩阵与各个三维表情基各自对应的权重系数进行加权求和处理，得到的加权求和结果即为三维重构人脸表情。

步骤314，基于三维重构人脸形状和三维重构人脸表情，生成三维重构面部图像。

具体地，终端将三维重构人脸形状对应的矩阵与三维重构人脸表情对应的矩阵进行求和处理，得到的求和结果即为三维重构面部图像。

步骤316，对三维重构面部图像进行二维投影，得到二维重构面部图像。

步骤318，获取二维重构面部图像对应的重构面部形状特征，将初始模板图像的面部区域按照重构面部形状特征进行调整，得到目标模板图像。

如图4所示，为一个具体的实施例中，对初始模板图像进行优化的流程示意图，参考图4，终端在获取到初始输入图像和初始模板图像后，首先分别对初始输入图像和初始模板图像进行人脸检测配准，分别得到初始输入图像和初始模板图像各自对应的面部特征点，然后根据得到面部特征点分别获取初始输入图像和初始模板图像各自对应的面部特征点3DMM参数(即上文提到的形状权重系数与表情权重系数)，取初始输入图像对应的3DMM参数中的五官脸型参数(即形状权重系数)和初始模板图像对应的3DMM参数中的位置姿态表情参数(即表情权重系数)，并基于3DMM库重构三维面部图像，对重构得到的三维面部图像进行二维投影，得到三维面部图像在初始模板图像对应的位置姿态表情下的二维重构面部图像，获取该二维重构面部图像的五官脸型配准点(即面部特征点)，利用二维重构面部图像的五官脸型配准点对初始模板图像的面部区域的五官脸型进行形变调整，得到目标模板图像。

进一步，继续参考图3，融合处理的步骤具体为：步骤320，获取初始输入图像的面部身份特征，根据面部身份特征和目标模板图像进行融合处理，得到目标图像。

本实施例中，通过从预先建立的三维人脸模型数据库中获取三维人脸模型数据来生成三维重构面部图像，由于三维人脸模型数据包括三维形状基集合及三维表情基集合，通过获取初始输入图像对应于各个三维形状基的形状权重系数，将形状权重系数确定为初始输入图像的初始面部形状特征，并获取初始模板图像对应于各个三维表情基的表情权重系数，将表情权重系数确定为初始模板图像的面部状态特征，可以准确地表达初始输入图像的面部形状特征以及初始模板图像的面部状态特征，从而生成面部形状特征与初始输入图像匹配度高且面部状态特征与初始模板图像匹配高的三维重构面部图像。

在一个实施例中，上述步骤210中，将初始模板图像的面部区域按照重构面部形状特征进行调整，得到目标模板图像包括：对初始模板图像的面部区域进行三角剖分，得到初始模板图像对应的多个三角面片；按照重构面部形状分别对各个三角面片进行形变处理，得到目标模板图像。

其中，三角剖分指的是把平面剖开成一块块碎片，各个碎片要求满足下面条件：(1)每块碎片都是三角形；(2)任意两个三角形，要么不相交，要么恰好相交于一条公共边(不能同时交两条或两条以上的边)。本申请实施例中，对初始模板图像的面部区域进行三角剖分，得到的碎片为三角面片。

具体地，本实施例中，终端在进行二维投影时，根据初始模板图像的位置角度确定投影平面，那么得到的二维重构面部图像的位置角度与初始模板图像是相同的，进而终端可以对初始模板图像的面部区域进行三角剖分，得到初始模板图像对应的多个三角面片，通过二维重构面部图像的对其进行形变拉伸处理。

本实施例中，重构面部形状特征为五官脸型特征点，终端可以根据五官脸型特征点可确定五官比例及脸型的具体形状，进而可以以确定出的五官比例及脸型的具体形状为标准，分别对各个三角面片进行形变处理，使得形变处理后的五官比例和脸型的具体形状与初始模板图像匹配。其中，终端进行三角剖分时，可采用常见的三角剖分算法，例如，具体可以采用基于Delaunay三角形的算法，包括翻边算法、逐点插入算法、分割合并算法等等。

上述实施例中，通过对初始模板图像的面部区域进行三角剖分得到的三角面片进行拉伸处理来调整初始模板图像的面部形状特征，相当于对初始模板图像划分了多个子区域进行精细调整，可以对初始模板图像的面部区域进行全面、准确地调整，得到的目标模板图像五官比例和脸型的具体形状与初始模板图像具有很高的相似度。

在另一个，实施例中，上述步骤210中，将初始模板图像的面部区域按照重构面部形状特征进行调整，得到目标模板图像包括：按照重构面部形状特征对初始模板图像的面部区域进行像素重采样；根据像素重采样结果确定目标模板图像。

其中，图像重采样是指对数字图像按所需的像元位置或像元问距重新采样,以构成几何变换后的新图像。重采样过程本质上是图像恢复过程,它用输入的离散数字图像重建代表原始图像二维连续函数,再按新的像元间距和像元位置进行采样。其数学过程是根据重建的连续函数(曲面)，用周围若干像元点的值估计或内插出新采样点的值。

具体地，终端获取二维重构面部图像的五官脸型特征点后，将其作为重构面部特征，按照该五官脸型特征点对初始模板图像的面部区域进行像素重采样，根据像素重采样结果重建初始模板图像的面部区域，用重建得到的图像区域替换初始模板图像的面部区域，得到目标模板图像。

上述实施例中，通过对初始模板图像的面部区域进行像素重采样来得到模板图像，可以快速地确定目标模板图像，进一步提高图像处理效率。

在一个实施例中，上述图像处理方法还包括：将目标图像输入已训练的美颜模型中，通过美颜模型对目标图像进行美颜处理，得到美颜图像；获取美颜模型输出的美颜图像。

其中，美颜处理包括对肤色亮度进行提升、对皮肤质量进行改善以及对妆容自然度进行改善中的至少一种。美颜模型为基于深度学习的网络模型，是通过美颜训练样本进行有监督训练得到的；美颜训练样本包括原始图像及与原始图像对应的美颜图像。在一个实施例中，原始图像可以是未经过美颜处理的常规自拍照片，原始图像对应的美颜图像可以是将原始图像经过美颜应用(Application)调整参数后得到的。

在一个实施例中，美颜模型的结构可以采用Pix2PixHD模型，Pix2PixHD模型是由生成器和判别器组成的网络，其中，生成器采用coarse-to-fine(粗到细)的生成器，判别器采用multi-scale(多尺度)的判别器。如图5所示，为Pix2PixHD模型的生成器的结构示意图。参考图5，该生成器包括G1和G2两个部分，图片先经过一个生成器G1的卷积层进行2倍下采样，然后使用另一个生成器G2生成低分辨率的图，将得到的结果和刚刚下采样得到的图逐个元素进行相乘然后相加，将结果输出到G1的后续网络生成高分辨率的图片。在一个实施例中，上述图像处理方法还包括：将目标图像输入已训练的清晰度增强模型中，通过清晰度增强模型对目标图像进行清晰度增强处理，得到清晰图像；获取清晰度增强模型输出的清晰图像。

其中，清晰度增强指的是对图像的分辨率进行提升。清晰度增强模型为基于深度学习的网络模型，是通过清晰训练样本进行有监督训练得到的；清晰训练样本包括原始图像及对原始图像的清晰度进行退化处理得到的模糊图像。其中，退化处理指的是降低图像的清晰度，退化处理的方式包括但不限于图像缩放、图像降采样、模糊核滤波等等。

在一个实施例中，美颜模型的结构同样可以采用Pix2PixHD模型。

在一个实施例中，上述图像处理方法还包括：将目标图像输入深度美颜模型中，得到提升了肤色，皮肤质量和妆容自然度的深度美颜结果图，将美颜结果图输入人像清晰度增强模型提升人脸分辨率，得到最终结果图。

在一个实施例中，获取初始输入图像的面部身份特征，根据面部身份特征和目标模板图像进行融合处理，得到目标图像包括以下步骤：

首先，分别对初始输入图像和目标模板图像进行编码，得到初始输入图像的面部身份特征和目标模板图像的目标属性特征。

其中，编码是将信息从一种形式或格式转换为另一种形式或格式的过程。对初始输入图像进行编码，是对初始输入图像所包括的其中一种特征信息进行表达的过程。该特征信息具体可以是面部身份特征。对目标模板图像进行编码，是对目标模板图像所包括的另一种特征信息进行表达的过程。该特征信息具体可以是属性特征。

具体地，终端可选择传统的编码函数分别对初始输入图像和目标模板图像单独进行编码。传统的编码函数，如基于SIFT(Scale Invariant Feature Transform，尺度不变特征变换)算法或HOG(Histogram of Oriented Gradient，方向梯度直方图)算法的编码函数等。在另外的实施例中，终端也可以选择基于机器学习的神经网络来对初始输入图像和目标模板图像进行编码。该用来编码的神经网络具体可以是基于卷积运算的编码模型等。本申请主要通过基于机器学习的神经网络来实现编码，具体实现过程可参考后续实施例的描述。

接着，对面部身份特征及目标属性特征进行融合处理，得到目标特征。

其中，融合是指通过一个数据表示多于一个数据，并包含这多于一个数据表达的信息。在本实施例中，将多于一个特征融合成一个特征，可以去除数据的离散性，便于后续的解码过程。

具体地，终端可以对组合身份特征和属性特征进行组合、拼接或者按权重加和等操作，或者进一步通过神经网络对组合、拼接或者按权重加和等操作的结果进行运算，得到融合了两种特征信息的目标特征。

在一个实施例中，终端可以对面部身份特征及目标属性特征进行多级融合处理，得到目标特征。在进行融合时，终端可以采用逐级通道叠加的方式进行特征融合。

然后，解码目标特征，得到目标图像；目标图像与初始输入图像的面部身份特征匹配、且与目标模板图像的目标属性特征匹配。

其中，解码是编码的逆过程。解码将通过另一种形式进行表达的数据还原到原来的形式或者格式，重构出与原来图像的形式或格式相同的新图像。

具体地，终端在得到目标特征后，对目标特征进行解码还原得到目标图像。由于目标特征融合了初始输入图像的面部身份特征，以及目标模板图像的属性特征，则目标图像在面部身份特征上与初始输入图像保持一致，在属性特征上与目标模板图像保持一致。其中，终端可选择传统的解码函数对目标特征进行解码，也可以选择神经网络来对目标特征进行解码。

在一个实施例中，对目标模板图像进行编码，得到目标模板图像的属性特征包括：通过属性特征编码模型对目标模板图像进行编码，得到目标模板图像的属性特征；对面部身份特征及目标属性特征进行融合处理，得到目标特征：通过特征融合模型对面部身份特征及属性特征进行融合处理，得到目标特征；解码目标特征，得到目标图像，包括：通过解码模型对目标特征进行解码，得到目标图像；其中，特征融合模型、解码模型与属性特征编码模型，通过交替使用无监督图像样本和自监督图像样本联合训练得到。

其中，属性特征编码模型、特征融合模型以及解码模型均为机器学习模型。这三个模型通过交替使用无监督图像样本和自监督图像样本联合训练得到。

无监督图像样本是没有训练标签的图像样本，用于无监督训练。无监督图像样本包括多组样本对，每组样本对包括初始面部图像样本和模板面部图像样本。自监督图像样本是能够自动产生训练标签的图像样本，用于自监督训练。自监督图像样本包括多组样本对，每组样本对包括初始面部图像样本、模板面部图像样本，且每组样本对中初始面部图像样本和模板面部图像样本为相同的图像。

在一个实施例中，终端在对初始输入图像进行编码时，也可以通过机器学习模型实现。具体来说，终端可通过识别特征编码模型分别对初始输入图像分别进行编码，得到初始输入图像对应的面部身份特征。

识别特征编码模型是通过通用图像样本训练得到，通用图像样本，是训练具有通用的面部身份特征编码能力的机器学习模型的训练样本。这种机器学习模型在各种人脸识别场景中应用十分广泛。通用的面部身份特征编码能力的机器学习模型所编码得到的面部身份特征，即符合本申请提供的图像处理方法对面部身份特征的需求，那么通用的面部身份特征编码能力的机器学习模型即可用作本申请提供的图像处理方法的识别特征编码模型。

也就是说，在本实施例中，终端将通过四个模型(识别特征编码模型、属性特征编码模型、特征融合模型以及解码模型)对获取到的目标模板图像和初始输入图像来进行处理得到目标图像。通过四个模型共同处理，可以显著提高图像处理的效率和准确率。

本实施例中，通过深度学习的神经网络实现特征的编码与解码，利用神经网络强大的学习能力，根据从初始输入图像和目标模板图像中编码得到需要的有用特征，重建出保持了初始输入图像的面部身份特征以及目标模板图像的属性特征的目标图像。而且，特征融合模型、解码模型与属性特征编码模型，通过交替使用无监督图像样本和自监督图像样本联合训练所得，这样可以通过自监督学习对无监督学习进行辅助，使得训练得到的模型在图像生成时效果更佳，且模型训练过程不需要对样本进行标注，成本大大降低。

在一个实施例中，属性特征编码模型、特征融合模型和解码模型包括于生成网络；生成网络的训练样本获取步骤、无监督训练步骤、自监督训练步骤、循环步骤，其中：

训练样本获取步骤：获取无监督图像样本和自监督图像样本。

其中，无监督图像样本包括第一初始面部图像样本和第一模板面部图像样本；第一初始面部图像样本和第一模板面部图像样本为不相同的图像样本；自监督图像样本包括第二初始面部图像样本和第二模板面部图像样本；第二初始面部图像样本和第二模板面部图像样本为相同的图像样本。

无监督训练步骤：根据无监督图像样本对生成网络进行无监督训练，调整属性特征编码模型、特征融合模型和解码模型的模型参数。

其中，无监督图像样本包括若干组无监督样本对，每一组无监督样本对Unsupervised包括第一初始面部图像样本Source和第一模板面部图像样本Reference，即Unsupervised(Source，Reference)。无监督图像样本用于进行无监督训练，无监督训练也可称为无监督学习，是机器学习模型基于没有标注的样本数据进行学习的方式。

需要说明的是，生成网络通常与判别网络组成生成对抗网络(GenerativeAdversarial Network，简称GAN)，在训练的过程中，生成网络与判别网络通过相互博弈的方式进行学习。生成网络从潜在空间(latent space)中随机取样作为输入，其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出，其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数，最终生成以假乱真的图像。

因此，在本实施例中，终端可根据无监督图像样本构建联合训练判别网络和生成网络的无监督训练损失函数，根据该无监督训练损失函数进行训练，调整属性特征编码模型、特征融合模型和解码模型的模型参数。其中，判别网络可以是通用的判别网络，有监督图像样本中的图像样本均可以认为是真实样本，可用作判别网络的正样本；而生成网络基于初始面部图像样本和模板面部图像样本生成的目标图像样本则是生成的图像，可用作判别网络的负样本，判别网络学习将生成网络的输出从真实样本中尽可能分辨出来。

在一个实施例中，生成网络还包括识别特征编码模型，根据无监督图像样本对生成网络进行无监督训练，调整属性特征编码模型、特征融合模型和解码模型的模型参数包括：通过识别特征编码模型对第一初始面部图像样本进行编码，得到第一初始面部图像样本的面部身份特征；通过属性特征编码模型对第一模板面部图像样本进行编码，得到第一模板面部图像样本的属性特征；将第一初始面部图像样本的面部身份特征及第一模板面部图像样本的属性特征依次输入特征融合模型及解码模型，得到第一目标面部图像样本；通过识别特征编码模型及属性特征编码模型分别对第一目标面部图像样本进行编码，得到第一目标面部图像样本的面部身份特征及属性特征；获取判别网络，将第一初始面部图像样本和第一模板面部图像样本中的至少一种作为判别网络的正样本，将第一目标面部图像样本作为判别网络的负样本；基于判别网络的判别损失、第一初始面部图像样本与第一目标面部图像样本之间面部身份特征的差异及第一模板面部图像样本与第一目标面部图像样本之间属性特征的差异，调整属性特征编码模型、特征融合模型和解码模型的模型参数。

本实施例中，生成网络包括识别特征编码模型、属性特征编码模型、特征融合模型和解码模型。其中，通用的面部身份特征编码能力的机器学习模型所编码得到的面部身份特征，即符合本申请提供的图像处理方法对面部身份特征的需求，因此，通用的面部身份特征编码能力的机器学习模型即可用作本申请提供的图像处理方法的识别特征编码模型。本申请实施例中的识别特征编码模型可以预先单独进行训练，在后续训练过程中，则固定识别特征编码模型的模型参数，调整属性特征编码模型、特征融合模型和解码模型的模型参数。

可以理解的是，本实施例中，由于是进行无监督训练，没有对应的训练标签，那么终端可以分别获取判别网络的判别结果和样本标签之间的损失、第一目标面部图像样本Result的面部身份特征Xid和第一初始面部图像样本Source的面部身份特征Zid之间的损失、第一目标面部图像样本Result的属性特征Xatt和第一模板面部图像样本Reference的属性特征Zatt之间的损失。

这样，终端就可以将判别损失(Discriminator Loss)、面部身份特征差(Xid和Zid之间的差异)的损失(Identity Loss)以及属性特征差(Xatt和Yatt之间的差异)的损失(Attribute Loss)加权求和后作为对抗训练生成网络和判别网络的无监督训练损失函数，基于该无监督训练损失函数调整属性特征编码模型、特征融合模型和解码模型的模型参数。其中，权重分布可根据损失对生成结果的重要程度，及实际图像处理的需求自定义设置。

自监督训练步骤：根据自监督图像样本对生成网络进行自监督训练，调整属性特征编码模型、特征融合模型和解码模型的模型参数。

本实施例中，考虑到纯无监督训练非常难，因此可以通过构建自监督图像样本进行自监督训练来对无监督训练进行辅助。自监督图像样本包括若干组自监督样本对，每一组自监督样本对包括第二初始面部图像样本Source和第二模板面部图像样本Source，即Self-supervised(Source，Source)。自监督图像样本用于进行自监督训练，自监督训练也可称自监督学习(self-supervised learning)，可以被看作是机器学习的一种“理想状态”，机器学习模型直接从无标签数据中自行学习产生标签，无需标注数据。

具体地，终端可以根据自监督图像样本构建联合训练判别网络和生成网络的自监督训练损失函数，根据该自监督训练损失函数训练前述同一个生成对抗网络(生成网络+判别网络)。

在一个实施例中，根据自监督图像样本对生成网络进行自监督训练，调整属性特征编码模型、特征融合模型和解码模型的模型参数包括：通过识别特征编码模型对第二初始面部图像样本进行编码，得到第二初始面部图像样本的面部身份特征；通过属性特征编码模型对第二模板面部图像样本进行编码，得到第二模板面部图像样本的属性特征；将第二初始面部图像样本的面部身份特征及第二模板面部图像样本的属性特征依次输入特征融合模型及解码模型，得到第二目标面部图像样本；通过识别特征编码模型及属性特征编码模型分别对第二目标面部图像样本进行编码，得到第二目标面部图像样本的面部身份特征及属性特征；将第二初始面部图像样本和第二模板面部图像样本中的至少一种作为判别网络的正样本，将第二目标面部图像样本作为判别网络的负样本；基于判别网络的判别损失、第二目标面部图像样本和第二初始面部图像样本之间像素的差异、第二初始面部图像样本与第二目标面部图像样本之间面部身份特征的差异及第二模板面部图像样本与第二目标面部图像样本之间属性特征的差异，调整属性特征编码模型、特征融合模型和解码模型的模型参数。

具体地，终端可将第二初始面部图像样本Source输入生成网络的识别特征编码模型，得到第二初始面部图像样本Source的面部身份特征Zid；将第二模板面部图像样本Source输入生成网络的属性特征编码模型，得到第二模板面部图像样本Source的属性特征Zatt；将面部身份特征Zid和属性特征Zatt共同依次经过生成网络的特征融合模型和解码模型后，得到第二目标面部图像样本Result。

进一步地，终端将第二目标面部图像样本Result输入分别输入生成网络的识别特征编码模型和属性特征编码模型，得到第二目标面部图像样本Result的面部身份特征Xid和属性特征Xatt。

可以理解，由于自监督训练样本中第一初始面部图像样本和第一模板面部图像样本采用相同的图像样本Source，那么理想状态下，应该生成和Source一样的图像，也就是说在自监督训练的过程，模型将自动产生训练标签，该训练标签即为第一初始面部图像样本对应的图像Source。那么在构建自监督训练损失函数时，终端可以获取第二目标面部图像样本Result与该训练标签Source之间的像素损失作为像素重建损失(ReconstructionLoss),根据该像素重建损失来构建生成网络的损失函数。另外，由于在生成网络中还包括两个编码分支分别编码得到面部身份特征和属性特征。那么，在构建生成网络的损失函数，还可以增加第二目标面部图像样本Result与第二初始面部图像样本Source的面部身份特征差(Xid和Zid之间的差异)的损失(Identity Loss)，以及第二目标面部图像样本Result与第二模板面部图像样本Reference的属性特征差(Xatt和Zatt之间的差异)的损失(Attribute Loss)。

这样，终端可以将判别损失(Discriminator Loss)、像素重建损失(Reconstruction Loss)、面部身份特征差(Xid和Zid之间的差异)的损失(Identity Loss)以及属性特征差(Xatt和Zatt之间的差异)的损失(Attribute Loss)加权求和后作为对抗训练生成网络和判别网络的自监督训练损失函数，基于该自监督训练损失函数调整属性特征编码模型、特征融合模型和解码模型的模型参数。其中，权重分布可根据损失对生成结果的重要程度，及实际图像处理的需求自定义设置。

循环步骤：重复自监督训练步骤以及无监督训练步骤，以使无监督训练和自监督训练交替进行，直至满足训练停止条件时结束训练。

具体地，终端交替使用无监督图像样本及自监督图像样本，训练同一个生成对抗网络，以使无监督训练和自监督训练交替地进行，直至生成效果稳定，并且输出的目标面部图像样本Result的面部身份特征显著接近初始面部图像样本Source的面部身份特征，以及目标面部图像样本Result的属性特征显著接近模板面部图像样本Reference的属性特征。即从观感上生成网络能够生成身份(Identity)与初始面部图像样本Source一致，其他特征(姿态、表情、光照以及背景等)与面部图像样本Reference一致的目标面部图像。

本实施例中，采用无监督数据和自监督数据交替进行模型训练，一方面由于采用无监督数据进行训练时，不需要进行样本标注，可以大大降低模型训练的成本；另一方面引入自监督数据来对辅助训练生成网络，可以大幅提高生成网络在各种情况下的稳定性，且由于自监督训练和无监督训练均没有训练标签，在训练过程中可以引入各自姿态的样本进行训练，使得训练得到的生成网络对输入图像无任何姿态限制，可以处理任意面部图像。这样在利用训练完成的生成网络进行图像处理时，可以极大地提高图像处理效率。

在另外的实施例中，在训练生成网络时，可先从无监督图像样本或者自监督图像样本中选取姿态较正的初始面部图像进行前期训练，在训练后期则再加入其他姿态的初始面部图像进行训练，这样不仅可以提高模型训练时的收敛速度，而且可以使得训练得到的模型更加稳定。

可以理解，终端在进行融合处理时主要是针对面部区域进行处理。通常情况下，图像中面部区域的占比较小(除面部特写的图像外)。那么，终端可对图像进行前处理，即截取初始输入图像和目标模板图像中的面部区域，基于截取得到的面部图像进行后续的图像处理，这样可以减少图像处理过程中的计算量，提高图像处理效率。

具体地，终端可基于传统的特征点定位算法或者机器学习模型对该初始输入图像进行面部特征点对齐，确定该初始图像中的面部特征点，根据在该初始图像中确定的面部特征点，定位该初始图像中确定的面部区域，按照该初始图像中定位的面部区域截取面部区域图像。

对于目标模板图像，终端可按照与初始面部图像相同的方式截取面部区域图像。但对目标模板图像进行处理的时机可以是事先进行的，这样可提高图像处理效率；也可以是实时进行的，这样可减轻设备存储负担。

可以理解的是，终端在进行融合时，是融合的从初始输入图像和目标模板图像中截取出的面部区域图像，那么在得到融合图像后，也需要将融合图像进行反向回帖，还原图像尺寸和图像内容。因此，本实施例中，终端在得到融合图像后，可将融合图像反向回贴至目标模板图像中的面部区域，得到目标图像；这样得到的目标图像保持了初始图像中面部区域的面部身份特征和目标模板图像中面部区域的属性特征，且面部区域外的部分与模板图像一致。

举例说明，参考图6，该图示出了一个实施例中融合处理的流程示意图。终端在获取到目标模板图像后，可对初始输入图像进行面部特征点对齐(即面部检测配准)，再根据确定的面部特征点确定面部区域截图(即根据配准点抠图)，得到初始面部图像(即姿态对齐的面部图像)。另外，终端也可对目标模板图像进行面部特征点对齐(即面部检测配准)，再根据确定的面部特征点确定面部区域截图(即根据配准点抠图)，得到模板面部图像(即姿态对齐的面部图像)。

此后，终端可将初始面部图像输入识别特征编码模型，编码得到初始面部图像对应的面部身份特征，并将模板面部图像输入属性特征编码模型，编码得到属性特征，接着将面部身份特征与属性特征共同输入多级特征融合模型进行特征融合，再通过解码模型得到目标面部图像。

进一步，终端在得到目标面部图像后，可将目标面部图像反向回贴至模板图像，得到目标图像。

上述实施例中，在进行图像处理时，仅截取出面部区域进行图像处理，不仅减少了图像处理的数据量，提高了图像处理效率；也无需对面部区域外的区域进行处理的无用功，避免了浪费运算资源。

本申请还提供一种应用场景，该应用场景应用上述的图像处理方法。具体地，该图像处理方法在该应用场景的应用如下：

在该应用场景中，终端上运行的图像处理应用执行本申请的图像处理方法生成证件照。用户可以通过图像处理应用调用终端的摄像头任意拍一张自拍照作为初始输入图像(不限头部姿态，表情，光照)，然后根据实际需要(着装要求，背景颜色要求，照片尺寸比例要求等)选择对应的场景的标准证件照模板作为初始模板图像，参考图7A-7C，为终端提供的证件照模板的示例，其中，7A为身份证照模板，7B为各国签证模板，7C为简历照模板，可以看出简历照片模板并局限于完全正面照，可以是任意姿态。在该应用场景中，最终得到的证件照的姿态与证件照模板的非人脸识别特征(例如姿态、表情、光照以及背景等)一致，证件照与用户输入的自拍照保持人脸识别一致性并且和用户输入的自拍照的主观相似性高。

为了保障生成的证件照可用性更强，选择的标准证件照模板需要与用户输入图像保持性别一致，然后终端的图像处理应用可以通过以下三个阶段来生成证件照。

阶段一，优化证件照模板。

参考图8A，终端在获取在初始输入图和初始模板图后，将初始输入图像分别与预先建立的3DMM库中的105个三维形状基(各个三维形状基的五官脸型不相同)进行匹配，得到初始输入图像对应的各个三维形状基的形状权重系数，并将初始模板图像分别与预先建立的3DMM库中的101个三维表情基(其中三维表情基为各个位置姿态下的表情基，即对于任意两个表情基，其位置、角度、表情中至少有一个并不相同)进行匹配，得到初始输入图像对应的各个三维表情基的表情权重系数，基于各个三维形状基和确定出的各个三维形状基的形状权重系数，确定三维重构人脸形状，基于各个三维表情基和确定出的各个三维表情基的表情权重系数，确定三维重构人脸表情，基于三维重构人脸形状和三维重构人脸表情，生成三维重构面部图像，进一步对三维重构面部图像进行二维投影，得到用户人脸在模板位置角度表情下的二维重构面部图像，获取二维重构面部图像的五官脸型关键点，对初始模板图像的面部区域进行三角剖分，得到初始模板图像对应的多个三角面片，按照二维重构面部图像的五官脸型关键点分别对各个三角面片进行形变处理，最终得到优化的证件照模板图像，即优化模板图。优化模板图的五官比例和脸型与初始输入图一致。

阶段二，图像融合。

参考图8B，终端将优化模板图输入属性特征编码模型中，编码得到属性特征，将初始输入图像输入识别特征编码模型，编码得到面部身份特征，将属性特征和面部身份特征输入融合模块进行多级特征融合，得到目标特征，将目标特征输入至解码模型进行解码得到融合结果图。融合结果图的人脸识别特征与初始输入图像一致，其他非人脸识别特征与优化模板图一致。

其中，识别特征编码模型为公开的人脸识别模型，属性特别编码模型、融合模型及解码模型是服务器下发的生成网络中的模型，服务器通过以下步骤训练得到生成网络；

首先，服务器获取生成网络、无监督图像样本和自监督图像样本；无监督图像样本包括第一初始面部图像样本和第一模板面部图像样本；第一初始面部图像样本和第一模板面部图像样本为不相同的图像样本；自监督图像样本包括第二初始面部图像样本和第二模板面部图像样本；第二初始面部图像样本和第二模板面部图像样本为相同的图像样本。

进一步，服务器进行无监督训练。具体地，通过识别特征编码模型对第一初始面部图像样本进行编码，得到第一初始面部图像样本的面部身份特征，通过属性特征编码模型对第一模板面部图像样本进行编码，得到第一模板面部图像样本的属性特征，将第一初始面部图像样本的面部身份特征及第一模板面部图像样本的属性特征依次输入特征融合模型及解码模型，得到第一目标面部图像样本，通过识别特征编码模型及属性特征编码模型分别对第一目标面部图像样本进行编码，得到第一目标面部图像样本的面部身份特征及属性特征，获取判别网络，将第一初始面部图像样本和第一模板面部图像样本中的至少一种作为判别网络的正样本，将第一目标面部图像样本作为判别网络的负样本，基于判别网络的判别损失、第一初始面部图像样本与第一目标面部图像样本之间面部身份特征的差异及第一模板面部图像样本与第一目标面部图像样本之间属性特征的差异，调整属性特征编码模型、特征融合模型和解码模型的模型参数。

进一步，服务器进行自监督训练。具体地，服务器通过识别特征编码模型对第二初始面部图像样本进行编码，得到第二初始面部图像样本的面部身份特征，通过属性特征编码模型对第二模板面部图像样本进行编码，得到第二模板面部图像样本的属性特征，将第二初始面部图像样本的面部身份特征及第二模板面部图像样本的属性特征依次输入特征融合模型及解码模型，得到第二目标面部图像样本，通过识别特征编码模型及属性特征编码模型分别对第二目标面部图像样本进行编码，得到第二目标面部图像样本的面部身份特征及属性特征，将第二初始面部图像样本和第二模板面部图像样本中的至少一种作为判别网络的正样本，将第二目标面部图像样本作为判别网络的负样本，基于判别网络的判别损失、第二目标面部图像样本和第二初始面部图像样本之间像素的差异、第二初始面部图像样本与第二目标面部图像样本之间面部身份特征的差异及第二模板面部图像样本与第二目标面部图像样本之间属性特征的差异，调整属性特征编码模型、特征融合模型和解码模型的模型参数。

进一步，服务器重复执行无监督训练和自监督训练步骤以使无监督训练和自监督训练交替进行，直至生成网络的生成效果稳定，并且输出的目标人脸图像样本的人脸身份特征显著接近初始人脸图像样本的人脸身份特征，以及目标人脸图像样本的属性特征显著接近模板人脸图像样本的属性特征。即从观感上生成网络能够生成身份(Identity)与初始人脸图像样本一致，其他特征(姿态、表情、光照以及背景等)与人脸图像样本一致的目标人脸图像。

其中，终端在将对初始输入图像和初始模板图像进行编码之前，可以分别对初始输入图像和初始模板图像进行人脸特征点对齐，定位初始输入图像和初始模板图像中的人脸区域；分别按照初始输入图像和初始模板图像中定位的人脸区域截取人脸图像，对初始输入图像对应的人脸图像进行编码以及对初始模板图像对应的人脸图像进行编码，最后得到融合人脸图像事，回帖至初始模板图像对应的人脸区域得到最终的融合结果图。

阶段三、人像增强。

参考图8C，终端首先将融合结果图输入美颜模型中，通过美颜模型，通过美颜模型进行深度美颜处理，包括对肤色，皮肤质量进行提升，并对妆容自然度进行改善，得到美颜结果图，将美颜结果图输入人像清晰度增强模型提升人脸分辨率，得到最终生成的证件照

本申请还另外提供一种应用场景，该应用场景应用上述的图像处理方法。在该应用场景中，终端获取任意人像图像，及建立面部模型所需的标准模板图像(即标准姿态、表情、光照的图像)，基于任意人像图像和标准模板图像生成标准面部图像，从而实现更好地面部建模。具体实现过程可参考上文实施例的描述，本申请在此不赘述。

应该理解的是，虽然图1-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种图像数据处理装置900，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：

图像获取模块902，用于获取包含面部区域的初始模板图像和初始输入图像；

特征获取模块904，用于获取初始模板图像的面部状态特征，并获取初始输入图像的初始面部形状特征；

三维重构模块906，用于根据面部状态特征及初始面部形状特征对初始模板图像和初始输入图像进行三维面部重构，得到三维重构面部图像；

二维投影模块908，用于对三维重构面部图像进行二维投影，得到二维重构面部图像；

调整模块910，用于获取二维重构面部图像对应的重构面部形状特征，将初始模板图像的面部区域按照重构面部形状特征进行调整，得到目标模板图像；

融合模块912，用于获取初始输入图像的面部身份特征，根据面部身份特征和目标模板图像进行融合处理，得到目标图像。

上述图像处理装置中，在获取到包含面部区域的初始模板图像和初始输入图像后，进一步获取初始模板图像的面部状态特征，并获取初始输入图像的初始面部形状特征，根据面部状态特征及初始面部形状特征对初始模板图像和初始输入图像进行三维面部重构，得到三维重构面部图像，接着对三维重构面部图像进行二维投影，得到二维重构面部图像，获取二维重构面部图像对应的重构面部形状特征，将初始模板图像的面部区域按照重构面部形状特征进行调整，得到目标模板图像，最后获取初始输入图像的面部身份特征，根据面部身份特征和初始输入图像进行融合处理，得到目标图像，实现了目标图像的自动生成，避免了人工处理的繁琐操作，极大地提高了图像处理的效率。

在一个实施例中，特征获取模块用于：从预先建立的三维人脸模型数据库中获取三维人脸模型数据；三维人脸模型数据包括三维形状基集合及三维表情基集合；获取初始输入图像对应于各个三维形状基的形状权重系数，将形状权重系数确定为初始输入图像的初始面部形状特征；获取初始模板图像对应于各个三维表情基的表情权重系数，将表情权重系数确定为初始模板图像的面部状态特征。

在一个实施例中，三维重构模块用于：基于各个三维形状基和确定出的各个三维形状基的形状权重系数，确定三维重构人脸形状；基于各个三维表情基和确定出的各个三维表情基的表情权重系数，确定三维重构人脸表情；基于三维重构人脸形状和三维重构人脸表情，生成三维重构面部图像。

在一个实施例中，调整模块用于：对初始模板图像的面部区域进行三角剖分，得到初始模板图像对应的多个三角面片；按照重构面部形状特征分别对各个三角面片进行形变处理，得到目标模板图像。

在另一个实施例中，调整模块用于：按照重构面部形状特征对初始模板图像的面部区域进行像素重采样；根据像素重采样结果确定目标模板图像。

在一个实施例中，上述装置还包括美颜模块，用于：将目标图像输入已训练的美颜模型中，通过美颜模型对目标图像进行美颜处理，得到美颜图像；美颜模型是通过美颜训练样本进行有监督训练得到的；美颜训练样本包括原始图像及与原始图像对应的美颜图像；获取美颜模型输出的美颜图像。

在一个实施例中，上述装置还包括清晰度增强模块，用于：将目标图像输入已训练的清晰度增强模型中，通过清晰度增强模型对目标图像进行清晰度增强处理，得到清晰图像；清晰度增强模型是通过清晰训练样本进行有监督训练得到的；清晰训练样本包括原始图像及对原始图像的清晰度进行退化处理得到的模糊图像；获取清晰度增强模型输出的清晰图像。

在一个实施例中，融合模块用于分别对初始输入图像和目标模板图像进行编码，得到初始输入图像的面部身份特征和目标模板图像的目标属性特征；对面部身份特征及目标属性特征进行融合处理，得到目标特征；解码目标特征，得到目标图像；目标图像与初始输入图像的面部身份特征匹配、且与目标模板图像的目标属性特征匹配。

在一个实施例中，融合模块还用于通过属性特征编码模型对目标模板图像进行编码，得到目标模板图像的属性特征；通过特征融合模型对面部身份特征及目标属性特征进行融合处理，得到目标特征；通过解码模型对目标特征进行解码，得到目标图像；其中，特征融合模型、解码模型与属性特征编码模型，通过交替使用无监督图像样本和自监督图像样本联合训练得到。

在一个实施例中，属性特征编码模型、特征融合模型和解码模型包括于生成网络；上述装置还包括训练模块，用于获取无监督图像样本和自监督图像样本；无监督图像样本包括第一初始面部图像样本和第一模板面部图像样本；第一初始面部图像样本和第一模板面部图像样本为不相同的图像样本；自监督图像样本包括第二初始面部图像样本和第二模板面部图像样本；第二初始面部图像样本和第二模板面部图像样本为相同的图像样本；根据无监督图像样本对生成网络进行无监督训练，调整属性特征编码模型、特征融合模型和解码模型的模型参数；根据自监督图像样本对生成网络进行自监督训练，调整属性特征编码模型、特征融合模型和解码模型的模型参数；重复进入根据无监督图像样本对生成网络进行无监督训练的步骤，以使无监督训练和自监督训练交替进行，直至满足训练停止条件时结束训练。

在一个实施例中，生成网络还包括识别特征编码模型，训练模块还用于：通过识别特征编码模型对第一初始面部图像样本进行编码，得到第一初始面部图像样本的面部身份特征；通过属性特征编码模型对第一模板面部图像样本进行编码，得到第一模板面部图像样本的属性特征；将第一初始面部图像样本的面部身份特征及第一模板面部图像样本的属性特征依次输入特征融合模型及解码模型，得到第一目标面部图像样本；通过识别特征编码模型及属性特征编码模型分别对第一目标面部图像样本进行编码，得到第一目标面部图像样本的面部身份特征及属性特征；获取判别网络，将第一初始面部图像样本和第一模板面部图像样本中的至少一种作为判别网络的正样本，将第一目标面部图像样本作为判别网络的负样本；基于判别网络的判别损失、第一初始面部图像样本与第一目标面部图像样本之间面部身份特征的差异及第一模板面部图像样本与第一目标面部图像样本之间属性特征的差异，调整属性特征编码模型、特征融合模型和解码模型的模型参数。

在一个实施例中，训练模块还用于：通过识别特征编码模型对第二初始面部图像样本进行编码，得到第二初始面部图像样本的面部身份特征；通过属性特征编码模型对第二模板面部图像样本进行编码，得到第二模板面部图像样本的属性特征；将第二初始面部图像样本的面部身份特征及第二模板面部图像样本的属性特征依次输入特征融合模型及解码模型，得到第二目标面部图像样本；通过识别特征编码模型及属性特征编码模型分别对第二目标面部图像样本进行编码，得到第二目标面部图像样本的面部身份特征及属性特征；将第二初始面部图像样本和第二模板面部图像样本中的至少一种作为判别网络的正样本，将第二目标面部图像样本作为判别网络的负样本；基于判别网络的判别损失、第二目标面部图像样本和第二初始面部图像样本之间像素的差异、第二初始面部图像样本与第二目标面部图像样本之间面部身份特征的差异及第二模板面部图像样本与第二目标面部图像样本之间属性特征的差异，调整属性特征编码模型、特征融合模型和解码模型的模型参数。

关于图像处理装置的具体限定可以参见上文中对于图像处理方法的限定，在此不再赘述。上述图像处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种图像数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取包含面部区域的初始模板图像和初始输入图像；

2.根据权利要求1所述的方法，其特征在于，所述获取所述初始模板图像的面部状态特征，并获取所述初始输入图像的初始面部形状特征包括：

从预先建立的三维人脸模型数据库中获取三维人脸模型数据；所述三维人脸模型数据包括三维形状基集合及三维表情基集合；

获取所述初始输入图像对应于各个三维形状基的形状权重系数，将所述形状权重系数确定为所述初始输入图像的初始面部形状特征；

获取所述初始模板图像对应于各个三维表情基的表情权重系数，将所述表情权重系数确定为所述初始模板图像的面部状态特征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述面部状态特征及所述初始面部形状特征对所述初始模板图像和所述初始输入图像进行三维面部重构，得到三维重构面部图像包括：

基于各个三维形状基和确定出的各个三维形状基的形状权重系数，确定三维重构人脸形状；

基于各个三维表情基和确定出的各个三维表情基的表情权重系数，确定三维重构人脸表情；

基于所述三维重构人脸形状和三维重构人脸表情，生成三维重构面部图像。

4.根据权利要求1所述的方法，其特征在于，所述将所述初始模板图像的面部区域按照所述重构面部形状特征进行调整，得到目标模板图像包括：

对所述初始模板图像的面部区域进行三角剖分，得到所述初始模板图像对应的多个三角面片；

按照所述重构面部形状特征分别对各个所述三角面片进行形变处理，得到目标模板图像。

5.根据权利要求1所述的方法，其特征在于，所述将所述初始模板图像的面部区域按照所述重构面部形状特征进行调整，得到目标模板图像包括：

按照所述重构面部形状特征对所述初始模板图像的面部区域进行像素重采样；

根据像素重采样结果确定目标模板图像。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述目标图像输入已训练的美颜模型中，通过所述美颜模型对所述目标图像进行美颜处理，得到美颜图像；所述美颜模型是通过美颜训练样本进行有监督训练得到的；所述美颜训练样本包括原始图像及与所述原始图像对应的美颜图像；

获取所述美颜模型输出的美颜图像。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述目标图像输入已训练的清晰度增强模型中，通过所述清晰度增强模型对所述目标图像进行清晰度增强处理，得到清晰图像；所述清晰度增强模型是通过清晰训练样本进行有监督训练得到的；所述清晰训练样本包括原始图像及对所述原始图像的清晰度进行退化处理得到的模糊图像；

获取所述清晰度增强模型输出的清晰图像。

8.根据权利要求1所述的方法，其特征在于，所述获取所述初始输入图像的面部身份特征，根据所述面部身份特征和所述目标模板图像进行融合处理，得到目标图像包括：

分别对所述初始输入图像和所述目标模板图像进行编码，得到所述初始输入图像的面部身份特征和所述目标模板图像的目标属性特征；

对所述面部身份特征及所述目标属性特征进行融合处理，得到目标特征；

解码所述目标特征，得到目标图像；所述目标图像与所述初始输入图像的面部身份特征匹配、且与目标模板图像的目标属性特征匹配。

9.根据权利要求8所述的方法，其特征在于，所述分别对所述初始输入图像和所述目标模板图像进行编码，得到所述初始输入图像的面部身份特征和所述目标模板图像的目标属性特征包括：

通过属性特征编码模型对所述目标模板图像进行编码，得到所述目标模板图像的属性特征；

所述对所述面部身份特征及所述目标属性特征进行融合处理，得到目标特征包括：

通过特征融合模型对所述面部身份特征及所述目标属性特征进行融合处理，得到目标特征；

所述解码所述目标特征，得到目标图像，包括：

通过解码模型对所述目标特征进行解码，得到目标图像；

其中，所述特征融合模型、所述解码模型与所述属性特征编码模型，通过交替使用无监督图像样本和自监督图像样本联合训练得到。

10.根据权利要求9所述的方法，其特征在于，所述属性特征编码模型、所述特征融合模型和所述解码模型包括于生成网络；所述生成网络的训练步骤包括：

获取无监督图像样本和自监督图像样本；所述无监督图像样本包括第一初始面部图像样本和第一模板面部图像样本；所述第一初始面部图像样本和第一模板面部图像样本为不相同的图像样本；所述自监督图像样本包括第二初始面部图像样本和第二模板面部图像样本；所述第二初始面部图像样本和第二模板面部图像样本为相同的图像样本；

根据所述无监督图像样本对所述生成网络进行无监督训练，调整所述属性特征编码模型、所述特征融合模型和所述解码模型的模型参数；

根据所述自监督图像样本对所述生成网络进行自监督训练，调整所述属性特征编码模型、所述特征融合模型和所述解码模型的模型参数；

重复进入所述根据所述无监督图像样本对所述生成网络进行无监督训练的步骤，以使所述无监督训练和所述自监督训练交替进行，直至满足训练停止条件时结束训练。

11.根据权利要求10所述的方法，其特征在于，所述生成网络还包括识别特征编码模型，所述根据所述无监督图像样本对所述生成网络进行无监督训练，调整所述属性特征编码模型、所述特征融合模型和所述解码模型的模型参数包括：

通过所述识别特征编码模型对所述第一初始面部图像样本进行编码，得到所述第一初始面部图像样本的面部身份特征；

通过所述属性特征编码模型对所述第一模板面部图像样本进行编码，得到所述第一模板面部图像样本的属性特征；

将所述第一初始面部图像样本的面部身份特征及所述第一模板面部图像样本的属性特征依次输入所述特征融合模型及所述解码模型，得到第一目标面部图像样本；

通过所述识别特征编码模型及所述属性特征编码模型分别对第一目标面部图像样本进行编码，得到所述第一目标面部图像样本的面部身份特征及属性特征；

获取判别网络，将所述第一初始面部图像样本和所述第一模板面部图像样本中的至少一种作为所述判别网络的正样本，将所述第一目标面部图像样本作为所述判别网络的负样本；

基于所述判别网络的判别损失、所述第一初始面部图像样本与所述第一目标面部图像样本之间面部身份特征的差异及所述第一模板面部图像样本与所述第一目标面部图像样本之间属性特征的差异，调整所述属性特征编码模型、所述特征融合模型和所述解码模型的模型参数。

12.根据权利要求10所述的方法，其特征在于，所述根据所述自监督图像样本对所述生成网络进行自监督训练，调整所述属性特征编码模型、所述特征融合模型和所述解码模型的模型参数包括：

通过所述识别特征编码模型对所述第二初始面部图像样本进行编码，得到所述第二初始面部图像样本的面部身份特征；

通过所述属性特征编码模型对所述第二模板面部图像样本进行编码，得到所述第二模板面部图像样本的属性特征；

将所述第二初始面部图像样本的面部身份特征及所述第二模板面部图像样本的属性特征依次输入所述特征融合模型及所述解码模型，得到第二目标面部图像样本；

通过所述识别特征编码模型及所述属性特征编码模型分别对第二目标面部图像样本进行编码，得到所述第二目标面部图像样本的面部身份特征及属性特征；

将所述第二初始面部图像样本和所述第二模板面部图像样本中的至少一种作为所述判别网络的正样本，将所述第二目标面部图像样本作为所述判别网络的负样本；

基于所述判别网络的判别损失、所述第二目标面部图像样本和所述第二初始面部图像样本之间像素的差异、所述第二初始面部图像样本与所述第二目标面部图像样本之间面部身份特征的差异及所述第二模板面部图像样本与所述第二目标面部图像样本之间属性特征的差异，调整所述属性特征编码模型、所述特征融合模型和所述解码模型的模型参数。

13.一种图像处理装置，其特征在于，所述装置包括：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。