CN115953296A

CN115953296A - 一种基于transformer和卷积神经网络联合的人脸超分辨率重建方法和系统

Info

Publication number: CN115953296A
Application number: CN202211580601.5A
Authority: CN
Inventors: 金枝; 齐浩然; 邱钰苇
Original assignee: Sun Yat Sen University; Sun Yat Sen University Shenzhen Campus
Current assignee: Sun Yat Sen University; Sun Yat Sen University Shenzhen Campus
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-04-11
Anticipated expiration: 2042-12-09
Also published as: CN115953296B

Abstract

本发明公开了一种基于transformer和卷积神经网络联合的人脸超分辨率重建方法和系统，包括使用基本特征提取模块和隐编码器对待处理人脸图像进行处理，获得基本特征信息和隐空间风格向量，进一步处理得到空间分布特征信息，对空间分布特征信息和空间分布特征信息分别进行自变换、高频特征增强处理和提取，获得人脸空间分布特征信息和人脸成分纹理特征信息，根据人脸空间分布特征信息和人脸成分纹理特征信息处理得到重建人脸图像等步骤。本发明提升了重建的人脸在轮廓与内容恢复中的表现，综合了基于卷积神经网络以及基于transformer的人脸超分辨率重建技术的优点，获得精准自然的重建结果，广泛应用于图像处理技术领域。

Description

一种基于transformer和卷积神经网络联合的人脸超分辨率重建方法和系统

技术领域

本发明涉及图像处理技术领域，尤其是一种基于transformer和卷积神经网络联合的人脸超分辨率重建方法和系统。

背景技术

安保视频、智能门禁一体机、修图软件和视频会议等应用场合，经常受到拍摄环境、摄像头性能以及传输带宽等因素的限制，拍摄到的人脸图像质量较低，具体体现为人脸图像的分辨率低、视觉上看起来比较模糊等，这种情况下可以通过对人脸图像进行重建，获得更高分辨率的人脸图像，提高原始人脸图像的质量，有利于进行人脸识别、校验和展示。

目前人脸图像重建的相关技术，难以获取到人脸的纹理信息并按照人脸独特的空间分布进行排列，因此重建后的人脸图像通常存在着人脸轮廓扭曲变形等现象，导致重建结果不够精准自然。

发明内容

针对目前的人脸图像重建技术存在的重建结果不够精准自然等技术问题，本发明的目的在于提供一种基于transformer和卷积神经网络联合的人脸超分辨率重建方法和系统。

一方面，本发明实施例包括一种基于transformer和卷积神经网络联合的人脸超分辨率重建方法，包括：

获取待处理人脸图像；

使用基本特征提取模块对所述待处理人脸图像进行处理，获得基本特征信息；

使用隐编码器对所述待处理人脸图像进行处理，获得隐空间风格向量；

根据所述基本特征信息和所述隐空间风格向量，处理得到空间分布特征信息；

对所述空间分布特征信息进行自变换和高频特征增强处理，获得人脸空间分布特征信息；

对所述空间分布特征信息进行提取，获得人脸成分纹理特征信息；

根据所述人脸空间分布特征信息和所述人脸成分纹理特征信息，处理得到重建人脸图像。

进一步地，所述使用基本特征提取模块对所述待处理人脸图像进行处理，获得基本特征信息，包括：

使用残差网络块组群组成所述基本特征提取模块；

将所述待处理人脸图像输入至所述基本特征提取模块，获取所述基本特征提取模块输出的浅层特征信息；

将所述浅层特征信息均分为两组；

对其中一组所述浅层特征信息进行上采样，获得基本空间分布特征信息；

对另一组所述浅层特征信息进行上采样，获得基本纹理特征信息；

以所述基本空间分布特征信息和所述基本纹理特征信息，作为所述基本特征信息。

进一步地，所述使用隐编码器对所述待处理人脸图像进行处理，获得隐空间风格向量，包括：

使用2-步长的卷积层、Leaky ReLU激活层和全连接层组成所述隐编码器；

将所述待处理人脸图像输入至所述隐编码器，获取所述隐编码器输出的所述隐空间风格向量。

进一步地，所述根据所述基本特征信息和所述隐空间风格向量，处理得到空间分布特征信息，包括：

将所述基本空间分布特征信息与所述隐空间风格向量进行通道相乘，获得预生成空间分布特征信息；

将所述基本纹理特征信息与所述隐空间风格向量进行通道相乘，获得预生成纹理特征信息；

以所述预生成空间分布特征信息和所述预生成纹理特征信息，作为所述空间分布特征信息。

进一步地，所述对所述空间分布特征信息进行自变换和高频特征增强处理，获得人脸空间分布特征信息，包括：

将所述预生成空间分布特征信息转换为单词张量；

将所述单词张量输入至transformer，获取所述transformer输出的待增强特征信息；

使用池化层、亚像素上采样层和残差网络组群组成高频特征增强模块；

将所述待增强特征信息输入至所述高频特征增强模块，获取所述高频特征增强模块输出的人脸空间分布特征信息。

进一步地，所述将所述预生成空间分布特征信息转换为单词张量，包括：

将所述预生成空间分布特征信息分为若干个大小相同的小块；

对各所述小块进行线性变换，获得所述单词张量。

进一步地，所述将所述单词张量输入至transformer，包括：

通过公式

将所述单词张量与对应的权重矩阵P_Q,P_k,P_V相乘，得到所述transformer的队列矩阵Q、键矩阵K和值矩阵V；

将所述队列矩阵Q、键矩阵K和值矩阵V输入至所述transformer。

进一步地，所述根据所述人脸空间分布特征信息和所述人脸成分纹理特征信息，处理得到重建人脸图像，包括：

对所述人脸空间分布特征信息和所述人脸成分纹理特征信息进行结合，获得结合信息；

使用上采样层和卷积层组成尾部网络；

将所述结合信息输入至所述尾部网络，获取所述尾部网络输出的所述重建人脸图像。

进一步地，所述基于transformer和卷积神经网络联合的人脸超分辨率重建方法，还包括：

通过公式L_sharp＝||USM(I_SR，σ)-USM(I_HR，σ)||₁计算锐化损失；

根据所述锐化损失进行学习训练。

另一方面，本发明实施例还包括一种基于transformer和卷积神经网络联合的人脸超分辨率重建系统，所述基于transformer和卷积神经网络联合的人脸超分辨率重建系统包括：

第一模块，用于获取待处理人脸图像；

第二模块，用于使用基本特征提取模块对所述待处理人脸图像进行处理，获得基本特征信息；

第三模块，用于使用隐编码器对所述待处理人脸图像进行处理，获得隐空间风格向量；

第四模块，用于根据所述基本特征信息和所述隐空间风格向量，处理得到空间分布特征信息；

第五模块，用于对所述空间分布特征信息进行自变换和高频特征增强处理，获得人脸空间分布特征信息；

第六模块，用于对所述空间分布特征信息进行提取，获得人脸成分纹理特征信息；

第七模块，用于根据所述人脸空间分布特征信息和所述人脸成分纹理特征信息，处理得到重建人脸图像、

本发明的有益效果是：实施例中的基于transformer和卷积神经网络联合的人脸超分辨率重建方法，分别利用深度学习网络框架transformer和卷积神经网络提取人脸的空间分布特征和纹理特征，并在重建过程中融合，最终提升重建的人脸在轮廓与内容恢复中的表现，综合了基于卷积神经网络的人脸超分辨率重建技术容易学习到人脸的纹理特征，以及基于transformer的人脸超分辨率重建技术容易学习到人脸的空间分布特征等优点，有利于获得精准自然的重建结果。

附图说明

图1为实施例中基于transformer和卷积神经网络联合的人脸超分辨率重建方法的流程图；

图2为实施例中基于transformer和卷积神经网络联合的人脸超分辨率重建方法的原理图；

图3为实施例中transformer的原理示意图；

图4为实施例中高频特征增强模块的原理示意图。

具体实施方式

先介绍两种人脸超分辨率重建技术：

基于卷积神经网络的人脸超分辨率重建技术：卷积神经网络(CNN)可以应用在超分辨率中，具体地，可以使用SRResNet或者RDN等网络结构作为卷积神经网络，以解决超分辨率重建问题。然而，卷积神经网络在超分辨率重建过程中全部依赖卷积核提取人脸图像的相关纹理信息。尽管大量的卷积核在重建过程中能够很好地学习人脸各个成分(如眼睛，鼻子，嘴巴，头发等)的纹理特征，但是这些卷积核本身并没有建立任何空间关联。这种情况导致了重建出的人脸尽管包含了丰富的纹理信息，但这些纹理信息并没有按照人脸独特的空间分布排列，仅依靠卷积神经网络重建容易出现人脸轮廓扭曲，变形等现象，导致重建的结果不够精准自然。

基于transformer的人脸超分辨率重建技术：transformer(自变换器)可以应用在视觉任务中，同样也在可以应用在超分辨率重建中。例如，可以将transformer应用于自然图像的超分辨率重建中，将待重建图像和参考图像共同作为transformer的键值和权重值序列用于精准重建。然而，仅使用transformer完成超分辨率重建也存在着局限性，这是由于transformer增强图像的原理是将待重建图像分割成若干个小区域，并对小区域进行编码转换操作得到单词张量，经自注意力学习后转为原有的特征尺寸。这种操作方式尽管充分体现了重建内容的空间关联，但纹理信息并没有提取和学习。通过transformer重建得到的人脸图像没有纹理信息的填充，感知质量会下降。

综合上述基于卷积神经网络的人脸超分辨率重建技术以及基于transformer的人脸超分辨率重建技术的优缺点，本实施例中提供一种基于transformer和卷积神经网络联合的人脸超分辨率重建方法。参照图1，基于transformer和卷积神经网络联合的人脸超分辨率重建方法包括以下步骤：

S1.获取待处理人脸图像；

S2.使用基本特征提取模块对待处理人脸图像进行处理，获得基本特征信息；

S3.使用隐编码器对待处理人脸图像进行处理，获得隐空间风格向量；

S4.根据基本特征信息和隐空间风格向量，处理得到空间分布特征信息；

S5.对空间分布特征信息进行自变换和高频特征增强处理，获得人脸空间分布特征信息；

S6.对空间分布特征信息进行提取，获得人脸成分纹理特征信息；

S7.根据人脸空间分布特征信息和人脸成分纹理特征信息，处理得到重建人脸图像。

本实施例中，基于transformer和卷积神经网络联合的人脸超分辨率重建方法可以分为特征准备阶段和并联生成阶段，其中，步骤S1-S4属于特征准备阶段，步骤S1-S4属于并联生成阶段。

图2为步骤S1-S7各步骤的流程和原理示意图。

参照图2，在特征准备阶段中，低分辨率人脸分别经过基本特征提取模块和隐编码器两条支路。其中，基本特征提取模块由残差网络块组群构成，基本特征提取模块可以对待处理人脸图像进行处理，提取浅层特征信息。这些浅层特征信息后续被均分为两组，其中一组被2倍上采样一次，获得基本空间分布特征信息，另一组被2倍上采样一次，获得基本纹理特征信息。本实施例中，所获得的基本空间分布特征信息和基本纹理特征信息可以统称为基本特征信息。

参照图2，在特征准备阶段中，隐编码器包括了2-步长的卷积层、Leaky ReLU激活层和全连接层。待处理人脸图像经过隐编码器中的卷积层逐步下采样后，再经过隐编码器中的Leaky ReLU激活层激活有效信息，最终由隐编码器中的全连接层生成2组一维张量，作为隐空间风格向量。

参照图2，在特征准备阶段中，将基本特征提取模块输出的基本空间分布特征信息与隐编码器输出的隐空间风格向量进行通道相乘，获得预生成空间分布特征信息；将基本特征提取模块输出的基本纹理特征信息与隐编码器输出的隐空间风格向量进行通道相乘，获得预生成纹理特征信息。本实施例中，所获得的预生成空间分布特征信息和预生成纹理特征信息可以统称为空间分布特征信息。空间分布特征信息作为后续并联生成阶段的输入。

参照图2，并联生成阶段包括空间分布支路以及纹理支路，支路的结构根据transformer和卷积神经网络的性质选择组成。

参照图2，空间分布支路包括transformer与高频特征增强模块。如图3所示，首先将预生成空间分布特征信息分为若干相同大小的小块，这些小块通过线性变化由二维的小块特征转为一维的张量，作为transformer输入的单词张量。通过公式

将单词张量与对应的权重矩阵P_Q,P_k,P_V相乘，得到transformer的队列矩阵Q、键矩阵K和值矩阵V，将队列矩阵Q、键矩阵K和值矩阵V输入至transformer。经过Softmax激活函数计算其间的自注意力关系：

自注意力关系再经过多层感知机的增强得到包含自注意力后的特征单词张量：

这些特征单词张量包含了低分辨率人脸中各个区域的空间关联，经过如图3所示的反变换转换为二维的特征小块，并按照原有的位置信息拼接为完整的特征，这些特征包含了重建人脸的空间分布。本实施例中，transformer输出的结果被称为待增强特征信息。

考虑到上述计算过程削弱了特征块之间的边缘等高频信息，因此设计如图4所示的高频特征增强模块(High-Frequency Enhancement Block，HFEB)。参照图4，高频特征增强模块由池化层、亚像素上采样层与残差网络组群构成。待增强特征信息经过高频特征增强模块中的池化层和亚像素层的尺度变换，分离出其中包含的高频信息。这些高频信息在后续的残差网络组群中得以增强，最终高频特征增强模块输出的是经过空间分布支路提取并增强过的人脸空间分布特征，这些空间分布特征包含了人脸轮廓等空间信息。本实施例中，高频特征增强模块输出的结果被称为人脸空间分布特征信息。

参照图2，在并联生成阶段中，纹理支路包括两组残差网络块。纹理支路对预生成纹理特征信息进行特征提取，通过深层网络获取更加丰富的纹理信息，加深了人脸纹理特征的提取，这些纹理信息作为纹理支路的输出。本实施例中，纹理支路的输出称为人脸成分纹理特征信息。

本实施例中，参照图2，将空间分布支路得到的人脸空间分布特征信息与纹理支路得到的人脸成分纹理特征信息结合(具体可以通过向量拼接等手段进行结合)，所获得的结果称为结合信息。结合信息经过尾部网络的2倍上采样与卷积层的整合得到3通道的输出，本实施例中尾部网络输出的结果称为重建人脸图像，作为网络重建人脸的最终结果。

本实施例中，一方面步骤S1-S7作为一个重建算法，对待处理人脸图像进行重建处理，所获得的重建人脸图像相比待处理人脸图像具有更高的分辨率；另一方面，步骤S1-S7分别利用深度学习网络框架transformer和卷积神经网络提取人脸的空间分布特征和纹理特征，并在重建过程中融合，最终提升重建的人脸在轮廓与内容恢复中的表现，综合深度学习网络框架transformer和卷积神经网络的优点；通过引入隐编码器获取空间分布特征和纹理特征对应的隐风格张量增强相关细节的表达，并通过循环网络结构的设计，降低了模型的复杂度，提升了重建推理下效率，并能使重建人脸的视觉效果更加真实。

实验结果表明，本实施例中的基于transformer和卷积神经网络联合的人脸超分辨率重建方法在4倍放大的人脸超分辨率重建任务中的表现均超过了目前的先进方法，人脸的内容恢复，特征维持以及感知质量都有了明显的提升。此外本实施例中的方法的模型复杂度和推理时间相比目前的先进方法也达到了更优的水准，证明本实施例中的方法可以在实际重建应用中有较高的效率和泛化能力。

为了降低人脸超分辨率重建网络的复杂度，提升重建过程的效率，在并联重建阶段引入了循环机制：空间分布支路中的transformer和纹理支路中的残差网络组群分别包含了两次循环，用较少的网络结构充分提取相关特征信息，最终实现用轻量化的网络结构和极少的推理时间完成整体的重建过程；同样在损失函数计算中，除了常规的内容损失外，本实施例中使用如下的锐化损失：

L_sharp＝||USM(I_SR，σ)-USM(I_HR，σ)||₁

该公式中，L_sharp表示锐化损失值，USM()表示USM锐化算法，I_SR表示待处理人脸图像，I_HR表示重建人脸图像，σ表示USM锐化算法中设定的参数。锐化损失的计算基于传统的USM锐化算法实现，重建图像通过锐化处理得到边缘增强的结果，并计算该结果同标准图像锐化增强后的距离，使得网络在学习过程中更加关注锐化处理后增强的边缘特征的重建，最终保证重建图像有更好的感知效果。

本实施例中，提供一种基于transformer和卷积神经网络联合的人脸超分辨率重建系统，包括以下模块：

第一模块，用于获取待处理人脸图像；

第二模块，用于使用基本特征提取模块对待处理人脸图像进行处理，获得基本特征信息；

第三模块，用于使用隐编码器对待处理人脸图像进行处理，获得隐空间风格向量；

第四模块，用于根据基本特征信息和隐空间风格向量，处理得到空间分布特征信息；

第五模块，用于对空间分布特征信息进行自变换和高频特征增强处理，获得人脸空间分布特征信息；

第六模块，用于对空间分布特征信息进行提取，获得人脸成分纹理特征信息；

第七模块，用于根据人脸空间分布特征信息和人脸成分纹理特征信息，处理得到重建人脸图像。

其中，各模块可以是软件模块或者硬件模块。当基于transformer和卷积神经网络联合的人脸超分辨率重建系统运行时，可以执行本实施例中的基于transformer和卷积神经网络联合的人脸超分辨率重建方法，具体地，第一模块至第七模块分别执行步骤S1-S7，从而实现基于transformer和卷积神经网络联合的人脸超分辨率重建方法所实现的技术效果。

可以通过编写执行本实施例中的基于transformer和卷积神经网络联合的人脸超分辨率重建方法的计算机程序，将该计算机程序写入至计算机装置或者存储介质中，当计算机程序被读取出来运行时，执行本实施例中的基于transformer和卷积神经网络联合的人脸超分辨率重建方法，从而实现与实施例中的基于transformer和卷积神经网络联合的人脸超分辨率重建方法相同的技术效果。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。此外，本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种元件，但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如，在不脱离本公开范围的情况下，第一元件也可以被称为第二元件，类似地，第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本实施例描述的过程的操作，除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本实施例所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种基于transformer和卷积神经网络联合的人脸超分辨率重建方法，其特征在于，所述基于transformer和卷积神经网络联合的人脸超分辨率重建方法包括：

获取待处理人脸图像；

2.根据权利要求1所述的基于transformer和卷积神经网络联合的人脸超分辨率重建方法，其特征在于，所述使用基本特征提取模块对所述待处理人脸图像进行处理，获得基本特征信息，包括：

使用残差网络块组群组成所述基本特征提取模块；

将所述浅层特征信息均分为两组；

3.根据权利要求2所述的基于transformer和卷积神经网络联合的人脸超分辨率重建方法，其特征在于，所述使用隐编码器对所述待处理人脸图像进行处理，获得隐空间风格向量，包括：

4.根据权利要求3所述的基于transformer和卷积神经网络联合的人脸超分辨率重建方法，其特征在于，所述根据所述基本特征信息和所述隐空间风格向量，处理得到空间分布特征信息，包括：

5.根据权利要求4所述的基于transformer和卷积神经网络联合的人脸超分辨率重建方法，其特征在于，所述对所述空间分布特征信息进行自变换和高频特征增强处理，获得人脸空间分布特征信息，包括：

将所述预生成空间分布特征信息转换为单词张量；

6.根据权利要求5所述的基于transformer和卷积神经网络联合的人脸超分辨率重建方法，其特征在于，所述将所述预生成空间分布特征信息转换为单词张量，包括：

对各所述小块进行线性变换，获得所述单词张量。

7.根据权利要求5所述的基于transformer和卷积神经网络联合的人脸超分辨率重建方法，其特征在于，所述将所述单词张量输入至transformer，包括：

通过公式

将所述队列矩阵Q、键矩阵K和值矩阵V输入至所述transformer。

8.根据权利要求4所述的基于transformer和卷积神经网络联合的人脸超分辨率重建方法，其特征在于，所述根据所述人脸空间分布特征信息和所述人脸成分纹理特征信息，处理得到重建人脸图像，包括：

使用上采样层和卷积层组成尾部网络；

9.根据权利要求1-8任一项所述的基于transformer和卷积神经网络联合的人脸超分辨率重建方法，其特征在于，所述基于transformer和卷积神经网络联合的人脸超分辨率重建方法，还包括：

通过公式L_sharp＝||USM(I_SR，σ)-USM(I_HR，σ)||₁计算锐化损失；

根据所述锐化损失进行学习训练。

10.一种基于transformer和卷积神经网络联合的人脸超分辨率重建系统，其特征在于，所述基于transformer和卷积神经网络联合的人脸超分辨率重建系统包括：

第一模块，用于获取待处理人脸图像；

第七模块，用于根据所述人脸空间分布特征信息和所述人脸成分纹理特征信息，处理得到重建人脸图像。