CN116258627A - 一种极端退化人脸图像超分辨率恢复系统和方法 - Google Patents
一种极端退化人脸图像超分辨率恢复系统和方法 Download PDFInfo
- Publication number
- CN116258627A CN116258627A CN202211600037.9A CN202211600037A CN116258627A CN 116258627 A CN116258627 A CN 116258627A CN 202211600037 A CN202211600037 A CN 202211600037A CN 116258627 A CN116258627 A CN 116258627A
- Authority
- CN
- China
- Prior art keywords
- face image
- face
- resolution
- attention
- facial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000001815 facial effect Effects 0.000 claims abstract description 103
- 238000000605 extraction Methods 0.000 claims abstract description 60
- 238000011084 recovery Methods 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims description 55
- 230000011218 segmentation Effects 0.000 claims description 40
- 238000011176 pooling Methods 0.000 claims description 38
- 230000004913 activation Effects 0.000 claims description 30
- 210000004209 hair Anatomy 0.000 claims description 30
- 230000004927 fusion Effects 0.000 claims description 19
- 239000000284 extract Substances 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000007850 degeneration Effects 0.000 claims 1
- 239000000203 mixture Substances 0.000 claims 1
- 230000015556 catabolic process Effects 0.000 description 8
- 238000006731 degradation reaction Methods 0.000 description 8
- 238000003384 imaging method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000000265 homogenisation Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 208000004547 Hallucinations Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000003739 neck Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 210000003491 skin Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种极端退化人脸图像超分辨率恢复系统和方法,包括面部先验提取模块、浅层特征提取模块、注意力引导的Transformer模块和图像重建模块;面部先验提取模块用于获取低分辨率人脸图像特征图;浅层特征提取模块用于提取到低频信息;注意力引导的Transformer模块用于提取高频信息并融合高频信息和低频信息;图像重建模块生成超分辨率人脸图像。本发明能够基于面部先验和注意力引导,利用面部先验信息来提高人脸图像恢复质量。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于面部先验和注意力引导的极端退化人脸图像超分辨率恢复系统和方法。
背景技术
人脸图像超分辨率恢复(FSR)是一种针对特定领域的图像超分辨率问题,是指从低分辨率(LR)人脸图像中恢复出高分辨率(HR)人脸图像的技术。由于人脸在人类身份验证中的重要性,使用FSR技术恢复高质量的人脸图像在过去几十年中引起了广泛关注。
现有的FSR包括最早的基于高斯图像金字塔的多级预测模型、马尔可夫随机场(MRF)模型、利用全局人脸统计模型、基于局部补丁的人脸超分辨率模型、混合人脸超分辨率等方法,以对LR人脸图像进行超分辨率恢复。但是在现实场景中,由于物理成像系统和成像条件的限制,采集到的人脸图像通常含有严重的噪声和较低的图像分辨率。这严重影响了上述从LR人脸图像中恢复HR图像质量的方法。
为了解决这些极端退化场景中的超分辨率恢复问题,出现了一种基于重新表达技术的图像同质化策略。即在LR空间和HR空间中提出了均匀投影作为对经典LR/HR投影的补偿,然后通过一个重新表达模块来弥合复杂和简单退化之间的差距,以减少严重噪声和模糊等因素的影响。为了进一步提高均质化的准确性,上述方法使用两个同质化投影分别重新表达输入的LR图像和初始推断的HR图像。
但上述现有技术中,极端退化场景下面部的先验信息通常被忽略。现有的工作表明,面部先验信息可以通过使用面部各部位的位置和额外的面部分析图、面部地标等来捕获全局面部结构。这些信息对模型的恢复能力和恢复效果非常有利。然而,在严重退化的情况下,要获得面部的先验信息是很困难的。特别是图像的退化会导致信息的丢失,这不仅增加了预训练过程中先验提取的难度,同时也限制了先验提取的准确性,并进一步降低了人脸超分辨率的性能。
本发明中,极端退化场景是指在自然条件下的人脸成像条件不足,物理条件下的人脸成像设备和成像系统的限制所拍摄的包含严重噪声且很模糊的图像。低分辨率(LR)是指颗粒感严重在视觉上失真,高分辨率(HR)是指图像中的像素密度高,能够提供更多的细节,在FSR领域属于现有的专业名词。
发明内容
本发明的目的是提供一种极端退化人脸图像超分辨率恢复系统和方法,能够基于面部先验和注意力引导,利用面部先验信息来提高人脸图像恢复质量。
本发明采用下述技术方案:
一种极端退化人脸图像超分辨率恢复系统,包括面部先验提取模块、浅层特征提取模块、注意力引导的Transformer模块和图像重建模块;其中,
面部先验提取模块,用于根据输入的原始低分辨率人脸图像得到对应的人脸图像局部特征的初始灰度注意力图;然后将原始低分辨率人脸图像与初始灰度注意力图相乘得到最终灰度注意力图,再将原始低分辨率人脸图像与最终灰度注意力图堆叠,得到低分辨率人脸图像特征图,并输入至浅层特征提取模块;
浅层特征提取模块,用于对低分辨率人脸图像特征图,通过卷积层进行人脸特征初始信息提取,并将得到的人脸特征初始信息输入至注意力引导的Transformer模块;人脸特征初始信息包括由浅层特征提取模块提取到的低频信息;
注意力引导的Transformer模块,用于对输入的人脸特征初始信息进行高频信息提取,并将得到的高频信息和人脸特征初始信息中的低频信息进行残差连接,得到已融合高频信息和低频信息的人脸特征融合信息;并将人脸特征融合信息发送至图像重建模块;
图像重建模块,用于根据输入的人脸特征融合信息,生成超分辨率人脸图像。
所述的人脸图像局部特征包括人脸图像的皮肤、头发和面部其他部位特征三个特征。
所述的面部先验提取模块包括面部语义分割网络和时空池化层;面部语义分割网络用于根据输入的原始低分辨率人脸图像数据,生成对应人脸图像的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像;时空池化层用于对生成的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像,通过提供平滑来抑制分割错误,最终得到对应的人脸图像的皮肤、头发和面部其他部位的三张初始灰度注意力图。
所述的面部语义分割网络包括上下文分支网络和时空分支网络;上下文分支网络用于对上下文中的人脸图像语义信息进行编码;时空分支网络用于对人脸图像信息中的空间信息和细节信息进行编码;面部语义分割网络包含主损失函数lp和辅助损失函数li;面部语义分割网络的联合损失函数L(X;W)为:
其中,lp(X;W)为上下文分支网络和时空分支网络网络拼接后的损失函数,X表示拼接后的输出特征,W为更新参数,α为用于平衡主损失函数lp和辅助损失函数li的权重,K=2表示两个分支网络,Xi代表第i个分支网络的输出特征。
所述的注意力引导的Transformer模块,由多个PCAT块和第一卷积层组成,每个PCAT块均由两个分支组成,第一分支由多个STL层和第二卷积层组成,用于对人脸整体区域进行高频特征的提取;第二分支由像素注意力模块和通道注意力模块组成,用于对人脸局部特定区域高频特征的提取;第一分支和第二分支的输出以残差方式连接;
设给定第i个PCAT块的输入特征Fi,0,通过N个STL层提取中间特征Fi,1,Fi,2,Fi,3,…Fi,N,PCAT块的输出由以下公式表示:
所述的通道注意力模块包括平行的偏差池化层和平均池化层,偏差池化层和平均池化层的输出根据不同的权重连接后,依次进入激活函数不同的两个卷积网络,最后一个卷积网络的输出信息与初始输入信息再次进行残差连接后,输出最终的脸部通道注意力信息;
通道注意力模块的输出Mi表示为:
所述的像素注意力模块,采用Kernel size为1且激活函数为ReLU的卷积层,像素注意力模块的输出Mj表示为:
所述的图像重建模块表示为:
Frhq=Hrec(Fs+Fd);
其中,Frhq表示所得到的面部重建特征,Fs表示浅层特征提取模块输入的低频信息,Fd表示注意力引导的Transformer模块输入的高频信息特征。
利用权利要求1至7中任意一项极端退化人脸图像超分辨率恢复系统实现的恢复方法,包括以下步骤:
A:构建人脸图像数据集;
B:对所构建的人脸图像数据集中的人脸图像进行预处理;
C:构建面部组件注意力预测模型,随后利用预处理后的人脸图像对面部组件注意力预测模型进行训练,最终得到训练后的面部组件注意力预测模型;
D:将训练后的面部组件注意力预测模型中的初始权重,作为极端退化人脸图像超分辨率恢复系统中面部语义分割网络的初始权重,然后将原始低分辨率人脸图像输入至极端退化人脸图像超分辨率恢复系统中,面部先验提取模块中的面部语义分割网络,根据输入的原始低分辨率人脸图像得到对应的人脸图像局部特征的初始灰度注意力图;然后将原始低分辨率人脸图像与初始灰度注意力图相乘得到最终灰度注意力图,再将原始低分辨率人脸图像与最终灰度注意力图堆叠,得到合成后的一张低分辨率人脸图像特征图,并输入至浅层特征提取模块;
E:将步骤D中得到的低分辨率人脸图像特征图送入浅层特征提取模块进行浅层特征提取;然后将包含低频信息的人脸特征初始信息输入至注意力引导的Transformer模块中;
F:注意力引导的Transformer模块对输入的人脸特征初始信息进行高频信息提取,最终获得高频信息;并将人脸特征初始信息中包含的低频信息直接与得到的高频信息通过残差连接进行结合,得到融合了高频信息和低频信息的人脸特征融合信息;
G:根据注意力引导的Transformer模块输入的人脸特征融合信息,通过图像重建模块生成最终的高分辨率人脸图像。
所述的步骤D包括以下具体步骤:
D1:将训练后的面部组件注意力预测模型中的初始权重,作为极端退化人脸图像超分辨率恢复系统中面部语义分割网络的初始权重;
D2:利用语义分割网络中的上下文分支网络,对输入的原始低分辨率人脸图像进行图像下采样处理,得到处理后的输入图像;随后将处理后的输入图像送入上下文分支网络中的ARM模块中,依次经ARM模块中的CBR层、全局平均池化层、Sigmoid激活函数、BN层和卷积层后输出三个初始特征图,三个初始特征图分别为对应的人脸图像的皮肤、头发和面部其他部位初始特征图;随后将输出的初始特征图进行上采样作为三张待叠加特征图A;
D3:将输入的原始低分辨率人脸图像,经时空分支网络中的CBR层处理后得到一张待叠加特征图B,然后将待叠加特征图B分别与每张待叠加特征图A以第一维度进行叠加,得到语义分割特征图T1、T2和T3,依次为人脸图像的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像;然后将语义分割特征图T1、T2和T3依次进行上采样处理和时空池化层处理,得到对应的人脸图像的皮肤、头发和面部其他部位的三张初始灰度注意力图;
D4:将输入的原始低分辨率人脸图像,与得到的三张初始灰度注意力图相乘,得到三张最终灰度注意力图;
D5:将输入的原始低分辨率人脸图像与三张最终灰度注意力图堆叠,得到合成后的一张低分辨率人脸图像特征图,并输入至浅层特征提取模块。
所述的步骤G中,还将现实极端退化场景分为存在对应高清人脸图像和不存在对应高清人脸图像进行不同处理;
在针对存在对应高清人脸图像的极端退化场景时:首先构建卷积网络并设置激活函数;然后对由人脸特征融合信息所得到的人脸图像进行双三次线性插值后再进行上采样,然后将经上采样后的人脸图像恢复到原始大小;最终将恢复原始大小后的人脸图像输入所构建的卷积网络进行面部重建特征的生成,得到最终的高分辨率人脸图像;
在针对不存在对应高清人脸图像极端退化场景时:首先构建卷积网络并设置激活函数和输出维度;然后利用构建的卷积网络对人脸图像进行多次面部重建特征的生成,最后对卷积网络生成的高分辨率的人脸图像进行上采样,得到最终的高分辨率人脸图像。人脸特征融合信息发送至图像重建模块;
本发明通过设置面部先验提取模块,能够从严重退化图像中提取面部先验信息,利用面部先验信息来提高图像恢复质量。本发明通过选择人脸图像中皮肤、头发和面部其他部位的特征作为图像特征,通过面部语义分割网络和时空池化层获取对低分辨率人脸图像特征图,然后分别经浅层特征提取模块和注意力引导的Transformer模块获取人脸特征初始信息中的高频信息和低频信息进行融合,再利用得到的人脸特征融合信息利用图像重建模块生成高分辨率人脸图像。本发明能够基于面部先验和注意力引导,利用面部先验信息来提高人脸图像恢复质量。
附图说明
图1为本发明中极端退化人脸图像超分辨率恢复系统的原理示意图;
图2为本发明中极端退化人脸图像超分辨率恢复方法的流程示意图;
图3为本发明与现有方法在CAS-PEAL-R1数据集上的效果对比图。
具体实施方式
以下结合附图和实施例对本发明作以详细的描述:
如图1所示,本发明所述的极端退化人脸图像超分辨率恢复系统,包括面部先验提取模块、浅层特征提取模块、注意力引导的Transformer模块和图像重建模块,其中:
面部先验提取模块,用于根据输入的原始低分辨率人脸图像得到对应的人脸图像局部特征的初始灰度注意力图;然后将原始低分辨率人脸图像与初始灰度注意力图相乘得到最终灰度注意力图,再将原始低分辨率人脸图像与最终灰度注意力图堆叠,得到低分辨率人脸图像特征图,并输入至浅层特征提取模块;
浅层特征提取模块,用于对低分辨率人脸图像特征图,通过卷积层进行人脸特征初始信息提取,并将得到的人脸特征初始信息输入至注意力引导的Transformer模块;人脸特征初始信息包括由浅层特征提取模块提取到的低频信息;
注意力引导的Transformer模块,用于对输入的人脸特征初始信息进行高频信息提取,并将得到的高频信息和人脸特征初始信息中的低频信息进行残差连接,得到已融合高频信息和低频信息的人脸特征融合信息;并将人脸特征融合信息发送至图像重建模块;
图像重建模块,用于根据输入的人脸特征融合信息,生成高分辨率人脸图像。
人脸图像中存在多种局部特征,如耳朵、颈部、皮肤、头发和面部其他部位等;在极端场景下由于耳朵在大多数图像中被头发遮挡或者图像中根本无显示;颈部对于人脸图像的恢复起不到作用;而皮肤、头发和面部其他部位这三个特征则更加容易从人脸图像中获取且能够很好的分辨,因此本发明中选取皮肤、头发和面部其他部位特征作为三个人脸图像局部特征,而忽略人脸图像中其他无用特征;其中,面部其他部位特征包括眼睛、鼻子、上下嘴唇和眉毛;
本发明中,所述的面部先验提取模块,首先根据输入的原始低分辨率人脸图像得到对应的人脸图像的皮肤、头发和面部其他部位的三张初始灰度注意力图;然后由面部先验提取模块将原始低分辨率人脸图像与所得到的三张初始灰度注意力图相乘得到三张最终灰度注意力图,再将原始低分辨率人脸图像与三张最终灰度注意力图堆叠,得到低分辨率人脸图像特征图;
面部先验提取模块包括面部语义分割网络和时空池化层;面部语义分割网络用于根据输入的原始低分辨率人脸图像数据,生成对应人脸图像的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像;时空池化层用于对生成的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像,通过提供平滑来抑制分割错误,最终得到对应的人脸图像的皮肤、头发和面部其他部位的三张初始灰度注意力图;
本实施例中,面部语义分割网络包括上下文分支网络和时空分支网络;上下文分支网络旨在提供足够大的感受野,用于对上下文中的人脸图像语义信息进行编码;时空分支网络用于对人脸图像信息中的空间信息和细节信息进行编码,以防止空间信息的丢失;
面部语义分割网络包含主损失函数lp和辅助损失函数li;其中的主损失函数lp用于监督整个面部语义分割网络的输出,辅助损失函数li用于监督两个分支网络(即上下文分支网络和时空分支网络)的输出;主损失函数lp和辅助损失函数li均采用Softmax函数。
面部语义分割网络的联合损失函数L(X;W)为:
其中,lp(X;W)为上下文分支网络和时空分支网络网络拼接后的损失函数,X表示拼接后的输出特征,W为更新参数,α为用于平衡主损失函数lp和辅助损失函数li的权重,K=2表示两个分支网络,Xi代表第i个分支网络的输出特征;
本发明中,所述的浅层特征提取模块通过卷积层对低分辨率人脸图像特征图进行人脸特征初始信息提取,人脸特征初始信息包括由浅层特征提取模块提取到的低频信息,以及可能存在的由浅层特征提取模块无法提取的高频信息。浅层特征提取模块将人脸特征初始信息输入至注意力引导的Transformer模块,由后续的注意力引导的Transformer模块进行高频信息的提取,并实现高频信息和低频信息的融合。
本发明中,低频信息包括人脸图像特征中嘴、鼻和眼的概貌轮廓信息;高频信息包括皮肤肤色、纹理、亮度和人脸五官的边缘细节;
本实施例中,低分辨率人脸图像特征图Ilow的浅层特征Fs为:
Fs=Hs(Ilow); (2)
其中,Hs(·)表示浅层特征提取模块,由一个3×3的卷积层组成;
本发明中,所述的注意力引导的Transformer模块,用于从浅层特征提取模块输入的人脸特征初始信息中提取高频信息,在得到高频信息后,将浅层特征提取模块输入的低频信息与得到的高频信息通过残差连接进行结合,得到融合了高频信息和低频信息的人脸特征融合信息;
本发明中,注意力引导的Transformer模块,由多个PCAT(Pixel and ChannelAttention guided Transformer)块和第一卷积层组成。本实施例中,可采用6个PCAT块和一个第一卷积层。
本实施例中,每个PCAT块均由两个分支组成,第一分支由多个STL层(SwinTransformer)和第二卷积层组成,用于对人脸整体区域进行高频特征的提取;第二分支由像素注意力模块和通道注意力模块组成,用于对人脸局部特定区域高频特征的提取,比如鼻梁与眼部的纹理细节,眉毛的粗细,眼睛的大小,嘴角的方向等;第一分支和第二分支的输出以残差方式连接;
本实施例中,设给定第i个PCAT块的输入特征Fi,0,通过N个STL层提取中间特征Fi,1,Fi,2,Fi,3,…Fi,N,PCAT块的输出可由以下公式表示:
本发明中注意力引导的Transformer模块采用特殊设计的双分支结构,且在多个STL层后增设第二卷积层,具有如下优点:
1.一般的卷积神经网络感受野较小,对于单张人脸图像的恢复来说在特定的区域会导致区域模糊,边界存在重合。虽然现有的Transformer可以被视为空间变化卷积的一种特定实例,但存在平移等效性较差的缺陷,在本应用场景下极易造成人脸特征初始信息偏差,导致图像中出现重影等问题。因此本实施例中,在多个STL层后加入具有空间不变滤波器的第二卷积层,可以有效增强PCAT的平移等效性,杜绝上述问题的产生。
2.每个PCAT中两个分支的输出以残差方式连接,提供了从不同块到重建模块的基于身份的连接,允许聚合不同级别的特征。但由于STL层并非针对人脸超分辨率的应用场景而设计,因此在极端退化条件下无法有效恢复人脸图像的高频信息。因此,本发明采用像素注意力和通道注意力来克服这个问题。通道注意力通过给每个通道分配不同的权重,使得网络更加关注重要特征,能够显著提高脸部局部区域的特征恢复效果,使用像素注意力是因为在不同的通道,不同的位置具有不同的重要性,所以一个通道的不同位置需要不同的比例因子。通道注意力不能同时自适应的调整通道特征和具有不同比例因子的通道中不同位置的特征。这使得我们在恢复中对于脸部亮度,色彩等细节的恢复可以做到很平滑的延展。
本发明中,所采用的通道注意力模块包括平行的偏差池化层和平均池化层,偏差池化层和平均池化层的输出根据不同的权重连接后依次输入激活函数不同的两个卷积网络,最后一个卷积网络的输出信息与初始输入信息再次进行残差连接后,输出最终的脸部通道注意力信息;
本实施例中,使用偏差池化(Deviation pooling)替换掉现有的最大池化(Maxpooling),偏差池化与平均池化(average pooling)平行设计,用于人脸部细节特征的优化,同时还采用两个激活函数不同的卷积网络,使得脸部恢复的更加的清晰,纹理更加平滑细腻。
本实施例中,通道注意力模块的输出Mi可表示为:
本发明中,所采用的像素注意力模块,采用Kernel size为1且激活函数为ReLU的卷积层,像素注意力模块的输出Mj可表示为:
所述的图像重建模块,用于根据注意力引导的Transformer模块输入的人脸特征融合信息,生成具有更可靠、更清晰的面部细节的超分辨率人脸图像,使得色彩更加逼真,纹理更加细腻平滑,亮度更加自然。
图像重建模块可表示为:
Frhq=Hrec(Fs+Fd);(5)
其中,Frhq表示所得到的面部重建特征,Fs表示浅层特征提取模块输入的低频信息,Fd表示注意力引导的Transformer模块输入的高频信息特征。
本发明中,图像重建模块还可根据使用需求的不同,在现实极端退化场景下分为存在对应高清人脸图像和不存在对应高清人脸图像进行不同处理;
在针对存在对应高清人脸图像的极端退化场景时,首先构建卷积核为3x3,步长为1的卷积网络,且设置激活函数为LeakyRelu;然后在对由人脸特征融合信息所得到的图像进行双三次线性插值后,再对图像进行4倍上采样,然后将经上采样后的图像恢复到原始大小;最终将恢复原始大小后的图像输入所构建的卷积网络进行面部重建特征的生成,得到最终的高分辨率的人脸图像;
在针对不存在对应高清人脸图像极端退化场景时,首先构建卷积核为3x3,步长为1的卷积网络,设置激活函数为LeakyRelu且输出维度为64;然后利用构建的卷积网络对图像进行面部重建特征的生成,最后对卷积网络生成的高分辨率的人脸图像通过nearest方式进行4倍上采样,得到最终的高分辨率的人脸图像。
如图2所示,依据上述极端退化人脸图像超分辨率恢复系统所实现的恢复方法,包括以下步骤:
A:构建人脸图像数据集;
本发明中,初始的人脸图像数据库采用CelebAMask-HQ数据库,为现有的大规模人脸图像数据库。筛选CelebAMask-HQ数据库中包含所选择的人脸图像局部特征种类的人脸图像,并组成人脸图像数据集。本实施例中,人脸图像局部特征选取皮肤、头发和面部其他部位这三种特征
B:对所构建的人脸图像数据集中的人脸图像进行预处理;
本发明中,首先对人脸图像按照特征重采样至256×320尺寸大小,随后添加方差为0.015的高斯噪声;得到预处理后的人脸图像;
C:构建面部组件注意力预测模型,面部组件注意力预测模型采用CH神经网络,损失函数采用ohloss函数;随后利用预处理后的人脸图像对面部组件注意力预测模型进行训练,最终得到训练后的面部组件注意力预测模型;
本实施例中,CH神经网络可采用Resnet50神经网络。
本发明中,训练后的面部组件注意力预测模型,用于为极端退化人脸图像超分辨率恢复系统中的面部语义分割网络提供初始权重,以更为高效准确地进行人脸图像超分辨率恢复;
D:将训练后的面部组件注意力预测模型中的初始权重,作为极端退化人脸图像超分辨率恢复系统中面部语义分割网络的初始权重,然后将原始低分辨率人脸图像输入至极端退化人脸图像超分辨率恢复系统中,面部先验提取模块中的面部语义分割网络,根据输入的原始低分辨率人脸图像得到对应的人脸图像局部特征的初始灰度注意力图;然后将原始低分辨率人脸图像与初始灰度注意力图相乘得到最终灰度注意力图,再将原始低分辨率人脸图像与最终灰度注意力图堆叠,得到合成后的一张低分辨率人脸图像特征图,并输入至浅层特征提取模块;
所述的步骤D中,上下文分支网络根据输入的原始低分辨率人脸图像数据,生成对应人脸图像的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像;时空池化层对生成的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像,通过提供平滑来抑制分割错误,最终得到对应的人脸图像的皮肤、头发和面部其他部位的三张初始灰度注意力图;
本实施例中,上下文分支网络使用Resnet18作为base网络。
所述的步骤D包括以下具体步骤:
D1:将训练后的面部组件注意力预测模型中的初始权重,作为极端退化人脸图像超分辨率恢复系统中面部语义分割网络的初始权重;
D2:利用语义分割网络中的上下文分支网络,对输入的原始低分辨率人脸图像进行图像下采样处理,得到处理后的输入图像;图像下采样处理包括:首先对输入的原始低分辨率人脸图像进行4倍下采样,随后再进行两次下采样,以分别对应原始低分辨率人脸图像尺寸的8倍下采样和16倍下采样;最终得到的16倍下采样的处理后的输入图像的尺寸为16×20;随后将处理后的输入图像送入上下文分支网络中的ARM模块(AttentionRefinementModule)中,在ARM模块中依次经ARM模块中的CBR层(Conv+BN+Relu,卷积核大小为2x2)、全局平均池化层、Sigmoid激活函数、BN层和卷积层后输出三个初始特征图,三个初始特征图分别为对应的人脸图像的皮肤、头发和面部其他部位初始特征图;随后将输出的初始特征图进行2倍上采样作为三张待叠加特征图A;
D3:将输入的原始低分辨率人脸图像,分别经时空分支网络中的三个CBR层(Conv+BN+Relu,卷积核大小为2x2)处理后得到一张待叠加特征图B,然后将待叠加特征图B分别与每张待叠加特征图A以第一维度进行叠加,分别得到语义分割特征图T1、T2和T3,依次为人脸图像的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像;然后将语义分割特征图T1、T2和T3依次进行2倍上采样处理和时空池化层处理,得到对应的人脸图像的皮肤、头发和面部其他部位的三张初始灰度注意力图;
D4:将输入的原始低分辨率人脸图像,与得到的三张初始灰度注意力图相乘,得到三张最终灰度注意力图;
D5:将输入的原始低分辨率人脸图像与三张最终灰度注意力图堆叠,得到合成后的一张低分辨率人脸图像特征图,并输入至浅层特征提取模块;
E:将步骤D中得到的低分辨率人脸图像特征图送入浅层特征提取模块进行浅层特征提取,保留低频信息;然后将包含低频信息的人脸特征初始信息输入至注意力引导的Transformer模块中;
F:注意力引导的Transformer模块对输入的人脸特征初始信息进行特征提取和特征结合;浅层特征提取模块输出的人脸特征初始信息,一路直接输入到注意力引导的Transformer模块中进行高频信息提取,最终获得高频信息;另一路人脸特征初始信息所包含的低频信息,直接与得到的高频信息通过残差连接进行结合,最终得到融合了高频信息和低频信息的人脸特征融合信息;
本实施例中,注意力引导的Transformer模块,由多个PCAT块和第一卷积层组成。每个PCAT块均由两个分支组成,第一分支由多个STL层和第二卷积层组成,用于对人脸整体区域进行高频特征的提取;第二分支由像素注意力模块和通道注意力模块组成,用于对人脸局部特定区域高频特征的提取;第一分支和第二分支的输出以残差方式连接;
G:根据注意力引导的Transformer模块输入的人脸特征融合信息,通过图像重建模块生成最终的高分辨率人脸图像;
所述的步骤G中,还将现实极端退化场景分为存在对应高清人脸图像和不存在对应高清人脸图像进行不同处理;
在针对存在对应高清人脸图像的极端退化场景时:首先构建卷积核为3x3、步长为1的卷积网络,且设置激活函数为LeakyRelu;然后对由人脸特征融合信息所得到的人脸图像进行双三次线性插值后再进行4倍上采样,然后将经上采样后的人脸图像恢复到原始大小;最终将恢复原始大小后的人脸图像输入所构建的卷积网络进行面部重建特征的生成,得到最终的高分辨率人脸图像;
在针对不存在对应高清人脸图像极端退化场景时:首先构建卷积核为3x3、步长为1的卷积网络,设置激活函数为LeakyRelu且输出维度为64;然后利用构建的卷积网络对人脸图像进行三次面部重建特征的生成,最后对卷积网络生成的高分辨率的人脸图像通过nearest方式进行4倍上采样,得到最终的高分辨率人脸图像。
本发明与现有方法在CAS-PEAL-R1数据集上的效果对比图如图3所示。图3中,(a)为Bicubic恢复法;(b)为“Super-resolution through neighbor embedding”恢复法;(c)为“Accurate image super-resolution using very deep convolutional networks”恢复法;(d)为“Enhanced deep residual networks for single image super-resolution”恢复法;(e)为“Noise face image hallucination via data-driven local edgetransformation”恢复法;(f)为“Image super-resolution using deep convolutionalnetworks”恢复法;(g)为“Image super-resolution via sparse representation”恢复法;(h)“Noise robust face hallucination via locality-constrainedrepresentation”恢复法;(i)为“Robust face image super-resolution via jointlearning of subdivided contextual model”恢复法;(k)为“Multi-stage degradationhomogenization for super-resolution of face images with extreme degradations”恢复法;(l)为本发明所述方法;(m)为“Ground truth”恢复法。
Claims (10)
1.一种极端退化人脸图像超分辨率恢复系统,其特征在于:包括面部先验提取模块、浅层特征提取模块、注意力引导的Transformer模块和图像重建模块;其中,
面部先验提取模块,用于根据输入的原始低分辨率人脸图像得到对应的人脸图像局部特征的初始灰度注意力图;然后将原始低分辨率人脸图像与初始灰度注意力图相乘得到最终灰度注意力图,再将原始低分辨率人脸图像与最终灰度注意力图堆叠,得到低分辨率人脸图像特征图,并输入至浅层特征提取模块;
浅层特征提取模块,用于对低分辨率人脸图像特征图,通过卷积层进行人脸特征初始信息提取,并将得到的人脸特征初始信息输入至注意力引导的Transformer模块;人脸特征初始信息包括由浅层特征提取模块提取到的低频信息;
注意力引导的Transformer模块,用于对输入的人脸特征初始信息进行高频信息提取,并将得到的高频信息和人脸特征初始信息中的低频信息进行残差连接,得到已融合高频信息和低频信息的人脸特征融合信息;并将人脸特征融合信息发送至图像重建模块;
图像重建模块,用于根据输入的人脸特征融合信息,生成超分辨率人脸图像。
2.根据权利要求1所述的极端退化人脸图像超分辨率恢复系统,其特征在于:所述的人脸图像局部特征包括人脸图像的皮肤、头发和面部其他部位特征三个特征。
3.根据权利要求1所述的极端退化人脸图像超分辨率恢复系统,其特征在于:所述的面部先验提取模块包括面部语义分割网络和时空池化层;面部语义分割网络用于根据输入的原始低分辨率人脸图像数据,生成对应人脸图像的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像;时空池化层用于对生成的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像,通过提供平滑来抑制分割错误,最终得到对应的人脸图像的皮肤、头发和面部其他部位的三张初始灰度注意力图。
6.根据权利要求5所述的极端退化人脸图像超分辨率恢复系统,其特征在于:所述的通道注意力模块包括平行的偏差池化层和平均池化层,偏差池化层和平均池化层的输出根据不同的权重连接后,依次进入激活函数不同的两个卷积网络,最后一个卷积网络的输出信息与初始输入信息再次进行残差连接后,输出最终的脸部通道注意力信息;
通道注意力模块的输出Mi表示为:
所述的像素注意力模块,采用Kernel size为1且激活函数为ReLU的卷积层,像素注意力模块的输出Mj表示为:
7.根据权利要求1所述的极端退化人脸图像超分辨率恢复系统,其特征在于:所述的图像重建模块表示为:
Frhq=Hrec(Fs+Fd);
其中,Frhq表示所得到的面部重建特征,Fs表示浅层特征提取模块输入的低频信息,Fd表示注意力引导的Transformer模块输入的高频信息特征。
8.利用权利要求1至7中任意一项极端退化人脸图像超分辨率恢复系统实现的恢复方法,其特征在于:包括以下步骤:
A:构建人脸图像数据集;
B:对所构建的人脸图像数据集中的人脸图像进行预处理;
C:构建面部组件注意力预测模型,随后利用预处理后的人脸图像对面部组件注意力预测模型进行训练,最终得到训练后的面部组件注意力预测模型;
D:将训练后的面部组件注意力预测模型中的初始权重,作为极端退化人脸图像超分辨率恢复系统中面部语义分割网络的初始权重,然后将原始低分辨率人脸图像输入至极端退化人脸图像超分辨率恢复系统中,面部先验提取模块中的面部语义分割网络,根据输入的原始低分辨率人脸图像得到对应的人脸图像局部特征的初始灰度注意力图;然后将原始低分辨率人脸图像与初始灰度注意力图相乘得到最终灰度注意力图,再将原始低分辨率人脸图像与最终灰度注意力图堆叠,得到合成后的一张低分辨率人脸图像特征图,并输入至浅层特征提取模块;
E:将步骤D中得到的低分辨率人脸图像特征图送入浅层特征提取模块进行浅层特征提取;然后将包含低频信息的人脸特征初始信息输入至注意力引导的Transformer模块中;
F:注意力引导的Transformer模块对输入的人脸特征初始信息进行高频信息提取,最终获得高频信息;并将人脸特征初始信息中包含的低频信息直接与得到的高频信息通过残差连接进行结合,得到融合了高频信息和低频信息的人脸特征融合信息;
G:根据注意力引导的Transformer模块输入的人脸特征融合信息,通过图像重建模块生成最终的高分辨率人脸图像。
9.根据权利要求8所述的极端退化人脸图像超分辨率恢复方法,其特征在于:所述的步骤D包括以下具体步骤:
D1:将训练后的面部组件注意力预测模型中的初始权重,作为极端退化人脸图像超分辨率恢复系统中面部语义分割网络的初始权重;
D2:利用语义分割网络中的上下文分支网络,对输入的原始低分辨率人脸图像进行图像下采样处理,得到处理后的输入图像;随后将处理后的输入图像送入上下文分支网络中的ARM模块中,依次经ARM模块中的CBR层、全局平均池化层、Sigmoid激活函数、BN层和卷积层后输出三个初始特征图,三个初始特征图分别为对应的人脸图像的皮肤、头发和面部其他部位初始特征图;随后将输出的初始特征图进行上采样作为三张待叠加特征图A;
D3:将输入的原始低分辨率人脸图像,经时空分支网络中的CBR层处理后得到一张待叠加特征图B,然后将待叠加特征图B分别与每张待叠加特征图A以第一维度进行叠加,得到语义分割特征图T1、T2和T3,依次为人脸图像的皮肤掩码图像、头发掩码图像和面部其他部位掩码图像;然后将语义分割特征图T1、T2和T3依次进行上采样处理和时空池化层处理,得到对应的人脸图像的皮肤、头发和面部其他部位的三张初始灰度注意力图;
D4:将输入的原始低分辨率人脸图像,与得到的三张初始灰度注意力图相乘,得到三张最终灰度注意力图;
D5:将输入的原始低分辨率人脸图像与三张最终灰度注意力图堆叠,得到合成后的一张低分辨率人脸图像特征图,并输入至浅层特征提取模块。
10.根据权利要求8所述的极端退化人脸图像超分辨率恢复方法,其特征在于:所述的步骤G中,还将现实极端退化场景分为存在对应高清人脸图像和不存在对应高清人脸图像进行不同处理;
在针对存在对应高清人脸图像的极端退化场景时:首先构建卷积网络并设置激活函数;然后对由人脸特征融合信息所得到的人脸图像进行双三次线性插值后再进行上采样,然后将经上采样后的人脸图像恢复到原始大小;最终将恢复原始大小后的人脸图像输入所构建的卷积网络进行面部重建特征的生成,得到最终的高分辨率人脸图像;
在针对不存在对应高清人脸图像极端退化场景时:首先构建卷积网络并设置激活函数和输出维度;然后利用构建的卷积网络对人脸图像进行多次面部重建特征的生成,最后对卷积网络生成的高分辨率的人脸图像进行上采样,得到最终的高分辨率人脸图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211600037.9A CN116258627A (zh) | 2022-12-13 | 2022-12-13 | 一种极端退化人脸图像超分辨率恢复系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211600037.9A CN116258627A (zh) | 2022-12-13 | 2022-12-13 | 一种极端退化人脸图像超分辨率恢复系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116258627A true CN116258627A (zh) | 2023-06-13 |
Family
ID=86685277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211600037.9A Pending CN116258627A (zh) | 2022-12-13 | 2022-12-13 | 一种极端退化人脸图像超分辨率恢复系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116258627A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117541791A (zh) * | 2023-11-23 | 2024-02-09 | 北京师范大学 | 基于多域可变形卷积的眼部结构分割方法、系统及设备 |
CN118799189A (zh) * | 2024-09-14 | 2024-10-18 | 浙江科技大学 | 一种基于实用退化模型实现人脸超分辨率的方法 |
-
2022
- 2022-12-13 CN CN202211600037.9A patent/CN116258627A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117541791A (zh) * | 2023-11-23 | 2024-02-09 | 北京师范大学 | 基于多域可变形卷积的眼部结构分割方法、系统及设备 |
CN117541791B (zh) * | 2023-11-23 | 2024-05-28 | 北京师范大学 | 基于多域可变形卷积的眼部结构分割方法、系统及设备 |
CN118799189A (zh) * | 2024-09-14 | 2024-10-18 | 浙江科技大学 | 一种基于实用退化模型实现人脸超分辨率的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bashir et al. | A comprehensive review of deep learning-based single image super-resolution | |
CN113362223B (zh) | 基于注意力机制和双通道网络的图像超分辨率重建方法 | |
CN110033410B (zh) | 图像重建模型训练方法、图像超分辨率重建方法及装置 | |
CN112766160B (zh) | 基于多级属性编码器和注意力机制的人脸替换方法 | |
CN110570353B (zh) | 密集连接生成对抗网络单幅图像超分辨率重建方法 | |
CN101299235B (zh) | 一种基于核主成分分析的人脸超分辨率重构方法 | |
CN111861961A (zh) | 单幅图像超分辨率的多尺度残差融合模型及其复原方法 | |
CN111275638B (zh) | 基于多通道注意力选择生成对抗网络的人脸修复方法 | |
CN111696035A (zh) | 一种基于光流运动估计算法的多帧图像超分辨率重建方法 | |
CN114170286B (zh) | 一种基于无监督深度学习的单目深度估计方法 | |
CN110796622B (zh) | 一种基于串联神经网络多层特征的图像比特增强方法 | |
CN116258627A (zh) | 一种极端退化人脸图像超分辨率恢复系统和方法 | |
Chadha et al. | iSeeBetter: Spatio-temporal video super-resolution using recurrent generative back-projection networks | |
CN111062329B (zh) | 基于增广网络的无监督行人重识别方法 | |
CN111899169B (zh) | 一种基于语义分割的人脸图像的分割网络的方法 | |
CN110490796B (zh) | 一种高低频成分融合的人脸超分辨率处理方法及系统 | |
CN116664397B (zh) | TransSR-Net结构化图像超分辨重建方法 | |
CN116957931A (zh) | 一种基于神经辐射场的相机图像画质提升方法 | |
CN115311720A (zh) | 一种基于Transformer的deepfake生成方法 | |
CN116778165A (zh) | 基于多尺度自适应语义分割的遥感影像灾害检测方法 | |
CN112991167A (zh) | 一种基于分层特征融合网络的航拍图像超分辨率重建方法 | |
CN116703725A (zh) | 感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法 | |
CN115731597A (zh) | 一种人脸口罩掩膜图像自动分割与修复管理平台及方法 | |
CN116091314B (zh) | 一种基于多尺度深度单应性的红外图像拼接方法 | |
CN118262093A (zh) | 一种基于分层跨模态注意力和级联聚合解码的rgb-d显著性目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |