CN118629081A - 用于红外-可见光人脸识别的双编码人脸合成方法与系统 - Google Patents
用于红外-可见光人脸识别的双编码人脸合成方法与系统 Download PDFInfo
- Publication number
- CN118629081A CN118629081A CN202411107294.8A CN202411107294A CN118629081A CN 118629081 A CN118629081 A CN 118629081A CN 202411107294 A CN202411107294 A CN 202411107294A CN 118629081 A CN118629081 A CN 118629081A
- Authority
- CN
- China
- Prior art keywords
- style
- photo
- layer
- representing
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 65
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 19
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 19
- 230000002708 enhancing effect Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 41
- 238000012546 transfer Methods 0.000 claims description 32
- 230000004927 fusion Effects 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 14
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000013508 migration Methods 0.000 claims description 5
- 230000005012 migration Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 238000007499 fusion processing Methods 0.000 claims description 2
- 230000009977 dual effect Effects 0.000 claims 1
- 230000000873 masking effect Effects 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 230000001815 facial effect Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 210000000887 face Anatomy 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 210000000697 sensory organ Anatomy 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 101100272279 Beauveria bassiana Beas gene Proteins 0.000 description 1
- 208000032538 Depersonalisation Diseases 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 210000000720 eyelash Anatomy 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Landscapes
- Image Processing (AREA)
Abstract
本发明提出一种用于红外‑可见光人脸识别的双编码人脸合成方法与系统,该方法采用身份编码器和风格编码器的双编码结构,以红外人脸照片作为真实照片,将真实照片输入身份编码器,获取身份特征编码;以随机可见光人脸照片作为参考照片,将参考照片和真实照片输入风格编码器,获取具有参考照片风格信息的内容编码;将内容编码和身份特征编码进行融合增强,获取增强后的特征;将增强后的特征输入风格内嵌解码器中,并在风格编码器和解码器之间建立各层的跳跃连接,以将风格编码器捕获的特征信息传递给风格内嵌解码器,从而引导解码特征的生成。本发明方法利用目标域参考照片的先验信息,提高NIR图像转换生成VIS图像的真实性,提高了NIR人脸识别精度。
Description
技术领域
本发明涉及计算机图像处理领域,特别涉及一种用于红外-可见光人脸识别的双编码人脸合成方法与系统。
背景技术
人脸识别技术作为一种非接触性、非强制性的生物识别技术,在计算机视觉和模式识别领域广受关注,近些年来,随着深度学习的迅速发展,为人脸识别精度的提高提供了有力的技术支撑。然而,人脸识别时的照片采集多以可见光(VIS)场景下的图像为主,识别设备对非可见光模态的人脸图像的识别效果不佳。现实生活中,往往使用不同传感设备捕获人脸,例如近红外(NIR)传感器被普遍用于认证系统和视频监控摄像机中,这就引起了对异构人脸识别的需求。
针对异构人脸合成的方法,主要分为三类:基于域不变特征的方法、基于子空间学习的常用方法和基于图像合成的方法。其中基于图像合成的方法,也称为跨模态人脸合成,是指将图像从一种模态转化为另一种模态,以识别同一模态下的人脸。由于使用深度神经网络进行端到端合成图像的低成本和高效性,跨模态人脸合成技术随之蓬勃发展,但这些合成方法面临着几大挑战:(1)实际场景中缺乏大规模成对数据进行有监督建模,难以采用像素级约束来提升人脸图像合成的质量;(2)不同模态域之间,由于传感设备存在严重的传感间隙,导致类间的纹理和几何细节存在很大差异,使合成的人脸面部细节不够,过于光滑;(3)同一模态域中,人脸因为光照、配件、姿态、肤色等不同而存在显著的类内差异,使人脸匹配更加困难;(4)受不完全匹配图像的影响,合成的人脸存在伪影、变形等现象,无法保证身份的保持。
为了有效解决上述问题,在最近的十年里,有许多针对跨模态人脸合成的方法被提了出来,随着人脸合成质量的不断提高,在“通过生成进行识别”策略的指导下,人脸识别技术的性能也在不断提升。例如CycleGAN,DVG_Face,CoConGAN是一种少样本,无监督的合成框架,它提出了一种合作对比损失,用于鼓励身份多样性和保持身份一致性。为了进一步提高NIR图像的识别精度,有关技术人员提出了基于实例级空间引导的异质人脸识别方法,它运用于一对其空间自适应归一化模块和语义空间分布自适应对齐模块,设计了一个由目标域照片引导的交叉光谱人脸幻化网络。但目前已知的HFR方法主要集中于减少域差异,并取得了良好的性能。然而,他们忽略了现实应用中面部属性的变化,同时在生成人脸时往往使得内容发生变化,不能很好地保持身份特征,因此容易造成生成细节不清晰的问题。
发明内容
鉴于上述状况,本发明的主要目的是为了提出一种用于红外-可见光人脸识别的双编码人脸合成方法与系统,以解决上述技术问题。
本发明提出了一种用于红外-可见光人脸识别的双编码人脸合成方法,所述方法包括如下步骤:
步骤1、采用身份编码器和风格编码器的双编码结构,以红外人脸照片作为真实照片,将真实照片输入身份编码器,获取身份特征编码;
步骤2、以随机可见光人脸照片作为参考照片,将参考照片和真实照片输入风格编码器,获取具有参考照片风格信息的内容编码;
步骤3、将内容编码和身份特征编码进行融合增强,获取增强后的特征;
步骤4、将增强后的特征输入解码器中,并在风格编码器和解码器之间建立各层的跳跃连接,以将风格编码器捕获的特征信息传递给风格内嵌解码器,从而引导解码特征的生成,得到生成结果。
本发明还提出一种用于红外-可见光人脸识别的双编码人脸合成系统,其中,所述系统应用如上所述的用于红外-可见光人脸识别的双编码人脸合成方法,所述系统包括:
身份信息提取模块,用于:
采用身份编码器和风格编码器的双编码结构,以红外人脸照片作为真实照片,将真实照片输入身份编码器,获取身份特征编码;
风格-内容信息提取模块,用于:
以随机可见光人脸照片作为参考照片,将参考照片和真实照片输入风格编码器,获取具有参考照片风格信息的内容编码;
特征融合模块,用于:
将内容编码和身份特征编码进行融合增强,获取增强后的特征;
图像生成模块,用于:
将增强后的特征输入风格内嵌解码器中,并在风格编码器和风格内嵌解码器之间建立各层的跳跃连接,以将风格编码器捕获的特征信息传递给风格内嵌解码器,从而引导解码特征的生成,得到生成结果。
相较于现有技术,本发明的有益效果如下:
1)、本发明方法利用目标域参考照片的先验信息,通过全局和局部的风格信息融合提高了NIR图像转换生成VIS图像的真实性,提高了NIR人脸识别精度。
2)、本发明方法允许使用任意VIS人脸图像作为参考引导NIR图像转换,提高了模型在不同人脸库与人脸识别系统的鲁棒性。
3)、本发明方法在注意力机制的影响下专注于人脸面部特征的学习,提高了图像合成质量,能够在人脸五官轮廓和细节上更加突出和清晰。
4)、本发明方法运用人脸识别模型作为身份特征提取模型,增强了人脸生成的身份保持性,有效稳定了人脸识别精度。
5)、本发明方法能够直接运用已有的VIS图像识别进行识别,可以无缝植入已有的人脸识别系统。
6)、本发明方法在合成人脸能保持与源图像内容的高度一致性,NIR图像向VIS图像转换时,能够还原出眼球、睫毛等在NIR域下不清晰的细节。
7)、本发明方法能够很好地区分面部轮廓、五官、头发,让每个部位的特征都能有效学习,使得生成的VIS图像在不同的部位有不同的着色。
8)、双分支的特征编码增强了身份特征的学习,增加了面部属性的多样性,不同的参考照片生成肤色不同的VIS照片,起到了数据增强的效果。
本发明的附加方面与优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的用于红外-可见光人脸识别的双编码人脸合成方法的流程图;
图2为本发明提出的用于红外-可见光人脸识别的双编码人脸合成方法的总体架构图;
图3为本发明的结构图;
图4为本发明的结构图;
图5为本发明风格内嵌解码器的网络结构图;
图6为本发明提出的用于红外-可见光人脸识别的双编码人脸合成系统的结构示意图;
图7为本发明从数据准备、模型构建、训练优化到识别的整体流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。
请参阅图1,本实施例提供了一种用于红外-可见光人脸识别的双编码人脸合成方法,所述方法包括如下步骤:
步骤1、采用身份编码器和风格编码器的双编码结构,以红外人脸照片作为真实照片,将真实照片输入身份编码器,获取身份特征编码;
在所述步骤1中,以红外人脸照片作为真实照片输入身份编码器,获取身份特征编码的过程存在如下关系式:
;
;
;
其中,表示的卷积,表示最大池化,表示第i层输出特征,表示平均池化,表示残差块层,表示身份编码器的输出特征,表示第i层由卷积层和全连接层组成的特征提取模块,不改变特征图的通道数。
在本实施例中,身份编码器采用预训练模型LightCNN_29Layers_v2的网络架构,网络架构由五层下采样组成。输入图像向量x,经过卷积、池化调整通道数后得到特征图,其中i=1,2,3,4,5。输入真实图片,经过五层下采样输出尺寸大小为的特征图;
为了与身份编码有效整合,风格编码器对应设置有五层下采样层,经过卷积、归一化、激活后得到特征图,其中i=1,2,3,4,5,最后输出的特征图。
如图2所示,可以看出风格编码器由五个卷积块和1个组成,每个卷积块由一个和一个组成,从第二个卷积块起特征尺寸2倍降低,五个卷积块分别表示为:
;
;
;
;
;
由9个残差adain层组成,每个层由一个原始的adain模块和一个残差块组成。
步骤2、以随机可见光人脸照片作为参考照片,将参考照片和真实照片输入风格编码器,获取具有参考照片风格信息的内容编码;
在所述步骤2中,将可见光人脸照片和红外人脸照片输入风格编码器,获取具有可见光人脸照片风格信息的内容编码的方法具体包括如下步骤:
对风格编码器部分同时输入真实照片和参考照片,分别提取人脸的不同网络层级的内容信息和参考照片的风格信息,对应的过程关系式如下:
;
;
;
;
其中,表示第i层真实照片的特征向量,表示第i层参考照片的特征向量,表示第i层的卷积层,表示参考的可见光照片;
将第五层级的真实照片的特征向量和参考照片的特征向量进行融合,以获取全局融合特征对应的过程关系式如下:
;
其中,表示第五层融合了内容与风格信息的融合特征,表示用于融合内容与全局风格信息的全局风格转移模块,表示风格编码器的输出特征;
如图3所示,全局风格转移模块由9个风格转移层组成,每个风格转移层由一个原始的风格迁移模块和一个残差块组成。残差块由两个3×3的卷积块和一个残差连接构成。将真实照片的特征向量和参考照片的特征向量通过全局风格转移模块进行融合,从而实现风格迁移,得到融合特征C。全局风格转移模块的融合过程可以表示为:
;
其中,表示不改变向量尺寸的卷积块,表示第j个风格转移层,表示经过第j个风格转移层融合后的特征,表示残差块,表示风格迁移模块,风格迁移模块的计算过程存在如下关系式:
;
其中,表示特征向量的方差,表示特征向量的均值,真实的人脸内容用来缩放,用来转移;
在本步骤中,为了融合全局风格特征,本发明在风格编码器的第五层设计了一种全局风格转移模块,它由风格迁移模块和残差块组成,其中风格迁移模块能接收一个内容输入x和一个样式输入y,并对齐x的通道均值和方差以匹配y的均值,从而将样式信息传输到源域中。
步骤3、将内容编码和身份特征编码进行融合增强,获取增强后的特征;
在本步骤中,将具有风格特征的内容编码和预训练模型获取的身份特征编码输入Vit模块增强特征相关,通过编码获取图像的增强特征,将两种特征关联起来得到一个整体,整个过程可以定义为:
;
其中,表示增强后的特征,表示融合了全局风格信息的内容编码,表示身份特征编码,表示pixel-wise ViT网络模块,表示拼接函数。
步骤4、将增强后的特征输入解码器中,并在风格编码器和风格内嵌解码器之间建立各层的跳跃连接,以将风格编码器捕获的特征信息传递给风格内嵌解码器,从而引导解码特征的生成,得到生成结果。
本实施例中解码器的网络结构如图4所示,对应风格编码器构建五层反卷积层。将增强后的特征经过全连接层拉伸,使其调整为尺寸为128×4×4的特征向量。
再将拉伸后的向量通过反卷积层进行上采样,同时通过局部风格转移模块与参考照片的特征进行融合,得到上采样融合特征。再将第五层上采样融合特征经过一个卷积块得到输出向量。
在所述步骤4中,将增强后的特征输入解码器中,并在风格编码器和解码器之间建立各层的跳跃连接,以将身份编码器捕获的特征信息传递给解码器,从而引导解码特征的生成,得到生成结果的方法具体包括如下步骤:
将增强后的特征f经过全连接层FC拉伸,使其调整为尺寸为128×4×4的拉伸后的向量,以便后面进行2倍尺寸递增上采样。
;
其中,FC表示全连接层,表示拉伸后的向量。
为了保证风格的真实性,将增强后的特征输入进解码器之后进行反卷积操作,再与风格编码器中第五层参考照片的风格特征向量局部融合,得到第一层上采样融合特征,对应的过程关系式如下:
;
;
其中,表示反卷积层,表示用于融合内容与局部风格信息的局部风格转移模块,表示第i层反卷积向量,表示第i层上采样融合特征;
其中,反卷积层由残差块和反卷积块组成,它的结构可以表示为:
;
;
其中,表示一种使向量尺寸2倍递增的反卷积块,表示一种不改变尺寸的3×3卷积块。
为了保持转换内容不变,利用跳跃连接,将第一层上采样融合特征与风格编码器中第五层真实照片的特征向量相加再进行反卷积,后与风格编码器中第四层参考照片的风格特征向量再进行局部融合,生成第二层上采样融合特征,以此类推,对应的过程关系式如下:
;
;
将第五层级的上采样融合特征卷积后获取掩膜操作,并结合真实图像以获取输出图像。
优选的,局部风格转移模块由两个风格模块组成,每个风格模块由风格注意模块和卷积层组成,对应的过程存在如下关系式:
;
其中,表示第i层反卷积向量经过的融合特征,表示第一个风格模块,表示第二个风格模块,表示风格注意模块;
如图5所示,风格注意模块由3个的卷积层和一个注意层组成,它可以轻松地融合风格特征,丰富全局风格和局部风格统计信息,对应的关系式为:
;
;
其中, 分别表示和卷积后的特征,表示注意力层。
优选的,将第五层级的上采样融合特征卷积后获取掩膜操作,并结合真实图像以获取输出图像的方法具体包括如下步骤:
将第五层级的上采样融合特征与第一层真实照片的特征向量相加再进行卷积,得到最后的输出特征,对应的过程关系式如下:
;
其中,表示卷积残差块,表示第五层的上采样融合特征,F表示最后的输出特征;
卷积残差块由一个卷积块和一个残差块组成,可以表示为:
;
将最后的输出特征获取掩膜操作,以获取内容掩膜和注意掩膜,结合真实照片,根据内容掩膜和注意掩膜生成最终结果,对应的过程关系式如下;
;
其中,表示内容掩膜,表示注意掩膜,表示融合内容掩膜,注意力掩膜和输入图像得到的输出图像。
获取注意力掩膜的过程存在如下关系式:
;
其中,表示激活函数,表示维度扩充函数,表示取输出特征中所有行的第1列数据;
获取内容掩膜的过程存在如下关系式:
;
表示取输出特征中所有行的除第1列以外的所有列的数据。
在本步骤中,解码器中内置一个获取注意力掩模和内容掩模的模块,它可以感知源域和目标域之间最具区别的内容,专注于学习人脸的面部特征。注意力掩模定义了每个像素的强度,指定了内容掩模的每个像素在最终渲染图像中的贡献的程度。通过这种方式,生成器不需要渲染背景元素,并且可以只关注目标域内容移动的像素,从而生成更清晰和更真实的合成图像。此外,解码器的网络结构同样设置五层,以便在编码器和解码器之间建立各层的跳跃连接,进一步改善图像清晰度和风格真实性。本发明在解码器层与层之间设计了一种局部风格转移模块,它能融合参考照片的局部风格增强风格渲染。经过反卷积、归一化、激活、融合后得到最后的输出特征。
请参照图6,本实施例还提供一种用于红外-可见光人脸识别的双编码人脸合成系统,其中,所述系统应用如上所述的用于红外-可见光人脸识别的双编码人脸合成方法,所述系统包括:
身份信息提取模块,用于:
采用身份编码器和风格编码器的双编码结构,以红外人脸照片作为真实照片,将真实照片输入身份编码器,获取身份特征编码;
风格-内容信息提取模块,用于:
以随机可见光人脸照片作为参考照片,将参考照片和真实照片输入风格编码器,获取具有参考照片风格信息的内容编码;
特征融合模块,用于:
将内容编码和身份特征编码进行融合增强,获取增强后的特征;
图像生成模块,用于:
将增强后的特征输入解码器中,并在风格编码器和解码器之间建立各层的跳跃连接,以将身份编码器捕获的特征信息传递给解码器,从而引导解码特征的生成,得到生成结果。
图7示了本发明从数据准备、模型构建、训练优化到最后识别的过程,具体过程如下:
1)数据准备
下载CASIA NIR-VIS 2.0和LAMP_HQ异质人脸数据集,分别按照10折训练设置划分训练集、测试集。
对LAMP_HQ按照训练集和测试集制作名称、标签列表,在注入模型之前裁剪到的尺寸。
对CASIA NIR-VIS 2.0,利用face_recognition库里的定位函数定位人脸的矩形区域,提取区域照片并保存,然后使用预训练的人脸特征点检测模型shape_predictor_68_face_landmarks自动检测人脸的68个关键点,根据关键点对齐人脸,具体操作为计算两眼连线与水平线的夹角,然后通过角度得到对应的旋转矩阵。将对齐后的人脸缩放成尺寸为大小的图像。同样,按照训练集和测试集制作名称、标签列表。
在将数据集注入模型之前,对图像进行数据增强,即中心旋转、水平翻转,然后将图像转换成向量并按照三通道均值为0.5、方差为0.5的方式归一化。
2)模型构建
循环一致性损失表示输入的真实照片经过生成器生成的假图片再经过生成器反应映射的还原图片需要与输入图片一致,身份一致性损失表示用目标域照片作为源域照片输入生成器转换后的图像要与自身一致。分别表示为:
本发明方法设计的模型基于CycleGAN,包含两对生成对抗网络,分别负责两个映射方向的建模:从NIR(近红外)到VIS(可见光)转换的方向,生成器以NIR图像作为输入,以VIS图像作为参考图像引导生成NIR(近红外对应的VIS图像;从VIS到NIR转换的方向,生成器以VIS图像作为输入,以NIR图像作为参考图像引导生成VIS对应的NIR图像。本实施例取从NIR到VIS转换的生成器进行说明,生成器类似,如图2所示,生成器由3部分组成,包括身份-风格双编码器、特征增强模块、风格内嵌解码器。
3)参数调优
3.1)对抗损失
对抗损失函数是生成器与鉴别器的相互抗衡,来提高生成网络生成真实照片的能力和鉴别器鉴别真实照片、虚假照片的能力。
对于生成器,损失函数可表示为:
;
其中,鉴别生成的vis图像是否真实,表示生成的假vis图片,表示取生成图像的分布的数学期望。
对于鉴别器,损失函数可表示为:
;
其中,表示来自VIS域的与匹配的真实照片。
综上,针对从NIR到VIS转换的生成对抗网络,对抗损失函数可表示为:
;
3.2)循环一致性损失示输入的真实照片经过生成器生成的假图片再经过生成器反向映射的还原图片需要与输入图片一致,身份一致性损失表示用目标域照片作为源域照片输入生成器转换后的图像要与自身一致。循环一致性损失和身份一致性损失分别表示为:
;
;
3.3)身份特征损失
为了增强输入图像与生成图像的身份保持性,引入内容保持损失,让输入图像和输出图像内容保持一致,通过计算VGG-19深度卷积神经网络提取的和特征之间的欧氏距离,得到内容损失,可表示为:
;
其中,表示欧氏距离的平方,表示获取VGG-19深度卷积神经网络的第j层输出特征操作,本发明方法使用conv_4层来提取内容特征。分别表示特征向量的通道数,高度和宽度。
为了增加生成图像的细节,能够在眼睛、嘴巴等五官部位有更加细微的成像,加入匹配损失,让输出图像与匹配图像的身份特征保持一致,令图像作像素级L1损失(绝对误差损失)计算,并且取LightCNN_29Layers_v2的最后一个FC层之前的特征作L1损失计算,可表示为:
;
其中,表示匹配损失,表示绝对误差,表示去掉最后一个FC层的LightCNN_29Layers_v2模型。
3.4)风格特征损失
参考信息带来的风格特征不足以让人脸风格完全符合目标域,为了让风格更加真实,加入风格损失,它是通过计算和之间的Gram矩阵距离得到的,可表示为:
;
其中,表示Gram矩阵。
;
其中,表示模型U在第j层提取的X的特征的Gram矩阵,表示模型U在第j层提取的X的特征,分别表示特征向量的高度,宽度,表示特征向量的两个不同通道,表示输入的图像,本发明方法使用conv_1,conv_2,conv_3,conv_4和conv_5层来提取样式特征。
综上,完全损失通过整合以上损失得到:
;
其中,表示完全损失,本实施例取,以协调各项损失函数,使得生成图像的效果最佳。
4)人脸识别
模型训练完成以后,取其中NIR图像向VIS图像转换的生成生成器进行人脸识别的性能评价,用CASIA NIR-VIS 2.0 和LAMP_HQ的测试集进行测试。以LAMP_HQ的测试集为例,已知人脸库Gallery,包含N个人的VIS图像,每个身份只有一张照片,即:;
对测试集中任意待识别的NIR图像,将作为匹配图像,作为参考图像指导NIR图像生成对应身份和风格的VIS图像,其中和表示两个不同身份的VIS人脸图像,即:;
使用预训练好的LightCNN29模型作为人脸识别模型,分别提取和的身份特征和,计算余弦相似度,遍历人脸库中的每个VIS图像,最终识别结果通过定位最大余弦相似度确定,即:
;
其中,对应的身份即为的识别结果。
应当理解的,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种用于红外-可见光人脸识别的双编码人脸合成方法,其特征在于,所述方法包括如下步骤:
步骤1、采用身份编码器和风格编码器的双编码结构,以红外人脸照片作为真实照片,将真实照片输入身份编码器,获取身份特征编码;
步骤2、以随机可见光人脸照片作为参考照片,将参考照片和真实照片输入风格编码器,获取具有参考照片风格信息的内容编码;
步骤3、将内容编码和身份特征编码进行融合增强,获取增强后的特征;
步骤4、将增强后的特征输入风格内嵌解码器中,并在风格编码器和风格内嵌解码器之间建立各层的跳跃连接,以将风格编码器捕获的特征信息传递给风格内嵌解码器,从而引导解码特征的生成,得到生成结果。
2.根据权利要求1所述的用于红外-可见光人脸识别的双编码人脸合成方法,其特征在于,在所述步骤1中,身份编码器采用预训练模型LightCNN_29Layers_v2的网络架构,网络架构由五层下采样组成;
风格编码器对应设置有五层下采样层。
3.根据权利要求2所述的用于红外-可见光人脸识别的双编码人脸合成方法,其特征在于,在所述步骤1中,以红外人脸照片作为真实照片输入身份编码器,获取身份特征编码的过程存在如下关系式:
;
;
;
其中,表示的卷积,表示最大池化,表示第i层输出特征,表示平均池化,表示第i层残差块层,表示身份编码器的输出特征,表示第i层由卷积层和全连接层组成的特征提取模块。
4.根据权利要求3所述的用于红外-可见光人脸识别的双编码人脸合成方法,其特征在于,在所述步骤2中,将可见光人脸照片和红外人脸照片输入风格编码器,获取具有可见光人脸照片风格信息的内容编码的方法具体包括如下步骤:
对风格编码器部分同时输入真实照片和参考照片,分别提取人脸的不同网络层级的内容信息和参考照片的风格信息,对应的过程关系式如下:
;
;
;
;
其中,表示第i层真实照片的内容特征,表示第i层参考照片的风格特征,表示第i层的卷积层,表示参考的可见光照片;
将第五层级的真实照片的特征向量和参考照片的特征向量进行融合,以获取全局融合特征,对应的过程关系式如下:
;
;
其中,表示第五层融合了内容与风格信息的融合特征,表示用于融合内容与全局风格信息的全局风格转移模块,表示风格编码器的输出特征。
5.根据权利要求4所述的用于红外-可见光人脸识别的双编码人脸合成方法,其特征在于,全局风格转移模块由9个风格转移层组成,每个风格转移层由一个原始的风格迁移模块和一个残差块组成;
残差块由两个3×3的卷积块和一个残差连接构成;
将真实照片的特征向量和参考照片的特征向量通过全局风格转移模块进行融合,从而实现风格迁移,得到融合特征C;
全局风格转移模块的融合过程可以表示为:
;
其中,表示不改变向量尺寸的卷积块,表示第j个风格转移层,表示经过第j个风格转移层融合后的特征,表示残差块,表示风格迁移模块。
6.根据权利要求5所述的用于红外-可见光人脸识别的双编码人脸合成方法,其特征在于,在所述步骤3中,将内容编码和身份特征编码进行融合增强,获取增强后的特征的过程存在如下关系式:
;
其中,表示增强后的特征,表示融合了全局风格信息的内容编码,表示身份特征编码,表示pixel-wise ViT网络模块,表示拼接函数。
7.根据权利要求6所述的用于红外-可见光人脸识别的双编码人脸合成方法,其特征在于,在所述步骤4中,将增强后的特征输入风格内嵌解码器中,并在风格编码器和风格内嵌解码器之间建立各层的跳跃连接,以将风格编码器捕获的特征信息传递给风格内嵌解码器,从而引导解码特征的生成,得到生成结果的方法具体包括如下步骤:
将增强后的特征经过全连接层拉伸,得到拉伸后的向量,以便后面进行上采样,对应的过程存在如下关系式:
;
其中,表示全连接层,表示拉伸后的向量;
将调整后的特征输入进解码器之后进行反卷积操作,再与风格编码器中第五层参考照片的风格特征向量局部融合,得到第一层上采样融合特征,对应的过程关系式如下:
;
;
其中,表示反卷积层,表示用于融合内容与局部风格信息的局部风格转移模块,表示第i层反卷积向量,表示第i层上采样融合特征;
利用跳跃连接,将第一层上采样融合特征与风格编码器中第五层真实照片的内容特征向量相加再进行反卷积,后与第四层参考照片的风格特征向量再进行融合,生成第二层上采样融合特征,以此类推,直到获得第五层上采样融合特征,对应的过程关系式如下:
;
;
将第五层级的上采样融合特征卷积后获取掩膜操作,并结合真实图像以获取输出图像。
8.根据权利要求7所述的用于红外-可见光人脸识别的双编码人脸合成方法,其特征在于,局部风格转移模块由两个风格模块组成,每个风格模块由风格注意模块和卷积层组成,对应的过程存在如下关系式:
;
其中,表示第i层反卷积向量经过第一个风格模块的融合特征,表示第一个风格模块,表示第二个风格模块,表示风格注意模块。
9.根据权利要求8所述的用于红外-可见光人脸识别的双编码人脸合成方法,其特征在于,将第五层级的上采样融合特征卷积后获取掩膜操作,并结合真实图像以获取输出图像的方法具体包括如下步骤:
将第五层级的上采样融合特征与第一层真实照片的特征向量相加再进行卷积得到最后的输出特征,对应的过程关系式如下:
;
其中,表示卷积残差块,表示第五层的上采样融合特征,F表示卷积后的输出特征;
将输出特征施以掩膜操作,以获取内容掩膜和注意掩膜,根据内容掩膜和注意掩膜生成最终结果,对应的过程关系式如下:
;
其中,表示内容掩膜,表示注意掩膜,表示融合内容掩膜,注意力掩膜和输入图像得到输出图像;
获取注意力掩膜的过程存在如下关系式:
;
其中,表示激活函数,表示维度扩充函数,表示取输出向量中所有行的第1列数据;
获取内容掩膜的过程存在如下关系式:
;
表示取输出向量中所有行的除第1列以外的所有列的数据。
10.一种用于红外-可见光人脸识别的双编码人脸合成系统,其特征在于,所述系统应用如权利要求1至9任意一项所述的用于红外-可见光人脸识别的双编码人脸合成方法,所述系统包括:
身份信息提取模块,用于:
采用身份编码器和风格编码器的双编码结构,以红外人脸照片作为真实照片,将真实照片输入身份编码器,获取身份特征编码;
风格-内容信息提取模块,用于:
以随机可见光人脸照片作为参考照片,将参考照片和真实照片输入风格编码器,获取具有参考照片风格信息的内容编码;
特征融合模块,用于:
将内容编码和身份特征编码进行融合增强,获取增强后的特征;
图像生成模块,用于:
将增强后的特征输入风格内嵌解码器中,并在风格编码器和风格内嵌解码器之间建立各层的跳跃连接,以将身份编码器捕获的特征信息传递给解码器,从而引导解码特征的生成,得到生成结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411107294.8A CN118629081B (zh) | 2024-08-13 | 2024-08-13 | 用于红外-可见光人脸识别的双编码人脸合成方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411107294.8A CN118629081B (zh) | 2024-08-13 | 2024-08-13 | 用于红外-可见光人脸识别的双编码人脸合成方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118629081A true CN118629081A (zh) | 2024-09-10 |
CN118629081B CN118629081B (zh) | 2024-11-05 |
Family
ID=92596407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202411107294.8A Active CN118629081B (zh) | 2024-08-13 | 2024-08-13 | 用于红外-可见光人脸识别的双编码人脸合成方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118629081B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258592A (zh) * | 2020-09-17 | 2021-01-22 | 深圳市捷顺科技实业股份有限公司 | 一种人脸可见光图的生成方法及相关装置 |
CN112837210A (zh) * | 2021-01-28 | 2021-05-25 | 南京大学 | 一种基于特征图分块的多形变风格人脸漫画自动生成方法 |
WO2022135490A1 (zh) * | 2020-12-25 | 2022-06-30 | 百果园技术(新加坡)有限公司 | 一种人脸图像合成方法、系统、电子设备及存储介质 |
US20220207649A1 (en) * | 2020-12-31 | 2022-06-30 | Beihang University | Unsupervised image-to-image translation method based on style-content separation |
CN114926458A (zh) * | 2022-06-17 | 2022-08-19 | 珠海格力电器股份有限公司 | 红外口罩人脸图像的生成方法、装置和人脸识别系统 |
WO2023124123A1 (zh) * | 2021-12-31 | 2023-07-06 | 荣耀终端有限公司 | 图像处理方法及其相关设备 |
CN117036620A (zh) * | 2023-10-07 | 2023-11-10 | 中国科学技术大学 | 基于单幅图像的三维人脸重建方法 |
CN117830474A (zh) * | 2023-10-31 | 2024-04-05 | 温州大学 | 一种多模态引导的人脸图像编辑方法 |
CN118097363A (zh) * | 2024-04-28 | 2024-05-28 | 南昌大学 | 一种基于近红外成像的人脸图像生成与识别方法及系统 |
-
2024
- 2024-08-13 CN CN202411107294.8A patent/CN118629081B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258592A (zh) * | 2020-09-17 | 2021-01-22 | 深圳市捷顺科技实业股份有限公司 | 一种人脸可见光图的生成方法及相关装置 |
WO2022135490A1 (zh) * | 2020-12-25 | 2022-06-30 | 百果园技术(新加坡)有限公司 | 一种人脸图像合成方法、系统、电子设备及存储介质 |
US20220207649A1 (en) * | 2020-12-31 | 2022-06-30 | Beihang University | Unsupervised image-to-image translation method based on style-content separation |
CN112837210A (zh) * | 2021-01-28 | 2021-05-25 | 南京大学 | 一种基于特征图分块的多形变风格人脸漫画自动生成方法 |
WO2023124123A1 (zh) * | 2021-12-31 | 2023-07-06 | 荣耀终端有限公司 | 图像处理方法及其相关设备 |
CN114926458A (zh) * | 2022-06-17 | 2022-08-19 | 珠海格力电器股份有限公司 | 红外口罩人脸图像的生成方法、装置和人脸识别系统 |
CN117036620A (zh) * | 2023-10-07 | 2023-11-10 | 中国科学技术大学 | 基于单幅图像的三维人脸重建方法 |
CN117830474A (zh) * | 2023-10-31 | 2024-04-05 | 温州大学 | 一种多模态引导的人脸图像编辑方法 |
CN118097363A (zh) * | 2024-04-28 | 2024-05-28 | 南昌大学 | 一种基于近红外成像的人脸图像生成与识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
M. LUBY; QUALCOMM INCORPORATED;A. SHOKROLLAHI; EPFL; M. WATSON;NETFLIX INC.;T. STOCKHAMMER;NOMOR RESEARCH; L. MINDER; QUALCOMM INC: "RaptorQ Forward Error Correction Scheme for Object Delivery draft-ietf-rmt-bb-fec-raptorq-06", IETF, 5 May 2011 (2011-05-05) * |
张典;汪海涛;姜瑛;陈星;: "基于轻量网络的近红外光和可见光融合的异质人脸识别", 小型微型计算机系统, no. 04, 9 April 2020 (2020-04-09) * |
杨勇;阙越;黄淑英;万伟国: "多视觉特征和引导滤波的鲁棒多聚焦图像融合", 计算机辅助设计与图形学学报, 15 July 2017 (2017-07-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN118629081B (zh) | 2024-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111401216B (zh) | 图像处理、模型训练方法、装置、计算机设备和存储介质 | |
CN113283444B (zh) | 一种基于生成对抗网络的异源图像迁移方法 | |
CN111539255A (zh) | 基于多模态图像风格转换的跨模态行人重识别方法 | |
CN115565238B (zh) | 换脸模型的训练方法、装置、设备、存储介质和程序产品 | |
CN111950477A (zh) | 一种基于视频监督的单图像三维人脸重建方法 | |
CN113808005A (zh) | 一种基于视频驱动的人脸姿态迁移方法及装置 | |
CN111833360B (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
CN112528902A (zh) | 一种基于3d人脸模型的视频监控动态人脸识别方法及装置 | |
WO2022160773A1 (zh) | 基于虚拟样本的行人重识别方法 | |
Zhang et al. | Deep RGB-D saliency detection without depth | |
CN115393949A (zh) | 一种连续手语识别方法及装置 | |
WO2023279799A1 (zh) | 对象识别方法、装置和电子系统 | |
CN117218246A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN116229531A (zh) | 一种协作渐进生成对抗网络的人脸正面图像合成方法 | |
CN114170304B (zh) | 一种基于多头自注意力和置换注意力的相机定位方法 | |
CN114898429A (zh) | 一种热红外-可见光跨模态人脸识别的方法 | |
CN118629081B (zh) | 用于红外-可见光人脸识别的双编码人脸合成方法与系统 | |
CN111325252B (zh) | 图像处理方法、装置、设备、介质 | |
Chen et al. | Exploring efficient and effective generative adversarial network for thermal infrared image colorization | |
Chen et al. | DDGAN: Dense Residual Module and Dual-stream Attention-Guided Generative Adversarial Network for colorizing near-infrared images | |
CN117854160A (zh) | 一种基于人工多模态和细粒度补丁的人脸活体检测方法及系统 | |
CN116823908A (zh) | 一种基于多尺度特征相关性增强的单目图像深度估计方法 | |
CN117237326A (zh) | 证件照缺陷检测及提示方法、装置、介质及设备 | |
Yao et al. | Gait recognition using a few gait frames | |
Zhang et al. | Panoptic-level image-to-image translation for object recognition and visual odometry enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |