CN114973355A - 人脸嘴部重建方法及装置 - Google Patents
人脸嘴部重建方法及装置 Download PDFInfo
- Publication number
- CN114973355A CN114973355A CN202210483528.3A CN202210483528A CN114973355A CN 114973355 A CN114973355 A CN 114973355A CN 202210483528 A CN202210483528 A CN 202210483528A CN 114973355 A CN114973355 A CN 114973355A
- Authority
- CN
- China
- Prior art keywords
- mouth
- mouth feature
- feature points
- surface color
- target object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000033001 locomotion Effects 0.000 claims abstract description 65
- 239000013598 vector Substances 0.000 claims abstract description 62
- 230000014509 gene expression Effects 0.000 claims abstract description 36
- 230000005855 radiation Effects 0.000 claims description 35
- 210000005036 nerve Anatomy 0.000 claims description 30
- 238000009877 rendering Methods 0.000 claims description 25
- 230000001815 facial effect Effects 0.000 claims description 16
- 230000005012 migration Effects 0.000 claims description 14
- 238000013508 migration Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 6
- 230000001537 neural effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 19
- 238000012546 transfer Methods 0.000 abstract description 13
- 238000012545 processing Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 8
- 210000000214 mouth Anatomy 0.000 description 204
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 210000003128 head Anatomy 0.000 description 5
- 230000003068 static effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 210000000887 face Anatomy 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种人脸嘴部重建方法及装置,其中,方法包括:采集目标对象各个表情的多视角图像;根据多视角图像获取目标对象的2D嘴部特征点,并基于2D嘴部特征点计算目标对象的3D嘴部特征点;由3D嘴部特征点生成嘴部特征向量,并利用嘴部特征向量重建最终的不透明度与表面颜色值,生成人脸嘴部重建图像。由此,解决了相关技术中对于由嘴部运动引起的拓扑变化的处理效果较差,嘴部动态重建精度较低,不利于表情运动迁移的技术问题。
Description
技术领域
本申请涉及计算机视觉、计算机图形学技术领域,特别涉及一种人脸嘴部重建方法及装置。
背景技术
人脸的重建与表情运动迁移是计算机图形学与视觉中一个非常重要的问题,嘴部的重建与运动迁移则伴随着非常大的困难,与人脸其他部分不同,嘴部会发生非常大的运动并且伴随着明显的拓扑变化,如人在张嘴的时候口腔内部会显露出来,从而导致出现很多包括牙齿在内的新表面。
然而,相关技术中,对于由表情运动,尤其是嘴部运动引起的拓扑变化的处理效果较差,无法实现嘴部动态及完整头部的高精度重建,从而导致无法实现高精度的表情运动的迁移,亟待改进。
发明内容
本申请提供一种人脸嘴部重建方法及装置,以解决相关技术中对于由嘴部运动引起的拓扑变化的处理效果较差,嘴部动态重建精度较低,不利于表情运动迁移的技术问题。
本申请第一方面实施例提供一种人脸嘴部重建方法,包括以下步骤:采集目标对象各个表情的多视角图像;根据所述多视角图像获取所述目标对象的2D嘴部特征点,并基于所述2D嘴部特征点计算所述目标对象的3D嘴部特征点;以及由所述3D嘴部特征点生成嘴部特征向量,并利用所述嘴部特征向量重建最终的不透明度与表面颜色值,生成人脸嘴部重建图像。
可选地,在本申请的一个实施例中,所述由所述3D嘴部特征点生成嘴部特征向量,包括:将所述3D嘴部特征点输入至预先构建的编码嘴部特征的MLP网络,得到所述嘴部特征向量。
可选地,在本申请的一个实施例中,所述利用所述嘴部特征向量重建最终的不透明度与表面颜色值,生成人脸嘴部重建图像,包括:将所述嘴部特征向量输入至基于神经辐射场的MLP(Multilayer Perceptron,多层感知器)网络,重建所述最终的不透明度与表面颜色值,并利用空间中的多个点的最终的不透明度与对应任一视角下的表面颜色值进行渲染,得到所述人脸嘴部重建图像。
可选地,在本申请的一个实施例中,还包括:将其他对象的嘴部特征向量输入至所述基于神经辐射场的MLP网络,重建新的最终的不透明度与表面颜色值,并利用空间中的多个点的新的最终的不透明度与对应任一视角下的表面颜色值进行渲染,得到所述其他对象的人脸嘴部重建图像,生成嘴部表情运动的迁移结果。
可选地,在本申请的一个实施例中,在将所述嘴部特征向量输入至所述基于神经辐射场的MLP网络之前,还包括:基于加入预设隐编码的预设神经辐射场,使用多层感知器得到所述基于神经辐射场的MLP网络,其中,所述预设隐编码建模有所述目标对象在不同时刻下由于运动引起的几何变化与表面颜色变化。
本申请第二方面实施例提供一种人脸嘴部重建装置,包括:采集模块,用于采集目标对象各个表情的多视角图像;计算模块,用于根据所述多视角图像获取所述目标对象的2D嘴部特征点,并基于所述2D嘴部特征点计算所述目标对象的3D嘴部特征点;以及重建模块,用于由所述3D嘴部特征点生成嘴部特征向量,并利用所述嘴部特征向量重建最终的不透明度与表面颜色值,生成人脸嘴部重建图像。
可选地,在本申请的一个实施例中,所述重建模块包括:输入单元,用于将所述3D嘴部特征点输入至预先构建的编码嘴部特征的MLP网络,得到所述嘴部特征向量。
可选地,在本申请的一个实施例中,所述重建模块进一步用于,将所述嘴部特征向量输入至基于神经辐射场的MLP网络,重建所述最终的不透明度与表面颜色值,并利用空间中的多个点的最终的不透明度与对应任一视角下的表面颜色值进行渲染,得到所述人脸嘴部重建图像。
可选地,在本申请的一个实施例中,还包括:生成模块,用于将其他对象的嘴部特征向量输入至所述基于神经辐射场的MLP网络,重建新的最终的不透明度与表面颜色值,并利用空间中的多个点的新的最终的不透明度与对应任一视角下的表面颜色值进行渲染,得到所述其他对象的人脸嘴部重建图像,生成嘴部表情运动的迁移结果。
可选地,在本申请的一个实施例中,所述重建模块还包括:网络获取单元,用于基于加入预设隐编码的预设神经辐射场,使用多层感知器得到所述基于神经辐射场的MLP网络,其中,所述预设隐编码建模有所述目标对象在不同时刻下由于运动引起的几何变化与表面颜色变化。
本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的人脸嘴部重建方法。
本申请第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上述实施例所述的人脸嘴部重建方法。
本申请实施例可以根据目标对象各表情的多视角图像,获得2D嘴部特征点,并转化为相应的3D嘴部特征点,进而生成嘴部特征向量,实现人脸嘴部重建,利用人脸嘴部的3D特征点,实现对嘴部动态的高精度重建,便于下游应用通过编辑3D特征点进行不同人之间表情运动的迁移。由此,解决了相关技术中,对于由嘴部运动引起的拓扑变化的处理效果较差,嘴部动态重建精度较低,不利于表情运动迁移的技术问题。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的一种人脸嘴部重建方法的流程图;
图2为根据本申请一个实施例的人脸嘴部重建方法的流程图;
图3为根据本申请实施例提供的一种人脸嘴部重建装置的结构示意图;
图4为根据本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的人脸嘴部重建方法及装置。针对上述背景技术中心提到的相关技术中,对于由嘴部运动引起的拓扑变化的处理效果较差,嘴部动态重建精度较低,不利于表情运动迁移的技术问题,本申请提供了一种人脸嘴部重建方法,在该方法中,可以根据目标对象各表情的多视角图像,获得2D嘴部特征点,并转化为相应的3D嘴部特征点,进而生成嘴部特征向量,实现人脸嘴部重建,利用人脸嘴部的3D特征点,实现对嘴部动态的高精度重建,便于下游应用通过编辑3D特征点进行不同人之间表情运动的迁移。由此,解决了相关技术中,对于由嘴部运动引起的拓扑变化的处理效果较差,嘴部动态重建精度较低,不利于表情运动迁移的技术问题。
具体而言,图1为本申请实施例所提供的一种人脸嘴部重建方法的流程示意图。
如图1所示,该人脸嘴部重建方法包括以下步骤:
在步骤S101中,采集目标对象各个表情的多视角图像。
在实际执行过程中,本申请实施例可以先通过RGB-D(RGBDepth Map,深度图像)相机对目标对象的头部进行拍摄,拍摄时目标对象需要做各种不同的嘴部动作,RGB-D相机可以在目标对象前方不断移动以拍摄各个表情的多视角图像。
在步骤S102中,根据多视角图像获取目标对象的2D嘴部特征点,并基于2D嘴部特征点计算目标对象的3D嘴部特征点。
进一步地,本申请实施例可以通过2D的嘴部特征点检测器检测,利用RGB-D相机拍摄的目标对象的头部的各个表情的多视角图像的序列每帧的2D嘴部特征点,并根据拍摄的深度数据计算目标对象的3D嘴部特征点,为后续通过3D嘴部特征点作为输入,重建静态对象,进而实现嘴部的高精度重建。
在步骤S103中,由3D嘴部特征点生成嘴部特征向量,并利用嘴部特征向量重建最终的不透明度与表面颜色值,生成人脸嘴部重建图像。
作为一种可能实现的方式,本申请实施例可以根据获得的3D嘴部特征点,生成嘴部特征向量,进而利用嘴部特征向量,重建最终的不透明度与表面颜色值,从而生成人脸嘴部重建图像,利用人脸嘴部的3D特征点,实现对嘴部动态的高精度重建,便于下游应用通过编辑3D特征点进行不同人之间表情运动的迁移。
可选地,在本申请的一个实施例中,由3D嘴部特征点生成嘴部特征向量,包括:将3D嘴部特征点输入至预先构建的编码嘴部特征的MLP网络,得到嘴部特征向量。
可以理解的是,MLP是一种前向结构的人工神经网络,可以映射一组输入向量到一组输出向量,MLP可以被看做是一个有向图,由多个节点层组成,每一层全连接到下一层,除了输入节点,每个节点都是一个带有非线性激活函数的神经元,MLP是感知器的推广,可以克服感知器不能对线性不可分数据进行识别的弱点。
具体而言,本申请实施例可以将3D嘴部特征点输入至预先构建的编码嘴部特征的MLP网络,实现3D嘴部特征点到嘴部特征向量的映射,从而得到嘴部特征向量。
需要注意的是,预先构建的编码嘴部特征的MLP网络会在下文进行详细阐述。
可选地,在本申请的一个实施例中,利用嘴部特征向量重建最终的不透明度与表面颜色值,生成人脸嘴部重建图像,包括:将嘴部特征向量输入至基于神经辐射场的MLP网络,重建最终的不透明度与表面颜色值,并利用空间中的多个点的最终的不透明度与对应任一视角下的表面颜色值进行渲染,得到人脸嘴部重建图像。
在实际执行过程中,本申请实施例可以将3D嘴部特征点,输入至嘴部特征的MLP网络,进而得到嘴部特征向量,再将嘴部特征向量输入至基于神经辐射场的MLP网络,重建得到最终的不透明度与表面颜色值。具体地,本申请实施例可以对于空间中的任意一点,通过MLP网络得到该点不透明度与该点在某一视角下的颜色值,进而通过使用渲染方法,进行光线步进,即可得到最终的渲染图像,实现人脸嘴部重建。
具体而言,神经辐射场可以使用MLP对其重建的静态对象进行表达,对每一个特定的对象都要训练一个MLP,该MLP输入某一空间点的坐标与渲染的视角,输出该空间点的不透明度与该视角下的颜色值。即:
F:(x,d)→(c,σ),
其中,x为空间点的三维坐标,d为球坐标下的二维视角方向,c为输出的RGB三通道颜色值,σ为输出的不透明度值。
不透明度可以表达该对象的几何信息,例如,对象表面外的空间不透明度为0,内部实体不透明度为1,而颜色值与输入的视角信息相关,这使得神经辐射场可以建模各向异性的反射信息,例如人脸高光与镜面反射。
本申请实施例在进行渲染时,可以使用传统的光线步进体渲染方法,与光线追踪方法类似,传统的光线步进体渲染方法从相机位置出发,对每个像素投影出的射线上的采样点进行计算,并累计该像素的不透明度与颜色值,直到完全不透明。
具体输入时需要x对d与进行位置编码以使得输入中包含三维空间位置相关的高频信息:
γ(x)=(x,sin(20πx),cos(20πx),…,sin(2kπx),cos(2kπx)),
其中,x为空间点的三维坐标,γ(x)为点x坐标经过位置编码后的向量,k为预先制定的编码最高阶数。
此外,本申请实施例可以同样对视角方向d进行编码,从而得到γ(d)。
需要注意的是,γ(x)和γ(d)可以直接输入至后续的MLP网络。
可选地,在本申请的一个实施例中,在将嘴部特征向量输入至基于神经辐射场的MLP网络之前,还包括:基于加入预设隐编码的预设神经辐射场,使用多层感知器得到基于神经辐射场的MLP网络,其中,预设隐编码建模有目标对象在不同时刻下由于运动引起的几何变化与表面颜色变化。
本领域技术人员可以理解到的是,神经辐射场只能重建静态的对象,为了重建动态对象,在本申请实施例中,神经辐射场的后续工作在其基础上加入了运动相关的输入,即几何运动与颜色变化的隐编码。隐编码可以对所表达对象在不同时刻下由于运动引起的几何变化与表面颜色变化进行建模,对于动态序列中的每一帧都有唯一的隐编码,其中,隐编码可以参与网络的训练过程并通过在训练中的优化得到其具体的数值。
具体而言,对于动态神经辐射场,加入隐编码后,可以为:
G:(x,ωi)→x′,
F:(x′,d,αi)→(c,σ),
其中,ωi为第i帧的几何运动的隐编码,αi为第i帧的颜色变化的隐编码,G网络也是MLP结构,可以将运动后的某一个空间位置变回到运动之前的位置,对人脸而言,运动前的位置为无表情时的位置。
运动隐编码可以使用MLP结构得到运动后的位置,该结构表达的对象是空间连续的运动,无法处理嘴部的复杂拓扑变化。本申请实施例可以在此基础上提出根据3D嘴部特征点得到的嘴部特征向量,该特征表达了嘴部的细节运动,尤其是张闭嘴时引起的嘴部的拓扑变化:
H:li→m,
G:(x,ωi)→x′,
F:(x′,d,αi,m)→(c,σ),
其中,li为嘴部3D特征点展开得到的向量,m为输出的嘴部特征向量,H网络同样是MLP结构,该嘴部特征向量可以再输入F网络,重建得到最终的不透明度与表面颜色值。
可选地,在本申请的一个实施例中,还包括:将其他对象的嘴部特征向量输入至基于神经辐射场的MLP网络,重建新的最终的不透明度与表面颜色值,并利用空间中的多个点的新的最终的不透明度与对应任一视角下的表面颜色值进行渲染,得到其他对象的人脸嘴部重建图像,生成嘴部表情运动的迁移结果。
作为一种可能实现的方式,本申请实施例在进行人脸嘴部重建之后,还可以将任意其他人的嘴部运动迁移至已重建的对象上。进行迁移时,本申请实施例可以使用RGB-D相机拍摄其他人的数据序列,此时相机可以处于人脸前部的任意位置,之后通过与上述步骤相同的方法计算该人的嘴部3D特征点,再将其作为嘴部特征MLP的输入,进行相同的渲染流程,即可得到进行迁移之后的渲染输出结果,实现高精度的嘴部表情运动的迁移。
下面结合图2所示,以一个具体实施例对本申请实施例的人脸嘴部重建方法的工作原理进行详细阐述。
如图2所示,本申请实施例可以包括以下步骤:
步骤S201:网络结构构建。具体而言,神经辐射场可以使用MLP对其重建的静态对象进行表达,对每一个特定的对象都要训练一个MLP,该MLP输入某一空间点的坐标与渲染的视角,输出该空间点的不透明度与该视角下的颜色值。即:
F:(x,d)→(c,σ),
其中,x为空间点的三维坐标,d为球坐标下的二维视角方向,c为输出的RGB三通道颜色值,σ为输出的不透明度值。
不透明度可以表达该对象的几何信息,例如,目标对象表面外的空间不透明度为0,内部实体不透明度为1,而颜色值与输入的视角信息相关,这使得神经辐射场可以建模各向异性的反射信息,例如人脸高光与镜面反射。
本申请实施例在进行渲染时,可以使用传统的光线步进体渲染方法,与光线追踪方法类似,传统的光线步进体渲染方法从相机位置出发,对每个像素投影出的射线上的采样点进行计算,并累计该像素的不透明度与颜色值,直到完全不透明。
具体输入时需要对x与d进行位置编码以使得输入中包含三维空间位置相关的高频信息:
γ(x)=(x,sin(20πx),cos(20πx),…,sin(2kπx),cos(2kπx)),
其中,x为空间点的三维坐标,γ(x)为点x坐标经过位置编码后的向量,为预先制定的编码最高阶数。
此外,本申请实施例可以同样对视角方向d进行编码,从而得到γ(d)。
需要注意的是,γ(x)和γ(d)可以直接输入至后续的MLP网络。
本领域技术人员可以理解到的是,神经辐射场只能重建静态的对象,为了重建动态对象,在本申请实施例中,神经辐射场的后续工作在其基础上加入了运动相关的输入,即几何运动与颜色变化的隐编码。隐编码可以对所表达对象在不同时刻下由于运动引起的几何变化与表面颜色变化进行建模,对于动态序列中的每一帧都有唯一的隐编码,其中,隐编码可以参与网络的训练过程并通过在训练中的优化得到其具体的数值。
具体而言,对于动态神经辐射场,加入隐编码后,可以为:
G:(x,ωi)→x′,
F:(x′,d,αi)→(c,σ),
其中,ωi为第i帧的几何运动的隐编码,αi为第i帧的颜色变化的隐编码,G网络也是MLP结构,可以将运动后的某一个空间位置变回到运动之前的位置,对人脸而言,运动前的位置为无表情时的位置。
运动隐编码可以使用MLP结构得到运动后的位置,该结构表达的对象是空间连续的运动,无法处理嘴部的复杂拓扑变化。本申请实施例可以在此基础上提出根据3D嘴部特征点得到的嘴部特征向量,该特征表达了嘴部的细节运动,尤其是张闭嘴时引起的嘴部的拓扑变化:
H:li→m,
G:(x,ωi)→x′,
F:(x′,d,αi,m)→(c,σ),
其中,li为嘴部3D特征点展开得到的向量,m为输出的嘴部特征向量,H网络同样是MLP结构,该嘴部特征向量可以再输入F网络,重建得到最终的不透明度与表面颜色值。
步骤S202:进行人脸嘴部重建。在重建时,对于要进行重建的对象,本申请实施例可以通过RGB-D相机对目标对象头部进行拍摄,拍摄时目标对象需要做各种不同的嘴部动作,相机在对象前方不断移动以拍摄各个表情的多视角图像。
进一步地,本申请实施例可以通过2D的嘴部特征点检测器检测拍摄的序列每帧的2D嘴部特征点,并根据拍摄的深度数据计算3D嘴部特征点,该3D嘴部特征点可以作为嘴部特征MLP网络的输入。
本申请实施例可以对网络进行训练,训练目标为模型输出的渲染结果与真实拍摄到的颜色图像接近,训练变量为所有网络的参数以及所有的隐编码。
训练结束后,本申请实施例可以将训练得到的重建结果渲染到任意视角下,在进行渲染时,使用传统的光线步进体渲染方法。与光线追踪方法类似,传统的光线步进体渲染方法从相机位置出发,本申请实施例可以对每个像素投影出的射线上的采样点进行计算,并累计该像素的不透明度与颜色值,直到完全不透明,进而实现对嘴部动态以及完整的头部的高精度重建,并对嘴部的拓扑变化包括牙齿与口腔内部都能够进行高精度重建。
步骤S203:进行嘴部运动迁移。作为一种可能实现的方式,本申请实施例在进行人脸嘴部重建之后,还可以将任意其他人的嘴部运动迁移至已重建的对象上。进行迁移时,本申请实施例可以使用RGB-D相机拍摄其他人的数据序列,此时相机可以处于人脸前部的任意位置,之后通过与上述步骤相同的方法计算该人的嘴部3D特征点,再将其作为嘴部特征MLP的输入,进行相同的渲染流程,即可得到进行迁移之后的渲染输出结果,实现高精度的嘴部表情运动的迁移。
根据本申请实施例提出的人脸嘴部重建方法,可以根据目标对象各表情的多视角图像,获得2D嘴部特征点,并转化为相应的3D嘴部特征点,进而生成嘴部特征向量,实现人脸嘴部重建,利用人脸嘴部的3D特征点,实现对嘴部动态的高精度重建,便于在进行人脸嘴部重建之后,将任意其他人的嘴部运动迁移至已重建的对象上,实现高精度的嘴部表情运动的迁移。由此,解决了相关技术中,对于由嘴部运动引起的拓扑变化的处理效果较差,嘴部动态重建精度较低,不利于表情运动迁移的技术问题。
其次参照附图描述根据本申请实施例提出的人脸嘴部重建装置。
图3是本申请实施例的人脸嘴部重建装置的方框示意图。
如图3所示,该人脸嘴部重建装置10包括:采集模块100、计算模块200和重建模块300。
具体地,采集模块100,用于采集目标对象各个表情的多视角图像。
计算模块200,用于根据多视角图像获取目标对象的2D嘴部特征点,并基于2D嘴部特征点计算目标对象的3D嘴部特征点。
重建模块300,用于由3D嘴部特征点生成嘴部特征向量,并利用嘴部特征向量重建最终的不透明度与表面颜色值,生成人脸嘴部重建图像。
可选地,在本申请的一个实施例中,重建模块300包括:输入单元。
其中,输入单元,用于将3D嘴部特征点输入至预先构建的编码嘴部特征的MLP网络,得到嘴部特征向量。
可选地,在本申请的一个实施例中,重建模块300进一步用于,将嘴部特征向量输入至基于神经辐射场的MLP网络,重建最终的不透明度与表面颜色值,并利用空间中的多个点的最终的不透明度与对应任一视角下的表面颜色值进行渲染,得到人脸嘴部重建图像。
可选地,在本申请的一个实施例中,人脸嘴部重建装置10还包括:生成模块。
其中,生成模块,用于将其他对象的嘴部特征向量输入至基于神经辐射场的MLP网络,重建新的最终的不透明度与表面颜色值,并利用空间中的多个点的新的最终的不透明度与对应任一视角下的表面颜色值进行渲染,得到其他对象的人脸嘴部重建图像,生成嘴部表情运动的迁移结果。
可选地,在本申请的一个实施例中,重建模块300还包括:网络获取单元。
其中,网络获取单元,用于基于加入预设隐编码的预设神经辐射场,使用多层感知器得到基于神经辐射场的MLP网络,其中,预设隐编码建模有目标对象在不同时刻下由于运动引起的几何变化与表面颜色变化。
需要说明的是,前述对人脸嘴部重建方法实施例的解释说明也适用于该实施例的人脸嘴部重建装置,此处不再赘述。
根据本申请实施例提出的人脸嘴部重建装置,可以根据目标对象各表情的多视角图像,获得2D嘴部特征点,并转化为相应的3D嘴部特征点,进而生成嘴部特征向量,实现人脸嘴部重建,利用人脸嘴部的3D特征点,实现对嘴部动态的高精度重建,便于在进行人脸嘴部重建之后,将任意其他人的嘴部运动迁移至已重建的对象上,实现高精度的嘴部表情运动的迁移。由此,解决了相关技术中,对于由嘴部运动引起的拓扑变化的处理效果较差,嘴部动态重建精度较低,不利于表情运动迁移的技术问题。
图4为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序。
处理器402执行程序时实现上述实施例中提供的人脸嘴部重建方法。
进一步地,电子设备还包括:
通信接口403,用于存储器401和处理器402之间的通信。
存储器401,用于存放可在处理器402上运行的计算机程序。
存储器401可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器401、处理器402和通信接口403独立实现,则通信接口403、存储器401和处理器402可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选地,在具体实现上,如果存储器401、处理器402及通信接口403,集成在一块芯片上实现,则存储器401、处理器402及通信接口403可以通过内部接口完成相互间的通信。
处理器402可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的人脸嘴部重建方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种人脸嘴部重建方法,其特征在于,包括以下步骤:
采集目标对象各个表情的多视角图像;
根据所述多视角图像获取所述目标对象的2D嘴部特征点,并基于所述2D嘴部特征点计算所述目标对象的3D嘴部特征点;以及
由所述3D嘴部特征点生成嘴部特征向量,并利用所述嘴部特征向量重建最终的不透明度与表面颜色值,生成人脸嘴部重建图像。
2.根据权利要求1所述的方法,其特征在于,所述由所述3D嘴部特征点生成嘴部特征向量,包括:
将所述3D嘴部特征点输入至预先构建的编码嘴部特征的多层感知器MLP网络,得到所述嘴部特征向量。
3.根据权利要求2所述的方法,其特征在于,所述利用所述嘴部特征向量重建最终的不透明度与表面颜色值,生成人脸嘴部重建图像,包括:
将所述嘴部特征向量输入至基于神经辐射场的MLP网络,重建所述最终的不透明度与表面颜色值,并利用空间中的多个点的最终的不透明度与对应任一视角下的表面颜色值进行渲染,得到所述人脸嘴部重建图像。
4.根据权利要求3所述的方法,其特征在于,还包括:
将其他对象的嘴部特征向量输入至所述基于神经辐射场的MLP网络,重建新的最终的不透明度与表面颜色值,并利用空间中的多个点的新的最终的不透明度与对应任一视角下的表面颜色值进行渲染,得到所述其他对象的人脸嘴部重建图像,生成嘴部表情运动的迁移结果。
5.根据权利要求3所述的方法,其特征在于,在将所述嘴部特征向量输入至所述基于神经辐射场的MLP网络之前,还包括:
基于加入预设隐编码的预设神经辐射场,使用多层感知器得到所述基于神经辐射场的MLP网络,其中,所述预设隐编码建模有所述目标对象在不同时刻下由于运动引起的几何变化与表面颜色变化。
6.一种人脸嘴部重建装置,其特征在于,包括:
采集模块,用于采集目标对象各个表情的多视角图像;
计算模块,用于根据所述多视角图像获取所述目标对象的2D嘴部特征点,并基于所述2D嘴部特征点计算所述目标对象的3D嘴部特征点;以及
重建模块,用于由所述3D嘴部特征点生成嘴部特征向量,并利用所述嘴部特征向量重建最终的不透明度与表面颜色值,生成人脸嘴部重建图像。
7.根据权利要求6所述的装置,其特征在于,所述重建模块包括:
输入单元,用于将所述3D嘴部特征点输入至预先构建的编码嘴部特征的MLP网络,得到所述嘴部特征向量。
8.根据权利要求7所述的装置,其特征在于,所述重建模块进一步用于将所述嘴部特征向量输入至基于神经辐射场的MLP网络,重建所述最终的不透明度与表面颜色值,并利用空间中的多个点的最终的不透明度与对应任一视角下的表面颜色值进行渲染,得到所述人脸嘴部重建图像。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-5任一项所述的人脸嘴部重建方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-5任一项所述的人脸嘴部重建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210483528.3A CN114973355B (zh) | 2022-05-05 | 2022-05-05 | 人脸嘴部重建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210483528.3A CN114973355B (zh) | 2022-05-05 | 2022-05-05 | 人脸嘴部重建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114973355A true CN114973355A (zh) | 2022-08-30 |
CN114973355B CN114973355B (zh) | 2024-08-20 |
Family
ID=82981905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210483528.3A Active CN114973355B (zh) | 2022-05-05 | 2022-05-05 | 人脸嘴部重建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114973355B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115953513A (zh) * | 2022-12-30 | 2023-04-11 | 北京元起点信息科技有限公司 | 一种可驱动三维人头模型重建方法、装置、设备及介质 |
CN116246009A (zh) * | 2022-09-06 | 2023-06-09 | 支付宝(杭州)信息技术有限公司 | 虚拟形象处理方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614229A (zh) * | 2020-12-29 | 2021-04-06 | 清华大学 | 基于深度学习的人脸重建方法和装置 |
CN113689540A (zh) * | 2021-07-22 | 2021-11-23 | 清华大学 | 基于rgb视频的物体重建方法和装置 |
US20210390761A1 (en) * | 2020-06-15 | 2021-12-16 | Microsoft Technology Licensing, Llc | Computing images of dynamic scenes |
CN113822977A (zh) * | 2021-06-28 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 图像渲染方法、装置、设备以及存储介质 |
CN114119923A (zh) * | 2021-11-29 | 2022-03-01 | 浙江大学 | 三维人脸重建方法、装置以及电子设备 |
-
2022
- 2022-05-05 CN CN202210483528.3A patent/CN114973355B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210390761A1 (en) * | 2020-06-15 | 2021-12-16 | Microsoft Technology Licensing, Llc | Computing images of dynamic scenes |
CN112614229A (zh) * | 2020-12-29 | 2021-04-06 | 清华大学 | 基于深度学习的人脸重建方法和装置 |
CN113822977A (zh) * | 2021-06-28 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 图像渲染方法、装置、设备以及存储介质 |
CN113689540A (zh) * | 2021-07-22 | 2021-11-23 | 清华大学 | 基于rgb视频的物体重建方法和装置 |
CN114119923A (zh) * | 2021-11-29 | 2022-03-01 | 浙江大学 | 三维人脸重建方法、装置以及电子设备 |
Non-Patent Citations (2)
Title |
---|
CHENXU ZHANG等: "FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute Learning", HTTPS://ARXIV.ORG/PDF/2108.07938, 18 August 2021 (2021-08-18) * |
SNEHA SUREDDY等: "Multi-features Based Multi-layer Perceptron for Facial Expression Recognition System", SECOND INTERNATIONAL CONFERENCE ON IMAGE PROCESSING AND CAPSULE NETWORKS (ICIPCN 2021), 10 September 2021 (2021-09-10) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116246009A (zh) * | 2022-09-06 | 2023-06-09 | 支付宝(杭州)信息技术有限公司 | 虚拟形象处理方法及装置 |
CN116246009B (zh) * | 2022-09-06 | 2024-04-16 | 支付宝(杭州)信息技术有限公司 | 虚拟形象处理方法及装置 |
CN115953513A (zh) * | 2022-12-30 | 2023-04-11 | 北京元起点信息科技有限公司 | 一种可驱动三维人头模型重建方法、装置、设备及介质 |
CN115953513B (zh) * | 2022-12-30 | 2023-11-07 | 北京元起点信息科技有限公司 | 一种可驱动三维人头模型重建方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114973355B (zh) | 2024-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Arch: Animatable reconstruction of clothed humans | |
Li et al. | Robust flow-guided neural prediction for sketch-based freeform surface modeling | |
Chen et al. | Self-supervised learning of detailed 3d face reconstruction | |
US10346504B2 (en) | 3D modelling of bodies | |
US11928778B2 (en) | Method for human body model reconstruction and reconstruction system | |
Li et al. | Efficient dense point cloud object reconstruction using deformation vector fields | |
CN114973355B (zh) | 人脸嘴部重建方法及装置 | |
KR20020087946A (ko) | 변형 가능한 3-d 대상의 이미지 시퀀스를 대상 벽 운동의표시들로 디스플레이하는 이미지 프로세싱 방법 | |
CN113538682B (zh) | 模型训练、头部重建方法、电子设备及存储介质 | |
Liu et al. | High-quality textured 3D shape reconstruction with cascaded fully convolutional networks | |
US20230126829A1 (en) | Point-based modeling of human clothing | |
Tsoli et al. | Patch-based reconstruction of a textureless deformable 3d surface from a single rgb image | |
Afifi et al. | Pixel2Point: 3D object reconstruction from a single image using CNN and initial sphere | |
Ye et al. | High-fidelity 3D real-time facial animation using infrared structured light sensing system | |
Song et al. | A generic framework for efficient 2-D and 3-D facial expression analogy | |
CN114972634A (zh) | 基于特征体素融合的多视角三维可变形人脸重建方法 | |
Golyanik et al. | NRSfM-Flow: Recovering Non-Rigid Scene Flow from Monocular Image Sequences. | |
Oblak et al. | Learning to predict superquadric parameters from depth images with explicit and implicit supervision | |
CN118262034A (zh) | 从图像重建可动画化的三维人类头部模型的系统和方法 | |
Ieng et al. | Event-based 3D motion flow estimation using 4D spatio temporal subspaces properties | |
de Aguiar et al. | Reconstructing human shape and motion from multi-view video | |
CN116934948A (zh) | 基于多视角视频的可重光照三维数字人构建方法及装置 | |
CN115205487A (zh) | 单目相机人脸重建方法及装置 | |
CN112907733A (zh) | 重建三维模型的方法及装置和三维模型采集及重建系统 | |
RU2776825C1 (ru) | Моделирование человеческой одежды на основе множества точек |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |