CN116091668B - 一种基于情绪特征指导的说话头视频生成方法 - Google Patents
一种基于情绪特征指导的说话头视频生成方法 Download PDFInfo
- Publication number
- CN116091668B CN116091668B CN202310374538.8A CN202310374538A CN116091668B CN 116091668 B CN116091668 B CN 116091668B CN 202310374538 A CN202310374538 A CN 202310374538A CN 116091668 B CN116091668 B CN 116091668B
- Authority
- CN
- China
- Prior art keywords
- expression
- video
- mesh
- emotion
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000014509 gene expression Effects 0.000 claims abstract description 69
- 230000002996 emotional effect Effects 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 45
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000007935 neutral effect Effects 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 12
- 238000013139 quantization Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000005286 illumination Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000009877 rendering Methods 0.000 claims description 3
- 230000005477 standard model Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 239000013604 expression vector Substances 0.000 claims 1
- 238000001228 spectrum Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000005540 biological transmission Effects 0.000 abstract 2
- 230000003472 neutralizing effect Effects 0.000 abstract 1
- 239000007787 solid Substances 0.000 abstract 1
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 235000019988 mead Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Signal Processing (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computer Graphics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开一种基于情绪特征指导的说话头视频生成方法,引入了情绪特征指导,训练得到的模型能够具有表达情绪的能力,生成的说话头能够具有丰富的情绪化的逼真表达,可以很好地解决目前说话头中性化固态表达的问题。同时,本发明通过基于二维数据的三维重建技术,从现有的情绪丰富的二维数据集得到近似数据,能够解决缺乏数据的问题。本发明侧重在生成人物形象视频的同时提高其表达的情绪化能力。通过在保证传播内容的同时,赋予视频中的人物与传播内容向匹配的情绪张力,使得视频人物表达更具情感特征,提高虚拟形象真实性,从而提高用户体验。
Description
技术领域
本发明涉及计算机图像处理和机器学习技术领域,更具体地,涉及一种基于情绪特征指导的说话头视频生成方法。
背景技术
随着互联网软硬件技术发展逐步成熟,在“元字宙”概念成为热点的同时,虚拟数字人产业也进入“爆发期”。虚拟数字人,是指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音生成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。虚拟数字人按其人格特征可区分为虚拟IP与虚拟世界第二分身两种不同的应用领域。其中,虚拟世界第二分身是指满足个人对虚拟身份的需求,为社交、娱乐、商业等设计脱离于现实世界的第二分身形象。
可随着互联网产业的发展,现有视频影像生成技术的缺点也逐渐暴露出来。以虚拟新闻主播为例,目前市面上大多数的虚拟形象大多长时间保持着中性的表情或神态进行输出表达,然而驱动的视频内容却是有单独语境的,这容易给观众带来视觉与听觉上的割裂感,难以实现面向用户的情感共鸣。同时,大多数虚拟形象的面部微表情动作是无法自主调控的,如果用户对虚拟形象有不同情感倾向表达的需求,则其固化且笨重的神态表达显而易见是无法匹配理想类人效果的。
目前在说话头3D模型生成方面的不足:1)现有的语音驱动生成方法生成的3D表情序列基本都呈现中性的情绪,缺乏丰富的情绪化的逼真表达;2)现有的语音驱动方法基本上是不可直观控制情绪的,原因是语音信号中指导嘴型和情绪的特征有耦合,而这部分控制很难把握;3)对语音信号驱动生成的效果往往取决于数据的语料、情绪覆盖范围,而当前也缺少语料、情绪覆盖范围足够大,同时语料能与情绪对齐组合的数据集。
现有技术公开一种说话头的小样本合成,从预先准备好的子视频中提取多个人物图像,经过一定处理后生成人物视频。该方案是从根据不同子视频,从而生成一段新人物视频,但生成的视频形象仍输出的是中性表达。
发明内容
本发明提供一种基于情绪特征指导的说话头视频生成方法,引入了情绪特征指导,训练得到的模型能够具有表达情绪的能力,生成的说话头能够具有丰富的情绪化的逼真表达,可以很好地解决目前说话头中性化固态表达的问题。
为解决上述技术问题,本发明的技术方案如下:
一种基于情绪特征指导的说话头视频生成方法,包括以下步骤:
S1:获取包括人物头部说话表情的视频和对应的音频,以及中性感情mesh头部模板;
S2:对所述视频中每一帧的人脸进行3D重建,所得重建结果保存为顶点矩阵,所述视频中所有帧对应的顶点矩阵形成所述视频的表情序列;
S3:对于每一帧,利用所述音频生成第一编码结果,利用所述中性感情mesh头部模板生成第二编码结果,利用所述第一编码结果、第二编码结果和表情序列生成第三编码结果;
S4:对于每一帧,利用特征融合器融合所述第一编码结果、第二编码结果和第三编码结果,所有帧的融合结果形成带有情绪化的表情序列;
S5:将所述带有情绪化的表情序列经过3D渲染后,输出最终的视频。
优选地,步骤S2中对所述视频中每一帧的人脸进行3D重建,具体为:
使用state of the art的spectre模型对每一帧的人脸进行重建,得到mesh中间数据,每一帧的人脸参数定义为,其中,β是shape系数,θ是pose系数,α是反射率系数,l是光照系数,ψ是exp系数,不考虑纹理和颜色的情况下,有:
公式(1)表示顶点经过关节旋转变化的计算,所述顶点指的是每个mesh中的顶点,所述的mesh是由5023个顶点,并按照预设的规则进行排列组成的3D模型,公式(2)至(5)表示为模板mesh增加exp、pose、shape的偏移量,所述模板mesh是Flame模型定义的标准模型,所有参数都为0,所有变化都是在模板mesh的基础上通过系数变换来实现的;
为最终得到的mesh,函数W()表示求mesh的顶点经过关节旋转变化的计算,W是blendWeights矩阵,/>表示关节变换,/>表示对模板mesh加上由shape、pose和exp系数决定的偏移量,/>表示模板mesh,/>、/>、/>分别表示在Flame模型定义的不同个体中shape、pose和exp上的线性变换,其中/>、/>、/>分别为对应的标准正交变换矩阵、/>表示pose激活的顶点偏移量,/>为shape系数的模长,/>为shape系数的第n维元素,/>为矩阵S的第n个向量,/>为关节数量,/>为|θ|到9k维度的映射,转换成旋转矩阵,/>为exp系数的模长,/>为exp向量的第n维元素,/>为矩阵/>的第n个向量。
优选地,步骤S2中所得重建结果保存为V3的顶点矩阵F,其中,V为顶点数量。
优选地,步骤S2中所述视频中所有帧对应的顶点矩阵形成所述视频的表情序列,所述表情序列H为一个形状为tV/>3的张量,t为序列长度。
优选地,步骤S3中利用语音信号编码器对所述音频生成第一编码结果,所述第一编码结果为音频特征audio feature。
优选地,步骤S3中利用mesh编码器对所述中性感情mesh头部模板生成第二编码结果,所述第二编码结果为个人风格信息Qurey。
优选地,步骤S3中利用矢量量化正则变分自编码器对所述第一编码结果、第二编码结果和表情序列生成第三编码结果,具体为:
利用第一编码结果和第二编码结果进行初步特征融合,并用融合得到的潜在表征和表情序列查询矢量量化正则变分自编码器的codebook得到编码向量Zd,所述编码向量Zd为第三编码结果。
优选地,所述矢量量化正则变分自编码器输入为对一个视频进行人脸重建后得到的表情序列H=(F1,F2,F3.....Ft),F1,F2,F3.....Ft代表每一帧的3D模型,以及同等时序长度的音频特征、编码器输出潜在表征,并在codebook中寻找相近的编码向量,解码器将根据编码向量重建出表情序列H’,训练设计两个损失,对H和H’计算MSE作为重建损失,引入stop gradient的计算技巧,sg符号内的内容在计算loss时会正常包含在内,但在更新时此项不会提供梯度信息,也不会被更新,将解码器处的梯度复制到编码器计算,通过调整的大小可以调整codebook的优化速度,此部分作为编码损失,经过训练得到的codebook结构将能从持续丰富的二维数据集中提取出丰富的先验知识,以下为此部分架构的总体损失函数:
式中,L为总体损失函数,Z q(F)表示通过潜在表征输出的编码向量,表示F通过编码器输出的潜在表征。
优选地,步骤S4具体为:
将编码向量Zd与融合得到的潜在表征进一步特征融合,得到的结果表示为Value,同时也作为key,key与Value、Qurey共同接入自回归的mesh解码器,mesh解码器使用了TransformerDecoder的结构,输入Qurey、Key、Value,能够生成一帧表情序列,并更新Qurey,依次循环直到得到对应长度的带有情绪化的表情序列。
优选地,步骤S5中,将所述带有情绪化的表情序列经过平化处理和3D渲染后,输出最终的视频。
与现有技术相比,本发明技术方案的有益效果是:
1)本发明引入了情绪特征指导,训练得到的神经网络能够具有表达情绪的能力,生成的说话头能够具有丰富的情绪化的逼真表达;
2)本发明能够利用先验知识指导,解除情绪于语音信号的部分耦合,使情绪特征的控制更倾向于视频序列信号输入,即能够通过视频序列信号控制模型生成说话头的情绪表达,解决情绪特征难以控制的问题;
3)本发明通过基于二维数据的三维重建技术,从现有的情绪丰富的二维数据集得到近似数据,能够解决缺乏数据的问题。
附图说明
图1为本发明的方法流程示意图。
图2为实施例提供的数据处理方法示意图。
图3为实施例提供的提取先验知识流程示意图。
图4为实施例提供的生成带有情绪化表达的说话头模型示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
一种基于情绪特征指导的说话头视频生成方法,如图1所示,包括以下步骤:
S1:获取包括人物头部说话表情的视频和对应的音频,以及中性感情mesh头部模板;
S2:对所述视频中每一帧的人脸进行3D重建,所得重建结果保存为顶点矩阵,所述视频中所有帧对应的顶点矩阵形成所述视频的表情序列;
S3:对于每一帧,利用所述音频生成第一编码结果,利用所述中性感情mesh头部模板生成第二编码结果,利用所述第一编码结果、第二编码结果和表情序列生成第三编码结果;
S4:对于每一帧,利用特征融合器融合所述第一编码结果、第二编码结果和第三编码结果,所有帧的融合结果形成带有情绪化的表情序列;
S5:将所述带有情绪化的表情序列经过3D渲染后,输出最终的视频。
实施例2
本实施例在实施例1的基础上,继续公开以下内容:
步骤S2中对所述视频中每一帧的人脸进行3D重建,具体为:
使用state of the art的spectre模型对每一帧的人脸进行重建,得到mesh中间数据,每一帧的人脸参数定义为,其中,β是shape系数,θ是pose系数,α是反射率系数,l是光照系数,ψ是exp系数,不考虑纹理和颜色的情况下,有:
公式(1)表示顶点经过关节旋转变化的计算,所述顶点指的是每个mesh中的顶点,所述的mesh是由5023个顶点,并按照预设的规则进行排列组成的3D模型,公式(2)至(5)表示为模板mesh增加exp、pose、shape的偏移量,所述模板mesh是Flame模型定义的标准模型,所有参数都为0,所有变化都是在模板mesh的基础上通过系数变换来实现的;
为最终得到的mesh,函数W()表示求mesh的顶点经过关节旋转变化的计算,W是blendWeights矩阵,/>表示关节变换,/>表示对模板mesh加上由shape、pose和exp系数决定的偏移量,/>表示模板mesh,/>、/>、/>分别表示在Flame模型定义的不同个体中shape、pose和exp上的线性变换,其中/>、/>、/>分别为对应的标准正交变换矩阵、/>表示pose激活的顶点偏移量,/>为shape系数的模长,/>为shape系数的第n维元素,/>为矩阵S的第n个向量,/>为关节数量,/>为|θ|到9k维度的映射,转换成旋转矩阵,/>为exp系数的模长,/>为exp向量的第n维元素,/>为矩阵/>的第n个向量。
步骤S2中所得重建结果保存为V3的顶点矩阵F,其中,V为顶点数量。
步骤S2中所述视频中所有帧对应的顶点矩阵形成所述视频的表情序列,所述表情序列H为一个形状为tV/>3的张量,t为序列长度。
实施例3
本实施例在实施例1和实施例2的基础上,继续公开以下内容:
步骤S3中利用语音信号编码器对所述音频生成第一编码结果,所述第一编码结果为音频特征audio feature。
步骤S3中利用mesh编码器对所述中性感情mesh头部模板生成第二编码结果,所述第二编码结果为个人风格信息Qurey。
步骤S3中利用矢量量化正则变分自编码器对所述第一编码结果、第二编码结果和表情序列生成第三编码结果,具体为:
利用第一编码结果和第二编码结果进行初步特征融合,并用融合得到的潜在表征和表情序列查询矢量量化正则变分自编码器的codebook得到编码向量Zd,所述编码向量Zd为第三编码结果。
所述矢量量化正则变分自编码器输入为对一个视频进行人脸重建后得到的表情序列H=(F1,F2,F3.....Ft),F1,F2,F3.....Ft代表每一帧的3D模型,以及同等时序长度的音频特征、编码器输出潜在表征,并在codebook中寻找相近的编码向量,解码器将根据编码向量重建出表情序列H’,训练设计两个损失,对H和H’计算MSE作为重建损失,引入stopgradient的计算技巧,sg符号内的内容在计算loss时会正常包含在内,但在更新时此项不会提供梯度信息,也不会被更新,将解码器处的梯度复制到编码器计算,通过调整的大小可以调整codebook的优化速度,此部分作为编码损失,经过训练得到的codebook结构将能从持续丰富的二维数据集中提取出丰富的先验知识,以下为此部分架构的总体损失函数:
式中,L为总体损失函数,Z q(F)表示通过潜在表征输出的编码向量,表示F通过编码器输出的潜在表征。
本实施例中,矢量量化正则变分自编码器为预先训练好,其训练数据的预处理方法如图2所示,采集是从现有的情绪丰富的二维数据集如MEAD等获取,将训练数据进行3D模型重建后,训练后的矢量量化正则变分自编码器只需要用到codebook结构。矢量量化正则变分自编码器架构分为编码器、解码器以及codebook结构,编码器将输入编码成潜在表征,根据潜在表征中的每个点位比对特征向量与codebook中的k个编码向量的相似程度,并且以最接近的编码向量取代特征向量,得到的编码表征与潜在表征维度相同,将编码表征作为解码器输入,解码器通过编码表征重建编码器的输入,经过训练之后,所维护的codebook结构将能学习到丰富的重建先验知识。本实施例中编码器的输入具体为对一个视频(图像序列)进行人脸重建后得到的表情序列H以及同等时序长度的音频特征,此处的音频特征由比较先进的预训练的音频特征提取工具得到,解码器将根据编码向量重建出表情序列H’,训练设计两个损失,对H和H’计算MSE作为重建损失,将解码器处的梯度复制到编码器,调整编码向量趋向近似潜在表征和潜在表征趋向近似编码向量这两部分的权重,做线性组合作为编码损失,经过两种损失训练得到的codebook结构将能从情绪特征丰富的二维数据集中提取出丰富的先验知识。
步骤S4具体为:
将编码向量Zd与融合得到的潜在表征进一步特征融合,得到的结果表示为Value,同时也作为key,key与Value、Qurey共同接入自回归的mesh解码器,mesh解码器使用了TransformerDecoder的结构,输入Qurey、Key、Value,能够生成一帧表情序列,并更新Qurey,依次循环直到得到对应长度的带有情绪化的表情序列。
步骤S5中,将所述带有情绪化的表情序列经过平化处理和3D渲染后,输出最终的视频。
如图3和图4,本实施例的总体网络架构分为语音信号编码器、mesh编码器、mesh解码器、矢量量化正则变分自编码器、特征融合器。其中矢量量化正则变分自编码器只需要用到codebook结构。经过上述的训练过程已经得到学习了丰富的情绪特征的矢量量化正则变分自编码器,语音信号输入后需要先进行音频标准化,对不符合要求的采样率,进行重采样,本实施例中预设的采样率为16000HZ,对双声道的语音信号,进行求平均转变为单声道的操作。语音信号分块,为了与动画帧对齐,一个帧一个块,并且能够使每个块有一定的长度,需要对不足长度的首尾两端进行填充0的操作。这样生成的人脸可以保证音画一致。经过上述编码器对中性模板、语音信号分别得到Qurey、Key、Value,输入Qurey、Key、Value,能够生成一帧表情序列,并更新Qurey,依次循环直到得到对应长度的表情序列O',设计两个部分作为损失,一是与Ground truth序列做MSE类似于重建损失,二是通过对数据对分别编码所得到的特征向量衡量差异,两个部分进行线性组合即为整个网络的损失。
上述训练过程直接使用表情序列等中间结果进行,是为了提高训练速度,将所有数据预处理工作放到最前面。实际部署应用推理的过程相比于训练过程,仅需要准备第二段所述的三种素材输入即可生成3D说话头动画序列,相比于训练,推理部署还多了渲染器、基于spectre的人脸重建模型,矢量量化正则变分自编码器只需要用到编码器的输入依旧是表情序列,但来源是基于spectre的人脸重建模型,用户输入的视频将会经过人脸重建模型处理得到表情序列并作为矢量量化正则变分自编码器的输入。模型生成3D说话头序列后,为了看起来更自然和平滑,还要经过一个简单的3D渲染器,最终输出MP4格式的视频。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (5)
1.一种基于情绪特征指导的说话头视频生成方法,其特征在于,包括以下步骤:
S1:获取包括人物头部说话表情的视频和对应的音频,以及中性感情三角网格mesh头部模板;
S2:对所述视频中每一帧的人脸进行3D重建,所得重建结果保存为顶点矩阵,所述视频中所有帧对应的顶点矩阵形成所述视频的表情序列;
S3:对于每一帧,利用所述音频生成第一编码结果,利用所述中性感情mesh头部模板生成第二编码结果,利用所述第一编码结果、第二编码结果和表情序列生成第三编码结果;
S4:对于每一帧,利用特征融合器融合所述第一编码结果、第二编码结果和第三编码结果,所有帧的融合结果形成带有情绪化的表情序列;
S5:将所述带有情绪化的表情序列经过3D渲染后,输出最终的视频;
步骤S3中利用矢量量化正则变分自编码器对所述第一编码结果、第二编码结果和表情序列生成第三编码结果,具体为:
利用第一编码结果和第二编码结果进行初步特征融合,并用融合得到的潜在表征和表情序列查询矢量量化正则变分自编码器的编码本codebook得到编码向量Zd,所述编码向量Zd为第三编码结果;
所述矢量量化正则变分自编码器输入为对一个视频进行人脸重建后得到的表情序列H=(F1,F2,F3.....Ft),F1,F2,F3.....Ft代表每一帧的3D模型,以及同等时序长度的音频特征、融合得到的潜在表征,并在codebook中寻找相近的编码向量,解码器将根据编码向量重建出表情序列H’,训练设计两个损失,第一个损失为重建损失,对H和H’计算均方误差作为重建损失;第二个损失为编码损失,在编码损失中引入梯度截断stop gradient的计算技巧,stop gradient内的内容在计算损失时会正常包含在内,但在更新时此项不会提供梯度信息,也不会被更新,将解码器处的梯度复制到编码器计算,通过调整的大小可以调整codebook的优化速度;经过训练得到的codebook结构将能从持续丰富的二维数据集中提取出丰富的先验知识;
步骤S4具体为:
将编码向量Zd与融合得到的潜在表征进一步特征融合,得到的结果表示为Value,同时也作为key,key与Value、Qurey共同接入自回归的mesh解码器,mesh解码器使用了TransformerDecoder的结构,输入Qurey、Key、Value,能够生成一帧表情序列,并更新Qurey,依次循环直到得到对应长度的带有情绪化的表情序列;
步骤S2中所述视频中所有帧对应的顶点矩阵形成所述视频的表情序列,所述表情序列H为一个形状为tV/>3的张量,t为序列长度;
步骤S3中利用mesh编码器对所述中性感情mesh头部模板生成第二编码结果,所述第二编码结果为个人风格信息Qurey。
2.根据权利要求1所述的基于情绪特征指导的说话头视频生成方法,其特征在于,步骤S2中对所述视频中每一帧的人脸进行3D重建,具体为:
使用spectre模型对每一帧的人脸进行重建,得到mesh中间数据,每一帧的人脸参数定义为,其中,β是形状系数,θ是姿态系数,α是反射率系数,l是光照系数,/>是表情系数,不考虑纹理和颜色的情况下,有:
公式(1)表示顶点经过关节旋转变化的计算,所述顶点指的是每个mesh中的顶点,所述的mesh是由5023个顶点,并按照预设的规则进行排列组成的3D模型,公式(2)至(5)表示为模板mesh增加表情、姿态、形状的偏移量,所述模板mesh是Flame模型定义的标准模型,所有参数都为0,所有变化都是在模板mesh的基础上通过系数变换来实现的;
为最终得到的mesh,函数W()表示求mesh的顶点经过关节旋转变化的计算,W是混合权重矩阵,/>表示关节变换,/>表示对模板mesh加上由表情、姿态和形状系数决定的偏移量,/>表示模板mesh,/>、/>、/>分别表示在Flame模型定义的不同个体中表情、姿态和形状上的线性变换,其中/>、/>、/>分别为表情、姿态和形状的标准正交变换矩阵、/>表示姿态激活的顶点偏移量,/>为形状系数的模长,/>为形状系数的第n维元素,/>为矩阵S的第n个向量,/>为关节数量,/>为|θ|到9/>维度的映射,转换成旋转矩阵,/>为表情系数的模长,/>为表情向量的第n维元素,/>为矩阵/>的第n个向量,|θ|为姿态系数的模长。
3.根据权利要求2所述的基于情绪特征指导的说话头视频生成方法,其特征在于,步骤S2中所得重建结果保存为V 3的顶点矩阵F,其中,V为顶点数量。
4.根据权利要求3所述的基于情绪特征指导的说话头视频生成方法,其特征在于,步骤S3中利用语音信号编码器对所述音频生成第一编码结果,所述第一编码结果为音频特征audio feature。
5.根据权利要求4所述的基于情绪特征指导的说话头视频生成方法,其特征在于,步骤S5中,将所述带有情绪化的表情序列经过平化处理和3D渲染后,输出最终的视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310374538.8A CN116091668B (zh) | 2023-04-10 | 2023-04-10 | 一种基于情绪特征指导的说话头视频生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310374538.8A CN116091668B (zh) | 2023-04-10 | 2023-04-10 | 一种基于情绪特征指导的说话头视频生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116091668A CN116091668A (zh) | 2023-05-09 |
CN116091668B true CN116091668B (zh) | 2023-07-21 |
Family
ID=86210589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310374538.8A Active CN116091668B (zh) | 2023-04-10 | 2023-04-10 | 一种基于情绪特征指导的说话头视频生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116091668B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269872A (zh) * | 2021-06-01 | 2021-08-17 | 广东工业大学 | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666831B (zh) * | 2020-05-18 | 2023-06-20 | 武汉理工大学 | 一种基于解耦表示学习的说话人脸视频生成方法 |
CN112581569B (zh) * | 2020-12-11 | 2021-11-23 | 中国科学院软件研究所 | 自适应情感表达的说话人面部动画生成方法及电子装置 |
CN114245215B (zh) * | 2021-11-24 | 2023-04-07 | 清华大学 | 说话视频的生成方法、装置、电子设备、介质及产品 |
CN115330911A (zh) * | 2022-08-09 | 2022-11-11 | 北京通用人工智能研究院 | 一种利用音频驱动拟态表情的方法与系统 |
-
2023
- 2023-04-10 CN CN202310374538.8A patent/CN116091668B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269872A (zh) * | 2021-06-01 | 2021-08-17 | 广东工业大学 | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116091668A (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113269872A (zh) | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 | |
WO2024051445A9 (zh) | 图像生成方法以及相关设备 | |
CN113807265B (zh) | 一种多样化的人脸图像合成方法及系统 | |
CN113901894A (zh) | 一种视频生成方法、装置、服务器及存储介质 | |
CN111915693A (zh) | 基于草图的人脸图像生成方法及系统 | |
GB2601162A (en) | Methods and systems for video translation | |
US20230154089A1 (en) | Synthesizing sequences of 3d geometries for movement-based performance | |
CN117171392A (zh) | 一种基于神经辐射场和隐属性的虚拟主播生成方法与系统 | |
CN112837210A (zh) | 一种基于特征图分块的多形变风格人脸漫画自动生成方法 | |
CN115496550A (zh) | 文本生成方法以及装置 | |
CN116721190A (zh) | 一种语音驱动三维人脸动画生成方法 | |
CN115050087B (zh) | 一种人脸关键点身份和表情解耦方法及装置 | |
CN112634456A (zh) | 基于深度学习的复杂三维模型的实时高真实感绘制方法 | |
CN116152631A (zh) | 模型训练及图像处理方法、装置、设备及存储介质 | |
CN112990123B (zh) | 图像处理方法、装置、计算机设备和介质 | |
Gowda et al. | From pixels to portraits: A comprehensive survey of talking head generation techniques and applications | |
Azevedo et al. | Empowering sign language communication: Integrating sentiment and semantics for facial expression synthesis | |
CN116091668B (zh) | 一种基于情绪特征指导的说话头视频生成方法 | |
CN116402928B (zh) | 一种虚拟谈话数字人生成方法 | |
CN118505835A (zh) | 一种深度学习2d图片的虚拟试衣方法 | |
CN115631285B (zh) | 基于统一驱动的人脸渲染方法、装置、设备及存储介质 | |
Song et al. | Virtual human talking-head generation | |
US20230154090A1 (en) | Synthesizing sequences of images for movement-based performance | |
Quan et al. | Facial animation using CycleGAN | |
Zhang et al. | Film and TV Character Expression Identification Combined with Deep Learning and Automatic Generation of Character Animation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |