CN103093490B

CN103093490B - 基于单个视频摄像机的实时人脸动画方法

Info

Publication number: CN103093490B
Application number: CN201310047850.2A
Authority: CN
Inventors: 周昆; 翁彦琳; 曹晨
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2013-02-02
Filing date: 2013-02-02
Publication date: 2015-08-26
Anticipated expiration: 2033-02-02
Also published as: US9361723B2; WO2014117446A1; US20150035825A1; CN103093490A

Abstract

本发明公开了一种基于单个视频摄像机的实时人脸动画方法，该方法利用单个视频摄像机，实时跟踪人脸特征点的三维位置，并以此参数化人脸的姿势和表情，最终可以将这些参数映射到替身上以驱动动画角色的脸部动画。本发明不需要高级的采集设备，只需要用户的普通视频摄像机上就可以达到实时的速度；本发明可以准确处理人脸各种大角度旋转、平移，和人脸的各种夸张表情；本发明还可以在不同光照和背景环境下工作，包括室内和有阳光的室外。

Description

基于单个视频摄像机的实时人脸动画方法

技术领域

本发明涉及人脸动作实时捕获和实时动画技术，尤其涉及一种基于单个视频摄像机的实时人脸动画方法。

背景技术

本发明相关的研究背景简述如下：

1.人脸动作捕获

人脸表情捕获是真实感图形学的重要组成部分，其被广泛的应用到电影、动画、游戏、网络聊天和教育等领域中。基于人脸动作捕获的人脸动画系统用于估计用户的表情和动作，并将它们映射到另外一个目标模型上。为实现这一目标，目前已经有很多的相关技术。其中为了直接与用户进行交互，通常使用主动传感方法，包括在人的脸部放置一些信号发送点（Williams,L.1990.Performancedriven facial animation.In Proceedings of SIGGRAPH,234-242;Huang,H.,Chai,J.,Tong,X.,and Wu,H.,T.,2011.Leveraging motion capture and3d scanning for high-field facial performance acquisition.ACM Trans.Graph.30,4,74:1-74:10.），或者使用投影结构光图谱（Zhang,L.,Snavely,N.,Curless,B.,and Seitz,S.M.2004.Space time faces:highresolution capture for modeling and animation.ACM Trans.Graph.23,3,548-558;Weise,T.,Li,H.,Gool,L.V.,and Pauly,M.2009.Face/off:Live facial puppetry.In Eurographics/Siggraph Symposium on ComputerAnimation.），这些方法可以精确的跟踪人脸表面位置，并获取高分辨率、高精度的人脸估计，但是这些主动传感方法往往需要昂贵的硬件设备支持，同时由于信号发送点或者结构光的干扰，对用户并不具有友好型，因此并不能广泛用于普通用户。

另一种系统是被动系统，它们并不主动向所在环境里发送信号或在人脸放置信号发送点，而只根据接收到的颜色信息等来分析、捕获人脸动作。其中有一些方法只用单个摄像机来捕获人脸动作，包括Essa,I.,Basu,S.,Darrell,T.,and Pentland,A.1996.Modeling,tracking and interactive animation offaces and heads:Using input from video.In Computer Animation,68-79;Pighin,F.,Szeliski,R.,and Salesin,D.1999.Resynthesizing facialanimation through3d model-based tracking.In International Conferenceon Computer Vision,143-150;In Eurographics/Siggraph Symposium onComputer Animation,193-206;Vlasic,D.,Brand,M.,Pfister,H.andPopovic,J.2005.Face transfer with multilinear models.等工作。这些方法的缺点在于得到的结果精度较低，无法处理人脸大幅度的旋转和夸张表情，此外对使用的环境也有一定的要求，如只能在光照均匀、没有阴影、高光干扰的室内环境下使用。

某些方法中则使用了照相机阵列，这样可以从多个视角获取人脸数据，并将其转化成立体数据用于三维重建，这些工作包括BEELER,T.,BICKEL,B.,BEARDSLEY,P.,SUMNER,R.,AND GROSS,M.2010.High-quality single-shotcapture of facial geometry.ACM Trans.Graph.29,4,40:1–40:9.;BRADLEY,D.,HEIDRICH,W.,POPA,T.,AND SHEFFER,A.2010.Highresolution passive facial performance capture.ACM Trans.Graph.29,4,41:1–41:10.;BEELER,T.,HAHN,F.,BRADLEY,D.,BICKEL,B.,BEARDSLEY,P.,GOTSMAN,C.,SUMNER,R.W.,AND GROSS,M.2011.High-quality passivefacial performance capture using anchor frames.ACM Trans.Graph.30,4,75:1–75:10.等，这些方法可以比较精确的得到三维人脸表情，但依然存在设备昂贵、对环境要求较高等缺点。

2.基于视觉的人脸特征点跟踪

人脸表情的捕获往往需要跟踪输入图像中人脸的特征点，如眼角、鼻子边缘或者嘴巴边界等位置。对于一般的输入视频，光流法（Optical Flow）被普遍使用。但是由于输入数据的噪声影响，对那些不是很明显的人脸特征点（如脸颊上的点），光流定位并不是那么可靠，往往会因为帧与帧之间的误差累积造成一种偏移（Drift）的错误。此外，光流法在处理快速运动、光照变化等方面也存在较大的误差。

为了更精确的特征点跟踪，一些工作使用特征点之间的几何约束。这样，每个特征点不仅和其自身局部信息计算有关，还受到其他特征点的影响。不同类型的几何约束被广泛使用，包括对表情变化时特征点偏移的限制（CHAI,J.-X.,XIAO,J.,AND HODGINS,J.2003.Vision-based control of3d facialanimation.In Eurographics/SIGGRAPH Symposium on Computer Animation,193–206.），满足基于物理的可变形网格模型需求（ESSA,I.,BASU,S.,DARRELL,T.,AND PENTLAND,A.1996.Modeling,tracking and interactiveanimation of faces and heads:Using input from video.In ComputerAnimation,68–79.;DECARLO,D.,AND METAXAS,D.2000.Optical flowconstraints on deformable models with applications to face tracking.Int.Journal of Computer Vision38,2,99–127.），以及一些从大量样本空间中建立的人脸模型的对应关系（PIGHIN,F.,SZELISKI,R.,AND SALESIN,D.1999.Resynthesizing facial animation through3d model-based tracking.In International Conference on Computer Vision,143–150.;BLANZ,V.,AND VETTER,T.1999.A morphable model for the synthesis of3d faces.In Proceedings of SIGGRAPH,187–194.;VLASIC,D.,BRAND,M.,PFISTER,H.,AND POPOVIC766,J.2005.Face transfer with multilinear models.ACM Trans.Graph.24,3(July),426–433.）。这些方法都能在一定程度上跟踪图像、视频中人脸特征点，但由于它们得到的都是图像上的二维特征点，因此在处理旋转上有一定的局限性。

3.三维人脸模型

我们的工作中在预处理过程中借助了三维人脸模型，以从二维图像中获取得到三维信息。

在现有的图形学和视觉应用中，各种三维人脸模型被广泛应用。在人脸动画应用中，一种表情融合模型（Blendshapes）被广泛应用。这是一种表示人脸动作的子空间表达，其包括一系列的基本人脸表情，由此组成了人脸表情的线性空间。利用融合模型，可以对其中的基本人脸动作通过变形（Morphing）（PIGHIN,F.,HECKER,J.,LISCHINSKI,D.,SZELISKI,R.,AND SALESIN,D.H.1998.Synthesizing realistic facial expressions from photographs.InProceedings of SIGGRAPH,75–84.）或者线性组合（Linear combinations）（LEWIS,J.P.,AND ANJYO,K.2010.Direct manipulation blendshapes.IEEE CG&A30,4,42–50.;SEO,J.,IRVING,G.,LEWIS,J.P.,AND NOH,J.2011.Compression and direct manipulation of complex blendshapemodels.ACM Trans.Graph.30,6.）等计算得到各种人脸动画效果。

多线性模型（Multilinear Models）表示一个拥有多种控制属性（如个体，表情，发音嘴型）的融合模型分解。表情融合模型的一个重要的特点在于，不同个体的表情对应于融合模型中相似的基本动作系数。利用这一性质，很多人脸动画应用使用了表情融合模型，通过传递基本动作系数，将用户的人脸动作转移到虚拟替身中。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于单个视频摄像机的实时人脸动画方法，本发明可以在普通桌面电脑上供普通用户使用，在不同环境下实时，准确的捕获用户表情并驱动虚拟替身。具有易使用，鲁棒，快速等特点，可以运用于在线游戏、网络聊天和教育等应用中，具有很高的实用价值。

本发明的目的是通过以下技术方案来实现的：一种基于单个视频摄像机的实时人脸动画方法，包括以下步骤：

（1）图像采集和标定：利用视频摄像机拍摄用户的多幅具有不同姿势和表情的二维图像，对每个图像利用二维图像回归器得到对应的二维人脸特征点，对自动检测得到的不准确特征点进行手动调整；

（2）数据预处理：利用标定好二维人脸特征点的图像，进行用户表情融合模型生成和摄像机内部参数标定，并由此得到图像的三维特征点；利用三维特征点和步骤1采集的二维图像，训练获得从二维图像到三维特征点的回归器；

（3）三维特征点跟踪：用户使用视频摄像机实时输入图像，对于输入的图像，结合上一帧的三维人脸特征点，利用步骤2中得到回归器，实时定位当前帧中三维人脸特征点；

（4）姿势表情参数化：利用三维人脸特征点位置，结合步骤2中得到的用户表情融合模型，迭代优化以得到人脸姿势和表情的参数化表达；

（5）替身驱动：将人脸姿势和表情参数映射到虚拟替身上，用以驱动动画角色进行人脸动画。

本发明的有益效果是，本发明容易使用，使用者不需要信号发送点或者投影结构光谱等昂贵的物理设备，只使用单个摄像机，在普通的桌面电脑上，通过一次性数据采集和预处理，就可以供用户完成人脸姿势、表情的捕获和参数化，并将参数化结果映射到虚拟替身上以驱动动画角色的人脸动画，方便普通用户的使用。本发明相比于之前的方法，可以有效的处理视频中的快速运动，大幅度头部姿势旋转和夸张表情，并且可以处理一定的光照条件变化，可以在不同的环境下使用（包括室内、有阳光直射的室外环境等）。此外，本发明的方法非常高效，在具体实施实例中，普通电脑使用少于15毫秒即可以完成一帧的特征点跟踪、姿势表情参数化和替身映射，拥有非常好的用户体验。

附图说明

图1是本发明图像采集和标定步骤中采集的一幅二维图像和标定的二维图像特征点图；

图2是本发明数据预处理步骤中生成的三维人脸特征点图；

图3是本发明三维特征点跟踪步骤中实时输入的图像和定位的三维特征点图；

图4是本发明姿势表情参数化步骤中生成的三维人脸形状图；

图5是本发明替身驱动步骤中将图4中的参数映射到替身上，驱动动画角色人脸动画截图。

具体实施方式

本发明核心是从二维图像中得到人脸的三维特征点，由此参数化用户的人脸姿势和表情，并将其映射到虚拟替身。该方法主要分为以下五个步骤：图像采集和标定、数据预处理、三维特征点跟踪、姿势表情参数化、替身驱动。具体来说，包括以下步骤：

1.图像采集和标定：用户模仿做出各种姿势和表情，并利用视频摄像机拍摄相应图像。对每个图像利用通用的二维图像回归器，得到对应的二维人脸特征点，对自动检测得到的不准确的特征点，允许用户进行手动调整。

本发明首先采集用户的一组不同人脸姿势和表情的图像。这组图像分为两个部分：刚性动作和非刚性动作。刚性动作指用户保持自然表情，同时做15个不同角度的人脸姿势。我们用欧拉角(yaw,pitch,roll)来表示这些角度：yaw以30°为间隔从-90°到90°采样，同时保持pitch和roll为0°；pitch以15°为间隔从-30°到30°采样并去除0°，同时保持yaw和roll为0°；roll以15°为间隔从-30°到30°采样并去除0°，同时保持yaw和pitch为0°。注意到我们并不要求用户做到的姿势角度与要求的角度配置完全精确，只需要一个大概的估计即可。

非刚性动作包括三个yaw角度下的15个不同表情。这些表情是一个相对比较大的表情，在不同个体之间差异较大。这些表情是：张嘴，微笑，抬眉毛，厌恶，挤左眼，挤右眼，愤怒，向左歪嘴，向右歪嘴，露齿笑，嘟嘴，撅嘴，翻嘴唇，鼓嘴和闭眼。

对每个用户，总共采集了60张图像。对每张图像，我们使用二通用的二维图像回归器来自动定位75个特征点位置（如附图1所示），这些特征点主要分为两类：60个内部特征点（如眼睛、眉毛，鼻子和嘴巴部分的特征），和15个外部轮廓点。本发明中使用(CAO,X.,WEI,Y.,WEN,F.,AND SUN,J.2012.Facealignment by explicit shape regression.In Computer Vision and PatternRecognition(CVPR),2887–2894.)所描述的回归器来自动定位这些特征点。

自动定位的二维特征点会存在一些偏差，针对定位不精确的特征点，用户可以在屏幕上通过简单的鼠标拖拽操作来修正，具体来说，即通过鼠标点击选中特征点，然后按住鼠标将其拖到图像上正确的位置。

2.数据预处理：利用标定好二维特征点的图像，进行用户表情融合模型生成和摄像机内部参数标定，并由此得到图像的三维特征点。利用二维图像和三维特征点，训练从二维图像得到三维特征点的回归器。

2.1用户表情融合模型的生成

用户表情融合模型包含用户的自然表情形状B₀和46个FACS表情形状{B₁,B₂,...,B₄₆}。这些表情形状构成了该用户表情的线性空间，用户任意表情B可以用融合模型中的基本表情通过线性插值得到：

B = B_{0} + Σ_{i = 1}^{46} α_{i} B_{i};

其中，B₀是该用户的自然表情形状，B_i是用户表情融合模型中的基本表情形状，α_i是基本表情的系数，而B则是插值得到的表情人脸形状。

我们借助一个三维人脸表情模型FaceWarehouse（CAO,C.,WENG,Y.,ZHOU,S.,TONG,Y.,AND ZHOU,K.2012.Facewarehouse:a3d facial expressiondatabase for visual computing.Tech.rep.）来构建用户表情融合模型。FaceWarehouse包括150个不同背景下的个体数据，每个个体数据包括46个FACS表情形状。FaceWarehouse利用这些数据建立了一个包含两个属性，即个体和表情的双线性模型，组成了一个三维核张量C_r（11K模型顶点×50个体×45表情），利用这一的核张量表示，任意个体的任意表情F可以利用张量收缩计算得到：

F = C_{r} \times w_{id}^{T}_{2} \times w_{\exp}^{T}_{3};

其中，和分别是张量中个体和表情系数的列向量，C_r是FaceWarehouse的核张量，F则是通过收缩计算得到的表情。

我们使用两步来计算用户表情融合模型。在第一步中，对“图像采集和标定”中采集的每一个图像，我们找到一个变换矩阵Μ_i，个体系数和表情系数生成三维人脸形状，使得其相应的三维特征点在图像上的投影与标定的二维特征点吻合。这可以通过优化下面的能量来达到要求：

E_{d} = Σ_{k = 1}^{75} | | {Π_{Q} (M_{i} {(C_{r} \times w_{id, i}^{T}_{2} \times w_{\exp, i}^{T}_{3})}^{(vk)}) - u_{i}^{(k)} | |}^{2};

其中，是第i张图像中第k个二维特征点位置，v_k是三维网格形状上对应的顶点序号，Π_Q则表示借助摄像机投影矩阵Q，将三维空间点投影到图像坐标的操作，和分别是张量中个体和表情系数的列向量，C_r是FaceWarehouse的核张量。我们可以使用坐标下降法来求解Μ_i，和即每次保持其中两个变量不变，优化另外的一个变量，迭代进行这一步骤直到结果收敛。

在第二步中，由于我们采集的所有图像描述的是同一个人的不同姿势或不同表情，因此我们应该保证所有图像中个体系数，即一致，因此我们固定第一步中得到每个图片的变换矩阵Μ_i和表情系数同时在所有图像上计算一致的个体系数需要优化如下的能量：

E_{joint} = Σ_{i = 1}^{n} Σ_{k = 1}^{75} | | {Π_{Q} (M_{i} {(C_{r} \times w_{id, i}^{T}_{2} \times w_{\exp, i}^{T}_{3})}^{(vk)}) - u_{i}^{(k)} | |}^{2};

其中，是统一的个体系数，n是采集的二维图像数目，其余变量含义与上式相同。

这两步的优化过程需要迭代计算直到结果收敛，在一般情况下，需要三次迭代即可得到满意的结果。一旦得到了一致的个体系数就可以生成该用户的表情融合模型，如下：

B_{i} = C_{r} \times w_{id}^{T}_{2} \times {({\hat{U}}_{\exp} d_{i})}_{3}, 0 \leq i \leq 47;

其中，是FaceWarehouse表情属性的截断变换矩阵，d_i是表情系数向量，其第i项元素为1而其余元素是0，C_r是FaceWarehouse的核张量，是统一的个体系数。

2.2照相机内部参数标定

照相机投影矩阵描述的是将摄像机坐标系中的三维点投影到二维图像位置，它完全依赖于照相机内部的参数，可以被表达为如下的投影矩阵Q：

Q = (\begin{matrix} f_{x} & γ & u_{0} \\ 0 & f_{y} & v_{0} \\ 0 & 0 & 1 \end{matrix});

其中参数f_x和f_y表示以长和宽方向像素为单位的焦距长度，γ表示在x和y轴方向的偏移，u₀和v₀则表示图像原点的位置，即光轴与图像平面的交点。有很多照相机标定的方法（如ZHANG,Z.2000.A flexible new technique forcamera calibration.IEEE Trans.Pattern Anal.Mach.Intell.22,11,1330–1334.）可以用来精确计算投影矩阵，这些方法通常会借助一些标准标定目标（如棋盘格）。

本发明使用一种简单的方法，不借助特殊的标定目标，而直接从用户采集的数据中直接得到投影矩阵Q。本发明假设使用的照相机是一个理想的针孔照相机，其f=f_x=f_y,γ=0，(u₀,v₀)就是图像的中心点，这通过输入图像的大小可以直接计算出来。那么照相机的投影矩阵中只剩下一个未知数，即f。本发明假设不同的f，利用假设值进行“用户表情融合模型的生成”，并计算最终所有采集图片中拟合的人脸模型对应特征点投影和标定的特征点之间的误差。该误差相对于f的函数关系是一个凸函数，即有一个最小值，而在最小值两端都是单调。这样，本发明使用二分法快速找到正确的f。

2.3训练数据构建

在前几步操作中得到了用户的表情融合模型，同时在每个输入图像上有相应的姿势变换矩阵和表情系数，以此可以得到图像上的三维人脸形状：

F = M (B_{0} + Σ_{i = 1}^{46} α_{i} B_{i});

其中，F是生成的三维人脸形状，M是姿势变换矩阵，B₀是该用户的自然表情形状，B_i是用户表情融合模型中的基本表情形状，α_i是基本表情的系数。

通过选取三维人脸形状上对应的三维顶点位置，就可以构成该图像的三维特征点。在实时的视频中，由于人脸的外轮廓点随时在改变，为了计算效率，本发明将外部轮廓的15个特征点替换为内部的15个特征点（如附图2所示）。我们用来表示这些图像对应的三维特征点。

为了增强训练数据的通用性，本发明需要增强采集的图像和它们对应的三维特征点。对每一个采集图像和它的三维特征点我们将三维特征点沿着照相机坐标系中的三个轴进行平移得到另外m-1个三维特征点，对每个都得到集合{S_ij,2≤j≤m}。增强的三维特征点对应的是另外的图像。实际操作中，本发明并不真正的生成对应的图像，而只是记录这些增强的三维特征点变换到原来特征点的变换矩阵该矩阵与S_ij，一起可以提供新图像的完整信息，隐式的生成增强的图像。经过数据增强，n个原始数据增强为n·m个，我们定义它们为这些增强后的三维特征点集合{S_ij,1≤i≤n,1≤j≤m}称之为三维特征点空间，它描述了用户在三维空间中人脸特征点的变化范围。

对每个增强后的每组图像/特征点数据，本发明给它指定不同的初始化特征点。在选择训练使用的数据初始特征点时，本发明同时考虑了数据的局部性和随机性。对每一组图像/特征点首先从n个原始特征点集合中找到G个与S_ij最近似的特征点，在计算两个特征点的相似性，首先将两个特征点的中心对齐，然后计算对应特征点之间的距离平方和。我们将找到的最相似的特征点集合称为记为然后从每个的增强特征点中随机选取H个特征点，记为我们将这些特征点作为该图像/特征点的初始化特征点集合。这样，本发明为每一对图像/特征点找到了G·H个初始化特征点。每个训练数据将其表示为其中I_i是二维图像，是特征点进行平移增强的变换矩阵，S_ij是I_i对应的三维特征点，而是初始特征点。

经过数据增强和训练集构建，我们生成了N＝n·m·G·H个训练数据。在我们所有例子中，我们选取m=9,G=5,H=4。为了简化，我们在之后将这N个训练数据称为

2.4回归器训练

给定了上述的N个训练数据本发明利用图像I_i中的信息，训练生成一个从初始化特征点到对应特征点S_i的回归函数。本发明使用两层的级连回归，其中在第一层中有T级弱分类器，而在每一个弱分类器中又有K级原子分类器。

第一层的级连回归中，本发明产生一组用于原子分类器构建的序号对特征。首先利用当前特征点和图像I_i，计算得到外观向量：在当前特征点空间范围随机选取的P个采样点，其中每一个采样点p的位置都表示为中某一个特征点位置加上一个偏移d_p；然后利用将采样点p投影到图像上，最后从图像I_i取到对应像素点的颜色值。这P个颜色值就组成该训练数据在第一层级连回归中的外观向量V_i。对于每一个外观向量V_i，通过计算两两不同位置元素的差，可以产生P²个序列号特征。

在第二层的每一个原子分类器中，要在第一层生成的P²个序列号特征中，寻找有效特征，并以此将训练数据进行分类。对每一个训练数据首先计算当前特征点和真实特征点S_i之间的差异，然后将这些差异投影到一个随机方向上产生一个标量，本将这些标量看做随机变量，从P²序列号特征中找到与这个随机变量相关性最大的特征。重复这一步骤F次以产生F个不同的特征，根据这F个特征，生成该原子分类器。

在每一个原子分类器中，F个特征被赋予了一个随机的阈值，这些阈值可以将所有的训练数据分成2^F类，对每一个训练数据，我们比较序列号计算得的特征值和阈值，来决定该训练数据属于哪一类。在每一个类b中，本发明将所有落在这一类中的数据集合称为为Ω_b，并计算这一类中的特征点回归输出为:

δ S_{b} = \frac{1}{1 + β / | Ω_{b} |} \frac{Σ_{i &Element; Ω_{b}} (S_{i} - S_{i}^{c})}{{| Ω}_{b} |};

其中，|Ω_b|表示这一类中训练数据的个数，S_i为训练数据的真实特征点，是训练数据的当前特征点，β是松弛系数，用于防止当落在该类中的训练数据过少导致过拟合现象。

当我们产生原子分类器后，我们根据原子分类器更新当前所有的训练数据。即在原子分类器的每个类b中，将其对应的回归输出加到落在这一类中训练数据的当前特征点中，即

回归器的训练在会迭代执行T次，每一次中生成K个级连的原子分类器，组成弱分类器，迭代优化回归输出。这T个级连的弱分类器组成一个强分类器，即我们需要的回归器。参数配置本发明选择T=10,K=300,P=400,F=5,β=250。

3.三维特征点跟踪：对于用户实时输入的图像，结合上一帧的三维人脸特征点，利用数据预处理步骤中得到回归器，结合上一帧的三维特征点S'，本发明可以实时定位当前帧的三维特征点。

首先在原始特征点集合中找到与S'最近似的特征点S_r，然后通过一个刚体的旋转和平移（M^a），将S'变换到S_r的位置，记变换后的上一帧特征点为S′^*。然后在训练集合的三维特征点空间{S_ij,1≤i≤n,1≤j≤m}中找到与S'^*最接近的L个特征点集合{S_l}，并将每一个S_l作为初始化特征点输入通过整个回归器。

与回归器训练类似，使用回归器来定位特征点时分为两层级连结构。在第一层回归中，首先根据当前帧图像I，当前特征点S_l，变换矩阵M^a的逆矩阵，以及在训练过程中记录的偏移得到外观向量V。在第二层中，根据每个原子分类器中记录的序列号计算特征并与阈值进行比较，来确定属于哪个类，并得到该类的回归输出δS_b。最后利用这个输出来更新当前特征点：S_l＝S_l+δS_b。

本发明对L个初始特征点都通过回归器得到L个输出特征点，最后，对这些输出特征点取中值操作，得到最终的结果。注意到这个特征点是三维特征点空间中的，需要利用变换矩阵M^a的逆矩阵将其变换到原来的图像位置中去。输入的二维图像和定位得到的三维特征点结果如附图3所示。

4.姿势表情参数化：利用特征点的三维位置，结合数据预处理中得到的用户表情融合模型，迭代优化以得到的人脸姿势和表情的参数化表达。

在上一步中得到了当前帧的三维特征点位置，本发明利用它们对当前帧人脸的动作进行参数化。人脸的动作主要分为两个部分：由变换矩阵M表示的刚性人脸姿势，和由表情融合系数a表示的人脸非刚性表情。这两部参数可以通过优化以下的匹配能量得到：

E_{t} = Σ_{k = 1}^{75} | | {M {(B_{0} + Σ_{j = 1}^{46} α_{j} B_{j})}^{(vk)} - S^{(k)} | |}^{2};

其中，S^(k)是S中第k个特征点的三维位置，v_k是三维人脸形状上对应的顶点序号，B₀是用户的自然表情人脸形状，B_j是表情融合模型中的其他基本表情人脸形状，α_j是基本表情的系数，M是表示人脸姿势的变换矩阵。与WEISE,T.,BOUAZIZ,S.,LI,H.,AND PAULY,M.2011.Realtime performance-basedfacial animation.ACM Trans.Graph.30,4(July),77:1–77:10.类似，本发明使用一个动画先验来增强跟踪过程中的时域连续性。给定前n帧的表情系数向量A_n={a^-1,a^-2,…,a^-n}，将其与当前帧的系数a结合成一个单独的向量(a,A_n)，本发明将该向量的概率分布描述为一个高斯混合模型：

其中是高斯分布符号，π_s是高斯模型的权重系数，μ_s是高斯模型中的平均值，Cov_s则是变量的协方差矩阵。该混合高斯模型可以利用一些事先产生的表情动画序列训练得到（WEISE,T.,BOUAZIZ,S.,LI,H.,AND PAULY,M.2011.Realtime performance-based facial animation.ACM Trans.Graph.30,4(July),77:1–77:10.）。该高斯混合模型可以描述用于帧间连续性的一个能量：

E_prior=-lnp(a,A_n)；

其中，E_prior我们称之为动画先验能量，p(a,A_n)是上述的高斯混合模型。

本发明将该能量与匹配能量结合起来，形成了最终的能量描述：

E_f=E_t+ω_priorE_prior；

其中ω_prior是权重系数，用于权衡跟踪准确性和时域连续性，E_t是上述的匹配能量，E_prior是动画先验能量。本发明利用两步迭代的方法来对能量E_f进行优化。在第一步中使用上一帧的表情系数a作为当前帧的初始值并保持不变，然后对对应点对分布的协方差矩阵利用奇异值分解（SVD）计算刚性姿势，即变换矩阵M。然后在第二步中本发明固定M，然后利用梯度下降法来计算表情系数a。本发明迭代执行这两步，直到结果收敛，通常情况下经过两次迭代就可以得到满意的结果。得到了人脸姿势和表情的参数化表达后，我们就可以得到对应的用户三维人脸形状，结果如附图4所示。

5.替身驱动：将人脸姿势和表情参数映射到虚拟替身上，用以驱动动画角色进行人脸动画。

得到了参数化后的人脸姿势和表情系数，本发明可以将其映射到虚拟替身上。对于替身的表情融合模型{D₀,D₁,D₂,...,D₄₆}，本发明将参数化后的姿势M和表情系数a映射到该替身上，即如下式所述：

D = M (D_{0} + Σ_{i = 1}^{46} α_{i} D_{i});

其中M是人脸姿势的变换矩阵，D₀是该用户的自然表情人脸形状D₁,D₂,...,D₄₆是表情融合模型中的其他基本表情人脸形状，α_i是基本表情的系数，而D则是最终替身的人脸形状。

这样就完成了对动画角色的驱动，结果如附图5所示。

实施例

发明人在一台配备Intel Core i7（3.5GHz）中央处理器的台式计算机，及一个以30fps提供640×480分辨率的网络摄像头上实现了本发明的实施实例。实施中使用具体实施方式中提及的参数设置，得到了附图中的结果。实践中在普通电脑上只需要少于15毫秒的时间即可完成一帧的捕获、参数化和替身映射。

发明人邀请了一些用户来测试本方法的原型系统。结果表明，在我们目前的硬件配置上，本发明可以实时的处理各种大幅度的姿势旋转，各种夸张的表情，得到与用户输入非常接近的动画效果，具有很好的用户体验。同时，在不同的光照条件下，如办公室，阳光直射的室外，光线较暗的宾馆房间，本发明都可以得到满意的结果。

Claims

1.一种基于单个视频摄像机的实时人脸动画方法，其特征在于，包括以下步骤：

(1)图像采集和标定：利用视频摄像机拍摄用户的多幅具有不同姿势和表情的二维图像，对每个图像利用二维图像回归器得到对应的二维人脸特征点，对自动检测得到的不准确特征点进行手动调整；

(2)数据预处理：利用标定好二维人脸特征点的图像，进行用户表情融合模型生成和摄像机内部参数标定，并由此得到图像的三维特征点；利用三维特征点和步骤1采集的二维图像，训练获得从二维图像到三维特征点的回归器；所述进行用户表情融合模型生成具体为，使用两步来计算用户表情融合模型，在第一步中，对图像采集和标定中采集的每一个图像，找到一个变换矩阵Μ_i、个体系数和表情系数生成三维人脸形状，使得其相应的三维特征点在图像上的投影与标定的二维特征点吻合；在第二步中，固定第一步中得到每个图片的变换矩阵Μ_i和表情系数同时在所有图像上计算一致的个体系数所述进行摄像机内部参数标定具体为：对针孔照相机模型进行简化假设，将其简化到只包括一个未知参数，使用二分法来确定照相机参数；

(3)三维特征点跟踪：用户使用视频摄像机实时输入图像，对于输入的图像，结合上一帧的三维人脸特征点，利用步骤2中得到回归器，实时定位当前帧中三维人脸特征点；

(4)姿势表情参数化：利用三维人脸特征点位置，结合步骤2中得到的用户表情融合模型，迭代优化以得到人脸姿势和表情的参数化表达；

(5)替身驱动：将人脸姿势和表情参数映射到虚拟替身上，用以驱动动画角色进行人脸动画。

2.根据权利要求1所述的实时人脸动画方法，其特征在于，所述步骤1主要包括以下子步骤：

(1.1)用户模仿做出相应表情和姿势，包括15种自然表情下的不同人头姿势，和3个姿势下的15种不同表情，共60组不同的姿势表情数据，利用视频摄像机拍摄相应的二维图像；

(1.2)利用二维图像回归器对每一个二维图像分别进行自动的二维人脸特征点标定；

(1.3)用户对自动标定的人脸特征点中不满意的部分，对其进行简单的拖拽操作，进行人工修复。

3.根据权利要求1所述的实时人脸动画方法，其特征在于，所述步骤2主要包括以下子步骤：

(2.1)利用已有的三维人脸表情数据库，对于每一个标定了二维人脸特征点的二维图像进行拟合，使用最小二乘方法计算相应的刚性参数、个体系数和表情系数；之后对所有二维图像进行统一优化，得到统一的个体系数，计算得到用户的表情融合模型；

(2.2)对针孔照相机模型进行简化假设，将其简化到只包括一个未知参数，使用二分法来确定照相机参数；

(2.3)基于上述步骤得到的用户表情融合模型和照相机参数，拟合每个图像中人脸刚性参数和表情系数，得到三维人脸特征点位置；其后对二维图像和其对应的三维特征点进行数据增强操作；

(2.4)利用步骤2.3中生成的二维图像和三维人脸特征点，训练获得一个利用二维图像信息生成三维人脸特征点的回归器。

4.根据权利要求1所述的实时人脸动画方法，其特征在于，所述步骤3主要包括以下子步骤：

(3.1)运行时，先使用上一帧的三维特征点，通过一个刚性变换，将其转换到原训练数据中与其最接近的特征点位置，然后在原训练数据中的三维特征点中找到一组与转换后特征点最接近的一组特征点作为初始特征点；

(3.2)对每个当前特征点，根据特征点位置，在当前帧图像上采样得到外观向量；

(3.3)在每个原子分类器中，根据序列对在步骤3.2中外观向量计算对应的特征值，并根据特征值定位相应的分类，并使用分类中对应的输出更新当前特征点位置；依次通过所有的原子分类器，得到了回归器给出的输出结果；

(3.4)对每个初始特征点，用步骤3.2和步骤3.3得到定位的结果，然后对这些结果取中值操作，得到最终的结果。

5.根据权利要求4所述的实时人脸动画方法，其特征在于，所述步骤4主要包括以下子步骤：

(4.1)保持表情系数不变，利用奇异值分解算法计算当前人脸形状的刚性姿势，使得形状上对应的特征点与权利要求4中描述的三维人脸特征点之间的误差最小；

(4.2)保持姿势不变，利用梯度下降算法，拟合当前表情系数，使得形状上对应的特征点与权利要求4中描述的三维人脸特征点之间的误差最小；

(4.3)迭代执行步骤4.1和4.2直到收敛，最终得到参数化的人脸姿势系数和表情系数。

6.根据权利要求1所述的实时人脸动画方法，其特征在于，所述步骤5主要包括以下子步骤：

(5.1)将参数化的表情系数映射到替身的表情融合模型上，生成对应的人脸表情形状；

(5.2)为生成的人脸表情形状赋予参数化的姿势，得到与用户输入图像匹配的人脸动作。