CN109325995B

CN109325995B - 基于人手参数模型的低分辨率多视角手部重建方法

Info

Publication number: CN109325995B
Application number: CN201811071125.8A
Authority: CN
Inventors: 陈欣; 李玉玮; 张迎梁
Original assignee: Plex VR Digital Technology Shanghai Co Ltd
Current assignee: Plex VR Digital Technology Shanghai Co Ltd
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2022-11-25
Anticipated expiration: 2038-09-13
Also published as: CN109325995A

Abstract

基于人手参数模型的低分辨率多视角手部重建方法，包括：采集人体整体的多视角图像；提取掩膜、二维关节点，转换成三维骨骼点；对人手参数模型进行动作形变，得到人手动作变形模型；优化人手参数模型的形状参数，得到人手形状变形模型；骨骼点与模型反向投影到各多视角图像，优化更新已有的二维骨骼点与掩膜，得到最终手部模型；和所述人体模型拼接。本发明的整个过程自动完成，表达手势动作与形状特征准确，重建精度高，将手部模型与人体模型进行拼接重组，得到更准确完整的模型效果。

Description

基于人手参数模型的低分辨率多视角手部重建方法

技术领域

本发明涉及计算机图形中学的人手三维重建领域，具体地说是一种基于人手参数模型的低分辨率多视角手部重建方法。

背景技术

高质量的人体三维重建技术一般需要基于复杂的多视角相机系统，或者深度传感器系统。但无论是彩色相机还是深度传感器，当人的手势动作稍微复杂，这种重建系统下就会出现手指缺失或者手部噪声多的情况，这是完整采集人体模型的重要挑战，而本方法可以在不影响人体模型采集设定的同时，大幅度提高人手模型的重建精度，恢复出高质量的人手模型与人体融合。

对彩色相机而言，多视角人体重建需要基于图片的特征点匹配，当人体完整的出现在整个画面时，手部的区域往往只占“很小”的比例；而过低的分辨率以及本就相似的手部特征都会影响其特征点匹配结果。对深度传感器而言，当人体被其完整捕捉时，根据人体身高不同和传感器视场角差异，人需要距离传感器3～4米以上，常见深度传感器，如Kinect也只有0.5～4.5米的有效检测范围；同时，手部的几何结构复杂且精细，稍有偏差就将导致手指丢失和引入大量噪声。人手关节灵活，动作复杂，基于视觉的重建过程，会受手的自身遮挡和双手的相互遮挡的影响，进而加大了复杂手势高精度人体重建的难度。

CN201810140587.4号专利申请公开了一种基于双目彩色成像系统的立体人手3D骨架模型实时重建方法，双目彩色成像系统用于拍摄人手，得到两张同一只手不同视角的彩色图片；方法包括：检测手位置；检测手平面关键点；根据双目图像中关键点的平面位置恢复三维坐标；利用所述关键点的三维坐标拟合三维人手骨架。该方法仅使用双目彩色图像即可对手进行3D重建。

CN201110235370X号专利公开了一种三维手势运动重建方法和系统，包括：对采集的手势图像序列的第一帧图像进行区域分割；生成各分割区域的仿射变换矩阵；生成三维至二维投影系数，根据该投影系数和该的仿射变换矩阵，得出与该第一帧图像对应的三维手势模型；对得到的与该第一帧图像对应的三维手势模型，确定其骨架节点和该骨架节点的自由度；针对后续各帧图像，基于与前一帧图像对应的三维手势模型的骨架节点和该自由度，结合当前帧图像进行模拟退火粒子滤波运算，得出当前帧图像的三维手势模型，从而实现对三维手势的重建。

发明内容

本发明为解决现有的问题，旨在提供一种基于人手参数模型的低分辨率多视角手部重建方法。

为了达到上述目的，本发明采用的技术方案包括如下步骤：

步骤一，构建人手参数模型；采集人体整体的多视角图像，并建立人体模型；

步骤二，提取多视角图像中人手的掩膜、二维关节点，并将其转换成三维骨骼点；

步骤三，根据三维人手骨骼点对人手参数模型进行动作形变，得到人手动作变形模型；

步骤四，基于所述掩膜、变形后的手部模型，优化人手参数模型的形状参数，得到人手形状变形模型；

步骤五，将人手形状变形模型的骨骼点与模型，反向投影到各多视角图像，优化更新已有的二维骨骼点与掩膜，得到最终手部模型；

步骤六，将最终手部模型和所述人体模型拼接。

进一步地，步骤二中，运用三角测量、集束调整算法以及骨架物理约束计算出三维骨骼点X，公式为：

argmin(E_proj+αE_pose)

其中，p表示关键点编号；v表示相机视角编号；

表示第f帧可见人手的相机视角集合；

为深度网络输出的可信度；P_v(·)为投影函数。

进一步地，步骤三中，根据手掌的三维骨骼点的位置分布计算整个手掌的变换矩阵，包括位移、旋转、缩放比例；再依次计算每个手指骨骼点的位移变换和旋转变换，得到人手动作变形模型。

进一步地，步骤四中，根据多视角图像的人手的掩膜分数图与人手动作变形模型，利用如下的多视角投影优化方程：

来优化人手参数模型的形状参数，使人手动作变形模型在各视角下的掩膜与输入接近，进而得到人手形状变形模型；

其中，V：检测到手的相机视角集合；N_V：该视角集合个数；s：形状优化参数的初始值；s'：形状优化参数的目标值；N_s：形变参数个数；p'：基于s'形变后的顶点位置；G_i：模型形变后第i视角下可见的p'顶点集合；NGi：对应G_i集合顶点个数；I_i ^m：第i视角下的人手掩膜分数图；

取该掩膜分数图对应位置的得分；M_i：第i视角的投影矩阵；l_p'：对应顶点p'所属于的手指类别；w_j：第j个形变参数所对应的三维骨架点的可信度。

进一步地，步骤五中，反向优化各视角视图的二维关节点与掩膜，将人手形状变形模型的三维骨骼点X投影到各视角进而得到二维骨骼点x，利用x生成骨骼位置图与原图片一起输入到关节点检测的深度网络中，结合条件随机场得到优化后的二维骨架点位置；将掩膜与原图片一起输入语义分割的深度网络中，同样利用条件随机场辅助优化，得到优化后的各视角的掩膜。

进一步地，步骤五之后，将步骤二、三和四重复迭代，直到人手模型参数优化的结果变化不大时则停止，得到最终手部模型。

进一步地，步骤六中，首先根据人体关节点检测的深度神经网络，来提取各视角图像上的二维关节点位置；然后恢复三维骨骼点位置；其次利用三维手肘骨骼点位置，驱动最终手部模型中手肘骨骼点的位置；最后将最终手部模型与人体模型中已存在的手与前臂进行精确匹配对齐，去除人体模型中已存在的手部区域，将最终手部模型与该人体模型拼接在一起。

和现有技术相比，本发明基于设定的一个人手参数模型，自动匹配参数模型与拍摄对象手部的动作参数、形状参数，以替换原有人体模型的手部区域；充分利用各视角的图片，保证了充足的人体信息输入；不仅仅利用图像的关键点检测进行人手模型的驱动，还结合语义分割算法，分割出各手指在图像上的区域，进行人手形状参数的优化，使人手形状更加精准；

本发明将形状与动作相结合，将人手关键点、人手语义分割结果作为输入，依次循环优化形状数据、动作数据，并在优化过程中，对二维关节点、三维骨骼点、语义分割等中间结果均进行了优化；明确了每一步优化过程的目标，对不同精度的数据输入都具有很好的鲁棒性；

本发明的整个过程自动完成，表达手势动作与形状特征准确，重建精度高，将手部模型与人体模型进行拼接重组，得到更准确完整的模型效果。

附图说明

图1为环形相机阵列的示意图；

图2为人手参数模型的示意图；

图3为本发明的一个实施例的流程示意图。

具体实施方式

现结合附图对本发明作进一步地说明。

参见图1至图3，图1至图3展示的是本发明的一个实施例。图1中为环形相机阵列，包括48个相机；本实施例利用该设备进行如下操作：

步骤一，数据采集。采用相机阵列拍摄一个人，人的四周为绿幕背景；通过拍摄得到此人在多个视角下的照片。随后利用多视角图片的特征点匹配算法以及集束调整算法重建得到手部精度较差的人体模型。特征点匹配算法以及集束调整算法均为现有技术，非本发明所重点论述对象。

参见图2，设置人手参数模型PH(Parametric Hand)；所述人手参数模型，具备人体手掌、手指的一般造型特征；但是缺乏特定动作和局部的细节。该人手参数模型可以根据需要进行动作、局部造型的改动。

步骤二，掩膜和骨骼点获取。利用深度神经网络获得图像上的手部掩膜和二维骨骼点x位置，运用三角测量、集束调整算法以及骨架物理约束计算出较为精确的人体三维骨骼点X，其公式为：

argmin(E_proj+αE_pose)

其中，p表示关键点编号；v表示相机视角编号；

表示第f帧可见人手的相机视角集合；

为深度网络输出的可信度；P_v(·)为投影函数。

步骤三，人手参数模型PH的动作驱动。参见图2，根据得到的人手三维骨骼点X，驱使人手参数模型，首先根据手掌三维骨骼点的位置分布计算整个手掌的变换矩阵(包括位移、旋转、缩放比例)，再依次计算每个手指骨骼点的位移变换和旋转变换，得到人手动作变形模型AHM(Animated Hand Model)。

步骤四，人手参数模型PH的形状参数优化；根据多视角图像的人手的掩膜分数图与人手动作变形模型，利用如下的多视角投影优化方程：

来优化人手参数模型的形状参数，使人手动作变形模型在各视角下的掩膜与输入接近，进而得到人手形状变形模型DHM；

其中，V表示检测到手的相机视角集合；N_V表示该视角集合个数；s表示形状优化参数的初始值；s'表示形状优化参数的目标值；N_s表示形变参数个数；p'表示基于s'形变后的顶点位置；G_i表示模型形变后第i视角下可见的p'顶点集合；NGi表示对应G_i集合顶点个数；I_i ^m表示第i视角下的人手掩膜分数图；

表示取该掩膜分数图对应位置的得分；M_i表示第i视角的投影矩阵；l_p'表示对应顶点p'所属于的手指类别；w_j表示第j个形变参数所对应的三维骨架点的可信度。

步骤五，反向优化各视角的二维骨骼点与掩膜。将人手形状变形模型DHM的三维骨骼点X投影到各视角得到二维骨骼点x，利用二维骨骼点x生成骨骼位置图与原图片一起输入到关节点检测的深度网络中，结合条件随机场，得到优化后的二维骨架点位置；将掩膜与原图片一起输入语义分割的深度网络中，同样利用条件随机场辅助优化，得到优化后的各角度的掩膜。

随后，重复迭代步骤二、三和四，次数为两至三次以上；到人手模型参数优化的结果变化不大时则停止迭代，得到优化好的最终手部模型FHM。

步骤六，将最终手部模型FHM与原有人体模型进行拼接处理，具体为：

根据人体关节点检测的深度神经网络，提取各视角图片上二维人体关节点位置。

采用与人计算手骨骼点相同的三角测量算法，恢复三维骨骼点x的位置。

利用三维手肘骨骼点位置，驱动最终手部模型FHM中手肘骨骼点的位置，基于点云迭代就近点算法，将最终手部模型FHM与人体模型中已存在的手与前臂进行精确匹配对齐，去除人体模型中已存在的手部区域，利用泊松表面重建算法将最终手部模型FHM与该人体模型拼接在一起，得到最终的融合后的人体模型。本发明的特点在于，基于一个人手参数模型可以自动匹配参数模型与拍摄对象手部的动作参数、形状参数，以替换原有人体模型的手部区域。

整个过程自动完成，表达手势动作与形状特征准确，重建精度高，将手部模型与人体模型进行拼接重组，得到更准确完整的模型效果。

上面结合附图及实施例描述了本发明的实施方式，实施例给出的并不构成对本发明的限制，本领域内熟练的技术人员可依据需要做出调整，在所附权利要求的范围内做出各种变形或修改均在保护范围内。

Claims

1.一种基于人手参数模型的低分辨率多视角手部重建方法，其特征在于包括如下步骤：

步骤六，将最终手部模型和所述人体模型拼接。

2.根据权利要求1所述的一种基于人手参数模型的低分辨率多视角手部重建方法，其特征在于：步骤二中，运用三角测量、集束调整算法以及骨架物理约束计算出三维骨骼点X，公式为：

argmin(E_proj+αE_pose)

其中，p表示关键点编号；v表示相机视角编号；

表示第f帧可见人手的相机视角集合；

为深度网络输出的可信度；P_v(·)为投影函数。

3.根据权利要求1所述的一种基于人手参数模型的低分辨率多视角手部重建方法，其特征在于：步骤三中，根据手掌的三维骨骼点的位置分布计算整个手掌的变换矩阵，包括位移、旋转、缩放比例；再依次计算每个手指骨骼点的位移变换和旋转变换，得到人手动作变形模型。

4.根据权利要求1所述的一种基于人手参数模型的低分辨率多视角手部重建方法，其特征在于：步骤四中，根据多视角图像的人手的掩膜分数图与人手动作变形模型，利用如下的多视角投影优化方程：

5.根据权利要求1所述的一种基于人手参数模型的低分辨率多视角手部重建方法，其特征在于：步骤五中，反向优化各视角视图的二维关节点与掩膜，将人手形状变形模型的三维骨骼点X投影到各视角进而得到二维骨骼点x，利用x生成骨骼位置图与原图片一起输入到关节点检测的深度网络中，结合条件随机场得到优化后的二维骨架点位置；将掩膜与原图片一起输入语义分割的深度网络中，同样利用条件随机场辅助优化，得到优化后的各视角的掩膜。

6.根据权利要求1、2、3、4或5所述的一种基于人手参数模型的低分辨率多视角手部重建方法，其特征在于：步骤五之后，将步骤二、三和四重复迭代，直到人手模型参数优化的结果变化不大时则停止，得到最终手部模型。

7.根据权利要求6所述的一种基于人手参数模型的低分辨率多视角手部重建方法，其特征在于：步骤六中，首先根据人体关节点检测的深度神经网络，来提取各视角图像上的二维关节点位置；然后恢复三维骨骼点位置；其次利用三维手肘骨骼点位置，驱动最终手部模型中手肘骨骼点的位置；最后将最终手部模型与人体模型中已存在的手与前臂进行精确匹配对齐，去除人体模型中已存在的手部区域，将最终手部模型与该人体模型拼接在一起。