CN111968217B

CN111968217B - 基于图片的smpl参数预测以及人体模型生成方法

Info

Publication number: CN111968217B
Application number: CN202010609612.6A
Authority: CN
Inventors: 王文东; 张继威; 徐岩
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-05-18
Filing date: 2020-06-29
Publication date: 2021-08-20
Anticipated expiration: 2040-06-29
Also published as: CN111968217A

Abstract

本发明公开了一种基于图片的SMPL参数预测以及人体模型生成方法，涉及机器学习、计算机视觉以及三维重建领域。本发明包括：预测SMPL的形态参数，对输入图像通过带有特征融合以及注意力机制的深度神经网络提取人体轮廓，再对人体轮廓的图片预测形态参数，并基于建立的人体形态与形态参数的映射函数进行微调；利用多阶段的姿态参数预测网络对输入的图像预测SMPL的姿态参数，其中利用2d关节点坐标、相机参数与3d关节点坐标训练和预测网络；通过SMPL转换函数获得最终的三维人体模型。本发明充分利用了相机信息和3d信息，提升了人体轮廓提取效果和姿态参数预测效果，提升了三维模型对图片人体形态的拟合效果，具有普适性。

Description

基于图片的SMPL参数预测以及人体模型生成方法

技术领域

本发明涉及机器学习、计算机视觉以及三维重建领域，具体涉及一种基于图片的SMPL(Skinned Multi-Person Linear)参数预测以及人体模型生成方法。

背景技术

三维模型如今在虚拟现实、3d游戏、虚拟试衣等多个领域有广泛的应用，目前大规模三维人体建模仍依靠激光雷达和深度相机等硬件设备，这类方法主要缺点在于受限于室内环境，无法摆脱现实中笨拙的硬件设备的束缚，不具有便携性。也有一些方法选择采用深度相机作为图像采集设备，利用深度相机拍摄建模对象图片，将SMPL模型与点云图结合从而达到三维人体建模的目的。这类方法相比扫描方案硬件要求进一步降低，但目前深度相机仍然未达到普及状态，并不利于大规模的推广。还有一些方法采用自然图片从多个角度拍摄建模对象图像进行三维重建，这类方法相比利用硬件设备的方法较为便捷，但这类方法存在预处理繁杂、计算量较大、人工调参成本大且普适性不强等问题。

随着深度学习技术的发展，我们能从图片中获得越来越多的信息，避免了复杂硬件设备的使用，同时深度学习技术可以充分学习图片信息，避免人工设计的普适性不强的问题。人体三维模型通常通过上千长度的向量来表示一个具体的人体模型，这并不适合作为深度学习的输出结果。

Pavlakos G,Zhu L,Zhou X,et al.Learning to Estimate 3D Human Pose andShape from a Single Color Image[J].2018.

Georgios Pavlakos在2018年的论文《Learning to Estimate 3D Human Poseand Shape From a Single Color Image》中提出了端到端的预测SMPL参数的网络，输入一个彩色图像，使用2D姿势数据进行训练，预测出2D关节点坐标热图及人体轮廓图，用PosePrior、ShapePrior两个子网络分别处理关节点热图以及人体轮廓图来估计预测SMPL姿态参数θ以及SMPL形态参数β。Mohamed Omran在2018年的论文《Neural Body Fitting:Unifying Deep Learning and Model Based Human Pose and Shape Estimation》中提出了另一种端到端的预测SMPL参数的网络，输入一个彩色图片，首先预测身体部位分割图，然后利用身体部位分割图预测SMPL参数。上述方法虽然都采用深度学习技术，以图片作为输入，避免了复杂设备使用以及人工调参成本大的问题，但同样存在以下缺点：1)需要提取人体轮廓用于预测SMPL形态参数，但往往对整张图或者各层卷积统一对待，没有侧重点，导致人体轮廓提取效果一般；2)多基于2d信息，如2d关节点信息，很少关注图片中包含的3d信息如3d关节点信息，相机参数等；3)多研究如何从图片预测对应的SMPL参数，缺少对SMPL参数的研究，无法通过一些手段调整三维模型的生成效果。

发明内容

本发明针对目前采用深度学习技术进行人体三维模型构建时，对采集的图片中3d信息应用较少，缺少对SMPL参数的研究，无法调整人体三维模型生成效果，不能适应复杂多变的现实场景等问题，提供了一种基于图片的SMPL参数预测以及人体模型生成方法。

本发明提供的基于图片的SMPL参数预测以及人体模型生成方法，实现步骤包括：

对输入的图像进行SMPL的形态参数β的预测，包括：首先对输入图像通过带有特征融合以及注意力机制的第一深度神经网络提取人体轮廓，根据提取的人体位置坐标以及轮廓坐标对输入图像进行裁剪，获得单张或多张人体轮廓的图片；对每张人体轮廓的图片利用第二深度神经网络进行形态参数β的预测；然后对预测的形态参数β基于建立的人体形态与形态参数的映射函数进行微调；

对输入的图像进行SMPL的姿态参数θ的预测，包括：将输入图像输入第三深度神经网络，获得人体的2d关节点坐标；将2d关节点坐标分别输入第四深度神经网络以及第五深度神经网络，由第四深度神经网络输出相机参数，由第五深度神经网络输出3d关节点坐标；将3d关节点坐标输入第六深度神经网络，输出预测的姿态参数θ；

利用最终预测得到的β和θ通过SMPL转换函数转化得到最终的三维人体模型。

相对于现有技术，本发明的优点与积极效果在于：

(1)本发明采用带有特征融合以及注意力机制的目标分割方法提取人体轮廓，避免了其余背景以及非人体物体等杂乱信息对结果的影响，实现对图片中多人物的分割，提升了人体轮廓提取效果，提升了对复杂场景的处理能力；

(2)本发明增加了对预测的形态参数的微调过程，通过身高体重、臂长腿长等常用描述数值对SMPL参数的进行微调，相比以往方法，提升了所生成的三维模型对图片人体形态的拟合效果；

(3)为提升对姿态预测的效果以及泛化能力，相比以往方法，本发明设计了多种深度神经网络参与姿态预测过程，构成多阶段的姿态参数预测网络，充分利用室内3d关节点坐标标注数据以及室外2d关节点坐标标注数据，各个深度神经网络之间的训练过程相互独立，即使只有部分标注的数据也可以得到充分利用，并采用多种损失函数提升了姿态参数预测效果；

(4)本发明中所用的深度神经网络通过数据集训练，学习从图片输入到SMPL参数的映射关系，能利用各种场景(如室内室外场景)以及各种姿态形态的人体图片数据集提升方法的普适性；训练数据集的规模提升可以有效提升本发明的泛化效果；

(5)本发明方法采取图片作为数据来源，避免了复杂硬件设备的使用，通过智能设备或相机能较为方便的获取人体图片数据。

附图说明

图1为本发明基于图片以及形态描述词进行三维重建的整体流程图；

图2为本发明中SMPL模型的形态参数预测流程图；

图3为本发明使用的带有注意力机制的目标分割操作网络示意图；

图4为本发明中SMPL模型的形态参数微调流程图；

图5为本发明中SMPL模型的姿态参数预测流程图；

图6为本发明的三维模型生成流程示意图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

首先，为了帮助理解本发明技术方案，对本发明所涉及的部分名词进行说明。

SMPL模型：一种通过数据学习而来的参数化人体模型。该模型仅仅通过长度为10的形态参数β以及长度为72的姿态参数θ就能表述人体模型，更适合作为深度学习输出。其核心是顶点变换；SMPL模型将所有模型姿态以及体型都统一为基于标准模型的变换，变换程度通过SMPL参数表示，变换过程通过变换函数实现；而SMPL参数包括了负责控制形态变化的形态参数β以及负责控制姿态变化的姿态参数θ，一旦两参数确认就可以通过SMPL变换函数得到具体的人体模型。SMPL变换函数的输入为姿态参数θ以及形态参数β，输出为包含6890个顶点以及13776个三角面的网格。基于SMPL模型，三维人体模型定义为M(β，θ)，如下：

其中，

为原始三维模型的顶点坐标，B_s和B_p分别是在姿态参数θ和形态参数β影响下的形变，

是经过形态关节点变换后对应形态下的新模型关节点，W(*)代表线性蒙皮函数，输入模型顶点T_p，关节点位置J，新姿态θ等参数，输出新姿态新形态下模型顶点。

深度神经网络学习训练过程：深度神经网络训练由正向传播过程和反向传播过程构成，两过程交替执行。在正向传播过程中，输入信息通过深度学习网络各个层逐层处理(输入向量与各层权重进行向量操作得到新的向量值)，最终传向输出层得到深度神经网络的输出值，这一完整过程称之为正向传播过程。经过正向传播后，得到的最终输出与期望输出存在一定偏差，在反向传播过程中，通过损失函数计算该偏差值，从输入到输出反向逐层求出损失函数对各层权值的偏导数，构成损失函数对权值向量的梯量，作为修改权值的依据，网络的学习在权值修改过程中完成。误差达到所期望值时，网络学习训练结束。

深度神经网络推断过程：深度神经网络推断过程只包含正向传播过程，训练完毕后各个计算层固定下来的权重简称为网络权重。利用网络权重以及正向传播过程，可以实现输入特定数据，输出深度神经网络所定义的特定输出，这一过程称之为深度神经网络推断过程。

损失函数：用于估计模型的预测输出值和真实值之间的差异，是一个非负实值函数。其中模型的损失函数越小，模型的预测效果越好。

标注数据：在深度神经网络训练过程作为输入所对应输出的真实值，通过损失函数可以计算预测输出值和标注数据的差异，本发明中的标注数据是指人体图像所对应的真实值，主要包括SMPL参数、2d关节点坐标、3d关节点坐标、人体轮廓中的一个或多个。

如图1所示，本发明的基于图片的SMPL参数预测以及人体模型生成方法整体包括三个部分：形态参数预测过程，姿态参数预测过程以及三维人体模型生成过程。下面依次说明各部分的实现。

本发明中对输入的图片的大小和类别不做任何要求，输入的图片分别经过形态参数预测过程以及姿态参数预测过程得到SMPL形态参数β以及SMPL姿态参数θ，最后利用获得的β和θ生成人体三维模型。

如图2所示，SMPL形态参数β的预测过程包括目标分割过滤过程，SMPL形态参数预测过程以及形态参数调整过程。

如图3所示，首先对输入的图像进行目标分割过滤，具体是通过带有特征融合以及注意力机制的深度神经网络一实现人体轮廓的提取。输入的图像经过多层卷积后进行特征融合。特征融合是指将多层卷积的输出特征图，融合在一起，构成一个新的多通道特征图，一种可行的实验方案，针对resnet五层的卷积结构，将五层卷积结构输出的五份特征图逐通道进行拼接得到新的多通道特征图。其次引入注意力机制，包含两方面，一是通道式注意力机制，针对经过特征融合得到的多通道特征图，通过通道加权机制，加强多重要通道的信息弱化不重要通道的信息。所谓通道加权机制是指训练过程中针对多通道特征图训练得出各通道的权重向量，根据权重对多通道特征图进行加权计算得到新的特征图；二是候选框注意力机制，该机制是指通过遍历全图得到不同大小的候选框，对每个候选框进行预测，判断候选框内是否包含人体，只保留可能包含人体的候选框，对于不包含人的候选框不在进一步处理；通过这一筛选过程确定人体在原图中的大致框范围，将深度神经网络的预测注意力集中于该范围框内，避免被其余区域杂乱信息干扰，提升人体轮廓的预测效果，通过目标分割过程得到人体轮廓图。如图3所示，本发明实施例中，利用子网络一判断候选框内是否包含人体，输出可能包含人体的候选框，然后利用子网络二对包含人体的候选框进行人体位置坐标以及轮廓坐标的检测，最后输出图片中人体所处的位置坐标以及轮廓坐标。最后结合识别的每个人体位置坐标以及轮廓坐标对输入图像进行裁剪等操作，输出识别的单张或多张单个人体轮廓的图片。本发明的目标分割过滤具有广泛的应用，对于简单场景(如包含单人的图片)可以很好地过滤背景，只保留人体轮廓，避免背景对后续流程效果的影响。对于复杂场景(如包含多人的图片)可以很好地分离图片中的人体，将多人图片分割为多张单人图片，分别对每场图片进行处理，化复杂为简单，使后续流程只关注单一人体的形体，不会相互之间造成影响。本发明对目标分割过程中包含深度神经网络一，只指明包含上述几种结构特点，对其网络具体结构不进行限定。

本发明实施例中，遍历全图得到多种大小尺寸的候选框，利用子网络一来识别候选框中的物体类别是否包含人体，利用子网络二识别包含人体的候选框中人体位置坐标以及轮廓坐标，即获得人体剪影，通过人体剪影对原图裁剪，剪去无用的背景信息，只保留占比较高的人体，最后将每张包含人体的图片的长宽比放缩到深度神经网络二输入所需的大小，即先将最长边调整到预设值，短边不足部分用零值进行填充。

SMPL形态参数预测过程以人体轮廓图作为输入，通过深度神经网络二实现SMPL形态参数β预测。该过程不对深度神经网络结构进行硬性要求，一种可行的方案是采用reset-50网络实现从人体轮廓图到SMPL形态参数。如图2所示，将识别的人体轮廓图片输入深度神经网络二，经过深度神经网络二的推断过程，输出SMPL形态参数β。深度神经网络二实现输入人体轮廓图输出SMPL形态参数的功能，首先需要利用标注数据完成学习训练过程，学习完毕后固定下来网络权重。在训练阶段，标注数据是标注了形态参数的人体轮廓图，利用损失函数来对深度神经网络二进行训练。

为提升本发明所生成的三维模型对图片人体形态的拟合效果，相比以往方法，在形态参数预测阶段，本发明增加形态参数调整过程。如图4所示，在利用深度神经网络二预测得到SMPL形态参数β后，利用调整公式对β进行微调，最终输出调整后的SMPL形态参数β。该过程为本发明新提出的方法，主要希望建立形态描述常用数据与SMPL形态参数β的联系，以此利用这些常见数据能够微调SMPL形态参数β。一种可能的实施方式中，将身高体重与SMPL形态参数β的前两个参数进行关联，如形态参数1可以与身高挂钩，具体映射函数如公式(1)所示。

其中，β₁表示形态参数1；height表示身高，单位为cm；height_center表示与形态参数1为0时对应的身高，单位为cm，针对男女差异，本发明实施例中height_center分别选用175cm和160cm；factor_height为身高相关的变换系数，可由经验设置。

如形态参数2可以与体重挂钩，具体如公式(2)和(3)所示。

其中，weight_center表示height对应的标准体重，单位为kg，也表示与形态参数2为0时对应的体重，单位为kg；height表示身高，单位为cm；BMI表示身体质量指数。

其中，β₂表示形态参数2；weight表示体重，单位为kg；weight_center通过公式(3)计算得到；factor_weight为体重相关的变换系数，可由经验设置。

利用建立的常用形态描述数值，如身高体重、臂长腿长等信息对形态参数β进行微调。

如图5所示，对输入的图片进行SMPL姿态参数θ的预测。首先，通过2d关节点预测过程，经过深度神经网络三的推断过程得到图片中人体的2d关节点坐标；将2d关节点分别送入深度神经网络四以及深度神经网络五，得到相机参数以及3d关节点坐标；将3d关节点坐标送入深度神经网络六，得到SMPL姿态参数θ。上述过程采用多种深度神经网络，所有深度神经网络都需要利用标注数据完成学习训练过程，学习训练完毕后固定下来网络权重，通过深度神经网络推断过程，实现各个网络的输入输出功能。多种深度神经网络参与姿态预测过程，可以有效利用标注数据进行学习监督，本发明充分利用室内3d关节点坐标标注数据以及室外2d关节点坐标标注数据。具体损失函数设置如下：根据深度神经网络三预测的2d关节点坐标，以及标注数据中的2d关节点坐标，计算损失函数二，通过该损失函数训练深度神经网络三；根据深度神经网络四预测的相机参数，以及标注数据中的相机参数，计算损失函数三，通过该损失函数训练深度神经网络四；根据深度神经网络五预测的3d关节点坐标，以及标注数据中的3d关节点坐标，计算损失函数四，通过该损失函数训练深度神经网络五；根据深度神经网络六预测的SMPL姿态参数，以及标注数据中的SMPL姿态参数，计算损失函数五，通过该损失函数训练深度神经网络四、五、六；由预测得到的3d关节点坐标以及相机参数，通过投影计算可以得出其对应的2d关节点坐标，再结合标注数据中心的2d关节点坐标，计算损失函数六，通过该损失函数训练深度神经网络四、五、六。计算损失函数二来训练深度神经网络三时主要使用室外2d关节点标注数据，深度神经网络三的输入为图片，输出为人体2d关节点坐标。计算损失函数三-五来训练深度神经网络四-六时主要使用室内3d关节点标注数据，计算损失函数六来训练深度神经网络四-六时主要是用室外2d关节点标注数，深度神经网络四的输入是人体2d关节点坐标，输出为相机参数；深度神经网络五的输入为人体2d关节点坐标，输出为人体3d关节点坐标；深度神经网络六的输入为人体3d关节点坐标，输出SMPL姿态参数θ。本发明采用多种深度神经网络构成的多阶段网络结构，各个深度神经网络之间的训练过程相互独立，即使只有部分标注的数据也可以得到充分利用，如图片和2d关节点的标注数据，可只用于2d关节点预测过程的深度神经网络训练；如图片、2d关节点、3d关节点以及SMPL姿态参数θ的标注数据可以用于所有深度神经网络的训练。训练数据集的规模提升可以有效提升本发明的泛化效果。针对不同的预测输出以及标注数据设计不同的损失函数，提升网络的监督学习效果，充分利用标注数据的信息，提升本发明的普适性。本发明对姿态参数预测过程中所涉及的深度神经网络，不对其结构进行限定。

如图6所示，在通过上述步骤得到的SMPL形态参数β以及姿态参数θ后，通过SMPL转换函数将参数转化得到最终的三维人体模型。

Claims

1.一种基于图片的SMPL参数预测以及人体模型生成方法，对输入的图像分别进行SMPL的形态参数β与姿态参数θ的预测，再利用β和θ生成人体三维模型；其特征在于：

所述的形态参数β的预测为：首先对输入图像进行目标分割过滤提取人体轮廓，根据提取的人体位置坐标以及轮廓坐标对输入图像进行裁剪，获得单张或多张人体轮廓的图片；对每张人体轮廓的图片利用第二深度神经网络进行形态参数β的预测；然后对预测的形态参数β基于建立的人体形态与形态参数的映射函数进行微调；

所述的姿态参数θ的预测为：将输入图像输入第三深度神经网络，获得人体的2d关节点坐标；将2d关节点坐标分别输入第四深度神经网络以及第五深度神经网络，由第四深度神经网络输出相机参数，由第五深度神经网络输出3d关节点坐标；将3d关节点坐标输入第六深度神经网络，输出预测的姿态参数θ。

2.根据权利要求1所述的方法，其特征在于，所述的对输入图像进行目标分割过滤提取人体轮廓，具体是通过带有特征融合以及注意力机制的第一深度神经网络提取人体轮廓，包括：将输入图像进行多层卷积后进行特征融合；所述的特征融合是将多层卷积的输出特征图融合在一起，构成一个新的多通道特征图；对特征融合后的多通道特征图进行通道加权，训练获得各通道的权重，对特征融合后的多通道特征图进行加权计算得到新的特征图；遍历全图获得候选框，对每个候选框进行预测，判断候选框内是否包含人体，只保留预测包含人体的候选框；检测输出候选框中人体位置坐标与轮廓坐标，并根据输出的坐标对输入图像进行裁剪，输出单个人体轮廓的图片。

3.根据权利要求2所述的方法，其特征在于，所述的特征融合是指将每层卷积输出的特征图进行逐通道拼接得到新的多通道特征图。

4.根据权利要求1或2所述的方法，其特征在于，所述的对形态参数β进行微调，包括：

建立SMPL形态参数β中的形态参数1与身高的映射函数，如下：

其中，β₁表示形态参数1；height表示身高；height_center表示与形态参数1为0时对应的身高；factor_height为身高相关的变换系数；

建立SMPL形态参数β中的形态参数2与体重的映射函数，如下：

其中，β₂表示形态参数2；weight_center表示height对应的标准体重，是与形态参数2为0时对应的体重；BMI表示身体质量指数；weight表示体重；factor_weight为体重相关的变换系数。

5.根据权利要求1或2所述的方法，其特征在于，所述的第三深度神经网络、第四深度神经网络、第五深度神经网络以及第六深度神经网络进行相互独立的训练，利用标注了2d关节点坐标的图片训练第三深度神经网络，利用标注了相机参数的数据训练第四深度神经网络，利用标注了3d关节点坐标的数据训练第五深度神经网络，利用标注了SMPL姿态参数的数据训练第六深度神经网络；还利用预测得到的3d关节点坐标以及相机参数，通过投影计算得到对应的2d关节点坐标，再结合标注的2d关节点坐标，训练第四、第五和第六深度神经网络。