CN110472507A

CN110472507A - 基于深度残差网络的人手深度图像位姿估计方法及系统

Info

Publication number: CN110472507A
Application number: CN201910629662.8A
Authority: CN
Inventors: 李勇波; 赵涛; 谢中朝; 蔡文迪; 朱正东; 王畯翔
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-11-19

Abstract

本发明公开了一种基于深度残差网络的人手深度图像位姿估计方法及系统，该方法及系统首先输入人手深度图像到CNN模型中，利用该模型对输入的图像进行特征提取，得到人手特征图；其次，将提取得到的人手特征图输入到训练好的区域集成网络中，通过该网络进行人手姿态估计；其中，在所述区域集成网络中，将提取得到的人手特征图均匀分成若干个特征区域，将每个特征区域输入到回归模型进行人手位姿估计，通过融合每个特征区域的回归结果，最终回归出人手深度图像的人手位姿。该方法及系统充分提取了更优化、更具有代表性的人手特征，相较于其他方法人手位姿估计的精度更高。

Description

基于深度残差网络的人手深度图像位姿估计方法及系统

技术领域

本发明涉及机器学习、计算机视觉领域，更具体地说，涉及一种基于深度残差卷机网络并结合区域集成网络，研究人手深度图像位姿的估计方法及系统。

背景技术

随着计算机视觉技术的不断发展，人们开始追求更加自然和谐的人机交互方式，手部运动是人类交互的重要渠道，人手不仅可以表达语义信息，还可以定量的表达空间方向和位置信息，这将有助于构建更自然、高效的人机交互环境。因此基于视觉的多关节人手三维位姿估计与运动分析是一个重要的研究方向，旨在用计算机视觉方法以非接触方式从图像或图像序列中检测人手及其指关节的三维位姿。多关节人手三维位姿估计方法对增强/虚拟现实、智能机器人、辅助驾驶、医疗卫生等领域有着重要的意义。人机交互技术已经从以计算机为中心逐步转移到以人为中心，是一种全新的多种媒体、多种模式的交互技术。手是人体最为灵活的部位，相较其他交互方式而言，将手势作为人机交互的手段显得更加自然，因此手势识别技术是人机交互的一大研究点。

发明内容

本发明要解决的技术问题在于，针对现有技术识别强度弱的缺陷，提供一种基于深度残差卷积网络的人手深度图像的位姿估计方法，通过引用一种姿态引导的卷积神经网络结构，来克服现有的三维姿态估计方法从单张深度图回归出人手的三维位姿坐标的缺点。

本发明解决其技术问题所采用的技术方案是：构造一种基于深度残差网络的人手深度图像位姿估计方法，该方法包括以下步骤：

S1、输入人手深度图像到CNN模型中，利用该模型对输入的图像进行特征提取，得到人手特征图；

S2、将输入的人手深度图像作为训练样本，对区域集成网络进行训练，并将提取得到的人手特征图输入到训练好的区域集成网络中，通过该网络进行人手姿态估计；其中，在进行人手姿态估计时，所述区域集成网络中，将提取得到的人手特征图均匀分成若干个特征区域，将每个特征区域输入到回归模型进行人手位姿估计，通过融合每个特征区域的回归结果，最终回归出人手深度图像的人手位姿。

该方法中，基于步骤S2，克服了从单张深度图回归出人手的三维位姿坐标的缺点，通过对人手的关节区域进行特征提取，在利用区域集成网络中的全连接层，对提取得到的特征区域进行分层融合，使得估计出的三维人手姿态更加精准。

进一步的，步骤S2中，包括以下子步骤：

S21、所述CNN模型包括若干个卷积层，其中，将最后一个卷积层提取得到的特征图表示为F，根据在阶段t-1即t-1时刻，预估得到的人手位姿估计p^t-1，从特征图F中提取第一特征区域；

S22、在阶段t，采用矩形窗口对步骤S21提取得到的第一特征区域进行切割，得到若干个包含人手关节点的矩形区域，其中，所述矩形区域定义为和为人手关节点i所在矩形区域的左上角坐标点，w和h分别表示当前矩形区域的宽度和高度；将包含人手关节点i的特征区域表示为：

函数表示从人手深度图像提取的特征图F中，用矩形窗口裁剪出包含人手关节点的特征区域；

S23、所述区域集成网络包括若干个全连接层，利用所述全连接层，对步骤S22切割得到的若干个包含人手关节点的矩形区域进行融合，得到一个包括五根手指关节的融合特征区域，针对所述融合特征区域，利用回归模型R，回归出人手深度图像的人手位姿P^t。

进一步的，步骤S23中针对同一手指上的关节点，其中，切割得到的特征区域均通过全连接层l₁进行融合连接，得到第一融合特征区域；然后，针对每根手指融合得到的第一融合特征区域，将其集中输入到全连接层l₂进行特征区域融合，得到所述包括人手五根手指关节的融合特征区域。

进一步的，步骤S23中，将所有属于同一手指的关节点串联在一起，其中，用concate表示连接函数，串联后神经元将进一步通过全连接层l₂进行融合连接，得到不同手指的特征区域：

其中，为将五根手指关节的特征区域各自输入到全连接层l₁后，得到的五根手指的关节点坐标，M表示切割所得的矩形区域数量；第i^th个手指上的所有关节点表示为M_i表示第i^th个手指的关节点数量；FC(·)表示利用全连接层对输入的“·”进行计算，得到对应的关节点坐标；

将不同手指的特征区域串联后，在将其输入到的全连接层l₂中，回归出最终的人手位姿

其中，

进一步的，在区域集成网络模型的训练过程中，设定训练集合方程为T⁰：

其中，N_T表示训练样本即输入的人手深度图像的数量，D_i为输入的人手深度图像，P_i ⁰是人手的位姿初始估计值，P_i ^gt是人工标注的真实人手姿态三维坐标。

本发明提出的一种基于深度残差网络的人手深度图像位姿估计系统，该系统包括以下模块：

特征图提取模块，用于输入人手深度图像到CNN模型中，利用该模型对输入的图像进行特征提取，得到人手特征图；

人手位姿估计模块，用于将提取得到的人手特征图输入到训练好的区域集成网络中，通过该网络进行人手姿态估计；其中，在所述区域集成网络中，将提取得到的人手特征图均匀分成若干个特征区域，将每个特征区域输入到回归模型进行人手位姿估计，通过融合每个特征区域的回归结果，最终回归出人手深度图像的人手位姿。

进一步的，人手位姿估计模块中，包括以下子模块：

特征区域提取模块，用于将最后一个卷积层提取得到的特征图表示为F，根据在阶段t-1即t-1时刻，预估得到的人手位姿估计p^t-1，从特征图F中提取第一特征区域；

切割模块，用于在阶段t，采用矩形窗口对特征区域提取模块提取得到的第一特征区域进行切割，得到若干个包含人手关节点的矩形区域，其中，所述矩形区域定义为和为人手关节点i所在矩形区域的左上角坐标点，w和h分别表示当前矩形区域的宽度和高度；将包含人手关节点i的特征区域表示为：

人手位姿计算模块，用于对切割模块切割得到的若干个包含人手关节点的矩形区域进行融合，得到一个包括五根手指关节的融合特征区域，针对所述融合特征区域，利用回归模型R，回归出人手深度图像的人手位姿P^t。

进一步的，人手位姿计算模块中针对同一手指上的关节点，其中，切割得到的特征区域均通过全连接层l₁进行融合连接，得到第一融合特征区域；然后，针对每根手指融合得到的第一融合特征区域，将其集中输入到全连接层l₂进行特征区域融合，得到所述包括人手五根手指关节的融合特征区域。

在本发明所述的一种基于深度残差网络的人手深度图像位姿估计方法及系统中，通过对人手的关节区域进行特征提取，进行分层融合后，再进行三维人手姿态估计。

实施本发明公开的一种基于深度残差网络的人手深度图像位姿估计方法及系统，其中利用的人手姿态引导的结果区域集成网络，将预测的人手位姿估计作为引导信息，并将其反馈到特征图中，通过不断反馈误差，能够进一步学习到更好的人手特征。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明公开的人手深度图像位姿估计方法流程图；

图2是残差结构示意图；

图3是姿态引导结构化区域集成网络图；

图4是残差卷积网络模型；

图5-图10是利用三种不同数据集，所得的各个关节点的平均误差、人手位姿投影效果图；

图11是本发明公开的人手深度图像位姿估计系统结构图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

本发明为了解决一种姿态引导的卷积神经网络结构，该网络结构可以克服现有的三维姿态估计方法从单张深度图回归出人手的三维位姿坐标的缺点，对人手的关节区域进行特征提取，再将提取得到的特征图进行分层融合，最后再针对对融合后的特征图，进行三维人手姿态估计。

请参考图1，其为本发明公开的人手深度图像位姿估计方法流程图，具体包括以下步骤：

该CNN模型中，具体是利用卷积层对输入的人手图像进行特征提取，其中，通过参数共享和稀疏连接来提取人手特征；

本实施例中，该网络具有6个卷积层和2个残差连接，每个卷积核的大小为3*3，卷积核的个数分别为16、32、64，每个卷积层后面连接一个非线性激活函数ReLU，每两个卷积层后面连接一个最大池化层，残差连接位于两个最大池化层之间，防止深度网络梯度消失的问题，其中，残差结构详见图2。

本实施例中，卷积核用函数f_k表示，卷积核的大小用3*3表示，因此每个卷积核与人手图像x之间的连接数量为3*3，其中人手图像的长、宽大小分别为μ和ν，当前卷积层输出的计算结果为：

S2、对区域集成网络进行训练，并将提取得到的人手特征图输入到训练好的区域集成网络中，通过该网络进行人手姿态估计；其中：

在区域集成网络模型的训练过程中，设定训练集合方程为T⁰：

其中，N_T表示训练样本的数量，D_i为输入的人手深度图像，P_i ⁰是人手位姿估计初始值，P_i ^gt是深度图像的三维人手位姿。使用该训练集合模型，训练集合中每个样本，反复重复达到最大的迭代次数T。

请参考图3，其为姿态引导结构化区域集成网络图，本部分将结合该网络结果，对人手姿态估计过程进行详细说明，在所述区域集成网络中，首先，CNN模型中最后一个卷积层提取得到的特征图表示为F，根据在阶段t-1即t-1时刻，预估得到的人手位姿估计p^t-1，从特征图F中提取特征区域图；其中，在进行下一步操作时，对于第i^th个人手关节点，需将其对应的世界坐标点转化为像素坐标点：

其次，在利用矩形窗口将上述提取得到的特征区域图均匀分成多个网格区域，每个网格区域将被馈送到全连接层进行融合后，再进行人手位姿回归；其中，所述矩形区域定义为和为人手关节点i所在矩形区域的左上角坐标点，w和h分别表示当前矩形区域的宽度和高度；将包含人手关节点i的特征区域表示为：

最后，针对同一手指上的关节点，其中，切割得到的特征区域均通过全连接层l₁进行融合连接，得到第一融合特征区域；然后，针对每根手指融合得到的第一融合特征区域，将其集中输入到全连接层l₂进行特征区域融合，得到所述包括人手五根手指关节的融合特征区域；针对所述融合特征区域，利用回归模型R，回归出人手深度图像的人手位姿P^t。其中：

在上述级联的网络中，假设深度图像用D表示，三维人手位姿表示为

其中，J为人手关节点；在阶段t-1时，当前预测到的人手位姿估计的结果为p^t-1，整个回归模型R在阶段t进行人手位姿估计的预测结果表示为：

Pt＝R(P^t-1,D)；

在整个训练过程中，历经T个阶段后，可以得到输入深度图像D的最后人手位姿估计P^T：

P^T＝R(P^T-1,D)。

上述即为完整的人手位姿估计过程，在将人手五根手指关节的特征区域各自输入到全连接层FC中，利用concate连接函数将所有属于同一手指的关节点串联在一起，其中，串联后神经元将进一步通过全连接层l₂进行融合连接，得到不同手指的特征区域：

其中，为将五根手指关节的特征区域各自输入到全连接层l₁后，得到的五根手指的关节点坐标，M表示切割所得的矩形区域数量；第i^th个手指上的所有关节点表示为M_i表示第i^th个手指的关节点数量；

其中，

如图4所示，用于特征提取的卷积网络模型架构由6个3*3的卷积层组成，网络输入为128*128，将深度人手图像作为输入，每个卷积层后采用ReLU激活层进行非线性特征变换，残差结构分别连接在两个池化层之间，人手特征提取网络输出特征映射的维数为12*12*64。对于回归任务而言，本实施例使用两个2048维的全连接层，其中，用于人手位姿回归的每个全连接层的神经元的失活率为0.5，防止模型出现过拟合情况，最后的回归结果为3*J向量，该向量表示人手关节点的世界坐标，其中J表示人手关节的数量。

本实施例中，为了证明该算法评估的有效性，分别利用三个公开的数据集(ICVL，MSRA，NYU)进行效果对比。

整个模型训练周期为100，Batch size的大小设置为64，深度残差网络采用Adam梯度下降算法，学习率设置为0.0001；区域集成网络采用SGD梯度下降算法，学习率设置为0.005，每迭代2个周期，学习率缩小10倍，权重衰减为0.0005，动量为0.9。人手姿态引导的结构化区域集成网络采用SGD梯度下降算法，学习率设置为0.001，每迭代10个周期，学习率缩小10倍，权重衰减为0.0005，动量为0.9。

将预测的人手位姿和真实标准的人手位姿最大的关节点误差进行比较，其中，关节点的平均误差为：

针对以上运用到的3个不同的数据集，采用三种不同方法进行人手位姿估计，所述三种不同方法包括：包括深度残差卷积网络(简称ResNet-Hand)，区域集成网络(简称Multi-Region)和人手姿态引导结构化区域集成网络(简称Pose-Guide)，实现效果图请参考图5-图10。

图5中，利用NYU数据集，将上述三种方法的人手位姿估计精度做出了比较。其中，以人手中心点作为先验信息的方法得到人手位姿估计，深度残差卷积网络方法(ResNetHand)的平均误差为13.89mm，区域集成网络方法(Multi-Region)的平均误差为12.63mm，人手姿态引导结构化区域集成网络(Pose-Guide)的平均误差为11.49mm。当前显示，利用人手姿态引导结构化区域集成网络进行人手位姿估计的精度比其他两种方法带来的精度要高，具体原因是深度残差卷积网络相比浅层网络有更强的特征提取能力。区域集成网络通过合并特征图信息进行位姿估计，相比单个网络有更强的特征表达能力，人手位姿估计精度比ResNet-Hand方法更高。人手姿态引导的区域集成网络通过将先前的人手位姿估计的引导信息结合到特征图中，使得该网络能够学习到更好的特征。

图6显示的是利用NYU数据集，进一步展示了三维人手位姿估计在二维深度图像上的投影效果图，第一行为真实标注的人手关节点坐标(GT)在人手图像上的投影,第二行为运用深度残差卷积网络(ResNet-Hand)预测的人手关节点坐标在人手图像上的投影，第三行为运用区域集成网络方法(Multi-Region)预测的人手关节点坐标在人手图像上的投影。第四行人手姿态引导结构化区域集成网络(Pose-Guide)预测的人手关节点坐标在人手图像上的投影。

图7为利用MSRA数据集，将上述三种方法的人手位姿估计精度做出了比较结果。其中，以人手中心点作为先验信息的方法得到人手位姿估计，其中，深度残差卷积网络方法(ResNet-Hand)的平均误差为9.79mm，区域集成网络方法(Multi-Region)的平均误差为8.65mm，人手姿态引导结构化区域集成网络(Pose-Guide)的平均误差为8.58mm。

当前显示，利用人手姿态引导结构化区域集成网络进行人手位姿估计的精度比其他两种方法带来的精度要高。

图8表示三维人手位姿估计在MSRA测试集中二维深度图像上的投影效果图，第一行为真实标注的人手关节点坐标(GT)在人手图像上的投影,第二行为运用深度残差卷积网络(ResNet-Hand)预测的人手关节点坐标在人手图像上的投影，第三行为运用区域集成网络方法(Multi-Region)预测的人手关节点坐标在人手图像上的投影。第四行人手姿态引导结构化区域集成网络(Pose-Guide)预测的人手关节点坐标在人手图像上的投影。

图9中，利用ICVL数据集，将上述三种方法的人手位姿估计精度做出了比较。其中，深度残差卷积网络方法(ResNet-Hand)的平均误差为7.63mm，区域集成网络方法(Multi-Region)的平均误差为7.31mm，人手姿态引导结构化区域集成网络(Pose-Guide)的平均误差为7.21mm。

图10表示三维人手位姿估计在ICVL测试集中二维深度图像上的投影效果图；其中，第一行为真实标注的人手关节点坐标(GT)在人手图像上的投影，第二行为运用深度残差卷积网络(ResNet-Hand)预测的人手关节点坐标在人手图像上的投影，第三行为运用区域集成网络方法(Multi-Region)预测的人手关节点坐标在人手图像上的投影。第四行人手姿态引导结构化区域集成网络(Pose-Guide)预测的人手关节点坐标在人手图像上的投影。

请参考图11，其为本发明公开的人手深度图像位姿估计系统结构图，该系统包括特征图提取模块L1和人手位姿估计模块L2，其中：

特征图提取模块L1用于输入人手深度图像到CNN模型中，利用该模型对输入的图像进行特征提取，得到人手特征图；

人手位姿估计模块L2用于将提取得到的人手特征图输入到训练好的区域集成网络中，通过该网络进行人手姿态估计；其中，在所述区域集成网络中，将提取得到的人手特征图均匀分成若干个特征区域，将每个特征区域输入到回归模型进行人手位姿估计，通过融合每个特征区域的回归结果，最终回归出人手深度图像的人手位姿。其中，人手位姿估计模块L2中还包括了特征区域提取模块L21、切割模块L22和人手位姿计算模块L23，进一步从输入的人手特征图中，进行三维人手位姿估计，每个模块的功能如下所述：

特征区域提取模块L21用于将最后一个卷积层提取得到的特征图表示为F，根据在阶段t-1即t-1时刻，预估得到的人手位姿估计p^t-1，从特征图F中提取第一特征区域；

切割模块L22用于在阶段t，采用矩形窗口对特征区域提取模块提取得到的第一特征区域进行切割，得到若干个包含人手关节点的矩形区域，其中，所述矩形区域定义为和为人手关节点i所在矩形区域的左上角坐标点，w和h分别表示当前矩形区域的宽度和高度；将包含人手关节点i的特征区域表示为：

人手位姿计算模块L23用于对切割模块切割得到的若干个包含人手关节点的矩形区域进行融合，得到一个包括五根手指关节的融合特征区域，针对所述融合特征区域，利用回归模型R，回归出人手深度图像的人手位姿P^t。

本发明通过结合深度残差卷积网络强大的特征提取能力和区域集合网络的特征融合的优势，提出人手姿态引导的结构化区域集成网络方法。为了进一步挖掘深度图像更多特征信息，人手姿态引导的结构区域集成网络将预测的人手位姿估计作为引导信息反馈到特征图中，并且通过不断反馈误差学习到更好的人手特征。实验结果表明人手姿态引导的结构区域集成网络充分提取了更优化和更具有代表性的人手特征，相较于其他方法人手位姿估计的精度更高。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于深度残差网络的人手深度图像位姿估计方法，其特征在于，该方法包括以下步骤：

S2、将输入人手深度图像作为训练样本，对区域集成网络进行训练，并将步骤S1提取得到的人手特征图输入到训练好的区域集成网络中，通过该网络进行人手姿态估计；其中，在进行人手姿态估计时，所述区域集成网络中，将提取得到的人手特征图均匀分成若干个特征区域，将每个特征区域输入到回归模型进行人手位姿估计，通过融合每个特征区域的回归结果，最终回归出人手深度图像的人手位姿。

2.根据权利要求1所述的人手深度图像位姿估计方法，其特征在于，步骤S2中，包括以下子步骤：

3.根据权利要求2所述的人手深度图像位姿估计方法，其特征在于，所述区域集成网络在最后一层卷积层之后依次连接的有全连接层l₁和全连接层l₂；步骤S23中针对同一手指上的关节点，其中，切割得到的特征区域均通过全连接层l₁进行融合连接，得到第一融合特征区域；然后，针对每根手指融合得到的第一融合特征区域，将其集中输入到全连接层l₂进行特征区域融合，得到所述包括人手五根手指关节的融合特征区域。

4.根据权利要求3所述的人手深度图像位姿估计方法，其特征在于，步骤S23中，将所有属于同一手指的关节点串联在一起，其中，用concate表示连接函数，串联后神经元将进一步通过全连接层l₂进行融合连接，得到不同手指的特征区域：

其中，

5.根据权利要求1所述的人手深度图像位姿估计方法，其特征在于，在区域集成网络模型的训练过程中，设定训练集合方程为T⁰：

6.一种基于深度残差网络的人手深度图像位姿估计系统，其特征在于，该系统包括以下模块：

7.根据权利要求6所述的人手深度图像位姿估计系统，其特征在于，人手位姿估计模块中，包括以下子模块：

8.根据权利要求7所述的人手深度图像位姿估计系统，其特征在于，人手位姿计算模块中针对同一手指上的关节点，其中，切割得到的特征区域均通过全连接层l₁进行融合连接，得到第一融合特征区域；然后，针对每根手指融合得到的第一融合特征区域，将其集中输入到全连接层l₂进行特征区域融合，得到所述包括人手五根手指关节的融合特征区域。