CN111709269B

CN111709269B - 一种深度图像中基于二维关节信息的人手分割方法和装置

Info

Publication number: CN111709269B
Application number: CN202010332317.0A
Authority: CN
Inventors: 左德鑫; 邓小明; 马翠霞; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2022-11-15
Anticipated expiration: 2040-04-24
Also published as: CN111709269A

Abstract

本发明涉及一种深度图像中基于二维关节信息的人手分割方法和装置。该方法包括：利用二维关节点检测网络获得深度图像中人手的二维关节点的位置；利用二维关节点并结合深度图像获取人手的三维关键点；利用三维关键点计算人手的三维有向包围盒；利用三维有向包围盒过滤深度图像，获取分割好的人手区域。本发明提出了基于深度神经网络的人手二维关节点检测方法，然后提出了二维关节点到三维关键点的转化方法，最后提出了三维包围盒和深度值过滤的方式。经过实际使用验证，本发明具有自动化程度高、精度高和速度快的优点，可满足专业的或者大众化的应用需求。

Description

一种深度图像中基于二维关节信息的人手分割方法和装置

技术领域

本发明属于计算机视觉、计算机图像处理领域，具体涉及到一种基于二维关节点的人手深度图像分割方法和装置。

背景技术

人手姿态估计和手势理解是计算机视觉和人机交互领域的热点问题，广泛应用于虚拟现实、增强现实、辅助设计等场景，精确的人手姿态估计和手势理解有重大的应用价值和研究价值。人手分割算法的目的是将图像中的人手部分和非人手部分在语义上分割开，是计算机理解手势的一个重要的预处理环节，处理好人手分割问题是解决其他人手问题的先决条件。

目前主流的人手深度图像数据集(如NYU，Hands2017，ICVL，MSRA)通常提供了人手的深度图像和关节点，其中给出用来分割人手的Mask(掩膜)的数据集只占少数(NYU)，因此关节点的位置信息成为获得人手Mask的主要依据。人手关节点包括人手的各个关键位置(关节、手腕、掌心等)。三维关节点是关节点在三维空间的坐标，用三个标量表示。二维关节点是关节点在图像所在平面上的坐标，用两个标量表示。三维关节点相比二维关节点能更容易地计算出物体的三维包围盒从而获得人手区域，但是对于没有标注的数据而言，获取精确的三维关节点比二维关节点更困难，因此如何利用二维关节点结合深度图信息是解决深度图上人手分割问题的关键。

发明内容

本发明针对上述问题，提供了一种深度图像中基于二维关节信息的人手分割方法和装置，主要解决的问题是如何从单张深度图像分割出人手区域，该问题主要的技术难点在于深度图像具有多变背景和前景噪声，人手丰富的手势变化以及由于拍摄角度导致的人手自遮挡等。

本发明的一种深度图像中基于二维关节信息的人手分割方法，包括以下步骤：

一种深度图像中基于二维关节信息的人手分割方法，包括以下步骤：

利用二维关节点检测网络获得深度图像中人手的二维关节点的位置；

利用二维关节点并结合深度图像获取人手的三维关键点；

利用三维关键点计算人手的三维有向包围盒；

利用三维有向包围盒过滤深度图像，获取分割好的人手区域。

进一步地，所述二维关节点检测网络的主体为沙漏网络，利用沙漏网络的卷积和下采样提取全局信息和深层的特征，再通过卷积和上采样解码出所需要的输出，通过加入跳跃连接保证解码出的特征既包含深层语义信息又包含浅层形态特征。

进一步地，所述二维关节点检测网络在训练时，首先对训练数据进行预处理，包括缩放到标准大小，归一化，以及获取热度图标签；所述二维关节点检测网络利用预处理之后的图像作为输入，获取二维关节点的具体位置；所述二维关节点检测网络的输出为一张热度图像。

进一步地，所述二维关节点检测网络的输出是J个通道的热度图，每个通道对应一个类别的关节点，每个像素包含了一个标量值，反映像素点作为第J类关节点的概率，用概率最大的点的位置作为关节点的坐标。

进一步地，所述利用二维关节点并结合深度图像获取人手的三维关键点，包括：估计二维关节点邻近区域的有效深度值，二维关节点结合有效深度值完成二维关节点到三维关键点的转换。

进一步地，计算有效深度值时利用高斯混合模型估计前景深度值、背景深度值、被分割实体深度值的分布情况，用来排除噪声深度值的干扰。

进一步地，所述三维有向包围盒，其主轴方向通过三维关键点的主成分分析获取，其长度为三维关键点在主轴上的投影的相应比例。

进一步地，利用三维有向包围盒过滤深度图时，在原始深度图的每个像素点上判断其是否在盒的内部，通过GPU并行计算来加速。

一种深度图像中基于二维关节信息的人手分割装置，其包括：

二维关节点检测模块，负责构建二维关节点检测网络，并利用二维关节点检测网络获得深度图像中人手的二维关节点的位置；

关键点获取模块，负责利用二维关节点并结合深度图像获取人手的三维关键点；

包围盒计算模块，负责利用三维关键点计算人手的三维有向包围盒；

人手分割模块，负责利用三维有向包围盒过滤深度图像，获取分割好的人手区域。

进一步地，该装置还包括：

数据预处理模块，负责对所述二维关节点检测网络的训练数据进行预处理，把原始深度图缩放到标准大小，归一化，获取热度图标签；

网络构建与训练模块，负责构建和训练所述二维关节点检测网络，用于检测二维关节点在图像平面的坐标。

本发明的优点和有益效果是：

本发明主要解决的问题是利用没有Mask标注的人手关节点预测数据集进行人手分割。本发明提出了基于二维关节点预测和关节点区域深度值聚类的分割算法，能够在预测的二维关节点误差较大的情况下，排除前景和背景的干扰，获得准确的人手分割。经过实际使用验证，本发明具有自动化程度高、精度高和实时性的优点，可满足专业的或者大众化的应用需求。

本发明相比直接用基于三维关节点算出的有向包围盒更加准确，因为部分数据集关节标签的深度信息不是特别准确，进而导致分割不全。本方法在有些特定的场合下有优势，例如人工交互式标注时，准确地标注三维关节点对于PC平台的标注者来说操作难度很大，本方法可以自动结合图像的深度信息，在深度信息标注缺失的情况下推断出手部的深度信息。

本发明通过预测二维关节点来获得待分割区域，利用高斯混合模型估计前景深度值、背景深度值、被分割实体深度值的分布情况，用来排除噪声深度值的干扰。经过实际使用验证，算法对二维关节点误差的容忍度高，分割准确。

附图说明

图1是本发明方法的整体流程图。

图2是基于深度学习的人手二维关节点检测网络的总体结构图。

图3是沙漏网络的结构图。

图4是残差模块的结构图。

图5是本发明在实际测试时的结果示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

图1是本发明的深度图像中基于二维关节信息的人手分割方法的总体流程图。该方法对于输入的深度图，利用二维关节点检测网络获得人手的二维关节点的位置，利用二维关节点并结合深度图获取人手的三维关键点，利用三维关键点计算出有向包围盒，利用三维有向包围盒过滤深度图，获取分割好的人手区域。

下面依次介绍本发明采用的数据预处理方法，二维关节点检测网络的具体结构，采用的损失函数，基于二维关节点的裁剪、噪声深度值的去除、包围盒的计算以及Mask的计算。

步骤1：训练数据的预处理

把原始深度图缩放到标准大小，本方法中的大小设为height×width，归一化(减去深度图的均值，除以深度相机的最大深度与最小深度之差)。

标签的获取：训练关节点检测网络需要的标签是一张热度图(heatmap)，即一个大小为(height，width，joint)即(高度，宽度，关节点)的三维张量(tensor)，常见的数据集给出的标签是大小为(J，3)的关节点位置(J表示关节的数量，与输出图片的通道数相等)，需要根据三维关节点计算相应的热度图。设三维关节点的标签为(u_gt,v_gt,d_gt)，其中u_gt表示关节在图片上的横坐标，v_gt表示关节在图片上的纵坐标，d_gt表示关节在图片上的深度值，张量里面的任意一个位置记为(u,v,j)，其中u表示热度图上某像素上横坐标，v表示热度图上某像素的纵坐标，j表示通道的编号。该位置的数值H_GT(u,v,j)的计算公式为：

其中的σ是一个固定的数值，s_x和s_y的计算公式为：

其中的f_x,f_y是相机的焦距参数。

如果仅有二维关节点(u_gt,v_gt)，H_GT(u,v,j)的计算公式变成了：

预处理后的可用于训练的样本表示为

其中，N表示样本数量，Dⁱ、

分别为第i个样本的归一化深度图以及对应的热度图。

步骤2：二维关节点检测网络的构建与训练

本发明提出一个沙漏(hourglass)型卷积神经网络用于预测二维关节点。网络的设计原理是利用沙漏网络的卷积和下采样提取全局信息和深层的特征，再通过卷积和上采样解码出所需要的输出，跳跃连接的加入保证解码出的特征既包含深层语义信息又包含浅层形态特征，即将图像的底层特征和高层特征利用起来。

二维关节点检测网络的基本模块为残差模块(residual block)、卷积模块(convolution block)，每个残差模块包含了一个卷积模块和一个跳跃连接。卷积模块是卷积层、批正则化(batch normalization，BN)层和线性整流函数(Rectified Linear Unit，ReLU)层的重复叠加。在残差模块中，残差模块的输入一方面进入卷积模块，另一方面通过跳跃连接的方式，和卷积模块的输出以相加的方式结合在一起。

图2给出了二维关节点检测网络的总体结构，深度图需要先进行对称填充(symmetric padding)和池化(pooling)以满足大小上的要求。输入进沙漏模块(沙漏网络)之前需要先用若干层卷积层和残差模块进行初步的特征提取。沙漏模块的输出需要经过后面几层卷积以获得符合要求的通道数。Residual表示残差模块，K表示该层卷积核大小，c表示该层输出的通道数，S表示该层的步长，pad表示该层的在高度、宽度维度上分别填充多少个像素。(480,640,1)和(J,2)分别表示输入和输出张量的形状(shape)。

图3给出了沙漏网络的结构图。其中每个长方体由三个残差模块相连组成，其中的残差模块有相同的输出通道数(都是256)，不同大小的长方体之间有相应的池化和上采样操作。带加号的圆圈连接了两个输入，表示把输入逐位相加。

图4所示的残差模块包含了若干个卷积层，卷积层之间的是批正则化(batchnormalization，BN)层和线性整流函数(Rectified Linear Unit，ReLU)层。c表示卷积块输出的通道数，卷积核的参数已在图4中给出，“P＝‘same’”表示填充的像素需要使该层的输出和输入在高度、宽度上相等。“+”表示逐位相加操作。

二维关节点检测网络的输入是一张大小为(H，W)的深度图，输出为一个大小为(H/s,W/s，J)的热度图，s为经过网络之后图像缩小的比例。网络的损失函数为：

其中H_pred是网络输出的热度图，H_GT是真实的热度图，H、W、J分别表示输出图片的高度、宽度和通道数。网络的输出是J个通道的热度图，每个通道对应一个类别的关节点，每个像素包含了一个标量值，反映了该像素点的作为第J类关节点的概率，本方法用概率最大的点的位置作为关节点的坐标，因此二维关节点坐标(u,v)_j的计算方式为：

其中s为经过网络之后图像缩小的比例。

本发明的网络所用优化器是Adam，学习率初始设置为0.001，随着训练步数增多而指数衰减。

步骤3：深度值估计

由步骤2可以获取关节点的二维坐标J_2D，但是只有二维信息无法准确地获取三维包围盒，因此需要利用J_2D去原始的深度图上获取对应位置的深度信息。值得说明的是，因为遮挡的存在，利用J_2D和深度图直接获取三维关节点J_3D是比较困难的。但是，可以用J_2D获取到对分割来说十分重要的点，利用J_2D的好处是它包含了所有的关节点信息，和手的轮廓大致相似，不至于遗漏重要的部位。可以把用J_2D从深度图里提取出来的点称为关键点，用P_3D表示。P_3D的计算方法如下所述。

P_3D的获取服从以下几个原则，

1.实验发现，用一定区域内的深度均值容易受周围点的深度影响，不如直接取近邻点的深度来用，为了保持深度值的精确度，深度值是J_2D的最近邻的点的深度值。

2.近邻点的深度值在二维关节点预测误差较大的情况下，受噪声深度值的影响很大，J_2D估计不准确时很容易取到前景或者背景上，成为前景深度值或背景深度值，因此对于近邻点深度的有效性需要判断。如果判断为无效点，需要用有效的点P_alt来代替。

去除所述噪声深度值的原理为：统计领域内深度值的概率分布，前景深度值、被分割实体、背景深度值可以用含三个分量的高斯混合模型描述出来，取最接近预取目标的高斯分量的中心对应的深度值。实现时可以用k-means聚类近似模拟期望最大化(EM)算法。

裁剪二维关节点对应的图片区域，对深度值进行k-means聚类，用定义好的规则获得候选深度，与二维关节点结合成三维关键点。具体的实现方法如下：

利用J_2D计算最小包围盒，裁剪出一片区域，计算深度中值记为d_avg。

利用

在原图上找出二维坐标最近邻的像素点，获得它的深度值

其中i表示关节点的编号。

替代点

的计算：对于每一个点

以其为中心，裁剪出大小为50×50(大小可依据深度图分辨率来调整)的图片区域。如果裁剪出的区域没有深度值，则按一定比例扩大裁剪大小，直到有深度值为止。

对该区域的深度值进行k＝3的k-means聚类，对类中心的深度值进行排序，取排在中间的类中心作为

深度值最接近

的点记为

如果

表示

的取值是一个噪声深度值，应该用

代替

用

代替

作为dⁱ，否则

直接作为dⁱ。本实施例中d_threshold设为100。

所以

也就是说把dⁱ拼接到2D的点上。

步骤3：深度值估计(加速版)

对裁剪出来的区域每个有深度的点D^j＝(u^j,v^j,d^j)(j表示像素的编号)计算两个距离，令

d_thresh是一个固定值，公式的含义是，当d^j和平均深度差别不大时，对

忽略。根据相机的成像原理，

可以确定空间里的一条光线l_i，令

为D_j到l_i的距离，

的计算方式为：

步骤4：有向包围盒的计算

计算有向包围盒需要计算盒的中心点以及三个轴的方向和大小。盒子的中心P_3D的均值计算得到。用P_3D主成分分析(PCA)之后的三个特征向量作为盒子的三个主轴，主轴的长度由P_3D的投影区间的长度确定，如有必要可以对每个轴进行适当比例的延长。

步骤5：深度图的过滤

需要获取包围盒内部的深度图区域，做法是在原始深度图的每个像素点上判断其是否在盒的内部。利用相机参数把深度图的像素转换成三维点构成的点云，逐点判断是否在包围盒内部，仅保留点在包围盒内部对应的像素。被保留的像素就构成了分割好的人手部分，深度图上的其余部分构成非人手部分。

包围盒朝外方向设为正方向，包围盒的每个面可以确定一组三元一次方程的参数(a,b,c,d)：

ax+by+cz+d＝0

先把需要判断的像素点结合深度值利用相机参数转换成真实空间坐标系的点云，把每个点带入六个面确定的六个方程的左侧，判断结果是否有相同的正负性。如果全为正数或全为负数那么可以把该像素判断为在包围盒内部，也就是说是手的一部分。

本步骤在实现时在通过GPU并行计算来加快速度。

图5展示了本方法的分割效果。从左到右即第1列至第4列依次为输入深度图、预测出的二维关节点、预测出的三维有向包围盒和最终的分割结果。

本发明的方案可以通过软件的方式实现，也可以通过硬件的方式来实现，比如：

在一个实施例中，提供一种深度图像中基于二维关节信息的人手分割装置，其包括：

另外，该装置还可包括：

数据预处理模块，负责进行输入神经网络前的数据预处理(对二维关节点检测网络的训练数据进行预处理)，把原始深度图缩放到标准大小，归一化，获取热度图标签。

网络构建与训练模块，负责构建二维关节点检测网络，用于检测二维关节点在图像平面的坐标。

上述二维关节点检测模块、关键点获取模块、包围盒计算模块、人手分割模块，也可统称为基于二维关节点的人手分割模块，负责分割人手区域，包括关节点的检测、关节点到关键点的映射、三维有向包围盒的计算、深度图的过滤，最终获取人手区域。

在另一个实施例中，提供一种电子装置(计算机、服务器等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

在另一个实施例中，提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的步骤。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的原理和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种深度图像中基于二维关节信息的人手分割方法，其特征在于，包括以下步骤：

利用二维关节点并结合深度图像获取人手的三维关键点；

利用三维关键点计算人手的三维有向包围盒；

利用三维有向包围盒过滤深度图像，获取分割好的人手区域；

所述利用二维关节点并结合深度图像获取人手的三维关键点，包括：

利用关节点的二维坐标J_2D计算最小包围盒，裁剪出一片区域，计算其深度中值并记为d_avg；

利用

在原图上找出二维坐标最近邻的像素点，获得它的深度值

其中i表示关节点的编号；

对于每一个点

以其为中心，裁剪出一定大小的图片区域，如果裁剪出的区域没有深度值，则按一定比例扩大裁剪大小，直到有深度值为止；

对该区域的深度值进行k＝3的k-means聚类，对类中心的深度值进行排序，取排在中间的类中心的深度值作为

深度值最接近

的点记为

如果

表示

的取值是一个噪声深度值，用

代替

用

代替

作为dⁱ，否则

直接作为dⁱ；

三维关键点

即把dⁱ拼接到二维关节点上。

2.根据权利要求1所述的方法，其特征在于，所述二维关节点检测网络的主体为沙漏网络，利用沙漏网络的卷积和下采样提取全局信息和深层的特征，再通过卷积和上采样解码出所需要的输出，通过加入跳跃连接保证解码出的特征既包含深层语义信息又包含浅层形态特征。

3.根据权利要求1所述的方法，其特征在于，所述二维关节点检测网络在训练时，首先对训练数据进行预处理，包括缩放到标准大小，归一化，以及获取热度图标签；所述二维关节点检测网络利用预处理之后的图像作为输入，获取二维关节点的具体位置；所述二维关节点检测网络的输出为一张热度图像；所述二维关节点检测网络的损失函数为：

其中，H_pred是网络输出的热度图，H_GT是真实的热度图，H、W、J分别表示输出图片的高度、宽度和通道数，u表示热度图上某像素的横坐标，v表示热度图上某像素的纵坐标，j表示通道的编号。

4.根据权利要求3所述的方法，其特征在于，所述二维关节点检测网络的输出是J个通道的热度图，每个通道对应一个类别的关节点，每个像素包含了一个标量值，反映像素点作为第J类关节点的概率，用概率最大的点的位置作为关节点的坐标，二维关节点坐标(u,v)_j的计算方式为：

其中，u表示热度图上某像素的横坐标，v表示热度图上某像素的纵坐标，j表示通道的编号，s为经过网络之后图像缩小的比例。

5.根据权利要求1所述的方法，其特征在于，所述利用二维关节点并结合深度图像获取人手的三维关键点，包括：估计二维关节点邻近区域的有效深度值，二维关节点结合有效深度值完成二维关节点到三维关键点的转换；计算有效深度值时利用高斯混合模型估计前景深度值、背景深度值、被分割实体深度值的分布情况，用来排除噪声深度值的干扰。

6.根据权利要求1所述的方法，其特征在于，所述三维有向包围盒，其主轴方向通过三维关键点的主成分分析获取，其长度为三维关键点在主轴上的投影的相应比例；利用三维有向包围盒过滤深度图时，在原始深度图的每个像素点上判断其是否在盒的内部，通过GPU并行计算来加速。

7.一种采用权利要求1-6中任一项所述方法的深度图像中基于二维关节信息的人手分割装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，还包括：

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～6中任一权利要求所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～6中任一权利要求所述的方法。