Nothing Special   »   [go: up one dir, main page]

CN111709269B - 一种深度图像中基于二维关节信息的人手分割方法和装置 - Google Patents

一种深度图像中基于二维关节信息的人手分割方法和装置 Download PDF

Info

Publication number
CN111709269B
CN111709269B CN202010332317.0A CN202010332317A CN111709269B CN 111709269 B CN111709269 B CN 111709269B CN 202010332317 A CN202010332317 A CN 202010332317A CN 111709269 B CN111709269 B CN 111709269B
Authority
CN
China
Prior art keywords
dimensional
depth
human hand
dimensional joint
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010332317.0A
Other languages
English (en)
Other versions
CN111709269A (zh
Inventor
左德鑫
邓小明
马翠霞
王宏安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN202010332317.0A priority Critical patent/CN111709269B/zh
Publication of CN111709269A publication Critical patent/CN111709269A/zh
Application granted granted Critical
Publication of CN111709269B publication Critical patent/CN111709269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种深度图像中基于二维关节信息的人手分割方法和装置。该方法包括:利用二维关节点检测网络获得深度图像中人手的二维关节点的位置;利用二维关节点并结合深度图像获取人手的三维关键点;利用三维关键点计算人手的三维有向包围盒;利用三维有向包围盒过滤深度图像,获取分割好的人手区域。本发明提出了基于深度神经网络的人手二维关节点检测方法,然后提出了二维关节点到三维关键点的转化方法,最后提出了三维包围盒和深度值过滤的方式。经过实际使用验证,本发明具有自动化程度高、精度高和速度快的优点,可满足专业的或者大众化的应用需求。

Description

一种深度图像中基于二维关节信息的人手分割方法和装置
技术领域
本发明属于计算机视觉、计算机图像处理领域,具体涉及到一种基于二维关节点的人手深度图像分割方法和装置。
背景技术
人手姿态估计和手势理解是计算机视觉和人机交互领域的热点问题,广泛应用于虚拟现实、增强现实、辅助设计等场景,精确的人手姿态估计和手势理解有重大的应用价值和研究价值。人手分割算法的目的是将图像中的人手部分和非人手部分在语义上分割开,是计算机理解手势的一个重要的预处理环节,处理好人手分割问题是解决其他人手问题的先决条件。
目前主流的人手深度图像数据集(如NYU,Hands2017,ICVL,MSRA)通常提供了人手的深度图像和关节点,其中给出用来分割人手的Mask(掩膜)的数据集只占少数(NYU),因此关节点的位置信息成为获得人手Mask的主要依据。人手关节点包括人手的各个关键位置(关节、手腕、掌心等)。三维关节点是关节点在三维空间的坐标,用三个标量表示。二维关节点是关节点在图像所在平面上的坐标,用两个标量表示。三维关节点相比二维关节点能更容易地计算出物体的三维包围盒从而获得人手区域,但是对于没有标注的数据而言,获取精确的三维关节点比二维关节点更困难,因此如何利用二维关节点结合深度图信息是解决深度图上人手分割问题的关键。
发明内容
本发明针对上述问题,提供了一种深度图像中基于二维关节信息的人手分割方法和装置,主要解决的问题是如何从单张深度图像分割出人手区域,该问题主要的技术难点在于深度图像具有多变背景和前景噪声,人手丰富的手势变化以及由于拍摄角度导致的人手自遮挡等。
本发明的一种深度图像中基于二维关节信息的人手分割方法,包括以下步骤:
一种深度图像中基于二维关节信息的人手分割方法,包括以下步骤:
利用二维关节点检测网络获得深度图像中人手的二维关节点的位置;
利用二维关节点并结合深度图像获取人手的三维关键点;
利用三维关键点计算人手的三维有向包围盒;
利用三维有向包围盒过滤深度图像,获取分割好的人手区域。
进一步地,所述二维关节点检测网络的主体为沙漏网络,利用沙漏网络的卷积和下采样提取全局信息和深层的特征,再通过卷积和上采样解码出所需要的输出,通过加入跳跃连接保证解码出的特征既包含深层语义信息又包含浅层形态特征。
进一步地,所述二维关节点检测网络在训练时,首先对训练数据进行预处理,包括缩放到标准大小,归一化,以及获取热度图标签;所述二维关节点检测网络利用预处理之后的图像作为输入,获取二维关节点的具体位置;所述二维关节点检测网络的输出为一张热度图像。
进一步地,所述二维关节点检测网络的输出是J个通道的热度图,每个通道对应一个类别的关节点,每个像素包含了一个标量值,反映像素点作为第J类关节点的概率,用概率最大的点的位置作为关节点的坐标。
进一步地,所述利用二维关节点并结合深度图像获取人手的三维关键点,包括:估计二维关节点邻近区域的有效深度值,二维关节点结合有效深度值完成二维关节点到三维关键点的转换。
进一步地,计算有效深度值时利用高斯混合模型估计前景深度值、背景深度值、被分割实体深度值的分布情况,用来排除噪声深度值的干扰。
进一步地,所述三维有向包围盒,其主轴方向通过三维关键点的主成分分析获取,其长度为三维关键点在主轴上的投影的相应比例。
进一步地,利用三维有向包围盒过滤深度图时,在原始深度图的每个像素点上判断其是否在盒的内部,通过GPU并行计算来加速。
一种深度图像中基于二维关节信息的人手分割装置,其包括:
二维关节点检测模块,负责构建二维关节点检测网络,并利用二维关节点检测网络获得深度图像中人手的二维关节点的位置;
关键点获取模块,负责利用二维关节点并结合深度图像获取人手的三维关键点;
包围盒计算模块,负责利用三维关键点计算人手的三维有向包围盒;
人手分割模块,负责利用三维有向包围盒过滤深度图像,获取分割好的人手区域。
进一步地,该装置还包括:
数据预处理模块,负责对所述二维关节点检测网络的训练数据进行预处理,把原始深度图缩放到标准大小,归一化,获取热度图标签;
网络构建与训练模块,负责构建和训练所述二维关节点检测网络,用于检测二维关节点在图像平面的坐标。
本发明的优点和有益效果是:
本发明主要解决的问题是利用没有Mask标注的人手关节点预测数据集进行人手分割。本发明提出了基于二维关节点预测和关节点区域深度值聚类的分割算法,能够在预测的二维关节点误差较大的情况下,排除前景和背景的干扰,获得准确的人手分割。经过实际使用验证,本发明具有自动化程度高、精度高和实时性的优点,可满足专业的或者大众化的应用需求。
本发明相比直接用基于三维关节点算出的有向包围盒更加准确,因为部分数据集关节标签的深度信息不是特别准确,进而导致分割不全。本方法在有些特定的场合下有优势,例如人工交互式标注时,准确地标注三维关节点对于PC平台的标注者来说操作难度很大,本方法可以自动结合图像的深度信息,在深度信息标注缺失的情况下推断出手部的深度信息。
本发明通过预测二维关节点来获得待分割区域,利用高斯混合模型估计前景深度值、背景深度值、被分割实体深度值的分布情况,用来排除噪声深度值的干扰。经过实际使用验证,算法对二维关节点误差的容忍度高,分割准确。
附图说明
图1是本发明方法的整体流程图。
图2是基于深度学习的人手二维关节点检测网络的总体结构图。
图3是沙漏网络的结构图。
图4是残差模块的结构图。
图5是本发明在实际测试时的结果示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
图1是本发明的深度图像中基于二维关节信息的人手分割方法的总体流程图。该方法对于输入的深度图,利用二维关节点检测网络获得人手的二维关节点的位置,利用二维关节点并结合深度图获取人手的三维关键点,利用三维关键点计算出有向包围盒,利用三维有向包围盒过滤深度图,获取分割好的人手区域。
下面依次介绍本发明采用的数据预处理方法,二维关节点检测网络的具体结构,采用的损失函数,基于二维关节点的裁剪、噪声深度值的去除、包围盒的计算以及Mask的计算。
步骤1:训练数据的预处理
把原始深度图缩放到标准大小,本方法中的大小设为height×width,归一化(减去深度图的均值,除以深度相机的最大深度与最小深度之差)。
标签的获取:训练关节点检测网络需要的标签是一张热度图(heatmap),即一个大小为(height,width,joint)即(高度,宽度,关节点)的三维张量(tensor),常见的数据集给出的标签是大小为(J,3)的关节点位置(J表示关节的数量,与输出图片的通道数相等),需要根据三维关节点计算相应的热度图。设三维关节点的标签为(ugt,vgt,dgt),其中ugt表示关节在图片上的横坐标,vgt表示关节在图片上的纵坐标,dgt表示关节在图片上的深度值,张量里面的任意一个位置记为(u,v,j),其中u表示热度图上某像素上横坐标,v表示热度图上某像素的纵坐标,j表示通道的编号。该位置的数值HGT(u,v,j)的计算公式为:
Figure BDA0002465400600000041
其中的σ是一个固定的数值,sx和sy的计算公式为:
Figure BDA0002465400600000042
其中的fx,fy是相机的焦距参数。
如果仅有二维关节点(ugt,vgt),HGT(u,v,j)的计算公式变成了:
Figure BDA0002465400600000043
预处理后的可用于训练的样本表示为
Figure BDA0002465400600000044
其中,N表示样本数量,Di
Figure BDA0002465400600000045
分别为第i个样本的归一化深度图以及对应的热度图。
步骤2:二维关节点检测网络的构建与训练
本发明提出一个沙漏(hourglass)型卷积神经网络用于预测二维关节点。网络的设计原理是利用沙漏网络的卷积和下采样提取全局信息和深层的特征,再通过卷积和上采样解码出所需要的输出,跳跃连接的加入保证解码出的特征既包含深层语义信息又包含浅层形态特征,即将图像的底层特征和高层特征利用起来。
二维关节点检测网络的基本模块为残差模块(residual block)、卷积模块(convolution block),每个残差模块包含了一个卷积模块和一个跳跃连接。卷积模块是卷积层、批正则化(batch normalization,BN)层和线性整流函数(Rectified Linear Unit,ReLU)层的重复叠加。在残差模块中,残差模块的输入一方面进入卷积模块,另一方面通过跳跃连接的方式,和卷积模块的输出以相加的方式结合在一起。
图2给出了二维关节点检测网络的总体结构,深度图需要先进行对称填充(symmetric padding)和池化(pooling)以满足大小上的要求。输入进沙漏模块(沙漏网络)之前需要先用若干层卷积层和残差模块进行初步的特征提取。沙漏模块的输出需要经过后面几层卷积以获得符合要求的通道数。Residual表示残差模块,K表示该层卷积核大小,c表示该层输出的通道数,S表示该层的步长,pad表示该层的在高度、宽度维度上分别填充多少个像素。(480,640,1)和(J,2)分别表示输入和输出张量的形状(shape)。
图3给出了沙漏网络的结构图。其中每个长方体由三个残差模块相连组成,其中的残差模块有相同的输出通道数(都是256),不同大小的长方体之间有相应的池化和上采样操作。带加号的圆圈连接了两个输入,表示把输入逐位相加。
图4所示的残差模块包含了若干个卷积层,卷积层之间的是批正则化(batchnormalization,BN)层和线性整流函数(Rectified Linear Unit,ReLU)层。c表示卷积块输出的通道数,卷积核的参数已在图4中给出,“P=‘same’”表示填充的像素需要使该层的输出和输入在高度、宽度上相等。“+”表示逐位相加操作。
二维关节点检测网络的输入是一张大小为(H,W)的深度图,输出为一个大小为(H/s,W/s,J)的热度图,s为经过网络之后图像缩小的比例。网络的损失函数为:
Figure BDA0002465400600000051
其中Hpred是网络输出的热度图,HGT是真实的热度图,H、W、J分别表示输出图片的高度、宽度和通道数。网络的输出是J个通道的热度图,每个通道对应一个类别的关节点,每个像素包含了一个标量值,反映了该像素点的作为第J类关节点的概率,本方法用概率最大的点的位置作为关节点的坐标,因此二维关节点坐标(u,v)j的计算方式为:
Figure BDA0002465400600000052
其中s为经过网络之后图像缩小的比例。
本发明的网络所用优化器是Adam,学习率初始设置为0.001,随着训练步数增多而指数衰减。
步骤3:深度值估计
由步骤2可以获取关节点的二维坐标J2D,但是只有二维信息无法准确地获取三维包围盒,因此需要利用J2D去原始的深度图上获取对应位置的深度信息。值得说明的是,因为遮挡的存在,利用J2D和深度图直接获取三维关节点J3D是比较困难的。但是,可以用J2D获取到对分割来说十分重要的点,利用J2D的好处是它包含了所有的关节点信息,和手的轮廓大致相似,不至于遗漏重要的部位。可以把用J2D从深度图里提取出来的点称为关键点,用P3D表示。P3D的计算方法如下所述。
P3D的获取服从以下几个原则,
1.实验发现,用一定区域内的深度均值容易受周围点的深度影响,不如直接取近邻点的深度来用,为了保持深度值的精确度,深度值是J2D的最近邻的点的深度值。
2.近邻点的深度值在二维关节点预测误差较大的情况下,受噪声深度值的影响很大,J2D估计不准确时很容易取到前景或者背景上,成为前景深度值或背景深度值,因此对于近邻点深度的有效性需要判断。如果判断为无效点,需要用有效的点Palt来代替。
去除所述噪声深度值的原理为:统计领域内深度值的概率分布,前景深度值、被分割实体、背景深度值可以用含三个分量的高斯混合模型描述出来,取最接近预取目标的高斯分量的中心对应的深度值。实现时可以用k-means聚类近似模拟期望最大化(EM)算法。
裁剪二维关节点对应的图片区域,对深度值进行k-means聚类,用定义好的规则获得候选深度,与二维关节点结合成三维关键点。具体的实现方法如下:
利用J2D计算最小包围盒,裁剪出一片区域,计算深度中值记为davg
利用
Figure BDA0002465400600000061
在原图上找出二维坐标最近邻的像素点,获得它的深度值
Figure BDA0002465400600000062
其中i表示关节点的编号。
替代点
Figure BDA0002465400600000063
的计算:对于每一个点
Figure BDA0002465400600000064
以其为中心,裁剪出大小为50×50(大小可依据深度图分辨率来调整)的图片区域。如果裁剪出的区域没有深度值,则按一定比例扩大裁剪大小,直到有深度值为止。
对该区域的深度值进行k=3的k-means聚类,对类中心的深度值进行排序,取排在中间的类中心作为
Figure BDA0002465400600000065
深度值最接近
Figure BDA0002465400600000066
的点记为
Figure BDA0002465400600000067
如果
Figure BDA0002465400600000068
表示
Figure BDA0002465400600000069
的取值是一个噪声深度值,应该用
Figure BDA00024654006000000610
代替
Figure BDA00024654006000000611
Figure BDA00024654006000000612
代替
Figure BDA00024654006000000613
作为di,否则
Figure BDA00024654006000000614
直接作为di。本实施例中dthreshold设为100。
所以
Figure BDA00024654006000000615
也就是说把di拼接到2D的点上。
步骤3:深度值估计(加速版)
对裁剪出来的区域每个有深度的点Dj=(uj,vj,dj)(j表示像素的编号)计算两个距离,令
Figure BDA0002465400600000071
dthresh是一个固定值,公式的含义是,当dj和平均深度差别不大时,对
Figure BDA0002465400600000072
忽略。根据相机的成像原理,
Figure BDA0002465400600000073
可以确定空间里的一条光线li,令
Figure BDA0002465400600000074
为Dj到li的距离,
Figure BDA0002465400600000075
的计算方式为:
Figure BDA0002465400600000076
步骤4:有向包围盒的计算
计算有向包围盒需要计算盒的中心点以及三个轴的方向和大小。盒子的中心P3D的均值计算得到。用P3D主成分分析(PCA)之后的三个特征向量作为盒子的三个主轴,主轴的长度由P3D的投影区间的长度确定,如有必要可以对每个轴进行适当比例的延长。
步骤5:深度图的过滤
需要获取包围盒内部的深度图区域,做法是在原始深度图的每个像素点上判断其是否在盒的内部。利用相机参数把深度图的像素转换成三维点构成的点云,逐点判断是否在包围盒内部,仅保留点在包围盒内部对应的像素。被保留的像素就构成了分割好的人手部分,深度图上的其余部分构成非人手部分。
包围盒朝外方向设为正方向,包围盒的每个面可以确定一组三元一次方程的参数(a,b,c,d):
ax+by+cz+d=0
先把需要判断的像素点结合深度值利用相机参数转换成真实空间坐标系的点云,把每个点带入六个面确定的六个方程的左侧,判断结果是否有相同的正负性。如果全为正数或全为负数那么可以把该像素判断为在包围盒内部,也就是说是手的一部分。
本步骤在实现时在通过GPU并行计算来加快速度。
图5展示了本方法的分割效果。从左到右即第1列至第4列依次为输入深度图、预测出的二维关节点、预测出的三维有向包围盒和最终的分割结果。
本发明的方案可以通过软件的方式实现,也可以通过硬件的方式来实现,比如:
在一个实施例中,提供一种深度图像中基于二维关节信息的人手分割装置,其包括:
二维关节点检测模块,负责构建二维关节点检测网络,并利用二维关节点检测网络获得深度图像中人手的二维关节点的位置;
关键点获取模块,负责利用二维关节点并结合深度图像获取人手的三维关键点;
包围盒计算模块,负责利用三维关键点计算人手的三维有向包围盒;
人手分割模块,负责利用三维有向包围盒过滤深度图像,获取分割好的人手区域。
另外,该装置还可包括:
数据预处理模块,负责进行输入神经网络前的数据预处理(对二维关节点检测网络的训练数据进行预处理),把原始深度图缩放到标准大小,归一化,获取热度图标签。
网络构建与训练模块,负责构建二维关节点检测网络,用于检测二维关节点在图像平面的坐标。
上述二维关节点检测模块、关键点获取模块、包围盒计算模块、人手分割模块,也可统称为基于二维关节点的人手分割模块,负责分割人手区域,包括关节点的检测、关节点到关键点的映射、三维有向包围盒的计算、深度图的过滤,最终获取人手区域。
在另一个实施例中,提供一种电子装置(计算机、服务器等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
在另一个实施例中,提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的步骤。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的原理和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种深度图像中基于二维关节信息的人手分割方法,其特征在于,包括以下步骤:
利用二维关节点检测网络获得深度图像中人手的二维关节点的位置;
利用二维关节点并结合深度图像获取人手的三维关键点;
利用三维关键点计算人手的三维有向包围盒;
利用三维有向包围盒过滤深度图像,获取分割好的人手区域;
所述利用二维关节点并结合深度图像获取人手的三维关键点,包括:
利用关节点的二维坐标J2D计算最小包围盒,裁剪出一片区域,计算其深度中值并记为davg
利用
Figure FDA0003790983140000011
在原图上找出二维坐标最近邻的像素点,获得它的深度值
Figure FDA0003790983140000012
其中i表示关节点的编号;
对于每一个点
Figure FDA0003790983140000013
以其为中心,裁剪出一定大小的图片区域,如果裁剪出的区域没有深度值,则按一定比例扩大裁剪大小,直到有深度值为止;
对该区域的深度值进行k=3的k-means聚类,对类中心的深度值进行排序,取排在中间的类中心的深度值作为
Figure FDA0003790983140000014
深度值最接近
Figure FDA0003790983140000015
的点记为
Figure FDA0003790983140000016
如果
Figure FDA0003790983140000017
表示
Figure FDA0003790983140000018
的取值是一个噪声深度值,用
Figure FDA0003790983140000019
代替
Figure FDA00037909831400000110
Figure FDA00037909831400000111
代替
Figure FDA00037909831400000112
作为di,否则
Figure FDA00037909831400000113
直接作为di
三维关键点
Figure FDA00037909831400000114
即把di拼接到二维关节点上。
2.根据权利要求1所述的方法,其特征在于,所述二维关节点检测网络的主体为沙漏网络,利用沙漏网络的卷积和下采样提取全局信息和深层的特征,再通过卷积和上采样解码出所需要的输出,通过加入跳跃连接保证解码出的特征既包含深层语义信息又包含浅层形态特征。
3.根据权利要求1所述的方法,其特征在于,所述二维关节点检测网络在训练时,首先对训练数据进行预处理,包括缩放到标准大小,归一化,以及获取热度图标签;所述二维关节点检测网络利用预处理之后的图像作为输入,获取二维关节点的具体位置;所述二维关节点检测网络的输出为一张热度图像;所述二维关节点检测网络的损失函数为:
Figure FDA00037909831400000115
其中,Hpred是网络输出的热度图,HGT是真实的热度图,H、W、J分别表示输出图片的高度、宽度和通道数,u表示热度图上某像素的横坐标,v表示热度图上某像素的纵坐标,j表示通道的编号。
4.根据权利要求3所述的方法,其特征在于,所述二维关节点检测网络的输出是J个通道的热度图,每个通道对应一个类别的关节点,每个像素包含了一个标量值,反映像素点作为第J类关节点的概率,用概率最大的点的位置作为关节点的坐标,二维关节点坐标(u,v)j的计算方式为:
Figure FDA0003790983140000021
其中,u表示热度图上某像素的横坐标,v表示热度图上某像素的纵坐标,j表示通道的编号,s为经过网络之后图像缩小的比例。
5.根据权利要求1所述的方法,其特征在于,所述利用二维关节点并结合深度图像获取人手的三维关键点,包括:估计二维关节点邻近区域的有效深度值,二维关节点结合有效深度值完成二维关节点到三维关键点的转换;计算有效深度值时利用高斯混合模型估计前景深度值、背景深度值、被分割实体深度值的分布情况,用来排除噪声深度值的干扰。
6.根据权利要求1所述的方法,其特征在于,所述三维有向包围盒,其主轴方向通过三维关键点的主成分分析获取,其长度为三维关键点在主轴上的投影的相应比例;利用三维有向包围盒过滤深度图时,在原始深度图的每个像素点上判断其是否在盒的内部,通过GPU并行计算来加速。
7.一种采用权利要求1-6中任一项所述方法的深度图像中基于二维关节信息的人手分割装置,其特征在于,包括:
二维关节点检测模块,负责构建二维关节点检测网络,并利用二维关节点检测网络获得深度图像中人手的二维关节点的位置;
关键点获取模块,负责利用二维关节点并结合深度图像获取人手的三维关键点;
包围盒计算模块,负责利用三维关键点计算人手的三维有向包围盒;
人手分割模块,负责利用三维有向包围盒过滤深度图像,获取分割好的人手区域。
8.根据权利要求7所述的装置,其特征在于,还包括:
数据预处理模块,负责对所述二维关节点检测网络的训练数据进行预处理,把原始深度图缩放到标准大小,归一化,获取热度图标签;
网络构建与训练模块,负责构建和训练所述二维关节点检测网络,用于检测二维关节点在图像平面的坐标。
9.一种电子装置,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~6中任一权利要求所述方法的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~6中任一权利要求所述的方法。
CN202010332317.0A 2020-04-24 2020-04-24 一种深度图像中基于二维关节信息的人手分割方法和装置 Active CN111709269B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010332317.0A CN111709269B (zh) 2020-04-24 2020-04-24 一种深度图像中基于二维关节信息的人手分割方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010332317.0A CN111709269B (zh) 2020-04-24 2020-04-24 一种深度图像中基于二维关节信息的人手分割方法和装置

Publications (2)

Publication Number Publication Date
CN111709269A CN111709269A (zh) 2020-09-25
CN111709269B true CN111709269B (zh) 2022-11-15

Family

ID=72536830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010332317.0A Active CN111709269B (zh) 2020-04-24 2020-04-24 一种深度图像中基于二维关节信息的人手分割方法和装置

Country Status (1)

Country Link
CN (1) CN111709269B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529911B (zh) * 2020-12-07 2024-02-09 重庆大学 一种胰腺图像分割模型的训练方法、图像分割方法和装置
CN113379755B (zh) * 2021-04-09 2024-03-12 南京航空航天大学 一种基于图的乱序场景下3d点云物体实例分割方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460338A (zh) * 2018-02-02 2018-08-28 北京市商汤科技开发有限公司 人体姿态估计方法和装置、电子设备、存储介质、程序
CN109214282A (zh) * 2018-08-01 2019-01-15 中南民族大学 一种基于神经网络的三维手势关键点检测方法和系统
CN109523552A (zh) * 2018-10-24 2019-03-26 青岛智能产业技术研究院 基于视锥点云的三维物体检测方法
CN110222580A (zh) * 2019-05-09 2019-09-10 中国科学院软件研究所 一种基于三维点云的人手三维姿态估计方法和装置
CN110443205A (zh) * 2019-08-07 2019-11-12 北京华捷艾米科技有限公司 一种手部图像分割方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460338A (zh) * 2018-02-02 2018-08-28 北京市商汤科技开发有限公司 人体姿态估计方法和装置、电子设备、存储介质、程序
CN109214282A (zh) * 2018-08-01 2019-01-15 中南民族大学 一种基于神经网络的三维手势关键点检测方法和系统
CN109523552A (zh) * 2018-10-24 2019-03-26 青岛智能产业技术研究院 基于视锥点云的三维物体检测方法
CN110222580A (zh) * 2019-05-09 2019-09-10 中国科学院软件研究所 一种基于三维点云的人手三维姿态估计方法和装置
CN110443205A (zh) * 2019-08-07 2019-11-12 北京华捷艾米科技有限公司 一种手部图像分割方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Joint Hand Detection and Rotation Estimation Using CNN;Xiaoming Deng 等;《IEEE》;20180430;第27卷(第4期);1888-1900 *
Virtools 环境下基于 Kinect 的手势识别与手部跟踪;周小芹等;《计算机应用与软件》;20131231;第30卷(第12期);295-298 *

Also Published As

Publication number Publication date
CN111709269A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN109544677B (zh) 基于深度图像关键帧的室内场景主结构重建方法及系统
CN109859296B (zh) Smpl参数预测模型的训练方法、服务器及存储介质
CN108549873B (zh) 三维人脸识别方法和三维人脸识别系统
CN109934847B (zh) 弱纹理三维物体姿态估计的方法和装置
CN106951840A (zh) 一种人脸特征点检测方法
CN110363817B (zh) 目标位姿估计方法、电子设备和介质
CN112200056B (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN110688947A (zh) 一种同步实现人脸三维点云特征点定位和人脸分割的方法
CN108171133A (zh) 一种基于特征协方差矩阵的动态手势识别方法
CN109272577B (zh) 一种基于Kinect的视觉SLAM方法
CN113643329B (zh) 一种基于孪生注意力网络的在线更新目标跟踪方法和系统
Shi et al. An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds
EP3639192A1 (en) Computer vision-based thin object detection
CN111709269B (zh) 一种深度图像中基于二维关节信息的人手分割方法和装置
CN113793370A (zh) 三维点云配准方法、装置、电子设备及可读介质
CN114608522B (zh) 一种基于视觉的障碍物识别与测距方法
CN113436251B (zh) 一种基于改进的yolo6d算法的位姿估计系统及方法
CN113780040B (zh) 唇部关键点的定位方法及装置、存储介质、电子设备
CN113808202A (zh) 一种多目标检测和空间定位方法及其系统
Geng et al. SANet: A novel segmented attention mechanism and multi-level information fusion network for 6D object pose estimation
JP2006113832A (ja) ステレオ画像処理装置およびプログラム
CN116386089B (zh) 运动场景下人体姿态估计方法、装置、设备及存储介质
CN114627438A (zh) 目标检测模型生成方法、目标检测方法、设备及介质
CN117689887A (zh) 基于点云分割的工件抓取方法、装置、设备及存储介质
CN110580451A (zh) 一种基于三维优化子曲面的人脸识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant