CN110472507A - 基于深度残差网络的人手深度图像位姿估计方法及系统 - Google Patents
基于深度残差网络的人手深度图像位姿估计方法及系统 Download PDFInfo
- Publication number
- CN110472507A CN110472507A CN201910629662.8A CN201910629662A CN110472507A CN 110472507 A CN110472507 A CN 110472507A CN 201910629662 A CN201910629662 A CN 201910629662A CN 110472507 A CN110472507 A CN 110472507A
- Authority
- CN
- China
- Prior art keywords
- human hand
- hand
- characteristic
- pose
- depth image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims description 38
- 210000002478 hand joint Anatomy 0.000 claims description 33
- 230000010354 integration Effects 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 19
- 210000001145 finger joint Anatomy 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000003993 interaction Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 230000007547 defect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 101001013832 Homo sapiens Mitochondrial peptide methionine sulfoxide reductase Proteins 0.000 description 3
- 102100031767 Mitochondrial peptide methionine sulfoxide reductase Human genes 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度残差网络的人手深度图像位姿估计方法及系统,该方法及系统首先输入人手深度图像到CNN模型中,利用该模型对输入的图像进行特征提取,得到人手特征图;其次,将提取得到的人手特征图输入到训练好的区域集成网络中,通过该网络进行人手姿态估计;其中,在所述区域集成网络中,将提取得到的人手特征图均匀分成若干个特征区域,将每个特征区域输入到回归模型进行人手位姿估计,通过融合每个特征区域的回归结果,最终回归出人手深度图像的人手位姿。该方法及系统充分提取了更优化、更具有代表性的人手特征,相较于其他方法人手位姿估计的精度更高。
Description
技术领域
本发明涉及机器学习、计算机视觉领域,更具体地说,涉及一种基于深度残差卷机网络并结合区域集成网络,研究人手深度图像位姿的估计方法及系统。
背景技术
随着计算机视觉技术的不断发展,人们开始追求更加自然和谐的人机交互方式,手部运动是人类交互的重要渠道,人手不仅可以表达语义信息,还可以定量的表达空间方向和位置信息,这将有助于构建更自然、高效的人机交互环境。因此基于视觉的多关节人手三维位姿估计与运动分析是一个重要的研究方向,旨在用计算机视觉方法以非接触方式从图像或图像序列中检测人手及其指关节的三维位姿。多关节人手三维位姿估计方法对增强/虚拟现实、智能机器人、辅助驾驶、医疗卫生等领域有着重要的意义。人机交互技术已经从以计算机为中心逐步转移到以人为中心,是一种全新的多种媒体、多种模式的交互技术。手是人体最为灵活的部位,相较其他交互方式而言,将手势作为人机交互的手段显得更加自然,因此手势识别技术是人机交互的一大研究点。
发明内容
本发明要解决的技术问题在于,针对现有技术识别强度弱的缺陷,提供一种基于深度残差卷积网络的人手深度图像的位姿估计方法,通过引用一种姿态引导的卷积神经网络结构,来克服现有的三维姿态估计方法从单张深度图回归出人手的三维位姿坐标的缺点。
本发明解决其技术问题所采用的技术方案是:构造一种基于深度残差网络的人手深度图像位姿估计方法,该方法包括以下步骤:
S1、输入人手深度图像到CNN模型中,利用该模型对输入的图像进行特征提取,得到人手特征图;
S2、将输入的人手深度图像作为训练样本,对区域集成网络进行训练,并将提取得到的人手特征图输入到训练好的区域集成网络中,通过该网络进行人手姿态估计;其中,在进行人手姿态估计时,所述区域集成网络中,将提取得到的人手特征图均匀分成若干个特征区域,将每个特征区域输入到回归模型进行人手位姿估计,通过融合每个特征区域的回归结果,最终回归出人手深度图像的人手位姿。
该方法中,基于步骤S2,克服了从单张深度图回归出人手的三维位姿坐标的缺点,通过对人手的关节区域进行特征提取,在利用区域集成网络中的全连接层,对提取得到的特征区域进行分层融合,使得估计出的三维人手姿态更加精准。
进一步的,步骤S2中,包括以下子步骤:
S21、所述CNN模型包括若干个卷积层,其中,将最后一个卷积层提取得到的特征图表示为F,根据在阶段t-1即t-1时刻,预估得到的人手位姿估计pt-1,从特征图F中提取第一特征区域;
S22、在阶段t,采用矩形窗口对步骤S21提取得到的第一特征区域进行切割,得到若干个包含人手关节点的矩形区域,其中,所述矩形区域定义为和为人手关节点i所在矩形区域的左上角坐标点,w和h分别表示当前矩形区域的宽度和高度;将包含人手关节点i的特征区域表示为:
函数表示从人手深度图像提取的特征图F中,用矩形窗口裁剪出包含人手关节点的特征区域;
S23、所述区域集成网络包括若干个全连接层,利用所述全连接层,对步骤S22切割得到的若干个包含人手关节点的矩形区域进行融合,得到一个包括五根手指关节的融合特征区域,针对所述融合特征区域,利用回归模型R,回归出人手深度图像的人手位姿Pt。
进一步的,步骤S23中针对同一手指上的关节点,其中,切割得到的特征区域均通过全连接层l1进行融合连接,得到第一融合特征区域;然后,针对每根手指融合得到的第一融合特征区域,将其集中输入到全连接层l2进行特征区域融合,得到所述包括人手五根手指关节的融合特征区域。
进一步的,步骤S23中,将所有属于同一手指的关节点串联在一起,其中,用concate表示连接函数,串联后神经元将进一步通过全连接层l2进行融合连接,得到不同手指的特征区域:
其中,为将五根手指关节的特征区域各自输入到全连接层l1后,得到的五根手指的关节点坐标,M表示切割所得的矩形区域数量;第ith个手指上的所有关节点表示为Mi表示第ith个手指的关节点数量;FC(·)表示利用全连接层对输入的“·”进行计算,得到对应的关节点坐标;
将不同手指的特征区域串联后,在将其输入到的全连接层l2中,回归出最终的人手位姿
其中,
进一步的,在区域集成网络模型的训练过程中,设定训练集合方程为T0:
其中,NT表示训练样本即输入的人手深度图像的数量,Di为输入的人手深度图像,Pi 0是人手的位姿初始估计值,Pi gt是人工标注的真实人手姿态三维坐标。
本发明提出的一种基于深度残差网络的人手深度图像位姿估计系统,该系统包括以下模块:
特征图提取模块,用于输入人手深度图像到CNN模型中,利用该模型对输入的图像进行特征提取,得到人手特征图;
人手位姿估计模块,用于将提取得到的人手特征图输入到训练好的区域集成网络中,通过该网络进行人手姿态估计;其中,在所述区域集成网络中,将提取得到的人手特征图均匀分成若干个特征区域,将每个特征区域输入到回归模型进行人手位姿估计,通过融合每个特征区域的回归结果,最终回归出人手深度图像的人手位姿。
进一步的,人手位姿估计模块中,包括以下子模块:
特征区域提取模块,用于将最后一个卷积层提取得到的特征图表示为F,根据在阶段t-1即t-1时刻,预估得到的人手位姿估计pt-1,从特征图F中提取第一特征区域;
切割模块,用于在阶段t,采用矩形窗口对特征区域提取模块提取得到的第一特征区域进行切割,得到若干个包含人手关节点的矩形区域,其中,所述矩形区域定义为和为人手关节点i所在矩形区域的左上角坐标点,w和h分别表示当前矩形区域的宽度和高度;将包含人手关节点i的特征区域表示为:
函数表示从人手深度图像提取的特征图F中,用矩形窗口裁剪出包含人手关节点的特征区域;
人手位姿计算模块,用于对切割模块切割得到的若干个包含人手关节点的矩形区域进行融合,得到一个包括五根手指关节的融合特征区域,针对所述融合特征区域,利用回归模型R,回归出人手深度图像的人手位姿Pt。
进一步的,人手位姿计算模块中针对同一手指上的关节点,其中,切割得到的特征区域均通过全连接层l1进行融合连接,得到第一融合特征区域;然后,针对每根手指融合得到的第一融合特征区域,将其集中输入到全连接层l2进行特征区域融合,得到所述包括人手五根手指关节的融合特征区域。
在本发明所述的一种基于深度残差网络的人手深度图像位姿估计方法及系统中,通过对人手的关节区域进行特征提取,进行分层融合后,再进行三维人手姿态估计。
实施本发明公开的一种基于深度残差网络的人手深度图像位姿估计方法及系统,其中利用的人手姿态引导的结果区域集成网络,将预测的人手位姿估计作为引导信息,并将其反馈到特征图中,通过不断反馈误差,能够进一步学习到更好的人手特征。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明公开的人手深度图像位姿估计方法流程图;
图2是残差结构示意图;
图3是姿态引导结构化区域集成网络图;
图4是残差卷积网络模型;
图5-图10是利用三种不同数据集,所得的各个关节点的平均误差、人手位姿投影效果图;
图11是本发明公开的人手深度图像位姿估计系统结构图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
本发明为了解决一种姿态引导的卷积神经网络结构,该网络结构可以克服现有的三维姿态估计方法从单张深度图回归出人手的三维位姿坐标的缺点,对人手的关节区域进行特征提取,再将提取得到的特征图进行分层融合,最后再针对对融合后的特征图,进行三维人手姿态估计。
请参考图1,其为本发明公开的人手深度图像位姿估计方法流程图,具体包括以下步骤:
S1、输入人手深度图像到CNN模型中,利用该模型对输入的图像进行特征提取,得到人手特征图;
该CNN模型中,具体是利用卷积层对输入的人手图像进行特征提取,其中,通过参数共享和稀疏连接来提取人手特征;
本实施例中,该网络具有6个卷积层和2个残差连接,每个卷积核的大小为3*3,卷积核的个数分别为16、32、64,每个卷积层后面连接一个非线性激活函数ReLU,每两个卷积层后面连接一个最大池化层,残差连接位于两个最大池化层之间,防止深度网络梯度消失的问题,其中,残差结构详见图2。
本实施例中,卷积核用函数fk表示,卷积核的大小用3*3表示,因此每个卷积核与人手图像x之间的连接数量为3*3,其中人手图像的长、宽大小分别为μ和ν,当前卷积层输出的计算结果为:
S2、对区域集成网络进行训练,并将提取得到的人手特征图输入到训练好的区域集成网络中,通过该网络进行人手姿态估计;其中:
在区域集成网络模型的训练过程中,设定训练集合方程为T0:
其中,NT表示训练样本的数量,Di为输入的人手深度图像,Pi 0是人手位姿估计初始值,Pi gt是深度图像的三维人手位姿。使用该训练集合模型,训练集合中每个样本,反复重复达到最大的迭代次数T。
请参考图3,其为姿态引导结构化区域集成网络图,本部分将结合该网络结果,对人手姿态估计过程进行详细说明,在所述区域集成网络中,首先,CNN模型中最后一个卷积层提取得到的特征图表示为F,根据在阶段t-1即t-1时刻,预估得到的人手位姿估计pt-1,从特征图F中提取特征区域图;其中,在进行下一步操作时,对于第ith个人手关节点,需将其对应的世界坐标点转化为像素坐标点:
其次,在利用矩形窗口将上述提取得到的特征区域图均匀分成多个网格区域,每个网格区域将被馈送到全连接层进行融合后,再进行人手位姿回归;其中,所述矩形区域定义为和为人手关节点i所在矩形区域的左上角坐标点,w和h分别表示当前矩形区域的宽度和高度;将包含人手关节点i的特征区域表示为:
函数表示从人手深度图像提取的特征图F中,用矩形窗口裁剪出包含人手关节点的特征区域;
最后,针对同一手指上的关节点,其中,切割得到的特征区域均通过全连接层l1进行融合连接,得到第一融合特征区域;然后,针对每根手指融合得到的第一融合特征区域,将其集中输入到全连接层l2进行特征区域融合,得到所述包括人手五根手指关节的融合特征区域;针对所述融合特征区域,利用回归模型R,回归出人手深度图像的人手位姿Pt。其中:
在上述级联的网络中,假设深度图像用D表示,三维人手位姿表示为
其中,J为人手关节点;在阶段t-1时,当前预测到的人手位姿估计的结果为pt-1,整个回归模型R在阶段t进行人手位姿估计的预测结果表示为:
Pt=R(Pt-1,D);
在整个训练过程中,历经T个阶段后,可以得到输入深度图像D的最后人手位姿估计PT:
PT=R(PT-1,D)。
上述即为完整的人手位姿估计过程,在将人手五根手指关节的特征区域各自输入到全连接层FC中,利用concate连接函数将所有属于同一手指的关节点串联在一起,其中,串联后神经元将进一步通过全连接层l2进行融合连接,得到不同手指的特征区域:
其中,为将五根手指关节的特征区域各自输入到全连接层l1后,得到的五根手指的关节点坐标,M表示切割所得的矩形区域数量;第ith个手指上的所有关节点表示为Mi表示第ith个手指的关节点数量;
将不同手指的特征区域串联后,在将其输入到的全连接层l2中,回归出最终的人手位姿
其中,
如图4所示,用于特征提取的卷积网络模型架构由6个3*3的卷积层组成,网络输入为128*128,将深度人手图像作为输入,每个卷积层后采用ReLU激活层进行非线性特征变换,残差结构分别连接在两个池化层之间,人手特征提取网络输出特征映射的维数为12*12*64。对于回归任务而言,本实施例使用两个2048维的全连接层,其中,用于人手位姿回归的每个全连接层的神经元的失活率为0.5,防止模型出现过拟合情况,最后的回归结果为3*J向量,该向量表示人手关节点的世界坐标,其中J表示人手关节的数量。
本实施例中,为了证明该算法评估的有效性,分别利用三个公开的数据集(ICVL,MSRA,NYU)进行效果对比。
整个模型训练周期为100,Batch size的大小设置为64,深度残差网络采用Adam梯度下降算法,学习率设置为0.0001;区域集成网络采用SGD梯度下降算法,学习率设置为0.005,每迭代2个周期,学习率缩小10倍,权重衰减为0.0005,动量为0.9。人手姿态引导的结构化区域集成网络采用SGD梯度下降算法,学习率设置为0.001,每迭代10个周期,学习率缩小10倍,权重衰减为0.0005,动量为0.9。
将预测的人手位姿和真实标准的人手位姿最大的关节点误差进行比较,其中,关节点的平均误差为:
针对以上运用到的3个不同的数据集,采用三种不同方法进行人手位姿估计,所述三种不同方法包括:包括深度残差卷积网络(简称ResNet-Hand),区域集成网络(简称Multi-Region)和人手姿态引导结构化区域集成网络(简称Pose-Guide),实现效果图请参考图5-图10。
图5中,利用NYU数据集,将上述三种方法的人手位姿估计精度做出了比较。其中,以人手中心点作为先验信息的方法得到人手位姿估计,深度残差卷积网络方法(ResNetHand)的平均误差为13.89mm,区域集成网络方法(Multi-Region)的平均误差为12.63mm,人手姿态引导结构化区域集成网络(Pose-Guide)的平均误差为11.49mm。当前显示,利用人手姿态引导结构化区域集成网络进行人手位姿估计的精度比其他两种方法带来的精度要高,具体原因是深度残差卷积网络相比浅层网络有更强的特征提取能力。区域集成网络通过合并特征图信息进行位姿估计,相比单个网络有更强的特征表达能力,人手位姿估计精度比ResNet-Hand方法更高。人手姿态引导的区域集成网络通过将先前的人手位姿估计的引导信息结合到特征图中,使得该网络能够学习到更好的特征。
图6显示的是利用NYU数据集,进一步展示了三维人手位姿估计在二维深度图像上的投影效果图,第一行为真实标注的人手关节点坐标(GT)在人手图像上的投影,第二行为运用深度残差卷积网络(ResNet-Hand)预测的人手关节点坐标在人手图像上的投影,第三行为运用区域集成网络方法(Multi-Region)预测的人手关节点坐标在人手图像上的投影。第四行人手姿态引导结构化区域集成网络(Pose-Guide)预测的人手关节点坐标在人手图像上的投影。
图7为利用MSRA数据集,将上述三种方法的人手位姿估计精度做出了比较结果。其中,以人手中心点作为先验信息的方法得到人手位姿估计,其中,深度残差卷积网络方法(ResNet-Hand)的平均误差为9.79mm,区域集成网络方法(Multi-Region)的平均误差为8.65mm,人手姿态引导结构化区域集成网络(Pose-Guide)的平均误差为8.58mm。
当前显示,利用人手姿态引导结构化区域集成网络进行人手位姿估计的精度比其他两种方法带来的精度要高。
图8表示三维人手位姿估计在MSRA测试集中二维深度图像上的投影效果图,第一行为真实标注的人手关节点坐标(GT)在人手图像上的投影,第二行为运用深度残差卷积网络(ResNet-Hand)预测的人手关节点坐标在人手图像上的投影,第三行为运用区域集成网络方法(Multi-Region)预测的人手关节点坐标在人手图像上的投影。第四行人手姿态引导结构化区域集成网络(Pose-Guide)预测的人手关节点坐标在人手图像上的投影。
图9中,利用ICVL数据集,将上述三种方法的人手位姿估计精度做出了比较。其中,深度残差卷积网络方法(ResNet-Hand)的平均误差为7.63mm,区域集成网络方法(Multi-Region)的平均误差为7.31mm,人手姿态引导结构化区域集成网络(Pose-Guide)的平均误差为7.21mm。
当前显示,利用人手姿态引导结构化区域集成网络进行人手位姿估计的精度比其他两种方法带来的精度要高。
图10表示三维人手位姿估计在ICVL测试集中二维深度图像上的投影效果图;其中,第一行为真实标注的人手关节点坐标(GT)在人手图像上的投影,第二行为运用深度残差卷积网络(ResNet-Hand)预测的人手关节点坐标在人手图像上的投影,第三行为运用区域集成网络方法(Multi-Region)预测的人手关节点坐标在人手图像上的投影。第四行人手姿态引导结构化区域集成网络(Pose-Guide)预测的人手关节点坐标在人手图像上的投影。
请参考图11,其为本发明公开的人手深度图像位姿估计系统结构图,该系统包括特征图提取模块L1和人手位姿估计模块L2,其中:
特征图提取模块L1用于输入人手深度图像到CNN模型中,利用该模型对输入的图像进行特征提取,得到人手特征图;
人手位姿估计模块L2用于将提取得到的人手特征图输入到训练好的区域集成网络中,通过该网络进行人手姿态估计;其中,在所述区域集成网络中,将提取得到的人手特征图均匀分成若干个特征区域,将每个特征区域输入到回归模型进行人手位姿估计,通过融合每个特征区域的回归结果,最终回归出人手深度图像的人手位姿。其中,人手位姿估计模块L2中还包括了特征区域提取模块L21、切割模块L22和人手位姿计算模块L23,进一步从输入的人手特征图中,进行三维人手位姿估计,每个模块的功能如下所述:
特征区域提取模块L21用于将最后一个卷积层提取得到的特征图表示为F,根据在阶段t-1即t-1时刻,预估得到的人手位姿估计pt-1,从特征图F中提取第一特征区域;
切割模块L22用于在阶段t,采用矩形窗口对特征区域提取模块提取得到的第一特征区域进行切割,得到若干个包含人手关节点的矩形区域,其中,所述矩形区域定义为和为人手关节点i所在矩形区域的左上角坐标点,w和h分别表示当前矩形区域的宽度和高度;将包含人手关节点i的特征区域表示为:
函数表示从人手深度图像提取的特征图F中,用矩形窗口裁剪出包含人手关节点的特征区域;
人手位姿计算模块L23用于对切割模块切割得到的若干个包含人手关节点的矩形区域进行融合,得到一个包括五根手指关节的融合特征区域,针对所述融合特征区域,利用回归模型R,回归出人手深度图像的人手位姿Pt。
本发明通过结合深度残差卷积网络强大的特征提取能力和区域集合网络的特征融合的优势,提出人手姿态引导的结构化区域集成网络方法。为了进一步挖掘深度图像更多特征信息,人手姿态引导的结构区域集成网络将预测的人手位姿估计作为引导信息反馈到特征图中,并且通过不断反馈误差学习到更好的人手特征。实验结果表明人手姿态引导的结构区域集成网络充分提取了更优化和更具有代表性的人手特征,相较于其他方法人手位姿估计的精度更高。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (8)
1.一种基于深度残差网络的人手深度图像位姿估计方法,其特征在于,该方法包括以下步骤:
S1、输入人手深度图像到CNN模型中,利用该模型对输入的图像进行特征提取,得到人手特征图;
S2、将输入人手深度图像作为训练样本,对区域集成网络进行训练,并将步骤S1提取得到的人手特征图输入到训练好的区域集成网络中,通过该网络进行人手姿态估计;其中,在进行人手姿态估计时,所述区域集成网络中,将提取得到的人手特征图均匀分成若干个特征区域,将每个特征区域输入到回归模型进行人手位姿估计,通过融合每个特征区域的回归结果,最终回归出人手深度图像的人手位姿。
2.根据权利要求1所述的人手深度图像位姿估计方法,其特征在于,步骤S2中,包括以下子步骤:
S21、所述CNN模型包括若干个卷积层,其中,将最后一个卷积层提取得到的特征图表示为F,根据在阶段t-1即t-1时刻,预估得到的人手位姿估计pt-1,从特征图F中提取第一特征区域;
S22、在阶段t,采用矩形窗口对步骤S21提取得到的第一特征区域进行切割,得到若干个包含人手关节点的矩形区域,其中,所述矩形区域定义为 和为人手关节点i所在矩形区域的左上角坐标点,w和h分别表示当前矩形区域的宽度和高度;将包含人手关节点i的特征区域表示为:
函数表示从人手深度图像提取的特征图F中,用矩形窗口裁剪出包含人手关节点的特征区域;
S23、所述区域集成网络包括若干个全连接层,利用所述全连接层,对步骤S22切割得到的若干个包含人手关节点的矩形区域进行融合,得到一个包括五根手指关节的融合特征区域,针对所述融合特征区域,利用回归模型R,回归出人手深度图像的人手位姿Pt。
3.根据权利要求2所述的人手深度图像位姿估计方法,其特征在于,所述区域集成网络在最后一层卷积层之后依次连接的有全连接层l1和全连接层l2;步骤S23中针对同一手指上的关节点,其中,切割得到的特征区域均通过全连接层l1进行融合连接,得到第一融合特征区域;然后,针对每根手指融合得到的第一融合特征区域,将其集中输入到全连接层l2进行特征区域融合,得到所述包括人手五根手指关节的融合特征区域。
4.根据权利要求3所述的人手深度图像位姿估计方法,其特征在于,步骤S23中,将所有属于同一手指的关节点串联在一起,其中,用concate表示连接函数,串联后神经元将进一步通过全连接层l2进行融合连接,得到不同手指的特征区域:
其中,为将五根手指关节的特征区域各自输入到全连接层l1后,得到的五根手指的关节点坐标,M表示切割所得的矩形区域数量;第ith个手指上的所有关节点表示为Mi表示第ith个手指的关节点数量;FC(·)表示利用全连接层对输入的“·”进行计算,得到对应的关节点坐标;
将不同手指的特征区域串联后,在将其输入到的全连接层l2中,回归出最终的人手位姿
其中,
5.根据权利要求1所述的人手深度图像位姿估计方法,其特征在于,在区域集成网络模型的训练过程中,设定训练集合方程为T0:
其中,NT表示训练样本即输入的人手深度图像的数量,Di为输入的人手深度图像,Pi 0是人手的位姿初始估计值,Pi gt是人工标注的真实人手姿态三维坐标。
6.一种基于深度残差网络的人手深度图像位姿估计系统,其特征在于,该系统包括以下模块:
特征图提取模块,用于输入人手深度图像到CNN模型中,利用该模型对输入的图像进行特征提取,得到人手特征图;
人手位姿估计模块,用于将提取得到的人手特征图输入到训练好的区域集成网络中,通过该网络进行人手姿态估计;其中,在所述区域集成网络中,将提取得到的人手特征图均匀分成若干个特征区域,将每个特征区域输入到回归模型进行人手位姿估计,通过融合每个特征区域的回归结果,最终回归出人手深度图像的人手位姿。
7.根据权利要求6所述的人手深度图像位姿估计系统,其特征在于,人手位姿估计模块中,包括以下子模块:
特征区域提取模块,用于将最后一个卷积层提取得到的特征图表示为F,根据在阶段t-1即t-1时刻,预估得到的人手位姿估计pt-1,从特征图F中提取第一特征区域;
切割模块,用于在阶段t,采用矩形窗口对特征区域提取模块提取得到的第一特征区域进行切割,得到若干个包含人手关节点的矩形区域,其中,所述矩形区域定义为 和为人手关节点i所在矩形区域的左上角坐标点,w和h分别表示当前矩形区域的宽度和高度;将包含人手关节点i的特征区域表示为:
函数表示从人手深度图像提取的特征图F中,用矩形窗口裁剪出包含人手关节点的特征区域;
人手位姿计算模块,用于对切割模块切割得到的若干个包含人手关节点的矩形区域进行融合,得到一个包括五根手指关节的融合特征区域,针对所述融合特征区域,利用回归模型R,回归出人手深度图像的人手位姿Pt。
8.根据权利要求7所述的人手深度图像位姿估计系统,其特征在于,人手位姿计算模块中针对同一手指上的关节点,其中,切割得到的特征区域均通过全连接层l1进行融合连接,得到第一融合特征区域;然后,针对每根手指融合得到的第一融合特征区域,将其集中输入到全连接层l2进行特征区域融合,得到所述包括人手五根手指关节的融合特征区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910629662.8A CN110472507A (zh) | 2019-07-12 | 2019-07-12 | 基于深度残差网络的人手深度图像位姿估计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910629662.8A CN110472507A (zh) | 2019-07-12 | 2019-07-12 | 基于深度残差网络的人手深度图像位姿估计方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110472507A true CN110472507A (zh) | 2019-11-19 |
Family
ID=68508170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910629662.8A Pending CN110472507A (zh) | 2019-07-12 | 2019-07-12 | 基于深度残差网络的人手深度图像位姿估计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472507A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950521A (zh) * | 2020-08-27 | 2020-11-17 | 深圳市慧鲤科技有限公司 | 一种增强现实交互的方法、装置、电子设备及存储介质 |
CN113763572A (zh) * | 2021-09-17 | 2021-12-07 | 北京京航计算通讯研究所 | 一种基于ai智能识别的3d实体标注方法及存储介质 |
CN113781492A (zh) * | 2020-06-10 | 2021-12-10 | 阿里巴巴集团控股有限公司 | 目标元素含量测量方法、训练方法、相关装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150088116A (ko) * | 2014-01-23 | 2015-07-31 | 삼성전자주식회사 | 관절식 객체의 자세를 추정하기 위한 파라미터 학습 방법 및 관절식 객체의 자세 추정 방법 |
CN105389539A (zh) * | 2015-10-15 | 2016-03-09 | 电子科技大学 | 一种基于深度数据的三维手势姿态估计方法及系统 |
CN105759967A (zh) * | 2016-02-19 | 2016-07-13 | 电子科技大学 | 一种基于深度数据的手部全局姿态检测方法 |
CN108960178A (zh) * | 2018-07-13 | 2018-12-07 | 清华大学 | 一种人手姿态估计方法及系统 |
-
2019
- 2019-07-12 CN CN201910629662.8A patent/CN110472507A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150088116A (ko) * | 2014-01-23 | 2015-07-31 | 삼성전자주식회사 | 관절식 객체의 자세를 추정하기 위한 파라미터 학습 방법 및 관절식 객체의 자세 추정 방법 |
CN105389539A (zh) * | 2015-10-15 | 2016-03-09 | 电子科技大学 | 一种基于深度数据的三维手势姿态估计方法及系统 |
CN105759967A (zh) * | 2016-02-19 | 2016-07-13 | 电子科技大学 | 一种基于深度数据的手部全局姿态检测方法 |
CN108960178A (zh) * | 2018-07-13 | 2018-12-07 | 清华大学 | 一种人手姿态估计方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781492A (zh) * | 2020-06-10 | 2021-12-10 | 阿里巴巴集团控股有限公司 | 目标元素含量测量方法、训练方法、相关装置及存储介质 |
CN111950521A (zh) * | 2020-08-27 | 2020-11-17 | 深圳市慧鲤科技有限公司 | 一种增强现实交互的方法、装置、电子设备及存储介质 |
CN113763572A (zh) * | 2021-09-17 | 2021-12-07 | 北京京航计算通讯研究所 | 一种基于ai智能识别的3d实体标注方法及存储介质 |
CN113763572B (zh) * | 2021-09-17 | 2023-06-27 | 北京京航计算通讯研究所 | 一种基于ai智能识别的3d实体标注方法及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qu et al. | Human-like coordination motion learning for a redundant dual-arm robot | |
Chao et al. | A robot calligraphy system: From simple to complex writing by human gestures | |
Cruz et al. | Multi-modal integration of dynamic audiovisual patterns for an interactive reinforcement learning scenario | |
CN110210426B (zh) | 基于注意力机制从单幅彩色图像进行手部姿态估计的方法 | |
US20160221190A1 (en) | Learning manipulation actions from unconstrained videos | |
CN104573665A (zh) | 一种基于改进维特比算法的连续动作识别方法 | |
CN110472507A (zh) | 基于深度残差网络的人手深度图像位姿估计方法及系统 | |
CN109508686B (zh) | 一种基于层次化特征子空间学习的人体行为识别方法 | |
KR20200087348A (ko) | 깊이 기반 가분 합성곱 신경망 인공지능을 이용한 나이/감정/성별 분류 시스템 | |
CN111204476A (zh) | 一种基于强化学习的视触融合精细操作方法 | |
Valarezo Anazco et al. | Natural object manipulation using anthropomorphic robotic hand through deep reinforcement learning and deep grasping probability network | |
Li et al. | RoadFormer: Duplex transformer for RGB-normal semantic road scene parsing | |
CN110555383A (zh) | 一种基于卷积神经网络和3d估计的手势识别方法 | |
Rustler et al. | Active visuo-haptic object shape completion | |
CN107229921A (zh) | 基于Hausdorff距离的动态手势识别方法 | |
Takano | Annotation generation from IMU-based human whole-body motions in daily life behavior | |
Lu et al. | Visual-tactile robot grasping based on human skill learning from demonstrations using a wearable parallel hand exoskeleton | |
Zhang et al. | Digital twin-enabled grasp outcomes assessment for unknown objects using visual-tactile fusion perception | |
Yu et al. | A novel robotic pushing and grasping method based on vision transformer and convolution | |
Abdulsattar et al. | Facial expression recognition using transfer learning and fine-tuning strategies: A comparative study | |
Gao et al. | Parallel dual-hand detection by using hand and body features for robot teleoperation | |
Palm et al. | Recognition of human grasps by time-clustering and fuzzy modeling | |
Li et al. | A multi-branch hand pose estimation network with joint-wise feature extraction and fusion | |
CN111078008B (zh) | 一种早教机器人的控制方法 | |
Chen et al. | Dynamic gesture design and recognition for human-robot collaboration with convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191119 |
|
RJ01 | Rejection of invention patent application after publication |