CN110070068A - 一种人体动作识别方法 - Google Patents
一种人体动作识别方法 Download PDFInfo
- Publication number
- CN110070068A CN110070068A CN201910361909.2A CN201910361909A CN110070068A CN 110070068 A CN110070068 A CN 110070068A CN 201910361909 A CN201910361909 A CN 201910361909A CN 110070068 A CN110070068 A CN 110070068A
- Authority
- CN
- China
- Prior art keywords
- cluster
- vector
- action
- frame
- gaussian distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 269
- 230000009471 action Effects 0.000 claims abstract description 157
- 238000009826 distribution Methods 0.000 claims abstract description 70
- 238000005315 distribution function Methods 0.000 claims abstract description 10
- 230000008859 change Effects 0.000 claims abstract description 4
- 238000013528 artificial neural network Methods 0.000 claims description 50
- 238000012549 training Methods 0.000 claims description 25
- 210000000988 bone and bone Anatomy 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 210000002569 neuron Anatomy 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 6
- 230000003068 static effect Effects 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 22
- 238000012360 testing method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种人体动作识别方法,包括对人体骨骼关节点的三维坐标数据进行特征提取;将所有的特征向量分到与之最近的聚类中心形成各个簇;计算各个簇的多元高斯分布函数的参数,得到各个簇的多元高斯分布概率密度函数;计算每一特征向量在各个簇的多元高斯概率密度值,重新分配至概率密度最大的簇中;更新高斯分布参数,重新分配各特征向量,直到每个特征向量的分配不再改变;计算各个动作类型对每个簇的隶属度,得到对所有簇的隶属度向量,对每个簇的隶属度向量进行加权;将动作样本每一帧的特征向量分到最近的若干个簇中,对加权隶属度向量加权求和,作为该帧的得分向量;对动作样本所有帧的得分向量求和,判断该动作属于得分最高的动作类型。
Description
技术领域
本发明涉及一种人体动作识别方法,属于人体动作识别技术领域。
背景技术
动作识别在虚拟现实、视频监控、人机交互等诸多领域有着广阔的应用前景,其核心在于对动作每一帧信息的分析处理。随着深度相机的发展,人们可以获取人体动作的深度信息。利用从深度信息中提取的人体各个骨骼关节点坐标进行特征提取,可以有效地区分各种动作类型。目前,基于骨骼关节点的动作识别方法在诸多研究中已经取得了理想的实验结果。
许多动作识别的方法都着力于对动作的描述,通过提取各种类型的特征来描述动作。然而,为了使得构造的描述符更加完备,往往需要提取很多种特征进行组合,这使得计算代价很大,算法的效率较低,难以具有实时性。为了提高效率而简单舍弃某些类型的特征,往往会使得描述符的区分度下降,动作识别效果变差。为了满足实际的应用需求,人体动作识别方法必须在保证描述符完备性的前提下,提高算法效率,实现准确高效的动作识别。同时能够识别类别更多,运动更加复杂的动作,提高动作识别算法适用性。
发明内容
本发明是为解决现有技术中的问题而提出的,技术方案如下,
一种人体动作识别方法,包括如下步骤:
步骤一、对动作样本内人体骨骼关节点的三维坐标进行归一化处理;
步骤二、设计一种二阶自循环神经网络对人体骨骼关节点的三维坐标数据进行特征提取,得到每一帧的特征向量;
步骤三、随机选取部分特征向量,每个特征向量作为初始聚类中心,将所有的特征向量分到与之最近的聚类中心形成各个簇;
步骤四、设定簇内特征向量的各元素服从多元高斯分布,计算各个簇的多元高斯分布函数的参数,得到各个簇的多元高斯分布概率密度函数;
步骤五、对于每一个特征向量,计算其在每一个簇的多元高斯概率密度值,重新分配至概率密度最大的簇中;
步骤六、利用最大似然估计,更新高斯分布参数,重新分配各特征向量,直到每个特征向量的分配不再改变;
步骤七、对每个簇,根据特征向量的最终分配结果计算各个动作类型的隶属度,得到该簇的隶属度向量,对每个簇的隶属度向量进行加权;
步骤八、将动作样本每一帧的特征向量按一定权重分到最近的若干个簇中,对这若干个簇的加权隶属度向量加权求和,作为该帧的得分向量;
步骤九、对动作样本所有帧的得分向量求和,判断该动作属于得分最高的动作类型。
优选的,所述步骤一对动作样本内的人体骨骼关节点的三维坐标进行归一化处理的具体方法为:
一个长度为N帧的动作样本,每一帧都记录了R个骨骼关节点的三维坐标,其中,第r(1≤r≤R)个骨骼关节在第n(1≤n≤N)帧的坐标为(xn,r,yn,r,zn,r),则该帧的静态姿势可以通过该帧的R个骨骼关节的三维坐标来表示,具体表示方法如下:
Sn={(xn,r,yn,r,zn,r)|r∈[1,R],n∈[1,N]}。
在动作样本J中,设第r个骨骼关节在x轴,y轴,z轴上的最大值分别为(xr)max,(yr)max,(zr)max,最小值分别为(xr)min,(yr)min,(zr)min,按以下方式,对动作样本第n帧的第r个骨骼关节点的三维坐标做归一化处理:
任意一帧的静态姿势可以通过归一化后的R个骨骼关节点的三维坐标来表示:
S′n={(x′n,r,y′n,r,z′n,r)|r∈[1,R],n∈[1,N]}。
S′n包含了R个骨骼关节点归一化后的三维坐标,每个骨骼关节点的三维坐标包含了骨骼关节点在x,y,z轴上的三个值,以这R×3个值构成向量并称为第n帧的坐标向量,则一个长度为N帧动作样本J就可以通过N个帧坐标向量表示:
优选的,所述步骤二中得到每一帧的特征向量的具体方法为:
设计二阶自循环神经网络,二阶自循环神经网络对动作样本的的每一帧的坐标向量进行了两次编码并在编码过程中对每一帧进行权重处理,从而得到每一帧的特征向量
在第一次编码中,将训练集中所有动作样本所有帧的坐标向量输入至二阶自循环神经网络,设定神经网络期望输出值为输入值,隐层神经元个数为D1,训练神经网络;训练完毕后,将每一帧的特征向量再次输入神经网络,提取神经网络隐层的D1维数据作为该帧的编码向量
设第一次编码得到的编码向量为对其进行加权处理;设分别为动作样本J的第1帧到第N帧的坐标向量,设为第一次编码得到的编码向量,则的权重系数的计算方式如下:
将每个编码向量乘以各自的权重得到加权编码向量即
在第二次编码中,对得到的加权编码向量进行编码,将动作样本每一帧的加权编码向量作为二阶自循环神经网络的训练样本;设定神经网络的期望输出值为输入值,隐层神经元个数为D2,训练神经网络;训练完毕后,将加权编码向量再次输入训练完毕的神经网络,提取神经网络隐层的D2维数据,作为该帧的二次编码向量
设第二次编码得到的编码向量为对其进行加权处理,的权重系数的计算方式如下:
将二次编码向量乘以相应权重,得到特征向量即
对于长度为N帧的动作样本J,在将该动作样本的每一帧骨骼关节点的坐标向量进行二次编码及加权处理后,可以得到该动作样本每一帧的特征向量动作样本J就可以用这N个特征向量表示:
进一步的,所述步骤四中将所有的特征向量分到与之最近的聚类中心形成各个簇的具体方法为:
在训练集所有动作样本的各个帧的特征向量中,随机选取K个特征向量,每个特征向量作为初始聚类中心,将所有的特征向量分到与之最近的聚类中心形成K个簇,K个特征向量为将这K个特征向量分别作为K个簇的多元高斯分布概率密度函数的K个均值向量
对于长度为N帧的动作样本J的特征向量与各个簇的均值向量的欧氏距离,计算方式如下:
该帧的特征向量到K个簇的欧式距离可以以集合Vn表示:
Vn={dn,k|k=1,2,...,K}。
得到Vn后,将分入集合Vn中最小值所对应的簇。
进一步的,所述步骤五中对于每一个特征向量计算其在每一个簇的多元高斯分布概率密度值,重新分配至概率密度最大的簇中的具体方法为:
第k个簇的多元高斯分布概率密度函数为:
其中,∑k分别是多元高斯分布概率密度函数的均值向量和协方差矩阵,D2为多元高斯分布概率密度函数的随机变量个数,也即特征向量的长度;将第n帧的特征向量带入到第k个簇的多元高斯分布概率密度函数中,得到第n帧特征向量对应于该簇的概率密度值;第n帧的特征向量带入K个簇的高斯分布概率密度函数后,可以得到K个概率密度值:
Pn={Pn,1,Pn,2,...,Pn,K}。
将特征向量分入拥有最大概率密度函数值所对应的簇。
当所有特征向量经步骤四被分配到具有最小欧式距离的簇后,根据每个簇所分到的特征向量,重新计算每个簇的均值向量并求这个簇的高斯分布的协方差矩阵∑k,具体的参数更新的方式如下:
设第k个簇包含L个特征向量,这L个特征向量构成集合Setk,即则该簇所对应的高斯分量的均值向量的计算方式为:
第k个簇所对应高斯分量的协方差矩阵∑k为:
以第k个簇的每一个特征向量为一个样本,特征向量中每一个元素即为一个随机变量,σi,j(1≤i≤D2,1≤j≤D2)表示Setk内各样本的第i个随机变量fi和第j个随机变量fj的协方差,其计算方式如下:
其中,是第i,j个随机变量的均值。
更新参数与∑k后,重新计算特征向量对各个簇的概率密度Pn,1,Pn,2,...,Pn,K,再将各个特征向量分配至最大概率密度所对应的簇。
循环该步,更新多元高斯分布参数并重新分配特征向量至概率密度最大的簇,直至所有帧的特征向量被分配的簇不再改变为止。
进一步的,所述步骤七中各个动作类型的隶属度hk,c的计算方法为:
其中,是第k个簇内来自动作类型c的特征向量的个数,是第k个簇包含的特征向量的总个数,1≤k≤K,1≤c≤C,C为动作类型的总个数。
进一步的,所述步骤七中对每个簇的隶属度向量进行加权的计算方法为:
每个簇的隶属度向量隶属度向量的权重系数ηk的具体的计算方式如下:
将权重系数ηk乘以隶属度向量得到加权隶属度向量
进一步的,所述步骤八中将动作样本每一帧的特征向量分配至最近的若干个簇中的权重由高斯分布距离计算得到,用来描述特征向量与第k个簇之间的距离;
为了定量的描述帧的特征向量与簇之间的距离,首先引入高斯分布距离来描述特征向量与簇k之间的距离。任何一个簇的多元高斯分布函数在超维空间上的形状是一个无限延展的椭球,取概率密度为定值,就能得到一个椭球的封闭曲面。对于一个二维高斯分布当概率密度为一个定值,两个随机变量的所有取值对(x.y)将在二维平面内围成一个椭圆。
对于D2维的高斯分布,给定一个概率密度,可以确定超维椭球的D2个相互正交的轴。以二维高斯分布为例,其图像在二维平面内为一个椭圆,共有两个正交轴。
对于一个D2维高斯分布,共有D2个相互正交的轴。计算动作样本第n帧的特征向量和这D2个正交轴向量各自的内积,并将这些内积求和,将其求和结果定义为第n帧的特征向量与簇之间的高斯分布距离具体计算方式如下:
设第k个簇的高斯分布的D2个正交轴的向量分别为第n帧的特征向量对簇k的高斯分布距离的计算方法如下:
第n帧的特征向量共有K个高斯分布距离每个高斯分布距离对应于一个簇;在这K个高斯分布距离中,选择最小的前T个高斯分布距离对应的簇,按一定权重将特征向量分配进这T个簇中,这T个高斯分布距离分别为Gn,1,Gn,2,...,Gn,T,根据这T个距离的相对大小关系,对这T个高斯分布距离对应的最小簇赋权,其中第t个簇的高斯分布距离权重系数βn,t(1≤t≤T)的计算方式如下:
得到了该帧T个最近簇的距离权重系数后,将这T个簇的加权隶属度向量乘以相应的高斯分布距离权重系数βn,t再求和,将其求和结果记作第n帧的得分向量具体计算方式为:
进一步的,所述步骤九中对动作样本所有帧的得分向量求和,判断该动作属于得分最高的动作类型的具体方法为:
将该动作样本内N帧的得分向量求和,得到这个动作样本对于所有动作类型的总得分向量总得分向量中的每一个元素对应着每个动作类型的得分,具体计算方式如下:
最终可以判断动作样本所属于的动作类型为向量中最大元素所对应的动作类型。
本发明在动作类型更多,动作更复杂的情况下,通过二阶自循环神经网络能够提取有区分度的特征。特征维度较小,提高了算法效率,可以满足实时应用的要求;此外,对簇隶属度向量进行加权调整滤除了大量干扰信息,特征向量的软分类充分利用了动作的有效信息,提高了识别率。
附图说明
图1是本发明一种人体动作识别方法的工作流程图。
图2是本发明二阶自循环神经网络提取特征向量的原理图。
图3是本发明的多元高斯分布正交轴的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为了提高动作识别算法的实时性以及对不同动作类型的适用性,提出一种人体动作识别方法。本方法包括:对动作样本内人体骨骼关节点的三维坐标进行归一化处理;设计一种二阶自循环神经网络对人体骨骼关节点的三维坐标数据进行特征提取,得到每一帧的特征向量;随机选取一些特征向量,每个特征向量作为初始聚类中心,将所有的特征向量分到与之最近的聚类中心形成各个簇;假设簇内特征向量的概率分布为多元高斯分布,计算多元高斯分布函数的参数,得到各个簇的多元高斯概率密度函数;对于每一个特征向量,计算其在每一个簇的多元高斯概率密度值,重新分配至概率密度最大的簇中;利用最大似然估计,更新高斯分布参数,重新分配各个特征向量,直到每个特征向量的分配不再改变;每个特征向量都来自于相应的动作类型,对每个簇,根据特征向量的最终分配结果计算各个动作类型的隶属度,得到该簇的隶属度向量,对每个簇的隶属度向量进行加权;在识别阶段,将动作样本每一帧的特征向量按一定权重分到最近的几个簇中,对这几个簇的加权隶属度向量加权求和,作为该帧的得分向量;对动作样本所有帧的得分向量求和,判断该动作属于得分最高的动作类型。
1、设一个长度为100帧的动作样本J记录了人体20个骨骼关节在每一帧的三维坐标,其中,第r(1≤r≤20)个骨骼关节在第n(1≤n≤100)帧的坐标为(xn,r,yn,r,zn,r),则第n帧的静态姿势可以通过这20个骨骼关节的三维坐标来表示,具体表示方式为:
Sn={(xn,r,yn,r,zn,r)|r∈[1,20],n∈[1,100]}。
对各帧骨骼关节点的三维坐标进行归一化处理。设第r个骨骼关节在x轴,y轴,z轴上的最大值分别为(xr)max,(yr)max,(zr)max,最小值分别为(xr)min,(yr)min,(zr)min。那么第n帧的第r个骨骼关节点经归一化后的三维坐标为:
对每一帧20个骨骼关节点的三维坐标做相同的归一化处理。第n帧的静态姿势可以通过20个骨骼关节点归一化后的三维坐标来表示:
S′n={(x′n,r,y′n,r,z′n,r)|r∈[1,20],n∈[1,100]}。
S′n包含了动作样本第n帧的20个骨骼关节点的在x轴,y轴,z轴的三个坐标值,这60个坐标值构成该动作样本第n帧的坐标向量
2、对各帧的坐标向量进行编码,提取特征向量。如图2所示,设计二阶自循环神经网络,二阶自循环神经网络对动作样本的的每一帧的坐标向量进行了两次编码并在编码过程中对每一帧进行权重处理,从而得到每一帧的特征向量
在第一次编码中,将训练集中所有动作样本所有帧的坐标向量输入至二阶自循环神经网络,设定神经网络期望输出值为输入值,隐层神经元个数为D1,训练神经网络;训练完毕后,将每一帧的特征向量再次输入神经网络,提取神经网络隐层的D1维数据作为该帧的编码向量
设第一次编码得到的编码向量为对其进行加权处理;设分别为动作样本J的第1帧到第N帧的坐标向量,设为第一次编码得到的编码向量,则的权重系数的计算方式如下:
将每个编码向量乘以各自的权重得到加权编码向量即
在第二次编码中,对得到的加权编码向量进行编码,将动作样本每一帧的加权编码向量作为二阶自循环神经网络的训练样本;设定神经网络的期望输出值为输入值,隐层神经元个数为D2,训练神经网络;训练完毕后,将加权编码向量再次输入训练完毕的神经网络,提取神经网络隐层的D2维数据,作为该帧的二次编码向量
设第二次编码得到的编码向量为对其进行加权处理,的权重系数的计算方式如下:
将二次编码向量乘以相应权重,得到特征向量即
对于长度为N帧的动作样本J,在将该动作样本的每一帧骨骼关节点的坐标向量进行二次编码及加权处理后,可以得到该动作样本每一帧的特征向量动作样本J就可以用这N个特征向量表示:
第一次编码时,设神经网络的隐层的神经元个数为50。将训练集所有动作样本的每一帧坐标向量输入神经网络进行训练。当神经网络训练完毕后,将每一帧的坐标向量再次输入神经网络,提取每一帧隐层的50个神经元的值,构成一个长度为50的向量,将其作为该帧的编码向量。以第n帧为例,第n帧的坐标向量输入神经网络后将被编码为编码向量
对动作样本每一帧的编码向量进行加权,设为帧数为100帧的动作样本的坐标向量,第n帧的坐标向量经过第一次编码得到的编码向量为则的权重系数的计算方式如下:
将编码向量乘以对应权重得到加权编码向量即
第n帧的坐标向量的加权编码向量可以表示为
在第二次编码中,对动作样本各帧的加权编码向量再次进行编码,设定神经网络期望输出值仍为输入值,隐层神经元个数为30,训练神经网络。训练完毕后,将加权编码向量重新输入神经网络,提取隐层神经元数据,可以得到每一帧的二次编码向量。以第n帧为例,第n帧的加权编码向量经过第二次编码得到的二次编码向量为下面对第n帧的二次编码向量进行加权处理:
以第n帧为例,设动作样本的第n帧的二次编码向量为则的权重系数的计算方式如下:
将第n帧的二次编码向量乘以对应权重得到特征向量即
通过以上方式,提取长度为100帧动作样本J的每一帧的特征向量,那么动作样本J可由这100个特征向量表示,即
3、在训练集的所有动作样本中随机选取80个帧的特征向量作为80个簇的多元高斯分布函数的均值向量。计算训练集内所有动作样本内每一帧的特征向量与各个簇的均值向量的欧式距离,并把这些特征向量分配到与其有最小欧式距离的簇内。
根据各簇所分得的特征向量,计算该簇的多元高斯分布的参数(协方差矩阵和均值向量),从而得到这个簇的多元高斯分布概率密度函数。当所有特征向量被分配到具有最小欧式距离的簇后,根据每个簇的所分到的特征向量,重新计算每个簇对应高斯分量的均值向量,并求该簇对应高斯分量的协方差矩阵,具体的参数更新的方式如下:
设第k个簇在初次分配中分得了20个特征向量,以这20个特征向量构成集合Setk,即则该簇所对应的高斯分量的均值向量的计算方式为:
设第k个簇所对应高斯分量的协方差矩阵为:
以第k个簇的每一个特征向量为一个样本,特征向量内每一个元素为一个随机变量,σi,j(1≤i≤30,1≤j≤30)为第i个随机变量fi和第j个随机变量fj的协方差,其计算方式如下:
其中,是第i,j个随机变量的均值。
4、将每一帧的特征向量,分别带入80个簇的高斯分布概率函数中,每一帧能得到与这80个簇对应的80个概率密度值P1,P2,...,P80,然后将每一帧的特征向量重新分入到最大的概率密度值所对应簇内。将所有帧分配完毕后,采用最大似然估计方法,重新计算各个簇的均值向量与协方差矩阵。以第k个簇为例,均值向量与协方差矩阵的计算方式如下:
假设重新分配特征向量后,第k个簇分得了25个特征向量,这些特征向量分别为则该簇高斯分量的均值向量与协方差矩阵的更新方式如下:
其中,σi,j(1≤i≤30,1≤j≤30)为第i个随机变量fi和第j个随机变量fj的协方差。
更新参数后,重新计算动作样本各帧的特征向量对各簇的多元高斯分布的概率密度值,并重新分配各帧的特征向量至概率密度值最大的簇。循环该步,直至每一帧的特征向量被分到的簇不再变化为止。
5、在每一个簇内,统计来自某一动作类型的特征向量的数量。定义为第k个簇所包含的来自动作类型c的特征向量的个数,将其除以簇内总的帧数,将其结果定义为动作类型c对于第k个簇的隶属度hk,c。
假设一共有8个动作类型,且第k个簇分别包含了个来自于动作类型为1,2,…,8的帧特征向量,该簇对于动作类型c的隶属度hk,c的计算方式如下:
得到8个动作类型对第k个簇的隶属度后,将这8个隶属度构成第k个簇的隶属度向量
对隶属度向量进行加权处理,其权重系数ηk的计算方式如下:
将权重系数乘以原隶属度向量,得到第k个簇的加权隶属度向量
以上述方式可以分别求出100个簇各自的加权隶属度向量
6、为了定量的描述帧的特征向量与簇之间的距离,首先引入高斯分布距离来描述特征向量与簇k之间的距离。任何一个簇的多元高斯分布函数在超维空间上的形状是一个无限延展的椭球,取概率密度为定值,就能得到一个椭球的封闭曲面。如图3所示,对于一个二维高斯分布当概率密度为一个定值,两个随机变量的所有取值对(x.y)将在二维平面内围成一个椭圆。
对于D2维的高斯分布,给定一个概率密度,可以确定超维椭球的D2个相互正交的轴。如图3所示,以二维高斯分布为例,其图像在二维平面内为一个椭圆,共有两个正交轴,在图中已用箭头标出。
对于一个D2维高斯分布,共有D2个相互正交的轴。计算动作样本第n帧的特征向量和这D2个正交轴向量各自的内积,并将这些内积求和,将其求和结果定义为第n帧的特征向量与簇之间的高斯分布距离
选取长度为100帧的一个测试动作样本,按照与训练集类似的处理方式,通过归一化以及二阶自循环神经网络编码,可以得到这个动作样本每一帧的特征向量。经过训练集训练,此时80个簇的多元高斯分布函数的参数已经确定,同时每个多元高斯概率分布分布函数的30个正交轴向量也已经确定,设第k个簇的30个正交轴向量为下面计算测试动作样本内第n帧的特征向量与第k个簇的高斯分布距离:
对于测试集每一帧的特征向量,选择3个与之高斯分布距离最小的簇,将该帧以一定权重分配进这3个簇中,并以该权重乘以这3个簇的加权隶属度向量,作为该帧的得分向量,具体步骤如下:
以第n帧为例,设第n帧的特征向量与3个最近簇的高斯分布距离分别为Gn,1,Gn,2,Gn,3。根据这3个高斯分布距离的相对大小关系,对这3个簇赋予不同的权重,其中第t(1≤t≤3)个簇的距离权重系数βn,t的计算方式如下:
将这3个最近簇的加权隶属度向量乘以相应的权重βn,t并求和,求和得到的结果就是第n帧对8个动作类型的得分向量具体计算方式如下:
以同样的方式,将测试动作样本的每一帧的特征向量,以一定的权重分配到各自最近的3个簇中,并对这3个最近簇的加权隶属度向量加权求和,得到每一帧的得分向量。对于一个长度为100帧的测试动作样本,可以得到100个得分向量
7、将测试动作样本内100个帧的得分向量求和,可以得到该动作样本的总得分向量总得分向量中的每一个元素对应着该动作样本对每一个动作类型的得分,总得分向量的计算方式为:
总得分向量包含了测试动作样本对8个动作类型的最终得分,即该动作样本的动作类型即是总得分向量中最大的元素所对应的动作类型。至此,动作识别完毕。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种人体动作识别方法,包括如下步骤:
步骤一、对动作样本内人体骨骼关节点的三维坐标进行归一化处理;
步骤二、设计一种二阶自循环神经网络对人体骨骼关节点的三维坐标数据进行特征提取,得到每一帧的特征向量;
步骤三、随机选取部分特征向量,每个特征向量作为初始聚类中心,将所有的特征向量分到与之最近的聚类中心形成各个簇;
步骤四、设定簇内特征向量各元素的概率分布为多元高斯分布,计算各个簇的多元高斯分布函数的参数,得到各个簇的多元高斯分布概率密度函数;
步骤五、对于每一个特征向量,计算其在每一个簇的多元高斯概率密度值,重新分配至概率密度最大的簇中;
步骤六、利用最大似然估计,更新各个簇的多元高斯分布函数参数,并重新分配特征向量,直到每个特征向量的分配不再改变;
步骤七、对每个簇,根据特征向量的最终分配结果计算各个动作类型的隶属度,得到该簇的隶属度向量,对每个簇的隶属度向量进行加权;
步骤八、将动作样本每一帧的特征向量按一定权重分到最近的若干个簇中,对这若干个簇的加权隶属度向量加权求和,作为该帧的得分向量;
步骤九、对动作样本所有帧的得分向量求和,判断该动作属于得分最高的动作类型。
2.根据权利要求1所述的一种人体动作识别方法,其特征在于:所述步骤一对动作样本内的人体骨骼关节点的三维坐标进行归一化处理的具体方法为:
一个长度为N帧的动作样本,每一帧都记录了R个骨骼关节点的三维坐标,其中,第r(1≤r≤R)个骨骼关节在第n(1≤n≤N)帧的坐标为(xn,r,yn,r,zn,r),则该帧的静态姿势可以通过该帧的R个骨骼关节的三维坐标来表示,具体表示方法如下:
Sn={(xn,r,yn,r,zn,r)|r∈[1,R],n∈[1,N]},
在动作样本J中,设第r个骨骼关节在x轴,y轴,z轴上的最大值分别为(xr)max,(yr)max,(zr)max,最小值分别为(xr)min,(yr)min,(zr)min,按以下方式,对动作样本第n帧的第r个骨骼关节点的三维坐标做归一化处理:
任意一帧的静态姿势可以通过归一化后的R个骨骼关节点的三维坐标来表示:
S′n={(x′n,r,y′n,r,z′n,r)|r∈[1,R],n∈[1,N]},
S′n包含了R个骨骼关节点归一化后的三维坐标,每个骨骼关节点的三维坐标包含了骨骼关节点在x,y,z轴上的三个值,以这R×3个值构成向量并称为第n帧的坐标向量,则一个长度为N帧动作样本J就可以通过N个帧坐标向量表示:
3.根据权利要求1所述的一种人体动作识别方法,其特征在于:所述步骤二中得到每一帧的特征向量的具体方法为:
设计二阶自循环神经网络,二阶自循环神经网络对动作样本的每一帧的坐标向量进行了两次编码并在编码过程中对每一帧进行权重处理,从而得到每一帧的特征向量
在第一次编码中,将训练集中所有动作样本所有帧的坐标向量输入至二阶自循环神经网络,设定神经网络期望输出值为输入值,隐层神经元个数为D1,训练神经网络;训练完毕后,将每一帧的特征向量再次输入神经网络,提取神经网络隐层的D1维数据作为该帧的编码向量
设第一次编码得到的编码向量为对其进行加权处理;设分别为动作样本J的第1帧到第N帧的坐标向量,设为第一次编码得到的编码向量,则的权重系数的计算方式如下:
将每个编码向量乘以各自的权重得到加权编码向量即
在第二次编码中,对得到的加权编码向量进行编码,将动作样本每一帧的加权编码向量作为二阶自循环神经网络的训练样本;设定神经网络的期望输出值为输入值,隐层神经元个数为D2,训练神经网络;训练完毕后,将加权编码向量再次输入训练完毕的神经网络,提取神经网络隐层的D2维数据,作为该帧的二次编码向量
设第二次编码得到的编码向量为对其进行加权处理,的权重系数的计算方式如下:
将二次编码向量乘以相应权重,得到第n帧的特征向量即
对于长度为N帧的动作样本J,在将该动作样本的每一帧骨骼关节点的坐标向量进行二次编码及加权处理后,可以得到该动作样本每一帧的特征向量动作样本J就可以用这N个特征向量表示:
4.据权利要求3所述的一种人体动作识别方法,其特征在于:所述步骤四中将所有的特征向量分到与之最近的聚类中心形成各个簇的具体方法为:
在训练集所有动作样本的各个帧的特征向量中,随机选取K个特征向量,每个特征向量作为初始聚类中心,将所有的特征向量分到与之最近的聚类中心形成K个簇,K个特征向量为将这K个特征向量分别作为K个簇的多元高斯分布概率密度函数的K个均值向量
对于长度为N帧的动作样本J的特征向量与各个簇的均值向量的欧氏距离,计算方式如下:
该帧的特征向量到K个簇的欧式距离可以以集合Vn表示:
Vn={dn,k|k=1,2,...,K},
得到Vn后,将分入集合Vn中最小值所对应的簇。
5.据权利要求4所述的一种人体动作识别方法,其特征在于:所述步骤五中对于每一个特征向量计算其在每一个簇的多元高斯分布概率密度值,重新分配至概率密度最大的簇中的具体方法为:
第k个簇的多元高斯分布概率密度函数为:
其中,∑k分别是多元高斯分布概率密度函数的均值向量和协方差矩阵,D2为多元高斯分布概率密度函数的随机变量个数,也即特征向量的长度;将任意一帧的特征向量带入到某一簇的多元高斯分布概率密度函数中,得到一个对应于该簇的概率密度值;
当所有特征向量经步骤四被分配到具有最小欧式距离的簇后,根据每个簇所分到的特征向量,重新计算每个簇的均值向量并求这个簇的高斯分布的协方差矩阵∑k,具体的参数更新的方式如下:
设第k个簇包含L个特征向量,这L个特征向量构成集合Setk,即则该簇所对应的高斯分量的均值向量的计算方式为:
第k个簇所对应高斯分量的协方差矩阵∑k为:
以第k个簇的每一个特征向量为一个样本,特征向量中每一个元素即为一个随机变量,σi,j(1≤i≤D2,1≤j≤D2)表示Setk内各样本的第i个随机变量fi和第j个随机变量fj的协方差,其计算方式如下:
其中,是第i,j个随机变量的均值。
6.据权利要求5所述的一种人体动作识别方法,其特征在于:所述步骤七中各个动作类型的隶属度hk,c的计算方法为:
其中,是第k个簇内来自动作类型c的特征向量的个数,是第k个簇包含的特征向量的总个数,1≤k≤K,1≤c≤C,C为动作类型的总个数。
7.据权利要求6所述的一种人体动作识别方法,其特征在于:所述步骤七中对每个簇的隶属度向量进行加权的计算方法为:
每个簇的隶属度向量隶属度向量的权重系数ηk的具体的计算方式如下:
将权重系数ηk乘以隶属度向量得到加权隶属度向量
8.据权利要求7所述的一种人体动作识别方法,其特征在于:所述步骤八中将动作样本每一帧的特征向量分配至最近的若干个簇中的权重由高斯分布距离计算得到,用来描述特征向量与第k个簇之间的距离;
对于一个D2维高斯分布,共有D2个相互正交的轴,第k个簇的高斯分布的D2个正交轴的向量分别为第n帧的特征向量对第k个簇的高斯分布距离的计算方法如下:
第n帧的特征向量共有K个高斯分布距离每个高斯分布距离对应于一个簇;在这K个高斯分布距离中,选择最小的前T个高斯分布距离对应的簇,按一定权重将特征向量分配进这T个簇中,这T个高斯分布距离分别为Gn,1,Gn,2,...,Gn,T,根据这T个距离的相对大小关系,对这T个高斯分布距离对应的最小簇赋权,其中第t个簇的高斯分布距离权重系数βn,t(1≤t≤T)的计算方式如下:
得到了T个最近簇的距离权重系数后,将这T个簇的加权隶属度向量乘以相应的高斯分布距离权重系数βn,t再求和,将其求和结果记作第n帧的得分向量具体计算方式为:
9.据权利要求8所述的一种人体动作识别方法,其特征在于:所述步骤九中对动作样本所有帧的得分向量求和,判断该动作属于得分最高的动作类型的具体方法为:
将该动作样本内N帧的得分向量求和,得到这个动作样本对于所有动作类型的总得分向量总得分向量中的每一个元素对应着每个动作类型的得分,具体计算方式如下:
最终可以判断动作样本所属于的动作类型为向量中最大元素所对应的动作类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910361909.2A CN110070068B (zh) | 2019-04-30 | 2019-04-30 | 一种人体动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910361909.2A CN110070068B (zh) | 2019-04-30 | 2019-04-30 | 一种人体动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110070068A true CN110070068A (zh) | 2019-07-30 |
CN110070068B CN110070068B (zh) | 2021-03-02 |
Family
ID=67369852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910361909.2A Active CN110070068B (zh) | 2019-04-30 | 2019-04-30 | 一种人体动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110070068B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110823094A (zh) * | 2019-11-08 | 2020-02-21 | 北京理工大学 | 一种点光源三维坐标测量方法及装置 |
CN114360060A (zh) * | 2021-12-31 | 2022-04-15 | 北京航空航天大学杭州创新研究院 | 人体动作识别计数方法 |
JP2023010541A (ja) * | 2021-07-09 | 2023-01-20 | 株式会社日立製作所 | 産業環境における人間活動を認識する方法及びシステム |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693724A (zh) * | 2011-03-22 | 2012-09-26 | 张燕 | 一种基于神经网络的高斯混合模型的噪声分类方法 |
CN104200814A (zh) * | 2014-08-15 | 2014-12-10 | 浙江大学 | 基于语义细胞的语音情感识别方法 |
KR101563297B1 (ko) * | 2014-04-23 | 2015-10-26 | 한양대학교 산학협력단 | 영상에서 행동을 인식하는 방법 및 장치 |
US20160042227A1 (en) * | 2014-08-06 | 2016-02-11 | BAE Systems Information and Electronic Systems Integraton Inc. | System and method for determining view invariant spatial-temporal descriptors for motion detection and analysis |
CN106650562A (zh) * | 2016-06-14 | 2017-05-10 | 西安电子科技大学 | 一种基于Kinect的在线连续人体行为识别方法 |
CN107220993A (zh) * | 2017-04-25 | 2017-09-29 | 西北工业大学 | 基于Mean shift聚类的粒子滤波机动目标追踪算法 |
CN108564047A (zh) * | 2018-04-19 | 2018-09-21 | 北京工业大学 | 一种基于3d关节点序列的人体行为识别方法 |
CN109101864A (zh) * | 2018-04-18 | 2018-12-28 | 长春理工大学 | 基于关键帧和随机森林回归的人体上半身动作识别方法 |
-
2019
- 2019-04-30 CN CN201910361909.2A patent/CN110070068B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693724A (zh) * | 2011-03-22 | 2012-09-26 | 张燕 | 一种基于神经网络的高斯混合模型的噪声分类方法 |
KR101563297B1 (ko) * | 2014-04-23 | 2015-10-26 | 한양대학교 산학협력단 | 영상에서 행동을 인식하는 방법 및 장치 |
US20160042227A1 (en) * | 2014-08-06 | 2016-02-11 | BAE Systems Information and Electronic Systems Integraton Inc. | System and method for determining view invariant spatial-temporal descriptors for motion detection and analysis |
CN104200814A (zh) * | 2014-08-15 | 2014-12-10 | 浙江大学 | 基于语义细胞的语音情感识别方法 |
CN106650562A (zh) * | 2016-06-14 | 2017-05-10 | 西安电子科技大学 | 一种基于Kinect的在线连续人体行为识别方法 |
CN107220993A (zh) * | 2017-04-25 | 2017-09-29 | 西北工业大学 | 基于Mean shift聚类的粒子滤波机动目标追踪算法 |
CN109101864A (zh) * | 2018-04-18 | 2018-12-28 | 长春理工大学 | 基于关键帧和随机森林回归的人体上半身动作识别方法 |
CN108564047A (zh) * | 2018-04-19 | 2018-09-21 | 北京工业大学 | 一种基于3d关节点序列的人体行为识别方法 |
Non-Patent Citations (2)
Title |
---|
JIANYU YANG: "REAL TIME HAND GESTURE RECOGNITION VIA FINGER-EMPHASIZED MULTI-SCALE DESCRIPTION", 《PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME) 2017》 * |
刘和臣: "运动员动作三维视觉图像准确识别仿真研究", 《计算机仿真》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110823094A (zh) * | 2019-11-08 | 2020-02-21 | 北京理工大学 | 一种点光源三维坐标测量方法及装置 |
JP2023010541A (ja) * | 2021-07-09 | 2023-01-20 | 株式会社日立製作所 | 産業環境における人間活動を認識する方法及びシステム |
JP7265656B2 (ja) | 2021-07-09 | 2023-04-26 | 株式会社日立製作所 | 産業環境における人間活動を認識する方法及びシステム |
CN114360060A (zh) * | 2021-12-31 | 2022-04-15 | 北京航空航天大学杭州创新研究院 | 人体动作识别计数方法 |
CN114360060B (zh) * | 2021-12-31 | 2024-04-09 | 北京航空航天大学杭州创新研究院 | 人体动作识别计数方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110070068B (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815826B (zh) | 人脸属性模型的生成方法及装置 | |
Sincan et al. | Using motion history images with 3d convolutional networks in isolated sign language recognition | |
CN104751186B (zh) | 一种基于bp网络和小波变换的虹膜图像质量分类方法 | |
CN110070068B (zh) | 一种人体动作识别方法 | |
CN107578028A (zh) | 一种人脸识别方法、装置、设备及计算机可读存储介质 | |
CN112819039A (zh) | 基于多尺度集成特征编码的纹理识别模型建立方法及应用 | |
CN114758288A (zh) | 一种配电网工程安全管控检测方法及装置 | |
CN107194344B (zh) | 自适应骨骼中心的人体行为识别方法 | |
CN111754637B (zh) | 一种样本相似度抑制的大尺度三维人脸合成系统 | |
CN111582223B (zh) | 一种三维人脸识别方法 | |
CN107481250A (zh) | 一种图像分割方法及其评价方法和图像融合方法 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN112446253A (zh) | 一种骨架行为识别方法及装置 | |
CN110334777A (zh) | 一种加权多视角无监督属性选择方法 | |
Garg et al. | Facial expression recognition & classification using hybridization of ICA, GA, and neural network for human-computer interaction | |
CN104809478B (zh) | 一种面向大规模三维重建的图像分块方法及装置 | |
CN108921853A (zh) | 基于超像素和免疫稀疏谱聚类的图像分割方法 | |
CN109948662B (zh) | 一种基于K-means和MMD的人脸图像深度聚类方法 | |
CN111814609A (zh) | 一种基于ecoc和深度学习的微表情识别方法 | |
CN113159002B (zh) | 一种基于自注意力权重辅助模块的人脸表情识别方法 | |
CN113221660A (zh) | 一种基于特征融合的跨年龄人脸识别方法 | |
Jain et al. | Real-time eyeglass detection using transfer learning for non-standard facial data. | |
CN111739168B (zh) | 一种样本相似度抑制的大尺度三维人脸合成方法 | |
Ongkittikul et al. | Covolutional multinomial logistic regression for face recognition | |
CN106650678B (zh) | Gabor小波子带相关结构人脸识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |