CN110135277B - 一种基于卷积神经网络的人体行为识别方法 - Google Patents
一种基于卷积神经网络的人体行为识别方法 Download PDFInfo
- Publication number
- CN110135277B CN110135277B CN201910326391.9A CN201910326391A CN110135277B CN 110135277 B CN110135277 B CN 110135277B CN 201910326391 A CN201910326391 A CN 201910326391A CN 110135277 B CN110135277 B CN 110135277B
- Authority
- CN
- China
- Prior art keywords
- human body
- human
- joint
- skeleton
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000006399 behavior Effects 0.000 claims abstract description 38
- 230000009471 action Effects 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000001054 cortical effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于卷积神经网络的人体行为识别方法,包括如下步骤:采集不同人体动作的图像,每张所述图像都有一个人体骨架序列;根据人体骨架序列形成所述人体图像的移动骨架描述符图像和移动关节描述符图像;将不同人体动作的移动骨架描述符图像和移动关节描述符图像分别作为训练集训练卷积神经网络;将待识别人体动作的图像分别输入训练好的两个卷积神经网络中,分别得到各个人体动作的分数;将两种分数中相同人体动作对应的分数相加,得出得分最高的动作,作为人体行为识别的结果。本发明使得对于输入的人体姿势序列,能够使用卷积神经网络进行人体行为识别,提高对人体行为识别的准确度,并且降低学习模型的计算复杂度。
Description
技术领域
本发明涉及一种基于卷积神经网络的人体行为识别方法,属于行为识别、深度学习、机器视觉等交叉技术领域。
背景技术
人体行为识别是计算机视觉领域中的一个重要研究课题,具有重要的理论意义与实际应用价值。
随着科技的发展,目前人体骨架主要有两个获取的途径:通过RGB图像进行关节点估计或是通过深度摄像机直接获得(例如Kinect)。而深度摄像机正成为人体行为识别最常用的传感器之一。
目前使用深度图和人体骨架数据来进行人体行为识别变得非常流行,但现有的技术还存在一些局限性。首先,传统的基于深度图的人体行为识别通常需要建立多个视角的深度图数据集,提取大量特征,以便为分类提供各种人类行为的独特表现,能识别出在前视图中看起来相似,在侧视图中不同的动作。其次,尽管基于深度图的人体行为识别方法结果比较准确,但当输入的特征维度较大时,学习模型的计算复杂度会迅速增加,因此在解决大规模问题和实时应用方面变得更加缓慢、复杂、不实用。最后,利用人体骨架数据进行人体行为识别对关节运动相当敏感,很容易把两个相同动作识别成不同的动作。
对于人体行为系统的研究,国内外所采用的技术并不成熟。大部分人体行为识别系统依赖于人工对数据进行标记加工,再将数据放入模型中进行识别。对数据有较强的依赖性,其系统运行效率低,不适合工业化与商品化的需求。最近在人类视觉皮层层次处理的启发下,深度学习,特别是卷积神经网络,在图像分类方面取得了巨大的成功。但更具成本效益且更准确的人体行为识别方法,还需要进行大量的研究工作。
发明内容
技术问题:发明所要解决的技术问题是通过一套系统,使得对于输入的人体姿势序列,能够使用卷积神经网络进行人体行为识别,提高对人体行为识别的准确度,并且降低学习模型的计算复杂度。
技术方案:本发明的一种基于卷积神经网络的人体行为识别方法,包括以下步骤:
步骤1:输入一个由深度摄像机捕获的用于人体行为识别的数据集,数据集中的每个深度序列(即样本动作)都有一个人体骨架序列文件,通过数据集获得人体骨架序列;
步骤2:用归一化函数F将步骤1得到的人体骨架序列中的每个人体关节的三维坐标转化为标准化空间中的三维关节坐标(x′i,y′i,z′i),将所有标准化空间的坐标按照一定顺序堆叠起来形成移动骨架描述符图像,用不同人体动作的移动骨架描述符图像作为训练集训练卷积神经网络;
步骤3:将步骤1得到的人体骨架序列中的用笛卡尔坐标表示的人体关节坐标,转换成用球坐标表示。将每一帧的θ、r组合起来形成移动关节描述符图像,其中,角度θ表示人体关节坐标与z轴的垂直角度,角度表示人体关节坐标与x轴的水平角度,角度r表示人体关节坐标与原点之间的距离。用不同人体动作的移动关节描述符图像作为训练集训练卷积神经网络;
步骤4:将待识别人体动作的图像分别输入步骤2和3训练好的两个卷积神经网络中,分别得到各个人体动作的分数,即图像中可能出现的各个人体动作的概率;
步骤5:将步骤4得到的两种分数中相同人体动作对应的分数进行分数融合的操作,得出得分最高的动作,作为人体行为识别的结果;
步骤6:输出人体行为识别的结果。
其中,
所述步骤2具体如下:
步骤21:步骤1得到的人体骨架序列中,给定具体N帧[F1,F2,…,FN]的人体骨架序列s,令(xi,yi,zi)为第n帧{Fn}∈s中的每个人体关节的三维坐标,其中n∈[1,N];
步骤22:用归一化函数F将s中每个人体关节的三维坐标转化为标准化空间s′中的三维关节坐标(x′i,y′i,z′i),即Fi′=(x′i,y′i,z′i)=F(xi,yi,zi), 其中min{c}和max{c}分别是s中所有坐标的最大值和最小值,即max(xn,yn,zn)和min(xn,yn,zn);
步骤23:将所有标准化空间的坐标堆叠起来,形成时间序列[F′1,F′2,…,F′n]来表示整个动作序列,将这些元素量化为RGB颜色空间,并存储为RGB图像;
步骤24:将人体关节分别五个部分,包括两个手臂、两个腿和一个躯干,按照两个手臂、一个躯干、两个腿的顺序,重新排列RGB图像中的像素行的位置,即重新排列序列[F′1,F′2,…,F′n]中的所有帧,得到移动骨架描述符图像;
步骤25:经过步骤21~步骤24的预处理,得到了移动骨架描述符图像,将大小调整为112×112,用作卷积神经网络CNN模型的输入。该模型中,第一卷积层使用32个7×7大小的卷积滤波器,第二、第三、第四卷积层分别使用64、128、256个5×5的卷积滤波器,最后一个卷积层使用512个3×3的卷积过滤器;
步骤26:在步骤25中,初试学习率为0.0008,权重衰减为0.0005,动量为0.9,softmax回归层根据基础训练的权重为每个人体动作生成分数。
所述步骤3具体如下:
步骤31:步骤1得到的人体骨架序列中人体关节的坐标用笛卡尔坐标表示,转换成用球坐标表示,人体关节的集合Joints={J1,J2,…,Jk,…,J20},其中角度θ表示人体关节与z轴的垂直角度,角度表示人体关节与x轴的水平角度,角度r表示人体关节与原点之间的距离,J1,J2,…,Jk,…,J20表示从数据集提供的骨架模型的20个人体关节,Jk表示第k个人体关节;
步骤33:将三个灰度图像组合在一起产生移动关节描述符MJD,MJD=R+B+G;
步骤34:经过步骤31~步骤33的预处理,得到了移动关节描述符图像,将大小调整为112×112,用作卷积神经网络CNN模型的输入。该模型中,第一卷积层使用32个7×7大小的卷积滤波器,第二、第三、第四卷积层分别使用64、128、256个5×5的卷积滤波器,最后一个卷积层使用512个3×3的卷积过滤器;
步骤35:在步骤34中,初试学习率为0.0008,权重衰减为0.0005,动量为0.9,softmax回归层根据基础训练的权重为每个人体动作生成分数。
所述步骤4具体如下:
步骤41:将步骤26和步骤35输出的相同工作对应的两个分数进行融合操作,将两个通道输出的分数相加,得分最大的分数对应的动作即识别出的动作。
有益效果:本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明只使用人体姿势数据进行人体行为识别,相比传统的使用深度图进行行为识别,学习模型的计算复杂度显著降低。本发明对人体姿势数据采用了不同的算法转换成两个不同的描述符图像,使用卷积神经网络以相同的参数同时进行训练,最后通过分数融合来完成人体行为识别。其中两个不同的描述符图像分别为移动骨架描述符图像和移动关节描述符图像,是两种新的基于骨架的表示方法。通过这些方法的应用,提高了人体行为识别的准确性,同时降低了学习模型的计算复杂度,使系统具有较高的成本效益,具体来说:
(1)本发明采用两个通道以相同的参数在卷积神经网络中进行训练,相比单一通道,具有更高的准确性。
(2)本发明只使用了人体姿势数据,比传统的深度图的维数更低,降低了训练的计算时间,使得整个人体行为识别的过程更简单、更快捷。
(3)本发明将人体姿势数据用球坐标转换成描述符,比使用笛卡尔坐标得出的结果更准确,提高了行为识别的准确性。
(4)本发明采用的移动骨架描述符,相比传统的基于骨架的行为识别方法,结果更准确且计算复杂度更低。
(5)本发明采用分数融合从两个通道中得出最终的人体行为识别结果,提高了行为识别的准确性。
(6)本发明的方法是通用的,可以很容易地应用于其他时间序列问题,例如利用集成惯性传感器、利用移动设备识别人的行为。
附图说明
图1是基于卷积神经网络的人体行为识别方法流程。
具体实施方式
在具体实施中,图1是基于卷积神经网络的人体行为识别方法流程。
本实例使用MSRAction3D数据集,MSRAction3D数据集由微软Kinect v1深度摄像机捕获,该数据集包含20个动作。
首先,系统依次获取数据集中的人体骨架序列。接收到的关节姿势序列中,给定具体N帧[F1,F2,…,FN]的人体骨架序列s,令(xi,yi,zi)为第n帧{Fn}∈s中的每个人体关节的三维坐标,其中n∈[1,N]。
接着,关节姿势序列通过归一化函数F将s中每个人体关节的三维坐标转化为标准化空间s′中的三维关节坐标(x′i,y′i,z′i),将所有标准化空间的坐标堆叠起来,形成时间序列[F′1,F′2,…,F′n]来表示整个动作序列,将这些元素量化为RGB颜色空间。按照两个手臂、一个躯干、两个腿的顺序,重新排列RGB图像中的像素行的位置,得到移动骨架描述符图像。
R(Jk,n)={θ|θ是第n帧中人体关节Jk的坐标θ},
B(Jk,n)={r|r是第n帧中人体关节Jk的坐标r},
将三个灰度图像组合在一起产生移动关节描述符MJD。
然后,将两个通道内描述符图像的大小调整为112×112,分别放入卷积神经网络CNN模型中进行训练。该模型中,第一卷积层使用32个7×7大小的卷积滤波器,第二、第三、第四卷积层分别使用64、128、256个5×5的卷积滤波器,最后一个卷积层使用512个3×3的卷积过滤器。初试学习率为0.0008,权重衰减为0.0005,动量为0.9,softmax回归层根据基础训练的权重为每个类生成分数。
最后,两个通道的训练结果经过分数融合的操作,将两个通道输出的分数相加,得分最大的分数对应的动作即识别出的动作,输出人体行为识别的结果。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于卷积神经网络的人体行为识别方法,其特征在于,包括如下步骤:
步骤1:采集不同人体动作的图像,每张所述图像都有一个人体骨架序列;
步骤2:根据人体骨架序列形成人体图像的移动骨架描述符图像;
步骤3:根据人体骨架序列形成所述人体图像的移动关节描述符图像;
步骤4:将步骤2和步骤3中得到的不同人体动作的移动骨架描述符图像和移动关节描述符图像分别作为训练集训练卷积神经网络;
步骤5:将待识别人体动作的图像分别输入步骤4训练好的两个卷积神经网络中,分别得到各个人体动作的分数;
步骤6:将步骤5中得到的两种分数中相同人体动作对应的分数相加,得出得分最高的动作,作为人体行为识别的结果;
所述步骤2中根据人体骨架序列形成移动骨架描述符图像的步骤包括:
步骤21:步骤1得到的人体骨架序列中,给定具体N帧[F1,F2,…,FN]的人体骨架序列s,令(xi,yi,zi)为第n帧{Fn}∈s中的每个人体关节的三维坐标,其中n∈[1,N];
步骤22:用归一化函数F将s中每个人体关节的三维坐标转化为标准化空间s′中的三维关节坐标(x′i,y′i′z′i),即F′i=(x′i,y′i′z′i)=F(xi,yi,zi), 其中min{c}和max{c}分别是s中所有坐标的最大值和最小值,即max(xn,yn,zn)和min(xn,yn,zn),其中n∈[1,N];
步骤23:将所有标准化空间的坐标堆叠起来,形成时间序列[F′1,F′2,…,F′N]来表示整个动作序列,将这些元素量化为RGB颜色空间,并存储为RGB图像;
步骤24:将人体关节分别五个部分,包括两个手臂、两个腿和一个躯干,按照两个手臂、一个躯干、两个腿的顺序,重新排列RGB图像中的像素行的位置,即重新排列序列[F′1,F′2,…,F′N]中的所有帧,得到移动骨架描述符图像。
2.根据权利要求1所述的一种基于卷积神经网络的人体行为识别方法,其特征在于,所述步骤3中根据人体骨架序列形成移动关节描述符图像的步骤包括:
步骤31:将步骤1得到的人体骨架序列中人体关节的坐标转换成用球坐标表示,人体关节的集合Joints={J1,J2,…,Jk,…,J20},其中角度θ表示人体关节与z轴的垂直角度,角度表示人体关节与x轴的水平角度,角度r表示人体关节与原点之间的距离,J1,J2,…,Jk,…,J20表示从数据集提供的骨架模型的20个人体关节,Jk表示第k个人体关节;
步骤33:将三个灰度图像组合在一起产生移动关节描述符MJD,MJD=R+B+G,得到移动关节描述符图像。
3.根据权利要求1所述的一种基于卷积神经网络的人体行为识别方法,其特征在于,步骤4中,所述卷积神经网络的第一卷积层使用32个7×7大小的卷积滤波器,第二、第三、第四卷积层分别使用64、128、256个5×5的卷积滤波器,最后一个卷积层使用512个3×3的卷积过滤器。
4.根据权利要求1所述的一种基于卷积神经网络的人体行为识别方法,其特征在于,步骤4中,所述卷积神经网络的初试学习率为0.0008,权重衰减为0.0005,动量为0.9,softmax回归层根据基础训练的权重为每个人体动作生成分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910326391.9A CN110135277B (zh) | 2019-07-05 | 2019-07-05 | 一种基于卷积神经网络的人体行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910326391.9A CN110135277B (zh) | 2019-07-05 | 2019-07-05 | 一种基于卷积神经网络的人体行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110135277A CN110135277A (zh) | 2019-08-16 |
CN110135277B true CN110135277B (zh) | 2022-08-16 |
Family
ID=67570682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910326391.9A Active CN110135277B (zh) | 2019-07-05 | 2019-07-05 | 一种基于卷积神经网络的人体行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110135277B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472604B (zh) * | 2019-08-20 | 2021-05-14 | 中国计量大学 | 一种基于视频的行人与人群行为识别方法 |
CN110472613B (zh) * | 2019-08-22 | 2022-05-10 | 海信集团有限公司 | 对象行为识别方法和装置 |
CN113255402B (zh) * | 2020-02-10 | 2024-06-11 | 深圳绿米联创科技有限公司 | 动作识别方法、装置以及电子设备 |
CN112270246B (zh) * | 2020-10-23 | 2024-01-05 | 泰康保险集团股份有限公司 | 视频行为识别方法及装置、存储介质、电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830894A (zh) * | 2018-06-19 | 2018-11-16 | 亮风台(上海)信息科技有限公司 | 基于增强现实的远程指导方法、装置、终端和存储介质 |
CN109211264A (zh) * | 2017-07-06 | 2019-01-15 | 杭州海康机器人技术有限公司 | 测量系统的标定方法、装置、电子设备及可读存储介质 |
CN109272570A (zh) * | 2018-08-16 | 2019-01-25 | 合肥工业大学 | 一种基于立体视觉数学模型的空间点三维坐标求解方法 |
CN109360230A (zh) * | 2018-11-08 | 2019-02-19 | 武汉库柏特科技有限公司 | 一种基于2d相机与3d相机的图像配准方法及系统 |
-
2019
- 2019-07-05 CN CN201910326391.9A patent/CN110135277B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109211264A (zh) * | 2017-07-06 | 2019-01-15 | 杭州海康机器人技术有限公司 | 测量系统的标定方法、装置、电子设备及可读存储介质 |
CN108830894A (zh) * | 2018-06-19 | 2018-11-16 | 亮风台(上海)信息科技有限公司 | 基于增强现实的远程指导方法、装置、终端和存储介质 |
CN109272570A (zh) * | 2018-08-16 | 2019-01-25 | 合肥工业大学 | 一种基于立体视觉数学模型的空间点三维坐标求解方法 |
CN109360230A (zh) * | 2018-11-08 | 2019-02-19 | 武汉库柏特科技有限公司 | 一种基于2d相机与3d相机的图像配准方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110135277A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491880B (zh) | 基于神经网络的物体分类和位姿估计方法 | |
CN110135277B (zh) | 一种基于卷积神经网络的人体行为识别方法 | |
CN110135249B (zh) | 基于时间注意力机制和lstm的人体行为识别方法 | |
CN109086706B (zh) | 应用于人机协作中的基于分割人体模型的动作识别方法 | |
CN107679522B (zh) | 基于多流lstm的动作识别方法 | |
CN108038420B (zh) | 一种基于深度视频的人体行为识别方法 | |
CN108898063B (zh) | 一种基于全卷积神经网络的人体姿态识别装置及方法 | |
CN112801015B (zh) | 一种基于注意力机制的多模态人脸识别方法 | |
CN110555412B (zh) | 基于rgb和点云相结合的端到端人体姿态识别方法 | |
CN110852182B (zh) | 一种基于三维空间时序建模的深度视频人体行为识别方法 | |
CN110766746B (zh) | 一种基于联合2d-3d神经网络的3d驾驶员姿态估计方法 | |
CN107688391A (zh) | 一种基于单目视觉的手势识别方法和装置 | |
CN107808129A (zh) | 一种基于单个卷积神经网络的面部多特征点定位方法 | |
CN110555408B (zh) | 一种基于自适应映射关系的单摄像头实时三维人体姿态检测方法 | |
CN111680550B (zh) | 情感信息识别方法、装置、存储介质及计算机设备 | |
CN110674741A (zh) | 一种基于双通道特征融合的机器视觉中手势识别方法 | |
CN109919085B (zh) | 基于轻量型卷积神经网络的人人交互行为识别方法 | |
CN104851099A (zh) | 一种基于表示学习的图像融合方法 | |
CN113538218B (zh) | 基于位姿自监督对抗生成网络的弱配对图像风格迁移方法 | |
CN109903299A (zh) | 一种条件式生成对抗网络的异源遥感图像配准方法及装置 | |
CN108197584A (zh) | 一种基于三元组深度神经网络的行人重识别方法 | |
CN111523377A (zh) | 一种多任务的人体姿态估计和行为识别的方法 | |
CN112446253B (zh) | 一种骨架行为识别方法及装置 | |
CN111444488A (zh) | 一种基于动态手势的身份认证方法 | |
CN112381045A (zh) | 一种面向物联网移动端设备的轻量级人体姿态识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |