CN112163564B

CN112163564B - 基于人体关键点行为识别与lstm的跌倒预判方法

Info

Publication number: CN112163564B
Application number: CN202011158025.6A
Authority: CN
Inventors: 张立国; 李枫; 胡林; 杨曼; 刘博�; 孙胜春; 张子豪; 李义辉
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2022-05-17
Anticipated expiration: 2040-10-26
Also published as: CN112163564A

Abstract

本发明提出基于人体关键点行为识别与LSTM的跌倒预判方法，该方法基于相邻人体关键点分组方法，进一步把人体分为头部、躯干和腿部三个区域进行行为识别，大大减少了计算量，从而提升了检测效率；在此基础上，通过采用LSTM，即长短期记忆神经网络机制来实现对采集视频的记忆功能，从而实现对人体行为变化的分析与识别功能，最后将识别结果归为三类：跌倒、非跌倒与其他。该方法减少了计算功耗，节约了跌倒检测时间，从而实现了实时检测与跌倒检测预判的功能。

Description

基于人体关键点行为识别与LSTM的跌倒预判方法

技术领域

本发明属于人工智能AI引导下的医疗康养领域，具体涉及一种基于人体关键点行为识别与LSTM的跌倒预判方法。

背景技术

目前国内外针对基于计算机视觉的跌倒检测方法有诸多探讨，根据所采用的算法以及实施方法的不同，具体可以分为四类：(1)身体形状分析：该方法通过背景消去建模算法将人体轮廓从图像中提取出来，然后把人体作为感兴趣区域用矩形框出，利用纵横比来判断是否发生跌倒。这种方法易受光照变化以及背景运动物体的影响，误判率高，且不能实现跌倒预判功能。(2)无活动状态检测：该方法根据老人跌倒后长时间无法恢复的特点来区分跌倒与弯腰、下蹲等相似动作，通过划定特定区域来提高跌倒识别率。可见该方法是典型的跌倒后检测，无法实现预判功能，并且无法正确区分长时间躺与跌倒。(3)头部运动跟踪：该方法采用粒子滤波方法对人体头部进行跟踪，通过头部到地面的距离以及头部的下降速率来检测是否发生跌倒。这种方法通过对人体头部的稳定跟踪在一定程度上实现了跌倒预判机制，但是缺乏对跌倒模型库的构建，这会导致检测误判率较高。此外，该方法缺乏场景理解算法，对复杂环境鲁棒性不高，并且粒子滤波算法很耗时，检测速率慢，从而很难做到实时检测。(4)行为识别：该方法通过采用卷积神经网络CNN训练行走、下蹲、坐下、平躺、跌倒等多种行为方式，生成跌倒模型库，然后对其进行分类识别，从而实现跌倒检测。该方法生成了自己的模型库，大大提升了跌倒检测的准确率。但是，使用CNN训练模型计算量较大，导致算法效率较低，并且没有实现对跌倒的预判功能。

结合上文中所分析的当前世界范围内的研究现状，可以发现目前跌倒检测方法面临着以下的问题：(1)算法计算量较大，导致运行效率较低，无法做到实时检测；(2)缺少有效的跌倒预判算法。

发明内容

本发明要解决的技术问题是如何提高基于计算机视觉的跌倒检测效率，并有效实现跌倒预判，从而减少跌倒风险。

为解决上述技术问题，本发明提出了一种基于人体关键点行为识别与长短期记忆神经网络机制LSTM的跌倒预判方法；该方法采用相邻关键点结组以及LSTM精简分类方法提升跌倒检测效率，可以实现实时检测，并且利用LSTM具有的记忆功能实现跌倒预判。

一种基于人体关键点行为识别与LSTM的跌倒预判方法，其包括如下步骤：

步骤1、利用RGB摄像机采集人体行为的RGB图像；

步骤2、利用热成像相机将步骤1中采集到的RGB图像转化为红外图像，以显示人体的轮廓特征；

步骤3、对步骤2中采集到的红外图像进行初步清晰化处理，去除椒盐噪点；

步骤4、进一步对图像进行优化，得到清晰稳定的图像；

步骤5、将运动的人体从静止的图像背景中分离出来，提取出活动的人体；

步骤6、根据人体的关节点分布情况将人体分为18个关键点，所述18个关键点包括左眼、右眼、左耳、右耳、鼻子、左肩、右肩、颈部、左肘、右肘、左腕、右腕、左股、右股、左膝、右膝、左脚和右脚；

步骤7、根据位置关系将所述关键点中的左眼、右眼、左耳、右耳和鼻子进行合并，从而形成头部区域，将所述关键点中的左肩、右肩、颈部、左肘、右肘、左腕和右腕进行合并，从而形成躯干区域，将所述关键点中的左股、右股、左膝、右膝、左脚和右脚进行合并，从而形成腿部区域，并将所述三个区域分别提炼为人体的3个关键点；

步骤8、采用粒子滤波算法对所述3个关键点进行跟踪，实现对人体的姿态估计与行为识别；当所述3个关键点竖直时，判定为站立；当所述3个关键点成45°～60°夹角时，判定为下蹲弯腰；当所述3个关键点水平时，判定为平躺；当所述3个关键点下降速率达到6m/s时，判定为跌倒；

步骤9、将步骤8中得到的3个关键点的不同位置情况输入到卷积神经网络CNN，所述CNN卷积神经网络将步骤8中所识别出的动作归类为：平躺、下蹲和跌倒；然后将所述平躺动作标记为L信号，将所述下蹲动作标记为S信号，将所述跌倒动作标记为F信号，并将所述信号传入下一级网络LSTM中；

步骤10、从步骤4得到的图像中，采集所述平躺、下蹲和跌倒动作所分别对应的40帧图像信息，并将所述40帧图像信息输入到基于递归神经网络LSTM模块中的输入门，将所得数据进行归一化处理，得到相同格式的稳定输出视频；所述基于递归神经网络LSTM模块包括输入门、记忆门和输出门；

步骤11、然后将所述基于递归神经网络LSTM模块的输入门输出的视频信息通过sigmoid函数进行标准化处理，将所得视频信息像素值归整化于(-1，1)之间，便于之后的运算与处理；之后再通过tanh函数对神经网络输入层进行激活处理，用来更新当前状态，减少误差；

实现所述标准化处理所用到的计算公式如下所示：

i_t＝σ(W_i[h_t-1,x_t]+b_i)

D_t＝tanh(W_c[h_t-1,x_t]+b_c)

式中：x_t为视频帧输入像素值，h_t-1为视频帧输出像素值，b_i为消除视频传输过程中帧丢失所造成的偏差而设定的补偿值，W_i为递归神经网络系数矩阵权重，i_t为经过标准化处理过的输出；σ为所得图像帧间方差，W_c为递归神经网络系数矩阵权重，D_t为更新后的状态，b_c为消除视频传输过程中帧丢失所造成的偏差而设定的补偿值；

步骤12、将步骤11的输出信息传递到记忆门，所述记忆门对步骤11所得视频帧选择性地存储，将行为识别过程中判定为跌倒的一系列视频存储起来，并根据对跌倒状态的判定来划分优先级别，将跌倒动作完整视频保存下来，用于作下一步的分析；

实现视频选择的计算方法如下：

f_t＝σ(W_f[h_t-1,x_t]+b_f)

C_t＝f_t*C_t-1+i_t*D_t

式中：f_t为通过记忆门输出阶段的输出视频信息，W_t为神经网络矩阵权重，h_t-1为上一级视频帧输出，x_t为视频帧输入，b_f为抵消通过记忆门视频帧丢失而造成的误差的偏置值；C_t为当前视频信息状态，C_t-1为上一级视频信息输出状态，i_t为上一阶段经过标准化处理后的输出，D_t为上一级视频信息更新后的输入状态；

步骤13、将记忆门处理过的信息传送到输出门，所述输出门将所得视频归一化处理后，进行跌倒检测分类、识别跌倒以及其他动作状态，并标记跌倒状态；

步骤14、提取步骤13中获取的跌倒状态，统一放置于CNN神经网络中进行存储，并构建跌倒模型库；

步骤15、将被监护人当前状态与模型库进行对比，利用跌倒所述模型库对产生跌倒之前、跌倒过程中和跌倒后的一系列视频帧进行分析，根据跌倒动作产生的速度和人体关键点的位置关系，对人体跌倒进行判断，实现跌倒预判功能。

进一步的，所述步骤3采用中值滤波算法对所述步骤2中采集到的红外图像进行处理，去除椒盐噪点，对图像进行初步清晰化处理；

所述中值滤波去噪使用的公式如下：

其中，g为最终得到的图像灰度值，N为滤波器模板大小，X_K为图像中的像素；k为位置编号。

进一步的，所述步骤4运用形态学操作，对图像进行优化，从而得到清晰稳定的图像；所述形态学操作包括膨胀、腐蚀、开操作和闭操作。

进一步的，所述步骤5采用背景减法建模方法将运动的人体从静止的图像背景中分离出来，提取出活动的人体，从而实现对人体的运动跟踪；

实现所述背景减法建模的计算公式如下所示：

其中，C是利用背景减法建模方法从所述步骤4处理后的图像中获取的前景图像，B为通过背景减法建模方法从所述步骤4中得到的背景图像，a为设定阈值，用以区分有无明显像素变化，超过阈值则为前景，小于阈值为背景，F为获取的前景图像。

进一步的，所述步骤10中，所述归一化处理使用的公式如下所示：

其中，y为归一化后的图像输出像素值，x为所得图像当前帧的像素值，σ为所得图像帧间方差，β为所得图像对比度，Mean为求取平均值函数,StandaidDeviation为求取标准差函数,Constant为求取对比度函数。

进一步的，所述步骤14中基于如下公式构建跌倒模型库：

O_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(c_t)

式中：O_t为最终输出函数，W_o为神经网络矩阵系数权重，h_t-1为上一级视频输出，x_t为视频输入，b_o为输出视频信息补偿值，h_t为当前视频信息输出状态，C_t为上一级视频输出状态。

进一步的，所述步骤15中，当人体的3个关键点下降速率达到6m/s,3个关键点水平时，判断为跌倒。

与现有技术相比，本发明的有益效果如下：

本发明提出的基于人体关键点行为识别与LSTM的跌倒预判方法，基于相邻人体关键点分组方法，进一步把人体分为头部、躯干和腿部三个区域进行行为识别，大大减少了计算量，从而提升了检测效率；在此基础上，通过采用LSTM，即长短期记忆神经网络机制来实现对采集视频的记忆功能，从而实现对人体行为变化的分析与识别功能，最后将识别结果归为三类：跌倒、非跌倒与其他。该方法减少了计算功耗，节约了跌倒检测时间，从而实现了实时检测与跌倒检测预判的功能。该方法结合了递归神经网络与行为识别方法，能够对即将发生的跌落风险进行短期实时评估和通知，以及对未来风险进行长期行为学习和预测。

附图说明

图1是本发明的基于人体关键点行为识别与LSTM的跌倒预判方法总框图；

图2是本发明的LSTM结构原理图；

图3是本发明的人体关键点提取分组示意图；

图4是本发明基于LSTM的跌倒检测输出分类原理图。

具体实施方式

以下，参照附图对本发明的实施方式进行说明。

如图1所示，本发明实施例提出的基于人体关键点行为识别与LSTM的跌倒预判方法，包括如下具体步骤：

步骤1、利用RGB摄像机采集人体行为的RGB图像；

步骤2、利用热成像相机将步骤1中采集到的RGB图像转化为红外图像，以显示人体的轮廓特征；通过热成像相机将RGB图像转化为红外图像的方式，可以有效保护被监护人的隐私；

步骤3、采用中值滤波算法对步骤2中采集到的红外图像进行处理，去除椒盐噪点，对图像进行初步清晰化处理；

中值滤波去噪原理如下：

其中，g为最终得到的图像灰度值，N为滤波器模板大小，X_K为图像中的像素；k为位置编号；

步骤4、运用形态学操作，包括膨胀、腐蚀、开操作、闭操作，对图像进行优化，从而得到清晰稳定的图像；

步骤5、采用背景减法建模方法将运动的人体从静止的图像背景中分离出来，提取出活动的人体，从而实现对人体的运动跟踪；

背景减法建模原理如下公式所示：

其中，C是利用背景减法建模方法从步骤4处理后的图像中获取的前景图像，B为通过背景减法建模方法从步骤4中得到的背景图像(无像素变化)，a为设定阈值，用以区分有无明显像素变化，超过阈值则为前景，小于阈值为背景，F为获取的前景图像；

步骤6、根据人体的关节点分布情况将人体分为18个关键点，即左眼、右眼、左耳、右耳、鼻子、左肩、右肩、颈部、左肘、右肘、左腕、右腕、左股、右股、左膝、右膝、左脚和右脚，通过粒子滤波算法对这些关键点的跟踪来实现对人体的姿态估计与行为识别；

步骤7、根据位置关系将相邻关键点进行合并，从而形成头部，躯干，腿部三个区域，如图3所示，并将三个区域分别提炼为人体的3个关键点；

步骤8、采用粒子滤波算法对3个关键点进行跟踪，实现对人体的姿态估计与行为识别：当3个关键点竖直时，判定为站立；3个关键点成45°～60°夹角时，判定为下蹲弯腰；3个关键点水平时判定为平躺；3个关键点下降速率达到速率6m/s时判定为跌倒；

步骤9、将步骤8中所得的3个关键点不同的位置情况输入到CNN(卷积神经网络)，CNN根据设定不同姿态的模板参数有效识别出各种目标动作，从而将人体动作分类为站立、下蹲、弯腰、平躺和跌倒；

步骤10、从步骤4得到的图像中，采集平躺、下蹲和跌倒动作所分别对应的40帧图像信息，并将40帧图像信息输入到基于递归神经网络LSTM模块中的输入门，将所得数据进行归一化处理，得到相同格式的稳定输出视频；如图2所示，基于递归神经网络LSTM模块包括输入门、记忆门和输出门；

实现原理如下公式所示：

其中，y为归一化后的图像输出像素值，x为所得图像当前帧的像素值，δ为所得图像帧间方差，β为所得图像对比度，Mean为求取平均值函数,StandardDeviation为求取标准差函数,Constant为求取对比度函数；

步骤11、将归一化处理后的视频帧输入到LSTM的输入门单元中，然后通过sigmoid函数对输入信息进行标准化处理，所得视频信息像素值归整化于(-1，1)之间，便于之后的运算与处理；之后再通过tanh函数用于网络激活创建新的向量，用来更新当前状态，减少误差；

原理如以下公式所示：

i_t＝σ(W_i[h_t-1,x_t]+b_i)

D_t＝tanh(W_c[h_t-1,x_t]+b_c)

其中，x_t为视频帧输入像素值，h_t-1为视频帧输出像素值，b_i为消除视频传输过程中帧丢失所造成的偏差而设定的补偿值，W_i为递归神经网络系数矩阵权重，i_t为经过标准化处理过的输出；σ为所得图像帧间方差，W_c为递归神经网络系数矩阵权重，D_t为更新后的状态，b_c为消除视频传输过程中帧丢失所造成的偏差而设定的补偿值；

步骤12、将步骤11的输出信息传递到记忆门，用于对步骤11所得视频帧选择性地存储，将行为识别过程中判定为跌倒的一系列视频存储起来，并根据对跌倒状态的判定来划分优先级别，将跌倒动作完整视频保存下来，用于作下一步的分析；

原理公式如下所示：

f_t＝σ(W_f[h_t-1,x_t]+b_f)

C_t＝f_t*C_t-1+i_t*D_t

其中，f_t为通过记忆门输出阶段的输出视频信息，W_f为神经网络矩阵权重，h_t-1为上一级视频帧输出，x_t为视频帧输入，b_f为抵消通过记忆门视频帧丢失而造成的误差的偏置值；C_t为当前视频信息状态，C_t-1为上一级视频信息输出状态，i_t为上一阶段经过标准化处理后的输出，D_t为上一级视频信息更新后的输入状态。

步骤13、将记忆门处理过的信息进而传送到输出门，将所得视频归一化处理后输出，用于跌倒检测分类，识别跌倒以及其他动作状态，标记跌倒状态；

步骤14、将步骤13中获取的输出状态提取出来，统一放置于CNN(神经网络)中存储起来，用于构建跌倒模型库，从而对产生跌倒之前、跌倒过程中、跌倒后的一系列视频帧进行分析，根据跌倒动作产生的规律(人体的3个关键点下降速率达到6m/s,3个关键点水平)，实现跌倒预判功能；

原理如以下公式所示：

O_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(c_t)

其中，O_t为最终输出函数，W_o为神经网络矩阵系数权重，h_t-1为上一级视频输出，x_t为视频输入，b_o为输出视频信息补偿值，h_t为当前视频信息输出状态，C_t为上一级视频输出状态。

步骤15、如图4所示，跌倒模型库建立以后，将被监护人当前状态与模型库进行对比，通过LSTM各层对监护人运动特征的逐级提取，不断凝练排除干扰信息，最后根据动作比对将输出结果分为三类(跌倒、非跌倒和其他：没有检测到人体)来实现跌倒预判。

本实施例提出的方法，由于跟踪关键点数量大大减少使得运算量大幅度减少，从而节省了由于计算量带来的检测时间消耗，提升了检测效率。该种方法通过对18个人体关键点的分组合并，使得检测速度获得大幅度提高，实现了实时跟踪与跌倒检测。

基于递归神经网络LSTM模块包括输入门、记忆门和输出门三个模块，通过三个模块的共同作用生成跌倒模型库，通过比对识别出可能发生的跌倒行为，从而实现跌倒预判功能。

以上所述的实施例仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于人体关键点行为识别与LSTM的跌倒预判方法，其特征在于，其包括如下步骤：

步骤1、利用RGB摄像机采集人体行为的RGB图像；

步骤4、进一步对图像进行优化，得到清晰稳定的图像；

步骤9、将步骤8中得到的3个关键点的不同位置情况输入到卷积神经网络CNN，所述卷积神经网络CNN将步骤8中所识别出的动作归类为：平躺、下蹲和跌倒；然后将所述平躺动作标记为L信号，将所述下蹲动作标记为S信号，将所述跌倒动作标记为F信号，并将所述信号传入下一级网络LSTM中；

实现所述标准化处理所用到的计算公式如下所示：

i_t＝σ(W_i[h_t-1,x_t]+b_i)

D_t＝tanh(W_c[h_t-1,x_t]+b_c)

实现视频选择的计算方法如下：

f_t＝σ(W_f[h_t-1,x_t]+b_f)

C_t＝f_t*C_t-1+i_t*D_t

式中：f_t为通过记忆门输出阶段的输出视频信息，W_f为神经网络矩阵权重，h_t-1为上一级视频帧输出，x_t为视频帧输入，b_f为抵消通过记忆门视频帧丢失而造成的误差的偏置值；C_t为当前视频信息状态，C_t-1为上一级视频信息输出状态，i_t为上一阶段经过标准化处理后的输出，D_t为上一级视频信息更新后的输入状态；

2.根据权利要求1所述的基于人体关键点行为识别与LSTM的跌倒预判方法，其特征在于，所述步骤3采用中值滤波算法对所述步骤2中采集到的红外图像进行处理，去除椒盐噪点，对图像进行初步清晰化处理；

所述中值滤波去噪使用的公式如下：

3.根据权利要求1所述的基于人体关键点行为识别与LSTM的跌倒预判方法，其特征在于，所述步骤4运用形态学操作，对图像进行优化，从而得到清晰稳定的图像；所述形态学操作包括膨胀、腐蚀、开操作和闭操作。

4.根据权利要求1所述的基于人体关键点行为识别与LSTM的跌倒预判方法，其特征在于，所述步骤5采用背景减法建模方法将运动的人体从静止的图像背景中分离出来，提取出活动的人体，从而实现对人体的运动跟踪；

实现所述背景减法建模的计算公式如下所示：

5.根据权利要求1所述的基于人体关键点行为识别与LSTM的跌倒预判方法，其特征在于，步骤10中，所述归一化处理使用的公式如下所示：

其中，y为归一化后的图像输出像素值，x为所得图像当前帧的像素值，δ为所得图像帧间方差，β为所得图像对比度，Mean为求取平均值函数,StandardDeviation为求取标准差函数,Constant为求取对比度函数。

6.根据权利要求1所述的基于人体关键点行为识别与LSTM的跌倒预判方法，其特征在于，步骤14中基于如下公式构建跌倒模型库：

O_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(c_t)

7.根据权利要求1所述的基于人体关键点行为识别与LSTM的跌倒预判方法，其特征在于，步骤15中，当人体的3个关键点下降速率达到6m/s,3个关键点水平时，判断为跌倒。