CN112883931A - 基于长短期记忆网络的实时真假运动判断方法 - Google Patents
基于长短期记忆网络的实时真假运动判断方法 Download PDFInfo
- Publication number
- CN112883931A CN112883931A CN202110335994.2A CN202110335994A CN112883931A CN 112883931 A CN112883931 A CN 112883931A CN 202110335994 A CN202110335994 A CN 202110335994A CN 112883931 A CN112883931 A CN 112883931A
- Authority
- CN
- China
- Prior art keywords
- data
- key point
- motion
- model
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于长短期记忆网络的实时真假运动判断方法,包括模型训练阶段:获取数据集:按照顺序将运动视频以单帧图像的形式输入人体关键点检测模型中,输出人体的关键点数据,形成数据集样本;选取训练集,输入到LSTM+全连接神经网络,最后计算Loss并更新;还包括实施判断阶段:将待检测数据作为模型输入,输出判断结果,判断结果包括数据中所反应运动的种类。本发明的有益效果是:本发明基于人体关键点检测模型,利用人体关键点数据组建模型,经拟合后的模型,以识别视频中人体运动种类以及是否该运动。
Description
技术领域
本发明涉及数据识别技术领域,特别是涉及基于长短期记忆网络的实时真假运动判断方法。
背景技术
随着国家和社会对中小学生的体质的重视,以及人工智能的快速发展,那么人工智能进入体育领域成为必然。目前的运动是否该运动计算方法大致。
1、传统图像差帧法
通过摄像头传入的图像与上一帧传入的图像进行差异比较,有差异的地方就是运动的部位。
缺点:是成本高、性能差、对环境要求高、不能判断是否真正的在做该运动。
2、深度学习分类法(classification)
通过摄像头传入的图像分类出人体运动的阶段,各级阶段的循环次数计算运动是否该运动。
常用的准确度高模型有VGG,MobileNet,ResNet等。
缺点:是成本高、性能差。
3、深度学习语义分割法(Semantic segmentation)
通过摄像头传入的图像分类出属于人体的像素和属于背景的像素,通过人体像素的变化进行判断。常用的准确度高模型有unet,deeplab等。
缺点:是成本高、性能差、对环境要求高、不能判断是否真正的在做该运动。
4、深度学习物体检测法(Object detection)
通过摄像头传入的图像框出人所在的位置,根据外接框的变化进行运动判断。常用的高性能模型有SSD,YOLO等。
缺点:不能判断是否真正的在做该运动。
发明内容
本发明的目的在于提供基于长短期记忆网络的实时真假运动判断方法
为实现上述目的,本发明提供如下技术方案:
基于长短期记忆网络的实时真假运动判断方法,1、包括模型训练阶段:
获取数据集:按照顺序将运动视频以单帧图像的形式输入人体关键点检测模型中,输出人体的关键点数据,形成数据集样本;
选取训练集,输入到LSTM+全连接神经网络,最后计算Loss并更新;
还包括实施判断阶段:将待检测数据作为模型输入,输出判断结果,判断结果包括数据中所反应运动的种类。
优选的,从人体关键点检测模型中输出的数据集进行归一化处理,归一化的结果为关键点的X/图像的宽,关键点的Y轴/图像的高。
优选的,训练机在输入全连接神经网络之前做数据增强处理,数据增强处理包括数据平移增强、数据缩放增强以及数据左右翻转增强。
优选的,以当前运动的文本文件为正样本,其他运动的文本文件为负样本;正样本采用过采样,负样本采用欠采样。
优选的,将所有正样本的随机25%作为正样本验证集,将所有负样本的随机25%作为负样本验证集,其余的作为训练集。
优选的,计算Loss采用二分类交叉熵损失函数:
更新包括全连接网络的反向传播和梯度下降过程:。
与现有技术相比,本发明的有益效果是:本发明基于人体关键点检测模型,利用人体关键点数据组建模型,经拟合后的模型,以识别视频中人体运动种类以及是否该运动。
另外,本发明采用长短期记忆网络+全连接,切合视频中运动动作所成的单帧图像顺序特性,提高识别准确度。
附图说明
图1为本发明实施例模型训练方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例是建立在人体关键点检测模型之上的,将视频的每一帧图像输入到人体关键点模型(如PoseNet,OpenPose,Pose Proposal Networks)中,检测出人体关键点,把关键点保存成数值数据,通过该数据进行运动真假判断。
具体的,基于长短期记忆网络的实时真假运动判断方法,先进行判断模型的训练,上述的模型(PoseNet,OpenPose,Pose Proposal Networks)输出便是模型训练的数据集来源。模型训练包括如下步骤:
数据集采集与处理
(1)将收集来的20类单人运动视频,进行有效部分截取分类。
20类单人运动:
1.跳绳、2.散步、3.跳舞、4.高抬腿、5.波比跳、6.引体向上、7.平板支撑、8.仰卧起坐、9.立位体前屈、10.坐位体前屈、11.开合跳、12.非标准跳绳、13.非标准高抬腿、14.非标准波比跳、15.非标准引体向上、16.非标准平板支撑、17.非标准仰卧起坐、18.非标准立位体前屈、19.非标准坐位体前屈、20.非标准开合跳。
有效部分截取分类的方法是将视频中的杂质(非该运动)的部分删除,最后将不同的运动视频进行各自存放。
(2)按照顺序读取视频的每一帧图像通过人体关键点检测模型检测出人体的关键点数据集保持文本文件当中。
为什么要按照顺序:时间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征。这是一类相对比较复杂的预测建模问题,和回归分析模型的预测不同,时间序列模型是依赖于事件发生的先后顺序的,同样大小的值改变顺序后输入模型产生的结果是不同的;
(3)数据归一化
归一化的结果是关键点的x轴/图像的宽,关键点的y轴/图像的高;
(4)保留当前运动的文本文件为正样本,其他运动的文本文件为负样本;
(5)正样本采用过采样,负样本采用欠采样(解决数据集不平衡问题)。
过采样:会增加训练集中少数群体成员的是否该运动。过采样的优点是不会保留原始训练集中的信息,因为会保留少数和多数类别的所有观察结果。
另一方面,它容易过度拟合;
欠采样:与过采样相反,旨在减少多数样本的是否该运动来平衡类分布。由于它正在从原始数据集中删除观察结果,因此可能会丢弃有用的信息。
正样本采用过采样:所有正样本全都采用。负样本采用欠采样:在所有负样本当中随机采用和正样本差不多的是否该运动。
此处值得一提的是,设定如上的采样方式,是为了充分符合本发明的目的即运动识别;在运动识别中,是通过单一图片去判断运动,难很大,因为各运动中的动作可能是相似度很大的;传统采样的方式,不管是过采样还是欠采样,都很难达到预估的准确度;而采样上述的采样方式,实现了数据训练集的科学性平衡,对最终结果的准确度,做出了突出的贡献。
(6)数据集的分割。
将所有正样本的随机25%数据集作为正样本验证集,将所有负样本的随机25%数据集作为负样本验证集,其他都作为训练集。
训练集:用于模型拟合的数据样本。在训练过程中对训练误差进行梯度下降,进行学习,可训练的权重参数。
验证集:是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。
验证集可以用在训练的过程中,一般在训练时,几个epoch结束后跑一次验证集看看效果。这样做的第一个好处是,可以及时发现模型或者参数的问题,比如模型在验证集上发散、出现很奇怪的结果(如无穷大)、mAP不增长或者增长很慢等等情况,这时可以及时终止训练,重新调参或者调整模型,而不需要等到训练结束。另外一个好处是验证模型的泛化能力,如果在验证集上的效果比训练集上差很多,就该考虑模型是否过拟合了。同时,还可以通过验证集对比不同的模型。在一般的神经网络中,我们用验证数据集去寻找最优的网络深度,或者决定反向传播算法的停止点或者在神经网络中选择隐藏层神经元的是否该运动。
2、模型的训练
a、取出连续时间的若干条数据集作为网络输入。
b、采用数据增强(Data Augmentation)平移,缩放,左右翻转。
计算机视觉中的图像增强,是人为的视觉不变性(语义不变)引入了先验知识。数据增强也基本上成了提高模型性能的最简单、直接的方法了。数据增强可以带来某种正则化(Regularization)作用的,这样就可以减小模型的结构风险。数据增强能否提高模型的鲁棒性。数据增强在某方面使得模型更集中地观测那些数据总的普遍模式,而消除了某些和普遍模式无关的数据。
c、长短期记忆网络(LSTM)+全连接分类。
LSTM是一种特殊的RNN,能长时间记住信息。
将所有数据集做二分类提供全连接神经网络做logistic回归。logistic回归的最后输出激励函数为Sigmoid函数。Sigmoid函数公式定义如下:
d、计算网络输出和标签之后的差异(Loss),反向传播(Back Propagation)给网络进行梯度下降(gradient descent)权值更新。
模型训练完成之后,便可将待检测的视频或者图片输入模型中,得出识别结果,通过结果得知运动的种类以及是否该运动。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (6)
1.基于长短期记忆网络的实时真假运动判断方法,其特征在于:包括模型训练阶段:
获取数据集:按照顺序将运动视频以单帧图像的形式输入人体关键点检测模型中,输出人体的关键点数据,形成数据集样本;
选取训练集,输入到LSTM+全连接神经网络,最后计算Loss并更新;
还包括实施判断阶段:将待检测数据作为模型输入,输出判断结果,判断结果包括数据中所反应运动的种类。
2.根据权利要求1的基于长短期记忆网络的实时真假运动判断方法,其特征在于:从人体关键点检测模型中输出的数据集进行归一化处理,归一化的结果为关键点的X/图像的宽,关键点的Y轴/图像的高。
3.根据权利要求2的基于长短期记忆网络的实时真假运动判断方法,其特征在于:训练机在输入全连接神经网络之前做数据增强处理,数据增强处理包括数据平移增强、数据缩放增强以及数据左右翻转增强。
4.根据权利要求1的基于长短期记忆网络的实时真假运动判断方法,其特征在于:以当前运动的文本文件为正样本,其他运动的文本文件为负样本;正样本采用过采样,负样本采用欠采样。
5.根据权利要求4的基于长短期记忆网络的实时真假运动判断方法,其特征在于:将所有正样本的随机25%作为正样本验证集,将所有负样本的随机25%作为负样本验证集,其余的作为训练集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110335994.2A CN112883931A (zh) | 2021-03-29 | 2021-03-29 | 基于长短期记忆网络的实时真假运动判断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110335994.2A CN112883931A (zh) | 2021-03-29 | 2021-03-29 | 基于长短期记忆网络的实时真假运动判断方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112883931A true CN112883931A (zh) | 2021-06-01 |
Family
ID=76039966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110335994.2A Pending CN112883931A (zh) | 2021-03-29 | 2021-03-29 | 基于长短期记忆网络的实时真假运动判断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883931A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113317780A (zh) * | 2021-06-07 | 2021-08-31 | 南开大学 | 一种基于长短时记忆神经网络的异常步态检测方法 |
CN113870896A (zh) * | 2021-09-27 | 2021-12-31 | 动者科技(杭州)有限责任公司 | 基于时频图和卷积神经网络的运动声音判假方法、装置 |
CN113893517A (zh) * | 2021-11-22 | 2022-01-07 | 动者科技(杭州)有限责任公司 | 基于差帧法的跳绳真假判断方法及系统 |
CN113989586A (zh) * | 2021-10-26 | 2022-01-28 | 山东省人工智能研究院 | 一种基于人脸几何运动特征的真假视频检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629633A (zh) * | 2018-05-09 | 2018-10-09 | 浪潮软件股份有限公司 | 一种基于大数据建立用户画像的方法及系统 |
CN108985259A (zh) * | 2018-08-03 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 人体动作识别方法和装置 |
CN111488773A (zh) * | 2019-01-29 | 2020-08-04 | 广州市百果园信息技术有限公司 | 一种动作识别方法、装置、设备及存储介质 |
CN111753665A (zh) * | 2020-05-26 | 2020-10-09 | 济南浪潮高新科技投资发展有限公司 | 一种基于姿态估计的园区异常行为识别方法及装置 |
-
2021
- 2021-03-29 CN CN202110335994.2A patent/CN112883931A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629633A (zh) * | 2018-05-09 | 2018-10-09 | 浪潮软件股份有限公司 | 一种基于大数据建立用户画像的方法及系统 |
CN108985259A (zh) * | 2018-08-03 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 人体动作识别方法和装置 |
CN111488773A (zh) * | 2019-01-29 | 2020-08-04 | 广州市百果园信息技术有限公司 | 一种动作识别方法、装置、设备及存储介质 |
CN111753665A (zh) * | 2020-05-26 | 2020-10-09 | 济南浪潮高新科技投资发展有限公司 | 一种基于姿态估计的园区异常行为识别方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113317780A (zh) * | 2021-06-07 | 2021-08-31 | 南开大学 | 一种基于长短时记忆神经网络的异常步态检测方法 |
CN113870896A (zh) * | 2021-09-27 | 2021-12-31 | 动者科技(杭州)有限责任公司 | 基于时频图和卷积神经网络的运动声音判假方法、装置 |
CN113989586A (zh) * | 2021-10-26 | 2022-01-28 | 山东省人工智能研究院 | 一种基于人脸几何运动特征的真假视频检测方法 |
CN113893517A (zh) * | 2021-11-22 | 2022-01-07 | 动者科技(杭州)有限责任公司 | 基于差帧法的跳绳真假判断方法及系统 |
CN113893517B (zh) * | 2021-11-22 | 2022-06-17 | 动者科技(杭州)有限责任公司 | 基于差帧法的跳绳真假判断方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fang et al. | A Method for Improving CNN-Based Image Recognition Using DCGAN. | |
CN107316307B (zh) | 一种基于深度卷积神经网络的中医舌图像自动分割方法 | |
CN109086658B (zh) | 一种基于生成对抗网络的传感器数据生成方法与系统 | |
CN109993102B (zh) | 相似人脸检索方法、装置及存储介质 | |
CN112883931A (zh) | 基于长短期记忆网络的实时真假运动判断方法 | |
CN112464865A (zh) | 一种基于像素和几何混合特征的人脸表情识别方法 | |
CN111144496A (zh) | 一种基于混合卷积神经网络的垃圾分类方法 | |
AU2017101803A4 (en) | Deep learning based image classification of dangerous goods of gun type | |
CN108427740B (zh) | 一种基于深度度量学习的图像情感分类与检索算法 | |
CN111783841A (zh) | 基于迁移学习和模型融合的垃圾分类方法、系统及介质 | |
CN109710804B (zh) | 一种教学视频图像知识点降维分析方法 | |
CN112733602B (zh) | 关系引导的行人属性识别方法 | |
CN112560710B (zh) | 一种用于构建指静脉识别系统的方法及指静脉识别系统 | |
CN112883930A (zh) | 基于全连接网络的实时真假运动判断方法 | |
Aghera et al. | MnasNet based lightweight CNN for facial expression recognition | |
Wang et al. | Image target recognition based on improved convolutional neural network | |
CN112991281A (zh) | 视觉检测方法、系统、电子设备及介质 | |
CN118230354A (zh) | 一种基于改进YOLOv5的复杂场景下手语识别方法 | |
CN111242114A (zh) | 文字识别方法及装置 | |
CN116935438A (zh) | 一种基于模型结构自主进化的行人图像重识别方法 | |
Sultana et al. | A Deep CNN based Kaggle Contest Winning Model to Recognize Real-Time Facial Expression | |
Liu et al. | Long-tailed Recognition by Learning from Latent Categories | |
CN111126364A (zh) | 一种基于分组卷积神经网络的表情识别方法 | |
Nayak et al. | FACIAL EXPRESSION RECOGNITION BASED ON FEATURE ENHANCEMENT AND IMPROVED ALEXNET. | |
Khan et al. | The Art of Seeing: A Computer Vision Journey into Object Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210601 |
|
RJ01 | Rejection of invention patent application after publication |