Nothing Special   »   [go: up one dir, main page]

CN111401207B - 基于mars深度特征提取与增强的人体动作识别方法 - Google Patents

基于mars深度特征提取与增强的人体动作识别方法 Download PDF

Info

Publication number
CN111401207B
CN111401207B CN202010166751.6A CN202010166751A CN111401207B CN 111401207 B CN111401207 B CN 111401207B CN 202010166751 A CN202010166751 A CN 202010166751A CN 111401207 B CN111401207 B CN 111401207B
Authority
CN
China
Prior art keywords
image
human body
mars
algorithm
mers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010166751.6A
Other languages
English (en)
Other versions
CN111401207A (zh
Inventor
柯逍
柯力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202010166751.6A priority Critical patent/CN111401207B/zh
Publication of CN111401207A publication Critical patent/CN111401207A/zh
Application granted granted Critical
Publication of CN111401207B publication Critical patent/CN111401207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于MARS深度特征提取与增强的人体动作识别方法,包括以下步骤:S1:从空间和时间两个维度构建基于深层神经网络的三维残差变换模型;S2:采用基于特征的损失和标准的交叉熵损失的线性组合来训练该模型;S3:采用去噪融合算法消除视频数据中的噪声;S4:采用图像旋转方法模拟摄像头的移动和旋转,以模拟实际真实场景中的人体动作识别场景;S5:通过马赛克遮挡算法处理人体动作识别真实场景中的遮挡;S6:使用目标伸缩变换方法提升真实场景中人体目标尺寸的多样性,以使模型不断学习新的数据集;S7:利用训练及优化后的三维残差变换模型进行人体动作识别。该方法有利于提高人体动作识别的准确率和鲁棒性。

Description

基于MARS深度特征提取与增强的人体动作识别方法
技术领域
本发明涉及模式识别与计算机视觉领域,特别是一种基于MARS深度特征提取与增强的人体动作识别方法。
背景技术
近几年,计算机视觉和机器学习的飞速发展,视频分析任务已经从推断当前的状态转变为预测未来状态。基于视频的人体动作识别和预测就是这样的任务,其中动作识别是基于完整的动作执行来推断人类动作的当前状态,动作预测基于不完整的动作执行来预测人类动作的未来状态。由于这两项任务在现实世界中爆炸性地出现,例如智能安防视频监视、人机交互、虚拟现实和医疗监护等领域,因此成为热门的研究方向。
但是,基于深度特征提取的人体动作识别存在如下问题:1)在实际场景下,异常动作发生频率很低,数据收集和标注困难,即无论是常规动作还是异常动作都存在多样且复杂的特点,进而导致类别内的多样性较高和在真实场景下,特别在安防领域,基于深度学习的人体动作识别遇到了较大的挑战。2)在深度特征的提取上,传统的人体动作特征提取模型无法精确并且完整的提取特征信息。在复杂场景下,受到遮挡和摄像头角度等情况的影响,传统的特征提取模型能力弱,算法鲁棒性还需要提升。
发明内容
本发明的目的在于提供一种基于MARS深度特征提取与增强的人体动作识别方法,该方法有利于提高人体动作识别的准确率和鲁棒性。
为实现上述目的,本发明采用的技术方案是:一种基于MARS深度特征提取与增强的人体动作识别方法,包括以下步骤:
步骤S1:从空间和时间两个维度构建基于深层神经网络的三维残差变换模型;
步骤S2:采用基于特征的损失和标准的交叉熵损失的线性组合来训练所述三维残差变换模型;
步骤S3:采用基于峰值信噪比的去噪融合算法消除人体动作识别视频数据中的噪声,以提高模型的准确率和鲁棒性;
步骤S4:采用笛卡尔坐标系的图像旋转方法模拟摄像头的移动和旋转,以模拟在实际真实场景中的人体动作识别场景;
步骤S5:通过基于自学习的马赛克遮挡算法处理人体动作识别真实场景中的遮挡;
步骤S6:使用目标伸缩变换方法提升真实场景中人体目标尺寸的多样性,以使模型不断学习新的数据集,得到经过训练及优化后的三维残差变换模型;
步骤S7:利用训练及优化后的三维残差变换模型对待识别的视频数据进行人体动作识别。
进一步地,所述步骤S1具体包括以下步骤:
步骤S11:从RGB动作流和光流两个维度提升深度特征,构成空间和时间维度特征信息集特征,并遵循VGG/ResNets采用高度模块化构建基于深层神经网络的三维残差变换模型;该网络由一堆剩余块组成,该些剩余块具有相同的拓扑结构,且遵循两个规则:第一,如果生成相同大小的空间图,则该些块共享相同的超参数;第二,每次将空间网络下采样2倍时,块的宽度乘以2倍;
步骤S12:基于所述两个规则,构建一个模块,即相应地确定网络中的所有模块,完成空间和时间维度的模型构建。
进一步地,所述步骤S2具体包括以下步骤:
步骤S21:第一个由RGB流输入产生的模拟流特征的训练策略即为动作模拟RGB流,即MERS;采用一种紧靠MERS的最终完全连接层输出的损失来模拟之前流的输出;MERS的结构和输入与具有三维卷积的标准RGB流相似,但其目标是降低这些特征之间的均方的误差损失LMERS
LMERS=||fcMERS-fcFlow||2
其中,fcMERS表示MERS的特征,fcFlow表示光流的特征;在网络的倒数第二层应用这个损失函数以使最后一层的MERS没有训练;
步骤S22:利用具有交叉熵损失的光流分块对流进行训练以完成对动作进行分类,并冻结其权重;为了使用RGB帧模拟流特征,首先将均方的误差损失反向传播到除最后一层外的所有MERS层,然后分别训练最后一层具有交叉熵损失的MERS;
步骤S23:为了利用网络的外观信息增强这种训练,通过在整个网络中反向传播MSE和交叉熵损失的线性组合来训练网络,即使用以下损失函数LMARS训练增强动作RGB流,即MARS:
Figure BDA0002407728360000021
其中,CrossEntropy
Figure BDA0002407728360000031
表示交叉熵的值,SMARS表示类的预测分数,
Figure BDA0002407728360000032
是正确的分类标签,α是调节运动特征影响的标量权重,fcMARS表示MARS的特征,fcFlow表示光流的特征。
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:采用领域平均法进行均值滤波,首先在图像上对目标像素给出一个模板,然后用模板中的全体像素的平均值来代替原图像的像素值,其计算公式如下:
Figure BDA0002407728360000033
其中,g(u,v)表示经过处理后图像在点(u,v)上的像素值,K表示该模板中包含当前像素在内的像素总个数,h(u,v)表示处理前图像下点(u,v)上的像素值;
步骤S32:采用高斯滤波消除高斯噪声,具体方法为:对整张图像进行加权平均,对于其中每一个像素点的值是从邻域内的其他像素值和其本身像素值通过加权平均计算得到;中值滤波采用一个5×5的模板,逐次将模板中心对应于图像的每个像素上,当前的像素值由模板图像覆盖的像素值提供;双边滤波采用加权平均的方法,用周边像素亮度值的加权平均代表某个像素值的大小;
步骤S33:采用峰值信噪比作为去噪算法评估的标准,其计算公式为:
Figure BDA0002407728360000034
其中,PSNR表示图像的峰值信噪比,f为输入的原始图像,
Figure BDA0002407728360000035
表示去噪后的图像,M和N分别表示图像的行数和列数,m和n表示参数;
步骤S34:利用上述几种去噪算法组成一个算法集合,记做T={t1,t2,···,tl},tl表示第l种去噪算法;首先从待去噪的图像数据集中遍历选取一张图像,然后遍历去噪算法集合,之后用基于峰值信噪比的去噪评估标准选出一个对这张图像最好的去噪算法,假设该去噪算法为t1,并记住计算得出的信噪比改善因子的值R;在此基础上,遍历排除掉t1的去噪算法集合,如果遍历的其余去噪算法中得到R的值大于原来的,则更新R,否则不更新,如此循环,直到算法集合遍历完,则完成一张图像的去噪;最后,遍历整个待去噪的图像数据集。
进一步地,在笛卡尔坐标系中,假设点
Figure BDA0002407728360000041
与原点的距离为r,与横坐标轴形成的夹角为b;以顺时针旋转a度,旋转之后的坐标为
Figure BDA0002407728360000042
则可以得到如下公式:
Figure BDA0002407728360000043
Figure BDA0002407728360000044
Figure BDA0002407728360000045
Figure BDA0002407728360000046
图像经过旋转之后,相对于原图像,旋转之后的图像在长和宽都会发生变化;假设数据是已标注的识别的位置信息,则需要重新计算旋转之后的位置。
进一步地,所述步骤S5中,采用马赛克遮挡算法将一张图像分割成蜂窝状,并且采用正六边形的中心点像素值来填充整个正六变形;把画布分割成长和宽为
Figure BDA0002407728360000047
比例大小的矩阵,采用所有矩形的阵点坐标来进行索引,画布的左上角坐标为(0,0),并把该坐标设为起始点,则得到画布的右下角坐标为(width,height),其中,width表示画布的宽,height表示画布的长;基于小矩形四个点的坐标信息,即可类推出画布中所有点的坐标位置信息;当找到一个矩形框之后,只要判断它属于哪个六边形即可;使用找到的六边形的中心点像素来代替该点像素值;用这样的方法,遍历画布上的每一个点,即完成马赛克的效果;所述马赛克遮挡算法的具体实现方法为:首先获取原始视频的长度和宽度,接着通过该大小和相关比例自适应确定马赛克遮挡框的尺寸和数量;最后利用图像融合算法,将马赛克图像融入到原始图像中;在融合的位置,采用随机法选取法。
进一步地,所述步骤S6中,首先获取原始图像的长度Lo和宽度Wo,然后对Lo和Wo进行操作,操作方式为:长不变,宽伸缩no倍,当no大于1时,则为扩大,反之,为缩小;宽不变,长伸缩mo倍,当mo大于1时,则为扩大,反之,为缩小;长伸缩mo倍,宽伸缩no倍,当mo=no时,则为放大或者缩小;
图经过伸缩变换算法处理之后,会使得要识别的目标被拉伸、收缩、放大或者缩小一定的倍数,其计算公式如下:
Figure BDA0002407728360000051
其中,s1、s2和s3分别为X轴、Y轴和Z轴的缩放比例。
相较于现有技术,本发明具有以下有益效果:提供了一种基于MARS深度特征提取与增强的人体动作识别方法,该方法解决了传统动作识别模型存在特征提取能力弱和针对安防场景下存在异常动作发生频率低、数据收集和标注困难等问题,可以有效的提高人体动作识别的准确率和鲁棒性,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的方法实现流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明提供了一种基于MARS深度特征提取与增强的人体动作识别方法,如图1所示,包括以下步骤:
步骤S1:从空间和时间两个维度构建基于深层神经网络的三维残差变换模型。具体包括以下步骤:
步骤S11:从RGB动作流和光流两个维度提升深度特征,构成空间和时间维度特征信息集特征,并遵循VGG/ResNets采用高度模块化构建基于深层神经网络的三维残差变换模型;该网络由一堆剩余块组成,该些剩余块具有相同的拓扑结构,且遵循两个规则:第一,如果生成相同大小的空间图,则该些块共享相同的超参数;第二,每次将空间网络下采样2倍时,块的宽度乘以2倍;;第二条规则可确保计算复杂度,让其在浮点运算中,对于所有块而言大致相同。
步骤S12:基于所述两个规则,只需构建一个模块,即可相应地确定网络中的所有模块,完成空间和时间维度的模型构建。因此,这两个规则极大地缩小了设计空间;人工神经网络中最简单的神经元执行内积(加权总和),这是由完全连接的卷积层完成的基本转换;内在网络可以看作是聚合转化的一种形式:
Figure BDA0002407728360000052
其中,D表示通道总数,参数i表示第i通道,xi表示第i通道的输入向量,wi是第i通道的过滤器权重;该操作(通常包括一些输出非线性)被称为神经元。
考虑使用更通用的函数代替基本变换wixi,该函数本身也可以是网络;神经元网络是沿着新的维度扩展;因此,将汇总的转换表示为:
Figure BDA0002407728360000061
其中:C表示通道的输入向量,j表示第j通道,表示Tj(y)可以是任意函数,y表示输入向量;类似于简单的神经元,Tj应将y投射到(可选为低维)嵌入中,然后对其进行转换。
步骤S2:采用基于特征的损失和标准的交叉熵损失的线性组合来训练所述三维残差变换模型。体包括以下步骤:
步骤S21:第一个由RGB流输入产生的模拟流特征的训练策略即为动作模拟RGB流,即MERS(Motion Emulating RGB Stream),是通过在特征级别使用一个损失函数来实现的,卷积神经网络的初始层代表低层的局部特征信息,而后面的层代表的是高层的全局特征;对于相关任务来说,这些特征具有高度的区分性;采用一种紧靠MERS的最终完全连接层输出的损失来模拟之前流的输出;MERS的结构和输入与具有三维卷积的标准RGB流相似,但其目标是降低这些特征之间的均方的误差损失LMERS
LMERS=||fcMERS-fcFlow||2
其中,fcMERS表示MERS的特征,fcFlow表示光流的特征;在网络的倒数第二层应用这个损失函数以使最后一层的MERS没有训练.
步骤S22:利用具有交叉熵损失的光流分块对流进行训练以完成对动作进行分类,并冻结其权重;为了使用RGB帧模拟流特征,首先将均方的误差损失反向传播到除最后一层外的所有MERS层,然后分别训练最后一层具有交叉熵损失的MERS。
步骤S23:为了利用网络的外观信息增强这种训练,通过在整个网络中反向传播MSE和交叉熵损失的线性组合来训练网络,即使用以下损失函数LMARS训练增强动作RGB流,即MARS:
Figure BDA0002407728360000062
其中,CrossEntropy
Figure BDA0002407728360000063
表示交叉熵的值,SMARS表示类的预测分数,
Figure BDA0002407728360000064
是正确的分类标签,α是调节运动特征影响的标量权重,fcMARS表示MARS的特征,fcFlow表示光流的特征。较小的α值使MARS类似于标准RGB流,较大的α值使MARS更接近模拟流的MERS;使用这种组合损失可以确保模拟特征和流特征之间的差异导致交叉熵的降低,即更高的分类精度。
步骤S3:采用基于峰值信噪比的去噪融合算法消除人体动作识别视频数据中的噪声,以提高模型的准确率和鲁棒性。具体包括以下步骤:
步骤S31:采用领域平均法进行均值滤波,首先在图像上对目标像素给出一个模板,然后用模板中的全体像素的平均值来代替原图像的像素值,其计算公式如下:
Figure BDA0002407728360000071
其中,g(u,v)表示经过处理后图像在点(u,v)上的像素值,K表示该模板中包含当前像素在内的像素总个数,h(u,v)表示处理前图像下点(u,v)上的像素值。
步骤S32:采用高斯滤波消除高斯噪声,具体方法为:对整张图像进行加权平均,对于其中每一个像素点的值是从邻域内的其他像素值和其本身像素值通过加权平均计算得到;中值滤波采用一个5×5的模板,逐次将模板中心对应于图像的每个像素上,当前的像素值由模板图像覆盖的像素值提供;上述的几种的滤波都属于线性滤波器,而双边滤波是一种非线性滤波,其实现原理是采用加权平均的方法,用周边像素亮度值的加权平均代表某个像素值的大小。
步骤S33:采用峰值信噪比作为去噪算法评估的标准,其计算公式为:
Figure BDA0002407728360000072
其中,PSNR表示图像的峰值信噪比,f为输入的原始图像,
Figure BDA0002407728360000073
表示去噪后的图像,M和N分别表示图像的行数和列数,m和n表示参数。评估的指标则是峰值信噪比越大,说明去噪效果越好。
步骤S34:利用上述几种去噪算法组成一个算法集合,记做T={t1,t2,···,tl},tl表示第l种去噪算法;首先从待去噪的图像数据集中遍历选取一张图像,然后遍历去噪算法集合,之后用基于峰值信噪比的去噪评估标准选出一个对这张图像最好的去噪算法,假设该去噪算法为t1,并记住计算得出的信噪比改善因子的值R;在此基础上,遍历排除掉t1的去噪算法集合,如果遍历的其余去噪算法中得到R的值大于原来的,则更新R,否则不更新,如此循环,直到算法集合遍历完,则完成一张图像的去噪;最后,遍历整个待去噪的图像数据集。
步骤S4:采用笛卡尔坐标系的图像旋转方法模拟摄像头的移动和旋转,以模拟在实际真实场景中的人体动作识别场景。
图像旋转是指以图像的某一点为中心进行旋转一定的角度得到一张全新的旋转图像的过程,图像旋转又分为笛卡尔坐标系和极坐标系旋转,因为笛卡尔坐标系在真实场景中应用较广,所以主要采用直角坐标系实现图像的旋转。
在笛卡尔坐标系中,假设点
Figure BDA0002407728360000081
与原点的距离为r,与横坐标轴形成的夹角为b;以顺时针旋转a度,旋转之后的坐标为
Figure BDA0002407728360000082
则可以得到如下公式:
Figure BDA0002407728360000083
Figure BDA0002407728360000084
Figure BDA0002407728360000085
Figure BDA0002407728360000086
图像经过旋转之后,相对于原图像,旋转之后的图像在长和宽都会发生变化;假设数据是已标注的识别的位置信息,则需要重新计算旋转之后的位置。
步骤S5:通过基于自学习的马赛克遮挡算法处理人体动作识别真实场景中的遮挡。
具体地,采用马赛克遮挡算法将一张图像分割成蜂窝状,并且采用正六边形的中心点像素值来填充整个正六变形;把画布分割成长和宽为
Figure BDA0002407728360000087
比例大小的矩阵,采用所有矩形的阵点坐标来进行索引,画布的左上角坐标为(0,0),并把该坐标设为起始点,则得到画布的右下角坐标为(width,height),其中,width表示画布的宽,height表示画布的长;基于小矩形四个点的坐标信息,即可类推出画布中所有点的坐标位置信息;当找到一个矩形框之后,只要判断它属于哪个六边形即可;使用找到的六边形的中心点像素来代替该点像素值;用这样的方法,遍历画布上的每一个点,即完成马赛克的效果;所述马赛克遮挡算法的具体实现方法为:首先获取原始视频的长度和宽度,接着通过该大小和相关比例自适应确定马赛克遮挡框的尺寸和数量;最后利用图像融合算法,将马赛克图像融入到原始图像中;在融合的位置,因为现实场景中遮挡的位置都具有不确定性,所以采用随机法选取法。
步骤S6:使用目标伸缩变换方法提升真实场景中人体目标尺寸的多样性,以使模型不断学习新的数据集,得到经过训练及优化后的三维残差变换模型。
具体地,首先获取原始图像的长度Lo和宽度Wo,然后对Lo和Wo进行操作,操作方式为:长不变,宽伸缩no倍,当no大于1时,则为扩大,反之,为缩小;宽不变,长伸缩mo倍,当mo大于1时,则为扩大,反之,为缩小;长伸缩mo倍,宽伸缩no倍,当mo=no时,则为放大或者缩小;
图经过伸缩变换算法处理之后,会使得要识别的目标被拉伸、收缩、放大或者缩小一定的倍数,其计算公式如下:
Figure BDA0002407728360000091
其中,s1、s2和s3分别为X轴、Y轴和Z轴的缩放比例。目标伸缩变换方法可以较好的模拟目标的尺寸变化,在安防场景下,是一种有效的增强算法。
步骤S7:利用训练及优化后的三维残差变换模型对待识别的视频数据进行人体动作识别。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (5)

1.一种基于MARS深度特征提取与增强的人体动作识别方法,其特征在于,包括以下步骤:
步骤S1:从空间和时间两个维度构建基于深层神经网络的三维残差变换模型;
步骤S2:采用基于特征的损失和标准的交叉熵损失的线性组合来训练所述三维残差变换模型;
步骤S3:采用基于峰值信噪比的去噪融合算法消除人体动作识别视频数据中的噪声;
步骤S4:采用笛卡尔坐标系的图像旋转方法模拟摄像头的移动和旋转,以模拟在实际真实场景中的人体动作识别场景;
步骤S5:通过基于自学习的马赛克遮挡算法处理人体动作识别真实场景中的遮挡;
步骤S6:使用目标伸缩变换方法提升真实场景中人体目标尺寸的多样性,以使模型不断学习新的数据集,得到经过训练及优化后的三维残差变换模型;
步骤S7:利用训练及优化后的三维残差变换模型对待识别的视频数据进行人体动作识别;
所述步骤S1具体包括以下步骤:
步骤S11:从RGB动作流和光流两个维度提升深度特征,构成空间和时间维度特征信息集特征,并遵循VGG/ResNets采用高度模块化构建基于深层神经网络的三维残差变换模型;该网络由一堆剩余块组成,该些剩余块具有相同的拓扑结构,且遵循两个规则:第一,如果生成相同大小的空间图,则该些块共享相同的超参数;第二,每次将空间网络下采样2倍时,块的宽度乘以2倍;
步骤S12:基于所述两个规则,构建一个模块,即相应地确定网络中的所有模块,完成空间和时间维度的模型构建;
所述步骤S2具体包括以下步骤:
步骤S21:第一个由RGB流输入产生的模拟流特征的训练策略即为动作模拟RGB流,即MERS;采用一种紧靠MERS的最终完全连接层输出的损失来模拟之前流的输出;MERS的结构和输入与具有三维卷积的标准RGB流相似,但其目标是降低这些特征之间的均方的误差损失LMERS
LMERS=||fcMERS-fcFlow||2
其中,fcMERS表示MERS的特征,fcFlow表示光流的特征;在网络的倒数第二层应用这个损失函数以使最后一层的MERS没有训练;
步骤S22:利用具有交叉熵损失的光流分块对流进行训练以完成对动作进行分类,并冻结其权重;为了使用RGB帧模拟流特征,首先将均方的误差损失反向传播到除最后一层外的所有MERS层,然后分别训练最后一层具有交叉熵损失的MERS;
步骤S23:为了利用网络的外观信息增强这种训练,通过在整个网络中反向传播MSE和交叉熵损失的线性组合来训练网络,即使用以下损失函数LMARS训练增强动作RGB流,即MARS:
Figure FDA0003631260630000021
其中,
Figure FDA0003631260630000022
表示交叉熵的值,SMARS表示类的预测分数,
Figure FDA0003631260630000023
是正确的分类标签,α是调节运动特征影响的标量权重,fcMARS表示MARS的特征,fcFlow表示光流的特征。
2.根据权利要求1所述的基于MARS深度特征提取与增强的人体动作识别方法,其特征在于,所述步骤S3具体包括以下步骤:
步骤S31:采用领域平均法进行均值滤波,首先在图像上对目标像素给出一个模板,然后用模板中的全体像素的平均值来代替原图像的像素值,其计算公式如下:
Figure FDA0003631260630000024
其中,g(u,v)表示经过处理后图像在点(u,v)上的像素值,K表示该模板中包含当前像素在内的像素总个数,h(u,v)表示处理前图像下点(u,v)上的像素值;
步骤S32:采用高斯滤波消除高斯噪声,具体方法为:对整张图像进行加权平均,对于其中每一个像素点的值是从邻域内的其他像素值和其本身像素值通过加权平均计算得到;中值滤波采用一个5×5的模板,逐次将模板中心对应于图像的每个像素上,当前的像素值由模板图像覆盖的像素值提供;双边滤波采用加权平均的方法,用周边像素亮度值的加权平均代表某个像素值的大小;
步骤S33:采用峰值信噪比作为去噪算法评估的标准,其计算公式为:
Figure FDA0003631260630000025
其中,PSNR表示图像的峰值信噪比,f为输入的原始图像,
Figure FDA0003631260630000031
表示去噪后的图像,M和N分别表示图像的行数和列数,m和n表示参数;
步骤S34:利用l种去噪算法组成一个算法集合,记做T={t1,t2,···,tl},tl表示第l种去噪算法;首先从待去噪的图像数据集中遍历选取一张图像,然后遍历去噪算法集合,之后用基于峰值信噪比的去噪评估标准选出一个对这张图像最好的去噪算法,假设该去噪算法为t1,并记住计算得出的信噪比改善因子的值R;在此基础上,遍历排除掉t1的去噪算法集合,如果遍历的其余去噪算法中得到R的值大于原来的,则更新R,否则不更新,如此循环,直到算法集合遍历完,则完成一张图像的去噪;最后,遍历整个待去噪的图像数据集。
3.根据权利要求1所述的基于MARS深度特征提取与增强的人体动作识别方法,其特征在于,在笛卡尔坐标系中,假设点
Figure FDA0003631260630000032
与原点的距离为r,与横坐标轴形成的夹角为b;以顺时针旋转a度,旋转之后的坐标为
Figure FDA0003631260630000033
则得到如下公式:
Figure FDA0003631260630000034
Figure FDA0003631260630000035
Figure FDA0003631260630000036
Figure FDA0003631260630000037
图像经过旋转之后,相对于原图像,旋转之后的图像在长和宽都会发生变化;假设数据是已标注的识别的位置信息,则需要重新计算旋转之后的位置。
4.根据权利要求1所述的基于MARS深度特征提取与增强的人体动作识别方法,其特征在于,所述步骤S5中,采用马赛克遮挡算法将一张图像分割成蜂窝状,并且采用正六边形的中心点像素值来填充整个正六变形;把画布分割成长和宽为
Figure FDA0003631260630000038
比例大小的矩阵,采用所有矩形的阵点坐标来进行索引,画布的左上角坐标为(0,0),并把该坐标设为起始点,则得到画布的右下角坐标为(width,height),其中,width表示画布的宽,height表示画布的长;基于小矩形四个点的坐标信息,类推出画布中所有点的坐标位置信息;当找到一个矩形框之后,只要判断它属于哪个六边形;使用找到的六边形的中心点像素来代替该点像素值;用这样的方法,遍历画布上的每一个点,即完成马赛克的效果;所述马赛克遮挡算法的具体实现方法为:首先获取原始视频的长度和宽度,接着通过该大小和相关比例自适应确定马赛克遮挡框的尺寸和数量;最后利用图像融合算法,将马赛克图像融入到原始图像中;在融合的位置,采用随机法选取法。
5.根据权利要求1所述的基于MARS深度特征提取与增强的人体动作识别方法,其特征在于,所述步骤S6中,首先获取原始图像的长度Lo和宽度Wo,然后对Lo和Wo进行操作,操作方式为:长不变,宽伸缩no倍,当no大于1时,则为扩大,反之,为缩小;宽不变,长伸缩mo倍,当mo大于1时,则为扩大,反之,为缩小;长伸缩mo倍,宽伸缩no倍,当mo=no时,则为放大或者缩小;
图经过伸缩变换算法处理之后,会使得要识别的目标被拉伸、收缩、放大或者缩小一定的倍数,其计算公式如下:
Figure FDA0003631260630000041
其中,s1、s2和s3分别为X轴、Y轴和Z轴的缩放比例。
CN202010166751.6A 2020-03-11 2020-03-11 基于mars深度特征提取与增强的人体动作识别方法 Active CN111401207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010166751.6A CN111401207B (zh) 2020-03-11 2020-03-11 基于mars深度特征提取与增强的人体动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010166751.6A CN111401207B (zh) 2020-03-11 2020-03-11 基于mars深度特征提取与增强的人体动作识别方法

Publications (2)

Publication Number Publication Date
CN111401207A CN111401207A (zh) 2020-07-10
CN111401207B true CN111401207B (zh) 2022-07-08

Family

ID=71432298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010166751.6A Active CN111401207B (zh) 2020-03-11 2020-03-11 基于mars深度特征提取与增强的人体动作识别方法

Country Status (1)

Country Link
CN (1) CN111401207B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132089A (zh) * 2020-09-28 2020-12-25 天津天地伟业智能安全防范科技有限公司 一种基于3d卷积和光流的挖掘机行为分析方法
CN112419184B (zh) * 2020-11-19 2022-11-04 重庆邮电大学 一种综合局部信息和全局信息的空间注意力图像去噪方法
CN112488483B (zh) * 2020-11-25 2024-03-26 上上德盛集团股份有限公司 一种基于ai技术的ehs透明管理系统及管理方法
CN117392545B (zh) * 2023-10-26 2024-02-09 南昌航空大学 一种基于深度学习的sar图像目标检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222556A (zh) * 2019-04-22 2019-09-10 北方工业大学 一种人体动作识别系统及方法
CN110232361A (zh) * 2019-06-18 2019-09-13 中国科学院合肥物质科学研究院 基于三维残差稠密网络的人体行为意图识别方法与系统
CN110472531A (zh) * 2019-07-29 2019-11-19 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921098B (zh) * 2018-07-03 2020-08-18 百度在线网络技术(北京)有限公司 人体运动分析方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222556A (zh) * 2019-04-22 2019-09-10 北方工业大学 一种人体动作识别系统及方法
CN110232361A (zh) * 2019-06-18 2019-09-13 中国科学院合肥物质科学研究院 基于三维残差稠密网络的人体行为意图识别方法与系统
CN110472531A (zh) * 2019-07-29 2019-11-19 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
3D Human Action Recognition with Skeleton Orientation Vectors and Stacked Residual Bi-LSTM;Xiaoyi Wan et al.;《2017 4th IAPR Asian Conference on Pattern Recognition (ACPR)》;20181217;第571-576页 *
基于计算机视觉的人体动作识别技术研究;李拟珺;《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》;20160815(第08期);第1-138页 *

Also Published As

Publication number Publication date
CN111401207A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111401207B (zh) 基于mars深度特征提取与增强的人体动作识别方法
WO2022036777A1 (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN107066916B (zh) 基于反卷积神经网络的场景语义分割方法
CN112381004B (zh) 一种基于骨架的双流自适应图卷积网络行为识别方法
CN114596520A (zh) 一种第一视角视频动作识别方法及装置
CN109558862A (zh) 基于空间感知的注意力细化框架的人群计数方法及系统
CN108764244B (zh) 基于卷积神经网络和条件随机场的潜在目标区域检测方法
CN110084201B (zh) 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法
CN112417991B (zh) 基于沙漏胶囊网络的双注意力人脸对齐方法
CN113128424A (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN113065431B (zh) 一种基于隐马尔可夫模型和循环神经网络的人体违规行为预测方法
CN114708297A (zh) 一种视频目标跟踪方法及装置
CN114821764A (zh) 一种基于kcf追踪检测的手势图像识别方法及系统
CN116258757A (zh) 一种基于多尺度交叉注意力的单目图像深度估计方法
CN113158905A (zh) 一种基于注意力机制的行人重识别方法
CN114882493A (zh) 一种基于图像序列的三维手部姿态估计与识别方法
CN115147456A (zh) 一种基于时序自适应卷积与注意力机制的目标跟踪方法
CN113673560B (zh) 一种基于多流三维自适应图卷积的人体行为识别方法
Wang et al. Multi-focus image fusion framework based on transformer and feedback mechanism
CN114612709A (zh) 图像金字塔特征指导的多尺度目标检测方法
Yu et al. MagConv: Mask-guided convolution for image inpainting
CN111401209B (zh) 一种基于深度学习的动作识别方法
CN116993760A (zh) 一种基于图卷积和注意力机制的手势分割方法、系统、设备及介质
CN112115786A (zh) 基于注意力U-net的单目视觉里程计方法
CN113780305B (zh) 一种基于两种线索交互的显著性目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant