CN107808150A - 人体视频动作识别方法、装置、存储介质及处理器 - Google Patents
人体视频动作识别方法、装置、存储介质及处理器 Download PDFInfo
- Publication number
- CN107808150A CN107808150A CN201711154691.0A CN201711154691A CN107808150A CN 107808150 A CN107808150 A CN 107808150A CN 201711154691 A CN201711154691 A CN 201711154691A CN 107808150 A CN107808150 A CN 107808150A
- Authority
- CN
- China
- Prior art keywords
- network model
- neural network
- video
- convolution
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种人体视频动作识别方法、装置、存储介质及处理器。其中,该方法包括:根据预设全通道三维卷积核创建第一卷积神经网络模型;根据预设动作识别数据集训练第一卷积神经网络模型,得到第二卷积神经网络模型;将第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元,得到第三卷积神经网络模型;根据预设动作识别数据集和第二卷积神经网络模型训练第三卷积神经网络模型,得到目标卷积神经网络模型;输入待识别视频至目标卷积神经网络模型,得到目标识别结果。本发明解决了现有技术中存在的人体动作识别方式计算精度较低、计算效率较差的技术问题。
Description
技术领域
本发明涉及视频处理领域,具体而言,涉及一种人体视频动作识别方法、装置、存储介质及处理器。
背景技术
随着社会的信息化、网络化发展浪潮,各种视频大量涌现,如监控系统安防视频、自拍视频、网络媒体视频等。智能的动作分析识别技术对于大规模视频检索、人机交互、安防监控预警、视频分类等应用具有重要作用。
传统动作识别借助光流法、密集轨迹分析等技术进行,人工设计并选取特征,计算复杂,且存在性能瓶颈。伴随着深度学习在图像分类领域的突破进展,深度学习相关技术也逐渐渗透至视频分析动作识别领域。但是,目前的人体动作识别方式存在计算精度较低、计算效率较差的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种人体视频动作识别方法、装置、存储介质及处理器,以至少解决现有技术中存在的人体动作识别方式计算精度较低、计算效率较差的技术问题。
根据本发明实施例的一个方面,提供了一种人体视频动作识别方法,该方法包括:根据预设全通道三维卷积核创建第一卷积神经网络模型;根据预设动作识别数据集训练上述第一卷积神经网络模型,得到第二卷积神经网络模型,其中,上述第二卷积神经网络模型为达到收敛状态的上述第一卷积神经网络模型;将上述第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元,得到第三卷积神经网络模型;根据上述预设动作识别数据集和上述第二卷积神经网络模型训练上述第三卷积神经网络模型,得到目标卷积神经网络模型,其中,上述目标卷积神经网络模型为达到收敛状态的上述第三卷积神经网络模型;输入待识别视频至上述目标卷积神经网络模型,得到目标识别结果。
进一步地,在根据预设动作识别数据集训练上述第一卷积神经网络模型之前,上述方法还包括:获取目标视频中的视频数据;将上述视频数据分割成多个视频短片段,其中,每个上述视频短片段仅包含单一动作类别;对上述视频短片段添加预设类别标签,得到上述预设动作识别数据集。
进一步地,上述将上述第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元包括:将上述至少部分全通道三维卷积层替换为上述单通道三维卷积层;在上述单通道三维卷积层的后位层级添加批规范化层、非线性层、残差分支、叠加单元和1x1分组卷积层,得到上述单通道三维卷积单元。
进一步地,上述输入待识别视频至上述目标卷积神经网络模型,得到目标识别结果包括:对上述待识别视频进行分割,得到多个具有同一预设长度的第二视频序列;将多个上述第二视频序列输入至上述目标卷积神经网络,得到上述多个上述第二视频序列对应的初步识别结果;根据预设数据处理方式对上述初步识别结果进行处理,得到上述目标识别结果,其中,上述预设数据处理方式包括下述至少之一:获取上述初步识别结果的极值、获取上述初步识别结果的平均值以及对上述初步识别结果进行加权求和。
根据本发明实施例的另一方面,还提供了一种人体视频动作识别装置,该装置包括:创建单元,用于根据预设全通道三维卷积核创建第一卷积神经网络模型;第一训练单元,用于根据预设动作识别数据集训练上述第一卷积神经网络模型,得到第二卷积神经网络模型,其中,上述第二卷积神经网络模型为达到收敛状态的上述第一卷积神经网络模型;替换单元,用于将上述第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元,得到第三卷积神经网络模型;第二训练单元,用于根据上述预设动作识别数据集和上述第二卷积神经网络模型训练上述第三卷积神经网络模型,得到目标卷积神经网络模型,其中,上述目标卷积神经网络模型为达到收敛状态的上述第三卷积神经网络模型;处理单元,用于输入待识别视频至上述目标卷积神经网络模型,得到目标识别结果。
进一步地,上述装置还包括:获取单元,用于获取目标视频中的视频数据;分割单元,用于将上述视频数据分割成多个视频短片段,其中,每个上述视频短片段仅包含单一动作类别;添加单元,用于对上述视频短片段添加预设类别标签,得到上述预设动作识别数据集。
进一步地,上述替换单元包括:替换子单元,用于将所述至少部分全通道三维卷积层替换为所述单通道三维卷积层;添加子单元,用于在所述单通道三维卷积层的后位层级添加批规范化层、非线性层、残差分支、叠加单元和1x1分组卷积层,得到所述单通道三维卷积单元。
进一步地,上述处理单元包括:分割子单元,用于对上述待识别视频进行分割,得到多个具有同一预设长度的第二视频序列;输入子单元,用于将多个上述第二视频序列输入至上述目标卷积神经网络,得到上述多个上述第二视频序列对应的初步识别结果;处理子单元,用于根据预设数据处理方式对上述初步识别结果进行处理,得到上述目标识别结果,其中,上述预设数据处理方式包括下述至少之一:获取上述初步识别结果的极值、获取上述初步识别结果的平均值以及对上述初步识别结果进行加权求和。
根据本发明实施例的另一方面,又提供了一种存储介质,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行上述的人体视频动作识别方法。
根据本发明实施例的另一方面,又提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述的人体视频动作识别方法。
在本发明实施例中,采用根据预设全通道三维卷积核创建第一卷积神经网络模型的方式;根据预设动作识别数据集训练第一卷积神经网络模型,得到第二卷积神经网络模型,其中,第二卷积神经网络模型为达到收敛状态的第一卷积神经网络模型;通过将第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元,得到第三卷积神经网络模型;根据预设动作识别数据集和第二卷积神经网络模型训练第三卷积神经网络模型,得到目标卷积神经网络模型,其中,目标卷积神经网络模型为达到收敛状态的第三卷积神经网络模型;达到了输入待识别视频至目标卷积神经网络模型,得到目标识别结果的目的,从而实现了提升人体动作识别精度、提高人体动作识别的效率的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的人体视频动作识别方法的流程示意图;
图2是根据本发明实施例的另一种可选的人体视频动作识别方法的流程示意图;
图3是根据本发明实施例的又一种可选的人体视频动作识别方法的流程示意图;
图4是根据本发明实施例的又一种可选的人体视频动作识别方法的流程示意图;
图5是根据本发明实施例的一种可选的人体视频动作识别装置的结构示意图;
图6是根据本发明实施例的一种可选的第一卷积神经网络模型的结构示意图;
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种人体视频动作识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的人体视频动作识别方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤S102,根据预设全通道三维卷积核创建第一卷积神经网络模型;
步骤S104,根据预设动作识别数据集训练第一卷积神经网络模型,得到第二卷积神经网络模型,其中,第二卷积神经网络模型为达到收敛状态的第一卷积神经网络模型;
步骤S106,将第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元,得到第三卷积神经网络模型;
步骤S108,根据预设动作识别数据集和第二卷积神经网络模型训练第三卷积神经网络模型,得到目标卷积神经网络模型,其中,目标卷积神经网络模型为达到收敛状态的第三卷积神经网络模型;
步骤S110,输入待识别视频至目标卷积神经网络模型,得到目标识别结果。
在本发明实施例中,采用根据预设全通道三维卷积核创建第一卷积神经网络模型的方式;根据预设动作识别数据集训练第一卷积神经网络模型,得到第二卷积神经网络模型,其中,第二卷积神经网络模型为达到收敛状态的第一卷积神经网络模型;通过将第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元,得到第三卷积神经网络模型;根据预设动作识别数据集和第二卷积神经网络模型训练第三卷积神经网络模型,得到目标卷积神经网络模型,其中,目标卷积神经网络模型为达到收敛状态的第三卷积神经网络模型;达到了输入待识别视频至目标卷积神经网络模型,得到目标识别结果的目的,从而实现了提升人体动作识别精度、提高人体动作识别的效率的技术问题。
可选地,步骤S102中的第一卷积神经网络包含:输入层、三维卷积层、三维池化层、非线性层、全连接层、输出层。其中,输入层尺寸为[H,W,3,F],其中H和W分别为输入视频的高度与宽度,F为视频中包含的图像帧数。其中,三维池化层采用最大池化函数。
可选地,步骤S104中,可以将预设动作识别数据集中的视频分割为长度为F的不重叠的视频序列,输入至第一卷积神经网络模型中,采用梯度下降法进行训练,目标函数为交叉熵误差。
可选地,步骤S106中,将第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元包含:将三维卷积层中的三维卷积核的全通道连接模式替换为单通道连接模式,得到单通道三维卷积单元,计算公式为:输入特征图为X[h,w,c,f],输出特征图为Y[h1,w1,c,f1],卷积核为K[k,k,c,d],步长为1,偏置向量为b,单通道三维卷积单元输出为:在上述单通道三维卷积单元的后位层级添加批规范化层、非线性层、残差分支、叠加单元和1x1分组卷积层。
可选地,步骤S108中,可以将预设动作识别数据集中的视频分割为长度为F的不重叠的视频序列,输入至第二卷积神经网络模型和第三卷积神经网络模型中,得到软标签和预测输出值。计算预测输出值和软标签之间的交叉熵误差,并计算预测输出值与视频真实类别标签之间的交叉熵误差,进行加权求和,得到总误差,采用梯度下降法进行训练。
可选地,本申请实施例中的人体视频动作识别方法基于单通道三维卷积单元,构造动作识别卷积神经网络,可以同时利用输入视频中的时间信息和空间信息,相比于传统的二维卷积神经网络,更适合于处理视频数据,提升动作识别的精度。
可选地,本申请实施例中的人体视频动作识别方法中的单通道三维卷积单元包含单通道三维卷积层、批规范化层、非线性层、残差分支、叠加单元、1x1分组卷积层。其中,采用单通道三维卷积,相比于原始三维卷积,降低了计算量及参数量。采用残差分支及1x1分组卷积层,有效弥补参数降低造成的精度损失,从而解决了现有动作识别技术中存在的识别精度低、计算效率差的技术问题。
可选地,图2是根据本发明实施例的另一种可选的人体视频动作识别方法的流程示意图,如图2所示,在执行步骤S104之前,即在根据预设动作识别数据集训练第一卷积神经网络模型之前,该方法还可以包括:
步骤S202,获取目标视频中的视频数据;
步骤S204,将视频数据分割成多个视频短片段,其中,每个视频短片段仅包含单一动作类别;
步骤S206,对视频短片段添加预设类别标签,得到预设动作识别数据集。
可选地,图3是根据本发明实施例的又一种可选的人体视频动作识别方法的流程示意图,如图3所示,执行步骤S106,即将第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元包括:
步骤S302,将至少部分全通道三维卷积层替换为单通道三维卷积层;
步骤S304,在单通道三维卷积层的后位层级添加批规范化层、非线性层、残差分支、叠加单元和1x1分组卷积层,得到单通道三维卷积单元。
可选地,图4是根据本发明实施例的又一种可选的人体视频动作识别方法的流程示意图,如图4所示,执行步骤S110,输入待识别视频至目标卷积神经网络模型,得到目标识别结果包括:
步骤S402,对待识别视频进行分割,得到多个具有同一预设长度的第二视频序列;
步骤S404,将多个第二视频序列输入至目标卷积神经网络,得到多个第二视频序列对应的初步识别结果;
步骤S406,根据预设数据处理方式对初步识别结果进行处理,得到目标识别结果,其中,预设数据处理方式包括下述至少之一:获取初步识别结果的极值、获取初步识别结果的平均值以及对初步识别结果进行加权求和。
在本发明实施例中,采用根据预设全通道三维卷积核创建第一卷积神经网络模型的方式;根据预设动作识别数据集训练第一卷积神经网络模型,得到第二卷积神经网络模型,其中,第二卷积神经网络模型为达到收敛状态的第一卷积神经网络模型;通过将第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元,得到第三卷积神经网络模型;根据预设动作识别数据集和第二卷积神经网络模型训练第三卷积神经网络模型,得到目标卷积神经网络模型,其中,目标卷积神经网络模型为达到收敛状态的第三卷积神经网络模型;达到了输入待识别视频至目标卷积神经网络模型,得到目标识别结果的目的,从而实现了提升人体动作识别精度、提高人体动作识别的效率的技术问题。
实施例2
根据本发明实施例的另一方面,还提供了一种人体视频动作识别装置,如图5所示,该装置包括:
创建单元501,用于根据预设全通道三维卷积核创建第一卷积神经网络模型;第一训练单元503,用于根据预设动作识别数据集训练第一卷积神经网络模型,得到第二卷积神经网络模型,其中,第二卷积神经网络模型为达到收敛状态的第一卷积神经网络模型;替换单元505,用于将第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元,得到第三卷积神经网络模型;第二训练单元507,用于根据预设动作识别数据集和第二卷积神经网络模型训练第三卷积神经网络模型,得到目标卷积神经网络模型,其中,目标卷积神经网络模型为达到收敛状态的第三卷积神经网络模型;处理单元509,用于输入待识别视频至目标卷积神经网络模型,得到目标识别结果。
可选地,图6是根据本发明实施例的一种可选的第一卷积神经网络模型的结构示意图,如图6所示,该第一卷积神经网络模型包括输入层、十二个全通道三维卷积层、五个三维池化层、二维卷积层、全连接层、输出层。具体地,第一卷积神经网络模型中每一层的参数可以是:输入层尺寸为[H,W,3,F],其中H和W分别为输入视频的高度与宽度,F为视频中包含的图像帧数。可选的,输入层的H设为128,W设为171,F设为16。十二个全通道三维卷积层卷积核尺寸为3x3x3,步长为[1,1,1],通道数分别为16、32、64、64、64、128、128、128、256、256、512、512。三维池化层的池化尺寸分别是[2,2,1]、[2,2,2]、[2,2,2]、[2,2,2]、[2,2,3],采用最大池化函数。
可选地,装置还可以包括:获取单元,用于获取目标视频中的视频数据;分割单元,用于将视频数据分割成多个视频短片段,其中,每个视频短片段仅包含单一动作类别;添加单元,用于对视频短片段添加预设类别标签,得到预设动作识别数据集。
可选地,替换单元包括:替换子单元,用于将至少部分全通道三维卷积层替换为单通道三维卷积层;添加子单元,用于在单通道三维卷积层的后位层级添加批规范化层、非线性层、残差分支、叠加单元和1x1分组卷积层,得到单通道三维卷积单元。
可选地,处理单元包括:分割子单元,用于对待识别视频进行分割,得到多个具有同一预设长度的第二视频序列;输入子单元,用于将多个第二视频序列输入至目标卷积神经网络,得到多个第二视频序列对应的初步识别结果;处理子单元,用于根据预设数据处理方式对初步识别结果进行处理,得到目标识别结果,其中,预设数据处理方式包括下述至少之一:获取初步识别结果的极值、获取初步识别结果的平均值以及对初步识别结果进行加权求和。
根据本发明实施例的另一方面,又提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行本申请实施例1中的人体视频动作识别方法。
根据本发明实施例的另一方面,又提供了一种处理器,处理器用于运行程序,其中,程序运行时执行本申请实施例1中的人体视频动作识别方法。
在本发明实施例中,采用根据预设全通道三维卷积核创建第一卷积神经网络模型的方式;根据预设动作识别数据集训练第一卷积神经网络模型,得到第二卷积神经网络模型,其中,第二卷积神经网络模型为达到收敛状态的第一卷积神经网络模型;通过将第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元,得到第三卷积神经网络模型;根据预设动作识别数据集和第二卷积神经网络模型训练第三卷积神经网络模型,得到目标卷积神经网络模型,其中,目标卷积神经网络模型为达到收敛状态的第三卷积神经网络模型;达到了输入待识别视频至目标卷积神经网络模型,得到目标识别结果的目的,从而实现了提升人体动作识别精度、提高人体动作识别的效率的技术问题。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种人体视频动作识别方法,其特征在于,包括:
根据预设全通道三维卷积核创建第一卷积神经网络模型;
根据预设动作识别数据集训练所述第一卷积神经网络模型,得到第二卷积神经网络模型,其中,所述第二卷积神经网络模型为达到收敛状态的所述第一卷积神经网络模型;
将所述第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元,得到第三卷积神经网络模型;
根据所述预设动作识别数据集和所述第二卷积神经网络模型训练所述第三卷积神经网络模型,得到目标卷积神经网络模型,其中,所述目标卷积神经网络模型为达到收敛状态的所述第三卷积神经网络模型;
输入待识别视频至所述目标卷积神经网络模型,得到目标识别结果。
2.根据权利要求1所述的方法,其特征在于,在根据预设动作识别数据集训练所述第一卷积神经网络模型之前,所述方法还包括:
获取目标视频中的视频数据;
将所述视频数据分割成多个视频短片段,其中,每个所述视频短片段仅包含单一动作类别;
对所述视频短片段添加预设类别标签,得到所述预设动作识别数据集。
3.根据权利要求1所述的方法,其特征在于,所述将所述第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元包括:
将所述至少部分全通道三维卷积层替换为所述单通道三维卷积层;
在所述单通道三维卷积层的后位层级添加批规范化层、非线性层、残差分支、叠加单元和1x1分组卷积层,得到所述单通道三维卷积单元。
4.根据权利要求1所述的方法,其特征在于,所述输入待识别视频至所述目标卷积神经网络模型,得到目标识别结果包括:
对所述待识别视频进行分割,得到多个具有同一预设长度的第二视频序列;
将多个所述第二视频序列输入至所述目标卷积神经网络,得到所述多个所述第二视频序列对应的初步识别结果;
根据预设数据处理方式对所述初步识别结果进行处理,得到所述目标识别结果,其中,所述预设数据处理方式包括下述至少之一:获取所述初步识别结果的极值、获取所述初步识别结果的平均值以及对所述初步识别结果进行加权求和。
5.一种人体视频动作识别装置,其特征在于,包括:
创建单元,用于根据预设全通道三维卷积核创建第一卷积神经网络模型;
第一训练单元,用于根据预设动作识别数据集训练所述第一卷积神经网络模型,得到第二卷积神经网络模型,其中,所述第二卷积神经网络模型为达到收敛状态的所述第一卷积神经网络模型;
替换单元,用于将所述第一卷积神经网络模型中的至少部分全通道三维卷积层替换为单通道三维卷积单元,得到第三卷积神经网络模型;
第二训练单元,用于根据所述预设动作识别数据集和所述第二卷积神经网络模型训练所述第三卷积神经网络模型,得到目标卷积神经网络模型,其中,所述目标卷积神经网络模型为达到收敛状态的所述第三卷积神经网络模型;
处理单元,用于输入待识别视频至所述目标卷积神经网络模型,得到目标识别结果。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
获取单元,用于获取目标视频中的视频数据;
分割单元,用于将所述视频数据分割成多个视频短片段,其中,每个所述视频短片段仅包含单一动作类别;
添加单元,用于对所述视频短片段添加预设类别标签,得到所述预设动作识别数据集。
7.根据权利要求5所述的装置,其特征在于,所述替换单元包括:
替换子单元,用于将所述至少部分全通道三维卷积层替换为所述单通道三维卷积层;
添加子单元,用于在所述单通道三维卷积层的后位层级添加批规范化层、非线性层、残差分支、叠加单元和1x1分组卷积层,得到所述单通道三维卷积单元。
8.根据权利要求5所述的装置,其特征在于,所述处理单元包括:
分割子单元,用于对所述待识别视频进行分割,得到多个具有同一预设长度的第二视频序列;
输入子单元,用于将多个所述第二视频序列输入至所述目标卷积神经网络,得到所述多个所述第二视频序列对应的初步识别结果;
处理子单元,用于根据预设数据处理方式对所述初步识别结果进行处理,得到所述目标识别结果,其中,所述预设数据处理方式包括下述至少之一:获取所述初步识别结果的极值、获取所述初步识别结果的平均值以及对所述初步识别结果进行加权求和。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求4中任意一项所述的人体视频动作识别方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求4中任意一项所述的人体视频动作识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711154691.0A CN107808150A (zh) | 2017-11-20 | 2017-11-20 | 人体视频动作识别方法、装置、存储介质及处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711154691.0A CN107808150A (zh) | 2017-11-20 | 2017-11-20 | 人体视频动作识别方法、装置、存储介质及处理器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107808150A true CN107808150A (zh) | 2018-03-16 |
Family
ID=61580278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711154691.0A Pending CN107808150A (zh) | 2017-11-20 | 2017-11-20 | 人体视频动作识别方法、装置、存储介质及处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107808150A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063824A (zh) * | 2018-07-25 | 2018-12-21 | 深圳市中悦科技有限公司 | 深层三维卷积神经网络的创建方法、装置、存储介质及处理器 |
CN109214282A (zh) * | 2018-08-01 | 2019-01-15 | 中南民族大学 | 一种基于神经网络的三维手势关键点检测方法和系统 |
CN109829398A (zh) * | 2019-01-16 | 2019-05-31 | 北京航空航天大学 | 一种基于三维卷积网络的视频中的目标检测方法 |
CN110070867A (zh) * | 2019-04-26 | 2019-07-30 | 珠海普林芯驰科技有限公司 | 语音指令识别方法、计算机装置及计算机可读存储介质 |
CN110287820A (zh) * | 2019-06-06 | 2019-09-27 | 北京清微智能科技有限公司 | 基于lrcn网络的行为识别方法、装置、设备及介质 |
CN110705331A (zh) * | 2018-07-09 | 2020-01-17 | 中国科学技术大学 | 一种手语识别方法及装置 |
CN111382758A (zh) * | 2018-12-28 | 2020-07-07 | 杭州海康威视数字技术股份有限公司 | 训练图像分类模型、图像分类方法、装置、设备及介质 |
CN111598026A (zh) * | 2020-05-20 | 2020-08-28 | 广州市百果园信息技术有限公司 | 动作识别方法、装置、设备及存储介质 |
WO2020258498A1 (zh) * | 2019-06-26 | 2020-12-30 | 平安科技(深圳)有限公司 | 基于深度学习的足球比赛行为识别方法、装置及终端设备 |
CN112257526A (zh) * | 2020-10-10 | 2021-01-22 | 中国科学院深圳先进技术研究院 | 一种基于特征交互学习的动作识别方法及终端设备 |
CN112997192A (zh) * | 2021-02-03 | 2021-06-18 | 深圳市锐明技术股份有限公司 | 一种手势识别方法、装置、终端设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110182469A1 (en) * | 2010-01-28 | 2011-07-28 | Nec Laboratories America, Inc. | 3d convolutional neural networks for automatic human action recognition |
US20110222724A1 (en) * | 2010-03-15 | 2011-09-15 | Nec Laboratories America, Inc. | Systems and methods for determining personal characteristics |
CN104866810A (zh) * | 2015-04-10 | 2015-08-26 | 北京工业大学 | 一种深度卷积神经网络的人脸识别方法 |
CN106845549A (zh) * | 2017-01-22 | 2017-06-13 | 珠海习悦信息技术有限公司 | 一种基于多任务学习的场景与目标识别的方法及装置 |
WO2017164478A1 (ko) * | 2016-03-25 | 2017-09-28 | 한국과학기술원 | 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치 |
CN107316079A (zh) * | 2017-08-08 | 2017-11-03 | 珠海习悦信息技术有限公司 | 终端卷积神经网络的处理方法、装置、存储介质及处理器 |
-
2017
- 2017-11-20 CN CN201711154691.0A patent/CN107808150A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110182469A1 (en) * | 2010-01-28 | 2011-07-28 | Nec Laboratories America, Inc. | 3d convolutional neural networks for automatic human action recognition |
US20110222724A1 (en) * | 2010-03-15 | 2011-09-15 | Nec Laboratories America, Inc. | Systems and methods for determining personal characteristics |
CN104866810A (zh) * | 2015-04-10 | 2015-08-26 | 北京工业大学 | 一种深度卷积神经网络的人脸识别方法 |
WO2017164478A1 (ko) * | 2016-03-25 | 2017-09-28 | 한국과학기술원 | 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치 |
CN106845549A (zh) * | 2017-01-22 | 2017-06-13 | 珠海习悦信息技术有限公司 | 一种基于多任务学习的场景与目标识别的方法及装置 |
CN107316079A (zh) * | 2017-08-08 | 2017-11-03 | 珠海习悦信息技术有限公司 | 终端卷积神经网络的处理方法、装置、存储介质及处理器 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705331A (zh) * | 2018-07-09 | 2020-01-17 | 中国科学技术大学 | 一种手语识别方法及装置 |
CN110705331B (zh) * | 2018-07-09 | 2023-03-24 | 中国科学技术大学 | 一种手语识别方法及装置 |
CN109063824A (zh) * | 2018-07-25 | 2018-12-21 | 深圳市中悦科技有限公司 | 深层三维卷积神经网络的创建方法、装置、存储介质及处理器 |
CN109063824B (zh) * | 2018-07-25 | 2023-04-07 | 深圳市中悦科技有限公司 | 深层三维卷积神经网络的创建方法、装置、存储介质及处理器 |
CN109214282A (zh) * | 2018-08-01 | 2019-01-15 | 中南民族大学 | 一种基于神经网络的三维手势关键点检测方法和系统 |
CN111382758B (zh) * | 2018-12-28 | 2023-12-26 | 杭州海康威视数字技术股份有限公司 | 训练图像分类模型、图像分类方法、装置、设备及介质 |
CN111382758A (zh) * | 2018-12-28 | 2020-07-07 | 杭州海康威视数字技术股份有限公司 | 训练图像分类模型、图像分类方法、装置、设备及介质 |
CN109829398A (zh) * | 2019-01-16 | 2019-05-31 | 北京航空航天大学 | 一种基于三维卷积网络的视频中的目标检测方法 |
CN109829398B (zh) * | 2019-01-16 | 2020-03-31 | 北京航空航天大学 | 一种基于三维卷积网络的视频中的目标检测方法 |
CN110070867A (zh) * | 2019-04-26 | 2019-07-30 | 珠海普林芯驰科技有限公司 | 语音指令识别方法、计算机装置及计算机可读存储介质 |
CN110070867B (zh) * | 2019-04-26 | 2022-03-11 | 珠海普林芯驰科技有限公司 | 语音指令识别方法、计算机装置及计算机可读存储介质 |
CN110287820B (zh) * | 2019-06-06 | 2021-07-23 | 北京清微智能科技有限公司 | 基于lrcn网络的行为识别方法、装置、设备及介质 |
CN110287820A (zh) * | 2019-06-06 | 2019-09-27 | 北京清微智能科技有限公司 | 基于lrcn网络的行为识别方法、装置、设备及介质 |
WO2020258498A1 (zh) * | 2019-06-26 | 2020-12-30 | 平安科技(深圳)有限公司 | 基于深度学习的足球比赛行为识别方法、装置及终端设备 |
CN111598026A (zh) * | 2020-05-20 | 2020-08-28 | 广州市百果园信息技术有限公司 | 动作识别方法、装置、设备及存储介质 |
CN112257526A (zh) * | 2020-10-10 | 2021-01-22 | 中国科学院深圳先进技术研究院 | 一种基于特征交互学习的动作识别方法及终端设备 |
CN112997192A (zh) * | 2021-02-03 | 2021-06-18 | 深圳市锐明技术股份有限公司 | 一种手势识别方法、装置、终端设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107808150A (zh) | 人体视频动作识别方法、装置、存储介质及处理器 | |
CN106570477B (zh) | 基于深度学习的车型识别模型构建方法及车型识别方法 | |
Zhang et al. | A bi-directional message passing model for salient object detection | |
KR102302725B1 (ko) | 룸 레이아웃 추정 방법들 및 기술들 | |
CN113221787B (zh) | 基于多元差异性融合的行人多目标跟踪方法 | |
CN109191491B (zh) | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统 | |
Suryawati et al. | Deep structured convolutional neural network for tomato diseases detection | |
CN106204499B (zh) | 基于卷积神经网络的单幅图像去雨方法 | |
CN110443286B (zh) | 神经网络模型的训练方法、图像识别方法以及装置 | |
CN111179307A (zh) | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 | |
CN110235146A (zh) | 用于检测图像中的感兴趣对象的方法和装置 | |
CN108229379A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN109871781A (zh) | 基于多模态3d卷积神经网络的动态手势识别方法及系统 | |
CN110781893B (zh) | 特征图的处理方法、图像处理方法、装置以及存储介质 | |
CN107316079A (zh) | 终端卷积神经网络的处理方法、装置、存储介质及处理器 | |
CN109272509A (zh) | 一种连续图像的目标检测方法、装置、设备及存储介质 | |
Ilyas et al. | Multi-scale context aggregation for strawberry fruit recognition and disease phenotyping | |
CN112801063B (zh) | 神经网络系统和基于神经网络系统的图像人群计数方法 | |
CN111626184A (zh) | 一种人群密度估计方法及系统 | |
CN104881640A (zh) | 一种获取向量的方法及装置 | |
CN109063824A (zh) | 深层三维卷积神经网络的创建方法、装置、存储介质及处理器 | |
CN109635811A (zh) | 空间植物的图像分析方法 | |
CN113688765A (zh) | 一种基于注意力机制的自适应图卷积网络的动作识别方法 | |
CN110309835A (zh) | 一种图像局部特征提取方法及装置 | |
CN106780479A (zh) | 一种基于深度学习的高精度图像模糊检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20220415 |