CN111027377B - 一种双流神经网络时序动作定位方法 - Google Patents
一种双流神经网络时序动作定位方法 Download PDFInfo
- Publication number
- CN111027377B CN111027377B CN201911044384.6A CN201911044384A CN111027377B CN 111027377 B CN111027377 B CN 111027377B CN 201911044384 A CN201911044384 A CN 201911044384A CN 111027377 B CN111027377 B CN 111027377B
- Authority
- CN
- China
- Prior art keywords
- video
- action
- frame
- segment
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
- G06V40/25—Recognition of walking or running movements, e.g. gait recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种双流神经网络时序动作定位方法。本发明方法首先对视频采样处理后获得视频帧流图像序列和视频光流图像序列;其次,构建双流神经网络边界分割模型,以完整视频的帧流以及光流图像序列为输入,以视频动作的边界信息为输出;再次,构建稀疏采样动作识别模型,输入为视频片段的帧流以及光流图像序列的稀疏采样序列,输出为视频片段对各动作类别(含背景)的概率。通过稀疏采样可以大为减少视频片段的冗余特征提取;采用边界分割策略搜索候选片段,规避了不同尺度下视频片段被重复处理的问题,抑制了后续候选片段在动作识别阶段中的背景类干扰,提高了时序动作定位的准确率。
Description
技术领域
本发明属于计算机技术领域,具体是视频分析中的时序动作定位技术领域,涉及一种基于边界分割和稀疏采样的双流神经网络进行时序动作定位的方法。
背景技术
随着智能设备的推广以及智慧城市的建设,各类摄像头已成为监控安防、自动驾驶、智慧医疗等领域不可或缺的硬件设备。面对每时每刻产生的海量视频,人工处理非常困难且效率低不能满足实际的应用需求,视频分析领域应运而生。该领域主要研究视频中的目标分割、目标追踪、目标识别、动作识别、语义分析、动作定位等颇具挑战的难题。
时序动作定位是指定位视频中目标动作出现的时间,而时空动作定位是指定位视频中的目标动作出现的时间以及实施动作的对象。时序动作定位任务一般分为两个阶段:搜索候选片段和识别候选片段动作;定位不仅要求标注动作发生的时间片段还需要识别动作的种类。例如,定位一名运动员短跑动作的视频即需要确定跑步片段的开始时间和结束时间,同时识别该片段的动作种类为跑步。相比图像分析领域,视频分析还需要考虑视频帧间的时序关系,涉及更为复杂的矩阵和张量计算;而传统视频分析算法主要采用人工特征如轨迹特征并用分类器如支持向量机进行动作识别,不能提供端到端的学习,使得其性能受限。
近年来,采用GPU提供高性能并行计算的硬件逐步涌现,促使以卷积神经网络(CNN:Convolutional Neural Network)为研究对象的深度学习领域飞速发展,为解决上述问题提供了有效途径。例如,双流卷积神经网络结合图像处理中的光流算法与卷积神经网络提取更优质的时序特征后,采用滑窗算法搜索候选动作片段和支持向量机识别片段动作;片段卷积神经网络(S-CNN:Segment-CNNs)以三维卷积神经网络(C3D)为骨干结构先以滑窗算法搜索候选动作片段,然后以神经网络分类器识别候选动作片段,完成时序动作定位任务;结构化片段网络对视频以单元为单位提取CNN特征,通过结构时间金字塔池化获得由多个单元特征组成的片段特征,最后由线性分类器进行片段动作分类。
然而,已有的时序动作定位方法的不足主要表现在以下方面:第一,在搜索候选片段阶段,早期选择的滑窗算法以及后来的结构时间金字塔池化法都会对视频进行不同尺度的重复扫描,极大地增加了计算开销;第二,在识别候选片段动作阶段,未充分考虑背景(不属于任何动作类)干扰导致识别结果不准确,许多方法对包含大量冗余信息的全部视频片段进行处理造成繁重的计算量;第三,很多方法定位的动作片段存在时序上的重叠,需要对其进行后处理(如非极大值抑制),这也说明其在搜索候选片段时已有冗余信息。由此迫切需要设计一种既能减少冗余计算开销又能提高时序动作定位性能的方法。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于边界分割和稀疏采样的双流神经网络时序动作定位方法,可以高效地搜索视频动作的候选片段,并准确判定视频动作类别。
本发明方法首先获取视频数据集,然后进行如下操作:
步骤(1).对视频采样处理,获得视频帧流图像序列和视频光流图像序列;
步骤(2).构建双流神经网络边界分割模型,完整视频的帧流以及光流图像序列作为输入,视频动作的边界信息作为输出;
步骤(3).构建稀疏采样动作识别模型,输入为视频片段的帧流以及光流图像序列的稀疏采样序列,输出为视频片段对各动作类别的概率;
步骤(4).对新视频根据边界分割模型确定候选片段并用稀疏采样动作识别模型判定候选片段动作类别,完成定位任务。
进一步,步骤(1)具体方法是:
(1-2).通过帧流图像生成对应的水平方向与竖直方向的光流图像序列 N表示光流图像数目,且与帧流图像的数目相同,ofi表示序列中第i幅宽为w、高为h包含竖直方向和水平方向的光流双通道图像,且根据下标i与帧流图像对应。
进一步,步骤(2)具体方法是:
(2-1).参与模型构建的视频包含动作片段标记信息,标记信息记为 其中M表示不含背景片段的视频V内动作片段数目,对于第j个动作片段,表示该片段动作开始帧,表示该片段动作结束帧,cj以数字表示该片段对应的动作种类,C表示视频的动作种类数目;
(2-2).根据标记信息L获得所有动作片段的开始帧和结束帧信息,若候选边界单元内包含任意开始帧或结束帧,则定义其为边界单元并将该单元标记为正例,否则标记为负例;
(2-3).使用浅层神经网络结构作为双流神经网络边界分割模型的骨干结构,为双流序列提供两个并行神经网络结构A1与A2,采用Softmax层为输出层并利用交叉熵损失函数;具体操作是:
(2-4).将候选边界单元的帧流图像序列和光流图像序列分别输入双流神经网络边界分割模型中的A1与A2,各自通过Softmax输出层获取该候选单元属于边界单元的概率,然后利用(2-2)的正负例单元标记信息计算交叉熵损失;
(2-5).利用随机梯度下降算法优化训练双流神经网络边界分割模型,通过反向传播分别对双流神经网络边界分割模型内的A1和A2各层的参数并进行调整更新。
进一步,步骤(3)具体方法是:
(3-1).输入的视频片段是原始视频根据标记信息中动作开始帧tstart和动作结束帧tend作为边界分割而成的2M+1个片段,其中有M个动作片段,有M+1个背景片段,第j个动作片段的类别标记为cj,背景片段则均标记为0;
(3-3).将片段S平均分割为α个子片段后,对每个子片段进行稀疏采样,即随机选择子片段内的三个相差τ帧的帧流图像序列和对应的光流图像序列,每个片段共分别获得α组帧流图像序列和光流图像序列;
(3-4).使用深层神经网络结构作为稀疏采样视频动作识别模型的骨干结构,并为(3-2)中片段的双流采样序列提供两个并行神经网络结构A3与A4,均设置神经网络Softmax层和利用交叉熵损失函数;具体操作是:
(3-5).将α组帧流图像序列和光流图像序列的采样分别输入(3-4)中的稀疏采样视频动作识别模型中的A3和A4,各自通过Softmax层获取概率,然后利用片段的动作种类标记信息计算交叉熵损失;
(3-6).利用随机梯度下降算法反向传播分别对稀疏采样视频动作识别模型内的A3和A4各层的参数进行调整更新。
进一步,步骤(4)具体方法是:
(4-2).将帧流图像序列和光流图像序列输入双流神经网络边界分割模型,每隔8帧选16帧作为候选边界单元,将单元内的帧流图像序列和光流图像序列分别输入至分割模型内的A1与A2,分别得到二维向量输出:和单元对应结果BR=Average(BR1,BR2),Average(·,·)表示取多个向量对应元素的平均值,表示单元属于边界单元与非边界单元的概率;
(4-4).将(4-3)得到的每个片段平均分割为α个子片段,再对每个子片段进行稀疏采样,得到α组帧流图像序列和光流图像序列;
(4-5).将稀疏采样得到的α组帧流图像序列和光流图像序列分别输入至稀疏采样视频动作识别模型内的A3和A4,对应输出α×(C+1)维矩阵:和其中C+1表示包含背景的动作类别数目,片段对应输出C+1维向量;
RR=Average(Mean(RR3),Mean(RR4));
其中Average(·,·)取多个向量对应元素的平均值,Mean(·)取二维矩阵每一列的平均值,RR表示片段属于各个动作类别的概率,对于每一个片段记录其RR中概率最大的类别作为其动作识别结果c';
(4-6).对于动作识别结果c',若一个片段识别结果为非背景类,则结合(4-3)记录的片段开始帧和结束帧,将其加入最终结果Result中;
本发明方法首先对视频采样处理后获得视频帧流图像序列和视频光流图像序列;其次,构建双流神经网络边界分割模型,以完整视频的帧流以及光流图像序列为输入,以视频动作的边界信息为输出;再次,构建稀疏采样动作识别模型,输入为视频片段的帧流以及光流图像序列的稀疏采样序列,输出为视频片段对各动作类别(含背景)的概率。采用边界分割策略搜索候选片段,从根本上规避不同尺度下视频片段被重复处理的问题,同时能够抑制后续候选片段在动作识别阶段中的背景类干扰;通过稀疏采样,网络模型仅需几幅双流图像即可获取片段类别信息,减少冗余特征的提取。
本发明方法充分考虑了视频数据具有时空一致性的特点,结合光流发生成光流图像为视频动作定位模型提供更多的时空运动信息,从边界分割策略和稀疏采样的角度为时序动作定位任务提供新的解决方案,提高了时序动作定位的准确率,可广泛应用于视频摘要、事件检测与捕捉、安防监控、自动驾驶等实际的应用场景。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
一种基于边界分割和稀疏采样的双流神经网络时序动作定位方法,重点考虑视频的时空一致性特点,利用反映动作变化的光流图像作为网络模型的输入数据流,以提供更能反映动作有关物体和场景的时空运动信息。主要思想是采用边界分割策略搜索候选片段以规避不同尺度下视频片段被重复处理的问题,同时能够抑制后续候选片段在动作识别阶段中的背景类干扰;利用稀疏采样策略,网络模型仅需几幅双流图像即可获取片段的类别信息,可以减少冗余特征的提取。通过这种方式,可以有效地进行时序动作定位。
如图1,该方法首先获取视频数据集,然后进行如下操作:
步骤(1).对视频采样处理,获得视频帧流图像序列和视频光流图像序列。具体方法是:
(1-2).通过帧流图像生成对应的水平方向与竖直方向的光流图像序列 其中N表示光流图像数目,且与帧流图像的数目相同,ofi表示序列中第i幅宽为w、高为h包含竖直方向和水平方向的光流双通道图像,且根据下标i与帧流图像对应;光流图像用于描述相对于观察者运动所造成的观测目标、表面或边缘的变化。
光流图像的生成选用常见的光流法,本实施例采用卢卡斯-卡纳德方法计算光流。
步骤(2).构建双流神经网络边界分割模型,完整视频的帧流以及光流图像序列作为输入,视频动作的边界信息作为输出。具体方法是:
(2-1).参与模型构建的视频包含动作片段标记信息,标记信息记为 其中M表示不含背景片段的视频V内动作片段数目,对于第j个动作片段,表示该片段动作开始帧,表示该片段动作结束帧,cj以数字表示该片段对应的动作种类,C表示视频的动作种类数目;
(2-2).根据标记信息L获得所有动作片段的开始帧和结束帧信息,若候选边界单元内包含任意开始帧或结束帧,则定义其为边界单元并将该单元标记为正例,否则标记为负例;一般来说边界单元数目较少,可以通过数据增强方法(如随机裁剪等)增加边界单元数目;
(2-3).使用考虑了时序信息的较浅层神经网络结构(如三维卷积神经网络C3D)作为双流神经网络边界分割模型的骨干结构,为双流序列提供两个并行神经网络结构A1与A2,采用Softmax层为输出层并利用交叉熵损失函数;
采用神经网络Softmax层和利用交叉熵损失函数操作具体是:
(2-4).将候选边界单元的帧流图像序列和光流图像序列分别输入双流神经网络边界分割模型中的A1与A2,各自通过Softmax输出层获取该候选单元属于边界单元的概率,然后利用(2-2)的正负例单元标记信息计算交叉熵损失;
(2-5).利用随机梯度下降算法优化训练双流神经网络边界分割模型,通过反向传播分别对双流神经网络边界分割模型内的A1和A2各层的参数并进行调整更新。
步骤(3).构建稀疏采样动作识别模型,输入为视频片段的帧流以及光流图像序列的稀疏采样序列,输出为视频片段对各动作类别(含背景)的概率。具体方法是:
(3-1).输入的视频片段是原始视频根据标记信息中动作开始帧tstart和动作结束帧tend作为边界分割而成的2M+1个片段,其中有M个动作片段,有M+1个背景片段,第j个动作片段的类别标记为cj,背景片段则均标记为0;
(3-3).将片段S平均分割为α(取3)个子片段后,对每个子片段进行稀疏采样,即随机选择子片段内的三个相差τ帧(取1)的帧流图像序列和对应的光流图像序列,每个片段共分别获得α组(每组三帧)帧流图像序列和光流图像序列;
(3-4).使用考虑了时序信息的较深层神经网络结构(如膨胀三维卷积神经网络I3D:Inflated 3-Dimensional Convolution Neural Networks)作为稀疏采样视频动作识别模型的骨干结构,并为(3-2)中片段的双流采样序列提供两个并行神经网络结构A3与A4,均设置神经网络Softmax层和利用交叉熵损失函数;
设置神经网络Softmax层和利用交叉熵损失函数操作具体是:
(3-5).将α组帧流图像序列和光流图像序列的采样分别输入(3-4)中的稀疏采样视频动作识别模型中的A3和A4,各自通过Softmax层获取概率,然后利用片段的动作种类标记信息计算交叉熵损失;
(3-6).利用随机梯度下降算法反向传播分别对稀疏采样视频动作识别模型内的A3和A4各层的参数进行调整更新。
步骤(4).对新视频根据边界分割模型确定候选片段并用稀疏采样动作识别模型判定候选片段动作类别,完成定位任务。具体方法是:
(4-2).将帧流图像序列和光流图像序列输入双流神经网络边界分割模型,每隔8帧选16帧作为候选边界单元,将单元内的帧流图像序列和光流图像序列分别输入至分割模型内的A1与A2,分别得到二维向量输出:和单元对应结果BR=Average(BR1,BR2),Average(·,·)表示取多个向量对应元素的平均值,表示单元属于边界单元与非边界单元的概率;
(4-3).将属于边界单元概率大于阈值θ(取0.7)的单元设为边界单元(若多个连续单元均满足条件,则选择概率最大的单元设为边界单元),这样得到M'个边界单元并在所有边界单元的二分之一处对视频V'进行分割,获得分割后的2M'+1个片段,并记录每个片段的开始帧与结束帧
(4-4).将(4-3)得到的每个片段通过(3-2)将片段平均分割为α(取3)个子片段,再对每个子片段进行稀疏采样,得到α组帧流图像序列和光流图像序列;
(4-5).将稀疏采样得到的α组帧流图像序列和光流图像序列分别输入至稀疏采样视频动作识别模型内的A3和A4,对应输出α×(C+1)维矩阵:和其中C+1表示包含背景的动作类别数目,片段对应输出C+1维向量:
RR=Average(Mean(RR3),Mean(RR4));
其中Average(·,·)取多个向量对应元素的平均值,Mean(·)取二维矩阵每一列的平均值,RR表示片段属于各个动作类别(含背景)的概率,对于每一个片段记录其RR中概率最大的类别作为其动作识别结果c';
(4-6).对于动作识别结果c',若一个片段识别结果为非背景类,则结合(4-3)记录的片段开始帧和结束帧,将其加入最终结果Result中;
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (1)
1.一种双流神经网络时序动作定位方法,其特征在于,该方法首先获取视频数据集,然后进行如下操作:
步骤(1).对视频采样处理,获得视频帧流图像序列和视频光流图像序列;具体方法是:
(1-2).通过帧流图像生成对应的水平方向与竖直方向的光流图像序列 N表示光流图像数目,且与帧流图像的数目相同,ofi表示序列中第i幅宽为w、高为h包含竖直方向和水平方向的光流双通道图像,且根据下标i与帧流图像对应;
步骤(2).构建双流神经网络边界分割模型,完整视频的帧流以及光流图像序列作为输入,视频动作的边界信息作为输出;具体方法是:
(2-1).参与模型构建的视频包含动作片段标记信息,标记信息记为 其中M表示不含背景片段的视频V内动作片段数目,对于第j个动作片段,表示该片段动作开始帧,表示该片段动作结束帧,cj以数字表示该片段对应的动作种类,C表示视频的动作种类数目;
(2-2).根据标记信息L获得所有动作片段的开始帧和结束帧信息,若候选边界单元内包含任意开始帧或结束帧,则定义其为边界单元并将该单元标记为正例,否则标记为负例;
(2-3).使用浅层神经网络结构作为双流神经网络边界分割模型的骨干结构,为双流序列提供两个并行神经网络结构A1与A2,采用Softmax层为输出层并利用交叉熵损失函数;具体操作是:
(2-4).将候选边界单元的帧流图像序列和光流图像序列分别输入双流神经网络边界分割模型中的A1与A2,各自通过Softmax输出层获取该候选单元属于边界单元的概率,然后利用(2-2)的正负例单元标记信息计算交叉熵损失;
(2-5).利用随机梯度下降算法优化训练双流神经网络边界分割模型,通过反向传播分别对双流神经网络边界分割模型内的A1和A2各层的参数并进行调整更新;
步骤(3).构建稀疏采样动作识别模型,输入为视频片段的帧流以及光流图像序列的稀疏采样序列,输出为视频片段对各动作类别的概率;具体方法是:
(3-1).输入的视频片段是原始视频根据标记信息中动作开始帧tstart和动作结束帧tend作为边界分割而成的2M+1个片段,其中有M个动作片段,有M+1个背景片段,第j个动作片段的类别标记为cj,背景片段则均标记为0;
(3-3).将片段S平均分割为α个子片段后,对每个子片段进行稀疏采样,即随机选择子片段内的三个相差τ帧的帧流图像序列和对应的光流图像序列,每个片段共分别获得α组帧流图像序列和光流图像序列;
(3-4).使用深层神经网络结构作为稀疏采样视频动作识别模型的骨干结构,并为(3-2)中片段的双流采样序列提供两个并行神经网络结构A3与A4,均设置神经网络Softmax层和利用交叉熵损失函数;具体操作是:
(3-5).将α组帧流图像序列和光流图像序列的采样分别输入(3-4)中的稀疏采样视频动作识别模型中的A3和A4,各自通过Softmax层获取概率,然后利用片段的动作种类标记信息计算交叉熵损失;
(3-6).利用随机梯度下降算法反向传播分别对稀疏采样视频动作识别模型内的A3和A4各层的参数进行调整更新;
步骤(4).对新视频根据边界分割模型确定候选片段并用稀疏采样动作识别模型判定候选片段动作类别,完成定位任务;具体方法是:
(4-2).将帧流图像序列和光流图像序列输入双流神经网络边界分割模型,每隔8帧选16帧作为候选边界单元,将单元内的帧流图像序列和光流图像序列分别输入至分割模型内的A1与A2,分别得到二维向量输出:和单元对应结果BR=Average(BR1,BR2),Average(·,·)表示取多个向量对应元素的平均值,表示单元属于边界单元与非边界单元的概率;
(4-4).将(4-3)得到的每个片段平均分割为α个子片段,再对每个子片段进行稀疏采样,得到α组帧流图像序列和光流图像序列;
(4-5).将稀疏采样得到的α组帧流图像序列和光流图像序列分别输入至稀疏采样视频动作识别模型内的A3和A4,对应输出α×(C+1)维矩阵:和其中C+1表示包含背景的动作类别数目,片段对应输出C+1维向量;
RR=Average(Mean(RR3),Mean(RR4));
其中Average(·,·)取多个向量对应元素的平均值,Mean(·)取二维矩阵每一列的平均值,RR表示片段属于各个动作类别的概率,对于每一个片段记录其RR中概率最大的类别作为其动作识别结果c';
(4-6).对于动作识别结果c',若一个片段识别结果为非背景类,则结合(4-3)记录的片段开始帧和结束帧,将其加入最终结果Result中;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911044384.6A CN111027377B (zh) | 2019-10-30 | 2019-10-30 | 一种双流神经网络时序动作定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911044384.6A CN111027377B (zh) | 2019-10-30 | 2019-10-30 | 一种双流神经网络时序动作定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111027377A CN111027377A (zh) | 2020-04-17 |
CN111027377B true CN111027377B (zh) | 2021-06-04 |
Family
ID=70200729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911044384.6A Active CN111027377B (zh) | 2019-10-30 | 2019-10-30 | 一种双流神经网络时序动作定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111027377B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950393B (zh) * | 2020-07-24 | 2021-05-04 | 杭州电子科技大学 | 一种基于边界搜索智能体的时序动作片段分割方法 |
CN112149575B (zh) * | 2020-09-24 | 2024-05-24 | 新华智云科技有限公司 | 从视频中自动筛选具有汽车部位片段的方法 |
CN112257526B (zh) * | 2020-10-10 | 2023-06-20 | 中国科学院深圳先进技术研究院 | 一种基于特征交互学习的动作识别方法及终端设备 |
CN112668438A (zh) * | 2020-12-23 | 2021-04-16 | 深圳壹账通智能科技有限公司 | 红外视频时序行为定位方法、装置、设备及存储介质 |
CN112883817B (zh) * | 2021-01-26 | 2024-09-06 | 咪咕文化科技有限公司 | 动作定位方法、装置、电子设备和存储介质 |
CN113408343B (zh) * | 2021-05-12 | 2022-05-13 | 杭州电子科技大学 | 基于双尺度时空分块互注意力的课堂动作识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106469314A (zh) * | 2016-08-31 | 2017-03-01 | 深圳市唯特视科技有限公司 | 一种基于时空共生双流网络的视频图像分类方法 |
CN108664931A (zh) * | 2018-05-11 | 2018-10-16 | 中国科学技术大学 | 一种多阶段视频动作检测方法 |
CN108764128A (zh) * | 2018-05-25 | 2018-11-06 | 华中科技大学 | 一种基于稀疏时间分段网络的视频动作识别方法 |
CN109784269A (zh) * | 2019-01-11 | 2019-05-21 | 中国石油大学(华东) | 一种基于时空联合的人体动作检测和定位方法 |
CN109993077A (zh) * | 2019-03-18 | 2019-07-09 | 南京信息工程大学 | 一种基于双流网络的行为识别方法 |
CN110222574A (zh) * | 2019-05-07 | 2019-09-10 | 杭州智尚云科信息技术有限公司 | 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10673901B2 (en) * | 2017-12-27 | 2020-06-02 | Cisco Technology, Inc. | Cryptographic security audit using network service zone locking |
CN110147876B (zh) * | 2019-05-09 | 2023-01-03 | 中山大学 | 基于视觉特征相似度的神经网络及其动作提案生成方法 |
CN110110686A (zh) * | 2019-05-14 | 2019-08-09 | 中国石油大学(华东) | 基于多损失双流卷积神经网络的人体动作识别方法 |
CN110188637A (zh) * | 2019-05-17 | 2019-08-30 | 西安电子科技大学 | 一种基于深度学习的行为识别技术方法 |
CN110175596B (zh) * | 2019-06-04 | 2022-04-22 | 重庆邮电大学 | 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法 |
-
2019
- 2019-10-30 CN CN201911044384.6A patent/CN111027377B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106469314A (zh) * | 2016-08-31 | 2017-03-01 | 深圳市唯特视科技有限公司 | 一种基于时空共生双流网络的视频图像分类方法 |
CN108664931A (zh) * | 2018-05-11 | 2018-10-16 | 中国科学技术大学 | 一种多阶段视频动作检测方法 |
CN108764128A (zh) * | 2018-05-25 | 2018-11-06 | 华中科技大学 | 一种基于稀疏时间分段网络的视频动作识别方法 |
CN109784269A (zh) * | 2019-01-11 | 2019-05-21 | 中国石油大学(华东) | 一种基于时空联合的人体动作检测和定位方法 |
CN109993077A (zh) * | 2019-03-18 | 2019-07-09 | 南京信息工程大学 | 一种基于双流网络的行为识别方法 |
CN110222574A (zh) * | 2019-05-07 | 2019-09-10 | 杭州智尚云科信息技术有限公司 | 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质 |
Non-Patent Citations (5)
Title |
---|
Cascaded Boundary Regression for Temporal Action Detection;Jiyang Gao 等;《arXiv》;20170504;第1-11页 * |
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition;Limin Wang 等;《arXiv》;20160803;第1-16页 * |
Two-Stream Action Recognition-Oriented Video Super-Resolution;Haochen Zhang 等;《arXiv》;20190819;第1-10页 * |
基于双流卷积神经网络的改进人体行为识别算法;张怡佳 等;《计算机测量与控制》;20181231;第26卷(第8期);第266-269,274页 * |
基于双流融合卷积神经网络的人体行为识别研究;薛路强;《万方数据库》;20180920;第1-79页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111027377A (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027377B (zh) | 一种双流神经网络时序动作定位方法 | |
Liu et al. | Leveraging unlabeled data for crowd counting by learning to rank | |
CN108492319B (zh) | 基于深度全卷积神经网络的运动目标检测方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN109344736B (zh) | 一种基于联合学习的静态图像人群计数方法 | |
CN108520226B (zh) | 一种基于躯体分解和显著性检测的行人重识别方法 | |
CN105139004B (zh) | 基于视频序列的人脸表情识别方法 | |
CN112184752A (zh) | 一种基于金字塔卷积的视频目标跟踪方法 | |
CN110414368A (zh) | 一种基于知识蒸馏的无监督行人重识别方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
US20210326638A1 (en) | Video panoptic segmentation | |
CN110097115B (zh) | 一种基于注意力转移机制的视频显著性物体检测方法 | |
CN112016682B (zh) | 视频表征学习、预训练方法及装置、电子设备、存储介质 | |
CN110414367B (zh) | 一种基于gan和ssn的时序行为检测方法 | |
CN109034035A (zh) | 基于显著性检测和特征融合的行人重识别方法 | |
CN112836675B (zh) | 一种基于聚类生成伪标签的无监督行人重识别方法及系统 | |
CN112633382A (zh) | 一种基于互近邻的少样本图像分类方法及系统 | |
CN112052772A (zh) | 一种人脸遮挡检测算法 | |
CN110827312A (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN112861605A (zh) | 基于时空混合特征的多人步态识别方法 | |
CN113221770A (zh) | 基于多特征混合学习的跨域行人重识别方法及系统 | |
CN115527269B (zh) | 一种人体姿态图像智能识别方法及系统 | |
CN109002808B (zh) | 一种人体行为识别方法及系统 | |
CN106529441A (zh) | 基于模糊边界分片的深度动作图人体行为识别方法 | |
Pillai et al. | Fine-Tuned EfficientNetB4 Transfer Learning Model for Weather Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |