Nothing Special   »   [go: up one dir, main page]

CN111027377B - 一种双流神经网络时序动作定位方法 - Google Patents

一种双流神经网络时序动作定位方法 Download PDF

Info

Publication number
CN111027377B
CN111027377B CN201911044384.6A CN201911044384A CN111027377B CN 111027377 B CN111027377 B CN 111027377B CN 201911044384 A CN201911044384 A CN 201911044384A CN 111027377 B CN111027377 B CN 111027377B
Authority
CN
China
Prior art keywords
video
action
frame
segment
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911044384.6A
Other languages
English (en)
Other versions
CN111027377A (zh
Inventor
李平
曹佳晨
胡海洋
徐向华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201911044384.6A priority Critical patent/CN111027377B/zh
Publication of CN111027377A publication Critical patent/CN111027377A/zh
Application granted granted Critical
Publication of CN111027377B publication Critical patent/CN111027377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种双流神经网络时序动作定位方法。本发明方法首先对视频采样处理后获得视频帧流图像序列和视频光流图像序列;其次,构建双流神经网络边界分割模型,以完整视频的帧流以及光流图像序列为输入,以视频动作的边界信息为输出;再次,构建稀疏采样动作识别模型,输入为视频片段的帧流以及光流图像序列的稀疏采样序列,输出为视频片段对各动作类别(含背景)的概率。通过稀疏采样可以大为减少视频片段的冗余特征提取;采用边界分割策略搜索候选片段,规避了不同尺度下视频片段被重复处理的问题,抑制了后续候选片段在动作识别阶段中的背景类干扰,提高了时序动作定位的准确率。

Description

一种双流神经网络时序动作定位方法
技术领域
本发明属于计算机技术领域,具体是视频分析中的时序动作定位技术领域,涉及一种基于边界分割和稀疏采样的双流神经网络进行时序动作定位的方法。
背景技术
随着智能设备的推广以及智慧城市的建设,各类摄像头已成为监控安防、自动驾驶、智慧医疗等领域不可或缺的硬件设备。面对每时每刻产生的海量视频,人工处理非常困难且效率低不能满足实际的应用需求,视频分析领域应运而生。该领域主要研究视频中的目标分割、目标追踪、目标识别、动作识别、语义分析、动作定位等颇具挑战的难题。
时序动作定位是指定位视频中目标动作出现的时间,而时空动作定位是指定位视频中的目标动作出现的时间以及实施动作的对象。时序动作定位任务一般分为两个阶段:搜索候选片段和识别候选片段动作;定位不仅要求标注动作发生的时间片段还需要识别动作的种类。例如,定位一名运动员短跑动作的视频即需要确定跑步片段的开始时间和结束时间,同时识别该片段的动作种类为跑步。相比图像分析领域,视频分析还需要考虑视频帧间的时序关系,涉及更为复杂的矩阵和张量计算;而传统视频分析算法主要采用人工特征如轨迹特征并用分类器如支持向量机进行动作识别,不能提供端到端的学习,使得其性能受限。
近年来,采用GPU提供高性能并行计算的硬件逐步涌现,促使以卷积神经网络(CNN:Convolutional Neural Network)为研究对象的深度学习领域飞速发展,为解决上述问题提供了有效途径。例如,双流卷积神经网络结合图像处理中的光流算法与卷积神经网络提取更优质的时序特征后,采用滑窗算法搜索候选动作片段和支持向量机识别片段动作;片段卷积神经网络(S-CNN:Segment-CNNs)以三维卷积神经网络(C3D)为骨干结构先以滑窗算法搜索候选动作片段,然后以神经网络分类器识别候选动作片段,完成时序动作定位任务;结构化片段网络对视频以单元为单位提取CNN特征,通过结构时间金字塔池化获得由多个单元特征组成的片段特征,最后由线性分类器进行片段动作分类。
然而,已有的时序动作定位方法的不足主要表现在以下方面:第一,在搜索候选片段阶段,早期选择的滑窗算法以及后来的结构时间金字塔池化法都会对视频进行不同尺度的重复扫描,极大地增加了计算开销;第二,在识别候选片段动作阶段,未充分考虑背景(不属于任何动作类)干扰导致识别结果不准确,许多方法对包含大量冗余信息的全部视频片段进行处理造成繁重的计算量;第三,很多方法定位的动作片段存在时序上的重叠,需要对其进行后处理(如非极大值抑制),这也说明其在搜索候选片段时已有冗余信息。由此迫切需要设计一种既能减少冗余计算开销又能提高时序动作定位性能的方法。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于边界分割和稀疏采样的双流神经网络时序动作定位方法,可以高效地搜索视频动作的候选片段,并准确判定视频动作类别。
本发明方法首先获取视频数据集,然后进行如下操作:
步骤(1).对视频采样处理,获得视频帧流图像序列和视频光流图像序列;
步骤(2).构建双流神经网络边界分割模型,完整视频的帧流以及光流图像序列作为输入,视频动作的边界信息作为输出;
步骤(3).构建稀疏采样动作识别模型,输入为视频片段的帧流以及光流图像序列的稀疏采样序列,输出为视频片段对各动作类别的概率;
步骤(4).对新视频根据边界分割模型确定候选片段并用稀疏采样动作识别模型判定候选片段动作类别,完成定位任务。
进一步,步骤(1)具体方法是:
(1-1).以每秒10~50帧的采样率将视频V处理为一个帧流图像序列
Figure GDA0003013390860000021
Figure GDA0003013390860000022
N表示帧流图像数目,fi表示序列中第i幅宽为w、高为h的RGB三通道图像;
(1-2).通过帧流图像生成对应的水平方向与竖直方向的光流图像序列
Figure GDA0003013390860000023
Figure GDA0003013390860000024
N表示光流图像数目,且与帧流图像的数目相同,ofi表示序列中第i幅宽为w、高为h包含竖直方向和水平方向的光流双通道图像,且根据下标i与帧流图像对应。
进一步,步骤(2)具体方法是:
(2-1).参与模型构建的视频包含动作片段标记信息,标记信息记为
Figure GDA0003013390860000025
Figure GDA0003013390860000026
其中M表示不含背景片段的视频V内动作片段数目,对于第j个动作片段,
Figure GDA0003013390860000027
表示该片段动作开始帧,
Figure GDA0003013390860000028
表示该片段动作结束帧,cj以数字表示该片段对应的动作种类,C表示视频的动作种类数目;
双流序列包括帧流图像序列
Figure GDA0003013390860000029
和光流图像序列
Figure GDA00030133908600000210
边界分割模型采用每隔8帧选16帧作为候选边界单元的策略;
(2-2).根据标记信息L获得所有动作片段的开始帧和结束帧信息,若候选边界单元内包含任意开始帧或结束帧,则定义其为边界单元并将该单元标记为正例,否则标记为负例;
(2-3).使用浅层神经网络结构作为双流神经网络边界分割模型的骨干结构,为双流序列提供两个并行神经网络结构A1与A2,采用Softmax层为输出层并利用交叉熵损失函数;具体操作是:
①假定Softmax层的输出概率为yb
Figure GDA0003013390860000031
其中
Figure GDA0003013390860000032
表示Softmax层的输入,e表示自然底数,y0表示为非边界单元的概率,y1表示为边界单元的概率;
②假定Softmax层的真实标记为
Figure GDA0003013390860000033
则交叉熵损失函数为
Figure GDA0003013390860000034
若该单元为边界单元则
Figure GDA0003013390860000035
否则
Figure GDA0003013390860000036
(2-4).将候选边界单元的帧流图像序列和光流图像序列分别输入双流神经网络边界分割模型中的A1与A2,各自通过Softmax输出层获取该候选单元属于边界单元的概率,然后利用(2-2)的正负例单元标记信息计算交叉熵损失;
(2-5).利用随机梯度下降算法优化训练双流神经网络边界分割模型,通过反向传播分别对双流神经网络边界分割模型内的A1和A2各层的参数并进行调整更新。
进一步,步骤(3)具体方法是:
(3-1).输入的视频片段是原始视频根据标记信息
Figure GDA0003013390860000037
中动作开始帧tstart和动作结束帧tend作为边界分割而成的2M+1个片段,其中有M个动作片段,有M+1个背景片段,第j个动作片段的类别标记为cj,背景片段则均标记为0;
(3-2).对于每一个视频片段S,其帧流图像序列为
Figure GDA0003013390860000038
光流图像序列为
Figure GDA0003013390860000039
其中P表示片段内的图像数目;
(3-3).将片段S平均分割为α个子片段后,对每个子片段进行稀疏采样,即随机选择子片段内的三个相差τ帧的帧流图像序列和对应的光流图像序列,每个片段共分别获得α组帧流图像序列和光流图像序列;
(3-4).使用深层神经网络结构作为稀疏采样视频动作识别模型的骨干结构,并为(3-2)中片段的双流采样序列提供两个并行神经网络结构A3与A4,均设置神经网络Softmax层和利用交叉熵损失函数;具体操作是:
a.假定Softmax层获得的视频动作类别k的输出概率为yk
Figure GDA0003013390860000041
其中C表示动作类别总数,
Figure GDA0003013390860000042
表示Softmax层的输入,e表示自然底数;
b.交叉熵损失函数的计算公式为
Figure GDA0003013390860000043
其中
Figure GDA0003013390860000044
表示视频动作类别k的真实概率,若片段属于类别k则为1,否则为0;
(3-5).将α组帧流图像序列和光流图像序列的采样分别输入(3-4)中的稀疏采样视频动作识别模型中的A3和A4,各自通过Softmax层获取概率,然后利用片段的动作种类标记信息计算交叉熵损失;
(3-6).利用随机梯度下降算法反向传播分别对稀疏采样视频动作识别模型内的A3和A4各层的参数进行调整更新。
进一步,步骤(4)具体方法是:
(4-1).以每秒10~50帧的采样率将新视频V'处理为一个帧流图像序列
Figure GDA0003013390860000045
通过帧流图像生成对应的水平方向与竖直方向的光流图像序列
Figure GDA0003013390860000046
(4-2).将帧流图像序列
Figure GDA0003013390860000047
和光流图像序列
Figure GDA0003013390860000048
输入双流神经网络边界分割模型,每隔8帧选16帧作为候选边界单元,将单元内的帧流图像序列和光流图像序列分别输入至分割模型内的A1与A2,分别得到二维向量输出:
Figure GDA0003013390860000049
Figure GDA00030133908600000410
单元对应结果BR=Average(BR1,BR2),Average(·,·)表示取多个向量对应元素的平均值,
Figure GDA00030133908600000411
表示单元属于边界单元与非边界单元的概率;
(4-3).将属于边界单元概率大于阈值θ的单元设为边界单元,得到M'个边界单元并在所有边界单元的二分之一处对视频V'进行分割,获得分割后的2M'+1个片段,并记录每个片段的开始帧
Figure GDA00030133908600000412
与结束帧
Figure GDA00030133908600000413
(4-4).将(4-3)得到的每个片段平均分割为α个子片段,再对每个子片段进行稀疏采样,得到α组帧流图像序列和光流图像序列;
(4-5).将稀疏采样得到的α组帧流图像序列和光流图像序列分别输入至稀疏采样视频动作识别模型内的A3和A4,对应输出α×(C+1)维矩阵:
Figure GDA00030133908600000414
Figure GDA00030133908600000415
其中C+1表示包含背景的动作类别数目,片段对应输出C+1维向量;
RR=Average(Mean(RR3),Mean(RR4));
其中Average(·,·)取多个向量对应元素的平均值,Mean(·)取二维矩阵每一列的平均值,RR表示片段属于各个动作类别的概率,对于每一个片段记录其RR中概率最大的类别作为其动作识别结果c';
(4-6).对于动作识别结果c',若一个片段识别结果为非背景类,则结合(4-3)记录的片段开始帧和结束帧,将其加入最终结果Result中;
(4-7).对于新视频V',最终的时序动作定位结果表示为
Figure GDA0003013390860000051
其中
Figure GDA0003013390860000052
表示定位得到的动作片段总数,对于第j个片段,
Figure GDA0003013390860000053
表示该片段在视频中的开始帧,
Figure GDA0003013390860000054
表示该片段在视频中的结束帧,
Figure GDA0003013390860000055
表示该片段的动作识别结果。
本发明方法首先对视频采样处理后获得视频帧流图像序列和视频光流图像序列;其次,构建双流神经网络边界分割模型,以完整视频的帧流以及光流图像序列为输入,以视频动作的边界信息为输出;再次,构建稀疏采样动作识别模型,输入为视频片段的帧流以及光流图像序列的稀疏采样序列,输出为视频片段对各动作类别(含背景)的概率。采用边界分割策略搜索候选片段,从根本上规避不同尺度下视频片段被重复处理的问题,同时能够抑制后续候选片段在动作识别阶段中的背景类干扰;通过稀疏采样,网络模型仅需几幅双流图像即可获取片段类别信息,减少冗余特征的提取。
本发明方法充分考虑了视频数据具有时空一致性的特点,结合光流发生成光流图像为视频动作定位模型提供更多的时空运动信息,从边界分割策略和稀疏采样的角度为时序动作定位任务提供新的解决方案,提高了时序动作定位的准确率,可广泛应用于视频摘要、事件检测与捕捉、安防监控、自动驾驶等实际的应用场景。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
一种基于边界分割和稀疏采样的双流神经网络时序动作定位方法,重点考虑视频的时空一致性特点,利用反映动作变化的光流图像作为网络模型的输入数据流,以提供更能反映动作有关物体和场景的时空运动信息。主要思想是采用边界分割策略搜索候选片段以规避不同尺度下视频片段被重复处理的问题,同时能够抑制后续候选片段在动作识别阶段中的背景类干扰;利用稀疏采样策略,网络模型仅需几幅双流图像即可获取片段的类别信息,可以减少冗余特征的提取。通过这种方式,可以有效地进行时序动作定位。
如图1,该方法首先获取视频数据集,然后进行如下操作:
步骤(1).对视频采样处理,获得视频帧流图像序列和视频光流图像序列。具体方法是:
(1-1).以每秒10~50帧的采样率(本实施例采用每秒25帧)将视频V处理为一个帧流图像序列
Figure GDA0003013390860000061
其中N表示帧流图像数目,fi表示序列中第i幅宽为w、高为h的RGB三通道图像;
(1-2).通过帧流图像生成对应的水平方向与竖直方向的光流图像序列
Figure GDA0003013390860000062
Figure GDA0003013390860000063
其中N表示光流图像数目,且与帧流图像的数目相同,ofi表示序列中第i幅宽为w、高为h包含竖直方向和水平方向的光流双通道图像,且根据下标i与帧流图像对应;光流图像用于描述相对于观察者运动所造成的观测目标、表面或边缘的变化。
光流图像的生成选用常见的光流法,本实施例采用卢卡斯-卡纳德方法计算光流。
步骤(2).构建双流神经网络边界分割模型,完整视频的帧流以及光流图像序列作为输入,视频动作的边界信息作为输出。具体方法是:
(2-1).参与模型构建的视频包含动作片段标记信息,标记信息记为
Figure GDA0003013390860000064
Figure GDA0003013390860000065
其中M表示不含背景片段的视频V内动作片段数目,对于第j个动作片段,
Figure GDA0003013390860000066
表示该片段动作开始帧,
Figure GDA0003013390860000067
表示该片段动作结束帧,cj以数字表示该片段对应的动作种类,C表示视频的动作种类数目;
双流序列包括帧流图像序列
Figure GDA0003013390860000068
和光流图像序列
Figure GDA0003013390860000069
边界分割模型采用每隔8帧选16帧作为候选边界单元的策略;
(2-2).根据标记信息L获得所有动作片段的开始帧和结束帧信息,若候选边界单元内包含任意开始帧或结束帧,则定义其为边界单元并将该单元标记为正例,否则标记为负例;一般来说边界单元数目较少,可以通过数据增强方法(如随机裁剪等)增加边界单元数目;
(2-3).使用考虑了时序信息的较浅层神经网络结构(如三维卷积神经网络C3D)作为双流神经网络边界分割模型的骨干结构,为双流序列提供两个并行神经网络结构A1与A2,采用Softmax层为输出层并利用交叉熵损失函数;
采用神经网络Softmax层和利用交叉熵损失函数操作具体是:
①假定Softmax层的输出概率为yb
Figure GDA0003013390860000071
其中
Figure GDA0003013390860000072
表示Softmax层的输入,e表示自然底数,y0表示为非边界单元的概率,y1表示为边界单元的概率;
②假定Softmax层的真实标记为
Figure GDA0003013390860000073
则交叉熵损失函数为
Figure GDA0003013390860000074
若该单元为边界单元则
Figure GDA0003013390860000075
否则
Figure GDA0003013390860000076
(2-4).将候选边界单元的帧流图像序列和光流图像序列分别输入双流神经网络边界分割模型中的A1与A2,各自通过Softmax输出层获取该候选单元属于边界单元的概率,然后利用(2-2)的正负例单元标记信息计算交叉熵损失;
(2-5).利用随机梯度下降算法优化训练双流神经网络边界分割模型,通过反向传播分别对双流神经网络边界分割模型内的A1和A2各层的参数并进行调整更新。
步骤(3).构建稀疏采样动作识别模型,输入为视频片段的帧流以及光流图像序列的稀疏采样序列,输出为视频片段对各动作类别(含背景)的概率。具体方法是:
(3-1).输入的视频片段是原始视频根据标记信息
Figure GDA0003013390860000077
中动作开始帧tstart和动作结束帧tend作为边界分割而成的2M+1个片段,其中有M个动作片段,有M+1个背景片段,第j个动作片段的类别标记为cj,背景片段则均标记为0;
(3-2).对于每一个视频片段S,其帧流图像序列为
Figure GDA0003013390860000078
光流图像序列为
Figure GDA0003013390860000079
其中P表示片段内的图像数目;
(3-3).将片段S平均分割为α(取3)个子片段后,对每个子片段进行稀疏采样,即随机选择子片段内的三个相差τ帧(取1)的帧流图像序列和对应的光流图像序列,每个片段共分别获得α组(每组三帧)帧流图像序列和光流图像序列;
(3-4).使用考虑了时序信息的较深层神经网络结构(如膨胀三维卷积神经网络I3D:Inflated 3-Dimensional Convolution Neural Networks)作为稀疏采样视频动作识别模型的骨干结构,并为(3-2)中片段的双流采样序列提供两个并行神经网络结构A3与A4,均设置神经网络Softmax层和利用交叉熵损失函数;
设置神经网络Softmax层和利用交叉熵损失函数操作具体是:
①假定Softmax层获得的视频动作类别k的输出概率为yk
Figure GDA00030133908600000710
其中C表示动作类别总数(背景类别表示为0),
Figure GDA0003013390860000081
表示Softmax层的输入,e表示自然底数;
②交叉熵损失函数的计算公式为
Figure GDA0003013390860000082
其中
Figure GDA0003013390860000083
表示视频动作类别k的真实概率,若片段属于类别k则为1,否则为0。
(3-5).将α组帧流图像序列和光流图像序列的采样分别输入(3-4)中的稀疏采样视频动作识别模型中的A3和A4,各自通过Softmax层获取概率,然后利用片段的动作种类标记信息计算交叉熵损失;
(3-6).利用随机梯度下降算法反向传播分别对稀疏采样视频动作识别模型内的A3和A4各层的参数进行调整更新。
步骤(4).对新视频根据边界分割模型确定候选片段并用稀疏采样动作识别模型判定候选片段动作类别,完成定位任务。具体方法是:
(4-1).对于新视频V'通过(1-1)方法获得其帧流图像序列
Figure GDA0003013390860000084
和光流图像序列
Figure GDA0003013390860000085
(4-2).将帧流图像序列
Figure GDA0003013390860000086
和光流图像序列
Figure GDA0003013390860000087
输入双流神经网络边界分割模型,每隔8帧选16帧作为候选边界单元,将单元内的帧流图像序列和光流图像序列分别输入至分割模型内的A1与A2,分别得到二维向量输出:
Figure GDA0003013390860000088
Figure GDA0003013390860000089
单元对应结果BR=Average(BR1,BR2),Average(·,·)表示取多个向量对应元素的平均值,
Figure GDA00030133908600000810
表示单元属于边界单元与非边界单元的概率;
(4-3).将属于边界单元概率大于阈值θ(取0.7)的单元设为边界单元(若多个连续单元均满足条件,则选择概率最大的单元设为边界单元),这样得到M'个边界单元并在所有边界单元的二分之一处对视频V'进行分割,获得分割后的2M'+1个片段,并记录每个片段的开始帧
Figure GDA00030133908600000811
与结束帧
Figure GDA00030133908600000812
(4-4).将(4-3)得到的每个片段通过(3-2)将片段平均分割为α(取3)个子片段,再对每个子片段进行稀疏采样,得到α组帧流图像序列和光流图像序列;
(4-5).将稀疏采样得到的α组帧流图像序列和光流图像序列分别输入至稀疏采样视频动作识别模型内的A3和A4,对应输出α×(C+1)维矩阵:
Figure GDA00030133908600000813
Figure GDA00030133908600000814
其中C+1表示包含背景的动作类别数目,片段对应输出C+1维向量:
RR=Average(Mean(RR3),Mean(RR4));
其中Average(·,·)取多个向量对应元素的平均值,Mean(·)取二维矩阵每一列的平均值,RR表示片段属于各个动作类别(含背景)的概率,对于每一个片段记录其RR中概率最大的类别作为其动作识别结果c';
(4-6).对于动作识别结果c',若一个片段识别结果为非背景类,则结合(4-3)记录的片段开始帧和结束帧,将其加入最终结果Result中;
(4-7).对于新视频V',最终的时序动作定位结果表示为
Figure GDA0003013390860000091
其中
Figure GDA0003013390860000092
表示定位得到的动作片段总数,对于第j个片段,
Figure GDA0003013390860000093
表示该片段在视频中的开始帧,
Figure GDA0003013390860000094
表示该片段在视频中的结束帧,
Figure GDA0003013390860000095
表示该片段的动作识别结果。
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (1)

1.一种双流神经网络时序动作定位方法,其特征在于,该方法首先获取视频数据集,然后进行如下操作:
步骤(1).对视频采样处理,获得视频帧流图像序列和视频光流图像序列;具体方法是:
(1-1).以每秒10~50帧的采样率将视频V处理为一个帧流图像序列
Figure FDA0003013390850000011
Figure FDA0003013390850000012
N表示帧流图像数目,fi表示序列中第i幅宽为w、高为h的RGB三通道图像;
(1-2).通过帧流图像生成对应的水平方向与竖直方向的光流图像序列
Figure FDA0003013390850000013
Figure FDA0003013390850000014
N表示光流图像数目,且与帧流图像的数目相同,ofi表示序列中第i幅宽为w、高为h包含竖直方向和水平方向的光流双通道图像,且根据下标i与帧流图像对应;
步骤(2).构建双流神经网络边界分割模型,完整视频的帧流以及光流图像序列作为输入,视频动作的边界信息作为输出;具体方法是:
(2-1).参与模型构建的视频包含动作片段标记信息,标记信息记为
Figure FDA0003013390850000015
Figure FDA0003013390850000016
其中M表示不含背景片段的视频V内动作片段数目,对于第j个动作片段,
Figure FDA0003013390850000017
表示该片段动作开始帧,
Figure FDA0003013390850000018
表示该片段动作结束帧,cj以数字表示该片段对应的动作种类,C表示视频的动作种类数目;
双流序列包括帧流图像序列
Figure FDA0003013390850000019
和光流图像序列
Figure FDA00030133908500000110
边界分割模型采用每隔8帧选16帧作为候选边界单元的策略;
(2-2).根据标记信息L获得所有动作片段的开始帧和结束帧信息,若候选边界单元内包含任意开始帧或结束帧,则定义其为边界单元并将该单元标记为正例,否则标记为负例;
(2-3).使用浅层神经网络结构作为双流神经网络边界分割模型的骨干结构,为双流序列提供两个并行神经网络结构A1与A2,采用Softmax层为输出层并利用交叉熵损失函数;具体操作是:
①假定Softmax层的输出概率为yb
Figure FDA00030133908500000111
其中
Figure FDA00030133908500000112
表示Softmax层的输入,e表示自然底数,y0表示为非边界单元的概率,y1表示为边界单元的概率;
②假定Softmax层的真实标记为
Figure FDA0003013390850000021
则交叉熵损失函数为
Figure FDA0003013390850000022
若该单元为边界单元则
Figure FDA0003013390850000023
否则
Figure FDA0003013390850000024
(2-4).将候选边界单元的帧流图像序列和光流图像序列分别输入双流神经网络边界分割模型中的A1与A2,各自通过Softmax输出层获取该候选单元属于边界单元的概率,然后利用(2-2)的正负例单元标记信息计算交叉熵损失;
(2-5).利用随机梯度下降算法优化训练双流神经网络边界分割模型,通过反向传播分别对双流神经网络边界分割模型内的A1和A2各层的参数并进行调整更新;
步骤(3).构建稀疏采样动作识别模型,输入为视频片段的帧流以及光流图像序列的稀疏采样序列,输出为视频片段对各动作类别的概率;具体方法是:
(3-1).输入的视频片段是原始视频根据标记信息
Figure FDA0003013390850000025
中动作开始帧tstart和动作结束帧tend作为边界分割而成的2M+1个片段,其中有M个动作片段,有M+1个背景片段,第j个动作片段的类别标记为cj,背景片段则均标记为0;
(3-2).对于每一个视频片段S,其帧流图像序列为
Figure FDA0003013390850000026
光流图像序列为
Figure FDA0003013390850000027
其中P表示片段内的图像数目;
(3-3).将片段S平均分割为α个子片段后,对每个子片段进行稀疏采样,即随机选择子片段内的三个相差τ帧的帧流图像序列和对应的光流图像序列,每个片段共分别获得α组帧流图像序列和光流图像序列;
(3-4).使用深层神经网络结构作为稀疏采样视频动作识别模型的骨干结构,并为(3-2)中片段的双流采样序列提供两个并行神经网络结构A3与A4,均设置神经网络Softmax层和利用交叉熵损失函数;具体操作是:
a.假定Softmax层获得的视频动作类别k的输出概率为yk
Figure FDA0003013390850000028
其中C表示动作类别总数,
Figure FDA0003013390850000029
表示Softmax层的输入,e表示自然底数;
b.交叉熵损失函数的计算公式为
Figure FDA00030133908500000210
其中
Figure FDA00030133908500000211
表示视频动作类别k的真实概率,若片段属于类别k则为1,否则为0;
(3-5).将α组帧流图像序列和光流图像序列的采样分别输入(3-4)中的稀疏采样视频动作识别模型中的A3和A4,各自通过Softmax层获取概率,然后利用片段的动作种类标记信息计算交叉熵损失;
(3-6).利用随机梯度下降算法反向传播分别对稀疏采样视频动作识别模型内的A3和A4各层的参数进行调整更新;
步骤(4).对新视频根据边界分割模型确定候选片段并用稀疏采样动作识别模型判定候选片段动作类别,完成定位任务;具体方法是:
(4-1).以每秒10~50帧的采样率将新视频V'处理为一个帧流图像序列
Figure FDA0003013390850000031
通过帧流图像生成对应的水平方向与竖直方向的光流图像序列
Figure FDA0003013390850000032
(4-2).将帧流图像序列
Figure FDA0003013390850000033
和光流图像序列
Figure FDA0003013390850000034
输入双流神经网络边界分割模型,每隔8帧选16帧作为候选边界单元,将单元内的帧流图像序列和光流图像序列分别输入至分割模型内的A1与A2,分别得到二维向量输出:
Figure FDA0003013390850000035
Figure FDA0003013390850000036
单元对应结果BR=Average(BR1,BR2),Average(·,·)表示取多个向量对应元素的平均值,
Figure FDA0003013390850000037
表示单元属于边界单元与非边界单元的概率;
(4-3).将属于边界单元概率大于阈值θ的单元设为边界单元,得到M'个边界单元并在所有边界单元的二分之一处对视频V'进行分割,获得分割后的2M'+1个片段,并记录每个片段的开始帧
Figure FDA0003013390850000038
与结束帧
Figure FDA0003013390850000039
(4-4).将(4-3)得到的每个片段平均分割为α个子片段,再对每个子片段进行稀疏采样,得到α组帧流图像序列和光流图像序列;
(4-5).将稀疏采样得到的α组帧流图像序列和光流图像序列分别输入至稀疏采样视频动作识别模型内的A3和A4,对应输出α×(C+1)维矩阵:
Figure FDA00030133908500000310
Figure FDA00030133908500000311
其中C+1表示包含背景的动作类别数目,片段对应输出C+1维向量;
RR=Average(Mean(RR3),Mean(RR4));
其中Average(·,·)取多个向量对应元素的平均值,Mean(·)取二维矩阵每一列的平均值,RR表示片段属于各个动作类别的概率,对于每一个片段记录其RR中概率最大的类别作为其动作识别结果c';
(4-6).对于动作识别结果c',若一个片段识别结果为非背景类,则结合(4-3)记录的片段开始帧和结束帧,将其加入最终结果Result中;
(4-7).对于新视频V',最终的时序动作定位结果表示为
Figure FDA00030133908500000312
其中
Figure FDA00030133908500000313
表示定位得到的动作片段总数,对于第j个片段,
Figure FDA0003013390850000041
表示该片段在视频中的开始帧,
Figure FDA0003013390850000042
表示该片段在视频中的结束帧,
Figure FDA0003013390850000043
表示该片段的动作识别结果。
CN201911044384.6A 2019-10-30 2019-10-30 一种双流神经网络时序动作定位方法 Active CN111027377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911044384.6A CN111027377B (zh) 2019-10-30 2019-10-30 一种双流神经网络时序动作定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911044384.6A CN111027377B (zh) 2019-10-30 2019-10-30 一种双流神经网络时序动作定位方法

Publications (2)

Publication Number Publication Date
CN111027377A CN111027377A (zh) 2020-04-17
CN111027377B true CN111027377B (zh) 2021-06-04

Family

ID=70200729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911044384.6A Active CN111027377B (zh) 2019-10-30 2019-10-30 一种双流神经网络时序动作定位方法

Country Status (1)

Country Link
CN (1) CN111027377B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950393B (zh) * 2020-07-24 2021-05-04 杭州电子科技大学 一种基于边界搜索智能体的时序动作片段分割方法
CN112149575B (zh) * 2020-09-24 2024-05-24 新华智云科技有限公司 从视频中自动筛选具有汽车部位片段的方法
CN112257526B (zh) * 2020-10-10 2023-06-20 中国科学院深圳先进技术研究院 一种基于特征交互学习的动作识别方法及终端设备
CN112668438A (zh) * 2020-12-23 2021-04-16 深圳壹账通智能科技有限公司 红外视频时序行为定位方法、装置、设备及存储介质
CN112883817B (zh) * 2021-01-26 2024-09-06 咪咕文化科技有限公司 动作定位方法、装置、电子设备和存储介质
CN113408343B (zh) * 2021-05-12 2022-05-13 杭州电子科技大学 基于双尺度时空分块互注意力的课堂动作识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469314A (zh) * 2016-08-31 2017-03-01 深圳市唯特视科技有限公司 一种基于时空共生双流网络的视频图像分类方法
CN108664931A (zh) * 2018-05-11 2018-10-16 中国科学技术大学 一种多阶段视频动作检测方法
CN108764128A (zh) * 2018-05-25 2018-11-06 华中科技大学 一种基于稀疏时间分段网络的视频动作识别方法
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法
CN109993077A (zh) * 2019-03-18 2019-07-09 南京信息工程大学 一种基于双流网络的行为识别方法
CN110222574A (zh) * 2019-05-07 2019-09-10 杭州智尚云科信息技术有限公司 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10673901B2 (en) * 2017-12-27 2020-06-02 Cisco Technology, Inc. Cryptographic security audit using network service zone locking
CN110147876B (zh) * 2019-05-09 2023-01-03 中山大学 基于视觉特征相似度的神经网络及其动作提案生成方法
CN110110686A (zh) * 2019-05-14 2019-08-09 中国石油大学(华东) 基于多损失双流卷积神经网络的人体动作识别方法
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
CN110175596B (zh) * 2019-06-04 2022-04-22 重庆邮电大学 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469314A (zh) * 2016-08-31 2017-03-01 深圳市唯特视科技有限公司 一种基于时空共生双流网络的视频图像分类方法
CN108664931A (zh) * 2018-05-11 2018-10-16 中国科学技术大学 一种多阶段视频动作检测方法
CN108764128A (zh) * 2018-05-25 2018-11-06 华中科技大学 一种基于稀疏时间分段网络的视频动作识别方法
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法
CN109993077A (zh) * 2019-03-18 2019-07-09 南京信息工程大学 一种基于双流网络的行为识别方法
CN110222574A (zh) * 2019-05-07 2019-09-10 杭州智尚云科信息技术有限公司 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Cascaded Boundary Regression for Temporal Action Detection;Jiyang Gao 等;《arXiv》;20170504;第1-11页 *
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition;Limin Wang 等;《arXiv》;20160803;第1-16页 *
Two-Stream Action Recognition-Oriented Video Super-Resolution;Haochen Zhang 等;《arXiv》;20190819;第1-10页 *
基于双流卷积神经网络的改进人体行为识别算法;张怡佳 等;《计算机测量与控制》;20181231;第26卷(第8期);第266-269,274页 *
基于双流融合卷积神经网络的人体行为识别研究;薛路强;《万方数据库》;20180920;第1-79页 *

Also Published As

Publication number Publication date
CN111027377A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN111027377B (zh) 一种双流神经网络时序动作定位方法
Liu et al. Leveraging unlabeled data for crowd counting by learning to rank
CN108492319B (zh) 基于深度全卷积神经网络的运动目标检测方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN109344736B (zh) 一种基于联合学习的静态图像人群计数方法
CN108520226B (zh) 一种基于躯体分解和显著性检测的行人重识别方法
CN105139004B (zh) 基于视频序列的人脸表情识别方法
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
CN110414368A (zh) 一种基于知识蒸馏的无监督行人重识别方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
US20210326638A1 (en) Video panoptic segmentation
CN110097115B (zh) 一种基于注意力转移机制的视频显著性物体检测方法
CN112016682B (zh) 视频表征学习、预训练方法及装置、电子设备、存储介质
CN110414367B (zh) 一种基于gan和ssn的时序行为检测方法
CN109034035A (zh) 基于显著性检测和特征融合的行人重识别方法
CN112836675B (zh) 一种基于聚类生成伪标签的无监督行人重识别方法及系统
CN112633382A (zh) 一种基于互近邻的少样本图像分类方法及系统
CN112052772A (zh) 一种人脸遮挡检测算法
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN112861605A (zh) 基于时空混合特征的多人步态识别方法
CN113221770A (zh) 基于多特征混合学习的跨域行人重识别方法及系统
CN115527269B (zh) 一种人体姿态图像智能识别方法及系统
CN109002808B (zh) 一种人体行为识别方法及系统
CN106529441A (zh) 基于模糊边界分片的深度动作图人体行为识别方法
Pillai et al. Fine-Tuned EfficientNetB4 Transfer Learning Model for Weather Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant