Nothing Special   »   [go: up one dir, main page]

CN113822172B - 一种视频时空行为检测方法 - Google Patents

一种视频时空行为检测方法 Download PDF

Info

Publication number
CN113822172B
CN113822172B CN202111017499.3A CN202111017499A CN113822172B CN 113822172 B CN113822172 B CN 113822172B CN 202111017499 A CN202111017499 A CN 202111017499A CN 113822172 B CN113822172 B CN 113822172B
Authority
CN
China
Prior art keywords
target object
behavior
feature
current
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111017499.3A
Other languages
English (en)
Other versions
CN113822172A (zh
Inventor
王俊翰
陈南希
李嘉茂
张晓林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Microsystem and Information Technology of CAS
Original Assignee
Shanghai Institute of Microsystem and Information Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Microsystem and Information Technology of CAS filed Critical Shanghai Institute of Microsystem and Information Technology of CAS
Priority to CN202111017499.3A priority Critical patent/CN113822172B/zh
Publication of CN113822172A publication Critical patent/CN113822172A/zh
Application granted granted Critical
Publication of CN113822172B publication Critical patent/CN113822172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种视频时空行为检测方法,包括:截取视频图像;检测视频片段中间帧中的所有可能的目标对象及其边框信息,以及提取视频上下文特征和目标对象特征;获取目标对象特征对于上下文特征的依赖,根据依赖更新目标对象特征;根据目标对象特征的最终结果值生成多个行为特征形成的集合;获取各行为特征间的依赖,根据依赖更新行为特征集合;利用行为特征的更新值预测每个目标对象的各行为概率。本发明的视频时空行为检测方法通过获取上下文依赖来更新更新目标对象特征,并且利用行为特征之间的依赖更新行为特征集合,可以提高视频行为检测的准确率。

Description

一种视频时空行为检测方法
技术领域
本申请属于计算机视觉领域,具体涉及一种视频时空行为检测方法。
背景技术
视频作为目前主流的信息载体之一,其中包含的丰富信息需要依靠计算机视觉的一系列视频理解算法提取出来。理解其视频中的内容并转化为语义信息有助于提高视频流中场景的监控,视频片断高效地存储与检索,以及视频的大数据分析。
在高级别视频理解研究中,视频时空行为检测是一项具有挑战的任务。该任务要求对视频中的目标对象进行实时定位并识别其当前时刻的行为。区别于目标检测单纯地依靠观察目标对象的外表进行检测,行为识别需要理解目标对象一段时间内形体的变化以及对周围环境地交互。
在论文【Feichtenhofer C,Fan H,Malik J,等,SlowFast Networks for VideoRecognition[C],2019IEEE/CVF International Conference on Computer Vision(ICCV).IEEE,2019】中提出了一种新的视频图像特征提取骨干网络SlowFast,相较于之前的骨干网络,例如I3D,C3D等,在视频行为检测任务上有着很高性能提升。但是该模型只单纯地提取了目标对象的视觉特征。在推断目标物体行为时,其所处环境是重要依据之一。SlowFast在提取目标物体特征与进行行为预测的过程中并未对物体与环境的交互进行建模。这导致该模型在视频行为检测任务上的精准率还有着很大的提升空间。
在论文【Tang J,Xia J,Mu X,等,Asynchronous Interaction Aggregation forAction Detection[M].2020】中,作者提出的AIA模型使用slowfast作为骨干网络提取视频图像特征,并且针对目标对象与目标对象之间的交互,目标对像与周围物体间的交互,以及目标对像与空间位置的交互分别进行建模。利用这种交互信息,AIA模型进一步提升了在视频行为检测任务上的精准率。但该模型在目标对象行为预测阶段仅仅使用单一的一个目标对象特征输出该目标对象的多种行为概率。该方法未能学习到目标对象上多种行为同时发生的特征以及行为与行为之间的关系。
发明内容
本发明的目的在于提供一种视频时空行为检测方法,以针对同时发生的行为更好地建模,解决提高目前技术检测精度不高的问题。
为了实现本发明的目的和其他优点,本发明提供一种视频时空行为检测方法,包括:
S1:将整个原始视频截取为多个相等时长的视频片段,再从每个视频片段中抽取一固定的帧数的静态图像;
S2:对每个视频片段均进行目标检测与特征提取;
所述步骤S2包括:
S21:使用目标检测器对各个视频片段的中间帧的图像进行检测,分别检测出单个视频片段中所有可能的目标对象,并获得每个目标对象对应的边框信息;
S22:使用视频图像特征提取骨干网络来提取每个视频片段各自的上下文特征Fc
S23:根据每个目标对象对应的边框信息在上下文特征Fc中截取出各个当前的目标对象特征foi,得到当前的目标对象特征所形成的集合Fo
S3:将当前的目标对象特征foi输入上下文依赖模块,以获取每一个当前的目标对象特征对于上下文特征Fc的依赖,再根据所述依赖更新对应的当前的目标对象特征foi
S4:根据每个目标对象特征的最终结果值f″oi分别生成数量是行为类别的总数量的行为特征,得到当前的行为特征集合Fai
S5:将对应于各个目标对象的当前的行为特征集合Fai均输入行为依赖模块,获取所有各行为特征间的依赖,并根据该依赖更新各当前的行为特征集合Fai
S6:利用对应于某一个目标对象的行为特征集合的最终结果值Fai″中的每个行为特征进行多行为类别的预测,所预测的结果则为该目标对象在这一视频片段中的行为类别。
在所述步骤S1中,视频片段的时长为1至4秒。
在所述步骤S21中,所有可能的目标对象的集合O为:
O=o1,o2,o3,...,oz
式中,z为单个视频片段中目标对象的总数,oz为第z个目标对象;
每个目标对象对应的边框信息的集合B为:
B={b1,b2,b3,...,bz},
式中,z为单个视频片段中目标对象的总数,bz为第z个边框信息。
在所述步骤S21中,所述目标检测器为基于卷积神经网络的目标检测模型;在所述步骤S22中,所述视频图像特征提取骨干网络采用基于3D卷积神经网络的视频图像特征提取的骨干网络。
在步骤S23中,当前的目标对象特征所形成的集合Fo为:
Fo={fo1,fo2,fo3,...,foi,...,foz},Fo∈Rz×H’×W’
其中,Fo为当前的目标对象特征所形成的集合;foi为当前的目标对象特征,其中,i为目标对象的序数,i=1~z;z为单个视频片段中目标对象的总数;H’为目标对象特征的高;W’为目标对象特征的宽。
在所述步骤S3中,所述上下文依赖模块为单层或多层的自注意力机制操作,自注意力机制操作采用基于计算Query值到Key/Value映射的注意力模型。
在所述步骤S3中,所述上下文依赖模块为多层的自注意力机制操作,所述步骤S3包括:
步骤S30:将上下文依赖模块的第一层自注意力机制操作作为当前层的自注意力机制操作;
S31:利用上下文依赖模块的当前层的自注意力机制操作,将当前的目标对象特征所形成的集合Fo作为自注意力机制操作的Query,上下文特征Fc作为自注意力机制操作的Key/Value输入,获取每一个当前的目标对象特征foi对于上下文特征Fc的依赖,i为目标对象的序数,i=1~z;根据所述依赖更新对应的当前的目标对象特征,得到目标对象特征的更新值f′oi
S32:利用上下文依赖模块的下一层自注意力机制操作将当前层的自注意力机制操作输出的目标对象特征的更新值f′oi作为当前的目标对象特征foi来形成当前的目标对象特征所形成的集合Fo
S33:不断重复上述步骤S31和步骤S32,直到上下文依赖模块的最后一层自注意力机制操作输出目标对象特征的最终结果值f″oi
所述步骤S4包括:对独立不相干的k个输出尺寸为T的第一全连接网络中的每一个,均输入一次所有的目标对象特征的最终结果值f″oi,使得对应于每一个目标对象,均能通过k个第一全连接网络输出对应于该目标对象的k个行为特征所组成的当前的行为特征集合Fai=fai1,fai2,fai3,...,faik,其中,k为行为类别的总数量,i为目标对象的序数,i=1~z;faik为行为特征集合中的某一个行为特征,行为特征集合Fai∈Rk×T;T为每个行为特征的长度。
在所述步骤S5中,所述行为依赖模块采用多层自注意力机制操作,自注意力机制操作采用基于计算Query值到Key/Value映射的注意力模型;
所述步骤S5包括:
S50:将行为依赖模块的第一层自注意力机制操作作为当前层的自注意力机制操作;
S51:将当前的行为特征集合Fai同时作为Query,Key,Value来输入行为依赖模块的当前层的自注意力机制操作,获取当前的行为特征集合Fai之间的依赖;根据所述行为特征集合Fai之间的依赖更新对应的当前的行为特征集合Fai,得到行为特征集合的更新值Fai′;
S52:利用行为依赖模块的下一层自注意力机制操作将当前层的自注意力机制操作输出的行为特征集合的更新值Fai′作为当前的行为特征集合Fai
S53:不断重复上述步骤S51和步骤S52,直到行为依赖模块的最后一层自注意力机制操作输出行为特征集合的更新值Fai′,此时得到的行为特征集合的更新值Fai′为行为特征集合的最终结果值Fai″。
所述步骤S6包括:将行为特征集合的最终结果值Fai″中的每个行为特征分别输入k个输出尺寸为1的第二全连接网络,输出k个数值;随后将这k个数值输入sigmoid激活函数,从而获得各个目标对象的各行为类别的概率;
且在所述步骤S6中,在模型训练阶段,使用二元交叉熵损失函数作为损失函数并进行反向传播训练。
本发明的视频时空行为检测方法通过获取上下文依赖并利用其更新目标对象特征,对人与环境交互的信息进行了建模,从而利用视频中目标对象的行为对周围环境的交互来提高时空行为检测的准确率;同时,本发明通过获取行为特征之间的依赖并利用其更新行为特征集合,从而能够更有效地学习到目标物体同时进行多种行为的特征,从而提高了时空行为检测的准确率。
附图说明
图1为按照本发明的一实施例的一种视频时空行为检测方法的流程示意图。
图2为本发明的视频时空行为检测方法所采用的上下文依赖模块的结构示意图。
图3为本发明的视频时空行为检测方法所采用的第一全连接网络的结构示意图。
图4为本发明的视频时空行为检测方法所采用的行为依赖模块的结构示意图。
图5为本发明的视频时空行为检测方法的输出的结果示意图。
具体实施方式
下面结合附图,给出本发明的一个实施例,对本发明的方案做进一步详细的解释和说明。
如图1所示,本发明的时空行为检测方法主要包括如下步骤:
步骤S1:截取视频图像,即,将整个原始视频截取为多个相等时长的视频片段,再从每个视频片段中抽取一固定的帧数的静态图像。
其中,视频片段的时长可为1至4秒。
固定的帧数的静态图像通过从各个视频片段中按原始视频的帧率抽取静态图像并按时间顺序排好来抽取得到。例如,输入的原始视频的帧率为32帧/秒,且每个视频片段的时长为1秒,那该视频片段抽取到的静态图像的数量就为32张。每1秒抽取的帧数取决于原始视频的帧率。
步骤S2:对每个视频片段均进行目标检测与特征提取;
所述步骤S2包括:
步骤S21:使用目标检测器对各个视频片段的中间帧的图像进行检测,分别检测出单个视频片段中所有可能的目标对象,并获得每个目标对象对应的边框信息;
中间帧为每个视频片段的正中间的画面帧。中间帧的总数等于截取得到的视频片段的总数,也即每个视频片段只有一个中间帧,以此来提升本发明的速度。如果说视频片段的总帧数为偶数,一般用总帧数的中间数向上取整。
在步骤S21中,选取中间帧的图像来检测目标对象的原因是在一个视频片段中,目标对象在中间帧的位置比较能表示目标对象在整个片段中的平均位置。由此,在后续的步骤中使用该目标对象在中间帧的位置将目标对象从片段的所有画面帧的特征图上截取下来。如果选择第一帧或者最后一帧,且目标对象在视频片段中快速移动,在后续截取目标对象时位置偏差会比较大。
其中,所有可能的目标对象的集合O为:
O=o1,o2,o3,...,oz
式中,z为单个视频片段中目标对象的总数,oz为第z个目标对象(即最后一个目标对象)。
相应地,每个目标对象对应的边框信息的集合B为:
B={b1,b2,b3,...,bz},
式中,z为单个视频片段中目标对象的总数,bz为第z个边框信息(即最后一个边框信息)。
每个边框信息bz均包含边框的左上角横轴坐标x,左上角竖轴坐标y,宽度w,高度h。
所述目标检测器可以使用任一基于卷积神经网络(CNN)的高精度目标检测模型,例如Faster RCNN,YOLO,SSD等。
步骤S22:使用视频图像特征提取骨干网络来提取每个视频片段各自的上下文特征Fc
每个视频片段只对应一个上下文特征。上下文特征为整个视频片段的特征图,是视频片段的高维视觉信息,也即一个矩阵。
其中,上下文特征Fc满足:
Fc∈RC×H×W,C为上下文特征的通道数,H为上下文特征的高,W为上下文特征的宽。
所述视频图像特征提取骨干网络可以使用任一基于3D卷积神经网络(CNN)的视频图像特征提取的骨干网络,例如SlowFast,I3D,C3D等。
步骤S23:根据每个目标对象对应的边框信息在上下文特征Fc中截取出各个当前的目标对象特征foi,得到当前的目标对象特征所形成的集合Fo
当前的目标对象特征所形成的集合Fo为:
Fo={fo1,fo2,fo3,...,foi,...,foz},Fo∈Rz×H’×W’
其中,Fo为当前的目标对象特征所形成的集合;foi为当前的目标对象特征,其中,i为目标对象的序数,i=1~z;z为单个视频片段中目标对象的总数;H’为目标对象特征的高;W’为目标对象特征的宽,目标对象特征的宽W’、高H’与上下文特征的宽W和高H与一致。
目标对象的特征也是特征图的形式。在本实施例中,采用算法ROIAlign(一种常用的截取目标物体特征图的算法)来截取目标对象的特征。该算法的主要原理就是根据边框信息,像截图一样,把目标对象的特征图从整幅特征图(即上下文特征)上截取下来。
步骤S3:将当前的目标对象特征foi输入上下文依赖模块,以获取每一个当前的目标对象特征对于上下文特征Fc的依赖,再根据所述依赖更新对应的当前的目标对象特征foi
如图2所示,该上下文依赖模块为多层自注意力机制操作,自注意力机制操作可以为基于计算Query值到Key/Value映射的任一注意力模型,例如Non-local Neuron Network以及Multi head self-attention等。自注意力机制操作的层数取决于实验中取多少层能获得最优的结果。在本实施例中,在AVA数据集上,自注意力机制操作的层数为2时,能获得最优实验结果。此外,在其他实施例中,该上下文依赖模块的层数可以为1,即上下文依赖模块也可以采用单层的自注意力机制操作。
其中,当前的目标对象特征所形成的集合Fo作为自注意力机制操作的Query,上下文特征Fc作为自注意力机制操作的Key/Value输入,从而获取每一个当前的目标对象特征foi对于上下文特征Fc的依赖Att(foi,Fc)Fc(i=1~z)。每一个当前的目标对象特征foi对于上下文特征Fc的依赖是自注意力机制操作中通过计算过程中得到的一个中间参数,每一层自注意力机制操作的输出值为目标对象特征的更新值f′oi
所述步骤S3包括:
步骤S30:将上下文依赖模块的第一层自注意力机制操作作为当前层的自注意力机制操作,以实现初始化;
步骤S31:利用上下文依赖模块的当前层的自注意力机制操作,将当前的目标对象特征所形成的集合Fo作为自注意力机制操作的Query,上下文特征Fc作为自注意力机制操作的Key/Value输入,获取每一个当前的目标对象特征foi对于上下文特征Fc的依赖Att(foi,Fc)Fc(i为目标对象的序数,i=1~z);根据所述依赖更新对应的当前的目标对象特征,得到目标对象特征的更新值f′oi
目标对象特征的更新值f′oi为:
f′oi=Att(foi,Fc)Fc+foi
其中,i为目标对象的序数,i=1,2,3,...,z;foi为当前的目标对象所对应的当前的目标对象特征,Att(foi,Fc)Fc为当前的目标对象特征对于上下文特征Fc的依赖。
由此,可以得到更新后的目标对象特征的集合Fo′。更新后的目标对象特征的集合Fo′为:Fo′={f′o1,f′o2,f′o3,...,f′oi,...,foz}。
步骤S32:利用上下文依赖模块的下一层自注意力机制操作将当前层的自注意力机制操作输出的目标对象特征的更新值f′oi作为当前的目标对象特征foi来形成当前的目标对象特征所形成的集合Fo
步骤S33:不断重复上述步骤S31和步骤S32,直到上下文依赖模块的最后一层自注意力机制操作输出目标对象特征的最终结果值f″oi
由此,本发明通过将上一层输出的f′o以及Fc不断输入相同网络结构的下一层自注意力机制操作,最终获得每一个目标对象特征的最终结果值f″oi,并形成最终的目标对象特征集合Fo″(即形成新目标对象特征集合Fa″)。
步骤S4:根据每个目标对象特征的最终结果值f″oi分别生成数量是行为类别的总数量的行为特征,得到当前的行为特征集合Fai
所述步骤S4包括:对独立不相干的k个的输出尺寸为T的第一全连接网络中的每一个,均输入一次所有的目标对象特征的最终结果值f″oi,使得对应于每一个目标对象,均能通过k个第一全连接网络输出对应于该目标对象的k个行为特征所组成的当前的行为特征集合Fai=fai1,fai2,fai3,...,faik
其中,k为行为类别的总数量,i为目标对象的序数,i=1~z;faik为行为特征集合中的某一个行为特征,Fai为当前的行为特征集合,行为特征集合Fai∈Rk×T;T为每个行为特征的长度(即输出尺寸),在本实施例中T取512,即每个第一全连接网络输出的行为特征为尺寸大小为512的向量。输出尺寸为T,意味着输出尺寸的值与每个行为特征的长度T的值相同。
第一全连接网络的结构如图3所示,k个第一全连接网络彼此之间独立不相干的,且每个第一全连接网络只有1层。
这k个第一全连接网络在训练之前没有不同,但训练之后各个第一全连接网络中的参数会不一样。这k个第一全连接网络的作用是希望在训练之后能通过输入目标对象特征获取对于各种行为的“表示”,也即各种行为的行为特征faij(i为目标对象的序数,j为行为特征的序数,j=1~k)。
步骤S5:将对应于各个目标对象的当前的行为特征集合Fai均输入行为依赖模块,获取所有各行为特征间的依赖,并根据该各行为特征间的依赖更新各当前的行为特征集合Fai
如图4所示,该行为依赖模块也采用多层自注意力机制操作。与所述步骤S3相同,行为依赖模块中的自注意力机制操作可以为基于计算Query值到Key/Value映射的任一注意力模型,例如Non-local Neuron Network以及Multi head self-attention等。这里的层数与步骤三中的一样,需通过实验确定。在本实施例中,在AVA数据集上,自注意力机制操作的层数为2时,能获得最优实验结果。此外,在其他实施例中,该行为依赖模块的层数也可以为1,即行为依赖模块也可以采用单层的自注意力机制操作。
所述步骤S5包括:
步骤S50:将行为依赖模块的第一层自注意力机制操作作为当前层的自注意力机制操作,以实现初始化;
步骤S51:将当前的行为特征集合Fai同时作为Query,Key,Value来输入行为依赖模块的当前层的自注意力机制操作,获取当前的行为特征集合Fai之间的依赖Att(Fai,Fai)Fai;根据所述行为特征集合Fai之间的依赖更新对应的当前的行为特征集合Fai,得到行为特征集合的更新值Fai′;
由此,自注意力机制操作会自动学习到其他所有行为特征对每一个行为特征的影响。并且,同时对整个当前的行为特征集合Fai进行更新。
行为特征集合的更新值Fai′为:
Fai′=Att(Fai,Fai)Fai+Fai
其中,j为行为特征的序数,j=1~k;i为目标对象的序数,i=1~z;Fai为当前的行为特征集合,Fai′为行为特征集合的更新值。
行为特征集合的更新值Fai′为:
Fai′={fai1′,fai2′,…,faij′,…,faik′},
式中,faij′为行为特征集合的更新值中的第i个目标对象的第j个行为特征的值。
步骤S52:利用行为依赖模块的下一层自注意力机制操作将当前层的自注意力机制操作输出的行为特征集合的更新值Fai′作为当前的行为特征集合Fai
步骤S53:不断重复上述步骤S51和步骤S52,直到行为依赖模块的最后一层自注意力机制操作输出行为特征集合的更新值Fai′,此时得到的行为特征集合的更新值Fai′为行为特征集合的最终结果值Fai″(即得到新行为特征集合Fai″)。
步骤S6:利用对应于某一个目标对象的行为特征集合的最终结果值Fai″中的每个行为特征进行多行为类别的预测,所预测的结果则为该目标对象在这一视频片段中的行为类别。
所述步骤S6包括:将行为特征集合的最终结果值Fai″中的每个行为特征分别输入k个输出尺寸为1的第二全连接网络,输出k个数值;随后将这k个数值输入sigmoid激活函数,从而获得各个目标对象的各行为类别的概率。
由此,本发明可以得到当前视频片段中第i个目标对象的空间位置信息(通过步骤S2获得)以及正在进行的多个行为类别(通过步骤S6获得)。
本发明的网络均不需要同过预先训练,本发明除了目标检测器之外,其他网络的参数都是端到端的训练的同时得出参数。
在所述步骤S6中,在模型训练阶段,使用binary cross entropy loss(二元交叉熵损失函数)作为损失函数并进行反向传播训练。
图5是本发明在使用SlowFast作为骨干网络,Faster RCNN作为目标检测器,Non-local Neuron Network作为自注意力机制操作的组合下的输出结果。图5说明了本发明相较于SlowFast模型在AVA数据集验证集上的平均精准率均值mAP提升了大约1.8%。
以上所述的,仅为本发明的较佳实施例,并非用以限定本发明的范围,本发明的上述实施例还可以做出各种变化。凡是依据本发明申请的权利要求书和说明书内容所做的简单、等效变化与修饰,皆落入本发明专利的权利要求保护范围。本发明未详尽叙述的均为常规技术内容。

Claims (8)

1.一种视频时空行为检测方法,其特征在于,包括:
步骤S1:将整个原始视频截取为多个相等时长的视频片段,再从每个视频片段中抽取一固定的帧数的静态图像;
步骤S2:对每个视频片段均进行目标检测与特征提取;
所述步骤S2包括:
步骤S21:使用目标检测器对各个视频片段的中间帧的图像进行检测,分别检测出单个视频片段中所有可能的目标对象,并获得每个目标对象对应的边框信息;
步骤S22:使用视频图像特征提取骨干网络来提取每个视频片段各自的上下文特征Fc
步骤S23:根据每个目标对象对应的边框信息在上下文特征Fc中截取出各个当前的目标对象特征foi,得到当前的目标对象特征所形成的集合Fo
步骤S3:将当前的目标对象特征foi输入上下文依赖模块,以获取每一个当前的目标对象特征对于上下文特征Fc的依赖,再根据所述依赖更新对应的当前的目标对象特征foi
步骤S4:根据每个目标对象特征的最终结果值foi分别生成数量是行为类别的总数量的行为特征,得到当前的行为特征集合Fai
步骤S5:将对应于各个目标对象的当前的行为特征集合Fai均输入行为依赖模块,获取所有各行为特征间的依赖,并根据该行为特征间的依赖更新各当前的行为特征集合Fai
步骤S6:利用对应于某一个目标对象的行为特征集合的最终结果值Fai″中的每个行为特征进行多行为类别的预测,所预测的结果则为该目标对象在这一视频片段中的行为类别;
在所述步骤S3中,所述上下文依赖模块为多层的自注意力机制操作,自注意力机制操作采用基于计算Query值到Key/Value映射的注意力模型;
所述步骤S3包括:
步骤S30:将上下文依赖模块的第一层自注意力机制操作作为当前层的自注意力机制操作;
步骤S31:利用上下文依赖模块的当前层的自注意力机制操作,将当前的目标对象特征所形成的集合Fo作为自注意力机制操作的Query,上下文特征Fc作为自注意力机制操作的Key/Value输入,获取每一个当前的目标对象特征foi对于上下文特征Fc的依赖Att(foi,Fc)Fc,i为目标对象的序数,i=1~z;根据所述依赖更新对应的当前的目标对象特征,得到目标对象特征的更新值f′oi
目标对象特征的更新值f′oi为:
f′oi=Att(foi,Fc)Fc+foi
其中,i为目标对象的序数,i=1,2,3,…,z;foi为当前的目标对象所对应的当前的目标对象特征,Att(foi,Fc)Fc为当前的目标对象特征对于上下文特征Fc的依赖;
步骤S32:利用上下文依赖模块的下一层自注意力机制操作将当前层的自注意力机制操作输出的目标对象特征的更新值f′oi作为当前的目标对象特征foi来形成当前的目标对象特征所形成的集合Fo
步骤S33:不断重复上述步骤S31和步骤S32,直到上下文依赖模块的最后一层自注意力机制操作输出目标对象特征的最终结果值f″oi
2.根据权利要求1所述的视频时空行为检测方法,其特征在于,在所述步骤S1中,视频片段的时长为1至4秒。
3.根据权利要求1所述的视频时空行为检测方法,其特征在于,在所述步骤S21中,所有可能的目标对象的集合O为:
O=o1,o2,o3,…,oz
式中,z为单个视频片段中目标对象的总数,oz为第z个目标对象;
每个目标对象对应的边框信息的集合B为:
B={b1,b2,b3,…,bz},
式中,z为单个视频片段中目标对象的总数,bz为第z个边框信息。
4.根据权利要求1所述的视频时空行为检测方法,其特征在于,在所述步骤S21中,所述目标检测器为基于卷积神经网络的目标检测模型;
在所述步骤S22中,所述视频图像特征提取骨干网络采用基于3D卷积神经网络的视频图像特征提取的骨干网络。
5.根据权利要求1所述的视频时空行为检测方法,其特征在于,在步骤S23中,当前的目标对象特征所形成的集合Fo为:
Fo={fo1,fo2,fo3,…,foi,…,foz},Fo∈Rz×H’×W’
其中,Fo为当前的目标对象特征所形成的集合;foi为当前的目标对象特征,其中,i为目标对象的序数,i=1~z;z为单个视频片段中目标对象的总数;H’为目标对象特征的高;W’为目标对象特征的宽。
6.根据权利要求1所述的视频时空行为检测方法,其特征在于,所述步骤S4包括:对独立不相干的k个输出尺寸为T的第一全连接网络中的每一个,均输入一次所有的目标对象特征的最终结果值fo i ,使得对应于每一个目标对象,均能通过k个第一全连接网络输出对应于该目标对象的k个行为特征所组成的当前的行为特征集合Fai=fai1,fai2,fai3,…,faik,其中,k为行为类别的总数量,i为目标对象的序数,i=1~z;faik为行为特征集合中的某一个行为特征,行为特征集合Fai∈Rk×T;T为每个行为特征的长度。
7.根据权利要求1所述的视频时空行为检测方法,其特征在于,在所述步骤S5中,所述行为依赖模块采用多层自注意力机制操作,自注意力机制操作采用基于计算Query值到Key/Value映射的注意力模型;
所述步骤S5包括:
步骤S50:将行为依赖模块的第一层自注意力机制操作作为当前层的自注意力机制操作;
步骤S51:将当前的行为特征集合Fai同时作为Query,Key,Value来输入行为依赖模块的当前层的自注意力机制操作,获取当前的行为特征集合Fai之间的依赖;根据所述行为特征集合Fai之间的依赖更新对应的当前的行为特征集合Fai,得到行为特征集合的更新值Fai′;
步骤S52:利用行为依赖模块的下一层自注意力机制操作将当前层的自注意力机制操作输出的行为特征集合的更新值Fai′作为当前的行为特征集合Fai
步骤S53:不断重复上述步骤S51和步骤S52,直到行为依赖模块的最后一层自注意力机制操作输出行为特征集合的更新值Fai′,此时得到的行为特征集合的更新值Fai′为行为特征集合的最终结果值Fai″。
8.根据权利要求1所述的视频时空行为检测方法,其特征在于,所述步骤S6包括:将行为特征集合的最终结果值Fai″中的每个行为特征分别再次输入k个输出尺寸为1的第二全连接网络,输出k个数值;随后将这k个数值输入sigmoid激活函数,从而获得各个目标对象的各行为类别的概率;
且在所述步骤S6中,在模型训练阶段,使用二元交叉熵损失函数作为损失函数并进行反向传播训练。
CN202111017499.3A 2021-08-30 2021-08-30 一种视频时空行为检测方法 Active CN113822172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111017499.3A CN113822172B (zh) 2021-08-30 2021-08-30 一种视频时空行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111017499.3A CN113822172B (zh) 2021-08-30 2021-08-30 一种视频时空行为检测方法

Publications (2)

Publication Number Publication Date
CN113822172A CN113822172A (zh) 2021-12-21
CN113822172B true CN113822172B (zh) 2024-06-14

Family

ID=78923494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111017499.3A Active CN113822172B (zh) 2021-08-30 2021-08-30 一种视频时空行为检测方法

Country Status (1)

Country Link
CN (1) CN113822172B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882403B (zh) * 2022-05-05 2022-12-02 杭州电子科技大学 基于渐进注意力超图的视频时空动作定位方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572723B2 (en) * 2017-12-07 2020-02-25 Futurewei Technologies, Inc. Activity detection by joint human and object detection and tracking
CN109117876B (zh) * 2018-07-26 2022-11-04 成都快眼科技有限公司 一种稠密小目标检测模型构建方法、模型及检测方法
CN109583340B (zh) * 2018-11-15 2022-10-14 中山大学 一种基于深度学习的视频目标检测方法
CN109670405B (zh) * 2018-11-23 2021-01-19 华南理工大学 一种基于深度学习的复杂背景行人检测方法
CN109829398B (zh) * 2019-01-16 2020-03-31 北京航空航天大学 一种基于三维卷积网络的视频中的目标检测方法
CN109961019B (zh) * 2019-02-28 2021-03-26 华中科技大学 一种时空行为检测方法
CN109961034B (zh) * 2019-03-18 2022-12-06 西安电子科技大学 基于卷积门控循环神经单元的视频目标检测方法
CN110569754A (zh) * 2019-08-26 2019-12-13 江西航天鄱湖云科技有限公司 图像目标检测方法、装置、存储介质及设备
CN110610210B (zh) * 2019-09-18 2022-03-25 电子科技大学 一种多目标检测方法
CN110738211B (zh) * 2019-10-17 2024-09-03 腾讯科技(深圳)有限公司 一种对象检测的方法、相关装置以及设备
CN111611847B (zh) * 2020-04-01 2021-04-30 杭州电子科技大学 基于尺度注意力空洞卷积网络的视频动作检测方法
CN112131933A (zh) * 2020-08-11 2020-12-25 安徽大学 一种基于改进yolo网络的快速行人检测方法与系统
CN112487957A (zh) * 2020-11-27 2021-03-12 广州华多网络科技有限公司 视频行为检测、响应方法及装置、设备、介质
CN112561001A (zh) * 2021-02-22 2021-03-26 南京智莲森信息技术有限公司 一种基于时空特征可变形卷积融合的视频目标检测方法
CN113222064A (zh) * 2021-05-31 2021-08-06 苏州晗林信息技术发展有限公司 一种图像目标对象实时检测方法、系统、终端及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SlowFast Networks for Video Recognition;Christoph Feichtenhofer 等;《Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)》;20191029;6202-6211 *
基于深度学习的人体行为识别检测综述;李永 等;《科学技术与工程》;20210718;第21卷(第20期);8310-8320 *

Also Published As

Publication number Publication date
CN113822172A (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
CN110135319B (zh) 一种异常行为检测方法及其系统
CN109902546B (zh) 人脸识别方法、装置及计算机可读介质
WO2021017606A1 (zh) 视频处理方法、装置、电子设备及存储介质
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
Sun et al. Lattice long short-term memory for human action recognition
CN112597941B (zh) 一种人脸识别方法、装置及电子设备
Li et al. Sign language recognition based on computer vision
CN109446923A (zh) 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN111428771B (zh) 视频场景分类方法、装置和计算机可读存储介质
CN113128424A (zh) 基于注意力机制的图卷积神经网络动作识别方法
WO2021057056A1 (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
TW202143164A (zh) 圖像處理方法、電子設備和電腦可讀儲存介質
CN113822172B (zh) 一种视频时空行为检测方法
CN113963402A (zh) 红外与光学图像融合的人脸表情识别方法及装置
Zhao et al. Human action recognition based on improved fusion attention CNN and RNN
WO2022063076A1 (zh) 对抗样本的识别方法及装置
Roy et al. Sparsity-inducing dictionaries for effective action classification
CN114387304A (zh) 目标跟踪方法、计算机程序产品、存储介质及电子设备
CN108985385A (zh) 基于生成对抗学习的快速弱监督目标检测方法
Wang et al. Accelerating real‐time object detection in high‐resolution video surveillance
CN114511813B (zh) 视频语义描述方法及装置
CN117877119A (zh) 一种面向骨架尺度差异性特征提取的动作识别方法、系统、设备及介质
Sun et al. A three-dimensional human motion pose recognition algorithm based on graph convolutional networks
Butt et al. Leveraging Transfer Learning for Spatio-Temporal Human Activity Recognition from Video Sequences.
Wirayasa et al. Comparison of Convolutional Neural Networks Model Using Different Optimizers for Image Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant