CN113822172B

CN113822172B - 一种视频时空行为检测方法

Info

Publication number: CN113822172B
Application number: CN202111017499.3A
Authority: CN
Inventors: 王俊翰; 陈南希; 李嘉茂; 张晓林
Original assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Current assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2024-06-14
Anticipated expiration: 2041-08-30
Also published as: CN113822172A

Abstract

本发明提供一种视频时空行为检测方法，包括：截取视频图像；检测视频片段中间帧中的所有可能的目标对象及其边框信息，以及提取视频上下文特征和目标对象特征；获取目标对象特征对于上下文特征的依赖，根据依赖更新目标对象特征；根据目标对象特征的最终结果值生成多个行为特征形成的集合；获取各行为特征间的依赖，根据依赖更新行为特征集合；利用行为特征的更新值预测每个目标对象的各行为概率。本发明的视频时空行为检测方法通过获取上下文依赖来更新更新目标对象特征，并且利用行为特征之间的依赖更新行为特征集合，可以提高视频行为检测的准确率。

Description

一种视频时空行为检测方法

技术领域

本申请属于计算机视觉领域，具体涉及一种视频时空行为检测方法。

背景技术

视频作为目前主流的信息载体之一，其中包含的丰富信息需要依靠计算机视觉的一系列视频理解算法提取出来。理解其视频中的内容并转化为语义信息有助于提高视频流中场景的监控，视频片断高效地存储与检索，以及视频的大数据分析。

在高级别视频理解研究中，视频时空行为检测是一项具有挑战的任务。该任务要求对视频中的目标对象进行实时定位并识别其当前时刻的行为。区别于目标检测单纯地依靠观察目标对象的外表进行检测，行为识别需要理解目标对象一段时间内形体的变化以及对周围环境地交互。

在论文【Feichtenhofer C,Fan H,Malik J,等，SlowFast Networks for VideoRecognition[C]，2019IEEE/CVF International Conference on Computer Vision(ICCV).IEEE,2019】中提出了一种新的视频图像特征提取骨干网络SlowFast，相较于之前的骨干网络，例如I3D，C3D等，在视频行为检测任务上有着很高性能提升。但是该模型只单纯地提取了目标对象的视觉特征。在推断目标物体行为时，其所处环境是重要依据之一。SlowFast在提取目标物体特征与进行行为预测的过程中并未对物体与环境的交互进行建模。这导致该模型在视频行为检测任务上的精准率还有着很大的提升空间。

在论文【Tang J,Xia J,Mu X,等，Asynchronous Interaction Aggregation forAction Detection[M].2020】中，作者提出的AIA模型使用slowfast作为骨干网络提取视频图像特征，并且针对目标对象与目标对象之间的交互，目标对像与周围物体间的交互，以及目标对像与空间位置的交互分别进行建模。利用这种交互信息，AIA模型进一步提升了在视频行为检测任务上的精准率。但该模型在目标对象行为预测阶段仅仅使用单一的一个目标对象特征输出该目标对象的多种行为概率。该方法未能学习到目标对象上多种行为同时发生的特征以及行为与行为之间的关系。

发明内容

本发明的目的在于提供一种视频时空行为检测方法，以针对同时发生的行为更好地建模，解决提高目前技术检测精度不高的问题。

为了实现本发明的目的和其他优点，本发明提供一种视频时空行为检测方法，包括：

S1：将整个原始视频截取为多个相等时长的视频片段，再从每个视频片段中抽取一固定的帧数的静态图像；

S2：对每个视频片段均进行目标检测与特征提取；

所述步骤S2包括：

S21：使用目标检测器对各个视频片段的中间帧的图像进行检测，分别检测出单个视频片段中所有可能的目标对象，并获得每个目标对象对应的边框信息；

S22：使用视频图像特征提取骨干网络来提取每个视频片段各自的上下文特征F_c；

S23：根据每个目标对象对应的边框信息在上下文特征F_c中截取出各个当前的目标对象特征f_oi，得到当前的目标对象特征所形成的集合F_o；

S3：将当前的目标对象特征f_oi输入上下文依赖模块，以获取每一个当前的目标对象特征对于上下文特征F_c的依赖，再根据所述依赖更新对应的当前的目标对象特征f_oi；

S4：根据每个目标对象特征的最终结果值f″_oi分别生成数量是行为类别的总数量的行为特征，得到当前的行为特征集合F_ai；

S5：将对应于各个目标对象的当前的行为特征集合F_ai均输入行为依赖模块，获取所有各行为特征间的依赖，并根据该依赖更新各当前的行为特征集合F_ai；

S6：利用对应于某一个目标对象的行为特征集合的最终结果值F_ai″中的每个行为特征进行多行为类别的预测，所预测的结果则为该目标对象在这一视频片段中的行为类别。

在所述步骤S1中，视频片段的时长为1至4秒。

在所述步骤S21中，所有可能的目标对象的集合O为：

O＝o₁，o₂，o₃，...，o_z，

式中，z为单个视频片段中目标对象的总数，o_z为第z个目标对象；

每个目标对象对应的边框信息的集合B为：

B＝{b₁，b₂，b₃，...，b_z}，

式中，z为单个视频片段中目标对象的总数，b_z为第z个边框信息。

在所述步骤S21中，所述目标检测器为基于卷积神经网络的目标检测模型；在所述步骤S22中，所述视频图像特征提取骨干网络采用基于3D卷积神经网络的视频图像特征提取的骨干网络。

在步骤S23中，当前的目标对象特征所形成的集合F_o为：

F_o＝{f_o1，f_o2，f_o3，...，f_oi，...，f_oz}，F_o∈R^{z×H’×W’}，

其中，F_o为当前的目标对象特征所形成的集合；f_oi为当前的目标对象特征，其中，i为目标对象的序数，i＝1～z；z为单个视频片段中目标对象的总数；H’为目标对象特征的高；W’为目标对象特征的宽。

在所述步骤S3中，所述上下文依赖模块为单层或多层的自注意力机制操作，自注意力机制操作采用基于计算Query值到Key/Value映射的注意力模型。

在所述步骤S3中，所述上下文依赖模块为多层的自注意力机制操作，所述步骤S3包括：

步骤S30：将上下文依赖模块的第一层自注意力机制操作作为当前层的自注意力机制操作；

S31：利用上下文依赖模块的当前层的自注意力机制操作，将当前的目标对象特征所形成的集合F_o作为自注意力机制操作的Query，上下文特征F_c作为自注意力机制操作的Key/Value输入，获取每一个当前的目标对象特征f_oi对于上下文特征F_c的依赖，i为目标对象的序数，i＝1～z；根据所述依赖更新对应的当前的目标对象特征，得到目标对象特征的更新值f′_oi；

S32：利用上下文依赖模块的下一层自注意力机制操作将当前层的自注意力机制操作输出的目标对象特征的更新值f′_oi作为当前的目标对象特征f_oi来形成当前的目标对象特征所形成的集合F_o；

S33：不断重复上述步骤S31和步骤S32，直到上下文依赖模块的最后一层自注意力机制操作输出目标对象特征的最终结果值f″_oi。

所述步骤S4包括：对独立不相干的k个输出尺寸为T的第一全连接网络中的每一个，均输入一次所有的目标对象特征的最终结果值f″_oi，使得对应于每一个目标对象，均能通过k个第一全连接网络输出对应于该目标对象的k个行为特征所组成的当前的行为特征集合F_ai＝f_ai1，f_ai2，f_ai3，...，f_aik，其中，k为行为类别的总数量，i为目标对象的序数，i＝1～z；f_aik为行为特征集合中的某一个行为特征，行为特征集合F_ai∈R^k×T；T为每个行为特征的长度。

在所述步骤S5中，所述行为依赖模块采用多层自注意力机制操作，自注意力机制操作采用基于计算Query值到Key/Value映射的注意力模型；

所述步骤S5包括：

S50：将行为依赖模块的第一层自注意力机制操作作为当前层的自注意力机制操作；

S51：将当前的行为特征集合F_ai同时作为Query，Key，Value来输入行为依赖模块的当前层的自注意力机制操作，获取当前的行为特征集合F_ai之间的依赖；根据所述行为特征集合F_ai之间的依赖更新对应的当前的行为特征集合Fai，得到行为特征集合的更新值F_ai′；

S52：利用行为依赖模块的下一层自注意力机制操作将当前层的自注意力机制操作输出的行为特征集合的更新值F_ai′作为当前的行为特征集合F_ai；

S53：不断重复上述步骤S51和步骤S52，直到行为依赖模块的最后一层自注意力机制操作输出行为特征集合的更新值F_ai′，此时得到的行为特征集合的更新值F_ai′为行为特征集合的最终结果值F_ai″。

所述步骤S6包括：将行为特征集合的最终结果值F_ai″中的每个行为特征分别输入k个输出尺寸为1的第二全连接网络，输出k个数值；随后将这k个数值输入sigmoid激活函数，从而获得各个目标对象的各行为类别的概率；

且在所述步骤S6中，在模型训练阶段，使用二元交叉熵损失函数作为损失函数并进行反向传播训练。

本发明的视频时空行为检测方法通过获取上下文依赖并利用其更新目标对象特征，对人与环境交互的信息进行了建模，从而利用视频中目标对象的行为对周围环境的交互来提高时空行为检测的准确率；同时，本发明通过获取行为特征之间的依赖并利用其更新行为特征集合，从而能够更有效地学习到目标物体同时进行多种行为的特征，从而提高了时空行为检测的准确率。

附图说明

图1为按照本发明的一实施例的一种视频时空行为检测方法的流程示意图。

图2为本发明的视频时空行为检测方法所采用的上下文依赖模块的结构示意图。

图3为本发明的视频时空行为检测方法所采用的第一全连接网络的结构示意图。

图4为本发明的视频时空行为检测方法所采用的行为依赖模块的结构示意图。

图5为本发明的视频时空行为检测方法的输出的结果示意图。

具体实施方式

下面结合附图，给出本发明的一个实施例，对本发明的方案做进一步详细的解释和说明。

如图1所示，本发明的时空行为检测方法主要包括如下步骤：

步骤S1：截取视频图像，即，将整个原始视频截取为多个相等时长的视频片段，再从每个视频片段中抽取一固定的帧数的静态图像。

其中，视频片段的时长可为1至4秒。

固定的帧数的静态图像通过从各个视频片段中按原始视频的帧率抽取静态图像并按时间顺序排好来抽取得到。例如，输入的原始视频的帧率为32帧/秒，且每个视频片段的时长为1秒，那该视频片段抽取到的静态图像的数量就为32张。每1秒抽取的帧数取决于原始视频的帧率。

步骤S2：对每个视频片段均进行目标检测与特征提取；

所述步骤S2包括：

步骤S21：使用目标检测器对各个视频片段的中间帧的图像进行检测，分别检测出单个视频片段中所有可能的目标对象，并获得每个目标对象对应的边框信息；

中间帧为每个视频片段的正中间的画面帧。中间帧的总数等于截取得到的视频片段的总数，也即每个视频片段只有一个中间帧，以此来提升本发明的速度。如果说视频片段的总帧数为偶数，一般用总帧数的中间数向上取整。

在步骤S21中，选取中间帧的图像来检测目标对象的原因是在一个视频片段中，目标对象在中间帧的位置比较能表示目标对象在整个片段中的平均位置。由此，在后续的步骤中使用该目标对象在中间帧的位置将目标对象从片段的所有画面帧的特征图上截取下来。如果选择第一帧或者最后一帧，且目标对象在视频片段中快速移动，在后续截取目标对象时位置偏差会比较大。

其中，所有可能的目标对象的集合O为：

O＝o₁，o₂，o₃，...，o_z，

式中，z为单个视频片段中目标对象的总数，oz为第z个目标对象(即最后一个目标对象)。

相应地，每个目标对象对应的边框信息的集合B为：

B＝{b₁，b₂，b₃，...，b_z}，

式中，z为单个视频片段中目标对象的总数，b_z为第z个边框信息(即最后一个边框信息)。

每个边框信息b_z均包含边框的左上角横轴坐标x，左上角竖轴坐标y，宽度w，高度h。

所述目标检测器可以使用任一基于卷积神经网络(CNN)的高精度目标检测模型，例如Faster RCNN，YOLO，SSD等。

步骤S22：使用视频图像特征提取骨干网络来提取每个视频片段各自的上下文特征F_c；

每个视频片段只对应一个上下文特征。上下文特征为整个视频片段的特征图，是视频片段的高维视觉信息，也即一个矩阵。

其中，上下文特征F_c满足：

F_c∈R^C×H×W，C为上下文特征的通道数，H为上下文特征的高，W为上下文特征的宽。

所述视频图像特征提取骨干网络可以使用任一基于3D卷积神经网络(CNN)的视频图像特征提取的骨干网络，例如SlowFast，I3D，C3D等。

步骤S23：根据每个目标对象对应的边框信息在上下文特征F_c中截取出各个当前的目标对象特征f_oi，得到当前的目标对象特征所形成的集合F_o；

当前的目标对象特征所形成的集合F_o为：

其中，F_o为当前的目标对象特征所形成的集合；f_oi为当前的目标对象特征，其中，i为目标对象的序数，i＝1～z；z为单个视频片段中目标对象的总数；H’为目标对象特征的高；W’为目标对象特征的宽，目标对象特征的宽W’、高H’与上下文特征的宽W和高H与一致。

目标对象的特征也是特征图的形式。在本实施例中，采用算法ROIAlign(一种常用的截取目标物体特征图的算法)来截取目标对象的特征。该算法的主要原理就是根据边框信息，像截图一样，把目标对象的特征图从整幅特征图(即上下文特征)上截取下来。

步骤S3：将当前的目标对象特征f_oi输入上下文依赖模块，以获取每一个当前的目标对象特征对于上下文特征F_c的依赖，再根据所述依赖更新对应的当前的目标对象特征f_oi；

如图2所示，该上下文依赖模块为多层自注意力机制操作，自注意力机制操作可以为基于计算Query值到Key/Value映射的任一注意力模型，例如Non-local Neuron Network以及Multi head self-attention等。自注意力机制操作的层数取决于实验中取多少层能获得最优的结果。在本实施例中，在AVA数据集上，自注意力机制操作的层数为2时，能获得最优实验结果。此外，在其他实施例中，该上下文依赖模块的层数可以为1，即上下文依赖模块也可以采用单层的自注意力机制操作。

其中，当前的目标对象特征所形成的集合F_o作为自注意力机制操作的Query，上下文特征F_c作为自注意力机制操作的Key/Value输入，从而获取每一个当前的目标对象特征f_oi对于上下文特征F_c的依赖Att(f_oi，F_c)F_c(i＝1～z)。每一个当前的目标对象特征f_oi对于上下文特征F_c的依赖是自注意力机制操作中通过计算过程中得到的一个中间参数，每一层自注意力机制操作的输出值为目标对象特征的更新值f′_oi。

所述步骤S3包括：

步骤S30：将上下文依赖模块的第一层自注意力机制操作作为当前层的自注意力机制操作，以实现初始化；

步骤S31：利用上下文依赖模块的当前层的自注意力机制操作，将当前的目标对象特征所形成的集合F_o作为自注意力机制操作的Query，上下文特征F_c作为自注意力机制操作的Key/Value输入，获取每一个当前的目标对象特征f_oi对于上下文特征F_c的依赖Att(f_oi，F_c)F_c(i为目标对象的序数，i＝1～z)；根据所述依赖更新对应的当前的目标对象特征，得到目标对象特征的更新值f′_oi；

目标对象特征的更新值f′_oi为：

f′_oi＝Att(f_oi，F_c)F_c+f_oi，

其中，i为目标对象的序数，i＝1，2，3，...，z；f_oi为当前的目标对象所对应的当前的目标对象特征，Att(f_oi，F_c)F_c为当前的目标对象特征对于上下文特征F_c的依赖。

由此，可以得到更新后的目标对象特征的集合F_o′。更新后的目标对象特征的集合F_o′为：F_o′＝{f′_o1，f′_o2，f′_o3，...，f′_oi，...，f_oz}。

步骤S32：利用上下文依赖模块的下一层自注意力机制操作将当前层的自注意力机制操作输出的目标对象特征的更新值f′_oi作为当前的目标对象特征f_oi来形成当前的目标对象特征所形成的集合F_o；

步骤S33：不断重复上述步骤S31和步骤S32，直到上下文依赖模块的最后一层自注意力机制操作输出目标对象特征的最终结果值f″_oi。

由此，本发明通过将上一层输出的f′_o以及F_c不断输入相同网络结构的下一层自注意力机制操作，最终获得每一个目标对象特征的最终结果值f″_oi，并形成最终的目标对象特征集合F_o″(即形成新目标对象特征集合F_a″)。

步骤S4：根据每个目标对象特征的最终结果值f″_oi分别生成数量是行为类别的总数量的行为特征，得到当前的行为特征集合F_ai；

所述步骤S4包括：对独立不相干的k个的输出尺寸为T的第一全连接网络中的每一个，均输入一次所有的目标对象特征的最终结果值f″_oi，使得对应于每一个目标对象，均能通过k个第一全连接网络输出对应于该目标对象的k个行为特征所组成的当前的行为特征集合F_ai＝f_ai1，f_ai2，f_ai3，...，f_aik；

其中，k为行为类别的总数量，i为目标对象的序数，i＝1～z；f_aik为行为特征集合中的某一个行为特征，F_ai为当前的行为特征集合，行为特征集合F_ai∈R^k×T；T为每个行为特征的长度(即输出尺寸)，在本实施例中T取512，即每个第一全连接网络输出的行为特征为尺寸大小为512的向量。输出尺寸为T，意味着输出尺寸的值与每个行为特征的长度T的值相同。

第一全连接网络的结构如图3所示，k个第一全连接网络彼此之间独立不相干的，且每个第一全连接网络只有1层。

这k个第一全连接网络在训练之前没有不同，但训练之后各个第一全连接网络中的参数会不一样。这k个第一全连接网络的作用是希望在训练之后能通过输入目标对象特征获取对于各种行为的“表示”，也即各种行为的行为特征f_aij(i为目标对象的序数，j为行为特征的序数，j＝1～k)。

步骤S5：将对应于各个目标对象的当前的行为特征集合F_ai均输入行为依赖模块，获取所有各行为特征间的依赖，并根据该各行为特征间的依赖更新各当前的行为特征集合F_ai；

如图4所示，该行为依赖模块也采用多层自注意力机制操作。与所述步骤S3相同，行为依赖模块中的自注意力机制操作可以为基于计算Query值到Key/Value映射的任一注意力模型，例如Non-local Neuron Network以及Multi head self-attention等。这里的层数与步骤三中的一样，需通过实验确定。在本实施例中，在AVA数据集上，自注意力机制操作的层数为2时，能获得最优实验结果。此外，在其他实施例中，该行为依赖模块的层数也可以为1，即行为依赖模块也可以采用单层的自注意力机制操作。

所述步骤S5包括：

步骤S50：将行为依赖模块的第一层自注意力机制操作作为当前层的自注意力机制操作，以实现初始化；

步骤S51：将当前的行为特征集合F_ai同时作为Query，Key，Value来输入行为依赖模块的当前层的自注意力机制操作，获取当前的行为特征集合F_ai之间的依赖Att(F_ai，F_ai)F_ai；根据所述行为特征集合F_ai之间的依赖更新对应的当前的行为特征集合F_ai，得到行为特征集合的更新值F_ai′；

由此，自注意力机制操作会自动学习到其他所有行为特征对每一个行为特征的影响。并且，同时对整个当前的行为特征集合F_ai进行更新。

行为特征集合的更新值F_ai′为：

F_ai′＝Att(F_ai，F_ai)F_ai+F_ai，

其中，j为行为特征的序数，j＝1～k；i为目标对象的序数，i＝1～z；F_ai为当前的行为特征集合，F_ai′为行为特征集合的更新值。

行为特征集合的更新值F_ai′为：

F_ai′＝{f_ai1′，f_ai2′，…，f_aij′，…，f_aik′}，

式中，f_aij′为行为特征集合的更新值中的第i个目标对象的第j个行为特征的值。

步骤S52：利用行为依赖模块的下一层自注意力机制操作将当前层的自注意力机制操作输出的行为特征集合的更新值F_ai′作为当前的行为特征集合F_ai；

步骤S53：不断重复上述步骤S51和步骤S52，直到行为依赖模块的最后一层自注意力机制操作输出行为特征集合的更新值F_ai′，此时得到的行为特征集合的更新值F_ai′为行为特征集合的最终结果值F_ai″(即得到新行为特征集合F_ai″)。

步骤S6：利用对应于某一个目标对象的行为特征集合的最终结果值F_ai″中的每个行为特征进行多行为类别的预测，所预测的结果则为该目标对象在这一视频片段中的行为类别。

所述步骤S6包括：将行为特征集合的最终结果值F_ai″中的每个行为特征分别输入k个输出尺寸为1的第二全连接网络，输出k个数值；随后将这k个数值输入sigmoid激活函数，从而获得各个目标对象的各行为类别的概率。

由此，本发明可以得到当前视频片段中第i个目标对象的空间位置信息(通过步骤S2获得)以及正在进行的多个行为类别(通过步骤S6获得)。

本发明的网络均不需要同过预先训练，本发明除了目标检测器之外，其他网络的参数都是端到端的训练的同时得出参数。

在所述步骤S6中，在模型训练阶段，使用binary cross entropy loss(二元交叉熵损失函数)作为损失函数并进行反向传播训练。

图5是本发明在使用SlowFast作为骨干网络，Faster RCNN作为目标检测器，Non-local Neuron Network作为自注意力机制操作的组合下的输出结果。图5说明了本发明相较于SlowFast模型在AVA数据集验证集上的平均精准率均值mAP提升了大约1.8％。

以上所述的，仅为本发明的较佳实施例，并非用以限定本发明的范围，本发明的上述实施例还可以做出各种变化。凡是依据本发明申请的权利要求书和说明书内容所做的简单、等效变化与修饰，皆落入本发明专利的权利要求保护范围。本发明未详尽叙述的均为常规技术内容。

Claims

1.一种视频时空行为检测方法，其特征在于，包括：

步骤S1：将整个原始视频截取为多个相等时长的视频片段，再从每个视频片段中抽取一固定的帧数的静态图像；

步骤S2：对每个视频片段均进行目标检测与特征提取；

所述步骤S2包括：

步骤S4：根据每个目标对象特征的最终结果值f_o″_i分别生成数量是行为类别的总数量的行为特征，得到当前的行为特征集合F_ai；

步骤S5：将对应于各个目标对象的当前的行为特征集合F_ai均输入行为依赖模块，获取所有各行为特征间的依赖，并根据该行为特征间的依赖更新各当前的行为特征集合F_ai；

步骤S6：利用对应于某一个目标对象的行为特征集合的最终结果值F_ai″中的每个行为特征进行多行为类别的预测，所预测的结果则为该目标对象在这一视频片段中的行为类别；

在所述步骤S3中，所述上下文依赖模块为多层的自注意力机制操作，自注意力机制操作采用基于计算Query值到Key/Value映射的注意力模型；

所述步骤S3包括：

步骤S31：利用上下文依赖模块的当前层的自注意力机制操作，将当前的目标对象特征所形成的集合F_o作为自注意力机制操作的Query，上下文特征F_c作为自注意力机制操作的Key/Value输入，获取每一个当前的目标对象特征f_oi对于上下文特征F_c的依赖Att(f_oi,F_c)F_c，i为目标对象的序数，i＝1～z；根据所述依赖更新对应的当前的目标对象特征，得到目标对象特征的更新值f′_oi；

目标对象特征的更新值f′_oi为：

f′_oi＝Att(f_oi,F_c)F_c+f_oi，

其中，i为目标对象的序数，i＝1,2,3,…,z；f_oi为当前的目标对象所对应的当前的目标对象特征，Att(f_oi,F_c)F_c为当前的目标对象特征对于上下文特征F_c的依赖；

2.根据权利要求1所述的视频时空行为检测方法，其特征在于，在所述步骤S1中，视频片段的时长为1至4秒。

3.根据权利要求1所述的视频时空行为检测方法，其特征在于，在所述步骤S21中，所有可能的目标对象的集合O为：

O＝o₁,o₂,o₃,…,o_z，

每个目标对象对应的边框信息的集合B为：

B＝{b₁,b₂,b₃,…,b_z}，

4.根据权利要求1所述的视频时空行为检测方法，其特征在于，在所述步骤S21中，所述目标检测器为基于卷积神经网络的目标检测模型；

在所述步骤S22中，所述视频图像特征提取骨干网络采用基于3D卷积神经网络的视频图像特征提取的骨干网络。

5.根据权利要求1所述的视频时空行为检测方法，其特征在于，在步骤S23中，当前的目标对象特征所形成的集合F_o为：

F_o＝{f_o1,f_o2,f_o3,…,f_oi,…,f_oz}，F_o∈R^{z×H’×W’}，

6.根据权利要求1所述的视频时空行为检测方法，其特征在于，所述步骤S4包括：对独立不相干的k个输出尺寸为T的第一全连接网络中的每一个，均输入一次所有的目标对象特征的最终结果值f_o ^′ _i ^′，使得对应于每一个目标对象，均能通过k个第一全连接网络输出对应于该目标对象的k个行为特征所组成的当前的行为特征集合F_ai＝f_ai1,f_ai2,f_ai3,…,f_aik，其中，k为行为类别的总数量，i为目标对象的序数，i＝1～z；f_aik为行为特征集合中的某一个行为特征，行为特征集合F_ai∈R^k×T；T为每个行为特征的长度。

7.根据权利要求1所述的视频时空行为检测方法，其特征在于，在所述步骤S5中，所述行为依赖模块采用多层自注意力机制操作，自注意力机制操作采用基于计算Query值到Key/Value映射的注意力模型；

所述步骤S5包括：

步骤S50：将行为依赖模块的第一层自注意力机制操作作为当前层的自注意力机制操作；

步骤S51：将当前的行为特征集合F_ai同时作为Query，Key，Value来输入行为依赖模块的当前层的自注意力机制操作，获取当前的行为特征集合F_ai之间的依赖；根据所述行为特征集合F_ai之间的依赖更新对应的当前的行为特征集合F_ai，得到行为特征集合的更新值F_ai′；

步骤S53：不断重复上述步骤S51和步骤S52，直到行为依赖模块的最后一层自注意力机制操作输出行为特征集合的更新值F_ai′，此时得到的行为特征集合的更新值F_ai′为行为特征集合的最终结果值F_ai″。

8.根据权利要求1所述的视频时空行为检测方法，其特征在于，所述步骤S6包括：将行为特征集合的最终结果值F_ai″中的每个行为特征分别再次输入k个输出尺寸为1的第二全连接网络，输出k个数值；随后将这k个数值输入sigmoid激活函数，从而获得各个目标对象的各行为类别的概率；