CN116563953B

CN116563953B - 自底向上的弱监督时序动作检测方法、系统、设备及介质

Info

Publication number: CN116563953B
Application number: CN202310830419.9A
Authority: CN
Inventors: 王子磊; 刘钦颖
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-10-20
Anticipated expiration: 2043-07-07
Also published as: CN116563953A

Abstract

本发明公开了一种自底向上的弱监督时序动作检测方法、系统、设备及介质，它们是一一对应的方案，方案中：通过帧级聚类对视频帧进行精确分布分析，随后通过一个簇级分类对聚类簇簇进行前背景分类，从而间接地实现对前景帧和背景帧的分离，这种自底向上的建模方式既能够为视频时序动作检测带来更多细粒度的监督信号，从而减少对视频监督信号的依赖，同时也能够兼顾准确的前背景分离，再结合弱监督视频时序动作检测模型获得的类激活序列以及帧级的注意力权重，可以准确的实现视频时序动作检测。

Description

自底向上的弱监督时序动作检测方法、系统、设备及介质

技术领域

本发明涉及视频动作检测领域，尤其涉及一种自底向上的弱监督时序动作检测方法、系统、设备及介质。

背景技术

近年来，随着视频监控技术和人工智能技术的快速发展，视频监控系统在安防、交通、医疗等领域得到了广泛应用。视频时序动作检测作为视频监控系统中的重要任务之一，能够对视频数据中的人类行为进行实时监测和识别，例如行人行走、车辆驾驶和医疗康复。然而，传统的视频时序动作检测方法需要对视频帧进行手动标注，并且往往需要专业的领域知识和复杂的算法模型，限制了其研究和应用范围。

为了解决这些问题，弱监督的视频时序动作检测任务逐渐成为研究热点。该任务利用每个视频的动作标签进行模型训练和优化，而无需每帧的标注。然而，现有的弱监督视频时序动作检测方法存在不足之处，因为只有整个视频的标注，所以现有研究通过优化一个视频分类模型来学习类激活序列，并将其作为位置线索，生成对应的检测结果。但是分类和检测任务在优化目标上存在固有矛盾，即分类任务仅关注少数的显著动作帧，导致前背景分离不准确，即无法精确地区分动作帧和非动作帧。例如，授权公告号为CN110516536B的中国专利《一种基于时序类别激活图互补的弱监督视频行为检测方法》公开了一种弱监督视频时序动作检测方法，通过训练视频分类网络来产生类激活序列，再通过将剩下的不显著视频帧再次输入视频分类网络得到新的互补的类激活序列，最后结合这两个类别激活序列得到更完整的类激活序列。然而，仅仅依赖视频分类模型依然无法保证其方案能从剩余的不显著帧中准确地区分前景帧和背景帧，因此视频时序动作检测的准确性还有待提升。

发明内容

本发明的目的是提供一种自底向上的弱监督时序动作检测方法、系统、设备及介质，可以减少对视频监督信号的依赖，同时也能够兼顾准确的前背景分离，从而提升视频时序动作检测的准确性。

本发明的目的是通过以下技术方案实现的：

一种自底向上的弱监督时序动作检测方法，包括：

步骤1、通过弱监督视频时序动作检测模型对待检测视频的帧级特征序列进行特征映射，分别生成类激活序列以及帧级的注意力权重；

步骤2、对特征映射获得的帧级特征序列进行帧级聚类，获得帧级聚类分配概率；

步骤3、利用特征映射获得的帧级特征序列，并结合帧级聚类分配概率以及帧级的注意力权重，计算聚类簇的原型和前背景的原型之间的相似度，获得簇级分类概率；

步骤4、利用帧级聚类分配概率与簇级分类概率计算帧级前景概率，并结合所述类激活序列以及帧级的注意力权重，计算动作检测结果。

一种自底向上的弱监督时序动作检测系统，包括：

弱监督视频时序动作检测模型，用于对待检测视频的帧级特征序列进行特征映射，分别生成类激活序列以及帧级的注意力权重；

帧级聚类模块，用于对特征映射获得的帧级特征序列进行帧级聚类，获得帧级聚类分配概率；

簇级分类模块，用于利用特征映射获得的帧级特征序列，并结合帧级聚类分配概率以及帧级的注意力权重，计算聚类簇的原型和前背景的原型之间的相似度，获得簇级分类概率；

动作检测模块，用于利用帧级聚类分配概率与簇级分类概率计算帧级前景概率，并结合所述类激活序列以及帧级的注意力权重，计算动作检测结果。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，通过帧级聚类对视频帧进行精确分布分析，随后通过一个簇级分类对聚类簇簇进行前背景分类，从而间接地实现对前景帧和背景帧的分离，这种自底向上的建模方式既能够为视频时序动作检测带来更多细粒度的监督信号，从而减少对视频监督信号的依赖，同时也能够兼顾准确的前背景分离，再结合弱监督视频时序动作检测模型获得的类激活序列以及帧级的注意力权重，可以准确的实现视频时序动作检测。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种自底向上的弱监督时序动作检测方法的流程图；

图2为本发明实施例提供的一种自底向上的弱监督时序动作检测方法核心思想示意图；

图3为本发明实施例提供的一种网络模型的框架示意图；

图4为本发明实施例提供的一种自底向上的弱监督时序动作检测系统的示意图；

图5为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中，则该术语将使权利要求成为封闭式，使其不包含除明确列出的技术特征要素以外的技术特征要素，但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中，那么其仅限定在该子句中明确列出的要素，其他子句中所记载的要素并不被排除在整体权利要求之外。

下面对本发明所提供的一种自底向上的弱监督时序动作检测方法、系统、设备及介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种自底向上的弱监督时序动作检测方法，如图1所示，其主要包括如下步骤：

步骤1、通过弱监督视频时序动作检测模型对待检测视频的帧级特征序列进行特征映射，分别生成类激活序列以及帧级的注意力权重。

本发明实施例中，弱监督视频时序动作检测模型可以采用传统方案实现，它包含两个支路，第一条支路（视频分类分支）生成类激活序列，第二条支路（注意力分支）生成帧级的注意力权重。

步骤2、对特征映射获得的帧级特征序列进行帧级聚类，获得帧级聚类分配概率。

本发明实施例中，通过K类的聚类分类器对特征映射获得的帧级特征序列进行帧级聚类，获得K维的帧级聚类分配概率，其第n行第k列元素/>表示第n帧分配为第k个聚类簇的预测概率，k=1,…,K，K为聚类簇的数目。

步骤3、利用特征映射获得的帧级特征序列，并结合帧级聚类分配概率以及帧级的注意力权重，计算聚类簇的原型和前背景的原型之间的相似度，获得簇级分类概率。

本发明实施例中，结合特征映射获得的帧级特征序列与帧级聚类分配概率，计算出各聚类簇的原型；以及将帧级的注意力权重视为帧级的前景概率，结合特征映射获得的帧级特征序列，计算出前景的原型与背景的原型；分别计算各聚类簇的原型与前景的原型，以及背景的原型的相似度，获得簇级分类概率，即各聚类簇属于前景与背景的概率。

本发明实施例中，步骤2与步骤3使用的特征映射获得的帧级特征序列均来自于注意力分支。

本步骤的优选实施方式如下：

（1）利用帧级聚类分配概率与簇级分类概率计算帧级前景概率。

（2）将类激活序列，帧级的注意力权重以及帧级前景概率进行加权求和，得到调制后的类激活序列。

（3）在调制后的类激活序列上设置多个阈值，产生多个动作提名。

（4）通过非极大值抑制去除冗余动作提名，剩余的动作提名即为动作检测结果。

本发明实施例提供的上述方案，通过帧级聚类对视频帧进行精确分布分析，随后通过一个簇级分类对聚类簇簇进行前背景分类，从而间接地实现对前景帧和背景帧的分离，这种自底向上的建模方式既能够为视频时序动作检测带来更多细粒度的监督信号，从而减少对视频监督信号的依赖，同时也能够兼顾准确的前背景分离，再结合弱监督视频时序动作检测模型获得的类激活序列以及帧级的注意力权重，可以准确的实现视频时序动作检测。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的方法进行详细描述。

一、构建网络模型。

本发明实施例中，为了解决弱监督视频时序动作检测中因分类和检测任务差异导致前背景难以分离的问题，构建了包含基础模型、帧级聚类模块和簇级分类模块的网络模型。此处的基础模型旨在按照传统方法训练一个视频分类模型，例如，前文所述的弱监督视频时序动作检测模型。帧级聚类模块（执行前述步骤2），旨在将视频帧以自监督的方式聚成若干个潜在的聚类簇，从而更加准确地描述帧在特征空间的分布。簇级分类模块（执行前述步骤3），旨在以自监督的方式将各个聚类簇分类为前景和背景，从而学到的各个聚类簇与前背景类别的映射关系。在训练结束后，本发明便可以利用一种自底向上的方式实现前背景帧分离，即通过结合帧级聚类模块和簇级分类模块的预测结果，将帧级聚类概率转化为帧级前背景预测概率，进而结合基础模型生成的类激活序列以及帧级的注意力权重，计算动作检测结果。

图2展示了本发明的核心思想，具体而言，首先利用帧级聚类将各个帧分为不同聚类簇，然后将各个聚类簇分为前景和背景。通过这两步级联的方式，则可以以一种自底向上的方式实现对帧的前背景分离。

如图3所示，展示了网络模型整个框架。基础模型包含两个分支：一个是视频分类分支，一个是注意力分支。其中，视频分类分支用于训练一个视频分类网络，以学习类激活序列，而注意力分支用以预测每帧的注意力权重，亦即每一帧的前景概率。然而该基础模型存在两方面的问题。1）视频分类分支只关注显著性的前景帧，无法充分挖掘所有帧的分布。2）注意力分支简单地将前景帧分为两类，无法充分刻画前景和背景的类内分布。本发明引入了帧级聚类模块和簇级分类模块来解决以上问题。帧级聚类模块用于预测每帧的聚类分配概率，而簇级分类模块用于进一步预测每个簇属于前景和背景的概率。结合帧级的聚类分配概率以及簇级的前背景分类概率，便可以轻松地推导出帧级前背景的概率，从而可以用于辅助测试过程中区分前背景帧。

二、训练网络模型。

1、基础模型。

如之前所述，基础模型可以使用弱监督视频时序动作检测模型，它包含视频分类分支、注意力分支。训练时，先提取视频的帧级特征，形成帧级特征序列，再输入至基础模型。基础模型的两个支路中都设有特征映射器，视频分类分支的特征映射器后方连接视频级分类器，生成类激活序列，聚合后获得视频级分类结果，并计算视频级分类损失。注意力分支的特征映射器后方连接注意力层，生成帧级的注意力权重，并计算注意力权重约束损失。由所述视频级分类损失以及注意力权重约束损失形成基础模型的总损失。

本发明实施例中，训练数据具有视频级动作标注，因此，结合标注与视频级分类结果可以直接计算视频级分类损失。

本发明实施例中，计算注意力权重约束损失的过程为：将视频帧按照帧级的注意力权重从大到小排序，设定前r%帧的标签视为1，剩余帧的标签视为0，其中r是预先定义的比例，一般设为50。然后，利用帧级的注意力权重和上述设定的标签计算注意力权重约束损失。

2、帧级聚类模块。

所述帧级聚类模块主要是利用一个K类的可学习线性分类器（聚类分类器）来预测每帧的聚类分配，从而得到每帧的K维聚类分配概率。由于不存在聚类分配对应的真实标签，因此该发明采用基于最优传输的伪标签技术来为聚类分配概率生成对应的伪标签，从而可以用于监督聚类分配概率的优化过程。

具体来说，本发明首先在基础模型的注意力分支上安置了一个K类的聚类分类器。K是一个预设的超参数，表示潜在的聚类簇的数目。在每次训练迭代过程中，将N帧的特征序列输入到K类的聚类分类器中从而得到K维的帧级聚类分配概率，其中，/>为实数集符号，D为特征的维度，此处的特征序列/>是指特征映射获得的帧级特征序列；/>的行数N等同于总帧数N，列数K等同于聚类簇的数目K，/>的第n行/>表示第n帧的帧级聚类分配概率，它的每一元素表示将第n帧分配给对应聚类簇的概率。为了优化K维的帧级聚类分配概率/>，本发明设计了一个基于最优传输的伪标签技术为/>生成其对应的伪标签。将伪标签的生成问题可以看成是一个最优传输问题，即分配伪标签的过程要将N帧特征以最小的传输代价分配给K个聚类簇中心。

理论上，要解决这个最优传输问题的计算代价很高。于是，使用Sinkhorn-Knopp算法（它是一种计算最优传输的算法）快速地求解最优传输问题的近似解。首先将N帧的伪标签假设为，则在Sinkhorn-Knopp算法中，最优的伪标签/>可以通过如下形式进行计算得到：

；

其中，是对N帧预测的帧级聚类分配概率（例如，前文提到的/>），diag是一个用于构造对角矩阵的函数，/>是一个预定义的常数，用来控制算法的收敛性，在本发明中，被设置为10。/>和/>是两个向量，用来保证/>是一个概率分布。它们是由以下两个公式迭代地更新的：

；

经过少数几次迭代后，算法便能很快地收敛，从而就能得到最优的和/>，进而计算得到最优的/>。

根据上述的Sinkhorn-Knopp算法原理介绍，可以快速地计算K维的帧级聚类分配概率所对应的伪标签/>：

；

其中，与/>是两个向量（通过前述公式迭代更新得到），用来保证帧级聚类分配概率对应的伪标签/>是一个概率分布，此处将伪标签/>的第n行第k列元素记为，表示第n帧分配给第k个聚类簇的概率。

之后，即可利用帧级聚类分配概率与对应的伪标签/>计算第一分类损失，进而优化帧级聚类模块。

本发明实施例中，第一分类损失采用交叉熵损失进行计算，公式如下：

；

其中，为第一分类损失。

3、簇级分类模块。

所述簇级分类模块用于将各个聚类簇分类为前景和背景。受原型学习（prototypelearning）的启发，本发明首先计算每个聚类簇的原型和前背景的原型，然后通过计算聚类簇的原型和前背景的原型之间的相似度来得到簇级分类概率。具体来说，对于聚类簇原型，可以根据帧级聚类分配概率来聚合属于各个聚类簇的帧的特征从而获得原型。例如，对于第k个聚类簇，可以通过下式计算其原型：

；

其中，表示第n帧对应的特征映射获得的帧级特征，/>表示第k个聚类簇的原型。以类似的方式，也可以计算得到前背景的原型/>，其包含前景的原型/>，以及背景的原型/>。

基础模块的帧级的注意力权重可以视为帧级的前景概率，因此可以利用帧级注意力权重来聚合属于前景的帧的特征从而得到前景的原型：

；

其中，是第n帧的注意力权重，也即第n帧属于前景的概率。显然地，/>代表第n帧属于背景的概率。因此背景的原型可以计算/>为：

。

之后，通过计算各聚类簇簇的原型和前背景的原型的相似度，获得簇级分类概率，它包含K行，每一行包含相应聚类簇属于前景与背景的预测概率。对于第k个聚类簇，可以通过下述公式计算它属于前景与背景的概率：

；

其中，i=1,2，i=1指代前景，i=2指代背景，即表示第k个聚类簇属于前景（i=1）或背景（i=1）的预测概率，cos为余弦相似度函数，Softmax为归一化指数函数，为缩放因子，通常设置为10。

由于训练过程不存在每个簇对应前背景的真实标签，为了优化簇级分类模块，需要产生伪标签来监督簇级分类概率的学习。本发明实施例中，与之前所述的帧级聚类模块类似地，再一次采用基于最优传输的伪标签技术来生成簇级分类概率/>对应的伪标签，即通过如下所示的Sinkhorn-Knopp算法来迭代地得到最优传输的近似最优解：

；

其中，与/>是两个向量（通过前述公式迭代更新得到），用来保证簇级分类概率对应的伪标签/>是一个概率分布。此处将伪标签/>的第k行第i列元素记为/>，表示第k个聚类簇属于第i类的概率，同样的，i=1指代前景，i=2指代背景。

之后，可以利用簇级分类概率与对应的伪标签计算的第二分类损失，进而优化簇级分类模块。

同样的，第二分类损失也采用交叉熵损失进行计算，公式如下：

；

其中，为第二分类损失。

最终，将聚合上述计算得到的视频级分类损失、注意力权重约束损失、第一分类损失、以及第二分类损失作为训练时的总损失函数进行端到端的联合训练，实现所有模块的协同训练与互相促进，具体而言，此部分的训练主要是优化基础模型与帧级聚类模块的内部参数。

三、时序动作检测。

训练完毕后，按照图1所示的流程生成类激活序列以及帧级的注意力权重，以及帧级聚类分配概率与簇级分类概率/>。然后，利用如下的全概率公式定理计算得到帧级前背景概率/>：

；

其中，帧级的前背景概率共有N行，每一行包含相应帧属于前景与背景的概率，即帧级前景概率与帧级背景概率。

之后，可以将帧级的前背景概率与类激活序列以及帧级的注意力权重相结合，计算动作检测结果。

为了便于理解，下面再提供一个具体的示例来进行说明。

本示例中，弱监督视频时序动作检测仅使用视频级的标签监督模型来完成对视频中的动作定位和分类。首先基于使用现有的弱监督视频时序动作检测方案来搭建了一个基础模型，然后设置帧级分类模块和簇级分类模块。通过这种方式，我们的方法能够减少对视频级监督信号的依赖，实现更为准确的前背景分离。

步骤1、准备数据集。

本示例中，需要指定训练集，包含一些有视频级动作标注的长视频。然后准备一个有完整标签的测试集，包含一些长视频和每帧对应的类别标签用于评估指标。

步骤2、搭建网络模型。

本示例中，按照图3所示的框架搭建网络结构。具体来说，首先使用预先训练好的特征提取器I3D（Inflated 3D ConvNet，膨胀的三维卷积网络）从视频帧中按照16帧的间隔抽取特征。使用I3D的原因是其在最近动作识别领域表现卓越，而且已经被广泛用于视频时序动作检测领域的特征提取。后续网络框架主要由基础模型，帧级聚类模块以及簇级分类模块构成。

本示例中，可以采用之前的弱监督视频时序动作检测框架ASL作为基础模型，因为它在准确性和效率方面都有很好的性能。具体地，它包含两个分支：视频级分类分支和注意力分支。其中，视频级分类分支包含一个特征映射器和一个视频分类器。分类器的类别数是所有动作类别的数目。注意力分支包含一个由另一个特征映射器和一个单通道的注意力层。在帧级聚类模块中使用线性的聚类分类器来学习帧级的聚类分配，而簇级分类模块不引入额外的可学习参数和结构。

步骤3、训练网络模型。在每次训练迭代过程中，从训练数据集中随机抽取16个视频，作为一个训练批次。在使用上述的I3D网络提取后特征后，从每个视频中随机抽取750个帧级特征。这750个帧级特征组成视频序列分别输入到基础模型的视频分类分支和注意力分支上。基础模型的训练方式与现有方案类似，通过最小化一个视频级分类损失和一个注意力权重约束损失来分别优化视频分类分支和注意力分支。在注意力分支上，将特征映射器的特征分别输入到帧级聚类模块和簇级分类模块。其中，帧级聚类模块通过聚类分类器预测帧级聚类分配概率，而簇级分类模块首先从输入的特征上计算得到的簇级原型特征以及前背景的原型特征，并以此计算簇级分类概率。帧级聚类模块由帧级聚类分配概率与其对应的伪标签之间的交叉熵损失进行训练，而簇级分类模块则由簇级分类概率与其对应的伪标签之间的交叉熵损失进行训练。将所有损失相加进行联合训练，即将整个网络模型进行端到端的训练。

本示例中，在训练阶段，使用SGD（随机梯度下降）作为优化器以使损失函数最小化，学习率为0.0001，一共训练200 epochs。

步骤4、测试网络模型。

准备一个含有完整的帧级标签的测试集，依次将各个视频输入到网络模型中。其中，基础模型的视频分类分支会生成类激活序列，而注意力分支将生成帧级的注意力权重。使用前文介绍的方案通过融合帧级聚类概率和簇级分类概率来计算帧级前景概率。之后，通过将类激活序列，帧级注意力权重以及帧级前景概率三者进行加权求和，得到调制后的类激活序列。最后，与常规的弱监督时序动作检测方法类似的，在调制后的类激活序列上设置多个阈值（例如，0.1，0.2，0.3, …, 0.9），产生一系列的动作提名（action proposal）。最后使用非极大值抑制（Non-maximum Suppression，NMS）算法去除冗余的动作提名，得到最终的动作检测结果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种自底向上的弱监督时序动作检测系统，其主要用于实现前述实施例提供的方法，如图4所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图5所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种自底向上的弱监督时序动作检测方法，其特征在于，包括：

步骤1、通过弱监督视频时序动作检测模型对待检测视频的帧级特征序列进行特征映射，由视频分类分支利用特征映射获得的帧级特征序列生成类激活序列，由注意力分支利用特征映射获得的帧级特征序列生成帧级的注意力权重；

2.根据权利要求1所述的一种自底向上的弱监督时序动作检测方法，其特征在于，所述对特征映射获得的帧级特征序列进行帧级聚类，获得帧级聚类分配概率包括：

通过K类的聚类分类器对特征映射获得的帧级特征序列进行帧级聚类，获得K维的帧级聚类分配概率，其第n行第k列元素/>表示第n帧分配为第k个聚类簇的预测概率，k=1,…,K，K为聚类簇的数目。

3.根据权利要求1所述的一种自底向上的弱监督时序动作检测方法，其特征在于，所述利用特征映射获得的帧级特征序列，并结合帧级聚类分配概率以及帧级的注意力权重，计算聚类簇的原型和前背景的原型之间的相似度，获得簇级分类概率包括：

结合特征映射获得的帧级特征序列与帧级聚类分配概率，计算出各聚类簇的原型；以及将帧级的注意力权重视为帧级的前景概率，结合特征映射获得的帧级特征序列，计算出前景的原型与背景的原型；

分别计算各聚类簇的原型与前景的原型，以及背景的原型的相似度，获得簇级分类概率，即各聚类簇属于前景与背景的概率。

4.根据权利要求1所述的一种自底向上的弱监督时序动作检测方法，其特征在于，通过帧级聚类模块执行所述步骤2，通过簇级分类模块执行所述步骤3，所述弱监督视频时序动作检测模型、帧级聚类模块与簇级分类模块形成一个网络模型，并预先对该网络模型进行训练，训练时的总损失函数包括：利用弱监督视频时序动作检测模型生成的生成类激活序列以及帧级的注意力权重计算的视频级分类损失以及注意力权重约束损失、利用帧级聚类分配概率与对应的伪标签计算的第一分类损失、以及利用簇级分类概率与对应的伪标签计算的第二分类损失。

5.根据权利要求4所述的一种自底向上的弱监督时序动作检测方法，其特征在于，帧级聚类分配概率对应的伪标签，以及簇级分类概率对应的伪标签均通过基于最优传输的伪标签技术生成。

6.根据权利要求5所述的一种自底向上的弱监督时序动作检测方法，其特征在于，

帧级聚类分配概率对应的伪标签的生成方式表示为：

；

其中，表示帧级聚类分配概率，/>与/>是两个向量，用来保证帧级聚类分配概率对应的伪标签/>是一个概率分布，/>为预定义的常数，diag是一个用于构造对角矩阵的函数；

簇级分类概率对应的伪标签的生成方式表示为：

；

其中，表示簇级分类概率，/>与/>是两个向量，用来保证簇级分类概率对应的伪标签/>是一个概率分布。

7.根据权利要求1所述的一种自底向上的弱监督时序动作检测方法，其特征在于，所述利用帧级聚类分配概率与簇级分类概率计算帧级前景概率，并结合所述类激活序列以及帧级的注意力权重，计算动作检测结果包括：

利用帧级聚类分配概率与簇级分类概率计算帧级前景概率；

将类激活序列，帧级的注意力权重以及帧级前景概率进行加权求和，得到调制后的类激活序列；

在调制后的类激活序列上设置多个阈值，产生多个动作提名；

通过非极大值抑制去除冗余动作提名，剩余的动作提名即为动作检测结果。

8.一种自底向上的弱监督时序动作检测系统，其特征在于，包括：

弱监督视频时序动作检测模型，用于对待检测视频的帧级特征序列进行特征映射，由视频分类分支利用特征映射获得的帧级特征序列生成类激活序列，由注意力分支利用特征映射获得的帧级特征序列生成帧级的注意力权重；

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。