CN115188022A

CN115188022A - 一种基于一致性半监督深度学习的人体行为识别方法

Info

Publication number: CN115188022A
Application number: CN202210762539.5A
Authority: CN
Inventors: 唐超; 童安炀
Original assignee: Hefei University
Current assignee: Hefei University
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-14

Abstract

本发明公开了一种基于一致性半监督深度学习的人体行为识别方法，涉及计算机视觉领域；包括：获取有标签的视频集X以及无标记视频集U，建立训练数据样本集；对训练数据样本集，进行视频数据增强处理；搭建改进的3D‑Resnet18网络，构建损失函数，基于损失函数，利用训练数据样本集对改进的3D‑Resnet18网络进行训练，利用优化好的改进的3D‑Resnet18网络识别视频中的人体行为；本发明利用这种人体行为识别方法解决现有人体行为识别方法缺乏有效的数据增强方法而发展相对缓慢的问题；以及现有人体行为识别方法没有探索视频中动作在时序上的关联性，导致训练出的模型鲁棒性不高的问题。

Description

一种基于一致性半监督深度学习的人体行为识别方法

技术领域：

本发明涉及计算机视觉领域，尤其涉及一种基于一致性半监督深度学习的人体行为识别方法。

背景技术：

在计算机视觉中基于视频的人体行为识别的目的是模拟人类的视觉感知功能，在不同的环境下准确的识别出人类行为的类别。

早期的行为识别过多的依靠手工特征提取的方法进行识别，但其局限性伴随动作类别的增加日益突出。随着卷积神经网络(Convolutional Neural Network,CNN)的不断发展，人们设计不同的深度学习网络自动的提取动作的空间、时间特征进行分类任务，包括以下三种方法：(1)基于循环神经网络(Recurrent Neural Network,RNN)的方法。它通常与CNN结合，通过将RNN叠加在CNN的结构上，获取动作空间和时间的合成特征表示进行分类。(2)基于2D卷积核的方法。建立互不影响的两个网络，分别输入同一动作的空间信息(RGB图像信息)和时间信息(例如光流信息)行训练，然后对两个网络进行融合达到减少模型参数和提升识别性能的目的。然而，此类方法因过度依赖光流作为时间信息，耗时且实时性能不高。(3)基于3D卷积核的方法。构建3D卷积核提取视频中动作的时空信息，在权值共享的基础上使用多个卷积核获取动作多层特征。然而，过多的模型参数给计算带来了挑战。为减少模型参数量，人们借鉴2D残差网络的设计原理，对C3D的架构进行改进，提出了3D Resnet，模型在减少参数量的同时识别准确率也得到提升。

人体动作是人们日常生活中的思想、情感的重要表现形式之一，人体行为识别的研究成果也成功在智能监控、无人驾驶、虚拟现实等领域应用。近些年来，随着短视频行业的快速发展，对无标签视频中动作的识别及标注引起了各界广泛的关注。为充分挖掘无标记视频中动作的潜在信息，减少人工劳动带来的资源损耗，人们引入半监督学习进行基于视频的动作的自动识别和标注。

基于一致性半监督深度学习的图像分类大部分依靠数据增强方法(包括随机裁剪，水平镜像，垂直镜像，对比度增强等方法)去实现模型泛化能力的提升。然而，拓展到半监督深度学习的视频分类因动作的时序性以及空间多样性，缺乏有效的数据增强方法而发展相对缓慢。基于数据增强的水平翻转则导致动作样本在增强后变为其他类别的动作；裁剪方法剪切视频中部分区域达到图像空间数据增强的目的，但在动作在时序上的连续性表达受到损失。

目前，大多数先进的方法从动作的时序信息进行研究，设计出包括时间一致性(对视频等间隔采样获得新的序列)、场景不变性(对视频背景进行变换)、动作同义性等增强策略，这些方法相较于水平翻转等策略在人体行为识别方面表现出强大的性能。然而，在结合当前先进的基于一致性的半监督深度学习识别框架后，存在以下两个问题。首先，在已有的考虑时序方面的工作中，增强后动作在时序上存在一定的冗余信息，缺少对阶段性动作细节的描述，并且没有探索视频中动作在时序上的关联性，导致训练出的模型鲁棒性不高。

针对上述情况，设计人员需要设计一种合理的人体行为识别方法，来解决目前的人体行为识别方法，缺乏有效的数据增强方法而发展相对缓慢的问题，以及没有探索视频中动作在时序上的关联性，导致训练出的模型鲁棒性不高的问题。

发明内容：

为了弥补现有技术问题的不足，本发明提供一种基于一致性半监督深度学习的人体行为识别方法，本发明通过对视频数据空间增强、视频数据时序增强的处理，实现对阶段性动作细节的描述，有利用挖掘多语义动作的完整表达，解决现有人体行为识别方法缺乏有效的数据增强方法而发展相对缓慢的问题；另外，本发明构建的时序信号，在提取运动阶段性细粒度动作时，并没有丢失完整的动作趋势，这将帮助模型加深对整体动作细致表达的理解，解决现有人体行为识别方法没有探索视频中动作在时序上的关联性，导致训练出的模型鲁棒性不高的问题。

本发明的技术方案如下：

一种基于一致性半监督深度学习的人体行为识别方法，包括以下步骤：

(1)获取有标签的视频集X以及无标记视频集U，分别从X、U中获取小批量的频集X'、U'作为训练数据样本集；

(2)对训练数据样本集进行视频数据增强处理，包括视频数据空间增强和视频数据时序增强；

(3)搭建改进3D-Resnet18网络，改进3D-Resnet18网络包括17层卷积层和一层全连接层；

(4)构建损失函数L₁＝L_s；其中，损失函数L_s为监督信号，用于计算真实标签和预测概率之间的交叉熵损失；

(5)加载初始化网络参数的改进3D-Resnet18网络，基于损失函数L_s，利用训练数据样本集X'对网络进行训练，计算L_s的损失值，即损失函数L₁的损失值，第一次的损失值作为初始损失值，将当前的损失值与上一次的损失值做比较，如果当前损失值小于上一次的损失值，使用随机梯度下降算法更新网络参数，重复上述优化过程，直到损失值不再下降时，网络达到了当前迭代下的拟合，得到优化好的改进3D-Resnet18网络；

(6)构建损失函数L₂＝L_s+λ_dL_d；其中，损失函数L_d为时序信号，用于计算视频数据时序增强后动作预测之间的詹森香浓熵散度；λ_d为时序信号L_d的权重；

(7)加载步骤(5)中优化好的改进3D-Resnet18网络；

基于损失函数L_s，利用训练数据样本集X'对改进的3D-Resnet18网络进行训练，计算L_s的损失值；

基于损失函数L_d，利用训练数据样本集(X'，U')对改进3D-Resnet18网络进行训练，计算L_d的损失值；

根据步骤(6)中构建的损失函数，计算L₂的损失值，将L₂第一次的损失值作为初始损失值，将当前L₂损失值与上一次L₂损失值做比较，如果当前L₂损失值小于上一次L₂损失值，使用随机梯度下降算法更新网络参数，直到L₂损失值不再下降时，模型达到了当前迭代下的拟合，得到优化好的改进的3D-Resnet18网络；

(8)构建损失函数L＝L_s+λ_uL_u+λ_dL_d，其中，L_u为伪监督信号，用于计算未标记样本的视频数据空间增强预测类别和视频数据时序增强预测概率之间的交叉熵损失，λ_u为伪监督信号L_u的权重；

(9)加载步骤(7)中优化好的改进3D-Resnet18网络；

基于损失函数L_s，利用训练数据样本集X'改进3D-Resnet18网络进行训练，计算L_s的损失值；

基于损失函数L_u，利用训练数据样本集U'对改进3D-Resnet18网络进行训练，计算L_u的损失值；

根据步骤(8)中构建的损失函数，计算L₃的损失值，将L₃第一次损失值作为初始损失值，将当前L₃的损失值与上一次L₃的损失值做比较，如果当前L₃的损失值小于上一次L₃的损失值，使用随机梯度下降算法更新网络参数，直到损失值不再下降时，网络达到了当前迭代下的拟合，得到优化好的改进的3D-Resnet18网络；

(10)加载步骤(9)中优化好的改进3D-Resnet18网络对需要进行行为识别的视频进行人体行为识别。

所述视频数据空间增强：视频是由视频序列F构成的，从视频序列F＝[f₁,f₂,...,f_M]，从m帧开始以x＝[f_t,f_t+υ,f_t+2υ,...,f_t+(N-1)υ]帧率提取N帧，得到视频中动作的粗粒度表达x＝[f_m,f_m+υ,f_m+2υ,...,f_m+(N-1)υ]；对视频动作的粗粒度表达x以概率P进行空间增强，得到视频数据空间增强表达α(x)，空间增强包括图像水平翻转和图像随机裁剪；

所述视频数据时序增强处理可以获得细粒度动作的前时动作表达、细粒度动作的后时动作表达；

细粒度动作的前时动作表达：从视频序列F＝[f₁,f₂,...,f_M]，我们以v₁帧率提取n帧，n<N，再以v₂帧率提取N-n帧，v₁＞v₂，得到细粒度动作的前时动作表达β_pre(x)；

细粒度动作的后时动作表达：从视频序列F＝[f₁,f₂,...,f_M]，我们以v₂帧率提取n帧，再以v₁帧率提取N-n帧，v₁＞v₂，得到细粒度动作的后时动作表达β_post(x)。

所述改进3D-Resnet18网络包括17层卷积层，最后一层是全连接层；其中，2-16层的卷积层中，使用Leaky-ReLU函数代替ReLU，并且在全连接层后添加Dropout，用于缓解模型的过拟合问题。

步骤(5)中计算监督信号L_s的损失值，具体如下：

从有标签的视频集X中选取小批量视频集

为有标签的视频，

为视频

所对应的标签，对视频

进行视频数据空间增强处理，得到视频数据空间增强表达

将

使用改进的3D-Resnet18网络进行训练，获得每个视频属于其对应标签的预测概率

使用交叉熵损失函数计算识别模型预测的概率

和真实类别

之间的交叉熵损失：

步骤(7)中计算时序信号L_d的损失值，具体如下：

对于视频x∈{X',U'}，对视频x进行视频数据时序增强，得到细粒度动作的前时动作表达β_pre(x)和细粒度动作的后时动作表达β_post(x)；将β_pre(x)、β_post(x)使用改进3D-Resnet18网络进行训练，分别获得每个视频属于其对应标签的预测概率P(β_pre(x))、P(β_post(x))，计算视频数据时序增强后动作预测之间的詹森香农熵散度：

P(β_avg(x))＝(P(β_post(x))+P(β_pre(x)))/2 (2)

L_d＝L_KL(P(β_pre(x)),P(β_avg(x)))+L_KL(P(β_post(x)),P(β_avg(x))) (5)。

步骤(9)中计算伪监督信号L_u的损失值，具体如下：

从无标签的视频集U中选取小批量视频集

为无标签的视频，对视频

进行视频数据空间增强处理，得到视频数据空间增强表达

对视频

进行视频数据时序增强处理，得到细粒度动作的前时动作表达

和细粒度动作的后时动作表达

将

使用改进3D-Resnet18网络进行训练，获得每个视频属于其对应标签的预测概率

将视频

的细粒度动作的前时动作表达

和细粒度动作的后时动作表达

分别通过卷积层提取到前时动作特征H1和后时动作特征H2，将前时动作特征H1和后时动作特征H2融合，得到融合后的特征H，H＝H1+H2，将融合后的特征H输入全连接层进行分类，得到预测概率

采用伪标签技术获得动作类别c的阈值T_t(c)，当最大预测概率

超过预定义的阈值T_t(c)时，将对应的类别

作为预测类别；否则，

计算

和细粒度动作特征融合后的预测概率

之间的交叉熵损失作为伪监督信号L_u，

所述采用伪标签技术设定阈值T_t(c)，包括以下步骤：

针对于步骤(4.3)中选取的小批量视频集

将视频样本

进行视频数据空间增强处理，得到视频数据空间增强表达

对视频

和细粒度动作的后时动作表达

将

分别使用改进3D-Resnet18网络进行训练，分别获得预测概率

计算粗细粒度动作的预测概率均值

统计当测概率

最大值大于阈值τ且预测类别

为c类别的个数σ_t(c)，其中阈值τ是设定的：

其中，I是指示函数，当满足括号内条件时进行计数为1；

对学习效果σ_t(c)进行归一化

将模型对各个动作的学习效果评估转为(0-1)之间：

使用非线性凸函数M(x)＝x/(2-x)来拟合模型的收敛趋势，得到预测

得到了各个动作的对应阈值；

为了减少模型的噪声数据输入，设定阈值上限τ_min和阈值下限τ_max；

对比评估的阈值

和最小阈值τ_min之间的大小，挑选两者间的最大阈值作为该动作当前时刻的阈值T_t(c)：

若

再比对评估阈值

和历史上出现的最大阈值T_max(c)进行对比，选取两者间的最大阈值作为阈值T_t(c)：

在对改进3D-Resnet18网络进行训练过程中，训练轮次EPOCH,一个轮次中包含STEP次训练；初始学习率为η₀；

若当前获得的总损失小于上一次训练获得的总损失，使用随机梯度下降算法更新网络参数；否则，不更新网络参数，获得优化好的改进3D-Resnet18网络；在EPOCH*STEP的周期内，使用余弦衰减函数实现学习率在[0-η₀]范围内动态的变更。

步骤(10)中加载步骤(9)中优化好的改进3D-Resnet18网络对需要进行行为识别的视频进行人体行为识别，具体步骤如下：

将一段视频长度为S的待预测视频V，通过匀速帧提取后的视频剪辑长度为s，随机挑选x∈(0,S-s)作为起始帧，输入步骤(9)中优化好的改进3D-Resnet18网络中，遍历视频，选择预测置信度最大的作为动作的类别c:c＝arg max(P(v))；

对同一动作重复采样五次，取五次预测概率的均值P_mean(V)作为该视频V的最后预测结果；取预测结果的最大值对应的动作类别作为最终的预测结果class:class＝arg max(P_mean(V))。

本发明与现有技术相比，具有以下优点：

1、本发明对原始视频进行了数据增强处理，获取动作的粗粒度表达和动作的细粒度表达；实现对阶段性动作细节的描述，有利用挖掘多语义动作的完整表达。

2、本发明在构建时序信号的过程中，将视频中的动作在时序上划分为前时动作和后时动作，分别计算完整动作和不同时序动作的概率预测结果，并计算不同时序动作之间的詹森香浓散度用于约束他们之间的预测概率分布，在提取运动阶段性细粒度动作时，并没有丢失完整的动作趋势，这将帮助模型加深对整体动作细致表达的理解。

3、本发明在对改进的3D-Resnet18网络的训练过程当中，先是利用监督信号L_s对网络进行训练，使得具有真实标签的样本下得到充分的知识积累；接着利用L₂＝L_s+λ_dL_d对网络进行训练，时序信号L_d的引入可以实现对视频中动作的阶段性一致表达进行知识提取，以应对无标记样本的标记工作；最后，再利用L＝L_s+λ_uL_u+λ_dL_d对网络进行训练，引入伪监督信号L_u，有助于挖掘大量未标记数据中的潜在信息，提高识别性能。

4、本发明采用伪标签技术设定阈值T_t(c)，网络训练过程中对无标记样本进行挑选，联合动作一致性学习，采取宽松与严格并行的课程学习策略进行阈值设置，统计模型对无标记数据预测的各个动作数量，用于评估该动作的学习效果，设置对应的阈值帮助该动作更好的学习；在模型训练过程中，对无标记样本预测结果超过动态阈值的各个类别进行统计，用于评估不同动作的学习效果，并在训练前期添加宽松的条件防止过多噪声数据的输入，训练后期添加严格的条件来防止因数据不平衡而导致估计效果较差；此外，为避免视频中动作的阶段性差异表征对识别及评估的影响，全面的对视频中动作的表达进行评价，联合粗粒度表达和细粒度表达的预测结果，进行动态阈值的效果评估。

附图说明：

图1为表示半监督模型对50％标记率的UCF101中不同动作的识别精度及对应阈值的柱状图。

图2为表示半监督模型对50％标记率的HMDB51中不同动作的识别精度及对应阈值的柱状图。

图3为表示半监督模型对10％标记率的Kinetic100中不同动作的识别精度及对应阈值的柱状图。

图4为表示UCF101在不同标记率下的监督学习和半监督学习的识别率的折线图。

图5为表示HMDB51在不同标记率下的监督学习和半监督学习的识别率的折线图。

图6为表示Kinetic100在不同标记率下的监督学习和半监督学习的识别率的折线图。

具体实施方式：

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明一步详细说明，就当理解，此处所描述的具体实施例公用于解释本发明，并不用于限定本发明。

(3)搭建改进3D-Resnet18网络，作为人体行为识别模型，改进3D-Resnet18网络包括17层卷积层和一层全连接层；

(7)加载步骤(5)中优化好的改进3D-Resnet18网络；

(9)加载步骤(7)中优化好的改进3D-Resnet18网络；

根据步骤(8)中构建的损失函数，计算L₃的损失值，将L₃第一次损失值作为初始损失值，将当前L₃的损失值与上一次L₃的损失值做比较，如果当前L₃的损失值小于上一次L₃的损失值，使用随机梯度下降算法更新网络参数，直到L₃损失值不再下降时，网络达到了当前迭代下的拟合，得到优化好的改进的3D-Resnet18网络；

所述视频数据空间增强：视频是由视频序列F构成的，从视频序列F＝[f₁,f₂,...,f_M]，从m帧开始以x＝[f_t,f_t+υ,f_t+2υ,...,f_t+(N-1)υ]帧率提取N帧，得到视频中动作的粗粒度表达x＝[f_m,f_m+υ,f_m+2υ,...,f_m+(N-1)υ]；对视频动作的粗粒度表达x以概率P(P＝0.5)进行空间增强，得到视频数据空间增强表达α(x)，空间增强包括图像水平翻转和图像随机裁剪；

步骤(5)中计算监督信号L_s的损失值，具体如下：

从有标签的视频集X中选取小批量视频集

为有标签的视频，

为视频

所对应的标签，对视频

进行视频数据空间增强处理，得到视频数据空间增强表达

将

使用交叉熵损失函数计算识别模型预测的概率

和真实类别

之间的交叉熵损失：

步骤(7)中计算时序信号L_d的损失值，具体如下：

P(β_avg(x))＝(P(β_post(x))+P(β_pre(x)))/2 (2)

L_d＝L_KL(P(β_pre(x)),P(β_avg(x)))+L_KL(P(β_post(x)),P(β_avg(x))) (5)。

步骤(9)中计算伪监督信号L_u的损失值，具体如下：

从无标签的视频集U中选取小批量视频集

为无标签的视频，对视频

进行视频数据空间增强处理，得到视频数据空间增强表达

对视频

和细粒度动作的后时动作表达

将

将视频

的细粒度动作的前时动作表达

和细粒度动作的后时动作表达

采用伪标签技术获得动作类别c的阈值T_t(c)，当最大预测概率

超过预定义的阈值T_t(c)时，将对应的类别

作为预测类别；否则，

计算

和细粒度动作特征融合后的预测概率

之间的交叉熵损失作为伪监督信号L_u，

所述采用伪标签技术设定阈值T_t(c)，包括以下步骤：

针对于步骤(4.3)中选取的小批量视频集

将视频样本

进行视频数据空间增强处理，得到视频数据空间增强表达

对视频

和细粒度动作的后时动作表达

将

分别使用改进3D-Resnet18网络进行训练，分别获得预测概率

计算粗细粒度动作的预测概率均值

统计当测概率

最大值大于阈值τ且预测类别

为c类别的个数σ_t(c)，其中阈值τ是设定的：

其中，I是指示函数，当满足括号内条件时进行计数为1；

对学习效果σ_t(c)进行归一化

将模型对各个动作的学习效果评估转为(0-1)之间：

得到了各个动作的对应阈值；

对比评估的阈值

若

再比对评估阈值

实验与评估

本发明方法使用的数据集是UCF101、HMDB51、Kinetics，三个数据集、训练集和测试集的样本数量如表1所示。

UCF101拥有101个动作类别，每个动作类别大约有130个视频，包含100个训练视频和30个测试视频。动作类型包含交互动作(人与物、人与人)、身体运动、演奏乐器和运动，拥有极大的多样性。该数据集有三种划分方式，采用split 1进行所有实验。

HMDB51拥有51个动作类别，每个类大约有100个视频，包含70个训练视频和30个测试视频。动作类型包含面部动作、身体动作、交互动作等，复杂性较高，挑战难度大。该数据集有三种划分方式，在所有实验中都采用了split 1。

Kinetics共拥有400个动作类别，然而部分动作分布差异明显。为公平的比较不同算法，挑选100个动作分布相对均匀的类别进行实验，称为kinetic-100。

表1

评估准则与多数视频分类方法的类似，对测试集视频进行多次采样，计算多次预测结果的平均值作为最终结果。鉴于内存的限制，对测试集数据进行5次均匀采样得到5clips，并使用Top-1 Acc和Top-5 Acc对模型的分类性能进行评估。

不同数据集训练集和测试集的样本数量

(一)实验环境配置和参数设置

表2展示PC上实验主要的环境和配置，包括软硬件的具体版本，另外包括服务器上两块RTX 2080Ti显卡。

表2

在表1的基础上搭建改进的3D Resnet18，包括使用Leaky ReLU(p＝0.2)代替卷积层2-16中的ReLU函数，在全连接层后添加Dropout层，失活率为0.5，用于防止模型过拟合以及避免方差漂移现象。另外，鉴于知识蒸馏的强大作用，加载在ImageNet上预训练的模型ResNet18，通过知识蒸馏得到的动作的空间信息，帮助模型对部分强依赖空间信息的动作实现准确分类。训练数据时，通过循环的方式获取视频中的16帧的视频片段，尺寸随机剪切为112*112pixels。对于单个视频剪辑的计算力为8.33GFLOPs，模型的参数量为33.23M。有标记样本和未标记样本每一批次是8个视频序列。最后输入网络的尺寸大小为8*16*3*112*112。

在本发明中，初始学习率为0.02，采用余弦衰减策略。SGD优化器使用0.9的动量和10^-4的重量衰减训练数据。初始化设定阈值τ为0.95，阈值下限τ_min为0.5，阈值上限τ_max为0.95，规定三个数据集在前100个epoch中对标记数据进行训练(视频数据空间增强)，之后引入时序监管信号训练(视频数据时序增强)，模型达到拟合后加入无标记数据进行训练。

对于训练集中的视频，采取两种划分方式达到数据平衡和不平衡的效果。为达到数据平衡，将类别C包含的N个视频，划分为N*P个标记数据和N*(1-P)个未标记数据(P是比例)。

为达到数据不平衡来验证课程学习策略，通过对训练集整体随机划分而不是对各个类别的同比例抽取。在无特殊声明情况下，使用的都是标准的平衡数据集划分方式。

(二)不同的监管信号对模型识别性能的影响

测试不同的监管信号对模型识别性能的影响，如表3所示。模型在监督信号L_s监管下，对有标记动作的单一表现进行了分析；监督信号L_s监管下加入时序信号L_d后，进一步的探索动作在时序上的关联性，形成了对动作细表达的同语义理解，在5％标记率的UCF101数据集上，性能提升1.3％。同样的，在L_s+L_u监管下引入L_d，模型依然表现出对动作的细表达的“爱好”，在40％标记率的HMDB51数据集上，性能提升2.6％。这成功验证了的实验动机，即关注视频中动作的多语义同义表达对于理解动作的真实类别非常重要。

表3

(三)不同的增强方法对识别率的影响

在一致性半监督学习框架下，对比了模型是否使用单一强增强动作和基于特征融合的预测结果。对比不同增强方法下各个数据集的识别性能如表4所示。

a)Front Action Prediction(FAP)：使用模型对前时动作进行预测，将预测结果用于无标签数据的损失计算。

b)Back Action Prediction(BAP)：使用模型对后时动作进行预测，计算无标签数据的损失。

c)Decision Fusion Prediction(DFP)：使用模型对前时动作和后时动作进行预测，在决策级融合预测结果，用于计算无标签的损失。

d)Feature Fusion Prediction(FFP)：使用模型对前时动作和后时动作进行特征提取，融合后输入下一层进行预测。

根据表4可以发现，视频数据时序增强后进行特征融合后，软标签更接近无标记样本的真实预测结果，提供给模型更准确的伪监督信号，对于动作的细粒度表达具有一定的优势，在三个数据集上的识别率稳定的高于使用单一视频数据时序增强的预测结果。可以将该方法扩展到任何有效的基于数据增强的方法上，取得更好的识别效果。实验过程中发现，模型在前期的特征融合效果并不显著，只有当模型对于动作类别具有一定的评估能力后，基于特征的融合将会出现明显提升。为避免这一问题，先通过监督信号对模型进行训练，再通过监督信号与时序信号共同对模型进行训练。

表4

(四)视频课程伪标签

图1-3可视化了半监督模型对部分动作的识别精度以及对应的动态阈值，图1表示基于50％标记率的UCF101，半监督模型对不同动作的识别精度及对应阈值，图2表示基于50％标记率的HMDB51，半监督模型对不同动作的识别精度及对应阈值，图3表示基于10％标记率的Kinetic100，半监督模型对不同动作的识别精度及对应阈值，可以发现，模型对于识别精度低的动作总是希望设置相对较低的阈值，帮助模型学习对应动作的无标记样本；另一方面，对于识别精度较高的动作类别，设置了较高的动态阈值，用于减少噪声数据的输入，同时希望模型减少因分类错误而导致其余类别的学习效果变差。在UCF101和HMDB51上，能够在Kinetic100数据集上，

(五)与监督学习方法比较

将算法在相同主干网络和实验设置下进行比较，通过设置不同比例的标记数据来评估的半监督学习算法与监督基线进行比较，三种数据集在不同标记率下的监督学习和半监督学习的识别率如图4-6所示，其中，图4表示UCF101在不同标记率下的监督学习和半监督学习的识别率，图5表示HMDB51在不同标记率下的监督学习和半监督学习的识别率，图6表示Kinetic100在不同标记率下的监督学习和半监督学习的识别率。根据图4-6可以发现，模型在结合未标记数据后，挖掘大量未标记数据中的潜在信息，识别性能得到大幅提高。其中，在40％标记率的HMDB51数据集上，识别性能提升明显(+10.5％)。

(六)与其它方法的比较

本发明与当前先进的半监督学习方法进行比较，包括基于图片分类的方法MeanTeacher[1]，PseudoLabel[2]，SD[3]，S4L[4]，UPS[5]，以及基于视频的方法VideoSSL[6]，ActorCutMix[7]，MvPL[8]，LTG[9]，详细的标明了各种方法所用的训练策略及视图，以及在不同比例的标记数据(％Label)下识别的准确率(％)(-表示该方法没有在此条件下做实验)，如表5所示。从表5中可以发现，本发明在使用ImageNet蒸馏后的网络模型上，达到在RGB视图上最优的性能，并且超过部分使用多视图的方法(在标记率为5％的UCF101上，高2.5％，50％标记率上高1.6％)。值得注意的是：本发明在5％标记率的UCF101数据集上，使用三个视图的MvPL[8]方法高2.5％，因此，认为MvPL并没有采用先进的一致性半监督框架，并且未考虑动作在时序上的互相依赖性及相关性。LTG[9]基于三个视图的信息互补，搭建三个一致性半监督框架达到了最优的识别性能。

表5

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

参考文献：

[1]A.Tarvainen and H.Valpola,"Mean teachers are better role models:Weight-averaged consistency targets improve semi-supervised deep learningresults,"in Advances in neural information processing systems,2017,vol.30,pp.1195-1204.

[2]D.H.Lee,"Pseudo-Label:The Simple and Efficient Semi-SupervisedLearning Method for Deep Neural Networks,"in ICML,2013,vol.3,p.896.

[3]R.Girdhar,D.Tran,L.Torresani,and D.Ramanan,"Distinit:Learningvideo representations without a single labeled video,"in Proceedings of theIEEE/CVF International Conference on Computer Vision,2019,pp.852-861.[4]X.Zhai,A.Oliver,A.Kolesnikov,and L.Beyer,"S4l:Self-supervised semi-supervisedlearning,"in Proceedings of the IEEE/CVF International Conference on ComputerVision,2019,pp.1476-1485.

[5]M.N.Rizve,K.Duarte,Y.S.Rawat,and M.Shah,"In defense of pseudo-labeling:An uncertainty-aware pseudo-label selection framework for semi-supervised learning,"in 9th International Conference on LearningRepresentations,2021.

[6]L.Jing,T.Parag,Z.Wu,Y.Tian,and H.Wang,"Videossl:Semi-supervisedlearning for video classification,"in Proceedings of the IEEE/CVF WinterConference on Applications of Computer Vision，2021，pp.1110-1119.

[7]Y.Zou,J.Choi,Q.Wang,and J.-B.Huang,"Learning representationalinvariances for data-efficient action recognition,"arXiv preprint arXiv:2103.16565,2021.

[8]B.Xiong,H.Fan,K.Grauman,and C.Feichtenhofer,"Multiview pseudo-labeling for semi-supervised learning from video,"in Proceedings of the IEEE/CVF International Conference on Computer Vision,2021,pp.7209-7219.

[9]J.Xiao et al.,"Learning from Temporal Gradient for Semi-supervisedAction Recognition,"arXiv preprint arXiv:2111.13241,2021.

Claims

1.一种基于一致性半监督深度学习的人体行为识别方法，其特征在于，包括以下步骤：

(7)加载步骤(5)中优化好的改进3D-Resnet18网络；

(9)加载步骤(7)中优化好的改进3D-Resnet18网络；

根据步骤(8)中构建的损失函数，计算L₃的损失值，将L₃第一次损失值作为初始损失值，将当前L₃的损失值与上一次L₃的损失值做比较，如果当前L₃的损失值小于上一次L₃的损失值，使用随机梯度下降算法更新网络参数，直到L₃的损失值不再下降时，网络达到了当前迭代下的拟合，得到优化好的改进的3D-Resnet18网络；

2.根据权利要求1所述一种基于一致性半监督深度学习的人体行为识别方法，其特征在于，