CN115188022A - 一种基于一致性半监督深度学习的人体行为识别方法 - Google Patents
一种基于一致性半监督深度学习的人体行为识别方法 Download PDFInfo
- Publication number
- CN115188022A CN115188022A CN202210762539.5A CN202210762539A CN115188022A CN 115188022 A CN115188022 A CN 115188022A CN 202210762539 A CN202210762539 A CN 202210762539A CN 115188022 A CN115188022 A CN 115188022A
- Authority
- CN
- China
- Prior art keywords
- video
- action
- loss
- training
- improved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于一致性半监督深度学习的人体行为识别方法,涉及计算机视觉领域;包括:获取有标签的视频集X以及无标记视频集U,建立训练数据样本集;对训练数据样本集,进行视频数据增强处理;搭建改进的3D‑Resnet18网络,构建损失函数,基于损失函数,利用训练数据样本集对改进的3D‑Resnet18网络进行训练,利用优化好的改进的3D‑Resnet18网络识别视频中的人体行为;本发明利用这种人体行为识别方法解决现有人体行为识别方法缺乏有效的数据增强方法而发展相对缓慢的问题;以及现有人体行为识别方法没有探索视频中动作在时序上的关联性,导致训练出的模型鲁棒性不高的问题。
Description
技术领域:
本发明涉及计算机视觉领域,尤其涉及一种基于一致性半监督深度学习的人体行为识别方法。
背景技术:
在计算机视觉中基于视频的人体行为识别的目的是模拟人类的视觉感知功能,在不同的环境下准确的识别出人类行为的类别。
早期的行为识别过多的依靠手工特征提取的方法进行识别,但其局限性伴随动作类别的增加日益突出。随着卷积神经网络(Convolutional Neural Network,CNN)的不断发展,人们设计不同的深度学习网络自动的提取动作的空间、时间特征进行分类任务,包括以下三种方法:(1)基于循环神经网络(Recurrent Neural Network,RNN)的方法。它通常与CNN结合,通过将RNN叠加在CNN的结构上,获取动作空间和时间的合成特征表示进行分类。(2)基于2D卷积核的方法。建立互不影响的两个网络,分别输入同一动作的空间信息(RGB图像信息)和时间信息(例如光流信息)行训练,然后对两个网络进行融合达到减少模型参数和提升识别性能的目的。然而,此类方法因过度依赖光流作为时间信息,耗时且实时性能不高。(3)基于3D卷积核的方法。构建3D卷积核提取视频中动作的时空信息,在权值共享的基础上使用多个卷积核获取动作多层特征。然而,过多的模型参数给计算带来了挑战。为减少模型参数量,人们借鉴2D残差网络的设计原理,对C3D的架构进行改进,提出了3D Resnet,模型在减少参数量的同时识别准确率也得到提升。
人体动作是人们日常生活中的思想、情感的重要表现形式之一,人体行为识别的研究成果也成功在智能监控、无人驾驶、虚拟现实等领域应用。近些年来,随着短视频行业的快速发展,对无标签视频中动作的识别及标注引起了各界广泛的关注。为充分挖掘无标记视频中动作的潜在信息,减少人工劳动带来的资源损耗,人们引入半监督学习进行基于视频的动作的自动识别和标注。
基于一致性半监督深度学习的图像分类大部分依靠数据增强方法(包括随机裁剪,水平镜像,垂直镜像,对比度增强等方法)去实现模型泛化能力的提升。然而,拓展到半监督深度学习的视频分类因动作的时序性以及空间多样性,缺乏有效的数据增强方法而发展相对缓慢。基于数据增强的水平翻转则导致动作样本在增强后变为其他类别的动作;裁剪方法剪切视频中部分区域达到图像空间数据增强的目的,但在动作在时序上的连续性表达受到损失。
目前,大多数先进的方法从动作的时序信息进行研究,设计出包括时间一致性(对视频等间隔采样获得新的序列)、场景不变性(对视频背景进行变换)、动作同义性等增强策略,这些方法相较于水平翻转等策略在人体行为识别方面表现出强大的性能。然而,在结合当前先进的基于一致性的半监督深度学习识别框架后,存在以下两个问题。首先,在已有的考虑时序方面的工作中,增强后动作在时序上存在一定的冗余信息,缺少对阶段性动作细节的描述,并且没有探索视频中动作在时序上的关联性,导致训练出的模型鲁棒性不高。
针对上述情况,设计人员需要设计一种合理的人体行为识别方法,来解决目前的人体行为识别方法,缺乏有效的数据增强方法而发展相对缓慢的问题,以及没有探索视频中动作在时序上的关联性,导致训练出的模型鲁棒性不高的问题。
发明内容:
为了弥补现有技术问题的不足,本发明提供一种基于一致性半监督深度学习的人体行为识别方法,本发明通过对视频数据空间增强、视频数据时序增强的处理,实现对阶段性动作细节的描述,有利用挖掘多语义动作的完整表达,解决现有人体行为识别方法缺乏有效的数据增强方法而发展相对缓慢的问题;另外,本发明构建的时序信号,在提取运动阶段性细粒度动作时,并没有丢失完整的动作趋势,这将帮助模型加深对整体动作细致表达的理解,解决现有人体行为识别方法没有探索视频中动作在时序上的关联性,导致训练出的模型鲁棒性不高的问题。
本发明的技术方案如下:
一种基于一致性半监督深度学习的人体行为识别方法,包括以下步骤:
(1)获取有标签的视频集X以及无标记视频集U,分别从X、U中获取小批量的频集X'、U'作为训练数据样本集;
(2)对训练数据样本集进行视频数据增强处理,包括视频数据空间增强和视频数据时序增强;
(3)搭建改进3D-Resnet18网络,改进3D-Resnet18网络包括17层卷积层和一层全连接层;
(4)构建损失函数L1=Ls;其中,损失函数Ls为监督信号,用于计算真实标签和预测概率之间的交叉熵损失;
(5)加载初始化网络参数的改进3D-Resnet18网络,基于损失函数Ls,利用训练数据样本集X'对网络进行训练,计算Ls的损失值,即损失函数L1的损失值,第一次的损失值作为初始损失值,将当前的损失值与上一次的损失值做比较,如果当前损失值小于上一次的损失值,使用随机梯度下降算法更新网络参数,重复上述优化过程,直到损失值不再下降时,网络达到了当前迭代下的拟合,得到优化好的改进3D-Resnet18网络;
(6)构建损失函数L2=Ls+λdLd;其中,损失函数Ld为时序信号,用于计算视频数据时序增强后动作预测之间的詹森香浓熵散度;λd为时序信号Ld的权重;
(7)加载步骤(5)中优化好的改进3D-Resnet18网络;
基于损失函数Ls,利用训练数据样本集X'对改进的3D-Resnet18网络进行训练,计算Ls的损失值;
基于损失函数Ld,利用训练数据样本集(X',U')对改进3D-Resnet18网络进行训练,计算Ld的损失值;
根据步骤(6)中构建的损失函数,计算L2的损失值,将L2第一次的损失值作为初始损失值,将当前L2损失值与上一次L2损失值做比较,如果当前L2损失值小于上一次L2损失值,使用随机梯度下降算法更新网络参数,直到L2损失值不再下降时,模型达到了当前迭代下的拟合,得到优化好的改进的3D-Resnet18网络;
(8)构建损失函数L=Ls+λuLu+λdLd,其中,Lu为伪监督信号,用于计算未标记样本的视频数据空间增强预测类别和视频数据时序增强预测概率之间的交叉熵损失,λu为伪监督信号Lu的权重;
(9)加载步骤(7)中优化好的改进3D-Resnet18网络;
基于损失函数Ls,利用训练数据样本集X'改进3D-Resnet18网络进行训练,计算Ls的损失值;
基于损失函数Lu,利用训练数据样本集U'对改进3D-Resnet18网络进行训练,计算Lu的损失值;
基于损失函数Ld,利用训练数据样本集(X',U')对改进3D-Resnet18网络进行训练,计算Ld的损失值;
根据步骤(8)中构建的损失函数,计算L3的损失值,将L3第一次损失值作为初始损失值,将当前L3的损失值与上一次L3的损失值做比较,如果当前L3的损失值小于上一次L3的损失值,使用随机梯度下降算法更新网络参数,直到损失值不再下降时,网络达到了当前迭代下的拟合,得到优化好的改进的3D-Resnet18网络;
(10)加载步骤(9)中优化好的改进3D-Resnet18网络对需要进行行为识别的视频进行人体行为识别。
所述视频数据空间增强:视频是由视频序列F构成的,从视频序列F=[f1,f2,...,fM],从m帧开始以x=[ft,ft+υ,ft+2υ,...,ft+(N-1)υ]帧率提取N帧,得到视频中动作的粗粒度表达x=[fm,fm+υ,fm+2υ,...,fm+(N-1)υ];对视频动作的粗粒度表达x以概率P进行空间增强,得到视频数据空间增强表达α(x),空间增强包括图像水平翻转和图像随机裁剪;
所述视频数据时序增强处理可以获得细粒度动作的前时动作表达、细粒度动作的后时动作表达;
细粒度动作的前时动作表达:从视频序列F=[f1,f2,...,fM],我们以v1帧率提取n帧,n<N,再以v2帧率提取N-n帧,v1>v2,得到细粒度动作的前时动作表达βpre(x);
细粒度动作的后时动作表达:从视频序列F=[f1,f2,...,fM],我们以v2帧率提取n帧,再以v1帧率提取N-n帧,v1>v2,得到细粒度动作的后时动作表达βpost(x)。
所述改进3D-Resnet18网络包括17层卷积层,最后一层是全连接层;其中,2-16层的卷积层中,使用Leaky-ReLU函数代替ReLU,并且在全连接层后添加Dropout,用于缓解模型的过拟合问题。
步骤(5)中计算监督信号Ls的损失值,具体如下:
步骤(7)中计算时序信号Ld的损失值,具体如下:
对于视频x∈{X',U'},对视频x进行视频数据时序增强,得到细粒度动作的前时动作表达βpre(x)和细粒度动作的后时动作表达βpost(x);将βpre(x)、βpost(x)使用改进3D-Resnet18网络进行训练,分别获得每个视频属于其对应标签的预测概率P(βpre(x))、P(βpost(x)),计算视频数据时序增强后动作预测之间的詹森香农熵散度:
P(βavg(x))=(P(βpost(x))+P(βpre(x)))/2 (2)
Ld=LKL(P(βpre(x)),P(βavg(x)))+LKL(P(βpost(x)),P(βavg(x))) (5)。
步骤(9)中计算伪监督信号Lu的损失值,具体如下:
将视频的细粒度动作的前时动作表达和细粒度动作的后时动作表达分别通过卷积层提取到前时动作特征H1和后时动作特征H2,将前时动作特征H1和后时动作特征H2融合,得到融合后的特征H,H=H1+H2,将融合后的特征H输入全连接层进行分类,得到预测概率
所述采用伪标签技术设定阈值Tt(c),包括以下步骤:
针对于步骤(4.3)中选取的小批量视频集将视频样本进行视频数据空间增强处理,得到视频数据空间增强表达对视频进行视频数据时序增强处理,得到细粒度动作的前时动作表达和细粒度动作的后时动作表达将分别使用改进3D-Resnet18网络进行训练,分别获得预测概率
其中,I是指示函数,当满足括号内条件时进行计数为1;
为了减少模型的噪声数据输入,设定阈值上限τmin和阈值下限τmax;
在对改进3D-Resnet18网络进行训练过程中,训练轮次EPOCH,一个轮次中包含STEP次训练;初始学习率为η0;
若当前获得的总损失小于上一次训练获得的总损失,使用随机梯度下降算法更新网络参数;否则,不更新网络参数,获得优化好的改进3D-Resnet18网络;在EPOCH*STEP的周期内,使用余弦衰减函数实现学习率在[0-η0]范围内动态的变更。
步骤(10)中加载步骤(9)中优化好的改进3D-Resnet18网络对需要进行行为识别的视频进行人体行为识别,具体步骤如下:
将一段视频长度为S的待预测视频V,通过匀速帧提取后的视频剪辑长度为s,随机挑选x∈(0,S-s)作为起始帧,输入步骤(9)中优化好的改进3D-Resnet18网络中,遍历视频,选择预测置信度最大的作为动作的类别c:c=arg max(P(v));
对同一动作重复采样五次,取五次预测概率的均值Pmean(V)作为该视频V的最后预测结果;取预测结果的最大值对应的动作类别作为最终的预测结果class:class=arg max(Pmean(V))。
本发明与现有技术相比,具有以下优点:
1、本发明对原始视频进行了数据增强处理,获取动作的粗粒度表达和动作的细粒度表达;实现对阶段性动作细节的描述,有利用挖掘多语义动作的完整表达。
2、本发明在构建时序信号的过程中,将视频中的动作在时序上划分为前时动作和后时动作,分别计算完整动作和不同时序动作的概率预测结果,并计算不同时序动作之间的詹森香浓散度用于约束他们之间的预测概率分布,在提取运动阶段性细粒度动作时,并没有丢失完整的动作趋势,这将帮助模型加深对整体动作细致表达的理解。
3、本发明在对改进的3D-Resnet18网络的训练过程当中,先是利用监督信号Ls对网络进行训练,使得具有真实标签的样本下得到充分的知识积累;接着利用L2=Ls+λdLd对网络进行训练,时序信号Ld的引入可以实现对视频中动作的阶段性一致表达进行知识提取,以应对无标记样本的标记工作;最后,再利用L=Ls+λuLu+λdLd对网络进行训练,引入伪监督信号Lu,有助于挖掘大量未标记数据中的潜在信息,提高识别性能。
4、本发明采用伪标签技术设定阈值Tt(c),网络训练过程中对无标记样本进行挑选,联合动作一致性学习,采取宽松与严格并行的课程学习策略进行阈值设置,统计模型对无标记数据预测的各个动作数量,用于评估该动作的学习效果,设置对应的阈值帮助该动作更好的学习;在模型训练过程中,对无标记样本预测结果超过动态阈值的各个类别进行统计,用于评估不同动作的学习效果,并在训练前期添加宽松的条件防止过多噪声数据的输入,训练后期添加严格的条件来防止因数据不平衡而导致估计效果较差;此外,为避免视频中动作的阶段性差异表征对识别及评估的影响,全面的对视频中动作的表达进行评价,联合粗粒度表达和细粒度表达的预测结果,进行动态阈值的效果评估。
附图说明:
图1为表示半监督模型对50%标记率的UCF101中不同动作的识别精度及对应阈值的柱状图。
图2为表示半监督模型对50%标记率的HMDB51中不同动作的识别精度及对应阈值的柱状图。
图3为表示半监督模型对10%标记率的Kinetic100中不同动作的识别精度及对应阈值的柱状图。
图4为表示UCF101在不同标记率下的监督学习和半监督学习的识别率的折线图。
图5为表示HMDB51在不同标记率下的监督学习和半监督学习的识别率的折线图。
图6为表示Kinetic100在不同标记率下的监督学习和半监督学习的识别率的折线图。
具体实施方式:
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明一步详细说明,就当理解,此处所描述的具体实施例公用于解释本发明,并不用于限定本发明。
一种基于一致性半监督深度学习的人体行为识别方法,包括以下步骤:
(1)获取有标签的视频集X以及无标记视频集U,分别从X、U中获取小批量的频集X'、U'作为训练数据样本集;
(2)对训练数据样本集进行视频数据增强处理,包括视频数据空间增强和视频数据时序增强;
(3)搭建改进3D-Resnet18网络,作为人体行为识别模型,改进3D-Resnet18网络包括17层卷积层和一层全连接层;
(4)构建损失函数L1=Ls;其中,损失函数Ls为监督信号,用于计算真实标签和预测概率之间的交叉熵损失;
(5)加载初始化网络参数的改进3D-Resnet18网络,基于损失函数Ls,利用训练数据样本集X'对网络进行训练,计算Ls的损失值,即损失函数L1的损失值,第一次的损失值作为初始损失值,将当前的损失值与上一次的损失值做比较,如果当前损失值小于上一次的损失值,使用随机梯度下降算法更新网络参数,重复上述优化过程,直到损失值不再下降时,网络达到了当前迭代下的拟合,得到优化好的改进3D-Resnet18网络;
(6)构建损失函数L2=Ls+λdLd;其中,损失函数Ld为时序信号,用于计算视频数据时序增强后动作预测之间的詹森香浓熵散度;λd为时序信号Ld的权重;
(7)加载步骤(5)中优化好的改进3D-Resnet18网络;
基于损失函数Ls,利用训练数据样本集X'对改进的3D-Resnet18网络进行训练,计算Ls的损失值;
基于损失函数Ld,利用训练数据样本集(X',U')对改进3D-Resnet18网络进行训练,计算Ld的损失值;
根据步骤(6)中构建的损失函数,计算L2的损失值,将L2第一次的损失值作为初始损失值,将当前L2损失值与上一次L2损失值做比较,如果当前L2损失值小于上一次L2损失值,使用随机梯度下降算法更新网络参数,直到L2损失值不再下降时,模型达到了当前迭代下的拟合,得到优化好的改进的3D-Resnet18网络;
(8)构建损失函数L=Ls+λuLu+λdLd,其中,Lu为伪监督信号,用于计算未标记样本的视频数据空间增强预测类别和视频数据时序增强预测概率之间的交叉熵损失,λu为伪监督信号Lu的权重;
(9)加载步骤(7)中优化好的改进3D-Resnet18网络;
基于损失函数Ls,利用训练数据样本集X'改进3D-Resnet18网络进行训练,计算Ls的损失值;
基于损失函数Lu,利用训练数据样本集U'对改进3D-Resnet18网络进行训练,计算Lu的损失值;
基于损失函数Ld,利用训练数据样本集(X',U')对改进3D-Resnet18网络进行训练,计算Ld的损失值;
根据步骤(8)中构建的损失函数,计算L3的损失值,将L3第一次损失值作为初始损失值,将当前L3的损失值与上一次L3的损失值做比较,如果当前L3的损失值小于上一次L3的损失值,使用随机梯度下降算法更新网络参数,直到L3损失值不再下降时,网络达到了当前迭代下的拟合,得到优化好的改进的3D-Resnet18网络;
(10)加载步骤(9)中优化好的改进3D-Resnet18网络对需要进行行为识别的视频进行人体行为识别。
所述视频数据空间增强:视频是由视频序列F构成的,从视频序列F=[f1,f2,...,fM],从m帧开始以x=[ft,ft+υ,ft+2υ,...,ft+(N-1)υ]帧率提取N帧,得到视频中动作的粗粒度表达x=[fm,fm+υ,fm+2υ,...,fm+(N-1)υ];对视频动作的粗粒度表达x以概率P(P=0.5)进行空间增强,得到视频数据空间增强表达α(x),空间增强包括图像水平翻转和图像随机裁剪;
所述视频数据时序增强处理可以获得细粒度动作的前时动作表达、细粒度动作的后时动作表达;
细粒度动作的前时动作表达:从视频序列F=[f1,f2,...,fM],我们以v1帧率提取n帧,n<N,再以v2帧率提取N-n帧,v1>v2,得到细粒度动作的前时动作表达βpre(x);
细粒度动作的后时动作表达:从视频序列F=[f1,f2,...,fM],我们以v2帧率提取n帧,再以v1帧率提取N-n帧,v1>v2,得到细粒度动作的后时动作表达βpost(x)。
所述改进3D-Resnet18网络包括17层卷积层,最后一层是全连接层;其中,2-16层的卷积层中,使用Leaky-ReLU函数代替ReLU,并且在全连接层后添加Dropout,用于缓解模型的过拟合问题。
步骤(5)中计算监督信号Ls的损失值,具体如下:
步骤(7)中计算时序信号Ld的损失值,具体如下:
对于视频x∈{X',U'},对视频x进行视频数据时序增强,得到细粒度动作的前时动作表达βpre(x)和细粒度动作的后时动作表达βpost(x);将βpre(x)、βpost(x)使用改进3D-Resnet18网络进行训练,分别获得每个视频属于其对应标签的预测概率P(βpre(x))、P(βpost(x)),计算视频数据时序增强后动作预测之间的詹森香农熵散度:
P(βavg(x))=(P(βpost(x))+P(βpre(x)))/2 (2)
Ld=LKL(P(βpre(x)),P(βavg(x)))+LKL(P(βpost(x)),P(βavg(x))) (5)。
步骤(9)中计算伪监督信号Lu的损失值,具体如下:
将视频的细粒度动作的前时动作表达和细粒度动作的后时动作表达分别通过卷积层提取到前时动作特征H1和后时动作特征H2,将前时动作特征H1和后时动作特征H2融合,得到融合后的特征H,H=H1+H2,将融合后的特征H输入全连接层进行分类,得到预测概率
所述采用伪标签技术设定阈值Tt(c),包括以下步骤:
针对于步骤(4.3)中选取的小批量视频集将视频样本进行视频数据空间增强处理,得到视频数据空间增强表达对视频进行视频数据时序增强处理,得到细粒度动作的前时动作表达和细粒度动作的后时动作表达将分别使用改进3D-Resnet18网络进行训练,分别获得预测概率
其中,I是指示函数,当满足括号内条件时进行计数为1;
为了减少模型的噪声数据输入,设定阈值上限τmin和阈值下限τmax;
在对改进3D-Resnet18网络进行训练过程中,训练轮次EPOCH,一个轮次中包含STEP次训练;初始学习率为η0;
若当前获得的总损失小于上一次训练获得的总损失,使用随机梯度下降算法更新网络参数;否则,不更新网络参数,获得优化好的改进3D-Resnet18网络;在EPOCH*STEP的周期内,使用余弦衰减函数实现学习率在[0-η0]范围内动态的变更。
步骤(10)中加载步骤(9)中优化好的改进3D-Resnet18网络对需要进行行为识别的视频进行人体行为识别,具体步骤如下:
将一段视频长度为S的待预测视频V,通过匀速帧提取后的视频剪辑长度为s,随机挑选x∈(0,S-s)作为起始帧,输入步骤(9)中优化好的改进3D-Resnet18网络中,遍历视频,选择预测置信度最大的作为动作的类别c:c=arg max(P(v));
对同一动作重复采样五次,取五次预测概率的均值Pmean(V)作为该视频V的最后预测结果;取预测结果的最大值对应的动作类别作为最终的预测结果class:class=arg max(Pmean(V))。
实验与评估
本发明方法使用的数据集是UCF101、HMDB51、Kinetics,三个数据集、训练集和测试集的样本数量如表1所示。
UCF101拥有101个动作类别,每个动作类别大约有130个视频,包含100个训练视频和30个测试视频。动作类型包含交互动作(人与物、人与人)、身体运动、演奏乐器和运动,拥有极大的多样性。该数据集有三种划分方式,采用split 1进行所有实验。
HMDB51拥有51个动作类别,每个类大约有100个视频,包含70个训练视频和30个测试视频。动作类型包含面部动作、身体动作、交互动作等,复杂性较高,挑战难度大。该数据集有三种划分方式,在所有实验中都采用了split 1。
Kinetics共拥有400个动作类别,然而部分动作分布差异明显。为公平的比较不同算法,挑选100个动作分布相对均匀的类别进行实验,称为kinetic-100。
表1
评估准则与多数视频分类方法的类似,对测试集视频进行多次采样,计算多次预测结果的平均值作为最终结果。鉴于内存的限制,对测试集数据进行5次均匀采样得到5clips,并使用Top-1 Acc和Top-5 Acc对模型的分类性能进行评估。
不同数据集训练集和测试集的样本数量
(一)实验环境配置和参数设置
表2展示PC上实验主要的环境和配置,包括软硬件的具体版本,另外包括服务器上两块RTX 2080Ti显卡。
表2
在表1的基础上搭建改进的3D Resnet18,包括使用Leaky ReLU(p=0.2)代替卷积层2-16中的ReLU函数,在全连接层后添加Dropout层,失活率为0.5,用于防止模型过拟合以及避免方差漂移现象。另外,鉴于知识蒸馏的强大作用,加载在ImageNet上预训练的模型ResNet18,通过知识蒸馏得到的动作的空间信息,帮助模型对部分强依赖空间信息的动作实现准确分类。训练数据时,通过循环的方式获取视频中的16帧的视频片段,尺寸随机剪切为112*112pixels。对于单个视频剪辑的计算力为8.33GFLOPs,模型的参数量为33.23M。有标记样本和未标记样本每一批次是8个视频序列。最后输入网络的尺寸大小为8*16*3*112*112。
在本发明中,初始学习率为0.02,采用余弦衰减策略。SGD优化器使用0.9的动量和10-4的重量衰减训练数据。初始化设定阈值τ为0.95,阈值下限τmin为0.5,阈值上限τmax为0.95,规定三个数据集在前100个epoch中对标记数据进行训练(视频数据空间增强),之后引入时序监管信号训练(视频数据时序增强),模型达到拟合后加入无标记数据进行训练。
对于训练集中的视频,采取两种划分方式达到数据平衡和不平衡的效果。为达到数据平衡,将类别C包含的N个视频,划分为N*P个标记数据和N*(1-P)个未标记数据(P是比例)。
为达到数据不平衡来验证课程学习策略,通过对训练集整体随机划分而不是对各个类别的同比例抽取。在无特殊声明情况下,使用的都是标准的平衡数据集划分方式。
(二)不同的监管信号对模型识别性能的影响
测试不同的监管信号对模型识别性能的影响,如表3所示。模型在监督信号Ls监管下,对有标记动作的单一表现进行了分析;监督信号Ls监管下加入时序信号Ld后,进一步的探索动作在时序上的关联性,形成了对动作细表达的同语义理解,在5%标记率的UCF101数据集上,性能提升1.3%。同样的,在Ls+Lu监管下引入Ld,模型依然表现出对动作的细表达的“爱好”,在40%标记率的HMDB51数据集上,性能提升2.6%。这成功验证了的实验动机,即关注视频中动作的多语义同义表达对于理解动作的真实类别非常重要。
表3
(三)不同的增强方法对识别率的影响
在一致性半监督学习框架下,对比了模型是否使用单一强增强动作和基于特征融合的预测结果。对比不同增强方法下各个数据集的识别性能如表4所示。
a)Front Action Prediction(FAP):使用模型对前时动作进行预测,将预测结果用于无标签数据的损失计算。
b)Back Action Prediction(BAP):使用模型对后时动作进行预测,计算无标签数据的损失。
c)Decision Fusion Prediction(DFP):使用模型对前时动作和后时动作进行预测,在决策级融合预测结果,用于计算无标签的损失。
d)Feature Fusion Prediction(FFP):使用模型对前时动作和后时动作进行特征提取,融合后输入下一层进行预测。
根据表4可以发现,视频数据时序增强后进行特征融合后,软标签更接近无标记样本的真实预测结果,提供给模型更准确的伪监督信号,对于动作的细粒度表达具有一定的优势,在三个数据集上的识别率稳定的高于使用单一视频数据时序增强的预测结果。可以将该方法扩展到任何有效的基于数据增强的方法上,取得更好的识别效果。实验过程中发现,模型在前期的特征融合效果并不显著,只有当模型对于动作类别具有一定的评估能力后,基于特征的融合将会出现明显提升。为避免这一问题,先通过监督信号对模型进行训练,再通过监督信号与时序信号共同对模型进行训练。
表4
(四)视频课程伪标签
图1-3可视化了半监督模型对部分动作的识别精度以及对应的动态阈值,图1表示基于50%标记率的UCF101,半监督模型对不同动作的识别精度及对应阈值,图2表示基于50%标记率的HMDB51,半监督模型对不同动作的识别精度及对应阈值,图3表示基于10%标记率的Kinetic100,半监督模型对不同动作的识别精度及对应阈值,可以发现,模型对于识别精度低的动作总是希望设置相对较低的阈值,帮助模型学习对应动作的无标记样本;另一方面,对于识别精度较高的动作类别,设置了较高的动态阈值,用于减少噪声数据的输入,同时希望模型减少因分类错误而导致其余类别的学习效果变差。在UCF101和HMDB51上,能够在Kinetic100数据集上,
(五)与监督学习方法比较
将算法在相同主干网络和实验设置下进行比较,通过设置不同比例的标记数据来评估的半监督学习算法与监督基线进行比较,三种数据集在不同标记率下的监督学习和半监督学习的识别率如图4-6所示,其中,图4表示UCF101在不同标记率下的监督学习和半监督学习的识别率,图5表示HMDB51在不同标记率下的监督学习和半监督学习的识别率,图6表示Kinetic100在不同标记率下的监督学习和半监督学习的识别率。根据图4-6可以发现,模型在结合未标记数据后,挖掘大量未标记数据中的潜在信息,识别性能得到大幅提高。其中,在40%标记率的HMDB51数据集上,识别性能提升明显(+10.5%)。
(六)与其它方法的比较
本发明与当前先进的半监督学习方法进行比较,包括基于图片分类的方法MeanTeacher[1],PseudoLabel[2],SD[3],S4L[4],UPS[5],以及基于视频的方法VideoSSL[6],ActorCutMix[7],MvPL[8],LTG[9],详细的标明了各种方法所用的训练策略及视图,以及在不同比例的标记数据(%Label)下识别的准确率(%)(-表示该方法没有在此条件下做实验),如表5所示。从表5中可以发现,本发明在使用ImageNet蒸馏后的网络模型上,达到在RGB视图上最优的性能,并且超过部分使用多视图的方法(在标记率为5%的UCF101上,高2.5%,50%标记率上高1.6%)。值得注意的是:本发明在5%标记率的UCF101数据集上,使用三个视图的MvPL[8]方法高2.5%,因此,认为MvPL并没有采用先进的一致性半监督框架,并且未考虑动作在时序上的互相依赖性及相关性。LTG[9]基于三个视图的信息互补,搭建三个一致性半监督框架达到了最优的识别性能。
表5
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
参考文献:
[1]A.Tarvainen and H.Valpola,"Mean teachers are better role models:Weight-averaged consistency targets improve semi-supervised deep learningresults,"in Advances in neural information processing systems,2017,vol.30,pp.1195-1204.
[2]D.H.Lee,"Pseudo-Label:The Simple and Efficient Semi-SupervisedLearning Method for Deep Neural Networks,"in ICML,2013,vol.3,p.896.
[3]R.Girdhar,D.Tran,L.Torresani,and D.Ramanan,"Distinit:Learningvideo representations without a single labeled video,"in Proceedings of theIEEE/CVF International Conference on Computer Vision,2019,pp.852-861.[4]X.Zhai,A.Oliver,A.Kolesnikov,and L.Beyer,"S4l:Self-supervised semi-supervisedlearning,"in Proceedings of the IEEE/CVF International Conference on ComputerVision,2019,pp.1476-1485.
[5]M.N.Rizve,K.Duarte,Y.S.Rawat,and M.Shah,"In defense of pseudo-labeling:An uncertainty-aware pseudo-label selection framework for semi-supervised learning,"in 9th International Conference on LearningRepresentations,2021.
[6]L.Jing,T.Parag,Z.Wu,Y.Tian,and H.Wang,"Videossl:Semi-supervisedlearning for video classification,"in Proceedings of the IEEE/CVF WinterConference on Applications of Computer Vision,2021,pp.1110-1119.
[7]Y.Zou,J.Choi,Q.Wang,and J.-B.Huang,"Learning representationalinvariances for data-efficient action recognition,"arXiv preprint arXiv:2103.16565,2021.
[8]B.Xiong,H.Fan,K.Grauman,and C.Feichtenhofer,"Multiview pseudo-labeling for semi-supervised learning from video,"in Proceedings of the IEEE/CVF International Conference on Computer Vision,2021,pp.7209-7219.
[9]J.Xiao et al.,"Learning from Temporal Gradient for Semi-supervisedAction Recognition,"arXiv preprint arXiv:2111.13241,2021.
Claims (9)
1.一种基于一致性半监督深度学习的人体行为识别方法,其特征在于,包括以下步骤:
(1)获取有标签的视频集X以及无标记视频集U,分别从X、U中获取小批量的频集X'、U'作为训练数据样本集;
(2)对训练数据样本集进行视频数据增强处理,包括视频数据空间增强和视频数据时序增强;
(3)搭建改进3D-Resnet18网络,改进3D-Resnet18网络包括17层卷积层和一层全连接层;
(4)构建损失函数L1=Ls;其中,损失函数Ls为监督信号,用于计算真实标签和预测概率之间的交叉熵损失;
(5)加载初始化网络参数的改进3D-Resnet18网络,基于损失函数Ls,利用训练数据样本集X'对网络进行训练,计算Ls的损失值,即损失函数L1的损失值,第一次的损失值作为初始损失值,将当前的损失值与上一次的损失值做比较,如果当前损失值小于上一次的损失值,使用随机梯度下降算法更新网络参数,重复上述优化过程,直到损失值不再下降时,网络达到了当前迭代下的拟合,得到优化好的改进3D-Resnet18网络;
(6)构建损失函数L2=Ls+λdLd;其中,损失函数Ld为时序信号,用于计算视频数据时序增强后动作预测之间的詹森香浓熵散度;λd为时序信号Ld的权重;
(7)加载步骤(5)中优化好的改进3D-Resnet18网络;
基于损失函数Ls,利用训练数据样本集X'对改进的3D-Resnet18网络进行训练,计算Ls的损失值;
基于损失函数Ld,利用训练数据样本集(X',U')对改进3D-Resnet18网络进行训练,计算Ld的损失值;
根据步骤(6)中构建的损失函数,计算L2的损失值,将L2第一次的损失值作为初始损失值,将当前L2损失值与上一次L2损失值做比较,如果当前L2损失值小于上一次L2损失值,使用随机梯度下降算法更新网络参数,直到L2损失值不再下降时,模型达到了当前迭代下的拟合,得到优化好的改进的3D-Resnet18网络;
(8)构建损失函数L=Ls+λuLu+λdLd,其中,Lu为伪监督信号,用于计算未标记样本的视频数据空间增强预测类别和视频数据时序增强预测概率之间的交叉熵损失,λu为伪监督信号Lu的权重;
(9)加载步骤(7)中优化好的改进3D-Resnet18网络;
基于损失函数Ls,利用训练数据样本集X'改进3D-Resnet18网络进行训练,计算Ls的损失值;
基于损失函数Lu,利用训练数据样本集U'对改进3D-Resnet18网络进行训练,计算Lu的损失值;
基于损失函数Ld,利用训练数据样本集(X',U')对改进3D-Resnet18网络进行训练,计算Ld的损失值;
根据步骤(8)中构建的损失函数,计算L3的损失值,将L3第一次损失值作为初始损失值,将当前L3的损失值与上一次L3的损失值做比较,如果当前L3的损失值小于上一次L3的损失值,使用随机梯度下降算法更新网络参数,直到L3的损失值不再下降时,网络达到了当前迭代下的拟合,得到优化好的改进的3D-Resnet18网络;
(10)加载步骤(9)中优化好的改进3D-Resnet18网络对需要进行行为识别的视频进行人体行为识别。
2.根据权利要求1所述一种基于一致性半监督深度学习的人体行为识别方法,其特征在于,
所述视频数据空间增强:视频是由视频序列F构成的,从视频序列F=[f1,f2,...,fM],从m帧开始以x=[ft,ft+υ,ft+2υ,...,ft+(N-1)υ]帧率提取N帧,得到视频中动作的粗粒度表达x=[fm,fm+υ,fm+2υ,...,fm+(N-1)υ];对视频动作的粗粒度表达x以概率P进行空间增强,得到视频数据空间增强表达α(x),空间增强包括图像水平翻转和图像随机裁剪;
所述视频数据时序增强处理可以获得细粒度动作的前时动作表达、细粒度动作的后时动作表达;
细粒度动作的前时动作表达:从视频序列F=[f1,f2,...,fM],我们以v1帧率提取n帧,n<N,再以v2帧率提取N-n帧,v1>v2,得到细粒度动作的前时动作表达βpre(x);
细粒度动作的后时动作表达:从视频序列F=[f1,f2,...,fM],我们以v2帧率提取n帧,再以v1帧率提取N-n帧,v1>v2,得到细粒度动作的后时动作表达βpost(x)。
3.根据权利要求1所述一种基于一致性半监督深度学习的人体行为识别方法,其特征在于,所述改进3D-Resnet18网络包括17层卷积层,最后一层是全连接层;其中,2-16层的卷积层中,使用Leaky-ReLU函数代替ReLU,并且在全连接层后添加Dropout,用于缓解模型的过拟合问题。
5.根据权利要求2所述一种基于一致性半监督深度学习的人体行为识别方法,其特征在于,步骤(7)中计算时序信号Ld的损失值,具体如下:
对于视频x∈{X',U'},对视频x进行视频数据时序增强,得到细粒度动作的前时动作表达βpre(x)和细粒度动作的后时动作表达βpost(x);将βpre(x)、βpost(x)使用改进3D-Resnet18网络进行训练,分别获得每个视频属于其对应标签的预测概率P(βpre(x))、P(βpost(x)),计算视频数据时序增强后动作预测之间的詹森香农熵散度:
P(βavg(x))=(P(βpost(x))+P(βpre(x)))/2 (2)
Ld=LKL(P(βpre(x)),P(βavg(x)))+LKL(P(βpost(x)),P(βavg(x))) (5)。
6.根据权利要求2所述一种基于一致性半监督深度学习的人体行为识别方法,其特征在于,步骤(9)中计算伪监督信号Lu的损失值,具体如下:
将视频的细粒度动作的前时动作表达和细粒度动作的后时动作表达分别通过卷积层提取到前时动作特征H1和后时动作特征H2,将前时动作特征H1和后时动作特征H2融合,得到融合后的特征H,H=H1+H2,将融合后的特征H输入全连接层进行分类,得到预测概率
7.根据权利要求6所述一种基于一致性半监督深度学习的人体行为识别方法,其特征在于,所述采用伪标签技术设定阈值Tt(c),包括以下步骤:
针对于步骤(4.3)中选取的小批量视频集将视频样本进行视频数据空间增强处理,得到视频数据空间增强表达对视频进行视频数据时序增强处理,得到细粒度动作的前时动作表达和细粒度动作的后时动作表达将分别使用改进3D-Resnet18网络进行训练,分别获得预测概率
其中,I是指示函数,当满足括号内条件时进行计数为1;
为了减少模型的噪声数据输入,设定阈值上限τmin和阈值下限τmax;
8.根据权利要求1所述一种基于一致性半监督深度学习的人体行为识别方法,其特征在于,
在对改进3D-Resnet18网络进行训练过程中,训练轮次EPOCH,一个轮次中包含STEP次训练;初始学习率为η0;
若当前获得的总损失小于上一次训练获得的总损失,使用随机梯度下降算法更新网络参数;否则,不更新网络参数,获得优化好的改进3D-Resnet18网络;在EPOCH*STEP的周期内,使用余弦衰减函数实现学习率在[0-η0]范围内动态的变更。
9.根据权利要求1所述一种基于一致性半监督深度学习的人体行为识别方法,其特征在于,步骤(10)中加载步骤(9)中优化好的改进3D-Resnet18网络对需要进行行为识别的视频进行人体行为识别,具体步骤如下:
将一段视频长度为S的待预测视频V,通过匀速帧提取后的视频剪辑长度为s,随机挑选x∈(0,S-s)作为起始帧,输入步骤(9)中优化好的改进3D-Resnet18网络中,遍历视频,选择预测置信度最大的作为动作的类别c:c=argmax(P(v));
对同一动作重复采样五次,取五次预测概率的均值Pmean(V)作为该视频V的最后预测结果;取预测结果的最大值对应的动作类别作为最终的预测结果class:class=argmax(Pmean(V))。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210762539.5A CN115188022A (zh) | 2022-06-30 | 2022-06-30 | 一种基于一致性半监督深度学习的人体行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210762539.5A CN115188022A (zh) | 2022-06-30 | 2022-06-30 | 一种基于一致性半监督深度学习的人体行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115188022A true CN115188022A (zh) | 2022-10-14 |
Family
ID=83515971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210762539.5A Pending CN115188022A (zh) | 2022-06-30 | 2022-06-30 | 一种基于一致性半监督深度学习的人体行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115188022A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117407752A (zh) * | 2023-10-20 | 2024-01-16 | 重庆理工大学 | 基于类别感知课程学习的半监督立场检测方法 |
CN117423032A (zh) * | 2023-10-20 | 2024-01-19 | 大连理工大学 | 时空细粒度人体动作时序分割方法、电子设备和计算机可读存储介质 |
-
2022
- 2022-06-30 CN CN202210762539.5A patent/CN115188022A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117407752A (zh) * | 2023-10-20 | 2024-01-16 | 重庆理工大学 | 基于类别感知课程学习的半监督立场检测方法 |
CN117423032A (zh) * | 2023-10-20 | 2024-01-19 | 大连理工大学 | 时空细粒度人体动作时序分割方法、电子设备和计算机可读存储介质 |
CN117423032B (zh) * | 2023-10-20 | 2024-05-10 | 大连理工大学 | 时空细粒度人体动作时序分割方法、电子设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10891524B2 (en) | Method and an apparatus for evaluating generative machine learning model | |
CN109583501B (zh) | 图片分类、分类识别模型的生成方法、装置、设备及介质 | |
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN110929622B (zh) | 视频分类方法、模型训练方法、装置、设备及存储介质 | |
CN109891897B (zh) | 用于分析媒体内容的方法 | |
CN109508642B (zh) | 基于双向gru和注意力机制的船舶监控视频关键帧提取方法 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN110298415A (zh) | 一种半监督学习的训练方法、系统和计算机可读存储介质 | |
CN113297936B (zh) | 一种基于局部图卷积网络的排球群体行为识别方法 | |
CN112560827B (zh) | 模型训练方法、装置、预测方法、电子设备及介质 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN115188022A (zh) | 一种基于一致性半监督深度学习的人体行为识别方法 | |
CN114821204A (zh) | 一种基于元学习嵌入半监督学习图像分类方法与系统 | |
CN116385791A (zh) | 基于伪标签的重加权半监督图像分类方法 | |
Arinaldi et al. | Cheating video description based on sequences of gestures | |
CN112819024B (zh) | 模型处理方法、用户数据处理方法及装置、计算机设备 | |
CN107392229B (zh) | 一种基于最面向社会关系抽取的网络表示方法 | |
Yin et al. | Semi-supervised semantic segmentation with multi-reliability and multi-level feature augmentation | |
CN115731498A (zh) | 一种联合强化学习和对比学习的视频摘要生成方法 | |
CN112560668B (zh) | 一种基于场景先验知识的人体行为识别方法 | |
CN115705706A (zh) | 视频处理方法、装置、计算机设备和存储介质 | |
Xia et al. | Multi-stream network with key frame sampling for human action recognition | |
CN118015507A (zh) | 基于时域增强和对比学习的弱监督视频暴力检测方法 | |
CN117556152A (zh) | 基于显著信息和标签相关性挖掘的视频社交关系识别方法、系统 | |
CN117095460A (zh) | 基于长短时关系预测编码的自监督群体行为识别方法及其识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |