Nothing Special   »   [go: up one dir, main page]

CN111325097A - 增强的单阶段解耦的时序动作定位方法 - Google Patents

增强的单阶段解耦的时序动作定位方法 Download PDF

Info

Publication number
CN111325097A
CN111325097A CN202010062100.2A CN202010062100A CN111325097A CN 111325097 A CN111325097 A CN 111325097A CN 202010062100 A CN202010062100 A CN 202010062100A CN 111325097 A CN111325097 A CN 111325097A
Authority
CN
China
Prior art keywords
layer
branch
network
action
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010062100.2A
Other languages
English (en)
Other versions
CN111325097B (zh
Inventor
马苗
宋辰阳
郭敏
陈小秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN202010062100.2A priority Critical patent/CN111325097B/zh
Publication of CN111325097A publication Critical patent/CN111325097A/zh
Application granted granted Critical
Publication of CN111325097B publication Critical patent/CN111325097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种增强的单阶段解耦的时序动作定位方法,由构建增强的单阶段解耦的时序动作定位网络、初始化网络、提取训练集特征、训练增强的单阶段解耦的时序动作定位网络、提取测试集特征、测试增强的单阶段解耦的时序动作定位网络步骤组成。本发明在目前主流的单阶段解耦网络的时序动作定位方法的基础上,加深原始网络的深度以捕捉更抽象复杂的特征,引入了含光流信息的膨胀三维卷积网络特征以增强双流特征忽略的时间特征,得到增强的单阶段解耦的时序动作定位网络。本发明与现有技术相比,具有方法简单、准确率高等优点,在THUMOS14数据集上的实验结果表明,本发明比原始网络模型的mAP指标提高了2.7%,在挺举和接飞盘类别动作中AP值分别提高了10%和9.7%。

Description

增强的单阶段解耦的时序动作定位方法
技术领域
本发明属于视频图像处理技术领域,具体地涉及到检测视频中出现动作的时间段并识别出类别以及相应得分。
背景技术
时序动作定位指在一段视频中检测其包含的各个动作起止时间及动作类别,属计算机视觉研究领域的重要内容,在视频分类、人机交互、安防预警等众多领域有广泛的应用价值和潜在市场。由于在实际应用中,未知视频内容所包含的动作变化强弱不同会直接影响其持续时间的检测,部分动作的并发性也会导致各个动作片段持续时间上的重叠,因此如何在视频信息中,准确而快速地检测出感兴趣的特定动作信息仍然是本领域技术人员研究的热门课题。
对于视频的时序动作定位方法,应尽可能多地提取数据集中存在的特征以及合理有效地构建网络结构可以提高识别的准确率。深度学习解决问题的过程中还存在很多问题,例如:如何在视频数据集中提取更多更有价值的特征还有待研究;网络的深度(层数)对性能也有影响;在网络深度确定的情况下,训练网络时的迭代次数设置为多少适合构建的网络是本领域技术人员需要迫切解决的技术问题。
发明内容
本发明所要解决的技术问题在于克服现有技术的缺点,提供一种方法简单、准确率高的增强的单阶段解耦的时序动作定位方法。
解决上述技术问题所采用的技术方案是由下述步骤组成:
(1)构建增强的单阶段解耦的时序动作定位网络
将基础特征网络的输出与增强的单阶段解耦锚网络的输入连接构成增强的单阶段解耦的时序动作定位网络。
(2)初始化网络
用Kinetics数据集上预训练后的参数初始化膨胀三维卷积网络,用Xavier方法初始化增强的单阶段解耦的时序动作定位网络。
(3)提取训练集特征
1)将THUMOS14数据集中200个视频训练集输入到膨胀三维卷积网络。
2)按设置的窗口大小滑动,用膨胀三维卷积网络提取片段级特征,将片段级特征首尾拼接得到128×1024维度的特征。
(4)训练增强的单阶段解耦的时序动作定位网络
1)使用基础特征网络对提取到维度为128×1024的视频特征降维到维度为32×1024的视频特征。
2)设定变量epoch为0代表迭代次数,将降维后的视频特征输入到增强的单阶段解耦锚网络中进行训练,若变量epoch为40,网络训练完毕,若变量epoch不为40,则回到步骤1),并且令epoch为epoch+1,直到变量epoch为40。
(5)提取测试集特征
1)将THUMOS14数据集中213个视频测试集输入到膨胀三维卷积网络。
2)从膨胀三维卷积网络提取片段级特征,将片段级特征首尾拼接得到128×1024维度的特征。
(6)测试增强的单阶段解耦的时序动作定位网络
将测试集的视频特征输入到步骤(4)训练好的网络中,按下式得到交并比IoU:
Figure BDA0002377746770000021
式中Rp为预测的动作时间区间,Rgt为真实动作时间区间,对于视频中预测的某个动作片段,如果其预测动作类别和标记动作类别一致,且与真实动作的起始区间交并比为0.5~1,正确,否则不正确,使用均值平均精度mAP作为时序动作定位的评价指标,得到视频中动作的时间定位信息、相对应的类别以及得分。
本发明的增强的单阶段解耦锚网络由分类分支1、主干分支2、提议分支3构成。
本发明的主干分支2由主干分支第一层2-1、主干分支第二层2-2、主干分支第三层2-3、主干分支第四层2-4,四层多尺度特征图连接组成,将提取到的视频特征输入主干分支第一层2-1,主干分支第一层2-1的输出连接主干分支第二层2-2的输入,主干分支第二层2-2的输出连接主干分支第三层2-3的输入,主干分支第三层2-3的输出连接主干分支第四层2-4的输入,主干分支第四层2-4输出视频中的动作特征信息。
本发明的分类分支1由分类分支第一层1-1、分类分支第二层1-2、分类分支第三层1-3、分类分支第四层1-4,四层结构相同的多尺度特征图组成。主干分支第四层2-4的输出连接分类分支第四层1-4的输入,分类分支第四层1-4的输出经过反卷积2x与主干分支的第三层2-3融合后连接分类分支第三层1-3的输入,分类分支第三层1-3的输出经过反卷积2x与主干分支的第二层2-2融合后连接分类分支第二层1-2的输入,分类分支第二层1-2的输出经过反卷积2x与主干分支的第1层2-1融合后连接分类分支第一层1-1的输入,分类分支第一层1-1输出视频中动作的类别信息。
所述的提议分支3由提议分支第一层3-1、提议分支第二层3-2、提议分支第三层3-3、提议分支第四层3-4,四层多尺度特征图组成,主干分支第四层的输出连接提议分支第四层3-4的输入,提议分支第四层3-4的输出经过反卷积2x与主干分支的第三层2-3融合后连接提议分支第三层3-3的输入,提议分支第三层3-3的输出经过反卷积2x与主干分支的第二层2-2融合后连接提议分支第二层3-2的输入,提议分支第二层3-2的输出经过反卷积2x与主干分支的第1层2-1融合后连接提议分支第一层3-1的输入,提议分支第一层3-1输出视频中动作的时间边界信息。
由下式确定多尺度特征图
Figure BDA0002377746770000031
Figure BDA0002377746770000032
式中C为传统的一维时序卷积,D为反卷积操作,S为对应元素相加操作,
Figure BDA0002377746770000033
为下一层分类分支或提议分支特征,
Figure BDA0002377746770000034
为主干分支当前层的特征。
在本发明的提取训练集特征步骤(3)的步骤2)中,所述的窗口大小为1024帧,使用膨胀三维卷积网络对THUMOS 2014数据集进行提取特征。
在本发明的训练基于单阶段解耦的时序动作定位网络步骤(4)的步骤2)中,训练的参数最佳为:批次为48,步长为128,epoch前30次的学习率为0.0001,后10次的学习率为0.00001。
本发明在目前主流的单阶段解耦网络的时序动作定位方法的基础上,加深原始网络的深度以捕捉更抽象复杂的特征,引入了含光流信息的膨胀三维卷积网络特征以增强双流特征忽略的时间特征,得到了增强的单阶段解耦的时序动作定位网络。本发明与现有技术相比,具有方法简单、准确率高等优点,在THUMOS14数据集上的实验结果表明,本发明比原始网络模型的mAP指标提高了2.7%,在挺举和接飞盘类别动作中AP值分别提高了10%和9.7%。
附图说明
图1是本发明的流程图。
图2是图1中增强的单阶段解耦的时序动作定位网络结构图。
具体实施方式
下面结合附图和实施例对本发明进进一步详细说明,但本发明不限于下述实施例。
实施例1
以在THUMOS 2014数据集中选取的video_test_0001431视频为例,增强的单阶段解耦的时序动作定位方法步骤如下(参见图1):
(1)构建增强的单阶段解耦的时序动作定位网络
基础特征网络的输出与增强的单阶段解耦锚网络的输入连接构成增强的单阶段解耦的时序动作定位网络。
在图2中,本实施例的增强的单阶段解耦锚网络由分类分支1、主干分支2、提议分支3构成。主干分支2由主干分支第一层2-1、主干分支第二层2-2、主干分支第三层2-3、主干分支第四层2-4,四层多尺度特征图连接组成,将提取到的视频特征输入主干分支第一层2-1,主干分支第一层2-1的输出连接主干分支第二层2-2的输入,主干分支第二层2-2的输出连接主干分支第三层2-3的输入,主干分支第三层2-3的输出连接主干分支第四层2-4的输入,主干分支第四层多2-4输出视频中的动作特征信息。
分类分支1由分类分支第一层1-1、分类分支第二层1-2、分类分支第三层1-3、分类分支第四层1-4,四层结构相同的多尺度特征图组成。主干分支第四层2-4的输出连接分类分支第四层1-4的输入,分类分支第四层1-4的输出经过反卷积2x与主干分支的第三层2-3融合后连接分类分支第三层1-3的输入,分类分支第三层1-3的输出经过反卷积2x与主干分支的第二层2-2融合后连接分类分支第二层1-2的输入,分类分支第二层1-2的输出经过反卷积2x与主干分支的第1层2-1融合后连接分类分支第一层1-1的输入,分类分支第一层1-1输出视频中动作的类别信息。
提议分支3由提议分支第一层3-1、提议分支第二层3-2、提议分支第三层3-3、提议分支第四层3-4,四层多尺度特征图组成,主干分支第四层的输出连接提议分支第四层3-4的输入,提议分支第四层3-4的输出经过反卷积2x与主干分支的第三层2-3融合后连接提议分支第三层3-3的输入,提议分支第三层3-3的输出经过反卷积2x与主干分支的第二层2-2融合后连接提议分支第二层3-2的输入,提议分支第二层3-2的输出经过反卷积2x与主干分支的第1层2-1融合后连接提议分支第一层3-1的输入,提议分支第一层3-1输出视频中动作的时间边界信息。
由下式确定多尺度特征图
Figure BDA0002377746770000051
Figure BDA0002377746770000052
式中C为传统的一维时序卷积,D为反卷积操作,S为对应元素相加操作,
Figure BDA0002377746770000053
为下一层分类分支或提议分支特征,
Figure BDA0002377746770000054
为主干分支当前层的特征。经过增强的网络,捕获到了更为复杂抽象的时空特征和长程时序依赖关系。
(2)初始化网络
用Kinetics数据集上预训练后的参数初始化膨胀三维卷积网络,用Xavier方法初始化增强的单阶段解耦动作检测网络。
(3)提取训练集特征
1)将THUMOS14数据集中200个视频训练集输入到膨胀三维卷积网络。本发明使用膨胀三维卷积网络提取特征,具有含光流信息的膨胀三维卷积网络特征解决了双流特征忽略的时间特征问题。
2)按设置的窗口大小滑动,用膨胀三维卷积网络提取片段级特征,将片段级特征首尾并接得到128×1024维度的特征,本实例的窗口大小为1024帧。
(4)训练增强的单阶段解耦的时序动作定位网络
1)使用基础特征网络对提取到维度为128×1024的视频特征降维到维度为32×1024的视频特征;
2)设定变量epoch为0代表迭代次数,迭代次数epoch为40次,epoch前30次的学习率为0.0001,后10次的学习率为0.00001,训练时批次为48,步长为128。将降维后的视频特征输入到增强的单阶段解耦锚网络中进行训练,若变量epoch为40,网络训练完毕,若变量epoch不为40,则回到步骤1),并且令epoch为epoch+1,直到变量epoch为40。增加网络训练次数,可以使网络更好的学习输入特征中的信息。
(5)提取测试集特征
1)将THUMOS14数据集中video_test_0001431视频输入到膨胀三维卷积网络。
2)从膨胀三维卷积网络提取片段级特征,将片段级特征首尾拼接得到128×1024维度的特征。
(6)测试增强的单阶段解耦的时序动作定位网络
将测试集的视频特征输入到步骤(4)训练好的网络中,按下式得到交并比IoU:
Figure BDA0002377746770000061
式中Rp为预测的动作时间区间,Rgt为真实动作时间区间,对于视频中预测的某个动作片段,如果其预测动作类别和标记动作类别一致,且与真实动作的起始区间交并比为0.5~1,正确,否则不正确,使用均值平均精度mAP作为时序动作定位的评价指标,由分类分支1和提议分支3耦合得到视频中动作的时间定位信息,相对应的类别以及得分。经测试得到类别为“扔铅球”,相应的得分为0.7,时间边界具体表1可见。
为了验证本发明的有益效果,发明人采用本发明实施例1增强的单阶段解耦的时序动作定位方法与现有的单阶段解耦的时序动作定位方法进行了对比实验,视频video_test_0001431中真实动作时间区间为t1,视频video_test_000143利用现有的单阶段解耦的时序动作定位方法预测的时间区间为t2,实施例1预测的时间区间为t3。实验结果见表1。
表1实施例1与现有的单阶段解耦的时序动作定位方法对比实验结果
t1(秒) t2(秒) t3(秒)
88.8—98.6 86—92 89.9—95.3
134.8—148.2 92—98 94.2—103
266.2—275.2 103—107 100.7—108.5
297.3—302.3 108—114 112.6—118.3
266.2—270 136—142 136—145
297—302.3 145—150 143.7—150.5
262—270 265.8—272.1
274.2—280 295—298
274—290
291—296
296—299
由表1可见,在266秒—302秒之间,t2不仅检测出很多无效片段,动作发生的起止时间也没有t3检测出的准确。结果表明t3具有更高的准确率。

Claims (5)

1.增强的单阶段解耦的时序动作定位方法,其特征在于由下述步骤组成:
(1)构建增强的单阶段解耦的时序动作定位网络
将基础特征网络的输出与增强的单阶段解耦锚网络的输入连接构成增强的单阶段解耦的时序动作定位网络;
(2)初始化网络
用Kinetics数据集上预训练后的参数初始化膨胀三维卷积网络,用Xavier方法初始化增强的单阶段解耦的时序动作定位网络;
(3)提取训练集特征
1)将THUMOS14数据集中200个视频训练集输入到膨胀三维卷积网络;
2)按设置的窗口大小滑动,用膨胀三维卷积网络提取片段级特征,将片段级特征首尾拼接得到128×1024维度的特征;
(4)训练增强的单阶段解耦的时序动作定位网络
1)使用基础特征网络对提取到维度为128×1024的视频特征降维到维度为32×1024的视频特征;
2)设定变量epoch为0代表迭代次数,将降维后的视频特征输入到增强的单阶段解耦锚网络中进行训练,若变量epoch为40,网络训练完毕,若变量epoch不为40,则回到步骤1),并且令epoch为epoch+1,直到变量epoch为40;
(5)提取测试集特征
1)将THUMOS14数据集中213个视频测试集输入到膨胀三维卷积网络;
2)从膨胀三维卷积网络提取片段级特征,将片段级特征首尾拼接得到128×1024维度的特征;
(6)测试增强的单阶段解耦的时序动作定位网络
将测试集的视频特征输入到步骤(4)训练好的网络中,按下式得到交并比IoU:
Figure FDA0002377746760000021
式中Rp为预测的动作时间区间,Rgt为真实动作时间区间,对于视频中预测的某个动作片段,如果其预测动作类别和标记动作类别一致,且与真实动作的起始区间交并比为0.5~1,正确,否则不正确,使用均值平均精度mAP作为时序动作定位的评价指标,得到视频中动作的时间定位信息、相对应的类别以及得分。
2.根据权利要求1所述的增强的单阶段解耦的时序动作定位方法,其特征在于:所述的增强的单阶段解耦锚网络由分类分支(1)、主干分支(2)、提议分支(3)构成。
3.根据权利要求2所述的增强的单阶段解耦的时序动作定位方法,其特征在于:所述的主干分支(2)由主干分支第一层(2-1)、主干分支第二层(2-2)、主干分支第三层(2-3)、主干分支第四层(2-4),四层多尺度特征图连接组成,将提取到的视频特征输入主干分支第一层(2-1),主干分支第一层(2-1)的输出连接主干分支第二层(2-2)的输入,主干分支第二层(2-2)的输出连接主干分支第三层(2-3)的输入,主干分支第三层(2-3)的输出连接主干分支第四层(2-4)的输入,主干分支第四层多(2-4)输出视频中的动作特征信息;
所述的分类分支(1)由分类分支第一层(1-1)、分类分支第二层(1-2)、分类分支第三层(1-3)、分类分支第四层(1-4),四层结构相同的多尺度特征图组成。主干分支第四层(2-4)的输出连接分类分支第四层(1-4)的输入,分类分支第四层(1-4)的输出经过反卷积2x与主干分支的第三层(2-3)融合后连接分类分支第三层(1-3)的输入,分类分支第三层(1-3)的输出经过反卷积2x与主干分支的第二层(2-2)融合后连接分类分支第二层(1-2)的输入,分类分支第二层(1-2)的输出经过反卷积2x与主干分支的第1层(2-1)融合后连接分类分支第一层(1-1)的输入,分类分支第一层(1-1)输出视频中动作的类别信息;
所述的提议分支(3)由提议分支第一层(3-1)、提议分支第二层(3-2)、提议分支第三层(3-3)、提议分支第四层(3-4),四层多尺度特征图组成,主干分支第四层的输出连接提议分支第四层(3-4)的输入,提议分支第四层(3-4)的输出经过反卷积2x与主干分支的第三层(2-3)融合后连接提议分支第三层(3-3)的输入,提议分支第三层(3-3)的输出经过反卷积2x与主干分支的第二层(2-2)融合后连接提议分支第二层(3-2)的输入,提议分支第二层(3-2)的输出经过反卷积2x与主干分支的第1层(2-1)融合后连接提议分支第一层(3-1)的输入,提议分支第一层(3-1)输出视频中动作的时间边界信息;
由下式确定多尺度特征图
Figure FDA0002377746760000031
Figure FDA0002377746760000032
式中C为传统的一维时序卷积,D为反卷积操作,S为对应元素相加操作,
Figure FDA0002377746760000033
为下一层分类分支或提议分支特征,
Figure FDA0002377746760000034
为主干分支当前层的特征。
4.根据权利要求1所述的增强的单阶段解耦的时序动作定位方法,其特征在于:在提取训练集特征步骤(3)的步骤2)中,所述的窗口大小为1024帧,使用膨胀三维卷积网络对THUMOS 2014数据集进行提取特征。
5.根据权利要求1所述的增强的单阶段解耦的时序动作定位方法,其特征在于:所述的训练基于单阶段解耦的时序动作定位网络步骤(4)的步骤2)中,训练的参数为:批次为48,步长为128,epoch前30次的学习率为0.0001,后10次的学习率为0.00001。
CN202010062100.2A 2020-01-22 2020-01-22 增强的单阶段解耦的时序动作定位方法 Active CN111325097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010062100.2A CN111325097B (zh) 2020-01-22 2020-01-22 增强的单阶段解耦的时序动作定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010062100.2A CN111325097B (zh) 2020-01-22 2020-01-22 增强的单阶段解耦的时序动作定位方法

Publications (2)

Publication Number Publication Date
CN111325097A true CN111325097A (zh) 2020-06-23
CN111325097B CN111325097B (zh) 2023-04-07

Family

ID=71172828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010062100.2A Active CN111325097B (zh) 2020-01-22 2020-01-22 增强的单阶段解耦的时序动作定位方法

Country Status (1)

Country Link
CN (1) CN111325097B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018171109A1 (zh) * 2017-03-23 2018-09-27 北京大学深圳研究生院 基于卷积神经网络的视频动作检测方法
CN108805083A (zh) * 2018-06-13 2018-11-13 中国科学技术大学 单阶段的视频行为检测方法
CN109923500A (zh) * 2016-08-22 2019-06-21 奇跃公司 具有深度学习传感器的增强现实显示装置
CN110414367A (zh) * 2019-07-04 2019-11-05 华中科技大学 一种基于gan和ssn的时序行为检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109923500A (zh) * 2016-08-22 2019-06-21 奇跃公司 具有深度学习传感器的增强现实显示装置
WO2018171109A1 (zh) * 2017-03-23 2018-09-27 北京大学深圳研究生院 基于卷积神经网络的视频动作检测方法
CN108805083A (zh) * 2018-06-13 2018-11-13 中国科学技术大学 单阶段的视频行为检测方法
CN110414367A (zh) * 2019-07-04 2019-11-05 华中科技大学 一种基于gan和ssn的时序行为检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王耀南等: "智能制造装备视觉检测控制方法综述", 《控制理论与应用》 *

Also Published As

Publication number Publication date
CN111325097B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110084292B (zh) 基于DenseNet和多尺度特征融合的目标检测方法
CN109919031B (zh) 一种基于深度神经网络的人体行为识别方法
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN106294344B (zh) 视频检索方法和装置
CN108629288B (zh) 一种手势识别模型训练方法、手势识别方法及系统
CN110516536A (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN108961308B (zh) 一种漂移检测的残差深度特征目标跟踪方法
CN111368754B (zh) 一种基于全局上下文信息的机场跑道异物检测方法
CN113157678B (zh) 一种多源异构数据关联方法
CN110443174B (zh) 一种基于解耦自适应判别性特征学习的行人重识别方法
CN110991278A (zh) 计算机视觉系统的视频中人体动作识别方法和装置
CN114239083B (zh) 一种基于图神经网络的高效状态寄存器识别方法
CN114782997A (zh) 基于多损失注意力自适应网络的行人重识别方法及系统
CN103440471A (zh) 基于低秩表示的人体行为识别方法
CN113361370B (zh) 一种基于深度学习的异常行为检测方法
CN116416503A (zh) 一种基于多模态融合的小样本目标检测方法、系统及介质
CN110503663B (zh) 一种基于抽帧检测的随机多目标自动检测跟踪方法
CN111325097B (zh) 增强的单阶段解耦的时序动作定位方法
CN114266805A (zh) 一种用于无人机目标跟踪的孪生区域建议网络模型
CN108121970A (zh) 一种基于差异矩阵和矩阵度量的行人重识别方法
CN110472088A (zh) 一种基于草图的图像检索方法
CN116342955A (zh) 一种基于改进的特征金字塔网络的目标检测方法及系统
Duan et al. Improved YOLOv5 object detection algorithm for remote sensing images
CN113762478A (zh) 射频干扰检测模型、射频干扰检测方法及装置
CN113627522A (zh) 基于关系网络的图像分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant