CN111310609B - 基于时序信息和局部特征相似性的视频目标检测方法 - Google Patents
基于时序信息和局部特征相似性的视频目标检测方法 Download PDFInfo
- Publication number
- CN111310609B CN111310609B CN202010075005.6A CN202010075005A CN111310609B CN 111310609 B CN111310609 B CN 111310609B CN 202010075005 A CN202010075005 A CN 202010075005A CN 111310609 B CN111310609 B CN 111310609B
- Authority
- CN
- China
- Prior art keywords
- frame
- target
- feature
- feature map
- regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 238000011176 pooling Methods 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 238000012937 correction Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 10
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 abstract 1
- 238000004088 simulation Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于时序信息和局部特征相似性的视频目标检测方法,主要解决现有技术检测视频目标准确率较低和特征位置不匹配的问题。其实现方案是:用ResNet网络提取视频每一帧的特征图;用局部特征哈希相似性度量计算特征图的相似性,并用该哈希相似性得分表示当前位置特征的变化;对相邻帧的特征图进行加权,并与当前帧特征相加,得到当前帧的修正特征;用基于稀疏分类的区域候选网络得到修正特征的候选目标框;用感兴趣区域池化得到大小统一的特征,并将这些大小统一的特征输入到训练后的分类和回归网络,得到检测结果。本发明提高了检测准确率较高,降低了计算复杂度。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种视频目标检测方法,可用于视频中的目 标识别和定位。
背景技术
计算机视觉是人工智能的一个重要领域,是一门关于计算机和软件系统的科学,可以让 计算机对图像及场景进行识别和理解,计算机视觉包括图像识别、目标检测、图像生成、图 像超分辨率重建等分支领域。视觉理解主要有三个层次,分别是分类、检测、分割。其中, 分类任务关心整体,给出的是整张图片的内容描述,而检测则关注特定的物体目标,要求同 时获得这一目标的识别结果和定位结果。相比分类,检测给出的是对图片前景和背景的理解, 还需要从背景中分离出感兴趣的目标,并确定这一目标的识别和定位结果。
目标检测是计算机视觉领域一个重要的研究课题,它的实现是运动目标跟踪、目标识别、 行为理解等视频分析技术的关键,目标检测的效果将直接影响到后续工作的进展。图像目标 检测任务在过去几年的时间取得了巨大的进展,检测性能得到明显提升。特别是在视频监控、 车辆辅助驾驶等领域,基于视频的目标检测有着更为广泛的需求。但是,要将图像检测技术 直接用到视频检测会面临新的挑战。第一,把深度网络应用到所有的视频帧会带来巨大的运 算代价;第二,对存在运动模糊、视频虚焦、罕见姿势的视频帧直接用图像检测技术检测, 准确率较低。
为了提高视频检测准确率,较早的方法大都关注后处理,在图像目标检测对每一帧进行 检测之后,利用视频特有的时序特征对检测结果做进一步处理,如管道卷积神经网络T-CNN 和序列非极大值抑制Seq-NMS方法。但是,这种后处理方法无疑增加了检测所需的计算,减 小了检测速度,无法满足实时性的需求。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于时序信息和局部特征相似性 的视频目标检测方法,以提高检测速度,满足实时性的需求。
本发明的技术方案是这样实现的:
本发明的技术思路是充分利用视频序列的时序信息、挖掘相邻帧图像中目标特征的变化, 其方案是:先用ResNet网络提取视频每一帧的特征图;再以自适应的方式,利用相邻前序 帧的时序信息对当前帧的特征进行修正;再通过基于稀疏分类的区域候选网络得到修正特征 的候选目标框;再用感兴趣区域池化得到大小统一的特征,随后通过分类和回归网络得到最 终的检测结果,具体实现步骤包括如下:
1.基于时序信息和局部特征相似性的视频目标检测方法,其特征在于,包括如下:
(1)分别对视频V中第t帧视频帧I(t)与其前k帧I(t-k),...,I(t-1),通过ResNet网络,得到 I(t)的特征图F(t)和I(t-k),...,I(t-1)的特征图F(t-k),...,F(t-1);
(2)计算F(t)与F(t-k),...,F(t-1)的局部特征哈希相似性得分s(t,t-k),...,s(t,t-1):
(3)基于时序信息计算视频帧I(t)的修正特征图F'(t):
(3.1)对局部特征哈希相似性得分s(t,t-k),...,s(t,t-1)在各个空间位置上分别进行softmax 操作,得到特征图F(t-k),...,F(t-1)对应的权重α(t-k),...,α(t-1);
(3.2)对特征图F(t-k),...,F(t-1)和对应权重α(t-k),...,α(t-1)在各个空间位置加权求和,并 与F(t)相加,得到视频帧I(t)的修正特征图F'(t);
(4)用视频帧I(t)的修正特征图F'(t)选择视频帧I(t)的候选目标区域:
(4.1)对I(t)帧的修正特征图F'(t),将其依次通过大小为3×3和1×1的卷积核,得到I(t)帧 的中间层特征图F”(t);
(4.2)在特征图的各个位置生成9个不同尺度的锚框,即先设置大小为16×16的基锚框, 保持面积不变使其长宽比为(0.5,1,2),再对这三个不同长宽比的锚框分别放大(8,16,32)个尺 度,一共得到9个锚框。
(4.3)训练softmax层和目标框回归层参数,得到训练后的softmax层和目标框回归层;
(4.4)对每一个锚框在I(t)帧的中间层特征图F”(t)上,用训练后的softmax层判断是否 含有目标:
若含有目标,则用训练后的目标框回归对锚框坐标进行微调,得到I(t)帧的若干候选目 标区域,执行(5);
若不含有目标,则将锚框丢弃;
(5)在视频帧I(t)的修正特征图F'(t)上,对每个候选目标区域用感兴趣区域池化提取其 大小统一的候选区域特征;
(6)用各个候选区域特征得到视频帧的目标类别和目标框位置:
(6.1)训练分类和回归网络,得到训练后的分类和回归网络:
(6.2)将视频帧I(t)的各个候选区域特征输入到训练后的分类和回归网络,分别得到视 频帧I(t)的目标类别和目标框位置。
进一步,(2)中计算F(t)与F(t-k),...,F(t-1)的局部特征哈希相似性得分s(t,t-k),...,s(t,t-1),实 现如下:
(2.1)计算第t帧特征图F(t)和第t-k帧特征图F(t-k)的局部特征哈希相似性得分:
(2.1g)重复(2.1a)–(2.1f),计算第t帧特征图F(t)和第t-k帧特征图F(t-k)在所有位置的哈希相似性得分,并根据空间位置将它们进行组合,得到第t帧特征图和第t-k帧特征图的局部特征哈希相似性得分s(t,t-k);
(2.2)重复(2.1),分别计算F(t)与F(t-k+1),...,F(t-1)的局部特征哈希相似性得分 s(t,t-k+1),...,s(t,t-1),从而得到第t帧视频帧与其前k帧的的局部特征哈希相似性得分 s(t ,t-k),...,s(t,t-1)。
本发明与现有技术相比,具有如下优点:
1)本发明在两阶段图像目标检测方法的基础上,基于时序信息,考虑相邻帧间的关系, 在多帧构成的视频序列上,通过对相邻帧的特征进行加权,并与当前帧特征相加,自适应地 得到当前帧的修正特征,可对存在运动模糊、视频虚焦、罕见姿势的视频帧修正特征后检测, 提高了检测准确率。
2)本发明在利用时序信息对特征进行修正中,利用局部特征哈希相似性度量计算特征 相似性,并用该哈希相似性得分表示当前位置特征的变化,解决了由于视频中运动目标位置 变化带来的特征位置不匹配问题,与常见的相似性度量方法相比,降低了计算复杂度,提高 了运行效率。
附图说明
图1是本发明的实现流程图;
图2是本发明中计算局部特征哈希相似性得分的子流程图;
图3是本发明中计算修正特征的子流程图;
图4和图5是用本发明进行视频目标检测的效果图。
具体实施方式
下面结合附图对本发明的实施例和效果做进一步详细说明。
本发明的实施主要分为训练和测试两个部分,训练过程是通过计算模型损失函数和反向 传播,更新模型参数;测试过程是固定参数,先利用时序信息计算视频帧的修正特征,再用 修正特征得到视频帧的目标类别和目标框位置。
参照图1,本实例的实现步骤如下:
步骤1,计算第t帧视频帧及其前序帧的特征图。
对视频V中第t帧视频帧I(t)与其前k帧I(t-k),...,I(t-1),通过ResNet网络,得到I(t)的特 征图F(t)和I(t-k),...,I(t-1)的特征图F(t-k),...,F(t-1)。
所述ResNet网络是由1个7×7卷积层、1个3×3最大池化层、16个残差块组成的特征提取网络,其中每个残差块分别由1个1×1卷积层、1个3×3卷积层、1个1×1卷积层 和恒等映射组合而成。
步骤2,计算第t帧视频帧与其前k帧的局部特征哈希相似性得分。
2.1)计算第t帧特征图F(t)和第t-k帧特征图F(t-k)的局部特征哈希相似性得分:
参照图2,本步骤的具体实现如下:
2.1g)重复2.1a)–2.1f),计算第t帧特征图F(t)和第t-k帧特征图F(t-k)在所有位置的哈希相似性得分,并根据空间位置将它们进行组合,得到第t帧特征图和第t-k帧特征图的局部特征哈希相似性得分s(t,t-k);
2.2)重复步骤2.1),分别计算F(t)与F(t-k+1),...,F(t-1)的局部特征哈希相似性得分s(t,t-k+1),...,s(t,t-1),从而得到第t帧视频帧与其前k帧的的局部特征哈希相似性得分 s(t ,t-k),...,s(t,t-1)。
步骤3,计算第t帧视频帧的修正特征图。
参照图3,本步骤实现如下:
3.1)对局部特征哈希相似性得分s(t,t-k),...,s(t,t-1)在各个空间位置上分别进行softmax操 作,得到特征图F(t-k),...,F(t-1)对应的权重α(t-k),...,α(t-1);
3.2)对特征图F(t-k),...,F(t-1)和对应权重α(t-k),...,α(t-1)在各个空间位置进行加权求和, 并与F(t)相加,得到视频帧I(t)的修正特征图F'(t):
步骤4,用第t帧视频帧的修正特征图选择候选目标区域。
4.1)对I(t)帧的修正特征图F'(t),将其依次通过大小为3×3和1×1的卷积核,得到I(t)帧 的中间层特征图F”(t);
4.2)在中间层特征图F”(t)的各个位置生成9个不同尺度的锚框,即先设置大小为16×16 的基锚框,保持面积不变使其长宽比为(0.5,1,2),再对这三个不同长宽比的锚框分别放大 (8,16,32)个尺度,一共得到9个锚框;
4.3)训练softmax层和目标框回归层参数:
4.3a)随机初始化softmax层和目标框回归层参数;
4.3b)对每一锚框,用初始化后的softmax层计算锚框含有目标的概率,用初始化后的 目标框回归计算锚框的参数化坐标;
其中,ei为softmax层计算的第i个锚框Ai含有目标的概率,是锚框Ai是否含有目标 的真实值标签,oi是锚框Ai的参数化坐标,是与锚框Ai对应的真实值目标框的坐标,是目标是否存在的对数损失,是目标框回归的Smooth L1损失,为softmax层参数,为约束softmax层参数的L1正则项,Ncls为训练批次的数量,Nreg为锚框数量,λ1和λ2是平衡权重;
4.3d)利用区域候选损失函数,通过反向传播算法更新softmax层和目标框回归层参数, 直到区域候选损失函数收敛,得到训练后的softmax层和目标框回归层;
4.4)对每一个锚框在I(t)帧的中间层特征图F”(t)上,用训练后的softmax层计算锚框含 有目标的概率p,并将该概率与设定的阈值q进行比较:
若p>q,则锚框含有目标,再用训练后的目标框回归层对锚框坐标进行微调,得到I(t)帧的若干候选目标区域,执行步骤5;
若p≤q,则锚框不含有目标,并将锚框丢弃。
步骤5,对每个候选目标区域提取大小统一的候选区域特征。
在视频帧I(t)的修正特征图F'(t)上,对每个候选目标区域用感兴趣区域池化提取其大小 统一的候选区域特征,即先将每个候选目标区域在修正特征图F'(t)上划分为wr×hr个网格, 再在每个网格里进行最大池化操作,得到大小统一为wr×hr的候选区域特征。
步骤6,用各个候选区域特征得到视频帧的目标类别和目标框位置。
6.1)训练分类和回归网络:
6.1a)随机初始化分类和回归网络的参数;
6.1b)对每一个候选区域特征,用初始化后分类网络计算候选区域属于各个类别的概率, 再用初始化后的回归网络计算候选区域的参数化坐标;
其中,z是第i个候选区域的真实类别,是第i个候选区域属于z类的概率,γ是专注 参数,是目标分类的focal loss损失;oi是第i个候选区域的参数化坐标, 是与第i个候选区域对应的真实目标框的坐标向量,是目标框的SmoothL1回 归损失,λ是平衡权重;
6.1d)利用目标检测损失函数,通过反向传播算法更新分类和回归网络参数,直到目标 检测损失函数收敛,得到训练后的分类和回归网络;
6.2)将视频帧I(t)的各个候选区域特征输入到训练后的分类和回归网络,分别得到视频 帧I(t)的目标类别和目标框位置。
本发明的效果可通过以下仿真进一步说明:
1.仿真条件
使用带有RTX 2080TI显卡的工作站,使用PyTorch软件框架。
选用目标为飞机的画面较为模糊的连续四帧图像作为第一组被检测的视频序列,如图 4(a)-4(d);
选用目标为狗的目标快速运动的连续四帧图像作为第二组被检测的视频序列,如图 5(a)-5(d)。
2.仿真内容
仿真1,用本发明的方法对第一组被检测的视频序列进行视频目标检测,得到的第四帧 的检测结果,如图4(d)。
仿真2,用本发明的方法对第二组被检测的视频序列进行视频目标检测,得到的第四帧 的检测结果,如图5(d)。
3.仿真结果分析
从图4(d)可以看出在画面较为模糊的情况下,本发明能准确检测出视频中目标的类别 和位置,从图5(d)可以看出在高速剧烈的动作下,本发明能准确检测出视频中形态变化较 大的目标。
Claims (6)
1.基于时序信息和局部特征相似性的视频目标检测方法,其特征在于,包括如下:
(1)分别对视频V中第t帧视频帧I(t)与其前k帧I(t-k),...,I(t-1),通过ResNet网络,得到I(t)的特征图F(t)和I(t-k),...,I(t-1)的特征图F(t-k),...,F(t-1);
(2)计算F(t)与F(t-k),...,F(t-1)的局部特征哈希相似性得分s(t,t-k),...,s(t,t-1):
(3)基于时序信息计算视频帧I(t)的修正特征图F'(t):
(3.1)对局部特征哈希相似性得分s(t,t-k),...,s(t,t-1)在各个空间位置上分别进行softmax操作,得到特征图F(t-k),...,F(t-1)对应的权重α(t-k),...,α(t-1);
(3.2)对特征图F(t-k),...,F(t-1)和对应权重α(t-k),...,α(t-1)在各个空间位置加权求和,并与F(t)相加,得到视频帧I(t)的修正特征图F'(t);
(4)用视频帧I(t)的修正特征图F'(t)选择视频帧I(t)的候选目标区域:
(4.1)对I(t)帧的修正特征图F'(t),将其依次通过大小为3×3和1×1的卷积核,得到I(t)帧的中间层特征图F”(t);
(4.2)在特征图的各个位置生成9个不同尺度的锚框,即先设置大小为16×16的基锚框,保持面积不变使其长宽比为(0.5,1,2),再对这三个不同长宽比的锚框分别放大(8,16,32)个尺度,一共得到9个锚框。
(4.3)训练softmax层和目标框回归层参数,得到训练后的softmax层和目标框回归层;
(4.4)对每一个锚框在I(t)帧的中间层特征图F”(t)上,用训练后的softmax层判断是否含有目标:
若含有目标,则用训练后的目标框回归对锚框坐标进行微调,得到I(t)帧的若干候选目标区域,执行(5);
若不含有目标,则将锚框丢弃;
(5)在视频帧I(t)的修正特征图F'(t)上,对每个候选目标区域用感兴趣区域池化提取其大小统一的候选区域特征;
(6)用各个候选区域特征得到视频帧的目标类别和目标框位置:
(6.1)训练分类和回归网络,得到训练后的分类和回归网络:
(6.2)将视频帧I(t)的各个候选区域特征输入到训练后的分类和回归网络,分别得到视频帧I(t)的目标类别和目标框位置。
2.根据权利要求1所述的方法,其特征在于,(2)中计算F(t)与F(t-k),...,F(t-1)的局部特征哈希相似性得分s(t,t-k),...,s(t,t-1),实现如下:
(2.1)计算第t帧特征图F(t)和第t-k帧特征图F(t-k)的局部特征哈希相似性得分:
(2.1g)重复(2.1a)–(2.1f),计算第t帧特征图F(t)和第t-k帧特征图F(t-k)在所有位置的哈希相似性得分,并根据空间位置将它们进行组合,得到第t帧特征图和第t-k帧特征图的局部特征哈希相似性得分s(t,t-k);
(2.2)重复(2.1),分别计算F(t)与F(t-k+1),...,F(t-1)的局部特征哈希相似性得分s(t ,t-k+1),...,s(t,t-1),从而得到第t帧视频帧与其前k帧的的局部特征哈希相似性得分s(t ,t-k),...,s(t,t-1)。
3.根据权利要求1所述的方法,其特征在于,(1)中的ResNet网络是由1个7×7卷积层、1个3×3最大池化层、16个残差块组成的特征提取网络,其中每个残差块分别由1个1×1卷积层、1个3×3卷积层、1个1×1卷积层和恒等映射组合而成。
4.根据权利要求1所述的方法,其特征在于,(4.3)所述的训练softmax层和目标框回归层参数,实现如下:
(4.3a)随机初始化softmax层和目标框回归层参数;
(4.3b)对每一锚框,用初始化后的softmax层计算锚框含有目标的概率,用初始化后的目标框回归计算锚框的参数化坐标;
其中,ei为softmax层计算的第i个锚框Ai含有目标的概率,是锚框Ai是否含有目标的真实值标签,oi是锚框Ai的参数化坐标,是与锚框Ai对应的真实值目标框的坐标,是目标是否存在的对数损失,是目标框回归的Smooth L1损失,为softmax层参数,为约束softmax层参数的L1正则项,Ncls为训练批次的数量,Nreg为锚框数量,λ1和λ2是平衡权重;
(4.3d)利用区域候选损失函数,通过反向传播算法更新softmax层和目标框回归层参数,直到区域候选损失函数收敛,得到训练后的softmax层和目标框回归层。
5.根据权利要求1所述的方法,其特征在于,(4.4)中用训练后的softmax层判断锚框是否含有目标,是用训练后的softmax层计算锚框含有目标的概率p,并将该概率与设定的阈值q进行比较:
若p>q,则锚框含有目标;
若p≤q,则锚框不含有目标。
6.根据权利要求1所述的方法,其特征在于,(6.1)所述的训练分类和回归网络,实现如下:
(6.1a)随机初始化分类和回归网络的参数;
(6.1b)对每一个候选区域特征,用初始化后分类网络计算候选区域属于各个类别的概率,再用初始化后的回归网络计算候选区域的参数化坐标;
其中,z是第i个候选区域的真实类别,是第i个候选区域属于z类的概率,γ是专注参数,是目标分类的focal loss损失;oi是第i个候选区域的参数化坐标,是与第i个候选区域对应的真实目标框的坐标向量,是目标框的Smooth L1回归损失,λ是平衡权重;
(6.1d)利用目标检测损失函数,通过反向传播算法更新分类和回归网络参数,直到目标检测损失函数收敛,得到训练后的分类和回归网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010075005.6A CN111310609B (zh) | 2020-01-22 | 2020-01-22 | 基于时序信息和局部特征相似性的视频目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010075005.6A CN111310609B (zh) | 2020-01-22 | 2020-01-22 | 基于时序信息和局部特征相似性的视频目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310609A CN111310609A (zh) | 2020-06-19 |
CN111310609B true CN111310609B (zh) | 2023-04-07 |
Family
ID=71148862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010075005.6A Active CN111310609B (zh) | 2020-01-22 | 2020-01-22 | 基于时序信息和局部特征相似性的视频目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310609B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380970B (zh) * | 2020-11-12 | 2022-02-11 | 常熟理工学院 | 基于局部区域搜索的视频目标检测方法 |
CN112383821B (zh) * | 2020-11-17 | 2023-03-24 | 有米科技股份有限公司 | 相似视频的智能化合并方法及装置 |
CN112434618B (zh) * | 2020-11-26 | 2023-06-23 | 西安电子科技大学 | 基于稀疏前景先验的视频目标检测方法、存储介质及设备 |
CN113436188B (zh) * | 2021-07-28 | 2023-02-03 | 北京计算机技术及应用研究所 | 一种利用卷积计算图像哈希值的方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549893B (zh) * | 2018-04-04 | 2020-03-31 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109829398B (zh) * | 2019-01-16 | 2020-03-31 | 北京航空航天大学 | 一种基于三维卷积网络的视频中的目标检测方法 |
CN110287826B (zh) * | 2019-06-11 | 2021-09-17 | 北京工业大学 | 一种基于注意力机制的视频目标检测方法 |
-
2020
- 2020-01-22 CN CN202010075005.6A patent/CN111310609B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111310609A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614985B (zh) | 一种基于密集连接特征金字塔网络的目标检测方法 | |
CN111310609B (zh) | 基于时序信息和局部特征相似性的视频目标检测方法 | |
CN108416266B (zh) | 一种利用光流提取运动目标的视频行为快速识别方法 | |
CN109543606A (zh) | 一种加入注意力机制的人脸识别方法 | |
CN111783523B (zh) | 一种遥感影像旋转目标检测方法 | |
CN108122247A (zh) | 一种基于图像显著性和特征先验模型的视频目标检测方法 | |
CN113744311A (zh) | 基于全连接注意力模块的孪生神经网络运动目标跟踪方法 | |
CN113706581B (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN111368660A (zh) | 一种单阶段半监督图像人体目标检测方法 | |
CN110781962B (zh) | 基于轻量级卷积神经网络的目标检测方法 | |
CN106056165B (zh) | 一种基于超像素关联性增强Adaboost分类学习的显著性检测方法 | |
CN115375737B (zh) | 基于自适应时间与序列化时空特征的目标跟踪方法与系统 | |
Ma et al. | An anchor-free object detector with novel corner matching method | |
CN115147456A (zh) | 一种基于时序自适应卷积与注意力机制的目标跟踪方法 | |
CN112329771B (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
Zheng et al. | Boundary-aware network with two-stage partial decoders for salient object detection in remote sensing images | |
CN116630850A (zh) | 基于多注意力任务融合与边界框编码的孪生目标跟踪方法 | |
CN113793472B (zh) | 基于特征深度聚合网络的图像型火灾探测器位姿估计方法 | |
CN115063890A (zh) | 基于两级加权均方损失函数的人体姿态估计方法 | |
CN106530319B (zh) | 一种基于轨迹有向图的视频对象协同分割方法 | |
CN107392246A (zh) | 一种基于特征模型到背景模型距离的背景建模方法 | |
Song et al. | Spatial-aware dynamic lightweight self-supervised monocular depth estimation | |
CN117830889A (zh) | 基于光流图特征融合机制的视频显著性检测方法、系统及存储介质 | |
Wang et al. | YOLOMask: Real-time instance segmentation with integrating YOLOv5 and OrienMask | |
Zhou et al. | Weakly perceived object detection based on an improved CenterNet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |