CN109063549A

CN109063549A - 基于深度神经网络的高分辨率航拍视频运动目标检测方法

Info

Publication number: CN109063549A
Application number: CN201810629556.5A
Authority: CN
Inventors: 兰晓松; 李书晓; 朱承飞; 常红星
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-06-19
Filing date: 2018-06-19
Publication date: 2018-12-21
Anticipated expiration: 2038-06-19
Also published as: CN109063549B

Abstract

本发明涉及图像处理技术领域，提出一种基于深度神经网络的高分辨率航拍视频运动目标检测方法，旨在解决在航拍视频中的运动目标的检测中准确率低和环境适应能力差的技术问题。为此目的，本发明的基于深度神经网络的高分辨率航拍视频目标检测方法包括：基于预设的稀疏特征点跟踪网络并根据待检测航拍视频中当前时刻图像帧与前一时刻图像帧，获取光流特征图；基于预设的可动目标概率估值网络并根据上述当前时刻图像帧，获取可动目标的表观特征图；基于预设的运动目标检测网络并根据上述光流特征和表观特征图，获取上述高分辨率航拍视频中运动目标的大小和位置。基于上述步骤本发明可以快速、准确的从高分辨率的航拍视频中对运动目标进行检测。

Description

基于深度神经网络的高分辨率航拍视频运动目标检测方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及基于深度神经网络的视觉学习领域，具体涉及基于深度神经网络的高分辨率航拍视频运动目标检测方法。

背景技术

随着计算机图形视觉技的发展以及目标追踪技术的发展，将航拍的运动目标及时准确的检测出，变得越来越重要。

目前，对航拍视频运动目标检测方法大多是针对的低分辨率(分辨率多为640×480)场景设计的，采用基于浅层特征的视频分析技术(融合很多图像帧的运动信息)实现航拍视频中的运动目标检测。其中,这些方法大致可分为三类：基于光流的方法、基于帧间差分的方法和基于背景建模的方法。

为实现对大范围区域的精细监测，目前，无人机大多配备高分辨率相机(分辨率通常为4k×2k或1080p)，上述基于视频分析的方法计算复杂度太高，且由于基于浅层特征分析，上述方法的准确率和环境适应能力差。基于光流的方法根据所使用光流的稠密程度可以分为基于稠密光流的方法和基于稀疏光流的方法，基于稠密光流的方法稠密光流的计算十分耗时，且在运动目标边缘区域往往得不到准确的光流，基于稀疏光流的方法由于光流的计算基于浅层特征，得到的光流往往具有估算不准确的部分，且判定是否属于运动目标的规则过于简单造成检测准确率低的问题。基于帧间差分的方法无法解决鬼影和空洞问题，需要融合很多图像帧的运动信息才能实现较准确的航拍视频运动目标检测，应用于高分辨率航拍视频时计算复杂度太高。基于背景建模的方法需要利用很多图像帧建立背景模型，因此对存储空间和计算能力要求很高，同样不适合应用于高分辨率航拍视频运动目标机载实时检测场景。

发明内容

为了解决现有技术中的上述问题，即为了解决在高分辨率航拍视频运动目标检测中，因浅层特征分析，造成的高分辨率航拍视频中运动目标检测的准确率低和环境适应能力差的技术问题。为此目的，本发明提供了一种基于深度神经网络的高分辨率航拍视频运动目标的检测方法，以解决上述技术问题。

第一方面，本发明提供的基于深度神经网络的高分辨率航拍视频运动目标检测方法包括如下步骤：基于预设的稀疏特征点跟踪网络并根据待检测航拍视频中当前时刻图像帧与前一时刻图像帧，获取光流特征图；基于预设的可动目标概率估值网络并根据上述当前时刻图像帧，获取可动目标的表观特征图；基于预设的运动目标检测网络并根据上述光流特征和表观特征图，获取上述高分辨率航拍视频中运动目标的大小和位置；其中，上述稀疏特征点跟踪网络、可动目标概率估值网络和运动目标检测网络均是基于深度神经网络构建的网络模型。

进一步地，本发明提供的一个优选技术方案中，“基于预设的稀疏特征点跟踪网络并根据待检测航拍视频中当前时刻的图像帧与前一时刻的图像帧，获取光流特征图”的步骤包括：

根据上述稀疏特征点跟踪网络分别获取上述当前时刻图像帧与前一时刻图像帧对应的多尺度金字塔特征图像；根据上述前一时刻图像帧对应的多尺度金字塔特征图，提取稀疏特征点；根据上述当前时刻图像帧与前一时刻图像帧对应的多尺度金字塔特征图像获取每个上述稀疏特征点的光流，并根据上述光流获取光流特征图。

进一步地，本发明提供的一个优选技术方案中，“根据上述前一时刻图像帧对应的多尺度金字塔特征图，提取稀疏特征点”的步骤包括：将上述前一时刻图像帧对应的多尺度金字塔特征图划分为多个图像块；获取每个上述图像块中多尺度金字塔特征最大值对应的特征点。

进一步地，本发明提供的一个优选技术方案中，“根据上述当前时刻图像帧与前一时刻图像帧对应的多尺度金字塔特征图像获取每个上述稀疏特征点的光流”的步骤包括：

获取每个上述稀疏特征点在上述前一时刻图像帧对应的多尺度金字塔特征图像中每个尺度特征图像上的基准位置；根据上述基准位置并利用预设的搜索子对上述当前时刻图像帧对应的多尺度金字塔特征图像中每个尺度特征图像进行搜索，得到与上述基准位置匹配度最高的对应位置；根据上述基准位置和对应位置获取相应稀疏特征点的光流；其中，上述搜索子表示在每层金字塔特征图中搜索时的像素点最小覆盖区域。

进一步地，本发明提供的一个优选技术方案中，“基于预设的可动目标概率估值网络并根据上述当前时刻图像帧，获取可动目标的表观特征图”的步骤包括：

根据上述可动目标概率估值网络获取上述当前时刻图像帧对应的多尺度多通道特征图像；对上述多尺度多通道特征图像进行金字塔池化处理，得到上述当前时刻图像帧中每个像素点的多尺度多通道特征；对上述每个像素点的多尺度多通道特征进行概率估值，得到每个像素点对应的可动目标所属概率；上述可动目标所属概率是某个像素点属于可动目标的概率；根据上述每个像素点对应的可动目标所属概率，获取上述可动目标的表观特征图。

进一步地，本发明提供的一个优选技术方案中，“基于预设的运动目标检测网络并根据上述光流特征和表观特征图，获取高分辨率航拍视频中运动目标的大小和位置”的步骤包括：

根据上述运动目标检测网络对上述光流特征图和上述表观特征图进行联合编码，得到联合特征；通过对上述联合特征进行目标预测和非最大化抑制，获得运动目标的粗略位置和大小；按比例扩大上述运动目标的粗略位置所示区域作为区域建议，利用通过上述可动目标概率估值网络获取的高分辨率特征，使用边框回归网络确定出运动目标的大小和位置。

进一步地，本发明提供的一个优选技术方案中，上述方法还包括训练上述稀疏特征点跟踪网络的步骤：利用稠密光流数据库中图像帧作为样本数据，通过最小化如下目标函数进行监督学习，训练上述稀疏特征点跟踪网络：

其中，M为图像帧中特征点总数，{(u_i，v_i)|i＝1.2.3....M}为搜索得到的光流向量，{(u′_i，v′_i)|i＝1.2.3....M}为对应的基准光流向量。

进一步地，本发明提供的一个优选技术方案中，上述方法还包括通过最小化如下约束函数，训练上述可动目标概率估值模型：

其中，其中W和H分别代表表观特征图的宽和高，q_x，y表示(x，y)位置处的像素属于可动目标的基准概率，p_x，y表示(x，y)处的像素预测的可动目标概率。

第二方面，本发明提供的一种存储装置，上述存上述程序适于由处理器加载以执行，上述发明内容中的任一方法。

第三方面，本发明提供的一种处理装置，包括处理器和存储设备，上述存储设备，适于存储多条程序；其中，上述程序适于由处理器加载以执行上述发明内容中的任一方法。

与最接近的现有技术相比，上述技术方案至少具有如下有益效果：

本发明提供的基于深度神经网络的高分辨率航拍视频运动目标检测方法，通过提取航拍视频中连续的两帧图像帧中光流特征和表观特征获得图像帧的光流特征图和表观特征图，融合上述光流特征图和表观特征图，利用检测模型检测航拍视频中运动目标。实现了对高分辨率航拍视频中运动目标的检测。解决了稠密光流计算时，计算复杂度高、存储空间和计算能力要求高，且在运动目标边缘区域因无法得到准确的光流，造成检测准确率低下问题。

附图说明

图1是本发明实施例中一种基于深度神经网络的高分辨率航拍视频运动目标检测方法的主要步骤示意图；

图2是本发明实施例中从两帧图像帧中提取光流特征，获得光流特征图的示意图；

图3是本发明实施例中从两帧图像帧中提取表观特征图的示意图；

图4是本发明实施例中融合光流特征与表观特征的运动目标检测技术路线示意图；

图5是本发明实施例中基于光流特征和表观特征对高分辨率航拍视频运动目标检测的技术路线示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

参阅附图1，图1示例性示出了本实施例中一种基于深度神经网络的高分辨率航拍视频运动目标检测方法的主要步骤。如图1所示，本实施例中基于深度神经网络的高分辨率航拍视频运动目标检测方法，包括以下步骤：

步骤1，基于预设的稀疏特征点跟踪网络并根据待检测航拍视频中当前时刻图像帧与前一时刻图像帧，获取光流特征图。

在本实施例中，应用于基于深度神经网络的高分辨率航拍视频运动目标检测方法的电子设备，如服务器或应用平台，从与其通信连接的视频采集装置中获得高分别率的航拍视频。并从上述航拍视频中的连续两帧航拍视频图像帧中提取光流特征，得到图像帧的光流特征图。

上述航拍视频中的航拍图像帧，可以是对上述航拍视频进行镜头分割，得到按时间排列的视频帧序列，即得到上述航拍视频的航拍图像帧序列。在具体地实现方式中，可以按照时间顺序，依次对上述航拍图像帧序列中当前时刻和前一时刻连续的两帧航拍图像帧进行光流特征的提取，得到各个航拍图像帧的光流特征图。可以根据上述两帧航拍图像帧的稀疏特征对其进行跟踪，从两帧航拍图像帧中提取光流特征图。

进一步地，本实施例提供的一个优选技术方案中，参考附图2，附图2示出了从两帧图像帧中提取光流特征，获得光流特征图的示意图。如图2所示，“基于预设的稀疏特征点跟踪网络并根据待检测航拍视频中当前时刻的图像帧与前一时刻的图像帧，获取光流特征图”的步骤包括：

这里，从高分辨率航拍视频中获取两帧连续的航拍图像帧中前一时刻及当前时刻两帧图像，分别生成上述两帧航拍图像帧对应的多尺度金字塔特征图。具体地，一些优选的方案中，可以利用稀疏特征点跟踪网络模型分别生成两帧航拍图像帧对应的多尺度金字塔特征图。其中，上述稀疏特征点跟踪网络模型可以是基于深度卷积神经网络模型，根据所输入两帧航拍图像帧，生成两帧图像帧对应的多尺度金字塔特征图。

在一些优选的实现方式中，“根据上述前一时刻图像帧对应的多尺度金字塔特征图，提取稀疏特征点”的步骤包括：将上述前一时刻图像帧对应的多尺度金字塔特征图划分为多个图像块；获取每个上述图像块中多尺度金字塔特征最大值对应的特征点。

“根据上述当前时刻图像帧与前一时刻图像帧对应的多尺度金字塔特征图像获取每个上述稀疏特征点的光流”的步骤包括：获取每个上述稀疏特征点在上述前一时刻图像帧对应的多尺度金字塔特征图像中每个尺度特征图像上的基准位置；根据上述基准位置并利用预设的搜索子对上述当前时刻图像帧对应的多尺度金字塔特征图像中每个尺度特征图像进行搜索，得到与上述基准位置匹配度最高的对应位置；根据上述基准位置和对应位置获取相应稀疏特征点的光流。

其中，搜索子表示在每层金字塔特征图中搜索时的像素点最小覆盖区域，例如，在每层金字塔特征图中可采用3×3基本像素点大小的搜索子，在基准位置对应到当前时刻帧中位置的搜索子范围内找到最匹配的位置作为每层的匹配位置。

上述跟踪网络模型可以采用5层卷积神经网络，对前一时刻图像帧和当前时刻图像帧分别生成对应的5层多尺度金字塔特征图。考虑到计算效率，每层采用12通道3×3的卷积以学习得到具有更强表达能力的、适用于跟踪匹配的、多尺度特征，分别得到每个像素点在各个尺度下的12维的深度特征描述子。池化步长可设为2，搜索子大小可设为3×3，搜索范围可以达到90个像素以上；增大网络层数或搜索子大小可以获得更大的搜索范围。

上述稀疏特征点的提取，可以是将两帧航拍图像帧中的前一时刻的航拍图像帧，分为多个图像块，在每个图像块中，取其对应的多尺度金字塔特征响应值最大的位置为该图像块的特征点；其中，可以将航拍图像帧划分为8×8的图像块。

上述利用多尺度金字塔特征图与搜索子获得光流特征，可以是利用12维的深度特征描述子的欧氏距离作为度量准则，通过从高层特征图到低层特征图的搜索回溯找到最匹配的特征点获取光流特征图。

对于每一个稀疏特征点，首先在前一时刻的航拍图像帧的金字塔特征图中将其位置向前层层映射，得到该特征点在各个尺度特征下的基准位置，然后利用搜索子在当前时刻航拍图像帧的低分辨率特征图中进行搜索匹配，得到跟踪到的对应位置，并向高一级别的分辨率特征图层层映射和回溯，找到在当前时刻航拍图像帧中最匹配的位置，得到该特征点的光流。

进一步地，本实施例提供的一个优选技术方案中，在“基于预设的稀疏特征点跟踪网络并根据待检测航拍视频中当前时刻图像帧与前一时刻图像帧，获取光流特征图”的步骤之前，还包括训练上述跟踪网络模型的步骤：

利用稠密光流数据库中图像帧作为样本数据，通过最小化如下目标函数进行监督学习，训练上述跟踪网络模型：

其中，M为图像帧中特征点总数，{(u_i，v_i)|i＝1.2.3....M}为搜索得到的光流向量，{(u′_i，v′_i)|i＝1.2.3....M}为对应的基准光流向量。这里，对上述跟踪网络模型训练时，将每一个像素都作为特征点，利用稠密光流数据库进行有监督的学习，以得到性能优越的用于特征图提取的基于深度神经网络的跟踪网络模型参数。上述稠密光流数据库可以是诸如Middlebury，KITTI，Sintel，Flying Chairs的数据库。

步骤2，基于预设的可动目标概率估值网络并根据上述当前时刻图像帧，获取可动目标的表观特征图。

在本实施例中，利用预设的可动目标概率估值网络对上述航拍图像帧中的当前时刻的图像帧进行池化处理，获得可动目标的表观特征图。参考附图3，附图3示出了从当前时刻图像帧中提取表观特征图的示意图。如图3所示，上述“基于预设的可动目标概率估值网络并根据上述当前时刻图像帧，获取可动目标的表观特征图”的步骤包括：

具体地，上述获取多尺度多通道特征图像可以是，将图像帧中所有目标类型组织划分为可动目标和其他类型目标，使得问题简化为一类目标的概率估值。利用预先构建的可动目标概率估值模型进行概率估值，对每个像素点对应的可动目标所属概率进行估值，得到可动目标的表观特征图；其中，上述可动目标概率估值模型是基于深度神经网络构建的可动目标的表观特征图类别的概率预测模型。

上述可动目标概率估值模型为基于ResNet50轻量级网络结构建，在基本不损失概率估值性能的情况下进一步减少特征通道数量，降低网络的计算复杂度，利用其进行特征提取，获取每个像素点的表达能力更强的多尺度多通道特征图像。

上述对多尺度多通道特征图像进行金字塔池化处理，可以是在获得每个稀疏像素点多尺度多通道特征图像后，利用卷积操作和采样将多尺度多通道特征图像整合为与输出概率图像具有同等分辨率的多尺度多通道特征图像，经过数据重组得到每个稀疏像素点的多尺度多通道特征。上述航拍图像帧可以为高分辨率图像帧，上述表观特征图为分辨率较低的图像帧。

上述取可动目标的表观特征图可以是利用1×1×N的卷积网络对每个像素的多尺度多通道特征进行概率估值，得到可动目标的表观特征图，其中N为金字塔池化后每个像素点的通道数。

进一步地，本实施例提供的一个优选技术方案中，上述方法还包括：通过最小化如下约束函数，训练上述可动目标概率估值模型：

其中，W和H分别代表表观特征图的宽和高，q_x，y表示(x，y)位置处的像素属于可动目标的基准概率，p_x，y表示(x，y)处的像素预测的可动目标概率。可以理解地是，由于表观特征图宽度和高度是标注的高分辨率航拍图像宽度和高度的八分之一，q_x，y并不是简单的0或1而是通过计算标注的高分辨率图像8×8标注块算术平均得到的浮点值。

步骤3，基于预设的运动目标检测网络并根据上述光流特征和表观特征图，获取上述高分辨率航拍视频中运动目标的位置。

在本实施例中，利用融合光流特征与表观特征的运动目标检测网络获取上述高分辨率航拍视频中运动目标的检测结果。参阅附图4，图4示例性示出了本实施例中融合光流特征与表观特征的运动目标检测主要步骤示意图。如图4所示，根据光流特征和表观特征进行运动目标检测的主要步骤为：

对所得到的上述光流特征图和上述表观特征图进行编码得到联合特征；通过对上述联合特征进行目标预测和非最大化抑制，获得运动目标的粗略位置和大小；按比例扩大上述运动目标的粗略位置所示区域作为区域建议，利用通过上述可动目标概率估值网络获取的高分辨率特征，使用边框回归网络确定出运动目标的位置。

这里，对上述得到的光流特征图和表观特征图进行编码，因高分辨率航拍视频中的运动目标通常不会太大，可以使用VGG16网络的第7层的输出进行特征联合编码；因VGG16的第7层输出为256通道，对上述光流特征图和表观特征图经过特征联合编码后，得到512个通道的特征图。反推到4096×2160的高分辨率航拍视频，该特征联合编码方式至少可以保证检测到大小不小于64×64的运动目标。若期望稳定检测更小的运动目标，可采用VGG16网络更低层的输出进行特征联合编码。

VGG16为具有13个卷积层和3个全连接层的网络结构，使用多个较小的卷积核的卷积层代替一个卷积核较大的卷积层，以减少参数，并进行更多的非线性映射，增加网络的拟合/表达能力。

这里，获得运动目标的粗略位置和大小，实现对运动目标的初检。具体为，对经过特征联合编码得到的特征图像，利用1×1卷积和Hidden网络解码，得到5×N通道的输出，其中5表示为每个Anchor Box的预测，N为Anchor Box的数量。利用目标预测网络对获取的Anchor Box的预测进行判定和非最大化抑制，得到航拍视频中运动目标的粗略位置和大小。其中，每个Anchor Box的预测输出中，第一维是运动运动的置信度，后四维为运动目标分别在x和y方向的位置和尺度。

这里，利用上述高分辨率特征使用边框回归网络确定出运动目标。具体为，因光流特征图和表观特征图分辨率较低，造成融合光流特征与表观特征的运动目标检测结果可能存在精度损失。由此，将运动目标粗检测结果按比例扩大，如，扩大1.2倍后作为区域建议，利用可动目标概率估值网络中获取的高分辨率特征，采用边框回归网络获取精确的运动目标检测结果。

进一步地，本实施例提供的一个优选技术方案中，在“基于预设的运动目标检测网络并根据上述光流特征和表观特征图，获取上述高分辨率航拍视频中运动目标的位置”的步骤之前，对上述检测模型进行训练。对上述检测模型的训练可以为对特征联合编码、运动目标粗检测和边框回归网络中的参数极性训练。综合Confidences的交叉熵损失和目标框的坐标损失来定义运动目标粗检测网络的损失函数：

其中，S是64×32大小的特征图网格集合，q_s代表网格s的预测部分，p_s代表基准部分。C_object表示运动目标集合，的作用是计算时只对运动目标考虑引入回归损失函数。得到运动目标粗检测结果后，将粗检测结果映射到高分辨率特征图中，以利用该粗检测区域内的高分辨率特征进行边框回归，得到最终的精确检测结果。和的含义分别为预测目标框和基准目标框的中心坐标x，中心坐标y、宽和高。

作为示例，参考附图5，参阅附图5，图5示例性示出了融合光流特征与表观特征的运动目标检测方法示意图。如图5所示，对视频中的连续两帧图像帧分别进行处理，首先对t-Δt时刻图像帧进行基于稀疏特征点的跟踪网络的光流特征提取，获得t-Δt时刻图像帧的光流特征图，如图中标识S100所示。同时，对t时刻图像帧进行表观特征的提取，获得t时刻图像帧的表观特征图，如图中标识S110所示。其中，表观特征提取可以为基于可动目标概率估值网络的表观特征提取，包括特征提取和概率估值。最后，对上述光流特征图和表观特征图进行融合处理，得到高分辨率下的运动目标的检测结果，上述融合处理为融合运动与表观特征的运动目标检测方法，可以利用上述步骤中的检测模型实现融合处理，如图中标识S120所示。

本申请还提供了一种存储装置，上述存储装置承载有一个或者多个程序，上述程序适于由处理器加载并执行，当上述一个或者多个程序被该装置执行时可以是实现上述实施例中的任一方法。

本申请还提供了一种处理装置，该处理装置包括处理器，适于执行各条程序；以及存储设备，适于存储多条程序；其中，上述程序适于由处理器加载并执行以实现上述实施例中的任一方法。

利用稀疏特征点跟踪视频图像帧的方法从两帧图像中提取精确的光流特征图和表观特征图；并利用融合运动与表观特征的运动目标检测模型获取精确的高分辨率下的运动目标的检测结果。提升运动目标检测算法的准确率和环境适应能力，且利用前一时刻图像帧与当前时刻图像帧即可实现对高分辨率航拍视频中运动目标的精确检测，适用于实时性要求很高的高分辨率航拍场景。因此，应用本发明提供的方法可以快速、准确实现对航拍视频中运动目标的检测。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于深度神经网络的高分辨率航拍视频运动目标检测方法，其特征在于，所述方法包括：

基于预设的稀疏特征点跟踪网络并根据待检测航拍视频中当前时刻图像帧与前一时刻图像帧，获取光流特征图；

基于预设的可动目标概率估值网络并根据所述当前时刻图像帧，获取可动目标的表观特征图；

基于预设的运动目标检测网络并根据所述光流特征和表观特征图，获取所述高分辨率航拍视频中运动目标的大小和位置；

其中，所述稀疏特征点跟踪网络、可动目标概率估值网络和运动目标检测网络均是基于深度神经网络构建的网络模型。

2.根据权利要求1所述的基于深度神经网络的高分辨率航拍视频运动目标检测方法，其特征在于，“基于预设的稀疏特征点跟踪网络并根据待检测航拍视频中当前时刻的图像帧与前一时刻的图像帧，获取光流特征图”的步骤包括：

根据所述稀疏特征点跟踪网络分别获取所述当前时刻图像帧与前一时刻图像帧对应的多尺度金字塔特征图像；

根据所述前一时刻图像帧对应的多尺度金字塔特征图，提取稀疏特征点；

根据所述当前时刻图像帧与前一时刻图像帧对应的多尺度金字塔特征图像获取每个所述稀疏特征点的光流，并根据所述光流获取光流特征图。

3.根据权利要求2所述的基于深度神经网络的高分辨率航拍视频运动目标检测方法，其特征在于，“根据所述前一时刻图像帧对应的多尺度金字塔特征图，提取稀疏特征点”的步骤包括：

将所述前一时刻图像帧对应的多尺度金字塔特征图划分为多个图像块；

获取每个所述图像块中多尺度金字塔特征最大值对应的特征点。

4.根据权利要求2所述的基于深度神经网络的高分辨率航拍视频运动目标检测方法，其特征在于，“根据所述当前时刻图像帧与前一时刻图像帧对应的多尺度金字塔特征图像获取每个所述稀疏特征点的光流”的步骤包括：

获取每个所述稀疏特征点在所述前一时刻图像帧对应的多尺度金字塔特征图像中每个尺度特征图像上的基准位置；

根据所述基准位置并利用预设的搜索子对所述当前时刻图像帧对应的多尺度金字塔特征图像中每个尺度特征图像进行搜索，得到与所述基准位置匹配度最高的对应位置；

根据所述基准位置和对应位置获取相应稀疏特征点的光流；

其中，所述搜索子表示在每层金字塔特征图中搜索时的像素点最小覆盖区域。

5.根据权利要求1所述的基于深度神经网络的高分辨率航拍视频运动目标检测方法，其特征在于，“基于预设的可动目标概率估值网络并根据所述当前时刻图像帧，获取可动目标的表观特征图”的步骤包括：

根据所述可动目标概率估值网络获取所述当前时刻图像帧对应的多尺度多通道特征图像；

对所述多尺度多通道特征图像进行金字塔池化处理，得到所述当前时刻图像帧中每个像素点的多尺度多通道特征；

对所述每个像素点的多尺度多通道特征进行概率估值，得到每个像素点对应的可动目标所属概率；所述可动目标所属概率是某个像素点属于可动目标的概率；

根据所述每个像素点对应的可动目标所属概率，获取所述可动目标的表观特征图。

6.根据权利要求1-5中任一项所述的基于深度神经网络的高分辨率航拍视频运动目标检测方法，其特征在于，“基于预设的运动目标检测网络并根据所述光流特征和表观特征图，获取高分辨率航拍视频中运动目标的大小和位置”的步骤包括：

根据所述运动目标检测网络对所述光流特征图和所述表观特征图进行联合编码，得到联合特征；

通过对所述联合特征进行目标预测和非最大化抑制，获得运动目标的粗略位置和大小；

按比例扩大所述运动目标的粗略位置所示区域作为区域建议，利用通过所述可动目标概率估值网络获取的高分辨率特征，使用边框回归网络确定出运动目标的大小和位置。

7.根据权利要求1-5中任一项所述的基于深度神经网络的高分辨率航拍视频运动目标检测方法，其特征在于，所述方法还包括训练所述稀疏特征点跟踪网络的步骤：

利用稠密光流数据库中图像帧作为样本数据，通过最小化如下目标函数进行监督学习，训练所述稀疏特征点跟踪网络：

8.根据权利要求1-5中任一项所述的基于深度神经网络的高分辨率航拍视频运动目标检测方法，其特征在于，所述方法还包括通过最小化如下约束函数，训练所述可动目标概率估值模型：

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载以执行权利要求1-8中任一项所述的基于深度神经网络的高分辨率航拍视频运动目标检测方法。

10.一种处理装置，包括处理器和存储设备，所述存储设备，适于存储多条程序；

其特征在于，所述程序适于由处理器加载以执行权利要求1-8任一项中所述的基于深度神经网络的高分辨率航拍视频运动目标检测方法。