CN112712052A

CN112712052A - 一种机场全景视频中微弱目标的检测识别方法

Info

Publication number: CN112712052A
Application number: CN202110041661.9A
Authority: CN
Inventors: 曾杰; 汤本俊; 洪珠城; 赵国朋; 方晓强; 刘高
Original assignee: Anhui Civio Information And Technology Co ltd
Current assignee: Anhui Civio Information And Technology Co ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-04-27

Abstract

本发明公开了机场全景视频中微弱目标的检测识别方法，包括：步骤1，采集含有待识别目标的素材，构建教师网络的训练集；步骤2，采集微弱目标素材，对微弱目标的特征进行增强处理，构建学生网络的训练集；步骤3，将教师网络训练集输入到教师网络中，通过训练优化后得到教师模型；步骤4，将学生网络训练集输入到学生网络中，采用知识蒸馏方法将教师网络推理出来的软目标和学生网络的硬目标所对应的交叉熵加权作为学生网络的总损失进行计算，训练优化后得到学生模型；步骤5，将待检测的视频输入到学生模型中进行推理计算，得到推理结果。本发明能够解决机场全景监控中微弱目标的漏检、误检、检测速度慢以及资源消耗大等问题。

Description

一种机场全景视频中微弱目标的检测识别方法

技术领域

本发明涉及视频图像检测技术领域，尤其是一种机场全景视频下微弱目标的检测识别方法。

背景技术

在机场全景视频监控的应用中，需要对视频中的特定目标进行实时监测。由于被监测目标在全景视频中尺度和角度会发生很大变化，当距离视频画面中心较远时，目标的尺寸很小、特征微弱，给目标检测带来很大难度。

现有的解决方案有借助雷达或红外技术，通过微弱目标包含的参数信息和噪声特征信息对目标进行检测和分辨，这些方法的缺点在于处理时长较长、丢帧严重，并且对设备依赖高，相应的成本也会增加。另一种解决方案是基于图像的三维霍夫变换，利用帧间信息的特点进行目标检测，其缺点是算法本身非常耗时，性能也不稳定，在有噪声干扰时检测效果下降严重。因此，针对当前机场全景监控中微弱目标检测的应用要求，迫切需要研究一种检测精度高、设备成本低、适用范围广的微弱目标检测识别方法。

发明内容

针对现有方法的以上缺陷或改进需求，本发明提供了一种机场全景视频中微弱目标的检测识别方法，能够有效提高机场全景监控视频中微弱目标的检测准确率。

为实现上述目的，本发明提供了以下的技术方案。

一种机场全景视频中微弱目标的检测识别方法，其特征在于：所述方法包括如下步骤：

步骤1，采集机场全景画面中含有待识别目标的素材，对目标素材赋予硬标签，构建教师网络的训练集；

步骤2，采集机场全景画面中微弱目标素材，对大场景微弱目标的特征进行图像二次重定位增强处理，对特征增强后的微弱目标素材赋予硬标签，构建学生网络的训练集；

步骤3，将教师网络训练集输入到教师网络中，通过训练优化后得到教师模型；

步骤4，将学生网络训练集输入到学生网络中，采用知识蒸馏方法将教师网络推理出来的软目标和学生网络的硬目标所对应的交叉熵加权作为学生网络的总损失进行计算，训练优化后得到学生模型；

步骤5，将待检测的视频输入到学生模型中进行推理计算，得到推理结果作为检测结果输出。

其中，所述机场全景是指采用3个及以上高点定焦摄像机拍摄并拼接而成的机场全景画面。

进一步的，所述增强处理是使用图像重定位方法对微弱目标素材进行处理：先将图像中不会出现目标的区域裁剪掉，再将含有待识别目标的图像进行放大。

进一步的，所述教师网络基于Darknet_3多尺度特征融合网络，包含23个ResidualBlock模块，1个Conv Block模块，5个卷积层和一个全连接层，输出13*13、26*26、52*52三个尺度的特征，并对这三个尺度的特征信息进行融合。

进一步的，所述学生网络基于Tiny_yolo，该网络包含13个卷积层、6个最大池化层、2个输出层、2个特征融合层、1个上采样层，输出为26*26和52*52两个尺度的特征并对其进行融合。

进一步的，所述知识蒸馏方法是将训练好的教师模型通过知识蒸馏手段得到更适合推理的小模型。

进一步的，步骤4学生网络的总损失函数采用下式计算：

L_total＝αL_soft+βL_hard

L_soft为软目标所对应的交叉熵，L_hard为硬目标所对应的交叉熵，L_total为学生网络的总损失函数，α和β为对应的加权系数。

L_soft采用下式计算：

其中

T表示设定的控制参数，通过调节该参数可以控制“蒸馏”的效果；v_i表示教师模型的权重向量，zi表示学生模型的权重向量，N表示类别总数，z_k表示学生模型权重向量中的第k个权重值。

L_hard采用下式计算：

其中

z_j表示教师模型权重向量的第j个权重值，c_i表示第i类目标的标签数值。

分别对L_soft函数与L_hard函数对z_i微分可得：

教师网络通过给Softmax函数增加“温度”参数T，进而控制输出的软目标的交叉熵qi：

软目标交叉熵的加权系数在训练初期阶段大于训练后期。

进一步的，所述教师网络的训练集构建，通过使用标注工具对该场景下的待检测目标进行标注，构成硬标签的训练集。学生网络的训练集的构建，通过使用标注工具对经过图像重定位处理后的图片进行标注，该训练集中的目标也采用硬标签。

本发明所述的方案与现有的技术相比，具有如下的有益效果是：本发明通过图像重定位方法来构建微弱目标的训练集，通过知识蒸馏方法来训练微弱目标检测的学生模型，精准高效地解决了机场全景监控视频下微弱目标的漏检、误检、检测速度慢以及资源消耗大等问题，具有极大的产业应用价值。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明一实施例所提供的检测识别方法的流程示意图；

图2是本发明一实施例所提供的知识蒸馏方法的原理示意图；

图3是本发明一实施例所提供的图像重定位的效果示意图；

图4是本发明一实施例所提供的在机场全景下对于微弱目标(飞机)的检测效果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

本发明提供了一种机场全景视频中微弱目标的检测识别方法，所述机场全景是采用3个及以上高点定焦摄像机拍摄并拼接而成的机场全景画面，优选的，机场全景画面包含机场整个跑道。所述微弱目标是指在机场全景画面中分辨率较小、轮廓不清晰、特征不稳定、不易于识别的感兴趣目标。作为一个实施例，定义微弱目标为：在超5k分辨率的场景下目标占比小于1/100或图像模糊、轮廓粘连的特征微弱目标。

参照图1所示的流程示意图，本发明所提出的微弱目标的检测识别方法的具体实现步骤如下：

步骤1，采集机场全景视频中含有待识别目标的素材，对目标素材赋予硬标签，构建教师网络的训练集；

步骤2，采集机场全景视频中微弱目标素材，用图像重定位方法对图像进行裁剪以去除冗余图像信息，再进行适当放大以增强微弱目标的特征。对特征增强后的微弱目标素材赋予硬标签，构建学生网络训练集。

步骤3，将教师网络训练集输入到以Darknet_53构建的教师网络中，通过训练优化后得到教师模型；

步骤4，将学生网络训练集输入到以Tiny_yolo构建的学生网络，采用知识蒸馏方法将教师网络推理出来的软目标和学生网络的硬目标所对应的交叉熵加权作为学生网络的损失计算，训练优化后得到学生模型；其关键在于使用教师网络通过知识蒸馏的方法诱导学生网络进行训练；

步骤1中所述教师网络的训练集构建，具体是通过使用标注工具对该场景下的待检测目标进行标注，构成携带硬标签的训练集，该训练集作为训练教师网络的输入样本数据。

步骤2中用图像重定位方法构建学生网络训练集，先将图像中不会出现目标的区域裁剪掉，再将含有待识别目标的图像进行放大，最后输入到网络中进行训练。由于机场固定场景中的目标其特征在全景图像中表现微弱，该方法通过去除图像中的冗余信息，再将图像进行放大来增强微弱目标的特征信息，从而使网络能够更有效地提取到微弱目标的特征，以提高网络对微弱目标的辨别能力。图像重定位后的效果示意图如图3所示。同样地，使用图像标注工具对经过图像重定位处理、特征增强后的图片进行标注进而构建学生网络的训练集，学生网络使用的训练集中的目标也采用硬标签。

步骤3中教师网络的训练是指将构建好的训练集输入到训练网络中训练出检测效果较好的网络模型作为教师模型。作为一个实施例，所述教师网络基于Darknet-53多尺度特征融合网络进行训练，包含23个Residual Block模块，1个Conv Block模块，5个卷积层和一个全连接层，输出13*13、26*26、52*52三个尺度的特征，并对这三个尺度的特征信息进行融合。Residual Block模块将局部特征与全局特征进行融合，解决因网络加深导致的网络退化问题。多尺度特征融合机制帮助算法从多个尺度对模型进行优化，大大提升模型的鲁棒性。教师网络的选择泛化能力强，网络结构复杂，能够提取目标的深度特征。其中，教师网络训练得越好，对于学生网络的指导效果越好。

步骤4是本发明的核心步骤，提出了利用教师网络诱导学生网络的训练，从而实现对学生网络的准确指导，如图2所示。学生网络的选择遵循以结构简单(轻量化)、推理速度快、资源消耗少的网络作为训练学生模型的主干网络。作为一个实施例，所述学生网络基于Tiny_yolo网络，该网络包含13个卷积层、6个最大池化层、2个输出层、2个特征融合层、1个上采样层。输出为26*26和52*52两个尺度的特征并对其进行融合。学生网络使用经过图像重定位方法处理后的图片构建成的训练集进行训练。

步骤4中使用了所述知识蒸馏方法来训练微弱目标检测的教师模型，参照图2，是将训练好的大模型(教师模型)通过知识蒸馏手段得到更适合推理的小模型。在神经网络训练过程中，为克服硬标签训练方式易于造成模型过拟合、泛化能力下降的缺陷，采用软标签训练方式进行模型学习，得到属于同一类的微弱目标与正常目标之间的相似性和差异性特征，使模型能够更好学习到数据的分布，从而大大增强模型的泛化能力。使用所述硬标签是人工标注的能够明确进行分类的标签；所述软标签是经过模型识别后输出的不具有明确分类信息，但是含有类别置信度的标签。

进一步参照图2，通过训练好的教师模型推理出来的软目标和学生网络使用的硬目标所对应的交叉熵加权纳为学生网络训练过程中的总损失进行计算，具体的步骤如下：

步骤41、在教师网络中设置softmax的“温度”参数T＝1进行训练；

步骤42、进行网络维度转化：教师网络的维度和学生网络的中间层的维度不一致，需要增加线性矩阵或者卷积层去进行维度变换，使中间层网络维度达到一致，然后使用L2loss进行监督；

步骤43、在学生网络中：

(1)设置学生网络softmax的“温度”参数T＝20的输出的软标签与教师网络的Softmax(“温度”T＝1)的输出的软标签进行交叉熵融合计算作为软损失Lsoft。

(2)设置学生网络softmax的“温度”参数T＝1，计算出学生网络与硬标签的交叉熵损失作为硬损失Lhard。

(3)将Lsoft和Lhard进行加权算作学生网络的最终的总损失Ltotal进行训练。所述交叉熵加权计算过程如下：

Ltotal＝αL_soft+βLhard

L_soft采用下式计算：

其中

T表示设定的控制参数，通过调节该参数可以控制“蒸馏”的效果；v_i表示教师模型的权重向量，z_i表示学生模型的权重向量，N表示类别总数，z_k表示学生模型权重向量中的第k个权重值。

L_hard采用下式计算：

其中

分别对L_soft函数与L_hard函数对z_i微分可得：

其中，教师网络通过给Softmax函数增加“温度”参数T，进而控制输出的软目标的交叉熵qi：

α和β属于加权系数，软目标交叉熵Lsoft的加权系数越大，迁移诱导越依赖教师网络，在训练初期阶段是很有必要的，有助于让学生网络鉴别简单样本，训练后期适当减小软目标交叉熵的加权系数，让硬标签帮助鉴别困难样本。

综上所述，本发明选用Darknet_53和Tiny_yolo分别作为教师模型和学生模型训练的深度主干网络，通过图像重定位帮助微弱目标提高特征信息，通过知识蒸馏方法诱导学生网络学习到教师模型中的一些重要参数信息，使得学生模型在接受指导后尽可能达到教师模型的检测效果。本发明的一检测效果示意图如图4所示，在该次检测实验中，检测视频的分辨率为5728*1136，其中的模型文件大小为33M，检测速度达到每秒107帧，GPU显存消耗0.7G左右，对于机场全景场景下微弱目标的检测准确率达到90％以上。本发明有效提高了机场全景下微弱目标的检测率，有效解决了资源消耗严重和检测速度慢的问题，适应性更强、检测速度更快、准确度更高、成本更低。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和原则的前提下，可以在实施的形式及细节上进行任何的修改与变化、等同替换等，这些都属于本发明的保护范围。因此，本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种机场全景视频中微弱目标的检测识别方法，其特征在于：所述方法包括如下步骤：

2.根据权利要求1所述的系统，其特征在于，所述机场全景是指采用3个及以上高点定焦摄像机拍摄并拼接而成的机场全景画面。

3.根据权利要求1所述的系统，其特征在于，所述增强处理是使用图像重定位方法对微弱目标素材进行处理：先将图像中不会出现目标的区域裁剪掉，再将含有待识别目标的图像进行放大。

4.根据权利要求3所述的系统，其特征在于，所述教师网络基于Darknet_3多尺度特征融合网络，包含23个Residual Block模块，1个Conv Block模块，5个卷积层和一个全连接层，输出13*13、26*26、52*52三个尺度的特征，并对这三个尺度的特征信息进行融合。

5.根据权利要求4所述的系统，其特征在于，所述学生网络基于Tiny_yolo，该网络包含13个卷积层、6个最大池化层、2个输出层、2个特征融合层、1个上采样层，输出为26*26和52*52两个尺度的特征并对其进行融合。

6.根据权利要求1所述的系统，其特征在于，所述知识蒸馏方法是将训练好的教师模型通过知识蒸馏手段得到更适合推理的小模型。

7.根据权利要求1所述的系统，其特征在于，步骤4中交叉熵加权计算过程如下：

L_total＝αL_soft+βL_hard

其中，L_soft为软目标所对应的交叉熵，L_hard为硬目标所对应的交叉熵，L_total为学生网络的最终的总损失，α和β为对应的加权系数。

8.根据权利要求7所述的系统，其特征在于，教师网络通过给Softmax函数增加“温度”参数T，进而控制输出的软目标的交叉熵q_i：

9.根据权利要求1、7、8任一项所述的系统，其特征在于，软目标所对应的交叉熵的加权系数在网络训练初期阶段大于网络训练后期。

10.根据权利要求1所述的系统，其特征在于，步骤1和2中训练集的构建，具体通过使用标注工具对目标进行标注构成采用硬标签的训练集。