CN110135267A

CN110135267A - 一种大场景sar图像细微目标检测方法

Info

Publication number: CN110135267A
Application number: CN201910307904.1A
Authority: CN
Inventors: 韦顺军; 苏浩; 闫敏; 周泽南; 王琛; 张晓玲; 师君
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-04-17
Filing date: 2019-04-17
Publication date: 2019-08-16
Anticipated expiration: 2039-04-17
Also published as: CN110135267B

Abstract

本发明提出了一种大场景SAR图像细微目标检测方法，它是基于卷积神经网络和YOLO算法目标检测原理，将SAR图像目标检测变换成回归问题，引入残差网络结构和构建特征金字塔，利用1×1卷积核实现SAR图像目标不同特征层交互及跨尺度预测，使得神经网络更加有利于大场景SAR目标特征提取及小目标实时检测；同时使用K‑means聚类确定边界框，使得神经网络训练所需的锚点框数量更少、模型表示能力更强、任务更容易学习。本发明具有实现简单、检测效率高、检测精度高、检测速度快、适用性好，能够实现对大场景SAR图像细微目标的精确端到端检测。

Description

一种大场景SAR图像细微目标检测方法

技术领域

本发明属于雷达技术领域，它特别涉及合成孔径雷达(SAR)目标检测技术领域。

背景技术

合成孔径雷达(SAR)作为一种具有全天时、全天候、信息量丰富的遥感成像技术，已成为当今对地观测的重要手段，在地形图像生成、目标探测与侦察、目标精确打击、国土资源勘查和自然灾害监测等国民经济与军事领域得到越来越广泛的应用，详见文献“刘国祥,丁晓利,陈永奇,等.极具潜力的空间对地观测新技术--合成孔径雷达干涉[J].地球科学进展,2000,15(6):734-740”。随着SAR技术不断成熟，成像分辨率不断提高，使得通过SAR图像的目标检测技术受到越来越广泛的关注。

基于深度学习的目标检测技术近年来发展十分迅速。卷积神经网络作为深度学习中的一种，成为当前语音分析和图像识别领域的研究热点，详见参考文献“Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neuralnetworks[C].International Conference on Neural Information ProcessingSystems.2012.”。它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权重的数量。该优点在网络输入是多维图像时表现更为明显，图像可直接作为网络输入，避免了传统识别算法的复杂特征提取和数据重建过程。卷积神经网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对于平移、比例缩放、倾斜或者其他形式的变形具有高度不变性，详见参考文献“Lecun Y,Bengio Y,Hinton G.Deeplearning.[J].Nature,2015,521(7553):436.”。

目前基于深度学习模型的主流目标检测算法，可以分成两大类：(1)两步检测算法，其将检测问题划分为两个阶段，首先产生候选区域，然后对候选区域分类(一般还需要对位置精修)，这类算法的典型代表是基于候选区域的R-CNN系算法，如R-CNN，Fast R-CNN，Faster R-CNN等，详见参考文献“Girshick,Ross B,et al."Rich Feature Hierarchiesfor Accurate Object Detection and Semantic Segmentation."computer vision andpattern recognition(2014):580-87.Print.”；(2)一步检测算法，其不需要候选区域阶段，直接产生物体的类别概率和位置坐标值，比较典型的算法如YOLO和SSD，详见参考文献“Liu L,Ouyang W,Wang X,et al.Deep Learning for Generic Object Detection:ASurvey[J].2018.”。目标检测模型的主要性能指标是检测准确度和速度，对于准确度，目标检测要考虑物体的定位准确性，而不单单是分类准确度。一般情况下，两步算法在准确度上有优势，而一步算法在速度上有优势。不过，随着研究的发展，两类算法都在两个方面做改进。

Google公司在2017年开源了TensorFlow目标检测API，详见参考网址“https://github.com/tensorflow/models/tree/master/research/object_detection”，并对主流的Faster R-CNN，R-FCN及SSD算法在MS-COCO数据集上的性能做了细致对比，详见参考文献“https://arxiv.org/pdf/1611.10012.pdf”。Facebook公司的FAIR 2018年也开源了基于Caffe2的目标检测平台详见参考资料“https://github.com/facebookresearch/Detectron”，其实现了最新的Mask R-CNN，RetinaNet等检测算法，并且给出了这些算法比较结果。显然易见，准确度和速度是一对矛盾体，如何更好地平衡它们一直是目标检测算法研究的一个重要方向。

目前，已经发展出诸SAR图像目标检测算法。其中，经典的恒虚警CFAR检测算法以其简单、快速、实时性强的特点而被广泛应用于SAR图像目标检测，详见参考文献“戴尔燕,金亚秋.多尺度自适应恒虚警率(CFAR)自动检测与重构多方位SAR图像中不同尺度目标物[J].遥感技术与应用,2009,24(6):722-730.”。根据不同类型目标在SAR图像的表征形式，相关学者也提出了多种SAR图像目标检测方法，如，详见参考文献“张嘉峰,朱博,张鹏,等.Wishart分布情形下极化SAR图像目标CFAR检测解析方法[J].电子学报,2018(2).”。但这些现有SAR图像检测方法通常仅利用SAR图像的局部区域统计特性，一般仅能做到像素级别的检测，而且要求目标与背景有较高的对比度，在简单小场景下SAR目标检测性能较好，但在复杂大场景下SAR细微目标检测性能急剧下降。因此，可以结合深度学习的卷积神经网络模型优势，将卷积神经网络深度学习应用于复杂大场景SAR图像细微目标检测，进一步提升大场景SAR图像目标检测能力。

发明内容

本发明提出了一种大场景SAR图像细微目标检测方法。该方法基于卷积神经网络和YOLO算法目标检测原理，将SAR图像目标检测变换成回归问题，引入残差网络结构和构建特征金字塔，利用1×1卷积核实现SAR图像目标不同特征层交互及跨尺度预测，使得神经网络更加有利于大场景SAR目标特征提取及小目标实时检测；同时使用K-means聚类确定边界框，使得神经网络训练所需的锚点框数量更少、模型表示能力更强、任务更容易学习。本发明克服了现有技术中大场景SAR图像目标检测速度慢、准确率低、对小目标检测不敏感的问题，可以实现对大场景SAR图像细微目标的精确端到端检测。

为了方便描述本发明的内容，首先作以下术语定义：

定义1：图像金字塔

图像金字塔是一种以多分辨率来解释图像的有效但概念简单的结构。应用于图像分割，机器视觉和图像压缩。一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低，且来源于同一张原始图的图像集合。其通过梯次向下采样获得，直到达到某个终止条件才停止采样。金字塔的底部是待处理图像的高分辨率表示，而顶部是低分辨率的近似。我们将一层一层的图像比喻成金字塔，层级越高，则图像越小，分辨率越低，详见文献“冈萨雷斯，数字图像处理第三版，电子工业出版社，2011”。

定义2：标准数据增强技术

标准数据增强技术通过对数据集图像进行翻转、旋转、缩放、平移、增加高斯噪声、对比度变换、颜色变换等操作来扩充数据集。数据增强主要是为了减少网络的过拟合现象，通过对训练图片进行变换可以得到泛化能力更强的网络，更好的适应应用场景，详见网站“https://medium.com/nanonets/how-to-use-deep-learning-when-you-have-limited-data-part-2-data-augmentation-c26971dc8ced”。

定义3：标准Darknet-53网络模型

标准Darknet-53网络模型是用来提取图片特征的，作为全卷积网络，Darknet-53主要由卷积层、批量归一化层及跃层连接组成,激活函数采用LeakyRelu，详见参考文献“Redmon J,Farhadi A.Yolov3:An incremental improvement[J].arXiv preprintarXiv:1804.02767,2018.”。

定义4：标准卷积神经分类网络Darknet训练方法

在Darknet框架上训练标准卷积神经分类网络,设置训练周期和学习率初始为0.01，以4级多项式衰减；权重衰减率和动量分别为0.0005，0.9，使用标准的数据增强方法：随机裁剪、旋转、曝光度、色调、饱和度、平移、翻转，详见文献“Redmon J,FarhadiA.Yolov3:An incremental improvement[J].arXiv preprint arXiv:1804.02767,2018.”。

定义5：标准YOLOv3网络模型

YOLO网络将目标检测问题转化为回归问题,合并分类和定位任务到一个步骤,直接预测物体的位置及类别,检测速度可以满足实时分析的要求。YOLOv3包含了新的特征提取网络Darknet-53,以及三种尺度的YOLO层,也就是预测层。通过在三种尺度上进行预测的方法,有效的增强了对不同大小物体及被遮挡物体的检测效果,并引入跃层连接以强化收敛效果,同时采用随机多尺度训练的方式增强了鲁棒性，详见文献“Redmon J,FarhadiA.Yolov3:An incremental improvement[J].arXiv preprint arXiv:1804.02767,2018.”。

定义6：特征金字塔

特征金字塔是多尺度目标检测系统中的一个基本组成部分，利用深度卷积神经网络固有的多尺度、多层级的金字塔结构去构建特征金字塔网络。使用一种自上而下的侧边连接，在所有尺度构建了高级语义特征图，有利于利用低级特征，提高小目标的检测率，详见文献“Lin T Y,Dollár P,Girshick R,et al.Feature pyramid networks for objectdetection[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2017:2117-2125.”。

定义7：损失函数(TSE)

将标准的yolov3网络的平方和损失(Sum Squared Error,SSE)函数用一种新的损失函数Tan-Squared Error(TSE)替换，TSE能更好地计算连续变量的损失；TSE能有效减低Sigmoid函数梯度消失的影响,使模型收敛更加快速。在VOC数据集上的实验结果表明,与原网络模型的表现相比,利用TSE有效提高了检测精度,且收敛更加快速，详见文献“Lyu S,Cai X,Feng R.YOLOv3Network Based on Improved Loss Function.Computer Systemsand Applications,2019,28(2):1-7(in Chinese).http://www.c-s-a.org.cn/1003-3254/6772.html”。

定义8：标准k-means聚类

使用聚类进行选择的优势是达到相同的交并比(IoU)结果时所需的锚点框数量更少，使得模型的表示能力更强，任务更容易学习。于是对于Faster R-CNN的手选先验框方法做了改进，采用k-means在训练集边界框上进行聚类产生合适的先验框。由于使用欧氏距离会使较大的边界框比小的边界框产生更大的误差，而IoU与边界框尺寸无关，因此使用IoU参与距离计算，使得通过这些锚点框获得好的IoU值。

算法过程：将每个边界框的宽和高相对整张图片的比例(w_r,h_r)进行聚类，得到k个锚点框,由于区域层的锚点参数是绝对值大小，因此需要将这个比例值乘上卷积层的输出特征的大小。

定义9：标准非极大值抑制方法(NMS)

目标检测可能会出现的一个问题是，模型会对同一目标做出多次预测，得到多个包围盒。NMS旨在保留最接近真实包围盒的那一个预测结果，而抑制其他的预测结果。NMS的做法是：首先，对每个类别，NMS先统计每个预测结果输出的属于该类别概率，并将预测结果按该概率由高至低排序；其次，NMS认为对应概率很小的预测结果并没有找到目标，所以将其抑制；然后，NMS在剩余的预测结果中，找到对应概率最大的预测结果，将其输出，并抑制和该包围盒有很大重叠(如IoU大于0.3)的其他包围盒；重复上一步，直到所有的预测结果均被处理。

定义10：标准的小批量梯度下降法

小批量梯度下降法综合了批量梯度下降法和随机梯度下降法，在每次更新速度和更新次数中间取得一个平衡，相对于随机梯度下降，小批量梯度下降降低了收敛波动性，即降低了参数更新的方差，使得更新更加稳定。相对于批量梯度下降，其提高了每次学习的速度。并且其不用担心内存瓶颈从而可以利用矩阵运算进行高效计算，详见文献“Ruder S.Anoverview of gradient descent optimization algorithms[J].arXiv preprint arXiv:1609.04747,2016.”。

定义11：标准通道数加倍方法

标准通道数加倍就是将特征图通过当前卷积核数量的两倍计算后得到的结果，详见文献“K.He,X.Zhang,S.Ren,and J.Sun.Deep residual learning for imagerecognition.In Proceedings of the IEEE conference on computer vision andpattern recognition,pages 770–778,2016.”。

定义12：标准GoogLeNet网络

GoogLeNet网络中1╳1卷积在相同尺寸的感受野中叠加更多的卷积，能提取到更丰富的特征；使用1╳1卷积可以进行卷积核通道数的降维和升维，实现跨通道的交互和信息整合，可以降低计算复杂度，详见文献“C.Szegedy,W.Liu,Y.Jia,P.Sermanet,S.Reed,D.Anguelov,D.Erhan,V.Vanhoucke,and A.Rabinovich.Going deeper withconvolutions.In CVPR,2015.”。

定义13：标准批量归一化方法

标准批量归一化方法(BN，Batch Normalization)具有快速训练收敛的特性和具有提高网络泛化能力的特性，详见文献“Ioffe S,Szegedy C.Batch normalization:accelerating deep network training by reducing internal covariate shift[C]International Conference on International Conference on MachineLearning.JMLR.org,2015.”。

定义14：传统的顺序合并图像方法

传统的顺序合并图像方法就是将多尺度裁剪的图像按照图像编号顺序合并为原来的大图，详见文献“Xia G S,Bai X,Ding J,et al.DOTA:A Large-scale Dataset forObject Detection in Aerial Images[J].2017.”。

本发明提供的一种大场景SAR图像细微目标检测方法，它包括以下几个步骤：

步骤1、待检测大场景SAR图像进行初始化和预处理：

大场景SAR图像预处理，包括：初始化待检测的SAR图像记为X，X的维数记为N₀×N₀；初始化N种滑窗切片，滑窗切片维数大小分别记为将N种滑窗切片按照维数大小从小到大排序，得到一个N层图像金字塔；将待检测SAR图像中飞机、船、车、建筑、道路等待检测人造目标进行人工位置和类别标注，得到目标类别的总数记为K，目标类别的位置记为P_k＝(x_k,y_k,w_k,h_k)，k＝1,2,…,K，其中(x_k,y_k)分别记为第k类目标的中心坐标，(w_k,h_k)分别记为第k类目标的宽和高；

采用传统的标准数据增强技术对待检测SAR图像X进行数据增强，得到数据增强后的SAR图像检测数据集，记为Ω，Ω集合中图像总数量记为N_Ω；初始化数据集Ω中训练集和测试集图像数量的比例，记为K₁:K₂；对数据集Ω中的图像按照比例K₁:K₂随机划分训练集和测试集，得到的训练集记为Ω_K1，得到的测试集记为Ω_K2；

步骤2、构建和初始化卷积神经分类网络模型：

采用传统的标准Darknet-53网络模型构造方法，构建和初始化标准的卷积神经分类网络模型，记为W₀ ^c，初始化网络W₀ ^c的卷积层数，记为N_c，其中卷积核大小为c_i×c_i,i＝1,3,…,n；初始化网络W₀ ^c的残差块层数，记为其中表示第次下采样后的残差块层数；

采用传统的标准通道数加倍方法，将网络W₀ ^c中池化层后卷积层的通道数加倍，记为

采用传统的标准GoogLeNet网络构造方法，将网络中卷积核大小为c_i×c_i,i＝3,…,n之间添加大小为c₁×c₁的卷积核，记为

采用传统的标准批量归一化方法，对网络中每一个卷积层后添加批量归一化层，记为

采用传统的标准Darknet-53网络构造方法，对网络添加K个类别的全连接层，记为

采用标准的归一化指数函数(softmax)计算类别置信度，记为P_c；

步骤3、训练卷积神经分类网络：

初始化步骤2得到网络的图像批量处理大小，记为BS；初始化网络训练参数的学习率，记为LR；初始化网络训练参数的权重衰减率和动量，分别记为WDR和MO；对步骤2得到的网络模型进行随机初始化，得到初始化后网络参数，记为W_old ^c；

采用传统的标准卷积神经分类网络Darknet训练方法，将步骤1中训练集Ω_K1的图片顺序随机打乱后小批量依次通入步骤2得到的卷积神经分类网络模型

采用传统标准的小批量梯度下降法，对网络中网络参数W_old ^c进行计算，得到计算后的网络参数，记为W_new ^c；

采用传统标准交叉熵损失函数计算网络的损失函数值，记为Loss_old ^c；

采用传统的标准卷积神经分类网络Darknet方法，利用步骤1中测试集Ω_K2对网络参数W_new ^c进行测试，得到测试集Ω_K2在W_new ^c上的损失函数值，记为Loss_new ^c；若Loss_new ^c≤Loss_old ^c，则继续按照传统标准卷积神经分类网络Darknet训练方法继续训练网络并计算网络参数W_new ^c和损失值Loss_new ^c；若Loss_new ^c≥Loss_old ^c，则停止训练网络输出当前模型的网络参数W_new ^c，该次网络参数W_new ^c即为训练得到的卷积神经分类网络的最终网络参数，记为W_F ^c；

步骤4、初始化和构建卷积神经检测网络：

按照标准YOLOv3网络模型构造方法，对步骤2得到的卷积神经分类网络添加检测层，得到卷积神经检测网络，记为W₀；

采用步骤4.1至步骤4.4中的方法对卷积神经检测网络W₀进行构建，步骤4.1至步骤4.4具体如下：

步骤4.1、跨尺度预测

采用标准深度学习特征金字塔构造方法对检测网络W₀添加特征交互层，得到网络W₀的N_F层特征金字塔，特征金字塔记为F_ii×F_ii,ii＝1,2,…,N_F，其中F_ii×F_ii为特征金字塔第ii层的特征图；

对步骤2得到的网络中特征图从下到上依次取出N_F层特征图，记为F_ii ^c×F_ii ^c,ii＝1,2,…,N_F,其中F_ii ^c×F_ii ^c为第ii层特征图；

网络W₀中上采样倍数记为n_F ⁱⁱ,ii＝1,2,…,n_F；

按照标准的特征金字塔方法,将网络W₀中的F_ii×F_ii,ii＝1,2,…,N_F与F_ii ^c×F_ii ^c,ii＝1,2,…,N_F特征图和大小为(c_i×c_i,i＝1,3,…,n)的卷积核进行特征融合，得到的检测网络记为

步骤4.2、边界框的预测

使用标准k-means聚类方法对步骤1得到的训练集Ω_K1进行聚类，得到M个聚类中心作为网络的先验锚点框，其中聚类中心记为其中分别为第i₀个聚类中心的坐标；每个边界框预测四个坐标值，坐标值记为(t_x，t_y，t_w，t_h)，对于预测的网格cell_j,j＝1,2,…,S×S,其中S×S为待检测图划分的网格数；

根据图像左上角的偏移(c_x,c_y)和边界框的宽和高(p_ω,p_h)，采用公式b_x＝σ(t_x)+c_x，b_y＝σ(t_y)+c_y，计算边界框(b_x,b_yb_ω,b_h)，其中σ(t_x),σ(t_y)为中心点坐标，(b_x,b_y)为偏移后边界框的中心坐标，(b_ω,b_h)为偏移后边界框的宽和高；

每个小格cell_j会对应B个边界框，记为边界框的宽高范围为步骤1中得到的M_n×M_n；对第i₁个边界框通过逻辑回归预测一个物体的得分，记为其中代表该处是否有物体及定位准确度；

采用传统的YOLOv3网络模型中标准IOU计算方法，计算预测的边界框与真实的边框值的IoU,如果IoU≥α，那么否则预测的边界框

步骤4.3、计算损失函数

将步骤1中训练集Ω_K1的图像编号随机打乱后排列成一个图像编号向量，记为L_img；按照L_img中图像编号顺序，依次取出一个批量的图像编号，记为L_img ^B；按照L_img ^B中图像编号读取训练集Ω_K1的图像作为网络的输入，记为S1，其中向量S1的维度大小为(S×S×(B×(5+C)))；

采用传统的YOLOv3网络模型方法，将向量S1通过检测网络W₀计算输出的一组结果向量记为S2，其中向量S2的维度大小为(S×S×(B×(5+C)))；其中，S为划分网格数，B为每个网格负责目标个数，C为类别个数；

采用损失函数(TSE)公式Los＝loss_loc+loss_con+loss_class，计算S1和S2的损失函数值，记为Loss，其中loss_loc为定位损失，loss_con为置信度损失，loss_class为分类损失；

步骤5、训练和调整卷积神经检测网络：

初始化训练卷积神经检测网络的图像批量处理大小，记为BS¹；初始化学习率，记为LR¹；初始化权重衰减率和动量，分别记为WDR¹和MO¹；将步骤3得到的卷积神经分类网络模型的参数W_F ^c作为检测网络的初始化参数，得到初始化后的卷积神经检测网络W_old；

采用传统标准的卷积神经检测网络Darknet训练技术，将步骤1中训练集Ω_K1的图片顺序随机打乱后小批量依次通入步骤4得到的卷积神经检测网络模型

采用传统标准的小批量梯度下降法，对卷积神经检测网络W_old的网络参数进行计算，得到新的网络参数，记为W_new；

采用步骤4.3中的损失函数Loss，计算的损失函数值，记为Losso_ld；

采用传统的检测网络Darknet训练技术方法，利用步骤1中测试集Ω_K2对W_new进行测试，得到测试集Ω_K2在W_new上的总损失值，记为Loss_new；若Loss_new≤Loss_old，则按照传统的检测网络Darknet训练方法继续训练模型并计算网络参数W_new和损失值Loss_new；若Loss_new≥Loss_old，则停止训练模型输出当前模型的网络参数W_new，该次网络参数W_new即为训练得到的卷积神经检测网络的最终网络参数；采用传统检测网络Darknet训练技术中的多尺度训练策略，将网络每经过p个批量训练后，随机选择图像变化尺度因子α＝[α₁,α₂,α₃,α₄,α₅]，将步骤1中图像尺度与α相乘，得到网络的输入图像尺度；将训练网络得到的最终检测网络模型和参数记为W_result；

步骤6、对待检测大场景SAR图像进行检测：

初始化待检测大场景SAR图像，记为Ω_I；采用步骤1中SAR图像预处理方法对待检图像Ω_I进行预处理，得到切片图像，记为Ω_T；

把切片图像Ω_T按照切片图像编号顺序送入步骤5得到的卷积神经检测网络W_result进行检测，输出切片图像Ω_T的检测结果，记为Ω_O；

采用传统的顺序合并图像方法，将切片图像结果Ω_O按照切片图像编号顺序进行合并；

采用标准非极大值抑制方法，消除检测网络W_result中同一目标多次预测及重复框，得到的检测图像结果，记为Ω_R；图像Ω_R即为最终的大场景SAR图像细微目标检测结果。

本发明的创新点在于把目标检测问题看作回归问题，引入残差网络结构和构建特征金字塔，利用1×1卷积核实现不同特征层的交互，来对图像目标进行跨尺度的预测，使得骨干网络更加有利于特征提取，更加有利于小目标的检测，并且能够实现实时的目标检测；同时使用K-means聚类来确定边界框的先验，达到相同的交并比(IoU)结果时所需的锚点框数量更少，使得模型的表示能力更强，任务更容易学习；实现端到端训练及推断；

本发明的优点在于实现简单、检测效率高、检测精度高、检测速度快、适用性好，能有效解决大场景SAR图像细微目标的检测问题。

附图说明

图1为本发明所采用检测网络结构图；

图2为本发明所设计提供方法的处理流程示意框图；

具体实施方式

本发明主要采用仿真实验的方法进行验证，所有步骤、结论都在tensorflow1.12.0上验证正确。具体实施步骤如下：

步骤1、待检测大场景SAR图像进行初始化和预处理：

大场景SAR图像预处理，包括：初始化待检测的SAR图像记为X，X的维数为N₀×N₀＝5000×5000；初始化N＝3种滑窗切片，滑窗切片维数大小分别为M₁×M₁＝600×600，M₂×M₂＝800×800，M₃×M₃＝1000×1000；将N＝3种滑窗切片按照维数大小从小到大排序，得到一个N＝3层图像金字塔；将待检测SAR图像中飞机、船、车、建筑、道路等待检测人造目标进行人工位置和类别标注，得到目标类别的总数为K＝5，目标类别的位置记为P_k＝(x_k,y_k,w_k,h_k)，k＝1,2,…,5，其中(x_k,y_k)分别记为第k类目标的中心坐标，(w_k,h_k)分别记为第k类目标的宽和高；

采用传统的标准数据增强技术对待检测SAR图像X进行数据增强得到数据增强后的SAR图像检测数据集，记为Ω，Ω集合中图像总数量记为N_Ω；初始化数据集Ω中训练集和测试集图像数量的比例，其中K₁:K₂＝8:2；对数据集Ω中的图像按照比例8:2随机划分训练集和测试集，得到的训练集记为Ω₈，得到的测试集记为Ω₂；

步骤2、构建和初始化卷积神经分类网络模型：

采用传统的标准Darknet-53网络模型构造方法，构建和初始化标准的卷积神经分类网络模型，记为W₀ ^c，初始化网络W₀ ^c的卷积层数，记为N_c＝53，其中卷积核大小分别为c₁×c₁＝1×1和c₃×c₃＝3×3；初始化网络W₀ ^c的残差块层数，分别为R_c ¹＝1,R_c ²＝2,R_c ³＝8,R_c ⁴＝8,R_c ⁵＝4，其中表示第次下采样后的残差块层数；

采用传统的标准GoogLeNet网络构造方法，将网络中卷积核大小为c₃×c₃＝3×3之间添加大小为c₁×c₁＝1×1的卷积核，记为

采用传统的标准Darknet-53网络构造方法，对网络添加K＝5个类别的全连接层，记为

步骤3、训练卷积神经分类网络：

初始化步骤2得到网络的图像批量处理大小，记为BS＝128；初始化网络训练参数的学习率，记为LR＝0.01；初始化网络训练参数的权重衰减率和动量，分别记为WDR＝0.0005和MO＝0.9；对步骤2得到的网络中网络权重系数参数进行随机初始化，得到初始化后网络参数，记为W_old ^c；

采用传统的标准卷积神经分类网络Darknet训练方法，将步骤1中训练集Ω₈的图片顺序随机打乱后小批量依次通入步骤2得到的卷积神经分类网络模型

采用传统的标准卷积神经分类网络Darknet方法，利用步骤1中测试集Ω₂对网络参数W_new ^c进行测试，得到测试集Ω₂在W_new ^c上的损失函数值，记为Loss_new ^c；若Loss_new ^c≤Loss_old ^c，则继续按照传统标准卷积神经分类网络Darknet训练方法继续训练网络并计算网络参数W_new ^c和损失值Loss_new ^c；若Loss_new ^c≥Loss_old ^c，则停止训练网络输出当前模型的网络参数W_new ^c，该次网络参数W_new ^c即为训练得到的卷积神经分类网络的最终网络参数，记为W_F ^c；

步骤4、初始化和构建卷积神经检测网络：

步骤4.1、跨尺度预测

采用标准深度学习特征金字塔构造方法对检测网络W₀添加特征交互层，得到网络W₀的N_F＝3层特征金字塔，特征金字塔记为F_ii×F_ii,ii＝1,2,3，其中F_ii×F_ii为特征金字塔第ii层的特征图；

对步骤2得到的网络中特征图从下到上依次取出N_F＝3层特征图，记为F_ii ^c×F_ii ^c,ii＝1,2,3,其中F_ii ^c×F_ii ^c为第ii层特征图；

网络W₀中上采样倍数分别记为n_F ¹＝2,n_F ²＝4；

按照标准的特征金字塔方法将网络W₀中的F_ii×F_ii,ii＝1,2,3与F_ii ^c×F_ii ^c,ii＝1,2,3特征图通过大小为(c₁×c₁＝1×1,c₃×c₃＝3×3)的卷积核进行特征融合，得到的检测网络记为

步骤4.2、边界框的预测

使用标准k-means聚类方法对步骤1得到的训练集Ω₈进行聚类，得到M＝9个聚类中心作为网络的先验锚点框，其中聚类中心记为其中分别为第i₀个聚类中心的坐标；每个边界框预测四个坐标值，坐标值记为(t_x，t_y，t_w，t_h)，对于预测的网格cell_j,j＝1,2,…,19×19,其中19×19为待检测图划分的网格数；

根据图像左上角的偏移(c_x,c_y)和边界框的宽和高(p_ω,p_h)利用公式b_x＝σ(t_x)+c_x，b_y＝σ(t_y)+c_y，计算边界框(b_x,b_yb_ω,b_h)，其中σ(t_x),σ(t_y)为中心点坐标，(b_x,b_y)为偏移后边界框的中心坐标，(b_ω,b_h)为偏移后边界框的宽和高；

采用传统的YOLOv3网络模型中标准IOU计算方法，计算预测的边界框与真实的边框值的IoU,如果IoU≥α＝0.5，那么否则预测的边界框

步骤4.3、计算损失函数

将步骤1中训练集Ω₈的图像编号随机打乱后排列成一个图像编号向量，记为L_img；按照L_img中图像编号顺序，依次取出一个批量的图像编号，记为L_img ^B；按照L_img ^B中图像编号读取训练集Ω₈的图像作为网络的输入，记为S1，其中向量S1的维度大小为(S×S×(B×(5+C)))；

采用损失函数(TSE)公式Loss＝loss_loc+loss_con+loss_class，计算S1和S2的损失函数值，记为Loss，其中loss_loc为定位损失，loss_con为置信度损失，loss_class为分类损失；

步骤5、训练和调整卷积神经检测网络：

初始化训练卷积神经检测网络的图像批量处理大小，记为BS¹＝64；初始化学习率，记为LR¹＝0.01，初始化权重衰减率和动量，分别记为WDR¹＝0.0005，MO¹＝0.9；将步骤3得到的卷积神经分类网络模型的参数W_F ^c作为检测网络的初始化参数，得到初始化后的卷积神经检测网络W_old；

采用传统标准的卷积神经检测网络Darknet训练技术，将步骤1中训练集Ω₈的图片顺序随机打乱后小批量依次通入步骤4得到的卷积神经检测网络模型

采用传统的检测网络Darknet训练技术方法，利用步骤1中测试集Ω₂对W_new进行测试，得到测试集Ω₂在W_new上的总损失值，记为Loss_new；若Loss_new≤Loss_old，则按照传统的检测网络Darknet训练方法继续训练模型并计算网络参数W_new和损失值Loss_new；若Loss_new≥Loss_old，则停止训练模型输出当前模型的网络参数W_new，该次网络参数W_new即为训练得到的卷积神经检测网络的最终网络参数；采用传统检测网络Darknet训练技术中的多尺度训练策略，将网络每经过p＝10个批量训练后，随机选择图像变化尺度因子α＝[α₁,α₂,α₃,α₄,α₅]，将步骤1中图像尺度与α相乘，得到网络的输入图像尺度；将训练网络得到的最终检测网络模型和参数记为W_result；

步骤6、对待检测大场景SAR图像进行检测：

Claims

1.一种大场景SAR图像细微目标检测方法，其特征是它包括以下步骤：

步骤1、待检测大场景SAR图像进行初始化和预处理：

步骤2、构建和初始化卷积神经分类网络模型：

步骤3、训练卷积神经分类网络：

步骤4、初始化和构建卷积神经检测网络：

步骤4.1、跨尺度预测

网络W₀中上采样倍数记为n_F ⁱⁱ,ii＝1,2,…,n_F；

步骤4.2、边界框的预测

根据图像左上角的偏移(c_x,c_y)和边界框的宽和高(pω,ph)，采用公式b_x＝σ(t_x)+c_x，b_y＝σ(t_y)+c_y，计算边界框(b_x,b_yb_ω,b_h)，其中σ(t_x),σ(t_y)为中心点坐标，(b_x,b_y)为偏移后边界框的中心坐标，(b_ω,b_h)为偏移后边界框的宽和高；

步骤4.3、计算损失函数

步骤5、训练和调整卷积神经检测网络：

采用传统的检测网络Darknet训练技术方法，利用步骤1中测试集Ω_K2对W_new进行测试，得到测试集Ω_K2在W_new上的总损失值，记为Loss_new；若Loss_new≤Loss_old，则按照传统的检测网络Darknet训练方法继续训练模型并计算网络参数W_new和损失值Loss_new；若Loss_new≥Losso_ld，则停止训练模型输出当前模型的网络参数W_new，该次网络参数W_new即为训练得到的卷积神经检测网络的最终网络参数；采用传统检测网络Darknet训练技术中的多尺度训练策略，将网络每经过p个批量训练后，随机选择图像变化尺度因子α＝[α₁,α₂,α₃,α₄,α₅]，将步骤1中图像尺度与α相乘，得到网络的输入图像尺度；将训练网络得到的最终检测网络模型和参数记为W_result；

步骤6、对待检测大场景SAR图像进行检测：

采用传统的顺序合并图像方法，将切片图像结果Ω_O按照切片图像编号顺序进行合并；采用标准非极大值抑制方法，消除检测网络W_result中同一目标多次预测及重复框，得到的检测图像结果，记为Ω_R；图像Ω_R即为最终的大场景SAR图像细微目标检测结果。