Nothing Special   »   [go: up one dir, main page]

CN116188929A - 小目标检测方法、小目标检测系统 - Google Patents

小目标检测方法、小目标检测系统 Download PDF

Info

Publication number
CN116188929A
CN116188929A CN202310115681.5A CN202310115681A CN116188929A CN 116188929 A CN116188929 A CN 116188929A CN 202310115681 A CN202310115681 A CN 202310115681A CN 116188929 A CN116188929 A CN 116188929A
Authority
CN
China
Prior art keywords
small target
target detection
fusion
conv
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310115681.5A
Other languages
English (en)
Inventor
于瑞云
赵前程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202310115681.5A priority Critical patent/CN116188929A/zh
Publication of CN116188929A publication Critical patent/CN116188929A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)

Abstract

本发明申请属于计算机技术领域,具体涉及一种小目标检测方法、小目标检测系统。其中的小目标检测方法包括:使用注意力机制调整相邻两层特征图中上层特征图的融合比例,得到融合特征图;基于所述融合特征图进行小目标检测,得到小目标检测结果。本申请的检测方法通过在特征融合的过程中使用注意力调整上层特征图的融合比例,筛选出适合小目标所在位置的语义特征,大幅提升了小目标检测的精度。

Description

小目标检测方法、小目标检测系统
技术领域
本申请属于计算机技术领域,具体涉及一种小目标检测方法、小目标检测系统。
背景技术
近年来,目标检测作为计算机视觉的一个重要分支在多个领域发挥了巨大作用。在现实场景中,由于小目标大量的存在,小目标检测在医疗、智能交通、智慧零售、安防刑侦以及国防安全等领域具备广泛的应用前景。在目标检测任务中目标检测的精度对事件触发起到至关重要的作用,但小目标的检测精度还不能令人满意,成为业界的一大难点。
小目标像素占比少,存在覆盖面积小、包含信息少等基本特点,这是小目标在图像中难以被检测的根本原因。现有的小目标检测方法中,单阶段目标检测算法采用多尺度检测的方法,将主干网络提供的上一层的特征图先经过1×1卷积调整统一通道数后,再进行双线性插值将特征图的H×W变为和下一层特征图同样大小,最后将插值后的特征图和下层特征图进行简单的相加融合。由于深层语义特征不仅包含小目标的语义信息,还包含中/大目标的语义信息,如果简单相加融合,不仅会融入小目标的语义信息,也会融入中/大目标的语义信息,把这两种对于小目标检测无用的语义信息引入到针对小目标检测层级的特征图中,添加了干扰噪声,导致小目标检测的精度较低。
因此,如何有效进行小目标检测,提高小目标的检测精度,成为亟待解决的技术问题。
发明内容
(一)要解决的技术问题
鉴于现有技术的上述缺点、不足,本申请提供一种小目标检测方法、小目标检测系统。
(二)技术方案
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请实施例提供一种基于注意力自适应融合特征的小目标检测方法,该方法包括:
使用注意力机制调整相邻两层特征图中上层特征图的融合比例,得到融合特征图;
基于所述融合特征图进行小目标检测,得到小目标检测结果。
可选地,该方法包括以下步骤:
S1、获取待检测图像;
S2、将所述待检测图像输入到预先训练好的小目标检测模型中,得到相应的小目标检测结果;其中,所述小目标检测模型包括用于提取多尺度特征图的主干网络模块、用于对多尺度特征图使用注意力机制调整相邻两层特征图中上层特征图的融合比例进行特征融合的特征融合模块、用于对所述融合特征图进行小目标检测的检测头模块。
可选地,所述主干网络模块提取多尺度特征图的步骤包括:
将所述待检测图像首先经过一个步长为2的7×7卷积、步长为2的2×2最大池化层、再分别经过不同数量重复堆叠的残差块,得到尺寸分别为原图1/4、1/8、1/16、1/32的C2特征图、C3特征图、C4特征图、C5特征图,所述残差块由1×1卷积、3×3卷积组成。
可选地,所述特征融合模块对多尺度特征图使用注意力机制调整相邻两层特征图中上层特征图的融合比例进行特征融合的方法包括:
根据以下公式使用注意力机制调整上层特征图的融合比例后聚合相邻层的特征图:
Figure BDA0004078460920000021
其中,Pi是添加注意力后的融合特征图,
Figure BDA0004078460920000022
表示用3×3卷积核进行卷积处理,
Figure BDA0004078460920000023
表示用于通道数匹配的通过1×1卷积核进行卷积处理,fupsample表示进行上采样,Ci表示本层的特征图,Ti+1表示上层的特征图,fatt表示对输入的特征图添加注意力。
可选地,根据以下公式对输入的特征图添加注意力:
fatt(xin)=xin*(sigmoid(conv1×1(conv1×1(xin)))
其中,xin表示输入的特征图,conv1×1表示通过1×1卷积核进行卷积运算,sigmoid表示激活函数。
可选地,所述检测头模块对所述融合特征图进行检测的方法包括:
对所述融合特征图根据以下公式进行分类检测,得到每个空间位置处每个预测边界框的类别概率,在检测过程中通过感受野自适应选择模块将方形感受野扩充至方形感受野和长方形感受野:
foutput1=conv3×3(Rconv3×3(RFASM(RFASM(Rconv3×3(x)))))
对所述融合特征图根据以下公式进行回归检测,得到每个空间位置处各个参考锚框的偏移量以确定预测边界框位置:
foutput2=conv3×3(Rconv3×3(Rconv3×3(Rconv3×3(Rconv3×3(x)))))
其中,foutput1表示分类检测的预测结果,foutput2表示回归检测的预测结果,x表示输入的特征图,conv3×3表示3×3卷积核进行卷积处理,Rconv3×3表示3×3卷积后接一个ReLU激活函数,RFASM表示感受野自适应选择模块。
可选地,所述感受野自适应选择模块根据以下公式将方形感受野扩充至方形感受野和长方形感受野:
fnext=conv1×1(m)+m1
其中,fnext表示所述感受野自适应选择模块的输出结果,m由m2、m3、m4、m5归一化得到:
Figure BDA0004078460920000031
其中,m1、m2、m3、m4、m5根据以下公式计算所得:
m1=conv3×3(x)
m2=conv1×3(conv1×1(x))
m3=conv3×1(conv1×1(x))
m4=conv1×3(conv1×3(conv1×1(x)))
m5=conv3×1(conv3×1(conv1×1(x)))
w2、w3、w4、w5由根据以下公式计算所得的w按通道拆分所得:
w=conv1×1(m2+m3+m4+m5)
其中,x表示输入特征图,conv1×3表示1×3卷积核卷积处理,conv3×1表示3×1卷积核卷积处理,ε取值为0.0001。
可选地,在S1之后,在S2之前还包括:
对所述待检测图像进行预处理,得到预处理后的待检测图像,其中,预处理包括填充、改变图像大小、数据增强中的一种或多种。
可选地,S2之后还包括:
S3、通过后处理删除重叠的检测框,得到最终的小目标检测结果。
第二方面,本申请实施例提供一种小目标检测系统,该系统包括视频采集子系统、小目标检测子系统;
所述视频采集子系统,与所述小目标检测子系统连接,用于通过视频采集设备采集目标区域的视频图像,并所述目标区域的视频图像发送至所述小目标检测子系统;
所述小目标检测子系统,用于接收所述视频图像,并采用如上第一方面任一项所述的基于注意力自适应融合特征的小目标检测方法对所述视频图像进行实时小目标检测。
第三方面,本申请实施例提供一种计算机可读存储介质,存储有基于注意力自适应融合特征的小目标检测程序,所述小目标检测程序被处理器执行时,使得处理器执行如上第一方面任一项所述的基于注意力自适应融合特征的小目标检测方法的步骤。
第四方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有基于注意力自适应融合特征的小目标检测程序,所述小目标检测程序被处理器执行时,使得处理器执行如上第一方面任一项所述的基于注意力自适应融合特征的小目标检测方法的步骤。
(三)有益效果
本申请的有益效果是:本申请提出了一种小目标检测方法、小目标检测系统,其中的小目标检测方法包括:使用注意力机制调整相邻两层特征图中上层特征图的融合比例,得到融合特征图;基于所述融合特征图进行小目标检测,得到小目标检测结果。
本申请提供的小目标检测方法,通过注意力在上下层特征融合过程中筛选出小目标所在位置的语义特征,从而使针对检测小目标层的特征图只融合小目标语义特征,从而大幅提升了小目标检测的精度;且部署简单方便,即插即用。
进一步地,在特征检测过程中,感受野自适应选择模块RFASM使用注意力加权的方式扩充长方形感受野,让网络能够自适应的选择当前位置物体需要使用哪种合适的感受野来进行捕捉目标,增强了捕捉数据集以及生活场景中一些极高或极宽的小目标能力,进而大幅提升了小目标检测的精度。
进一步地,本申请提供的小目标检测方法,采用注意力的形式,且注意力模块权重是随数据集不同在训练过程中进行变化的,扩大了应用范围。
附图说明
本申请借助于以下附图进行描述:
图1为本申请一个实施例中的基于注意力自适应融合特征的小目标检测方法流程示意图;
图2为本申请另一个实施例中的基于注意力自适应融合特征的小目标检测方法流程示意图;
图3为本申请另一个实施例中的小目标检测模型训练流程示意图;
图4为本申请另一个实施例中的小目标检测模型结构示意图;
图5为本申请另一个实施例中的特征融合流程图;
图6为本申请另一个实施例中的注意力模块对输入特征图处理流程示意图;
图7为本申请另一个实施例中的感受野自适应选择模块的结构图;
图8为现有的RetinaNet模型在FPN的第一层特征融合后的注意力可视化图;
图9为本申请另一个实施例中的小目标检测模型在FPN第一层的特征融合后注意力可视化图;
图10为本申请一个实施例中的小目标检测系统结构示意图;
图11为本申请一个实施例中的计算机设备的架构示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。可以理解的是,以下所描述的具体的实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合;为了便于描述,附图中仅示出了与发明相关的部分。
虽然不同场景对于小目标的定义不同,目前还未形成统一的标准,现有小目标的定义方式主要分为两类:基于相对尺度的定义和基于绝对尺度的定义。基于相对尺度的定义中,边界框面积和图像面积之比的中位数在0.08%~0.58%之间的物体被认为是小目标。基于绝对尺度的定义中,分辨率小于32×32像素的目标被视为小目标。本申请的小目标检测方法中,小目标是指上述以绝对尺度定义中的小目标。
实施例一
图1为本申请一个实施例中的基于注意力自适应融合特征的小目标检测方法流程示意图,如图1所示,本实施例基于注意力自适应融合特征的小目标检测方法包括以下步骤:
S1、使用注意力机制调整相邻两层特征图中上层特征图的融合比例,得到融合特征图;
S2、基于融合特征图进行小目标检测,得到小目标检测结果。
本申请的小目标检测方法通过注意力在特征融合过程中筛选出小目标所在位置的语义特征,从而使针对检测小目标层的特征图只融合小目标语义特征,从而大幅提升了小目标检测的精度。
本实施例的小目标检测方法可以应用于计算机设备中。其中,计算机设备可以通过搭载软件系统执行本实施例的小目标检测方法。计算机设备的类型可以是笔记本电脑,计算机,服务器等。本申请不对计算机设备的具体类型进行特别限定。
可以理解的是,本实施例的小目标检测方法既可以仅通过客户端设备或服务端设备单独执行,也可以通过客户端设备与服务端设备配合执行。服务端可以是由单台服务器或服务器机器构建的云端。
例如,小目标检测方法可以集成于客户端。客户端设备在接收到小目标检测请求后,可以通过自身硬件环境执行小目标检测。
又例如,小目标检测方法可以集成于服务端设备。服务端设备在接收到小目标检测请求后,可以通过自身硬件环境执行小目标检测方法。
为了更好地理解本发明,以下以服务器为执行主体对本实施例方法的实现过程进行展开说明。
本实施例中,通过预先训练好的小目标检测模型进行小目标检测。小目标检测方法的实现过程包括:
获取待检测图像;
将待检测图像输入到预先训练好的小目标检测模型中,得到相应的小目标检测结果;其中,小目标检测模型包括用于提取多尺度特征图的主干网络模块、用于对多尺度特征图基于注意力进行特征融合的特征融合模块、用于对融合后的特征图进行小目标检测的检测头模块。
本实施例中,获取的待检测图像可以是从视频图像中切帧后得到的图像,然后对视频的每一帧进行小目标检测。视频图像可以是通过位于小目标对象所在环境内的视频采集设备实时采集的视频图像,也可以是从视频存储系统中读取的预先录制的视频图像。
举例来说,视频采集设备与执行本实施例方法的服务器之间可以通过无线网络或有线网络的方式,建立通信连接,服务器通过上述建立的通信连接,来接收视频采集设备发送的视频图像。
当视频图像是实时采集的视频流时,获取待检测图像可以包括:获取关键帧图像。具体的,可以通过以下步骤抽取得到关键帧图像:
对获取的实时视频流进行解码处理,得到与实时视频流对应的多帧原始帧图像;
基于预设的抽帧规则,从原始帧图像中抽取关键帧图像;
将抽取得到的关键帧图像作为待检测图像。
示例性的,视频的帧数一般都是30帧/秒,最低可以降到25帧/秒,因此可以基于实时视频流的帧数对其进行解码处理。具体的,可以在实时接收到监控视频的同时,对其进行解码处理,从而得到与实时视频流对应的多帧原始帧图像。在获取多帧原始帧图像之后,鉴于处理资源的限制,以及基于目标业务的需求,一般无需对每一帧原始帧图像进行处理,因此,可以基于一定的抽帧规则,例如每10帧抽取一帧、或者每5帧抽取一帧的规则,从多帧所述原始帧图像中抽取帧图像,作为关键帧图像。
需要说明的是,抽帧的间隔可根据实际情况进行设置,本申请对此不作限制。
本实施例中,小目标检测模型中的主干网络模块可以采用ResNet50、ResNet101。
需要说明的是,主干网络也可以采用其他神经网络,本实施例对主干网络模块的神经网络结构不做具体限定。
主干网络模块提取多尺度特征图的步骤包括:
将待检测图像首先经过一个步长为2的7×7卷积、步长为2的2×2最大池化层、再分别经过不同数量重复堆叠的残差块,得到尺寸分别为原图1/4、1/8、1/16、1/32的C2特征图、C3特征图、C4特征图、C5特征图,所述残差块由1×1卷积、3×3卷积组成。
本实施例中,特征融合模块对多尺度特征图使用注意力机制调整相邻两层特征图中上层特征图的融合比例进行特征融合的方法包括:
根据公式(1)使用注意力机制调整上层特征图的融合比例后聚合相邻层的特征图:
Figure BDA0004078460920000091
其中,Pi是添加注意力后的融合特征图,
Figure BDA0004078460920000092
表示用3×3卷积核进行卷积处理,
Figure BDA0004078460920000093
表示用于通道数匹配的通过1×1卷积核进行卷积处理,fupsample表示进行上采样,Ci表示本层的特征图,Ti+1表示上层的特征图,fatt表示对输入的特征图添加注意力。
具体地,根据公式(2)对输入的特征图添加注意力:
fatt(xin)=xin*(sigmoid(conv1×1(conv1×1(xin))) (2)
其中,xin表示输入的特征图,conv1×1表示通过1×1卷积核进行卷积运算,sigmoid表示激活函数。
通过公式(2)对输入的特征图添加注意力,避免了会对专门检测小目标这个层级的特征图添加无关的语义信息,提高小目标检测的精度。
实施例二
本实施例在实施例一的基础上,提出了一种通过感受野自适应选择模块来扩充长方形感受野的特征检测头模块。
本实施例中,特征检测头模块对融合特征图进行检测的方法可以包括:
分类检测头对融合特征图根据公式(3)进行分类检测,得到每个空间位置处每个预测边界框的类别概率,在检测过程中通过感受野自适应选择模块将方形感受野扩充至方形感受野和长方形感受野:
foutput1=conv3×3(Rconv3×3(RFASM(RFASM(Rconv3×3(x))))) (3)
回归检测头对融合特征图根据公式(4)进行回归检测,得到每个空间位置处各个参考锚框的偏移量以确定预测边界框位置:
foutput2=conv3×3(Rconv3×3(Rconv3×3(Rconv3×3(Rconv3×3(x)))))(4)
其中,foutput1表示分类检测的预测结果,foutput2表示回归检测的预测结果,x表示输入的特征图,conv3×3表示3×3卷积核进行卷积处理,Rconv3×3表示3×3卷积后接一个ReLU激活函数,RFASM表示感受野自适应选择模块。
具体地,检测头模块中包括感受野自适应选择模块RFASM,RFASM根据公式(5)将方形感受野扩充至方形感受野和长方形感受野:
fnext=conv1×1(m)+m1(5)
其中,fnext表示感受野自适应选择模块的输出结果,m是由m2、m3、m4、m5归一化得到:
Figure BDA0004078460920000101
其中,m1、m2、m3、m4、m5根据公式(7)-(11)计算所得:
m1=conv3×3(x)(7)
m2=conv1×3(conv1×1(x))(8)
m3=conv3×1(conv1×1(x))(9)
m4=conv1×3(conv1×3(conv1×1(x)))(10)
m5=conv3×1(conv3×1(conv1×1(x)))(11)
w2、w3、w4、w5是由w按通道拆分所得,由于w是h×w×4的权重,4为通道数,所以按照通道拆分可得4个h×w×1的权重,分别是w2、w3、w4、w5,而w是根据公式(12)计算所得:
w=conv1×1(m2+m3+m4+m5)(12)
其中,x表示输入特征图,conv1×3表示1×3卷积核卷积处理,conv3×1表示3×1卷积核卷积处理,ε取0.0001防止分母为0。
通过公式(5)对输入的特征图通过使用1×3以及3×1卷积来扩充长方形感受野,并且通过堆叠两个1×3、3×1的卷积来替代1×5、5×1的卷积。并且所有的1×3、3×1卷积都是深度可分离卷积,不仅可以获取更大的感受野,兼顾场景中极高或极窄的小目标,而且可以节省计算以及存储的资源。另外,感受野自适应选择模块RFASM使用注意力加权的方式,让网络能够自适应的选择当前位置物体需要使用哪种合适的感受野来进行捕捉目标,进而增强网络模型对于小目标的检测精度。
本实施例中的小目标检测方法通过将特征融合过程视为编码器,将特征检测视为解码器,通过细化编码器的编码能力,将更多的小目标信息加入特征图,同时增强解码器的解码能力,从而提升算法模型对小目标的检测能力。具体的,通过注意力在特征融合过程中筛选出小目标所在位置的语义特征,从而使针对检测小目标层的特征图只融合小目标语义特征,同时,在特征检测过程中,通过“感受野自适应选择模块”扩充“长方形感受野”来捕捉数据集以及生活场景中一些极高或极宽的小目标,进而大幅提升了小目标检测的精度,提高了模型的检测性能。
实施例三
图2为本申请另一个实施例中的基于注意力自适应融合特征的小目标检测方法流程示意图,如图2所示,该方法包括以下步骤:
步骤S10、建立并训练小目标检测模型。
图3为本申请另一个实施例中的小目标检测模型训练流程示意图,如图3所示,本实施例的小目标检测模型训练流程包括:
步骤S11、建立数据集。收集图片以及人工标注图片对应的标签Label,图片与标签一一对应。本实施例中选取的是COCO数据集,COCO数据集是目前目标检测领域最庞大并且最权威的数据集,其可以评测模型的平均精度、小目标精度、中目标精度以及大目标精度。
步骤S12、将数据集划分为训练集、验证集、测试集。
如果数据集规模不大,可以按照6:2:2的划分标准进行划分,如果数据集的规模较大(如已经达到数十万张图片),数据集的划分则可以按照8:1:1的标准划分。
步骤S13、数据加载。
通过深度学习框架Pytorch中提供的数据加载的函数Dataloader进行数据加载,在数据加载的过程中,可以确定每次加载的图片个数、是否随机取样以及工作的CPU个数等。
步骤S14、数据预处理。
由于在计算机视觉的任务中,神经网络要求输入图像数据的高、宽一致。因此需要对图像进行预处理,包括填充和改变图像大小。对于目标检测的任务,由于还需要在原图中画框标注,所以还需要重映射回原图。此外,数据预处理还包含数据增强等操作。
步骤S15、模型前向推理。将加载好的图片数据送入初始化完成的模型中,将数据与模型的权重经过一层层的计算并最终得到模型的前向推理结果。
步骤S16、获得模型前向推理结果,计算损失值。
使用定义好的损失函数,基于模型前向推理结果和图片对应标签计算损失值。
步骤S17、根据损失值计算网络各层梯度,反向传播,更新网络权重。
根据损失值计算网络中权重各层的梯度,并使用当前权重值减去学习率×梯度值得到更新后的权重值,并保存模型。
步骤S18、判断是否满足预设的终止条件:
若模型还未达到规定的轮次或损失值仍然大于阈值,则返回步骤S13;
若模型达到规定轮次或损失值已小于阈值,则保存模型权重文件,终止训练,流程结束。
在训练过程中,基于训练集的数据对初始的小目标检测模型进行训练并确定模型网络参数,使用验证集调整模型的超参数,得到训练好的小目标检测模型;之后在测试集上测试训练出的模型的精度。
具体测试方法属于现有技术,此处不再展开说明。
步骤S20、获取待检测图像,并对待检测图像进行预处理。
将待检测图像通过图像尺寸调整或图像填充调整为预设的尺寸。通常该尺寸为网络模型可以接受的大小,例如1333×800像素。
步骤S30、将预处理后的图像输入到小目标检测模型中。
步骤S40、小目标检测模型通过前向推理得到小目标检测的初始结果。将图片数据送入小目标检测模型网络中进行计算,并获得模型前向推理的结果,即小目标检测的初始结果。
步骤S50、通过后处理删除重叠的检测框,得到最终的小目标检测结果。
由于模型前向推理后的结果非常多,如果将所有的预测结果全部画框呈现,会得到很多重复相互包含的预测框,并且有大量的预测框是无意义的。所以当检测完成后,需要一步后处理来完成对这些大量重复无意义的预测框的过滤。可以采用非极大值抑制(nonmaximum suppression,NMS)、Soft-NMS等进行后处理操作。
步骤S60、将小目标检测结果重映射并在原图中以画框呈现。
将后处理过的小目标检测结果重映射回原图,并在原图进行画框标注目标位置以及目标类别,最后将检测结果保存或展示。
本实施例提供一种在特征融合过程中基于注意力的自适应融合方法,通过对线性插值完后的特征图用注意力模块筛选出小目标所在位置的语义特征,达到剔除无关中/大目标语义特征,使针对检测小目标层的特征图只融合小目标语义特征的目的,大大提升了模型对小目标检测的精度。
由于使用了注意力模块,可以使模型在特征融合的过程中完成自适应的融合,即模型根据当前的数据集图片自行选取小目标语义特征完成融合,而并非人工设计超参数等方法完成融合,并且,在检测头部分添加了扩充长方形感受野的感受野自适应选择模块,能够让网络自适应的捕捉不同形状的小目标,大大增加了网络捕捉目标的能力。因此本实施例的方法部署简单方便,即插即用,且进一步提升了小目标检测精度。
为了验证本实施例的方法的技术效果,使用COCO数据集中测试集的图片进行了目标检测。
表1
Figure BDA0004078460920000141
表1是现有的几种基础模型和在添加本发明的模块后在COCO数据集上进行目标检测的结果对比表。表中的数据为目标检测精度。
从表中可以看出,对比原模型和使用本发明设计的模块替换后的相同模型,在小目标精度上,使用本发明模块的模型都取得了更优秀的效果。在添加本发明后,RetinaNet小目标精度上涨2%,FCOS模型小目标检测精度上涨0.5%,验证了本发明能够获得比原始模型更好的特征融合效果和特征检测精度。
综上所述,本发明所提出的特征融合模块和感受野自适应选择模块能够有效提高模型的自适应性,提高特征融合并检测后的效果,在特征融合阶段可以将更多的小目标信息编码入特征图,同时能够在特征检测阶段将更多的信息解码,即预测出更多小目标相关结果,提升了检测模型对小目标检测的精度,可以实现更为优秀的小目标检测效果。
以下对本实施例中小目标检测模型的结构进行说明。图4为本申请另一个实施例中的小目标检测模型结构示意图,如图4所示,小目标检测模型包括:主干网络(backbone)模块、特征融合模块、检测头模块。其中,损失函数为Focal Loss和L1Loss。
主干网络,用于进行不同尺度的特征提取,得到多个尺度的特征图;
特征金字塔网络,用于基于多尺度学习实现特征融合,得到融合后的特征;
检测头,用于基于特征检测出目标的类别以及相应的位置预测目标的种类和。
Backbone主干网络采用的是ResNet50,ResNet50共有4个阶段,每个阶段的结果特征图分别缩小为原图的1/4,1/8,1/16,1/32。
具体地,本实施例中,将待检测图像输入到主干网络中,可得到4个特征图作为待检测图像的待检测特征图,得到的4个特征图分别记为C2、C3、C4、C5。
特征融合模块基于特征金字塔网络(Feature Pyramid Network,FPN)实现。
特征融合的方法包括:
根据公式(1)聚合相邻的特征层,将上层特征图通过线性插值进行上采样后,对上采样后的上层特征图根据公式(2)添加注意力,得到添加注意力的上层特征图,将得到的添加注意力的上层特征图与通道匹配后的本层特征图进行相加融合,对相加融合的结果通过添加注意力,得到添加注意力后的融合特征图。
需要说明的是,这里上采样可以是双线性插值、最近邻插值,本实施例对上采样的方式不做具体限定。
具体地,对主干网络输出的待检测图像的待检测特征,图5为本申请另一个实施例中的特征融合流程图,其中三角形部分为注意力模块。
如图5所示,特征融合的过程包括:
A1、对Backbone主干网络提取的C3、C4、C5特征图使用1×1卷积将各特征图的通道数调整一致,得到通道数为C的新特征,卷积得到的新特征图为T3、T4、T5
A2、对T5特征图双线性插值,再将插值后的特征图经过注意力模块过滤无用语义信息,此时将过滤信息后的特征图和T4再次相加融合得到新特征图NT4
图6为本申请另一个实施例中的注意力模块对输入特征图处理流程示意图,如图6所示,注意力模块的处理流程包括:
用1×1卷积将待过滤无关信息的特征图的通道数降维到64,也就是用64个1×1的卷积核对特征图做卷积,此时特征图的shape为H×W×64;
接着对卷积后的结果进行归一化;
用1×1卷积对归一化后的结果通道数降维到1得到输出,此时输出特征图的shape为H×W×1;
用Sigmoid将结果转换到0~1之间,形成一张位置的概率图;
将得到的位置概率图与输入的特征图相乘后得到过滤无用信息后的结果特征图并输出。
A3、同理,对NT4也经过步骤2同样操作后,得到和T3融合后的新特征图NT3
A4、对得到的T5、NT4、NT3特征图先进行3×3卷积平滑融合后的特征,再将卷积后的特征图经过注意力模块二次过滤出不适合本层检测目标规模任务的无关噪声信息后得到P3、P4、P5
A5、将P5特征图经过一个步长为2的3×3卷积后得到P6特征图;
A6、将P6特征图先经过ReLU非线性函数激活后,再经过一个步长为2的3×3卷积得到P7特征图;
A7、将P3、P4、P5、P6、P7特征图作为添加注意力后的融合特征图。
本实施例中,将五层特征图P3、P4、P5、P6、P7输入检测头模块,通过分类单元可以得到特征图上参考框对应类别的概率,以及通过检测框回归单元得到对应的偏移量。
检测头模块包括分类单元和检测框回归单元,其中分类单元用来预测每个位置的各个参考框(anchor)(数量为A)的类别概率(数据集类别数为K),这一步也就是相当于预测每个Anchor在每个类别上的概率,然后取最大的概率。而检测框回归单元用来预测每个位置各个参考框和真值标定框(Ground Truth)之间的偏移(偏移量有4个,所以最终结果为4A个)。分类单元包括2个3×3的卷积(包含ReLU激活函数,通道数是256)与两个感受野自适应选择模块RFASM,最后是一个3×3的卷积(不包含ReLU函数),输出通道数为KA个,最后sigmoid激活就可以得到各个anchor预测每个类别的概率,每个位置相当于KA个二分类问题。检测框回归单元与分类单元类似,包含4个3×3的卷积(包含ReLU激活函数,通道数是256),最后同样是一个3×3的卷积(不包含ReLU函数),只不过最后输出通道数是4A,这也表明检测框回归是类别无关的。
具体地,图7为本申请另一个实施例中的感受野自适应选择模块的结构图,如图7所示,感受野自适应融合的过程为:
B1、对输入的特征图x进行3×3卷积得到特征图m1;
B2、对输入的特征图x进行1×1卷积降维到64通道,再使用1×3卷积来扩充纵向长方形的感受野,得到输出特征图m2;
B3、对输入的特征图x进行1×1卷积降维到64通道,再使用3×1卷积来扩充横向长方形的感受野,得到输出特征图m3;
B4、对输入的特征图x进行1×1卷积降维到64通道,再堆叠使用两个1×3卷积来扩充更大规模纵向长方形的感受野,得到输出特征图m4;
B5、对输入的特征图x进行1×1卷积降维到64通道,再堆叠使用两个3×1卷积来扩充更大规模横向长方形的感受野,得到输出特征图m5;
B6、将特征图m2、m3、m4、m5相加融合,再将融合后的特征图经过1×1卷积降维至4通道得到4×h×w的权重,即一个通道对应一个特征图,每个通道分别为w2、w3、w4、w5。
B7、接着针对4×h×w的权重进行快速归一化,按照公式(6)进行对4个支路(m2、m3、m4、m5)的[i,j]位置归一化求和(ε取0.0001防止分母为0)。
B8、将归一化求和后的特征图m经过1×1卷积升维后与m1相加融合得到输出特征图output。
接着通过后处理删除重叠的检测框,本实施例中后处理采用非极大值抑制(nonmaximum suppression,NMS)算法。对每层特征图的预测,首先取top 1K(按每个参考框最大的类别概率来过滤)的预测结果(也就是上文提到的Anchor对应概率以及对应偏移量),然后用0.05的阈值过滤掉不合格的结果,此时得到的预测结果数量已经大大降低,此时再对预测结果的预测框进行解码,而不是对模型预测所有预测结果解码可以提升推理速度。
最后把所有层特征图的预测结果合并在一起,通过IoU=0.5的NMS算法过滤重叠框就得到最终推理结果。
针对底层的特征语义信息比较少,但是目标位置准确;高层的特征语义信息比较丰富,但是目标位置比较粗略,本发明通过用注意力模块过滤在FPN特征融合过程中的无关本层检测任务的语义信息,使得P3、P4、P5、P6、P7五层特征图更加关注本层应该检测规模大小的任务目标,由于特征融合过程主要发生在P3、P4两层特征图中,而这两层特征图恰是针对小目标的检测任务,所以在过滤无关的语义信息后,大幅提升了算法模型对小目标的检测精度。
为了验证本实施例的方法的技术效果,对COCO数据集中测试集的图片进行了特征融合后的可视化效果分析以及利用训练后的模型对图片进行目标检测。其中,图8为现有的RetinaNet模型在FPN的第一层特征融合后的注意力可视化图,图9为本申请另一个实施例中的小目标检测模型在FPN第一层的特征融合后注意力可视化图。如图8所示,图中灰白色的区域说明对应特征图上的位置数值大,注意力高;相反,灰黑色的区域说明对应特征图上的位置数值小,注意力低。可以发现,图8中基本所有区域都呈现灰白色,个别区域呈现灰黑色,区别度不高,无法有效区分背景与目标区域,也就是添加了无关本层检测任务的语义信息。而经注意力模型过滤无用的信息后,特征融合后的结果如图9所示。可以明显发现,图9中部分背景区域注意力可视化都趋近于灰黑色,而有目标的区域注意力可视化后,呈现灰色和白色,成功过滤掉大部分的无关语义信息,为之后检测头的检测减少了难度,可以大幅提升小目标的检测精度。
综上所述,本发明对线性插值完后的特征图用注意力模块筛选出小目标所在位置的语义特征,达到剔除无关中/大目标语义特征,使针对检测小目标层的特征图只融合小目标语义特征的目的,进一步大幅提升了检测模型对小目标检测的精度,通过本实施例方法可以实现较为优秀的小目标检测效果。
实施例四
本申请第二方面提供一种小目标检测系统,图10为本申请一个实施例中的小目标检测系统结构示意图,请参阅图10,该系统包括视频采集子系统10、小目标检测子系统20;
视频采集子系统10,与小目标检测子系统20连接,用于通过视频采集设备采集目标区域的视频图像,并将目标区域的视频图像发送至小目标检测子系统20;
小目标检测子系统20,用于接收视频图像,并采用如上实施例一的基于注意力自适应融合特征的小目标检测方法对视频图像进行实时小目标检测。
本实施例中,视频采集设备可以是目标监控区域安装的监控摄像头。监控摄像头实时拍摄监控区域内的监控视频。需要说明的是,在此步骤中,监控摄像头可以但不限制于采用网络监控摄像头进行监控视频的拍摄,先将网络监控摄像头安放在能够拍摄目标区域的位置,然后通过网络、本地传输等方式访问摄像头读取视频图像即可。
通过采用实施例一中的基于注意力自适应融合特征的小目标检测方法进行小目标检测,提高了小目标检测的准确度。
实施例五
本申请第三方面提供了一种计算机设备,包括:包括存储器和处理器,存储器存储有基于注意力自适应融合特征的小目标检测程序,小目标检测程序被处理器执行时,使得处理器执行如上实施例中任一项所述的基于注意力自适应融合特征的小目标检测方法的步骤。
图11为本申请一个实施例中的计算机设备的架构示意图。
图11所示的计算机设备可包括:至少一个处理器101、至少一个存储器102、至少一个网络接口104和其他的用户接口103。计算机设备中的各个组件通过总线系统105耦合在一起。可理解,总线系统105用于实现这些组件之间的连接通信。总线系统105除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图11中将各种总线都标为总线系统105。
其中,用户接口103可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)或者触感板等。
可以理解,本实施例中的存储器102可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(ProgrammableROM,PROM)、可擦除可编程只读存储器(ErasablePROM,EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(StaticRAM,SRAM)、动态随机存取存储器(DynamicRAM,DRAM)、同步动态随机存取存储器(SynchronousDRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM,DRRAM)。本文描述的存储器102旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器102存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统1021和应用程序1022。
其中,操作系统1021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序1022,包含各种应用程序,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1022中。
在本发明实施例中,处理器101通过调用存储器102存储的程序或指令,具体的,可以是应用程序1022中存储的程序或指令,处理器101用于执行第一方面所提供的方法步骤。
上述本发明实施例揭示的方法可以应用于处理器101中,或者由处理器101实现。处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102,处理器101读取存储器102中的信息,结合其硬件完成上述方法的步骤。
另外,结合上述实施例中的基于注意力自适应融合特征的小目标检测方法,本发明实施例可提供一种计算机可读存储介质,计算机可读存储介质上存储基于注意力自适应融合特征的小目标检测程序,小目标检测程序被处理器执行时,使得处理器执行如上方法实施例中任意一种基于注意力自适应融合特征的小目标检测方法的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。词语第一、第二、第三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理解为部件名称的一部分。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。

Claims (10)

1.一种基于注意力自适应融合特征的小目标检测方法,其特征在于,该方法包括:
使用注意力机制调整相邻两层特征图中上层特征图的融合比例,得到融合特征图;
基于所述融合特征图进行小目标检测,得到小目标检测结果。
2.根据权利要求1所述的基于注意力自适应融合特征的小目标检测方法,其特征在于,该方法包括以下步骤:
S1、获取待检测图像;
S2、将所述待检测图像输入到预先训练好的小目标检测模型中,得到相应的小目标检测结果;其中,所述小目标检测模型包括用于提取多尺度特征图的主干网络模块、用于对多尺度特征图使用注意力机制调整相邻两层特征图中上层特征图的融合比例进行特征融合的特征融合模块、用于对所述融合特征图进行小目标检测的检测头模块。
3.根据权利要求2所述的基于注意力自适应融合特征的小目标检测方法,其特征在于,所述主干网络模块提取多尺度特征图的步骤包括:
将所述待检测图像首先经过一个步长为2的7×7卷积、步长为2的2×2最大池化层、再分别经过不同数量重复堆叠的残差块,得到尺寸分别为原图1/4、1/8、1/16、1/32的C2特征图、C3特征图、C4特征图、C5特征图,所述残差块由1×1卷积、3×3卷积组成。
4.根据权利要求2所述的基于注意力自适应融合特征的小目标检测方法,其特征在于,所述特征融合模块对多尺度特征图使用注意力机制调整相邻两层特征图中上层特征图的融合比例进行特征融合的方法包括:
根据以下公式使用注意力机制调整上层特征图的融合比例后聚合相邻层的特征图:
Figure FDA0004078460860000011
其中,Pi是添加注意力后的融合特征图,
Figure FDA0004078460860000012
表示用3×3卷积核进行卷积处理,/>
Figure FDA0004078460860000021
表示用于通道数匹配的通过1×1卷积核进行卷积处理,fupsample表示进行上采样,Ci表示本层的特征图,Ti+1表示上层的特征图,fatt表示对输入的特征图添加注意力。
5.根据权利要求4所述的基于注意力自适应融合特征的小目标检测方法,其特征在于,根据以下公式对输入的特征图添加注意力:
fatt(xin)=xin*(sigmoid(conv1×1(conv1×1(xin)))
其中,xin表示输入的特征图,conv1×1表示通过1×1卷积核进行卷积运算,sigmoid表示激活函数。
6.根据权利要求2所述的基于注意力自适应融合特征的小目标检测方法,其特征在于,所述检测头模块对所述融合特征图进行检测的方法包括:
对所述融合特征图根据以下公式进行分类检测,得到每个空间位置处每个预测边界框的类别概率,在检测过程中通过感受野自适应选择模块将方形感受野扩充至方形感受野和长方形感受野:
foutput1=conv3×3(Rconv3×3(RFASM(RFASM(Rconv3×3(x)))))
对所述融合特征图根据以下公式进行回归检测,得到每个空间位置处各个参考锚框的偏移量以确定预测边界框位置:
foutput2=conv3×3(Rconv3×3(Rconv3×3(Rconv3×3(Rconv3×3(x)))))
其中,foutput1表示分类检测的预测结果,foutput2表示回归检测的预测结果,x表示输入的特征图,conv3×3表示3×3卷积核进行卷积处理,Rconv3×3表示3×3卷积后接一个ReLU激活函数,RFASM表示感受野自适应选择模块。
7.根据权利要求6所述的基于注意力自适应融合特征的小目标检测方法,其特征在于,所述感受野自适应选择模块根据以下公式将方形感受野扩充至方形感受野和长方形感受野:
fnext=conv1×1(m)+m1
其中,fnext表示所述感受野自适应选择模块的输出结果,m由m2、m3、m4、m5归一化得到:
Figure FDA0004078460860000031
其中,m1、m2、m3、m4、m5根据以下公式计算所得:
m1=conv3×3(x)
m2=conv1×3(conv1×1(x))
m3=conv3×1(conv1×1(x))
m4=conv1×3(conv1×3(conv1×1(x)))
m5=conv3×1(conv3×1(conv1×1(x)))
w2、w3、w4、w5由根据以下公式计算所得的w按通道拆分所得:
w=conv1×1(m2+m3+m4+m5)
其中,x表示输入特征图,conv1×3表示1×3卷积核卷积处理,conv3×1表示3×1卷积核卷积处理,ε取值为0.0001。
8.根据权利要求2所述的基于注意力自适应融合特征的小目标检测方法,其特征在于,在S1之后,在S2之前还包括:
对所述待检测图像进行预处理,得到预处理后的待检测图像,其中,预处理包括填充、改变图像大小、数据增强中的一种或多种。
9.根据权利要求2所述的基于注意力自适应融合特征的小目标检测方法,其特征在于,S2之后还包括:
S3、通过后处理删除重叠的检测框,得到最终的小目标检测结果。
10.一种小目标检测系统,其特征在于,该系统包括视频采集子系统、小目标检测子系统;
所述视频采集子系统,与所述小目标检测子系统连接,用于通过视频采集设备采集目标区域的视频图像,并将所述目标区域的视频图像发送至所述小目标检测子系统;
所述小目标检测子系统,用于接收所述视频图像,并采用权利要求1至9中任一项所述的基于注意力自适应融合特征的小目标检测方法对所述视频图像进行实时小目标检测。
CN202310115681.5A 2023-02-14 2023-02-14 小目标检测方法、小目标检测系统 Pending CN116188929A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310115681.5A CN116188929A (zh) 2023-02-14 2023-02-14 小目标检测方法、小目标检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310115681.5A CN116188929A (zh) 2023-02-14 2023-02-14 小目标检测方法、小目标检测系统

Publications (1)

Publication Number Publication Date
CN116188929A true CN116188929A (zh) 2023-05-30

Family

ID=86432273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310115681.5A Pending CN116188929A (zh) 2023-02-14 2023-02-14 小目标检测方法、小目标检测系统

Country Status (1)

Country Link
CN (1) CN116188929A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116645523A (zh) * 2023-07-24 2023-08-25 济南大学 一种基于改进RetinaNet的快速目标检测方法
CN116703928A (zh) * 2023-08-08 2023-09-05 宁德市天铭新能源汽车配件有限公司 一种基于机器学习的汽车零部件生产检测方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116645523A (zh) * 2023-07-24 2023-08-25 济南大学 一种基于改进RetinaNet的快速目标检测方法
CN116645523B (zh) * 2023-07-24 2023-12-01 江西蓝瑞存储科技有限公司 一种基于改进RetinaNet的快速目标检测方法
CN116703928A (zh) * 2023-08-08 2023-09-05 宁德市天铭新能源汽车配件有限公司 一种基于机器学习的汽车零部件生产检测方法及系统
CN116703928B (zh) * 2023-08-08 2023-10-27 宁德市天铭新能源汽车配件有限公司 一种基于机器学习的汽车零部件生产检测方法及系统

Similar Documents

Publication Publication Date Title
CN112396115B (zh) 基于注意力机制的目标检测方法、装置及计算机设备
CN109447990B (zh) 图像语义分割方法、装置、电子设备和计算机可读介质
CN111179177B (zh) 图像重建模型训练方法、图像重建方法、设备及介质
CN109858461B (zh) 一种密集人群计数的方法、装置、设备以及存储介质
CN110555821B (zh) 模型训练方法、装置和存储介质
CN116188929A (zh) 小目标检测方法、小目标检测系统
CN111968064B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN114868124B (zh) 控制方法、信息处理装置以及控制程序
CN113674191B (zh) 一种基于条件对抗网络的弱光图像增强方法和装置
CN114140683A (zh) 一种航拍图像目标检测的方法、设备与介质
Ding Visual quality assessment for natural and medical image
CN110781980A (zh) 目标检测模型的训练方法、目标检测方法及装置
CN111275126A (zh) 样本数据集生成方法、装置、设备及存储介质
CN112802076A (zh) 反射图像生成模型及反射去除模型的训练方法
CN111626134A (zh) 一种基于隐密度分布的密集人群计数方法、系统及终端
US20220101140A1 (en) Understanding deep learning models
CN116843589A (zh) 遥感图像的融合方法、装置、设备及存储介质
CN116030256A (zh) 小目标分割方法、小目标分割系统、设备和介质
CN111179245A (zh) 图像质量检测方法、装置、电子设备和存储介质
CN114119428B (zh) 一种图像去模糊方法和装置
CN111008604A (zh) 预测图像获取方法、装置、计算机设备和存储介质
CN116415019A (zh) 虚拟现实vr图像识别方法及装置、电子设备、存储介质
CN113256556A (zh) 一种图像选择方法及装置
CN114861904A (zh) 图像训练数据的生成方法、装置、终端设备及存储介质
CN112419216A (zh) 图像去干扰方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination