CN110909591B - 用编码向量的行人图像检测自适应非极大值抑制处理方法 - Google Patents
用编码向量的行人图像检测自适应非极大值抑制处理方法 Download PDFInfo
- Publication number
- CN110909591B CN110909591B CN201910936327.2A CN201910936327A CN110909591B CN 110909591 B CN110909591 B CN 110909591B CN 201910936327 A CN201910936327 A CN 201910936327A CN 110909591 B CN110909591 B CN 110909591B
- Authority
- CN
- China
- Prior art keywords
- detection
- density
- detection frame
- feature
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 160
- 239000013598 vector Substances 0.000 title claims abstract description 82
- 230000001629 suppression Effects 0.000 title claims abstract description 28
- 238000003672 processing method Methods 0.000 title claims abstract 4
- 230000003044 adaptive effect Effects 0.000 title claims description 18
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000010586 diagram Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 2
- 238000013101 initial test Methods 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 16
- 238000003062 neural network model Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 17
- 238000013461 design Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用编码向量的行人图像检测自适应非极大值抑制处理方法。行人图像进行特征提取,获得多幅特征图,特征图中包含有身份信息和密度信息,进而通过网络模型处理获得候选检测框;针对所有候选检测框利用多幅特征图采用非极大值抑制算法进行迭代处理,优化获得行人目标的检测框作为检测结果。本发明方法通过神经网络模型学习检测框编码向量,具备表达行人检测框的密度信息与身份信息的能力,有效地解决了在行人检测中显著的行人相互遮挡问题。
Description
技术领域
本发明涉及计算机视觉目标检测领域,设计了一种基于编码向量加入图像行人检测框密度信息和身份信息的行人图像检测自适应非极大值抑制算法
背景技术
行人检测是计算机视觉领域的一个重要分支,在自动驾驶、智能视频监控、智能机器人等领域有着重要的应用。由于行人姿态、体型、穿着的变化,自然场景下光线、环境的变化以及部分遮挡的问题使得行人检测仍旧是一个挑战。
行人检测作为目标检测的一个特定任务,其发展历程与目标检测具有一致性。一般地,可以将目标检测分为基于锚点的方法和最新的无锚点的检测方法。其中基于锚点的方法,如Faster-RCNN、SSD以及它们的变形在过去几年中占有主导地位;而无锚点的方法,如ComerNet、CenterNet、CSP展现了它们不错的结果以及灵活的结构设计。的探测器是基于无锚点的方法。
行人检测无锚点的算法思想是通过深度学习提取具有高级语义的特征。具体地,将行人检测中行人的中心点坐标和检测框的尺度(宽和高)作为高级语义特征,那么行人检测就完全可以转化为这些语义特征的检测。对于一张输入的图像,经过卷积神经网络分成中心点特征图和尺度特征图,计算得到中心点的坐标和检测框的尺度,即可检测出行人。
作为目标检测的特定任务,行人检测具有自身的特点,其中人群的遮挡问题是重要挑战之一。在最新的行人检测数据集CrowdHuman中,人群的密集水平变得很高,以RFB-Net为骨干的基于密度信息的自适应非极大值算法在此数据集上进行行人检测,丢失率从12.7%升高到了63.03%,可见拥挤环境下的行人检测是一个关键问题。
为了解决这个问题,目前有以下几种方法:1.采用恒定的非极大值抑制阈值,通过提出额外的损失来约束回归目标,以产生更紧凑的检测框,从而降低NMS 阈值的影响;2.采用软非极大值抑制,对检测框进行重新估分,对较差的框抑制其分数而不是直接过滤;3.采用自适应的非极大值抑制,通过一种估计检测框密度的方法,来自适应地设置NMS算法的阈值。
然而这些算法仍未能很好地解决拥挤环境下的行人检测问题,准确率仍有较大的提升空间。
发明内容
为了解决背景技术中存在的问题,本发明基于无锚点的行人检测算法,在 CSP(Centerand Scale Prediction)的基础上扩展了一个身份-密度分支,并提出了一种针对检测框抑制的自适应非极大值抑制算法,是一种结合考虑行人检测框的密度信息与身份信息的自适应非极大值抑制算法。
如图1所示,本发明采用的技术方案具体步骤如下:
1)行人图像进行特征提取,获得多幅特征图,一幅特征图中包含有身份信息和密度信息,进而通过网络模型处理获得候选检测框;
2)针对所有候选检测框利用多幅特征图采用非极大值抑制算法进行迭代处理,优化获得行人目标的检测框作为检测结果。
本发明提出了的一种自适应的非极大值抑制算法,能够根据检测框的密度信息及检测框之间的距离信息,自适应地计算非极大值抑制的阈值,从而对多余的检测框进行抑制。
本发明进行检测框的抑制可以尽可能地抑制同一对象上的不同检测框,并保留不同对象上的检测框,极大地提高了行人检测的效果。
所述步骤1)具体分为两个阶段:
在模型训练阶段:
1.1)对输入的行人图像采用特征提取模块后进行特征提取得到特征图φdet。
具体实施中,记输入行人图像的大小为W×H,使用DLA-34骨架网络作为特征提取模块进行特征提取,得到W/4×H/4的特征图φdet。
1.2)输入的行人图像上存在真实矩形框(anchor box锚框),真实值为真实矩形框中点的坐标(xk,yk);特征图φdet的大小为输入的行人图像的1/4,对于输入行人图像上的第k个真实值(xk,yk),该真实值(xk,yk)在特征图φdet中位于坐标处,取特征图φdet中位于特征提取后的真实值坐标附近的四个整数位置像素点坐标作为四个正样本,即
后续对于每一个真实矩形框,真实矩形框是指用于训练的输入图片上已经标注每一个行人的正确矩形框,采用上述四个正样本用于损失函数的计算。
1.3)特征图φdet分别连接到四个次级特征处理模块进行处理,获得中心点特征图、尺度特征图、偏移量特征图(未在图1中画出)和身份-密度特征图,由此扩展出四个分支,每个次级特征处理模块均由两个卷积层依次连接构成。
所述的中心点特征图、尺度特征图、偏移量特征图为无锚点的检测框算法的常规操作。
中心点特征图、尺度特征图、偏移量特征图和身份-密度特征图上的每个像素点代表对应一个检测框,四种特征图分别代表对应不同的检测框属性:中心点特征图上的每个像素点表示特征图φdet上对应的像素点为检测框的中心的置信度,即表示对应坐标为检测框中心的概率,尺度特征图上的每个像素点代表了以特征图φdet上对应相同位置的像素点为中心所建立的检测框的长和宽,偏移量特征图上的每个像素点代表了特征图φdet上对应像素点的坐标相对于原始输入图片上的坐标的偏移量;身份-密度特征图上的每个像素点对应建立包含身份信息及密度信息的编码向量,根据编码向量计算对应检测框的身份信息及密度信息。
1.4)利用损失函数进行网络训练;
在模型测试阶段
2.1)对输入的行人图像通过训练好的检测模型得到特征图φdet进而得到四张与φdet同等大小的中心点特征图、尺度特征图、偏移量特征图,以及身份-密度特征图。
具体实施中,记输入行人图像的大小为W×H,通过训练好的检测模型得到 W/4×H/4的特征图φdet与四张和φdet同等大小的中心点特征图、尺度特征图、偏移量特征图,以及身份-密度特征图。
2.2)根据中心点特征图上每一个像素点代表一个检测框,每个点的值表示该点为检测框中心的置信度,对置信度过低的检测框进行过滤,获得所有候选检测框。
如图3所示,身份-密度特征图上的每个像素点代表一个检测框,针对每个检测框,建立一种长度为m的编码向量e,如图2所示,编码向量e表示三维坐标系上的一个点,编码向量e起点为原点,编码向量e的长度(即向量末端到原点的距离)表示密度信息,编码向量e的末端终点的坐标表示身份信息。即身份- 密度特征图中的每个像素点采用了一个长度为m的编码向量e表示,编码向量e包含有检测框的密度信息和身份信息。
若将两个检测框b1,b1的编码向量记作e1,e2,将e1,e2标准化为长度为1的编码向量编码向量之间的线段长度表征两个检测框b1,b1之间的距离,距离越大,则两个检测框b1,b1以越大概率属于不同的分类,以此来表示身份信息之间的差异。
如图3所示,取编码向量e的长度m=3为例进行说明。当m=3时,任意一个编码向量e都可以表示为以为球心d为半径的球面上的一点。e1,e2分别是以 d1,d2为半径的球面上的点,取d1,d2的长度作为编码向量e1,e2对应检测框的密度值,即di=||ei||2。将编码向量进行标准化,即将向量标准化到以1为半径的球面上,那么球面上两个点的欧氏距离即可表示为两个编码向量的距离。
在图3中,分别为编码向量e1,e2归一化后的值,于是编码向量e1,e2的距离可以表示为即使当两个编码向量的密度信息很接近时,如e1,e2对应的密度d1,d2非常接近,身份信息对应的距离值仍可以很大,如图3中的dist(e1,e2)。
并且在网络模型优化训练时,建立和利用以下编码向量e的损失函数进行训练:
1)先建立编码向量e中密度信息的损失函数,通过最小化编码向量e中密度信息与密度真实值之间的均方误差进行表示,密度真实值是指该真实矩形框与其他真是矩形框的最大重叠度(iou值):
其中,N表示真实矩形框的数量,Np表示每个真实矩形框的正样本数量, Np=4,ek,i表示第k个真实矩形框第i个正样本的编码向量,||ek,i||2表示L2 范数,dk为真实矩形框k的密度真实值;
2)本发明采用以下公式来表示编码向量e中身份信息的损失函数,分为拉 (pull)和推(push)两部分:
其中,Lpull表示每个真实矩形框与对应的四个正样本距离的子损失函数, Lpush表示每个检测框与其他检测框距离的子损失函数,表示编码向量ek,i对应的单位向量,Δ表示判断两个检测框是否重合的阈值,在实际实验中取Δ=1, ek表示第k个真实矩形框四个正样本编码向量的均值,表示编码向量ek对应的单位向量,表示第j个检测框编码向量对应的单位向量;
3)编码向量e的损失函数LID表示为:
LID=λdensityLdensity+(Lpull+Lpush)
其中,λdensity表示子损失函数Ldensity所占的权重比例;
将编码向量e的损失函数LID放入网络结构中进行训练得到身份-密度特征图 ID-Map。
所述步骤1.3)中,身份-密度特征图的次级特征处理模块是在特征提取模块之后连接一个有256个通道的3×3卷积核的卷积层,再连接一个有256个通道的1×1卷积核的卷积层获得身份-密度特征图(ID-Map);中心点特征图、尺度特征图、偏移量特征图的次级特征处理模块的卷积层结构参数均不同,且和身份-密度特征图的次级特征处理模块的卷积层结构参数不同。
所述步骤2)具体为:
将候选检测框(即特征图中的各个像素点所代表的检测框)全部放入集合作为所有初始的检测框的集合,特征图中的各个像素点所代表的检测框是指由四种特征图完整包含组成了检测框的信息,同时建立一个空集作为检测框的筛选结果集合,当集合不等于空集时,执行以下循环:
2.2)计算集合中剩余的每个检测框bi与当前最优检测框的距离值若δt为预设的编码向量距离阈值,则取自适应阈值 为当前最优检测框的编码向量e中的密度信息max()表示取两者中的较大者,否则取自适应阈值Nt为固定预设的非极大值抑制值;
2.3)最后比较每个检测框bi与当前最优检测框的重叠度(iou值)与重叠度阈值之间大小,若重叠度(iou值)大于重叠度阈值则将检测框bi从集合中删去,同时将检测框bi对应的置信度si从置信度集合中删去,否则保留检测框bi。
2.4)以最后获得筛选结果集合中的检测框作为行人图像中的行人检测结果。
本发明中,对于每个检测框建立了一个长度为m的编码向量e,编码向量e同时表示检测框的密度信息和身份信息,其中根据检测框的身份信息计算不同检测框之间的距离值,通过编码向量e自适应地计算非极大值抑制的阈值;同时建立编码向量e关于密度信息和身份信息的损失函数,利用损失函数对网络进行训练处理。
本发明的基本步骤是对输入图像进行特征提取得到特征图,在特征图后接四个分支,用于对特征图上的每一个点预测一个检测框,分别为中心点分支、尺度分支、偏移量分支,以及本发明提出的身份-密度分支。根据这四个分支得到的特征图,使用非极大值抑制算法对多余的检测框进行抑制,得到最终的检测框作为输出。
本发明方法通过神经网络模型学习检测框编码向量,使得该编码向量同时具备表达行人检测框的密度信息与身份信息的能力,进而利用该编码向量设计了自适应非极大值抑制的后处理算法,有效地解决了在行人检测中显著的行人相互遮挡问题。
本发明与背景技术相比,具有更有益的效果:
本发明建立了编码向量,在编码向量中加入图像行人检测框密度信息和身份信息,利用身份信息和密度信息来自适应地调整非极大值抑制后处理算法的阈值。与传统的选择单一阈值的非极大值抑制算法相比,引入该编码向量后的自适应非极大值抑制算法可以更好的进行拥挤人群中的行人检测框抑制。方法在行人检测数据集CityPersons和CrowdHuman上取得了最先进的结果,能有效地提高在拥挤场景下行人检测的结果。
附图说明
图1为本发明的实现流程图。
图2为使用编码向量e来表示检测框密度信息和身份信息的直观示意图。
图3为自适应的非极大值抑制算法ID-NMS的伪代码。
图4为当前最先进的算计以及本发明在数据集CityPersons上的实验结果对比图。
图5为当前最先进的算计以及本发明在数据集CrowdHuman上的实验结果对比图。
具体实施方式
下面将结合本发明中的附图,对本发明的技术方案进行清晰、详细、完整的描述。
本发明的实施例如下:
以CityPersons数据集为例。
在模型训练阶段:
1.1)输入大小为640×1280的图片,使用DLA-34网络进行特征提取,得到大小为160×320的特征图φdet。
1.2)对每个原始图像上的真实矩形框计算特征图φdet上的正样本,如原始图像上的第k个真实矩形框中心点坐标为(xk,yk),那么在特征图φdet中真实值变为可能为非整数值,于是取该附近的四个整数坐标作为新的真实值,即因此对于每一个真实值,都存在4个正样本用于损失函数的计算。
1.3)在特征图φdet后连接四个分支(分别为中心点分支、尺度分支、偏移量分支以及身份-密度分支),每个分支分别连接一个256通道的3×3卷积核,以及一个1×1的卷积核,分别设置损失函数,其中身份-密度分支的损失函数为发明方法步骤3)中的LID。根据以上网络结构及损失函数即可训练出各个分支的特征图,得到中心点特征图、尺度特征图、偏移量特征图,以及本发明提出的身份-密度特征图。
其中中心点特征图上的每个值表示特征图φdet上对应的点为检测框的中心的概率;尺度特征图为特征图φdet上对应的点所对应的检测框的长和宽;由于特征图φdet相对于原始图片尺寸减小,真实值具有信息损失,
因此使用偏移量特征图来表示真实值的偏移量;身份-密度特征图表示特征图φdet上每个点对应的编码向量,根据编码向量可以计算对应检测框的身份信息及密度信息。
在本例中,取编码向量的长度m=4,因此身份-密度特征图维度是4。
1.4)利用发明内容定义的损失函数进行网络训练。
在测试阶段:
2.1)输入一张大小为[640×1280](测试阶段输入大小是1024x2048)的图片,利用训练好的网络模型进行前向传播,得到大小为[160×320](256×512) 的特征图φdet。网络继续前向传播得到四张与φdet同等大小的中心点特征图、尺度特征图、偏移量特征图,以及身份-密度特征图。
2.2)根据各个特征图上的特征信息,使用本发明提出的基于身份和密度信息的非极大值抑制算法对多余的检测框进行抑制。在算法中,表示预处理后初始的检测框的集合,在本例中特征图φdet的大小为[160×320](256×512),为了提高NMS算法的效率,首先使用一个置信度阈值对中心点特征图对应的所有检测框进行过滤,在本例中取阈值=0.05,过滤后剩余的检测框组成集合 表示中每个检测框对应的置信度分数的集合,即中心点特征图上的值;ε表示所有检测框的编码向量;表示每个检测框的密度值,可通过计算对应编码向量的 L2范式得到;δt为编码向量的距离阈值,本例中取δt=0.9,Nt为固定的NMS 阈值,本例中取Nt=0.5,用于表示最终选取的检测框的集合。
在本发明的非极大值抑制算法中,先将置为空集,当集合非空时执行以下循环:从中选取中最高分数对应的检测框,记为将检测框并入集合并将从集合中删去。计算中剩余每个检测框bi与检测框的距离值若则取自适应阈值为检测框的密度;否则最后比较检测框bi与检测框的iou值与阈值的大小,若大于阈值则将检测框bi从中删去,同时将对应的分数si从中删去,否则保留bi。
为验证本发明,在本领域已公开的具有挑战的行人检测数据集CityPersons 和CrowdHuman上进行设计实验。CityPersons数据集是在CityScapes数据集的基础上进行标注的,因其多样性而具有挑战。使用官方训练集2975张图片进行训练,各500张图片进行验证和测试。CrowdHuman数据集最近常用于拥挤场景下的行人检测任务,该数据集中图片的行人拥挤程度远大于CityPersons。这个数据集分别使用15000、4370、5000张图片用于训练、验证以及测试。实验采用标准的评价标准——对数平均漏检率(log-average Miss-Rate,LAMR)和误检数(False Positive Per Image,FPPI)来评价行人检测的结果。
图4、图5分别为当前最先进的方法以及本发明在CityPersons及 CrowdHuman数据集上的结果,由此可以看到本发明的结果与其他方法相比有较大的优势。
Claims (2)
1.一种用编码向量的行人图像检测自适应非极大值抑制处理方法,其特征在于:
1)行人图像进行特征提取,获得多幅特征图,特征图中包含有身份信息和密度信息,进而通过网络模型处理获得候选检测框;
2)针对所有候选检测框利用多幅特征图采用非极大值抑制算法进行迭代处理,优化获得行人目标的检测框作为检测结果;
所述步骤1)具体分为两个阶段:
在模型训练阶段:
1.1)对输入的行人图像采用特征提取模块后进行特征提取得到特征图φdet;
1.2)输入的行人图像上存在真实矩形框,真实值为真实矩形框中点的坐标(xk,yk);特征图φdet的大小为输入的行人图像的1/4,对于输入行人图像上的第k个真实值(xk,yk),该真实值(xk,yk)在特征图φdet中位于坐标处,取特征图φdet中位于特征提取后的真实值坐标附近的四个整数位置像素点坐标作为四个正样本;
1.3)特征图φdet分别连接到四个次级特征处理模块进行处理,获得中心点特征图、尺度特征图、偏移量特征图和身份-密度特征图,每个次级特征处理模块均由两个卷积层依次连接构成;
中心点特征图、尺度特征图、偏移量特征图和身份-密度特征图上的每个像素点代表对应一个检测框,四种特征图分别代表对应不同的检测框属性:中心点特征图上的每个像素点表示特征图φdet上对应的像素点为检测框的中心的置信度,尺度特征图上的每个像素点代表了以特征图φdet上对应相同位置的像素点为中心所建立的检测框的长和宽,偏移量特征图上的每个像素点代表了特征图φdet上对应像素点的坐标相对于原始输入图片上的坐标的偏移量;身份-密度特征图上的每个像素点对应建立包含身份信息及密度信息的编码向量;
1.4)利用损失函数进行网络训练;
在模型测试阶段:
2.1)对输入的行人图像通过训练好的检测模型得到特征图φdet进而得到四张与φdet同等大小的中心点特征图、尺度特征图、偏移量特征图,以及身份-密度特征图;
2.2)根据中心点特征图上每一个像素点代表一个检测框,每个点的值表示该点为检测框中心的置信度,对置信度过低的检测框进行过滤,获得所有候选检测框;
针对每个检测框,建立一种长度为m的编码向量e,编码向量e起点为原点,编码向量e的长度表示密度信息,编码向量e的末端终点的坐标表示身份信息;并且在网络模型优化训练时,建立和利用以下编码向量e的损失函数进行训练:
1)先建立编码向量e中密度信息的损失函数,通过最小化编码向量e中密度信息与密度真实值之间的均方误差进行表示,密度真实值是指该真实矩形框与其他真实矩形框的最大重叠度:
其中,N表示真实矩形框的数量,Np表示每个真实矩形框的正样本数量,Np=4,ek,i表示第k个真实矩形框第i个正样本的编码向量,||ek,i||2表示L2范数,dk为真实矩形框k的密度真实值;
2)采用以下公式来表示编码向量e中身份信息的损失函数,分为拉pull和推push两部分:
其中,Lpull表示每个真实矩形框与对应的四个正样本距离的子损失函数,Lpush表示每个检测框与其他检测框距离的子损失函数,表示编码向量ek,i对应的单位向量,Δ表示判断两个检测框是否重合的阈值,ek表示第k个真实矩形框四个正样本编码向量的均值,表示编码向量ek对应的单位向量,表示第j个检测框编码向量对应的单位向量;
3)编码向量e的损失函数LID表示为:
LID=λdensityLdensity+(Lpull+Lpush)
其中,λdensity表示子损失函数Ldensity所占的权重比例;
最后将编码向量e的损失函数LID放入网络结构中进行训练得到身份-密度特征图ID-Map;
所述步骤2)具体为:
2.2)计算集合和剩余的每个检测框bi与当前最优检测框的距离值若δt为预设的编码向量距离阈值,则取自适应重叠度阈值 为当前最优检测框的编码向量e中的密度信息max()表示取两者中的较大者,否则取自适应重叠度阈值Nt为固定预设的非极大值抑制值;
2.4)以最后获得筛选结果集合中的检测框作为行人图像中的行人检测结果。
2.根据权利要求1所述的一种用编码向量的行人图像检测自适应非极大值抑制处理方法,其特征在于:所述步骤1.3)中,身份-密度特征图的次级特征处理模块是在特征提取模块之后连接一个有256个通道的3×3卷积核的卷积层,再连接一个有256个通道的1×1卷积核的卷积层获得身份-密度特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910936327.2A CN110909591B (zh) | 2019-09-29 | 2019-09-29 | 用编码向量的行人图像检测自适应非极大值抑制处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910936327.2A CN110909591B (zh) | 2019-09-29 | 2019-09-29 | 用编码向量的行人图像检测自适应非极大值抑制处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110909591A CN110909591A (zh) | 2020-03-24 |
CN110909591B true CN110909591B (zh) | 2022-06-10 |
Family
ID=69815441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910936327.2A Active CN110909591B (zh) | 2019-09-29 | 2019-09-29 | 用编码向量的行人图像检测自适应非极大值抑制处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909591B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488197A (zh) * | 2020-04-14 | 2020-08-04 | 浙江新再灵科技股份有限公司 | 基于云服务器的深度学习模型部署方法及部署系统 |
CN111553247B (zh) * | 2020-04-24 | 2023-08-08 | 上海锘科智能科技有限公司 | 一种基于改进骨干网络的视频结构化系统、方法及介质 |
CN113205106A (zh) * | 2020-06-19 | 2021-08-03 | 深圳瑞为智能科技有限公司 | 一种基于检测框密度优化的目标检测应用方法 |
CN112417990B (zh) * | 2020-10-30 | 2023-05-09 | 四川天翼网络股份有限公司 | 一种考试学生违规行为识别方法及系统 |
CN112699808B (zh) * | 2020-12-31 | 2024-06-07 | 深圳市华尊科技股份有限公司 | 密集目标检测方法、电子设备及相关产品 |
CN113191204B (zh) * | 2021-04-07 | 2022-06-17 | 华中科技大学 | 一种多尺度遮挡行人检测方法及系统 |
CN114120127B (zh) * | 2021-11-30 | 2024-06-07 | 济南博观智能科技有限公司 | 一种目标检测方法、装置及相关设备 |
CN117095161B (zh) * | 2023-10-20 | 2023-12-22 | 云南联合视觉科技有限公司 | 一种向量化编码的旋转目标检测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017190574A1 (zh) * | 2016-05-04 | 2017-11-09 | 北京大学深圳研究生院 | 一种基于聚合通道特征的快速行人检测方法 |
CN107909027A (zh) * | 2017-11-14 | 2018-04-13 | 电子科技大学 | 一种具有遮挡处理的快速人体目标检测方法 |
CN108985186A (zh) * | 2018-06-27 | 2018-12-11 | 武汉理工大学 | 一种基于改进YOLOv2的无人驾驶中行人检测方法 |
CN109766796A (zh) * | 2018-12-20 | 2019-05-17 | 西华大学 | 一种面向密集人群的深度行人检测方法 |
-
2019
- 2019-09-29 CN CN201910936327.2A patent/CN110909591B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017190574A1 (zh) * | 2016-05-04 | 2017-11-09 | 北京大学深圳研究生院 | 一种基于聚合通道特征的快速行人检测方法 |
CN107909027A (zh) * | 2017-11-14 | 2018-04-13 | 电子科技大学 | 一种具有遮挡处理的快速人体目标检测方法 |
CN108985186A (zh) * | 2018-06-27 | 2018-12-11 | 武汉理工大学 | 一种基于改进YOLOv2的无人驾驶中行人检测方法 |
CN109766796A (zh) * | 2018-12-20 | 2019-05-17 | 西华大学 | 一种面向密集人群的深度行人检测方法 |
Non-Patent Citations (2)
Title |
---|
A Pedestrian Detection Method Based on Genetic Algorithm for Optimize XGBoost Training Parameters;Yu Jiang et al.;《IEEE Access》;20190820(第7期);全文 * |
基于运动特征及位置估计的行人检测算法;弓剑锋;《计算机工程与应用》;20190430(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110909591A (zh) | 2020-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909591B (zh) | 用编码向量的行人图像检测自适应非极大值抑制处理方法 | |
CN112949508B (zh) | 模型训练方法、行人检测方法、电子设备及可读存储介质 | |
CN112052886A (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN109101897A (zh) | 水下机器人的目标检测方法、系统及相关设备 | |
CN113065645B (zh) | 孪生注意力网络、图像处理方法和装置 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN110097028A (zh) | 基于三维金字塔图像生成网络的人群异常事件检测方法 | |
CN111931764A (zh) | 一种目标检测方法、目标检测框架及相关设备 | |
KR20200027887A (ko) | 복수의 비디오 프레임을 이용하여 cnn의 파라미터를 최적화하기 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
CN111027576A (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
CN114926742B (zh) | 一种基于二阶注意力机制的回环检测及优化方法 | |
CN114861761B (zh) | 一种基于孪生网络特征与几何验证的回环检测方法 | |
CN113888461A (zh) | 基于深度学习的小五金件缺陷检测方法、系统及设备 | |
CN111311611A (zh) | 一种实时三维大场景多对象实例分割的方法 | |
CN117237867A (zh) | 基于特征融合的自适应场面监视视频目标检测方法和系统 | |
CN112785636A (zh) | 一种多尺度增强式的单目深度估计方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN116188825A (zh) | 一种基于并行注意力机制的高效特征匹配方法 | |
CN114612802A (zh) | 基于mbcnn的舰船目标细粒度分类系统及方法 | |
CN113255604B (zh) | 基于深度学习网络的行人重识别方法、装置、设备及介质 | |
CN115049833A (zh) | 一种基于局部特征增强和相似性度量的点云部件分割方法 | |
CN117765363A (zh) | 一种基于轻量型记忆库的图像异常检测方法及系统 | |
CN113222016B (zh) | 一种基于高层和低层特征交叉增强的变化检测方法及装置 | |
CN116403068A (zh) | 一种基于多尺度注意力融合的轻量级单目深度预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |