CN111695403B - 一种基于深度感知卷积神经网络的2d与3d图像同步检测方法 - Google Patents
一种基于深度感知卷积神经网络的2d与3d图像同步检测方法 Download PDFInfo
- Publication number
- CN111695403B CN111695403B CN202010308948.9A CN202010308948A CN111695403B CN 111695403 B CN111695403 B CN 111695403B CN 202010308948 A CN202010308948 A CN 202010308948A CN 111695403 B CN111695403 B CN 111695403B
- Authority
- CN
- China
- Prior art keywords
- frame
- anchor
- anchor point
- global
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 54
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 30
- 230000008447 perception Effects 0.000 title claims abstract description 24
- 230000001360 synchronised effect Effects 0.000 title claims abstract description 18
- 230000006870 function Effects 0.000 claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000005457 optimization Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000000007 visual effect Effects 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims 1
- 230000004438 eyesight Effects 0.000 abstract description 3
- 230000011218 segmentation Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000012856 packing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/08—Projecting images onto non-planar surfaces, e.g. geodetic screens
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度感知卷积神经网络的2D与3D图像同步检测方法,步骤如下:步骤1、定义目标锚点公式,引入预设深度信息参数,指定共享中心像素位置;步骤2、根据定义目标物体的锚点模板、可视化锚点生成公式和3D先验锚点,生成预设锚框;步骤3、检查锚框的交并比;步骤4、分析目标物的网络损失函数;步骤5、建立深度感知卷积区域建议网络:引入Densenet卷积神经网络,得到特征图,将特征图送入全局特征抽取和局部特征抽取,最后按照一定的权重进行结合;步骤6、前向优化处理,引出参数步长σ,设置循环终止参数β,优化参数;步骤7、输出3D参数。本发明能够实现自动驾驶更高的安全性,可以广泛应用于计算机视觉领域。
Description
技术领域
本发明涉及无人驾驶、辅助驾驶等计算机视觉领域中有效目标的检测方法,特别是涉及一种基于深度感知卷积神经网络的2D与3D图像同步检测方法。
背景技术
物体检测是指利用计算机技术检测与识别出图像或视频中感兴趣目标(如车辆、行人、障碍物等)的类别与位置信息,是计算机视觉领域中重要研究领域之一。随着深度学习技术的不断完善与发展,基于深度学习的物体检测技术已经在诸多现实领域中具有广泛的应用场景,例如:无人驾驶、辅助驾驶、人脸识别、无人安防、人机交互、行为识别等相关领域中。
作为深度学习技术中的重要研究方向之一,深度卷积神经网络在物体检测任务上已经取得了显著成果,能够在2D的图像数据中实现对感兴趣目标的实时检测与识别。但在诸如无人驾驶研究领域中,由于该应用中需要系统得到感兴趣目标的3D空间中的位置信息才能更好地实现相应的功能,提高系统的稳定性与安全性。
目前用于3D图像识别的硬件设备依赖于摄像头,根据摄像头的功能,可将摄像头分为单目摄像头和多目摄像头:单目摄像头为定焦的,多应用于自动驾驶的路况判断中,但单目摄像头在测距的范围和距离方面有一个不可调和的矛盾,即摄像头的视角越宽,所能探测到精准距离的长度越短,视角越窄,探测到的距离越长,这类似于人眼看世界,看的越远的时候,所能覆盖的范围就窄,看的近的时候,则覆盖的范围就广一些;双目摄像头是具有不同焦距的摄像头,其焦距与成像的清晰度有关,但是目前车载摄像头很难达到频繁变焦,且多目摄像头的成本较高且其算法复杂度相较于单目摄像头成本增加,故目前并不适用于无人驾驶系统中。
为了提高3D图像检测的准确性,现有的3D图像检测方法还依赖于昂贵的激光雷达传感器,其可以提供的稀疏深度数据,以作为输入。但是此种依赖于激光雷达传感器的方式与单目摄像头结合时,其稀疏的深度数据缺乏深度信息,故在3D图像检测中难实现。
例如,以自动驾驶系统为例进行说明,针对该场景下的物体检测任务,传统的2D目标检测方法是通过车载相机获取行车过程中的实时道路场景,将其输入到已有算法中,通过训练好的检测模型实现对图像中的感兴趣目标进行检测,并输出其位置与类别信息给控制端的决策层,在对车辆如何行驶进行规划。但其中存在一个问题就是该方法利用单目相机获取到的检测目标所在的3D空间位置信息并不稳定,会因诸多影响因素导致其准确度下降。
发明内容
本发明的目的是为了克服上述背景技术的不足,提供一种基于深度感知卷积神经网络的2D与3D图像同步检测方法,使其在保持激光扫描仪具有的精确深度信息的基础上,又增加了相机保存更详细语义信息的优点,能够实现自动驾驶过程中更高的驾驶性能和安全性。
本发明提供的一种基于深度感知卷积神经网络的2D与3D图像同步检测方法,包括如下步骤:步骤1、定义目标对象的锚点模板:分别定义2D目标锚点和3D目标锚点的具体公式,引入预设深度信息参数,指定共享的中心像素位置;步骤2、生成模型预测特征图的锚框:根据定义目标物体的锚点模板,表现为根据可视化锚点生成公式和预先计算的3D先验锚点,生成预设锚框;步骤3、检查锚框的GT的交并比:根据生成的锚框,检查锚框的GT的交并比IOU是否≥0.5;步骤4、分析目标物的网络损失函数:包括分类损失函数LC分析、2D框回归损失函数分析和3D框回归损失函数分析;步骤5、建立深度感知卷积区域建议网络:引入Densenet卷积神经网络,得到h*w维度的特征图,然后将所述特征图分别送入两个分支,一个是全局特征抽取,一个是局部特征抽取,最后将两个分支的特征按照一定的权重进行结合;步骤6、前向优化处理:将3D信息投影至2D信息并进行前向优化处理,引出一个用于更新θ的参数步长σ,并设置一个循环终止参数β,当α大于参数β时,则进行优化参数的输入;步骤7、根据3D输出参数,进行3D目标检测。
在上述技术方案中,所述步骤1中,所述2D目标锚点具体公式为[w,h]2D,3D目标锚点具体公式为[w,h,l,θ]3D,其中,w、h和l分别表示目标检测物体宽度、高度和长度的给定值,θ表示相机对目标检测物的观察视角角度;引入的预设深度信息参数为Zp,指定共享的中心像素位置为[x,y]P,其中,2D表示的参数按照像素坐标表示为[x,y]2D=P·[w,h]2D,其中,P表示需要将目标物投影的已知投影矩阵的坐标点,将相机坐标系下的3D中心位置[x,y,z]3D三维投影到给定已知投影矩阵P的图像中,并将深度信息参数Zp进行编码,其公式如下:
在上述技术方案中,所述步骤2中,定义模型预测输出特征图中每个锚点为C,每个锚点对应[tx,ty,tw,th]2D、[tx,ty,tz]P、[tw,th,tl,tθ]3D,设每个目标检测物的特征图上单个像素的的锚点总数为na,预设训练模型类别的数量为nc,hxw是特征图的分辨率,输出框总数为nb=w×h×na;每个锚点分布在每个像素位置[x,y]P∈Rw×h,第一个输出锚点C表示维度为na×nc×h×w的共享分类预测,其中每个类的输出维度为na×h×w。
在上述技术方案中,所述步骤2中,将表示2D边界框转换的[tx,ty,tw,th]2D统称为b2D,其中边界框变换公式如下:
其中,xP和yP表示每个框的空间中心位置,变换后的框b′2D定义为[x,y,w,h]′2D,将7个输出变量即投影中心变换[tx,ty,tz]P、尺度变换[tw,th,tl]3D和方向变换tθ3D统称为b3D,所述b3D转换应用于带参数[w,h]2D,zP,[w,h,l,θ]3D的锚点:
同理,利用公式(1)的逆变换,由在图像空间投影后得到的3D中心位置[x,y,z]′P去计算其相机坐标[x,y,z]′3D,b′3D表示[x,y,z]′P和[w,h,l,θ]′3D。
在上述技术方案中,所述步骤3中,如果锚框的GT的交并比IOU<0.5,则将目标物的类别设置为背景类,并忽略或删除边界锚框;如果锚框的GT的交并比IOU≥0.5,则根据生成的锚框GT,生成目标物的类别索引τ、2D框和3D框/>
在上述技术方案中,所述步骤4中,分类损失函数LC采用基于softmax的多项逻辑损失函数,其公式为:
2D框回归损失函数分析,用于匹配GT变换前/>和GT变换后的b′2D之间的交并比IOU:
3D框回归损失函数分析,用于将剩下的3D边框参数中的每项都用smooth L1回归损失函数来优化,其公式为:
在上述技术方案中,所述步骤4中,还引入了整个多任务网络损失函数L,其中还包括正则化权重λ1和λ2,其定义公式如下:
在上述技术方案中,所述步骤5中,具体过程如下:
步骤5-1、用卷积神经网络DenseNet得到h*w维度的特征图:引入超参数b,其中b表示行级别的bin数量,用于表示将特征图沿横向分为b个,每个bin表示特定的卷积核k;步骤5-2、进行全局/局部特征提取,所述步骤5-2分为两个分支,其流程具体如下:步骤5-2-1、全局特征提取:全局特征提取采用常规卷积,所述常规卷积在卷积过程中引入全局特征Fglobal,所述全局特征Fglobal中,引入padding数量为1、且为3*3的卷积核,然后由Relu函数非线性激活,以生成512个特征图,用常规的3x3和1x1卷积作用于整张特征图,然后在每个特征图F上输出C,θ,[tx,ty,tw,th]2D,[tx,ty,tz]P,[tw,th,tl,tθ]3D共13个输出,且其中每个输出均连接一个1*1的卷积核Oglobal;步骤5-2-2、局部特征提取:对于局部特征提取采用深度感知卷积,所述深度感知卷积在卷积过程中引入全局特征Flocal,该全局特征Flocal中,引入padding数量为1、且为3*3的卷积核,然后由Relu函数非线性激活,以生成512个特征图,用不同的3x3核作用于不同的bin(卷积核像素),并沿纵向将其划分了b个bin,然后在每个特征图F上输出C,θ,[tx,ty,tw,th]2D,[tx,ty,tz]P,[tw,th,tl,tθ]3D共13个输出,且其中每个输出均连接一个1*1的卷积核Olocal;步骤5-3、对全局特征和局部特征提取的输出进行加权处理:引入一个学习得到的加权数α,所述加权数α利用卷积神经网络的空间不变性,以此作为第1到第13的输出的索引,其具体的输出函数如下:
Oi=Oglobal i·αi+Olocal i·(1-αi) (8)。
在上述技术方案中,所述步骤5中,还包括步骤5-4:3D目标检测方法的主干网络是建立在DenseNet-121基础上,并提出互相连接所有层的密集连接机制:即每个层都会接受其前面所有层作为其额外的输入,ResNet将每个层与前面的2~3层短路通过元素级相加的方式连接在一起,而在DenseNet中,每个层都会与前面所有层在channel维度上concat在一起,并作为下一层的输入,对于一个L层的网络,DenseNet共包含个L*(L+1)/2连接,而且DenseNet是直接concat来自不同层的特征图。
在上述技术方案中,所述步骤6中,算法的迭代步骤如下:通过将3D框的投影和2D的估计框b′2D作为L1loss,并不断调整θ,将3D投影至2D框的步骤的公式如下:
γP=P·γ3D,γ2D=γP/γP[φz],
xmin=min(γ3D[φx]),ymin=min(γ3D[γ3D[φy]])
xmax=max(γ3D[φx]),ymax=max(γ3D[γ3D[φy]])
(9),
其中,φ表示轴[x,y,z]的索引,用3D框投影后的2D框参数[xmin,ymin,xmax,ymax],和原来的2D框估计b′2D来计算L1loss,当θ±σ范围内损失loss没有更新时,就用衰减因子γ来改变步长σ,当σ>β时反复执行上述操作;所述步骤7中,根据3D共计输出13个参数,所述13个参数分别为:C,θ,[tx,ty,tw,th]2D,[tx,ty,tz]P,[tw,th,tl,tθ]3D。
本发明基于深度感知卷积神经网络的2D与3D图像同步检测方法,具有以下有益效果:本发明方案提出一种将激光雷达点云和RGB(红(R)、绿(G)、蓝(B)三个通道的颜色)图像的融合的算法。3D目标视觉分析在自主驾驶汽车视觉感知系统中起着重要的作用。现代自动驾驶汽车中通常配备有多个传感器,如激光雷达和摄像机。就两种传感器应用特点来讲,相机和激光雷达摄像头都可用于目标检测,激光扫描仪具有精确的深度信息的优点,而相机保存更详细的语义信息,因此,激光雷达点云和RGB图像的融合应该能够实现更高的性能和安全性的自动驾驶汽车。利用激光雷达和图像数据的三维空间中的物体检测来实现在道路场景中对物体进行高度精确的目标定位和识别。
附图说明
图1为本发明基于深度感知卷积神经网络的2D与3D图像同步检测方法的基本思路流程图;
图2为本发明基于深度感知卷积神经网络的2D与3D图像同步检测方法的具体流程图;
图3为本发明基于深度感知卷积神经网络的2D与3D图像同步检测方法中锚点模板的参数定义示意图;
图4为本发明基于深度感知卷积神经网络的2D与3D图像同步检测方法中3D目标物的立体锚框图;
图5为本发明基于深度感知卷积神经网络的2D与3D图像同步检测方法中3D目标物的立体锚框的鸟瞰图;
图6为本发明基于深度感知卷积神经网络的2D与3D图像同步检测方法中RPN网络架构图;
图7为本发明基于深度感知卷积神经网络的2D与3D图像同步检测方法中横向分割局部特征提取示意图;
图8为本发明基于深度感知卷积神经网络的2D与3D图像同步检测方法中纵向分割局部特征提取示意图;
图9为本发明基于深度感知卷积神经网络的2D与3D图像同步检测方法中Densenet的网络架构图。
具体实施方式
下面结合附图及实施例对本发明作进一步的详细描述,但该实施例不应理解为对本发明的限制。
参见图1,本发明基于深度感知卷积神经网络的2D与3D图像同步检测方法的基本思路在于:输入图像→2D和3D图像同时检测处理→将3D信息投影至2D信息并进行前向优化处理→根据3D输出参数,进行3D目标检测。
参见图2,本发明基于深度感知卷积神经网络的2D与3D图像同步检测方法,具体步骤如下:
步骤1:定义目标对象的锚点模板。为了同时预测2D框和3D框,需要在各自维度空间定义锚点模板,需要说明的是,此处的2D框为3D目标对象所观察到的最大长与宽。具体的,以汽车为例,参见附图3,其2D目标锚点和3D目标的锚点模板的具体公式分别为[w,h]2D和[w,h,l,θ]3D,其中w、h和l分别表示目标检测物体宽度、高度和长度,且其w、h和l为检测相机坐标系中给定值;另外,鉴于3D目标物不同于2D目标物,其具有旋转性,故其θ表示相机对目标检测物的观察视角角度,相当于相机绕着其相机坐标系的Y轴旋转,观察视角角度考虑的是物体相对于相机视角的相对方位,而不是地面的鸟瞰图(BEV),此处引入θ在处理3D图像特征时,直观地估计视角更有意义。
其中,为定义一个完整目标物的2D/3D框的位置,引入一个预设深度信息参数Zp,并指定了共享的中心像素位置[x,y]P,其中2D表示的参数按照像素坐标表示,即[x,y]2D=P·[w,h]2D,其中P表示需要将目标物投影的已知投影矩阵的坐标点;而在3D目标检测中,将相机坐标系下的3D中心位置[x,y,z]3D三维投影到给定已知投影矩阵P的图像中,并将深度信息参数Zp进行编码,其公式如下:
其中,均值统计每个预设深度信息参数Zp和3D目标物的[w,h,l,θ]3D,Zp和[w,h,l,θ]3D是预先为每个锚点单独计算的,这类参数的作用为:可充当强先验信息,以来减轻3D参数估算的难度。具体地,对每个锚点,每个预设深度信息参数Zp和3D目标物的[w,h,l,θ]3D的IOU(交并比)均为超过的0.5的统计数据,其锚点表示离散的模板,其中3D先验可作为强的初始猜测,从而假设一个合理一致的场景几何。
步骤2:根据定义目标物体的锚点模板,生成模型预测特征图的锚框。具体的,其根据目标物体的锚点模板,表现为根据可视化锚点生成公式和预先计算的3D先验锚点,生成预设锚框,具体的,其生成的立体锚框可参见附图4,鸟瞰图见附图5。
进一步的,定义模型预测输出特征图中每个锚点为C,其锚点对应的[tx,ty,tw,th]2D、[tx,ty,tz]P、[tw,th,tl,tθ]3D,设锚点个数总数为na(每个目标检测物的特征图上单个个像素的的锚点个数),类别(预设训练模型)个数为nc,hxw是特征图的分辨率。
因此,输出框总数为nb=w×h×na;
每个锚点分布在每个像素位置[x,y]P∈Rw×h,
第一个输出锚点C表示维度为na×nc×h×w的共享分类预测,其中彼此(每个类)的输出维度为na×h×w。
进一步的,[tx,ty,tw,th]2D表示2D边界框转换,我们统称为b2D,具体的,其中边界框变换公式如下:
其中xP和yP表示每个框的空间中心位置。变换后的框b′2D定义为[x,y,w,h]′2D,以下7个输出表示投影中心变换[tx,ty,tz]P,尺度变换[tw,th,tl]3D,以及方向变换tθ3D,统称为b3D。类似于2D,转换应用于带参数[w,h]2D,zP,[w,h,l,θ]3D,的锚点:
同理,b′3D表示[x,y,z]′P和[w,h,l,θ]′3D。如前所述,作者估计投影的3D中心而不是相机坐标,以更好地处理基于图像空间的卷积特征。在推理过程中,利用公式(1)的逆变换,由在图像空间投影后得到的3D中心位置[x,y,z]′P去计算其相机坐标[x,y,z]′3D。
步骤3:根据生成的锚框,检查是否存在锚框的GT(ground truth,地面真实情况)的交并比(IOU)是否≥0.5。
若锚框的GT的交并比IOU<0.5,则将目标物的类别设置为背景类,并忽略或删除其边界锚框;
若锚框的GT的交并比IOU≥0.5,则根据生成的锚框GT(地面实况,ground truth),生成目标物的类别索引τ、2D框和3D框/>并执行下述步骤4。
步骤4:分析目标物的网络损失函数。进一步的,该步骤包括分类损失函数LC分析、2D框回归损失函数分析和3D框回归损失函数分析。
其中,分类损失函数LC采用基于softmax的多项逻辑损失函数,其公式为:
且引入2D框回归框损失用于匹配GT变换前/>和GT变换后的b′2D之间的交并比IOU:
3D框回归损失函数分析,用于将剩下的3D边框参数中的每项都用smooth L1回归损失函数来优化,其公式为:
进一步的,对于整个网络框架,还引入了整个多任务网络损失函数L,其中还包括正则化权重λ1和λ2,其定义公式如下:
步骤5:建立深度感知卷积区域建议网络,以提高区域建议网络中高阶特征空间感知的能力。
引入超参数b,其中b表示行级别的bin数量,用于表示将特征图沿横向分为b个,每个bin表示特定的卷积核k。
步骤5-1,引入Densenet卷积神经网络。进一步的,用DenseNet(拥有较深层数的卷积神经网络)作为基础特征提取器,得到h*w维度的特征图,然后将所述特征图分别送入两个分支,一个是全局特征抽取,一个是局部特征抽取,最后将两个分支的特征按照一定的权重进行结合。其中全局这块,用常规的3x3和1x1卷积作用于整张特征图,而局部这块,用不同的3x3核作用于不同的bin,这个bin参见图6中的横条,沿纵向将其划分了b个bin,RPN网络架构如附图6所示。
需要说明的是,对于局部特征提取这部分,本技术交底还采用了两种特征提取方法,具体如附图7所示。
对于提取局部特征1时沿着纵向划分的b个bin为随机函数生成的b个纵向的横条,以此,在卷积过程中,增加了图像提取的随机性,从而提高了识别率。
进一步的,为了更准确的识别3D目标图像,本技术交底还提供了一种纵向分割的方法,其具体划分方法如附图8所示。
由于采用的纵向切割的方法,使得本次特征提取的得到的局部特征更多,从而提高了识别率。
除此之外,本次3D目标检测方法的主干网络是建立在DenseNet-121基础上的,所述densenet的网络架构具体可参见图9,DenseNet提出了一个更激进的密集连接机制:即互相连接所有的层,具体来说就是每个层都会接受其前面所有层作为其额外的输入。可以看到,ResNet是每个层与前面的某层(一般是2~3层)短路连接在一起,连接方式是通过元素级相加。而在DenseNet中,每个层都会与前面所有层在channel(通道)维度上连接(concat)在一起(这里各个层的特征图大小是相同的),并作为下一层的输入。对于一个L层的网络,DenseNet共包含个L*(L+1)/2连接,相比ResNet,这是一种密集连接。而且DenseNet是直接concat来自不同层的特征图,这可以实现特征重用,提升效率。Densenet的网络架构图如附图9所示。
步骤5-2,进行全局/局部特征提取。该步骤5-2分为两个分支,分别为步骤5-2-1和步骤5-2-2。
步骤5-2-1,全局特征提取。全局特征提取采用常规卷积,所述常规卷积的卷积核作为全局卷积在整个空间发挥作用,所述常规卷积在卷积过程中引入全局特征Fglobal,所述全局特征Fglobal中,引入了一个padding(填充空隙)数量为1、且为3*3的卷积核,然后由Relu函数(Rectified Linear Unit,线性整流函数)非线性激活,以生成512个特征图。
然后在每个特征图F上输出13个输出(由前面、可知,其13个输出分别为:C,θ,[tx,ty,tw,th]2D,[tx,ty,tz]P,[tw,th,tl,tθ]3D),且其中每个输出均连接一个1*1的卷积核Oglobal。
步骤5-2-2,局部特征提取。对于局部特征提取,采用深度感知卷积(depth-awareconvolution),即为局部卷积。所述深度感知卷积在卷积过程中引入全局特征Flocal,所述全局特征Flocal中,引入了一个padding(填充空隙)数量为1、且为3*3的卷积核,然后由Relu函数非线性激活,以生成512个特征图。
然后在每个特征图F上输出13个输出(由前面、可知,其13个输出分别为:C,θ,[tx,ty,tw,th]2D,[tx,ty,tz]P,[tw,th,tl,tθ]3D),且其中每个输出均连接一个1*1的卷积核Olocal。
步骤5-3,对全局特征和局部特征提取的输出进行加权处理。此处引入一个加权数α(所述α为学习得到的),所述加权数α利用了卷积神经网络的空间不变性的优点,以此作为第1到第13的输出的索引,其具体的输出函数如下:
Oi=Oglobal i·αi+Olocal i·(1-αi) (8)
步骤6,将3D信息投影至2D信息并进行前向优化处理。此处引出一个参数步长σ(用于更新θ),并设置一个循环终止参数β,当α大于参数β时,则进行优化参数的输入。
算法的迭代步骤是通过将3D框的投影和2D的估计框b′2D作为L1loss,并不断调整θ。且将3D投影至2D框的步骤的公式如下:
γP=P·γ3D,γ2D=γP/γP[φz],
xmin=min(γ3D[φx]),ymin=min(γ3D[γ3D[φy]])
xmax=max(γ3D[φx]),ymax=max(γ3D[γ3D[φy]])
(9)
其中,φ表示轴[x,y,z]的索引。
用3D框投影后的2D框参数[xmin,ymin,xmax,ymax],和原来的2D框估计b′2D来计算L1loss,当θ±σ范围内损失loss没有更新时,就用衰减因子γ来改变步长σ,当σ>β时反复执行上述操作。
步骤7,将13个参数输出,所述13个参数分别为:C,θ,[tx,ty,tw,th]2D,[tx,ty,tz]P,[tw,th,tl,tθ]3D,最后进行3D目标检测。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (1)
1.一种基于深度感知卷积神经网络的2D与3D图像同步检测方法,其特征在于:包括如下步骤:
步骤1、定义目标对象的锚点模板:分别定义2D目标锚点和3D目标锚点,引入预设深度信息参数,指定共享的中心像素位置;所述步骤1中,所述2D目标锚点具体为[w,h]2D,3D目标锚点具体为[w,h,l,θ]3D,其中,w、h和l分别表示目标检测物体宽度、高度和长度的给定值,θ表示相机对目标检测物的观察视角角度;引入的预设深度信息参数为Zp,指定共享的中心像素位置为[x,y]P,其中,2D表示的参数按照像素坐标表示为[x,y]2D=P·[w,h]2D,其中,P表示需要将目标物投影的已知投影矩阵的坐标点,将相机坐标系下的3D中心位置[x,y,z]3D三维投影到给定已知投影矩阵P的图像中,并将深度信息参数Zp进行编码,其公式如下:
步骤2、生成模型预测特征图的锚框:根据定义目标物体的锚点模板,表现为根据可视化锚点生成公式和预先计算的3D先验锚点,生成预设锚框;
所述步骤2中,定义模型预测输出特征图中每个锚点为C,每个锚点对应[tx,ty,tw,th]2D、[tx,ty,tz]P、[tw,th,tl,tθ]3D,设每个目标检测物的特征图上单个像素的的锚点总数为na,预设训练模型类别的数量为nc,hxw是特征图的分辨率,输出框总数为nb=w×h×na;每个锚点分布在每个像素位置[x,y]P∈Rw×h,第一个输出锚点C表示维度为na×nc×h×w的共享分类预测,其中每个类的输出维度为na×h×w;
所述步骤2中,将表示2D边界框转换的[tx,ty,tw,th]2D统称为b2D,其中边界框变换公式如下:
其中,xP和yP表示每个框的空间中心位置,变换后的框b′2D定义为[x,y,w,h]′2D,将7个输出变量即投影中心变换尺度变换[tw,th,tl]3D和方向变换/>统称为b3D,所述b3D转换应用于带参数[w,h]2D,zP,[w,h,l,θ]3D的锚点:
同理,利用公式(1)的逆变换,由在图像空间投影后得到的3D中心位置[x,y,z]′P去计算其相机坐标[x,y,z]′3D,b′3D表示[x,y,z]′P和[w,h,l,θ]′3D;
步骤3、检查锚框的GT的交并比:根据生成的锚框,检查锚框的GT的交并比IOU是否≥0.5;
步骤4、分析目标物的网络损失函数:包括分类损失函数LC分析、2D框回归损失函数分析和3D框回归损失函数分析;
步骤5、建立深度感知卷积区域建议网络:引入Densenet卷积神经网络,得到h*w维度的特征图,然后将所述特征图分别送入两个分支,一个是全局特征抽取,一个是局部特征抽取,最后将两个分支的特征按照一定的权重进行结合;
所述步骤5中,具体过程如下:
步骤5-1、用卷积神经网络DenseNet得到h*w维度的特征图:引入超参数b,其中b表示行级别的bin数量,用于表示将特征图沿横向分为b个,每个bin表示特定的卷积核k;
步骤5-2、进行全局/局部特征提取,所述步骤5-2分为两个分支,其流程具体如下:
步骤5-2-1、全局特征提取:全局特征提取采用常规卷积,所述常规卷积在卷积过程中引入全局特征Fglobal,所述全局特征Fglobal中,引入padding数量为1、且为3*3的卷积核,然后由Relu函数非线性激活,以生成512个特征图,用常规的3x3和1x1卷积作用于整张特征图,
然后在每个特征图F上输出C,θ,[tx,ty,tw,th]2D,[tx,ty,tz]P,[tw,th,tl,tθ]3D共13个输出,且其中每个输出均连接一个1*1的卷积核Oglobal;
步骤5-2-2、局部特征提取:对于局部特征提取采用深度感知卷积,所述深度感知卷积在卷积过程中引入全局特征Flocal,该全局特征Flocal中,引入padding数量为1、且为3*3的卷积核,然后由Relu函数非线性激活,以生成512个特征图,用不同的3x3核作用于不同的bin,并沿纵向将其划分了b个bin,
然后在每个特征图F上输出C,θ,[tx,ty,tw,th]2D,[tx,ty,tz]P,[tw,th,tl,tθ]3D共13个输出,且其中每个输出均连接一个1*1的卷积核Olocal;
步骤5-3、对全局特征和局部特征提取的输出进行加权处理:引入一个由神经网络学习得到的加权数α,所述加权数α利用卷积神经网络的空间不变性,以此作为第1到第13的输出的索引,其具体的输出函数如下:
Oi=Oglobal i·ai+Olocal i·(1-ai) (8)
步骤6、前向优化处理:将3D信息投影至2D信息并进行前向优化处理,引出一个用于更新θ的参数步长σ,并设置一个循环终止参数β,当α大于参数β时,则进行优化参数的输入;
θ表示相机对目标检测物的观察视角角度;
所述步骤6中,算法的迭代步骤如下:
通过将3D框的投影和2D的估计框b′2D作为L1loss,并不断调整θ,将3D投影至2D框的步骤的公式如下:
γP=P·γ3D,γ2D=γP/γP[φz],
xmin=min(γ3D[φx]),y皿in=min(γ3D[γ3D[φy]])
xmax=max(Y3D[φx]),ymax=max(γ3D[γ3D[φy]])
(9),
其中,φ表示轴[x,y,z]的索引,
用3D框投影后的2D框参数[xmin,ymin,xmax,ymax],和原来的2D框估计b′2D来计算L1loss,当θ±σ范围内损失loss没有更新时,就用衰减因子γ来改变步长σ,当σ>β时反复执行上述操作;
步骤7、根据3D输出参数,进行3D目标检测;
所述步骤7中,根据3D共计输出13个参数,所述13个参数分别为:C,θ,[tx,ty,tw,th]2D,[tx,ty,tz]P,[tw,th,tl,tθ]3D;
所述步骤3中,如果锚框的GT的交并比IOU<0.5,则将目标物的类别设置为背景类,并忽略或删除边界锚框;如果锚框的GT的交并比IOU≥0.5,则根据生成的锚框GT,生成目标物的类别索引T、2D框和3D框/>
所述步骤4中,分类损失函数LC采用基于softmax的多项逻辑损失函数,其公式为:
2D框回归损失函数分析,用于匹配GT变换前/>和GT变换后的b′2D之间的交并比IOU:
3D框回归损失函数分析,用于将剩下的3D边框参数中的每项都用smooth L1回归损失函数来优化,其公式为:
所述步骤4中,还引入了整个多任务网络损失函数L,其中还包括正则化权重λ1和λ2,其定义公式如下:
所述步骤5中,还包括步骤5-4:3D目标检测方法的主干网络是建立在DenseNet-121基础上,并提出互相连接所有层的密集连接机制:即每个层都会接受其前面所有层作为其额外的输入,ResNet将每个层与前面的2~3层短路通过元素级相加的方式连接在一起,而在DenseNet中,每个层都会与前面所有层在channel维度上concat在一起,并作为下一层的输入,对于一个L层的网络,DenseNet共包含个L*(L+1)/2连接,且DenseNet通过concat连接器链接来自各个层的特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010308948.9A CN111695403B (zh) | 2020-04-19 | 2020-04-19 | 一种基于深度感知卷积神经网络的2d与3d图像同步检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010308948.9A CN111695403B (zh) | 2020-04-19 | 2020-04-19 | 一种基于深度感知卷积神经网络的2d与3d图像同步检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111695403A CN111695403A (zh) | 2020-09-22 |
CN111695403B true CN111695403B (zh) | 2024-03-22 |
Family
ID=72476391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010308948.9A Active CN111695403B (zh) | 2020-04-19 | 2020-04-19 | 一种基于深度感知卷积神经网络的2d与3d图像同步检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111695403B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989758B (zh) * | 2021-10-26 | 2024-11-01 | 清华大学苏州汽车研究院(相城) | 一种用于自动驾驶的锚引导3d目标检测方法及装置 |
CN114266900B (zh) * | 2021-12-20 | 2024-07-05 | 河南大学 | 一种基于动态卷积的单目3d目标检测方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07220084A (ja) * | 1994-02-04 | 1995-08-18 | Canon Inc | 演算方式、半導体装置及び画像情報処理装置 |
CN106599939A (zh) * | 2016-12-30 | 2017-04-26 | 深圳市唯特视科技有限公司 | 一种基于区域卷积神经网络的实时目标检测方法 |
CN106886755A (zh) * | 2017-01-19 | 2017-06-23 | 北京航空航天大学 | 一种基于交通标志识别的交叉口车辆违章检测系统 |
CN109543601A (zh) * | 2018-11-21 | 2019-03-29 | 电子科技大学 | 一种基于多模态深度学习的无人车目标检测方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
EP3525131A1 (en) * | 2018-02-09 | 2019-08-14 | Bayerische Motoren Werke Aktiengesellschaft | Methods and apparatuses for object detection in a scene represented by depth data of a range detection sensor and image data of a camera |
CN110555407A (zh) * | 2019-09-02 | 2019-12-10 | 东风汽车有限公司 | 路面车辆空间识别方法及电子设备 |
CN110852314A (zh) * | 2020-01-16 | 2020-02-28 | 江西高创保安服务技术有限公司 | 一种基于相机投影模型的物品检测网络方法 |
CN110942000A (zh) * | 2019-11-13 | 2020-03-31 | 南京理工大学 | 一种基于深度学习的无人驾驶车辆目标检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985238B (zh) * | 2018-07-23 | 2021-10-22 | 武汉大学 | 联合深度学习和语义概率的不透水面提取方法及系统 |
-
2020
- 2020-04-19 CN CN202010308948.9A patent/CN111695403B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07220084A (ja) * | 1994-02-04 | 1995-08-18 | Canon Inc | 演算方式、半導体装置及び画像情報処理装置 |
CN106599939A (zh) * | 2016-12-30 | 2017-04-26 | 深圳市唯特视科技有限公司 | 一种基于区域卷积神经网络的实时目标检测方法 |
CN106886755A (zh) * | 2017-01-19 | 2017-06-23 | 北京航空航天大学 | 一种基于交通标志识别的交叉口车辆违章检测系统 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
EP3525131A1 (en) * | 2018-02-09 | 2019-08-14 | Bayerische Motoren Werke Aktiengesellschaft | Methods and apparatuses for object detection in a scene represented by depth data of a range detection sensor and image data of a camera |
CN109543601A (zh) * | 2018-11-21 | 2019-03-29 | 电子科技大学 | 一种基于多模态深度学习的无人车目标检测方法 |
CN110555407A (zh) * | 2019-09-02 | 2019-12-10 | 东风汽车有限公司 | 路面车辆空间识别方法及电子设备 |
CN110942000A (zh) * | 2019-11-13 | 2020-03-31 | 南京理工大学 | 一种基于深度学习的无人驾驶车辆目标检测方法 |
CN110852314A (zh) * | 2020-01-16 | 2020-02-28 | 江西高创保安服务技术有限公司 | 一种基于相机投影模型的物品检测网络方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111695403A (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563415B (zh) | 一种基于双目视觉的三维目标检测系统及方法 | |
CN111428765B (zh) | 一种基于全局卷积、局部深度卷积融合的目标检测方法 | |
JP2022515895A (ja) | 物体認識方法及び装置 | |
CN112991413A (zh) | 自监督深度估测方法和系统 | |
CN116258817B (zh) | 一种基于多视图三维重建的自动驾驶数字孪生场景构建方法和系统 | |
EP3992908A1 (en) | Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching | |
CN107274445A (zh) | 一种图像深度估计方法和系统 | |
Lore et al. | Generative adversarial networks for depth map estimation from RGB video | |
KR101907883B1 (ko) | 객체 검출 및 분류 방법 | |
CN116188999B (zh) | 一种基于可见光和红外图像数据融合的小目标检测方法 | |
EP3992909A1 (en) | Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching | |
Ouyang et al. | A cgans-based scene reconstruction model using lidar point cloud | |
CN111695403B (zh) | 一种基于深度感知卷积神经网络的2d与3d图像同步检测方法 | |
CN115410181A (zh) | 双头解耦对齐的全场景目标检测方法、系统、装置及介质 | |
CN115115917A (zh) | 基于注意力机制和图像特征融合的3d点云目标检测方法 | |
CN106650814B (zh) | 一种基于车载单目视觉室外道路自适应分类器生成方法 | |
CN112950786A (zh) | 一种基于神经网络的车辆三维重建方法 | |
CN117994748A (zh) | 路侧鸟瞰图目标检测方法、装置与计算设备、存储介质 | |
Xiao et al. | Research on uav multi-obstacle detection algorithm based on stereo vision | |
CN114648639B (zh) | 一种目标车辆的检测方法、系统及装置 | |
CN116563807A (zh) | 模型训练方法、装置、电子设备及存储介质 | |
Fu et al. | Linear inverse problem for depth completion with rgb image and sparse lidar fusion | |
Vajak et al. | HistWind2—An Algorithm for Efficient Lane Detection in Highway and Suburban Environments | |
CN116580369B (zh) | 一种用于自动驾驶的车道线端到端实时检测方法 | |
Berrio et al. | Semantic sensor fusion: From camera to sparse LiDAR information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |