CN116704307A - 基于图像虚拟点云与激光点云融合的目标检测方法及系统 - Google Patents
基于图像虚拟点云与激光点云融合的目标检测方法及系统 Download PDFInfo
- Publication number
- CN116704307A CN116704307A CN202310817591.0A CN202310817591A CN116704307A CN 116704307 A CN116704307 A CN 116704307A CN 202310817591 A CN202310817591 A CN 202310817591A CN 116704307 A CN116704307 A CN 116704307A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- image
- virtual point
- dimensional
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 65
- 230000004927 fusion Effects 0.000 title claims abstract description 56
- 238000005070 sampling Methods 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 230000002776 aggregation Effects 0.000 abstract description 5
- 238000004220 aggregation Methods 0.000 abstract description 5
- 239000011159 matrix material Substances 0.000 description 13
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 5
- 238000007500 overflow downdraw method Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/513—Sparse representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
- G06T2207/10044—Radar image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种基于图像虚拟点云与激光点云融合的目标检测方法及系统,属于目标检测技术领域。本发明通过采集激光雷达的原始点云、相机的图像,以及激光雷达与相机的标定参数;利用原始点云处理得到的点云深度图将图像转化为稠密的虚拟点云;利用点云密度将稠密的虚拟点云采样为稀疏的虚拟点云;将原始点云和稀疏的虚拟点云进行融合,获得目标点云;将目标点云通过融合三维和二维的稀疏特征提取网络生成点云融合特征;将点云融合特征输入目标检测网络中,得到目标检测结果。本发明通过虚拟点云的采样方法增强了虚拟点云的鲁棒性,减少了虚拟点云的计算消耗,融合三维和二维的稀疏特征提取网络提高了特征的对齐精度和聚合效果。
Description
技术领域
本发明属于目标检测技术领域,涉及一种基于图像虚拟点云与激光点云融合的目标检测方法及系统。
背景技术
三维目标检测是自动驾驶、智能机器人和增强现实等领域中的重要任务,随着自动驾驶技术的发展,带动了三维目标检测的快速发展。当前主要的三维目标检测方法可分为:基于激光雷达点云的、基于图像的和基于多模态的。
基于激光雷达点云的三维目标检测,由于激光雷达点云高维、稀疏和无序性,传统的基于图像的目标检测方法不适用于点云数据,故出现了基于点、基于体素和基于体柱的点云目标检测方法。基于点的方法将点云视为无序的集合,通过全连接网络对每个点进行特征提取,并通过最大池化操作聚合整个点云的特征。由于对于整个点云进行操作,其无法捕捉点云中的局部结构信息,局部细节表达能力有限。基于体素的方法将点云数据转化为体素网格表示,能够有效地处理稀疏的点云数据,具有较高的检测精度和实时性能,但对于高密度点云,计算和存储成本较高。基于体柱的方法将点云数据转化为伪图像表示,从而通过二维的特征提取网络进行特征编码,具有较低的计算消耗和实时的检测性能,但由于压缩了高度信息,网络的检测精度不高。
基于图像的三维目标检测旨在从二维图像中准确地预测物体的三维边界框和姿态信息。现有技术通过深度估计模块计算视差,以获得伪点云进行检测,但图像生成的伪点云数据量较大,带来了计算消耗的增多,而且二维图像缺乏深度信息,生成的伪点云精度不高导致检测效果不佳。
现有的多模态检测方法可分为基于视锥、基于多视角、基于投影的融合方法。基于视锥的融合方法将图像检测出的每个二维边界框生成一个椎体区域,对椎体区域内的点云应用基于点的点云检测方法,这类方法依赖二维检测网络的结果。基于多视角的融合方法,将点云投影到不同的视角如俯视图表示,进而与图像进行特征融合,然而不同视角的点与像素的对应关系存在误差,转化视角也会造成信息损失。基于投影的融合方法,将三维点投影到图像平面,生成可能的二维边界框并融合图像特征和点云特征,然后通过三维目标检测网络对融合后的特征进行处理,点云投影到图像平面可能引入信息损失,特别是对于稀疏点云或存在遮挡的情况。
图像能够提供物体的颜色和纹理信息,但其缺少深度信息使得其单独进行三维目标检测的精度不佳。激光雷达能够提供精确的距离和深度信息,但其缺少颜色和纹理信息,点云也存在近处密集远处稀疏的问题,仅使用激光雷达仍不能够准确地进行三维目标检测。因此,现有技术使用点云与图像融合的多模态方法来进行三维目标检测,通过融合这两种信息,可以充分利用它们的互补性,提高目标检测的准确性和鲁棒性。然而,点云数据和图像数据作为两种异构数据,存在数据对齐的问题;同时,更多的数据带来了计算资源需求的增多和处理速度的下降。
发明内容
有鉴于此,本发明的目的在于提供一种基于图像虚拟点云与激光点云融合的目标检测方法,解决图像生成的稠密点云的计算消耗和三维特征与二维特征融合中的匹配问题,提高点云鲁棒性,减少稠密点云计算消耗,提高特征的对齐和聚合效果。
为达到上述目的,本发明提供如下技术方案:
方案一、一种基于图像虚拟点云与激光点云融合的目标检测方法,其包括以下步骤:
S1、获取激光雷达采集的原始点云和相机采集的图像,以及激光雷达与相机的标定参数;
S2、处理原始点云得到点云深度图,通过点云深度图将图像转换为稠密的虚拟点云;
S3、利用点云密度将稠密的虚拟点云采样为稀疏的虚拟点云;
S4、将原始点云和稀疏的虚拟点云进行融合得到目标点云;
S5、将目标点云通过融合三维和二维的稀疏特征提取网络生成点云融合特征;
S6、将点云融合特征输入目标检测网络中,得到目标检测结果。
进一步地,步骤S2包括以下步骤:
S21、根据相机标定参数将原始点云投影到前视图视角,得到原始点云稀疏深度图Dld,Dld包括三个通道的数据,分别为深度点的图像坐标u和v以及深度值depth;
S22、将相机采集的图像进行裁剪,得到RGB图像I=(r,g,b),其中r、g和b分别表示图像的不同颜色通道;
S23、将原始点云稀疏深度图Dld与图像I输入深度补全网络,获得图像深度图Did,Did包括u、v和depth三个通道的数据;
S24、将Did中深度值depth非零的点的坐标作为查询列表,在图像I中找到对应像素点的像素值(r,g,b)以获得深度值非零的图像Id=(u,v,depth,r,g,b);
S25、根据标定参数,将深度值非零的图像Id的坐标(u,v,depth)转换成激光雷达坐标系下的(x,y,z),获得稠密的虚拟点云Pd=(x,y,z,r,g,b);进一步地,步骤S3包括以下步骤:
S31、将稠密的虚拟点云根据位置坐标划分成若干个虚拟点云体素,并剔除不含虚拟点云的空体素,得到非空体素的虚拟点云;
S32、对非空体素的虚拟点云根据距离阈值划分出保留区和采样区,具体地,体素中心点的x坐标大于距离阈值δ的区域为保留区,体素中心点的x坐标小于距离阈值δ的区域为采样区;
S33、遍历采样区的每个体素,对体素内的虚拟点云根据点云密度进行随机采样,得到采样后的虚拟点云;
S34、将保留区的虚拟点云和采样后的虚拟点云拼接得到稀疏的虚拟点云。
进一步地,步骤S33中,随机采样的采样率σ取决于体素内虚拟点云的密度ρ,具体如下式所示:
σ=sigmoid(-kρ+kγ)
式中,k表示采样系数,γ表示半采样率参数;
对于具有N个点的点云集,点云的密度ρ的表达式为:
式中,V表示点云集所占体积,dis{p,q}表示点p与邻点q的距离。
进一步地,步骤S5具体为,首先将目标点云根据(x,y,z)坐标划分为NV个体素,再将体素化后的目标点云输入融合三维和二维的稀疏特征提取网络以生成点云融合特征。其中,融合三维和二维的稀疏特征提取网络包括四个卷积块,每个卷积块包括两个三维稀疏卷积层、两个二维稀疏卷积层和一个融合模块;各卷积层后均有一个批归一化层和ReLU激活函数层。
卷积块将两个三维稀疏卷积层输出的第一特征通过激光雷达和相机的标定参数投影到图像平面,并通过两个二维稀疏卷积层提取第二特征;融合模块将所述第一特征和第二特征分别通过一个全连接层后输出第三特征和第四特征,将第三特征和第四特征输入多尺度可变形多头注意力层得到第五特征,拼接第三特征和第五特征后再通过一个全连接层,即输出点云融合特征。
方案二、用于方案一所述方法的基于图像虚拟点云与激光点云融合的目标检测系统,该系统包括数据采集模块、数据融合模块、特征提取模块和目标检测模块。其中数据采集模块用于接收激光雷达采集的原始点云和相机采集的图像;数据融合模块用于将原始点云处理得到点云深度图,通过点云深度图将图像转化为稠密的虚拟点云;利用点云密度将稠密的虚拟点云降采样为稀疏的虚拟点云,并将原始点云和稀疏的虚拟点云进行融合,获得目标点云;特征提取模块用于将目标点云通过融合三维和二维的稀疏特征提取网络生成点云融合特征;目标检测模块用于将点云融合特征输入目标检测网络中,得到目标检测结果。
本发明的有益效果在于:本发明通过将图像生成的虚拟点云进行采样后与激光点云进行融合,对融合的目标点云进行了多维度的特征提取和三维目标检测,增强了点云的特征,提高了检测精度。同时本发明通过结合虚拟点云的距离和密度进行采样,保留较远距离虚拟点云而对近距离的密集虚拟点云采样,增强了虚拟点云的鲁棒性,减少了虚拟点云的计算消耗,并且提出了融合三维和二维的稀疏特征提取网络,通过二维特征来提取目标边缘特征,结合融合模块聚合三维和二维特征,提高了二维和三维特征的对齐精度和聚合效果。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明目标检测方法的流程示意图;
图2为本发明目标检测方法的整体架构示意图;
图3为稠密的虚拟点云采样为稀疏的虚拟点云的流程图;
图4为融合三维和二维的稀疏特征提取网络的结构示意图;
图5为本发明目标检测系统的模块结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对图像生成的稠密点云的计算消耗和三维特征与二维特征融合中的匹配问题,提供基于图像虚拟点云与激光点云融合的目标检测方法和系统,以增强虚拟点云的鲁棒性,减少稠密点云的计算消耗,提高特征的对齐精度和聚合效果。
请参阅图1和图2,为本发明提出的基于图像虚拟点云与激光点云融合的目标检测方法,其具体内容包括:
S1:获取激光雷达采集的原始点云、相机采集的图像,以及激光雷达与相机的标定参数;
S2:利用原始点云处理得到点云深度图,通过点云深度图将图像转化为稠密的虚拟点云,具体为:
S21、根据标定参数将原始点云Po=(x,y,z,intensity)投影到前视图视角,得到原始点云稀疏深度图Dld,Dld包括三个通道的数据:(u,v,depth),其中(u,v)是深度点的图像坐标,depth为深度值;
激光雷达坐标系中的三维点云x=(x,y,z,1)T投影到相机的像素坐标系中的点y=(u,v,1)T的投影公式为:
式中,Prect表示4×4的相机内参矩阵,Rrect表示4×4的校正旋转矩阵,表示4×4的激光雷达到相机的坐标变换矩阵;
其中,相机内参矩阵Prect为:
式中fu、fv表示相机的焦距,cu、cv表示主点坐标;
相机和激光雷达间的坐标变换矩阵为:
其中为大小3×3的旋转矩阵,/>为大小3×1的平移矩阵;
S22、将相机采集的图像裁剪成325×1216的RGB图像I=(r,g,b);
S23、将原始点云稀疏深度图Dld与RGB图像I输入深度补全网络,获得图像深度图Did,Did包括三个通道的数据:(u,v,depth);
S24、将图像深度图Did中深度值depth非零的点的坐标作为查询列表,在图像I中找到对应像素点的像素值(r,g,b)以获得深度值非零的图像Id=(u,v,depth,r,g,b);
S25、根据标定参数,将深度值非零的图像Id的坐标(u,v,depth)转换成世界坐标系下的坐标(xrect,yrect,zrect),并将世界坐标系下的坐标(xrect,yrect,zrect)转换成激光雷达坐标下的(x,y,z),获得稠密的虚拟点云Pd=(x,y,z,r,g,b);
其中,相机的像素坐标系中的点y=(u,v,depth)T投影到世界坐标系下的点rect=(xrect,yrect,zrect)T的投影公式为:
式中,表示校正旋转矩阵的逆矩阵,/>表示相机内参矩阵的逆矩阵,Id的深度值depth作为世界坐标系下的zrect坐标;
可选地,世界坐标系下的点rect=(xrect,yrect,zrect)T投影到激光雷达坐标系中的三维点云x=(x,y,z,1)T的投影公式为:
式中,表示激光雷达到相机的坐标变换矩阵的逆矩阵;S3:利用点云密度将稠密的虚拟点云采样为稀疏的虚拟点云,如图3所示:
S31、将稠密的虚拟点云根据(x,y,z)位置坐标划分成L×W×H个虚拟点云体素,每个体素的大小为Vl×Vw×Vh,其中,可选地,Vl=Vw=Vh=0.2;
将不含虚拟点云的空体素剔除,得到非空体素的虚拟点云;
S32、对非空体素的虚拟点云根据距离阈值δ划分出保留区和采样区,体素中心点的x坐标大于距离阈值δ的区域为保留区,体素中心点的x坐标小于距离阈值δ的区域为采样区,δ与数据采集设备的参数和安装方式有关,可选地,δ可取值为40;
S33、遍历采样区的每个体素,对体素内的虚拟点云进行随机采样;
随机采样的采样率σ由体素内虚拟点云的密度ρ确定,得到采样后的虚拟点云;
随机采样的采样率σ如下式所示:
σ=sigmoid(-kρ+kγ)
其中k表示采样系数,γ表示半采样率参数,k和γ与数据采集设备的参数和安装方式有关,可选地,k=8.0,γ=0.85;
对于具有N个点的点云集,点云的密度ρ的表达式为:
式中,V表示点云集所占体积,dis{p,q}表示点p与邻点q的距离;
S34、将保留区的虚拟点云和采样后的虚拟点云拼接,得到稀疏的虚拟点云Ps=(x,y,z,r,g,b),其中稀疏的虚拟点云的数量应小于稠密的虚拟点云的数量。
S4、将原始点云Po和稀疏的虚拟点云Ps进行融合,获得目标点云Pt=(x,y,z,intensity,r,g,b),其中稀疏的虚拟点云对应的intensity为零,原始点云对应的r,g,b为零。
S5、将目标点云通过融合三维和二维的稀疏特征提取网络生成点云融合特征;
首先将目标点云根据(x,y,z)坐标划分为NV=L′×W′×H′个体素,每个体素大小为Vx×Vy×Vz,其中,可选地,Vx=Vy=Vz=0.05,NV≤40000;再将体素化后的目标点云输入融合三维和二维的稀疏特征提取网络以生成点云融合特征;
如图4所示,融合三维和二维的稀疏特征提取网络包括四个卷积块,每个卷积块包括两个三维稀疏卷积层、两个二维稀疏卷积层和一个融合模块,对应的特征通道数为16、32、64、64,各卷积层后均有一个批归一化层和ReLU激活函数层,最终输出通道数64的点云融合特征;
其中融合模块包括三个全连接层和一个多尺度可变形多头注意力层,其中前两个全连接层后均有一个批归一化层,多尺度可变形多头注意力层后有一个批归一化层,最后一个全连接层后有一个批归一化层和ReLU激活函数层;
卷积块将两个三维稀疏卷积层输出的第一特征通过激光雷达和相机的标定参数投影到图像平面,并通过两个二维稀疏卷积层提取第二特征;融合模块将所述第一特征和第二特征分别通过一个全连接层后输出第三特征和第四特征,将第三特征和第四特征输入多尺度可变形多头注意力层得到第五特征,拼接第三特征和第五特征后再通过一个全连接层,即输出点云融合特征。
其中,多尺度可变形多头注意力层如下式所示:
式中,zq表示Q向量,表示归一化的参考点坐标,/>表示输入特征,L表示总共具有层,xl表示第l层的输入特征,M表示多头注意力的头数,m表示第m个注意力头部,Wm表示注意力施加在V向量之后的结果经过线性变换而得到的第m个注意力头部的结果,K表示采样的第K个位置,k表示V向量的索引,即第k个采样点,Amlqk表示第m个注意力头部的权重,表示V向量,Wm′表示将输入特征/>作用在第m个注意力头部的结果,φl表示将归一化的特征坐标映射到第l层特征上,Δpmlqk表示采样点相对于参考点的位置偏移。
S6、将步骤S5得到的点云融合特征输入目标检测网络中,得到目标检测结果;
将点云融合特征投影到鸟瞰图生成鸟瞰图特征,将鸟瞰图特征输入二维特征编码器得到二维鸟瞰特征,利用RPN网络通过二维鸟瞰特征进行分类和回归,生成高质量的候选框,体素化ROI池化对候选框进行体素池化得到池化特征,检测头对池化特征通过两层全连接层进行置信度预测和回归框的精修,输出检测目标的类别和位置信息(x,y,z,l,w,h,θ),其中(x,y,z)表示目标中心点的坐标,(l,w,h)表示目标的长宽高信息,θ表示目标水平朝向与x轴的夹角。
如图5所示为本发明提供的基于图像虚拟点云与激光点云融合的目标检测系统,该系统包括数据采集模块、数据融合模块、特征提取模块和目标检测模块。
其中数据采集模块用于接收激光雷达采集的原始点云和相机采集的图像;
数据融合模块用于将原始点云处理得到点云深度图,通过点云深度图将图像转化为稠密的虚拟点云;利用点云密度将稠密的虚拟点云降采样为稀疏的虚拟点云,并将原始点云和稀疏的虚拟点云进行融合,获得目标点云;
特征提取模块用于将目标点云通过融合三维和二维的稀疏特征提取网络生成点云融合特征;
目标检测模块用于将点云融合特征输入目标检测网络中,得到目标检测结果。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于图像虚拟点云与激光点云融合的目标检测方法,其特征在于:该方法包括以下步骤:
S1、获取激光雷达采集的原始点云和相机采集的图像,以及激光雷达与相机的标定参数;
S2、处理原始点云得到点云深度图,通过点云深度图将图像转换为稠密的虚拟点云;
S3、利用点云密度将稠密的虚拟点云采样为稀疏的虚拟点云;
S4、将原始点云和稀疏的虚拟点云进行融合得到目标点云;
S5、将目标点云通过融合三维和二维的稀疏特征提取网络生成点云融合特征;
S6、将点云融合特征输入目标检测网络中,得到目标检测结果。
2.根据权利要求1所述的目标检测方法,其特征在于:步骤S2包括以下步骤:
S21、根据相机标定参数将原始点云投影到前视图视角,得到原始点云稀疏深度图Dld,Dld包括三个通道的数据,分别为深度点的图像坐标u和v以及深度值depth;
S22、将相机采集的图像进行裁剪,得到RGB图像I=(r,g,b),其中r、g和b分别表示图像的不同颜色通道;
S23、将原始点云稀疏深度图Dld与图像I输入深度补全网络,获得图像深度图Did,Did包括u、v和depth三个通道的数据;
S24、将Did中深度值depth非零的点的坐标作为查询列表,在图像I中找到对应像素点的像素值(r,g,b)以获得深度值非零的图像Id=(u,v,depth,r,g,b);
S25、根据标定参数,将深度值非零的图像Id的坐标(u,v,depth)转换成激光雷达坐标系下的(x,y,z),获得稠密的虚拟点云Pd=(x,y,z,r,g,b)。
3.根据权利要求1所述的目标检测方法,其特征在于:步骤S3包括以下步骤:
S31、将稠密的虚拟点云根据位置坐标划分成若干个虚拟点云体素,并剔除不含虚拟点云的空体素,得到非空体素的虚拟点云;
S32、对非空体素的虚拟点云根据距离阈值划分出保留区和采样区,具体地,体素中心点的x坐标大于距离阈值δ的区域为保留区,体素中心点的x坐标小于距离阈值δ的区域为采样区;
S33、遍历采样区的每个体素,对体素内的虚拟点云根据点云密度进行随机采样,得到采样后的虚拟点云;
S34、将保留区的虚拟点云和采样后的虚拟点云拼接得到稀疏的虚拟点云。
4.根据权利要求3所述的目标检测方法,其特征在于:步骤S33中,随机采样的采样率σ取决于体素内虚拟点云的密度ρ,具体如下式所示:
σ=sigmoid(-kρ+kγ)
式中,k表示采样系数,γ表示半采样率参数;
对于具有N个点的点云集,点云的密度ρ的表达式为:
式中,V表示点云集所占体积,dis{p,q}表示点p与邻点q的距离。
5.根据权利要求1所述的目标检测方法,其特征在于:步骤S5具体为,首先将目标点云根据(x,y,z)坐标划分为NV个体素,再将体素化后的目标点云输入融合三维和二维的稀疏特征提取网络以生成点云融合特征。
6.根据权利要求1所述的目标检测方法,其特征在于:步骤S5中,所述融合三维和二维的稀疏特征提取网络包括四个卷积块,每个卷积块包括两个三维稀疏卷积层、两个二维稀疏卷积层和一个融合模块;各卷积层后均有一个批归一化层和ReLU激活函数层;
所述卷积块将两个三维稀疏卷积层输出的第一特征通过激光雷达和相机的标定参数投影到图像平面,并通过两个二维稀疏卷积层提取第二特征;
所述融合模块将所述第一特征和第二特征分别通过一个全连接层后输出第三特征和第四特征,将第三特征和第四特征输入多尺度可变形多头注意力层得到第五特征,拼接第三特征和第五特征后再通过一个全连接层,即输出点云融合特征。
7.用于权利要求1~6中任一项所述目标检测方法的基于图像虚拟点云与激光点云融合的目标检测系统,其特征在于:该系统包括数据采集模块、数据融合模块、特征提取模块和目标检测模块;
所述数据采集模块用于接收激光雷达采集的原始点云和相机采集的图像;
所述数据融合模块用于将原始点云处理得到点云深度图,通过点云深度图将图像转化为稠密的虚拟点云;利用点云密度将稠密的虚拟点云降采样为稀疏的虚拟点云,并将原始点云和稀疏的虚拟点云进行融合,获得目标点云;
所述特征提取模块用于将目标点云通过融合三维和二维的稀疏特征提取网络生成点云融合特征;
所述目标检测模块用于将点云融合特征输入目标检测网络中,得到目标检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310817591.0A CN116704307A (zh) | 2023-07-05 | 2023-07-05 | 基于图像虚拟点云与激光点云融合的目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310817591.0A CN116704307A (zh) | 2023-07-05 | 2023-07-05 | 基于图像虚拟点云与激光点云融合的目标检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116704307A true CN116704307A (zh) | 2023-09-05 |
Family
ID=87841100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310817591.0A Pending CN116704307A (zh) | 2023-07-05 | 2023-07-05 | 基于图像虚拟点云与激光点云融合的目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116704307A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118097123A (zh) * | 2024-04-26 | 2024-05-28 | 烟台大学 | 基于点云和图像的三维目标检测方法、系统、设备和介质 |
-
2023
- 2023-07-05 CN CN202310817591.0A patent/CN116704307A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118097123A (zh) * | 2024-04-26 | 2024-05-28 | 烟台大学 | 基于点云和图像的三维目标检测方法、系统、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110264416B (zh) | 稀疏点云分割方法及装置 | |
CN110569704B (zh) | 一种基于立体视觉的多策略自适应车道线检测方法 | |
CN114724120B (zh) | 基于雷视语义分割自适应融合的车辆目标检测方法及系统 | |
CN113159151B (zh) | 面向自动驾驶的多传感器深度融合3d目标检测方法 | |
CN108648161B (zh) | 非对称核卷积神经网络的双目视觉障碍物检测系统及方法 | |
CN103810744B (zh) | 在点云中回填点 | |
CN110689008A (zh) | 一种面向单目图像的基于三维重建的三维物体检测方法 | |
CN115082674B (zh) | 基于注意力机制的多模态数据融合三维目标检测方法 | |
CN111681212B (zh) | 一种基于激光雷达点云数据的三维目标检测方法 | |
CN115205489A (zh) | 一种大场景下的三维重建方法、系统及装置 | |
CN114693661A (zh) | 一种基于深度学习的快速分拣方法 | |
CN114463736A (zh) | 一种基于多模态信息融合的多目标检测方法及装置 | |
CN111027415A (zh) | 一种基于偏振图像的车辆检测方法 | |
CN111914615A (zh) | 基于立体视觉的消防区域可通过性分析系统 | |
CN114298151A (zh) | 一种基于点云数据与图像数据融合的3d目标检测方法 | |
CN114639115A (zh) | 一种人体关键点与激光雷达融合的3d行人检测方法 | |
CN115330935A (zh) | 一种基于深度学习的三维重建方法及系统 | |
CN117173399A (zh) | 一种跨模态交叉注意力机制的交通目标检测方法及系统 | |
CN116503836A (zh) | 一种基于深度补全和图像分割的3d目标检测方法 | |
CN118351410A (zh) | 一种基于稀疏代理注意力的多模态三维检测方法 | |
TW202225730A (zh) | 基於深度學習之高效率光達物件偵測方法 | |
Gao et al. | Sparse dense fusion for 3d object detection | |
CN116704307A (zh) | 基于图像虚拟点云与激光点云融合的目标检测方法及系统 | |
CN116129234A (zh) | 一种基于注意力的4d毫米波雷达与视觉的融合方法 | |
CN111626241A (zh) | 一种人脸检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |