CN116704307A

CN116704307A - 基于图像虚拟点云与激光点云融合的目标检测方法及系统

Info

Publication number: CN116704307A
Application number: CN202310817591.0A
Authority: CN
Inventors: 林峰; 孙裕琛; 蒋建春; 彭涛
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-09-05

Abstract

本发明涉及一种基于图像虚拟点云与激光点云融合的目标检测方法及系统，属于目标检测技术领域。本发明通过采集激光雷达的原始点云、相机的图像，以及激光雷达与相机的标定参数；利用原始点云处理得到的点云深度图将图像转化为稠密的虚拟点云；利用点云密度将稠密的虚拟点云采样为稀疏的虚拟点云；将原始点云和稀疏的虚拟点云进行融合，获得目标点云；将目标点云通过融合三维和二维的稀疏特征提取网络生成点云融合特征；将点云融合特征输入目标检测网络中，得到目标检测结果。本发明通过虚拟点云的采样方法增强了虚拟点云的鲁棒性，减少了虚拟点云的计算消耗，融合三维和二维的稀疏特征提取网络提高了特征的对齐精度和聚合效果。

Description

基于图像虚拟点云与激光点云融合的目标检测方法及系统

技术领域

本发明属于目标检测技术领域，涉及一种基于图像虚拟点云与激光点云融合的目标检测方法及系统。

背景技术

三维目标检测是自动驾驶、智能机器人和增强现实等领域中的重要任务，随着自动驾驶技术的发展，带动了三维目标检测的快速发展。当前主要的三维目标检测方法可分为：基于激光雷达点云的、基于图像的和基于多模态的。

基于激光雷达点云的三维目标检测，由于激光雷达点云高维、稀疏和无序性，传统的基于图像的目标检测方法不适用于点云数据，故出现了基于点、基于体素和基于体柱的点云目标检测方法。基于点的方法将点云视为无序的集合，通过全连接网络对每个点进行特征提取，并通过最大池化操作聚合整个点云的特征。由于对于整个点云进行操作，其无法捕捉点云中的局部结构信息，局部细节表达能力有限。基于体素的方法将点云数据转化为体素网格表示，能够有效地处理稀疏的点云数据，具有较高的检测精度和实时性能，但对于高密度点云，计算和存储成本较高。基于体柱的方法将点云数据转化为伪图像表示，从而通过二维的特征提取网络进行特征编码，具有较低的计算消耗和实时的检测性能，但由于压缩了高度信息，网络的检测精度不高。

基于图像的三维目标检测旨在从二维图像中准确地预测物体的三维边界框和姿态信息。现有技术通过深度估计模块计算视差，以获得伪点云进行检测，但图像生成的伪点云数据量较大，带来了计算消耗的增多，而且二维图像缺乏深度信息，生成的伪点云精度不高导致检测效果不佳。

现有的多模态检测方法可分为基于视锥、基于多视角、基于投影的融合方法。基于视锥的融合方法将图像检测出的每个二维边界框生成一个椎体区域，对椎体区域内的点云应用基于点的点云检测方法，这类方法依赖二维检测网络的结果。基于多视角的融合方法，将点云投影到不同的视角如俯视图表示，进而与图像进行特征融合，然而不同视角的点与像素的对应关系存在误差，转化视角也会造成信息损失。基于投影的融合方法，将三维点投影到图像平面，生成可能的二维边界框并融合图像特征和点云特征，然后通过三维目标检测网络对融合后的特征进行处理，点云投影到图像平面可能引入信息损失，特别是对于稀疏点云或存在遮挡的情况。

图像能够提供物体的颜色和纹理信息，但其缺少深度信息使得其单独进行三维目标检测的精度不佳。激光雷达能够提供精确的距离和深度信息，但其缺少颜色和纹理信息，点云也存在近处密集远处稀疏的问题，仅使用激光雷达仍不能够准确地进行三维目标检测。因此，现有技术使用点云与图像融合的多模态方法来进行三维目标检测，通过融合这两种信息，可以充分利用它们的互补性，提高目标检测的准确性和鲁棒性。然而，点云数据和图像数据作为两种异构数据，存在数据对齐的问题；同时，更多的数据带来了计算资源需求的增多和处理速度的下降。

发明内容

有鉴于此，本发明的目的在于提供一种基于图像虚拟点云与激光点云融合的目标检测方法，解决图像生成的稠密点云的计算消耗和三维特征与二维特征融合中的匹配问题，提高点云鲁棒性，减少稠密点云计算消耗，提高特征的对齐和聚合效果。

为达到上述目的，本发明提供如下技术方案：

方案一、一种基于图像虚拟点云与激光点云融合的目标检测方法，其包括以下步骤：

S1、获取激光雷达采集的原始点云和相机采集的图像，以及激光雷达与相机的标定参数；

S2、处理原始点云得到点云深度图，通过点云深度图将图像转换为稠密的虚拟点云；

S3、利用点云密度将稠密的虚拟点云采样为稀疏的虚拟点云；

S4、将原始点云和稀疏的虚拟点云进行融合得到目标点云；

S5、将目标点云通过融合三维和二维的稀疏特征提取网络生成点云融合特征；

S6、将点云融合特征输入目标检测网络中，得到目标检测结果。

进一步地，步骤S2包括以下步骤：

S21、根据相机标定参数将原始点云投影到前视图视角，得到原始点云稀疏深度图D_ld，D_ld包括三个通道的数据，分别为深度点的图像坐标u和v以及深度值depth；

S22、将相机采集的图像进行裁剪，得到RGB图像I＝(r,g,b)，其中r、g和b分别表示图像的不同颜色通道；

S23、将原始点云稀疏深度图D_ld与图像I输入深度补全网络，获得图像深度图D_id，D_id包括u、v和depth三个通道的数据；

S24、将D_id中深度值depth非零的点的坐标作为查询列表，在图像I中找到对应像素点的像素值(r,g,b)以获得深度值非零的图像I_d＝(u,v,depth,r,g,b)；

S25、根据标定参数，将深度值非零的图像I_d的坐标(u,v,depth)转换成激光雷达坐标系下的(x,y,z),获得稠密的虚拟点云P_d＝(x,y,z,r,g,b)；进一步地，步骤S3包括以下步骤：

S31、将稠密的虚拟点云根据位置坐标划分成若干个虚拟点云体素，并剔除不含虚拟点云的空体素，得到非空体素的虚拟点云；

S32、对非空体素的虚拟点云根据距离阈值划分出保留区和采样区，具体地，体素中心点的x坐标大于距离阈值δ的区域为保留区，体素中心点的x坐标小于距离阈值δ的区域为采样区；

S33、遍历采样区的每个体素，对体素内的虚拟点云根据点云密度进行随机采样，得到采样后的虚拟点云；

S34、将保留区的虚拟点云和采样后的虚拟点云拼接得到稀疏的虚拟点云。

进一步地，步骤S33中，随机采样的采样率σ取决于体素内虚拟点云的密度ρ，具体如下式所示：

σ＝sigmoid(-kρ+kγ)

式中，k表示采样系数，γ表示半采样率参数；

对于具有N个点的点云集，点云的密度ρ的表达式为：

式中，V表示点云集所占体积，dis{p,q}表示点p与邻点q的距离。

进一步地，步骤S5具体为，首先将目标点云根据(x,y,z)坐标划分为N_V个体素，再将体素化后的目标点云输入融合三维和二维的稀疏特征提取网络以生成点云融合特征。其中，融合三维和二维的稀疏特征提取网络包括四个卷积块，每个卷积块包括两个三维稀疏卷积层、两个二维稀疏卷积层和一个融合模块；各卷积层后均有一个批归一化层和ReLU激活函数层。

卷积块将两个三维稀疏卷积层输出的第一特征通过激光雷达和相机的标定参数投影到图像平面，并通过两个二维稀疏卷积层提取第二特征；融合模块将所述第一特征和第二特征分别通过一个全连接层后输出第三特征和第四特征，将第三特征和第四特征输入多尺度可变形多头注意力层得到第五特征，拼接第三特征和第五特征后再通过一个全连接层，即输出点云融合特征。

方案二、用于方案一所述方法的基于图像虚拟点云与激光点云融合的目标检测系统，该系统包括数据采集模块、数据融合模块、特征提取模块和目标检测模块。其中数据采集模块用于接收激光雷达采集的原始点云和相机采集的图像；数据融合模块用于将原始点云处理得到点云深度图，通过点云深度图将图像转化为稠密的虚拟点云；利用点云密度将稠密的虚拟点云降采样为稀疏的虚拟点云，并将原始点云和稀疏的虚拟点云进行融合，获得目标点云；特征提取模块用于将目标点云通过融合三维和二维的稀疏特征提取网络生成点云融合特征；目标检测模块用于将点云融合特征输入目标检测网络中，得到目标检测结果。

本发明的有益效果在于：本发明通过将图像生成的虚拟点云进行采样后与激光点云进行融合，对融合的目标点云进行了多维度的特征提取和三维目标检测，增强了点云的特征，提高了检测精度。同时本发明通过结合虚拟点云的距离和密度进行采样，保留较远距离虚拟点云而对近距离的密集虚拟点云采样，增强了虚拟点云的鲁棒性，减少了虚拟点云的计算消耗，并且提出了融合三维和二维的稀疏特征提取网络，通过二维特征来提取目标边缘特征，结合融合模块聚合三维和二维特征，提高了二维和三维特征的对齐精度和聚合效果。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明目标检测方法的流程示意图；

图2为本发明目标检测方法的整体架构示意图；

图3为稠密的虚拟点云采样为稀疏的虚拟点云的流程图；

图4为融合三维和二维的稀疏特征提取网络的结构示意图；

图5为本发明目标检测系统的模块结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

本发明的目的是针对图像生成的稠密点云的计算消耗和三维特征与二维特征融合中的匹配问题，提供基于图像虚拟点云与激光点云融合的目标检测方法和系统，以增强虚拟点云的鲁棒性，减少稠密点云的计算消耗，提高特征的对齐精度和聚合效果。

请参阅图1和图2，为本发明提出的基于图像虚拟点云与激光点云融合的目标检测方法，其具体内容包括：

S1：获取激光雷达采集的原始点云、相机采集的图像，以及激光雷达与相机的标定参数；

S2：利用原始点云处理得到点云深度图，通过点云深度图将图像转化为稠密的虚拟点云，具体为：

S21、根据标定参数将原始点云P_o＝(x,y,z,intensity)投影到前视图视角，得到原始点云稀疏深度图D_ld，D_ld包括三个通道的数据：(u,v,depth)，其中(u,v)是深度点的图像坐标，depth为深度值；

激光雷达坐标系中的三维点云x＝(x,y,z,1)^T投影到相机的像素坐标系中的点y＝(u,v,1)^T的投影公式为：

式中，P_rect表示4×4的相机内参矩阵，R_rect表示4×4的校正旋转矩阵，表示4×4的激光雷达到相机的坐标变换矩阵；

其中，相机内参矩阵P_rect为：

式中f_u、f_v表示相机的焦距，c_u、c_v表示主点坐标；

相机和激光雷达间的坐标变换矩阵为：

其中为大小3×3的旋转矩阵，/>为大小3×1的平移矩阵；

S22、将相机采集的图像裁剪成325×1216的RGB图像I＝(r,g,b)；

S23、将原始点云稀疏深度图D_ld与RGB图像I输入深度补全网络，获得图像深度图D_id，D_id包括三个通道的数据：(u,v,depth)；

S24、将图像深度图D_id中深度值depth非零的点的坐标作为查询列表，在图像I中找到对应像素点的像素值(r,g,b)以获得深度值非零的图像I_d＝(u,v,depth,r,g,b)；

S25、根据标定参数，将深度值非零的图像I_d的坐标(u,v,depth)转换成世界坐标系下的坐标(x_rect,y_rect,z_rect)，并将世界坐标系下的坐标(x_rect,y_rect,z_rect)转换成激光雷达坐标下的(x,y,z),获得稠密的虚拟点云P_d＝(x,y,z,r,g,b)；

其中，相机的像素坐标系中的点y＝(u,v,depth)^T投影到世界坐标系下的点rect＝(x_rect,y_rect,z_rect)^T的投影公式为：

式中，表示校正旋转矩阵的逆矩阵，/>表示相机内参矩阵的逆矩阵，I_d的深度值depth作为世界坐标系下的z_rect坐标；

可选地，世界坐标系下的点rect＝(x_rect,y_rect,z_rect)^T投影到激光雷达坐标系中的三维点云x＝(x,y,z,1)^T的投影公式为：

式中，表示激光雷达到相机的坐标变换矩阵的逆矩阵；S3：利用点云密度将稠密的虚拟点云采样为稀疏的虚拟点云，如图3所示：

S31、将稠密的虚拟点云根据(x,y,z)位置坐标划分成L×W×H个虚拟点云体素，每个体素的大小为V_l×V_w×V_h，其中，可选地，V_l＝V_w＝V_h＝0.2；

将不含虚拟点云的空体素剔除，得到非空体素的虚拟点云；

S32、对非空体素的虚拟点云根据距离阈值δ划分出保留区和采样区，体素中心点的x坐标大于距离阈值δ的区域为保留区，体素中心点的x坐标小于距离阈值δ的区域为采样区，δ与数据采集设备的参数和安装方式有关，可选地，δ可取值为40；

S33、遍历采样区的每个体素，对体素内的虚拟点云进行随机采样；

随机采样的采样率σ由体素内虚拟点云的密度ρ确定，得到采样后的虚拟点云；

随机采样的采样率σ如下式所示：

σ＝sigmoid(-kρ+kγ)

其中k表示采样系数，γ表示半采样率参数，k和γ与数据采集设备的参数和安装方式有关，可选地，k＝8.0，γ＝0.85；

对于具有N个点的点云集，点云的密度ρ的表达式为：

式中，V表示点云集所占体积，dis{p,q}表示点p与邻点q的距离；

S34、将保留区的虚拟点云和采样后的虚拟点云拼接，得到稀疏的虚拟点云P_s＝(x,y,z,r,g,b)，其中稀疏的虚拟点云的数量应小于稠密的虚拟点云的数量。

S4、将原始点云P_o和稀疏的虚拟点云P_s进行融合，获得目标点云P_t＝(x,y,z,intensity,r,g,b)，其中稀疏的虚拟点云对应的intensity为零，原始点云对应的r,g,b为零。

首先将目标点云根据(x,y,z)坐标划分为N_V＝L′×W′×H′个体素，每个体素大小为V_x×V_y×V_z，其中，可选地，V_x＝V_y＝V_z＝0.05，N_V≤40000；再将体素化后的目标点云输入融合三维和二维的稀疏特征提取网络以生成点云融合特征；

如图4所示，融合三维和二维的稀疏特征提取网络包括四个卷积块，每个卷积块包括两个三维稀疏卷积层、两个二维稀疏卷积层和一个融合模块，对应的特征通道数为16、32、64、64，各卷积层后均有一个批归一化层和ReLU激活函数层，最终输出通道数64的点云融合特征；

其中融合模块包括三个全连接层和一个多尺度可变形多头注意力层，其中前两个全连接层后均有一个批归一化层，多尺度可变形多头注意力层后有一个批归一化层，最后一个全连接层后有一个批归一化层和ReLU激活函数层；

其中，多尺度可变形多头注意力层如下式所示：

式中，z_q表示Q向量，表示归一化的参考点坐标，/>表示输入特征，L表示总共具有层，x^l表示第l层的输入特征，M表示多头注意力的头数，m表示第m个注意力头部，W_m表示注意力施加在V向量之后的结果经过线性变换而得到的第m个注意力头部的结果，K表示采样的第K个位置，k表示V向量的索引，即第k个采样点，A_mlqk表示第m个注意力头部的权重，表示V向量，W_m′表示将输入特征/>作用在第m个注意力头部的结果，φ_l表示将归一化的特征坐标映射到第l层特征上，Δp_mlqk表示采样点相对于参考点的位置偏移。

S6、将步骤S5得到的点云融合特征输入目标检测网络中，得到目标检测结果；

将点云融合特征投影到鸟瞰图生成鸟瞰图特征，将鸟瞰图特征输入二维特征编码器得到二维鸟瞰特征，利用RPN网络通过二维鸟瞰特征进行分类和回归，生成高质量的候选框，体素化ROI池化对候选框进行体素池化得到池化特征，检测头对池化特征通过两层全连接层进行置信度预测和回归框的精修，输出检测目标的类别和位置信息(x,y,z,l,w,h,θ)，其中(x,y,z)表示目标中心点的坐标，(l,w,h)表示目标的长宽高信息，θ表示目标水平朝向与x轴的夹角。

如图5所示为本发明提供的基于图像虚拟点云与激光点云融合的目标检测系统，该系统包括数据采集模块、数据融合模块、特征提取模块和目标检测模块。

其中数据采集模块用于接收激光雷达采集的原始点云和相机采集的图像；

数据融合模块用于将原始点云处理得到点云深度图，通过点云深度图将图像转化为稠密的虚拟点云；利用点云密度将稠密的虚拟点云降采样为稀疏的虚拟点云，并将原始点云和稀疏的虚拟点云进行融合，获得目标点云；

特征提取模块用于将目标点云通过融合三维和二维的稀疏特征提取网络生成点云融合特征；

目标检测模块用于将点云融合特征输入目标检测网络中，得到目标检测结果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于图像虚拟点云与激光点云融合的目标检测方法，其特征在于：该方法包括以下步骤：

S4、将原始点云和稀疏的虚拟点云进行融合得到目标点云；

2.根据权利要求1所述的目标检测方法，其特征在于：步骤S2包括以下步骤：

S25、根据标定参数，将深度值非零的图像I_d的坐标(u,v,depth)转换成激光雷达坐标系下的(x,y,z),获得稠密的虚拟点云P_d＝(x,y,z,r,g,b)。

3.根据权利要求1所述的目标检测方法，其特征在于：步骤S3包括以下步骤：

4.根据权利要求3所述的目标检测方法，其特征在于：步骤S33中，随机采样的采样率σ取决于体素内虚拟点云的密度ρ，具体如下式所示：

σ＝sigmoid(-kρ+kγ)

式中，k表示采样系数，γ表示半采样率参数；

对于具有N个点的点云集，点云的密度ρ的表达式为：

5.根据权利要求1所述的目标检测方法，其特征在于：步骤S5具体为，首先将目标点云根据(x,y,z)坐标划分为N_V个体素，再将体素化后的目标点云输入融合三维和二维的稀疏特征提取网络以生成点云融合特征。

6.根据权利要求1所述的目标检测方法，其特征在于：步骤S5中，所述融合三维和二维的稀疏特征提取网络包括四个卷积块，每个卷积块包括两个三维稀疏卷积层、两个二维稀疏卷积层和一个融合模块；各卷积层后均有一个批归一化层和ReLU激活函数层；

所述卷积块将两个三维稀疏卷积层输出的第一特征通过激光雷达和相机的标定参数投影到图像平面，并通过两个二维稀疏卷积层提取第二特征；

所述融合模块将所述第一特征和第二特征分别通过一个全连接层后输出第三特征和第四特征，将第三特征和第四特征输入多尺度可变形多头注意力层得到第五特征，拼接第三特征和第五特征后再通过一个全连接层，即输出点云融合特征。

7.用于权利要求1～6中任一项所述目标检测方法的基于图像虚拟点云与激光点云融合的目标检测系统，其特征在于：该系统包括数据采集模块、数据融合模块、特征提取模块和目标检测模块；

所述数据采集模块用于接收激光雷达采集的原始点云和相机采集的图像；

所述数据融合模块用于将原始点云处理得到点云深度图，通过点云深度图将图像转化为稠密的虚拟点云；利用点云密度将稠密的虚拟点云降采样为稀疏的虚拟点云，并将原始点云和稀疏的虚拟点云进行融合，获得目标点云；

所述特征提取模块用于将目标点云通过融合三维和二维的稀疏特征提取网络生成点云融合特征；

所述目标检测模块用于将点云融合特征输入目标检测网络中，得到目标检测结果。