CN113255444A

CN113255444A - 图像识别模型的训练方法、图像识别方法和装置

Info

Publication number: CN113255444A
Application number: CN202110421118.1A
Authority: CN
Inventors: 彭亮; 刘飞; 邓丹; 钱炜; 杨政; 何晓飞
Original assignee: Hangzhou Fabu Technology Co Ltd
Current assignee: Hangzhou Fabu Technology Co Ltd
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-08-13

Abstract

本申请提供一种图像识别模型的训练方法、图像识别方法和装置，所述图像识别模型应用于单目探测器，所述方法包括：获取通过激光雷达设备采集的第一点云数据；根据所述第一点云数据，确定所述第一点云数据中目标对象对应的三维物体框；根据所述三维物体框对初始图像识别模型进行训练，得到所述图像识别模型，所述图像识别模型用于识别待识别图像中的对象。本申请可以提高图像识别模型的识别精确度，而且该图像识别模型运行于任何单目3D探测器中，在保证目标对象检测精度和识别准确度的同时，还可以降低对象检测的成本。

Description

图像识别模型的训练方法、图像识别方法和装置

技术领域

本申请涉及图像处理领域，尤其涉及一种图像识别模型的训练方法、图像识别方法和装置。

背景技术

在自动驾驶领域，为了提高车辆行驶的安全性，避免车辆与道路上的其他物体发生碰撞，通常需要进行三维物体检测。

目前，通常采用激光雷达设备来实现三维物体检测，但是，激光雷达设备的价格高，并且工作范围有限。为了解决这一问题，可以采用单目探测器替代激光雷达设备进行三维物体检测。但是基于单目探测器进行三维物体检测的单目方法很难捕捉到图像中准确的深度信息。为了能使单目探测器能检测到深度信息，可以通过预先训练的深度估计器预测的深度图像作为网络输入来引导单目探测器进行深度学习，从而来捕捉图像中的深度信息。

然而，在上述方式中，深度估计器预测的深度图像会丢失一部分信息，从而导致三维物体的检测准确度不高。

发明内容

本申请实施例提供了一种图像识别模型的训练方法、图像识别方法和装置，可以提高图像识别模型的识别精确度，而且该图像识别模型运行于任何单目3D探测器中，在保证目标对象检测精度和识别准确度的同时，还可以降低对象检测的成本。

第一方面，本申请实施例提供一种图像识别模型的训练方法，所述图像识别模型应用于单目探测器，所述方法包括：

获取通过激光雷达设备采集的第一点云数据；

根据所述第一点云数据，确定所述第一点云数据中目标对象对应的三维物体框；

根据所述第一点云数据和所述三维物体框对初始图像识别模型进行训练，得到所述图像识别模型，所述图像识别模型用于识别待识别图像中的对象。

在一种可能的实现方式中，所述根据所述第一点云数据，确定所述第一点云数据中目标对象对应的三维物体框，包括：

将所述第一点云数据输入预先训练的基于激光雷达的三维识别模型，得到所述第一点云数据中目标对象对应的三维物体框，所述三维识别模型为采用所述第二点云数据中各对象对应的三维物体标注框对初始识别模型进行训练得到的。

获取所述第一点云数据对应的RGB色彩模式(RGB color mode，RGB) 图像；

对所述RGB图像进行分割，得到二维框和语义掩膜；

根据所述二维框和语义掩膜，确定所述第一点云数据中目标对象对应的三维物体框。

在一种可能的实现方式中，所述根据所述二维框和语义掩膜，确定所述第一点云数据中目标对象对应的三维框，包括：

根据所述二维框和语义掩膜，确定所述第一点云数据中目标对象对应的第三点云数据；

确定覆盖所述目标对象对应的第三点云数据的最小三维边界框，并将所述最小三维边界框确定为所述目标对象对应的三维物体框。

在一种可能的实现方式中，所述根据所述二维框和语义掩膜，确定所述第一点云数据中目标对象对应的第三点云数据，包括：

根据所述二维框和语义掩膜，确定所述目标对象对应的初始点云数据；

对所述目标对象对应的初始点云数据进行聚类处理，得到多个簇；

将所述多个簇中包含初始点云数据最多的簇中的初始点云数据，确定为所述第三点云数据。

第二方面，本申请提供一种图像识别方法，包括：

获取待识别图像；

将所述待识别图像输入图像识别模型，得到所述待识别图像中的对象，所述图像识别模型为根据点云数据和所述点云数据中目标对象对应的三维物体标框，对初始图像识别模型进行训练得到的，所述点云数据为通过激光雷达设备采集得到的。

第三方面，本申请实施例提供一种图像识别模型的训练装置，包括：

获取单元，用于获取通过激光雷达设备采集的第一点云数据。

处理单元，用于根据所述第一点云数据，确定所述第一点云数据中目标对象对应的三维物体框。

训练单元，用于根据所述三维物体框对初始图像识别模型进行训练，得到所述图像识别模型，所述图像识别模型用于识别待识别图像中的对象。

在一种可能的实现方式中，所述处理单元，具体用于：

获取所述第一点云数据对应的RGB图像；对所述RGB图像进行分割，得到二维框和语义掩膜；根据所述二维框和语义掩膜，确定所述第一点云数据中目标对象对应的三维物体框。

在一种可能的实现方式中，所述处理单元，具体用于：

根据所述二维框和语义掩膜，确定所述第一点云数据中目标对象对应的第三点云数据；确定覆盖所述目标对象对应的第三点云数据的最小三维边界框，并将所述最小三维边界框确定为所述目标对象对应的三维物体框。

在一种可能的实现方式中，所述处理单元，具体用于：

根据所述二维框和语义掩膜，确定所述目标对象对应的初始点云数据；对所述目标对象对应的初始点云数据进行聚类处理，得到多个簇；将所述多个簇中包含初始点云数据最多的簇中的初始点云数据，确定为所述第三点云数据。

第四方面，本申请提供一种图像识别装置，包括：

获取单元，用于获取待识别图像。

处理单元，将所述待识别图像输入图像识别模型，得到所述待识别图像中的对象，所述图像识别模型为根据点云数据和所述点云数据中目标对象对应的三维物体框，对初始图像识别模型进行训练得到的，所述点云数据为通过激光雷达设备采集得到的。

第五方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面任一种可能的实现方式中所述的图像识别模型的训练方法或上述第二方面任一种可能的实现方式中所述的图像识别方法。

第六方面，本申请实施例还提供了一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述第一方面任一种可能的实现方式中所述的图像识别模型的训练方法。

第七方面，本申请实施例还提供了一种车辆，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述第二方面任一种可能的实现方式中所述的图像识别方法。

第八方面，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行上述第一方面任一种可能的实现方式中所述的图像识别模型的训练方法或上述第二方面任一种可能的实现方式中所述的图像识别方法。

由此可见，本申请实施例提供的图像识别模型的训练方法、图像识别方法和装置，在对图像识别模型进行训练时，直接利用通过激光雷达设备采集的第一点云数据，得到目标对象对应的三维物体框，并通过三维物体框来引导初始图像识别模型的训练，这样，在训练过程中并未丢失目标对象的任何信息，从而提高了图像识别模型的识别精确度。另外，该训练方法的较为直观、简便且有效且可以将该图像识别模型运行于任何单目3D探测器中，在保证目标对象检测精度和识别准确度的同时，还可以降低对象检测的成本。

附图说明

图1为本申请实施例提供的图像识别模型的训练方法的系统架构图；

图2为本申请实施例提供一种图像识别模型的训练方法的流程示意图；

图3为本申请实施例提供另一种图像识别模型的训练方法的流程示意图；

图4为本申请实施例提供又一种图像识别模型的训练方法的流程示意图；

图5为本申请实施例提供再一种图像识别模型的训练方法的流程示意图；

图6是根据本申请实施例提供的一种图像识别方法的流程示意图；

图7是根据本申请实施例提供的一种图像识别模型的训练装置的结构示意图；

图8是根据本申请实施例提供的一种图像识别装置的结构示意图；

图9为本申请实施例提供的一种服务器的结构示意图；

图10为本申请实施例提供的一种车辆的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本申请的实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A，B可以是单数或者复数。在本申请的文字描述中，字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供的图像识别模型的训练方法和图像识别方法，可以应用于自动驾驶或智能交通等场景，也可以应用于其他需要检测三维物体的场景中。在本申请中，以自动驾驶场景为例进行说明。

在自动驾驶领域，车辆进行三维物体检测是非常重要的，其可以避免与道路上的其他物体发生碰撞。因此，为了提高车辆行驶的安全性，自动驾驶车辆中的三维物体检测装置起着至关重要的作用。

目前，由于考虑到激光雷达设备的价格以及工作范围的限制，通常采用单目探测器进行三维物体的检测。但是，由于单目探测器拍摄的单目图像的病态性，使得单目方法很难捕捉到图像中准确的深度信息。而激光雷达点云可以为场景提供精确的深度测量，因此可引导单目探测器学习深度信息。为了实现这一目标，目前开发了基于深度图的多级管道。具体来说，该类方法将训练过程拆分为多个阶段，在训练第一阶段，可以将激光雷达点云投影到图像平面上，以训练深度估计器。在第二阶段，可以使用从预先训练的深度估计器预测的深度图作为网络输入，用于训练一个基于深度图的单目探测器。但是，这种复杂的管道通过中间深度估计器隐含地利用了激光雷达点云，从而会丢失一部分有价值的信息，例如丢失部分深度信息，因此会导致单目探测器检测的三维物体的准确性不高。

本申请实施例中考虑到上述问题，提出了一种图像识别模型的训练方法，由于通过激光雷达设备采集的点云数据中具有深度信息，因此，可以直接利用具有深度信息的点云数据训练图像识别模型，从而避免了现有技术中部分信息丢失的现象，由此可以提高图像识别模型的检测精度。进一步的，通过该图像识别模型检测待识别图像中的对象时，使得检测出的对象的准确性较高。

图1为本申请实施例提供的图像识别模型的训练方法的系统架构图，如图1所示，该系统中包括激光雷达设备11、服务器12和车辆13，其中，车辆13上设置有单目探测器。它们之间所使用的网络可以包括各种类型的无线网络，例如但不局限于：互联网、局域网、WIFI、WLAN、蜂窝通信网络(GPRS、 CDMA、2G/3G/4G/5G蜂窝网络)、卫星通信网络等等。

如图1。示例的，激光雷达设备11实时采集的雷达点云图，且激光雷达设备11可以通过无线网络，实时将采取到的雷达点云图发送给服务器12。当自动驾驶车辆13行驶在道路上时，车载上的单目探测器会实时获取道路上的RGB色彩模式(RGB color mode，RGB)图像，且车辆13的硬件终端会通过无线网络实时向服务器12发送车辆13所在的位置信息和获取到的RGB 色彩模式(RGB color mode，RGB)图像。接收到车辆(13)的硬件终端所发送的信息，服务器12会根据接收到的信息，来实现对图像识别模型的训练，并会将最终训练好的图像识别模型发送给车辆(13)，车辆(13)应用训练好的图像识别模型来识别待识别图像中的对象。

下面，将通过具体的实施例对本申请提供的一种图像识别模型的训练方法进行详细地说明。可以理解的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本申请实施例提供一种图像识别模型的训练方法的流程示意图，该图像识别模型的训练方法可以由软件和/或硬件装置执行，例如，该硬件装置可以为终端或者服务器。示例的，请参见图2所示，所述图像识别模型的训练方法可以包括：

S201、获取通过激光雷达设备采集的第一点云数据。

示例的，第一点云数据包括所检测的目标对象所在场景的点云数据，其中，可以通过激光雷达设备捕获第一点云数据，也可以通过离线收集的方式采集第一点云数据，从而可以降低成本。

上述目标对象可以是人、车、指示牌等。第一点云数据中包括精确的深度信息，该深度信息可以准确的确定出目标对象所处的位置，因此，通过具有深度信息的第一点云数据训练的图像识别模型具有较高的检测精度。

在本步骤中，激光雷达设备在采集到初始点云数据时，可以将这些初始点云数据实时发送给服务器，服务器根据目标对象所处的位置，从初始点云数据中确定第一点云数据。

S202、根据第一点云数据，确定该第一点云数据中目标对象对应的三维物体框。

在本步骤中，第一点云数据中可以包括至少一个目标对象，当第一点云数据中包括多个目标对象时，每个目标对象均对应各自的三维物体框，其中，三维物体框用于标识目标对象。

示例性的，确定第一点云数据中目标对象对应的三维物体框的过程可以通过两种方式实现，一种为有监督模式，另一种为无监督模式。对于通过上述两种方式确定三维物体框的具体过程，在下述实施例中进行说明。

通过上述方法获得的三维物体框是对第一点云数据直接操作得到的，这样不会丢失任何关于目标对象的相关信息，保证了目标对象的信息的完整性。

S203、根据三维物体框对初始图像识别模型进行训练，得到图像识别模型，该图像识别模型用于识别待识别图像中的对象。

其中，初始图像识别模型主要应用于单目探测器，因此初始图像识别模型的可采取现有单目探测器3D的图像识别模型，例如Smoke、CenterNet等模型。

示例性的，可以通过初始图像识别模型对通过单目探测器获取到的RGB 色彩模式(RGB color mode，RGB)图像进行识别，获取目标对象的初始识别框。该RGB色彩模式(RGBcolor mode，RGB)图像与第一点云数据是在同一时刻的同一场景所获取到，且RGB色彩模式(RGB color mode，RGB) 图像中的图像的对象信息与第一点云数据中所包含的对象是一一对应的。

在对初始图像识别模型进行训练时，可以根据三维物体框和上述初始识别框，对初始图像识别模型进行训练，从而得到图像识别模型。具体的，对初始图像识别模型的训练过程是通过单目损失函数来评估目标对象的初始识别框与第一点云数据中目标对象对应的三维物体框的一致程度，若一致程度达到预设阈值，则对初始图像识别模型训练完成，训练完成的初始图像识别模型即为最终的图像识别模型；如若一致程度未达到预设阈值，则需调整初始图像识别模型中的参数，并将调整参数后的初始图像识别模型确定为新的初始图像识别模型，重复执行上述训练过程，直至一致程度达到预设阈值。

其中，单目损失函数如公式(1)-(4)所示：

L＝L_cls+L_2D+L_3D (1)

L_2D＝-log(IoU(b′_2D,b_2D) (3)

L_3D＝SmoothL₁(b′_3D-b_3D) (4)

其中，L_cls对象类别预测的准确度，L_cls的值越小，表示预测的类别越准确。 c代表目标对象的真实类别，c_i代表初始图像识别模型识别出的物体在第i个类别上的预测概率，n_c为终端或者服务器中所储存的物体类别总个数。

L_2D表示初始识别框和目标对象的二维框的匹配度，L_2D值越小，初始识别框的匹配度越高，其中，目标对象的二维框为前述的三维物体框去除目标对象高度信息所得到的。b′_2D代表初始识别框，b_2D代表目标对象的二维框，IoU 是交并集算符。

L_3D表示初始识别三维物体框和三维物体框的匹配度，初始识别三维物体框为初始识别框添加目标对象的高度信息后得到的。

其中，Smooth_L1如下公式所示：

当b′_3D-b_3D的绝对值小于1时：

当b′_3D-b_3D的绝对值大于1时：

其中，b′_3D代表初始识别三维物体框，b_3D代表三维物体框，Smooth_L1通过对b′_3D和b_3D的覆盖域作比较，若所得的L_3D值越小，则初始识别三维物体框的识别精确度越高。

L表示初始识别框与第一点云数据中目标对象对应的三维物体的一致程度，根据上述描述，L值越小，则所训练的初始图像识别模型的精度越高。

示例性的，在得到上述图像识别模型后，单目探测器在拍摄到待识别图像后，可以将该待识别图像输入至图像识别模型，以识别待识别图像中的对象。

在本申请实施例中，在对图像识别模型进行训练时，直接利用通过激光雷达设备采集的第一点云数据，得到目标对象对应的三维物体框，并通过三维物体框来引导初始图像识别模型的训练，这样，在训练过程中并未丢失目标对象的任何信息，从而提高了图像识别模型的识别精确度。另外，该训练方法的较为直观、简便且有效且可以将该图像识别模型运行于任何单目3D 探测器中，在保证目标对象检测精度和识别准确度的同时，还可以降低对象检测的成本。

基于上述图2所示的实施例，为了便于理解在上述S102中，如何根据所述第一点云数据，实现确定所述第一点云数据中目标对象对应的三维物体框；下面，将通过下述图3所示的实施例二，对通过所述的监督模式，根据所述第一点云数据，确定所述第一点云数据中目标对象对应的三维物体框进行详细的描述。

图3为本申请实施例提供另一种图像识别模型的训练方法的流程示意图，本实施例对图2所示实施例的S102中，如何根据第一点云数据，确定第一点云数据中目标对象对应的三维物体框的过程进行详细说明，图3所示实施例为通过有监督模式确定三维物体框，如图3所示，该方法包括：

S301、获取通过激光雷达设备采集的第一点云数据。

其中，S301与S201类似，此处不再赘述。

S302、将第一点云数据输入预先训练的基于激光雷达的三维识别模型，得到第一点云数据中目标对象对应的三维物体框。

其中，三维识别模型为采用第二点云数据中各对象对应的三维物体标注框对初始识别模型进行训练得到的。

具体的，第二点云数据包括对训练基于激光雷达的三维识别模型所需场景采集的雷达点云数据。所述的第二点云数据可以通过激光雷达设备采集，也可以通过离线方式获取，其中，通过离线获取的方式可以降低成本。

示例的，第二点云数据中各对象对应的三维物体标注框是通过人工在第二点云数据上标记关键识别点获得到的，因此称为监督模式。所述基于激光雷达的三维识别模型可以采用Second或F-pointnet，基于激光雷达的三维识别模型通过对第二点云数据获得初始识别框。利用第二点云数据中各对象对应的三维物体标注框对初始识别模型进行训练。在对初始图像识别模型进行训练时，可以根据初始识别框和第二点云数据中各对象对应的三维物体标注框，对初始图像识别模型进行训练，从而得到基于激光雷达的三维识别模型。具体的，对初始图像识别模型的训练过程是通过单目损失函数来评估目标对象的初始识别框与第二点云数据点云数据中目标对象对应的三维物体标注框的一致程度，若一致程度达到预设阈值，则对初始图像识别模型训练完成，训练完成的初始图像识别模型即为最终的图像识别模型；如若一致程度未达到预设阈值，则需调整初始图像识别模型中的参数，并将调整参数后的初始图像识别模型确定为新的初始图像识别模型，重复执行上述训练过程，直至一致程度达到预设阈值。

所述的激光雷达损失函数与图2所示实施例中的单目损失函数类似，此处不再赘述。

在确定第一点云数据中目标对象对应的三维物体框时，可以将第一点云数据输入至训练好的基于激光雷达的三维识别模型，得到三维物体框。

S303、根据三维物体框对初始图像识别模型进行训练，得到所述图像识别模型，所述图像识别模型用于识别待识别图像中的对象。

其中，S303与S203类似，此处不再赘述。

通过上述方式得到的三维识别模型是基于激光雷达采集到的点云数据所实现的，因此三维识别模型具有较高的检测精度，而且在利用激光雷达点云训练三维识别模型的过程中，未丢失任何第一点云数据中目标对象的价值信息。因此由所述三维识别模型所识别第一点云数据中目标对象所得到的三维物体框也不会丢失任何与目标对象有关的价值对象。而且基于激光雷达的三维探测器预测的所述第一点云数据中目标对象对应的三维物体框由于具有精确的深度测量，具有相当高的精度，可以直接用于其他非激光雷达的探测器检测模型的训练。

在本实施例中，在监督模式下，根据第一点云数据，确定第一点云数据中目标对象对应的三维物体框过程中，得到的三维物体框不会丢失任何与目标对象有关的信息，三维物体框所包含对象的信息可以保障图像识别模型的识别精确度。另外，通过人工方式在第二点云数据上标记目标对象中关键数据点，可以大大减少工工作量，从而降低了人工标记的成本。

图4为本申请实施例提供又一种图像识别模型的训练方法的流程示意图，本实施例对图2所示实施例的S102中，如何根据第一点云数据，确定第一点云数据中目标对象对应的三维物体框的过程进行详细说明，图4所示实施例与图3所示实施例的区别在于，图4所示实施例为通过无监督模式确定三维物体框，如图4所示，该方法包括：

S401、获取通过激光雷达设备采集的第一点云数据。

其中，S401与S201类似，此处不再赘述。

S402、获取第一点云数据对应的RGB色彩模式(RGB color mode，RGB) 图像。

其中，可以通过单目探测器获取RGB色彩模式(RGB color mode，RGB) 图像图像。RGB色彩模式(RGB color mode，RGB)图像图像与第一点云数据是在同一时刻的同一场景所获取到，且RGB图中的图像的物体信息与所述的第一点云数据中所包含的物体是一一对应的。

S403、对RGB色彩模式(RGB color mode，RGB)图像图像进行分割，得到二维框和语义掩膜。

在本步骤中，可以使用离线的2D实例分割模型对RGB色彩模式(RGB color mode，RGB)图像进行分割，得到二维框(2D box)和语义掩膜(mask)。

S404、根据二维框和语义掩膜，确定第一点云数据中目标对象对应的三维物体框。

在本步骤中，可以通过二维框(2D box)和语义掩膜(mask)，构建相机视锥体，以确定第一点云数据中目标对象对应的三维物体框。

在一种可能的实现方式中，在根据二维框和语义掩膜，确定第一点云数据中目标对象对应的三维物框时，可以根据二维框和语义掩膜，确定第一点云数据中目标对象对应的第三点云数据，并确定覆盖目标对象对应的第三点云数据的最小三维边界框，并将最小三维边界框确定为目标对象对应的三维物体框。

具体的，通过二维框(2D box)和语义掩膜(mask)，构建相机视锥体，以便为目标对象选择相关的激光雷达点，从而确定第一点云数据中目标对象对应的第三点云数据。示例性的，基于相机视锥体，确定目标对象对应的初始点云数据，而那些内部没有任何激光雷达点的2D检测框将被忽略。但是由于位于同一视锥体内的激光雷达点是由目标物体和所述目标物体周围混合背景点或遮挡点组成，因此为了删除初始点云数据中所述目标物体周围混合背景点或遮挡点，将采取DBSCAN的聚类方法对初始点云数据进行聚类处理，得到多个簇。将所述多个簇中包含初始点云数据最多的簇中的初始点云数据，确定为所述第三点云数据。

其中初始点云数据中绝大多数点云数据都是目标对象对应的点云数据，且该类点云数据较为集中，由于通过DBSCAN的聚类方法对初始点云数据进行聚类处理，筛序出初始点云数据中最多的簇得到第三点云数据，从而保证了第三点云数据中的点云数据皆为目标对象的点云数据，完全剔除了场景的点云数据。

在得到第三点云数据后，将第三点云数据进行水平投影得到鸟瞰图(Bird EyeView)。由鸟瞰图(Bird Eye View)得到凸包的方法如下所述：选取所述的BEV(鸟瞰图)中最下最右点(y最小，x最大)即可，将该点记为P0，将其他所述第三点云中包括的点以P0与x轴的夹角(逆时针方向)为基准进行排序(从小到大)，如果两个点具有相同的夹角，则删除离P0较近的点。通过所述的BEV(鸟瞰图)得到凸包的方法，遍历BEV(鸟瞰图)中所有的点来形成一个闭合的凸包。对所述的凸包枚举所述凸包多边形的边，做外接矩形，比较外接矩形的面积，选取面积最小的矩形作为最小三维边界框，所述的最小三维边界框为目标对象对应的三维物体框。三维物体框的其他参数可以通过剩余点的统计计算出来，例如高度可以用点沿y轴的最大空间偏移量来表示；纵向中心坐标通过对点的纵向坐标求平均值来计算。与此同时，最小三维边界框尺寸以消除那些可能是异常值的对象，因为大多数有效对象的三维尺寸都很接近。虽然一些潜在的目标被忽略和过滤，但最终的结果仍然可以使应用于单目检测方法的图像识别模型得到准确的检测结果。

S405、根据所述三维物体框对初始图像识别模型进行训练，得到所述图像识别模型，所述图像识别模型用于识别待识别图像中的对象。

其中，S405与S203类似，此处不再赘述。

在本实施例中，在无监督模式下，根据第一点云数据，确定第一点云数据中目标对象对应的三维物体框过程中，得到的三维物体框不会丢失任何与目标对象有关的信息，且三维物体框中的信息仅仅是目标对象的信息，不会有目标物体周围混合背景点或遮挡点的信息，从而三维物体框所包含对象的信息可以保障图像识别模型的识别精确度。

图5为本申请实施例提供再一种图像识别模型的训练方法的流程示意图，本实施例以目标识别对象具体是为车辆为例，来详细说明本申请提供的一种图像识别模型的训练方法的运行方式。

如图5所示，在第一步中首先得到第一点云数据，具体的得到方式与S201 类似，此处不再赘述。获取第一点云数据后，通过监督模式或无监督期模式得到第一雷达云三维物体框。

示例的，其中一种方式的监督模式与S302类似，利用第二点云数据中各对象对应的三维物体标注框对初始识别模型进行训练，从而得到基于激光雷达的三维识别模型。如图5所示，具体的，基于激光雷达的初始三维识别模型对提前获取的第二点云数据进行识别，获取到第二点云目标物体的初始识别框。通过LiDAR损失函数通过单目损失函数来评估目标对象的初始识别框与第二点云数据点云数据中目标对象对应的三维物体标注框的一致程度，若一致程度达到预设阈值，则对初始图像识别模型训练完成，训练完成的初始图像识别模型即为最终的图像识别模型；如若一致程度未达到预设阈值，则需调整初始图像识别模型中的参数，并将调整参数后的初始图像识别模型确定为新的初始图像识别模型，重复执行上述训练过程，直至一致程度达到预设阈值。得到最终的图像识别模型后，由最终的图像识别模型识别第一点云数据得到第一点云三维物体框。

示例的，另一种方式的无监督模式与实施例四类似。如图5所示，首先同时获取得到第一雷达点云数据和与第一雷达点云数据相应的RGB色彩模式(RGB color mode，RGB)图像。然后通过对RGB图像进行分割，得到二维框(2D box)和语义掩膜(mask)。通过二维框(2D box)和语义掩膜(mask) 构建相机视锥体，基于相机视锥体从第一点云数据中确定出初始点云数据。如图5所示，初始点云数据中目标对象(车辆为例)周围还存在混合背景点云。通过DBSCAN的聚类方法对初始点云数据处理后，选取多个簇中包含初始点云数据最多的簇中的初始点云数据，确定为所述第三点云数据，如此便消除了所选取目标点云数据中混合背景点云。如图5中聚类后的点云所示，通过DBSCAN的聚类方法将初始点云数据分成了4个簇，其中包含初始点云数据最多的簇即为目标对象(车辆为例)的点云数据。然后通过将第三点云数据进行水平投影得到鸟瞰图(Bird Eye View)，在由鸟瞰图(Bird EyeView) 得到凸包。进一步的如图5所示，由凸包转换至鸟瞰图的最小包围框，所述的最小包围框添加高度信息后即得到目标对象(车辆为例)对应的三维物体框。

通过监督模式或无监督期模式得到第一雷达云三维物体框后，通过通过单目损失函数来评估目标对象的初始识别框与第一点云数据中目标对象对应的三维物体框的一致程度，若一致程度达到预设阈值，则对初始图像识别模型训练完成，训练完成的初始图像识别模型即为最终的图像识别模型；如若一致程度未达到预设阈值，则需调整初始图像识别模型中的参数，并将调整参数后的初始图像识别模型确定为新的初始图像识别模型，重复执行上述训练过程，直至一致程度达到预设阈值。其中初始识别框是可以通过初始图像识别模型对通过单目探测器获取到的RGB色彩模式(RGB color mode，RGB) 图像进行识别得到的该RGB色彩模式(RGB color mode，RGB)图像与第一点云数据是在同一时刻的同一场景所获取到，且RGB色彩模式(RGB color mode，RGB)图像中的图像的对象信息与第一点云数据中所包含的对象是一一对应的。

通过对在本实施例的介绍中，在无监督模式下，根据第一点云数据，确定第一点云数据中目标对象对应的三维物体框过程中，得到的三维物体框不会丢失任何与目标对象有关的信息，且三维物体框中的信息仅仅是目标对象的信息，目标物体周围混合背景点或遮挡点的信息都以通过实施例中所述的技术手段剔除，从而三维物体框所包含对象的信息可以保障图像识别模型的识别精确度。

图6是根据本申请实施例提供一种图像识别方法的流程示意图，该图像识别方法可以由车载硬件装置执行，请参见图6所示，所述图像识别方法可以包括：

S601、获取待识别图像。

其中，通过单目探测器获取待识别对象的待识别图像。

S602、将待识别图像输入图像识别模型，得到所述待识别图像中的对象。

其中，图像识别模型为根据点云数据和所述点云数据中目标对象对应的三维物体框，对初始图像识别模型进行训练得到的，所述点云数据为通过激光雷达设备采集得到的。

其中，图像识别模型与根据上述任一实施例中所示的训练方法得到的图像识别模型类似，此处不再赘述。

将所述待识别图像输入图像识别模型进行图像识别。将所述的所述待识别图像输入到图像识别模型将会的得到单目三维图像识别信息。

进一步的，图像识别模型将的得到单目三维图像识别信息会发送给车载自动驾驶装置，自动驾驶装置会通过接收到的单目三维图像识别信息，感知现实三维世界，避免与道路上的其他物体发生碰撞。

图7为根据本申请实施例提供的一种图像识别模型的训练装置700的结构示意图，示例的，请参见图7示，图像识别模型的训练装置700可以包括：

获取单元701，用于获取通过激光雷达设备采集的第一点云数据。

处理单元702，用于根据所述第一点云数据，确定所述第一点云数据中目标对象对应的三维物体框。

训练单元703，用于根据所述三维物体框对初始图像识别模型进行训练，得到所述图像识别模型，所述图像识别模型用于识别待识别图像中的对象。

可选地，所述处理单元702，具体用于将所述第一点云数据输入预先训练的基于激光雷达的三维识别模型，得到所述第一点云数据中目标对象对应的三维物体框，所述三维识别模型为采用所述第二点云数据中各对象对应的三维物体框对初始识别模型进行训练得到的。

可选的，所述处理单元702，具体用于将获取所述第一点云数据对应的 RGB色彩模式(RGB color mode，RGB)图像；对所述RGB色彩模式(RGB color mode，RGB)图像进行分割，得到二维框和语义掩膜；根据所述二维框和语义掩膜，确定所述第一点云数据中目标对象对应的三维物体框。

可选的，所述处理单元702，具体用于根据所述二维框和语义掩膜，确定所述第一点云数据中目标对象对应的第三点云数据；确定覆盖所述目标对象对应的第三点云数据的最小三维边界框，并将所述最小三维边界框确定为所述目标对象对应的三维物体框。

可选地，所述处理单元702，具体用于根据所述二维框和语义掩膜，确定所述目标对象对应的初始点云数据；对所述目标对象对应的初始点云数据进行聚类处理，得到多个簇；将所述多个簇中包含初始点云数据最多的簇中的初始点云数据，确定为所述第三点云数据。

本申请实施例所示的图像识别模型的训练方法装置700，可以执行上述任一实施例所示的图像识别模型的训练方法，其实现原理以及有益效果与图像识别模型的训练方法的实现原理及有益效果类似，可参见图像识别模型的训练方法的实现原理及有益效果，此处不再进行赘述。

图8为根据本申请实施例提供的一种图像识别方法的装置800的结构示意图，示例的，请参见图8所示，该图像识别方法的装置800可以包括：

获取单元801，用于获取待识别图像。

处理单元802，将所述待识别图像输入图像识别模型，得到所述待识别图像中的对象，所述图像识别模型为根据点云数据和所述点云数据中目标对象对应的三维物体框，对初始图像识别模型进行训练得到的，所述点云数据为通过激光雷达设备采集得到的。

本申请实施例所示的图像识别模型的训练方法装置800，可以执行上述任一实施例所示的图像识别方法，其实现原理以及有益效果与图像识别方法的实现原理及有益效果类似，可参见图像识别方法的实现原理及有益效果，此处不再进行赘述。

图9为本申请实施例提供的一种服务器的结构示意图，示例的，请参见图9所示，该服务器包括：

存储器901、处理器902及存储在存储器901上，并可在处理器902上运行的计算机程序，所述处理器902执行所述程序时实现上述任一实施例所示的图像识别模型的训练方法，其实现原理以及有益效果与图像识别模型的训练方法的实现原理及有益效果类似，可参见图像识别模型的训练方法的实现原理及有益效果，此处不再进行赘述。

图10为本申请实施例提供的一种车辆的结构示意图，示例的，请参见图 10所示，该车辆包括：

存储器1001、处理器1002及存储在存储器1001上，并可在处理器1002 上运行的计算机程序，所述处理器1002执行所述程序时实现上述任一实施例所示的图像识别方法，其实现原理以及有益效果与图像识别方法的实现原理及有益效果类似，可参见图像识别方法的实现原理及有益效果，此处不再进行赘述。

本申请实施例还提供了一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例所示的图像识别模型的训练方法，其实现原理以及有益效果与图像识别模型的训练方法的实现原理及有益效果类似，可参见图像识别模型的训练方法的实现原理及有益效果，此处不再进行赘述。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行上述任一实施例所示的图像识别模型的训练方法，其实现原理以及有益效果与图像识别模型的训练方法的实现原理及有益效果类似，可参见图像识别模型的训练方法实现原理及有益效果，此处不再进行赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所展示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元展示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等) 或处理器(英文：processor)执行本申请各个实施例方法的部分步骤。

应理解的是，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文： Digital SignalProcessor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种图像识别模型的训练方法，其特征在于，所述图像识别模型应用于单目探测器，所述方法包括：

获取通过激光雷达设备采集的第一点云数据；

根据所述三维物体框对初始图像识别模型进行训练，得到所述图像识别模型，所述图像识别模型用于识别待识别图像中的对象。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一点云数据，确定所述第一点云数据中目标对象对应的三维物体框，包括：

将所述第一点云数据输入预先训练的基于激光雷达的三维识别模型，得到所述第一点云数据中目标对象对应的三维物体框，所述三维识别模型为采用第二点云数据中各对象对应的三维物体标注框对初始识别模型进行训练得到的。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一点云数据，确定所述第一点云数据中目标对象对应的三维物体框，包括：

获取所述第一点云数据对应的RGB图像；

对所述RGB图像进行分割，得到二维物体框和语义掩膜；

根据所述二维物体框和语义掩膜，确定所述第一点云数据中目标对象对应的三维物体框。

4.根据权利要求3所述的方法，其特征在于，所述根据所述二维框和语义掩膜，确定所述第一点云数据中目标对象对应的三维物体框，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述二维框和语义掩膜，确定所述第一点云数据中目标对象对应的第三点云数据，包括：

6.一种图像识别方法，其特征在于，包括：

获取待识别图像；

将所述待识别图像输入图像识别模型，得到所述待识别图像中的对象，所述图像识别模型为根据点云数据和所述点云数据中目标对象对应的三维物体框，对初始图像识别模型进行训练得到的，所述点云数据为通过激光雷达设备采集得到的。

7.一种图像识别模型的训练装置，其特征在于，包括：

获取单元，用于获取通过激光雷达设备采集的第一点云数据；

处理单元，用于根据所述第一点云数据，确定所述第一点云数据中目标对象对应的三维物体框；

8.一种图像识别装置，其特征在于，包括：

获取单元，用于获取待识别图像；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5任一项所述的图像识别模型的训练方法或权利要求6所述的图像识别方法。

10.一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-5任一项所述的图像识别模型的训练方法。

11.一种车辆，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求6所述的图像识别方法。

12.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时，实现权利要求1-5任一项所述的图像识别模型的训练方法或权利要求6所述的图像识别方法。