CN115471807A

CN115471807A - 一种基于多模态信息进行自监督学习的处理方法和装置

Info

Publication number: CN115471807A
Application number: CN202211296870.9A
Authority: CN
Inventors: 杨晓东; 蔡沐; 罗晨旭
Original assignee: Suzhou Qingyu Technology Co Ltd
Current assignee: Suzhou Qingyu Technology Co Ltd
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2022-12-13

Abstract

本发明实施例涉及一种基于多模态信息进行自监督学习的处理方法和装置，所述方法包括：提取原始点云和第一环视图；对原始点云进行数据增强生成第一、第二点云；进行地面点云过滤；将第一、第二点云输入点云鸟瞰特征提取网络生成第一、第二特征图；将第一环视图输入图像鸟瞰特征提取网络生成第三特征图；进行第一多模态信息样本准备处理；对第一、第二点云进行鸟瞰平面聚类；进行样本聚类处理；进行第二多模态信息样本准备处理；构建第一多模态、第二多模态和整体损失函数对点云鸟瞰特征提取网络的网络参数进行学习。通过本发明，可以缩短数据准备时间、提高网络的学习精度和训练充分度。

Description

一种基于多模态信息进行自监督学习的处理方法和装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于多模态信息进行自监督学习的处理方法和装置。

背景技术

在自动驾驶和机器人领域，对点云数据进行特征提取的神经网络被称为点云特征提取网络，将三维点云特征转换到鸟瞰视角(Bird Eyes View，BEV)被称为点云鸟瞰特征提取网络。在使用点云鸟瞰特征提取网络进行点云特征提取之前都需要对其进行训练，当前常见的训练方式大多都是基于有监督学习的训练方式，即在训练之前需要对训练用的点云数据进行特征标注。通过实践我们发现，这种常规的有监督学习方式存在以下问题：1)三维点云的标注难度大，要准备足够的训练数据需要耗费较长的数据准备时间；2)点云的稀疏度较大，仅仅基于点云作为训练数据可能会产生训练不充分的问题，这会影响点云鸟瞰特征提取网络的特征提取准确度。

发明内容

本发明的目的，就是针对现有技术的缺陷，提供一种基于多模态信息进行自监督学习的处理方法、装置、电子设备及计算机可读存储介质；使用自监督学习方式来对点云鸟瞰特征提取网络进行训练，引入环境信息丰富的环视图与点云相结合构成多模态信息样本集，并基于InfoNCE损失函数构建多模态损失函数。通过本发明，无需对三维点云进行标注、可以缩短数据准备时间；通过本发明，基于多模态信息对点云鸟瞰特征提取网络进行训练可以提高网络的学习精度和训练充分度。

为实现上述目的，本发明实施例第一方面提供了一种基于多模态信息进行自监督学习的处理方法，所述方法包括：

从第一训练数据集中任选一个第一训练数据记录进行原始点云和环视图提取处理生成对应的原始点云和第一环视图；

从多个数据增强方式中任选两种方式分别对所述原始点云进行对应的数据增强处理生成对应的第一、第二点云；并对所述第一、第二点云进行地面点云过滤处理；

将所述第一点云与所述第二点云分别输入点云鸟瞰特征提取网络进行特征提取处理生成对应的第一特征图和第二特征图；并将所述第一环视图输入训练成熟的图像鸟瞰特征提取网络进行特征提取处理生成对应的第三特征图；并根据所述第一、第二和第三特征图进行第一多模态信息样本准备处理得到对应的第一、第二和第三样本序列；

并按预设的聚类数量Q分别对所述第一、第二点云进行鸟瞰平面聚类得到对应的第一、第二平面聚类空间序列；并根据所述第一、第二平面聚类空间序列对所述第一、第二和第三样本序列进行样本聚类处理生成对应的第一、第二和第三聚类样本序列集合；并根据所述第一、第二和第三聚类样本序列集合进行第二多模态信息样本准备处理得到对应的第四、第五和第六样本序列；

根据所述第一、第二、第三、第四、第五和第六样本序列构建第一多模态损失函数L₁、第二多模态损失函数L₂和整体损失函数L_all，并根据所述第一多模态损失函数L₁、所述第二多模态损失函数L₂和所述整体损失函数L_all对所述点云鸟瞰特征提取网络的网络参数进行学习。

优选的，所述第一训练数据集包括多个所述第一训练数据记录；所述第一训练数据记录包括第一场景标识字段、第一场景信息字段、第一点云字段和第一环视图字段；

所述多个数据增强方式包括旋转方式、加噪声方式、降采样方式和随机遮挡方式；

所述点云鸟瞰特征提取网络与所述图像鸟瞰特征提取网络的鸟瞰平面的平面空间范围一致记为对应的第一鸟瞰平面；所述点云鸟瞰特征提取网络与所述图像鸟瞰特征提取网络的输出特征形状相同都为H×W×D，H、W、D都为正整数，H、W为预设的鸟瞰特征图的高度、宽度，D为预设的鸟瞰特征图的特征维度；所述第一鸟瞰平面包括H×W个第一鸟瞰网格r_i,j,1≤i≤H，1≤j≤W；

所述第一、第二和第三特征图的形状均为H×W×D；所述第一特征图由H*W个长度为D的第一特征向量a_i,j组成,各个所述第一特征向量a_i,j对应一个所述第一鸟瞰网格r_i,j；所述第二特征图由H*W个长度为D的第二特征向量b_i,j组成,各个所述第二特征向量b_i,j对应一个所述第一鸟瞰网格r_i,j；所述第三特征图由H*W个长度为D的第三特征向量c_i,j组成,各个所述第二特征向量b_i,j对应一个所述第一鸟瞰网格r_i,j；

所述第一平面聚类空间序列包括所述聚类数量Q的第一平面聚类空间s_1,f，1≤f≤Q；所述第二平面聚类空间序列包括所述聚类数量Q的第二平面聚类空间s_2,f；序列索引f相同的所述第一平面聚类空间s_1,f与所述第二平面聚类空间s_2,f的空间距离最短；

所述第一聚类样本序列集合包括多个第一聚类样本序列；所述第一聚类样本序列包括多个第一聚类样本；所述第二聚类样本序列集合包括多个第二聚类样本序列；所述第二聚类样本序列包括多个第二聚类样本；所述第三聚类样本序列集合包括多个第三聚类样本序列；所述第三聚类样本序列包括多个第三聚类样本。

优选的，所述点云鸟瞰特征提取网络为PointPillars网络的点云柱特征网络。

优选的，所述从第一训练数据集中任选一个第一训练数据记录进行原始点云和环视图提取处理生成对应的原始点云和第一环视图，具体包括：

从所述第一训练数据集中任选一个所述第一训练数据记录作为当前训练数据记录；并将所述当前训练数据记录的所述第一点云字段和所述第一环视图字段提取出来作为对应的所述原始点云和所述第一环视图。

优选的，所述从多个数据增强方式中任选两种方式分别对所述原始点云进行对应的数据增强处理生成对应的第一、第二点云，具体包括：

从所述多个数据增强方式中任选两种方式作为对应的第一、第二方式；并基于所述第一方式对所述原始点云进行对应的第一数据增强处理生成对应的所述第一点云；并基于所述第二方式对所述原始点云进行对应的第二数据增强处理生成对应的所述第二点云。

优选的，所述对所述第一、第二点云进行地面点云过滤处理，具体包括：

将所述第一、第二点云中高度坐标为0的点都标记为地面点；并将所述第一、第二点云中的所有所述地面点都删除。

优选的，所述根据所述第一、第二和第三特征图进行第一多模态信息样本准备处理得到对应的第一、第二和第三样本序列，具体包括：

对所述第一鸟瞰平面的各个所述第一鸟瞰网格r_i,j进行遍历；遍历时，将当前遍历的所述第一鸟瞰网格r_i,j作为对应的当前网格；并对所述当前网格对应的所述第一特征向量a_i,j、所述第二特征向量b_i,j和所述第三特征向量c_i,j是否都不为全0向量进行识别；若是，则由所述当前网格对应的所述第一特征向量a_i,j、所述第二特征向量b_i,j和所述第三特征向量c_i,j组成对应的第一非零向量组；

对得到的所述第一非零向量组的总数进行统计生成对应的第一数量M；并由M个所述第一非零向量组对应的M个所述第一特征向量a_i,j、M个所述第二特征向量b_i,j和M个所述第三特征向量c_i,j组成对应的所述第一、第二和第三样本序列；所述第一样本序列包括M个第一样本P_1,k，各个所述第一样本P_1,k对应一个所述第一特征向量a_i,j，1≤k≤M；所述第二样本序列包括M个第二样本P_2,k，各个所述第二样本P_2,k对应一个所述第二特征向量b_i,j；所述第三样本序列包括M个第三样本P_3,k，各个所述第三样本P_3,k对应一个所述第三特征向量c_i,j；脚标k相同的所述第一样本P_1,k、所述第二样本P_2,k和所述第三样本P_3,k对应的所述第一特征向量a_i,j、所述第二特征向量b_i,j和所述第三特征向量c_i,j同属一个所述第一非零向量组。

优选的，所述按预设的聚类数量Q分别对所述第一、第二点云进行鸟瞰平面聚类得到对应的第一、第二平面聚类空间序列，具体包括：

基于预设的无监督聚类算法和设定的所述聚类数量Q，对所述第一点云进行点云聚类处理得到所述聚类数量Q的第一点云簇；并基于所述无监督聚类算法和设定的所述聚类数量Q，对所述第二点云进行点云聚类处理得到所述聚类数量Q的第二点云簇；并将各个所述第一、第二点云簇的三维点云空间作为对应的第一、第二点云聚类空间；

对各个所述第一点云聚类空间向所述第一鸟瞰平面做投影得到对应的所述第一平面聚类空间s_1,f，1≤f≤Q；并由得到的所有所述第一平面聚类空间s_1,f组成对应的所述第一平面聚类空间序列；

对各个所述第二点云聚类空间向所述第一鸟瞰平面做投影得到对应的第一投影空间；并将与第一平面聚类空间s_1,f＝1的空间距离最短的所述第一投影空间作为对应的第二平面聚类空间s_2,f＝1，并将与第一平面聚类空间s_1,f＝2的空间距离最短的所述第一投影空间作为对应的第二平面聚类空间s_2,f＝2，以此类推，直到将与第一平面聚类空间s_1,f＝Q的空间距离最短的所述第一投影空间作为对应的第二平面聚类空间s_2,f＝Q为止；并由得到的所述聚类数量Q的所述第二平面聚类空间s_2,f组成对应的所述第二平面聚类空间序列。

优选的，所述根据所述第一、第二平面聚类空间序列对所述第一、第二和第三样本序列进行样本聚类处理生成对应的第一、第二和第三聚类样本序列集合，具体包括：

从所述第一、第二平面聚类空间序列中随机抽选一个作为对应的第三平面聚类空间序列；所述第三平面聚类空间序列包括所述聚类数量Q的第三平面聚类空间s_3,f；

对所述第一平面聚类空间序列的所述第一平面聚类空间s_1,f进行逐个遍历；并在遍历时，将当前遍历的所述第一平面聚类空间s_1,f作为对应的当前空间；并将所述第一鸟瞰平面上被所述当前空间全部或部分覆盖的所述第一鸟瞰网格r_i,j都标记为一类网格；并将所述第一特征图中与各个所述一类网格对应的所述第一特征向量a_i,j都标记为一类向量；并将所述第一样本序列中与各个所述一类向量对应的所述第一样本P_1,k提取出来作为对应的所述第一聚类样本；并由得到的所有所述第一聚类样本组成对应的所述第一聚类样本序列；并在遍历结束时，由得到的所有所述第一聚类样本序列组成对应的所述第一聚类样本序列集合；

对所述第二平面聚类空间序列的所述第二平面聚类空间s_2,f进行逐个遍历；并在遍历时，将当前遍历的所述第二平面聚类空间s_2,f作为对应的当前空间；并将所述第一鸟瞰平面上被所述当前空间全部或部分覆盖的所述第一鸟瞰网格r_i,j都标记为二类网格；并将所述第二特征图中与各个所述二类网格对应的所述第二特征向量b_i,j都标记为二类向量；并将所述第二样本序列中与各个所述二类向量对应的所述第二样本P_2,k提取出来作为对应的所述第二聚类样本；并由得到的所有所述第二聚类样本组成对应的所述第二聚类样本序列；并在遍历结束时，由得到的所有所述第二聚类样本序列组成对应的所述第二聚类样本序列集合；

对所述第三平面聚类空间序列的所述第三平面聚类空间s_3,f进行逐个遍历；并在遍历时，将当前遍历的所述第三平面聚类空间s_3,f作为对应的当前空间；并将所述第一鸟瞰平面上被所述当前空间全部或部分覆盖的所述第一鸟瞰网格r_i,j都标记为三类网格；并将所述第三特征图中与各个所述三类网格对应的所述第三特征向量c_i,j都标记为三类向量；并将所述第三样本序列中与各个所述三类向量对应的所述第三样本P_3,k提取出来作为对应的所述第三聚类样本；并由得到的所有所述第三聚类样本组成对应的所述第三聚类样本序列；并在遍历结束时，由得到的所有所述第三聚类样本序列组成对应的所述第三聚类样本序列集合。

优选的，所述根据所述第一、第二和第三聚类样本序列集合进行第二多模态信息样本准备处理得到对应的第四、第五和第六样本序列，具体包括：

将所述第一聚类样本序列集合的各个所述第一聚类样本序列输入训练成熟的最大池化网络进行计算，并将所述最大池化网络的输出向量作为对应的第四样本P_4,f；并由得到的所有所述第四样本P_4,f组成对应的所述第四样本序列；

将所述第二聚类样本序列集合的各个所述第二聚类样本序列输入训练成熟的最大池化网络进行计算，并将所述最大池化网络的输出向量作为对应的第五样本P_5,f；并由得到的所有所述第五样本P_5,f组成对应的所述第五样本序列；

将所述第三聚类样本序列集合的各个所述第三聚类样本序列输入训练成熟的最大池化网络进行计算，并将所述最大池化网络的输出向量作为对应的第六样本P_6,f；并由得到的所有所述第六样本P_6,f组成对应的所述第六样本序列。

优选的，所述根据所述第一、第二、第三、第四、第五和第六样本序列构建第一多模态损失函数L₁、第二多模态损失函数L₂和整体损失函数L_all，并根据所述第一多模态损失函数L₁、所述第二多模态损失函数L₂和所述整体损失函数L_all对所述点云鸟瞰特征提取网络的网络参数进行学习，具体包括：

根据所述第一、第二、第三样本序列确认所述第一多模态损失函数L₁为

L_infoNCE()为InfoNCE损失函数，M为所述第一、第二和第三样本序列的样本数量；

根据所述第四、第五和第六样本序列确认所述第二多模态损失函数L₂为

Q为聚类数量；

根据所述第一多模态损失函数L₁和所述第二多模态损失函数L₂确认所述整体损失函数L_all为

L_all＝L₁+L₂；

将所述第一、第二、第三样本序列的各个样本代入所述第一多模态损失函数L₁进行计算生成对应的第一损失值；并对所述第一损失值是否满足预设的第一损失值收敛范围进行识别；若不满足则基于使所述第一多模态损失函数L₁达到最小值的方向对所述点云鸟瞰特征提取网络的网络参数进行调制；

将所述第四、第五和第六样本序列的各个样本代入所述第二多模态损失函数L₂进行计算得到对应的第二损失值；并对所述第二损失值是否满足预设的第二损失值收敛范围进行识别；若不满足则基于使所述第二多模态损失函数L₂达到最小值的方向对所述点云鸟瞰特征提取网络的网络参数进行调制；

将所述第一、第二、第三、第四、第五和第六样本序列的各个样本代入所述整体损失函数L_all进行计算得到对应的整体损失值；并对所述整体损失值是否满足预设的整体损失值收敛范围进行识别；若不满足则基于使所述整体损失函数L_all达到最小值的方向对所述点云鸟瞰特征提取网络的网络参数进行调制。

本发明实施例第二方面提供了一种用于实现上述第一方面所述的基于多模态信息进行自监督学习的处理方法的装置，所述装置包括：获取模块、数据预处理模块、第一多模态信息处理模块、第二多模态信息处理模块和多模态信息学习处理模块；

所述获取模块用于从第一训练数据集中任选一个第一训练数据记录进行原始点云和环视图提取处理生成对应的原始点云和第一环视图；

所述数据预处理模块用于从多个数据增强方式中任选两种方式分别对所述原始点云进行对应的数据增强处理生成对应的第一、第二点云；并对所述第一、第二点云进行地面点云过滤处理；

所述第一多模态信息处理模块用于将所述第一点云与所述第二点云分别输入点云鸟瞰特征提取网络进行特征提取处理生成对应的第一特征图和第二特征图；并将所述第一环视图输入训练成熟的图像鸟瞰特征提取网络进行特征提取处理生成对应的第三特征图；并根据所述第一、第二和第三特征图进行第一多模态信息样本准备处理得到对应的第一、第二和第三样本序列；

所述第二多模态信息处理模块用于按预设的聚类数量Q分别对所述第一、第二点云进行鸟瞰平面聚类得到对应的第一、第二平面聚类空间序列；并根据所述第一、第二平面聚类空间序列对所述第一、第二和第三样本序列进行样本聚类处理生成对应的第一、第二和第三聚类样本序列集合；并根据所述第一、第二和第三聚类样本序列集合进行第二多模态信息样本准备处理得到对应的第四、第五和第六样本序列；

所述多模态信息学习处理模块用于根据所述第一、第二、第三、第四、第五和第六样本序列构建第一多模态损失函数L₁、第二多模态损失函数L₂和整体损失函数L_all，并根据所述第一多模态损失函数L₁、所述第二多模态损失函数L₂和所述整体损失函数L_all对所述点云鸟瞰特征提取网络的网络参数进行学习。

本发明实施例第三方面提供了一种电子设备，包括：存储器、处理器和收发器；

所述处理器用于与所述存储器耦合，读取并执行所述存储器中的指令，以实现上述第一方面所述的方法步骤；

所述收发器与所述处理器耦合，由所述处理器控制所述收发器进行消息收发。

本发明实施例第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令被计算机执行时，使得所述计算机执行上述第一方面所述的方法的指令。

本发明实施例提供了一种基于多模态信息进行自监督学习的处理方法、装置、电子设备及计算机可读存储介质；使用自监督学习方式来对神经网络进行训练，引入环境信息丰富的环视图与点云相结合构成多模态信息样本集，并基于InfoNCE损失函数构建多模态损失函数。通过本发明，无需对三维点云进行标注，大大缩短了数据准备时间；基于多模态信息对点云鸟瞰特征提取网络进行训练，提高了点云鸟瞰特征提取网络的学习精度和训练充分度。

附图说明

图1为本发明实施例一提供的一种基于多模态信息进行自监督学习的处理方法示意图；

图2为本发明实施例二提供的一种基于多模态信息进行自监督学习的处理装置的模块结构图；

图3为本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例一提供一种基于多模态信息进行自监督学习的处理方法，如图1为本发明实施例一提供的一种基于多模态信息进行自监督学习的处理方法示意图所示，本方法主要包括如下步骤：

步骤1，从第一训练数据集中任选一个第一训练数据记录进行原始点云和环视图提取处理生成对应的原始点云和第一环视图；

其中，第一训练数据集包括多个第一训练数据记录；第一训练数据记录包括第一场景标识字段、第一场景信息字段、第一点云字段和第一环视图字段；

具体包括：从第一训练数据集中任选一个第一训练数据记录作为当前训练数据记录；并将当前训练数据记录的第一点云字段和第一环视图字段提取出来作为对应的原始点云和第一环视图。

这里，第一训练数据集的每个第一训练数据记录对应一组训练数据；第一场景标识字段为该组训练数据对应的场景编码，第一场景信息字段为该组训练数据对应的场景简介；第一点云字段为车载激光雷达在该场景中采集的360°点云(也可为其他环绕度数的点云)；第一环视图字段为车载摄像头在该场景中采集的360°环绕图像或环绕图像集合(诸如由左前、正前方、右前、右侧、右后、正后、左后等几个方向的图像构成的图像集合)。

步骤2，从多个数据增强方式中任选两种方式分别对原始点云进行对应的数据增强处理生成对应的第一、第二点云；并对第一、第二点云进行地面点云过滤处理；

其中，多个数据增强方式包括旋转方式、加噪声方式、降采样方式和随机遮挡方式；

具体包括：步骤21，从多个数据增强方式中任选两种方式分别对原始点云进行对应的数据增强处理生成对应的第一、第二点云；

具体包括：从多个数据增强方式中任选两种方式作为对应的第一、第二方式；并基于第一方式对原始点云进行对应的第一数据增强处理生成对应的第一点云；并基于第二方式对原始点云进行对应的第二数据增强处理生成对应的第二点云；

这里，由常规实践可知传统的训练数据集中三维点云数据的储备并不丰富，依靠不够丰富的训练数据集对神经网络进行学习有可能会产生数据缺项或学习不够充分的问题；为提高训练数据的丰富度，本发明实施例使用多种数据增强方式对原始点云进行变换，变换后得到的第一、第二点云可被视为同一场景下不同角度的点云；

例如，选出的第一、第二方式为旋转方式和随机遮挡方式；那么，对应的第一数据增强处理就是点云旋转处理，对应的第二数据增强处理就是点云随机遮挡处理；对原始点云进行点云旋转处理生成对应的第一点云，对原始点云进行点云随机遮挡处理生成对应的第二点云；

步骤22，并对第一、第二点云进行地面点云过滤处理；

具体包括：将第一、第二点云中高度坐标为0的点都标记为地面点；并将第一、第二点云中的所有地面点都删除。

这里，点云中各点的坐标都是世界坐标系下的三维坐标(x，y，z)，其中z为高度坐标；高度坐标z为0的点都是地面点，在本发明实施例中规定在进行训练之前需要将地面点从第一、第二点云中过滤掉。

步骤3，将第一点云与第二点云分别输入点云鸟瞰特征提取网络进行特征提取处理生成对应的第一特征图和第二特征图；并将第一环视图输入训练成熟的图像鸟瞰特征提取网络进行特征提取处理生成对应的第三特征图；并根据第一、第二和第三特征图进行第一多模态信息样本准备处理得到对应的第一、第二和第三样本序列；

其中，点云鸟瞰特征提取网络与图像鸟瞰特征提取网络的鸟瞰平面的平面空间范围一致记为对应的第一鸟瞰平面；点云鸟瞰特征提取网络与图像鸟瞰特征提取网络的输出特征形状相同都为H×W×D，H、W、D都为正整数，H、W为预设的鸟瞰特征图的高度、宽度，D为预设的鸟瞰特征图的特征维度；第一鸟瞰平面包括H×W个第一鸟瞰网格r_i,j,1≤i≤H，1≤j≤W；

第一、第二和第三特征图的形状均为H×W×D；第一特征图由H*W个长度为D的第一特征向量a_i,j组成,各个第一特征向量a_i,j对应一个第一鸟瞰网格r_i,j；第二特征图由H*W个长度为D的第二特征向量b_i,j组成,各个第二特征向量b_i,j对应一个第一鸟瞰网格r_i,j；第三特征图由H*W个长度为D的第三特征向量c_i,j组成,各个第二特征向量b_i,j对应一个第一鸟瞰网格r_i,j；

具体包括：步骤31，将第一点云与第二点云分别输入点云鸟瞰特征提取网络进行特征提取处理生成对应的第一特征图和第二特征图；

其中，点云鸟瞰特征提取网络为PointPillars网络的点云柱特征网络；

这里，本发明实施例以技术论文《PointPillars:Fast Encoders for ObjectDetection from Point Clouds》中提到的PointPillars网络的点云柱特征网络(PillarFeature Net)作为点云鸟瞰特征提取网络；本发明实施例的点云鸟瞰特征提取网络与PointPillars网络的点云柱特征网络类似，会在第一鸟瞰平面上构建一个点云柱(Pillar)网格空间(大小为H×W、网格数为H*W)，并基于各个网格对应的点云柱(Pillar)对输入的第一、第二点云进行点云聚类和点云柱特征提取从而得到对应的点云柱特征向量即第一特征向量a_i,j、第二特征向量b_i,j，并由得到的H*W个第一特征向量a_i,j、第二特征向量b_i,j组成对应的特征图也就是第一、第二特征图；

步骤32，并将第一环视图输入训练成熟的图像鸟瞰特征提取网络进行特征提取处理生成对应的第三特征图；

这里，本发明实施例会使用一个可以对环视图进行图像鸟瞰特征的神经网络作为图像鸟瞰特征提取网络(例如，BEVformer的编码器、HDMapNet的BEV特征编码器等)并提前对其完成相关训练；需要说明的是，本发明实施例的图像鸟瞰特征提取网络的鸟瞰平面的平面空间范围应与点云鸟瞰特征提取网络的鸟瞰平面的平面空间范围一致即都为第一鸟瞰平面，图像鸟瞰特征提取网络输出的特征形状也应与点云鸟瞰特征提取网络的输出特征形状相同，如果原始网络(例如，BEVformer的编码器、HDMapNet的BEV特征编码器等)输出与点云鸟瞰特征提取网络的输出形状存在差异那么就需要在原始网络输出之后为其增加一个用于整形的全连接或卷积网络来保证图像鸟瞰特征提取网络的输出形状能与图像鸟瞰特征提取网络的输出形状对应；

步骤33，并根据第一、第二和第三特征图进行第一多模态信息样本准备处理得到对应的第一、第二和第三样本序列；

具体包括：步骤331，对第一鸟瞰平面的各个第一鸟瞰网格r_i,j进行遍历；遍历时，将当前遍历的第一鸟瞰网格r_i,j作为对应的当前网格；并对当前网格对应的第一特征向量a_i,j、第二特征向量b_i,j和第三特征向量c_i,j是否都不为全0向量进行识别；若是，则由当前网格对应的第一特征向量a_i,j、第二特征向量b_i,j和第三特征向量c_i,j组成对应的第一非零向量组；

这里，全0向量即向量的D个向量数据都为0，全0向量也被称为空向量；

例如，第一鸟瞰平面的形状为4×3，包括12个第一鸟瞰网格r_i,j，分别为：r_1,1、r_1,2、r_1,3、r_2,1、r_2,2、r_2,3、r_3,1、r_3,2、r_3,3、r_4,1、r_4,2、r_4,3；已知第一特征图的12个第一特征向量a_i,j中只有a_1,1、a_1,2、a_1,3、a_4,1不是全0向量，第二特征图的12个第二特征向量b_i,j中只有b_1,1、b_1,2、b_1,3、b_4,2不是全0向量，第三特征图的12个第三特征向量c_i,j全都不是全0向量；

那么，对第一鸟瞰平面的各个第一鸟瞰网格r_i,j进行遍历，

当前网格为r_1,1时，因为a_1,1、b_1,1、c_1,1都不为全0向量，因此得到第一非零向量组1(a_1,1,b_1,1,c_1,1)；

当前网格为r_1,2时，因为a_1,2、b_1,2、c_1,2都不为全0向量，因此得到第一非零向量组2(a_1,2,b_1,2,c_1,2)；

当前网格为r_1,3时，因为a_1,3、b_1,3、c_1,3都不为全0向量，因此得到第一非零向量组3(a_1,3,b_1,3,c_1,3)；

当前网格为r_2,1、r_2,2、r_2,3、r_3,1、r_3,2、r_3,3、r_4,1、r_4,2、r_4,3时，因为对应的第一特征向量a_i,j、第二特征向量b_i,j和第三特征向量c_i,j中总是至少有一个为全0向量，所以不产生任何第一非零向量组；

步骤332，对得到的第一非零向量组的总数进行统计生成对应的第一数量M；并由M个第一非零向量组对应的M个第一特征向量a_i,j、M个第二特征向量b_i,j和M个第三特征向量c_i,j组成对应的第一、第二和第三样本序列；

其中，第一样本序列包括M个第一样本P_1,k，各个第一样本P_1,k对应一个第一特征向量a_i,j，1≤k≤M；第二样本序列包括M个第二样本P_2,k，各个第二样本P_2,k对应一个第二特征向量b_i,j；第三样本序列包括M个第三样本P_3,k，各个第三样本P_3,k对应一个第三特征向量c_i,j；脚标k相同的第一样本P_1,k、第二样本P_2,k和第三样本P_3,k对应的第一特征向量a_i,j、第二特征向量b_i,j和第三特征向量c_i,j同属一个第一非零向量组。

例如，已知最得到的所有第一非零向量组为：第一非零向量组1(a_1,1,b_1,1,c_1,1)、第一非零向量组2(a_1,2,b_1,2,c_1,2)和第一非零向量组3(a_1,3,b_1,3,c_1,3)；那么，对得到的第一非零向量组的总数进行统计生成的第一数量M＝3；第一样本序列为{P_1,1＝a_1,1,P_1,2＝a_1,2,P_1,3＝a_1,3},第二样本序列为{P_2,1＝b_1,1,P_2,2＝b_1,2,P_2,3＝b_1,3},第三样本序列为{P_3,1＝c_1,1,P_3,2＝c_1,2，P_3,3＝c_1,3}。

这里，得到的第一、第二样本序列为点云模态下的特征样本序列，第三样本序列为图像模态下的特征样本序列，而且这三个序列中的样本的位置编码都是一一对应的。

步骤4，按预设的聚类数量Q分别对第一、第二点云进行鸟瞰平面聚类得到对应的第一、第二平面聚类空间序列；并根据第一、第二平面聚类空间序列对第一、第二和第三样本序列进行样本聚类处理生成对应的第一、第二和第三聚类样本序列集合；并根据第一、第二和第三聚类样本序列集合进行第二多模态信息样本准备处理得到对应的第四、第五和第六样本序列；

其中，第一平面聚类空间序列包括聚类数量Q的第一平面聚类空间s_1,f，1≤f≤Q；第二平面聚类空间序列包括聚类数量Q的第二平面聚类空间s_2,f；序列索引f相同的第一平面聚类空间s_1,f与第二平面聚类空间s_2,f的空间距离最短；

第一聚类样本序列集合包括多个第一聚类样本序列；第一聚类样本序列包括多个第一聚类样本；第二聚类样本序列集合包括多个第二聚类样本序列；第二聚类样本序列包括多个第二聚类样本；第三聚类样本序列集合包括多个第三聚类样本序列；第三聚类样本序列包括多个第三聚类样本；

具体包括：步骤41，按预设的聚类数量Q分别对第一、第二点云进行鸟瞰平面聚类得到对应的第一、第二平面聚类空间序列；

具体包括：步骤411，基于预设的无监督聚类算法和设定的聚类数量Q，对第一点云进行点云聚类处理得到聚类数量Q的第一点云簇；并基于无监督聚类算法和设定的聚类数量Q，对第二点云进行点云聚类处理得到聚类数量Q的第二点云簇；并将各个第一、第二点云簇的三维点云空间作为对应的第一、第二点云聚类空间；

其中，无监督聚类算法包括KMeans聚类算法、二分KMeans聚类算法、KMeans++聚类算法、KMeansll聚类算法、Canopy聚类算法、Mini Batch KMeans聚类算法；

这里，本发明实施例在得到第一或第二点云簇时，会从各个第一或第二点云簇中提取出XYZ三轴上的六个坐标极值：x_max/x_min、y_max/y_min、z_max/z_min，并基于这六个坐标极值确定出对应三维点云空间(第一或第二点云聚类空间)的中心点坐标和形状(长、宽、高)，再由得到的中心点+形状(长、宽、高)确定出对应的第一或第二点云聚类空间的8个顶点坐标；需要说明的是，如果第一点云的实际聚类数量达不到聚类数量Q那就使用一个或多个预设的全0点云簇进行补充；

步骤412，对各个第一点云聚类空间向第一鸟瞰平面做投影得到对应的第一平面聚类空间s_1,f，1≤f≤Q；并由得到的所有第一平面聚类空间s_1,f组成对应的第一平面聚类空间序列；

这里，对各个第一点云聚类空间向第一鸟瞰平面做投影实际就是对各个第一点云聚类空间向XY平面做投影；

步骤413，对各个第二点云聚类空间向第一鸟瞰平面做投影得到对应的第一投影空间；并将与第一平面聚类空间s_1,f＝1的空间距离最短的第一投影空间作为对应的第二平面聚类空间s_2,f＝1，并将与第一平面聚类空间s_1,f＝2的空间距离最短的第一投影空间作为对应的第二平面聚类空间s_2,f＝2，以此类推，直到将与第一平面聚类空间s_1,f＝Q的空间距离最短的第一投影空间作为对应的第二平面聚类空间s_2,f＝Q为止；并由得到的聚类数量Q的第二平面聚类空间s_2,f组成对应的第二平面聚类空间序列；

这里，本发明实施例通过聚类空间的索引f对第一、第二平面聚类空间序列的第一、第二平面聚类空间进行关联；

步骤42，并根据第一、第二平面聚类空间序列对第一、第二和第三样本序列进行样本聚类处理生成对应的第一、第二和第三聚类样本序列集合；

具体包括：步骤421，从第一、第二平面聚类空间序列中随机抽选一个作为对应的第三平面聚类空间序列；

其中，第三平面聚类空间序列包括聚类数量Q的第三平面聚类空间s_3,f；

例如，已知聚类数量Q为2，第一平面聚类空间序列包括2个第一平面聚类空间s_1,1、s_1,2，第二平面聚类空间序列包括2个第二平面聚类空间s_2,1、s_2,2，从第一、第二平面聚类空间序列中随机抽选到第二平面聚类空间序列，那么第三平面聚类空间序列包括2个第二平面聚类空间s_3,1＝s_2,1、s_3,2＝s_2,2；

步骤422，对第一平面聚类空间序列的第一平面聚类空间s_1,f进行逐个遍历；并在遍历时，将当前遍历的第一平面聚类空间s_1,f作为对应的当前空间；并将第一鸟瞰平面上被当前空间全部或部分覆盖的第一鸟瞰网格r_i,j都标记为一类网格；并将第一特征图中与各个一类网格对应的第一特征向量a_i,j都标记为一类向量；并将第一样本序列中与各个一类向量对应的第一样本P_1,k提取出来作为对应的第一聚类样本；并由得到的所有第一聚类样本组成对应的第一聚类样本序列；并在遍历结束时，由得到的所有第一聚类样本序列组成对应的第一聚类样本序列集合；

例如，第一鸟瞰平面的形状为4×3，包括12个第一鸟瞰网格r_i,j，分别为：r_1,1、r_1,2、r_1,3、r_2,1、r_2,2、r_2,3、r_3,1、r_3,2、r_3,3、r_4,1、r_4,2、r_4,3；M＝3，第一样本序列为{P_1,1＝a_1,1,P_1,2＝a_1,2,P_1,3＝a_1,3},第二样本序列为{P_2,1＝b_1,1,P_2,2＝b_1,2,P_2,3＝b_1,3},第三样本序列为{P_3,1＝c_1,1,P_3,2＝c_1,2，P_3,3＝c_1,3}；

第一平面聚类空间s_1,1与r_1,1、r_1,2有交集，第一平面聚类空间s_1,2与r_1,3有交集；

那么，对第一平面聚类空间序列的第一平面聚类空间s_1,f进行逐个遍历；当前空间为s_1,1时，r_1,1、r_1,2被标记为一类网格，第一特征图的a_1,1、a_1,2被标记为一类向量，第一样本序列中的P_1,1、P_1,2为第一聚类样本，由此得到第一聚类样本序列11(P_1,1，P_1,2)；当前空间为s_1,2时，r_1,3被标记为一类网格，第一特征图的a_1,3被标记为一类向量，第一样本序列中的P_1,3为第一聚类样本，由此得到第一聚类样本序列12(P_1,3)；最后得到的第一聚类样本序列集合为{第一聚类样本序列11(P_1,1，P_1,2)，第一聚类样本序列12(P_1,3)}；

步骤423，对第二平面聚类空间序列的第二平面聚类空间s_2,f进行逐个遍历；并在遍历时，将当前遍历的第二平面聚类空间s_2,f作为对应的当前空间；并将第一鸟瞰平面上被当前空间全部或部分覆盖的第一鸟瞰网格r_i,j都标记为二类网格；并将第二特征图中与各个二类网格对应的第二特征向量b_i,j都标记为二类向量；并将第二样本序列中与各个二类向量对应的第二样本P_2,k提取出来作为对应的第二聚类样本；并由得到的所有第二聚类样本组成对应的第二聚类样本序列；并在遍历结束时，由得到的所有第二聚类样本序列组成对应的第二聚类样本序列集合；

例如，第二平面聚类空间s_2,1与r_1,1、r_1,2有交集，第二平面聚类空间s_2,2与r_1,3有交集；

那么，对第二平面聚类空间序列的第二平面聚类空间s_2,f进行逐个遍历；当前空间为s_2,1时，r_1,1、r_1,2被标记为二类网格，第二特征图的b_1,1、b_1,2被标记为二类向量，第二样本序列中的P_2,1、P_2,2为第二聚类样本，由此得到第二聚类样本序列21(P_2,1，P_2,2)；当前空间为s_2,2时，r_1,3被标记为二类网格，第二特征图的b_1,3被标记为二类向量，第二样本序列中的P_2,3为第二聚类样本，由此得到第二聚类样本序列22(P_2,3)；最后得到的第二聚类样本序列集合为{第二聚类样本序列21(P_2,1，P_2,2)，第二聚类样本序列22(P_2,3)}；

步骤424，对第三平面聚类空间序列的第三平面聚类空间s_3,f进行逐个遍历；并在遍历时，将当前遍历的第三平面聚类空间s_3,f作为对应的当前空间；并将第一鸟瞰平面上被当前空间全部或部分覆盖的第一鸟瞰网格r_i,j都标记为三类网格；并将第三特征图中与各个三类网格对应的第三特征向量c_i,j都标记为三类向量；并将第三样本序列中与各个三类向量对应的第三样本P_3,k提取出来作为对应的第三聚类样本；并由得到的所有第三聚类样本组成对应的第三聚类样本序列；并在遍历结束时，由得到的所有第三聚类样本序列组成对应的第三聚类样本序列集合；

例如，第三平面聚类空间序列包括2个第二平面聚类空间s_3,1＝s_2,1、s_3,2＝s_2,2；第二平面聚类空间s_2,1与r_1,1、r_1,2有交集，第二平面聚类空间s_2,2与r_1,3有交集；

那么，对第三平面聚类空间序列的第三平面聚类空间s_3,f进行逐个遍历；当前空间为s_3,1时，r_1,1、r_1,2被标记为三类网格，第三特征图的c_1,1、c_1,2被标记为三类向量，第三样本序列中的P_3,1、P_3,2为第三聚类样本，由此得到第三聚类样本序列31(P_3,1，P_3,2)；当前空间为s_3,2时，r_1,3被标记为三类网格，第三特征图的c_1,3被标记为三类向量，第三样本序列中的P_3,3为第三聚类样本，由此得到第三聚类样本序列32(P_3,3)；最后得到的第三聚类样本序列集合为{第三聚类样本序列31(P_3,1，P_3,2)，第三聚类样本序列32(P_3,3)}；

步骤43，并根据第一、第二和第三聚类样本序列集合进行第二多模态信息样本准备处理得到对应的第四、第五和第六样本序列；

具体包括：步骤431，将第一聚类样本序列集合的各个第一聚类样本序列输入训练成熟的最大池化网络进行计算，并将最大池化网络的输出向量作为对应的第四样本P_4,f；并由得到的所有第四样本P_4,f组成对应的第四样本序列；

这里，本发明实施例通过最大池化网络对各个第一聚类样本序列进行综合聚类特征提取；

例如，已知聚类数量Q＝2，第一聚类样本序列集合为{第一聚类样本序列11(P_1,1，P_1,2)，第一聚类样本序列12(P_1,3)}；那么将第一聚类样本序列11(P_1,1，P_1,2)输入最大池化网络得到对应的第四样本P_4,1，将第一聚类样本序列12(P_1,3)输入最大池化网络得到对应的第四样本P_4,2；得到的第四样本序列为{P_4,1,P_4,2}；

步骤432，将第二聚类样本序列集合的各个第二聚类样本序列输入训练成熟的最大池化网络进行计算，并将最大池化网络的输出向量作为对应的第五样本P_5,f；并由得到的所有第五样本P_5,f组成对应的第五样本序列；

这里，本发明实施例通过最大池化网络对各个第二聚类样本序列进行综合聚类特征提取；

例如，已知聚类数量Q＝2，第二聚类样本序列集合为{第二聚类样本序列21(P_2,1，P_2,2)，第二聚类样本序列22(P_2,3)}；那么将第二聚类样本序列21(P_2,1，P_2,2)输入最大池化网络得到对应的第五样本P_5,1，将第二聚类样本序列22(P_2,3)输入最大池化网络得到对应的第五样本P_5,2；得到的第五样本序列为{P_5,1,P_5,2}；

步骤433，将第三聚类样本序列集合的各个第三聚类样本序列输入训练成熟的最大池化网络进行计算，并将最大池化网络的输出向量作为对应的第六样本P_6,f；并由得到的所有第六样本P_6,f组成对应的第六样本序列。

这里，本发明实施例通过最大池化网络对各个第三聚类样本序列进行综合聚类特征提取；

例如，已知聚类数量Q＝2，第三聚类样本序列集合为{第三聚类样本序列31(P_3,1，P_3,2)，第三聚类样本序列32(P_3,3)}；那么将第三聚类样本序列31(P_3,1，P_3,2)输入最大池化网络得到对应的第六样本P_6,1，将第三聚类样本序列32(P_3,3)输入最大池化网络得到对应的第六样本P_6,2；得到的第六样本序列为{P_6,1,P_6,2}。

步骤5，根据第一、第二、第三、第四、第五和第六样本序列构建第一多模态损失函数L₁、第二多模态损失函数L₂和整体损失函数L_all，并根据第一多模态损失函数L₁、第二多模态损失函数L₂和整体损失函数L_all对点云鸟瞰特征提取网络的网络参数进行学习；

具体包括：步骤51，根据第一、第二、第三样本序列确认第一多模态损失函数L₁为：

这里，InfoNCE损失函数是一种对比学习损失的损失函数，本发明实施例基于InfoNCE损失函数构建第一多模态损失函数L₁可以对第一点云、第二点云和第一环视图在第一鸟瞰平面上的网格级特征(又或者成为pillar特征)进行两两比对；

步骤52，根据第四、第五和第六样本序列确认第二多模态损失函数L₂为：

Q为聚类数量；

这里，本发明实施例基于InfoNCE损失函数构建第二多模态损失函数L₂可以基于点云的聚类结果对第一点云、第二点云和第一环视图在第一鸟瞰平面上的聚类特征(又或者成为cluster特征)进行两两比对；

步骤53，根据第一多模态损失函数L₁和第二多模态损失函数L₂确认整体损失函数L_all为：

L_all＝L₁+L₂；

这里，本发明实施例的整体损失函数L_all实际就是既要对第一点云、第二点云和第一环视图在第一鸟瞰平面上的网格级特征(又或者成为pillar特征)进行两两比对，还要基于点云的聚类结果对第一点云、第二点云和第一环视图在第一鸟瞰平面上的聚类特征(又或者成为cluster特征)进行两两比对；

步骤54，将第一、第二、第三样本序列的各个样本代入第一多模态损失函数L₁进行计算生成对应的第一损失值；并对第一损失值是否满足预设的第一损失值收敛范围进行识别；若不满足则基于使第一多模态损失函数L₁达到最小值的方向对点云鸟瞰特征提取网络的网络参数进行调制；

这里，若第一损失值不满足预设的第一损失值收敛范围说明点云鸟瞰特征提取网络的网络参数需要被调制，此时可将鸟瞰特征提取网络的网络参数代入第一多模态损失函数L₁的表达式生成对应的第一目标函数，并朝着是该第一目标函数达到最小值的方向对第一目标函数中的各个网络参数进行求解，并使用解出的网络参数值对鸟瞰特征提取网络的网络参数进行重置；

步骤55，将第四、第五和第六样本序列的各个样本代入第二多模态损失函数L₂进行计算得到对应的第二损失值；并对第二损失值是否满足预设的第二损失值收敛范围进行识别；若不满足则基于使第二多模态损失函数L₂达到最小值的方向对点云鸟瞰特征提取网络的网络参数进行调制；

这里，若第二损失值不满足预设的第二损失值收敛范围说明点云鸟瞰特征提取网络的网络参数需要被调制，此时可将鸟瞰特征提取网络的网络参数代入第二多模态损失函数L₂的表达式生成对应的第二目标函数，并朝着是该第二目标函数达到最小值的方向对第二目标函数中的各个网络参数进行求解，并使用解出的网络参数值对鸟瞰特征提取网络的网络参数进行重置；

步骤56，将第一、第二、第三、第四、第五和第六样本序列的各个样本代入整体损失函数L_all进行计算得到对应的整体损失值；并对整体损失值是否满足预设的整体损失值收敛范围进行识别；若不满足则基于使整体损失函数L_all达到最小值的方向对点云鸟瞰特征提取网络的网络参数进行调制。

这里，若整体损失值不满足预设的整体损失值收敛范围说明点云鸟瞰特征提取网络的网络参数需要被调制，此时可将鸟瞰特征提取网络的网络参数代入整体损失函数L_all的表达式生成对应的整体目标函数，并朝着是该整体目标函数达到最小值的方向对整体目标函数中的各个网络参数进行求解，并使用解出的网络参数值对鸟瞰特征提取网络的网络参数进行重置。

需要说明的是，在上述步骤54-56的任一步中，只要对点云鸟瞰特征提取网络的网络参数进行了调制就可不再继续执行后续步骤，而是直接返回步骤3基于调制后的点云鸟瞰特征提取网络重新进行特征提取操作；如果上述步骤54-56得到的损失值都已经满足了对应的损失值收敛范围说明当次的自监督学习成功，后续则返回步骤1重新获取新的第一训练数据记录继续对点云鸟瞰特征提取网络进行下一次自监督学习，直到连续成功学习的次数达到预先设定的次数阈值为止。

图2为本发明实施例二提供的一种基于多模态信息进行自监督学习的处理装置的模块结构图，该装置为实现前述方法实施例的终端设备或者服务器，也可以为能够使得前述终端设备或者服务器实现前述方法实施例的装置，例如该装置可以是前述终端设备或者服务器的装置或芯片系统。如图2所示，该装置包括：获取模块201、数据预处理模块202、第一多模态信息处理模块203、第二多模态信息处理模块204和多模态信息学习处理模块205。

获取模块201用于从第一训练数据集中任选一个第一训练数据记录进行原始点云和环视图提取处理生成对应的原始点云和第一环视图。

数据预处理模块202用于从多个数据增强方式中任选两种方式分别对原始点云进行对应的数据增强处理生成对应的第一、第二点云；并对第一、第二点云进行地面点云过滤处理。

第一多模态信息处理模块203用于将第一点云与第二点云分别输入点云鸟瞰特征提取网络进行特征提取处理生成对应的第一特征图和第二特征图；并将第一环视图输入训练成熟的图像鸟瞰特征提取网络进行特征提取处理生成对应的第三特征图；并根据第一、第二和第三特征图进行第一多模态信息样本准备处理得到对应的第一、第二和第三样本序列。

第二多模态信息处理模块204用于按预设的聚类数量Q分别对第一、第二点云进行鸟瞰平面聚类得到对应的第一、第二平面聚类空间序列；并根据第一、第二平面聚类空间序列对第一、第二和第三样本序列进行样本聚类处理生成对应的第一、第二和第三聚类样本序列集合；并根据第一、第二和第三聚类样本序列集合进行第二多模态信息样本准备处理得到对应的第四、第五和第六样本序列。

多模态信息学习处理模块205用于根据第一、第二、第三、第四、第五和第六样本序列构建第一多模态损失函数L₁、第二多模态损失函数L₂和整体损失函数L_all，并根据第一多模态损失函数L₁、第二多模态损失函数L₂和整体损失函数L_all对点云鸟瞰特征提取网络的网络参数进行学习。

本发明实施例提供的一种基于多模态信息进行自监督学习的处理装置，可以执行上述方法实施例中的方法步骤，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，获取模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所描述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，ASIC)，或，一个或多个数字信号处理器(Digital Signal Processor，DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(System-on-a-chip，SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照前述方法实施例所描述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线路((Digital Subscriber Line，DSL))或无线(例如红外、无线、蓝牙、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

图3为本发明实施例三提供的一种电子设备的结构示意图。该电子设备可以为前述的终端设备或者服务器，也可以为与前述终端设备或者服务器连接的实现本发明实施例方法的终端设备或服务器。如图3所示，该电子设备可以包括：处理器301(例如CPU)、存储器302、收发器303；收发器303耦合至处理器301，处理器301控制收发器303的收发动作。存储器302中可以存储各种指令，以用于完成各种处理功能以及实现前述方法实施例描述的处理步骤。优选的，本发明实施例涉及的电子设备还包括：电源304、系统总线305以及通信端口306。系统总线305用于实现元件之间的通信连接。上述通信端口306用于电子设备与其他外设之间进行连接通信。

在图3中提到的系统总线305可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，RAM)，也可能还包括非易失性存储器(Non-Volatile Memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器CPU、网络处理器(NetworkProcessor，NP)、图形处理器(Graphics Processing Unit，GPU)等；还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中提供的方法和处理过程。

本发明实施例还提供一种运行指令的芯片，该芯片用于执行前述方法实施例描述的处理步骤。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态信息进行自监督学习的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于多模态信息进行自监督学习的处理方法，其特征在于，

所述第一训练数据集包括多个所述第一训练数据记录；所述第一训练数据记录包括第一场景标识字段、第一场景信息字段、第一点云字段和第一环视图字段；

3.根据权利要求2所述的基于多模态信息进行自监督学习的处理方法，其特征在于，

所述点云鸟瞰特征提取网络为PointPillars网络的点云柱特征网络。

4.根据权利要求2所述的基于多模态信息进行自监督学习的处理方法，其特征在于，所述从第一训练数据集中任选一个第一训练数据记录进行原始点云和环视图提取处理生成对应的原始点云和第一环视图，具体包括：

5.根据权利要求2所述的基于多模态信息进行自监督学习的处理方法，其特征在于，所述从多个数据增强方式中任选两种方式分别对所述原始点云进行对应的数据增强处理生成对应的第一、第二点云，具体包括：

6.根据权利要求2所述的基于多模态信息进行自监督学习的处理方法，其特征在于，所述对所述第一、第二点云进行地面点云过滤处理，具体包括：

7.根据权利要求2所述的基于多模态信息进行自监督学习的处理方法，其特征在于，所述根据所述第一、第二和第三特征图进行第一多模态信息样本准备处理得到对应的第一、第二和第三样本序列，具体包括：

8.根据权利要求2所述的基于多模态信息进行自监督学习的处理方法，其特征在于，所述按预设的聚类数量Q分别对所述第一、第二点云进行鸟瞰平面聚类得到对应的第一、第二平面聚类空间序列，具体包括：

9.根据权利要求7所述的基于多模态信息进行自监督学习的处理方法，其特征在于，所述根据所述第一、第二平面聚类空间序列对所述第一、第二和第三样本序列进行样本聚类处理生成对应的第一、第二和第三聚类样本序列集合，具体包括：

10.根据权利要求9所述的基于多模态信息进行自监督学习的处理方法，其特征在于，所述根据所述第一、第二和第三聚类样本序列集合进行第二多模态信息样本准备处理得到对应的第四、第五和第六样本序列，具体包括：

11.根据权利要求10所述的基于多模态信息进行自监督学习的处理方法，其特征在于，所述根据所述第一、第二、第三、第四、第五和第六样本序列构建第一多模态损失函数L₁、第二多模态损失函数L₂和整体损失函数L_all，并根据所述第一多模态损失函数L₁、所述第二多模态损失函数L₂和所述整体损失函数L_all对所述点云鸟瞰特征提取网络的网络参数进行学习，具体包括：

Q为聚类数量；

L_all＝L₁+L₂；

12.一种用于执行权利要求1-11任一项所述的基于多模态信息进行自监督学习的处理方法的装置，其特征在于，所述装置包括：获取模块、数据预处理模块、第一多模态信息处理模块、第二多模态信息处理模块和多模态信息学习处理模块；

13.一种电子设备，其特征在于，包括：存储器、处理器和收发器；

所述处理器用于与所述存储器耦合，读取并执行所述存储器中的指令，以实现权利要求1-11任一项所述的方法步骤；

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令被计算机执行时，使得所述计算机执行权利要求1-11任一项所述的方法的指令。