CN117634486A

CN117634486A - 一种基于文本信息的指向性3d实例分割方法

Info

Publication number: CN117634486A
Application number: CN202410112132.7A
Authority: CN
Inventors: 纪荣嵘; 孙晓帅; 钱志鹏; 马祎炜; 纪家沂
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2024-01-26
Filing date: 2024-01-26
Publication date: 2024-03-01
Anticipated expiration: 2044-01-26
Also published as: CN117634486B

Abstract

本发明提供了3D实例分割技术领域的一种基于文本信息的指向性3D实例分割方法，包括：步骤S1、创建3D实例分割模型，获取描述文本以及3D实例；步骤S2、提取3D实例的点云特征，提取描述文本的文本特征；步骤S3、对点云特征以及文本特征进行融合得到融合特征，将融合特征结合3D实例的空间位置信息构建跨模态的场景图；步骤S4、提取描述文本的第一相对位置信息，提取3D实例之间的第二相对位置信息，将第一相对位置信息以及第二相对位置信息融合进场景图；步骤S5、计算场景图与描述文本的相似度得分，计算3D实例分割模型的预测特征与描述文本的匹配得分，基于相似度得分、匹配得分对3D实例进行分割。本发明的优点：极大的提升了3D指向性实例分割精度。

Description

一种基于文本信息的指向性3D实例分割方法

技术领域

本发明涉及3D实例分割技术领域，特别指一种基于文本信息的指向性3D实例分割方法。

背景技术

考虑到现实生活场景是在三维(3D)空间中，因此，在3D环境中集成语言和空间信息，在包括VR/AR应用、导航在内的各个领域具有巨大的价值。近年来有许多相关的任务也被提出，包括3D目标检测、3D实例分割、指向性3D视觉定位任务等。3D实例分割涉及通过自然语言描述特定3D对象的识别和分割，由于3D点云的无序性和稀疏性，再加上场景和文本表述中存在复杂的空间和语义关系，使得学习过程变得更加复杂，因此这项任务既新颖又极具挑战性。

TGNN模型初步尝试解决指向性3D实例分割这一挑战性的任务；具体而言，TGNN模型将3D实例的实例特征与文本特征相结合，计算每个实例特征的匹配分数，从而识别文本表述中所引用的目标实例。尽管TGNN模型展示了卓越的性能，并采用了直接的算法，但它无法在文本表述中显式地确定核心实体的优先级，这最终会破坏指向性实例分割结果，此外TGNN模型忽略了文本表述中暗含的重要空间关系及其与3D场景中空间关系的一致性，即TGNN模型不能准确地捕捉3D场景中的复杂关系，导致次优指向性实例分割结果。

因此，如何提供一种基于文本信息的指向性3D实例分割方法，实现提升3D指向性实例分割精度，成为一个亟待解决的技术问题。

发明内容

本发明要解决的技术问题，在于提供一种基于文本信息的指向性3D实例分割方法，实现提升3D指向性实例分割精度。

本发明是这样实现的：一种基于文本信息的指向性3D实例分割方法，包括如下步骤：

步骤S1、创建并训练一3D实例分割模型，获取用于分割3D实例的描述文本以及待分割的3D实例；

步骤S2、通过所述3D实例分割模型提取3D实例的点云特征，提取所述描述文本的文本特征；

步骤S3、通过实体感知融合模块对所述点云特征以及文本特征进行融合得到融合特征，将所述融合特征结合3D实例的空间位置信息构建跨模态的场景图；

步骤S4、通过文本关系交互模块提取所述描述文本的第一相对位置信息，通过空间关系交互模块提取3D实例之间的第二相对位置信息，将所述第一相对位置信息以及第二相对位置信息融合进场景图；

步骤S5、计算所述场景图与描述文本的相似度得分，计算所述3D实例分割模型的预测特征与描述文本的匹配得分，基于所述相似度得分以及匹配得分对3D实例进行分割。

进一步的，所述步骤S2还包括：

预测所述3D实例的mask。

进一步的，所述步骤S2中，所述文本特征通过GRU模块或者BERT模型进行提取。

进一步的，所述步骤S3具体为：

通过实体感知融合模块对所述文本特征的各单词的词性进行判断，基于所述词性从文本特征中提取实体词特征，将所述实体词特征与点云特征进行融合得到融合特征，将所述融合特征结合3D实例的空间位置信息构建跨模态的场景图。

进一步的，所述步骤S4具体为：

通过文本关系交互模块提取所述描述文本中，与预设的关系词相关的特征信息，将所述特征信息与场景图中的各节点融合，再通过K近邻算法进行局部感知融合提取所述描述文本的第一相对位置信息；

通过空间关系交互模块提取3D实例之间的相对空间向量，进而获取第二相对位置信息；

将所述第一相对位置信息以及第二相对位置信息通过点乘的方式以及K近邻算法融合进场景图。

进一步的，所述步骤S5还包括：

通过所述相似度得分以及匹配得分计算交叉熵损失函数来优化3D实例分割模型。

本发明的优点在于：

通过创建并训练一3D实例分割模型，获取用于分割3D实例的描述文本以及待分割的3D实例，接着通过3D实例分割模型提取3D实例的点云特征，提取描述文本的文本特征，通过实体感知融合模块对点云特征以及文本特征进行融合得到融合特征，将融合特征结合3D实例的空间位置信息构建跨模态的场景图，接着通过文本关系交互模块提取描述文本的第一相对位置信息，通过空间关系交互模块提取3D实例之间的第二相对位置信息，将第一相对位置信息以及第二相对位置信息融合进场景图，最后计算场景图与描述文本的相似度得分，计算3D实例分割模型的预测特征与描述文本的匹配得分，基于相似度得分以及匹配得分对3D实例进行最优匹配，得到最符合描述文本的3D实例；通过对文本特征的各单词的词性进行判断，突出实体词特征，有助于对描述文本和3D实例之间的关系进行建模，从而能够准确构建特定3D实例的跨模态的场景图；通过提取第一相对位置信息以及第二相对位置信息并融合进场景图，使得场景图富含关系信息；通过基于相似度得分以及匹配得分对3D实例进行最优匹配，得到最符合描述文本的3D实例，有效结合了两种得分，并通过相似度得分以及匹配得分计算交叉熵损失函数来优化3D实例分割模型，最终极大的提升了3D指向性实例分割精度。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1是本发明一种基于文本信息的指向性3D实例分割方法的流程图。

图2是本发明与传统分割方法的对比示意图。

图3是本发明3D实例分割模型的网络结构示意图。

图4是本发明空间关系与相对象限空间的示意图。

图5是本发明与TGNN模型的分割效果对比示意图。

图6为本发明与TGNN模型的注意力分配效果对比示意图。

具体实施方式

本申请实施例中的技术方案，总体思路如下：通过对文本特征的各单词的词性进行判断，突出实体词特征，有助于对描述文本和3D实例之间的关系进行建模，从而能够准确构建特定3D实例的跨模态的场景图；通过提取第一相对位置信息以及第二相对位置信息并融合进场景图，使得场景图富含关系信息；通过基于相似度得分以及匹配得分对3D实例进行最优匹配，有效结合了两种得分，并通过相似度得分以及匹配得分计算交叉熵损失函数来优化3D实例分割模型，以提升3D指向性实例分割精度。

请参照图1至图6所示，本发明一种基于文本信息的指向性3D实例分割方法的较佳实施例，包括如下步骤：

本发明为了处理传统方法无法在描述文本中显式地确定核心实体，并且忽略了描述文本中暗含的重要空间关系及其与3D实例中空间关系的一致性的问题。因此，本发明对每个单词的词性进行预测，构建了跨模态的场景图，然后通过局部感知，提取描述文本与3D实例中的相对位置关系，并将两种位置信息相结合，最后计算两种互补的预测得分，通过交叉熵损失进行训练，并计算最终得分来进行预测。

所述步骤S2还包括：

预测所述3D实例的mask，表示为，其对应的视觉特征表示为，用于后续与文本特征进行交互。

所述步骤S2中，所述文本特征通过GRU模块或者BERT模型进行提取；

还将所述文本特征输入词性分类器来预测每个单词为实体词、形容词、关系词或者不相关词的类别概率，计算公式如下：

；

其中，W₁、W₂、b₁、b₂均表示可学习参数；表示sigmoid激活函数；/>表示第t个单词的文本特征；/>，表示第t个单词属于实体词、形容词、关系词或者不相关词的权重概率；/>表示实体词；/>表示形容词；/>表示关系词；/>表示不相关词。

之后计算点云特征以及文本特征之间的注意力图：

；

其中，表示多层感知机；/>、/>、/>、/>、/>、/>均表示可学习参数；，r表示超参数；/>表示视觉特征；/>表示第t个单词与第i个3D实例的实体词相关系数；C表示3D实例的总数；n表示实例特征编号；

计算每个单词与3D实例之间的实体描述相关性：

；

其中，表示第t个单词与第n个实例在第j层次的相关性，在计算得到实体描述相关性之后，再聚合每个单词的特征得到整个句子对于3D实例的实体描述相关的语义特征，并通过双线性融合方法与实例的视觉特征/>相融合得到对应的跨模态特征/>：

;

其中，表示逐元素点乘；/>表示第/>个实例与文本表述中实体描述相关的文本特征，/>表示融合更新后的第/>个实例的跨模态特征，/>表示文本单词的数量，/>表示特征融合的层数，R表示特征维度信息；/>表示跨模态特征的维度，取值为256。

所述步骤S3具体为：

通过实体感知融合模块（Entity-Aware Fusion ，EAF）对所述文本特征的各单词的词性进行判断，基于所述词性从文本特征中提取实体词特征，能够准确识别所述描述文本中的实体词特征，将所述实体词特征与点云特征进行融合得到融合特征，将所述融合特征结合3D实例的空间位置信息构建跨模态的场景图。

基于空间中物体的相对位置关系以及先前得到的跨模态实例特征，首先构建跨模态的场景图G=（V,E,U）,其中是一系列顶点，与每个3D实例中心相对应；代表边的类型；/>代表每个3D实例融合后的跨模态特征。其中，边的类型由顶点之间相对空间关系相对应，当归一化后顶点间距超过最大间距的0.25后，将边的类型设置为‘No Relation’，其他空间关系与相对象限空间对应具体如图4所示，之后再计算每个单词属于关系词的概率：

；

其中，W₆、W₇、b₆、b₇均表示可学习参数；表示LeakyReLU激活函数；

为了计算整个表述与特定边类型的相似度，将每个单词与边的相关性累加：

；

由此，场景图拓展为,其中/>，表示有向边权重，N表示边的类型数量，取值为9。

所述步骤S4具体为：

通过文本关系交互模块（Relation-Driven Interaction，RDI）提取所述描述文本中，与预设的关系词相关的特征信息，将所述特征信息与场景图中的各节点融合，再通过K近邻算法进行局部感知融合提取所述描述文本的第一相对位置信息；

将所述第一相对位置信息以及第二相对位置信息通过点乘的方式以及K近邻算法融合进场景图，有效增强特征融合并促进模型推理，使所述场景图富含上下文语义以及空间信息的跨模态特征。

为了充分利用描述文本中包含的位置信息，文本关系交互模块使用类似实体词特征融合的方式进行操作：

；

其中，表示第t个单词与第n个实例的相关性；/>表示第t个单词与第i个3D实例之间的位置关系相关性；/>表示第n个实例更新后的跨模态特征；/>表示整个描述文本与3D实例位置相关的文本特征；/>是实例/>的位置相关的跨模态特征。

之后借助有向边权重，结合近邻的3D实例与位置相关的不同方向的特征信息：

；

其中，表示着第i个3D实例的第k个近邻的有向边权重，一共与K个近邻交互；/>表示第k个近邻的位置相关的特征向量。

相对空间关系在定位描述文本所指向的物体时起着关键性的作用，而空间中的相对位置向量富含这部分的空间信息，空间关系交互模块通过对相对位置向量进行编码来提取信息：

；

其中，表示第i个实例的第k个近邻的中心坐标；[;]表示concatenate操作；/>表示欧氏距离。

随后，3D实例的空间位置特征结合相对位置向量与K个近邻进行交互：

；

其中，表示结合空间位置信息后的第i个实例的跨模态特征。

最后结合描述文本的位置信息特征与空间位置信息得到最终的跨模态特征：

。

所述步骤S5还包括：

所述步骤S5中，采用两种互补的目标函数来预测得分，一个是与全局文本特征（场景图）计算相似度，一个是直接预测相似度得分。就与全局文本特征计算相似度而言，首先使用最大池化得到全局文本特征：

；

然后通过计算余弦相似度得到相似度得分：

；

其中，，/>均表示转化矩阵；x_i表示经过跨模态特征交互后得到的第i个实例特征，/>表示全局文本特征向量；C_n表示x_i对应的特征维度；/>表示L2正则化。

此外，跨模态特征直接输入一个全连接层来预测相似度得分：

；

其中，均表示可学习参数；x_i表示经过跨模态特征交互后得到的第i个实例特征。

最终的预测得分为对两个得分进行相加：

；

训练使用的损失函数是余弦损失与直接预测损失/>的加和：

；

这两个损失函数都是交叉熵损失。

实验验证：

本发明在ScanRefer数据集上进行实验，相比传统方法，本发明的性能有着显著提升，与TGNN相比，GRU和BERT实现了3.67% mIOU和2.14% mIOU的增长，GRU模式下Acc@0.25和Acc@0.5分别提高了4.85%和4.52%，BERT模式下Acc@0.25和Acc@0.5分别提高了2.83%和2.37%，在提高性能的同时，在训练时还节省了10G的显存。

本发明与SOTA方法在ScanRefer数据集上的比较如下：

综上所述，本发明的优点在于：

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于文本信息的指向性3D实例分割方法，其特征在于：包括如下步骤：

步骤S4、通过文本关系交互模块提取所述描述文本中，与预设的关系词相关的特征信息，将所述特征信息与场景图中的各节点融合，再通过K近邻算法进行局部感知融合提取所述描述文本的第一相对位置信息；

将所述第一相对位置信息以及第二相对位置信息通过点乘的方式以及K近邻算法融合进场景图；

2.如权利要求1所述的一种基于文本信息的指向性3D实例分割方法，其特征在于：所述步骤S2还包括：

预测所述3D实例的mask。

3.如权利要求1所述的一种基于文本信息的指向性3D实例分割方法，其特征在于：所述步骤S2中，所述文本特征通过GRU模块或者BERT模型进行提取。

4.如权利要求1所述的一种基于文本信息的指向性3D实例分割方法，其特征在于：所述步骤S3具体为：

5.如权利要求1所述的一种基于文本信息的指向性3D实例分割方法，其特征在于：所述步骤S5还包括：