CN117634486A - 一种基于文本信息的指向性3d实例分割方法 - Google Patents
一种基于文本信息的指向性3d实例分割方法 Download PDFInfo
- Publication number
- CN117634486A CN117634486A CN202410112132.7A CN202410112132A CN117634486A CN 117634486 A CN117634486 A CN 117634486A CN 202410112132 A CN202410112132 A CN 202410112132A CN 117634486 A CN117634486 A CN 117634486A
- Authority
- CN
- China
- Prior art keywords
- text
- features
- instance
- position information
- instance segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 230000003993 interaction Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 11
- 230000008447 perception Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 abstract description 22
- 238000010586 diagram Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了3D实例分割技术领域的一种基于文本信息的指向性3D实例分割方法,包括:步骤S1、创建3D实例分割模型,获取描述文本以及3D实例;步骤S2、提取3D实例的点云特征,提取描述文本的文本特征;步骤S3、对点云特征以及文本特征进行融合得到融合特征,将融合特征结合3D实例的空间位置信息构建跨模态的场景图;步骤S4、提取描述文本的第一相对位置信息,提取3D实例之间的第二相对位置信息,将第一相对位置信息以及第二相对位置信息融合进场景图;步骤S5、计算场景图与描述文本的相似度得分,计算3D实例分割模型的预测特征与描述文本的匹配得分,基于相似度得分、匹配得分对3D实例进行分割。本发明的优点:极大的提升了3D指向性实例分割精度。
Description
技术领域
本发明涉及3D实例分割技术领域,特别指一种基于文本信息的指向性3D实例分割方法。
背景技术
考虑到现实生活场景是在三维(3D)空间中,因此,在3D环境中集成语言和空间信息,在包括VR/AR应用、导航在内的各个领域具有巨大的价值。近年来有许多相关的任务也被提出,包括3D目标检测、3D实例分割、指向性3D视觉定位任务等。3D实例分割涉及通过自然语言描述特定3D对象的识别和分割,由于3D点云的无序性和稀疏性,再加上场景和文本表述中存在复杂的空间和语义关系,使得学习过程变得更加复杂,因此这项任务既新颖又极具挑战性。
TGNN模型初步尝试解决指向性3D实例分割这一挑战性的任务;具体而言,TGNN模型将3D实例的实例特征与文本特征相结合,计算每个实例特征的匹配分数,从而识别文本表述中所引用的目标实例。尽管TGNN模型展示了卓越的性能,并采用了直接的算法,但它无法在文本表述中显式地确定核心实体的优先级,这最终会破坏指向性实例分割结果,此外TGNN模型忽略了文本表述中暗含的重要空间关系及其与3D场景中空间关系的一致性,即TGNN模型不能准确地捕捉3D场景中的复杂关系,导致次优指向性实例分割结果。
因此,如何提供一种基于文本信息的指向性3D实例分割方法,实现提升3D指向性实例分割精度,成为一个亟待解决的技术问题。
发明内容
本发明要解决的技术问题,在于提供一种基于文本信息的指向性3D实例分割方法,实现提升3D指向性实例分割精度。
本发明是这样实现的:一种基于文本信息的指向性3D实例分割方法,包括如下步骤:
步骤S1、创建并训练一3D实例分割模型,获取用于分割3D实例的描述文本以及待分割的3D实例;
步骤S2、通过所述3D实例分割模型提取3D实例的点云特征,提取所述描述文本的文本特征;
步骤S3、通过实体感知融合模块对所述点云特征以及文本特征进行融合得到融合特征,将所述融合特征结合3D实例的空间位置信息构建跨模态的场景图;
步骤S4、通过文本关系交互模块提取所述描述文本的第一相对位置信息,通过空间关系交互模块提取3D实例之间的第二相对位置信息,将所述第一相对位置信息以及第二相对位置信息融合进场景图;
步骤S5、计算所述场景图与描述文本的相似度得分,计算所述3D实例分割模型的预测特征与描述文本的匹配得分,基于所述相似度得分以及匹配得分对3D实例进行分割。
进一步的,所述步骤S2还包括:
预测所述3D实例的mask。
进一步的,所述步骤S2中,所述文本特征通过GRU模块或者BERT模型进行提取。
进一步的,所述步骤S3具体为:
通过实体感知融合模块对所述文本特征的各单词的词性进行判断,基于所述词性从文本特征中提取实体词特征,将所述实体词特征与点云特征进行融合得到融合特征,将所述融合特征结合3D实例的空间位置信息构建跨模态的场景图。
进一步的,所述步骤S4具体为:
通过文本关系交互模块提取所述描述文本中,与预设的关系词相关的特征信息,将所述特征信息与场景图中的各节点融合,再通过K近邻算法进行局部感知融合提取所述描述文本的第一相对位置信息;
通过空间关系交互模块提取3D实例之间的相对空间向量,进而获取第二相对位置信息;
将所述第一相对位置信息以及第二相对位置信息通过点乘的方式以及K近邻算法融合进场景图。
进一步的,所述步骤S5还包括:
通过所述相似度得分以及匹配得分计算交叉熵损失函数来优化3D实例分割模型。
本发明的优点在于:
通过创建并训练一3D实例分割模型,获取用于分割3D实例的描述文本以及待分割的3D实例,接着通过3D实例分割模型提取3D实例的点云特征,提取描述文本的文本特征,通过实体感知融合模块对点云特征以及文本特征进行融合得到融合特征,将融合特征结合3D实例的空间位置信息构建跨模态的场景图,接着通过文本关系交互模块提取描述文本的第一相对位置信息,通过空间关系交互模块提取3D实例之间的第二相对位置信息,将第一相对位置信息以及第二相对位置信息融合进场景图,最后计算场景图与描述文本的相似度得分,计算3D实例分割模型的预测特征与描述文本的匹配得分,基于相似度得分以及匹配得分对3D实例进行最优匹配,得到最符合描述文本的3D实例;通过对文本特征的各单词的词性进行判断,突出实体词特征,有助于对描述文本和3D实例之间的关系进行建模,从而能够准确构建特定3D实例的跨模态的场景图;通过提取第一相对位置信息以及第二相对位置信息并融合进场景图,使得场景图富含关系信息;通过基于相似度得分以及匹配得分对3D实例进行最优匹配,得到最符合描述文本的3D实例,有效结合了两种得分,并通过相似度得分以及匹配得分计算交叉熵损失函数来优化3D实例分割模型,最终极大的提升了3D指向性实例分割精度。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1是本发明一种基于文本信息的指向性3D实例分割方法的流程图。
图2是本发明与传统分割方法的对比示意图。
图3是本发明3D实例分割模型的网络结构示意图。
图4是本发明空间关系与相对象限空间的示意图。
图5是本发明与TGNN模型的分割效果对比示意图。
图6为本发明与TGNN模型的注意力分配效果对比示意图。
具体实施方式
本申请实施例中的技术方案,总体思路如下:通过对文本特征的各单词的词性进行判断,突出实体词特征,有助于对描述文本和3D实例之间的关系进行建模,从而能够准确构建特定3D实例的跨模态的场景图;通过提取第一相对位置信息以及第二相对位置信息并融合进场景图,使得场景图富含关系信息;通过基于相似度得分以及匹配得分对3D实例进行最优匹配,有效结合了两种得分,并通过相似度得分以及匹配得分计算交叉熵损失函数来优化3D实例分割模型,以提升3D指向性实例分割精度。
请参照图1至图6所示,本发明一种基于文本信息的指向性3D实例分割方法的较佳实施例,包括如下步骤:
步骤S1、创建并训练一3D实例分割模型,获取用于分割3D实例的描述文本以及待分割的3D实例;
步骤S2、通过所述3D实例分割模型提取3D实例的点云特征,提取所述描述文本的文本特征;
步骤S3、通过实体感知融合模块对所述点云特征以及文本特征进行融合得到融合特征,将所述融合特征结合3D实例的空间位置信息构建跨模态的场景图;
步骤S4、通过文本关系交互模块提取所述描述文本的第一相对位置信息,通过空间关系交互模块提取3D实例之间的第二相对位置信息,将所述第一相对位置信息以及第二相对位置信息融合进场景图;
步骤S5、计算所述场景图与描述文本的相似度得分,计算所述3D实例分割模型的预测特征与描述文本的匹配得分,基于所述相似度得分以及匹配得分对3D实例进行分割。
本发明为了处理传统方法无法在描述文本中显式地确定核心实体,并且忽略了描述文本中暗含的重要空间关系及其与3D实例中空间关系的一致性的问题。因此,本发明对每个单词的词性进行预测,构建了跨模态的场景图,然后通过局部感知,提取描述文本与3D实例中的相对位置关系,并将两种位置信息相结合,最后计算两种互补的预测得分,通过交叉熵损失进行训练,并计算最终得分来进行预测。
所述步骤S2还包括:
预测所述3D实例的mask,表示为,其对应的视觉特征表示为,用于后续与文本特征进行交互。
所述步骤S2中,所述文本特征通过GRU模块或者BERT模型进行提取;
还将所述文本特征输入词性分类器来预测每个单词为实体词、形容词、关系词或者不相关词的类别概率,计算公式如下:
;
其中,W1、W2、b1、b2均表示可学习参数;表示sigmoid激活函数;/>表示第t个单词的文本特征;/>,表示第t个单词属于实体词、形容词、关系词或者不相关词的权重概率;/>表示实体词;/>表示形容词;/>表示关系词;/>表示不相关词。
之后计算点云特征以及文本特征之间的注意力图:
;
;
其中,表示多层感知机;/>、/>、/>、/>、/>、/>均表示可学习参数;,r表示超参数;/>表示视觉特征;/>表示第t个单词与第i个3D实例的实体词相关系数;C表示3D实例的总数;n表示实例特征编号;
计算每个单词与3D实例之间的实体描述相关性:
;
其中,表示第t个单词与第n个实例在第j层次的相关性,在计算得到实体描述相关性之后,再聚合每个单词的特征得到整个句子对于3D实例的实体描述相关的语义特征,并通过双线性融合方法与实例的视觉特征/>相融合得到对应的跨模态特征/>:
;
;
其中,表示逐元素点乘;/>表示第/>个实例与文本表述中实体描述相关的文本特征,/>表示融合更新后的第/>个实例的跨模态特征,/>表示文本单词的数量,/>表示特征融合的层数,R表示特征维度信息;/>表示跨模态特征的维度,取值为256。
所述步骤S3具体为:
通过实体感知融合模块(Entity-Aware Fusion ,EAF)对所述文本特征的各单词的词性进行判断,基于所述词性从文本特征中提取实体词特征,能够准确识别所述描述文本中的实体词特征,将所述实体词特征与点云特征进行融合得到融合特征,将所述融合特征结合3D实例的空间位置信息构建跨模态的场景图。
基于空间中物体的相对位置关系以及先前得到的跨模态实例特征,首先构建跨模态的场景图G=(V,E,U),其中是一系列顶点,与每个3D实例中心相对应;代表边的类型;/>代表每个3D实例融合后的跨模态特征。其中,边的类型由顶点之间相对空间关系相对应,当归一化后顶点间距超过最大间距的0.25后,将边的类型设置为‘No Relation’,其他空间关系与相对象限空间对应具体如图4所示,之后再计算每个单词属于关系词的概率:
;
其中,W6、W7、b6、b7均表示可学习参数;表示LeakyReLU激活函数;
为了计算整个表述与特定边类型的相似度,将每个单词与边的相关性累加:
;
由此,场景图拓展为,其中/>,表示有向边权重,N表示边的类型数量,取值为9。
所述步骤S4具体为:
通过文本关系交互模块(Relation-Driven Interaction,RDI)提取所述描述文本中,与预设的关系词相关的特征信息,将所述特征信息与场景图中的各节点融合,再通过K近邻算法进行局部感知融合提取所述描述文本的第一相对位置信息;
通过空间关系交互模块提取3D实例之间的相对空间向量,进而获取第二相对位置信息;
将所述第一相对位置信息以及第二相对位置信息通过点乘的方式以及K近邻算法融合进场景图,有效增强特征融合并促进模型推理,使所述场景图富含上下文语义以及空间信息的跨模态特征。
为了充分利用描述文本中包含的位置信息,文本关系交互模块使用类似实体词特征融合的方式进行操作:
;
;
;
;
其中,表示第t个单词与第n个实例的相关性;/>表示第t个单词与第i个3D实例之间的位置关系相关性;/>表示第n个实例更新后的跨模态特征;/>表示整个描述文本与3D实例位置相关的文本特征;/>是实例/>的位置相关的跨模态特征。
之后借助有向边权重,结合近邻的3D实例与位置相关的不同方向的特征信息:
;
其中,表示着第i个3D实例的第k个近邻的有向边权重,一共与K个近邻交互;/>表示第k个近邻的位置相关的特征向量。
相对空间关系在定位描述文本所指向的物体时起着关键性的作用,而空间中的相对位置向量富含这部分的空间信息,空间关系交互模块通过对相对位置向量进行编码来提取信息:
;
其中,表示第i个实例的第k个近邻的中心坐标;[;]表示concatenate操作;/>表示欧氏距离。
随后,3D实例的空间位置特征结合相对位置向量与K个近邻进行交互:
;
;
其中,表示结合空间位置信息后的第i个实例的跨模态特征。
最后结合描述文本的位置信息特征与空间位置信息得到最终的跨模态特征:
。
所述步骤S5还包括:
通过所述相似度得分以及匹配得分计算交叉熵损失函数来优化3D实例分割模型。
所述步骤S5中,采用两种互补的目标函数来预测得分,一个是与全局文本特征(场景图)计算相似度,一个是直接预测相似度得分。就与全局文本特征计算相似度而言,首先使用最大池化得到全局文本特征:
;
然后通过计算余弦相似度得到相似度得分:
;
其中,,/>均表示转化矩阵;xi表示经过跨模态特征交互后得到的第i个实例特征,/>表示全局文本特征向量;Cn表示xi对应的特征维度;/>表示L2正则化。
此外,跨模态特征直接输入一个全连接层来预测相似度得分:
;
其中,均表示可学习参数;xi表示经过跨模态特征交互后得到的第i个实例特征。
最终的预测得分为对两个得分进行相加:
;
训练使用的损失函数是余弦损失与直接预测损失/>的加和:
;
这两个损失函数都是交叉熵损失。
实验验证:
本发明在ScanRefer数据集上进行实验,相比传统方法,本发明的性能有着显著提升,与TGNN相比,GRU和BERT实现了3.67% mIOU和2.14% mIOU的增长,GRU模式下Acc@0.25和Acc@0.5分别提高了4.85%和4.52%,BERT模式下Acc@0.25和Acc@0.5分别提高了2.83%和2.37%,在提高性能的同时,在训练时还节省了10G的显存。
本发明与SOTA方法在ScanRefer数据集上的比较如下:
综上所述,本发明的优点在于:
通过创建并训练一3D实例分割模型,获取用于分割3D实例的描述文本以及待分割的3D实例,接着通过3D实例分割模型提取3D实例的点云特征,提取描述文本的文本特征,通过实体感知融合模块对点云特征以及文本特征进行融合得到融合特征,将融合特征结合3D实例的空间位置信息构建跨模态的场景图,接着通过文本关系交互模块提取描述文本的第一相对位置信息,通过空间关系交互模块提取3D实例之间的第二相对位置信息,将第一相对位置信息以及第二相对位置信息融合进场景图,最后计算场景图与描述文本的相似度得分,计算3D实例分割模型的预测特征与描述文本的匹配得分,基于相似度得分以及匹配得分对3D实例进行最优匹配,得到最符合描述文本的3D实例;通过对文本特征的各单词的词性进行判断,突出实体词特征,有助于对描述文本和3D实例之间的关系进行建模,从而能够准确构建特定3D实例的跨模态的场景图;通过提取第一相对位置信息以及第二相对位置信息并融合进场景图,使得场景图富含关系信息;通过基于相似度得分以及匹配得分对3D实例进行最优匹配,得到最符合描述文本的3D实例,有效结合了两种得分,并通过相似度得分以及匹配得分计算交叉熵损失函数来优化3D实例分割模型,最终极大的提升了3D指向性实例分割精度。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (5)
1.一种基于文本信息的指向性3D实例分割方法,其特征在于:包括如下步骤:
步骤S1、创建并训练一3D实例分割模型,获取用于分割3D实例的描述文本以及待分割的3D实例;
步骤S2、通过所述3D实例分割模型提取3D实例的点云特征,提取所述描述文本的文本特征;
步骤S3、通过实体感知融合模块对所述点云特征以及文本特征进行融合得到融合特征,将所述融合特征结合3D实例的空间位置信息构建跨模态的场景图;
步骤S4、通过文本关系交互模块提取所述描述文本中,与预设的关系词相关的特征信息,将所述特征信息与场景图中的各节点融合,再通过K近邻算法进行局部感知融合提取所述描述文本的第一相对位置信息;
通过空间关系交互模块提取3D实例之间的相对空间向量,进而获取第二相对位置信息;
将所述第一相对位置信息以及第二相对位置信息通过点乘的方式以及K近邻算法融合进场景图;
步骤S5、计算所述场景图与描述文本的相似度得分,计算所述3D实例分割模型的预测特征与描述文本的匹配得分,基于所述相似度得分以及匹配得分对3D实例进行分割。
2.如权利要求1所述的一种基于文本信息的指向性3D实例分割方法,其特征在于:所述步骤S2还包括:
预测所述3D实例的mask。
3.如权利要求1所述的一种基于文本信息的指向性3D实例分割方法,其特征在于:所述步骤S2中,所述文本特征通过GRU模块或者BERT模型进行提取。
4.如权利要求1所述的一种基于文本信息的指向性3D实例分割方法,其特征在于:所述步骤S3具体为:
通过实体感知融合模块对所述文本特征的各单词的词性进行判断,基于所述词性从文本特征中提取实体词特征,将所述实体词特征与点云特征进行融合得到融合特征,将所述融合特征结合3D实例的空间位置信息构建跨模态的场景图。
5.如权利要求1所述的一种基于文本信息的指向性3D实例分割方法,其特征在于:所述步骤S5还包括:
通过所述相似度得分以及匹配得分计算交叉熵损失函数来优化3D实例分割模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410112132.7A CN117634486B (zh) | 2024-01-26 | 2024-01-26 | 一种基于文本信息的指向性3d实例分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410112132.7A CN117634486B (zh) | 2024-01-26 | 2024-01-26 | 一种基于文本信息的指向性3d实例分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117634486A true CN117634486A (zh) | 2024-03-01 |
CN117634486B CN117634486B (zh) | 2024-05-31 |
Family
ID=90032514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410112132.7A Active CN117634486B (zh) | 2024-01-26 | 2024-01-26 | 一种基于文本信息的指向性3d实例分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117634486B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118365659A (zh) * | 2024-06-20 | 2024-07-19 | 厦门大学 | 基于空间感知网络的三维指向性目标分割方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116152267A (zh) * | 2023-04-24 | 2023-05-23 | 中国民用航空飞行学院 | 基于对比性语言图像预训练技术的点云实例分割方法 |
CN117115824A (zh) * | 2023-05-29 | 2023-11-24 | 清华大学深圳国际研究生院 | 一种基于笔划区域分割策略的视觉文本检测方法 |
US20230394671A1 (en) * | 2020-10-30 | 2023-12-07 | Beijing Youzhuju Network Technology Co., Ltd. | Image segmentation method and apparatus, and device, and storage medium |
-
2024
- 2024-01-26 CN CN202410112132.7A patent/CN117634486B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230394671A1 (en) * | 2020-10-30 | 2023-12-07 | Beijing Youzhuju Network Technology Co., Ltd. | Image segmentation method and apparatus, and device, and storage medium |
CN116152267A (zh) * | 2023-04-24 | 2023-05-23 | 中国民用航空飞行学院 | 基于对比性语言图像预训练技术的点云实例分割方法 |
CN117115824A (zh) * | 2023-05-29 | 2023-11-24 | 清华大学深圳国际研究生院 | 一种基于笔划区域分割策略的视觉文本检测方法 |
Non-Patent Citations (3)
Title |
---|
CHANGLI WU 等: "3D-STMN: Dependency-Driven Superpoint-Text Matching Network for End-to-End 3D Referring Expression Segmentation", HTTPS://ARXIV/ABS/2308.16632V1, 31 August 2023 (2023-08-31), pages 1 - 11 * |
WEI JU 等: "TGNN: A Joint Semi-supervised Framework for Graph-level Classification", PROCEEDINGS OF THE THIRTY-FIRST INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE (IJCAI-22), 31 July 2022 (2022-07-31), pages 2122 - 2128 * |
ZHIPENG QIAN 等: "X-RefSeg3D: Enhancing Referring 3D Instance Segmentation via Structured Cross-Modal Graph Neural Networks", PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, vol. 38, no. 5, 24 March 2024 (2024-03-24), pages 4551 - 4559 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118365659A (zh) * | 2024-06-20 | 2024-07-19 | 厦门大学 | 基于空间感知网络的三维指向性目标分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117634486B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2024021394A1 (zh) | 全局特征与阶梯型局部特征融合的行人重识别方法及装置 | |
CN110909673B (zh) | 一种基于自然语言描述的行人再识别方法 | |
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN110609891A (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN114049381A (zh) | 一种融合多层语义信息的孪生交叉目标跟踪方法 | |
CN113204952A (zh) | 一种基于聚类预分析的多意图与语义槽联合识别方法 | |
CN113808166B (zh) | 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法 | |
CN116091551B (zh) | 一种基于多模态融合的目标检索跟踪方法及系统 | |
CN110889375A (zh) | 用于行为识别的隐双流协作学习网络及方法 | |
CN112925912B (zh) | 文本处理方法、同义文本召回方法及装置 | |
CN114677580B (zh) | 一种基于自适应增强自注意力网络的图像描述方法 | |
US20250013859A1 (en) | Data processing method and apparatus | |
CN117634486B (zh) | 一种基于文本信息的指向性3d实例分割方法 | |
CN112417890B (zh) | 一种基于多样化语义注意力模型的细粒度实体分类方法 | |
CN115082915B (zh) | 一种基于多模态特征的移动机器人视觉-语言导航方法 | |
CN112613451A (zh) | 一种跨模态文本图片检索模型的建模方法 | |
CN116472560A (zh) | 视觉对象的话语约束跟踪 | |
CN115100476B (zh) | 一种基于结构建模局部提议网络的细粒度分类方法 | |
CN116645501A (zh) | 一种基于候选谓词关系偏差的无偏场景图生成方法 | |
CN116383439A (zh) | 一种利用文本进行视频检索的方法及装置 | |
CN114357203B (zh) | 多媒体检索方法、装置及计算机设备 | |
CN115248877A (zh) | 一种基于多模态的轨迹文本匹配方法 | |
CN113469267A (zh) | 一种基于深度特征检索的文本图像字符识别方法与系统 | |
CN108427967B (zh) | 一种实时影像聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |