Nothing Special   »   [go: up one dir, main page]

CN117634486A - 一种基于文本信息的指向性3d实例分割方法 - Google Patents

一种基于文本信息的指向性3d实例分割方法 Download PDF

Info

Publication number
CN117634486A
CN117634486A CN202410112132.7A CN202410112132A CN117634486A CN 117634486 A CN117634486 A CN 117634486A CN 202410112132 A CN202410112132 A CN 202410112132A CN 117634486 A CN117634486 A CN 117634486A
Authority
CN
China
Prior art keywords
instance
text
features
position information
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410112132.7A
Other languages
English (en)
Other versions
CN117634486B (zh
Inventor
纪荣嵘
孙晓帅
钱志鹏
马祎炜
纪家沂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202410112132.7A priority Critical patent/CN117634486B/zh
Publication of CN117634486A publication Critical patent/CN117634486A/zh
Application granted granted Critical
Publication of CN117634486B publication Critical patent/CN117634486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了3D实例分割技术领域的一种基于文本信息的指向性3D实例分割方法,包括:步骤S1、创建3D实例分割模型,获取描述文本以及3D实例;步骤S2、提取3D实例的点云特征,提取描述文本的文本特征;步骤S3、对点云特征以及文本特征进行融合得到融合特征,将融合特征结合3D实例的空间位置信息构建跨模态的场景图;步骤S4、提取描述文本的第一相对位置信息,提取3D实例之间的第二相对位置信息,将第一相对位置信息以及第二相对位置信息融合进场景图;步骤S5、计算场景图与描述文本的相似度得分,计算3D实例分割模型的预测特征与描述文本的匹配得分,基于相似度得分、匹配得分对3D实例进行分割。本发明的优点:极大的提升了3D指向性实例分割精度。

Description

一种基于文本信息的指向性3D实例分割方法
技术领域
本发明涉及3D实例分割技术领域,特别指一种基于文本信息的指向性3D实例分割方法。
背景技术
考虑到现实生活场景是在三维(3D)空间中,因此,在3D环境中集成语言和空间信息,在包括VR/AR应用、导航在内的各个领域具有巨大的价值。近年来有许多相关的任务也被提出,包括3D目标检测、3D实例分割、指向性3D视觉定位任务等。3D实例分割涉及通过自然语言描述特定3D对象的识别和分割,由于3D点云的无序性和稀疏性,再加上场景和文本表述中存在复杂的空间和语义关系,使得学习过程变得更加复杂,因此这项任务既新颖又极具挑战性。
TGNN模型初步尝试解决指向性3D实例分割这一挑战性的任务;具体而言,TGNN模型将3D实例的实例特征与文本特征相结合,计算每个实例特征的匹配分数,从而识别文本表述中所引用的目标实例。尽管TGNN模型展示了卓越的性能,并采用了直接的算法,但它无法在文本表述中显式地确定核心实体的优先级,这最终会破坏指向性实例分割结果,此外TGNN模型忽略了文本表述中暗含的重要空间关系及其与3D场景中空间关系的一致性,即TGNN模型不能准确地捕捉3D场景中的复杂关系,导致次优指向性实例分割结果。
因此,如何提供一种基于文本信息的指向性3D实例分割方法,实现提升3D指向性实例分割精度,成为一个亟待解决的技术问题。
发明内容
本发明要解决的技术问题,在于提供一种基于文本信息的指向性3D实例分割方法,实现提升3D指向性实例分割精度。
本发明是这样实现的:一种基于文本信息的指向性3D实例分割方法,包括如下步骤:
步骤S1、创建并训练一3D实例分割模型,获取用于分割3D实例的描述文本以及待分割的3D实例;
步骤S2、通过所述3D实例分割模型提取3D实例的点云特征,提取所述描述文本的文本特征;
步骤S3、通过实体感知融合模块对所述点云特征以及文本特征进行融合得到融合特征,将所述融合特征结合3D实例的空间位置信息构建跨模态的场景图;
步骤S4、通过文本关系交互模块提取所述描述文本的第一相对位置信息,通过空间关系交互模块提取3D实例之间的第二相对位置信息,将所述第一相对位置信息以及第二相对位置信息融合进场景图;
步骤S5、计算所述场景图与描述文本的相似度得分,计算所述3D实例分割模型的预测特征与描述文本的匹配得分,基于所述相似度得分以及匹配得分对3D实例进行分割。
进一步的,所述步骤S2还包括:
预测所述3D实例的mask。
进一步的,所述步骤S2中,所述文本特征通过GRU模块或者BERT模型进行提取。
进一步的,所述步骤S3具体为:
通过实体感知融合模块对所述文本特征的各单词的词性进行判断,基于所述词性从文本特征中提取实体词特征,将所述实体词特征与点云特征进行融合得到融合特征,将所述融合特征结合3D实例的空间位置信息构建跨模态的场景图。
进一步的,所述步骤S4具体为:
通过文本关系交互模块提取所述描述文本中,与预设的关系词相关的特征信息,将所述特征信息与场景图中的各节点融合,再通过K近邻算法进行局部感知融合提取所述描述文本的第一相对位置信息;
通过空间关系交互模块提取3D实例之间的相对空间向量,进而获取第二相对位置信息;
将所述第一相对位置信息以及第二相对位置信息通过点乘的方式以及K近邻算法融合进场景图。
进一步的,所述步骤S5还包括:
通过所述相似度得分以及匹配得分计算交叉熵损失函数来优化3D实例分割模型。
本发明的优点在于:
通过创建并训练一3D实例分割模型,获取用于分割3D实例的描述文本以及待分割的3D实例,接着通过3D实例分割模型提取3D实例的点云特征,提取描述文本的文本特征,通过实体感知融合模块对点云特征以及文本特征进行融合得到融合特征,将融合特征结合3D实例的空间位置信息构建跨模态的场景图,接着通过文本关系交互模块提取描述文本的第一相对位置信息,通过空间关系交互模块提取3D实例之间的第二相对位置信息,将第一相对位置信息以及第二相对位置信息融合进场景图,最后计算场景图与描述文本的相似度得分,计算3D实例分割模型的预测特征与描述文本的匹配得分,基于相似度得分以及匹配得分对3D实例进行最优匹配,得到最符合描述文本的3D实例;通过对文本特征的各单词的词性进行判断,突出实体词特征,有助于对描述文本和3D实例之间的关系进行建模,从而能够准确构建特定3D实例的跨模态的场景图;通过提取第一相对位置信息以及第二相对位置信息并融合进场景图,使得场景图富含关系信息;通过基于相似度得分以及匹配得分对3D实例进行最优匹配,得到最符合描述文本的3D实例,有效结合了两种得分,并通过相似度得分以及匹配得分计算交叉熵损失函数来优化3D实例分割模型,最终极大的提升了3D指向性实例分割精度。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1是本发明一种基于文本信息的指向性3D实例分割方法的流程图。
图2是本发明与传统分割方法的对比示意图。
图3是本发明3D实例分割模型的网络结构示意图。
图4是本发明空间关系与相对象限空间的示意图。
图5是本发明与TGNN模型的分割效果对比示意图。
图6为本发明与TGNN模型的注意力分配效果对比示意图。
具体实施方式
本申请实施例中的技术方案,总体思路如下:通过对文本特征的各单词的词性进行判断,突出实体词特征,有助于对描述文本和3D实例之间的关系进行建模,从而能够准确构建特定3D实例的跨模态的场景图;通过提取第一相对位置信息以及第二相对位置信息并融合进场景图,使得场景图富含关系信息;通过基于相似度得分以及匹配得分对3D实例进行最优匹配,有效结合了两种得分,并通过相似度得分以及匹配得分计算交叉熵损失函数来优化3D实例分割模型,以提升3D指向性实例分割精度。
请参照图1至图6所示,本发明一种基于文本信息的指向性3D实例分割方法的较佳实施例,包括如下步骤:
步骤S1、创建并训练一3D实例分割模型,获取用于分割3D实例的描述文本以及待分割的3D实例;
步骤S2、通过所述3D实例分割模型提取3D实例的点云特征,提取所述描述文本的文本特征;
步骤S3、通过实体感知融合模块对所述点云特征以及文本特征进行融合得到融合特征,将所述融合特征结合3D实例的空间位置信息构建跨模态的场景图;
步骤S4、通过文本关系交互模块提取所述描述文本的第一相对位置信息,通过空间关系交互模块提取3D实例之间的第二相对位置信息,将所述第一相对位置信息以及第二相对位置信息融合进场景图;
步骤S5、计算所述场景图与描述文本的相似度得分,计算所述3D实例分割模型的预测特征与描述文本的匹配得分,基于所述相似度得分以及匹配得分对3D实例进行分割。
本发明为了处理传统方法无法在描述文本中显式地确定核心实体,并且忽略了描述文本中暗含的重要空间关系及其与3D实例中空间关系的一致性的问题。因此,本发明对每个单词的词性进行预测,构建了跨模态的场景图,然后通过局部感知,提取描述文本与3D实例中的相对位置关系,并将两种位置信息相结合,最后计算两种互补的预测得分,通过交叉熵损失进行训练,并计算最终得分来进行预测。
所述步骤S2还包括:
预测所述3D实例的mask,表示为,其对应的视觉特征表示为,用于后续与文本特征进行交互。
所述步骤S2中,所述文本特征通过GRU模块或者BERT模型进行提取;
还将所述文本特征输入词性分类器来预测每个单词为实体词、形容词、关系词或者不相关词的类别概率,计算公式如下:
其中,W1、W2、b1、b2均表示可学习参数;表示sigmoid激活函数;/>表示第t个单词的文本特征;/>,表示第t个单词属于实体词、形容词、关系词或者不相关词的权重概率;/>表示实体词;/>表示形容词;/>表示关系词;/>表示不相关词。
之后计算点云特征以及文本特征之间的注意力图:
其中,表示多层感知机;/>、/>、/>、/>、/>、/>均表示可学习参数;,r表示超参数;/>表示视觉特征;/>表示第t个单词与第i个3D实例的实体词相关系数;C表示3D实例的总数;n表示实例特征编号;
计算每个单词与3D实例之间的实体描述相关性:
其中,表示第t个单词与第n个实例在第j层次的相关性,在计算得到实体描述相关性之后,再聚合每个单词的特征得到整个句子对于3D实例的实体描述相关的语义特征,并通过双线性融合方法与实例的视觉特征/>相融合得到对应的跨模态特征/>
;
;
其中,表示逐元素点乘;/>表示第/>个实例与文本表述中实体描述相关的文本特征,/>表示融合更新后的第/>个实例的跨模态特征,/>表示文本单词的数量,/>表示特征融合的层数,R表示特征维度信息;/>表示跨模态特征的维度,取值为256。
所述步骤S3具体为:
通过实体感知融合模块(Entity-Aware Fusion ,EAF)对所述文本特征的各单词的词性进行判断,基于所述词性从文本特征中提取实体词特征,能够准确识别所述描述文本中的实体词特征,将所述实体词特征与点云特征进行融合得到融合特征,将所述融合特征结合3D实例的空间位置信息构建跨模态的场景图。
基于空间中物体的相对位置关系以及先前得到的跨模态实例特征,首先构建跨模态的场景图G=(V,E,U),其中是一系列顶点,与每个3D实例中心相对应;代表边的类型;/>代表每个3D实例融合后的跨模态特征。其中,边的类型由顶点之间相对空间关系相对应,当归一化后顶点间距超过最大间距的0.25后,将边的类型设置为‘No Relation’,其他空间关系与相对象限空间对应具体如图4所示,之后再计算每个单词属于关系词的概率:
其中,W6、W7、b6、b7均表示可学习参数;表示LeakyReLU激活函数;
为了计算整个表述与特定边类型的相似度,将每个单词与边的相关性累加:
由此,场景图拓展为,其中/>,表示有向边权重,N表示边的类型数量,取值为9。
所述步骤S4具体为:
通过文本关系交互模块(Relation-Driven Interaction,RDI)提取所述描述文本中,与预设的关系词相关的特征信息,将所述特征信息与场景图中的各节点融合,再通过K近邻算法进行局部感知融合提取所述描述文本的第一相对位置信息;
通过空间关系交互模块提取3D实例之间的相对空间向量,进而获取第二相对位置信息;
将所述第一相对位置信息以及第二相对位置信息通过点乘的方式以及K近邻算法融合进场景图,有效增强特征融合并促进模型推理,使所述场景图富含上下文语义以及空间信息的跨模态特征。
为了充分利用描述文本中包含的位置信息,文本关系交互模块使用类似实体词特征融合的方式进行操作:
其中,表示第t个单词与第n个实例的相关性;/>表示第t个单词与第i个3D实例之间的位置关系相关性;/>表示第n个实例更新后的跨模态特征;/>表示整个描述文本与3D实例位置相关的文本特征;/>是实例/>的位置相关的跨模态特征。
之后借助有向边权重,结合近邻的3D实例与位置相关的不同方向的特征信息:
其中,表示着第i个3D实例的第k个近邻的有向边权重,一共与K个近邻交互;/>表示第k个近邻的位置相关的特征向量。
相对空间关系在定位描述文本所指向的物体时起着关键性的作用,而空间中的相对位置向量富含这部分的空间信息,空间关系交互模块通过对相对位置向量进行编码来提取信息:
其中,表示第i个实例的第k个近邻的中心坐标;[;]表示concatenate操作;/>表示欧氏距离。
随后,3D实例的空间位置特征结合相对位置向量与K个近邻进行交互:
其中,表示结合空间位置信息后的第i个实例的跨模态特征。
最后结合描述文本的位置信息特征与空间位置信息得到最终的跨模态特征
所述步骤S5还包括:
通过所述相似度得分以及匹配得分计算交叉熵损失函数来优化3D实例分割模型。
所述步骤S5中,采用两种互补的目标函数来预测得分,一个是与全局文本特征(场景图)计算相似度,一个是直接预测相似度得分。就与全局文本特征计算相似度而言,首先使用最大池化得到全局文本特征:
然后通过计算余弦相似度得到相似度得分:
其中,,/>均表示转化矩阵;xi表示经过跨模态特征交互后得到的第i个实例特征,/>表示全局文本特征向量;Cn表示xi对应的特征维度;/>表示L2正则化。
此外,跨模态特征直接输入一个全连接层来预测相似度得分:
其中,均表示可学习参数;xi表示经过跨模态特征交互后得到的第i个实例特征。
最终的预测得分为对两个得分进行相加:
训练使用的损失函数是余弦损失与直接预测损失/>的加和:
这两个损失函数都是交叉熵损失。
实验验证:
本发明在ScanRefer数据集上进行实验,相比传统方法,本发明的性能有着显著提升,与TGNN相比,GRU和BERT实现了3.67% mIOU和2.14% mIOU的增长,GRU模式下Acc@0.25和Acc@0.5分别提高了4.85%和4.52%,BERT模式下Acc@0.25和Acc@0.5分别提高了2.83%和2.37%,在提高性能的同时,在训练时还节省了10G的显存。
本发明与SOTA方法在ScanRefer数据集上的比较如下:
综上所述,本发明的优点在于:
通过创建并训练一3D实例分割模型,获取用于分割3D实例的描述文本以及待分割的3D实例,接着通过3D实例分割模型提取3D实例的点云特征,提取描述文本的文本特征,通过实体感知融合模块对点云特征以及文本特征进行融合得到融合特征,将融合特征结合3D实例的空间位置信息构建跨模态的场景图,接着通过文本关系交互模块提取描述文本的第一相对位置信息,通过空间关系交互模块提取3D实例之间的第二相对位置信息,将第一相对位置信息以及第二相对位置信息融合进场景图,最后计算场景图与描述文本的相似度得分,计算3D实例分割模型的预测特征与描述文本的匹配得分,基于相似度得分以及匹配得分对3D实例进行最优匹配,得到最符合描述文本的3D实例;通过对文本特征的各单词的词性进行判断,突出实体词特征,有助于对描述文本和3D实例之间的关系进行建模,从而能够准确构建特定3D实例的跨模态的场景图;通过提取第一相对位置信息以及第二相对位置信息并融合进场景图,使得场景图富含关系信息;通过基于相似度得分以及匹配得分对3D实例进行最优匹配,得到最符合描述文本的3D实例,有效结合了两种得分,并通过相似度得分以及匹配得分计算交叉熵损失函数来优化3D实例分割模型,最终极大的提升了3D指向性实例分割精度。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (5)

1.一种基于文本信息的指向性3D实例分割方法,其特征在于:包括如下步骤:
步骤S1、创建并训练一3D实例分割模型,获取用于分割3D实例的描述文本以及待分割的3D实例;
步骤S2、通过所述3D实例分割模型提取3D实例的点云特征,提取所述描述文本的文本特征;
步骤S3、通过实体感知融合模块对所述点云特征以及文本特征进行融合得到融合特征,将所述融合特征结合3D实例的空间位置信息构建跨模态的场景图;
步骤S4、通过文本关系交互模块提取所述描述文本中,与预设的关系词相关的特征信息,将所述特征信息与场景图中的各节点融合,再通过K近邻算法进行局部感知融合提取所述描述文本的第一相对位置信息;
通过空间关系交互模块提取3D实例之间的相对空间向量,进而获取第二相对位置信息;
将所述第一相对位置信息以及第二相对位置信息通过点乘的方式以及K近邻算法融合进场景图;
步骤S5、计算所述场景图与描述文本的相似度得分,计算所述3D实例分割模型的预测特征与描述文本的匹配得分,基于所述相似度得分以及匹配得分对3D实例进行分割。
2.如权利要求1所述的一种基于文本信息的指向性3D实例分割方法,其特征在于:所述步骤S2还包括:
预测所述3D实例的mask。
3.如权利要求1所述的一种基于文本信息的指向性3D实例分割方法,其特征在于:所述步骤S2中,所述文本特征通过GRU模块或者BERT模型进行提取。
4.如权利要求1所述的一种基于文本信息的指向性3D实例分割方法,其特征在于:所述步骤S3具体为:
通过实体感知融合模块对所述文本特征的各单词的词性进行判断,基于所述词性从文本特征中提取实体词特征,将所述实体词特征与点云特征进行融合得到融合特征,将所述融合特征结合3D实例的空间位置信息构建跨模态的场景图。
5.如权利要求1所述的一种基于文本信息的指向性3D实例分割方法,其特征在于:所述步骤S5还包括:
通过所述相似度得分以及匹配得分计算交叉熵损失函数来优化3D实例分割模型。
CN202410112132.7A 2024-01-26 2024-01-26 一种基于文本信息的指向性3d实例分割方法 Active CN117634486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410112132.7A CN117634486B (zh) 2024-01-26 2024-01-26 一种基于文本信息的指向性3d实例分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410112132.7A CN117634486B (zh) 2024-01-26 2024-01-26 一种基于文本信息的指向性3d实例分割方法

Publications (2)

Publication Number Publication Date
CN117634486A true CN117634486A (zh) 2024-03-01
CN117634486B CN117634486B (zh) 2024-05-31

Family

ID=90032514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410112132.7A Active CN117634486B (zh) 2024-01-26 2024-01-26 一种基于文本信息的指向性3d实例分割方法

Country Status (1)

Country Link
CN (1) CN117634486B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118365659A (zh) * 2024-06-20 2024-07-19 厦门大学 基于空间感知网络的三维指向性目标分割方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152267A (zh) * 2023-04-24 2023-05-23 中国民用航空飞行学院 基于对比性语言图像预训练技术的点云实例分割方法
CN117115824A (zh) * 2023-05-29 2023-11-24 清华大学深圳国际研究生院 一种基于笔划区域分割策略的视觉文本检测方法
US20230394671A1 (en) * 2020-10-30 2023-12-07 Beijing Youzhuju Network Technology Co., Ltd. Image segmentation method and apparatus, and device, and storage medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230394671A1 (en) * 2020-10-30 2023-12-07 Beijing Youzhuju Network Technology Co., Ltd. Image segmentation method and apparatus, and device, and storage medium
CN116152267A (zh) * 2023-04-24 2023-05-23 中国民用航空飞行学院 基于对比性语言图像预训练技术的点云实例分割方法
CN117115824A (zh) * 2023-05-29 2023-11-24 清华大学深圳国际研究生院 一种基于笔划区域分割策略的视觉文本检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHANGLI WU 等: "3D-STMN: Dependency-Driven Superpoint-Text Matching Network for End-to-End 3D Referring Expression Segmentation", HTTPS://ARXIV/ABS/2308.16632V1, 31 August 2023 (2023-08-31), pages 1 - 11 *
WEI JU 等: "TGNN: A Joint Semi-supervised Framework for Graph-level Classification", PROCEEDINGS OF THE THIRTY-FIRST INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE (IJCAI-22), 31 July 2022 (2022-07-31), pages 2122 - 2128 *
ZHIPENG QIAN 等: "X-RefSeg3D: Enhancing Referring 3D Instance Segmentation via Structured Cross-Modal Graph Neural Networks", PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, vol. 38, no. 5, 24 March 2024 (2024-03-24), pages 4551 - 4559 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118365659A (zh) * 2024-06-20 2024-07-19 厦门大学 基于空间感知网络的三维指向性目标分割方法

Also Published As

Publication number Publication date
CN117634486B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN111695415B (zh) 图像识别方法及相关设备
CN109508654A (zh) 融合多任务和多尺度卷积神经网络的人脸分析方法及系统
CN109241834A (zh) 一种基于隐变量的嵌入的群体行为识别方法
CN113744311A (zh) 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
CN110942471A (zh) 一种基于时空约束的长时目标跟踪方法
CN113554679A (zh) 一种面向计算机视觉应用的无锚框目标跟踪算法
CN117252904B (zh) 基于长程空间感知与通道增强的目标跟踪方法与系统
CN117634486B (zh) 一种基于文本信息的指向性3d实例分割方法
Zao et al. Topology-Guided Road Graph Extraction From Remote Sensing Images
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN118096819A (zh) 一种基于时空联合的无人机图像目标跟踪方法
CN115248877B (zh) 一种基于多模态的轨迹文本匹配方法
CN115830643B (zh) 一种姿势引导对齐的轻量行人重识别方法
CN114821074B (zh) 机载liDAR点云语义分割方法、电子设备及存储介质
CN116912486A (zh) 基于边缘卷积和多维特征融合的目标分割方法、电子装置
CN116246305A (zh) 一种基于混合部件变换网络的行人检索方法
CN113792660A (zh) 基于改进YOLOv3网络的行人检测方法、系统、介质、设备
CN114648762A (zh) 语义分割方法、装置、电子设备和计算机可读存储介质
CN112487927A (zh) 一种基于物体关联注意力的室内场景识别实现方法及系统
CN117593527B (zh) 一种基于链式感知的指向性3d实例分割方法
Qie et al. UAV-Satellite Cross-View Image Matching Based on Siamese Network
CN116758461B (zh) 基于神经网络的排球比赛智能判罚方法、设备及存储介质
CN114937062B (zh) 一种基于深度学习的无人机目标跟踪系统
CN114529577B (zh) 一种路侧视角多目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant