Nothing Special   »   [go: up one dir, main page]

CN107562812B - 一种基于特定模态语义空间建模的跨模态相似性学习方法 - Google Patents

一种基于特定模态语义空间建模的跨模态相似性学习方法 Download PDF

Info

Publication number
CN107562812B
CN107562812B CN201710684763.6A CN201710684763A CN107562812B CN 107562812 B CN107562812 B CN 107562812B CN 201710684763 A CN201710684763 A CN 201710684763A CN 107562812 B CN107562812 B CN 107562812B
Authority
CN
China
Prior art keywords
modal
text
modality
cross
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710684763.6A
Other languages
English (en)
Other versions
CN107562812A (zh
Inventor
彭宇新
綦金玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201710684763.6A priority Critical patent/CN107562812B/zh
Publication of CN107562812A publication Critical patent/CN107562812A/zh
Application granted granted Critical
Publication of CN107562812B publication Critical patent/CN107562812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于特定模态语义空间建模的跨模态相似性学习方法,包括以下步骤:1.建立跨模态数据库,其中包含多种模态类型数据,并将数据库中的数据分为训练集、测试集和验证集。2.针对跨模态数据库中的每种模态类型,构造针对该特定模态的语义空间,将其他模态类型数据投射到该语义空间,得到针对该特定模态的跨模态相似度。3.将从不同模态语义空间得到的针对特定模态的跨模态相似度进行融合,得到最终跨模态相似度。4.取测试集中的任意一种模态类型作为查询模态,以另一种模态类型作为目标模态,计算查询样例和查询目标的相似性,根据相似性得到目标模态数据的相关结果列表。本发明能够提高跨模态检索的准确率。

Description

一种基于特定模态语义空间建模的跨模态相似性学习方法
技术领域
本发明涉及多媒体检索领域,具体涉及一种基于特定模态语义空间建模的跨模态相似性学习方法。
背景技术
如今,包括图像、视频、文本和音频在内的多模态数据在互联网上广泛存在,这些多模态数据是帮助人工智能认知现实世界的基础。一些研究工作已经在尝试打破不同模态数据之间的异构鸿沟,而跨模态检索作为其中一个热点的研究问题,可以实现跨越不同模态数据的信息检索,而且具有广泛的实际应用需求,例如搜索引擎和数字图书馆等。传统的单模态检索,例如图像检索、视频检索等,都局限于单一模态的形式,只能返回与查询相同模态类型的检索结果。与之不同的是,跨模态检索更加方便与有用,可以通过任意模态类型的查询检索得到不同模态的检索结果。
跨模态检索的一大挑战是如何应对不同模态的不一致性,并学习其间的内在关联。由于不同模态数据具有多种多样的表示形式以及分布特性,并且分散在各自的特征空间,这种异构特性使得度量不同模态之间的相似性十分困难,例如一幅图像和一段音频之间的相似性。针对上述问题,研究人员提出了一些方法,将不同模态数据的特征表示投射到同一个统一空间来学习统一表征,从而不同模态数据之间的相似性可以通过计算其对应统一表征之间距离来得到。传统方法通过为不同模态数据学习映射矩阵来最大化其间的关联,例如通过典型相关分析(Canonical Correlation Analysis,简称CCA)来分析不同模态数据之间成对的关联关系,将不同模态数据映射到同一维度的公共子空间。此外,Zhai等人在文献“Learning Cross-Media Joint Representation with Sparse and Semi-Supervised Regularization”中提出了基于图规约的方法,为不同模态数据构造图模型,同时进行跨模态关联学习和高层语义抽象。
近年来,深度学习取得的巨大进展促使研究人员使用深度神经网络来建模不同模态数据之间的关联关系,Feng等人在文献“Cross-modal Retrieval with CorrespondenceAutoencoder”中提出对应自编码器(Correspondence Autoencoder,简称Corr-AE),通过构建两路相连的网络结构,同时建模不同模态数据的关联关系和重建信息。Peng等人在文献“Cross-media shared representation by hierarchical learning with multipledeep networks”提出了跨模态多网络结构模型(Cross-media Multiple Deep Network,简称CMDN),其在单模态分离表示学习阶段同时建模模态内的语义信息以及不同模态之间的关联信息,然后在统一表征学习阶段构建多层网络结构,融合单模态语义抽象表示和单模态关联表示,并使用层叠学习的方式同时建模重建和关联信息学习得到跨模态统一表征。
然而上述现有方法大都是将不同模态的数据通过映射矩阵或深度模型同等地投射到统一空间来挖掘其间潜在的对齐关系,这意味着从不同模态数据中挖掘的信息是等量的。但一般来讲,不同模态数据,例如图像和文本,其间的关系往往是不平等而且互补的。当它们共同描述同一语义时,可能会包含不等量的信息,因为某些模态内部独有的信息并不能很好的与其他模态表述的内容进行对齐。因此,同等地对待不同模态数据来挖掘潜在的细粒度对齐内容并构建一个统一空间,会损失模态内独有且有用的信息,而不能充分利用每种模态提供的丰富的内在信息。
发明内容
针对现有技术的不足,本发明提出了一种基于特定模态语义空间建模的跨模态相似性学习方法,构造针对特定模态的语义空间,对该特定模态数据训练循环注意力网络,建模模态内部的细粒度信息以及空间上下文信息,然后通过基于注意力机制的联合关联学习将其他模态数据投射到该模态的语义空间,充分学习不同模态之间不平衡的关联信息,最后使用动态融合的方式将从不同模态语义空间得到的针对特定模态的跨模态相似度进行融合,进一步挖掘不同模态语义空间的互补性,提高了跨模态检索的准确率。
为达到以上目的,本发明采用的技术方案如下:
一种基于特定模态语义空间建模的跨模态相似性学习方法,用于构造针对特定模态的语义空间,并将从不同模态语义空间得到的针对特定模态的跨模态相似度进行融合,得到不同模态数据的相似度,从而实现跨模态检索,包括以下步骤,其中步骤(1)-(3)得到跨模态相似度,步骤(4)进一步实现跨模态检索:
(1)建立跨模态数据库,其中包含多种模态类型的数据;
(2)针对跨模态数据库中的每种模态类型,构造针对该特定模态的语义空间,将其他模态类型数据投射到该语义空间,得到针对该特定模态的跨模态相似度;
(3)将从不同模态的语义空间得到的针对特定模态的跨模态相似度进行融合,得到最终跨模态相似度;
(4)使用任意一种模态类型作为查询模态,以另一种模态类型作为目标模态,将查询模态的每个数据作为查询样例,检索目标模态中的数据,计算查询样例和查询目标的相似性,根据相似性得到目标模态数据的相关结果列表。
进一步,上述一种基于特定模态语义空间建模的跨模态相似性学习方法,所述步骤(1)跨模态数据库可以包含多种模态类型,例如图像、文本等。
进一步,上述一种基于特定模态语义空间建模的跨模态相似性学习方法,所述步骤(2)的针对特定模态的语义空间构造方法,对该特定模态数据训练循环注意力网络,然后通过基于注意力机制的联合关联学习将其他模态类型数据投射到该模态的语义空间,得到针对该特定模态的跨模态相似度。
进一步,上述一种基于特定模态语义空间建模的跨模态相似性学习方法,所述步骤(3)中跨模态相似度学习方法,使用动态融合的方式将从不同模态语义空间得到的针对特定模态的跨模态相似度进行融合。
进一步,上述一种基于特定模态语义空间建模的跨模态相似性学习方法,所述步骤(4)的检索方式是,使用一种模态类型作为查询模态,另外一种模态类型作为目标模态。对于查询模态的每个数据作为查询样例,按照步骤(3)计算得到相似性之后,与目标模态的所有数据计算相似性,然后按照相似性从大到小排序,得到相关结果列表。
本发明的效果在于:与现有方法相比,本方法通过构造针对特定模态的语义空间,能够充分建模模态内部的细粒度信息以及空间上下文信息,然后通过基于注意力机制的联合关联学习,充分学习不同模态之间不平衡的关联信息,最后使用动态融合的方式进一步挖掘不同模态语义空间的互补性,提高了跨模态检索的准确率。
本方法之所以具有上述发明效果,其原因在于:针对特定模态的语义空间,对该特定模态数据训练循环注意力网络,建模模态内部的细粒度信息以及空间上下文信息,然后通过基于注意力机制的联合关联学习将其他模态类型数据投射到该模态的语义空间,充分学习不同模态之间不平衡的关联信息,最后使用动态融合的方式,将从不同模态语义空间得到的针对特定模态的跨模态相似度进行融合,进一步挖掘不同模态语义空间的互补性,提高了跨模态检索的准确率。
附图说明
图1是本发明的一种基于特定模态语义空间建模的跨模态相似性学习方法流程图。
图2是本发明的完整网络结构的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述。
本发明的一种基于特定模态语义空间建模的跨模态相似性学习方法,其流程如图1所示,包含以下步骤:
(1)建立跨模态数据库,其中包含多种模态类型的数据,并将数据库中的数据分为训练集、测试集和验证集。
本实施例中,所述跨模态数据库可以包含多种模态类型,包括图像、文本。
用D表示跨模态数据集,D={D(i),D(t)},其中
Figure BDA0001376408910000041
对于媒体类型r,其中r=i,t(i表示图像,t表示文本),定义n(r)为其数据个数。训练集中的每个数据有且只有一个语义类别。
定义
Figure BDA0001376408910000042
为媒体类型r中的第p个数据的特征向量,其表示结构为一个d(r)×1的向量,其中d(r)表示媒体类型r的特征向量维度。
定义
Figure BDA0001376408910000043
的语义标签定为
Figure BDA0001376408910000044
其表示结构为一个c×1的向量,其中c表示语义类别的总量。
Figure BDA0001376408910000045
中有且只有一维为1,其余为0,表示该数据的语义类别为值是1的列所对应的标签。
(2)针对跨模态数据库中的每种模态类型,构造针对该特定模态的语义空间,将其他模态类型数据投射到该语义空间,得到针对该特定模态的跨模态相似度。
该步骤的过程如图2所示。本实施例中,针对图像语义空间构造,使用循环注意力网络模型建模图像数据,首先将原始图像缩放至256×256,并输入到卷积神经网络中。然后从卷积神经网络最后一个池化层(pooling layer)为图像不同的区域提取各自的特征表示
Figure BDA0001376408910000046
并将一个图像中的各个区域按顺序组织成一个序列,使用LSTM(Long-ShortTerm Memory,长短期记忆)神经网络建模不同图像区域之间的空间上下文信息,其输出的序列可以表示为
Figure BDA0001376408910000047
接着利用注意力机制使训练模型聚焦于更重要的图像区域,具体地,构造全连接网络和Softmax激活层,通过如下公式计算视觉注意力权重:
Figure BDA0001376408910000048
Figure BDA0001376408910000049
其中
Figure BDA00013764089100000410
Figure BDA00013764089100000411
为各层的网络参数,而ai包含图像中不同区域的视觉注意力权重。因此,一个图像中第n个区域的特征向量可以表示为
Figure BDA00013764089100000412
(如图2中图像语义空间中的
Figure BDA00013764089100000413
所示),同时包含了图像的局部细粒度信息以及空间上下文信息。下一步,将文本数据投射到图像语义空间来进行跨模态关联学习。具体地,先为文本数据中的每个词提取k维的词向量特征,然后包含n个词的一个文本可以表示为n×k的矩阵,输入到文本卷积神经网络得到该句话的特征表示
Figure BDA0001376408910000051
接着图像ip和文本tp在图像语义空间的跨模态相似度定义如下(如图2中图像语义空间中的
Figure BDA0001376408910000052
所示):
Figure BDA0001376408910000053
其中
Figure BDA0001376408910000054
表示图像ip中的第j个区域特征向量。最后定义如下损失函数实现基于注意力的关联学习:
Figure BDA0001376408910000055
上述公式的两项分别定义如下:
Figure BDA0001376408910000056
Figure BDA0001376408910000057
其中
Figure BDA0001376408910000058
表示匹配的图像/文本对,
Figure BDA0001376408910000059
Figure BDA00013764089100000510
表示不匹配的图像/文本对,α是边界参数,而N表示采样的三元组数目。至此,从图像语义空间可以得到针对图像模态的跨模态相似度simi,整合了表示学习和相似度度量学习过程,同时充分建模了图像内部的细粒度信息以及不同模态之间不平衡的关联信息。
本实施例中,针对文本语义空间构造,使用循环注意力网络模型建模文本数据,先对于每一个文本数据,为其中每个词提取k维的词向量特征,则一个包含n个词的文本可以表示为n×k的矩阵,输入到文本卷积神经网络,并从网络最后一个池化层(pooling layer)提取不同文本块的特征表示。然后按顺序输入到LSTM神经网络中,来建模文本的上下文信息,其输出的序列可以表示为
Figure BDA00013764089100000511
接着利用注意力机制使训练模型聚焦于更重要的文本片段,具体地,构造全连接网络和Softmax激活层,通过如下公式计算文本注意力权重:
Figure BDA00013764089100000512
Figure BDA00013764089100000513
其中
Figure BDA00013764089100000514
Figure BDA00013764089100000515
为各层的网络参数,而at包含文本中不同片段的文本注意力权重。因此,一个文本中第m个片段的特征向量可以表示为
Figure BDA00013764089100000516
(如图2中文本语义空间中的
Figure BDA00013764089100000517
所示),同时包含了文本的局部细粒度信息以及空间上下文信息。下一步,将图像数据投射到文本语义空间来进行跨模态关联学习。具体地,先使用卷积神经网络提取图像整体的特征表示
Figure BDA0001376408910000061
接着图像ip和文本tp在文本语义空间的跨模态相似度定义如下(如图2中文本语义空间中的
Figure BDA0001376408910000062
所示):
Figure BDA0001376408910000063
其中
Figure BDA0001376408910000064
表示文本tp中的第j个片段特征向量。最后定义如下损失函数实现基于注意力的关联学习:
Figure BDA0001376408910000065
上述公式的两项分别定义如下:
Figure BDA0001376408910000066
Figure BDA0001376408910000067
其中
Figure BDA0001376408910000068
表示匹配的图像/文本对,
Figure BDA0001376408910000069
Figure BDA00013764089100000610
表示不匹配的图像/文本对,β是边界参数,而M表示采样的三元组数目。至此,从该文本语义空间可以得到针对文本模态的跨模态相似度simt,整合了表示学习和相似度度量学习过程,同时充分建模了文本内部的细粒度信息以及不同模态之间不平衡的关联信息。
(3)将从不同模态语义空间得到的针对特定模态的跨模态相似度进行融合,得到最终跨模态相似度。
本实施例中,使用动态融合的方式将从不同模态语义空间得到的针对特定模态的跨模态相似度进行融合。首先,将从不同模态语义空间得到的针对特定模态的跨模态相似度按照如下的公式归一到0到1之间:
Figure BDA00013764089100000611
Figure BDA00013764089100000612
然后,对于图像/文本对(ip,tp),从图像语义空间计算得到归一化后的得分会作为该图像/文本对在文本空间的动态权重,而从文本语义空间计算得到归一化后的得分会作为该图像/文本对在图像空间的动态权重。因此,最终的跨模态相似度定义如下:
Sim(ip,tp)=rt(ip,tp)·simi(ip,tp)+ri(ip,tp)·simt(ip,tp)
能够充分地挖掘不同模态语义空间的互补性,并进一步提升跨模态检索的效果。
(4)使用测试集中的任意一种模态类型作为查询模态,以另一种模态类型作为目标模态。将查询模态的每个数据作为查询样例,检索目标模态中的数据,按照步骤(3)中的方式,计算查询样例和查询目标的相似性,将相似性按照从大到小排序,得到目标模态数据的相关结果列表。
下面的实验结果表明,与现有方法相比,本发明基于多粒度层级网络的跨模态关联学习方法,可以取得更高的检索准确率。
本实施例采用了Wikipedia跨模态数据集进行实验,该数据集由文献“A NewApproach to Cross-Modal Multimedia Retrieval”(作者N.Rasiwasia,J.Pereira,E.Coviello,G.Doyle,G.Lanckriet,R.Levy和N.Vasconcelos,发表在2010年的ACMinternational conference on Multimedia)提出,其中包括2866段文本和2866张图像,且文本和图像是一一对应的,总共分为10个类别,其中2173段文本和2173张图像作为训练集,231段文本和231张图像作为验证集,492段文本和492张图像作为测试集。测试了以下3种方法作为实验对比:
现有方法一:文献“Learning Cross-Media Joint Representation with Sparseand Semi-Supervised Regularization”(作者X.Zhai,Y.Peng,and J.Xiao)中的联合表示学习(Joint Representation Learning,简称JRL)方法,为不同模态数据构建图模型,同时进行跨模态关联学习和高层语义抽象,并且引入稀疏和半监督规约。
现有方法二:文献“Cross-modal Retrieval with CorrespondenceAutoencoder”(作者F.Feng,X.Wang,and R.Li)中的对应自编码器网络(CorrespondenceAutoencoder,简称Corr-AE)方法,构建了两路网络,并在中间层相连以同时建模关联信息与重建信息。
现有方法三:文献“Cross-media shared representation by hierarchicallearning with multiple deep networks”(作者Y.Peng,X.Huang,and J.Qi)中的跨模态多网络结构(Cross-media Multiple Deep Network,简称CMDN),在单模态分离表示学习阶段同时建模模态内的语义信息以及不同模态之间的关联信息,然后在统一表征学习阶段构建多层网络结构,并使用层叠学习的方式同时建模重建和关联信息学习得到跨模态统一表征。
本发明:本实施例的方法。
实验采用信息检索领域常用的MAP(mean average precision)指标来评测跨模态检索的准确性,MAP是指每个查询样例检索准确性的平均值,MAP值越大,说明跨模态检索的结果就越好。
表1.本发明的实验结果展示
图像查询文本 文本查询图像 平均
现有方法一 0.479 0.428 0.454
现有方法二 0.442 0.429 0.436
现有方法三 0.487 0.427 0.457
本发明 0.516 0.458 0.487
从表1可以看出,本发明在图像查询文本、文本查询图像两个任务中都比现有方法取得了较大提高。现有方法一在传统框架下构建图模型将不同模态数据线性映射到统一空间,难以充分建模复杂的跨模态关联关系。现有方法二和现有方法三均采用深度网络结构,但是将不同模态的数据通过深度模型同等地投射到统一空间来挖掘其间潜在的对齐关联,会损失模态内独有且有用的信息,而不能充分利用每种模态提供的内在信息。本发明一方面构造针对特定模态的语义空间,建模模态内部的细粒度信息以及空间上下文信息,同时充分学习不同模态之间不平衡的关联信息。另一方面,使用动态融合的方式将从不同模态语义空间得到的针对特定模态的跨模态相似度进行融合,进一步挖掘不同模态语义空间的互补性,从而提高了跨模态检索的准确率。
在其它实施例中,本发明步骤(2)中的构造特定模态语义空间的方法,使用LSTM(Long-Short Term Memory,长短期记忆)神经网络建模图像和文本数据的上下文信息,同样可以采用循环神经网络(Recurrent Neural Network,简称RNN)作为替代。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种基于特定模态语义空间建模的跨模态相似性学习方法,包括以下步骤:
(1)建立跨模态数据库,其中包含多种模态类型的数据;
(2)针对跨模态数据库中的每种模态类型,构造针对该特定模态的语义空间,对特定模态的数据训练循环注意力网络,通过循环注意力网络建模模态内部的细粒度信息以及空间上下文信息,通过基于注意力机制的联合关联学习将其他模态类型数据投射到该语义空间,得到针对该特定模态的跨模态相似度;其中模态内部的细粒度信息包括图像不同区域的特征和不同文本块的特征;
(3)将从不同模态的语义空间得到的针对特定模态的跨模态相似度进行融合,得到最终的跨模态相似度;
所述跨模态数据库包含多种模态类型,所述多种模态类型包括图像、文本;
步骤(2)中图像语义空间的构造方法为:
a)将原始图像并输入到卷积神经网络中;
b)从卷积神经网络最后一个池化层为图像不同的区域提取各自的特征表示
Figure FDA0002731008820000011
并将一个图像中的各个区域按顺序组织成一个序列,使用LSTM神经网络或RNN神经网络建模不同图像区域之间的空间上下文信息,其输出的序列表示为
Figure FDA0002731008820000012
c)利用注意力机制使训练模型聚焦于重要的图像区域,首先构造全连接网络和Softmax激活层,然后通过如下公式计算视觉注意力权重:
Figure FDA0002731008820000013
Figure FDA0002731008820000014
其中
Figure FDA0002731008820000015
Figure FDA0002731008820000016
为各层的网络参数,而ai包含图像中不同区域的视觉注意力权重,因此,一个图像中第n个区域的特征向量表示为
Figure FDA0002731008820000017
同时包含了图像的局部细粒度信息以及空间上下文信息;
d)将文本数据投射到图像语义空间来进行跨模态关联学习,首先为文本数据中的每个词提取k维的词向量特征,然后包含n个词的一个文本表示为n×k的矩阵,输入到文本卷积神经网络得到该文本的特征表示
Figure FDA0002731008820000018
接着定义图像ip和文本tp在图像语义空间的跨模态相似度如下:
Figure FDA0002731008820000019
其中
Figure FDA0002731008820000021
表示图像ip中的第j个区域特征向量;
e)定义如下损失函数实现基于注意力的关联学习:
Figure FDA0002731008820000022
上述公式中的两项分别定义如下:
Figure FDA0002731008820000023
Figure FDA0002731008820000024
其中
Figure FDA0002731008820000025
表示匹配的图像/文本对,
Figure FDA0002731008820000026
Figure FDA0002731008820000027
表示不匹配的图像/文本对,α是边界参数,而N表示采样的三元组数目;
步骤(2)中文本语义空间的构造方法为:
a)对于每一个文本数据,为其中每个词提取k维的词向量特征,则一个包含n个词的文本表示为n×k的矩阵,输入到文本卷积神经网络;
b)从卷积神经网络最后一个池化层提取不同文本块的特征表示,然后按顺序输入到LSTM神经网络或RNN神经网络中,来建模文本的上下文信息,其输出的序列表示为
Figure FDA0002731008820000028
c)利用注意力机制使训练模型聚焦于重要的文本片段,首先构造全连接网络和Softmax激活层,然后通过如下公式计算文本注意力权重:
Figure FDA0002731008820000029
Figure FDA00027310088200000210
其中
Figure FDA00027310088200000211
Figure FDA00027310088200000212
为各层的网络参数,而at包含文本中不同片段的文本注意力权重,因此一个文本中第m个片段的特征向量表示为
Figure FDA00027310088200000213
同时包含了文本的局部细粒度信息以及空间上下文信息;
d)将图像数据投射到文本语义空间来进行跨模态关联学习,首先使用卷积神经网络提取图像整体的特征表示
Figure FDA00027310088200000214
接着定义图像ip和文本tp在文本语义空间的跨模态相似度如下:
Figure FDA00027310088200000215
其中
Figure FDA00027310088200000216
表示文本tp中的第j个片段特征向量;
e)定义如下损失函数实现基于注意力的关联学习:
Figure FDA0002731008820000031
上述公式中的两项分别定义如下:
Figure FDA0002731008820000032
Figure FDA0002731008820000033
其中
Figure FDA0002731008820000034
表示匹配的图像/文本对,
Figure FDA0002731008820000035
Figure FDA0002731008820000036
表示不匹配的图像/文本对,β是边界参数,而M表示采样的三元组数目。
2.如权利要求1所述的方法,其特征在于,步骤(3)使用动态融合的方式将从不同模态语义空间得到的针对特定模态的跨模态相似度进行融合,包括以下步骤:首先,将从不同模态语义空间得到的针对特定模态的跨模态相似度按照如下的公式归一到0到1之间:
Figure FDA0002731008820000037
Figure FDA0002731008820000038
然后,对于图像/文本对(ip,tp),从图像语义空间计算得到归一化后的得分作为该图像/文本对在文本空间的动态权重,而从文本语义空间计算得到归一化后的得分会作为该图像/文本对在图像空间的动态权重;最终的跨模态相似度定义如下:
Sim(ip,tp)=rt(ip,tp)·simi(ip,tp)+ri(ip,tp)·simt(ip,tp)。
3.一种跨模态检索方法,包括以下步骤:
1)采用权利要求1或2所述方法计算跨模态相似度;
2)使用一种模态类型作为查询模态,以另一种模态类型作为目标模态,将查询模态的每个数据作为查询样例检索目标模态中的数据,计算查询样例和查询目标的相似性,根据相似性得到目标模态数据的检索结果。
4.如权利要求3所述的方法,其特征在于,步骤2)计算得到查询样例和查询目标的相似性之后,按照相似性从大到小排序,得到相关结果列表。
CN201710684763.6A 2017-08-11 2017-08-11 一种基于特定模态语义空间建模的跨模态相似性学习方法 Active CN107562812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710684763.6A CN107562812B (zh) 2017-08-11 2017-08-11 一种基于特定模态语义空间建模的跨模态相似性学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710684763.6A CN107562812B (zh) 2017-08-11 2017-08-11 一种基于特定模态语义空间建模的跨模态相似性学习方法

Publications (2)

Publication Number Publication Date
CN107562812A CN107562812A (zh) 2018-01-09
CN107562812B true CN107562812B (zh) 2021-01-15

Family

ID=60975314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710684763.6A Active CN107562812B (zh) 2017-08-11 2017-08-11 一种基于特定模态语义空间建模的跨模态相似性学习方法

Country Status (1)

Country Link
CN (1) CN107562812B (zh)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256631A (zh) * 2018-01-26 2018-07-06 深圳市唯特视科技有限公司 一种基于注意力模型的用户行为推荐系统
EP3547226A1 (en) * 2018-03-28 2019-10-02 Koninklijke Philips N.V. Cross-modal neural networks for prediction
CN108415819B (zh) * 2018-03-15 2021-05-25 中国人民解放军国防科技大学 一种硬盘故障追踪方法和装置
CN108829719B (zh) * 2018-05-07 2022-03-01 中国科学院合肥物质科学研究院 一种非事实类问答答案选择方法及系统
CN108881950B (zh) * 2018-05-30 2021-05-25 北京奇艺世纪科技有限公司 一种视频处理的方法和装置
CN110580489B (zh) * 2018-06-11 2023-08-04 阿里巴巴集团控股有限公司 一种数据对象的分类系统、方法以及设备
CN109344266B (zh) * 2018-06-29 2021-08-06 北京大学深圳研究生院 一种基于双语义空间的对抗性跨媒体检索方法
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN110851641B (zh) * 2018-08-01 2022-09-16 杭州海康威视数字技术股份有限公司 跨模态检索方法、装置和可读存储介质
CN110990523A (zh) * 2018-09-30 2020-04-10 北京国双科技有限公司 一种法律文书的确定方法及系统
CN109508400B (zh) * 2018-10-09 2020-08-28 中国科学院自动化研究所 图文摘要生成方法
CN109543714B (zh) * 2018-10-16 2020-03-27 北京达佳互联信息技术有限公司 数据特征的获取方法、装置、电子设备及存储介质
CN109543009B (zh) * 2018-10-17 2019-10-25 龙马智芯(珠海横琴)科技有限公司 文本相似度评估系统及文本相似度评估方法
JP7171361B2 (ja) * 2018-10-19 2022-11-15 株式会社日立製作所 データ解析システム、学習装置、及びその方法
CN109670071B (zh) * 2018-10-22 2021-10-08 北京大学 一种序列化多特征指导的跨媒体哈希检索方法和系统
CN111159472B (zh) 2018-11-08 2024-03-12 微软技术许可有限责任公司 多模态聊天技术
CN109325240A (zh) * 2018-12-03 2019-02-12 中国移动通信集团福建有限公司 指标查询的方法、装置、设备和介质
CN109785409B (zh) * 2018-12-29 2020-09-08 武汉大学 一种基于注意力机制的图像-文本数据融合方法和系统
CN109902710B (zh) * 2019-01-07 2023-07-11 李晓妮 一种文本图像的快速匹配方法和装置
CN109816039B (zh) * 2019-01-31 2021-04-20 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN109886326B (zh) * 2019-01-31 2022-01-04 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN110210540B (zh) * 2019-05-22 2021-02-26 山东大学 基于注意力机制的跨社交媒体用户身份识别方法及系统
CN110717498A (zh) * 2019-09-16 2020-01-21 腾讯科技(深圳)有限公司 图像描述生成方法、装置及电子设备
CN110706771B (zh) * 2019-10-10 2023-06-30 复旦大学附属中山医院 多模态患教内容的生成方法、装置、服务器及存储介质
CN111091010A (zh) * 2019-11-22 2020-05-01 京东方科技集团股份有限公司 相似度确定、网络训练、查找方法及装置和存储介质
CN111026894B (zh) * 2019-12-12 2021-11-26 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法
CN111199750B (zh) * 2019-12-18 2022-10-28 北京葡萄智学科技有限公司 一种发音评测方法、装置、电子设备及存储介质
CN110990597B (zh) * 2019-12-19 2022-11-25 中国电子科技集团公司信息科学研究院 基于文本语义映射的跨模态数据检索系统及其检索方法
CN113094550B (zh) * 2020-01-08 2023-10-24 百度在线网络技术(北京)有限公司 视频检索方法、装置、设备和介质
CN111274445B (zh) * 2020-01-20 2021-04-23 山东建筑大学 基于三元组深度学习的相似视频内容检索方法及系统
CN111339256A (zh) * 2020-02-28 2020-06-26 支付宝(杭州)信息技术有限公司 用于文本处理的方法和装置
CN111429913B (zh) * 2020-03-26 2023-03-31 厦门快商通科技股份有限公司 一种数字串语音识别方法、身份验证装置及计算机可读存储介质
CN111428072A (zh) * 2020-03-31 2020-07-17 南方科技大学 眼科多模态影像的检索方法、装置、服务器及存储介质
CN111639240B (zh) * 2020-05-14 2021-04-09 山东大学 一种基于注意力感知机制的跨模态哈希检索方法及系统
CN112001279B (zh) * 2020-08-12 2022-02-01 山东省人工智能研究院 基于双重属性信息的跨模态行人重识别方法
CN111930992B (zh) * 2020-08-14 2022-10-28 腾讯科技(深圳)有限公司 神经网络训练方法、装置及电子设备
CN112581387B (zh) * 2020-12-03 2021-11-09 广州电力通信网络有限公司 一种配电室智能运维系统、装置及方法
CN113159371B (zh) * 2021-01-27 2022-05-20 南京航空航天大学 基于跨模态数据融合的未知目标特征建模与需求预测方法
CN112668671B (zh) * 2021-03-15 2021-12-24 北京百度网讯科技有限公司 预训练模型的获取方法和装置
CN113435206B (zh) * 2021-05-26 2023-08-01 卓尔智联(武汉)研究院有限公司 一种图文检索方法、装置和电子设备
CN113204666B (zh) * 2021-05-26 2022-04-05 杭州联汇科技股份有限公司 一种基于文字查找匹配图片的方法
CN113392196B (zh) * 2021-06-04 2023-04-21 北京师范大学 一种基于多模态交叉比较的题目检索方法和系统
CN113434716B (zh) * 2021-07-02 2024-01-26 泰康保险集团股份有限公司 一种跨模态信息检索方法和装置
CN114140708A (zh) * 2021-08-16 2022-03-04 阿里巴巴达摩院(杭州)科技有限公司 视频处理方法、装置及计算机可读存储介质
CN113934887B (zh) * 2021-12-20 2022-03-15 成都考拉悠然科技有限公司 一种基于语义解耦的无提议时序语言定位方法
CN113971209B (zh) * 2021-12-22 2022-04-19 松立控股集团股份有限公司 一种基于注意力机制增强的无监督跨模态检索方法
CN114417878B (zh) * 2021-12-29 2023-04-18 北京百度网讯科技有限公司 语义识别方法、装置、电子设备及存储介质
CN114529757B (zh) * 2022-01-21 2023-04-18 四川大学 一种跨模态单样本三维点云分割方法
CN115858839B (zh) * 2023-02-16 2023-05-30 上海蜜度信息技术有限公司 一种跨模态logo检索方法、系统、终端及存储介质
CN116484878B (zh) * 2023-06-21 2023-09-08 国网智能电网研究院有限公司 电力异质数据的语义关联方法、装置、设备及存储介质
CN116522168A (zh) * 2023-07-04 2023-08-01 北京墨丘科技有限公司 一种跨模态的文本相似度比较方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559191A (zh) * 2013-09-10 2014-02-05 浙江大学 基于隐空间学习和双向排序学习的跨媒体排序方法
US9280562B1 (en) * 2006-01-31 2016-03-08 The Research Foundation For The State University Of New York System and method for multimedia ranking and multi-modal image retrieval using probabilistic semantic models and expectation-maximization (EM) learning
CN105718532A (zh) * 2016-01-15 2016-06-29 北京大学 一种基于多深度网络结构的跨媒体排序方法
CN106095829A (zh) * 2016-06-01 2016-11-09 华侨大学 基于深度学习与一致性表达空间学习的跨媒体检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9280562B1 (en) * 2006-01-31 2016-03-08 The Research Foundation For The State University Of New York System and method for multimedia ranking and multi-modal image retrieval using probabilistic semantic models and expectation-maximization (EM) learning
CN103559191A (zh) * 2013-09-10 2014-02-05 浙江大学 基于隐空间学习和双向排序学习的跨媒体排序方法
CN105718532A (zh) * 2016-01-15 2016-06-29 北京大学 一种基于多深度网络结构的跨媒体排序方法
CN106095829A (zh) * 2016-06-01 2016-11-09 华侨大学 基于深度学习与一致性表达空间学习的跨媒体检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于语义学习的图像多模态检索;李志欣 等;《计算机工程》;20130331;全文 *

Also Published As

Publication number Publication date
CN107562812A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN107562812B (zh) 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN107346328B (zh) 一种基于多粒度层级网络的跨模态关联学习方法
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN106295796B (zh) 基于深度学习的实体链接方法
CN109299341B (zh) 一种基于字典学习的对抗跨模态检索方法和系统
Tang et al. Sentiment embeddings with applications to sentiment analysis
CN104008092B (zh) 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统
CN109255047A (zh) 基于互补语义对齐和对称检索的图像-文本互检索方法
CN108520166B (zh) 一种基于多重相似性网络游走的药物靶标预测方法
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN112417097B (zh) 一种用于舆情解析的多模态数据特征提取与关联方法
Zhang et al. Multi-modal multi-label emotion recognition with heterogeneous hierarchical message passing
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN105975573A (zh) 一种基于knn的文本分类方法
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
Li et al. Multi-modal gated recurrent units for image description
CN113239159B (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN113312480A (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
CN115221369A (zh) 视觉问答的实现方法和基于视觉问答检验模型的方法
CN113779996A (zh) 基于BiLSTM模型的标准实体文本确定方法、装置及存储介质
Lu et al. Fact-sentiment incongruity combination network for multimodal sarcasm detection
Yusuf et al. Evaluation of graph convolutional networks performance for visual question answering on reasoning datasets
CN111104492B (zh) 一种基于层次化Attention机制的民航领域自动问答方法
CN118227790A (zh) 基于多标签关联的文本分类方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant