CN109800232B - 一种异质信息网络嵌入方法、装置、电子设备及存储介质 - Google Patents
一种异质信息网络嵌入方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN109800232B CN109800232B CN201910052260.6A CN201910052260A CN109800232B CN 109800232 B CN109800232 B CN 109800232B CN 201910052260 A CN201910052260 A CN 201910052260A CN 109800232 B CN109800232 B CN 109800232B
- Authority
- CN
- China
- Prior art keywords
- node
- relation
- nodes
- membership
- information network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 90
- 230000002452 interceptive effect Effects 0.000 claims abstract description 85
- 230000006870 function Effects 0.000 claims description 134
- 230000003993 interaction Effects 0.000 claims description 102
- 238000004891 communication Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000000691 measurement method Methods 0.000 description 2
- 238000003012 network analysis Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种异质信息网络嵌入方法、装置、电子设备及存储介质,方法包括:确定节点关系元组对应的目标关系;针对隶属关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的隶属关系模型中;针对交互关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的交互关系模型中;在异质信息网络嵌入模型值最小时,分别输出待处理异质信息网络中各节点的目标嵌入向量。本发明实现了对异质信息网络中各节点进行针对性的网络嵌入分析。
Description
技术领域
本发明涉及信息技术领域,特别是涉及一种异质信息网络嵌入方法、装置、电子设备及存储介质。
背景技术
异质信息网络(HIN,Heterogeneous Information Network)嵌入旨在将多类型的节点嵌入到一个低维度的向量空间。由于网络嵌入可以有效地学习网络内在特性的隐含特征,它为网络分析提供了一种新颖的角度。
现有的异质信息网络嵌入的方法为,以异质信息网络中任一节点为起点,延与该节点相连接的任一元路径随机游走,生成节点序列。计算该节点序列中相邻节点的最大相似性,实现得到该节点序列中每个节点的嵌入向量。
然而,发明人发现,现有的异质信息网络嵌入方法中,将所有节点和边使用相同的处理方式计算相似性。但在实际场景中,该异质信息网络包含多种类型的节点和边,例如DBLP(DataBase systems and Logic Programming,数据库系统和逻辑编程)学术网络为例,例如图1所示的本发明实施例的一种异质信息网络拓扑结构图,其中包含四种类型的节点:作者(Author,A)、论文(Paper,P)、会议(Conference,C)和关键词(Term,T)。网络中还包含多种类型的关系:写作/被写关系(writing/written)和发表/被发表关系(publish/published)等。此外,还有由元路径表示的一些复杂关系,例如APA(合作关系)和APC(作者在会议上发表论文)等。直接将所有节点和边使用相同的处理方式计算相似性,得到每个节点的嵌入向量,必然忽略了节点的自身特性,使得得到的异质信息网络嵌入的结果并不能很好地满足后续应用的需求。
发明内容
本发明实施例的目的在于提供一种异质信息网络嵌入方法、装置、电子设备及存储介质,以实现对异质信息网络中各节点进行针对性的网络嵌入分析,使得得到的异质信息网络嵌入的结果更好地满足后续应用的需求。具体技术方案如下:
第一方面,本发明实施例公开了一种异质信息网络嵌入方法,所述方法包括:
获取待处理异质信息网络中包含的各节点的节点类型、以及各节点间连接关系;
按照各所述节点的节点类型以及各所述节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系;所述目标关系为隶属关系或交互关系;
针对所述隶属关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的隶属关系模型中;
针对所述交互关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的所述异质信息网络嵌入模型的交互关系模型中;
在所述异质信息网络嵌入模型值最小时,分别输出所述待处理异质信息网络中各节点的目标嵌入向量。
可选地,按照各所述节点的节点类型以及各所述节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系,包括:
按照各所述节点的节点类型以及各所述节点间连接关系,分别计算各节点间连接关系对应节点的平均度值;
按照所述节点间连接关系对应节点的平均度值的大小,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系。
可选地,所述按照各所述节点的节点类型以及各所述节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系,包括:
将各节点间连接关系以及对应节点形成的节点关系元组,按照节点间连接关系进行分类;
针对每个类型节点关系元组,计算该类型节点关系元组的稀疏度值;
按照所述稀疏度值的大小,确定各类型节点关系元组的目标关系。
可选地,预先确定所述异质信息网络嵌入模型的步骤,包括:
获取隶属关系各正样本、交互关系各正样本以及预设各负样本;所述正样本为样本异质信息网络中存在节点间连接关系的节点关系元组;所述负样本为所述样本异质信息网络中不存在节点间连接关系的节点关系元组;
针对所述隶属关系,分别确定所述隶属关系各正样本的隶属相似性函数,以及确定各所述负样本的隶属相似性函数:
通过所述隶属关系各正样本的隶属相似性函数、所述负样本的隶属相似性函数,确定所述隶属关系损失函数;
针对所述交互关系,分别确定所述交互关系各正样本的交互相似性函数,以及确定各所述负样本的交互相似性函数:
通过所述交互关系各正样本的交互相似性函数、所述负样本的交互相似性函数,确定所述交互关系损失函数;
对所述隶属关系损失函数、所述交互关系损失函数求和,得到异质信息网络嵌入模型。
可选地,所述隶属相似性函数表示为:
其中,f(p,q)表示任一隶属关系正样本中节点间隶属相似性函数;Xp表示所述隶属关系正样本中节点p的初始嵌入向量;Xq表示所述隶属关系正样本中节点q的初始嵌入向量;wpq表示所述节点p与所述节点q的节点间连接关系的权重值;
所述隶属关系损失函数表示为:
其中,LEuAR表示所述隶属关系损失函数;s∈RAR表示节点关系元组中节点间连接关系s属于隶属关系;<p,s,q>∈PAR表示隶属关系正样本;<p′,s,q′>∈P′AR表示任一负样本;γ表示间隔超参数,γ>0;f(p,q)表示任一所述隶属关系正样本的隶属相似性函数;f(p′,q′)表示任一所述负样本的隶属相似性函数;
所述交互相似性函数表示为:
g(u,v)=wu,v||Xu+Yr-Xv||
其中,g(u,v)表示任一交互关系正样本中节点间隶属相似性函数;Xu表示所述交互关系正样本中节点u的初始嵌入向量;Xv表示所述交互关系正样本中节点v的初始嵌入向量;Yr表示所述交互关系正样本中节点间连接关系r的初始嵌入向量;wu,v表示所述节点u与所述节点v的节点间连接关系的权重值;
所述交互关系损失函数表示为:
其中,LTrIR表示所述交互关系损失函数;r∈RIR表示节点关系元组中节点间连接关系r属于交互关系;<u,r,v>∈PIR表示交互关系正样本;<u′,r,v′>∈P′IR表示任一负样本;γ表示间隔超参数,γ>0;f(u,v)表示任一所述交互关系正样本的交互相似性函数;f(u′,v′)表示任一所述负样本的交互相似性函数。
第二方面,本发明实施例公开了一种异质信息网络嵌入装置,所述装置包括:
节点信息获取模块,用于获取待处理异质信息网络中包含的各节点的节点类型、以及各节点间连接关系;
目标关系确定模块,用于按照各所述节点的节点类型以及各所述节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系;所述目标关系为隶属关系或交互关系;
隶属关系节点关系元组输入模块,用于针对所述隶属关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的隶属关系模型中;
交互关系节点关系元组输入模块,用于针对所述交互关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的所述异质信息网络嵌入模型的交互关系模型中;
目标嵌入向量输出模块,用于在所述异质信息网络嵌入模型值最小时,分别输出所述待处理异质信息网络中各节点的目标嵌入向量。
可选地,所述目标关系确定模块,包括:
平均度值计算子模块,用于按照各所述节点的节点类型以及各所述节点间连接关系,分别计算各节点间连接关系对应节点的平均度值;
第一目标关系确定子模块,用于按照所述节点间连接关系对应节点的平均度值的大小,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系。
可选地,所述目标关系确定模块,包括:
节点关系元组分类子模块,用于将各节点间连接关系以及对应节点形成的节点关系元组,按照节点间连接关系进行分类;
稀疏度值计算子模块,用于针对每个类型节点关系元组,计算该类型节点关系元组的稀疏度值;
第二目标关系确定子模块,用于按照所述稀疏度值的大小,确定各类型节点关系元组的目标关系。
可选地,所述装置还包括:
样本获取模块,用于获取隶属关系各正样本、交互关系各正样本以及预设各负样本;所述正样本为样本异质信息网络中存在节点间连接关系的节点关系元组;所述负样本为所述样本异质信息网络中不存在节点间连接关系的节点关系元组;
隶属相似性函数确定模块,用于针对所述隶属关系,分别确定所述隶属关系各正样本的隶属相似性函数,以及确定各所述负样本的隶属相似性函数:
隶属关系损失函数确定模块,用于通过所述隶属关系各正样本的隶属相似性函数、所述负样本的隶属相似性函数,确定所述隶属关系损失函数;
交互相似性函数确定模块,用于针对所述交互关系,分别确定所述交互关系各正样本的交互相似性函数,以及确定各所述负样本的交互相似性函数:
交互关系损失函数确定模块,用于通过所述交互关系各正样本的交互相似性函数、所述负样本的交互相似性函数,确定所述交互关系损失函数;
异质信息网络嵌入模型确定模块,用于对所述隶属关系损失函数、所述交互关系损失函数求和,得到异质信息网络嵌入模型。
可选地,所述隶属相似性函数表示为:
其中,f(p,q)表示任一隶属关系正样本中节点间隶属相似性函数;Xp表示所述隶属关系正样本中节点p的初始嵌入向量;Xq表示所述隶属关系正样本中节点q的初始嵌入向量;wpq表示所述节点p与所述节点q的节点间连接关系的权重值;
所述隶属关系损失函数表示为:
其中,LEuAR表示所述隶属关系损失函数;s∈RAR表示节点关系元组中节点间连接关系s属于隶属关系;<p,s,q>∈PAR表示隶属关系正样本;<p′,s,q′>∈P′AR表示任一负样本;γ表示间隔超参数,γ>0;f(p,q)表示任一所述隶属关系正样本的隶属相似性函数;f(p′,q′)表示任一所述负样本的隶属相似性函数;
所述交互相似性函数表示为:
g(u,v)=wu,v||Xu+Yr-Xv||
其中,g(u,v)表示任一交互关系正样本中节点间隶属相似性函数;Xu表示所述交互关系正样本中节点u的初始嵌入向量;Xv表示所述交互关系正样本中节点v的初始嵌入向量;Yr表示所述交互关系正样本中节点间连接关系r的初始嵌入向量;wu,v表示所述节点u与所述节点v的节点间连接关系的权重值;
所述交互关系损失函数表示为:
其中,LTrIR表示所述交互关系损失函数;r∈RIR表示节点关系元组中节点间连接关系r属于交互关系;<u,r,v>∈PIR表示交互关系正样本;<u′,r,v′>∈P′IR表示任一负样本;γ表示间隔超参数,γ>0;f(u,v)表示任一所述交互关系正样本的交互相似性函数;f(u′,v′)表示任一所述负样本的交互相似性函数。
第三方面,本发明实施例公开了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中、所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序时,实现上述异质信息网络嵌入方法中任一所述的方法步骤。
又一方面,本发明实施例公开了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现上述异质信息网络嵌入方法中任一所述的方法步骤。
又一方面,本发明实施例公开了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述异质信息网络嵌入方法中任一所述的方法步骤。
在本发明实施例的一种异质信息网络嵌入方法、装置、电子设备及存储介质中,通过分析异质网络中关系结构特征,进而将各节点间连接关系以及对应节点形成的节点关系元组分为隶属关系或交互关系。由于隶属关系的节点共享相似的特性,隶属关系连接的节点可以直接相互靠近,本发明对此设置了隶属关系模型;交互关系之间的节点表现为强烈交互关系,本发明对此设置了交互关系模型。通过联合隶属关系模型以及交互关系模型得到异质信息网络嵌入模型,进而求解该异质信息网络嵌入模型的最小值,实现得到待处理异质信息网络中各节点的目标嵌入向量。本发明基于异质信息网络本身的结构特性,实现了对异质信息网络中各节点进行针对性的网络嵌入分析,使得得到的异质信息网络嵌入的结果更好地满足后续应用的需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种异质信息网络拓扑结构;
图2为现有技术中使用单一模型得到节点的嵌入向量的方法结构图;
图3为本发明实施例中采用多个针对性模型得到节点的嵌入向量的方法结构图;
图4为本发明实施例的一种异质信息网络嵌入方法流程图;
图5为本发明实施例的一种异质信息网络嵌入方法中异质信息网络数据表;
图6为本发明实施例的一种异质信息网络嵌入装置结构示意图;
图7为本发明实施例的一种电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于网络嵌入可以有效地学习网络内在特性的隐含特征,它为网络分析提供了一种新颖的角度。例如图1所示的本发明实施例的一种异质信息网络拓扑结构,其中包含四种类型的节点:作者(Author,A)、论文(Paper,P)、会议(Conference,C)和关键词(Term,T),以及节点间连接关系,写作/被写关系(writing/written)和发表/被发表关系(publish/published)等。
为了建模网络的异质性,现有的异质信息网络嵌入的方法为,以异质信息网络中任一节点为起点,延与该节点相连接的任一元路径随机游走,生成节点序列。计算该节点序列中相邻节点的最大相似性,实现得到该节点序列中每个节点的嵌入向量。另外还有一些基于神经网络的方法,这些方法学习用于网络嵌入的非线性映射函数,进而得到每个节点的嵌入向量。虽然这些方法考虑了网络的异质性,但是他们通常有一个假设:通过使得两个节点的表示相互靠近,单一的模型可以处理所有的关系和节点,如图2所示的现有技术中使用单一模型得到节点的嵌入向量的方法结构图。
由图1可知,该异质信息网络结构包含原子关系(如,AP和PC)和复合关系(如,APA和APC)。显然地,AP关系和PC关系表现出相当不同的结构特征。也就是说,在AP关系中,一些作者写了一些论文,这表明了一种peer-to-peer的对等结。而在PC关系中,很多论文发表于同一个会议,这反映了一种one-centered-by-another的结构特征。同样地,APA和APC分别表示了peer-to-peer和one-centered-by-another的结构特征。直接通过图2所示的单一模型计算相邻节点间有连接关系的节点的相似性,必然忽略了节点的自身特性,使得得到的异质信息网络嵌入的结果并不能很好地满足后续应用的需求。
因此,本发明实施例中首先通过透彻的数学分析,探索了异质信息网络中关系的结构特征,并且提出了两个结构相关的度量方法。这两个方法可以将多样的关系一致地划分为两类:表示one-centered-by-another结构的隶属关系(Affiliation Relations,ARs)和表示peer-to-peer结构的交互关系(Interaction Relations,IRs)。为了捕获关系中有差异的结构特征,本发明实施例对于隶属关系的节点关系元组,设置了隶属关系模型,通过隶属关系模型计算节点关系元组中节点间的欧式距离,以此保证节点在隐含空间中直接相近。另一方面,对于桥接两个对等节点的交互关系关系,设置了交互关系模型,通过交互关系模型将这类关系的节点关系元组建模为节点间的翻译。由于隶属关系模型与交互关系模型在数学形式上是一致的,它们可以以统一的方式联合优化求解,进而得到本发明实施例的异质信息网络嵌入模型,最后优化该异质信息网络嵌入模型,得到该异质信息网络嵌入模型最小值对应的待处理异质信息网络中各节点的目标嵌入向量。如图3所示的本发明实施例中采用多个针对性模型得到节点的嵌入向量的方法结构图。具体实施方式如下:
第一方面,本发明实施例公开了一种异质信息网络嵌入方法,如图4所示。图4为本发明实施例的一种异质信息网络嵌入方法流程图,方法包括:
S401,获取待处理异质信息网络中包含的各节点的节点类型、以及各节点间连接关系。
一个异质信息网络通常被定义为一个图其中V和E分别是节点和边的集合。每个节点v和边e都存在它们的类型映射函数:φ:V→TV和TV和TE表示节点和边的类型的集合,其中|TV|+|TE|>2并且T=TV∪TE。异质信息网络嵌入表示给定一个异质信息网络进而学习一个映射函数其可以将每个节点v∈V映射到一个低维的向量空间其中d《|V|。
本步骤中,根据待处理异质信息网络的拓扑结构,获得拓扑结构中包含的各节点的节点类型、以及各节点间连接关系。或者根据待处理异质信息网络的数据表,获得数据表中包含的各节点的节点类型、以及各节点间连接关系。
例如图5所示的本发明实施例的一种异质信息网络嵌入方法中异质信息网络数据表。该数据表中包含学术异质信息网络DBLP、社交异质信息网络Yelp以及学术异质信息网络Aminer。其中,DBLP的各节点的节点类型为:作者(Author,A)、论文(Paper,P)、会议(Conference,C)和关键词(Term,T),各节点间连接关系为:{AP,PC,PT,APC,APT};Yelp的各节点的节点类型为:用户(User,U)、商店(Business,B)、预定类型(Reservation,R)、服务类型(Service,S)和星级(Star Level,L),各节点间连接关系为:{BR,BS,BL,UB,BUB};AMiner的各节点的节点类型为:作者(Author,A)、论文(Paper,P)、会议(Conference,C)和引用(Reference,R);各节点间连接关系为{AP,PC,PR,APC,APR}。
本步骤中,可获取该异质信息网络数据表中DBLP各节点的节点类型:作者(Author,A)、论文(Paper,P)、会议(Conference,C)和关键词(Term,T),以及各节点间连接关系:{AP,PC,PT,APC,APT}。其中,AP表示作者A写作论文P,或者论文P被作者A所写关系;PC表示会议C上发表论文P,或者论文P被发表在会议C上;PT表示论文P包含关键词T;
APC表示作者A写作的论文P发表在会议C上;APT表示作者A写作论文P,包含关键词TS402,按照各节点的节点类型以及各节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系;目标关系为隶属关系或交互关系。
本发明实施例中,在一个异质信息网络中,节点间连接关系R包括原子关系(例如,链接)和复合关系(例如,元路径,元路径定义为一个由节点类型或者边类型构成的序列简写为元路径描述了节点v1和vl+1之间的复杂关系)。一个节点关系元组可描述为<u,r,v>,描述了两个节点u和v的节点间连接关系为r;<u,r,v>∈P,P表示节点关系元组集合。例如,图1中<a2,APC,c2>为一个节点关系元组,表示a1写了一篇论文并发表在c2上。
本步骤中,对各节点间连接关系以及对应节点形成的节点关系元组进行针对性的分析,确定每个节点关系元组是隶属关系或交互关系。
可选地,上述S202中按照各节点的节点类型以及各节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系,包括:
步骤一,按照各节点的节点类型以及各节点间连接关系,分别计算各节点间连接关系对应节点的平均度值;
由于节点的度可以很好地反映网络的结构,本发明中定义了一个基于度的度量D(r)来研究异质信息网络中关系的差异性。具体地,计算由节点间连接关系r连接的两种类型节点的平均度。
形式化地,给定一个节点间连接关系r以及节点u和v(即,节点关系元组<u,r,v>),tu和tv分别是节点u和节点v的节点类型,则本步骤中可计算节点间连接关系对应节点的平均度值D(r),具体计算公式如下:
步骤二,按照节点间连接关系对应节点的平均度值的大小,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系。
节点间连接关系对应节点的平均度值D(r)的数值大,表示由节点间连接关系r连接的节点u和节点v之间的一种相当不等价的结构(one-centered-by-another)。而D(r)的数值小,表明一种对等的结构(peer-to-peer)。换言之,D(r)数值大的关系表现出很强的隶属关系,由此类节点间连接关系连接的节点通常共享更多相似的特性;D(r)数值小的关系表示了一种相当强的交互关系。
因此,本步骤中可按照节点间连接关系对应节点的平均度值的大小,将每个节点关系元组对应划分为隶属关系(Affiliation Relations,AR)或交互关系(InteractionRelations,IR)。
为了更好地理解多种关系间的结构差异,可以图5中DBLP为例说明。如图5中所示,对于PC关系,其D(PC)=718.8,类型为P的节点的平均度为1.0;类型为C的节点的平均度是718.8。这表明论文和会议在结构上是不对等的,论文环绕会议。不同的,D(AP)=1.0表示作者和论文之间是一种对等的(peer-to-peer)结构关系,这和我们的常识也是一致的。在语义上,PC关系表示“论文发表在会议上”,暗示一种隶属关系AR,而AP关系表示“作者书写论文”,其明显地描述了一种交互关系IR。
可选地,上述S402中按照各节点的节点类型以及各节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系,包括:
步骤a,将各节点间连接关系以及对应节点形成的节点关系元组,按照节点间连接关系进行分类;
另外,本发明实施例中还可通过节点关系元组的稀疏度值对网络的结构进行分析。
本步骤中,将各节点间连接关系以及对应节点形成的节点关系元组,按照节点间连接关系进行分类。
例如,图1所示的异质信息网络拓扑图中,存在节点关系元组<a1,AP,p1)、<a2,AP,p4>、<a1,APC,c1>;<a3,APC,c2>,则可按照节点间连接关系对节点关系元组分类为:AP:<a1,AP,p1>、<a2,AP,p4>;APC:<a1,APC,c1>;<a3,APC,c2>。
步骤b,针对每个类型节点关系元组,计算该类型节点关系元组的稀疏度值;
本步骤中可通过如下公式计算该类型节点关系元组的稀疏度值S(r):
按照上述计算公式可计算出每种类型节点关系元组的稀疏度值。
步骤c,按照稀疏度值的大小,确定各类型节点关系元组的目标关系。
可以图5中DBLP为例说明,S(PC)=0.05;S(AP)=0.0002。在语义上,PC关系表示“论文发表在会议上”,暗示一种隶属关系AR,而AP关系表示“作者书写论文”,其明显地描述了一种交互关系IR。
显然地,隶属关系(AR)和交互关系(IR)表现出相当不同的特征:(1)AR表示了one-centered-by-another的结构,关系中的两类节点的平均度值差异非常大,其稀疏度值较大。(2)IR描述了peer-to-peer的结构,关系中的两类节点的平均度是对等的,其稀疏度值较小。
S403,针对隶属关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的隶属关系模型中。
上述S402中已将待处理异质信息网络中包含的节点关系元组分成了隶属关系AR以及交互关系IR。AR表现了节点之间的隶属结构,其表明由此类关系连接的节点共享相似的特性,因此,本发明实施例中针对AR设置了隶属关系模型,在表示向量空间中,由AR连接的节点可以直接相互靠近,这和欧式距离的优化目标也是一致的。IR表明了对等节点之间的强烈交互关系,关系本身包含了节点间重要的结构信息。因此,本发明实施例中针对IR设置了交互关系模型,将IR关系建模为节点间的翻译操作。
此外,基于翻译的距离与欧式距离在数学形式上是一致的,因此它们可以容易地结合并联合优化求解,进而得到本发明实施例的异质信息网络嵌入模型。具体预先建立异质信息网络嵌入模型的方法,以下实施例详细说明。
本步骤中,针对隶属关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的隶属关系模型中。
S404,针对交互关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的交互关系模型中。
S405,在异质信息网络嵌入模型值最小时,分别输出待处理异质信息网络中各节点的目标嵌入向量。
在本发明实施例的一种异质信息网络嵌入方法中,通过分析异质网络中关系结构特征,进而将各节点间连接关系以及对应节点形成的节点关系元组分为隶属关系或交互关系。由于隶属关系的节点共享相似的特性,隶属关系连接的节点可以直接相互靠近,本发明对此设置了隶属关系模型;交互关系之间的节点表现为强烈交互关系,本发明对此设置了交互关系模型。通过联合隶属关系模型以及交互关系模型得到异质信息网络嵌入模型,进而求解该异质信息网络嵌入模型的最小值,实现得到待处理异质信息网络中各节点的目标嵌入向量。本发明基于异质信息网络本身的结构特性,实现了对异质信息网络中各节点进行针对性的网络嵌入分析,使得得到的异质信息网络嵌入的结果更好地满足后续应用的需求。
可选地,在本发明异质信息网络嵌入方法的一种实施例中,预先确定异质信息网络嵌入模型的步骤,包括:
步骤A,获取隶属关系各正样本、交互关系各正样本以及预设各负样本;正样本为样本异质信息网络中存在节点间连接关系的节点关系元组;负样本为样本异质信息网络中不存在节点间连接关系的节点关系元组;
如表1所示,AR和IR的分布是相当不平衡的,而且两类关系包含的节点关系元组中节点间连接关系分布也是不平衡的。传统的边采样可能会导致数量较少的边过采样,而数量较多的边欠采样。为了解决这一问题,本发明中根据节点关系元组中节点间连接关系的概率分布采样正样本,正样本为样本异质信息网络中存在节点间连接关系的节点关系元组。
对于负样本,可预先建立负的节点关系元组集合P′u,r,v={(u′,r,v)|u′∈V}∪{(u,r,v′)|v′∈V},通过随机替换节点关系元组中头节点或替换尾节点,但不同时替换头节点或尾节点,进而得到预设的各负样本,负样本为样本异质信息网络中不存在节点间连接关系的节点关系元组。
步骤B,针对隶属关系,分别确定隶属关系各正样本的隶属相似性函数,以及确定各负样本的隶属相似性函数:
由隶属关系AR连接的节点共享相似的特性,因此在表示向量空间中,可直接使得节点相互靠近。因此,本发明实施例中可以欧式距离作为度量节点之间隶属相似性函数的依据。
可选地,隶属相似性函数表示为:
其中,f(p,q)表示任一隶属关系正样本中节点间隶属相似性函数;Xp表示隶属关系正样本中节点p的初始嵌入向量;Xq表示隶属关系正样本中节点q的初始嵌入向量;wpq表示节点p与节点q的节点间连接关系的权重值;
通过上述公式可表示出所有隶属关系正样本中节点间隶属相似性函数,并通过上述公式表示出所有负样本中节点间隶属相似性函数。
步骤C,通过隶属关系各正样本的隶属相似性函数、负样本的隶属相似性函数,确定隶属关系损失函数;
可选地,隶属关系损失函数表示为:
其中,LEuAR表示隶属关系损失函数;s∈RAR表示节点关系元组中节点间连接关系s属于隶属关系;<p,s,q>∈PAR表示隶属关系正样本;<p′,s,q′>∈P′AR表示任一负样本;γ表示间隔超参数,γ>0;f(p,q)表示任一隶属关系正样本的隶属相似性函数;f(p′,q′)表示任一负样本的隶属相似性函数。
步骤D,针对交互关系,分别确定交互关系各正样本的交互相似性函数,以及确定各负样本的交互相似性函数。
可选地,交互相似性函数表示为:
g(u,v)=wu,v||Xu+Yr-Xv||
其中,g(u,v)表示任一交互关系正样本中节点间隶属相似性函数;Xu表示交互关系正样本中节点u的初始嵌入向量;Xv表示交互关系正样本中节点v的初始嵌入向量;Yr表示交互关系正样本中节点间连接关系r的初始嵌入向量;wu,v表示节点u与节点v的节点间连接关系的权重值。
通过上述公式可表示出所有隶属关系正样本中节点间交互相似性函数,并通过上述公式表示出所有负样本中节点间交互相似性函数。
步骤E,通过交互关系各正样本的交互相似性函数、负样本的交互相似性函数,确定交互关系损失函数。
可选地,交互关系损失函数表示为:
其中,LTrIR表示交互关系损失函数;r∈RIR表示节点关系元组中节点间连接关系r属于交互关系;<u,r,v>∈PIR表示交互关系正样本;<u′,r,v′>∈P′IR表示任一负样本;γ表示间隔超参数,γ>0;f(u,v)表示任一交互关系正样本的交互相似性函数;f(u′,v′)表示任一负样本的交互相似性函数。
步骤F,对隶属关系损失函数、交互关系损失函数求和,得到异质信息网络嵌入模型。
可选地,异质信息网络嵌入模型L可表示如下:
本发明实施例分析了异质信息网络中关系结构特征,并且提出了两个结构相关的度量方法,将异质关系一致地划分为隶属关系和交互关系,进而分别设置了隶属关系模型和交互关系模型,通过联合隶属关系模型和交互关系模型得到了新颖的关系结构感知的异质信息网络嵌入模型。通过求解该异质信息网络嵌入模型的最小值,实现得到待处理异质信息网络中各节点的目标嵌入向量。另外,本发明实施例通过图5的三种数据集充分的实验并验证了本发明异质信息网络嵌入方法的有效性。实验结果表明了本发明实施例在多个数据挖掘任务中的表现,均显著地优于现有的网络嵌入方法。
第二方面,本发明实施例公开了一种异质信息网络嵌入装置,如图6所示。图6为本发明实施例的一种异质信息网络嵌入装置结构示意图,装置包括:
节点信息获取模块601,用于获取待处理异质信息网络中包含的各节点的节点类型、以及各节点间连接关系;
目标关系确定模块602,用于按照各节点的节点类型以及各节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系;目标关系为隶属关系或交互关系;
隶属关系节点关系元组输入模块603,用于针对隶属关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的隶属关系模型中;
交互关系节点关系元组输入模块604,用于针对交互关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的交互关系模型中;
目标嵌入向量输出模块605,用于在异质信息网络嵌入模型值最小时,分别输出待处理异质信息网络中各节点的目标嵌入向量。
在本发明实施例的一种异质信息网络嵌入装置中,通过分析异质网络中关系结构特征,进而将各节点间连接关系以及对应节点形成的节点关系元组分为隶属关系或交互关系。由于隶属关系的节点共享相似的特性,隶属关系连接的节点可以直接相互靠近,本发明对此设置了隶属关系模型;交互关系之间的节点表现为强烈交互关系,本发明对此设置了交互关系模型。通过联合隶属关系模型以及交互关系模型得到异质信息网络嵌入模型,进而求解该异质信息网络嵌入模型的最小值,实现得到待处理异质信息网络中各节点的目标嵌入向量。本发明基于异质信息网络本身的结构特性,实现了对异质信息网络中各节点进行针对性的网络嵌入分析,使得得到的异质信息网络嵌入的结果更好地满足后续应用的需求。
可选地,在本发明异质信息网络嵌入装置的一种实施例中,目标关系确定模块602,包括:
平均度值计算子模块,用于按照各节点的节点类型以及各节点间连接关系,分别计算各节点间连接关系对应节点的平均度值;
第一目标关系确定子模块,用于按照节点间连接关系对应节点的平均度值的大小,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系。
可选地,在本发明异质信息网络嵌入装置的一种实施例中,目标关系确定模块602,包括:
节点关系元组分类子模块,用于将各节点间连接关系以及对应节点形成的节点关系元组,按照节点间连接关系进行分类;
稀疏度值计算子模块,用于针对每个类型节点关系元组,计算该类型节点关系元组的稀疏度值;
第二目标关系确定子模块,用于按照稀疏度值的大小,确定各类型节点关系元组的目标关系。
可选地,在本发明异质信息网络嵌入装置的一种实施例中,装置还包括:
样本获取模块,用于获取隶属关系各正样本、交互关系各正样本以及预设各负样本;正样本为样本异质信息网络中存在节点间连接关系的节点关系元组;负样本为样本异质信息网络中不存在节点间连接关系的节点关系元组;
隶属相似性函数确定模块,用于针对隶属关系,分别确定隶属关系各正样本的隶属相似性函数,以及确定各负样本的隶属相似性函数:
隶属关系损失函数确定模块,用于通过隶属关系各正样本的隶属相似性函数、负样本的隶属相似性函数,确定隶属关系损失函数;
交互相似性函数确定模块,用于针对交互关系,分别确定交互关系各正样本的交互相似性函数,以及确定各负样本的交互相似性函数:
交互关系损失函数确定模块,用于通过交互关系各正样本的交互相似性函数、负样本的交互相似性函数,确定交互关系损失函数;
异质信息网络嵌入模型确定模块,用于对隶属关系损失函数、交互关系损失函数求和,得到异质信息网络嵌入模型。
可选地,在本发明异质信息网络嵌入装置的一种实施例中,隶属相似性函数表示为:
其中,f(p,q)表示任一隶属关系正样本中节点间隶属相似性函数;Xp表示隶属关系正样本中节点p的初始嵌入向量;Xq表示隶属关系正样本中节点q的初始嵌入向量;wpq表示节点p与节点q的节点间连接关系的权重值;
隶属关系损失函数表示为:
其中,LEuAR表示隶属关系损失函数;s∈RAR表示节点关系元组中节点间连接关系s属于隶属关系;<p,s,q>∈PAR表示隶属关系正样本;<p′,s,q′)∈P′AR表示任一负样本;γ表示间隔超参数,γ>0;f(p,q)表示任一隶属关系正样本的隶属相似性函数;f(p′,q′)表示任一负样本的隶属相似性函数;
交互相似性函数表示为:
g(u,v)=wu,v||Xu+Yr-Xv||
其中,g(u,v)表示任一交互关系正样本中节点间隶属相似性函数;Xu表示交互关系正样本中节点u的初始嵌入向量;Xv表示交互关系正样本中节点v的初始嵌入向量;Yr表示交互关系正样本中节点间连接关系r的初始嵌入向量;wu,v表示节点u与节点v的节点间连接关系的权重值;
交互关系损失函数表示为:
其中,LTrIR表示交互关系损失函数;r∈RIR表示节点关系元组中节点间连接关系r属于交互关系;<u,r,v>∈PIR表示交互关系正样本;<u′,r,v′>∈P′IR表示任一负样本;γ表示间隔超参数,γ>0;f(u,v)表示任一交互关系正样本的交互相似性函数;f(u′,v′)表示任一负样本的交互相似性函数。
第三方面,本发明实施例公开了一种电子设备,如图7所示。图7为本发明实施例的一种电子设备结构示意图,包括处理器701、通信接口702、存储器703和通信总线704,其中、处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信;
存储器703,用于存放计算机程序;
处理器701,用于执行存储器上所存放的程序时,实现以下方法步骤:
获取待处理异质信息网络中包含的各节点的节点类型、以及各节点间连接关系;
按照各所述节点的节点类型以及各所述节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系;所述目标关系为隶属关系或交互关系;
针对所述隶属关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的隶属关系模型中;
针对所述交互关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的所述异质信息网络嵌入模型的交互关系模型中;
在所述异质信息网络嵌入模型值最小时,分别输出所述待处理异质信息网络中各节点的目标嵌入向量。
上述电子设备提到的通信总线704可以是外设部件互连标准(PeripheralComponent Interconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线704可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口702用于上述电子设备与其他设备之间的通信。
存储器703可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器703还可以是至少一个位于远离前述处理器701的存储装置。
上述的处理器701可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明实施例的一种电子设备中,通过分析异质网络中关系结构特征,进而将各节点间连接关系以及对应节点形成的节点关系元组分为隶属关系或交互关系。由于隶属关系的节点共享相似的特性,隶属关系连接的节点可以直接相互靠近,本发明对此设置了隶属关系模型;交互关系之间的节点表现为强烈交互关系,本发明对此设置了交互关系模型。通过联合隶属关系模型以及交互关系模型得到异质信息网络嵌入模型,进而求解该异质信息网络嵌入模型的最小值,实现得到待处理异质信息网络中各节点的目标嵌入向量。本发明基于异质信息网络本身的结构特性,实现了对异质信息网络中各节点进行针对性的网络嵌入分析,使得得到的异质信息网络嵌入的结果更好地满足后续应用的需求。
又一方面,本发明实施例公开了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时,实现上述异质信息网络嵌入方法中任一的方法步骤。
在本发明实施例的一种计算机可读存储介质中,通过分析异质网络中关系结构特征,进而将各节点间连接关系以及对应节点形成的节点关系元组分为隶属关系或交互关系。由于隶属关系的节点共享相似的特性,隶属关系连接的节点可以直接相互靠近,本发明对此设置了隶属关系模型;交互关系之间的节点表现为强烈交互关系,本发明对此设置了交互关系模型。通过联合隶属关系模型以及交互关系模型得到异质信息网络嵌入模型,进而求解该异质信息网络嵌入模型的最小值,实现得到待处理异质信息网络中各节点的目标嵌入向量。本发明基于异质信息网络本身的结构特性,实现了对异质信息网络中各节点进行针对性的网络嵌入分析,使得得到的异质信息网络嵌入的结果更好地满足后续应用的需求。
又一方面,本发明实施例公开了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述异质信息网络嵌入方法中任一的方法步骤。
在本发明实施例的一种包含指令的计算机程序产品中,通过分析异质网络中关系结构特征,进而将各节点间连接关系以及对应节点形成的节点关系元组分为隶属关系或交互关系。由于隶属关系的节点共享相似的特性,隶属关系连接的节点可以直接相互靠近,本发明对此设置了隶属关系模型;交互关系之间的节点表现为强烈交互关系,本发明对此设置了交互关系模型。通过联合隶属关系模型以及交互关系模型得到异质信息网络嵌入模型,进而求解该异质信息网络嵌入模型的最小值,实现得到待处理异质信息网络中各节点的目标嵌入向量。本发明基于异质信息网络本身的结构特性,实现了对异质信息网络中各节点进行针对性的网络嵌入分析,使得得到的异质信息网络嵌入的结果更好地满足后续应用的需求。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备及存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种异质信息网络嵌入方法,其特征在于,所述方法包括:
根据待处理异质信息网络的拓扑结构,获得拓扑结构中包含的各节点的节点类型、以及各节点间连接关系,或者根据待处理异质信息网络的数据表,获得数据表中包含的各节点的节点类型、以及各节点间连接关系;所述待处理异质信息网络为:学术异质信息网络数据库系统和逻辑编程DBLP、社交异质信息网络Yelp、或者学术异质信息网络Aminer;
按照各所述节点的节点类型以及各所述节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系;所述目标关系为隶属关系或交互关系;
针对所述隶属关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的隶属关系模型中;
针对所述交互关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的所述异质信息网络嵌入模型的交互关系模型中;
在所述异质信息网络嵌入模型值最小时,分别输出所述待处理异质信息网络中各节点的目标嵌入向量。
2.根据权利要求1所述的异质信息网络嵌入方法,其特征在于,按照各所述节点的节点类型以及各所述节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系,包括:
按照各所述节点的节点类型以及各所述节点间连接关系,分别计算各节点间连接关系对应节点的平均度值;
按照所述节点间连接关系对应节点的平均度值的大小,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系。
3.根据权利要求1所述的异质信息网络嵌入方法,其特征在于,所述按照各所述节点的节点类型以及各所述节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系,包括:
将各节点间连接关系以及对应节点形成的节点关系元组,按照节点间连接关系进行分类;
针对每个类型节点关系元组,计算该类型节点关系元组的稀疏度值;
按照所述稀疏度值的大小,确定各类型节点关系元组的目标关系。
4.根据权利要求1所述的异质信息网络嵌入方法,其特征在于,预先确定所述异质信息网络嵌入模型的步骤,包括:
获取隶属关系各正样本、交互关系各正样本以及预设各负样本;所述正样本为样本异质信息网络中存在节点间连接关系的节点关系元组;所述负样本为所述样本异质信息网络中不存在节点间连接关系的节点关系元组;
针对所述隶属关系,分别确定所述隶属关系各正样本的隶属相似性函数,以及确定各所述负样本的隶属相似性函数:
通过所述隶属关系各正样本的隶属相似性函数、所述负样本的隶属相似性函数,确定所述隶属关系损失函数;
针对所述交互关系,分别确定所述交互关系各正样本的交互相似性函数,以及确定各所述负样本的交互相似性函数:
通过所述交互关系各正样本的交互相似性函数、所述负样本的交互相似性函数,确定所述交互关系损失函数;
对所述隶属关系损失函数、所述交互关系损失函数求和,得到异质信息网络嵌入模型。
5.根据权利要求4所述的异质信息网络嵌入方法,其特征在于,所述隶属相似性函数表示为:
其中,f(p,q)表示任一隶属关系正样本中节点间隶属相似性函数;Xp表示所述隶属关系正样本中节点p的初始嵌入向量;Xq表示所述隶属关系正样本中节点q的初始嵌入向量;wpq表示所述节点p与所述节点q的节点间连接关系的权重值;
所述隶属关系损失函数表示为:
其中,LEuAR表示所述隶属关系损失函数;s∈RAR表示节点关系元组中节点间连接关系s属于隶属关系;<p,s,q>∈PAR表示隶属关系正样本;<p′,s,q′>∈P′AR表示任一负样本;γ表示间隔超参数,γ>0;f(p,q)表示任一所述隶属关系正样本的隶属相似性函数;f(p′,q′)表示任一所述负样本的隶属相似性函数;
所述交互相似性函数表示为:
g(u,v)=wu,v||Xu+Yr-Xv||
其中,g(u,v)表示任一交互关系正样本中节点间隶属相似性函数;Xu表示所述交互关系正样本中节点u的初始嵌入向量;Xv表示所述交互关系正样本中节点v的初始嵌入向量;Yr表示所述交互关系正样本中节点间连接关系r的初始嵌入向量;wu,v表示所述节点u与所述节点v的节点间连接关系的权重值;
所述交互关系损失函数表示为:
其中,LTrIR表示所述交互关系损失函数;r∈RIR表示节点关系元组中节点间连接关系r属于交互关系;<u,r,v>∈PIR表示交互关系正样本;<u′,r,v′)∈P′IR表示任一负样本;γ表示间隔超参数,γ>0;f(u,v)表示任一所述交互关系正样本的交互相似性函数;f(u′,v′)表示任一所述负样本的交互相似性函数。
6.一种异质信息网络嵌入装置,其特征在于,所述装置包括:
节点信息获取模块,用于根据待处理异质信息网络的拓扑结构,获得拓扑结构中包含的各节点的节点类型、以及各节点间连接关系,或者根据待处理异质信息网络的数据表,获得数据表中包含的各节点的节点类型、以及各节点间连接关系;所述待处理异质信息网络为:学术异质信息网络DBLP、社交异质信息网络Yelp、或者学术异质信息网络Aminer;
目标关系确定模块,用于按照各所述节点的节点类型以及各所述节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系;所述目标关系为隶属关系或交互关系;
隶属关系节点关系元组输入模块,用于针对所述隶属关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的隶属关系模型中;
交互关系节点关系元组输入模块,用于针对所述交互关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的所述异质信息网络嵌入模型的交互关系模型中;
目标嵌入向量输出模块,用于在所述异质信息网络嵌入模型值最小时,分别输出所述待处理异质信息网络中各节点的目标嵌入向量。
7.根据权利要求6所述的异质信息网络嵌入装置,其特征在于,所述目标关系确定模块,包括:
平均度值计算子模块,用于按照各所述节点的节点类型以及各所述节点间连接关系,分别计算各节点间连接关系对应节点的平均度值;
第一目标关系确定子模块,用于按照所述节点间连接关系对应节点的平均度值的大小,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系。
8.根据权利要求6所述的异质信息网络嵌入装置,其特征在于,所述目标关系确定模块,包括:
节点关系元组分类子模块,用于将各节点间连接关系以及对应节点形成的节点关系元组,按照节点间连接关系进行分类;
稀疏度值计算子模块,用于针对每个类型节点关系元组,计算该类型节点关系元组的稀疏度值;
第二目标关系确定子模块,用于按照所述稀疏度值的大小,确定各类型节点关系元组的目标关系。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中、所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910052260.6A CN109800232B (zh) | 2019-01-21 | 2019-01-21 | 一种异质信息网络嵌入方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910052260.6A CN109800232B (zh) | 2019-01-21 | 2019-01-21 | 一种异质信息网络嵌入方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109800232A CN109800232A (zh) | 2019-05-24 |
CN109800232B true CN109800232B (zh) | 2021-03-19 |
Family
ID=66559911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910052260.6A Active CN109800232B (zh) | 2019-01-21 | 2019-01-21 | 一种异质信息网络嵌入方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109800232B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861535B (zh) * | 2020-04-22 | 2024-09-24 | 北京嘀嘀无限科技发展有限公司 | 一种订单类型的预测方法、预测装置及可读存储介质 |
CN112232492B (zh) * | 2020-10-30 | 2022-04-12 | 北京邮电大学 | 一种基于解耦的异质网络嵌入方法、装置及电子设备 |
CN112508115B (zh) * | 2020-12-15 | 2023-10-24 | 北京百度网讯科技有限公司 | 建立节点表示模型的方法、装置、设备和计算机存储介质 |
CN112770013B (zh) * | 2021-01-15 | 2022-05-20 | 电子科技大学 | 一种基于边采样的异质信息网络嵌入方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890703A (zh) * | 2012-07-20 | 2013-01-23 | 浙江工业大学 | 一种网络异质多维标度方法 |
CN103034687A (zh) * | 2012-11-29 | 2013-04-10 | 中国科学院自动化研究所 | 一种基于2-类异质网络的关联模块识别方法 |
CN105761154A (zh) * | 2016-04-11 | 2016-07-13 | 北京邮电大学 | 一种社会化推荐方法及装置 |
CN106407373A (zh) * | 2016-09-12 | 2017-02-15 | 电子科技大学 | 一种异质网络社团结构以及基于该结构的社团发现方法 |
CN106777339A (zh) * | 2017-01-13 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于异构网络嵌入模型识别作者的方法 |
CN107491540A (zh) * | 2017-08-24 | 2017-12-19 | 济南浚达信息技术有限公司 | 一种结合深度贝叶斯模型和协同异构信息嵌入的电影推荐方法 |
CN108694469A (zh) * | 2018-06-08 | 2018-10-23 | 哈尔滨工程大学 | 一种基于知识图谱的关系预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503022B (zh) * | 2015-09-08 | 2020-12-01 | 北京邮电大学 | 推送推荐信息的方法和装置 |
-
2019
- 2019-01-21 CN CN201910052260.6A patent/CN109800232B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890703A (zh) * | 2012-07-20 | 2013-01-23 | 浙江工业大学 | 一种网络异质多维标度方法 |
CN103034687A (zh) * | 2012-11-29 | 2013-04-10 | 中国科学院自动化研究所 | 一种基于2-类异质网络的关联模块识别方法 |
CN105761154A (zh) * | 2016-04-11 | 2016-07-13 | 北京邮电大学 | 一种社会化推荐方法及装置 |
CN106407373A (zh) * | 2016-09-12 | 2017-02-15 | 电子科技大学 | 一种异质网络社团结构以及基于该结构的社团发现方法 |
CN106777339A (zh) * | 2017-01-13 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于异构网络嵌入模型识别作者的方法 |
CN107491540A (zh) * | 2017-08-24 | 2017-12-19 | 济南浚达信息技术有限公司 | 一种结合深度贝叶斯模型和协同异构信息嵌入的电影推荐方法 |
CN108694469A (zh) * | 2018-06-08 | 2018-10-23 | 哈尔滨工程大学 | 一种基于知识图谱的关系预测方法 |
Non-Patent Citations (2)
Title |
---|
异质信息网络嵌入学习;PAPER_READER;《https://blog.csdn.net/paper_reader/article/details/84197903》;20181118;第1-7页 * |
网络嵌入性对联合风险投资信息优势的影响;伍晶等;《科研管理》;20160420(第4期);第143-151页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109800232A (zh) | 2019-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800232B (zh) | 一种异质信息网络嵌入方法、装置、电子设备及存储介质 | |
US10200393B2 (en) | Selecting representative metrics datasets for efficient detection of anomalous data | |
Bolón-Canedo et al. | Feature selection for high-dimensional data | |
WO2020073507A1 (zh) | 一种文本分类方法及终端 | |
US9665588B2 (en) | Query-based notification architecture | |
JP6484730B2 (ja) | 時間因子を融合させる協調フィルタリング方法、装置、サーバおよび記憶媒体 | |
CN112966763B (zh) | 一种分类模型的训练方法、装置、电子设备及存储介质 | |
US11829455B2 (en) | AI governance using tamper proof model metrics | |
WO2022095357A1 (zh) | 基于人工智能的智能关联答复方法、装置、计算机设备 | |
WO2022095382A1 (zh) | 基于知识图谱的电子卡片生成推送方法、装置 | |
JP2017527013A (ja) | サービスとしての適応特徴化 | |
US20240231909A1 (en) | System and method for universal computer asset normalization and configuration management | |
Rudy et al. | Output-weighted and relative entropy loss functions for deep learning precursors of extreme events | |
US10616353B2 (en) | Social signature | |
CN112257959A (zh) | 用户风险预测方法、装置、电子设备及存储介质 | |
CN111159481A (zh) | 图数据的边预测方法、装置及终端设备 | |
Yin et al. | Simulation-based sensitivity analysis for non-ignorably missing data | |
US20220207007A1 (en) | Artificially intelligent master data management | |
US11372854B2 (en) | Provenance analysis systems and methods | |
JP2022074045A (ja) | コンピュータ実装方法、コンピュータ・プログラムおよびコンピュータ・システム(グラフ・データベースにおけるデータのデータ品質の測定) | |
CN113572721B (zh) | 一种异常访问检测方法、装置、电子设备及存储介质 | |
Aravazhi Irissappane et al. | Filtering unfair ratings from dishonest advisors in multi-criteria e-markets: a biclustering-based approach | |
CN112163415A (zh) | 针对反馈内容的用户意图识别方法、装置及电子设备 | |
Ceritli et al. | ptype: Probabilistic type inference | |
Dahinden et al. | Decomposition and model selection for large contingency tables |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |