Nothing Special   »   [go: up one dir, main page]

CN114168804A - 一种基于异质子图神经网络的相似信息检索方法和系统 - Google Patents

一种基于异质子图神经网络的相似信息检索方法和系统 Download PDF

Info

Publication number
CN114168804A
CN114168804A CN202111550920.7A CN202111550920A CN114168804A CN 114168804 A CN114168804 A CN 114168804A CN 202111550920 A CN202111550920 A CN 202111550920A CN 114168804 A CN114168804 A CN 114168804A
Authority
CN
China
Prior art keywords
nodes
information
heterogeneous
node
subgraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111550920.7A
Other languages
English (en)
Other versions
CN114168804B (zh
Inventor
陶建华
槐泽鹏
杨国花
张大伟
李冠君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202111550920.7A priority Critical patent/CN114168804B/zh
Publication of CN114168804A publication Critical patent/CN114168804A/zh
Application granted granted Critical
Publication of CN114168804B publication Critical patent/CN114168804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于异质子图神经网络的相似信息检索方法和系统。其中,方法包括:首先,将业务场景数据面向异质图进行图结构化数据,即构建异质图;其次,设计了一种子图范式,据此设计异质子图神经网络,建模和学习中心节点的邻域信息,并在不需要交互记录等标签的低资源情况下进行模型训练,从而得到节点的嵌入表示;最后,设计了基于局部敏感哈希的快速相似度计算模块来实现对相似内容检索这一功能的在线服务。本发明能够解决了低资源场景下相似信息检索这一业务需求。

Description

一种基于异质子图神经网络的相似信息检索方法和系统
技术领域
本发明属于相似信息检索领域,尤其涉及一种基于异质子图神经网络的相似信息检索方法和系统。
背景技术
相似内容检索是信息检索系统中普遍又必不可少的一个功能,在多个业务场景中都有极强必要性。例如,电商推荐中,需要检索出和购买过商品类似的商品,这样的商品认为符合用户的历史购买兴趣,从而提升点击率和增加交易额;在新闻推送中,需要推送给用户感兴趣的内容,最常见的手段就是检索和该用户浏览过新闻相似的新闻,例如某用户浏览过“中超”新闻(足球),此时需要检索出“欧冠”相关新闻(足球);在网页搜索中,根据输入关键词往往只能检索出有限内容,这时为了增加推送量,需要给出与已检索出网页相似的网页,因此也需要相似内容检索。
目前实现相似内容准确检索一般基于两个方面:1引入更多特征信息。特征是指对关心的一类内容,引入更多补充信息。例如电商推荐中,引入商品的商铺、价格、类别、上架时间等,用这些辅助信息来作为内容相似的依据,例如均属于一个商铺和一个类别的商品可能相似。2获取更多标签记录。标签记录是指使用者对该系统的交互行为,如在同样场景下,用户点击了两个内容,则这两个内容我们认为相似。因此,标签记录越多越准确,越能提升相似内容检索的准确程度。
针对以上两个关键点,近些年常见的一类解决方法是基于图数据实现相似内容检索。图数据是指将数据进行图结构化,现实世界中很多场景可以采用图数据进行建模,例如在社交网络中,每个用户可以视为一个节点,两个用户之间存在互相关注时认为这两个节点间存在一条边,如此一个社交网络就可以转化为社交图数据,从而进行后续分析与应用。更进一步,图数据可分为同质图和异质图,同质图是指图上只有一类节点,例如上述社交图为只包含用户节点的同质图。相对于同质图,异质图是指在图中包含不同的节点类型和边类型。目前公认的是,异质图可以引入大量特征信息和丰富语义,是一类对现实世界复杂问题有较强表征能力的模型,即现实世界中许多场景和应用可以转化为异质图结构化数据,例如推荐场景中,将用户和商品视为两类节点,购买记录转化为用户和商品之间的边,即推荐异质图。
图表示:图表示是指将图中的节点、边和子图以低维向量的形式表现出来。
异质图:图中节点或边的类型不止一类的图称为异质图。
图神经网络:在图结构化数据上采用深度学习的神经网络来学习图表示,一般分为聚合传播两个过程,聚合是指将邻居节点信息聚合至中心节点,传播是指重复以上聚合过程从而扩大中心节点的感受野。
Embedding:又名嵌入,是指使用低维向量来表示一个实体的信息。例如使用低维向量表示一个字或图上一个节点。
元路径:元路径是指图上的一类路径,其规定该路径的范式,即路径上每个节点和边的类型。一个元路径范式下有不同实例。
目前在异质图上解决相似内容检索两个关键问题的主流方法有以下两类:
1)基于图搜索/推荐模型。此类方法基于图表示学习算法来建模异质节点间搜索或推荐的交互记录。首先基于图表示学习算法如图神经网络,生成图上节点初始Embedding,之后根据异质节点交互记录来进一步调整Embedding,从而使得相同输入下交互过的不同节点的Embedding互相逼近,即利用交互记录得到了相似节点。
2)基于异质图神经网络模型。此类方法只使用图神经网络算法,不使用节点交互记录。同样首先基于采样策略或元路径来设计图神经网络模型,之后根据无监督或半监督方式对节点进行分类,进而得到预训练的Embedding。最后根据基于Embedidng的相似度计算模块来检索相似节点。
现有技术的缺点:
1)图搜索/推荐模型。此方法的优点是利用了图上丰富特征信息来生成高质量Embedding的优势,但是显著缺点是需要交互记录,并且交互记录的质量严重影响最终检索的准确程度。此类方法依赖高质量交互记录的清洗及生产,在实际业务场景中需要投入大量人力物力财力,成本高且时间长,并且交互数据的处理与人工水平紧密相关。因此在一些交互记录缺失或稀疏的低资源情况下,此类方法鲁棒性较差甚至无法使用。
2)异质图神经网络模型。此方法优点是解决了第一类方法对交互记录的依赖,但是缺点是检索准确程度较低和依赖预置的专家信息。此方法在训练Embedding时是基于节点分类信息来进行的,并且节点类别的颗粒度比较粗糙,比如对于电影节点大致分为喜剧片动作片等,没有更细粒度的信息,因此导致训练得到的Embedding不能准确的建模每个节点在语义层面的相似程度。同时,设计图神经网络时需要采样或元路径,其本质是预置的专家规则,因此依赖不同数据和场景下的专家知识,泛化性较差。
因此,以上两种方法均没有太好解决低资源场景下相似信息检索这一问题,其最根本的问题在于没有对图数据本身进行进一步发掘。方法一引入了交互记录这一额外信息来提升效果但增加了成本和降低了鲁棒性,不适用于低资源场景;方法二没有针对相似内容检索这一目标有针对性得设计模型,效果难以提升。
发明内容
为解决上述技术问题,本发明提出一种基于异质子图神经网络的相似信息检索方法的技术方案,以解决上述技术问题。
本发明第一方面公开了一种基于异质子图神经网络的相似信息检索方法;所述方法包括:
步骤S1、抽取出与业务直接相关的实体,将实体作为节点,同时根据实体间的语义关系构建节点间的边,完成图结构化数据;
步骤S2、将业务关心的节点设置为中心节点,设计用来建模所述中心节点的邻域信息的子图范式;
在具备子图范式后,应用异质子图神经网络模型来学习节点的嵌入表示:
具体设计两步的聚合过程,首先将异质节点的信息聚合至中心节点上,得到所有特征信息的最终向量;再基于所述所有特征信息的最终向量,将同质节点的信息聚合至中心节点上,得到最终的嵌入表示;
针对粗粒度的标签,应用交叉熵损失来训练所述异质子图神经网络模型;
步骤S3、在利用预先训练的所述异质子图神经网络模型,得到所有节点的嵌入表示后,使用局部敏感哈希算法来进行嵌入表示的快速近邻检索,得到最相似节点。
根据本发明第一方面的方法,在所述步骤S1中,所述抽取出与业务直接相关的实体,将实体作为节点,同时根据实体间的语义关系构建节点间的边的具体方法包括:
使用
Figure 899979DEST_PATH_IMAGE001
表示实体集合,即图上包含n个节点;
使用
Figure 551540DEST_PATH_IMAGE002
表示节点类型,即该图上包含m类节点;
在所述步骤S2中,所述子图范式的具体形式包括:
Figure DEST_PATH_IMAGE003
表示中心节点的邻域的每类节点,符号中i代表中心节点且
Figure 24286DEST_PATH_IMAGE004
代表距离中心节点的跳数且
Figure DEST_PATH_IMAGE005
,t代表此类节点的类型且
Figure 357178DEST_PATH_IMAGE006
表示节点的最大跳数;将中心节点的邻域的每类节点重构了一个局部子图。
根据本发明第一方面的方法,在所述步骤S2中,所述将异质节点的信息聚合至中心节点上,得到所有特征信息的最终向量的具体方法包括:
对于子图内的异质节点的邻居节点采取两步聚合范式:先将子图内邻居节点中的每一类异质节点的同类节点聚合,得到每类异质节点特征信息的向量,再对每类异质节点特征信息的向量聚合,得到所有特征信息的最终向量。
根据本发明第一方面的方法,在所述步骤S2中,所述将子图内邻居节点中的每一类异质节点的同类节点聚合,得到每类异质节点特征信息的向量的具体方法包括:
对子图内邻居节点中的每一类异质节点的同类节点进行池化操作,再将池化操作后的结果输入基于注意力机制的第一神经网络,得到每类异质节点特征信息的向量;
所述再对每类异质节点特征信息的向量聚合,得到所有特征信息的最终向量的具体方法包括:
将所述每类异质节点特征信息的向量视为一阶特征,将所有一阶特征两两按元素乘法得到一个交叉向量,视为二阶特征,再将所有一阶二阶特征拼接起来,得到拼接特征向量;
最后使用多层感知机来做所述拼接特征向量的融合,得到所有特征信息的最终向量。
根据本发明第一方面的方法,在所述步骤S2中,所述基于所述所有特征信息的最终向量,将同质节点的信息聚合至中心节点上,得到的最终的嵌入表示的具体方法包括:
对于子图内的同质节点采取两步聚合范式:基于所述所有特征信息的最终向量,对子图内的每一类同质节点的同类节点聚合,得到每类相似信息的向量,再对所述每类相似信息的向量聚合,得到最终的嵌入表示。
根据本发明第一方面的方法,在所述步骤S2中,所述基于所述所有特征信息的最终向量,对子图内的每一类同质节点的同类节点聚合,得到每类相似信息的向量的具体方法包括:
将所述所有特征信息的最终向量输入基于注意力机制的第二神经网络,生成代表每类相似信息的向量;
对所述每类相似信息的向量聚合,得到最终的嵌入表示的具体方法包括:
将所有所述每类相似信息的向量输入基于注意力机制的第三神经网络,生成最终的嵌入表示。
根据本发明第一方面的方法,在所述步骤S3中,使用局部敏感哈希算法来进行嵌入表示的快速近邻检索的具体方法包括:
首先将节点的最终的嵌入表示经过哈希表转化为哈希码,再根据汉明距离计算所述哈希码属于哪一个哈希桶,得到了多个哈希表下哈希桶内的候选节点,再对这些候选节点和查询节点作相似度计算,排序得到最相近的K个节点,从而完成线上服务。
本发明第二方面公开了一种基于异质子图神经网络的相似信息检索系统;所述系统包括:
图结构化数据模块,被配置为,抽取出与业务直接相关的实体,将实体作为节点,同时根据实体间的语义关系构建节点间的边,完成图结构化数据;
异质子图神经网络模型,被配置为,包括:通用子图范式邻域信息建模模块、异质节点的信息聚合模块、同质节点的信息聚合模块和低资源情况下训练模块;
所述通用子图范式邻域信息建模模块,被配置为,将业务关心的节点设置为中心节点,设计用来建模所述中心节点的邻域信息的子图范式;
所述异质节点的信息聚合模块,被配置为,应用第一深度学习网络将异质节点的信息聚合至中心节点上,得到所有特征信息的最终向量;
所述同质节点的信息聚合模块,被配置为,基于所述所有特征信息的最终向量,应用第二深度学习网络将同质节点的信息聚合至中心节点上,得到的最终的嵌入表示;
所述低资源情况下训练模块,被配置为,针对粗粒度的标签,应用交叉熵损失来训练所述异质子图神经网络模型;
所述基于局部敏感哈希的相似度计算模块,被配置为,在训练完所述异质子图神经网络模型,得到所有节点的嵌入表示后,使用局部敏感哈希算法来进行嵌入表示的快速近邻检索。
根据本发明第二方面的系统,所述抽取出与业务直接相关的实体,将实体作为节点,同时根据实体间的语义关系构建节点间的边的具体方法包括:
使用
Figure 905971DEST_PATH_IMAGE001
表示实体集合,即图上包含n个节点;
使用
Figure 931696DEST_PATH_IMAGE002
表示节点类型,即该图上包含m类节点;
在所述步骤S2中,所述子图范式的具体形式包括:
Figure DEST_PATH_IMAGE007
表示中心节点的邻域的每类节点,符号中i代表中心节点且
Figure 136412DEST_PATH_IMAGE008
代表距离中心节点的跳数且
Figure 335312DEST_PATH_IMAGE009
,t代表此类节点的类型且
Figure 174830DEST_PATH_IMAGE010
表示节点的最大跳数;将中心节点的邻域的每类节点重构了一个局部子图。
根据本发明第二方面的系统,所述将异质节点的信息聚合至中心节点上,得到所有特征信息的最终向量的具体方法包括:
对于子图内的异质节点的邻居节点采取两步聚合范式:先将子图内邻居节点中的每一类异质节点的同类节点聚合,得到每类异质节点特征信息的向量,再对每类异质节点特征信息的向量聚合,得到所有特征信息的最终向量。
根据本发明第二方面的系统,所述将子图内邻居节点中的每一类异质节点的同类节点聚合,得到每类异质节点特征信息的向量的具体方法包括:
对子图内邻居节点中的每一类异质节点的同类节点进行池化操作,再将池化操作后的结果输入基于注意力机制的第一神经网络,得到每类异质节点特征信息的向量;
所述再对每类异质节点特征信息的向量聚合,得到所有特征信息的最终向量的具体方法包括:
将所述每类异质节点特征信息的向量视为一阶特征,将所有一阶特征两两按元素乘法得到一个交叉向量,视为二阶特征,再将所有一阶二阶特征拼接起来,得到拼接特征向量;
最后使用多层感知机来做所述拼接特征向量的融合,得到所有特征信息的最终向量。
根据本发明第二方面的系统,所述基于所述所有特征信息的最终向量,将同质节点的信息聚合至中心节点上,得到的最终的嵌入表示的具体方法包括:
对于子图内的同质节点采取两步聚合范式:基于所述所有特征信息的最终向量,对子图内的每一类同质节点的同类节点聚合,得到每类相似信息的向量,再对所述每类相似信息的向量聚合,得到最终的嵌入表示。
根据本发明第二方面的系统,所述基于所述所有特征信息的最终向量,对子图内的每一类同质节点的同类节点聚合,得到每类相似信息的向量的具体方法包括:
将所述所有特征信息的最终向量输入基于注意力机制的第二神经网络,生成代表每类相似信息的向量;
对所述每类相似信息的向量聚合,得到最终的嵌入表示的具体方法包括:
将所有所述每类相似信息的向量输入基于注意力机制的第三神经网络,生成最终的嵌入表示。
根据本发明第二方面的系统,使用局部敏感哈希算法来进行嵌入表示的快速近邻检索的具体方法包括:
首先将节点的最终的嵌入表示经过哈希表转化为哈希码,再根据汉明距离计算所述哈希码属于哪一个哈希桶,得到了多个哈希表下哈希桶内的候选节点,再对这些候选节点和查询节点作相似度计算,排序得到最相近的K个节点,从而完成线上服务。本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本公开第一方面中任一项的一种基于异质子图神经网络的相似信息检索方法中的步骤。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本公开第一方面中任一项的一种基于异质子图神经网络的相似信息检索方法中的步骤。
可见,本发明提出的方案,可以在低资源场景下解决相似内容检索这一业务需求。
1、低资源场景
低资源场景主要有两类表现:
1)交互记录缺失或稀疏
2)没有针对图结构的预置专家知识
针对第一条,本发明在训练节点Embedding时没有采用额外的交互记录,只采用了节点的粗粒度分类信息,极大提高了在一些低资源场景下的适用性。
针对第二条,在设计图神经网络模型时,没有和以往方法一样使用了基于专家知识的采样策略或元路径,只是简单的规定了不同跳数不同类型的节点,可以在无专家指导情况下获得较好的效果,极大提高了在低资源情况下的通用性。
2、相似内容检索
针对相似内容检索这一业务需求,异质子图神经网络有针对性得进行了两个方面设计:
1)将子图内异质邻居节点视为特征信息
2)将子图内同质邻居节点视为相似信息
针对第一类信息,我们认为相似的中心节点存在相似的属性,例如相似的学者应该存在相似或相同的文章和关键词,因此针对这一数据规律对异质特征信息进行了建模,提高了中心节点表示在相似性度量方面的准确程度。
针对第二类信息,我们认为图上相近的节点更加相似,因此利用图神经网络的聚合过程进一步提高了相似节点的相似性。
综上,本发明提出的方案能够解决了低资源场景下相似信息检索这一业务需求。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种基于异质子图神经网络的相似信息检索方法的流程图;
图2为根据本发明实施例的以学者检索场景为例的图结构化数据;
图3为根据本发明实施例的以学术异质图为例构建子图;
图4(a)-(c)为根据本发明实施例的异质子图神经网络;
图5为根据本发明实施例的一种基于异质子图神经网络的相似信息检索系统的结构图;
图6为根据本发明实施例的一种电子设备的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
异质图神经网络是指在全图节点上进行编码解码,异质子图神经网络是指在规定的子图内进行特征提取和编码解码。从时间上,异质图神经网络是2018年兴起,异质子图神经网络是最近一两年才开始发展。
实施例1:
本发明公开了一种基于异质子图神经网络的相似信息检索方法。图1为根据本发明实施例的一种基于异质子图神经网络的相似信息检索方法的流程图,如图1所示,所述方法包括:
步骤S1、抽取出与业务直接相关的实体,将实体作为节点,同时根据实体间的语义关系构建节点间的边,完成图结构化数据;完成图结构化数据后,对每个节点初始化一个Embedding,即初始化一个嵌入表示;
在一些实施例中,在所述步骤S1中,所述抽取出与业务直接相关的实体,将实体作为节点,同时根据实体间的语义关系构建节点间的边的具体方法包括:
使用
Figure 433773DEST_PATH_IMAGE011
表示实体集合,即图上包含n个节点;
使用
Figure 125786DEST_PATH_IMAGE012
表示节点类型,即该图上包含m类节点;
如图2所示,
Figure 862797DEST_PATH_IMAGE013
;使用T(i)代表实体i的节点类型,即
Figure 323866DEST_PATH_IMAGE014
在一些实施例中,在所述步骤S1中,初始化一个嵌入表示,用
Figure 753710DEST_PATH_IMAGE015
Figure 667440DEST_PATH_IMAGE016
表示,
Figure 208142DEST_PATH_IMAGE017
维度为k
Figure 290761DEST_PATH_IMAGE018
。这一嵌入表示向量是模型优化的参数,随异质子图神经网络训练而更新;
完成图结构化数据后,以下部分设计能够解决相似内容检索的图神经网络模型。首先认为:相似节点的邻域信息相似;例如,对于两个作者,如果它们存在共同论文和共同论文关键词,即作者节点邻域内的论文节点和关键词节点相同,我们认为这两个作者相近(研究方向相近)。因此,针对这一规律,有以下设计:
步骤S2、将业务关心的节点设置为中心节点,设计用来建模所述中心节点的邻域信息的子图范式;
在一些实施例中,在所述步骤S2中,所述子图范式的具体形式包括:
Figure 625928DEST_PATH_IMAGE003
表示中心节点的邻域的每类节点,符号中i代表中心节点且
Figure 292532DEST_PATH_IMAGE019
代表距离中心节点的跳数且
Figure 371347DEST_PATH_IMAGE020
,t代表此类节点的类型且
Figure 807007DEST_PATH_IMAGE010
表示节点的最大跳数;将中心节点的邻域的每类节点重构了一个局部子图;
如图2所示,需要检索相似学者,因此将节点
Figure 313075DEST_PATH_IMAGE021
视为中心节点,之后规定5类节点:1跳论文节点
Figure 529293DEST_PATH_IMAGE022
(A-P),2跳关键词节点
Figure 349481DEST_PATH_IMAGE023
(A-P-K),2跳会议/期刊节点
Figure 701965DEST_PATH_IMAGE024
(A-P-C/J),2跳作者节点
Figure 80732DEST_PATH_IMAGE025
(A-P-A),4跳作者节点
Figure 518666DEST_PATH_IMAGE026
(A-P-K-P-A或者A-P-C/J-P-A);
将以上节点视为与中心节点直接相连,因此对中心节点依据规定的这些邻居节点重构了一个局部子图,如图2所示。这里需要强调的是,以上规定的这一子图范式,不需要类似于元路径一样的专业先验知识,只需简单的规定一些能代表中心节点特征的异质邻居节点,因此能够在低资源场景下获得更强的泛化性和通用性;
在具备子图范式后,异质子图神经网络模型如图4(a)-(c)所示,应用异质子图神经网络模型来学习节点的嵌入表示:
首先将子图内不同类节点区别对待:对于与中心节点
Figure 876966DEST_PATH_IMAGE021
不同类别的异质节点(例如上例中的“1跳论文节点”
Figure 349536DEST_PATH_IMAGE027
、“2跳关键词节点”
Figure 135089DEST_PATH_IMAGE028
,“2跳会议/期刊节点”
Figure 60320DEST_PATH_IMAGE029
),认为这些节点的信息代表中心节点的特征信息,用符号
Figure 222311DEST_PATH_IMAGE030
表示,其中
Figure 549387DEST_PATH_IMAGE031
由多种
Figure 272886DEST_PATH_IMAGE032
组成,则
Figure 623096DEST_PATH_IMAGE033
,且
Figure 385515DEST_PATH_IMAGE034
Figure 504781DEST_PATH_IMAGE035
,例如上例中
Figure 960033DEST_PATH_IMAGE036
;对于与中心节点相同类别的同质节点(上例中的“2跳作者节点”
Figure 797539DEST_PATH_IMAGE037
,“4跳作者节点”
Figure 363650DEST_PATH_IMAGE038
),我们认为这些信息代表与中心节点相似的节点,用符号
Figure 835957DEST_PATH_IMAGE039
表示,其中
Figure 462111DEST_PATH_IMAGE040
由多种
Figure 786913DEST_PATH_IMAGE041
组成,则
Figure 891135DEST_PATH_IMAGE042
,其中
Figure 984993DEST_PATH_IMAGE043
,例如上例中
Figure 782048DEST_PATH_IMAGE044
具体设计两步的聚合过程,首先将异质节点的信息聚合至中心节点上,得到所有特征信息的最终向量;再基于所述所有特征信息的最终向量,将同质节点的信息聚合至中心节点上,得到的最终的嵌入表示;
这里设计以上模型的原因是:第一步聚合异质节点代表使用邻域的特征信息来对中心节点进行建模,例如使用这个作者发表的论文,涉及的关键词等特征信息描述这个作者;第二步聚合同质节点代表聚合相似内容,即图上相近的同质节点我们认为大概率相似;因此以上两步均是为了解决相似内容检索这一需求,第一步利用特征是否相似来判断两个节点是否相似从而决定两个节点的嵌入表示的相似程度,第二步利用图上邻近同类节点相似这一数据分布规律来进一步增强相似节点的相似程度;
在一些实施例中,所述将异质节点的信息聚合至中心节点上,得到所有特征信息的最终向量的具体方法包括:
对于子图内的异质节点的邻居节点采取两步聚合范式:先将子图内邻居节点中的每一类异质节点的同类节点聚合,得到每类异质节点特征信息的向量,再对每类异质节点特征信息的向量聚合,得到所有特征信息的最终向量;
在一些实施例中,所述将子图内邻居节点中的每一类异质节点的同类节点聚合,得到每类异质节点特征信息的向量的具体方法包括:
对于每一类异质节点
Figure 328567DEST_PATH_IMAGE045
,认为其代表了不同语义的特征信息;例如“1跳论文节点”
Figure 502059DEST_PATH_IMAGE046
代表了该作者的论文信息,“2跳关键词节点”
Figure 951888DEST_PATH_IMAGE047
代表了该作者的研究方向信息,因此提取出此类特征的主要语义,对子图内邻居节点中的每一类异质节点的同类节点进行池化操作,再将池化操作后的结果输入基于注意力机制的第一神经网络,得到每类异质节点特征信息的向量;
公式如下,
Figure 919844DEST_PATH_IMAGE048
其中,
Figure 953659DEST_PATH_IMAGE049
:激活函数;
Figure 399684DEST_PATH_IMAGE050
:初始化嵌入表示;
Figure 468134DEST_PATH_IMAGE051
:待训练的神经网络参数
Figure 606992DEST_PATH_IMAGE052
:节点i和节点j的相似度分数;
Figure 128103DEST_PATH_IMAGE053
:节点i和节点s的相似度分数;
Figure 377819DEST_PATH_IMAGE054
:第一计算权重;
Figure 799310DEST_PATH_IMAGE055
:每类异质节点特征信息的向量;
所述再对每类异质节点特征信息的向量聚合,得到所有特征信息的最终向量的具体方法包括:
将所述每类异质节点特征信息的向量视为一阶特征,将所有一阶特征两两按元素乘法得到一个交叉向量,视为二阶特征,再将所有一阶二阶特征拼接起来,得到拼接特征向量;
在一些实施例中,将所有每类异质节点特征信息的向量(共3个)及其它们两两交叉特征(共3个)拼接起来得到:
Figure 109069DEST_PATH_IMAGE056
其中
Figure 117476DEST_PATH_IMAGE057
代表拼接操作;
Figure 170883DEST_PATH_IMAGE058
代表按元素乘法;
最后使用多层感知机来做所述拼接特征向量的融合,得到所有特征信息的最终向量;
以上过程如下式所示
Figure 948346DEST_PATH_IMAGE059
其中
Figure 429006DEST_PATH_IMAGE060
代表
Figure 659130DEST_PATH_IMAGE061
中所有特征信息拼接后的向量,即一阶特征信息;
Figure 516228DEST_PATH_IMAGE062
代表对
Figure 210514DEST_PATH_IMAGE063
中的特征信息两两交叉和拼接之后得到的向量,即二阶特征信息;MLP代表多层感知机,输出一个同维度的向量,即
Figure 312942DEST_PATH_IMAGE064
在一些实施例中,所述基于所述所有特征信息的最终向量,将同质节点的信息聚合至中心节点上,得到的最终的嵌入表示的具体方法包括:
对于子图内的同质节点采取两步聚合范式:基于所述所有特征信息的最终向量,对子图内的每一类同质节点的同类节点聚合,得到每类相似信息的向量,再对所述每类相似信息的向量聚合,得到最终的嵌入表示;
在一些实施例中,所述基于所述所有特征信息的最终向量,对子图内的每一类同质节点的同类节点聚合,得到每类相似信息的向量的具体方法包括:
对于每一类同质节点
Figure 358259DEST_PATH_IMAGE065
,认为其代表了不同方面的相似节点;例如“2跳作者节点”
Figure 691151DEST_PATH_IMAGE066
代表了与该作者共同发表过论文的合作作者,“4跳作者节点”
Figure 239944DEST_PATH_IMAGE067
代表了与发表过包含相同关键词或会议的论文的作者;因此我们对每个方面的相似节点先进行聚合,以得到该语义下的相似信息;
将所述所有特征信息的最终向量输入基于注意力机制的第二神经网络,生成代表每类相似信息的向量;
Figure 265669DEST_PATH_IMAGE068
其中,
Figure 532702DEST_PATH_IMAGE069
:所有特征信息的最终向量;
Figure 403706DEST_PATH_IMAGE070
:第二计算权重;
Figure 72585DEST_PATH_IMAGE071
:每类相似信息的向量;
对所述每类相似信息的向量聚合,得到最终的嵌入表示的具体方法包括:
得到代表每类相似信息的向量
Figure 767746DEST_PATH_IMAGE072
后,需要将这些不同方面的相似性融合成一个最终表示,从而增强中心节点与临近节点的相似性;这里值得说明的是,尽管不同方面的相似信息均可以增强相似性,但是不同方面的相似性起到的贡献是不同的,例如“2跳作者节点”
Figure 256496DEST_PATH_IMAGE073
相比于“4跳作者节点”
Figure 196770DEST_PATH_IMAGE074
就更能代表作者间的相似性,因为它们共同研究同一篇文章即同一个方向;引入注意力机制来表示不同方面相似信息的重要性;
将所有所述每类相似信息的向量输入基于注意力机制的第三神经网络,生成最终的嵌入表示;具体公式如下:
Figure 720156DEST_PATH_IMAGE075
其中,
Figure 822104DEST_PATH_IMAGE076
:关心的那一类节点;
Figure 63729DEST_PATH_IMAGE077
:神经网络待训练的参数;
Figure 542115DEST_PATH_IMAGE078
:神经网络待训练的参数;
Figure 920007DEST_PATH_IMAGE079
:中间计算变量;
Figure 959900DEST_PATH_IMAGE080
:对每一类相似信息
Figure 423243DEST_PATH_IMAGE081
进行特征提取;
Figure 705320DEST_PATH_IMAGE082
:不同方向相似信息的重要性;
Figure 203297DEST_PATH_IMAGE083
:节点
Figure 647048DEST_PATH_IMAGE084
经过所有方面的相似信息聚合后得到的最终表示;
针对相似内容检索这一需求,最理想的情况是获得一些节点相似的标签,但现实业务场景中往往缺失这类标签,这是因为如果已有这些标签,其实就已经一定程度上解决了相似内容检索;往往业务场景可以获得的数据是粗粒度的分类。以图2为例,对于作者节点,无法获得细粒度的作者研究方向及其同方向学者信息,只能获得一个学者的研究方向大类,例如在DBLP数据集中,将作者节点分为4大类:分别为“数据库”(Database),数据挖掘(Data Mining),人工智能(Artificial Intelligence)和信息检索(InformationRetrieval);以上较粗粒度的分类无法得到某个作者到底和哪些学者研究方向最相似。因此在只有粗粒度分类标签的情况下,去训练此模型。最后将给出部分具体实例,以说明在此粗粒度分类标签的情况下,此模型仍能较好的完成细粒度相似内容检索这一任务目标;
针对粗粒度的标签,应用交叉熵损失来训练所述异质子图神经网络模型;此步骤为模型训练的一个步骤,即得到模型之后,根据此进行训练和参数更新;
具体地:
loss函数如下所示,
Figure 863266DEST_PATH_IMAGE085
其中,c代表对关心节点的粗粒度分类类别,
Figure 683454DEST_PATH_IMAGE086
代表节点
Figure 35938DEST_PATH_IMAGE087
在类别c下的真实标签,其取值为0或者1,
Figure 712907DEST_PATH_IMAGE088
代表模型预测得到的节点
Figure 587060DEST_PATH_IMAGE087
在类别c下的概率;
下面以学术知识图谱为例给出一些具体实例以说明该模型得到的Embedding适用于信息检索场景;表1给出了输入一部电影,根据以上模型训练得到Embedding进行相似度检索的前三位最相关电影;以IMDB电影数据集为例;
表1 相似内容检索结果示例
输入节点 Top1相似节点 Top2相似节点 Top3相似节点
Spectre The Rite Public Enemies The Departed
Spider-Man 3 Spider-Man Spider-Man 2 Pearl Harbor
Avatar Terminator 2: Judgment Day Death Race Gunless
步骤S3、在利用预先训练的所述异质子图神经网络模型,得到所有节点的嵌入表示后,使用局部敏感哈希算法来进行嵌入表示的快速近邻检索,得到最相似节点;
步骤S3最终目的是得到和输入节点相似的节点,例如对于节点“蜘蛛侠1”,我们期望得到节点“蜘蛛侠2”这一相似信息。即所有节点都有一个表示,根据输入节点的表示,在所有表示空间里,查询和输入节点表示最近的几个节点,即最相似节点。
局部敏感哈希”的原理如下。“局部敏感哈希”是一种针对海量高维数据的快速最近邻查找算法;在信息检索、数据挖掘以及推荐系统等应用中,经常会遇到的一个问题就是面临着海量的高维数据,查找其最近邻;其核心思想是:人们设计了一种特殊的hash函数,使得2个相似度很高的数据以较高的概率映射成同一个 hash 值,而令 2 个相似度很低的数据以极低的概率映射成同一个 hash 值;这里首先采用线性映射,将异质子图神经网络得到的k维表示
Figure 273256DEST_PATH_IMAGE089
哈希编码为k1位二进制哈希码,即
Figure 417930DEST_PATH_IMAGE090
Figure 531379DEST_PATH_IMAGE091
;每一个哈希函数称为一个哈希表,每个哈希表下根据哈希码的不同可划分为不同的哈希桶;值得注意的是,哈希表和哈希桶的数量随数据具体而定,哈希表越多代表查询越宽松,即越能找到更多相似节点,但会增加时间开销;哈希桶越多代表查询越苛刻,即越能找到更少相似节点,但能增加准确程度;因此哈希表和哈希桶的数量是一个精度与速度平衡的过程,需要视具体数据情况而定;
如此,当线上服务输入一个节点进行近邻搜索时,首先将节点的最终的嵌入表示经过哈希表转化为哈希码,再根据汉明距离计算所述哈希码属于哪一个哈希桶,得到了多个哈希表下哈希桶内的候选节点,再对这些候选节点和查询节点作相似度计算,排序得到最相近的K个节点,从而完成线上服务。
综上,本发明提出的方案可以在低资源场景下解决相似内容检索这一业务需求。
1低资源场景
低资源场景主要有两类表现:
1)交互记录缺失或稀疏
2)没有针对图结构的预置专家知识
针对第一条,我们在训练节点Embedding时没有采用额外的交互记录,只采用了节点的粗粒度分类信息,极大提高了在一些低资源场景下的适用性。
针对第二条,在设计图神经网络模型时,没有和以往方法一样使用了基于专家知识的采样策略或元路径,只是简单的规定了不同跳数不同类型的节点,可以在无专家指导情况下获得较好的效果,极大提高了在低资源情况下的通用性。
2相似内容检索
针对相似内容检索这一业务需求,异质子图神经网络有针对性得进行了两个方面设计:
1)将子图内异质邻居节点视为特征信息
2)将子图内同质邻居节点视为相似信息
针对第一类信息,我们认为相似的中心节点存在相似的属性,例如相似的学者应该存在相似或相同的文章和关键词,因此针对这一数据规律对异质特征信息进行了建模,提高了中心节点表示在相似性度量方面的准确程度。
针对第二类信息,我们认为图上相近的节点更加相似,因此利用图神经网络的聚合过程进一步提高了相似节点的相似性。
实施例2:
本发明公开了一种基于异质子图神经网络的相似信息检索系统。图5为根据本发明实施例的一种基于异质子图神经网络的相似信息检索系统的结构图;如图5所示,所述系统100包括:
图结构化数据模块101,被配置为,抽取出与业务直接相关的实体,将实体作为节点,同时根据实体间的语义关系构建节点间的边,完成图结构化数据;
异质子图神经网络模型102,被配置为,包括:通用子图范式邻域信息建模模块、异质节点的信息聚合模块、同质节点的信息聚合模块和低资源情况下训练模块;
所述通用子图范式邻域信息建模模块,被配置为,将业务关心的节点设置为中心节点,设计用来建模所述中心节点的邻域信息的子图范式;
所述异质节点的信息聚合模块,被配置为,应用第一深度学习网络将异质节点的信息聚合至中心节点上,得到所有特征信息的最终向量;
所述同质节点的信息聚合模块,被配置为,基于所述所有特征信息的最终向量,应用第二深度学习网络将同质节点的信息聚合至中心节点上,得到的最终的嵌入表示;
所述低资源情况下训练模块,被配置为,针对粗粒度的标签,应用交叉熵损失来训练所述异质子图神经网络模型;
所述基于局部敏感哈希的相似度计算模块103,被配置为,在训练完所述异质子图神经网络模型,得到所有节点的嵌入表示后,使用局部敏感哈希算法来进行嵌入表示的快速近邻检索。
实施例3:
本发:公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本发明公开实施例1中任一项的一种基于异质子图神经网络的相似信息检索方法中的步骤。
图6为根据本发明实施例的一种电子设备的结构图,如图6所示,电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
实施例4:
本发明公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本发明的实施例1中任一项的一种基于异质子图神经网络的相似信息检索方法中的步骤中的步骤。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种基于异质子图神经网络的相似信息检索方法,其特征在于,所述方法包括:
步骤S1、抽取出与业务直接相关的实体,将实体作为节点,同时根据实体间的语义关系构建节点间的边,完成图结构化数据;
步骤S2、将业务关心的节点设置为中心节点,设计用来建模所述中心节点的邻域信息的子图范式;
在具备子图范式后,应用异质子图神经网络模型来学习节点的嵌入表示:
具体设计两步的聚合过程,首先将异质节点的信息聚合至中心节点上,得到所有特征信息的最终向量;再基于所述所有特征信息的最终向量,将同质节点的信息聚合至中心节点上,得到最终的嵌入表示;
针对粗粒度的标签,应用交叉熵损失来训练所述异质子图神经网络模型;
步骤S3、在利用预先训练的所述异质子图神经网络模型,得到所有节点的嵌入表示后,使用局部敏感哈希算法来进行嵌入表示的快速近邻检索,得到最相似节点。
2.根据权利要求1所述的一种基于异质子图神经网络的相似信息检索方法,其特征在于,在所述步骤S1中,所述抽取出与业务直接相关的实体,将实体作为节点,同时根据实体间的语义关系构建节点间的边的具体方法包括:
使用
Figure 961970DEST_PATH_IMAGE001
表示实体集合,即图上包含n个节点;
使用
Figure 15377DEST_PATH_IMAGE002
表示节点类型,即该图上包含m类节点;
在所述步骤S2中,所述子图范式的具体形式包括:
Figure 792840DEST_PATH_IMAGE003
表示中心节点的邻域的每类节点,符号中i代表中心节点且
Figure 273500DEST_PATH_IMAGE004
代表距离中心节点的跳数且
Figure 503624DEST_PATH_IMAGE005
,t代表此类节点的类型且
Figure 360722DEST_PATH_IMAGE006
表示节点的最大跳数;将中心节点的邻域的每类节点重构了一个局部子图。
3.根据权利要求2所述的一种基于异质子图神经网络的相似信息检索方法,其特征在于,在所述步骤S2中,所述将异质节点的信息聚合至中心节点上,得到所有特征信息的最终向量的具体方法包括:
对于子图内的异质节点的邻居节点采取两步聚合范式:先将子图内邻居节点中的每一类异质节点的同类节点聚合,得到每类异质节点特征信息的向量,再对每类异质节点特征信息的向量聚合,得到所有特征信息的最终向量。
4.根据权利要求3所述的一种基于异质子图神经网络的相似信息检索方法,其特征在于,在所述步骤S2中,所述将子图内邻居节点中的每一类异质节点的同类节点聚合,得到每类异质节点特征信息的向量的具体方法包括:
对子图内邻居节点中的每一类异质节点的同类节点进行池化操作,再将池化操作后的结果输入基于注意力机制的第一神经网络,得到每类异质节点特征信息的向量;
所述再对每类异质节点特征信息的向量聚合,得到所有特征信息的最终向量的具体方法包括:
将所述每类异质节点特征信息的向量视为一阶特征,将所有一阶特征两两按元素乘法得到一个交叉向量,视为二阶特征,再将所有一阶二阶特征拼接起来,得到拼接特征向量;
最后使用多层感知机来做所述拼接特征向量的融合,得到所有特征信息的最终向量。
5.根据权利要求4所述的一种基于异质子图神经网络的相似信息检索方法,其特征在于,在所述步骤S2中,所述基于所述所有特征信息的最终向量,将同质节点的信息聚合至中心节点上,得到最终的嵌入表示的具体方法包括:
对于子图内的同质节点采取两步聚合范式:基于所述所有特征信息的最终向量,对子图内的每一类同质节点的同类节点聚合,得到每类相似信息的向量,再对所述每类相似信息的向量聚合,得到最终的嵌入表示。
6.根据权利要求5所述的一种基于异质子图神经网络的相似信息检索方法,其特征在于,在所述步骤S2中,所述基于所述所有特征信息的最终向量,对子图内的每一类同质节点的同类节点聚合,得到每类相似信息的向量的具体方法包括:
将所述所有特征信息的最终向量输入基于注意力机制的第二神经网络,生成代表每类相似信息的向量;
对所述每类相似信息的向量聚合,得到最终的嵌入表示的具体方法包括:
将所有所述每类相似信息的向量输入基于注意力机制的第三神经网络,生成最终的嵌入表示。
7.根据权利要求1所述的一种基于异质子图神经网络的相似信息检索方法,其特征在于,在所述步骤S3中,使用局部敏感哈希算法来进行嵌入表示的快速近邻检索的具体方法包括:
首先将节点的最终的嵌入表示经过哈希表转化为哈希码,再根据汉明距离计算所述哈希码属于哪一个哈希桶,得到了多个哈希表下哈希桶内的候选节点,再对这些候选节点和查询节点作相似度计算,排序得到最相近的K个节点,从而完成线上服务。
8.一种用于基于异质子图神经网络的相似信息检索系统,其特征在于,所述系统包括:
图结构化数据模块,被配置为,抽取出与业务直接相关的实体,将实体作为节点,同时根据实体间的语义关系构建节点间的边,完成图结构化数据;
异质子图神经网络模型,被配置为,包括:通用子图范式邻域信息建模模块、异质节点的信息聚合模块、同质节点的信息聚合模块和低资源情况下训练模块;
所述通用子图范式邻域信息建模模块,被配置为,将业务关心的节点设置为中心节点,设计用来建模所述中心节点的邻域信息的子图范式;
所述异质节点的信息聚合模块,被配置为,应用第一深度学习网络将异质节点的信息聚合至中心节点上,得到所有特征信息的最终向量;
所述同质节点的信息聚合模块,被配置为,基于所述所有特征信息的最终向量,应用第二深度学习网络将同质节点的信息聚合至中心节点上,得到的最终的嵌入表示;
所述低资源情况下训练模块,被配置为,针对粗粒度的标签,应用交叉熵损失来训练所述异质子图神经网络模型;
所述基于局部敏感哈希的相似度计算模块,被配置为,在训练完所述异质子图神经网络模型,得到所有节点的嵌入表示后,使用局部敏感哈希算法来进行嵌入表示的快速近邻检索。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1至7中任一项所述的一种基于异质子图神经网络的相似信息检索方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至7中任一项所述的一种基于异质子图神经网络的相似信息检索方法中的步骤。
CN202111550920.7A 2021-12-17 2021-12-17 一种基于异质子图神经网络的相似信息检索方法和系统 Active CN114168804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111550920.7A CN114168804B (zh) 2021-12-17 2021-12-17 一种基于异质子图神经网络的相似信息检索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111550920.7A CN114168804B (zh) 2021-12-17 2021-12-17 一种基于异质子图神经网络的相似信息检索方法和系统

Publications (2)

Publication Number Publication Date
CN114168804A true CN114168804A (zh) 2022-03-11
CN114168804B CN114168804B (zh) 2022-06-10

Family

ID=80487171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111550920.7A Active CN114168804B (zh) 2021-12-17 2021-12-17 一种基于异质子图神经网络的相似信息检索方法和系统

Country Status (1)

Country Link
CN (1) CN114168804B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115587116A (zh) * 2022-12-13 2023-01-10 北京安普诺信息技术有限公司 快速查询同构子图的方法、装置、电子设备及存储介质
CN118626635A (zh) * 2024-08-12 2024-09-10 中山大学 基于子图表征学习的科研成果聚类推荐方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046698A (zh) * 2019-04-28 2019-07-23 北京邮电大学 异质图神经网络生成方法、装置、电子设备及存储介质
CN110516146A (zh) * 2019-07-15 2019-11-29 中国科学院计算机网络信息中心 一种基于异质图卷积神经网络嵌入的作者名字消歧方法
CN111325326A (zh) * 2020-02-21 2020-06-23 北京工业大学 一种基于异质网络表示学习的链路预测方法
CN112257066A (zh) * 2020-10-30 2021-01-22 广州大学 面向带权异质图的恶意行为识别方法、系统和存储介质
CN112784913A (zh) * 2021-01-29 2021-05-11 湖南大学 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置
CN112966763A (zh) * 2021-03-17 2021-06-15 北京邮电大学 一种分类模型的训练方法、装置、电子设备及存储介质
CN112989842A (zh) * 2021-02-25 2021-06-18 电子科技大学 多语义异质图的通用嵌入框架的构建方法
CN113177141A (zh) * 2021-05-24 2021-07-27 北湾科技(武汉)有限公司 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
CN113254803A (zh) * 2021-06-24 2021-08-13 暨南大学 一种基于多特征异质图神经网络的社交推荐方法
CN113282612A (zh) * 2021-07-21 2021-08-20 中国人民解放军国防科技大学 一种基于科学合作异质网络分析的作者会议推荐方法
WO2021179838A1 (zh) * 2020-03-10 2021-09-16 支付宝(杭州)信息技术有限公司 一种基于异构图神经网络模型进行预测的方法和系统
CN113569906A (zh) * 2021-06-10 2021-10-29 重庆大学 基于元路径子图的异质图信息提取方法和装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046698A (zh) * 2019-04-28 2019-07-23 北京邮电大学 异质图神经网络生成方法、装置、电子设备及存储介质
CN110516146A (zh) * 2019-07-15 2019-11-29 中国科学院计算机网络信息中心 一种基于异质图卷积神经网络嵌入的作者名字消歧方法
CN111325326A (zh) * 2020-02-21 2020-06-23 北京工业大学 一种基于异质网络表示学习的链路预测方法
WO2021179838A1 (zh) * 2020-03-10 2021-09-16 支付宝(杭州)信息技术有限公司 一种基于异构图神经网络模型进行预测的方法和系统
CN112257066A (zh) * 2020-10-30 2021-01-22 广州大学 面向带权异质图的恶意行为识别方法、系统和存储介质
CN112784913A (zh) * 2021-01-29 2021-05-11 湖南大学 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置
CN112989842A (zh) * 2021-02-25 2021-06-18 电子科技大学 多语义异质图的通用嵌入框架的构建方法
CN112966763A (zh) * 2021-03-17 2021-06-15 北京邮电大学 一种分类模型的训练方法、装置、电子设备及存储介质
CN113177141A (zh) * 2021-05-24 2021-07-27 北湾科技(武汉)有限公司 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
CN113569906A (zh) * 2021-06-10 2021-10-29 重庆大学 基于元路径子图的异质图信息提取方法和装置
CN113254803A (zh) * 2021-06-24 2021-08-13 暨南大学 一种基于多特征异质图神经网络的社交推荐方法
CN113282612A (zh) * 2021-07-21 2021-08-20 中国人民解放军国防科技大学 一种基于科学合作异质网络分析的作者会议推荐方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XINLIANG WU 等: "R-GSN: The Relation-based Graph Similar Network for Heterogeneous Graph", 《HTTPS://ARXIV.ORG/ABS/2103.07877V3》 *
单嵩岩 等: "面向作者消歧和合作预测领域的作者相似度算法述评", 《东北师大学报(自然科学版)》 *
吴世康: "基于元路径的关系选择图神经网络", 《现代计算机》 *
顾晓玲: "时尚媒体数据的新型检索技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115587116A (zh) * 2022-12-13 2023-01-10 北京安普诺信息技术有限公司 快速查询同构子图的方法、装置、电子设备及存储介质
CN118626635A (zh) * 2024-08-12 2024-09-10 中山大学 基于子图表征学习的科研成果聚类推荐方法及系统
CN118626635B (zh) * 2024-08-12 2024-10-15 中山大学 基于子图表征学习的科研成果聚类推荐方法及系统

Also Published As

Publication number Publication date
CN114168804B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
Islam et al. A survey on deep learning based Point-of-Interest (POI) recommendations
Zheng Methodologies for cross-domain data fusion: An overview
Liu et al. Motif-preserving dynamic attributed network embedding
Logesh et al. Learning recency and inferring associations in location based social network for emotion induced point-of-interest recommendation.
CN114168804B (zh) 一种基于异质子图神经网络的相似信息检索方法和系统
Gan et al. Mapping user interest into hyper-spherical space: A novel POI recommendation method
Duarte et al. Machine learning and marketing: A systematic literature review
Liu et al. POI Recommendation Method Using Deep Learning in Location‐Based Social Networks
Wang et al. Memetic algorithm based location and topic aware recommender system
Xu et al. Ssser: Spatiotemporal sequential and social embedding rank for successive point-of-interest recommendation
Sharma et al. Intelligent data analysis using optimized support vector machine based data mining approach for tourism industry
He et al. Learning stable graphs from multiple environments with selection bias
Kumar et al. Modified node2vec and attention based fusion framework for next POI recommendation
Zhang et al. MIRN: A multi-interest retrieval network with sequence-to-interest EM routing
Li et al. Multi-behavior enhanced heterogeneous graph convolutional networks recommendation algorithm based on feature-interaction
Yang et al. Attention mechanism and adaptive convolution actuated fusion network for next POI recommendation
Li et al. Recommender Systems: Frontiers and Practices
Kumar et al. Graph Convolutional Neural Networks for Link Prediction in Social Networks
CN118071400A (zh) 基于图计算技术在信息消费领域的应用方法及系统
Cai et al. A graph convolutional fusion model for community detection in multiplex networks
Tran et al. Combining social relations and interaction data in Recommender System with Graph Convolution Collaborative Filtering
Liu et al. Incorporating heterogeneous user behaviors and social influences for predictive analysis
Zhang et al. Multi-view dynamic heterogeneous information network embedding
Chen et al. KGCF: Social relationship-aware graph collaborative filtering for recommendation
Lu Design of a music recommendation model on the basis of multilayer attention representation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant