CN111159481B - 图数据的边预测方法、装置及终端设备 - Google Patents
图数据的边预测方法、装置及终端设备 Download PDFInfo
- Publication number
- CN111159481B CN111159481B CN201911296438.8A CN201911296438A CN111159481B CN 111159481 B CN111159481 B CN 111159481B CN 201911296438 A CN201911296438 A CN 201911296438A CN 111159481 B CN111159481 B CN 111159481B
- Authority
- CN
- China
- Prior art keywords
- node
- matrix
- vector
- graph data
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Processing (AREA)
Abstract
本申请适用于数据处理技术领域,提供了图数据的边预测方法、装置及终端设备,包括:获取图数据的节点特征矩阵及邻接矩阵;将所述节点特征矩阵及所述邻接矩阵输入已训练的目标神经网络,得到所述图数据的节点融合特征矩阵、节点生成度向量及节点流行度向量;根据所述节点融合特征矩阵、所述节点生成度向量及所述节点流行度向量,得到每个节点对应的边生成概率向量;根据每个节点对应的边生成概率向量确定预测生成的边。本申请实施例能够提高图数据边预测的准确性。
Description
技术领域
本申请属于数据处理技术领域,尤其涉及一种图数据的边预测方法、装置及终端设备。
背景技术
图数据(graph data)在现实生活中大量存在,比如社交网络图、知识图谱等。这些图数据是一些非结构化非欧空间的数据,这些数据的信息体现在节点的特征和图的结构上。
在图数据中,边预测(Link Prediction)是一种用于处理分析图数据的方式,是一种基于图数据来预测节点之间现在没有或者缺失但将来会出现或者可能存在的边的方法。现有图数据的边预测方法通常是利用基于正负样本进行监督学习得到的判别模型进行边预测,然而这种方法没结合图数据的特性,其准确性较低。
发明内容
有鉴于此,本申请实施例提供了图数据的边预测方法、装置及终端设备,以解决现有技术中如何提高图数据的边预测准确性的问题。
本申请实施例的第一方面提供了一种图数据的边预测方法,包括:
获取图数据的节点特征矩阵及邻接矩阵;
将所述节点特征矩阵及所述邻接矩阵输入已训练的目标神经网络,得到所述图数据的节点融合特征矩阵、节点生成度向量及节点流行度向量;
根据所述节点融合特征矩阵、所述节点生成度向量及所述节点流行度向量,得到每个节点对应的边生成概率向量;
根据每个节点对应的边生成概率向量确定预测生成的边。
本申请实施例的第二方面提供了一种图数据的边预测装置,包括:
第一获取单元,用于获取图数据的节点特征矩阵及邻接矩阵;
特征提取单元,用于将所述节点特征矩阵及所述邻接矩阵输入已训练的目标神经网络,得到所述图数据的节点融合特征矩阵、节点生成度向量及节点流行度向量;
边生成概率向量确定单元,用于根据所述节点融合特征矩阵、所述节点生成度向量及所述节点流行度向量,得到每个节点对应的边生成概率向量;
边确定单元,用于根据每个节点对应的边生成概率向量确定预测生成的边。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,使得终端设备实现如所述图数据的边预测方法的步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,使得终端设备实现如所述图数据的边预测方法的步骤。
本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行如第一方面中所述的图数据的边预测方法。
本申请实施例与现有技术相比存在的有益效果是:本申请实施例中,由于除了提取节点融合特征矩阵外,还能够根据已训练的目标神经网络提取图数据的节点生成度向量和节点流行度向量,并结合节点融合特征矩阵、节点生成度向量及节点流行度向量来确定每个节点对应的边生成概率,确定预测生成的边,因此能够通过准确获取图数据每个节点的生成度特征和流行度特征来充分地利用图数据的特性实现边预测,从而能够提高图数据的边预测的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的第一种图数据的边预测方法的实现流程示意图;
图2是本申请实施例提供的一种图数据的结构示例图;
图3是本申请实施例提供的一种目标神经网络的结构示例图;
图4是本申请实施例提供的第二种图数据的边预测方法的实现流程示意图;
图5是本申请实施例提供的第三种图数据的边预测方法的实现流程示意图;
图6是本申请实施例提供的一种图数据的边预测装置的示意图;
图7是本申请实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例一:
图1示出了本申请实施例提供的第一种图数据的边预测方法的流程示意图,详述如下:
在S101中,获取图数据的节点特征矩阵及邻接矩阵。
本申请实施例中的图数据为由多个节点及具有联系关系的节点之间的边构成的图结构数据,如图2所示即为一种图数据的示例图。该图数据可以为表示社交网络中的用户关系的社交网络图、表示论文引用关系的论文引用结构图、表示知识点关系的知识图谱或者交通网络图等。具体地,本申请实施例中的图数据为有向图数据,即图数据中的每条边为有确定的起点和终点的有向边。
为了便于表示,以下用“N”表示图数据的节点个数。
图数据的节点特征矩阵具体由每个节点的节点特征向量组成,每个节点的节点特征向量包含该节点的特征信息,即该节点特征矩阵可以根据图数据中每个节点携带的特征信息构建得到。例如,设节点特征向量的长度为M,则该图数据的节点特征矩阵为N×M维度的矩阵,该矩阵的每一行为一个节点的节点特征向量。示例性地,若图数据具体为社交网络图,图数据中的节点具体为用户节点,则节点特征矩阵中的每一个节点特征向量包含的特征信息可以为用户的性别、年龄、爱好等信息。
图数据的邻接矩阵具体根据图数据中节点之间的边连接关系构建得到,该邻接矩阵具体为一个N×N维度的矩阵。示例性地,以A表示邻接矩阵,设节点i、节点j分别为图数据中的任意两个节点,Ai,j为邻接矩阵A中第i行第j列中的一项数据,则Ai,j=1表示图数据中存在节点i指向节点j的边,Ai,j=0表示图数据中不存在节点i指向节点j的边。
在S102中,将所述节点特征矩阵及所述邻接矩阵输入已训练的目标神经网络,得到所述图数据的节点融合特征矩阵、节点生成度向量及节点流行度向量。
将获取到的节点特征矩阵和邻接矩阵输入已训练的而目标神经网络中,经过特征提取处理,得到图数据的节点融合特征矩阵、节点生成度向量及节点流行度向量。具体地,该节点融合特征矩阵包含每个节点的融合特征向量,
设每个节点的融合特征向量的长度为F,则该节点融合特征矩阵的维度为N×F。其中,融合特征向量的长度F为一个提前设定的目标神经网络的超参数,例如可以设F=16、F=32等。具体地,该节点生成度向量的维度为N×1,具体包含每个节点对应的生成度(productivity);该节点流行度向量的维度为N×1,具体包含每个节点对应的流行度(popularity)。生成度指的是一个节点存在指向其它节点的边(即该节点作为图数据的一条边的起点)的概率,流行度指的是一个节点存在被其它节点所指向的边(即该节点作为图数据的一条边的终点)的概率。例如,如图2所示,该图数据中包含8个节点,节点21为其中的一个节点,节点21存在2条指向其它节点的边,则该节点21的生成度为2/8;该节点21还存在被其它节点所指向的3条边,则该节点21的流行度为3/8。
通过该已训练的目标神经网络,可以准确地提取到每个节点的融合特征、生成度、流行度等信息,从而充分地获取图数据中每个节点的信息。
可选地,所述目标神经网络包括第一图卷积层、第二图卷积层、节点流行度特征网络层及节点生成度特征网络层,所述步骤S102包括:
S1021:将所述节点特征矩阵及所述邻接矩阵输入所述第一图卷积层进行处理,得到第一矩阵;
S1022:将所述第一矩阵输入所述第二图卷积层进行处理,得到节点融合特征矩阵;
S1023:将所述第一矩阵输入所述节点生成度特征网络层进行处理,得到节点生成度向量;
S1024:将所述第一矩阵输入所述节点流行度特征网络层进行处理,得到节点流行度向量。
本申请实施例中,目标神经网络的结构示意图如图3所示,具体包括第一图卷积层31、第二图卷积层32、节点生成度特征网络层33、节点流行度特征网络层34。图中,X表示节点特征矩阵,A表示邻接矩阵,H1表示第一矩阵,Z表示节点融合特征矩阵,表示节点生成度向量,/>表示节点流行度向量。
在S1021中,将节点特征矩阵X和邻接矩阵A输入第一图卷积层中进行初步的图卷积处理,得到第一矩阵H1。第一图卷积层的处理可以用如下公式表示:
其中,激活函数relu(x)=max(0,x);为邻接矩阵A的归一化后的拉普拉斯矩阵,可根据式子/>计算转换得到(D为邻接矩阵A的度矩阵);W0为经过学习训练确定的第一图卷积层的权重参数。
在S1022中,将第一矩阵H1输入第二图卷积层再次进行图卷积处理,得到图数据的节点融合特征矩阵Z。第二图卷积层的处理可以用如下公式表示:
其中,W1为经过学习训练确定的第二图卷积层的权重参数。
在S1023中,将第一矩阵H1输入节点生成度特征网络层进行节点的生成度特征提取,得到节点生成度特征向量该节点生成度特征网络层的处理可以用如下公式表示:
其中,激活函数W2为经过学习训练后确定的节点生成度特征网络层的权重参数。
在S1024中,将第一矩阵H1输入节点流行度特征网络层进行节点的流行度特征提取,得到节点流行度特征向量该节点流行度特征网络层的处理可以用如下公式表示:
其中,激活函数W3为经过学习训练后确定的节点生成度特征网络层的权重参数。
本申请实施例中,通过已训练的目标网络层中的两层图卷积层及其中包含的权重参数W0和W1能够准确地提取到图数据的节点融合特征矩阵,通过节点生成度特征网络层及其包含的权重参数W2能够准确地提取到图数据的节点生成度特征向量,通过节点流行度特征网络层及其包含的权重参数W3能够准确地提取到图数据的节点流行度特征向量,从而准确地提取图数据的特征信息。
在S103中,根据所述节点融合特征矩阵、所述节点生成度向量及所述节点流行度向量,得到每个节点对应的边生成概率向量。
本申请实施例中一个节点对应的边生成概率向量由T个边生成概率组成,每个边生成概率表示生成以该节点为起点的一条边的概率。其中,T=N-1或者T=N,当图数据中不包含自环边(即起点和终点为同一节点的边)时,一个节点对应的边生成概率向量由N-1个边生成概率组成,分别对应表示生成以该节点为起点、以该节点以外的N-1个节点为终点的N-1条边的概率,此时T=N-1;当图数据包含自环边时,则在前述的N-1个边生成概率的基础上还增加了一个该节点生成指向自身的自环边的概率,相应地,一个节点对应的边生成概率向量由N个边生成概率组成,此时T=N。
具体地,根据节点融合特征矩阵Z,节点生成度向量节点流行度向量/>
通过预设联合概率公式,得到每个节点对应的边生成概率向量,所述预设联合概率公式如下:
其中,i表示图数据中的任意一个节点,j表示图数据中除节点i以外的任意一个节点或者为图数据中所有节点中(包括节点i)的任意一个节点,表示节点i生成指向节点j的边的概率,Zi表示节点i的融合特征向量,Zj表示节点j的融合特征向量,a~i表示节点i的生成度,/>表示节点j的流行度。V表示图数据中的节点集合。根据该预设联合公式,分别经过T次计算,得出节点i对应的T个边生成概率,组成节点i的边生成概率向量。
该预设联合公式中,通过exp(ZiTZj)可以求得节点i的融合特征向量Zi和节点j的融合特征向量Zj之间的相似度,并结合节点j的流行度节点i的生成度/>可以准确地计算节点i生成指向节点j的边的概率,从而准确地得到每个节点对应的边生成概率向量。
在S104中,根据每个节点对应的边生成概率向量确定预测生成的边。
本申请实施例中,预测生成的边为其对应的边生成概率满足预设条件的边。将每个节点对应的边生成概率向量与预设条件比较,分别确定以该节点为起点的一条或者多条预测生成的边。
可选地,所述步骤S104包括:
将所述边生成概率向量中的每一个边生成概率从大到小进行排序,并确定前K个边生成概率对应的边为预测生成的边,其中K为提前设定的正整数,且K小于或者等于所述图数据的节点总数。
一个节点对应一个边生成概率向量,可将该节点的边生成概率向量中的T个边生成概率从大到小进行排序,并确定前K个边生成概率对应的边为该节点对应的预测生成的边。将每个节点都进行前述操作,可以得到N×K条预测生成的边。其中,K为提前设定的正整数,且K小于或者等于图数据的节点总数N。
或者,可将所有的边生成概率向量中共计包含的N×T个边生成概率统计在一起作从大到小的排序操作,并确定前K个边生成概率对应的边为一整个图数据最终确定的预测生成的边。其中,K为提前设定的正整数,且K小于或者等于图数据的节点总数的平方:N2。
本申请实施例中,通过K值来提前设定需生成的边的数量,之后将边生成概率向量中的边生成概率进行排序统计,能够确定图数据中边生成概率较大的前N×K条或者前K条边作为最终预测生成的边,从而能够准确地得到指定数量的预测生成的边。
可选地,所述步骤S104包括:
根据每个节点对应的边生成概率向量及第一预设概率值,确定预测生成的边。
本申请实施例中的第一预设概率值为提前设定的概率阈值,将每个边生成概率向量中的每个边生成概率分别与该第一预设概率值作比较,当边生成概率大于该第一预设概率值时,则判定该边生成概率对应的边有较大的可能存在,将其确定为预测生成的边。
本申请实施例中,通过将第一预设概率值与边生成概率向量中的边生成概率作比较,能够准确地筛选出有较大可能性存在的边作为预测生成的边,从而提高边预测的准确性。
可选地,所述步骤S104包括:
S1041:将每个节点的边生成概率向量进行归一化处理,得到每个节点的归一化概率向量;
S1042:将所述归一化概率向量中的每一个归一化概率从大到小进行排序;
S1043:根据第二预设概率值,确定前L个归一化概率对应的边为预测生成的边,其中L为根据第二预设概率值及归一化概率向量确定的正整数。
在S1041中,对于一个节点,将其边生成概率向量中的所有边生成概率之和作为分母,并分别将每个边生成概率作为分子,得到每个边生成概率对应的归一化概率,由这些归一化概率组成该节点的归一化概率向量,完成对该节点的归一化处理。将每个节点的边生成概率向量均进行如前述的归一化处理,得到每个节点的归一化概率向量。每个节点的归一化概率向量中一个归一化概率与该节点的边生成概率向量中的一个边生成概率对应,因此归一化概率向量中包含的归一化概率的个数也为T个。
具体地,归一化处理的公式如下:
其中,i、j、m均为图数据中的任意一个节点,为节点生成度向量,/>为节点流行度向量,/>表示节点i生成指向节点j的边的归一化概率,/>表示将节点i生成指向节点j的边生成概率归一化映射到(0,1)区间的操作;对应节点i的边生成概率向量中所有边生成概率之和,/>对应节点i生成指向节点j的边的边生成概率。
在S1042中,对于一个节点的归一化概率向量,将该归一化概率向量中的T个归一化概率从大到小进行降序排序。将每个节点的归一化概率向量均作前述的排序操作。
在S1043中,对于每个节点,将其排序后的归一化概率累加并与第二预设概率值p2进行比较,确定每个节点的前L个归一化概率对应的边为预测生成的边。其中,p2∈(0,1),L为根据p2及归一化概率的累加值确定的正整数,每个节点的前L个归一化概率的累加值大于或者等于p2,每个节点的前L-1个归一化概率的累加值小于p2。
示例性地,设p(i)为将节点i的归一化概率向量中的每一个归一化概率进行从大到小的降序排序后得到的序列,即则L满足以下条件:
其中,n为正整数,p(i)n为降序排列的序列p(i)中的第n项。
具体地,在将节点i的归一化概率向量中的归一化概率进行降序排序时,可以将归一化概率对应的边指向的节点标号也相应进行排序得到序列该序列与序列p(i)对应,由节点i指向节点p_age(i)n的边的归一化概率即为p(i)n。将节点i指向节点p_age(i)n的边用(i,p_age(i)n)表示,则最终节点i预测生成的L条边为:(i,p_age(i)1)、(i,p_age(i)2),…,(i,p_age(i)L)。
本申请实施例中,通过将每个节点的边生成概率向量进行归一化得到对应的归一化概率向量,并根据第二预设概率值来确定每个节点对应的前L条预测生成的边,从而准确地得到预测生成的边。
本申请实施例中,由于除了提取节点融合特征矩阵外,还能够根据已训练的目标神经网络提取图数据的节点生成度向量和节点流行度向量,并结合节点融合特征矩阵、节点生成度向量及节点流行度向量来确定每个节点对应的边生成概率,确定预测生成的边,因此能够通过准确获取图数据每个节点的生成度特征和流行度特征来充分地利用图数据的特性实现边预测,从而能够提高图数据的边预测的准确性。
实施例二:
图4示出了本申请实施例提供的第二种图数据的边预测方法的流程示意图,详述如下:
本申请实施例在实施例一的基础上增加了目标神经网络的训练步骤S401-S402。本实施例中S403-S406与上一实施例中的S101-S104完全相同,具体请参阅实施例一中S101-S104的相关描述,此处不赘述。如图4所示的图数据的边预测方法中的步骤S401-S402,详述如下:
在S401中,获取样本图数据的样本节点特征矩阵及样本邻接矩阵。
样本图数据可以根据目标神经网络所要预测的图数据的类型确定。例如将训练得到的目标神经网络用于社交网络图的边预测,则相应的样本图数据为社交网络图样本数据。具体地,样本图数据中的节点数量需要足够多,(可以约束样本图数据中的节点数量需大于预设数量),从而保证目标神经网络得到充分的训练,进而提高图数据的边预测的准确率。
在S402中,将所述样本节点特征矩阵及所述样本邻接矩阵输入目标神经网络进行训练,学习样本图数据的联合概率分布,直至目标损失值最小,得到已训练的目标神经网络。
本申请实施例中的目标神经网络具体为生成模型,其训练过程是基于图数据的节点之间边生成的联合概率分布进行的。
将样本节点特征矩阵X和样本邻接矩阵A输入目标神经网络进行训练,结合样本图数据中每个节点的生成度特征和流行度特征学习样本图数据节点边生成的联合概率分布,直至目标损失值最小,得到已训练的目标神经网络。具体地,通过实施例一中所述的预设联合概率公式:计算每个节点的每条边生成概率,学习样本图数据的联合概率分布,直至目标损失值最小,其中该目标损失值采用极大似然估计法确定,其计算公式如下:
其中,A表示样本图数据的邻接矩阵,表示样本图数据的节点融合特征矩阵,表示节点生成度向量,/>表示节点流行度向量,i表示样本图数据中的任意一个节点,LO(i)表示样本图数据中节点i指向的节点集合,j表示LO(i)中的任意一个节点,/>表示节点i生成指向节点j的边的概率。
以往的边预测模型通常是基于正负样本进行监督学习得到的判别模型,其中正样本就是样本图数据中存在的边,而负样本则是样本图数据中不存在的边,但是由于一般的样本图数据的正负样本不均衡(一般正样本要远远少于负样本),且负样本可能是潜在的正样本,使得基于判别模型构建的边预测模型在训练时容易混乱,导致最终得到的边预测模型不够准确。而本申请实施例中,由于只需计算边的生成概率,无需构造正负样本进行监督训练,即通过生成模型的联合概率来建模边的生成过程而不是像以往方法用判别模型来建模,可以有效解决构建负样本带来的问题,使得最终训练得到的目标神经网络能够更准加确地提取图数据的特征信息,从而提高边预测的准确性。
实施例三:
图5示出了本申请实施例提供的第三种图数据的边预测方法的流程示意图,本申请实施例中的图数据具体为社交网络图,详述如下:
在S501中,基于所述社交网络中每个用户节点的个人信息生成所述社交网络图的节点特征矩阵。
在社交网络中,每个用户都有各自的个人信息及与其它用户的关联关系,本申请实施例中将社交网络中的每个用户作为一个用户节点,构建社交网络图。其中,该社交网络图的节点特征矩阵根据每个用户节点的个人信息构建,该个人信息可以包括用户的性别,年龄,喜好等信息。构建得到的节点特征矩阵中的一个节点特征向量可以表示一个用户的个人信息。
在S502中,基于所述社交网络中用户节点之间的关注关系建立所述社交网络图的邻接矩阵。
本申请实施例中,具体以社交网络中用户节点之间的关注关系作为社交网络图中的边,基于社交网络中用户节点之间的关注关系建立社交网络图的邻接矩阵。例如在社交网络中,用户i关注了用户j,则相应地在社交网络图中存在着一条由用户节点i指向用户节点j的边,令邻接矩阵A中相应项Ai,j=1;相反地,若用户i没有关注用户j,则在社交网络图中不存在着一条由用户节点i指向用户节点j的边,令邻接矩阵A中相应项Ai,j=0。
在S503中,获取社交网络图的节点特征矩阵及邻接矩阵。
在S504中,将所述节点特征矩阵及所述邻接矩阵输入已训练的目标神经网络,得到所述图数据的节点融合特征矩阵、节点生成度向量及节点流行度向量;
在S505中,根据所述节点融合特征矩阵、所述节点生成度向量及所述节点流行度向量,得到每个节点对应的边生成概率向量;
在S506中,根据每个节点对应的边生成概率向量确定预测生成的边。
本实施例中的S505-S506与实施例一中的S101-S104相同,具体请参阅实施例一中的S101-S104的相关描述,此处不赘述。
本申请实施例中,基于社交网络构建社交网络图,具体地基于社交网络中每个用户节点的个人信息生成社交网络图的节点特征矩阵,基于社交网络中用户节点之间的关注关系建立社交网络图的邻接矩阵,并将构建得到的社交网络图的节点特征矩阵和邻接矩阵输入目标神经网络进行特征提取、概率计算从而确定社交网络图中预测生成的边。由于社交网络图中的每条边表示两个用户之间的关注关系,因此通过以社交网络图作为本申请实施例的图数据来进行边预测能够准确有效地预测社交网络中的用户关注关系。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
实施例四:
图6示出了本申请实施例提供的一种图数据的边预测装置的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分:
该图数据的边预测装置包括:第一获取单元61、特征提取单元62、边生成概率向量确定单元63、边确定单元64。其中:
第一获取单元61,用于获取图数据的节点特征矩阵及邻接矩阵。
特征提取单元62,用于将所述节点特征矩阵及所述邻接矩阵输入已训练的目标神经网络,得到所述图数据的节点融合特征矩阵、节点生成度向量及节点流行度向量。
可选地,所述特征提取单元包括第一矩阵获取模块、节点融合特征矩阵获取模块、节点生成度向量获取模块、节点流行度向量获取模块:
第一矩阵获取模块,用于将所述节点特征矩阵及所述邻接矩阵输入所述第一图卷积层进行处理,得到第一矩阵;
节点融合特征矩阵获取模块,用于将所述第一矩阵输入所述第二图卷积层进行处理,得到节点融合特征矩阵;
节点生成度向量获取模块,用于将所述第一矩阵输入所述节点生成度特征网络层进行处理,得到节点生成度向量;
节点流行度向量获取模块,用于将所述第一矩阵输入所述节点流行度特征网络层进行处理,得到节点流行度向量。
边生成概率向量确定单元63,用于根据所述节点融合特征矩阵、所述节点生成度向量及所述节点流行度向量,得到每个节点对应的边生成概率向量。
边确定单元64,用于根据每个节点对应的边生成概率向量确定预测生成的边。
可选地,所述边确定单元64包括:
第一边确定模块,用于将所述边生成概率向量中的每一个边生成概率从大到小进行排序,并确定前K个边生成概率对应的边为预测生成的边,其中K为提前设定的正整数。
可选地,所述边确定单元64包括:
第二边确定模块,用于根据每个节点对应的边生成概率向量及第一预设概率值,确定预测生成的边。
可选地,所述边确定单元64包括归一化处理模块、排序模块及第三边确定模块:
归一化处理模块,用于将每个节点的边生成概率向量进行归一化处理,得到每个节点的归一化概率向量;
排序模块,用于将每个节点的所述归一化概率向量中的每一个归一化概率从大到小进行排序;
第三边确定模块,用于根据第二预设概率值,确定每个节点的前L个归一化概率对应的边为预测生成的边,其中L为根据第二预设概率值及归一化概率向量确定的正整数。
可选地,所述图数据的边预测装置还包括:
第二获取单元,用于获取样本图数据的样本节点特征矩阵及样本邻接矩阵;
训练单元,用于将所述样本节点特征矩阵及所述样本邻接矩阵输入目标神经网络进行训练,学习样本图数据的联合概率分布,直至目标损失值最小,得到已训练的目标神经网络。
可选地,所述图数据具体为与社交网络对应的社交网络图,所述图数据的边预测装置还包括:
节点特征矩阵构建单元,用于基于所述社交网络中每个用户节点的个人信息生成所述社交网络图的节点特征矩阵;
邻接矩阵构建单元,用于基于所述社交网络中用户节点之间的关注关系建立所述社交网络图的邻接矩阵。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
实施例五:
图7是本申请一实施例提供的终端设备的示意图。如图7所示,该实施例的终端设备7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72,例如图数据的边预测程序。所述处理器70执行所述计算机程序72时实现上述各个图数据的边预测方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能,例如图6所示单元61至64的功能。
示例性的,所述计算机程序72可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器71中,并由所述处理器70执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。例如,所述计算机程序72可以被分割成第一获取单元、特征提取单元、边生成概率向量确定单元和边确定单元,各单元具体功能如下:
第一获取单元,用于获取图数据的节点特征矩阵及邻接矩阵。
特征提取单元,用于将所述节点特征矩阵及所述邻接矩阵输入已训练的目标神经网络,得到所述图数据的节点融合特征矩阵、节点生成度向量及节点流行度向量。
边生成概率向量确定单元,用于根据所述节点融合特征矩阵、所述节点生成度向量及所述节点流行度向量,得到每个节点对应的边生成概率向量。
边确定单元,用于根据每个节点对应的边生成概率向量确定预测生成的边。
所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是终端设备7的示例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述终端设备7的内部存储单元,例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种图数据的边预测方法,其特征在于,包括:
获取图数据的节点特征矩阵及邻接矩阵;
将所述节点特征矩阵及所述邻接矩阵输入已训练的目标神经网络,得到所述图数据的节点融合特征矩阵、节点生成度向量及节点流行度向量,其中,所述节点融合特征矩阵指融合所述节点特征矩阵和所述邻接矩阵的特征矩阵,所述节点生成度向量包括所述图数据中每个节点对应的生成度,所述生成度指节点存在指向其他节点的边的概率,所述节点流行度向量包括所述图数据中每个节点对应的流行度,所述流行度指节点存在被其他节点所指向的边的概率;
根据所述节点融合特征矩阵、所述节点生成度向量及所述节点流行度向量,得到每个节点对应的边生成概率向量;
根据每个节点对应的边生成概率向量确定预测生成的边。
2.如权利要求1所述的图数据的边预测方法,其特征在于,所述目标神经网络包括第一图卷积层、第二图卷积层、节点流行度特征网络层及节点生成度特征网络层,所述将所述节点特征矩阵及所述邻接矩阵输入已训练的目标神经网络,得到所述图数据的节点融合特征矩阵、节点生成度向量及节点流行度向量,包括:
将所述节点特征矩阵及所述邻接矩阵输入所述第一图卷积层进行处理,得到第一矩阵;
将所述第一矩阵输入所述第二图卷积层进行处理,得到节点融合特征矩阵;
将所述第一矩阵输入所述节点生成度特征网络层进行处理,得到节点生成度向量;
将所述第一矩阵输入所述节点流行度特征网络层进行处理,得到节点流行度向量。
3.如权利要求1所述的图数据的边预测方法,其特征在于,所述根据每个节点对应的边生成概率向量确定预测生成的边,包括:
将所述边生成概率向量中的每一个边生成概率从大到小进行排序,并确定前K个边生成概率对应的边为预测生成的边,其中K为提前设定的正整数。
4.如权利要求1所述的图数据的边预测方法,其特征在于,所述根据每个节点对应的边生成概率向量确定预测生成的边,包括:
根据每个节点对应的边生成概率向量及第一预设概率值,确定预测生成的边。
5.如权利要求1所述的图数据的边预测方法,其特征在于,所述根据每个节点对应的边生成概率向量确定预测生成的边,包括:
将每个节点的边生成概率向量进行归一化处理,得到每个节点的归一化概率向量;
将每个节点的所述归一化概率向量中的每一个归一化概率从大到小进行排序;
根据第二预设概率值,确定每个节点的前L个归一化概率对应的边为预测生成的边,其中L为根据第二预设概率值及归一化概率向量确定的正整数。
6.如权利要求1所述的图数据的边预测方法,其特征在于,所述目标神经网络为基于图数据的联合概率分布训练得到的生成模型,在所述获取图数据的节点特征矩阵及邻接矩阵之前,还包括:
获取样本图数据的样本节点特征矩阵及样本邻接矩阵;
将所述样本节点特征矩阵及所述样本邻接矩阵输入目标神经网络进行训练,学习样本图数据的联合概率分布,直至目标损失值最小,得到已训练的目标神经网络。
7.如权利要求1至6任意一项所述的图数据的边预测方法,其特征在于,所述图数据具体为与社交网络对应的社交网络图,在所述获取图数据的节点特征矩阵及邻接矩阵之前,还包括:
基于所述社交网络中每个用户节点的个人信息生成所述社交网络图的节点特征矩阵;
基于所述社交网络中用户节点之间的关注关系建立所述社交网络图的邻接矩阵。
8.一种图数据的边预测装置,其特征在于,包括:
第一获取单元,用于获取图数据的节点特征矩阵及邻接矩阵;
特征提取单元,用于将所述节点特征矩阵及所述邻接矩阵输入已训练的目标神经网络,得到所述图数据的节点融合特征矩阵、节点生成度向量及节点流行度向量,其中,所述节点融合特征矩阵指融合所述节点特征矩阵和所述邻接矩阵的特征矩阵,所述节点生成度向量包括所述图数据中每个节点对应的生成度,所述生成度指节点存在指向其他节点的边的概率,所述节点流行度向量包括所述图数据中每个节点对应的流行度,所述流行度指节点存在被其他节点所指向的边的概率;
边生成概率向量确定单元,用于根据所述节点融合特征矩阵、所述节点生成度向量及所述节点流行度向量,得到每个节点对应的边生成概率向量;
边确定单元,用于根据每个节点对应的边生成概率向量确定预测生成的边。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,当所述处理器执行所述计算机程序时,使得终端设备实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,当所述计算机程序被处理器执行时,使得终端设备实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911296438.8A CN111159481B (zh) | 2019-12-16 | 2019-12-16 | 图数据的边预测方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911296438.8A CN111159481B (zh) | 2019-12-16 | 2019-12-16 | 图数据的边预测方法、装置及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111159481A CN111159481A (zh) | 2020-05-15 |
CN111159481B true CN111159481B (zh) | 2023-07-28 |
Family
ID=70557166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911296438.8A Active CN111159481B (zh) | 2019-12-16 | 2019-12-16 | 图数据的边预测方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159481B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708923A (zh) * | 2020-06-24 | 2020-09-25 | 北京松鼠山科技有限公司 | 一种确定图数据存储结构的方法和装置 |
CN111858612B (zh) * | 2020-07-28 | 2023-04-18 | 平安科技(深圳)有限公司 | 基于图数据库的数据加速访问方法、装置及存储介质 |
CN112149637B (zh) * | 2020-10-23 | 2024-09-13 | 北京百度网讯科技有限公司 | 用于生成目标再识别模型和用于目标再识别的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209729B (zh) * | 2019-04-22 | 2024-07-19 | 腾讯科技(深圳)有限公司 | 数据转移对象识别的方法及装置 |
-
2019
- 2019-12-16 CN CN201911296438.8A patent/CN111159481B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111159481A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111461637A (zh) | 简历筛选方法、装置、计算机设备和存储介质 | |
CN109242002A (zh) | 高维数据分类方法、装置及终端设备 | |
CN111241992B (zh) | 人脸识别模型构建方法、识别方法、装置、设备及存储介质 | |
CN111159481B (zh) | 图数据的边预测方法、装置及终端设备 | |
CN113139052B (zh) | 基于图神经网络特征聚合的谣言检测方法及装置 | |
CN111797320A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112256886A (zh) | 图谱中的概率计算方法、装置、计算机设备及存储介质 | |
CN115034315B (zh) | 基于人工智能的业务处理方法、装置、计算机设备及介质 | |
CN115801463B (zh) | 工业互联网平台入侵检测的方法、装置和电子设备 | |
CN113961765B (zh) | 基于神经网络模型的搜索方法、装置、设备和介质 | |
CN113438114A (zh) | 互联网系统的运行状态监控方法、装置、设备及存储介质 | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
CN109636212B (zh) | 作业实际运行时间的预测方法 | |
Pham et al. | Unsupervised training of Bayesian networks for data clustering | |
CN114399321A (zh) | 一种业务系统稳定性分析方法、装置和设备 | |
EP4343616A1 (en) | Image classification method, model training method, device, storage medium, and computer program | |
CN111694954A (zh) | 图像分类方法、装置和电子设备 | |
CN115439192A (zh) | 医疗商品信息的推送方法及装置、存储介质、计算机设备 | |
CN113822684A (zh) | 黑产用户识别模型训练方法、装置、电子设备及存储介质 | |
CN113553501A (zh) | 一种基于人工智能的用户画像预测的方法及装置 | |
CN108876604A (zh) | 股市风险预测方法、装置、计算机设备及存储介质 | |
CN116703682B (zh) | 一种基于深度学习的政务数据平台 | |
CN112131199A (zh) | 一种日志处理方法、装置、设备及介质 | |
CN110705889A (zh) | 一种企业筛选方法、装置、设备及存储介质 | |
CN112463964B (zh) | 文本分类及模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |