Nothing Special   »   [go: up one dir, main page]

CN105630901A - 一种知识图谱表示学习方法 - Google Patents

一种知识图谱表示学习方法 Download PDF

Info

Publication number
CN105630901A
CN105630901A CN201510961791.9A CN201510961791A CN105630901A CN 105630901 A CN105630901 A CN 105630901A CN 201510961791 A CN201510961791 A CN 201510961791A CN 105630901 A CN105630901 A CN 105630901A
Authority
CN
China
Prior art keywords
entity
vector
feature
function
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510961791.9A
Other languages
English (en)
Inventor
孙茂松
林衍凯
刘知远
栾焕博
刘奕群
马少平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201510961791.9A priority Critical patent/CN105630901A/zh
Publication of CN105630901A publication Critical patent/CN105630901A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种知识图谱表示学习方法,该方法包括:利用实体向量与关系向量之间基于平移的模型,定义关系三元组(head,relation,tail)中实体向量与关系向量之间的相互关联;利用神经网络分类模型,定义特性三元组(entity,attribute,value)中实体向量与特性向量之间的相互关联;通过评价函数将实体向量、关系向量和特性向量关联起来,并最小化评价函数,以学习实体向量、关系向量和特性向量,达到优化目标。采用本发明能够精确表示实体、关系和特性之间的联系。

Description

一种知识图谱表示学习方法
技术领域
本发明涉及自然语言处理以及知识图谱领域,特别涉及一种知识图谱表示学习方法。
背景技术
随着社会飞速发展,我们已经进入信息爆炸时代,每天都会有海量新的实体与信息产生。互联网作为当今最为便捷的信息获取平台,用户对有效信息筛选与归纳的需求日益迫切,如何从海量数据中获取有价值的信息成为一个难题。知识图谱于此应运而生。
知识图谱将世界上所有人物、地名、书名、球队名等专有名词与事物表示为实体,将实体之间的内在联系表示为关系,旨在将数据库中的海量知识表示为实体之间利用关系作为桥梁的三元关系组。例如,北京是中国的首都这一知识,在知识图谱中则利用三元组关系(北京,是……首都,中国)进行表示。知识图谱能够对一个关键词的不同语义建立不同的实体,消除语言多义性的干扰,同时能够展现目标实体与其它相关实体之间更深更广的内在联系,被广泛运用于数据挖掘、信息检索、问答系统等多个领域。由于现有实体规模巨大,且实体与关系每日都在变化与增加,难以人工维护与挖掘新的信息,对知识图谱的表示与自动补全是当今重要的研究热点。
知识图谱实体数量巨大,网络结构稀疏性严重。而近年来在知识图谱的研究上取得了显著的进展,表示学习运用于知识图谱中,将所有实体与关系映射到一个低维连续向量空间中,解决了之前知识图谱学习时产生的稀疏性与效率问题。但是,目前已有的知识图谱表示学习方法在学习时将实体之间的关系和实体的特性混为一谈,使用同一种模型进行建模,无法精确的表示实体、关系和特性之间的相互联系。
发明内容
有鉴于此,本发明的发明目的是:解决现有技术中存在的无法精确表示实体、关系和特性之间联系的问题,以提高知识图谱表示的质量。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明提供了一种知识图谱表示学习方法,该方法包括:利用实体向量与关系向量之间基于平移的模型,定义关系三元组(head,relation,tail)中实体向量与关系向量之间的相互关联;利用神经网络分类模型,定义特性三元组(entity,attribute,value)中实体向量与特性向量之间的相互关联;通过评价函数将实体向量、关系向量和特性向量关联起来,并最小化评价函数,以学习实体向量、关系向量和特性向量,达到优化目标。
由上述的技术方案可见,本发明将关系和特性区分对待,所以知识图谱采用关系三元组和特性三元组的形式来表示知识。因此,本发明采用实体向量与关系向量之间基于平移的模型,来表示关系三元组中的实体向量和关系向量之间的相互关联;采用神经网络分类模型,来表示特性三元组中的实体向量和特性向量之间的相互关联;然后通过评价函数将实体向量、关系向量和特性向量关联起来,并优化该评价函数,在达到优化目标时,就可以同时学习到知识图谱中的每个实体向量、关系向量和特性向量,从而精确的表示实体、关系和特性之间的相互联系。
附图说明
图1为知识图谱中包含关系三元组和特性三元组的示例图。
图2为本发明知识图谱表示学习方法的流程示意图。
图3a为根据现有技术知识图谱表示学习方法得到的三元组表示知识的示例图。
图3b为根据本发明知识图谱表示学习方法得到的三元组表示知识的示例图。
具体实施方式
为使本发明的目的、技术方案、及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
现有技术中,并不区分关系和特性,将特性也作为关系的一种,知识图谱主要采用(实体1,关系,实体2)三元组的形式来表示知识,即采用关系三元组(head,relation,tail)来表示。因此现有技术中只采用一种模型来表示关系三元组中的实体向量和关系向量之间的相互关联,知识图谱表示学习方法在学习时将实体之间的关系和实体的特性无法区分开,无法精确的表示实体、关系和特性之间的相互联系。
本发明将关系和特性区分对待,所以知识图谱采用关系三元组和特性三元组的形式来表示知识。关系三元组用(head,relation,tail)来表示,关系用来连接两个实体,刻画两个实体之间的关联。特性三元组用(entity,attribute,value)来表示,每个特性-值(a,v)用来刻画对应实体的内在特性。在知识图谱中,关系三元组中节点表示实体,连边表示关系;特性三元组中连边表示特性,连边的一端节点表示实体,连边的另一端节点表示该实体的特性值。图1为知识图谱中包含关系三元组和特性三元组的示例图。其中,圆圈表示的节点“克林顿”与“希拉里”都为实体,他们之间的连边为“妻子”关系。另外,我们可以看到,两个实体各自都有属于自己的特性,如“职业”,“性别”,“出生地”等,对于实体“克林顿”职业的特性值为美国总统,对于实体“希拉里”职业的特性值为美国国务卿。
实施例一
本发明公开了一种知识图谱表示学习方法,其流程示意图如图2所示,该方法包括:
步骤21、利用实体向量与关系向量之间基于平移的模型,定义关系三元组(head,relation,tail)中实体向量与关系向量之间的相互关联。
其中,利用实体向量与关系向量之间基于平移的模型,定义关系三元组中实体向量与关系向量之间的相互关联的方法包括:
S211、定义关系三元组概率为 p ( h | r , t , X ) = exp ( g ( h , r , t ) ) Σ h ‾ exp ( g ( h ‾ , r , t ) ) ;
表示知识图谱中任意实体;是关系三元组概率函数的归一化因子,指遍历知识图谱中所有实体h,使得归一化因子为1。 p ( h | r , t , X ) = exp ( g ( h , r , t ) ) Σ h ‾ exp ( g ( h ‾ , r , t ) ) 是softmax函数。
S212、利用实体向量与关系向量之间基于平移的模型,定义衡量关系r和实体对(h,t)之间相互联系的函数g。
实体向量与关系向量之间基于平移的模型可以有多种,例如,TransE和TransR等,如果采用的是TransE的能量函数,那么g可以定义为:
g(h,r,t)=-||h+r-t||L1/L2+b1
如果采用的是TransR的能量函数,那么g可以定义为:
g(h,r,t)=-||hMr+r-tMr||L1/L2+b1
其中,L1为L1范式,L2为L2范式,Mr为TransR模型中与关系相关的投影矩阵,b1为一个偏置常数,用于使得g函数返回值的均值保持在0左右。
需要说明的是,本发明实施例中将关系三元组概率表示为p(h|r,t,X),还可以用p(t|r,h,X)或p(r|h,t,X)代替。X为r,h,t的向量表示。
步骤22、利用神经网络分类模型,定义特性三元组(entity,attribute,value)中实体向量与特性向量之间的相互关联。
其中,利用神经网络分类模型,定义特性三元组中实体向量与特性向量之间的相互关联的方法包括:
S221、定义第一特性三元组概率为 p ( v | e , a , X ) = exp ( k ( e , a , v ) ) Σ e ‾ exp ( k ( e ‾ , a , v ) ) ;
表示知识图谱中任意实体;是第一特性三元组概率函数的归一化因子,指遍历知识图谱中所有实体e,使得归一化因子为1。 p ( v | e , a , X ) = exp ( k ( e , a , v ) ) Σ e ‾ exp ( k ( e ‾ , a , v ) ) 是softmax函数。
S222、利用神经网络分类模型,定义衡量特性-值(a,v)和实体e之间相互联系的函数k。
当神经网络分类模型为单层神经网络模型时,k(e,a,v)=-||f(eWa+ba)-Vav||L1/L2+b2;Wa和ba为单层神经网络模型中的模型参数;||f(eWa+ba)-Vav||L1/L2表示将实体e的表示向量通过一个单层的神经网络模型投影到对应特性a的子空间中,然后计算投影后的向量和对应特性值v的表示向量之间的相似度;b2为一个偏置常数,用于使得k函数返回值的均值保持在0左右。
步骤23、通过评价函数将实体向量、关系向量和特性向量关联起来,并最小化评价函数,以学习实体向量、关系向量和特性向量,达到优化目标。
具体包括:
S231、定义评价函数为O(X)=log(P(S,Y|X))+γC(X);
S232、最小化所述评价函数,学习得到知识图谱中每个实体向量、关系向量和特性向量。最小化评价函数的方法可以有多种,可以采用随机梯度下降的方法,等等。
S表示知识图谱中所有关系三元组的集合,Y表示知识图谱中所有特性三元组的集合,P(S,Y|X)表示知识图谱中所有关系三元组概率和所有特性三元组概率的乘积;特性三元组概率为第一特性三元组概率;
γ为超参数,用于控制惩罚项的权重;C(X)为惩罚函数,用于防止参数学习过拟合,惩罚函数C(X)定义如下:
C ( X ) = Σ e ∈ E [ | | e | | - 1 ] + + Σ r ∈ R [ | | r | | - 1 ] + + Σ e ∈ E Σ i [ | | eW i + b i | | - 1 ] + + Σ i [ | | V i | | - 1 ] + , 其中,[x]+=max(0,x)表示一个输入为x,返回值为0与x之间较大的数的函数。
需要说明的是,最小化评价函数的过程就是达到优化目标的过程。如果关系三元组概率函数中的g,采用的是TransE模型,则最小化评价函数的过程中,通过不断调整h、r和t(head、relation和tail的向量),使P(S|X)中的每个(h+r)尽可能与t相等,即h+r=t。如果第一特性三元组概率函数中的k,采用的是单层神经网络模型,则最小化评价函数的过程中,通过不断调整e、a和v(entity,attribute和value的向量),使得P(Y|X)中每个实体e对应特性a的取值v概率为100%。
由此,学习得到知识图谱中每个实体向量、关系向量和特性向量。图3a为根据现有技术知识图谱表示学习方法得到的三元组表示知识的示例图。图3b为根据本发明知识图谱表示学习方法得到的三元组表示知识的示例图。图3a中,不区分实体的关系和特性,仍然把特性作为关系的一种,知识图谱采用(实体1,关系,实体2)三元组的形式来表示知识。而图3b中,区分实体的关系和特性,知识图谱采用关系三元组和特性三元组的形式来表示知识。从图3b中可以看出,e6、e7、e8和e9为特性值,e6、e7属于一种特性A1的取值,e8和e9属于另一种特性A2的取值,具体地,特性三元组中,实体e1对应特性A1的取值为e6;实体e2对应特性A1的取值为e6;实体e3对应特性A1的取值为e7;实体e3对应特性A2的取值为e8;实体e5对应特性A2的取值为e8;实体e4对应特性A2的取值为e9。同时关系三元组中,实体e1与实体e3的关系是r1;实体e1与实体e2的关系是r5;实体e2与实体e4的关系是r4;实体e3与实体e4的关系是r3;实体e3与实体e5的关系是r2;实体e4与实体e5的关系是r4。由此可以看出,图3a的现有技术和图3b的本发明相比,本发明的知识图谱表示学习方法,可以精确地表示出实体、关系和特性之间的相互联系。
实施例二
由于本发明的知识图谱表示学习方法将关系和特性区分对待,进一步地,可以考虑特性之间的相互联系。
本发明实施例二的知识图谱表示学习方法包括以下步骤:
步骤31、利用实体向量与关系向量之间基于平移的模型,定义关系三元组(head,relation,tail)中实体向量与关系向量之间的相互关联。
其中,利用实体向量与关系向量之间基于平移的模型,定义关系三元组中实体向量与关系向量之间的相互关联的方法包括:
S311、定义关系三元组概率为 p ( h | r , t , X ) = exp ( g ( h , r , t ) ) Σ h ‾ exp ( g ( h ‾ , r , t ) ) ; 表示知识图谱中任意实体;
S312、利用实体向量与关系向量之间基于平移的模型,定义衡量关系r和实体对(h,t)之间相互联系的函数g。
实体向量与关系向量之间基于平移的模型可以有多种,例如,TransE和TransR等,如果采用的是TransE的能量函数,那么g可以定义为:
g(h,r,t)=-||h+r-t||L1/L2+b1
如果采用的是TransR的能量函数,那么g可以定义为:
g(h,r,t)=-||hMr+r-tMr||L1/L2+b1
其中,L1为L1范式,L2为L2范式,Mr为TransR模型中与关系相关的投影矩阵,b1为一个偏置常数,用于使得g函数返回值的均值保持在0左右。
需要说明的是,本发明实施例中将关系三元组概率表示为p(h|r,t,X),还可以用p(t|r,h,X)或p(r|h,t,X)代替。X为r,h,t的向量表示。
步骤32、利用神经网络分类模型,定义特性三元组(entity,attribute,value)中实体向量与特性向量之间的相互关联。
其中,利用神经网络分类模型,定义特性三元组中实体向量与特性向量之间的相互关联的方法包括:
S321、定义第一特性三元组概率为 p ( v | e , a , X ) = exp ( k ( e , a , v ) ) Σ e ‾ exp ( k ( e ‾ , a , v ) ) ; 表示知识图谱中任意实体。
S322、利用神经网络分类模型,定义衡量特性-值(a,v)和实体e之间相互联系的函数k。
当神经网络分类模型为单层神经网络模型时,k(e,a,v)=-||f(eWa+ba)-Vav||L1/L2+b2;Wa和ba为单层神经网络模型中的模型参数;||f(eWa+ba)-Vav||L1/L2表示将实体e的表示向量通过一个单层的神经网络模型投影到对应特性a的子空间中,然后计算投影后的向量和对应特性值v的表示向量之间的相似度;b2为一个偏置常数,用于使得k函数返回值的均值保持在0左右。
步骤323、
定义第二特性三元组概率p((e,a,v)|X)∝p(v|e,a,X)p(v|e,a,Y(e));其中, p ( v | e , a , Y ( e ) ) = exp ( z ( e , a , v , Y ( e ) ) ) Σ v ‾ ∈ V a exp ( z ( e , a , v ‾ , Y ( e ) ) ) , Y(e)为知识图谱中实体e除了特性-值(a,v)之外所有已知的特性; p ( v | e , a , Y ( e ) ) = exp ( z ( e , a , v , Y ( e ) ) ) Σ v ‾ ∈ V a exp ( z ( e , a , v ‾ , Y ( e ) ) ) 是softmax函数。
步骤324、定义衡量特性-值(a,v)和其他特性-值之间相互联系的函数z。假设特性-值(a,v)的条件概率和知识图谱中所有其他特性-值的组合正相关,其定义为: z ( e , a , v , Y ( e ) ) ∝ Σ ( e , a ‾ , v ‾ ) ∈ Y ( e ) P ( ( a , v ) | ( a ‾ , v ‾ ) ) ( A a · A a ‾ ) ; 其中,为Aa的内积,用于衡量两个特性之间的联系程度;为已知实体拥有特性时(a,v)的条件概率。
步骤33、通过评价函数将实体向量、关系向量和特性向量关联起来,并最小化评价函数,以学习实体向量、关系向量和特性向量,达到优化目标。
具体包括:
S331、定义评价函数为O(X)=log(P(S,Y|X))+γC(X);
S232、最小化所述评价函数,学习得到知识图谱中每个实体向量、关系向量和特性向量。
S表示知识图谱中所有关系三元组的集合,Y表示知识图谱中所有特性三元组的集合,P(S,Y|X)表示知识图谱中所有关系三元组概率和所有特性三元组概率的乘积;特性三元组概率为第二特性三元组概率;
γ为超参数,用于控制惩罚项的权重;C(X)为惩罚函数,用于防止参数学习过拟合,惩罚函数C(X)定义如下:
C ( X ) = Σ e ∈ E [ | | e | | - 1 ] + + Σ r ∈ R [ | | r | | - 1 ] + + Σ e ∈ E Σ i [ | | eW i + b i | | - 1 ] + + Σ i [ | | V i | | - 1 ] + , 其中,[x]+=max(0,x)表示一个输入为x,返回值为0与x之间较大的数的函数。
进一步地,由于在原评价函数中有多处需要计算softmax函数,其中归一化项的计算量极大,大大降低了算法的速度,本发明实施例在最小化评价函数之前,优选采用负采样算法对softmax函数进行近似。
当评价函数中包括关系三元组概率p(h|r,t,X)和第一特性三元组概率时,我们通过负采样将其中的softmax函数转化为以下计算式:
p ( h | r , t , X ) = Π ( h , r , t ) ∈ S [ σ ( g ( h , r , t ) ) Π i = 1 C E ( h i , r , t ) ~ P ( S - ) σ ( g ( h i , r , t ) ) ] ;
p ( v | e , a , X ) = Π ( h , r , t ) ∈ Y [ σ ( k ( e , a , v ) ) Π i = 1 C E ( e , a , v i ) ~ P ( Y - ) σ ( k ( e , a , v i ) ) ] .
当评价函数中包括p(h|r,t,X)和第二特性三元组概率p((e,a,v)|X)∝p(v|e,a,X)p(v|e,a,Y(e))时,我们通过负采样将其中的softmax函数转化为以下计算式:
p ( h | r , t , X ) = Π ( h , r , t ) ∈ S [ σ ( g ( h , r , t ) ) Π i = 1 C E ( h i , r , t ) ~ P ( S - ) σ ( g ( h i , r , t ) ) ] ;
p ( v | e , a , X ) = Π ( h , r , t ) ∈ Y [ σ ( k ( e , a , v ) ) Π i = 1 C E ( e , a , v i ) ~ P ( Y - ) σ ( k ( e , a , v i ) ) ] ;
p ( v | e , a , Y ( e ) ) = Π ( h , r , t ) ∈ Y [ σ ( z ( e , a , v , Y ( e ) ) Π i = 1 C E ( e , a , v i ) ~ P ( Y - ) σ ( z ( e , a , v i , Y ( e ) ) ] .
显然,上述公式 p ( h | r , t , X ) = Π ( h , r , t ) ∈ S [ σ ( g ( h , r , t ) ) Π i = 1 C E ( h i , r , t ) ~ P ( S - ) σ ( g ( h i , r , t ) ) ] , 还可以替代为:
p ( r | h , t , X ) = Π ( h , r , t ) ∈ S [ σ ( g ( h , r , t ) ) Π i = 1 C E ( h i , r , t ) ~ P ( S - ) σ ( g ( h , r i , t ) ) ] ; 或者,
p ( h | r , t , X ) = Π ( h , r , t ) ∈ S [ σ ( g ( h , r , t ) ) Π i = 1 C E ( h i , r , t ) ~ P ( S - ) σ ( g ( h i , r , t ) ) ] .
σ=1/(1+exp(-x))为sogmoid函数,S-为关系三元组负例集合,P(S-)为关系三元组负例集合中所有元素的概率函数,Y-为特性三元组负例集合,P(Y-)为特性三元组负例集合中所有元素的概率函数。
关系三元组负例集合S-的产生方式如下:我们将正例集合S中的每一个三元组(head,relation,tail)随机用任意替他实体替换头实体head或者随机用任意替他实体替换尾实体tail或者随机用任意替他关系替换头实体relation,那么我们就会产生一个新的没有出现在正例集合中的三元组,我们把它当做一个负例,所有这种负例的组合就构成了S-
同样的,特性三元组负例集合Y-的产生方式如下:我们将正例集合Y中的每一个三元组(entity,attribute,value)随机用任意替他可能特性值替换现有特性值value那么我们就会产生一个新的没有出现在正例集合中的三元组,我们把它当做一个负例,所有这种负例的组合就构成了Y-
综上,本发明的有益效果是:与现有技术相比,本发明提出了同时学习知识图谱中实体、关系和特性表示的知识图谱表示学习方法,解决现有技术中存在的无法精确表示实体、关系和特性之间联系的问题,以提高知识图表示的质量,具有良好的实用性。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换以及改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种知识图谱表示学习方法,该方法包括:
利用实体向量与关系向量之间基于平移的模型,定义关系三元组(head,relation,tail)中实体向量与关系向量之间的相互关联;
利用神经网络分类模型,定义特性三元组(entity,attribute,value)中实体向量与特性向量之间的相互关联;
通过评价函数将实体向量、关系向量和特性向量关联起来,并最小化评价函数,以学习实体向量、关系向量和特性向量,达到优化目标。
2.如权利要求1所述的方法,其特征在于,
利用实体向量与关系向量之间基于平移的模型,定义关系三元组中实体向量与关系向量之间的相互关联的方法包括:
定义关系三元组概率为 表示知识图谱中任意实体;
利用实体向量与关系向量之间基于平移的模型,定义衡量关系r和实体对(h,t)之间相互联系的函数g。
3.如权利要求2所述的方法,其特征在于,
利用神经网络分类模型,定义特性三元组中实体向量与特性向量之间的相互关联的方法包括:
定义第一特性三元组概率为 表示知识图谱中任意实体;
利用神经网络分类模型,定义衡量特性-值(a,v)和实体e之间相互联系的函数k。
4.如权利要求3所述的方法,其特征在于,当神经网络分类模型为单层神经网络模型时,k(e,a,v)=-||f(eWa+ba)-Vav||L1/L2+b2
Wa和ba为单层神经网络模型中的模型参数;||f(eWa+ba)-Vav||L1/L2表示将实体e的表示向量通过一个单层的神经网络模型投影到对应特性a的子空间中,然后计算投影后的向量和对应特性值v的表示向量之间的相似度;b2为一个偏置常数,用于使得k函数返回值的均值保持在0左右。
5.如权利要求4所述的方法,其特征在于,在定义函数k之后,该方法进一步包括:
定义第二特性三元组概率p((e,a,v)|X)∝p(v|e,a,X)p(v|e,a,Y(e));其中,Y(e)为知识图谱中实体e除了特性-值(a,v)之外所有已知的特性;
定义衡量特性-值(a,v)和其他特性-值之间相互联系的函数z;假设特性-值(a,v)的条件概率和知识图谱中所有其他特性-值的组合正相关,其定义为:其中,为Aa的内积,用于衡量两个特性之间的联系程度;为已知实体拥有特性时(a,v)的条件概率。
6.权利要求5所述的方法,其特征在于,
通过评价函数将实体向量、关系向量和特性向量关联起来,并最小化评价函数,以学习知识图谱中每个实体向量、关系向量和特性向量,达到优化目标的方法包括:
定义评价函数为O(X)=log(P(S,Y|X))+γC(X);
最小化所述评价函数,学习得到知识图谱中每个实体向量、关系向量和特性向量;
其中,S表示知识图谱中所有关系三元组的集合,Y表示知识图谱中所有特性三元组的集合,P(S,Y|X)表示知识图谱中所有关系三元组概率和所有特性三元组概率的乘积;特性三元组概率为第一特性三元组概率或者第二特性三元组概率;
γ为超参数,用于控制惩罚项的权重;C(X)为惩罚函数,用于防止参数学习过拟合,惩罚函数C(X)定义如下:
其中,[x]+=max(0,x),即为一个返回0与x之间较大的数的函数。
7.如权利要求6所述的方法,其特征在于,最小化之前,采用负采样算法,对评价函数中的softmax函数进行近似,以加快学习速度;
softmax函数
softmax函数
softmax函数
σ=1/(1+exp(-x))为sogmoid函数,S-为关系三元组负例集合,P(S-)为关系三元组负例集合中所有元素的概率函数,Y-为特性三元组负例集合,P(Y-)为特性三元组负例集合中所有元素的概率函数。
CN201510961791.9A 2015-12-21 2015-12-21 一种知识图谱表示学习方法 Pending CN105630901A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510961791.9A CN105630901A (zh) 2015-12-21 2015-12-21 一种知识图谱表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510961791.9A CN105630901A (zh) 2015-12-21 2015-12-21 一种知识图谱表示学习方法

Publications (1)

Publication Number Publication Date
CN105630901A true CN105630901A (zh) 2016-06-01

Family

ID=56045834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510961791.9A Pending CN105630901A (zh) 2015-12-21 2015-12-21 一种知识图谱表示学习方法

Country Status (1)

Country Link
CN (1) CN105630901A (zh)

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528609A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种向量约束嵌入转换的知识图谱推理方法
CN106528610A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种基于路径张量分解的知识图谱表示学习方法
CN106844658A (zh) * 2017-01-23 2017-06-13 中山大学 一种中文文本知识图谱自动构建方法及系统
CN106909622A (zh) * 2017-01-20 2017-06-30 中国科学院计算技术研究所 知识图谱向量表示方法、知识图谱关系推理方法及系统
CN106934042A (zh) * 2017-03-16 2017-07-07 中国人民解放军国防科学技术大学 一种知识图谱表示模型及其方法
CN107330125A (zh) * 2017-07-20 2017-11-07 云南电网有限责任公司电力科学研究院 基于知识图谱技术的海量非结构化配网数据集成方法
CN107480191A (zh) * 2017-07-12 2017-12-15 清华大学 一种迭代的实体对齐模型
CN107590237A (zh) * 2017-09-11 2018-01-16 桂林电子科技大学 一种基于动态翻译原则的知识图谱表示学习方法
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN107871158A (zh) * 2016-09-26 2018-04-03 清华大学 一种结合序列文本信息的知识图谱表示学习方法及装置
CN107885760A (zh) * 2016-12-21 2018-04-06 桂林电子科技大学 一种基于多种语义的知识图谱表示学习方法
CN107943874A (zh) * 2017-11-13 2018-04-20 平安科技(深圳)有限公司 知识图谱处理方法、装置、计算机设备及存储介质
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN108388580A (zh) * 2018-01-24 2018-08-10 平安医疗健康管理股份有限公司 融合医学知识及应用病例的动态知识图谱更新方法
CN108491491A (zh) * 2018-03-14 2018-09-04 广州杰赛科技股份有限公司 智能客服知识图谱的构建方法与系统
CN108510110A (zh) * 2018-03-13 2018-09-07 浙江禹控科技有限公司 一种基于知识图谱的水位趋势分析方法
CN108647258A (zh) * 2018-01-24 2018-10-12 北京理工大学 一种基于实体关联性约束的表示学习方法
CN108664615A (zh) * 2017-05-12 2018-10-16 华中师范大学 一种面向学科教育资源的知识图谱构建方法
CN108694201A (zh) * 2017-04-10 2018-10-23 华为软件技术有限公司 一种实体对齐方法和装置
CN108885626A (zh) * 2017-02-22 2018-11-23 谷歌有限责任公司 优化图形遍历
CN108876849A (zh) * 2018-04-24 2018-11-23 哈尔滨工程大学 基于辅助标识的深度学习目标识别及定位方法
CN108959328A (zh) * 2017-05-27 2018-12-07 株式会社理光 知识图谱的处理方法、装置及电子设备
CN109063032A (zh) * 2018-07-16 2018-12-21 清华大学 一种远程监督检索数据的降噪方法
CN109241290A (zh) * 2017-07-10 2019-01-18 华东师范大学 一种知识图谱补全方法、装置与存储介质
CN109376864A (zh) * 2018-09-06 2019-02-22 电子科技大学 一种基于堆叠神经网络的知识图谱关系推理算法
CN109508419A (zh) * 2018-11-23 2019-03-22 成都品果科技有限公司 一种基于知识学习的推荐方法和系统
CN109634939A (zh) * 2018-12-28 2019-04-16 中国农业银行股份有限公司 一种缺失值的确定方法、装置及电子设备
CN109829057A (zh) * 2019-01-11 2019-05-31 中山大学 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法
CN110147450A (zh) * 2019-05-06 2019-08-20 北京科技大学 一种知识图谱的知识补全方法及装置
CN110188147A (zh) * 2019-05-22 2019-08-30 厦门无常师教育科技有限公司 基于知识图谱的文献实体关系发现方法及系统
CN110413793A (zh) * 2019-06-11 2019-11-05 福建奇点时空数字科技有限公司 一种基于翻译模型的知识图谱实体特征挖掘方法
CN110569364A (zh) * 2019-08-21 2019-12-13 北京大米科技有限公司 在线教学方法、装置、服务器及存储介质
CN110647620A (zh) * 2019-09-23 2020-01-03 中国农业大学 一种基于置信超平面和词典信息的知识图谱表示学习方法
CN110688489A (zh) * 2019-09-09 2020-01-14 中国电子科技集团公司电子科学研究院 基于交互注意力的知识图谱推演方法、装置和存储介质
WO2020020085A1 (zh) * 2018-07-24 2020-01-30 华为技术有限公司 表示学习方法及装置
CN110766435A (zh) * 2018-12-19 2020-02-07 北京嘀嘀无限科技发展有限公司 向量训练方法、装置、电子设备以及计算机可读存储介质
CN111046193A (zh) * 2019-12-27 2020-04-21 南京邮电大学 一种基于元学习的领域知识图谱补全方法
CN111159356A (zh) * 2019-12-31 2020-05-15 重庆和贯科技有限公司 基于教学内容的知识图谱构建方法
CN111339320A (zh) * 2020-03-02 2020-06-26 北京航空航天大学 一种引入实体类型自动化表示的知识图谱嵌入与推理方法
CN111392538A (zh) * 2020-03-17 2020-07-10 浙江新再灵科技股份有限公司 一种基于多维物联网图谱大数据的电梯综合故障预警方法
WO2020147594A1 (zh) * 2019-01-16 2020-07-23 阿里巴巴集团控股有限公司 获取实体间关系表达的方法、系统和设备、广告召回系统
CN111753101A (zh) * 2020-06-30 2020-10-09 华侨大学 一种融合实体描述及类型的知识图谱表示学习方法
CN114969385A (zh) * 2022-08-03 2022-08-30 北京长河数智科技有限责任公司 基于文档属性赋值实体权重的知识图谱优化方法及装置
CN117688121A (zh) * 2024-02-04 2024-03-12 南京师范大学 SubGNN注入空间特征的地理知识图谱表示学习方法
CN119025685A (zh) * 2024-10-23 2024-11-26 华侨大学 一种知识图谱关系预测方法、装置、设备及存储介质

Cited By (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN107871158A (zh) * 2016-09-26 2018-04-03 清华大学 一种结合序列文本信息的知识图谱表示学习方法及装置
CN106528610A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种基于路径张量分解的知识图谱表示学习方法
CN106528609A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种向量约束嵌入转换的知识图谱推理方法
CN107885760A (zh) * 2016-12-21 2018-04-06 桂林电子科技大学 一种基于多种语义的知识图谱表示学习方法
CN107885760B (zh) * 2016-12-21 2021-06-08 桂林电子科技大学 一种基于多种语义的知识图谱表示学习方法
CN106909622A (zh) * 2017-01-20 2017-06-30 中国科学院计算技术研究所 知识图谱向量表示方法、知识图谱关系推理方法及系统
CN106844658A (zh) * 2017-01-23 2017-06-13 中山大学 一种中文文本知识图谱自动构建方法及系统
CN106844658B (zh) * 2017-01-23 2019-12-13 中山大学 一种中文文本知识图谱自动构建方法及系统
US12001799B1 (en) 2017-02-22 2024-06-04 Google Llc Optimized graph traversal
CN108885626A (zh) * 2017-02-22 2018-11-23 谷歌有限责任公司 优化图形遍历
US11551003B2 (en) 2017-02-22 2023-01-10 Google Llc Optimized graph traversal
CN106934042B (zh) * 2017-03-16 2020-05-29 中国人民解放军国防科学技术大学 一种知识图谱表示系统及其实施方法
CN106934042A (zh) * 2017-03-16 2017-07-07 中国人民解放军国防科学技术大学 一种知识图谱表示模型及其方法
CN108694201A (zh) * 2017-04-10 2018-10-23 华为软件技术有限公司 一种实体对齐方法和装置
CN108664615A (zh) * 2017-05-12 2018-10-16 华中师范大学 一种面向学科教育资源的知识图谱构建方法
CN108959328A (zh) * 2017-05-27 2018-12-07 株式会社理光 知识图谱的处理方法、装置及电子设备
CN108959328B (zh) * 2017-05-27 2021-12-21 株式会社理光 知识图谱的处理方法、装置及电子设备
US11270212B2 (en) 2017-05-27 2022-03-08 Ricoh Company, Ltd. Knowledge graph processing method and device
CN109241290A (zh) * 2017-07-10 2019-01-18 华东师范大学 一种知识图谱补全方法、装置与存储介质
CN107480191B (zh) * 2017-07-12 2020-08-21 清华大学 一种迭代的实体对齐模型
CN107480191A (zh) * 2017-07-12 2017-12-15 清华大学 一种迭代的实体对齐模型
CN107330125B (zh) * 2017-07-20 2020-06-30 云南电网有限责任公司电力科学研究院 基于知识图谱技术的海量非结构化配网数据集成方法
CN107330125A (zh) * 2017-07-20 2017-11-07 云南电网有限责任公司电力科学研究院 基于知识图谱技术的海量非结构化配网数据集成方法
CN107590237A (zh) * 2017-09-11 2018-01-16 桂林电子科技大学 一种基于动态翻译原则的知识图谱表示学习方法
CN107590237B (zh) * 2017-09-11 2021-04-30 桂林电子科技大学 一种基于动态翻译原则的知识图谱表示学习方法
CN107943874A (zh) * 2017-11-13 2018-04-20 平安科技(深圳)有限公司 知识图谱处理方法、装置、计算机设备及存储介质
CN107943874B (zh) * 2017-11-13 2019-08-23 平安科技(深圳)有限公司 知识图谱处理方法、装置、计算机设备及存储介质
CN108280061B (zh) * 2018-01-17 2021-10-26 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
US11455542B2 (en) 2018-01-17 2022-09-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words
WO2019144587A1 (zh) * 2018-01-24 2019-08-01 平安医疗健康管理股份有限公司 融合医学知识及应用病例的动态知识图谱更新方法
CN108647258B (zh) * 2018-01-24 2020-12-22 北京理工大学 一种基于实体关联性约束的表示学习方法
CN108647258A (zh) * 2018-01-24 2018-10-12 北京理工大学 一种基于实体关联性约束的表示学习方法
CN108388580A (zh) * 2018-01-24 2018-08-10 平安医疗健康管理股份有限公司 融合医学知识及应用病例的动态知识图谱更新方法
CN108510110A (zh) * 2018-03-13 2018-09-07 浙江禹控科技有限公司 一种基于知识图谱的水位趋势分析方法
CN108491491B (zh) * 2018-03-14 2021-04-09 广州杰赛科技股份有限公司 智能客服知识图谱的构建方法与系统
CN108491491A (zh) * 2018-03-14 2018-09-04 广州杰赛科技股份有限公司 智能客服知识图谱的构建方法与系统
CN108876849A (zh) * 2018-04-24 2018-11-23 哈尔滨工程大学 基于辅助标识的深度学习目标识别及定位方法
CN108876849B (zh) * 2018-04-24 2021-11-23 哈尔滨工程大学 基于辅助标识的深度学习目标识别及定位方法
CN109063032B (zh) * 2018-07-16 2020-09-11 清华大学 一种远程监督检索数据的降噪方法
CN109063032A (zh) * 2018-07-16 2018-12-21 清华大学 一种远程监督检索数据的降噪方法
WO2020020085A1 (zh) * 2018-07-24 2020-01-30 华为技术有限公司 表示学习方法及装置
CN109376864A (zh) * 2018-09-06 2019-02-22 电子科技大学 一种基于堆叠神经网络的知识图谱关系推理算法
CN109508419A (zh) * 2018-11-23 2019-03-22 成都品果科技有限公司 一种基于知识学习的推荐方法和系统
CN110766435A (zh) * 2018-12-19 2020-02-07 北京嘀嘀无限科技发展有限公司 向量训练方法、装置、电子设备以及计算机可读存储介质
CN109634939A (zh) * 2018-12-28 2019-04-16 中国农业银行股份有限公司 一种缺失值的确定方法、装置及电子设备
CN109829057B (zh) * 2019-01-11 2023-02-21 中山大学 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法
CN109829057A (zh) * 2019-01-11 2019-05-31 中山大学 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法
WO2020147594A1 (zh) * 2019-01-16 2020-07-23 阿里巴巴集团控股有限公司 获取实体间关系表达的方法、系统和设备、广告召回系统
CN110147450A (zh) * 2019-05-06 2019-08-20 北京科技大学 一种知识图谱的知识补全方法及装置
CN110147450B (zh) * 2019-05-06 2021-08-03 北京科技大学 一种知识图谱的知识补全方法及装置
CN110188147A (zh) * 2019-05-22 2019-08-30 厦门无常师教育科技有限公司 基于知识图谱的文献实体关系发现方法及系统
CN110413793A (zh) * 2019-06-11 2019-11-05 福建奇点时空数字科技有限公司 一种基于翻译模型的知识图谱实体特征挖掘方法
CN110569364A (zh) * 2019-08-21 2019-12-13 北京大米科技有限公司 在线教学方法、装置、服务器及存储介质
CN110688489A (zh) * 2019-09-09 2020-01-14 中国电子科技集团公司电子科学研究院 基于交互注意力的知识图谱推演方法、装置和存储介质
CN110647620B (zh) * 2019-09-23 2022-07-01 中国农业大学 一种基于置信超平面和词典信息的知识图谱表示学习方法
CN110647620A (zh) * 2019-09-23 2020-01-03 中国农业大学 一种基于置信超平面和词典信息的知识图谱表示学习方法
CN111046193A (zh) * 2019-12-27 2020-04-21 南京邮电大学 一种基于元学习的领域知识图谱补全方法
CN111046193B (zh) * 2019-12-27 2022-05-13 南京邮电大学 一种基于元学习的领域知识图谱补全方法
CN111159356A (zh) * 2019-12-31 2020-05-15 重庆和贯科技有限公司 基于教学内容的知识图谱构建方法
CN111159356B (zh) * 2019-12-31 2023-06-09 重庆和贯科技有限公司 基于教学内容的知识图谱构建方法
CN111339320B (zh) * 2020-03-02 2021-03-26 北京航空航天大学 一种引入实体类型自动化表示的知识图谱嵌入与推理方法
CN111339320A (zh) * 2020-03-02 2020-06-26 北京航空航天大学 一种引入实体类型自动化表示的知识图谱嵌入与推理方法
CN111392538A (zh) * 2020-03-17 2020-07-10 浙江新再灵科技股份有限公司 一种基于多维物联网图谱大数据的电梯综合故障预警方法
CN111753101B (zh) * 2020-06-30 2022-06-07 华侨大学 一种融合实体描述及类型的知识图谱表示学习方法
CN111753101A (zh) * 2020-06-30 2020-10-09 华侨大学 一种融合实体描述及类型的知识图谱表示学习方法
CN114969385A (zh) * 2022-08-03 2022-08-30 北京长河数智科技有限责任公司 基于文档属性赋值实体权重的知识图谱优化方法及装置
CN117688121B (zh) * 2024-02-04 2024-04-26 南京师范大学 SubGNN注入空间特征的地理知识图谱表示学习方法
CN117688121A (zh) * 2024-02-04 2024-03-12 南京师范大学 SubGNN注入空间特征的地理知识图谱表示学习方法
CN119025685A (zh) * 2024-10-23 2024-11-26 华侨大学 一种知识图谱关系预测方法、装置、设备及存储介质
CN119025685B (zh) * 2024-10-23 2025-02-11 华侨大学 一种知识图谱关系预测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN105630901A (zh) 一种知识图谱表示学习方法
CN108492200B (zh) 一种基于卷积神经网络的用户属性推断方法和装置
Lin et al. Knowledge representation learning with entities, attributes and relations
WO2017210949A1 (zh) 一种跨媒体检索方法
CN104915448B (zh) 一种基于层次卷积网络的实体与段落链接方法
CN110807154A (zh) 一种基于混合深度学习模型的推荐方法与系统
CN111209398B (zh) 一种基于图卷积神经网络的文本分类方法、系统
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
WO2022179384A1 (zh) 一种社交群体的划分方法、划分系统及相关装置
CN108304479B (zh) 一种基于图结构过滤的快速密度聚类双层网络推荐方法
CN114491247A (zh) 一种基于知识图谱和用户长短期兴趣的推荐方法
CN109002858A (zh) 一种用于用户行为分析的基于证据推理的集成聚类方法
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
WO2020147259A1 (zh) 一种用户画像方法、装置、可读存储介质及终端设备
CN114332519A (zh) 一种基于外部三元组和抽象关系的图像描述生成方法
Krivosheev et al. Siamese graph neural networks for data integration
CN113987203A (zh) 一种基于仿射变换与偏置建模的知识图谱推理方法与系统
CN105912602A (zh) 一种基于实体属性的真值发现方法
CN106529604A (zh) 一种自适应的图像标签鲁棒预测方法及系统
CN113591903A (zh) 一种基于图神经网络的真值发现方法
CN117651066A (zh) 基于双向序列特征和主题语义模型的制造服务推荐方法
CN115345257B (zh) 飞行轨迹分类模型训练方法、分类方法、装置及存储介质
CN102496027A (zh) 基于约束自适应传递的半监督图像分类方法
CN112861882B (zh) 一种基于频率自适应的图像-文本匹配方法及系统
CN114612914A (zh) 一种多标签不平衡数据分类的机器学习方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160601