CN108073711B

CN108073711B - 一种基于知识图谱的关系抽取方法和系统

Info

Publication number: CN108073711B
Application number: CN201711398108.0A
Authority: CN
Inventors: 雷凯; 沈颖; 温德斯
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2022-01-11
Anticipated expiration: 2037-12-21
Also published as: CN108073711A

Abstract

本申请公开了一种基于知识图谱的关系抽取方法和系统，其中方法包括：从知识图谱中提取实体的描述属性与连接实体对的最短路径集合；根据所述最短路径集合提取实体对的路径结构信息；根据所述实体的描述属性提取实体对的属性文本信息；根据实体对的路径结构信息与属性文本信息抽取实体对之间的关系。在本申请的具体实施方式中，由于包括从知识图谱中提取实体的描述属性与连接实体对的路径，构建一个基于知识图谱路径结构信息与实体属性信息的关系抽取模型，通过提取知识图谱的路径信息与属性信息，从中挖掘其潜在语义信息，免去收集语料集与标注训练集，从而降低构建数据集的代价，提升关系抽取效率。

Description

一种基于知识图谱的关系抽取方法和系统

技术领域

本申请涉及数据挖掘技术领域，尤其涉及一种基于知识图谱的关系抽取方法和系统。

背景技术

随着认知神经、深度学习等领域的持续发展，人工智能逐渐涉足各个领域，致力于改善人们的生活，在图像识别、语音识别等领域已经超越了人类的水平。然而在自然语言处理领域，由于人类语言的复杂性以及事物的多样性，目前的技术尚不能达到完全理解语义的程度，因此需要一个语义联通的桥梁——知识图谱。知识图谱由知识以及知识之间的关系组成，其本质上来讲是一种语义网络，网络中的节点表示现实世界存在的实体(Entity)，节点之间的边表示两个实体之间的关系。通过点与边的组合，将现实世界的知识抽象成可供机器处理应用的知识网络。目前知识图谱技术主要用于智能语义搜索、移动个人助理以及问答系统中。

许多研究机构与公司正在构建自己的知识图谱，如谷歌的Knowledge Graph,百度的知心等。目前已有许多开源的大型知识图谱项目，如freebase，YAGO，DBpedia等，但这些知识图谱还远未达到完备的阶段，而知识图谱的知识覆盖度直接决定了语义理解结果，并影响后续应用的效果。因此知识图谱补全是一个非常重要的问题，其关键是如何自动抽取信息得到候选知识单元，其中涉及的技术包括：实体抽取、关系抽取和属性抽取。其中关系抽取是提取实体对之间关联关系。目前主流的关系抽取方法是有监督的学习方法、半监督的学习方法和无监督的学习方法三种。与半监督的学习方法和无监督的学习方法相比，有监督的学习方法准确率与召回率更高，因此受到越来越多的关注。然而有监督的学习方法需要大量的人工标注训练语料，随着大数据时代的来临，实体对数量达到数十亿的量级，传统方法已无法满足需求。因此，在关系抽取问题中，如何降低构造数据集难度，提升模型训练效率成为了一个越来越重要的问题。

发明内容

本申请提供一种基于知识图谱的关系抽取方法和系统。

根据本申请的第一方面，本申请提供一种基于知识图谱的关系抽取方法，包括：

从知识图谱中提取实体的描述属性与连接实体对的最短路径集合；

根据所述最短路径集合提取实体对的路径结构信息；

根据所述实体的描述属性提取实体对的属性文本信息；

根据实体对的路径结构信息与属性文本信息抽取实体对之间的关系。

上述方法，提取连接实体对的最短路径集合，具体包括：

将知识图谱视作有向图，利用双向广度优先搜索算法与深度优先搜索算法相结合，提取两个实体间的连通最短路径集合。

上述方法，所述根据所述最短路径集合提取实体对的路径结构信息，具体包括：

利用路径编码模型将最短路径转换成低维度路径向量表示，再将所有最短路径的向量表示融合，构建两个实体间的路径结构信息。

上述方法，所述根据所述实体的描述属性提取实体对的属性文本信息，具体包括：

使用GRU模型将文本结构的属性信息转换成低维度向量表示，再计算实体对属性信息之间的差值，构建两个实体的属性文本信息。

上述方法，所述根据实体对的路径结构信息与属性文本信息抽取实体对之间的关系，具体包括：

将所述实体对的路径结构信息和所述实体对的属性文本信息结合，构建表示实体对信息的第一向量；

通过一个全连接层，将所述表示实体对信息的第一向量转换成一个维度等于关系类别数量的第二向量，再通过一层softmax层将所述第二向量转换成条件概率分布；

根据所述概率分布，选取概率值最大的关系类别作为实体对之间的关系。

根据本申请的第二方面，本申请提供一种基于知识图谱的关系抽取系统，包括：

基本信息提取模块，用于从知识图谱中提取实体的描述属性与连接实体对的最短路径集合；

路径结构信息提取模块，用于根据所述最短路径集合提取实体对的路径结构信息；

属性文本信息提取模块，用于根据所述实体的描述属性提取实体对的属性文本信息；

关系抽取模块，根据实体对的路径结构信息与属性文本信息抽取实体对之间的关系。

上述系统，所述基本信息提取模块，还用于将知识图谱视作有向图，利用双向广度优先搜索算法与深度优先搜索算法相结合，提取两个实体间的连通最短路径集合。

上述系统，所述路径结构信息提取模块，还用于利用路径编码模型将最短路径转换成低维度路径向量表示，再将所有最短路径的向量表示融合，构建两个实体间的路径结构信息。

上述系统，所述属性文本信息提取模块，还用于使用GRU模型将文本结构的属性信息转换成低维度向量表示，再计算实体对属性信息之间的差值，构建两个实体的属性文本信息。

上述系统，所述关系抽取模块，还用于将所述实体对的路径结构信息和所述实体对的属性文本信息结合，构建表示实体对信息的第一向量；通过一个全连接层，将所述表示实体对信息的第一向量转换成一个维度等于关系类别数量的第二向量，再通过一层softmax层将所述第二向量转换成条件概率分布；根据所述概率分布，选取概率值最大的关系类别作为实体对之间的关系。

根据本申请的第三方面，本申请提供一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现上述方法。

由于采用了以上技术方案，使本申请具备的有益效果在于：

在本申请的具体实施方式中，由于包括从知识图谱中提取实体的描述属性与连接实体对的路径，构建一个基于知识图谱路径结构信息与实体属性信息的关系抽取模型，通过提取知识图谱的路径信息与属性信息，从中挖掘其潜在语义信息，免去收集语料集与标注训练集，从而降低构建数据集的代价，提升关系抽取效率。

附图说明

图1为本申请的方法在一种实施方式中的流程图；

图2为本申请的系统在一种实施方式中的功能模块示意图。

具体实施方式

下面通过具体实施方式结合附图对本申请作进一步详细说明。

实施例一：

如图1所示，本申请的基于知识图谱的关系抽取方法，其一种实施方式，包括以下步骤：

步骤102：从知识图谱中提取实体的描述属性与连接实体对的最短路径集合。

在一种实施方式中，提取连接实体对的最短路径集合，具体可以包括：

步骤1022：提取连接实体对的最短路径集合。将知识图谱视作有向图，针对当前实体对，利用双向广度优先搜索算法确认实体对之间的最短路径长度，随后利用深度优先搜索算法寻找一定数量的实体对的最短路径。

步骤1024：提取实体属性。知识图谱属性信息是为了弥补路径信息无法反映实体对之间语义关系的情况。由于现实世界知识结构复杂多样，同一类别下的实体或多或少存在属性缺失的问题，然而属性“描述”作为描述实体概况的短文本，其内容缺失的情况相较其他属性出现频率较低。因此，从已有知识图谱中分别提取实体对的“描述”属性，并将其拼接在一起，构成实体对的属性信息。

步骤104：根据最短路径集合提取实体对的路径结构信息。

在一种实施方式中，根据最短路径集合提取实体对的路径结构信息，具体可以包括：

步骤104基于步骤1022所得实体对最短路径集合，首先利用路径编码模型将路径转换成低维度路径向量表示，再将所有路径的向量表示融合，构建两个实体的路径信息，具体包括：

步骤1042：三元组向量化。通过步骤1022获取了连接实体对<source,target>的三元组路径{<s1,r1,t1>,<s2,r2,t2>,…,<sm,rm,tm>}，其中<si,ri,ti>表示路径中第i组三元组，其中si表示头实体，ti表示尾实体，ri表示连接两个实体的关系。并且t_i-1＝s_i,i＝2,3,…,m。s1＝source，tm＝target，m为连接实体对最短路径长度。

经过步骤102得到了一组路径，每个路径x都包含若干三元组，每个三元组(source,relation,target)都包含两个实体和一个关系。将实体和关系映射在同一个d维空间中。实体表示与关系表示用同一个嵌入矩阵V的列向量表示,V∈R^d×(e+r),其中e为实体的总数，r为关系的总数。将两个实体的向量表示与关系的实体表示拼接起来，构成一个三元组的表示t，t∈R^3d。最终将三元组路径转换乘一组向量序列x＝{t1,t2,...,tm}。之后利用GRU模型学习三元组路径的向量表示。

步骤1044：路径编码模型。循环神经网络是一种特殊的神经网络模型，它能在时间序列上共享参数，从而将相连的输入关联起来，因此在RNN非常适用与NLP问题。但是随着输入序列长度增加，RNN会产生梯度消失或梯度爆炸的问题。为了解决这个问题，有许多RNN的变种模型被提出了，其中就包括GRU模型。GRU模型包括重置门r，更新门z和一个记忆单元s，其计算方式如下列公式所示：

z＝σ(t_iU_z+s_i-1W_z+b_z)

r＝σ(t_iU_r+s_i-1W_r+b_r)

其中t_i是输入向量，其代表三元组t的表示向量，h是输出向量，z是更新门，r是重置门,U_z,U_r,U_h,W_z,W_r,W_h∈R^3d×3d是权重矩阵,b_z,b_r,b_h是偏移，σ是sigmoid函数，°是Hadamard积，是两个矩阵各个元素的乘积。

门将步骤1042得到的向量序列x＝{t1,t2,...,tm}作为GRU的输入，选取最后的输出向量h_m作为最终当前三元组路径的编码编码表示p，p＝h_m。

步骤1046：构建路径结构信息。经过之前的步骤，将从source实体为起点，target实体为终点的路径进行编码，构成一个路径矩阵S∈R^3d×m，矩阵S由之前GRU生成的路径编码[p₁，p₂,p₂,...,p_m]构成。由于路径集合中包含大量无效路径，因此采用注意力模型为每条路径p_i赋予不同的权重α_i，从而计算路径矩阵S的向量表示pr：

M＝tanh(W_sS)

α＝softmax(w^TM)

pr＝Sα^T

其中，M∈R^3d×m为路径矩阵的映射矩阵，α∈R^m为注意力模型的权重，pr∈R^3d为加入注意力模型后的路径表示，W_s∈R^3d×3d,w∈R^3d为映射参数。

如此，得到了代表实体对最短路径信息的向量pr。

步骤106：根据实体的描述属性提取实体对的属性文本信息。

在另一种实施方式中，步骤106具体可以包括以下步骤：

使用GRU(Gated Recurrent Unit，门控循环单元)模型将文本结构的属性信息转换成低维度向量表示，再计算实体对属性信息之间的差值，构建两个实体的属性文本信息。

对于步骤106，基于步骤102所得实体对“描述”属性，首先利用GRU模型将文本结构的属性信息转换成低维度向量表示，再计算实体对属性信息之间的差值，构建两个实体的属性信息。步骤106具体包括：

步骤1062：构建实体属性的低维度向量表示。对实体的“描述”属性文本进行切分词等操作，将文本转换成词序列，再将每个词通过词嵌入的方式转化成低维度向量，并利用GRU模型对其进行编码，得到实体“描述”属性的向量表示pd_e,pd_e∈R^d，其中d为词向量维度。

步骤1064：构建实体对的“描述”属性向量。对于三元组<source,relation,target>，本发明认为source向量+relation向量＝target向量。而通过S31步骤已经获得了source向量与target向量，因此根据上述公式，实体对的“描述”属性向量pd：

pd＝pd_target-pd_source

其中pd_source与pd_target分别为source实体与target实体的“描述”属性向量。

通过上面的公式得到了实体对的“描述”属性信息，结合步骤104得到的实体对路径结构信息就可以提取实体对之间的关系。

步骤108：根据实体对的路径结构信息与属性文本信息抽取实体对之间的关系。

在一种实施方式中，步骤108具体可以包括以下步骤：

将实体对的路径结构信息和实体对的属性文本信息结合，构建表示实体对信息的第一向量；

通过一个全连接层，将表示实体对信息的第一向量转换成一个维度等于关系类别数量的第二向量，再通过一层softmax层将第二向量转换成条件概率分布；

根据概率分布，选取概率值最大的关系类别作为实体对之间的关系。

对于步骤108，利用知识图谱路径结构信息与实体属性信息进行关系抽取。将步骤104获得的实体对的路径结构信息pr与步骤106获得的实体对属性文本信息pd相结合，构建表示实体对信息的向量pk＝[pr,pd]，pk∈R^4d。

通过一个全连接层，将pk转换成一个维度等于关系类别数量r的向量v。最后再通过一层softmax层将上述向量v转换成条件概率分布y。

y＝softmax(W_opk+b_o)

其中，W_o∈R^r×4d为全连接层的映射矩阵，b_o∈R^r为全连接层的偏移向量。

最后根据关系的概率分布，选取概率值最大的关系类别作为实体对的预测关系。

综上，本申请提供了一种基于知识图谱的关系抽取模型。首先，通过结合双向广度优先搜索算法与深度优先搜索算法构建连接两个实体对的最短路径集合，其次根据最短路径集合提取实体对的路径结构信息，并综合实体对的“描述”属性信息，抽取实体对之间的关系。该发明使用的数据完全来自知识图谱，不需要外源语料集，不需要人工标注数据集，因此极大降低构建数据集的代价，提升关系抽取效率，适合大规模快速进行关系抽取。同时，对其他领域的图谱增强工作具有一定的借鉴意义。

实施例二：

如图2所示，本申请的基于知识图谱的关系抽取系统，其一种实施方式，包括基本信息提取模块、路径结构信息提取模块、属性文本信息提取模块和关系抽取模块。基本信息提取模块，用于从知识图谱中提取实体的描述属性与连接实体对的最短路径集合；路径结构信息提取模块，用于根据最短路径集合提取实体对的路径结构信息；属性文本信息提取模块，用于根据实体的描述属性提取实体对的属性文本信息；关系抽取模块，根据实体对的路径结构信息与属性文本信息抽取实体对之间的关系。

在一种实施方式中，基本信息提取模块还可以用于将知识图谱视作有向图，利用双向广度优先搜索算法与深度优先搜索算法相结合，提取两个实体间的连通最短路径集合。

本申请的路径结构信息提取模块，还可以用于利用路径编码模型将最短路径转换成低维度路径向量表示，再将所有最短路径的向量表示融合，构建两个实体间的路径结构信息。

在一种实施方式中，属性文本信息提取模块，还可以用于使用GRU模型将文本结构的属性信息转换成低维度向量表示，再计算实体对属性信息之间的差值，构建两个实体的属性文本信息。

本申请的关系抽取模块，还可以用于将所述实体对的路径结构信息和所述实体对的属性文本信息结合，构建表示实体对信息的第一向量；通过一个全连接层，将所述表示实体对信息的第一向量转换成一个维度等于关系类别数量的第二向量，再通过一层softmax层将所述第二向量转换成条件概率分布；根据所述概率分布，选取概率值最大的关系类别作为实体对之间的关系。

实施例三：

本申请提供一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现实施例一中的方法。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换。

Claims

1.一种基于知识图谱的关系抽取方法，其特征在于，包括：

根据所述最短路径集合提取实体对的路径结构信息；

根据所述实体的描述属性提取实体对的属性文本信息；

根据实体对的路径结构信息与属性文本信息抽取实体对之间的关系，具体包括：

通过一个全连接层，将所述表示实体对信息的第一向量转换成一个维度等于关系类别数量的第二向量，再通过一层softmax 层将所述第二向量转换成条件概率分布；

2.如权利要求1所述的方法，其特征在于，提取连接实体对的最短路径集合，具体包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述最短路径集合提取实体对的路径结构信息，具体包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述实体的描述属性提取实体对的属性文本信息，具体包括：

5.一种基于知识图谱的关系抽取系统，其特征在于，包括：

关系抽取模块，根据实体对的路径结构信息与属性文本信息抽取实体对之间的关系，还用于将所述实体对的路径结构信息和所述实体对的属性文本信息结合，构建表示实体对信息的第一向量；通过一个全连接层，将所述表示实体对信息的第一向量转换成一个维度等于关系类别数量的第二向量，再通过一层softmax 层将所述第二向量转换成条件概率分布；根据所述概率分布，选取概率值最大的关系类别作为实体对之间的关系。

6.如权利要求5所述的系统，其特征在于，所述基本信息提取模块，还用于将知识图谱视作有向图，利用双向广度优先搜索算法与深度优先搜索算法相结合，提取两个实体间的连通最短路径集合。

7.如权利要求6所述的系统，其特征在于，所述路径结构信息提取模块，还用于利用路径编码模型将最短路径转换成低维度路径向量表示，再将所有最短路径的向量表示融合，构建两个实体间的路径结构信息。

8.如权利要求7所述的系统，其特征在于，所述属性文本信息提取模块，还用于使用GRU模型将文本结构的属性信息转换成低维度向量表示，再计算实体对属性信息之间的差值，构建两个实体的属性文本信息。

9.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1-4任意一项所述的方法。