CN110555083B

CN110555083B - 一种基于zero-shot无监督实体关系抽取方法

Info

Publication number: CN110555083B
Application number: CN201910790569.5A
Authority: CN
Inventors: 赵青; 王丹; 冯韦玮; 杜金莲; 付利华
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2021-06-25
Anticipated expiration: 2039-08-26
Also published as: CN110555083A

Abstract

一种基于zero‑shot无监督实体关系抽取方法属于计算机领域，通过提取文本数据中的三元组特征和领域知识图谱中的实体关系类型特征，并计算它们之间的相似度来判断实体关系类别，从而减少传统实体关系抽取方法对人工标注的依赖，并提高实体关系抽取的准确率。方法包括：数据预处理、特征提取、训练关系抽取网络模型和实体关系分类器。本方法将采用善于捕捉句子信息的卷积神经网络模型来分别提取三元组和关系类型特征，最后使用softmax预测实体关系类型标签。在模型构建过程中，可以利用稀疏标记的语料库作为训练集，在测试过程中也可以利用与训练过程中相同的参数来预测未标注三元组的类型。

Description

一种基于zero-shot无监督实体关系抽取方法

技术领域

本发明属于计算机领域，涉及一种基于zero-shot无监督实体关系抽取方法。

背景技术

在如今的大数据时代，由于数据的增长速度快，类型多样化，使得信息过载问题日益严重，因此如何快速、准确的获取所需的重要信息是如今面临的主要问题。信息抽取技术是通过从自然语言文本中抽取指定类型的实体、关系、事件等事实信息来提取出文本中所包含的重要信息。实体关系抽取作为信息抽取技术中一个重要的子任务，主要对句子或文本中概念之间的关系进行识别和分类，同时，它也是许多自然语言处理领域任务的基础，例如机器翻译、问答系统和文本挖掘等，且对于领域知识图谱的构建也起到了重要的作用。因此，实体关系抽取任务一直受到全世界研究人员的极大关注，以及在ACL(Association forComputational Linguistics)等重要会议上提出了大量的研究。

目前关系抽取的方法主要分为有监督的学习方法和无监督的学习方法。其中有监督的学习方法是最常用的，它主要通过构造大量的人工特征并结合分类器来对实体关系进行分类。例如，陈鹏提出一种基于凸组合核函数的中文领域实体关系抽取方法，并在600篇旅游领域的语料上进行实验，F值达到了62.9。但是，这种方法对专家知识的依赖度较高，并且人工的特征选择和设计耗时耗力，因此，此方法对于小规模数据来说效果较好，但不适用于大规模数据。

随着深度学习在各个领域的迅速发展，在实体关系抽取任务中的应用也越来越多，相比较传统有监督的学习方法，深度学习可以通过将预训练的词嵌入表示输入到模型中来自动学习文本特征，从而降低人工成本。例如，2019年，Huiwei Zhou等人所著论文“Knowledge-guided convolutional networks for chemical-disease relationextraction”，利用一种基于门控制的卷积神经网络分别提取疾病和药物相关的上下文特征，来自动抽取英文数据中的疾病与药物之间的关系。

以上的方法虽然都可以完成实体关系抽取任务，但是现有的实体关系抽取方法还存在以下挑战：(1)在很多领域中，实体之间的关系触发词不仅可以通过实体对附近的动词来描述，也可以通过句子中的形容词或副词描述。(2)由于我国信息技术起步较晚，在大多数领域中都缺乏大规模完整标注的语料库，例如医疗领域。基于以上局限性提出一种基于zero-shot的无监督实体关系抽取方法，通过计算句子中的每个词向量与实体对之间的语义关系来找出实体对相关的重要信息，并通过与领域本体中提取出来的关系类型相匹配，来自动判断出数据中实体关系的类别，不仅可以充分的提取出实体关系分类所需要的重要信息，也可以减少人工标注的成本。

发明内容

一种基于zero-shot的无监督实体关系抽取方法，该方法包括：

①提出了基于zero-shot的无监督实体关系抽取方法，该方法不仅可以通过Attention机制来提取出实体关系相关的重要信息，还可以通过与领域本体中提取出来的关系类型相匹配，来自动判断出数据中实体关系的类别，

不仅能够提升关系抽取的准确率，也可以降低人工标注成本。

②首先对预处理后的数据提取三元组特征，其中包含实体特征和关系特征，

对于实体特征，采用分布式词向量模型word2vec将数据中的词转化为d维向量形式；对于关系特征，本方法通过采用Attention机制来计算句子中每一个词与实体对之间的语义关系，即权重信息，从而找出关系触发词。

③其次，从已存在的领域本体中提取出包含对应关系的三元组特征来学习关系类型特征表示。并将三元组特征与关系类型特征相匹配，根据相似度系数来自动的判断数据中提取出来的三元组所对应的关系类型。

④由于CNN善于捕捉句子级的信息，因此本方法将采用CNN作来训练实体关系分类模型。将提取出的三元组特征和实体关系类型特征作为输入，

并对于每一个三元组特征和关系类型特征采用权重共享的CNN结构，

通过卷积层捕捉句子中包含的特征，并通过池化层进行降维操作，最后通过softmax进行实体关系分类。

本发明原理是一种基于zero-shot的无监督实体关系抽取方法，通过提取文本数据中的三元组特征和领域知识图谱中的实体关系类型特征，并计算三元组和实体关系类型的相似度来判断实体关系类别，从而减少传统实体关系抽取方法对人工标注数据的依赖性，并提高实体关系抽取的准确率。

为达到以上发明目的，本发明采用如下的技术方案：

一种基于zero-shot的无监督实体关系抽取方法，包括：数据预处理模块、特征提取模块、训练关系抽取网络模型、实体关系分类器模块。其中，特征提取模块主要针对数据中的三元组特征和领域本体中的实体关系特征进行提取并进行相似度匹配，具体包含三个子模块分别是：三元组特征提取、关系类型特征提取、三元组特征和关系类型特征相结合。

三元组特征提取模块：三元组特征提取模块包含两个部分，实体特征提取和关系特征提取，首先，采用分布式词向量模型word2vec将数据中的词转化为d维向量形式，其次，通过采用Attention机制来计算句子中每一个词与实体对之间的语义关系，即权重信息，从而找出关系触发词。

关系类型特征提取模块：从已存在的领域本体中提取出包含对应关系的三元组特征来学习关系类型特征表示。

三元组特征和关系类型特征相结合：通过计算三元组特征和关系类型特征的相似度来判断实体关系类别，具体来说,就是通过计算数据集中提取出的三元组{d₁，d₂，...，d_n}∈D与领域本体中提取出的关系类型{y₁，y₂，...，y_m}∈Y之间的语义距离来对三元组进行分类。

本发明通过计算句子中的每个词向量与实体对之间的语义关系来找出实体对相关的重要信息，并通过与领域本体中提取出来的关系类型相匹配，来自动判断出数据中实体关系的类别，不仅可以充分的提取出实体关系分类所需要的重要信息，也可以减少人工标注的成本。

附图说明

图1基于zero-shot的无监督实体关系抽取方法整体架构图

具体实施方式

下面将详细描述本发明各个方面的特征和示例性实施例

本发明通过将数据中提取出的三元组特征与本体中提取出的实体类型特征相匹配来抽取实体关系。希望提高实体关系抽取的准确率并降低人工标注人本。整体架构如图1所示，分为数据预处理模块(1)、特征提取模块(2)、训练关系抽取网络模型(3)、实体关系分类器模块(4)。

数据预处理模块(1)：首先将电子病历按照“。”、“；”标点符号进行分句，其次利用哈工大LTP-Cloud平台对句子进行分词，并提取词性标注和依存句法分析。

特征提取模块(2)：该模块具体可以分为三个子模块，分别是：三元组特征提取、关系类型特征提取、三元组特征和关系类型特征相结合。

三元组特征提取(21)：三元组特征可以分为两个部分：实体特征提取和关系特征提取，具体描述如下：

实体特征提取：首先将预处理后的语料映射到已有的医疗本体中来识别实体信息，如输入长度为n个词组成的句子

其中包含两个实体e₁＝w_i和e₂＝w_m(i，m∈[1，n]；i≠m)。其次采用分布式词向量模型word2vec将数据中的词转化为d维向量，n为句子中词的个数，

为实数空间；

关系特征提取模块：通常来讲，两个实体对附近的动词是描述实体之间关系的触发词，但是在大多数领域中，实体之间的关系不仅与实体对附近的动词有关也可以通过句子中的形容词或副词来描述，例如在医疗领域，例如“患[高血压病](实体1)2年，口服[硝苯地平缓释片](实体2)，血压控制情况尚可。”中“口服”和“尚可”都是预测医疗实体关系中的重要信息。因此，判断句子中每一个词与实体对之间的关系对于预测关系类型是至关重要的。本方法将采用词注意力机制为句子中每个词向量学习与实体表示之间的语义关系，即权重信息。与实体对关联较大的词会获得较高的权重，反之，那些与实体对关联较小的词会获得较低的权重。首先，将每个词的词向量和两个实体的向量进行连接，连接后的向量为x_i作为词语的向量表示，如公式(1)所示：

其中，w_o为句子中的词，w_i和w_m为句子中的实体，

表示向量拼接；

其次，将公示(1)中的向量表示输入到多层感知机中(Multi-Layer Perception,MLP),通过全连接层来计算句子中每个词与实体对之间的相关性评分，如公式(2)、(3)和公式(4)所示：

u_i＝f(W_ux_i+b_u) (2)

其中，W_u和b_u为训练阶段的矩阵和偏置参数，w_o为句子中的词，c为加权求和后的Attention数值，a_i∈[0，1]为词向量x_i的权重得分，并且

f(·)为非线性激活函数；

其次，抽取权重最高的两个词作为关系表示词，如公式(5)所示：

其中，w_l和w_f为句子S中与实体对关联最大的词，q为向量拼接后的关系表示词，

表示向量拼接；

最后，将实体对于关系结合得出最后的三元组特征表示d_i，如公式(6)所示：

其中，w_i和w_m为句子中的实体，q为向量拼接后的关系表示词；

关系类型特征提取(22)：从已有的本体中提取出包含关系类型的三元组y_i＝{h，r，t},y_i∈Y，h为头实体，t为尾实体，r为关系，Y为关系类型的数量Y＝{y₁，y₂，...，y_m}。三元组类型特征表示的具体计算公式如下：

其中，h为类型y_i的头实体，t为尾实体，r为关系，

表示向量拼接；

三元组特征和关系类型特征相结合(23)：本方法将通过计算三元组特征和关系类型特征的相似度来判断实体关系类别，具体来说,就是通过计算数据集中提取出的三元组{d₁，d₂，...，d_n}∈D与领域本体中提取出的关系类型{y₁，y₂，...，y_m}∈Y之间的语义距离来对三元组进行分类。具体公式如下：

其中,y_i为关系类型Y中的一个实体关系类型，d_i为数据集D中的一个三元组特征，R()为y_i和d_i的相似性关系，maxsimilarity()为相似度计算方法，α为相似度阈值，初始阈值设为0.85，步长为0.01，并采用随机梯度下降方法来计算误差，就是使误差函数平滑连续的计算梯度下降的斜率，越接近最小值梯度越小，直到梯度的斜率达到最小值就是相似度的最优阈值。如果一个三元组可以匹配出多个与其相似的关系类型，那么就提取相似度系数最高的类型为该三元组的关系类型；

训练实体关系分类网络模块(3)：由于CNN善于捕捉句子级的信息，因此本方法采用CNN作来训练实体关系分类模型。对于每一个三元组特征和关系类型特征采用权重共享的CNN结构，并且，为了保持三元组和关系类型特征的一致性，当窗口在边界附近滑动时，可能在句子边界之外，因此，需要对句子做padding操作，对超出范围的输入向量用零进行填充。若卷积核大小为h，则使用如下(9)公式计算特征c_i；

c_i＝ReLU(w·x_i∶i+h-1+b) (9)

其中，w∈R^h×d是卷积矩阵，b∈R为偏置，x_i：i+h-1表示第i到第i-h+1的词向量序列,ReLU(·)为非线性激活函数。ReLU激活函数可以缓解神经网络中的饱和现象，通过对一部分神经元的输出置0，达到稀疏的效果，并使模型的收敛速度保持在一个稳定状态。假设卷积层有i个卷积核，则第i个卷积核对句子S的向量表示为：S_i＝[c_1i，c_i2，...，c_(n-h+1)i]∈Rⁿ ^-h+1，所有卷积核对句子的表征为：S＝{S₁，S₂，...，S_n}∈R^i×(n-h+1)；

实体关系分类器模块(4)：根据神经网络CNN模型的softmax分类器来产生最后的实体关系标签的分类结果。

Claims

1.一种基于zero-shot无监督实体关系抽取方法，其特征在于包括以下四个模块：数据预处理模块(1)、特征提取模块(2)、训练关系抽取网络模型(3)、实体关系分类器模块(4)；

(1)数据预处理模块

首先将电子病历按照“。”、“；”标点符号进行分句，其次利用哈工大LTP-Cloud平台对句子进行分词，并提取词性标注和依存句法分析；

(2)特征提取模块

该模块分为三个子模块，分别是：三元组特征提取、关系类型特征提取、三元组特征和关系类型特征相结合；

(3)训练实体关系分类网络模块

采用CNN作来训练实体关系分类模型；对于每一个三元组特征和关系类型特征采用权重共享的CNN结构，并且，为了保持三元组和关系类型特征的一致性，对句子做padding操作，对超出范围的输入向量用零进行填充；

(4)实体关系分类器模块

根据神经网络CNN模型的softmax分类器来产生最后的实体关系标签的分类结果；

其特征在于，特征提取模块具体如下：

三元组特征提取(21)：三元组特征分为两个部分：实体特征提取和关系特征提取，具体描述如下：

实体特征提取：首先将预处理后的语料映射到已有的医疗本体中来识别实体信息，输入长度为n个词组成的句子

其中包含两个实体e₁＝w_i和e₂＝w_m(i，m∈[1，n]；i≠m)；其次采用分布式词向量模型word2vec将数据中的词转化为d维向量形式，n为句子中词的个数，

为实数空间；

关系特征提取模块：采用词注意力机制为句子中每个词向量学习与实体表示之间的语义关系，即权重信息；与实体对关联较大的词会获得较高的权重，反之，那些与实体对关联较小的词会获得较低的权重；首先，将每个词的词向量和两个实体的向量进行连接，连接后的向量为x_i作为词语的向量表示，如公式(1)所示：

其中，w_o为句子中的词，w_i和w_m为句子中的实体，

表示向量拼接；

如公式(2)、(3)和公式(4)所示：

u_i＝f(W_ux_i+b_u) (2)

W_u和b_u为训练阶段的矩阵和偏置参数，a_i∈[0，1]为连接后的词向量x_i的权重得分，并且

表示向量拼接；

关系类型特征提取(22)：从已有的本体中提取出包含关系类型的三元组y_i＝{h，r，t)，y_i∈Y，h为头实体，t为尾实体，r为关系，Y为关系类型的数量Y＝{y₁，y₂，...，y_m}；三元组类型特征表示的具体计算公式如下：

其中，h为类型yi的头实体，t为尾实体，r为关系，

表示向量拼接；

三元组特征和关系类型特征相结合(23)：通过计算数据集中提取出的三元组{d₁，d₂，...，d_n}∈D与领域本体中提取出的关系类型{y₁，y₂，...，y_m}∈Y之间的语义距离来对三元组进行分类；具体公式如下：

其中，y_i为关系类型Y中的一个实体关系类型，d_i为数据集D中的一个三元组特征，R()为y_i和d_i的相似性关系，maxsimilarity()为相似度计算方法，α为相似度阈值，初始阈值设为0.85，步长为0.01，并采用随机梯度下降方法来计算误差，就是使误差函数平滑连续的计算梯度下降的斜率，越接近最小值梯度越小，直到梯度的斜率达到最小值就是相似度的最优阈值；如果一个三元组匹配出多个与其相似的关系类型，那么就提取相似度系数最高的类型为该三元组的关系类型。