CN115269857A

CN115269857A - 一种基于文档关系抽取的知识图谱构建方法和装置

Info

Publication number: CN115269857A
Application number: CN202210470762.2A
Authority: CN
Inventors: 李实�; 于鸣; 李强
Original assignee: Northeast Forestry University
Current assignee: Northeast Forestry University
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-11-01

Abstract

本发明提出一种基于文档关系抽取的知识图谱构建方法和装置，属于知识图谱构建技术领域，解决了目前文档级别关系抽取方法在构建文档图时需要依赖依存句法分析树，导致自然语言处理工具产生的误差会向后传播的问题。该技术能够从文档段落中抽取知识三元组，将非结构化的数据转化为便于存储和理解的结构化数据，为知识图谱的构建提供技术支持。该模型直接构建实体文档图并使用实体间自注意力矩阵作为文档图的邻接矩阵，降低了自然语言处理工具的影响。并且由于实体自注意力矩阵来自Bert，无需复杂计算，大大降低了模型参数以及模型训练时间，然后在此技术基础上构建一个高质量且知识面广的医疗知识图谱。

Description

一种基于文档关系抽取的知识图谱构建方法和装置

技术领域

本发明涉及知识图谱构建技术领域，具体为一种基于实体自注意力文档关系抽取的知识图谱构建方法与装置。

背景技术

知识图谱能够总结知识并构建知识之间的关联，使得海量数据能够更好地以结构化、关联化的信息形式被组织，然后以图的方式存储，使知识能够被机器理解和运用。知识图谱由“节点”和“边”组成，即“节点-边-节点”三元组，“节点”表示现实世界中的“实体”，“边”表示实体之间的“关系”，为机器提供从“关系”角度分析问题的能力，实现从感知智能到认知智能的重要突破。以知识图谱为核心的信息检索，智能问答以及推荐系统等应用在电商、金融、医疗等领域展现出丰富的价值。

利用非结构化文本构建知识图谱的关键技术是命名实体识别和关系抽取技术，然而目前关系抽取技术主要关注的是单句内的实体关系，医疗领域知识图谱数据来源主要是医疗网站上半结构知识或简单的非结构化医学健康语句，忽略了不同句子间的实体关系。在实际应用场景中会遗漏大量知识三元组，从而影响最终知识图谱规模。且当前文档级别关系抽取模型在构建文档图时需要依赖依存句法分析树，引入了自然语言处理工具产生的误差，也会降低知识图谱的质量。

发明内容

本发明的目的在于提供一种基于实体自注意力文档关系抽取的知识图谱构建方法和装置，能够从文档中提取实体三元组，并降低了自然语言处理工具产生误差的影响，最终构建出一个高质量且知识面广的医疗知识图谱，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于实体自注意力文档关系抽取的知识图谱构建方法，包括以下步骤：

S1:基于实体自注意力的文档级别关系抽取模型分为编码模块、实体推理模块、自适应阈值模块和分类模块。

S2:编码模块利用Bert将文本数据编码为向量，并提取实体向量；

S3:实体推理模块实现实体之间的信息传播；

S4:自适应阈值模块负责学习各类别的分类阈值；

S5:分类模块利用自适应阈值模块输出两个实体间的语义关系；

S6:从测试集中选定文档，从文档中提取待预测实体对，通过训练好的模型预测实体对的关系得到实体关系三元组。

基于实体自注意力文档关系抽取模型借助实体间自注意力机制，直接构建实体文档图，降低了自然语言处理工具的影响。模型直接处理并使用Bert 中的自注意力矩阵作为文档图的邻接矩阵，大大降低了模型参数以及模型训练时间。采用自适应阈值策略获得可学习的阈值，降低模型采用全局阈值策略时的错误决策。

优选地，在步骤S2中，对于给定的文档D＝{d_i}(i＝1，2，3…n)，为了让模型更多的关注实体信息，在所有提及实体的开头和结尾处插入特殊符号“*”以凸显实体，并将文档D按照BERT词表转化为W＝{w_i}。然后采用预训练语言模型BERT对文档D进行编码，得到融合上下文信息的词向量表示 H＝{h_i}(i＝1，2，3…n)，公式如下：

H＝BERT(w_i)

把提及实体前的特殊符号“*”的词向量表示作为提及实体的词向量表示m。由于一个实体可能在文档的多个位置出现，本发明使用平滑的最大池化来整合一个实体的多个提及实体的向量表示，从而获得实体的向量表示e，公式如下：

优选地，在步骤S3中，在使用预训练语言模型BERT对文档进行编码时，多头自注意力模块已经进行过自注意力计算，本发明把最后一层自注意力权重矩阵中提及实体前的特殊符号“*”部分作为提及实体间的权重。一个实体对其他实体的权重等于该实体所有提及实体权重的平均，公式如下：

其中N为当前实体包含提及实体的个数。然后将所有实体权重a拼接，得邻接矩阵A，公式如下：

A＝[a₁:a₂…:a_N]

本发明使用图卷积神经网络聚合邻居信息来获得实体间的多跳推理信息，给定l-1节点表示

图卷积运算定义公式如下：

其中

表示第l层聚合邻居信息后的实体信息，W^(l)为线性变换，b^(l)为偏置项，σ为激活性函数。

优选地，在步骤S4中，实体类型在实体对分类中起到十分重要的作用，实体类型可以帮助明确实体间关系类别的范围，降低被错误分类的风险。例如“人物”与“企业/机构/组织”之间的关系可能是“创始人”或“所属机构”，而不可能是“儿子”或“成立时间”等关系。本发明随机初始化一个权重矩阵T用来表示实体类型的嵌入表示，然后使用独热编码p表示实体类型，则某个实体类型的向量表示t，公式如下：

t＝pT

给定由图卷积神经网络计算的实体对推理向量表示(h_s，h_o)，实体对原始向量(e_s，e_o)，其中s表示头实体，o表示尾实体。与第三章隐式利用实体类型信息方式不同的是，本发明实验将原始向量、推理向量和实体类型向量拼接得到联合向量z，公式如下：

z_s＝concatenate(e_s:h_s:t_s)

z_o＝concatenate(e_o:h_o:t_o)

最后将联合向量通过双线性函数和sigmoid激活计算实体关系r的概率，公式如下：

其中是W_r权重矩阵，b_r为偏置，σ为激活函数(如ReLU)。

本发明使用二元交叉熵损失进行训练，在推理过程中，调整全局阈值θ来最大化测试集上的评估指标(F1分数)，如果P(r|z_s，z_o)>θ则返回r 作为关联关系，如果不存在关系则返回NA。

优选地，在步骤S5中，关系抽取分类器输出对实体预测的标签分布 P(r|z_s，z_o)，其范围是(0,1)。对于关系抽取这类多分类任务，可以将PR曲线中最优F1分数时对应的标签分数作为全局阈值，模型在实际推理时，若标签分布中概率最大值超过全局阈值则实体对预测为关系r，否则模型预测实体对之间没有关系并输出NA类别。

然而，由于训练数据中不同关系类别的实例数量不同以及不同实体对间的差异，全局阈值不能最大程度的发挥分类器的性能。使用自适应阈值方法获得一个可学习的阈值来代替全局阈值，从而减少推理过程中的决策错误。

将实体对T＝(e_s，e_o)的标签分成两个子集：正类PT和负类NT，定义如下：

正类

是实体之间表达的关系类别。如果实体对间没有语义关系，则PT为空。

负类

是实体之间未表达的关系类别。如果T不表达任何关系，则NT＝R。

其中R＝R^P+R^N，R为关系类别集合。

本发明定义了阈值类TH。如果实体对被正确分类，正面类别标签的得分应高于阈值，而负面类别标签的得分应低于阈值。

为了训练模型，需要一个特殊的损失函数来考虑TH类。在交叉熵损失的基础上设计了自适应阈值损失。损失函数分为两部分，公式如下：

L＝L₁+L₂

第一部分将关系分类转换为正类和TH类的比较。若模型将正类错误预测为TH类，L₁损失将变大，否则L₁变小。如果实体间没有正类标签，则L₁为0；第二部分将关系分类转换为负类和TH类的比较。若模型将TH类错误预测为负类，L₂损失将变大，否则L₂变小。模型的目标是最小化损失函数L，使正类分数高于TH类，负类分数低于TH类。

优选地，在步骤S6中，在测试时，将分数高于TH类的类作为正类返回，如果不存在这样的类则返回NA。这个阈值类学习了一个依赖于实体的阈值，因此不需要在开发集上调整阈值。

本发明还提出一种基于实体自注意力文档关系抽取的知识图谱构建装置，所述装置包括：

数据获取模块，用于从互联网中利用爬虫技术获取数据，包括例如医学文献、科普文章和医生回答等，这些数据不能通过简单的规则提取知识，需要借助深度学习技术自动从数据中抽取出医疗实体三元组。由于这些数据往往是一个段落而非单句，所以需要使用文档级别关系抽取模型提取实体三元组。

数据标注模块，用于对获取的非结构化数据进行手工标注，标注内容包括实体及其类型和实体对间的语义关系。标注后的数据用于训练命名实体识别模型和文档级别关系抽取模型。

命名实体识别模块，用于根据训练集训练命名实体识别模型。

文档级别关系抽取模块，用于根据训练集训练关系抽取模型。

三元组抽取模块，用于将训练好的命名实体识别模型和关系抽取模型从未标注的非结构化文本中抽取实体三元组。

知识图谱构建模块，用于将抽取的三元组存储在Neo4j图数据库中来实现知识图谱的构建，并将知识图谱可视化展示。

与现有技术相比，本发明的有益效果是：

本发明还提出一种基于实体自注意力文档关系抽取的知识图谱构建方法和装置，编码模块利用Bert将文本数据编码为向量，实体推理模块实现实体之间的信息传播，自适应阈值模块负责学习各类别的分类阈值，分类模块利用自适应阈值模块输出两个实体间的语义关系；针对现有模型较多依赖句法依存分析树构建文档，导致NLP工具产生的错误向后传播的问题，利用Bert 模型中的自注意力机制构建实体文档图，使模型能够动态的调整文档图中实体间的权重依赖，从而增加相关信息的传播，降低无关信息的干扰；为了降低全局阈值造成模型决策失误的影响，利用自适应阈值策略学习可变阈值，最终提高了文档级别关系抽取模型的性能；在此模型基础上构建知识覆盖范围更广，质量更高的知识图谱。

附图说明

图1表示本发明实施例1中提出的基于实体自注意力文档关系抽取的知识图谱构建方法的模型结构示意图；

图2表示本发明实施例2中提出的基于实体自注意力文档关系抽取的知识图谱构建装置的流程示意图；

图3表示本发明实施例2中提出的基于实体自注意力文档关系抽取的知识图谱构建装置的知识图谱示意图。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：一种基于实体自注意力文档关系抽取(Document level relationextraction network based on entity self-attention，ESAN)的知识图谱构建方法的验证。

1、实验方法

ESAN模型整体结构见图1。

H＝BERT(w_i)

A＝[a₁:a₂…:a_N]

图卷积运算定义公式如下：

其中

t＝pT

z_s＝concatenate(e_s:h_s:t_s)

z_o＝concatenate(e_o:h_o:t_o)

最后将联合向量通过双线性函数和sigmoid激活计算实体关系r的概率，公式如下：。

其中是W_r权重矩阵，b_r为偏置，σ为激活函数(如ReLU)。

正类

负类

其中R＝R^P+R^N，R为关系类别集合。

L＝L₁+L₂

2、实验结果

实验采用HacRED数据集对模型进行评估。HacRED数据集来自 CN-DBpedia，是最大的中文文档级别关系抽取数据集，分为训练集、开发集和测试集，分别包含6231，1500和1500个实例，共9231个文档和65255个实体关系实例，26个预定义关系和9种类型的实体，其数据质量F1分数达到了96％。HacRED数据集的关系类别分布较为平衡，前20％的关系类别占总体实例的49.96％。HacRED数据集为了降低实验与实际应用表现不一致问题，包含丰富的困难案例，促使模型在实际困难场景中更加健壮。

为评估本发明提出ESAN模型的性能，选取四种已发表方法作为对照，实验结果见表1，表1表示本发明实施例1中提出的基于实体自注意力文档关系抽取的知识图谱构建方法的主要结果表。

表1各模型在HacRED上的表现

为了进一步验证基于自注意力构建实体文档图优于基于依存分析树构建文档图，本发明进行如下实验，实验结果见表2，表2表示本发明实施例1中提出的基于实体自注意力文档关系抽取的知识图谱构建方法的对比实验表。

表2对比模型在HacRED数据集的表现

利用最短依赖路径在句法依存分析树中提取各个实体间的词语，将这些词语与各个实体的提及实体作为文档图中的节点，节点之间的权重保持相同，模型的其他部分与ESAN保持一致，将此模型记作SDN(Syntactic Dependency Network)。使用Bert的实体自注意力矩阵作为SDN模型中文档图的邻接矩阵的权重，将此模型记作SDAN(SyntacticDependency Attention Network)。

为了验证本发明中提出的实体自注意力构建文档图方法和显式利用实体类型信息方法的有效性，进行了消融实验分析，见表3。其中“ESAN-实体注意力”为模型去除实体自注意力模块，使文档图中各节点权重依赖保持一致，“ESAN隐式实体类型”为在编码隐式的利用实体类型信息。

表3表示本发明实施例1中提出的基于实体自注意力文档关系抽取的知识图谱构建方法的消融实验表。

表3 ESAN在HacRED上的消融研究

3、结论

通过在公开数据集HacRED上与其他模型的比较实验、关于构建文档图的方式的对比实验以及消融实验，证明了本发明提出使用自注意力构建文档图方法的有效性，并在HacRED上获得了最高的F1分数，达到了79.46％。

实施例2：一种基于实体自注意力文档关系抽取的知识图谱构建装置。

1、实验方法

医疗网站中的半结构化数据能按照一定规则抽取为三元组结构化知识，但是互联网中的数据更多是以非结构化的方式存在，例如医学文献、科普文章和医生回答等，这些数据不能通过简单的规则提取知识，需要借助深度学习技术自动从数据中抽取出医疗实体三元组。知识图谱构建流程示意图图见图2。

爬虫获取的非结构化文本中医疗相关实体信息并没有标记出来，所以需要人工对文本进行标注，然后使用已标注的数据集训练深度学习模型，使其能够自动地识别医疗实体。互联网中非结构化医疗数据的特点是以段落为单位，而不是一个单句，并且涉及多个实体，所以单句关系抽取并不适用，本发明采用第四章文档级别关系抽取算法ESAN提取文本中的实体关系三元组。

数据标注，通过专业的医疗网站的知识框架，将医疗实体分为七类，分别是疾病、科室、治疗方法、检查方法、症状、部位、药物。

根据医疗实体之间的关系，将医疗实体之间的关系分为八类，分别是发病部位、并发症、同义词、临床表现、治疗方法、检查方法、就诊科室、治疗药物。

数据标记采用BIOSE序列标记方法进行标注。

医疗实体识别，用基于BILSTM-CNN-CRF网络结构作为命名实体识别模型。该模型具备CNN获取局部语义、BILSTM获取双向上下文语义信息、以及使用条件随机场对实体标记进行约束等优点。

将文本送入模型前需要根据命名实体识别任务，对数据进行预处理，以获得命名实体识别任务所需的实体标记。对数据“通过症状和用药考虑视疲劳和干眼，可以用七叶洋地黄双苷滴眼液缓解疲劳，热敷，口服复明片，明目。”进行预处理，得到标记“O O O O O OO O O B-SYM I-SYM E-SYM O B-DIS E-DIS O O O O B-DRU I-DRU I-DRU I-DRU I-DRUI-DRU I-DRU I-DRU I-DRU E-DRU O O O O O O O O O O B-DRU I-DRU E-DRU O O O O”，即医疗实体识别任务的训练标签。

模型的输入层只使用预先训练好的词向量，不使用任何人工特征。编码层首先使用CNN获取单词的本地上下文语义，然后使用BiLSTM从两个方向对单词的上下文信息进行建模。解码时，使用条件随机场层通过标签之间的依赖关系来搜索最佳标签序列。例如，表示药物中间的标签I-DRU不能出现在表示疾病中间的标签B-DIS前面。

文档级别关系抽取，使用ESAN模型进行关系抽取，模型的输入层为一段文本中字对应此表的id、文本中各个实体的起始位置和其对应的实体类型以及各个实体间的语义关系。

模型的编码层使用Bert获取字的向量化表示，并根据实体的位置信息使用加和平均的方法获取各个实体的原始向量化表示以及从Bert最后一层的自注意力矩阵中抽取实体自注意力矩阵。

模型的推理层利用实体的向量表示以及实体自注意力矩阵构建实体文档图，然后使用图卷积神经网络进行实体间的信息传播获得实体推理向量表示。

模型的分类输出层将实体原始向量表示、实体推理向量表示和实体类型向量表示拼接送入双线性函数和sigmoid函数获得最终任意两个实体间的关系类别。

2、实验结果

结果表明，获得一个训练好的医疗实体识别模型和一个医疗关系抽取模型，两个模型以串行的方式从未标注的文本中提取医疗实体三元组。同时，医疗实体识别模型也可以作为自动问答系统的用户问句语义解析模块，从自言语言形式的问题中抽取出关键医疗试题信息，以支持从知识图谱中查询用户问题的相关答案。

3、结论

综上所述，基于实体自注意力文档关系抽取方法构建知识图谱能够获得质量更好的知识图谱，示例见图3。

综上所述，仅为本发明的较佳实施例而已，并非用来限定本发明实施的范围，凡依本发明权利要求范围所述的形状、构造、特征及精神所为的均等变化与修饰，均应包括于本发明的权利要求范围内。

Claims

1.一种基于文档关系抽取的知识图谱构建方法，其特征在于：包括如下步骤：

S1:基于实体自注意力的文档级别关系抽取模型分为编码模块、实体推理模块、自适应阈值模块和分类模块；

S3:实体推理模块实现实体之间的信息传播；

S4:自适应阈值模块负责学习各类别的分类阈值；

2.根据权利要求1所述的一种基于文档关系抽取的知识图谱构建方法，其特征在于：在文档中所有提及实体的开头和结尾处插入特殊符号“*”以凸显实体，并将文档按照BERT词表转化，然后采用BERT对文档进行编码，将提及实体前的特殊符号“*”的词向量表示作为提及实体的词向量表示，使用平滑的最大池化来整合一个实体的多个提及实体的向量表示。

3.根据权利要求2所述的一种基于文档关系抽取的知识图谱构建方法，其特征在于：利用BERT最后一层自注意力权重矩阵构建文档图的邻接权重矩阵，使用图卷积神经网络聚合邻居信息来获得实体间的多跳推理信息。

4.根据权利要求3所述的一种基于文档关系抽取的知识图谱构建方法，其特征在于：将原始向量、推理向量和实体类型向量拼接得到联合向量，然后，将联合向量通过双线性函数和sigmoid激活计算实体关系的概率。

5.根据权利要求4所述的一种基于文档关系抽取的知识图谱构建方法，其特征在于：为了训练模型，使用需要一个特殊的损失函数来学习自适应阈值，降低模型使用全局阈值时的决策失误。

6.根据权利要求5所述的一种基于文档关系抽取的知识图谱构建方法，其特征在于：为了验证模型的有效性，在公开数据集HacRED上进行了与其他模型的对比实验，利用训练集训练模型，在测试阶段，从测试集中选定文档，并抽取其中的实体，使用模型预测各个实体之间的语义关系，若待预测的实体对的某个类别的分数高于阈值，则判定当前实体对的语义关系为该类别，若不存在高于阈值的类别，则判断两个实体之间没有语义关系，输出为None。

7.一种基于文档关系抽取的知识图谱构建装置，其特征在于：所述装置包括：

数据获取模块，用于从互联网中利用爬虫技术获取数据，包括例如医学文献、科普文章和医生回答等，这些数据不能通过简单的规则提取知识，需要借助深度学习技术自动从数据中抽取出医疗实体三元组。由于这些数据往往是一个段落而非单句，所以需要使用文档级别关系抽取模型提取实体三元组；

数据标注模块，用于对获取的非结构化数据进行手工标注，标注内容包括实体及其类型和实体对间的语义关系，标注后的数据用于训练命名实体识别模型和文档级别关系抽取模型；

命名实体识别模块，用于根据训练集训练命名实体识别模型；

文档级别关系抽取模块，用于根据训练集训练关系抽取模型；

三元组抽取模块，用于将训练好的命名实体识别模型和关系抽取模型从未标注的非结构化文本中抽取实体三元组；