CN115269857A - 一种基于文档关系抽取的知识图谱构建方法和装置 - Google Patents
一种基于文档关系抽取的知识图谱构建方法和装置 Download PDFInfo
- Publication number
- CN115269857A CN115269857A CN202210470762.2A CN202210470762A CN115269857A CN 115269857 A CN115269857 A CN 115269857A CN 202210470762 A CN202210470762 A CN 202210470762A CN 115269857 A CN115269857 A CN 115269857A
- Authority
- CN
- China
- Prior art keywords
- entity
- document
- model
- module
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims description 22
- 238000010276 construction Methods 0.000 claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims abstract description 20
- 239000000284 extract Substances 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 16
- 230000003044 adaptive effect Effects 0.000 claims description 13
- 238000002474 experimental method Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 230000000052 comparative effect Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000001994 activation Methods 0.000 claims 1
- 230000002776 aggregation Effects 0.000 claims 1
- 238000004220 aggregation Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 abstract description 6
- 238000004364 calculation method Methods 0.000 abstract description 3
- 230000000644 propagated effect Effects 0.000 abstract 1
- 238000002679 ablation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000208011 Digitalis Species 0.000 description 1
- 208000003556 Dry Eye Syndromes Diseases 0.000 description 1
- 206010013774 Dry eye Diseases 0.000 description 1
- 208000003464 asthenopia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 150000002016 disaccharides Chemical group 0.000 description 1
- 229940011399 escin Drugs 0.000 description 1
- 229930186222 escin Natural products 0.000 description 1
- 239000003889 eye drop Substances 0.000 description 1
- 229940012356 eye drops Drugs 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 229930182478 glucoside Natural products 0.000 description 1
- 150000008131 glucosides Chemical class 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010339 medical test Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种基于文档关系抽取的知识图谱构建方法和装置,属于知识图谱构建技术领域,解决了目前文档级别关系抽取方法在构建文档图时需要依赖依存句法分析树,导致自然语言处理工具产生的误差会向后传播的问题。该技术能够从文档段落中抽取知识三元组,将非结构化的数据转化为便于存储和理解的结构化数据,为知识图谱的构建提供技术支持。该模型直接构建实体文档图并使用实体间自注意力矩阵作为文档图的邻接矩阵,降低了自然语言处理工具的影响。并且由于实体自注意力矩阵来自Bert,无需复杂计算,大大降低了模型参数以及模型训练时间,然后在此技术基础上构建一个高质量且知识面广的医疗知识图谱。
Description
技术领域
本发明涉及知识图谱构建技术领域,具体为一种基于实体自注意力文档关系抽取的知识图谱构建方法与装置。
背景技术
知识图谱能够总结知识并构建知识之间的关联,使得海量数据能够更好地以结构化、关联化的信息形式被组织,然后以图的方式存储,使知识能够被机器理解和运用。知识图谱由“节点”和“边”组成,即“节点-边-节点”三元组,“节点”表示现实世界中的“实体”,“边”表示实体之间的“关系”,为机器提供从“关系”角度分析问题的能力,实现从感知智能到认知智能的重要突破。以知识图谱为核心的信息检索,智能问答以及推荐系统等应用在电商、金融、医疗等领域展现出丰富的价值。
利用非结构化文本构建知识图谱的关键技术是命名实体识别和关系抽取技术,然而目前关系抽取技术主要关注的是单句内的实体关系,医疗领域知识图谱数据来源主要是医疗网站上半结构知识或简单的非结构化医学健康语句,忽略了不同句子间的实体关系。在实际应用场景中会遗漏大量知识三元组,从而影响最终知识图谱规模。且当前文档级别关系抽取模型在构建文档图时需要依赖依存句法分析树,引入了自然语言处理工具产生的误差,也会降低知识图谱的质量。
发明内容
本发明的目的在于提供一种基于实体自注意力文档关系抽取的知识图谱构建方法和装置,能够从文档中提取实体三元组,并降低了自然语言处理工具产生误差的影响,最终构建出一个高质量且知识面广的医疗知识图谱,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于实体自注意力文档关系抽取的知识图谱构建方法,包括以下步骤:
S1:基于实体自注意力的文档级别关系抽取模型分为编码模块、实体推理模块、自适应阈值模块和分类模块。
S2:编码模块利用Bert将文本数据编码为向量,并提取实体向量;
S3:实体推理模块实现实体之间的信息传播;
S4:自适应阈值模块负责学习各类别的分类阈值;
S5:分类模块利用自适应阈值模块输出两个实体间的语义关系;
S6:从测试集中选定文档,从文档中提取待预测实体对,通过训练好的模型预测实体对的关系得到实体关系三元组。
基于实体自注意力文档关系抽取模型借助实体间自注意力机制,直接构建实体文档图,降低了自然语言处理工具的影响。模型直接处理并使用Bert 中的自注意力矩阵作为文档图的邻接矩阵,大大降低了模型参数以及模型训练时间。采用自适应阈值策略获得可学习的阈值,降低模型采用全局阈值策略时的错误决策。
优选地,在步骤S2中,对于给定的文档D={di}(i=1,2,3…n),为了让模型更多的关注实体信息,在所有提及实体的开头和结尾处插入特殊符号“*”以凸显实体,并将文档D按照BERT词表转化为W={wi}。然后采用预训练语言模型BERT对文档D进行编码,得到融合上下文信息的词向量表示 H={hi}(i=1,2,3…n),公式如下:
H=BERT(wi)
把提及实体前的特殊符号“*”的词向量表示作为提及实体的词向量表示m。由于一个实体可能在文档的多个位置出现,本发明使用平滑的最大池化来整合一个实体的多个提及实体的向量表示,从而获得实体的向量表示e,公式如下:
优选地,在步骤S3中,在使用预训练语言模型BERT对文档进行编码时,多头自注意力模块已经进行过自注意力计算,本发明把最后一层自注意力权重矩阵中提及实体前的特殊符号“*”部分作为提及实体间的权重。一个实体对其他实体的权重等于该实体所有提及实体权重的平均,公式如下:
其中N为当前实体包含提及实体的个数。然后将所有实体权重a拼接,得邻接矩阵A,公式如下:
A=[a1:a2…:aN]
优选地,在步骤S4中,实体类型在实体对分类中起到十分重要的作用,实体类型可以帮助明确实体间关系类别的范围,降低被错误分类的风险。例如“人物”与“企业/机构/组织”之间的关系可能是“创始人”或“所属机构”,而不可能是“儿子”或“成立时间”等关系。本发明随机初始化一个权重矩阵T用来表示实体类型的嵌入表示,然后使用独热编码p表示实体类型,则某个实体类型的向量表示t,公式如下:
t=pT
给定由图卷积神经网络计算的实体对推理向量表示(hs,ho),实体对原始向量(es,eo),其中s表示头实体,o表示尾实体。与第三章隐式利用实体类型信息方式不同的是,本发明实验将原始向量、推理向量和实体类型向量拼接得到联合向量z,公式如下:
zs=concatenate(es:hs:ts)
zo=concatenate(eo:ho:to)
最后将联合向量通过双线性函数和sigmoid激活计算实体关系r的概率,公式如下:
其中是Wr权重矩阵,br为偏置,σ为激活函数(如ReLU)。
本发明使用二元交叉熵损失进行训练,在推理过程中,调整全局阈值θ来最大化测试集上的评估指标(F1分数),如果P(r|zs,zo)>θ则返回r 作为关联关系,如果不存在关系则返回NA。
优选地,在步骤S5中,关系抽取分类器输出对实体预测的标签分布 P(r|zs,zo),其范围是(0,1)。对于关系抽取这类多分类任务,可以将PR曲线中最优F1分数时对应的标签分数作为全局阈值,模型在实际推理时,若标签分布中概率最大值超过全局阈值则实体对预测为关系r,否则模型预测实体对之间没有关系并输出NA类别。
然而,由于训练数据中不同关系类别的实例数量不同以及不同实体对间的差异,全局阈值不能最大程度的发挥分类器的性能。使用自适应阈值方法获得一个可学习的阈值来代替全局阈值,从而减少推理过程中的决策错误。
将实体对T=(es,eo)的标签分成两个子集:正类PT和负类NT,定义如下:
其中R=RP+RN,R为关系类别集合。
本发明定义了阈值类TH。如果实体对被正确分类,正面类别标签的得分应高于阈值,而负面类别标签的得分应低于阈值。
为了训练模型,需要一个特殊的损失函数来考虑TH类。在交叉熵损失的基础上设计了自适应阈值损失。损失函数分为两部分,公式如下:
L=L1+L2
第一部分将关系分类转换为正类和TH类的比较。若模型将正类错误预测为TH类,L1损失将变大,否则L1变小。如果实体间没有正类标签,则L1为0;第二部分将关系分类转换为负类和TH类的比较。若模型将TH类错误预测为负类,L2损失将变大,否则L2变小。模型的目标是最小化损失函数L,使正类分数高于TH类,负类分数低于TH类。
优选地,在步骤S6中,在测试时,将分数高于TH类的类作为正类返回,如果不存在这样的类则返回NA。这个阈值类学习了一个依赖于实体的阈值,因此不需要在开发集上调整阈值。
本发明还提出一种基于实体自注意力文档关系抽取的知识图谱构建装置,所述装置包括:
数据获取模块,用于从互联网中利用爬虫技术获取数据,包括例如医学文献、科普文章和医生回答等,这些数据不能通过简单的规则提取知识,需要借助深度学习技术自动从数据中抽取出医疗实体三元组。由于这些数据往往是一个段落而非单句,所以需要使用文档级别关系抽取模型提取实体三元组。
数据标注模块,用于对获取的非结构化数据进行手工标注,标注内容包括实体及其类型和实体对间的语义关系。标注后的数据用于训练命名实体识别模型和文档级别关系抽取模型。
命名实体识别模块,用于根据训练集训练命名实体识别模型。
文档级别关系抽取模块,用于根据训练集训练关系抽取模型。
三元组抽取模块,用于将训练好的命名实体识别模型和关系抽取模型从未标注的非结构化文本中抽取实体三元组。
知识图谱构建模块,用于将抽取的三元组存储在Neo4j图数据库中来实现知识图谱的构建,并将知识图谱可视化展示。
与现有技术相比,本发明的有益效果是:
本发明还提出一种基于实体自注意力文档关系抽取的知识图谱构建方法和装置,编码模块利用Bert将文本数据编码为向量,实体推理模块实现实体之间的信息传播,自适应阈值模块负责学习各类别的分类阈值,分类模块利用自适应阈值模块输出两个实体间的语义关系;针对现有模型较多依赖句法依存分析树构建文档,导致NLP工具产生的错误向后传播的问题,利用Bert 模型中的自注意力机制构建实体文档图,使模型能够动态的调整文档图中实体间的权重依赖,从而增加相关信息的传播,降低无关信息的干扰;为了降低全局阈值造成模型决策失误的影响,利用自适应阈值策略学习可变阈值,最终提高了文档级别关系抽取模型的性能;在此模型基础上构建知识覆盖范围更广,质量更高的知识图谱。
附图说明
图1表示本发明实施例1中提出的基于实体自注意力文档关系抽取的知识图谱构建方法的模型结构示意图;
图2表示本发明实施例2中提出的基于实体自注意力文档关系抽取的知识图谱构建装置的流程示意图;
图3表示本发明实施例2中提出的基于实体自注意力文档关系抽取的知识图谱构建装置的知识图谱示意图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:一种基于实体自注意力文档关系抽取(Document level relationextraction network based on entity self-attention,ESAN)的知识图谱构建方法的验证。
1、实验方法
ESAN模型整体结构见图1。
优选地,在步骤S2中,对于给定的文档D={di}(i=1,2,3…n),为了让模型更多的关注实体信息,在所有提及实体的开头和结尾处插入特殊符号“*”以凸显实体,并将文档D按照BERT词表转化为W={wi}。然后采用预训练语言模型BERT对文档D进行编码,得到融合上下文信息的词向量表示 H={hi}(i=1,2,3…n),公式如下:
H=BERT(wi)
把提及实体前的特殊符号“*”的词向量表示作为提及实体的词向量表示m。由于一个实体可能在文档的多个位置出现,本发明使用平滑的最大池化来整合一个实体的多个提及实体的向量表示,从而获得实体的向量表示e,公式如下:
优选地,在步骤S3中,在使用预训练语言模型BERT对文档进行编码时,多头自注意力模块已经进行过自注意力计算,本发明把最后一层自注意力权重矩阵中提及实体前的特殊符号“*”部分作为提及实体间的权重。一个实体对其他实体的权重等于该实体所有提及实体权重的平均,公式如下:
其中N为当前实体包含提及实体的个数。然后将所有实体权重a拼接,得邻接矩阵A,公式如下:
A=[a1:a2…:aN]
优选地,在步骤S4中,实体类型在实体对分类中起到十分重要的作用,实体类型可以帮助明确实体间关系类别的范围,降低被错误分类的风险。例如“人物”与“企业/机构/组织”之间的关系可能是“创始人”或“所属机构”,而不可能是“儿子”或“成立时间”等关系。本发明随机初始化一个权重矩阵T用来表示实体类型的嵌入表示,然后使用独热编码p表示实体类型,则某个实体类型的向量表示t,公式如下:
t=pT
给定由图卷积神经网络计算的实体对推理向量表示(hs,ho),实体对原始向量(es,eo),其中s表示头实体,o表示尾实体。与第三章隐式利用实体类型信息方式不同的是,本发明实验将原始向量、推理向量和实体类型向量拼接得到联合向量z,公式如下:
zs=concatenate(es:hs:ts)
zo=concatenate(eo:ho:to)
最后将联合向量通过双线性函数和sigmoid激活计算实体关系r的概率,公式如下:。
其中是Wr权重矩阵,br为偏置,σ为激活函数(如ReLU)。
本发明使用二元交叉熵损失进行训练,在推理过程中,调整全局阈值θ来最大化测试集上的评估指标(F1分数),如果P(r|zs,zo)>θ则返回r 作为关联关系,如果不存在关系则返回NA。
优选地,在步骤S5中,关系抽取分类器输出对实体预测的标签分布 P(r|zs,zo),其范围是(0,1)。对于关系抽取这类多分类任务,可以将PR曲线中最优F1分数时对应的标签分数作为全局阈值,模型在实际推理时,若标签分布中概率最大值超过全局阈值则实体对预测为关系r,否则模型预测实体对之间没有关系并输出NA类别。
然而,由于训练数据中不同关系类别的实例数量不同以及不同实体对间的差异,全局阈值不能最大程度的发挥分类器的性能。使用自适应阈值方法获得一个可学习的阈值来代替全局阈值,从而减少推理过程中的决策错误。
将实体对T=(es,eo)的标签分成两个子集:正类PT和负类NT,定义如下:
其中R=RP+RN,R为关系类别集合。
本发明定义了阈值类TH。如果实体对被正确分类,正面类别标签的得分应高于阈值,而负面类别标签的得分应低于阈值。
为了训练模型,需要一个特殊的损失函数来考虑TH类。在交叉熵损失的基础上设计了自适应阈值损失。损失函数分为两部分,公式如下:
L=L1+L2
第一部分将关系分类转换为正类和TH类的比较。若模型将正类错误预测为TH类,L1损失将变大,否则L1变小。如果实体间没有正类标签,则L1为0;第二部分将关系分类转换为负类和TH类的比较。若模型将TH类错误预测为负类,L2损失将变大,否则L2变小。模型的目标是最小化损失函数L,使正类分数高于TH类,负类分数低于TH类。
优选地,在步骤S6中,在测试时,将分数高于TH类的类作为正类返回,如果不存在这样的类则返回NA。这个阈值类学习了一个依赖于实体的阈值,因此不需要在开发集上调整阈值。
2、实验结果
实验采用HacRED数据集对模型进行评估。HacRED数据集来自 CN-DBpedia,是最大的中文文档级别关系抽取数据集,分为训练集、开发集和测试集,分别包含6231,1500和1500个实例,共9231个文档和65255个实体关系实例,26个预定义关系和9种类型的实体,其数据质量F1分数达到了96%。HacRED数据集的关系类别分布较为平衡,前20%的关系类别占总体实例的49.96%。HacRED数据集为了降低实验与实际应用表现不一致问题,包含丰富的困难案例,促使模型在实际困难场景中更加健壮。
为评估本发明提出ESAN模型的性能,选取四种已发表方法作为对照,实验结果见表1,表1表示本发明实施例1中提出的基于实体自注意力文档关系抽取的知识图谱构建方法的主要结果表。
表1各模型在HacRED上的表现
为了进一步验证基于自注意力构建实体文档图优于基于依存分析树构建文档图,本发明进行如下实验,实验结果见表2,表2表示本发明实施例1中提出的基于实体自注意力文档关系抽取的知识图谱构建方法的对比实验表。
表2对比模型在HacRED数据集的表现
利用最短依赖路径在句法依存分析树中提取各个实体间的词语,将这些词语与各个实体的提及实体作为文档图中的节点,节点之间的权重保持相同,模型的其他部分与ESAN保持一致,将此模型记作SDN(Syntactic Dependency Network)。使用Bert的实体自注意力矩阵作为SDN模型中文档图的邻接矩阵的权重,将此模型记作SDAN(SyntacticDependency Attention Network)。
为了验证本发明中提出的实体自注意力构建文档图方法和显式利用实体类型信息方法的有效性,进行了消融实验分析,见表3。其中“ESAN-实体注意力”为模型去除实体自注意力模块,使文档图中各节点权重依赖保持一致,“ESAN隐式实体类型”为在编码隐式的利用实体类型信息。
表3表示本发明实施例1中提出的基于实体自注意力文档关系抽取的知识图谱构建方法的消融实验表。
表3 ESAN在HacRED上的消融研究
3、结论
通过在公开数据集HacRED上与其他模型的比较实验、关于构建文档图的方式的对比实验以及消融实验,证明了本发明提出使用自注意力构建文档图方法的有效性,并在HacRED上获得了最高的F1分数,达到了79.46%。
实施例2:一种基于实体自注意力文档关系抽取的知识图谱构建装置。
1、实验方法
医疗网站中的半结构化数据能按照一定规则抽取为三元组结构化知识,但是互联网中的数据更多是以非结构化的方式存在,例如医学文献、科普文章和医生回答等,这些数据不能通过简单的规则提取知识,需要借助深度学习技术自动从数据中抽取出医疗实体三元组。知识图谱构建流程示意图图见图2。
爬虫获取的非结构化文本中医疗相关实体信息并没有标记出来,所以需要人工对文本进行标注,然后使用已标注的数据集训练深度学习模型,使其能够自动地识别医疗实体。互联网中非结构化医疗数据的特点是以段落为单位,而不是一个单句,并且涉及多个实体,所以单句关系抽取并不适用,本发明采用第四章文档级别关系抽取算法ESAN提取文本中的实体关系三元组。
数据标注,通过专业的医疗网站的知识框架,将医疗实体分为七类,分别是疾病、科室、治疗方法、检查方法、症状、部位、药物。
根据医疗实体之间的关系,将医疗实体之间的关系分为八类,分别是发病部位、并发症、同义词、临床表现、治疗方法、检查方法、就诊科室、治疗药物。
数据标记采用BIOSE序列标记方法进行标注。
医疗实体识别,用基于BILSTM-CNN-CRF网络结构作为命名实体识别模型。该模型具备CNN获取局部语义、BILSTM获取双向上下文语义信息、以及使用条件随机场对实体标记进行约束等优点。
将文本送入模型前需要根据命名实体识别任务,对数据进行预处理,以获得命名实体识别任务所需的实体标记。对数据“通过症状和用药考虑视疲劳和干眼,可以用七叶洋地黄双苷滴眼液缓解疲劳,热敷,口服复明片,明目。”进行预处理,得到标记“O O O O O OO O O B-SYM I-SYM E-SYM O B-DIS E-DIS O O O O B-DRU I-DRU I-DRU I-DRU I-DRUI-DRU I-DRU I-DRU I-DRU E-DRU O O O O O O O O O O B-DRU I-DRU E-DRU O O O O”,即医疗实体识别任务的训练标签。
模型的输入层只使用预先训练好的词向量,不使用任何人工特征。编码层首先使用CNN获取单词的本地上下文语义,然后使用BiLSTM从两个方向对单词的上下文信息进行建模。解码时,使用条件随机场层通过标签之间的依赖关系来搜索最佳标签序列。例如,表示药物中间的标签I-DRU不能出现在表示疾病中间的标签B-DIS前面。
文档级别关系抽取,使用ESAN模型进行关系抽取,模型的输入层为一段文本中字对应此表的id、文本中各个实体的起始位置和其对应的实体类型以及各个实体间的语义关系。
模型的编码层使用Bert获取字的向量化表示,并根据实体的位置信息使用加和平均的方法获取各个实体的原始向量化表示以及从Bert最后一层的自注意力矩阵中抽取实体自注意力矩阵。
模型的推理层利用实体的向量表示以及实体自注意力矩阵构建实体文档图,然后使用图卷积神经网络进行实体间的信息传播获得实体推理向量表示。
模型的分类输出层将实体原始向量表示、实体推理向量表示和实体类型向量表示拼接送入双线性函数和sigmoid函数获得最终任意两个实体间的关系类别。
2、实验结果
结果表明,获得一个训练好的医疗实体识别模型和一个医疗关系抽取模型,两个模型以串行的方式从未标注的文本中提取医疗实体三元组。同时,医疗实体识别模型也可以作为自动问答系统的用户问句语义解析模块,从自言语言形式的问题中抽取出关键医疗试题信息,以支持从知识图谱中查询用户问题的相关答案。
3、结论
综上所述,基于实体自注意力文档关系抽取方法构建知识图谱能够获得质量更好的知识图谱,示例见图3。
综上所述,仅为本发明的较佳实施例而已,并非用来限定本发明实施的范围,凡依本发明权利要求范围所述的形状、构造、特征及精神所为的均等变化与修饰,均应包括于本发明的权利要求范围内。
Claims (7)
1.一种基于文档关系抽取的知识图谱构建方法,其特征在于:包括如下步骤:
S1:基于实体自注意力的文档级别关系抽取模型分为编码模块、实体推理模块、自适应阈值模块和分类模块;
S2:编码模块利用Bert将文本数据编码为向量,并提取实体向量;
S3:实体推理模块实现实体之间的信息传播;
S4:自适应阈值模块负责学习各类别的分类阈值;
S5:分类模块利用自适应阈值模块输出两个实体间的语义关系;
S6:从测试集中选定文档,从文档中提取待预测实体对,通过训练好的模型预测实体对的关系得到实体关系三元组。
2.根据权利要求1所述的一种基于文档关系抽取的知识图谱构建方法,其特征在于:在文档中所有提及实体的开头和结尾处插入特殊符号“*”以凸显实体,并将文档按照BERT词表转化,然后采用BERT对文档进行编码,将提及实体前的特殊符号“*”的词向量表示作为提及实体的词向量表示,使用平滑的最大池化来整合一个实体的多个提及实体的向量表示。
3.根据权利要求2所述的一种基于文档关系抽取的知识图谱构建方法,其特征在于:利用BERT最后一层自注意力权重矩阵构建文档图的邻接权重矩阵,使用图卷积神经网络聚合邻居信息来获得实体间的多跳推理信息。
4.根据权利要求3所述的一种基于文档关系抽取的知识图谱构建方法,其特征在于:将原始向量、推理向量和实体类型向量拼接得到联合向量,然后,将联合向量通过双线性函数和sigmoid激活计算实体关系的概率。
5.根据权利要求4所述的一种基于文档关系抽取的知识图谱构建方法,其特征在于:为了训练模型,使用需要一个特殊的损失函数来学习自适应阈值,降低模型使用全局阈值时的决策失误。
6.根据权利要求5所述的一种基于文档关系抽取的知识图谱构建方法,其特征在于:为了验证模型的有效性,在公开数据集HacRED上进行了与其他模型的对比实验,利用训练集训练模型,在测试阶段,从测试集中选定文档,并抽取其中的实体,使用模型预测各个实体之间的语义关系,若待预测的实体对的某个类别的分数高于阈值,则判定当前实体对的语义关系为该类别,若不存在高于阈值的类别,则判断两个实体之间没有语义关系,输出为None。
7.一种基于文档关系抽取的知识图谱构建装置,其特征在于:所述装置包括:
数据获取模块,用于从互联网中利用爬虫技术获取数据,包括例如医学文献、科普文章和医生回答等,这些数据不能通过简单的规则提取知识,需要借助深度学习技术自动从数据中抽取出医疗实体三元组。由于这些数据往往是一个段落而非单句,所以需要使用文档级别关系抽取模型提取实体三元组;
数据标注模块,用于对获取的非结构化数据进行手工标注,标注内容包括实体及其类型和实体对间的语义关系,标注后的数据用于训练命名实体识别模型和文档级别关系抽取模型;
命名实体识别模块,用于根据训练集训练命名实体识别模型;
文档级别关系抽取模块,用于根据训练集训练关系抽取模型;
三元组抽取模块,用于将训练好的命名实体识别模型和关系抽取模型从未标注的非结构化文本中抽取实体三元组;
知识图谱构建模块,用于将抽取的三元组存储在Neo4j图数据库中来实现知识图谱的构建,并将知识图谱可视化展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210470762.2A CN115269857A (zh) | 2022-04-28 | 2022-04-28 | 一种基于文档关系抽取的知识图谱构建方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210470762.2A CN115269857A (zh) | 2022-04-28 | 2022-04-28 | 一种基于文档关系抽取的知识图谱构建方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115269857A true CN115269857A (zh) | 2022-11-01 |
Family
ID=83759711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210470762.2A Pending CN115269857A (zh) | 2022-04-28 | 2022-04-28 | 一种基于文档关系抽取的知识图谱构建方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115269857A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069951A (zh) * | 2023-02-28 | 2023-05-05 | 华中科技大学 | 一种施工工人安全知识抽取和知识图谱构建方法 |
CN116226408A (zh) * | 2023-03-27 | 2023-06-06 | 中国科学院空天信息创新研究院 | 农产品生长环境知识图谱构建方法及装置、存储介质 |
CN116340530A (zh) * | 2023-02-17 | 2023-06-27 | 江苏科技大学 | 基于机械知识图谱的智能设计方法 |
CN116431757A (zh) * | 2023-06-13 | 2023-07-14 | 中国人民公安大学 | 基于主动学习的文本关系抽取方法、电子设备及存储介质 |
CN116484010A (zh) * | 2023-03-15 | 2023-07-25 | 北京擎盾信息科技有限公司 | 知识图谱构建方法、装置、存储介质及电子装置 |
CN116521888A (zh) * | 2023-03-20 | 2023-08-01 | 麦博(上海)健康科技有限公司 | 一种基于DocRE模型进行医疗长文档跨句关系抽取方法 |
CN116611813A (zh) * | 2023-05-08 | 2023-08-18 | 武汉人云智物科技有限公司 | 一种基于知识图谱的智能运维管理方法及系统 |
CN116975256A (zh) * | 2023-07-28 | 2023-10-31 | 三峡大学 | 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 |
CN117151117A (zh) * | 2023-10-30 | 2023-12-01 | 国网浙江省电力有限公司营销服务中心 | 电网轻量级非结构化文档内容自动识别方法、装置及介质 |
CN117194682A (zh) * | 2023-11-07 | 2023-12-08 | 国网浙江省电力有限公司营销服务中心 | 构建基于电网相关文件的知识图谱的方法、装置及介质 |
CN117633245A (zh) * | 2023-11-24 | 2024-03-01 | 重庆赛力斯新能源汽车设计院有限公司 | 知识图谱构建方法、装置、电子设备及存储介质 |
-
2022
- 2022-04-28 CN CN202210470762.2A patent/CN115269857A/zh active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116340530A (zh) * | 2023-02-17 | 2023-06-27 | 江苏科技大学 | 基于机械知识图谱的智能设计方法 |
CN116069951A (zh) * | 2023-02-28 | 2023-05-05 | 华中科技大学 | 一种施工工人安全知识抽取和知识图谱构建方法 |
CN116484010A (zh) * | 2023-03-15 | 2023-07-25 | 北京擎盾信息科技有限公司 | 知识图谱构建方法、装置、存储介质及电子装置 |
CN116484010B (zh) * | 2023-03-15 | 2024-01-16 | 北京擎盾信息科技有限公司 | 知识图谱构建方法、装置、存储介质及电子装置 |
CN116521888A (zh) * | 2023-03-20 | 2023-08-01 | 麦博(上海)健康科技有限公司 | 一种基于DocRE模型进行医疗长文档跨句关系抽取方法 |
CN116226408B (zh) * | 2023-03-27 | 2023-12-19 | 中国科学院空天信息创新研究院 | 农产品生长环境知识图谱构建方法及装置、存储介质 |
CN116226408A (zh) * | 2023-03-27 | 2023-06-06 | 中国科学院空天信息创新研究院 | 农产品生长环境知识图谱构建方法及装置、存储介质 |
CN116611813A (zh) * | 2023-05-08 | 2023-08-18 | 武汉人云智物科技有限公司 | 一种基于知识图谱的智能运维管理方法及系统 |
CN116611813B (zh) * | 2023-05-08 | 2024-03-29 | 武汉人云智物科技有限公司 | 一种基于知识图谱的智能运维管理方法及系统 |
CN116431757A (zh) * | 2023-06-13 | 2023-07-14 | 中国人民公安大学 | 基于主动学习的文本关系抽取方法、电子设备及存储介质 |
CN116431757B (zh) * | 2023-06-13 | 2023-08-25 | 中国人民公安大学 | 基于主动学习的文本关系抽取方法、电子设备及存储介质 |
CN116975256A (zh) * | 2023-07-28 | 2023-10-31 | 三峡大学 | 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 |
CN116975256B (zh) * | 2023-07-28 | 2024-01-16 | 三峡大学 | 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 |
CN117151117B (zh) * | 2023-10-30 | 2024-03-01 | 国网浙江省电力有限公司营销服务中心 | 电网轻量级非结构化文档内容自动识别方法、装置及介质 |
CN117151117A (zh) * | 2023-10-30 | 2023-12-01 | 国网浙江省电力有限公司营销服务中心 | 电网轻量级非结构化文档内容自动识别方法、装置及介质 |
CN117194682A (zh) * | 2023-11-07 | 2023-12-08 | 国网浙江省电力有限公司营销服务中心 | 构建基于电网相关文件的知识图谱的方法、装置及介质 |
CN117194682B (zh) * | 2023-11-07 | 2024-03-01 | 国网浙江省电力有限公司营销服务中心 | 构建基于电网相关文件的知识图谱的方法、装置及介质 |
CN117633245A (zh) * | 2023-11-24 | 2024-03-01 | 重庆赛力斯新能源汽车设计院有限公司 | 知识图谱构建方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115269857A (zh) | 一种基于文档关系抽取的知识图谱构建方法和装置 | |
Li et al. | Knowledge-oriented convolutional neural network for causal relation extraction from natural language texts | |
CN112131393B (zh) | 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法 | |
US11893345B2 (en) | Inducing rich interaction structures between words for document-level event argument extraction | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
CN112989005B (zh) | 一种基于分阶段查询的知识图谱常识问答方法及系统 | |
US20220050967A1 (en) | Extracting definitions from documents utilizing definition-labeling-dependent machine learning background | |
CN110866124B (zh) | 基于多数据源的医学知识图谱融合方法及装置 | |
CN109558492A (zh) | 一种适于事件归因的上市公司知识图谱构建方法及装置 | |
CN111914556B (zh) | 基于情感语义转移图谱的情感引导方法及系统 | |
CN113254610A (zh) | 面向专利咨询的多轮对话生成方法 | |
CN114077673B (zh) | 一种基于btbc模型的知识图谱构建方法 | |
CN114781651B (zh) | 基于对比学习的小样本学习鲁棒性提升方法 | |
CN114969278A (zh) | 一种基于知识增强图神经网络的文本问答模型 | |
CN111695341A (zh) | 一种基于篇章结构图卷积的隐式篇章关系分析方法和系统 | |
CN112905736B (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN112632250A (zh) | 一种多文档场景下问答方法及系统 | |
CN116340544B (zh) | 一种基于知识图谱的中医药古籍可视分析方法与系统 | |
CN117648429A (zh) | 基于多模态自适应检索式增强大模型的问答方法及系统 | |
CN112784576B (zh) | 一种文本依存句法分析方法 | |
CN117556004A (zh) | 一种基于食品工程的知识问答方法、装置及存储介质 | |
CN117077655A (zh) | 基于情感知识增强的方面级情感三元组提取方法及系统 | |
Kaliyar et al. | Understanding the use and abuse of social media: Generalized fake news detection with a multichannel deep neural network | |
CN116432637A (zh) | 一种基于强化学习的多粒度抽取-生成混合式文摘方法 | |
CN112131372A (zh) | 基于知识驱动的对话策略网络优化方法、系统、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |