CN113553440B - 一种基于层次推理的医学实体关系抽取方法 - Google Patents
一种基于层次推理的医学实体关系抽取方法 Download PDFInfo
- Publication number
- CN113553440B CN113553440B CN202110709798.7A CN202110709798A CN113553440B CN 113553440 B CN113553440 B CN 113553440B CN 202110709798 A CN202110709798 A CN 202110709798A CN 113553440 B CN113553440 B CN 113553440B
- Authority
- CN
- China
- Prior art keywords
- entity
- layer
- sentence
- information
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 81
- 206010035664 Pneumonia Diseases 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 64
- 230000006870 function Effects 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 15
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000005012 migration Effects 0.000 claims description 4
- 238000013508 migration Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 235000019580 granularity Nutrition 0.000 abstract description 7
- 208000025721 COVID-19 Diseases 0.000 abstract description 5
- 238000011160 research Methods 0.000 abstract description 5
- 230000002265 prevention Effects 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 6
- 201000010099 disease Diseases 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 208000024891 symptom Diseases 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000010339 dilation Effects 0.000 description 4
- 206010037660 Pyrexia Diseases 0.000 description 2
- 208000029078 coronary artery disease Diseases 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 208000019693 Lung disease Diseases 0.000 description 1
- 101710105142 Subtilisin-like protease 2 Proteins 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- FGJIDQWRRLDGDB-CPIXEKRISA-N manoalide Chemical compound C=1([C@@H](O[C@H](CC=1)C=1[C@@H](OC(=O)C=1)O)O)CC\C=C(/C)CCC1=C(C)CCCC1(C)C FGJIDQWRRLDGDB-CPIXEKRISA-N 0.000 description 1
- FGJIDQWRRLDGDB-GMKZXUHWSA-N manoalide Natural products CC(=CCCC1=CC[C@@H](O[C@H]1O)C2=CC(=O)O[C@H]2O)CCC3=C(C)CCCC3(C)C FGJIDQWRRLDGDB-GMKZXUHWSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明提供了一种基于层次推理的医学实体关系抽取方法,是通过基于层次推理的实体关系抽取模型来提取新冠肺炎相关实体关系三元组的方法,首先,利用远程监督将已有知识库与相关文献进行对齐,构建了COVID‑19实体关系抽取数据集;然后,基于门控卷积和膨胀卷积,构建了从不同维度来提取上下文信息的特征提取器;最终,基于层次推理机制,利用不同粒度的文档信息来对文本进行实体关系抽取,提升了文档级实体关系抽取模型的准确率。本发明的有益效果是:抽取新冠肺炎相关数据的实体关系,可以为后续研究任务如知识图谱、问答系统等提供基础,为进一步对新冠肺炎的防治工作提供基础。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及文档级关系抽取,尤其涉及一种基于层次推理的医学实体关系抽取方法。
背景技术
文档级关系抽取的方法,基本上可以分为两大类:基于序列的模型和基于图的模型。基于序列的模型利用神经网络来层次化建模实体、句子和文档信息从而推理出文档中的实体关系,而基于图的模型则利用图的思想来对文档中的语义信息进行重新建模,如何更加高效地构建基于文档的图网络以及如何对图网络进行推理是该类方法提升的关键。
然而现有技术的方法,由于没有很好地融合文本中信息从而导致抽取效果不佳。
发明内容
本发明提出一种基于层次推理的医学实体关系抽取方法,用于解决或者至少部分解决现有技术中由于没有很好地融合文本中信息从而导致抽取效果不佳的技术问题。
为了解决上述技术问题,本发明提供了一种基于层次推理的医学实体关系抽取方法,包括:
S1:获取训练语料,训练语料为医学数据集;
S2:构建实体关系抽取模型,实体关系抽取模型包括嵌入模块、特征提取模块、实体层推理模块、句子层推理模块、文档层推理模块以及关系分类模块,其中,嵌入模块用于分别获取输入文本的句子层嵌入表示和实体层嵌入表示,特征提取模块用于采用门控膨胀卷积网络进行特征特征提取,实体层推理模块用于融合实体信息、实体类型信息和共指信息对实体进行表示,将双线性变换和迁移约束应用在多个子空间的目标实体对获得实体层推理信息,句子层推理模块用于引入注意力机制来计算每个句子所提供的信息量权重,将句子的单词表示形式进行融合得到句子向量,然后融合实体层推理信息得到句子层推理信息,文档层推理模块用于在句子层推理信息的基础上构建一个门控膨胀卷积网络,并引入注意力机制得到文档层推理信息,关系分类模块用于将实体层推理信息与文档层推理信息进行融合,得到实体关系的类别;
S3:利用获取的训练语料对实体关系抽取模型进行训练,使用交叉熵作为损失函数,利用Adam优化器来更新模型的参数,得到训练好的实体关系抽取模型;
S4:利用训练好的实体关系抽取模型对输入文本的实体关系进行抽取。
在一种实施方式中,步骤S1包括:
S1.1:构建以新冠肺炎疾病为中心的实体关系类型体系;
S1.2:爬取新冠肺炎相关文献语料;
S1.3:利用医学知识库中的三元组与新冠肺炎语料进行实体对齐;
S1.4:利用基于双数组字典树的方法对实体对齐后的语料进行自动标注,得到新冠肺炎实体关系抽取语料库,将其作为训练语料。
在一种实施方式中,步骤S2中嵌入模块,采用预训练模型BioBERT得到具有上下文信息的词向量表示,词向量表示与位置特征表示作为句子层嵌入表示,利用Glove得到包含实体信息和实体类型信息的实体类型向量和包含共指信息的共指向量,作为实体层嵌入表示。
在一种实施方式中,步骤S2中句子层推理模块的处理过程包括:
将词向量表示与位置特征表示结合输入到特征提取模块中,得到隐藏层的特征向量表示其中,hjt表示第j个句子中的第t个单词的隐藏层的特征向量,DGConv表示特征提取模块中门控膨胀卷积神经网络的运算过程,wjt表示第j个句子中的第t个单词的词向量,与分别为头实体与尾实体的位置向量特征表示;
根据单词与目标实体的相关性获得单词的权重,计算公式为:
其中,exp表示以e为底的指数函数,αjt表示多层感知器的输出,下方分母的含义为对整句中所有词向量的MLP输出的以e为底的指数函数结果求和;
通过将单词的隐层向量加权求和得到句子向量Sj,
Sj=∑tαjthjt
上式中,右侧表示对整句中所有词向量的权重与隐藏层向量的乘积求和。
在一种实施方式中,门控膨胀卷积网络的膨胀卷积的形式化公式为:
其中,f为输入,w为卷积核,t为卷积核的大小,p为卷积的下限值,q为卷积的上限值,l为膨胀率,左侧公式(f*lw)[t]为f与w的膨胀率为l的卷积,右侧为该膨胀卷积的标准展开形式,f[t-l*p]是第t-l*p个输入值,w[p]是卷积核大小为p时的值。
在一种实施方式中,关系分类模块中,采用sigmoid函数计算每个关系的概率,计算公式如下:
其中Wr和br分别为线性变换的权重矩阵和偏差,Ie和Id分别为实体层推理信息与文档层推理信息,表示权重矩阵与Ie和Id上下拼接组成的向量做矩阵相乘,然后再加上偏差br后得到的结果作为sigmoid函数的输入,右侧的整个结果为计算得到的头实体wh与尾实体wt的关系为r的概率P(r|wh,wt)。
在一种实施方式中,交叉熵用以度量预测值与真实标签的差异性,并将其作为损失函数来计算模型损失,损失函数为:
其中n是样本个数,yr∈{0,1}是标签为r的真值,pr是标签为r的预测值,右侧公式的前两项即为预测概率为pr、真值为yr时的交叉熵损失函数,另外,右侧第三项是L2正则化项:在对模型进行训练时,引入L2正则化来避免模型出现过拟合的情况,其中λ为正则项超参数,w为各层网络的权重值矩阵,n为样本个数。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的基于层次推理的医学实体关系抽取方法,构建了基于层次推理的实体关系抽取模型,可以从不同维度来提取上下文信息,并分别从不同粒度进行文档信息的提取,通过实体层推理模块于融合实体信息和共指信息对实体进行表示,将双线性变换和迁移约束应用在多个子空间的目标实体对获得实体层推理信息,句子层推理模块引入注意力机制来计算每个句子所提供的信息量权重,将句子的单词表示形式进行融合得到句子向量,然后融合实体层推理信息得到句子层推理信息,文档层推理模块在句子层推理信息的基础上构建一个门控膨胀卷积网络,并引入注意力机制得到文档层推理信息,关系分类模块用于将实体层推理信息与文档层推理信息进行融合,得到实体关系的类别;从而改善了实体抽取效果,提升了文档级实体关系抽取模型的准确率。在具体应用中,可以为后续研究任务如知识图谱、问答系统等提供基础,为进一步对新冠肺炎的防治工作提供基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于层次推理的实体关系抽取方法的整体框架图;
图2为本发明实施例中基于层次推理的实体关系抽取方法工作流程图;
图3为本发明实施例中基于层次推理的实体关系抽取模型的工作流程图;
图4为本发明实施例中膨胀卷积的特征提取过程示意图;
图5为本发明实施例中引入门控单元与残差结构后的膨胀卷积特征提取过程示意图;
图6为本发明实施例中基于Attention的句子级表示;
图7为本发明实施例中基于上下文感知的文档级推理信息表示。
具体实施方式
本发明提供了一种基于层次推理的医学实体关系抽取方法,用以改善现有技术中对于实体关系抽取效果不佳的技术问题。
本发明的主要构思如下:
第一:抽取训练语料。首先提出以新冠肺炎疾病为中心的实体关系类型,然后借鉴远程监督的思想,利用字典树算法将医学知识库中的三元组知识与无标注文本进行实体对齐来得到新冠肺炎实体关系抽取训练语料。
第二:基于层次推理和门控膨胀卷积的实体关系抽取方法。提出了基于门控膨胀卷积神经网络和上下文感知推理机制的实体关系抽取模型。首先,用基于门控膨胀卷积的特征提取方法,从多个维度同时对特征进行提取;其次,通过融合实体信息、实体类型信息与共指信息来对实体进行表示;最后,采用层次化的分析与联合推理的方法,将不同粒度的信息综合起来,来最终预测实体间关系。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于层次推理的实体关系抽取方法,包括:
S1:获取训练语料,训练语料为医学数据集;
S2:构建实体关系抽取模型,实体关系抽取模型包括嵌入模块、特征提取模块、实体层推理模块、句子层推理模块、文档层推理模块以及关系分类模块,其中,嵌入模块用于分别获取输入文本的句子层嵌入表示和实体层嵌入表示,特征提取模块用于采用门控膨胀卷积网络进行特征特征提取,实体层推理模块用于融合实体信息、实体类型信息和共指信息对实体进行表示,将双线性变换和迁移约束应用在多个子空间的目标实体对获得实体层推理信息,句子层推理模块用于引入注意力机制来计算每个句子所提供的信息量权重,将句子的单词表示形式进行融合得到句子向量,然后融合实体层推理信息得到句子层推理信息,文档层推理模块用于在句子层推理信息的基础上构建一个门控膨胀卷积网络,并引入注意力机制得到文档层推理信息,关系分类模块用于将实体层推理信息与文档层推理信息进行融合,得到实体关系的类别;
S3:利用获取的训练语料对实体关系抽取模型进行训练,使用交叉熵作为损失函数,利用Adam优化器来更新模型的参数,得到训练好的实体关系抽取模型;
S4:利用训练好的实体关系抽取模型对输入文本的实体关系进行抽取。
具体来说,图1为本发明实施例中基于层次推理的实体关系抽取方法的整体框架图;特征提取模块采用门控膨胀卷积网络进行不同粒度特征的提取。
在一种实施方式中,步骤S1包括:
S1.1:构建以新冠肺炎疾病为中心的实体关系类型体系;
S1.2:爬取新冠肺炎相关文献语料;
S1.3:利用医学知识库中的三元组与新冠肺炎语料进行实体对齐;
S1.4:利用基于双数组字典树的方法对实体对齐后的语料进行自动标注,得到新冠肺炎实体关系抽取语料库,将其作为训练语料。
具体实施过程中,本发明首先提出以新冠肺炎疾病为中心的实体关系类型,然后将医学知识库中的三元组知识与无标注文本进行实体对齐来得到新冠肺炎实体关系抽取训练语料。
现有的公开医疗知识库中不包含与新冠肺疾病的相关症状、诊断方式与治疗方式。因此归纳整理了与新冠肺炎相关的症状实体、诊断实体、治疗实体。其中,CTD知识库中有标注的存在治疗关系的疾病实体与化学药物实体三元组,因此将其归类为治疗(疾病-治疗)关系,但是疾病不仅仅与药物之间存在治疗关系,与治疗方式也存在“疾病-治疗”关系,因此归纳总结了新冠肺炎疾病的治疗方式,并将其归类在“疾病-治疗”关系中。
考虑文献语料为英文,并且由于不同的实体在不同的研究文献中会有不同的表达方式,因此利用医学词典、MESH等工具收集整理了新冠肺炎疾病相关实体的同义词表达,为后续的标注工作做准备。
基于远程监督的思想,用医学知识库CTD中的三元组与无标注的新冠肺炎文献文本进行实体对齐。同样基于远程监督的假设,为了提高语料自动标注的效率,减少资源消耗,利用基于双数组字典树的方法对语料库进行自动标注,然后可以通过预训练模型BioBERT得到具有上下文信息的词向量表示。
图1中,左上方方框对应步骤S2~S3,得到了训练好的实体关系抽取模型,左下方方框对应步骤S1,具体为训练语料的获取。右方方框对应步骤S4为模型的具体应用。
图2则从数据集(训练集)构建和实体关系抽取两方面对基于层次图例的实体关系抽取流程进行了介绍。
图3为本发明实施例中基于层次推理的实体关系抽取模型的工作流程图,整体来说,首先,从多个维度同时对特征进行提取(句子层和实体层);其次,通过融合实体信息、实体类型信息与共指信息来对实体进行表示;最后,将不同粒度的信息综合起来,来最终预测实体间关系。
其中,实体层推理模块中,实体信息包括:manoalide、maytenonic acid等、实体类型信息包括疾病、症状等,共指信息包括COVID-19与Corona Virus Disease2019等。
在一种实施方式中,步骤S2中嵌入模块,采用预训练模型BioBERT得到具有上下文信息的词向量表示,词向量表示与位置特征表示作为句子层嵌入表示,利用Glove得到包含实体信息和实体类型信息的实体类型向量和包含共指信息的共指向量,作为实体层嵌入表示。
具体来说,嵌入层中,实体层嵌入用Glove模型为特征词模型,利用Glove得到实体类型向量、共指向量,与BioBERT模型预训练出的每个单词的词向量一起,拼接作为特征提取模块的输入。句子级嵌入主要分为词向量和位置向量的拼接。本申请发明人通过大量研究工作发现语料库文本中位置信息是有一定价值的,因此加入位置信息是一个有效的特征。对于包含n个单词的文本假设文本中字wi与实体对(头实体wh,尾实体wt)相对距离分别为例如句子“Fever is a common symptom of COVID-19.”中,单词“symptom”相对于实体对(Fever,COVID-19)的相对距离为(3,-1)。然后,随机化位置矩阵,将相对位置乘以位置矩阵就可以得到最终的位置向量。则最终的位置嵌入向量可以表示为:
在一种实施方式中,步骤S2中句子层推理模块的处理过程包括:
将词向量表示与位置特征表示结合输入到特征提取模块中,得到隐藏层的特征向量表示其中,hjt表示第j个句子中的第t个单词的隐藏层的特征向量,DGConv表示特征提取模块中门控膨胀卷积神经网络的运算过程,wjt表示第j个句子中的第t个单词的词向量,与分别为头实体与尾实体的位置向量特征表示;
根据单词与目标实体的相关性获得单词的权重,计算公式为:
其中,exp表示以e为底的指数函数,αjt表示多层感知器的输出,下方分母的含义为对整句中所有词向量的MLP输出的以e为底的指数函数结果求和;
通过将单词的隐层向量加权求和得到句子向量Sj,
Sj=∑tαjthjt
上式中,右侧表示对整句中所有词向量的权重与隐藏层向量的乘积求和。
具体来说,句子层推理模块:引入注意力机制来计算每个句子所提供的信息量(单词)权重,将这些单词表示形式进行融合得到句子向量,然后融合实体的推理信息得到句子级别的推理信息。在获取句子层次的推理信息时,首先对句子级特征进行注意力池化操作,使得模型能够为提供较高信息量的单词分配较高的权重,而为其他单词有选择地分配较低的权重。
如图6所示,对于句子级嵌入层,假设文本D中包含L句话,其中Wjt表示第j个句子中的第t个单词,结合位置特征输入到门控膨胀卷积神经网络特征提取器DGCNN中可以得到隐藏层的特征向量表示。
根据单词与目标实体的相关性获得单词的权重,即通过衡量“哪些单词与目标实体更具有相关性”来得到单词的不同权重。
在文档层推理模块中,首先在句子层推理信息Is的基础上构建了一个门控膨胀卷积网络,由于文档中不同的句子具有不同的信息性,为此再次引入了注意力机制,使得模型能够区分较为重要的句子级推理信息,从而得到文档级的推理信息Id。如图7所示是基于上下文感知的文档级推理信息表示。其具体的推理过程同句子级推理模块的过程相似,在此不再赘述。
在一种实施方式中,门控膨胀卷积网络的膨胀卷积的形式化公式为:
其中,f为输入,w为卷积核,t为卷积核的大小,p为卷积的下限值,q为卷积的上限值,l为膨胀率,左侧公式(f*lw)[t]为f与w的膨胀率为l的卷积,右侧为该膨胀卷积的标准展开形式,f[t-l*p]是第t-l*p个输入值,w[p]是卷积核大小为p时的值。
具体来说,在不增加模型参数的情况下,为了使得CNN模型能够捕捉到更远的距离信息,借鉴膨胀卷积的思想,本发明将其应用在对文本的特征提取过程中如图4所示。与传统卷积相反,膨胀卷积的内核中存在洞,洞的大小为膨胀率。
普通卷积神经网络在第三层时,每个节点只能捕捉到前后共6个输入,而在膨胀卷积在第三层时则能捕捉到前后14个输入。为了保证信息的完整性,膨胀卷积网络的底层不进行膨胀,上层按照指数增长来提高膨胀率,因此按照“尽量不重不漏”的原则。
为了获得更全局的信息,需要构建一个多层的膨胀卷积网络,然而随着层数的增加,会面临着梯度消失的问题,门控卷积的思想是设计一个带有门控单元的卷积神经网络,并将其封装成残差块进行堆叠,降低梯度消失的风险,从而保证整个网络可以被有效的更新。加上门控单元的卷积网络保证了提取的上下文特征具有时序性,而膨胀卷积可以获取长距离信息,增加模型感受野,引入门控单元与残差结构后的膨胀卷积特征提取过程如图5所示,I和O分别表示输入文本与特征输出,σ表示为sigmoid函数。
在一种实施方式中,关系分类模块中,采用sigmoid函数计算每个关系的概率,计算公式如下:
其中Wr和br分别为线性变换的权重矩阵和偏差,Ie和Id分别为实体层推理信息与文档层推理信息,表示权重矩阵与Ie和Id上下拼接组成的向量做矩阵相乘,然后再加上偏差br后得到的结果作为sigmoid函数的输入,右侧的整个结果为计算得到的头实体wh与尾实体wt的关系为r的概率P(r|wh,wt)。
具体来说,在最后的关系分类模型中,为了更好地集成不同粒度的推理信息,将实体级别推理信息与文档级别推理信息融合在一起,并使用sigmoid函数来计算每个关系的概率。
在一种实施方式中,交叉熵用以度量预测值与真实标签的差异性,并将其作为损失函数来计算模型损失,损失函数为:
其中n是样本个数,yr∈{0,1}是标签为r的真值,pr是标签为r的预测值,右侧公式的前两项即为预测概率为pr、真值为yr时的交叉熵损失函数,另外,右侧第三项是L2正则化项:在对模型进行训练时,引入L2正则化来避免模型出现过拟合的情况,其中λ为正则项超参数,w为各层网络的权重值矩阵,n为样本个数。
作为优选,由于Adam优化器的超参数具有很好的解释性并且参数调整幅度较小,因此利用Adam优化器来更新参数。
本发明提供的是一种通过基于层次推理的实体关系抽取模型来提取新冠肺炎相关实体关系三元组的方法,首先,利用远程监督将已有知识库与相关文献进行对齐,构建了COVID-19实体关系抽取数据集;然后,基于门控卷积和膨胀卷积,构建了从不同维度来提取上下文信息的特征提取器;最终,基于层次推理机制,利用不同粒度的文档信息来对文本进行实体关系抽取,提升了文档级实体关系抽取模型的准确率。在具体应用过程中,通过本发明抽取的新冠肺炎相关数据的实体关系,可以为后续研究任务如知识图谱、问答系统等提供基础,为进一步对新冠肺炎的防治工作提供基础。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种基于层次推理的医学实体关系抽取方法,其特征在于,包括:
S1:获取训练语料,训练语料为医学数据集;
S2:构建实体关系抽取模型,实体关系抽取模型包括嵌入模块、特征提取模块、实体层推理模块、句子层推理模块、文档层推理模块以及关系分类模块,其中,嵌入模块用于分别获取输入文本的句子层嵌入表示和实体层嵌入表示,特征提取模块用于采用门控膨胀卷积网络进行特征提取,实体层推理模块用于融合实体信息、实体类型信息和共指信息对实体进行表示,将双线性变换和迁移约束应用在多个子空间的目标实体对,获得实体层推理信息,句子层推理模块用于引入注意力机制来计算每个句子所提供的信息量权重,将句子的单词表示形式进行融合得到句子向量,然后融合实体层推理信息得到句子层推理信息,文档层推理模块用于在句子层推理信息的基础上构建一个门控膨胀卷积网络,并引入注意力机制得到文档层推理信息,关系分类模块用于将实体层推理信息与文档层推理信息进行融合,得到实体关系的类别;
S3:利用获取的训练语料对实体关系抽取模型进行训练,使用交叉熵作为损失函数,利用Adam优化器来更新模型的参数,得到训练好的实体关系抽取模型;
S4:利用训练好的实体关系抽取模型对输入文本的实体关系进行抽取。
2.如权利要求1所述的医学实体关系抽取方法,其特征在于,步骤S1包括:
S1.1:构建以新冠肺炎疾病为中心的实体关系类型体系;
S1.2:爬取新冠肺炎相关文献语料;
S1.3:利用医学知识库中的三元组与新冠肺炎语料进行实体对齐;
S1.4:利用基于双数组字典树的方法对实体对齐后的语料进行自动标注,得到新冠肺炎实体关系抽取语料库,将其作为训练语料。
3.如权利要求1所述的医学实体关系抽取方法,其特征在于,步骤S2中嵌入模块,采用预训练模型BioBERT得到具有上下文信息的词向量表示,词向量表示与位置特征表示作为句子层嵌入表示,利用Glove得到包含实体信息和实体类型信息的实体类型向量和包含共指信息的共指向量,作为实体层嵌入表示。
4.如权利要求1所述的医学实体关系抽取方法,其特征在于,步骤S2中句子层推理模块的处理过程包括:
将词向量表示与位置特征表示结合输入到特征提取模块中,得到隐藏层的特征向量表示其中,hjt表示第j个句子中的第t个单词的隐藏层的特征向量,DGConv表示特征提取模块中门控膨胀卷积神经网络的运算过程,wjt表示第j个句子中的第t个单词的词向量,与分别为头实体与尾实体的位置向量特征表示;
根据单词与目标实体的相关性获得单词的权重,计算公式为:
其中,exp表示以e为底的指数函数,αjt表示多层感知器的输出,下方分母的含义为对整句中所有词向量的MLP输出的以e为底的指数函数结果求和;
通过将单词的隐层向量加权求和得到句子向量Sj,
Sj=∑tαjthjt
上式中,右侧表示对整句中所有词向量的权重与隐藏层向量的乘积求和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110709798.7A CN113553440B (zh) | 2021-06-25 | 2021-06-25 | 一种基于层次推理的医学实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110709798.7A CN113553440B (zh) | 2021-06-25 | 2021-06-25 | 一种基于层次推理的医学实体关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113553440A CN113553440A (zh) | 2021-10-26 |
CN113553440B true CN113553440B (zh) | 2022-08-16 |
Family
ID=78102392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110709798.7A Active CN113553440B (zh) | 2021-06-25 | 2021-06-25 | 一种基于层次推理的医学实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553440B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114330323B (zh) * | 2022-03-08 | 2022-06-28 | 成都数联云算科技有限公司 | 实体关系联合抽取方法、装置、计算机终端及存储介质 |
CN114610819B (zh) * | 2022-03-17 | 2022-10-11 | 中科世通亨奇(北京)科技有限公司 | 一种实体关系抽取方法 |
CN114925678B (zh) * | 2022-04-21 | 2023-05-26 | 电子科技大学 | 一种基于高层交互机制的药物实体和关系联合抽取方法 |
CN114997340B (zh) * | 2022-08-01 | 2022-10-14 | 南京邮电大学 | 一种基于图神经网络系统的文献分类方法 |
CN116701664A (zh) * | 2023-08-08 | 2023-09-05 | 安徽智享云科技有限公司 | 一种基于bim的多目标施工数据共享传输方法及系统 |
CN117290510B (zh) * | 2023-11-27 | 2024-01-30 | 浙江太美医疗科技股份有限公司 | 文档信息抽取方法、模型、电子设备及可读介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101255060B1 (ko) * | 2012-07-16 | 2013-04-16 | 한국과학기술정보연구원 | 맵리듀스 기반 분산 병렬 개체 추출 시스템 및 방법 |
CN109902171A (zh) * | 2019-01-30 | 2019-06-18 | 中国地质大学(武汉) | 基于分层知识图谱注意力模型的文本关系抽取方法及系统 |
CN109918671A (zh) * | 2019-03-12 | 2019-06-21 | 西南交通大学 | 基于卷积循环神经网络的电子病历实体关系抽取方法 |
CN111104509A (zh) * | 2019-11-08 | 2020-05-05 | 武汉理工大学 | 一种基于概率分布自适应的实体关系分类方法 |
CN112989833A (zh) * | 2021-04-15 | 2021-06-18 | 广东工业大学 | 一种基于多层lstm的远程监督实体关系联合抽取方法和系统 |
-
2021
- 2021-06-25 CN CN202110709798.7A patent/CN113553440B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101255060B1 (ko) * | 2012-07-16 | 2013-04-16 | 한국과학기술정보연구원 | 맵리듀스 기반 분산 병렬 개체 추출 시스템 및 방법 |
CN109902171A (zh) * | 2019-01-30 | 2019-06-18 | 中国地质大学(武汉) | 基于分层知识图谱注意力模型的文本关系抽取方法及系统 |
CN109918671A (zh) * | 2019-03-12 | 2019-06-21 | 西南交通大学 | 基于卷积循环神经网络的电子病历实体关系抽取方法 |
CN111104509A (zh) * | 2019-11-08 | 2020-05-05 | 武汉理工大学 | 一种基于概率分布自适应的实体关系分类方法 |
CN112989833A (zh) * | 2021-04-15 | 2021-06-18 | 广东工业大学 | 一种基于多层lstm的远程监督实体关系联合抽取方法和系统 |
Non-Patent Citations (1)
Title |
---|
面向医学文本的实体关系抽取研究综述;昝红英等;《郑州大学学报(理学版)》;20201231;第52卷(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113553440A (zh) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113553440B (zh) | 一种基于层次推理的医学实体关系抽取方法 | |
CN111192680B (zh) | 一种基于深度学习和集成分类的智能辅助诊断方法 | |
Zheng et al. | The fusion of deep learning and fuzzy systems: A state-of-the-art survey | |
CN110210037B (zh) | 面向循证医学领域的类别检测方法 | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
CN112884551B (zh) | 一种基于近邻用户和评论信息的商品推荐方法 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN106295186A (zh) | 一种基于智能推理的辅助疾病诊断的方法与系统 | |
CN107516110A (zh) | 一种基于集成卷积编码的医疗问答语义聚类方法 | |
Zhang et al. | Aspect-based sentiment analysis for user reviews | |
CN114021584B (zh) | 基于图卷积网络和翻译模型的知识表示学习方法 | |
CN110277167A (zh) | 基于知识图谱的慢性非传染性疾病风险预测系统 | |
CN112069825B (zh) | 面向警情笔录数据的实体关系联合抽取方法 | |
CN114911945A (zh) | 基于知识图谱的多价值链数据管理辅助决策模型构建方法 | |
CN114781382A (zh) | 基于rwlstm模型融合的医疗命名实体识别系统及方法 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
Dangi et al. | An efficient model for sentiment analysis using artificial rabbits optimized vector functional link network | |
Wang et al. | Automatic emergency diagnosis with knowledge-based tree decoding | |
CN111723572A (zh) | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 | |
CN118133785A (zh) | 基于关系模板证据抽取的文档关系抽取方法 | |
CN116630062A (zh) | 一种医保欺诈行为检测方法、系统、存储介质 | |
Surdeanu et al. | Deep learning for natural language processing: a gentle introduction | |
CN115659981A (zh) | 一种基于神经网络模型的命名实体识别方法 | |
Raj | Novel Method for Sentiment Analysis in Social Media Data Using Hybrid Deep Learning Model | |
CN114003684A (zh) | 一种基于开放世界假设的医疗信息关系预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |