CN111859938B

CN111859938B - 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法

Info

Publication number: CN111859938B
Application number: CN202010711245.0A
Authority: CN
Inventors: 李丽双; 袁光辉
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2022-10-21
Anticipated expiration: 2040-07-22
Also published as: CN111859938A

Abstract

本发明属于自然语言处理技术领域，提出了一种基于位置向量降噪和丰富语义的电子病历实体关系抽取方法，主要由三部分组成：(1)电子病历文本嵌入；(2)基于注意力机制的位置向量降噪和语义引入；(3)基于CNN的特征提取。本发明提出一种基于位置向量降噪和丰富语义的电子病历实体关系抽取模型，从以下两个方面提高了电子病历领域实体关系抽取模型的性能，(1)位置向量有助于实体关系类别的判断，但也包含噪声信息，本文提出一种位置向量降噪方法，在利用位置信息的同时能有效降低位置向量噪声对模型的影响。(2)对于一些专业领域语料，词语义表示匮乏，本文提出了一种语义引入的方式，可以有效利用通用领域语料的丰富语义。

Description

基于位置向量降噪和丰富语义的电子病历实体关系抽取方法

技术领域

本发明属于自然语言处理技术领域，涉及一种对电子病历(EMR,ElectronicMedical Record)文本中的实体进行实体间关系抽取的方法，具体是指基于位置向量降噪和丰富语义的电子病历实体关系抽取。

背景技术

电子病历是一种电子化的病人诊疗记录，其中含有丰富的临床医学信息，从中抽取实体之间的关系是一项重要任务。目前，电子病历文本中实体关系抽取的研究大多数是针对句子级任务，主要研究从电子病历中抽取疾病、检查和治疗这几类实体间的关系。

电子病历实体关系抽取方法主要使用基于词典、基于统计机器学习和基于深度学习的方法。早期，研究者使用的是基于规则的方法。例如，Harkema等(ConText:Analgorithm for determining negation, experiencer,and temporal status fromclinical reports[J].Journal of Biomedical Informatics,2009) 提出一种上下文算法，该算法首先获取出现在上下文中的词法线索，然后依据此词法线索推断临床报告中提到的临床条件状态，对于包含给定条件的临床报告，该算法取得了很好的效果。基于规则的方法主要依赖专业人员制定的规则抽取信息，但实际运用中研究人员往往难以归纳出所有的语法和规则，所以结果一般较差。随着机器学习技术的不断发展，利用浅层机器学习技术进行电子病历文本实体关系抽取的方法逐渐增多。这些方法主要依赖于手工构建的一些特征，如词汇、语境、词位置信息、块标记等。例如，Rink and Harabagiu等(UTD:ClassifyingSemantic Relations by Combining Lexical and Semantic Resources[J].Proceedingsof the 5th International Workshop on Semantic Evaluation,2010)采用 SVM的方法，首先利用词汇、标记和相关领域的语料资源构建特征，然后将构建的特征用SVM进行实体关系分类，该方法在2010年i2b2/VA关系分类的挑战赛中取得了最好成绩。基于浅层机器学习的方法，过于依赖人工构建的特征，且这些特征需要外部自然语言处理工具生成，如词性标注和句法分析工具等，因此，模型性能受外部因素影响较大。相比之下，基于深度学习的方法可以利用模型自动学习特征的构建，且在电子病历关系抽取任务中取得了较好的结果。例如，He and Guan等(Classifying medical relations in clinical text viaconvolutional neural networks[J].Artificial Intelligence in Medicine,2019) 先利用电子病历领域语料训练得到词向量，然后将词向量送入多窗口的卷积神经网络(Convolutional Neural Networks，CNN)提取特征，最后结合添加了类别约束的损失函数训练模型，在2010年i2b2/VA关系抽取语料上F1值达到了69.7％。Raj等(Learning localand global contexts using a convolutional recurrent network model forrelation classification in biomedical text[C].Proceedings of the 21stConference on Computational Natural Language Learning,2017)提出了一种基于双向长短时记忆 (Bi-directional Long-Short Term Memory，BILSTM)和多层池化的模型，模型首先利用BILSTM编码句子信息，对编码后的信息以最大池化的方式抽取实体相关词特征，然后将池化后特征送入CNN模型抽象出更高维特征，并对此高维特征再次以最大池化的方式过滤，最后将过滤后的特征送入全连接层做分类，在2010 年i2b2/VA关系抽取语料上F1值为64.38％。

近年来，电子病历领域实体关系抽取的研究取得了一定的进展，但是相对于通用领域实体关系抽取任务，其模型性能仍然普遍较低。主要原因是电子病历领域由于可用训练语料不充足、独有的领域特性等问题，导致病历文本的语义不能被有效表达。此外，位置向量可以提高基于深度学习的实体关系抽取方法性能，但是当前模型在引入位置向量时忽略了其中的噪声信息。位置向量的作用没有被充分挖掘。

发明内容

本发明提出一种基于位置向量降噪和丰富语义的电子病历实体关系抽取模型。在利用位置信息的同时可以有效降低位置向量噪声对模型的影响，并引入通用领域语料的丰富语义，解决了电子病历领域语义表示匮乏问题。

本发明的技术方案：

主要由三部分组成：(1)电子病历文本嵌入；(2)基于注意力机制的位置向量降噪和语义引入；(3)基于CNN的特征提取。具体步骤如下：

(1)电子病历文本嵌入

文本嵌入是将电子病历语料转换为向量表示，一个好的嵌入方式是模型取得高性能表现的基础。本发明的文本嵌入方式有两种，分别是专业领域语料嵌入和通用领域语料嵌入。

1)专业领域语料嵌入

专业领域语料嵌入是由电子病历领域语料训练得到的词向量和词与实体相对位置向量拼接组成，用于词的注意力权重计算。词向量的训练采用word2vec(Tomas Mikolovand Kai Chen and Gregory S.Corrado and Jeffrey Dean.Efficient Estimation ofWord Representations in Vector Space[J].Computing Research Repository2013)的方法,位置向量由不同频率的正弦和余弦函数生成(Ashish Vaswani et al.Attention isAll you Need[J].ArXiv,2017)，公式如下：

PE_(pos,2l)＝sin(pos/10000^2l/p) (1)

PE_(pos,2l+1)＝cos(pos/10000^2l/p) (2)

其中，PE为位置向量编码矩阵，pos表示词与实体相对位置，p为位置向量的维度，l表示位置向量的位置，奇数位置添加余弦变量，偶数位置添加正弦变量。虽然领域语料训练得到的词向量语义表示不够丰富，但是词向量之间的语义关联性更高，更容易获取词之间的依赖关系。这里将位置向量和词向量结合是为了学习得到词在位置上与实体的关联信息。设原句子序列中词的嵌入向量表示分别为 X＝{x₁,x₂,…,x_g,…,x_n},x_g∈R^d+2p为句子中第g个词的嵌入向量表示(g∈[1,n])，n为句子长度，d表示词向量的维度。

2)通用领域语料嵌入

通用领域嵌入向量表示方式是采用来自网络爬虫获得的通用领域语料训练的词向量(840B标记，2.2M 词汇)，用于词特征提取。设原句子序列中的词向量分别表示为S＝{s₁,s₂,…,s_g,…,s_n},s_g∈R^q为句子中第 g个词的向量表示(g∈[1,n])，q表示词向量维度，n表示句子长度。

(2)基于注意力机制的位置向量降噪和丰富语义引入

1)注意力机制

首先计算词对应的隐藏层输出向量与实体对应隐藏层输出向量的余弦相似度，并用词对应隐藏层输出向量的模乘以此余弦相似度获得词到实体的投影向量，然后将此投影向量与实体对应向量模的比值作为词与实体的相关分数，最后将词与两个实体的相关分数做乘积得到该词的最终权重，通过此权重实现位置向量降噪和通用领域语料丰富语义的引入。

首先将专业领域语料嵌入送入BILSTM(Bi-directional Long-Short TermMemory)，编码句子信息。 BILSTM由三个门控单元组成可以有效减弱长序列的梯度消失和爆炸，学习长距离词之间的依赖信息。h_t ^(f)和h_t ^(b)表示t时刻BILSTM的前向和后向输出，h_t＝[h_t ^(f),h_t ^(b)]作为最终输出。

h_t＝BILSTM(h_t-1,x_t) (3)

然后对BILSTM的隐藏层输出通过注意力机制计算词与实体的相关度。衡量两个向量相关度的计算方式有余弦相似度、皮尔逊相关系数等，本文基于余弦相似度先计算出词与实体隐层输出向量的余弦夹角，并在此基础上考虑向量的模大小，使用词对应的隐层输出向量到实体对应隐层输出向量的投影与后者模的比值作为词与实体的相关分数，总体计算公式如下：

α_t＝f_t ⁽¹⁾*f_t ⁽²⁾ (5)

其中，*表示两个数值相乘，·表示向量相乘，h_e ⁽¹⁾表示实体1的隐层输出，|h_e ⁽¹⁾|表示其模长，f_t ⁽¹⁾表示第t个位置的词与实体1的相关度，f_t ⁽²⁾表示第t个位置的词与实体2的相关度，计算公式同f_t ⁽¹⁾，α_t表示该词最终的权重分数。

2)位置向量降噪

实体在句子中的位置信息对实体关系的判断至关重要。目前，对实体位置信息的利用方法主要有两种：①根据实体位置找到实体边界对句子分段。②构造每个词与实体的相对位置向量。根据实体位置对句子分段的方法使用实体位置信息的粒度过粗，不能在词粒度上使用；第二种方法实现了更细粒度上实体位置信息的利用，但词相对位置向量引入了自身所包含的噪声信息。位置向量由多维特征组成，它与词向量的生成是独立的，直接与词向量结合后会产生噪声，影响模型对词语义的识别。一个词的位置向量是衡量该词在距离上与实体的相关程度，因此位置向量可以由词向量线性表示，即可以将位置向量转化为词向量的权重分数，从而降低位置向量噪声对词向量的影响。然而，在一句话中，距实体相同位置的词因为其本身词义和上下文环境的不同，与实体的相关程度是不同的，距离信息不能直接转为词权重。

本文先通过注意力机制综合考虑词语义信息和词与实体相对位置信息，将之转化为权重，再将权重与去除位置向量的专业领域语料嵌入结合，以权重的方式实现位置向量降噪。模型只对添加权重后的词向量做语义识别，不会受位置向量噪声的影响，即使权重存在一定的偏差，但不会改变词向量的语义特征分布，而且后续词特征提取的模型可以减弱权重偏差带来的影响，因此模型可以取得更好的结果。

3)丰富语义引入

电子病历领域由于可用训练语料缺少、文本半结构化，文本所含专业词汇较多等领域特性，使病历文本的语义不能有效表达。例如，“ID-afebrile,no wbc,started onAzithromycin for COPD flare”，类似的病历文本会使词向量训练难度增大，过多的专业词汇也使得通用领域的词向量不能直接被使用，因此，当前的深度学习模型应用在电子病历领域的效果并不是很好。Li和Luo等通过引入MIMIC-III临床医学数据扩充词向量的训练语料，在一定程度上缓解了语料不足问题，但是由于医学领域知识的丰富性，病历文本中的医学实体仍不能被有效的表示。事实上，实体之间关系的判断往往不依赖于某些专业词汇及实体本身的语义，而是取决于实体所在上下文中与实体相关的常用词。例如，“Her painwas under good control with PO pain medications and she was deemed suitablefor discharge”。其中“her pain”是“problem”类型的实体，“PO pain medications”是“treatment”类型的实体，实体之间的关系类型是TIP(treatment改善了problem)，通过关键词“was under good control”就可准确判断出上述实体之间的关系。如何找出与实体相关的常用词，从而引入通用领域语料的丰富语义是解决电子病历领域词表示匮乏的更好方法。

本文首先通过注意力机制计算得到词与实体之间的相关度分数，然后将此相关度分数与通用领域语料嵌入结合，在实现位置向量降噪的基础上，引入通用领域语料的丰富语义，最终词表示如下所示：

U＝S·α (6)

其中，α为词权重向量，·表示词向量与对应词权重相乘，S为通用领域语料嵌入，U即为特征提取部分的最终输入。

(3)基于CNN的特征提取

特征编码部分提取用于实体关系判断的词特征。CNN具有强大的提取局部特征的能力，本文模型在通过注意力机制对词向量加权后，突出一些重要词汇，使CNN提取词特征的效果更加精确。首先，将得到的输入U送入CNN，然后将CNN输出经最大池化得到跟关系类别判断最相关的特征。假设其中一个窗口第j 个通道的过滤器权重为W_j，m×k为W_j形状大小，即表示卷积窗口大小。卷积层公式如下：

其中i∈[1,n-m+1]，

表示向量对应位置元素相乘，b^j为卷积偏差，sum(·)表示对矩阵中的每个元素求和，f(x)＝max(0,x)为激活函数，o为卷积层输出，γ为最大池化后的特征向量。为了提升模型结果的精度和稳定性，本文在池化后的特征层和输出层之间加了一层隐藏层，然后对隐藏层做批正则化处理，以加快模型训练速度，增强模型的鲁棒性。隐藏层相关公式如下：

z＝W_γ·γ+b_γ (9)

其中，

表示向量对应位置元素相乘，W_γ和b_γ分别表示池化层输出到隐藏层的权重和偏差，z表示中间输出，

和s_z是中间输出的批均值和方差，

是正则化处理后的输出，

和

是修正参数，对批正则化处理做修正，σ为Sigmoid激活函数，β为隐藏层最终表示。

最后将批正则化后的隐藏层β作为最终特征表示送入全连接层做分类。输出结果y属于c(c∈C)种类型的概率P(y＝c)，

P(y＝c)＝soft max(W_β·β+b_β) (12)

其中，W_β和b_β为权重矩阵和偏置，全连接层的激活函数为softmax，C为实体关系类别的集合，之后取最大概率的标签c作为最终类别。

本发明的有益效果是：本发明提出一种基于位置向量降噪和丰富语义的电子病历实体关系抽取模型，从以下两个方面提高了电子病历领域实体关系抽取模型的性能，(1)位置向量有助于实体关系类别的判断，但也包含噪声信息，本文提出一种位置向量降噪方法，在利用位置信息的同时能有效降低位置向量噪声对模型的影响。(2)对于一些专业领域语料，词语义表示匮乏，本文提出了一种语义引入的方式，可以有效利用通用领域语料的丰富语义。

附图说明

图1基于位置向量降噪和丰富语义的电子病历实体关系抽取模型框架图。

具体实施方式

本发明基于位置向量降噪和引入丰富语义的方式对电子病历中的实体进行关系抽取，可以有效提高电子病历实体关系抽取的性能，为临床数据库的构建、医学知识图谱生成和临床辅助决策等提供数据支持。如图1所示为模型框架图。

1、病历文本预处理

输入为预处理后的电子病历文本语料，下面以2010i2b2/VA语料为例。在病历文本中，一句话可能包含多个实体，每个实体可能参与多个关系，比如“cxr no focalconsolidation or edema,old biapical scarring ABG 7.34/79/74U/A negative”，其中“cxr”和“ABG”是“test”类型的实体，“edema”和“old biapical scarring”是“problem”类型的实体，实体“cxr”与实体“edema”的关系是“TeRP”(测试显示出医疗问题)。为了能够更准确的判断每一个实体可能与其它实体存在的关系，本文在实体类型的约束下将实体两两配对，分别对每一组实体进行关系识别。进一步考虑，电子病历中的实体大部分是由多个单词组成，且实体语义对实体关系的判断影响不大，因此本文将实体直接替换成实体类型，这样也便于计算跟实体相关的词的权重。例如，上句话替换“cxr”与“edema”后为“Test nofocal consolidation or problem,old biapical scarring ABG 7.34/79/74U/Anegative”，将替换后的句子作为模型的训练语料输入。

2、将预处理后的文本输入模型解析

(1)词嵌入

对处理后的输入文本，需要将文本中的词转化为向量表示，本文以两种方式对病历文本做词嵌入，分别是专业领域语料嵌入和通用领域语料嵌入，专业领域语料嵌入用于词与实体相关度计算的模型输入，通用领域语料嵌入用于引入词的丰富语义信息，作为特征抽取部分的模型输入。例如，对于“Test no focal consolidation or problem,oldbiapical scarring ABG 7.34/79/74U/A negative”中的词“no”，将对应两个向量表示，分别为X₂、U₂代表专业领域语料嵌入向量和通用领域语料嵌入向量。

(2)词与实体相关度计算

将得到的专业领域语料嵌入先送入BILSTM模型得到隐藏层输出，此隐藏层输出包含词与实体相对位置信息和词上下文信息，同时也包含位置向量噪声，模型通过注意力的方式将每个词的隐藏层输出转化为词与实体相关度大小。此时是分别计算句子中的每一个词与实体1“Test”和实体2“problem”的相关度分数，然后将两个分数的乘积作为当前词的最终权重。在一句话中权重较大的词汇对实体之间关系的判断起到更大的作用，比如“Testno focal consolidation or problem,old biapical scarring ABG 7.34/79/74U/Anegative”中，对于实体1“Test”和实体2“problem”，“no”将被赋予更高的权重分数。

(3)特征抽取

将注意力得到的注意力权重与通用领域语料对应词嵌入结合，再送入CNN提取词与实体相关特征；然后用批正则化处理卷积层输出，增强模型稳定性；最后将抽取到的特征经一层神经网络映射并softmax，得到每个关系类别的概率。

3、实体关系抽取效果展示

通过模型解析后，我们可以得到每个实体组对应的关系类别，输入一句话，模型会输出这句话中实体对可能对应的关系类别的概率，以“Test no focal consolidation orproblem,old biapical scarring ABG 7.34/79/74 U/A negative”为例，模型对应输出如下：

Table 1：模型输出结果

关系类型	TrNAP	TrAP	TrCP	TrIP	TrWP	TeRP	TeCP	PIP
									分数	0.0228	0.0125	0.0031	0.0015	0.0076	0.9235	0.0279	0.0010

如Table 1所示，“TeRP”的输出概率最大，可以判定上句话中实体之间的关系类型为“TeRP”。

以2010年i2b2/VA关系抽取数据集为例，将模型的输出经过F1评估方法评估，可以得到实体关系抽取结果如下表所示：

Table 2：模型消融实验结果

Table2中，模型基线是将专业领域语料训练的词向量拼接位置向量做输入，然后将BILSTM的输出直接送入CNN提取特征，与之相比，添加了位置向量降噪的模型最终效果提升2.5％，添加了位置向量降噪和语义引入的模型最终效果提升5.97％。

Claims

1.一种基于位置向量降噪和丰富语义的电子病历实体关系抽取方法，其特征在于，步骤如下：

(1)电子病历文本嵌入

电子病历文本嵌入是将电子病历语料转换为向量表示，电子病历文本嵌入方式有两种，分别是专业领域语料嵌入和通用领域语料嵌入；

1)专业领域语料嵌入

专业领域语料嵌入是由电子病历领域语料训练得到的词向量和词与实体相对位置向量拼接组成，用于词的注意力权重计算；词向量的训练采用word2vec的方法，位置向量由不同频率的正弦和余弦函数生成，公式如下：

PE_(pos,2l)＝sin(pos/10000^2l/p) (1)

PE_(pos,2l+1)＝cos(pos/10000^2l/p) (2)

其中，PE为位置向量编码矩阵，pos表示词与实体相对位置，p为位置向量的维度，l表示位置向量的位置，奇数位置添加余弦变量，偶数位置添加正弦变量；设原句子序列中词的嵌入向量表示分别为X＝{x₁,x₂,…,x_g,…,x_n},x_g∈R^d+2p为句子中第g个词的嵌入向量表示，g∈[1,n]；n为句子长度；d表示词向量的维度；

2)通用领域语料嵌入

通用领域嵌入向量表示方式是采用来自网络爬虫获得的通用领域语料训练的词向量，用于词特征提取；设原句子序列中的词向量分别表示为S＝{s₁,s₂,…,s_g,…,s_n},s_g∈R^q为句子中第g个词的向量表示(g∈[1,n])，q表示词向量维度，n表示句子长度；

(2)基于注意力机制的位置向量降噪和丰富语义引入

1)注意力机制

首先计算词对应的隐藏层输出向量与实体对应隐藏层输出向量的余弦相似度，并用词对应隐藏层输出向量的模乘以此余弦相似度获得词到实体的投影向量，然后将此投影向量与实体对应向量模的比值作为词与实体的相关分数，最后将词与两个实体的相关分数做乘积得到该词的最终权重，通过最终权重实现位置向量降噪和通用领域语料丰富语义的引入；

首先将专业领域语料嵌入送入BILSTM，编码句子信息；h_t ^(f)和h_t ^(b)表示t时刻BILSTM的前向和后向输出，h_t＝[h_t ^(f),h_t ^(b)]作为最终输出；

h_t＝BILSTM(h_t-1,x_t) (3)

然后对BILSTM的隐藏层输出通过注意力机制计算词与实体的相关度；基于余弦相似度先计算出词与实体隐层输出向量的余弦夹角，并在此基础上考虑向量的模大小，使用词对应的隐藏层输出向量到实体对应隐藏层输出向量的投影与后者模的比值作为词与实体的相关分数，总体计算公式如下：

α_t＝f_t ⁽¹⁾*f_t ⁽²⁾ (5)

其中，*表示两个数值相乘，·表示向量相乘，h_e ⁽¹⁾表示实体1的隐藏层输出，|h_e ⁽¹⁾|表示其模长，f_t ⁽¹⁾表示第t个位置的词与实体1的相关度，f_t ⁽²⁾表示第t个位置的词与实体2的相关度，计算公式同f_t ⁽¹⁾，α_t表示该词最终的权重分数；

2)位置向量降噪

先通过注意力机制综合考虑词语义信息和词与实体相对位置信息，将之转化为权重，再将权重与去除位置向量的专业领域语料嵌入结合，以权重的方式实现位置向量降噪；模型只对添加权重后的词向量做语义识别，不会受位置向量噪声的影响，即使权重存在一定的偏差，但不会改变词向量的语义特征分布，而且后续词特征提取的模型可以减弱权重偏差带来的影响，因此模型取得更好的结果；

3)丰富语义引入

首先通过注意力机制计算得到词与实体之间的相关度分数，然后将此相关度分数与通用领域语料嵌入结合，在实现位置向量降噪的基础上，引入通用领域语料的丰富语义，最终词表示如下所示：

U＝S·α (6)

其中，α为词权重向量，·表示词向量与对应词权重相乘，S为通用领域语料嵌入，U即为特征提取部分的最终输入；

(3)基于CNN的特征提取

特征编码部分提取用于实体关系判断的词特征；首先，将得到的输入U送入CNN，然后将CNN输出经最大池化得到跟关系类别判断最相关的特征；假设其中一个窗口第j个通道的过滤器权重为W_j，m×k为W_j形状大小，即表示卷积窗口大小；卷积层公式如下：

其中i∈[1,n-m+1]，

表示向量对应位置元素相乘，b^j为卷积偏差，sum(·)表示对矩阵中的每个元素求和，f(x)＝max(0,x)为激活函数，o为卷积层输出，γ为最大池化后的特征向量；为了提升模型结果的精度和稳定性，在池化后的特征层和输出层之间加一层隐藏层，然后对隐藏层做批正则化处理，以加快模型训练速度，增强模型的鲁棒性；隐藏层相关公式如下：

z＝W_γ·γ+b_γ (9)

其中，

和s_z是中间输出的批均值和方差，

是正则化处理后的输出，

和

是修正参数，对批正则化处理做修正，σ为Sigmoid激活函数，β为隐藏层最终表示；

最后将批正则化后的隐藏层β作为最终特征表示送入全连接层做分类；输出结果y属于c(c∈C)种类型的概率P(y＝c)，

P(y＝c)＝softmax(W_β·β+b_β) (12)