CN113130025B

CN113130025B - 一种实体关系抽取方法、终端设备及计算机可读存储介质

Info

Publication number: CN113130025B
Application number: CN202010047654.5A
Authority: CN
Inventors: 唐琎; 覃若彬; 高琰; 王艳东
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2023-11-24
Anticipated expiration: 2040-01-16
Also published as: CN113130025A

Abstract

本发明公开了一种实体关系抽取方法、终端设备及计算机可读存储介质，其方法包括：从电子病历文本数据库中人工抽取若干个符合预设实体关系的二元实体对作为种子实例；对每个种子实例，均在电子病历文本数据库中查找包括种子实例的句子，并提取该句子的特征向量；基于特征向量对种子实例进行聚类；均根据其中种子实例以及种子实例相应有句子的特征向量，生成与该聚类集群对应的提取模板；使用提取模板在电子病历文本数据库中提取候选实例；根据候选实例与提取模板之间的实体关系，计算各候选实例的置信度，以根据置信度确认是否要将该候选实例作为新的种子实例进行下一轮次迭代。本发明能够较大幅度的提高电子病历实体关系抽取的准确率。

Description

一种实体关系抽取方法、终端设备及计算机可读存储介质

技术领域

本发明属于自然语言处理技术领域，特别涉及一种基于半监督的医疗电子病历实体关系抽取方法、终端设备及计算机可读存储介质。

背景技术

在这个越来越信息化和智能化的年代，医疗健康服务也不断往信息化和智能化方面发展，医疗电子病历也开始逐渐在医疗健康领域发挥越来越重要的作用。病历(MedicalRecords)是医务人员对患者疾病的发生、发展、转归，进行检查、诊断、治疗等医疗活动过程的记录。也是对采集到的资料加以归纳、整理、综合分析，按规定的格式和要求书写的患者医疗健康档案。传统的纸质病历具有保存分散，检索困难，容易丢失，字迹难辨等缺点，使得此类病历难以通过现代化手段进行管理和利用，故电子病历无论是在内容方面还是在可利用程度等方面都优于纸质病历。近年来电子病历的使用越来越广泛，人们对电子病历的认识逐渐完善，其中包括了患者的一些临床信息，如数字，文字，表格，图形，图像等大量的医学知识，如何有效的挖掘，利用这些专业知识对于医疗健康事业的发展有重要作用。

应用自然语言处理方法挖掘医疗文本中的知识主要用到的是信息抽取相关技术，而信息抽取任务主要包括NER(命名实体识别)和RE(关系提取)。该任务在医学信息学中用于临床决策支持(Clinical decision support,CDS)研究服务于医疗专业人员。本方法主要是针对其中关系抽取这一任务提出的一种方法。

关系提取是一种在自然语言处理过程中提取实体之间的命名关系的任务，提取的是在实体识别过程中被标记的句子中的实体之间的语义关系。根据训练数据集在提取过程中对人工标注的依赖性，基于机器学习，监督关系抽取，半监督关系抽取，无监督关系抽取和开放实体关系抽取将关系抽取技术分为三类。

1、监督关系抽取：监督关系提取的本质是分类，该方法需要大量带标签的训练数据集，然后通过机器学习对文本语料库的实体关系类型进行识别和分类。基于特征向量的方法是从文本语料库的句子中提取形态信息，句法信息和关系模式信息，并量化并编码从这些句子中提取的有用信息。然后可以构造特征向量和特征组合。可以通过机器学习来建立实体关系提取模型(例如分类器SVM，WINDOW)。手动注释语料库的数量需求是监督关系提取的最大弱点，该方法不适用于处理海量数据语料库。

2、弱监督关系抽取：弱监督的关系提取仅需要少量注释的语料库，并使用关系种子的代表性样本。所标注的训练数据集的种子可以在大规模语料库中应用，并通过迭代方法不断地提取新的提取模式。使用最广泛的方法是自举，标签传播和主动学习。引导程序通过对有限的种子样本进行多次实验来总结扩展种子集，并通过多次迭代的方式获得训练示例。在自举研究中，两个代表系统是DIPRE和Snowball。此方法对初始关系种子有很高的要求，每个字段都需要高质量的关系，研究表明，此类方法召回率较低，便携性较差。

3、无监督关系抽取：无监督的关系提取不需要任何人工注释的语料库，并且不需要预定义实体关系，对语义关系的自动提取处理主要取决于对语料库的聚类。该方法在各个领域都具有很强的可移植性，可用于大规模信息提取。但是，目前的实验研究尚未获得理想的提取结果，并且其准确度和查全率也没有明显提高。

基于半监督的关系抽取能够利用大量未标注的数据，只需要手动注释少量的实体关系，该方法可用于缺少标注语料库的实体关系提取，在电子病历关系抽取中已经显示出其优势，但是现有的关于弱监督的关于医疗电子病历关系抽取方法准确率不高，对初始关系种子的质量要求较高，可能引入噪声导致语义漂移，召回率低。

发明内容

本发明所要解决的技术问题在于，提供一种基于半监督的医疗电子病历的实体关系抽取方法、终端设备及计算机可读存储介质，能够较大幅度的提高电子病历实体关系抽取的准确率。

为实现上述技术目的，本发明采用如下技术方案：

一种实体关系抽取方法，包括以下步骤：

步骤1，从电子病历文本数据库中人工抽取若干个符合预设实体关系的二元实体对作为种子实例；

步骤2，对每个种子实例，均在电子病历文本数据库中查找包括种子实例的句子，并提取该句子的特征向量；

步骤3，基于特征向量对种子实例进行聚类；均根据其中种子实例以及种子实例相应有句子的特征向量，生成与该聚类集群对应的提取模板；

步骤4，使用步骤3得到的提取模板，在电子病历文本数据库中提取候选实例；

其中，每个提取模板均可提取一组若干个候选实例，多个提取模板均可提取得到同一个候选实例；

步骤5，根据候选实例的置信度增加新的种子实例；

步骤5.1，对步骤3得到的每个提取模板，均使用由自身提取得到的候选实例与自身之间的实体关系，计算该提取模板置信度；

步骤5.2，对步骤4得到的每个候选实例，均使用可提取自身的所有提取模板的置信度，计算该候选实例的置信度；

步骤5.3，将置信度大于置信度阈值的候选实例作为新的种子实例，返回步骤2执行下一次迭代，直到达到预设迭代次数。

在更优的技术方案中，步骤5.1中计算每个提取模板置信度的方法为：

对由自身提取得到的候选实例进行统计，若候选实例与提取模板中的2个实体相同，则该候选实例为正提取；若候选实例与提取模板中的1个实体相同，则该候选实例为负提取；若候选实例与提取模板中的2个实体均不同，则该候选实例为未知提取；然后根据正提取、负提取和未知提取的数量，按以下公式计算该提取模板的置信度：

式中，Conf_ρ(p)表示模板p的置信度，|P|、|N|、|U|分别表示模板p所对应的正提取、负提取、未知提取的数量，W_ngt、W_unk分别是负提取和未知提取的权重；

步骤5.2中计算候选实例置信度的方法为：

式中，Conf_ι(i)为候选实例i的置信度，ξ为候选实例i的所有提取模板组成的集合，ξ_j为集合ξ中标号为j的提取模板，C_i为候选实例i所在的句子；sim(C_i,ξ_j)表示句子C_i与提取模板ξ_j之间的相似度。

在更优的技术方案中，所述候选实例是指，与提取模板相似度大于相似度阈值的所有符合预设实体关系的二元实体对。

在更优的技术方案中，提取每个句子特征向量的具体过程为：根据依存句法对句子进行分析，提取句子中的二元实体对的所有依存特征，使用skip-gram方法提取每个依存特征的词向量，取所有词向量的平均值作为该句子的特征向量。

在更优的技术方案中，采用single-pass算法对句子进行聚类。

在更优的技术方案中，符合预设实体关系的二元实体对为<身体部位，医学描述>。

在更优的技术方案中，电子病历文本数据库是指，包括若干医疗电子病历文本数据、并已分句处理、且对每个句子进行实体标注处理得到的txt文档。

在更优的技术方案中，预设迭代次数为5次。

本发明还提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述方法。

有益效果

与现有技术相比，本发明所具有的的有益效果为：

本发明，首先利用少量种子实例生成提取模板，然后根据提取模板从电子病历文本数据库中提取候选实例，最后根据候选实例与提取模板之间的实体关系，计算各候选实例的置信度，以根据置信度确认是否要将该候选实例作为新的种子实例进行下一轮次迭代，因此可以控制语义漂移，即可以避免与提取模板相关度低的一些候选实例作为种子实例进入下一次迭代而频繁产生与种子实例不相关的更多关系实例，从而能够较大幅度地提高电子病历实体关系抽取的准确率；而且本发明只需要提供少量种子实例，因此可以处理大量没有标签的数据，且效果不错，可以更好地帮助医疗健康事业的发展。

附图说明

图1为本发明实施例所述方法流程图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例以本发明的技术方案为依据开展，给出了详细的实施方式和具体的操作过程，对本发明的技术方案作进一步解释说明。

本实施例提供一种基于半监督的医疗电子病历实体关系抽取方法，如图1所示，包括以下步骤：

步骤1，数据预处理；

从医院获取若干用于训练的医疗电子病历文本数据，将所有数据合并成为一个txt文档；再将文档分句；然后使用BILSTM+CRF技术将文档中的句子进行实体标注，并重点关注BODYPART(身体部位)和DESCRIPTION(医学描述)两种类型的实体，得到句子文档；最终采取人工方式，在句子文档中选取少量实体关系为<身体部位，医学描述>的二元实体对作为种子实例，比如<腰部，疼痛>。

步骤2，查找种子匹配：对于每个种子实例，均在电子病历文本数据库中查找包括种子实例的句子，并提取该句子的特征向量。

具体地，对句子文档进行扫描，如果种子实例中的两个实体同时出现在某个句子中，则对该句子S_i＝{a_i1,a_i2,a_i3,...,a_in}进行依存句法分析，提取句子中两个实体的公共依赖特征a_iq，即提取句子中二元实体对的所有依存特征；然后使用skip-gram方法进行词嵌入得到每个依存特征a_iq对应的词向量最后取所有词向量/>的平均值作为该句子S_i的特征向量/>

步骤3，生成提取模板：基于特征向量、并采用single-pass算法，对种子实例进行聚类；对于每个聚类集群，均根据其中种子实例以及种子实例相应有句子的特征向量，生成与该聚类集群对应的提取模板。

具体地，获取所有种子实例，将第1个种子实例分配给新的空群集；遍历剩余的每个种子实例，基于特征向量计算种子实例与每个集群之间的相似度，并将该种子实例分配给相似度高于或等于相似度阈值τ_sim的第一个集群，若该种子实例与每个集群的相似度均低于相似度阈值τ_sim，则创建一个新的集群，并将种子实例分配给新创建的集群；最终每个集群包括一组若干个种子实例，再通过人工监督的方法去掉错误的簇，剩下的簇则通过对其中种子实例的特征向量求平均来生成模板即每个簇Cl_j生成一个提取模板，其中/>为模板P_j的特征向量。在本实施例中，如果集群中的种子实例的实体关系不符合预设实体关系，即不符合<身体部位，医学描述>这个关系，则认为是错误的簇。

其中，种子实例i_n与集群Cl_j之间的相似度函数为sim(i_n,Cl_j)，通过计算种子实例i_n与集群Cl_j中每个种子实例的相似度，如果大于一半的相似度得分大于相似度阈值，则将其中最大相似度得分作为种子实例i_n与集群Cl_j之间的相似度值，否则将种子实例i_n与集群Cl_j之间的相似度值赋为0。而且两个种子实例之间的相似度计算公式为：

sim(i_n,i_j)＝sim(S_n,S_j)＝cos(V_n,V_j)；

其中，i_n,i_j表示两个不同的种子实例，S_n,S_j分别表示种子实例i_n,i_j所在的句子，V_n,V_j分别表示句子S_n,S_j的特征向量，cos(V_n,V_j)表示求特征向量V_n,V_j之间的余弦相似度。

步骤4，查找候选实例：使用步骤3得到的提取模板，在电子病历文本数据库中提取候选实例，即与提取模板相似度大于相似度阈值的所有符合预设实体关系的二元实体对；

其中，每个提取模板均可提取一组若干个候选实例，多个提取模板均可提取得到同一个候选实例。

具体地，包括以下步骤：

步骤4.1，扫描句子文档，收集包含符合预设实体关系的二元实体对的所有句子；

步骤4.2，遍历由步骤4.1得到的每个句子：按步骤2相同方法对句子进行依存句法分析等步骤以提取句子的特征向量；然后基于特征向量计算句子与每个提取模板的相似度：如果该句子与任意一个提取模板的相似度大于相似度阈值，则将该句子中的二元实体对作为候选实例，将相似度大于相似度阈值的所有提取模板均作为该候选实例的提取模板；

步骤4.3，在步骤4.2完成之后，每个候选实例均可能对应一组若干个提取模板，且一组若干个候选实例均可能对应同一个提取模板，即是说：每个提取模板均可提取一组若干个候选实例，多个提取模板均可提取得到同一个候选实例。

步骤5，控制语义漂移，以根据候选实例的置信度增加新的种子实例；

步骤5.1，对步骤3得到的每个提取模板，均使用由自身提取得到的候选实例与自身之间的实体关系，计算该提取模板置信度，具体为：

步骤5.2，对步骤4得到的每个候选实例，均使用可提取自身的所有提取模板的置信度，按以下公式计算该候选实例的置信度：

式中，Conf_ι(i)为候选实例i的置信度，ξ为候选实例i的所有提取模板组成的集合，ξ_j为集合ξ中标号为j的提取模板，C_i为候选实例i所在的句子；sim(C_i,ξ_j)表示句子C_i与提取模板ξ_j之间的相似度；

步骤5.3，将置信度大于置信度阈值τ_t的候选实例作为新的种子实例，返回步骤2执行下一次迭代，直到达到预设迭代次数时结束；在本实施例中，设置预设迭代次数为5次。

本发明还提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现上述方法实施例中所述的方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法实施例中所述的方法。

本发明上述实施例所述的实体关系抽取方法、终端设备以及计算机可读存储介质，首先利用少量种子实例生成提取模板，然后根据提取模板从电子病历文本数据库中提取候选实例，再根据候选实例与提取模板之间的实体关系，计算各候选实例的置信度，以根据置信度确认是否要将该候选实例作为新的种子实例进行下一轮次迭代，因此可以控制语义漂移，即可以避免与提取模板相关度低的一些候选实例作为种子实例进入下一次迭代而频繁产生与种子实例不相关的更多实例，从而能够较大幅度地提高电子病历实体关系抽取的准确率；而且本发明只需要提供少量种子实例，因此可以处理大量没有标签的数据，且效果不错，可以更好的帮助医疗健康事业的发展。

以上实施例为本申请的优选实施例，本领域的普通技术人员还可以在此基础上进行各种变换或改进，在不脱离本申请总的构思的前提下，这些变换或改进都应当属于本申请要求保护的范围之内。

Claims

1.一种实体关系抽取方法，其特征在于，包括以下步骤：

步骤1，从电子病历文本数据库中人工抽取若干个符合预设实体关系的二元实体对作为种子实例；其中，符合预设实体关系的二元实体对为<身体部位，医学描述>；

步骤3，基于特征向量对种子实例进行聚类；均根据其中种子实例以及种子实例相应有句子的特征向量，生成与该聚类集群对应的提取模板；其中，采用single-pass算法对句子进行聚类；

步骤5，根据候选实例的置信度增加新的种子实例；

步骤5.1中计算每个提取模板置信度的方法为：

步骤5.2中计算候选实例置信度的方法为：

2.根据权利要求1所述的方法，其特征在于，所述候选实例是指，与提取模板相似度大于相似度阈值的所有符合预设实体关系的二元实体对。

3.根据权利要求1所述的方法，其特征在于，提取每个句子特征向量的具体过程为：根据依存句法对句子进行分析，提取句子中的二元实体对的所有依存特征，使用skip-gram方法提取每个依存特征的词向量，取所有词向量的平均值作为该句子的特征向量。

4.根据权利要求1所述的方法，其特征在于，电子病历文本数据库是指，包括若干医疗电子病历文本数据、并已分句处理、且对每个句子进行实体标注处理得到的txt文档。

5.根据权利要求1所述的方法，其特征在于，预设迭代次数为5次。

6.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的方法。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。