CN113836924A

CN113836924A - 实体关系抽取方法、装置、存储介质及电子设备

Info

Publication number: CN113836924A
Application number: CN202111089095.5A
Authority: CN
Inventors: 孙小婉; 胡佳奇
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2021-12-24

Abstract

本公开涉及一种实体关系抽取方法、装置、存储介质及电子设备，以在给定少量实体对的情况下，实现大规模医学文本的关系抽取，获得大量有效实体对，提高医学实体抽取的效率。该实体关系抽取方法包括：获取第一医学实体对，所述第一医学实体对包括符合预设实体关系的至少两个实体；在医学文本库中确定包括所述至少两个实体的第一医学文本，并根据所述第一医学文本中除所述至少两个实体外的其他文本内容，生成第一文本匹配模板；通过所述第一文本匹配模板在所述医学文本库中进行文本匹配，得到第二医学文本，并基于所述第一文本匹配模板和所述第二医学文本之间的差异内容，得到文本识别结果；根据所述文本识别结果确定第二医学实体对。

Description

实体关系抽取方法、装置、存储介质及电子设备

技术领域

本公开涉及电子信息技术领域，具体地，涉及一种实体关系抽取方法、装置、存储介质及电子设备。

背景技术

实体关系抽取作为信息抽取的重要子任务，可以从文本中识别各种类型的实体并抽取实体关系。在医疗领域中，通常需要抽取非结构化和半结构化的医学实体关系构建医学知识图谱，用于医疗信息检索等下游子任务。

相关技术中，医学实体关系抽取主要依赖于规则的制定，而医学文本具有复杂性和专业性的特点，因此规则的制定和总结十分困难。此外，随着机器学习尤其是深度学习的发展，也可以通过深度学习的方式抽取医学实体关系，但深度学习的构建与训练需要基于大量已标注数据，在实际场景中，由于医疗数据标注成本大、对标注者专业度要求高等问题，导致了可用于深度学习训练中的数据非常有限，从而无法通过深度学习的方式大规模抽取医学实体关系。

发明内容

本公开的目的是提供实体关系抽取方法、装置、存储介质及电子设备，给定少量符合某一医学关系的实体对样例的情况下，实现大规模医学文本的关系抽取，获得大量有效实体对。

为了实现上述目的，第一方面，本公开提供一种实体关系抽取方法，所述方法包括：

获取第一医学实体对，所述第一医学实体对包括符合预设实体关系的至少两个实体；

在医学文本库中确定包括所述第一医学实体对中各实体的第一医学文本，并根据所述第一医学文本中除所述各实体外的其他文本内容，生成第一文本匹配模板；

通过所述第一文本匹配模板在所述医学文本库中进行文本匹配，得到第二医学文本，并基于所述第一文本匹配模板和所述第二医学文本之间的差异内容，得到文本识别结果；

根据所述实体识别结果确定第二医学实体对。

可选地，所述根据所述第一医学文本中除所述至少两个实体外的其他文本内容，生成第一文本匹配模板，包括：

确定所述至少两个实体在所述第一医学文本中的文本位置；

根据所述第一医学文本中位于所述文本位置之前的第一文本内容和位于所述文本位置之后的第二文本内容，生成第一文本匹配模板。

可选地，所述根据所述文本识别结果确定第二医学实体对，包括：

确定所述文本识别结果包括的实体对；

确定所述文本识别结果包括的所述实体对与所述第一医学实体对中同一文本位置的实体是否为相同类别的实体；

若所述文本识别结果包括的所述实体对与所述第一医学实体对中同一文本位置的实体为相同类别的实体，则将所述文本识别结果包括的所述实体对确定为第二医学实体对。

可选地，所述方法还包括：

在根据所述文本识别结果确定第二医学实体对之后，在所述医学文本库中确定包括所述第二医学实体对中各实体的第三医学文本，并根据所述第三医学文本中除所述第二医学实体对中各实体外的其他文本内容，生成第二文本匹配模板；

通过所述第二文本匹配模板在所述医学文本库中进行文本匹配，得到第四医学文本，并基于所述第二文本匹配模板和所述第四医学文本之间的差异内容，得到第三医学实体对。

可选地，所述通过所述第二文本匹配模板在所述医学文本库中进行文本匹配，包括：

确定所述第一文本匹配模板和所述第二文本匹配模板之间的相似度；

若所述第一文本匹配模板和所述第二文本匹配模板之间的相似度大于预设相似度，则通过所述第二文本匹配模板在所述医学文本库中进行文本匹配。

可选地，所述确定所述第二文本匹配模板和所述第一文本匹配模板之间的相似度，包括：

确定所述第一文本匹配模板对应的向量多元组和所述第二文本匹配模板对应的向量多元组，所述向量多元组是根据所述第一文本匹配模板或所述第二文本匹配模板中各字符的排列顺序和各字符对应的向量表示而确定的；

确定所述第一文本匹配模板对应的所述向量多元组与所述第二文本匹配模板对应的所述向量多元组之间的相似度。

可选地，所述确定所述第一文本匹配模板对应的所述向量多元组和所述第二文本匹配模板对应的所述向量多元组，包括：

通过预训练的文本向量表示模型确定所述第一文本匹配模板和所述第二文本匹配模板中每一字符对应的字符向量；

将所述第一文本匹配模板或所述第二文本匹配模板作为目标匹配模板，执行以下操作：

以所述目标匹配模板中表示实体的字符为字符间隔，确定位于所述字符间隔之前的字符对应的第一平均字符向量，并确定位于所述字符间隔之后的字符对应的第二平均字符向量，按照所述目标匹配模板中字符的排列顺序，基于所述第一平均字符向量和所述第二平均字符向量，建立所述目标匹配模板对应的向量多元组。

第二方面，本公开提供一种医学实体抽取装置，所述装置包括：

获取模块，用于获取第一医学实体对，所述第一医学实体对包括符合预设实体关系的至少两个实体；

生成模块，用于在医学文本库中确定包括所述至少两个实体的第一医学文本，并根据所述第一医学文本中除所述至少两个实体外的其他文本内容，生成第一文本匹配模板；

匹配模块，用于通过所述第一文本匹配模板在所述医学文本库中进行文本匹配，得到第二医学文本，并基于所述第一文本匹配模板和所述第二医学文本之间的差异内容，得到文本识别结果；

确定模块，用于根据所述文本识别结果确定第二医学实体对。

第三方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任一项所述方法的步骤。

第四方面，本公开提供一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面中任一项所述方法的步骤。

通过上述技术方案，可以通过第一医学实体对在医学文本库中搜索，得到包括第一医学实体对中各实体的第一医学文本，然后基于第一医学文本中除各实体外的其他文本内容，生成第一文本匹配模板，最后再通过该第一文本匹配模板在医学文本库中进行文本匹配，得到第二医学文本，并基于该第二医学文本确定第二医学实体对。由此，通过符合预设实体关系的第一医学实体对，可以自动生成文本匹配模板，然后基于该文本匹配模板得到符合该预设实体关系的第二医学实体对，相较于基于规则进行实体关系抽取的方式，减少了人工干预，从而可以提高医学实体关系的抽取效率。另一方面，相较于深度学习进行实体关系抽取的方式，可以在标注数据有限的情况下，实现大规模医学病历的实体关系抽取，提高医学实体关系的抽取效率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开一示例性实施例示出的一种实体关系抽取方法的流程图；

图2是根据本公开一示例性实施例示出的一种实体关系抽取方法获取字符向量的示意图；

图3是根据本公开另一示例性实施例示出的一种实体关系抽取方法的流程图；

图4是根据本公开一示例性实施例示出的一种实体关系抽取装置的框图；

图5是根据本公开一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

正如背景技术所言，相关技术中，医学实体关系抽取主要依赖于规则的制定，而医学文本具有复杂性和专业性的特点，因此规则的制定和总结十分困难。此外，随着机器学习尤其是深度学习的发展，也可以通过深度学习的方式抽取医学实体关系，但深度学习的构建与训练需要基于大量已标注数据，在实际场景中，由于医疗数据标注成本大、对标注者专业度要求高等问题，导致了可用于深度学习训练中的数据非常有限，从而无法通过深度学习的方式大规模抽取医学实体关系。

有鉴于此，本公开实施例提供一种实体关系抽取方法、装置、存储介质及电子设备，实现大规模医学实体关系的自动抽取，提高医学实体关系的抽取效率。

图1是根据一示例性实施例示出的一种实体关系抽取方法的流程图。参照图1，该实体关系抽取方法包括：

步骤101，获取第一医学实体对，该第一医学实体对包括符合预设实体关系的至少两个实体。

步骤102，在医学文本库中确定包括该至少两个实体的第一医学文本，并根据第一医学文本中除该至少两个实体外的其他文本内容，生成第一文本匹配模板。

步骤103，通过第一文本匹配模板在医学文本库中进行文本匹配，得到第二医学文本，并基于第一文本匹配模板和第二医学文本之间的差异内容，得到文本识别结果。

步骤104，根据文本识别结果确定第二医学实体。

应当理解的是，获取第一医学实体对前可以设定一种医学实体关系，再根据该医学实体关系，获取第一医学实体对。示例地，可以设定“疾病-用药”这一医学实体关系，相应地，可以获取如表1所示的医学实体对。例如，第一医学实体对可以是：{下呼吸道感染，盐酸氨溴索片}。其中，“下呼吸道感染”和“盐酸氨溴索片”即为该第一医学实体对包括的两个实体。

表1

另外应当理解的是，医学文本库中包括多个已划分好的短文本，通过获取到的第一医学实体对在医学文本库中进行搜索，可以得到对应的短文本。即，第一医学文本均为短文本形式。比如，在上述举例中，获取的第一医学实体对为：{下呼吸道感染，盐酸氨溴索片}，则基于该第一医学实体对在医学文本库中进行搜索，可以得到第一医学文本可以为：“规律服用盐酸氨溴索片可有效治疗下呼吸道感染”，或者可以得到第一医学文本为：“呼吸道感染的治疗药物为盐酸氨溴索片”。其中，在医学文本库中搜索得到的包括第一医学实体对中各实体的第一医学文本数量可以为一个或多个，本公开对此不作限定，在实际应用时，第一医学实体对不同，在医学文本库中搜索得到相应的第一医学文本的数量也就不同。

在其他可能的方式中，预设实体关系除了上述举例的可以是“疾病-用药”外，还可以是比如“疾病-疾病类别”等其他实体关系，本公开实施例对此不作限定，在具体实施时，可以根据实际情况设定该预设实体关系，再根据该预设实体关系获取对应的第一医学实体对。

在获取第一医学实体对后，可以根据该第一医学文本中除第一医学实体对中各实体外的其他文本内容，生成第一文本匹配模板。

在可能的方式中，可以先确定第一医学实体对中各实体在第一医学文本中的文本位置，然后根据第一医学文本中位于文本位置之前的第一文本内容和位于文本位置之后的第二文本内容，生成文本匹配模板。

例如，第一医学文本为：“规律服用盐酸氨溴索片可有效治疗下呼吸道感染”，第一医学实体对为：{下呼吸道感染，盐酸氨溴索片}，其中，第一实体为：“下呼吸道感染”，第二实体为：“盐酸氨溴索片”。

首先需要确定第一实体“下呼吸道感染”和第二实体“盐酸氨溴索片”在该医学文本中的文本位置，再根据位于文本位置前的第一文本内容“规律服用”和文本位置后的第二文本内容“可有效治疗”，生成文本匹配模板为：“规律服用<第二实体>可有效治疗<第一实体>”。

又例如，如果得到的第一医学文本为：“下呼吸道感染的治疗药物为盐酸氨溴索片”，位于第一实体“下呼吸道感染”的文本位置之前的文本内容和第二实体“盐酸氨溴索片”的文本位置之后的文本内容为空，则生成匹配模板时可以确定位于第一实体“下呼吸道感染”的文本位置之后、第二实体“盐酸氨溴索片”的文本位置之前的文本内容“的治疗药物为”，然后基于该文本内容生成第一文本匹配模板为：“<第一实体>的治疗药物为<第二实体>”。

通过上述方式，对多个第一医学文本进行处理，可以生成如表2所示的多个文本匹配模板。

表2

服用<第二实体>可以预防<第一实体>
	<第一实体>高发期，可使用<第二实体>预防
……

在得到第一文本匹配模板后，可以通过该第一文本匹配模板在医学文本库中进行文本匹配，得到第二医学文本，并基于第一文本匹配模板和第二医学文本之间的差异内容，得到文本识别结果，最后根据该文本识别结果确定第二医学实体对。由此，可以基于给定的第一医学实体对，自动生成新的第二医学实体对，从而可以提高医学实体关系抽取的效率。

例如，通过第一文本匹配模板“规律服用<第二实体>可有效治疗<第一实体>”在医学文本库中进行文本匹配，得到第二医学文本：“规律服用支气管炎片可有效治疗支气管炎”。该第二医学文本与第一文本匹配模板之间的差异内容为“支气管炎”和“支气管炎片”，因此文本识别结果为“支气管炎”和“支气管炎片”。在此基础上，根据文本识别结果确定第二医学实体对，可以是直接将该文本识别结果作为第二医学实体对，即第二医学实体对为：{支气管炎，支气管炎片}。

在其他可能的方式中，为了使得第二医学实体对中各实体间的实体关系与第一实体对中各实体间的实体关系一致，提高实体关系抽取的准确性，还可以先确定文本识别结果包括的实体对，然后确定文本识别结果包括的实体对与第一医学实体对中同一文本位置的实体是否为相同类别的实体，若文本识别结果包括的实体对与第一医学实体对中同一文本位置的实体为相同类别的实体，则将文本识别结果包括的实体对确定为第二医学实体对。

应当理解的是，第一医学实体对是根据预设实体关系确定的，因此在第一医学实体对中，第一实体与第二实体的实体类别在获取该第一医学实体对前就已经确定，比如第一医学实体对为：{下呼吸道感染，盐酸氨溴索片}，其中，第一实体为：“下呼吸道感染”，第二实体为：“盐酸氨溴索片”，则可以确定第一实体的实体类别为疾病，第二实体的实体类别为用药。

在此种情况下，若通过第一文本匹配模板“规律服用<第二实体>可有效治疗<第一实体>”在医学文本库中进行文本匹配，得到第二医学文本：“规律服用支气管炎片可有效治疗支气管炎”，并确定文本识别结果为“支气管炎”和“支气管炎片”，则确定文本识别结果包括的实体对，可以得到实体对为：{支气管炎，支气管炎片}，其中，第三实体为“支气管炎”，第四实体为“支气管炎片”。然后判断第二医学实体对与第一实体对中同一文本位置的实体是否为同一类型，即比较第三实体“支气管炎”与第一实体“下呼吸道感染”是否同为疾病实体，第四实体“支气管炎片”与第二实体“盐酸氨溴索片”是否同为用药实体。

如果文本识别结果包括的实体对与第一医学实体对中同一文本位置的实体不是同一类型，则舍弃该实体对。若文本识别结果包括的实体对有多个，则在舍弃某一实体对后，继续判断下一个实体对与第一医学实体对中同一文本位置的实体是否为同一类型。如果文本识别结果包括的实体对与第一医学实体对中同一文本位置的实体是同一类型，则将第二实体对加入到实体对集合当中，用于生成第二文本匹配模板。其中，实体对集合包括能够用于生成文本匹配模板进行实体关系抽取的实体对，比如初始的实体对集合可以包括第一医学实体对。

在可能的方式中，在根据实体识别结果确定第二医学实体对之后，还可以在医学文本库中确定包括第二医学实体对中各实体的第三医学文本，并根据第三医学文本中除第二医学实体对中各实体外的其他文本内容，生成第二文本匹配模板，然后通过第二文本匹配模板在医学文本库中进行文本匹配，得到第四医学文本，并基于所述第二文本匹配模板和第四医学文本之间的差异内容，得到第三医学实体对。

应当理解的是，基于第二医学实体对生成第二文本匹配模板，并基于该第二文本匹配模板匹配第四医学文本，从而得到第三医学实体对的过程，与上文中基于第一医学实体对生成第一文本匹配模板，并基于该第一文本匹配模板匹配第二医学文本，从而得到第二医学实体对的过程类似，可以参照上文，这里不再赘述。

另外应当理解的是，实体对在医学文本库中的表达方式不同，基于第二文本匹配模板可以匹配到不同的医学文本，从而得到更多的医学实体对。例如，第一文本匹配模板如表2所示，基于该第一文本匹配模板得到的第二医学实体对生成的第二文本匹配模板可以如表3所示。

表3

规律服用<实体2>可有效治疗<实体1>
	<实体1>的治疗药物为<实体2>
……

基于表3所示的第二文本匹配模板可以从医学文本库中匹配第四医学文本，即可以得到更多的医学文本用于确定第三医学实体对。当然，在得到第三医学实体对后，也可以进一步基于该第三医学实体对生成第三文本匹配模板，并基于该第三文本匹配模板匹配第五医学文本，从而得到第四医学实体对，以此类推，可以不断地基于已有的医学实体对自动生成新的医学实体对，从而实现基于动态模板匹配的大规模医学实体关系抽取，提高医学实体关系的抽取效率。

在可能的方式中，为了抽取到符合预设实体关系的新实体对，提高实体关系抽取的准确率，通过第二文本匹配模板在医学文本库中进行文本匹配可以是：先确定第一文本匹配模板和第二文本匹配模板之间的相似度，若第一文本匹配模板和第二文本匹配模板之间的相似度大于预设相似度，则通过第二文本匹配模板在医学文本库中进行文本匹配。

其中，预设相似度可以根据实际情况设定，比如预设相似度设定为0.5，等等，本公开实施例对此不作限定。

示例地，生成第二文本匹配模板后，可以对第二文本匹配模板进行判断，来决定是否基于该第二文本匹配模板进行新的实体关系抽取。本公开实施例中，可以将第二文本匹配模板与第一文本匹配模板进行相似度的计算。

例如，可以先将第一文本匹配模板和第二文本匹配模板处理为对应的文本向量，然后采用余弦相似度进行相似度的计算。比如，可以采用以下计算式计算两个文本匹配模板之间的相似度：

其中，s为相似度，A为第一文本匹配模板对应的文本向量，B为第二文本匹配模板对应的文本向量。

应当理解的是，余弦相似度是通过测量两个向量的夹角的余弦值来度量它们之间的相似度。0度角的余弦值是1，而其他任何角度的余弦值都不大于1，且余弦值最小值是-1。所以两个向量间角度的余弦值可以确定两个向量是否大致指向相同的方向。当两个向量有相同的指向时，余弦相似度的值为1；当两个向量夹角为90°时，余弦相似度的值为0；当两个向量指向完全相反的方向时，余弦相似度的值为-1。即余弦相似度值只与向量的指向方向相关，与向量的长度无关。因此，预设相似度值的范围可以为-1到1，且当得出的相似度值大于预设相似度值时，说明两个向量大致指向相同的方向，即第二文本匹配模板与第一匹配模板大致相似，从而可以基于该第二文本匹配模板抽取新的医学实体关系。

在其他可能的方式中，如果第一文本匹配模板和第二文本匹配模板之间的相似度小于或等于预设相似度，则可以舍弃该第二文本匹配模板，也就是不通过该第二文本匹配模板抽取新的医学实体关系。

应当理解的是，第一文本匹配模板可以为一个或多个，第二文本匹配模板可以为一个或多个，计算并比较相似度时，可以针对每一个第二文本匹配模板，确定该第二文本匹配模板与每一个第一文本匹配模板之间的相似度，也就是将多个第二文本匹配模板与多个第一匹配模板进行两两对应，逐一比较。在此种情况下，在舍弃某一个第二文本匹配模板后，可以继续将其他第二文本匹配模板与第一文本匹配模板进行相似度计算，直至所有第二文本匹配模板均与第一文本匹配模板进行相似度计算。然后，基于保留下来的第二文本匹配模板进行文本匹配，以抽取新的医学实体关系。

在可能的方式中，确定第二文本匹配模板和第一文本匹配模板之间的相似度还可以是：确定第一文本匹配模板对应的向量多元组和第二文本匹配模板对应的向量多元组。然后确定第一文本匹配模板对应的向量多元组与第二文本匹配模板对应的向量多元组之间的相似度。

示例地，向量多元组可以是根据第一文本匹配模板或第二文本匹配模板中各字符的排列顺序和各字符对应的向量表示而确定的，比如可以包括文本匹配模板中位于两个实体的左、右及中间的上下文字符的平均向量。

在可能的方式中，可以先通过预训练的文本向量表示模型确定第一文本匹配模板和第二文本匹配模板中每一字符对应的字符向量，然后将第一文本匹配模板或第二文本匹配模板作为目标匹配模板，执行以下操作：以目标匹配模板中表示实体的字符为字符间隔，确定位于字符间隔之前的字符对应的第一平均字符向量，并确定位于字符间隔之后的字符对应的第二平均字符向量，按照目标匹配模板中字符的排列顺序，基于第一平均字符向量和第二平均字符向量，建立目标匹配模板对应的向量多元组。

示例地，文本向量表示模型可以是BERT(Bidirectional EncoderRepresentation from Transformers，变压器的双向编码器表示)模型，或者可以是相关技术中能够将文本进行向量表示的任意模型，本公开实施例对此不作限定。以BERT模型为例，医学文本为“规律服用盐酸氨溴索片可有效治疗下呼吸道感染”，在通过医学文本库中的文本数据对该BERT模型进行预训练后，将该医学文本输入BERT模型中，如图2所示，可以获得该医学文本中每个字符的向量表示。

因此，本公开实施例中，通过预训练的文本向量表示模型可以确定第一文本匹配模板和第二文本匹配模板中每一字符对应的字符向量。之后，可以基于每一字符对应的字符向量确定对应的向量多元组。示例地，可以先以文本匹配模板中表示实体的字符为字符间隔，确定位于字符间隔之前的字符对应的第一平均字符向量，并确定位于字符间隔之后的字符对应的第二平均字符向量，然后按照目标匹配模板中字符的排列顺序，基于第一平均字符向量和第二平均字符向量，建立目标匹配模板对应的向量多元组。

应当理解的是，位于某一字符间隔之前的字符可能与位于另一字符间隔之后的字符相同，因此在基于位于字符间隔之前的字符对应的第一平均字符向量和位于字符间隔之后的字符对应的第二平均字符向量，建立目标匹配模板对应的向量多元组之前，可以先进行字符去重。

例如，第一文本匹配模板为：“如患有<第一实体>可使用<第二实体>”，将该第一文本匹配模板作为目标匹配模板。首先，确定该目标匹配模板中表示实体的字符为“第一实体”和“第二实体”，将字符“第一实体”作为字符间隔，位于该字符间隔之前的字符为“如患有”，位于该字符间隔之后的字符为“可使用”。另外，将字符“第二实体”作为字符间隔，位于该字符间隔之前的字符为“可使用”，位于该字符间隔之后的字符为空。在得到位于每一字符间隔前、后的字符后，可以对该字符进行去重。比如，上述举例中，进行去重后，可以得到字符“如患有”和“可使用”。在此种情况下，位于字符间隔之前的字符对应的第一平均字符向量可以是字符“如患有”对应的平均字符向量，位于字符间隔之后的字符对应的第二平均字符向量可以是字符“可使用”对应的平均字符向量。

之后，可以按照目标匹配模板中字符的排列顺序，基于第一平均字符向量和第二平均字符向量，建立目标匹配模板对应的向量多元组。比如，向量多元组的表示形式可以为：

t_p＝<m_p，n_p>

其中，m_p为第一平均字符向量，n_p为第二字符平均向量。

在可能的方式中，m_p、n_p可以通过以下计算式得到：

其中，x₁、x₂、x₃依次为字符“如患有”对应的字符向量，x₁₀、x₁₁、x₁₂依次为字符“可使用”对应的字符向量。

应当理解的是，向量多元组中元素数量，可以根据文本匹配模板来确定，本公开对此不做限定。比如，在上述举例的基础上，若字符间隔“第二实体”之后还存在其他字符，则对应的向量多元组可以包括3个元素。

在其他可能的方式中，向量多元组中还可以包括字符间隔对应的平均字符向量。比如，上述举例中，通过字符间隔“第一实体”和“第二实体”确定第一平均向量和第二平均向量后，建立向量多元组可以如下所示：

t_p＝<m_p，t₁，n_p，t₂>

其中，t₁表示字符间隔“第一实体”，t₂表示字符间隔“第二实体”。

在通过上述方式确定第一文本匹配模板和第二文本匹配模板分别对应的向量多元组之后，可以确定第一文本匹配模板对应的向量多元组与第二文本匹配模板对应的向量多元组之间的相似度，以此确定第一文本匹配模板和第二文本匹配模板之间的相似度，从而确定是否通过第二文本匹配模板抽取新的医学实体关系。

例如，第一文本匹配模板为：“规律服用<第一实体>可有效治疗<第二实体>”，第二文本匹配模板为：“<第一实体>的治疗药物为<第二实体>”，第一文本匹配模板的向量多元组为：T₁＝<m₁，n₁>，第二文本匹配模板的向量多元组为：T₂＝<m₂，n₂>，则可以通过如下公式确定第一文本匹配模板和第二文本匹配模板之间的相似度：

s＝sim(m₁，m₂)+sim(n₁，n₂)

其中，s表示第一文本匹配模板和第二文本匹配模板之间的相似度，sim表示余弦相似度计算。

应当理解的是，计算两个文本匹配模板的相似度前，可以确定两个文本匹配模板的向量多元组中相同位置是否都有平均字符向量。如果两个文本匹配模板的向量多元组中相同位置有平均字符向量，则计算该位置的两个平均字符向量的相似度，否则不做计算。

下面通过另一示例性实施例对本公开提供的实体关系抽取方法进行说明。参照图3，该实体关系抽取方法包括：

步骤301，获取第一医学实体对，该第一医学实体对包括符合预设实体关系的至少两个实体。

步骤302，在医学文本库中确定包括至少两个实体的第一医学文本。

步骤303，确定第一医学实体对中各实体在第一医学文本中的文本位置。

步骤304，根据第一医学文本中位于文本位置之前的第一文本内容和位于文本位置之后的第二文本内容，生成第一文本匹配模板。

步骤305，通过第一文本匹配模板在医学文本库中进行文本匹配，得到第二医学文本。

步骤306，基于第一文本匹配模板和第二医学文本之间的差异内容，得到文本识别结果。

步骤307，确定文本识别结果包括的实体对与第一医学实体对中同一文本位置的实体是否为相同类别的实体，若是，则执行步骤308，否则返回步骤304，建立新的第一文本匹配模板。

步骤308，将文本识别结果包括的实体对确定为第二医学实体对。

步骤309，在医学文本库中确定包括第二医学实体对中各实体的第三医学文本。

步骤310，根据第三医学文本中除第二医学实体对中各实体外的其他文本内容，生成第二文本匹配模板。

步骤311，确定第一文本匹配模板和第二文本匹配模板之间的相似度是否大于预设相似度，若是，则执行步骤312，否则结束执行过程。

步骤312，通过第二文本匹配模板在医学文本库中进行文本匹配，得到第四医学文本。

步骤313，基于第二文本匹配模板和第四医学文本之间的差异内容，得到第三医学实体对。

上述各步骤的具体实施方式已在上文进行详细举例说明，这里不再赘述。另外应当理解的是，对于上述方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受上文所描述的动作顺序的限制。其次，本领域技术人员也应该知悉，上文所描述的实施例属于优选实施例，所涉及的步骤并不一定是本公开所必须的。

通过上述方式，通过预设的第一医学实体对，在医学文本库中搜索，得到包括第一医学实体对中各实体的第一医学文本，根据第一医学文本中除各实体外的其他文本内容，生成第一文本匹配模板；再通过该第一文本匹配模板在医学文本库中进行文本匹配，得到第二医学文本，并对第二医学文本进行实体识别，根据实体识别结果确定第二医学实体对。由此通过指定的若干实体对，自动生成文本匹配模板，实现一种基于动态模板匹配的实体关系抽取方法。

基于同一发明构思，本公开实施例还还提供一种实体关系抽取装置，该装置可以通过软件、硬件或两者结合的方式成为电子设备的部分或全部。参照图4，该装置400包括：

获取模块401，用于获取第一医学实体对，所述第一医学实体对包括符合预设实体关系的至少两个实体。

生成模块402，用于在医学文本库中确定包括所述至少两个实体的第一医学文本，并根据所述第一医学文本中除所述至少两个实体外的其他文本内容，生成第一文本匹配模板。

匹配模块403，用于通过所述第一文本匹配模板在所述医学文本库中进行文本匹配，得到第二医学文本，并基于所述第一文本匹配模板和所述第二医学文本之间的差异内容，得到文本识别结果。

确定模块404，用于根据所述文本识别结果确定第二医学实体对。

可选的，所述生成模块402包括：

第一处理模块，用于确定所述至少两个实体在所述第一医学文本中的文本位置；

第二处理模块，用于根据所述第一医学文本中位于所述文本位置之前的第一文本内容和位于所述文本位置之后的第二文本内容，生成第一文本匹配模板。

可选的，所述确定模块404包括：

第三处理模块，用于确定所述文本识别结果包括的实体对。

第四处理模块，用于确定所述文本识别结果包括的所述实体对与所述第一医学实体对中同一文本位置的实体是否为相同类别的实体；当所述文本识别结果包括的所述实体对与所述第一医学实体对中同一文本位置的实体为相同类别的实体时，将所述文本识别结果包括的所述实体对确定为第二医学实体对。

可选的，所述装置400还包括：

第五处理模块，用于在根据所述文本识别结果确定第二医学实体对之后，在所述医学文本库中确定包括所述第二医学实体对中各实体的第三医学文本，并根据所述第三医学文本中除所述第二医学实体对中各实体外的其他文本内容，生成第二文本匹配模板

第六处理模块，用于通过所述第二文本匹配模板在所述医学文本库中进行文本匹配，得到第四医学文本，并基于所述第二文本匹配模板和所述第四医学文本之间的差异内容，得到第三医学实体对。

可选的，所述匹配模块403包括：

第七处理模块，用于确定所述第一文本匹配模板和所述第二文本匹配模板之间的相似度；当所述第一文本匹配模板和所述第二文本匹配模板之间的相似度大于预设相似度时，通过所述第二文本匹配模板在所述医学文本库中进行文本匹配。

可选的，所述第七处理模块用于：

可选的，所述第七处理模块进一步用于：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于同一发明构思，本公开实施例提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现上述任一实体关系抽取方法的步骤。

在可能的方式中，该电子设备的框图如图5所示。参照图5，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出(I/O)接口704，以及通信组件705中的一者或多者。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的实体关系抽取方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件705可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的实体关系抽取方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的实体关系抽取方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的实体关系抽取方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的实体关系抽取方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种实体关系抽取方法，其特征在于，所述方法包括：

在医学文本库中确定包括所述至少两个实体的第一医学文本，并根据所述第一医学文本中除所述至少两个实体外的其他文本内容，生成第一文本匹配模板；

根据所述文本识别结果确定第二医学实体对。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一医学文本中除所述至少两个实体外的其他文本内容，生成第一文本匹配模板，包括：

确定所述至少两个实体在所述第一医学文本中的文本位置；

3.根据权利要求1所述的方法，其特征在于，所述根据所述文本识别结果确定第二医学实体对，包括：

确定所述文本识别结果包括的实体对；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

在根据所述文本识别结果确定第二医学实体对后，在所述医学文本库中确定包括所述第二医学实体对中各实体的第三医学文本，并根据所述第三医学文本中除所述第二医学实体对中各实体外的其他文本内容，生成第二文本匹配模板；

5.根据权利要求4所述的方法，其特征在于，所述通过所述第二文本匹配模板在所述医学文本库中进行文本匹配，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定所述第二文本匹配模板和所述第一文本匹配模板之间的相似度，包括：

7.根据权利要求6所述的方法，其特征在于，所述确定所述第一文本匹配模板对应的所述向量多元组和所述第二文本匹配模板对应的所述向量多元组，包括：

8.一种实体关系抽取装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。