WO2023207096A1

WO2023207096A1 - 一种实体链接方法、装置、设备及非易失性可读存储介质

Info

Publication number: WO2023207096A1
Application number: PCT/CN2022/135991
Authority: WO
Inventors: 赵雅倩; 徐聪; 郭振华; 范宝余; 金良; 刘璐; 闫瑞栋
Original assignee: 浪潮电子信息产业股份有限公司
Priority date: 2022-04-29
Filing date: 2022-12-01
Publication date: 2023-11-02
Also published as: CN114841164A

Abstract

一种实体链接方法、装置、设备及非易失性可读存储介质，所述方法包括：获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述（S11）；构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序列（S12）；利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度，并根据所述相似度从所述候选实体中确定出所述实体提及的链接实体；其中，所述第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到；正样本为分别由所述实体提及训练样本与正确实体的实体描述训练样本、正确实体与所述训练文本组成的序列，负样本为分别由所述实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与所述训练文本组成的序列（S13）。上述方法在实体链接中融入实体描述信息，同时通过正负样本对比学习的方式训练模型来实现实体消歧，提高实体链接准确度以及在开放知识图谱上进行实体链接的性能。

Description

一种实体链接方法、装置、设备及非易失性可读存储介质

相关申请的交叉引用

本申请要求于2022年04月29日提交中国专利局，申请号为202210466937.2，申请名称为“一种实体链接方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及自然语言处理技术领域，特别涉及一种实体链接方法、装置、设备及非易失性可读存储介质。

背景技术

实体链接是将文本中所提及的实体链接到知识库中的相应实体，是让机器理解自然语言的第一步，也是至关重要的一步。实体链接的输入通常包含实体的指代(Mention)和上下文以及待链接的知识库，实体链接的输出是指代所对应的知识库的实体。当指代与实体之间是一一对应的关系，也就是没有歧义时，实体链接问题十分简单，但实际应用中其往往会存在歧义。一方面，一个实体可以有多种表达方式；另一方面，同一名称可以指代不同实体。

现有技术中，实体链接的方法大致包括命名实体识别(MD，mention detection)、候选实体的生成和实体的消歧三个步骤。然而这种做法的缺点是如果第一步的mention detection发生错误，后面候选实体的生成和消歧操作将会产生错误的叠加，导致结果不佳。

发明内容

有鉴于此，本申请的目的在于提供一种实体链接方法、装置、设备及非易失性可读存储介质，能够提高实体链接准确度以及在开放知识图谱上进行实体链接的性能。其具体方案如下：

本申请的第一方面提供了一种实体链接方法，包括：

获取与输入文本对应的实体提及、实体提及的候选实体以及候选实体的实体描述；

构建包含实体提及与实体描述的第一融合序列和包含候选实体与输入文本的第二融合序列；

利用第一模型计算实体提及的第一融合序列与第二融合序列的相似度，并根据相似度从候选实体中确定出实体提及的链接实体；其中，第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到；正样本为分别由实体提及训练样本与正确实体的实体描述训练样本、正确实体与训练文本组成的序列，负样本为分别由实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与训练文本组成的序列。

可选的，获取与输入文本对应的实体提及，包括：

利用第二模型确定输入文本的实体提及位置，并根据实体提及位置确定出与输入文本对应的实体提及。

可选的，第二模型包括BERT神经网络和CRF神经网络；

相应的，利用第二模型确定输入文本的实体提及位置，包括：

将输入文本的词向量依次通过BERT神经网络和CRF神经网络进行处理，得到表征实体提及位置的BIO标签。

可选的，获取实体提及的候选实体以及候选实体的实体描述，包括：

利用第三模型分别计算实体提及与知识库实体列表中每类别名组成的组合文本之间的匹配度，并将大于第一阈值的匹配度对应的别名种类的实体确定为候选实体；

从实体列表中读取出候选实体的实体描述。

可选的，实体链接方法，还包括：

获取训练文本；

利用第二模型对训练文本进行实体提取得到与训练文本对应的实体提及训练样本，并通过第三模型确定出与实体提及训练样本对应的候选实体训练样本；

从候选实体训练样本中确定出正确实体和非正确实体以及相应的实体描述训练样本；

将由实体提及训练样本与正确实体的实体描述训练样本组成的序列确定为第一正样本序列并将由正确实体与训练文本组成的序列确定为第二正样本序列，以及将由实体提及训练样本与非正确实体的实体描述训练样本组成的序列确定为第一负样本序列并将由非正确实体与训练文本组成的序列确定为第二负样本序列；

利用第一正样本序列、第二正样本序列、第一负样本序列和第二负样本序列通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到第一模型。

可选的，利用第一正样本序列、第二正样本序列、第一负样本序列和第二负样本序列通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到第一模型，包括：

利用预训练模型分别计算第一正样本序列、第二正样本序列、第一负样本序列和第二负样本序列的表征向量，并根据由各表征向量之间的相似度计算NCE_LOSS函数的损失值后对相关网络参数进行调整以使损失值小于第二阈值。

可选的，实体链接方法，还包括：

将获取实体提及的第二模型、获取候选实体的第三模型、和第三模型集成至一个模型，以得到对应的端到端整合模型；

在进行模型训练时，通过对采用交叉熵损失函数的第二模型进行训练并以训练后的第二模型的输出作为第一模型的输入对第一模型进行训练；

在进行实体链接时，将输入文本输入至端到端整合模型以依次经过第二模型、第三模型和第一模型处理后输出相应的相似度。

本申请的第二方面提供了一种实体链接装置，包括：

获取模块，用于获取与输入文本对应的实体提及、实体提及的候选实体以及候选实体的实体描述；

构建模块，用于构建包含实体提及与实体描述的第一融合序列和包含候选实体与输入文本的第二融合序列；

计算确定模块，用于利用第一模型计算实体提及的第一融合序列与第二融合序列的相似度，并根据相似度从候选实体中确定出实体提及的链接实体；其中，第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到；正样本为分别由实体提及训练样本与正确实体的实体描述训练样本、正确实体与训练文本组成的序列，负样本为分别由实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与训练文本组成的序列。

本申请的第三方面提供了一种电子设备，电子设备包括处理器和存储器；其中存储器用于存储计算机程序，计算机程序由处理器加载并执行以实现前述实体链接方法。

本申请的第四方面提供了一种计算机非易失性可读存储介质，计算机非易失性可读存储介质中存储有计算机可执行指令，计算机可执行指令被处理器加载并执行时，实现前述实体链接方法。

本申请中，先获取与输入文本对应的实体提及、实体提及的候选实体以及候选实体的实体描述；然后构建包含实体提及与实体描述的第一融合序列和包含候选实体与输入文本的第二融合序列；最后利用第一模型计算实体提及的第一融合序列与第二融合序列的相似度，并根据相似度从候选实体中确定出实体提及的链接实体；其中，第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到；正样本为分别由实体提及训练样本与正确实体的实体描述训练样本、正确实体与训练文本组成的序列，负样本为分别由实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与训练文本组成的序列。可见，本申请适用于任何开放知识图谱的实体链接任务，在对输入文本进行实体链接处理时，在初步提取到该输入文本的实体提及并确定出候选实体的基础上，进一步获取候选实体对应的实体描述，在实体链接中融入实体描述信息得到对应的融合序列，同时通过正负样本对比学习的方式训练模型来实现实体消歧，利用训练后的模型对融合序列进行相似度计算以此筛选出候选实体中的正确实体也即链接实体，提高了实体链接准确度以及在开放知识图谱上进行实体链接的性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种实体链接方法流程图；

图2为本申请提供的一种具体的第一模型训练方法流程图；

图3为本申请提供的一种具体的实体链接方法流程图；

图4为本申请提供的一种具体的实体链接方法流程图；

图5为本申请提供的一种具体的第二模型结构图；

图6为本申请提供的一种具体的实体链接逻辑图；

图7为本申请提供的一种实体链接装置结构示意图；

图8为本申请提供的一种实体链接电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，采用依次进行命名实体识别(MD，mention detection)、候选实体的生成和实体的消歧的步骤进行实体链接的方法会使得最终实体链接结果不佳，也即如果第一步的命名实体识别发生错误，后面候选实体的生成和消歧操作将会产生错误的叠加。针对上述技术缺陷，本申请提供一种实体链接方案，在实体链接中融入实体描述信息，同时通过正负样本对比学习的方式训练模型来实现实体消歧，提高实体链接准确度以及在开放知识图谱上进行实体链接的性能。

图1为本申请实施例提供的一种实体链接方法流程图。参见图1所示，该实体链接方法包括：

S11：获取与输入文本对应的实体提及、实体提及的候选实体以及候选实体的实体描述。

本实施例中，对于待进行实体链接的输入文本，首先获取与输入文本对应的实体提及，实体提及为初步确定的输入文本中可能为实体的人名、地名等。然后获取实体提及的候选实体，候选实体为知识库中存在的实体提及的别名或同义词等。在此基础上，获取候选实体的实体描述，以将实体描述信息融入实体链接的处理进程当中。实体描述包含了实体是什么、有什么样的特性等信息。

可以理解，候选实体中包含正确的实体和不正确的实体，实体链接的最终目标是从候选实体中筛选出正确的实体。例如，当输入“李娜在哪一年拿到澳网冠军？”这个文本时，先识别出“李娜”这一实体的指代，在知识库中初步得到的候选实体包括网球运动员李娜、歌手李娜或体操运动员李娜等实体，最终目的是利用上下文“…澳网冠军”将“李娜”这个名称链接到知识库中的网球运动员李娜这一正确实体。

S12：构建包含实体提及与实体描述的第一融合序列和包含候选实体与输入文本的第二融合序列。

本实施例中，在得到输入文本的实体提及、候选实体以及实体描述后，需要将实体描述信息融入实体链接的处理进程当中。具体的，需要构建包含实体提及与实体描述的第一融合序列和包含候选实体与输入文本的第二融合序列。可以理解，第一融合序列和第二融合序列一般以向量的方式存表示，也即第一融合序列是由实体提及的向量与实体描述的向量拼接得到的，第二融合序列是由候选实体的向量与输入文本的向量拼接得到的。

S13：利用第一模型计算实体提及的第一融合序列与第二融合序列的相似度，并根据相似度从候选实体中确定出实体提及的链接实体；其中，第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到；正样本为分别由实体提及训练样本与正确实体的实体描述训练样本、正确实体与训练文本组成的序列，负样本为分别由实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与训练文本组成的序列。

本实施例中，首先利用第一模型计算实体提及的第一融合序列与第二融合序列的相似度，然后根据相似度从候选实体中确定出实体提及的链接实体。第一模型也即实体消歧模型，第一模型主要是用于计算第一融合序列与第二融合序列的相似度。第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到，训练流程如图2所示，具体方法如下：

S131：获取训练文本。

S132：利用第二模型对训练文本进行实体提取得到与训练文本对应的实体提及训练样本，并通过第三模型确定出与实体提及训练样本对应的候选实体训练样本。

S133：从候选实体训练样本中确定出正确实体和非正确实体以及相应的实体描述训练样本。

S134：将由实体提及训练样本与正确实体的实体描述训练样本组成的序列确定为第一正样本序列并将由正确实体与训练文本组成的序列确定为第二正样本序列，以及将由实体提及训练样本与非正确实体的实体描述训练样本组成的序列确定为第一负样本序列并将由非正确实体与训练文本组成的序列确定为第二负样本序列。

本实施例中，需要构建训练样本，包括用于对比学习训练的正样本和负样本。首先获取训练文本，然后利用第二模型对训练文本进行实体提取得到与训练文本对应的实体提及训练样本，并通过第三模型确定出与实体提及训练样本对应的候选实体训练样本。接着从候选实体训练样本中确定出正确实体和非正确实体以及相应的实体描述训练样本。第二模型和第三模型与前述步骤中的模型相同。假设训练文本为S，其向量表示为，实体提及训练样本表示为sent＝{x ₁，x ₂...x _n}，实体提及训练样本表示为EM＝{em ₁，em ₂...em _i}，i表示训练样本中存在i个实体提及；候选实体训练样本表示为

30表示为对于每个实体提及存在30个候选实体)；实体描述训练样本表示为

在此基础上，将由实体提及训练样本与正确实体的实体描述训练样本组成的序列确定为第一正样本序列并将由正确实体与训练文本组成的序列确定为第二正样本序列，以及将由实体提及训练样本与非正确实体的实体描述训练样本组成的序列确定为第一负样本序列并将由非正确实体与训练文本组成的序列确定为第二负样本序列。假设对于实体提及em _i，候选实体训练样本中正确实体表示为

正确实体的实体描述训练样本表示为

将em _i与

进行拼接后得到第一正样本序列表示为

将

与sent进行拼接后得到第二正样本序列表示为

同理，对于实体提及em _i，候选实体训练样本中非正确实体表示为

非正确实体的实体描述训练样本表示为

将em _i与

进行拼接后得到第一负样本序列表示为

将

与sent进行拼接后得到第二负样本序列表示为

其中，p≠r。

S135：利用第一正样本序列、第二正样本序列、第一负样本序列和第二负样本序列通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到第一模型。

本实施例中，利用第一正样本序列、第二正样本序列、第一负样本序列和第二负样本序列通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到第一模型。具体的，利用预训练模型分别计算第一正样本序列、第二正样本序列、第一负样本序列和第二负样本序列的表征向量，并根据由各表征向量之间的相似度计算NCE_LOSS函数的损失值后对相关网络参数进行调整以使损失值小于第二阈值。也即将得到的MD序列和CS序列两两进行组合，输入同一个预训练模型，将模型第一个位置的输出作为序列的表征向量，表征向量表示为

接着通过计算两个向量之间的内积来计算相似度score，公式表示为：

score(f(MD)，f(CS))＝exp(f(MD) ^Tf(CS))

利用上述公式计算得到两两向量之间的相似度后，进一步计算对比损失函数L，公式如下：

L＝L ₁+L ₂

通过上述公式计算的损失值调整预训练网络的网络参数，直到L小于第二阈值或者三个训练轮次结束。本实施例中，第二阈值可以设置为0.01。

本实施例中，在训练好第一模型后，在实际的实体链接操作中，直接计算输出相似度score，取得最高分的候选实体作为该实体提及的链接实体。

可见，本申请实施例先获取与输入文本对应的实体提及、实体提及的候选实体以及候选实体的实体描述；然后构建包含实体提及与实体描述的第一融合序列和包含候选实体与输入文本的第二融合序列；最后利用第一模型计算实体提及的第一融合序列与第二融合序列的相似度，并根据相似度从候选实体中确定出实体提及的链接实体；其中，第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到；正样本为分别由实体提及训练样本与正确实体的实体描述训练样本、正确实体与训练文本组成的序列，负样本为分别由实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与训练文本组成的序列。本申请实施例适用于任何开放知识图谱的实体链接任务，在对输入文本进行实体链接处理时，在初步提取到该输入文本的实体提及并确定出候选实体的基础上，进一步获取候选实体对应的实体描述，在实体链接中融入实体描述信息得到对应的融合序列，同时通过正负样本对比学习的方式训练模型来实现实体消歧，利用训练后的模型对融合序列进行相似度计算以此筛选出候选实体中的正确实体也即链接实体，提高了实体链接准确度以及在开放知识图谱上进行实体链接的性能。

图3为本申请实施例提供的一种具体的实体链接方法流程图。参见图3所示，该实体链接方法包括：

S21：将获取实体提及的第二模型、获取候选实体的第三模型和第三模型集成至一个模型，以得到对应的端到端整合模型。

本实施例中，将实体提取、候选实体获取及实体消歧处理集成至一个模型当中，进行端对端的实体链接。也即将获取实体提及的第二模型、获取候选实体的第三模型和第三模型集成至一个模型，以得到对应的端到端整合模型。

S22：在进行实体链接时，将输入文本输入至端到端整合模型，以依次经过第二模型、第三模型和第一模型处理后输出相应的相似度，并根据相似度从候选实体中确定出实体提及的链接实体。

本实施例中，在得到端到端整合模型之后，实体链接时，直接将输入文本输入至端到端整合模型，以依次经过第二模型、第三模型和第一模型处理后输出相应的相似度，并根据相似度从候选实体中确定出实体提及的链接实体。具体方法如图4所示，包括如下步骤：

S221：利用第二模型确定输入文本的实体提及位置，并根据实体提及位置确定出与输入文本对应的实体提及。

本实施例中，实体提及的过程为利用第二模型确定输入文本的实体提及位置，并根据实体提及位置确定出与输入文本对应的实体提及。具体的，第二模型包括BERT神经网络和CRF神经网络。在此基础上，将输入文本的词向量依次通过BERT神经网络和CRF神经网络进行处理，得到表征实体提及位置的BIO标签，模型示意如图5所示。将需要进行实体识别的输入文本转换为词向量后，输入到经过预训练的BERT神经网络中，再将BERT神经网络的输出通过CRF神经网络，最后输出BIO的标签概率，通过每个位置的BIO标签得到实体提及位置。当然，其他能进行实体提取的模型也可用于本申请的实体链接方法，本申请实施例对此不进行限定。

S222：利用第三模型分别计算实体提及与知识库实体列表中每类别名组成的组合文本之间的匹配度，并将大于第一阈值的匹配度对应的别名种类的实体确定为候选实体。

S223：从实体列表中读取出候选实体的实体描述。

本实施例中，候选实体主要通过文本相似度匹配方法，利用第三模型分别计算实体提及与知识库实体列表中每类别名组成的组合文本之间的匹配度，并将大于第一阈值的匹配度对应的别名种类的实体确定为候选实体。第三模型可以为BM25算法模型，除此之外，文本相似度计算的其他算法也能达到相同的技术效果。知识库实体列表为维基实体列表，也即Falcon Candidates的词表，该词表将维基百科中的每个实体标签扩展出许多别名。将每个实体提及和维基实体列表中的每类别名计算匹配度，每个实体提及作为query，实体列表中每个实体的别名组成文档，通过BM25算法计算query和文档之间的匹配度。最后按计算得到的匹配度大小进行排序，得到与每个实体提及匹配程度前30的实体构成候选实体集合。同时将每个实体提及的Top30候选实体对应维基百科解释的第一段文本作为补充信息也即实体描述。

S224：构建包含实体提及与实体描述的第一融合序列和包含候选实体与输入文本的第二融合序列。

本实施例中，关于上述步骤S224的具体过程，可以参考前述实施例中公开的相应内容，在此不再进行赘述。

S225：利用第一模型计算实体提及的第一融合序列与第二融合序列的相似度。

本实施例中，关于上述步骤S224和步骤S225的具体过程，可以参考前述实施例中公开的相应内容，在此不再进行赘述。需要说明的是，本实施例中的第一模型可以为对预训练好的RoBerta模型进行对比学习训练后得到，可以视为RoBerta模型的高阶模型。上述步骤的逻辑示意图如图6所示。

S23：在进行模型训练时，通过对采用交叉熵损失函数的第二模型进行训练并以训练后的第二模型的输出作为第一模型的输入对第一模型进行训练。

本实施例中，为了最大程度上提升实体简介操作结果的准确度，在得到端到端整合模型之后，进行模型训练时，通过对采用交叉熵损失函数的第二模型进行训练并以训练后的第二模型的输出作为第一模型的输入对第一模型进行训练。相较于联合训练上述两个或者单个子任务，本实施例联合上述三个任务得到一个整合的实体链接模型，在融合实体描述信息的基础上采用对比学习方法，提升实体链接的性能。

参见图7所示，本申请实施例还相应公开了一种实体链接装置，包括：

获取模块11，用于获取与输入文本对应的实体提及、实体提及的候选实体以及候选实体的实体描述；

构建模块12，用于构建包含实体提及与实体描述的第一融合序列和包含候选实体与输入文本的第二融合序列；

计算确定模块13，用于利用第一模型计算实体提及的第一融合序列与第二融合序列的相似度，并根据相似度从候选实体中确定出实体提及的链接实体；其中，第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到；正样本为分别由实体提及训练样本与正确实体的实体描述训练样本、正确实体与训练文本组成的序列，负样本为分别由实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与训练文本组成的序列。

在一些具体实施例中，获取模块11，具体包括：

提取单元，用于利用第二模型确定输入文本的实体提及位置，并根据实体提及位置确定出与输入文本对应的实体提及；

匹配单元，用于利用第三模型分别计算实体提及与知识库实体列表中每类别名组成的组合文本之间的匹配度，并将大于第一阈值的匹配度对应的别名种类的实体确定为候选实体；

读取单元，用于从实体列表中读取出候选实体的实体描述。

在一些具体实施例中，实体链接装置还包括：

样本获取模块，用于获取训练文本；利用第二模型对训练文本进行实体提取得到与训练文本对应的实体提及训练样本，并通过第三模型确定出与实体提及训练样本对应的候选实体训练样本；

确定模块，用于从候选实体训练样本中确定出正确实体和非正确实体以及相应的实体描述训练样本；

正负样本序列构建模块，用于将由实体提及训练样本与正确实体的实体描述训练样本组成的序列确定为第一正样本序列并将由正确实体与训练文本组成的序列确定为第二正样本序列，以及将由实体提及训练样本与非正确实体的实体描述训练样本组成的序列确定为第一负样本序列并将由非正确实体与训练文本组成的序列确定为第二负样本序列；

模型训练模块，用于利用第一正样本序列、第二正样本序列、第一负样本序列和第二负样本序列通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到第一模型。

在一些具体实施例中，模型训练模块，具体用于利用预训练模型分别计算第一正样本序列、第二正样本序列、第一负样本序列和第二负样本序列的表征向量，并根据由各表征向量之间的相似度计算NCE_LOSS函数的损失值后对相关网络参数进行调整以使损失值小于第二阈值。

在一些具体实施例中，实体链接装置还包括：

模型整合模块，用于将获取实体提及的第二模型、获取候选实体的第三模型、和第三模型集成至一个模型，以得到对应的端到端整合模型；

整合训练模块，用于在进行模型训练时，通过对采用交叉熵损失函数的第二模型进行训练并以训练后的第二模型的输出作为第一模型的输入对第一模型进行训练；

整合计算模块，用于在进行实体链接时，将输入文本输入至端到端整合模型以依次经过第二模型、第三模型和第一模型处理后输出相应的相似度。

进一步的，本申请实施例还提供了一种电子设备。图8是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图8为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，存储器22用于存储计算机程序，计算机程序由处理器21加载并执行，以实现前述任一实施例公开的实体链接方法中的相关步骤。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222及数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的实体链接方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的文本信息等数据。

进一步的，本申请实施例还公开了一种非易失性可读存储介质，非易失性可读存储介质中存储有计算机程序，计算机程序被处理器加载并执行时，实现前述任一实施例公开的实体链接方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的实体链接方法、装置、设备及非易失性可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种实体链接方法，其特征在于，包括：

获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述；

构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序列；

利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度，并根据所述相似度从所述候选实体中确定出所述实体提及的链接实体；其中，所述第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到；正样本为分别由所述实体提及训练样本与正确实体的实体描述训练样本、正确实体与所述训练文本组成的序列，负样本为分别由所述实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与所述训练文本组成的序列。
根据权利要求1所述的实体链接方法，其特征在于，所述获取与输入文本对应的实体提及，包括：

利用第二模型确定所述输入文本的实体提及位置，并根据实体提及位置确定出与所述输入文本对应的所述实体提及。
根据权利要求2所述的实体链接方法，其特征在于，所述第二模型包括BERT神经网络和CRF神经网络；

相应的，所述利用第二模型确定所述输入文本的实体提及位置，包括：

将所述输入文本的词向量依次通过所述BERT神经网络和所述CRF神经网络进行处理，得到表征实体提及位置的BIO标签。
根据权利要求1所述的实体链接方法，其特征在于，获取所述实体提及的候选实体以及所述候选实体的实体描述，包括：

利用第三模型分别计算所述实体提及与知识库实体列表中每类别名组成的组合文本之间的匹配度，并将大于第一阈值的所述匹配度对应的别名种类的实体确定为所述候选实体；

从所述实体列表中读取出所述候选实体的所述实体描述。
根据权利要求1所述的实体链接方法，其特征在于，还包括：

获取所述训练文本；

利用第二模型对所述训练文本进行实体提取得到与所述训练文本对应的所述实体提及训练样本，并通过第三模型确定出与所述实体提及训练样本对应的候选实体训练样本；

从所述候选实体训练样本中确定出正确实体和非正确实体以及相应的实体描述训练样本；

将由所述实体提及训练样本与正确实体的实体描述训练样本组成的序列确定为第一正样本序列并将由正确实体与所述训练文本组成的序列确定为第二正样本序列，以及将由所述实体提及训练样本与非正确实体的实体描述训练样本组成的序列确定为第一负样本序列并将由非正确实体与所述训练文本组成的序列确定为第二负样本序列；

利用所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到所述第一模型。
根据权利要求5所述的实体链接方法，其特征在于，所述利用所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到所述第一模型，包括：

利用预训练模型分别计算所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列的表征向量，并根据由各表征向量之间的所述相似度计算NCE_LOSS函数的损失值后对相关网络参数进行调整以使所述损失值小于第二阈值。
根据权利要求1至6任一项所述的实体链接方法，其特征在于，还包括：

将获取所述实体提及的第二模型、获取所述候选实体的所述第三模型和所述第三模型集成至一个模型，以得到对应的端到端整合模型；

在进行模型训练时，通过对采用交叉熵损失函数的所述第二模型进行训练并以训练后的所述第二模型的输出作为所述第一模型的输入对所述第一模型进行训练；

在进行实体链接时，将所述输入文本输入至所述端到端整合模型以依次经过所述第二模型、所述第三模型和所述第一模型处理后输出相应的所述相似度。
根据权利要求3所述的实体链接方法，其特征在于，所述将所述输入文本的词向量依次通过所述BERT神经网络和所述CRF神经网络进行处理，得到表征实体提及位置的BIO标签，包括：

将所述输入文本转换为词向量；

将所述词向量输入到经过预训练的所述BERT神经网络中，再将所述BERT神经网络的输出通过所述CRF神经网络，从而输出针对BIO标签的标签概率，并通过所述标签概率的最大值得到表征实体提及位置的BIO标签。
根据权利要求4所述的实体链接方法，其特征在于，所述利用第三模型分别计算所述实体提及与知识库实体列表中每类别名组成的组合文本之间的匹配度，并将大于第一阈值的所述匹配度对应的别名种类的实体确定为所述候选实体，包括：

利用所述第三模型分别计算所述实体提及与知识库实体列表中每类别名组成的组合文本之间的匹配度；

采用大于所述第一阈值的所述匹配度对应的别名种类的实体构建针对候选实体的候选实体集合，并将所述候选实体集合中的实体确定为所述候选实体。
根据权利要求9所述的实体链接方法，其特征在于，还包括：

根据所述匹配度对与所述匹配度对应的别名种类的实体进行排序。
根据权利要求9所述的实体链接方法，其特征在于，所述第三模型为BM25算法模型，所述知识库实体列表为搜索引擎实体列表，所述搜索引擎实体列表用于将搜索引擎百科中的每个实体标签扩展出别名，所述利用第三模型分别计算所述实体提及与知识库实体列表中每类别名组成的组合文本之间的匹配度，包括：

将每个所述实体提及作为查询query，将所述搜索引擎实体列表中每个实体的别名组成文档，利用BM25算法模型分别计算每个所述查询query和所述文档之间的匹配度。
根据权利要求9所述的实体链接方法，其特征在于，所述从所述实体列表中读取出所述候选实体的所述实体描述，包括：

从所述候选实体集合中按照预设数值读取出所述候选实体的实体描述。
根据权利要求6所述的实体链接方法，其特征在于，所述利用预训练模型分别计算所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列的表征向量，并根据由各表征向量之间的所述相似度计算NCE_LOSS函数的损失值后对相关网络参数进行调整以使所述损失值小于第二阈值，包括：

利用预训练模型分别计算所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列的表征向量，并计算表征向量之间的内积；

通过所述内积计算各表征向量之间的相似度，并根据所述相似度计算NCE_LOSS函数的损失值后对相关网络参数进行调整以使所述损失值小于第二阈值。
根据权利要求5或6或7所述的实体链接方法，其特征在于，所述第一模型为对预训练好的RoBerta模型进行对比学习训练后得到，所述第一模型为RoBerta模型的高阶模型。
根据权利要求7所述的实体链接方法，其特征在于，所述将获取所述实体提及的第二模型、获取所述候选实体的所述第三模型和所述第三模型集成至一个模型，以得到对应的端到端整合模型，包括：

通过将实体提取操作、候选实体获取操作及实体消歧处理操作集成至一个模型当中，进行端对端的实体链接，从而将获取实体提及的第二模型、获取候选实体的第三模型和第三模型集成至一个模型，以得到对应的端到端整合模型。
根据权利要求1所述的实体链接方法，其特征在于，所述实体提及具有对应的实体提及向量，所述实体描述具有对应的实体描述向量，采用如下方式构建包含所述实体提及与所述实体描述的第一融合序列：

通过所述实体提及向量和实体描述向量，生成第一融合序列。
根据权利要求1所述的实体链接方法，其特征在于，所述候选实体具有对应的候选实体向量，所述输入文本具有对应的输入文本向量，采用如下方式构建包含所述候选实体与所述输入文本的第二融合序列：

通过所述候选实体向量和所述输入文本向量，生成第二融合序列。
一种实体链接装置，其特征在于，包括：

获取模块，用于获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述；

构建模块，用于构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序列；

计算确定模块，用于利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度，并根据所述相似度从所述候选实体中确定出所述实体提及的链接实体；其中，所述第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到；正样本为分别由所述实体提及训练样本与正确实体的实体描述训练样本、正确实体与所述训练文本组成的序列，负样本为分别由所述实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与所述训练文本组成的序列。
一种电子设备，其特征在于，所述电子设备包括处理器和存储器；其中所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至17任一项所述的实体链接方法。
一种计算机非易失性可读存储介质，其特征在于，用于存储计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至17任一项所述的实体链接方法。