CN116821712A

CN116821712A - 非结构化文本与知识图谱的语义匹配方法及装置

Info

Publication number: CN116821712A
Application number: CN202311076294.1A
Authority: CN
Inventors: 蔡惠民
Original assignee: CETC Big Data Research Institute Co Ltd
Current assignee: CETC Big Data Research Institute Co Ltd
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2023-09-29
Anticipated expiration: 2043-08-25
Also published as: CN116821712B

Abstract

本发明公开了一种非结构化文本与知识图谱的语义匹配方法及装置，该方法包括：获取非结构化文本；对非结构化文本进行实体和位置的协同抽取，得到各实体及所述实体在文本中的开始和结束位置；利用所述非结构化文本、所述实体及所述实体在文本中的开始和结束位置，确定所述实体的文本特征向量；依次将知识图谱中各实体作为候选实体，根据所述实体的文本特征向量依次计算所述实体与所述候选实体的匹配度；根据所述匹配度确定匹配实体。利用本发明方案，可以实现非结构化文本与知识图谱的语义融合需求，降低人工标注成本，并保证实体匹配准确率。

Description

非结构化文本与知识图谱的语义匹配方法及装置

技术领域

本发明涉及信息处理技术领域，具体涉及一种非结构化文本与知识图谱的语义匹配方法及装置。

背景技术

随着大数据时代的发展，目前的信息资源利用方式正经历着从依赖同源结构化数据进行信息管理的方式向多源异构数据资源共享进行信息集成管理的方式转变。异构数据库的融合能够识别并解决数据的冲突，是实现信息共享和综合利用的前提条件。实现异构数据库的语义融合，找出相似度较高的数据，再对高相似性数据进行归类，对归类后的高相似性数据有利于进行更深入的数据挖掘。非结构化文本与结构化知识图谱的匹配是异构数据库语义融合的一个典型问题。知识图谱中描述的是现实世界中不同类型的实体，每个实体拥有自己的属性、以及与其它实体存在关联关系。而从其它来源获得的非结构化文本，存在大量的实体，这些实体如何与知识图谱中的实体相匹配，是实现异构数据库语义融合的关键问题。

目前实体匹配、或者实体对齐、实体链接的方法大部分都是基于深度学习算法模型，通过构建带标注的数据集，利用有监督的训练方法，实现实体匹配模型的参数训练，再用于测试集上的实体匹配。这种方法需要大量的数据集标注工作，效率低、成本高。同时，由于在实际应用中，不同实体的属性信息、上下文信息变化较大，导致实际应用中数据的分布情况与训练集的数据分布情况存在差异。因此，在训练集上训练的实体匹配模型的泛化能力有限，导致其在实际应用中的效果不佳。

发明内容

本发明提供一种非结构化文本与知识图谱的语义匹配方法及装置，以实现非结构化文本与知识图谱的语义融合需求，并保证实体匹配准确率。

为此，本发明提供如下技术方案：

一种非结构化文本与知识图谱的语义匹配方法，所述方法包括：

获取非结构化文本；

对非结构化文本进行实体和位置的协同抽取，得到各实体及所述实体在文本中的开始和结束位置；

利用所述非结构化文本、所述实体及所述实体在文本中的开始和结束位置，确定所述实体的文本特征向量；

依次将知识图谱中各实体作为候选实体，根据所述实体的文本特征向量依次计算所述实体与所述候选实体的匹配度；

根据所述匹配度确定匹配实体。

可选地，所述对非结构化文本进行实体和位置的协同抽取包括：

将所述非结构化文本输入面向非结构化文本的实体协同抽取模型，得到所述非结构化文本中的各实体、以及所述实体在文本中的开始和结束位置。

可选地，所述方法还包括：

预先构建基于深度强化学习的文本特征提取模型；

所述根据所述非结构化文本、所述实体及所述实体在文本中的开始和结束位置，确定所述实体的文本特征向量包括：

利用所述文本特征提取模型，确定所述实体的文本特征向量。

可选地，所述构建基于深度强化学习的文本特征提取模型包括：

建立基于多层神经网络的策略网络，所述策略网络用于确定文本样本中需要保留的词；

进行基于强化学习的网络参数优化过程，直至得到最优网络参数；所述网络参数优化过程包括：

对需要保留的词通过词嵌入向量得到所述文本样本的语义特征向量；

将所述语义特征向量与候选文本列表进行匹配，根据匹配结果得到基于匹配度的候选集排序列表；

基于所述候选集排序列表及设定的奖励函数确定奖励，并将所述奖励反馈至策略网络。

可选地，所述策略网络包括：输入层、屏蔽层、双向LSTM层、全链接层和Softmax层。

可选地，根据所述实体的文本特征向量确定所述实体与所述知识图谱中实体的匹配度包括：

计算所述实体的文本特征向量与所述知识图谱中实体的文本特征向量的匹配度，得到第一匹配值；

将所述第一匹配值作为所述实体与所述知识图谱中实体的语义匹配度。

可选地，所述根据所述实体的文本特征向量确定所述实体与所述知识图谱中实体的匹配度包括：

计算所述实体的文本特征向量与所述实体与所述知识图谱中的实体的文本特征向量的语义匹配度，得到第一匹配值；

计算所述实体与所述知识图谱中实体的最长公共子序列匹配度，得到第二匹配值；

将所述第一匹配值和所述第二匹配值进行加权计算，得到所述实体的匹配度。

可选地，所述方法还包括：

根据所述实体及所述匹配实体构建提示词语句；

将所述提示词语句输入大规模语言模型，根据所述大规模语言模型的输出确定匹配结果是否正确。

一种非结构化文本与知识图谱的语义匹配装置，所述装置包括：

输入模块，用于获取非结构化文本；

实体抽取模块，用于对非结构化文本进行实体和位置的协同抽取，得到各实体及所述实体在文本中的开始和结束位置；

特征向量确定模块，用于利用所述非结构化文本、所述实体及所述实体在文本中的开始和结束位置，确定所述实体的文本特征向量；

匹配模块，用于依次将所述知识图谱中各实体作为候选实体，根据所述实体的文本特征向量依次计算所述实体与所述候选实体的匹配度；

输出模块，用于根据所述匹配度确定匹配实体。

可选地，所述装置还包括：

词句构造模块，用于根据所述实体及所述匹配实体构建提示词语句；

验证模块，用于将所述提示词语句输入大规模语言模型，根据所述大规模语言模型的输出确定匹配结果是否正确。

本发明提供的非结构化文本与知识图谱的语义匹配方法及装置，在无标注数据的情况下，通过深度强化学习实现实体上下文的语义特征提取，得到实体的文本特征向量；依次将所述知识图谱中各实体作为候选实体，根据所述实体的文本特征向量依次计算所述实体与所述候选实体的匹配度；根据计算得到的匹配度确定匹配实体。利用本发明方案，可以实现非结构化文本与知识图谱的语义融合需求，降低人工标注成本，并保证实体匹配准确率。

进一步，针对确定的知识图谱中的匹配实体，通过大规模语言模型实现实体匹配结果的验证，进一步提升实体匹配准确率。

附图说明

图1是本发明提供的非结构化文本与知识图谱的语义匹配方法的一种流程图；

图2是本发明实施例中策略网络的一种结构示意图；

图3是本发明实施例中构建文本特征提取模型的流程图；

图4是本发明提供的非结构化文本与知识图谱的语义匹配方法的另一种流程图；

图5是本发明提供的非结构化文本与知识图谱的语义匹配装置的一种结构示意图；

图6是本发明提供的非结构化文本与知识图谱的语义匹配装置的另一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

本发明提供的非结构化文本与知识图谱的语义匹配方法及装置，在无标注数据的情况下，通过深度强化学习实现实体上下文的语义特征提取，得到实体的文本特征向量，根据所述实体的文本特征向量确定所述实体与所述知识图谱中实体的匹配度；如果所述匹配度大于设定阈值，则确定为相同实体。

如图1所示，是本发明提供的非结构化文本与知识图谱的语义匹配方法的一种流程图，包括以下步骤：

步骤101，获取非结构化文本。

所述非结构化文本是指用自然语言描述的文本。

步骤102，对非结构化文本进行实体和位置的协同抽取，得到各实体及所述实体在文本中的开始和结束位置。

在本发明实施例，对实体的协同抽取主要是针对非结构化文本的实体类型和位置的协同抽取功能。具体地，可以将所述非结构化文本输入面向非结构化文本的实体协同抽取模型，得到所述非结构化文本中的各实体、以及所述实体在文本中的开始和结束位置。

所述实体协同抽取模型可以从非结构化文本中抽取多个不同类别的实体，并标记各实体在文本中的开始和结束的位置。

所述实体协同抽取模型可以采用现有技术中的一些相应的模型，比如，基于大规模预训练语言模型ERNIE构建的面向非结构化文本的实体协同抽取模型，对此本发明实施例不做限定。

步骤103，利用所述非结构化文本、所述实体及所述实体在文本中的开始和结束位置，确定所述实体的文本特征向量。

在本发明实施例中，可以预先构建基于深度强化学习的文本特征提取模型，利用所述文本特征提取模型，确定所述实体的文本特征向量。

所述文本特征提取模型的具体结构及构建过程将在后面详细说明。

步骤104，依次将知识图谱中各实体作为候选实体，根据所述实体的文本特征向量依次计算所述实体与所述候选实体的匹配度。

实体匹配主要实现非结构化文本中的实体与知识图谱中实体之间的语义匹配。所述知识图谱是指通过图的形式组织大规模知识中实体及其实体之间的关系的结构图。

在一种非限制性实施例中，实体匹配可以采用语义特征向量匹配，即计算所述实体的文本特征向量与知识图谱中实体的文本特征向量的匹配度，得到第一匹配值；将所述第一匹配值作为所述实体与所述知识图谱中的实体的语义匹配度。

在另一种非限制性实施例中，除了计算上述第一匹配值之外，还可通过基于非结构化文本中实体名称与知识图谱中实体名称的最长公共子序列匹配，确定第二匹配值。然后，将这两部分匹配通过超参数权重因子γ分配权重比例，得到总的匹配度fun(input)。

如果总匹配度大于设定的阈值thresh，则判定两个实体为相同实体，否则为不相同实体。

需要说明的是，对于基于注意力加权所获得的实体语义特征向量，可以计算输入实体（即非结构化文本中抽取的实体）的特征向量与候选实体（即知识图谱中的实体）的特征向量的余弦距离。

输入实体特征向量是feat(x)函数的输出，其中输入x为输入实体描述文本内容input.context。同理，候选实体特征向量是feat(x)函数的输出，其中输入x为候选实体描述文本内容candidate.context。对应feat(x)函数，其为描述文本内容x的函数。假设描述文本内容x可以划分为多个词语的集合{x ₁,x ₂,……x _n}。word2vec(x _k)函数表示可以将词语x _k转化为分布式词向量。attention(x _k)函数表示基于深度强化学习模型对词语x _k分配的注意力权重。则feat(x)函数等于描述文本内容x分词后所有词语词向量的归一化注意力权重加权和。

对于基于实体名称的最长公共子序列匹配，其为输入实体名称input.entity和候选实体名称input.entity的RougeL数值，其为两个文本之间的最长公共子序列长度LCS(x,y)再除以两个文本的平均长度。Dis_RougeL(x,y)代表实体名称x与实体名称y的匹配度。

Dis_cos(x,y)代表特征向量x与特征向量y的余弦距离。如以下公式所示：

步骤105，根据所述匹配度确定匹配实体。

具体地，判断所述匹配度是否大于设定阈值；如果是，则确定所述候选实体为相同实体。否则，确定所述候选实体为不同实体。

在本发明实施例中，构建文本特征提取模型涉及以下三方面：1）策略网络，2）特征表示与匹配，3）奖励反馈。下面对这三部分分别详细说明。

1）策略网络

策略网络用于学习到有用的策略，以决定文本中的每个词是否作为重要词，这可以看成一个序列标注问题，具体可以通过强化学习算法学习如何取舍文本中每个词的策略。

在一种非限制性实施例中，可以应用双向LSTM（Long Short-Term Memory，长短期记忆）的多层神经网络结构构建策略网络。

如图2所示，是本发明实施例中策略网络的一种结构示意图。

该策略网络包括输入（Input）层、屏蔽（Masking）层、双向LSTM（Bi-LSTM）层、Dense（全链接）层和Softmax层。其中，Input层用于接收经过预处理后的文本序列数据。根据文本直方图统计设置Input层输入数据的最大时间步，每个时间步对应为词嵌入特征向量维数。针对文本的变长特点，通过引入Masking层屏蔽多余的时间步。其次，应用Bi-LSTM层提取文本的序列特征，该层的单元个数比如可以设置为128，并引入单元个数为128的Dense层以整合该序列特征，而每个单元都经过tanh非线性激活函数。最后通过Softmax层输出策略空间的概率分布。

由于策略网络在每一次做决定时只需确定是否将当前词判断为需要保留的词，因此策略空间的大小为2。

2）特征表示与匹配

对每个保留下来的词通过词嵌入向量得到文本的语义特征向量。基于文本的特征向量与候选文本列表进行匹配，并得到基于匹配度的候选集的排序列表。

3）奖励反馈

策略网络需要反馈信号得知其学习到的重要词提取策略是否足够好。如果策略网络提取的文本重要词能覆盖该文本所表达的主要内容，则基于这些重要词更可能在候选集中匹配到与其语义最接近的短文本。为此，可以基于文本与候选集的匹配度列表设计需要反馈的奖励信号，并反馈到策略网络。

假设策略网络在每一次批训练中需要匹配的候选集设置为这批样本对应的标签集合C，因此样本数量的大小即为候选集C的大小|C|，其中|C|>10。每个样本都需要与候选集的每条文本进行相似度计算而匹配，从而得到对应的匹配度排序列表。假设样本d _i所对应的标签t _i在匹配度排序列表中的排位序号为x，则奖励的大小定义为以下等式：

构建基于L ₀范数近似的策略网络损失函数Loss _{log_sum}。损失函数Loss _{log_sum}由两部分构成：根据策略梯度算法，第一部分通过反馈得到的奖励R _i鼓励获得较高奖励的策略，并赋予更大的权重。这部分损失函数由Loss ₁定义。第二部分通过引入log-sum函数近似L ₀范数，使得对每条公文短文本中选为关键词的个数尽可能少，有利于引导策略网络学习到选择重要关键词的策略。这部分损失函数由Loss ₂定义。

其中，上述等式的超参数λ调节两部分损失函数的权重比例。N代表样本总数。T _i为第i条公文短文本序列的长度。R _i为该条文本最后获得的奖励反馈。代表在t时刻状态s _t条件下采取动作a _t的概率。而/>代表在t时刻状态s _t条件下将当前词判断为关键词的概率。参数/>代表log-sum函数逼近L ₀范数的程度。

通过构建L ₀范数近似函数作为损失函数的一部分，用于训练决策网络，使其对非结构化文本做稀疏化的选择策略，使其选择文本中重要的、相关的词作为实体的上下文特征。

如图3所示，是本发明实施例中构建文本特征提取模型的流程图，包括以下步骤：

步骤301，建立基于多层神经网络的策略网络，所述策略网络用于确定文本样本中需要保留的词。

步骤302，进行特征表示与匹配，具体包括：

（1）对需要保留的词通过词嵌入向量得到所述文本样本的语义特征向量；

（2）将所述语义特征向量与候选文本列表进行匹配；

（3）根据匹配结果得到基于匹配度的候选集排序列表；

步骤303，基于所述候选集排序列表及设定的奖励函数确定奖励，并将所述奖励反馈至策略网络。

基于强化学习迭代循环上述步骤，不断更新优化策略网络参数，最终得到文本特征提取模型。

如图4所示，是本发明提供的非结构化文本与知识图谱的语义匹配方法的另一种流程图，包括以下步骤：

步骤401，获取非结构化文本。

步骤402，对非结构化文本进行实体和位置的协同抽取，得到各实体及所述实体在文本中的开始和结束位置。

步骤403，利用所述非结构化文本、所述实体及所述实体在文本中的开始和结束位置，确定所述实体的文本特征向量。

步骤404，根据所述实体的文本特征向量将所述实体与所述知识图谱中各实体进行匹配，得到匹配实体。

步骤405，根据所述实体及所述匹配实体构建提示词语句。

步骤406，将所述提示词语句输入大规模语言模型，根据所述大规模语言模型的输出确定匹配结果是否正确。

通过大规模语言模型（简称大模型）判断实体匹配结果是否为语义一致的实体。如果大模型的判断结果为真，则接受该匹配结果；如果大模型的判断结果为假，则拒绝该匹配结果。

利用大模型的判断结果，可以进一步保障通过匹配得到的匹配结果的准确性。

相应地，本发明实施例还提供一种非结构化文本与知识图谱的语义匹配装置，如图5所示，是该装置的一种结构示意图。

该实施例中，非结构化文本与知识图谱的语义匹配装置500包括以下各模块：

输入模块501，用于获取非结构化文本；

实体抽取模块502，用于对非结构化文本进行实体和位置的协同抽取，得到各实体及所述实体在文本中的开始和结束位置；

特征向量确定模块503，用于利用所述非结构化文本、所述实体及所述实体在文本中的开始和结束位置，确定所述实体的文本特征向量；

匹配模块504，用于依次将所述知识图谱中各实体作为候选实体，根据所述实体的文本特征向量依次计算所述实体与所述候选实体的匹配度；

输出模块505，用于根据所述匹配度确定匹配实体。

本发明提供的非结构化文本与知识图谱的语义匹配装置，在无标注数据的情况下，通过深度强化学习实现实体上下文的语义特征提取，得到实体的文本特征向量；依次将所述知识图谱中各实体作为候选实体，根据所述实体的文本特征向量依次计算所述实体与所述候选实体的匹配度；根据计算得到的匹配度确定匹配实体。利用本发明方案，可以实现非结构化文本与知识图谱的语义融合需求，降低人工标注成本，并保证实体匹配准确率。

如图6所示，是本发明非结构化文本与知识图谱的语义匹配装置的另一种结构示意图。

与图5所示实施例不同的是，在该实施例中，所述非结构化文本与知识图谱的语义匹配装置500还进一步包括：词句构造模块601和验证模块602。其中：

词句构造模块601用于根据所述实体及所述匹配实体构建提示词语句。

验证模块602用于将所述提示词语句输入大规模语言模型，根据所述大规模语言模型的输出确定匹配结果是否正确。

该实施例的非结构化文本与知识图谱的语义匹配装置，在确定了知识图谱中的匹配实体后，还针对该匹配实体，通过大规模语言模型实现实体匹配结果的验证，进一步提升实体匹配准确率。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语 “包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。而且，以上所描述的系统实施例仅仅是示意性的，其中作为分离部件说明的模块和单元可以是或者也可以不是物理上分开的，即可以位于一个网络单元上，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统，其仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围，本说明书内容不应理解为对本发明的限制。因此，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种非结构化文本与知识图谱的语义匹配方法，其特征在于，所述方法包括：

获取非结构化文本；

根据所述匹配度确定匹配实体；

其中，计算所述实体与所述候选实体的匹配度包括：

计算所述实体的文本特征向量与所述候选实体的文本特征向量的匹配度，得到第一匹配值，将所述第一匹配值作为所述实体与所述候选实体的匹配度；或者

计算所述实体的文本特征向量与所述候选实体的文本特征向量的匹配度，得到第一匹配值；计算所述实体的名称与所述知识图谱中实体名称的最长公共子序列的匹配度，得到第二匹配值；将所述第一匹配值和所述第二匹配值进行加权计算，得到所述实体与所述候选实体的匹配度。

2.根据权利要求1所述的方法，其特征在于，所述对非结构化文本进行实体和位置的协同抽取包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

预先构建基于深度强化学习的文本特征提取模型；

4.根据权利要求3所述的方法，其特征在于，所述构建基于深度强化学习的文本特征提取模型包括：

5.根据权利要求4所述的方法，其特征在于，所述策略网络包括：输入层、屏蔽层、双向LSTM层、全链接层和Softmax层。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

根据所述实体及所述匹配实体构建提示词语句；

7.一种非结构化文本与知识图谱的语义匹配装置，其特征在于，所述装置包括：

输入模块，用于获取非结构化文本；

输出模块，用于根据所述匹配度确定匹配实体；

其中，所述匹配模块，具体用于计算所述实体的文本特征向量与所述候选实体的文本特征向量的匹配度，得到第一匹配值，将所述第一匹配值作为所述实体与所述候选实体的匹配度；或者计算所述实体的文本特征向量与所述候选实体的文本特征向量的匹配度，得到第一匹配值；计算所述实体的名称与所述知识图谱中实体名称的最长公共子序列的匹配度，得到第二匹配值；将所述第一匹配值和所述第二匹配值进行加权计算，得到所述实体与所述候选实体的匹配度。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：