CN116821712A - 非结构化文本与知识图谱的语义匹配方法及装置 - Google Patents
非结构化文本与知识图谱的语义匹配方法及装置 Download PDFInfo
- Publication number
- CN116821712A CN116821712A CN202311076294.1A CN202311076294A CN116821712A CN 116821712 A CN116821712 A CN 116821712A CN 202311076294 A CN202311076294 A CN 202311076294A CN 116821712 A CN116821712 A CN 116821712A
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- matching
- feature vector
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 69
- 238000000605 extraction Methods 0.000 claims abstract description 38
- 230000006870 function Effects 0.000 claims description 19
- 230000002787 reinforcement Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 abstract description 8
- 238000002372 labelling Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种非结构化文本与知识图谱的语义匹配方法及装置,该方法包括:获取非结构化文本;对非结构化文本进行实体和位置的协同抽取,得到各实体及所述实体在文本中的开始和结束位置;利用所述非结构化文本、所述实体及所述实体在文本中的开始和结束位置,确定所述实体的文本特征向量;依次将知识图谱中各实体作为候选实体,根据所述实体的文本特征向量依次计算所述实体与所述候选实体的匹配度;根据所述匹配度确定匹配实体。利用本发明方案,可以实现非结构化文本与知识图谱的语义融合需求,降低人工标注成本,并保证实体匹配准确率。
Description
技术领域
本发明涉及信息处理技术领域,具体涉及一种非结构化文本与知识图谱的语义匹配方法及装置。
背景技术
随着大数据时代的发展,目前的信息资源利用方式正经历着从依赖同源结构化数据进行信息管理的方式向多源异构数据资源共享进行信息集成管理的方式转变。异构数据库的融合能够识别并解决数据的冲突,是实现信息共享和综合利用的前提条件。实现异构数据库的语义融合,找出相似度较高的数据,再对高相似性数据进行归类,对归类后的高相似性数据有利于进行更深入的数据挖掘。非结构化文本与结构化知识图谱的匹配是异构数据库语义融合的一个典型问题。知识图谱中描述的是现实世界中不同类型的实体,每个实体拥有自己的属性、以及与其它实体存在关联关系。而从其它来源获得的非结构化文本,存在大量的实体,这些实体如何与知识图谱中的实体相匹配,是实现异构数据库语义融合的关键问题。
目前实体匹配、或者实体对齐、实体链接的方法大部分都是基于深度学习算法模型,通过构建带标注的数据集,利用有监督的训练方法,实现实体匹配模型的参数训练,再用于测试集上的实体匹配。这种方法需要大量的数据集标注工作,效率低、成本高。同时,由于在实际应用中,不同实体的属性信息、上下文信息变化较大,导致实际应用中数据的分布情况与训练集的数据分布情况存在差异。因此,在训练集上训练的实体匹配模型的泛化能力有限,导致其在实际应用中的效果不佳。
发明内容
本发明提供一种非结构化文本与知识图谱的语义匹配方法及装置,以实现非结构化文本与知识图谱的语义融合需求,并保证实体匹配准确率。
为此,本发明提供如下技术方案:
一种非结构化文本与知识图谱的语义匹配方法,所述方法包括:
获取非结构化文本;
对非结构化文本进行实体和位置的协同抽取,得到各实体及所述实体在文本中的开始和结束位置;
利用所述非结构化文本、所述实体及所述实体在文本中的开始和结束位置,确定所述实体的文本特征向量;
依次将知识图谱中各实体作为候选实体,根据所述实体的文本特征向量依次计算所述实体与所述候选实体的匹配度;
根据所述匹配度确定匹配实体。
可选地,所述对非结构化文本进行实体和位置的协同抽取包括:
将所述非结构化文本输入面向非结构化文本的实体协同抽取模型,得到所述非结构化文本中的各实体、以及所述实体在文本中的开始和结束位置。
可选地,所述方法还包括:
预先构建基于深度强化学习的文本特征提取模型;
所述根据所述非结构化文本、所述实体及所述实体在文本中的开始和结束位置,确定所述实体的文本特征向量包括:
利用所述文本特征提取模型,确定所述实体的文本特征向量。
可选地,所述构建基于深度强化学习的文本特征提取模型包括:
建立基于多层神经网络的策略网络,所述策略网络用于确定文本样本中需要保留的词;
进行基于强化学习的网络参数优化过程,直至得到最优网络参数;所述网络参数优化过程包括:
对需要保留的词通过词嵌入向量得到所述文本样本的语义特征向量;
将所述语义特征向量与候选文本列表进行匹配,根据匹配结果得到基于匹配度的候选集排序列表;
基于所述候选集排序列表及设定的奖励函数确定奖励,并将所述奖励反馈至策略网络。
可选地,所述策略网络包括:输入层、屏蔽层、双向LSTM层、全链接层和Softmax层。
可选地,根据所述实体的文本特征向量确定所述实体与所述知识图谱中实体的匹配度包括:
计算所述实体的文本特征向量与所述知识图谱中实体的文本特征向量的匹配度,得到第一匹配值;
将所述第一匹配值作为所述实体与所述知识图谱中实体的语义匹配度。
可选地,所述根据所述实体的文本特征向量确定所述实体与所述知识图谱中实体的匹配度包括:
计算所述实体的文本特征向量与所述实体与所述知识图谱中的实体的文本特征向量的语义匹配度,得到第一匹配值;
计算所述实体与所述知识图谱中实体的最长公共子序列匹配度,得到第二匹配值;
将所述第一匹配值和所述第二匹配值进行加权计算,得到所述实体的匹配度。
可选地,所述方法还包括:
根据所述实体及所述匹配实体构建提示词语句;
将所述提示词语句输入大规模语言模型,根据所述大规模语言模型的输出确定匹配结果是否正确。
一种非结构化文本与知识图谱的语义匹配装置,所述装置包括:
输入模块,用于获取非结构化文本;
实体抽取模块,用于对非结构化文本进行实体和位置的协同抽取,得到各实体及所述实体在文本中的开始和结束位置;
特征向量确定模块,用于利用所述非结构化文本、所述实体及所述实体在文本中的开始和结束位置,确定所述实体的文本特征向量;
匹配模块,用于依次将所述知识图谱中各实体作为候选实体,根据所述实体的文本特征向量依次计算所述实体与所述候选实体的匹配度;
输出模块,用于根据所述匹配度确定匹配实体。
可选地,所述装置还包括:
词句构造模块,用于根据所述实体及所述匹配实体构建提示词语句;
验证模块,用于将所述提示词语句输入大规模语言模型,根据所述大规模语言模型的输出确定匹配结果是否正确。
本发明提供的非结构化文本与知识图谱的语义匹配方法及装置,在无标注数据的情况下,通过深度强化学习实现实体上下文的语义特征提取,得到实体的文本特征向量;依次将所述知识图谱中各实体作为候选实体,根据所述实体的文本特征向量依次计算所述实体与所述候选实体的匹配度;根据计算得到的匹配度确定匹配实体。利用本发明方案,可以实现非结构化文本与知识图谱的语义融合需求,降低人工标注成本,并保证实体匹配准确率。
进一步,针对确定的知识图谱中的匹配实体,通过大规模语言模型实现实体匹配结果的验证,进一步提升实体匹配准确率。
附图说明
图1是本发明提供的非结构化文本与知识图谱的语义匹配方法的一种流程图;
图2是本发明实施例中策略网络的一种结构示意图;
图3是本发明实施例中构建文本特征提取模型的流程图;
图4是本发明提供的非结构化文本与知识图谱的语义匹配方法的另一种流程图;
图5是本发明提供的非结构化文本与知识图谱的语义匹配装置的一种结构示意图;
图6是本发明提供的非结构化文本与知识图谱的语义匹配装置的另一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
本发明提供的非结构化文本与知识图谱的语义匹配方法及装置,在无标注数据的情况下,通过深度强化学习实现实体上下文的语义特征提取,得到实体的文本特征向量,根据所述实体的文本特征向量确定所述实体与所述知识图谱中实体的匹配度;如果所述匹配度大于设定阈值,则确定为相同实体。
如图1所示,是本发明提供的非结构化文本与知识图谱的语义匹配方法的一种流程图,包括以下步骤:
步骤101,获取非结构化文本。
所述非结构化文本是指用自然语言描述的文本。
步骤102,对非结构化文本进行实体和位置的协同抽取,得到各实体及所述实体在文本中的开始和结束位置。
在本发明实施例,对实体的协同抽取主要是针对非结构化文本的实体类型和位置的协同抽取功能。具体地,可以将所述非结构化文本输入面向非结构化文本的实体协同抽取模型,得到所述非结构化文本中的各实体、以及所述实体在文本中的开始和结束位置。
所述实体协同抽取模型可以从非结构化文本中抽取多个不同类别的实体,并标记各实体在文本中的开始和结束的位置。
所述实体协同抽取模型可以采用现有技术中的一些相应的模型,比如,基于大规模预训练语言模型ERNIE构建的面向非结构化文本的实体协同抽取模型,对此本发明实施例不做限定。
步骤103,利用所述非结构化文本、所述实体及所述实体在文本中的开始和结束位置,确定所述实体的文本特征向量。
在本发明实施例中,可以预先构建基于深度强化学习的文本特征提取模型,利用所述文本特征提取模型,确定所述实体的文本特征向量。
所述文本特征提取模型的具体结构及构建过程将在后面详细说明。
步骤104,依次将知识图谱中各实体作为候选实体,根据所述实体的文本特征向量依次计算所述实体与所述候选实体的匹配度。
实体匹配主要实现非结构化文本中的实体与知识图谱中实体之间的语义匹配。所述知识图谱是指通过图的形式组织大规模知识中实体及其实体之间的关系的结构图。
在一种非限制性实施例中,实体匹配可以采用语义特征向量匹配,即计算所述实体的文本特征向量与知识图谱中实体的文本特征向量的匹配度,得到第一匹配值;将所述第一匹配值作为所述实体与所述知识图谱中的实体的语义匹配度。
在另一种非限制性实施例中,除了计算上述第一匹配值之外,还可通过基于非结构化文本中实体名称与知识图谱中实体名称的最长公共子序列匹配,确定第二匹配值。然后,将这两部分匹配通过超参数权重因子γ分配权重比例,得到总的匹配度fun(input)。
如果总匹配度大于设定的阈值thresh,则判定两个实体为相同实体,否则为不相同实体。
需要说明的是,对于基于注意力加权所获得的实体语义特征向量,可以计算输入实体(即非结构化文本中抽取的实体)的特征向量与候选实体(即知识图谱中的实体)的特征向量的余弦距离。
输入实体特征向量是feat(x)函数的输出,其中输入x为输入实体描述文本内容input.context。同理,候选实体特征向量是feat(x)函数的输出,其中输入x为候选实体描述文本内容candidate.context。对应feat(x)函数,其为描述文本内容x的函数。假设描述文本内容x可以划分为多个词语的集合{x 1,x 2,……x n}。word2vec(x k)函数表示可以将词语x k转化为分布式词向量。attention(x k)函数表示基于深度强化学习模型对词语x k分配的注意力权重。则feat(x)函数等于描述文本内容x分词后所有词语词向量的归一化注意力权重加权和。
对于基于实体名称的最长公共子序列匹配,其为输入实体名称input.entity和候选实体名称input.entity的RougeL数值,其为两个文本之间的最长公共子序列长度LCS(x,y)再除以两个文本的平均长度。Dis_RougeL(x,y)代表实体名称x与实体名称y的匹配度。
Dis_cos(x,y)代表特征向量x与特征向量y的余弦距离。如以下公式所示:
步骤105,根据所述匹配度确定匹配实体。
具体地,判断所述匹配度是否大于设定阈值;如果是,则确定所述候选实体为相同实体。否则,确定所述候选实体为不同实体。
在本发明实施例中,构建文本特征提取模型涉及以下三方面:1)策略网络,2)特征表示与匹配,3)奖励反馈。下面对这三部分分别详细说明。
1)策略网络
策略网络用于学习到有用的策略,以决定文本中的每个词是否作为重要词,这可以看成一个序列标注问题,具体可以通过强化学习算法学习如何取舍文本中每个词的策略。
在一种非限制性实施例中,可以应用双向LSTM(Long Short-Term Memory,长短期记忆)的多层神经网络结构构建策略网络。
如图2所示,是本发明实施例中策略网络的一种结构示意图。
该策略网络包括输入(Input)层、屏蔽(Masking)层、双向LSTM(Bi-LSTM)层、Dense(全链接)层和Softmax层。其中,Input层用于接收经过预处理后的文本序列数据。根据文本直方图统计设置Input层输入数据的最大时间步,每个时间步对应为词嵌入特征向量维数。针对文本的变长特点,通过引入Masking层屏蔽多余的时间步。其次,应用Bi-LSTM层提取文本的序列特征,该层的单元个数比如可以设置为128,并引入单元个数为128的Dense层以整合该序列特征,而每个单元都经过tanh非线性激活函数。最后通过Softmax层输出策略空间的概率分布。
由于策略网络在每一次做决定时只需确定是否将当前词判断为需要保留的词,因此策略空间的大小为2。
2)特征表示与匹配
对每个保留下来的词通过词嵌入向量得到文本的语义特征向量。基于文本的特征向量与候选文本列表进行匹配,并得到基于匹配度的候选集的排序列表。
3)奖励反馈
策略网络需要反馈信号得知其学习到的重要词提取策略是否足够好。如果策略网络提取的文本重要词能覆盖该文本所表达的主要内容,则基于这些重要词更可能在候选集中匹配到与其语义最接近的短文本。为此,可以基于文本与候选集的匹配度列表设计需要反馈的奖励信号,并反馈到策略网络。
假设策略网络在每一次批训练中需要匹配的候选集设置为这批样本对应的标签集合C,因此样本数量的大小即为候选集C的大小|C|,其中|C|>10。每个样本都需要与候选集的每条文本进行相似度计算而匹配,从而得到对应的匹配度排序列表。假设样本d i所对应的标签t i在匹配度排序列表中的排位序号为x,则奖励的大小定义为以下等式:
构建基于L 0范数近似的策略网络损失函数Loss log_sum。损失函数Loss log_sum由两部分构成:根据策略梯度算法,第一部分通过反馈得到的奖励R i鼓励获得较高奖励的策略,并赋予更大的权重。这部分损失函数由Loss 1定义。第二部分通过引入log-sum函数近似L 0范数,使得对每条公文短文本中选为关键词的个数尽可能少,有利于引导策略网络学习到选择重要关键词的策略。这部分损失函数由Loss 2定义。
其中,上述等式的超参数λ调节两部分损失函数的权重比例。N代表样本总数。T i为第i条公文短文本序列的长度。R i为该条文本最后获得的奖励反馈。代表在t时刻状态s t条件下采取动作a t的概率。而/>代表在t时刻状态s t条件下将当前词判断为关键词的概率。参数/>代表log-sum函数逼近L 0范数的程度。
通过构建L 0范数近似函数作为损失函数的一部分,用于训练决策网络,使其对非结构化文本做稀疏化的选择策略,使其选择文本中重要的、相关的词作为实体的上下文特征。
如图3所示,是本发明实施例中构建文本特征提取模型的流程图,包括以下步骤:
步骤301,建立基于多层神经网络的策略网络,所述策略网络用于确定文本样本中需要保留的词。
步骤302,进行特征表示与匹配,具体包括:
(1)对需要保留的词通过词嵌入向量得到所述文本样本的语义特征向量;
(2)将所述语义特征向量与候选文本列表进行匹配;
(3)根据匹配结果得到基于匹配度的候选集排序列表;
步骤303,基于所述候选集排序列表及设定的奖励函数确定奖励,并将所述奖励反馈至策略网络。
基于强化学习迭代循环上述步骤,不断更新优化策略网络参数,最终得到文本特征提取模型。
如图4所示,是本发明提供的非结构化文本与知识图谱的语义匹配方法的另一种流程图,包括以下步骤:
步骤401,获取非结构化文本。
步骤402,对非结构化文本进行实体和位置的协同抽取,得到各实体及所述实体在文本中的开始和结束位置。
步骤403,利用所述非结构化文本、所述实体及所述实体在文本中的开始和结束位置,确定所述实体的文本特征向量。
步骤404,根据所述实体的文本特征向量将所述实体与所述知识图谱中各实体进行匹配,得到匹配实体。
步骤405,根据所述实体及所述匹配实体构建提示词语句。
步骤406,将所述提示词语句输入大规模语言模型,根据所述大规模语言模型的输出确定匹配结果是否正确。
通过大规模语言模型(简称大模型)判断实体匹配结果是否为语义一致的实体。如果大模型的判断结果为真,则接受该匹配结果;如果大模型的判断结果为假,则拒绝该匹配结果。
利用大模型的判断结果,可以进一步保障通过匹配得到的匹配结果的准确性。
相应地,本发明实施例还提供一种非结构化文本与知识图谱的语义匹配装置,如图5所示,是该装置的一种结构示意图。
该实施例中,非结构化文本与知识图谱的语义匹配装置500包括以下各模块:
输入模块501,用于获取非结构化文本;
实体抽取模块502,用于对非结构化文本进行实体和位置的协同抽取,得到各实体及所述实体在文本中的开始和结束位置;
特征向量确定模块503,用于利用所述非结构化文本、所述实体及所述实体在文本中的开始和结束位置,确定所述实体的文本特征向量;
匹配模块504,用于依次将所述知识图谱中各实体作为候选实体,根据所述实体的文本特征向量依次计算所述实体与所述候选实体的匹配度;
输出模块505,用于根据所述匹配度确定匹配实体。
本发明提供的非结构化文本与知识图谱的语义匹配装置,在无标注数据的情况下,通过深度强化学习实现实体上下文的语义特征提取,得到实体的文本特征向量;依次将所述知识图谱中各实体作为候选实体,根据所述实体的文本特征向量依次计算所述实体与所述候选实体的匹配度;根据计算得到的匹配度确定匹配实体。利用本发明方案,可以实现非结构化文本与知识图谱的语义融合需求,降低人工标注成本,并保证实体匹配准确率。
如图6所示,是本发明非结构化文本与知识图谱的语义匹配装置的另一种结构示意图。
与图5所示实施例不同的是,在该实施例中,所述非结构化文本与知识图谱的语义匹配装置500还进一步包括:词句构造模块601和验证模块602。其中:
词句构造模块601用于根据所述实体及所述匹配实体构建提示词语句。
验证模块602用于将所述提示词语句输入大规模语言模型,根据所述大规模语言模型的输出确定匹配结果是否正确。
该实施例的非结构化文本与知识图谱的语义匹配装置,在确定了知识图谱中的匹配实体后,还针对该匹配实体,通过大规模语言模型实现实体匹配结果的验证,进一步提升实体匹配准确率。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语 “包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的模块和单元可以是或者也可以不是物理上分开的,即可以位于一个网络单元上,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统,其仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围,本说明书内容不应理解为对本发明的限制。因此,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种非结构化文本与知识图谱的语义匹配方法,其特征在于,所述方法包括:
获取非结构化文本;
对非结构化文本进行实体和位置的协同抽取,得到各实体及所述实体在文本中的开始和结束位置;
利用所述非结构化文本、所述实体及所述实体在文本中的开始和结束位置,确定所述实体的文本特征向量;
依次将知识图谱中各实体作为候选实体,根据所述实体的文本特征向量依次计算所述实体与所述候选实体的匹配度;
根据所述匹配度确定匹配实体;
其中,计算所述实体与所述候选实体的匹配度包括:
计算所述实体的文本特征向量与所述候选实体的文本特征向量的匹配度,得到第一匹配值,将所述第一匹配值作为所述实体与所述候选实体的匹配度;或者
计算所述实体的文本特征向量与所述候选实体的文本特征向量的匹配度,得到第一匹配值;计算所述实体的名称与所述知识图谱中实体名称的最长公共子序列的匹配度,得到第二匹配值;将所述第一匹配值和所述第二匹配值进行加权计算,得到所述实体与所述候选实体的匹配度。
2.根据权利要求1所述的方法,其特征在于,所述对非结构化文本进行实体和位置的协同抽取包括:
将所述非结构化文本输入面向非结构化文本的实体协同抽取模型,得到所述非结构化文本中的各实体、以及所述实体在文本中的开始和结束位置。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
预先构建基于深度强化学习的文本特征提取模型;
所述根据所述非结构化文本、所述实体及所述实体在文本中的开始和结束位置,确定所述实体的文本特征向量包括:
利用所述文本特征提取模型,确定所述实体的文本特征向量。
4.根据权利要求3所述的方法,其特征在于,所述构建基于深度强化学习的文本特征提取模型包括:
建立基于多层神经网络的策略网络,所述策略网络用于确定文本样本中需要保留的词;
进行基于强化学习的网络参数优化过程,直至得到最优网络参数;所述网络参数优化过程包括:
对需要保留的词通过词嵌入向量得到所述文本样本的语义特征向量;
将所述语义特征向量与候选文本列表进行匹配,根据匹配结果得到基于匹配度的候选集排序列表;
基于所述候选集排序列表及设定的奖励函数确定奖励,并将所述奖励反馈至策略网络。
5.根据权利要求4所述的方法,其特征在于,所述策略网络包括:输入层、屏蔽层、双向LSTM层、全链接层和Softmax层。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
根据所述实体及所述匹配实体构建提示词语句;
将所述提示词语句输入大规模语言模型,根据所述大规模语言模型的输出确定匹配结果是否正确。
7.一种非结构化文本与知识图谱的语义匹配装置,其特征在于,所述装置包括:
输入模块,用于获取非结构化文本;
实体抽取模块,用于对非结构化文本进行实体和位置的协同抽取,得到各实体及所述实体在文本中的开始和结束位置;
特征向量确定模块,用于利用所述非结构化文本、所述实体及所述实体在文本中的开始和结束位置,确定所述实体的文本特征向量;
匹配模块,用于依次将所述知识图谱中各实体作为候选实体,根据所述实体的文本特征向量依次计算所述实体与所述候选实体的匹配度;
输出模块,用于根据所述匹配度确定匹配实体;
其中,所述匹配模块,具体用于计算所述实体的文本特征向量与所述候选实体的文本特征向量的匹配度,得到第一匹配值,将所述第一匹配值作为所述实体与所述候选实体的匹配度;或者计算所述实体的文本特征向量与所述候选实体的文本特征向量的匹配度,得到第一匹配值;计算所述实体的名称与所述知识图谱中实体名称的最长公共子序列的匹配度,得到第二匹配值;将所述第一匹配值和所述第二匹配值进行加权计算,得到所述实体与所述候选实体的匹配度。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
词句构造模块,用于根据所述实体及所述匹配实体构建提示词语句;
验证模块,用于将所述提示词语句输入大规模语言模型,根据所述大规模语言模型的输出确定匹配结果是否正确。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311076294.1A CN116821712B (zh) | 2023-08-25 | 2023-08-25 | 非结构化文本与知识图谱的语义匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311076294.1A CN116821712B (zh) | 2023-08-25 | 2023-08-25 | 非结构化文本与知识图谱的语义匹配方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116821712A true CN116821712A (zh) | 2023-09-29 |
CN116821712B CN116821712B (zh) | 2023-12-19 |
Family
ID=88116945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311076294.1A Active CN116821712B (zh) | 2023-08-25 | 2023-08-25 | 非结构化文本与知识图谱的语义匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116821712B (zh) |
Citations (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9710544B1 (en) * | 2016-05-19 | 2017-07-18 | Quid, Inc. | Pivoting from a graph of semantic similarity of documents to a derivative graph of relationships between entities mentioned in the documents |
US20180232443A1 (en) * | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
CN109271506A (zh) * | 2018-11-29 | 2019-01-25 | 武汉大学 | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 |
CN110265098A (zh) * | 2019-05-07 | 2019-09-20 | 平安科技(深圳)有限公司 | 一种病例管理方法、装置、计算机设备及可读存储介质 |
WO2020185321A1 (en) * | 2019-03-12 | 2020-09-17 | Microsoft Technology Licensing, Llc | Matching based intent understanding with transfer learning |
CN112328800A (zh) * | 2019-08-05 | 2021-02-05 | 上海交通大学 | 自动生成编程规范问题答案的系统及方法 |
CN112463976A (zh) * | 2020-09-29 | 2021-03-09 | 东南大学 | 一种以群智感知任务为中心的知识图谱构建方法 |
CN112559765A (zh) * | 2020-12-11 | 2021-03-26 | 中电科大数据研究院有限公司 | 一种多源异构数据库语义集成方法 |
CN112925918A (zh) * | 2021-02-26 | 2021-06-08 | 华南理工大学 | 一种基于疾病领域知识图谱的问答匹配系统 |
WO2021139101A1 (zh) * | 2020-06-09 | 2021-07-15 | 平安科技(深圳)有限公司 | 药品知识图谱的构建方法、装置和计算机设备 |
CN113191156A (zh) * | 2021-04-29 | 2021-07-30 | 浙江禾连网络科技有限公司 | 一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法 |
WO2021162941A1 (en) * | 2020-02-14 | 2021-08-19 | Tellic Llc | Technologies for relating terms and ontology concepts |
WO2021196520A1 (zh) * | 2020-03-30 | 2021-10-07 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法及系统 |
WO2021212682A1 (zh) * | 2020-04-21 | 2021-10-28 | 平安国际智慧城市科技股份有限公司 | 知识抽取方法、装置、电子设备及存储介质 |
US11227183B1 (en) * | 2020-08-31 | 2022-01-18 | Accenture Global Solutions Limited | Section segmentation based information retrieval with entity expansion |
CN114218400A (zh) * | 2021-12-13 | 2022-03-22 | 上海交通大学 | 基于语义的数据湖查询系统及方法 |
WO2022095892A1 (zh) * | 2020-11-09 | 2022-05-12 | 北京京东拓先科技有限公司 | 推送信息的生成方法、装置 |
CN114676233A (zh) * | 2021-12-15 | 2022-06-28 | 清华大学 | 基于骨骼肌知识图谱的医疗自动问答方法 |
US20220300544A1 (en) * | 2021-01-29 | 2022-09-22 | The United States Of America, As Represented By The Secretary Of The Navy | Autonomous open schema construction from unstructured text |
US20220300834A1 (en) * | 2021-03-16 | 2022-09-22 | Iron Mountain Incorporated | Knowledge-based validation of extracted entities with confidence calibration |
CN115129842A (zh) * | 2022-06-29 | 2022-09-30 | 国网浙江省电力有限公司电力科学研究院 | 一种用于户外变电站的智能问答方法及置于户外的机器人 |
WO2022222716A1 (zh) * | 2021-04-21 | 2022-10-27 | 华东理工大学 | 化工知识图谱的构建方法及装置以及智能问答方法及装置 |
CN115455935A (zh) * | 2022-09-14 | 2022-12-09 | 华东师范大学 | 一种文本信息智能处理系统 |
CN115640458A (zh) * | 2022-09-30 | 2023-01-24 | 中国四维测绘技术有限公司 | 一种遥感卫星资讯推荐方法、系统及设备 |
CN115640462A (zh) * | 2022-11-07 | 2023-01-24 | 北京航空航天大学 | 一种基于知识库增强的跨域新闻推荐方法 |
CN115688919A (zh) * | 2021-07-29 | 2023-02-03 | 北京航空航天大学 | 一种飞机电源系统故障诊断知识图谱构建及应用方法 |
CN115828604A (zh) * | 2022-12-09 | 2023-03-21 | 中国电子科技集团公司第十研究所 | 基于知识图谱的微波滤波器诊断和修复反演方法 |
CN115935995A (zh) * | 2022-12-13 | 2023-04-07 | 南京大学 | 面向知识图谱生成的非遗丝织领域实体关系抽取方法 |
WO2023065211A1 (zh) * | 2021-10-21 | 2023-04-27 | 华为技术有限公司 | 一种信息获取方法以及装置 |
CN116127084A (zh) * | 2022-10-21 | 2023-05-16 | 中国农业大学 | 基于知识图谱的微电网调度策略智能检索系统及方法 |
US20230186120A1 (en) * | 2021-11-24 | 2023-06-15 | Intelligent Fusion Technology, Inc. | Methods and systems for anomaly and pattern detection of unstructured big data |
CN116383354A (zh) * | 2023-03-21 | 2023-07-04 | 华东师范大学 | 一种基于知识图谱的图可视化自动问答方法 |
CN116502628A (zh) * | 2023-05-05 | 2023-07-28 | 北京网景盛世技术开发中心 | 基于知识图谱的政务领域多阶段融合的文本纠错方法 |
CN116541510A (zh) * | 2023-05-09 | 2023-08-04 | 西安电子科技大学 | 一种基于知识图谱的故障案例推荐方法 |
CN116628172A (zh) * | 2023-07-24 | 2023-08-22 | 北京酷维在线科技有限公司 | 基于知识图谱的政务服务领域多策略融合的对话方法 |
-
2023
- 2023-08-25 CN CN202311076294.1A patent/CN116821712B/zh active Active
Patent Citations (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9710544B1 (en) * | 2016-05-19 | 2017-07-18 | Quid, Inc. | Pivoting from a graph of semantic similarity of documents to a derivative graph of relationships between entities mentioned in the documents |
US20180232443A1 (en) * | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
CN109271506A (zh) * | 2018-11-29 | 2019-01-25 | 武汉大学 | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 |
WO2020185321A1 (en) * | 2019-03-12 | 2020-09-17 | Microsoft Technology Licensing, Llc | Matching based intent understanding with transfer learning |
CN110265098A (zh) * | 2019-05-07 | 2019-09-20 | 平安科技(深圳)有限公司 | 一种病例管理方法、装置、计算机设备及可读存储介质 |
CN112328800A (zh) * | 2019-08-05 | 2021-02-05 | 上海交通大学 | 自动生成编程规范问题答案的系统及方法 |
WO2021162941A1 (en) * | 2020-02-14 | 2021-08-19 | Tellic Llc | Technologies for relating terms and ontology concepts |
WO2021196520A1 (zh) * | 2020-03-30 | 2021-10-07 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法及系统 |
WO2021212682A1 (zh) * | 2020-04-21 | 2021-10-28 | 平安国际智慧城市科技股份有限公司 | 知识抽取方法、装置、电子设备及存储介质 |
WO2021139101A1 (zh) * | 2020-06-09 | 2021-07-15 | 平安科技(深圳)有限公司 | 药品知识图谱的构建方法、装置和计算机设备 |
US11227183B1 (en) * | 2020-08-31 | 2022-01-18 | Accenture Global Solutions Limited | Section segmentation based information retrieval with entity expansion |
CN112463976A (zh) * | 2020-09-29 | 2021-03-09 | 东南大学 | 一种以群智感知任务为中心的知识图谱构建方法 |
WO2022095892A1 (zh) * | 2020-11-09 | 2022-05-12 | 北京京东拓先科技有限公司 | 推送信息的生成方法、装置 |
CN112559765A (zh) * | 2020-12-11 | 2021-03-26 | 中电科大数据研究院有限公司 | 一种多源异构数据库语义集成方法 |
US20220300544A1 (en) * | 2021-01-29 | 2022-09-22 | The United States Of America, As Represented By The Secretary Of The Navy | Autonomous open schema construction from unstructured text |
CN112925918A (zh) * | 2021-02-26 | 2021-06-08 | 华南理工大学 | 一种基于疾病领域知识图谱的问答匹配系统 |
US20220300834A1 (en) * | 2021-03-16 | 2022-09-22 | Iron Mountain Incorporated | Knowledge-based validation of extracted entities with confidence calibration |
WO2022222716A1 (zh) * | 2021-04-21 | 2022-10-27 | 华东理工大学 | 化工知识图谱的构建方法及装置以及智能问答方法及装置 |
CN113191156A (zh) * | 2021-04-29 | 2021-07-30 | 浙江禾连网络科技有限公司 | 一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法 |
CN115688919A (zh) * | 2021-07-29 | 2023-02-03 | 北京航空航天大学 | 一种飞机电源系统故障诊断知识图谱构建及应用方法 |
WO2023065211A1 (zh) * | 2021-10-21 | 2023-04-27 | 华为技术有限公司 | 一种信息获取方法以及装置 |
US20230186120A1 (en) * | 2021-11-24 | 2023-06-15 | Intelligent Fusion Technology, Inc. | Methods and systems for anomaly and pattern detection of unstructured big data |
CN114218400A (zh) * | 2021-12-13 | 2022-03-22 | 上海交通大学 | 基于语义的数据湖查询系统及方法 |
CN114676233A (zh) * | 2021-12-15 | 2022-06-28 | 清华大学 | 基于骨骼肌知识图谱的医疗自动问答方法 |
CN115129842A (zh) * | 2022-06-29 | 2022-09-30 | 国网浙江省电力有限公司电力科学研究院 | 一种用于户外变电站的智能问答方法及置于户外的机器人 |
CN115455935A (zh) * | 2022-09-14 | 2022-12-09 | 华东师范大学 | 一种文本信息智能处理系统 |
CN115640458A (zh) * | 2022-09-30 | 2023-01-24 | 中国四维测绘技术有限公司 | 一种遥感卫星资讯推荐方法、系统及设备 |
CN116127084A (zh) * | 2022-10-21 | 2023-05-16 | 中国农业大学 | 基于知识图谱的微电网调度策略智能检索系统及方法 |
CN115640462A (zh) * | 2022-11-07 | 2023-01-24 | 北京航空航天大学 | 一种基于知识库增强的跨域新闻推荐方法 |
CN115828604A (zh) * | 2022-12-09 | 2023-03-21 | 中国电子科技集团公司第十研究所 | 基于知识图谱的微波滤波器诊断和修复反演方法 |
CN115935995A (zh) * | 2022-12-13 | 2023-04-07 | 南京大学 | 面向知识图谱生成的非遗丝织领域实体关系抽取方法 |
CN116383354A (zh) * | 2023-03-21 | 2023-07-04 | 华东师范大学 | 一种基于知识图谱的图可视化自动问答方法 |
CN116502628A (zh) * | 2023-05-05 | 2023-07-28 | 北京网景盛世技术开发中心 | 基于知识图谱的政务领域多阶段融合的文本纠错方法 |
CN116541510A (zh) * | 2023-05-09 | 2023-08-04 | 西安电子科技大学 | 一种基于知识图谱的故障案例推荐方法 |
CN116628172A (zh) * | 2023-07-24 | 2023-08-22 | 北京酷维在线科技有限公司 | 基于知识图谱的政务服务领域多策略融合的对话方法 |
Non-Patent Citations (2)
Title |
---|
CHEN, YUANZHE等: "AgriKG: an agricultural knowledge graph and its applications", 《DATABASE SYSTEMS FOR ADVANCED APPLICATIONS: DASFAA 2019 INTERNATIONAL WORKSHOPS: BDMS, BDQM, AND GDMA》, pages 533 - 537 * |
杨硕等: "多模态知识图谱增强葡萄种植问答对的答案选择模型", 《农业工程学报》, vol. 39, no. 14, pages 1 - 9 * |
Also Published As
Publication number | Publication date |
---|---|
CN116821712B (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11501182B2 (en) | Method and apparatus for generating model | |
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN117009490A (zh) | 基于知识库反馈的生成式大语言模型的训练方法和装置 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN112766507B (zh) | 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
US20230014904A1 (en) | Searchable data structure for electronic documents | |
CN114329181A (zh) | 一种题目推荐方法、装置及电子设备 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
Upreti | Convolutional neural network (cnn). a comprehensive overview | |
CN113836934B (zh) | 基于标签信息增强的文本分类方法和系统 | |
CN112035629B (zh) | 基于符号化知识与神经网络的问答模型的实现方法 | |
CN117609436A (zh) | 一种结合知识图谱和大语言模型的高校科研管理问答系统 | |
CN117350286A (zh) | 一种面向意图驱动数据链网络的自然语言意图转译方法 | |
CN115758159B (zh) | 基于混合对比学习和生成式数据增强的零样本文本立场检测方法 | |
CN116821712B (zh) | 非结构化文本与知识图谱的语义匹配方法及装置 | |
CN116976283A (zh) | 语言处理方法、训练方法、装置、设备、介质及程序产品 | |
CN113626537B (zh) | 一种面向知识图谱构建的实体关系抽取方法及系统 | |
CN111259650A (zh) | 基于类标序列生成式对抗模型的文本自动生成方法 | |
CN118228718B (zh) | 编码器处理方法、文本处理方法及相关设备 | |
Khan et al. | A Comparative Study of Pre-trained CNNs and GRU-Based Attention for Image Caption Generation | |
CN118568568B (zh) | 内容分类模型的训练方法以及相关设备 | |
CN116226678B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN117591666B (zh) | 针对桥梁管养文档的摘要抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Cai Huimin Inventor after: Cao Yang Inventor after: Dong Houze Inventor after: Zhi Ting Inventor after: Ding Hongxin Inventor before: Cai Huimin |