CN115757815A - 知识图谱的构建方法、装置及存储介质 - Google Patents
知识图谱的构建方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115757815A CN115757815A CN202211382345.9A CN202211382345A CN115757815A CN 115757815 A CN115757815 A CN 115757815A CN 202211382345 A CN202211382345 A CN 202211382345A CN 115757815 A CN115757815 A CN 115757815A
- Authority
- CN
- China
- Prior art keywords
- entity
- triple
- triples
- knowledge
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开一种知识图谱的构建方法、装置及存储介质,属于信息抽取和知识图谱技术领域。该知识图谱的构建方法,包括以下步骤:S1、对原始文本进行抽取,得到候选三元组集合;S2、对所述候选三元组集合进行校验,所述校验包括判断出精选三元组,所述精选三元组作为构成知识图谱的三元组元素,形成精选三元组集合;S3、以精选三元组的头实体和尾实体作为命名实体识别的标准答案,训练并更新命名实体识别模型;S4、利用所述命名实体识别模型对原始文本的句子进行实体识别,自动标注出其中的实体,抽取三元组。该方法实现了从文本中构建出高质量的知识图谱。
Description
技术领域
本发明涉及信息抽取和知识图谱技术领域,具体涉及一种知识图谱的构建方法、装置及存储介质。
背景技术
知识图谱的数据结构由“头实体-关系-尾实体”的三元组构成(例如,“姚明-出生于-上海”),它能够可视化地呈现实体之间的关联关系,从而帮助自然语言理解、问答推理等下游任务。然而,大规模知识图谱的构建通常需要耗费巨大的人力和时间,特别是一些垂直领域,因为缺少专业的领域内人员,因此无法直接构建大规模图谱,也缺乏标注数据以训练实体关系的抽取模型。因此,如何在这种情况下,从文本中进行知识挖掘,继而从无到有地建设高质量的知识图谱,是知识图谱构建与应用的一个重要问题。
发明内容
本发明的目的在于克服上述技术不足,提供一种基于校验环节的知识图谱的构建方法、装置及存储介质,解决现有技术中如何从文本中构建高质量的知识图谱。
为达到上述技术目的,本发明的技术方案提供一种基于校验环节的知识图谱的构建方法,包括以下步骤:
S1、对原始文本进行抽取,得到候选三元组集合,所述候选三元组集合中的三元组包括头实体、关系和尾实体;
S2、对所述候选三元组集合进行校验,所述校验包括判断出精选三元组,所述精选三元组作为构成知识图谱的三元组元素,形成精选三元组集合;
S3、以精选三元组的头实体和尾实体作为命名实体识别的标准答案,训练并更新命名实体识别模型;
S4、利用所述命名实体识别模型对原始文本的句子进行实体识别,自动标注出其中的实体,抽取三元组。
进一步地,在步骤S1之前,还包括对原始文本进行预处理,包括:将原始文本进行句子切分、短语句法分析,得到文本中每个句子的句法分析结果。
进一步地,在步骤S2中,所述精选三元组的判断包括:计算三元组中头实体和尾实体的置信度,若头实体的置信度大于0.7且尾实体置信度大于0.7,则判断该三元组为精选三元组。
进一步地,在步骤S2中,所述置信度由以下步骤得到:将三元组所在句子w输入命名实体识别模型,模型会输出w中每个字符被判断为实体起始位、实体中间位、实体结束位、非实体字符的概率,分别记ps,pm,pe,po,且有ps+pm+pe+po=1;将头实体或者尾实体所对应的实体字符标签序列的概率平均,得到头实体或者尾实体的置信度。
进一步地,在步骤S2中,所述校验还包括过滤三元组,将过滤的三元组作为过滤三元组集合。
进一步地,在步骤S3中,训练并更新所述命名实体识别模型包括:将步骤S2的精选三元组集合中的精选三元组作为正样本,将过滤三元组集合中固定过滤三元组作为负样本合并,作为命名实体识别模型的训练数据,在训练过程中,将正样本和负样本,输入基于BERT+CRF的命名实体识别模型,迭代后,停止训练,得到新的命名实体识别模型。
此外,本发明还提出一种知识图谱的构建装置,包括:
第一抽取单元,用于对原始文本进行抽取,得到候选三元组集合,所述三元组集合中的三元组包括头实体、关系和尾实体;
校验单元,对所述候选三元组集合进行校验,所述校验包括判断出精选三元组,所述精选三元组作为构成知识图谱的三元组元素,形成精选三元组集合;
训练单元,用于以精选三元组的头实体和尾实体作为命名实体识别的标准答案,训练并更新命名实体识别模型;
第二抽取单元,用于利用所述命名实体识别模型对原始文本的句子进行实体识别,自动标注出其中的实体,抽取三元组。
进一步地,本发明提出一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述知识图谱的构建方法的步骤。
与现有技术相比,本发明的有益效果包括:对原始文本进行抽取,得到候选三元组集合,所述候选三元组集合中的三元组包括头实体、关系和尾实体;对所述候选三元组集合进行校验,所述校验包括判断出精选三元组,所述精选三元组作为构成知识图谱的三元组元素,形成精选三元组集合;以精选三元组的头实体和尾实体作为命名实体识别的标准答案,训练并更新命名实体识别模型;利用所述命名实体识别模型对原始文本的句子进行实体识别,自动标注出其中的实体,抽取三元组,在知识图谱构建过程中,加入了校验步骤,对抽取结果进行筛选,使得所抽取的三元组更符合知识图谱定义,优化了抽取效果。同时,增加了实体识别的模型更新回路,使得在知识图谱构建的过程中,能够不断地优化实体识别模型,继而增强抽取和校验效果,得到更加精准的三元组,实现了从文本中构建出高质量的知识图谱。
附图说明
图1是本发明具体实施方式中提出的一种基于校验环节的知识图谱的构建方法的流程图;
图2是本发明具体实施方式中提出的一种基于校验环节的知识图谱的构建装置的结构框图。
具体实施方式
结合图1,本具体实施方式提供一种基于校验环节的知识图谱的构建方法,包括以下步骤:
S0、对原始文本进行预处理,包括:将原始文本进行句子切分、短语句法分析,得到文本中每个句子的句法分析结果;
S1、对原始文本进行抽取,得到候选三元组集合,所述候选三元组集合中的三元组包括头实体、关系和尾实体;
S2、对所述候选三元组集合进行校验,所述校验包括判断出精选三元组,所述精选三元组作为构成知识图谱的三元组元素,形成精选三元组集合;所述精选三元组的判断包括:计算三元组中头实体和尾实体的置信度,若头实体的置信度大于0.7且尾实体置信度大于0.7,则判断该三元组为精选三元组;所述置信度由以下步骤得到:将三元组所在句子W输入命名实体识别模型,模型会输出W中每个字符被判断为实体起始位、实体中间位、实体结束位、非实体字符的概率,分别记ps,pm,pe,pe,且有ps+pm+pe+po=1;将头实体或者尾实体所对应的实体字符标签序列的概率平均,得到头实体或者尾实体的置信度;一个头实体或者尾实体所对应的字符串长度为N,记作{wi,wi+1,…,wi+N},则其置信度可由下列公式计算得到:所述校验还包括过滤三元组,将过滤的三元组作为过滤三元组集合;
S3、以精选三元组的头实体和尾实体作为命名实体识别的标准答案,训练并更新命名实体识别模型;训练并更新所述命名实体识别模型包括:将步骤S2的精选三元组集合中的精选三元组作为正样本,将过滤三元组集合中固定过滤三元组作为负样本合并,作为命名实体识别模型的训练数据,在训练过程中,将正样本和负样本,输入基于BERT+CRF的命名实体识别模型,迭代后,停止训练,得到新的命名实体识别模型;
S4、利用所述命名实体识别模型对原始文本的句子进行实体识别,自动标注出其中的实体,抽取三元组。
结合图2,本具体实施方式还提出一种知识图谱的构建装置,包括:
第一抽取单元,用于对原始文本进行抽取,得到候选三元组集合,所述三元组集合中的三元组包括头实体、关系和尾实体;
校验单元,对所述候选三元组集合进行校验,所述校验包括判断出精选三元组,所述精选三元组作为构成知识图谱的三元组元素,形成精选三元组集合;
训练单元,用于以精选三元组的头实体和尾实体作为命名实体识别的标准答案,训练并更新命名实体识别模型;
第二抽取单元,用于利用所述命名实体识别模型对原始文本的句子进行实体识别,自动标注出其中的实体,抽取三元组。
进一步地,本具体实施方式还提出一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述知识图谱的构建方法的步骤。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
本实施例提出一种基于校验环节的知识图谱的构建方法,包括以下步骤:
S0、对原始文本进行预处理,包括:将原始文本进行句子切分、短语句法分析,得到文本中每个句子的句法分析结果;
S1、采用基于句法标签的规则,或者采用人工定制的正则表达式,对原始文本中的每个句子W={w1,w2,…,wn}进行三元组抽取,得到候选三元组集合,所述候选三元组集合中的三元组包括头实体、关系和尾实体;主要抽取的句法标签规则为:NP/NN/NR-VE/VC/VV-NP/NN/NR,将句子中该标签下的字符串作为头实体e1、关系r、尾实体e2;
S2、利用在通用领域训练好的基于BERT+CRF的命名实体识别模型作为初始模型,判断所抽取的候选三元组中e1、e2是否是命名实体;具体地,对所述候选三元组集合进行校验,所述校验包括判断出精选三元组,所述精选三元组作为构成知识图谱的三元组元素,形成精选三元组集合;所述精选三元组的判断包括:计算三元组中头实体和尾实体的置信度,若头实体的置信度大于0.7且尾实体置信度大于0.7,则判断该三元组为精选三元组;所述置信度由以下步骤得到:将三元组所在句子W输入命名实体识别模型,模型会输出W中每个字符被判断为实体起始位、实体中间位、实体结束位、非实体字符的概率,分别记ps,pm,pe,po,且有ps+pm+pe+po=1;将头实体或者尾实体所对应的实体字符标签序列的概率平均,得到头实体或者尾实体的置信度;一个头实体或者尾实体所对应的字符串长度为N,记作{wi,wi+1,…,wi+N},则其置信度可由下列公式计算得到:所述校验还包括过滤三元组,将过滤的三元组作为过滤三元组集合;将满足e1实体置信度>0.7且e2实体置信度>0.7的三元组加入精选三元组集合A,作为知识图谱的三元组元素;未被选入精选三元组集合的,则加入过滤三元组集合B中;
S3、重复步骤S1~S2,直至精选三元组集合A和过滤三元组集合B中的三元组数量均达到1,000条,从三元组集合A中和B中,各抽取最新的1000条样本,对于A中的样本,将每个样本的e1和e2实体字段,在其对应的原始文本句子中标出,并将该句子作为一条正样本;对于B中的样本,将每个样本的e1和e2实体字段,在其对应的原始文本句子中标出,并将该句子作为一条负样本,将正样本集合和负样本集合合并,作为命名实体识别模型的训练数据,在训练过程中,将正样本和负样本,输入基于BERT+CRF的命名实体识别模型,迭代5代后,停止训练,得到新的命名实体识别模型;
S4、利用所述命名实体识别模型用训练完毕的命名实体识别模型,替代步骤S2中的初始模型,采取与步骤S2相同的方法,自动地对候选三元组中的e1、e2是否是命名实体作出判断对原始文本的句子进行实体识别,自动标注出其中的实体,抽取三元组,重复步骤S2~S4,扩大知识图谱的三元组集合规模。
本发明与完全基于实体关系抽取模型的构建方法相比,能够在无数据标注的情况下基于规则生成部分三元组,解决了模型在迁移到新领域时的冷启动问题。与完全基于规则的构建方法相比,在知识图谱构建过程中,加入了校验步骤,对抽取结果进行筛选,使得所抽取的三元组更符合知识图谱定义,优化了规则抽取效果。同时,增加了实体识别的模型更新回路,使得在知识图谱构建的过程中,能够不断地优化实体识别模型,继而增强抽取和校验效果,得到更加精准的三元组。
本发明使得在处理一个无标注数据的新领域文本时,能够快速地抽取三元组构建知识图谱而不需要大量的人工标注;另一方面,又创新性地加入了基于命名实体识别模型的校验环节,借助命名实体识别模型校验所抽取的三元组结果是否可加入知识图谱。无论是否加入,被模型校验的结果,均被用于构造命名实体识别的训练样本,在样本积累到一定程度后再对命名实体识别模型进行更新。如此,形成了基于命名实体模型的“校验-更新”闭环,从而稳步提升了最终的三元组抽取效果。
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。
Claims (9)
1.知识图谱的构建方法,其特征在于,包括以下步骤:
S1、对原始文本进行抽取,得到候选三元组集合,所述候选三元组集合中的三元组包括头实体、关系和尾实体;
S2、对所述候选三元组集合进行校验,所述校验包括判断出精选三元组,所述精选三元组作为构成知识图谱的三元组元素,形成精选三元组集合;
S3、以精选三元组的头实体和尾实体作为命名实体识别的标准答案,训练并更新命名实体识别模型;
S4、利用所述命名实体识别模型对原始文本的句子进行实体识别,自动标注出其中的实体,抽取三元组。
2.根据权利要求1所述的知识图谱的构建方法,其特征在于,在步骤S1之前,还包括对原始文本进行预处理,包括:将原始文本进行句子切分、短语句法分析,得到文本中每个句子的句法分析结果。
3.根据权利要求1所述的知识图谱的构建方法,其特征在于,在步骤S2中,所述精选三元组的判断包括:计算三元组中头实体和尾实体的置信度,若头实体的置信度大于0.7且尾实体置信度大于0.7,则判断该三元组为精选三元组。
4.根据权利要求3所述的知识图谱的构建方法,其特征在于,在步骤S2中,所述置信度由以下步骤得到:将三元组所在句子w输入命名实体识别模型,模型会输出w中每个字符被判断为实体起始位、实体中间位、实体结束位、非实体字符的概率,分别记ps,pm,pe,po,且有ps+pm+pe+po=1;将头实体或者尾实体所对应的实体字符标签序列的概率平均,得到头实体或者尾实体的置信度。
6.根据权利要求1所述的知识图谱的构建方法,其特征在于,在步骤S2中,所述校验还包括过滤三元组,将过滤的三元组作为过滤三元组集合。
7.根据权利要求6所述的知识图谱的构建方法,其特征在于,在步骤S3中,训练并更新所述命名实体识别模型包括:将步骤S2的精选三元组集合中的精选三元组作为正样本,将过滤三元组集合中固定过滤三元组作为负样本合并,作为命名实体识别模型的训练数据,在训练过程中,将正样本和负样本,输入基于BERT+CRF的命名实体识别模型,迭代后,停止训练,得到新的命名实体识别模型。
8.一种知识图谱的构建装置,其特征在于,包括:
第一抽取单元,用于对原始文本进行抽取,得到候选三元组集合,所述三元组集合中的三元组包括头实体、关系和尾实体;
校验单元,对所述候选三元组集合进行校验,所述校验包括判断出精选三元组,所述精选三元组作为构成知识图谱的三元组元素,形成精选三元组集合;
训练单元,用于以精选三元组的头实体和尾实体作为命名实体识别的标准答案,训练并更新命名实体识别模型;
第二抽取单元,用于利用所述命名实体识别模型对原始文本的句子进行实体识别,自动标注出其中的实体,抽取三元组。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的知识图谱的构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211382345.9A CN115757815A (zh) | 2022-11-04 | 2022-11-04 | 知识图谱的构建方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211382345.9A CN115757815A (zh) | 2022-11-04 | 2022-11-04 | 知识图谱的构建方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115757815A true CN115757815A (zh) | 2023-03-07 |
Family
ID=85356732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211382345.9A Pending CN115757815A (zh) | 2022-11-04 | 2022-11-04 | 知识图谱的构建方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115757815A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725232A (zh) * | 2024-02-18 | 2024-03-19 | 中国电子科技集团公司第十五研究所 | 多模态知识图谱校验方法、装置、电子设备及存储介质 |
-
2022
- 2022-11-04 CN CN202211382345.9A patent/CN115757815A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725232A (zh) * | 2024-02-18 | 2024-03-19 | 中国电子科技集团公司第十五研究所 | 多模态知识图谱校验方法、装置、电子设备及存储介质 |
CN117725232B (zh) * | 2024-02-18 | 2024-04-26 | 中国电子科技集团公司第十五研究所 | 多模态知识图谱校验方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133220B (zh) | 一种地理学科领域命名实体识别方法 | |
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN107943911A (zh) | 数据抽取方法、装置、计算机设备及可读存储介质 | |
CN112149421A (zh) | 一种基于bert嵌入的软件编程领域实体识别方法 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN112435651A (zh) | 一种语音数据自动标注的质量评估方法 | |
CN112069826A (zh) | 融合主题模型和卷积神经网络的垂直域实体消歧方法 | |
CN110688489A (zh) | 基于交互注意力的知识图谱推演方法、装置和存储介质 | |
CN111967267B (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN113934909A (zh) | 基于预训练语言结合深度学习模型的金融事件抽取方法 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN115757815A (zh) | 知识图谱的构建方法、装置及存储介质 | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 | |
CN115017335A (zh) | 知识图谱构建方法和系统 | |
CN111898337B (zh) | 一种基于深度学习的单句摘要缺陷报告标题自动生成方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN115203429B (zh) | 一种用于构建审计领域本体框架的知识图谱自动扩充方法 | |
CN115392255A (zh) | 一种面向桥梁检测文本的少样本机器阅读理解方法 | |
CN115238093A (zh) | 一种模型训练的方法、装置、电子设备及存储介质 | |
CN116069946A (zh) | 一种基于深度学习的生物医学知识图谱构建方法 | |
CN114564942A (zh) | 一种用于监管领域的文本纠错方法、存储介质和装置 | |
CN115358227A (zh) | 一种基于短语增强的开放域关系联合抽取方法及系统 | |
CN118069789B (zh) | 一种面向立法意见的关键信息抽取方法、系统及设备 | |
CN117852637B (zh) | 一种基于定义的学科概念知识体系自动构建方法与系统 | |
CN112836047B (zh) | 一种基于句子语义替换的电子病历文本数据增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |