CN113626613B - 基于融入知识图谱子图信息及实体信息的实体链接方法 - Google Patents
基于融入知识图谱子图信息及实体信息的实体链接方法 Download PDFInfo
- Publication number
- CN113626613B CN113626613B CN202110951011.8A CN202110951011A CN113626613B CN 113626613 B CN113626613 B CN 113626613B CN 202110951011 A CN202110951011 A CN 202110951011A CN 113626613 B CN113626613 B CN 113626613B
- Authority
- CN
- China
- Prior art keywords
- entity
- information
- candidate
- knowledge
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 59
- 238000011176 pooling Methods 0.000 claims abstract description 39
- 239000013598 vector Substances 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 239000013604 expression vector Substances 0.000 claims 4
- 230000004927 fusion Effects 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 10
- 230000010354 integration Effects 0.000 description 10
- 239000010931 gold Substances 0.000 description 6
- 229910052737 gold Inorganic materials 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- AIKDJELJHUPYNG-UHFFFAOYSA-N 2-[[5-[3-(4-chlorophenoxy)prop-1-ynyl]-3-hydroxypyridine-2-carbonyl]amino]acetic acid Chemical compound ClC1=CC=C(OCC#CC2=CN=C(C(=C2)O)C(=O)NCC(=O)O)C=C1 AIKDJELJHUPYNG-UHFFFAOYSA-N 0.000 description 2
- 101000660293 Geobacillus stearothermophilus 50S ribosomal protein L32 Proteins 0.000 description 2
- 241001504624 Streptopelia Species 0.000 description 2
- 241000270666 Testudines Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于融入知识图谱子图信息及实体信息的实体链接方法,该方法包括以下步骤:获取问句文本,喂入训练好的提及识别模型,识别出预测提及词;对预测提及词进行召回,得到更高准确率的目标提及词。根据目标提及词从知识库中得到提及词对应的所有候选实体;对每个候选实体,检索它的知识图谱子图信息;将知识图谱子图信息融入到候选实体中得到候选实体文本,并在问句文本及候选实体文本中引入实体边界标签,构建实体消歧数据集;喂入训练好的实体消歧模型,池化得到提及词对应的知识库实体,完成实体链接。本发明能有效提高提及词识别的召回率,提高候选实体的排序准确率并减少错误传递,有效解决推理及在训练集中的未见实体情况。
Description
技术领域
本发明涉及人工智能的自然语言处理领域,尤其涉及一种基于融入知识图谱子图信息及实体信息的实体链接方法。
背景技术
知识库问答(knowledge base question answering,KBQA)即给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案。分为两类方法:基于语义分析(SP)的方法和基于信息抽取(IE)的方法。其中,信息抽取方法有较为固定的模型框架、泛化性能也比较好。这类方法一般采用流水线的架构,先进行(1)实体链接,即将问题中的提及词mention链接到知识库的实体。然后进行(2)关系识别,即将问题的意图映射到知识库某个实体的某个关系上。然后通过预测得到实体和关系,在知识库中检索,得到最终问题的答案。
但是,实体链接任务常见的问题在于问句能提供的上下文信息量太小,同时命名实体的边界不清晰。导致问句的提及词链接到知识库实体的准确率不高。
发明内容
基于此,为解决上小文信息量小,中文命名实体边界模糊的问题,本发明提供一种基于融入知识图谱子图信息及实体信息的实体链接方法,通过提高KBQA实体链接任务的性能,然后进一步提高整个知识库问答任务的表现,以解决上述背景中提到的问题。
本发明采用以下技术方案实现:
一种基于融入知识图谱子图信息及实体信息的实体链接方法,包括:
获取问句文本,喂入训练好的提及识别模型,识别出所述问句文本中的预测提及词(predicted meniton);
对预测提及词召回,根据召回算法得到目标提及词(target mention),根据知识库自带的映射文件(mention2id),得到目标提及词的所有候选实体,从知识库中检索每个候选实体,得到所有候选实体的知识图谱子图信息;
将所述知识图谱子图信息融入到所述候选实体中得到候选实体文本,并在包含提及词的问句文本及包含候选实体的候选实体文本中引入标签对,即引入实体边界信息,构建实体消歧数据集;
将所述实体消歧数据集喂入训练好的实体消歧模型,池化得到提及词对应的不同候选实体的分值,取分值最高作为提及词的目标实体,完成实体链接。
作为本发明进一步的方案,所述训练提及识别模型的方法包括:
构建提及识别预训练模型;
获取训练数据,对训练数据中的文本进行序列标注,标出命名实体,得到训练集;
将标签的训练集输入到所述提及识别预训练模型进行训练得到相应的命名实体,得到提及识别模型。
作为本发明进一步的方案,所述预训练模型为BERT模型加入CRF架构的基础模型;所述训练数据中的文本进行标签的方法为:
获取训练数据中的文本的句子;
对所述句子中的每一个中文字进行标注;
其中,对句子中命名实体的第一个字、命名实体中的其他字以及句子的非命名实体字标注出不同标签,命名实体为提及词。
作为本发明进一步的方案,所述提及词召回的方法,包括:
获取提及识别模型识别的预测提及词以及一个提及词跟知识库实体的映射文件;
从所述映射文件中得到知识图谱的全部提及词列表,遍历全部提及词列表中的项,提取所述预测提及词包含的项形成切割列表;
将切割列表中长度最大的项作为召回提及词,根据召回提及词与预测提及词建立召回列表;
遍历召回列表中的每一项,检索所述全部提及词列表中包含所述历召回列表的项,提取构建延伸列表,将延伸列表与所述立召回列表合并得到召回的实体召回列表。
作为本发明进一步的方案,所述候选实体文本的构建方法,包括:
检索知识图谱,所述知识图谱以头节点、关系、尾节点的三元组形式存储;
根据所述知识图谱的三元组形式,将所有与头节点相连的边和尾节点都取出作为知识图谱子图信息,得到所述候选实体的所有知识图谱子图信息;
将所述知识图谱子图信息拼接到所述候选实体的上下文中得到候选实体文本。
进一步的,所述标签对为实体消歧模型识别所述提及词和候选实体的边界信息,所述标签对分别插入所述问句文本的提及词前后和所述候选实体文本的候选实体前后。
作为本发明进一步的方案,所述实体消歧数据集构建为:[CLS]“问句文本”[SEP]+“候选实体文本”+[SEP]+句对的正确分类。
作为本发明进一步的方案,训练实体消歧模型的方法包括:
基于BERT模型构建BERT的句子对分类任务的实体消歧预训练模型;
将实体消歧数据集输入到所述实体消歧预训练模型进行训练得到相应的知识库实体,得到实体消歧模型。
作为本发明进一步的方案,实体消歧模型的池化采用实体级别的最大池化策略,所述池化得到提及词对应的知识库实体为:
根据实体级别的最大池化策略分别获取所述提及词片段的最大池化表示向量和候选实体片段的最大池化表示向量;
将[CLS]的表示向量、问句文本的提及词片段的最大池化表示向量以及候选文本的候选实体片段的最大池化表示向量进行拼接,输入前馈神经网络,通过计算得到所述问句文本中提及词所指向的知识库实体的分值;
根据计算得到的分值对比,取最大分值的候选实体作为实体目标,得到提及词对应的知识库实体。
进一步的,所述计算得到所述问句文本中提及词所指向的知识库实体的分值采用Softmax函数。
上述基于融入知识图谱子图信息及实体信息的实体链接方法,基于中文预训练语言模型BERT进行建模,构建BERT加入CRF的序列标注任务的提及词识别模型,构建BERT的句子对分类任务的实体消歧模型;通过对问答文本中提及词的识别,增加召回处理过程,能有效提高提及识别的召回率,提高候选实体的排序准确率并减少错误传递;在实体消歧任务上融入知识图谱信息和实体边界信息,有效解决需要推理的情况,以及候选实体和提及词大量重叠的情况;通过特别的池化策略,一定程度上解决知识噪声的问题;整个实体链接的建模基于预训练语言模型,融入知识图谱知识有效解决推理的情况,融入语言知识一定程度上解决在训练集中的未见实体情况。
附图说明
图1为本发明实施例提供的基于融入知识图谱子图信息及实体信息的实体链接方法的流程方框示意图。
图2为本发明实施例提供的基于融入知识图谱子图信息及实体信息的实体链接方法中训练提及识别模型的流程方框示意图。
图3为本发明实施例提供的基于融入知识图谱子图信息及实体信息的实体链接方法中文本进行标签的流程方框示意图。
图4为本发明实施例提供的基于融入知识图谱子图信息及实体信息的实体链接方法中提及词召回的流程方框示意图。
图5为本发明实施例提供的基于融入知识图谱子图信息及实体信息的实体链接方法中候选实体文本的构建的流程方框示意图。
图6为本发明实施例提供的基于融入知识图谱子图信息及实体信息的实体链接方法中训练实体消歧模型的流程方框示意图。
图7为本发明实施例提供的基于融入知识图谱子图信息及实体信息的实体链接方法中池化得到知识库实体的流程方框示意图。
图8为本发明实施例提供的基于融入知识图谱子图信息及实体信息的实体链接方法中BERT的句子对分类任务(a)和BERT+CRF的序列批注任务(b)的流程图。
图9为本发明实施例提供的基于融入知识图谱子图信息及实体信息的实体链接方法的整体框架图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
参阅图1和图9所示,基于融入知识图谱子图信息及实体信息的实体链接方法,包括以下步骤:
S1、获取问句文本,喂入训练好的提及识别模型,识别出问句文本中的预测提及词。
该步骤中,先确定训练好的提及识别模型,参见图2所示,所述提及识别模型的训练方法包括:
S11、构建提及识别预训练模型;
在本发明的一个实施例中,是基于中文预训练语言模型BERT进行建模,在BERT模型加入CRF架构,形成BERT+CRF的序列标注任务;在采用提及识别预训练模型序列标注任务的示意图如图8(b)所示;
S12、获取训练数据,对训练数据中的文本进行序列标注,标出命名实体,得到训练集;
在本发明的一个实施例中,所述训练数据来源于全部的原始数据,是对全部的原始数据的80%作为训练数据来训练模型,另外20%作为测试数据,以便通过测试数据直接判断模型的效果,在模型进入真实环境前改进模型。在提及识别中,对于训练数据包含书名号的位置做了特别处理,把书名号视为命名实体的一部分去进行标注,能提高包含书名号的提及词的预测准确率。
在本发明的一个实施例中,参见图3所示,所述训练数据中的文本进行标签的方法为:
S111、获取训练数据中的文本的句子;
S112、对所述句子中的每一个中文字进行标注;
其中,在本发明的一个实施例中,对句子中命名实体的第一个字、命名实体中的其他字以及句子的非命名实体字标注出不同标签,命名实体为提及词。具体的做法是将需要识别的自然语言(主要是各种语句)作为训练数据按BIO的方法去标注,得到训练集。即对训练数据中的句子,每个中文字都进行标注。其中,命名实体开始的第一个字则给标签B-entity,命名实体的其他字给标签I-entity,表示命名实体的内部。句子的其他非命名实体的字给标签O。
示例性地,标注方法如下表1所示:
表1提及识别模型的数据标注案例
对句子“2013年12月永宁站的日进出人次是多少排名第几?”进行标注,标注后的句子为“2013(O)年(O)12(O)月(O)永(B)宁(I)站(I)的(O)日(O)进(O)出(O)人(O)次(O)是(O)多(O)少(O)排(O)名(O)第(O)几(O)?(O)”。其中,“永宁站”为提及词,也叫命名实体。
又一示例性地,对句子“需提供DDO-3055片临床研究方案、研究者手册等资料吗?”进行标注,标注后的句子为“需(O)提(O)供(O)D(B)D(I)O(I)-(I)3(I)0(I)5(I)5(I)片(I)临(O)床(O)研(O)究(O)方(O)案(O)、(O)研(O)究(O)者(O)手(O)册(O)等(O)资(O)料(O)吗(O)?(O)”。其中,DDO-3055片为提及词,也叫命名实体。
S13、将标签的训练集输入到所述提及识别预训练模型进行训练得到相应的命名实体,得到提及识别模型。
对于通过BIO的方法去标注训练数据放入采用现成的预训练模型BERT+CRF进行训练,得到提及识别模型。
训练好的模型能够对每个输入句子的每个中文字进行去三分类预测。即预测每个中文字是命名实体的开始(B-entity),命名实体的内部(I-entity)还是非命名实体(O)。
S2、对预测提及词召回,根据召回算法得到目标提及词,根据知识库自带的映射文件(mention2id),得到目标提及词的所有候选实体,从知识库中检索每个候选实体,得到所有候选实体的知识图谱子图信息。
任何一个问题输入到训练好的提及识别模型之后,会得到一个预测的提及词,将预测提及词输入提及召回模块,对预测提及词进行召回,得到更高准确率的目标提及词。
具体地,比如问句“动物斑鸠属是属于什么目呀?”BERT+CRF模型预测的命名实体是“动物斑鸠属”,而目标命名实体是“斑鸠属”。
提及识别模型之后,对于错配的命名实体,其实与目标命名实体存在重叠字的情况,设计了一种召回提及词模块,其来召回更多目标命名实体,提高整个提及识别的准确率。在该步骤中,参见图4所示,所述提及词召回的方法,包括:
S21、获取提及识别模型识别的预测提及词以及一个提及词跟知识库实体的映射文件;
在该步骤中,具体的,输入是BERT+CRF模型的预测实体m_p,以及一个提及词跟知识库实体的映射文件mention2id(文件的某行形如“李娜李娜(演员),李娜(篮球运动员),李娜(排球运动员)”)。其中,mention2id文件为官方数据提供。
S22、从所述映射文件中得到知识图谱的全部提及词列表,遍历全部提及词列表中的项,提取所述预测提及词包含的项形成切割列表;
在该步骤中,具体的,从官方数据提供的mention2id文件得到整个知识图谱所有提及词列表L_gold。遍历L_gold中的项,把预测实体m_p包含的子串(L_gold中的项)放到列表L_cut。
S23、将切割列表中长度最大的项作为召回提及词,根据召回提及词与预测提及词建立召回列表;
在该步骤中,具体的,找到L_cut中长度最大的作为召回的提及词。记为m_c。把m_p和m_c放入列表L_recall。
其中,得到预测命名实体中包含的最长目标命名实体。能把“动物斑鸠属”截短为目标命名实体“斑鸠属”。
在比如问题“你知道赵文卓甄子丹事件都有谁吗?”BERT+CRF模型预测的命名实体是“赵文卓甄子丹”,而目标命名实体是“赵文卓甄子丹事件”。
S24、遍历召回列表中的每一项,检索所述全部提及词列表中包含所述历召回列表的项,提取构建延伸列表,将延伸列表与所述立召回列表合并得到召回的实体召回列表。
在该步骤中,具体的,遍历列表L_recall中的每一项,检索L_gold中哪些项包含L_recall中的项。把这些L_gold项拿出去,放到列表L_extend中。把L_extend和L_recall合并得到最终的实体召回列表L_recall。
其中,检索L_gold的每个项(元素),得到包含预测实体“赵文卓甄子丹”的全部目标实体,能召回目标实体“赵文卓甄子丹事件”。
本发明的提及词召回的方法,能提高提及识别的召回率,同时,有效解决流水线框架下的错误传递问题,所谓错误传递,即对于一个问题,在第一个子任务提及识别,预测错误的话,在第二个子任务实体消歧也必定会错误下去。
S3、将所述知识图谱子图信息融入到所述候选实体中得到候选实体文本,并在包含提及词的问句文本及包含候选实体的候选实体文本中引入标签对,即引入实体边界信息,构建实体消歧数据集。
在该步骤中,参见图5所示,所述候选实体文本的构建方法包括:
S31、检索知识图谱,所述知识图谱以头节点、关系、尾节点的三元组形式存储。
在该步骤中,知识图谱(知识库)由<subject,relation,object>三元组的形式存在,分别表示为头节点,关系,尾节点。比如<永宁站(新北市),别名,永宁站>。
S32、根据所述知识图谱的三元组形式,将所有与头节点相连的边和尾节点都取出作为知识图谱子图信息,得到所述候选实体的所有知识图谱子图信息。
在该步骤中,具体的,将所有与头节点相连的边和尾节点都取出来,称为这个头节点的一跳子图信息,即得到所述候选实体的所有知识图谱子图信息。
S33、将所述知识图谱子图信息拼接到所述候选实体的上下文中得到候选实体文本。
在该步骤中,具体的,将一跳子图信息拼接到候选实体的上下文中作为句子2,即候选实体文本。
在本发明的一个实施例中,知识库中以三元组的形式<头实体,关系,尾节点>存储所有知识,比如对于某个来自知识图谱的候选实体A,可能有多个三元组。即对应的关系1-属性值1,关系2-属性值2等。比如<姚明,性别,男>,<姚明,职业,篮球运动员>等。具体地,按训练格式:“候选实体+关系1+属性值1+关系2+属性值2+....”拼接到候选实体后得到句子2。
比如“永宁站(新北市)”+“别名:永宁站,车站代码:BL37,营运系统:台北捷运,所属路线:5号线(土城线),位置:新北市土城区中央路3段105号B1,站体型式:地下车站,站台形制:岛式月台,出口数目:4,设站日期:2006年5月31日,日进出人次:29,806[1],第49名(2013年12月)”。
在本发明中,还包括融入实体边界信息。问题文本作为句子1包含提及词。句子2包含候选实体。为了让模型学习到提及词和候选实体在上下文中的边界,分别引入了特殊的标签对插入到提及词和候选实体的前后,便签对为<e1></e1>和<e2></e2>。所述标签对为实体消歧模型识别所述提及词和候选实体的边界信息。
所述实体消歧数据集构建为:[CLS]“问句文本”[SEP]+“候选实体文本”+[SEP]+句对的正确分类。在本发明一个实施例中,基于BERT的句对匹配任务,将所述数据集构建为[CLS]“句子1”[SEP]+“句子2”+[SEP]+句对的正确分类,得到该数据集。
最终输入模型的数据格式如下:
“[CLS]2013年12月<e1>永宁站</e1>的日进出人次是多少排名第几?[SEP]<e2>永宁站(新北市)</e2>别名:永宁站,车站代码:BL37,营运系统:台北捷运,所属路线:5号线(土城线),位置:新北市土城区中央路3段105号B1,站体型式:地下车站,站台形制:岛式月台,出口数目:4,设站日期:2006年5月31日,日进出人次:29,806[1],第49名(2013年12月),首班车:永宁站首班车时间土城线往南港展览馆:06:00,末班车:永宁站末班车时间土城线往南港展览馆:00:00[SEP]1”。
S4、将所述实体消歧数据集喂入训练好的实体消歧模型,池化得到提及词对应的不同候选实体的分值,取分值最高作为提及词的目标实体,完成实体链接。
在该步骤中,参见图6所示,所述训练实体消歧模型的方法包括:
S41、基于BERT模型构建BERT的句子对分类任务的实体消歧预训练模型,在采用实体消歧的基础模型建模为BERT的句子对分类任务的示意图如图8(a)所示;
将实体消歧模型建模为基于BERT的句子对分类模型,数据标注如下表2所示:
表2实体消歧模型的数据标注案例
即对两个句子的关系进行预测,比如句子A(sentence A)是一个问题,句子B(sentence B)是这个问题的答案。那么句子A和句子B存在问答关系,标签为1。假如句子C不是这个问题的答案,那么句子A和句子C不存在问答关系。句子对分类任务就是预测输入的两个句子是否存在某种关系。
S42、将实体消歧数据集输入到所述实体消歧预训练模型进行训练得到相应的知识库实体,得到实体消歧模型。
所述实体消歧模型的池化采用实体级别的最大池化策略,参见图7所示,所述池化得到提及词对应的知识库实体为:
S401、根据实体级别的最大池化策略分别获取所述提及词片段的最大池化表示向量和候选实体片段的最大池化表示向量;
S402、将[CLS]的表示向量、问句文本的提及词片段的最大池化表示向量以及候选文本的候选实体片段的最大池化表示向量进行拼接,输入前馈神经网络,通过计算得到所述问句文本中提及词所指向的知识库实体的分值;
S403、根据计算得到的分值对比,取最大分值的候选实体作为实体目标,得到提及词对应的知识库实体。
具体的,步骤S402中,计算得到所述问句文本中提及词所指向的知识库实体的分值采用Softmax函数。
在本实施例中,由于引入的子图的文本长,相较于较短的问题本身,会引入知识噪声,影响整个句子的向量表示。因此尝试了不同的池化策略来提炼上下文的表示。
其中,两个层面5种池化策略,分别是:序列级别(即句子对的每个字)的最大池化、平均池化、注意力池化,和实体级别(即句子对中的提及词和候选实体的每个字)的最大池化、平均池化。结论是实体级别的最大池化效果最好。最终我们拼接增强的表示(实体级别的最大池化向量),和序列的表示(特殊标记[CLS]的向量表示)。
因此,在通过实体消歧模型得到关于文本的表示后,通过设计好的池化层,提出[CLS]的表示向量、问句文本的提及词片段的最大池化表示向量以及候选文本的候选实体片段的最大池化表示向量进行拼接,输入全连阶层(前馈神经网络),通过一个Softmax函数得到一个分值,表示这个获选实体是问题文本中提及词所指向的知识库实体的得分,即表示作为提及词的目标实体的概率。我们取分值最高的候选实体作为目标实体。
本发明通过提出的一个流水线的结合基于规则的召回提及词算法和基于预训练深度神经网络的实体消歧算法的实体链接解决方案,在中文数据集NLPCC2016CKBQA中,获得目前最好的表现。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种基于融入知识图谱子图信息及实体信息的实体链接方法,其特征在于,包括以下步骤:获取问句文本,喂入训练好的提及识别模型,识别出问句文本中的预测提及词;
对预测提及词召回,根据召回算法得到目标提及词,根据知识库自带的映射文件,得到目标提及词的所有候选实体,从知识库中检索每个候选实体,得到所有候选实体的知识图谱子图信息;
将所述知识图谱子图信息融入到所述候选实体中得到候选实体文本,并在包含提及词的问句文本及包含候选实体的候选实体文本中引入标签对,即引入实体边界信息,构建实体消歧数据集;
将所述实体消歧数据集喂入训练好的实体消歧模型,池化得到提及词对应的不同候选实体的分值,取分值最高作为提及词的目标实体,完成实体链接;
训练提及识别模型的方法包括:构建提及识别预训练模型;
获取训练数据,对训练数据中的文本进行序列标注,标出命名实体,得到训练集;
将标签的训练集输入到所述提及识别预训练模型进行训练得到相应的命名实体,得到提及识别模型;
所述预训练模型为BERT模型加入CRF架构的基础模型;所述训练数据中的文本进行标签的方法为:获取训练数据中的文本的句子;
对所述句子中的每一个中文字进行标注;
其中,对句子中命名实体的第一个字、命名实体中的其他字以及句子的非命名实体字标注出不同标签,命名实体为提及词;
所述提及词召回的方法,包括:获取提及识别模型识别的预测提及词以及一个提及词跟知识库实体的映射文件;
从所述映射文件中得到知识图谱的全部提及词列表,遍历全部提及词列表中的项,提取所述预测提及词包含的项形成切割列表;
将切割列表中长度最大的项作为召回提及词,根据召回提及词与预测提及词建立召回列表;
遍历召回列表中的每一项,检索所述全部提及词列表中包含所述历召回列表的项,提取构建延伸列表,将延伸列表与所述立召回列表合并得到召回的实体召回列表。
2.根据权利要求1所述的基于融入知识图谱子图信息及实体信息的实体链接方法,所述候选实体文本的构建方法,包括:检索知识图谱,所述知识图谱以头节点、关系、尾节点的三元组形式存储;
根据所述知识图谱的三元组形式,将所有与头节点相连的边和尾节点都取出作为知识图谱子图信息,得到所述候选实体的所有知识图谱子图信息;
将所述知识图谱子图信息拼接到所述候选实体的上下文中得到候选实体文本。
3.根据权利要求2所述的基于融入知识图谱子图信息及实体信息的实体链接方法,所述标签对为实体消歧模型识别所述提及词和候选实体的边界信息,所述标签对分别插入所述问句文本的提及词前后和所述候选实体文本的候选实体前后。
4.根据权利要求1所述的基于融入知识图谱子图信息及实体信息的实体链接方法,所述实体消歧数据集构建为:[CLS]“问句文本”[SEP]+“候选实体文本”+[SEP]+句对的正确分类。
5.根据权利要求4所述的基于融入知识图谱子图信息及实体信息的实体链接方法,训练实体消歧模型的方法包括:基于BERT模型构建BERT的句子对分类任务的实体消歧预训练模型;
将实体消歧数据集输入到所述实体消歧预训练模型进行训练得到相应的知识库实体,得到实体消歧模型。
6.根据权利要求4所述的基于融入知识图谱子图信息及实体信息的实体链接方法,所述实体消歧模型的池化采用实体级别的最大池化策略,所述池化得到提及词对应的知识库实体为:根据实体级别的最大池化策略分别获取所述提及词片段的最大池化表示向量和候选实体片段的最大池化表示向量;
将[CLS]的表示向量、问句文本的提及词片段的最大池化表示向量以及候选文本的候选实体片段的最大池化表示向量进行拼接,输入前馈神经网络,通过计算得到所述问句文本中提及词所指向的知识库实体的分值;
根据计算得到的分值对比,取最大分值的候选实体作为实体目标,得到提及词对应的知识库实体。
7.根据权利要求6所述的基于融入知识图谱子图信息及实体信息的实体链接方法,所述计算得到所述问句文本中提及词所指向的知识库实体的分值采用Softmax函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110951011.8A CN113626613B (zh) | 2021-08-18 | 2021-08-18 | 基于融入知识图谱子图信息及实体信息的实体链接方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110951011.8A CN113626613B (zh) | 2021-08-18 | 2021-08-18 | 基于融入知识图谱子图信息及实体信息的实体链接方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113626613A CN113626613A (zh) | 2021-11-09 |
CN113626613B true CN113626613B (zh) | 2022-07-05 |
Family
ID=78386484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110951011.8A Active CN113626613B (zh) | 2021-08-18 | 2021-08-18 | 基于融入知识图谱子图信息及实体信息的实体链接方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113626613B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114416976A (zh) * | 2021-12-23 | 2022-04-29 | 北京百度网讯科技有限公司 | 文本标注方法、装置及电子设备 |
CN114386418A (zh) * | 2022-01-10 | 2022-04-22 | 新华智云科技有限公司 | 知识图谱中重复实体的去重方法 |
CN114462357A (zh) * | 2022-03-17 | 2022-05-10 | 上海携旅信息技术有限公司 | 实体链接方法、构建方法、装置及存储介质 |
CN114491001B (zh) * | 2022-04-18 | 2022-08-30 | 南京星耀智能科技有限公司 | 一种军事领域下的实体搜索方法 |
CN114841164A (zh) * | 2022-04-29 | 2022-08-02 | 浪潮电子信息产业股份有限公司 | 一种实体链接方法、装置、设备及存储介质 |
CN116561339A (zh) * | 2023-05-10 | 2023-08-08 | 之江实验室 | 知识图谱实体链接方法、装置、计算机设备及存储介质 |
CN117113993B (zh) * | 2023-10-23 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 实体链接方法、装置、电子设备及存储介质 |
CN118503454B (zh) * | 2024-07-18 | 2024-09-20 | 山东海量信息技术研究院 | 一种数据查询方法、设备、存储介质及计算机程序产品 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784604A (zh) * | 2021-02-08 | 2021-05-11 | 哈尔滨工业大学 | 一种基于实体边界网络的实体链接方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105045826A (zh) * | 2015-06-29 | 2015-11-11 | 华东师范大学 | 一种基于图模型的实体链接算法 |
CN108959461B (zh) * | 2018-06-15 | 2021-07-27 | 东南大学 | 一种基于图模型的实体链接方法 |
CN110866399B (zh) * | 2019-10-24 | 2023-05-02 | 同济大学 | 一种基于增强字符向量的中文短文本实体识别与消歧方法 |
CN111259653B (zh) * | 2020-01-15 | 2022-06-24 | 重庆邮电大学 | 基于实体关系消歧的知识图谱问答方法、系统以及终端 |
CN111523326B (zh) * | 2020-04-23 | 2023-03-17 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
CN111563149B (zh) * | 2020-04-24 | 2023-01-31 | 西北工业大学 | 一种用于中文知识图谱问答系统的实体链接方法 |
-
2021
- 2021-08-18 CN CN202110951011.8A patent/CN113626613B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784604A (zh) * | 2021-02-08 | 2021-05-11 | 哈尔滨工业大学 | 一种基于实体边界网络的实体链接方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113626613A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113626613B (zh) | 基于融入知识图谱子图信息及实体信息的实体链接方法 | |
CN110032648B (zh) | 一种基于医学领域实体的病历结构化解析方法 | |
CN112115238B (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN111753098B (zh) | 一种基于跨媒体动态知识图谱的教学方法及系统 | |
CN112989005B (zh) | 一种基于分阶段查询的知识图谱常识问答方法及系统 | |
CN103207855B (zh) | 针对产品评论信息的细粒度情感分析系统及方法 | |
CN110866124B (zh) | 基于多数据源的医学知识图谱融合方法及装置 | |
CN112149421A (zh) | 一种基于bert嵌入的软件编程领域实体识别方法 | |
CN110968699A (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
CN114416942A (zh) | 一种基于深度学习的自动化问答方法 | |
CN111339281A (zh) | 一种多视角融合的阅读理解选择题的答案选择方法 | |
CN111325029A (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN111597420A (zh) | 基于深度学习的轨道交通规范关系抽取方法 | |
CN114036281B (zh) | 基于知识图谱的柑橘管控问答模块构建方法及问答系统 | |
CN115599899B (zh) | 基于飞行器知识图谱的智能问答方法、系统、设备及介质 | |
CN111143574A (zh) | 一种基于少数民族文化知识图谱的查询及可视化系统构建方法 | |
CN117390140B (zh) | 基于机器阅读理解的中文方面级情感分析方法及系统 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN111914556A (zh) | 基于情感语义转移图谱的情感引导方法及系统 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN114579705B (zh) | 一种面向可持续发展教育的学习辅助方法及系统 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN112069825A (zh) | 面向警情笔录数据的实体关系联合抽取方法 | |
Efremova et al. | Multi-source entity resolution for genealogical data | |
CN113204967A (zh) | 简历命名实体识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |