CN117235216A - 一种基于异构知识融合的知识推理方法 - Google Patents
一种基于异构知识融合的知识推理方法 Download PDFInfo
- Publication number
- CN117235216A CN117235216A CN202311108953.5A CN202311108953A CN117235216A CN 117235216 A CN117235216 A CN 117235216A CN 202311108953 A CN202311108953 A CN 202311108953A CN 117235216 A CN117235216 A CN 117235216A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- graph
- question
- node
- reasoning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000004927 fusion Effects 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000010586 diagram Methods 0.000 claims abstract description 23
- 238000013138 pruning Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 30
- 230000007246 mechanism Effects 0.000 claims description 22
- 230000005540 biological transmission Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 4
- 239000013604 expression vector Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 230000000877 morphologic effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及机器推理领域,具体为一种基于异构知识融合的知识推理方法。该方法基于输入识别出问答对中的关键实体概念,利用关键实体概念获取证据文本知识;将问答对与证据文本知识拼接输入到预训语言练模型中获取语义编码;针对每个问答对,从知识图谱中抽取与关键实体概念相关的三元组路径,并引入语义节点,计算上下文相关性并剪枝构建模式图,在此基础上进行推理得到模式图编码;通过捕获语义编码与模式图编码的潜在关联,实现知识融合推理;通过分类层计算每个候选选项的置信度分数,将置信度最高的候选选项作为最终预测答案。解决了现有智能问答系统在回答常识相关的问题时,缺乏关联性高的背景知识、且多源知识融合不足导致推理效果差问题。
Description
技术领域
本发明涉及机器推理领域,具体涉及一种基于异构知识融合的知识推理方法。
背景技术
随着智能技术的不断发展,机器推理技术在多领域实现了广泛应用。现在很多智能产品已成为生活、工作必备。智能机器人的应用中其关键的核心技术与智能问答有很大的为关系,提高智能问答的准确度能够很大程度的提升用户体验。但现阶段在常识问答场景下,由于问题文本中没有显式包含上下文信息,现有问答方法仍面临对人类常识理解、表达与推理的局限。因此,常识推理任务需要跨越问答概念间知识缺失的鸿沟,在现有预训练模型的基础上,融合多源异构知识。但是,此类方法在多源知识选择、结构化知识编码、知识融合推理时存在一定的问题,实际推理时存在推理表示能力不足、推理效率低等局限,具体来说:
(1)在知识选择阶段,需要面向大规模外部知识库,检索针对问答文本最相关的多源知识。对非结构化知识而言,虽然引入多种知识源能够丰富模型推理的语义,但模型容易受到知识噪声干扰;对于结构化知识而言,其自身知识覆盖面有限且难以转换为合适的自然语言。
(2)在结构化知识编码阶段,与问答文本相关的结构化知识主要以图谱形式呈现。因此,基于消息传递的图神经网络系列方法在结构化图谱编码上得到了广泛应用。然而,在实际应用过程中,图卷积网络方法主要针对同质图,通过消息传递聚合邻居节点的信息,更新节点的语义表示。而知识图谱是天生的异质图,需要考虑到节点类型、关系类型等丰富的特征,关系卷积图网络方法能较好适应上述场景,但随着关系种类增加,面临过参数化的问题,模型面临难以训练等问题。
(3)在知识融合推理阶段,不同源知识信息的语言表达、信息类型和组织结构不尽相同,往往存在知识异构的特点,需要建立统一的知识融合方式。目前此阶段的主要方法是结合预训练模型与知识图谱进行联合推理,但是此类方法往往将语言编码与图编码当作两种独立的工作,不能很好地融合预训练模型文本空间的语义特征与知识图谱的结构化特征。
因此,为了引导挖掘语言模型的最大潜力,实现结构化、鲁棒性的推理,本发明提出一种基于异构知识融合的知识推理方法。
发明内容
本发明的目的在于:提供一种基于异构知识融合的知识推理方法,解决现有智能问答系统在回答常识相关的问题时,缺乏关联性高的背景知识、且多源知识融合不足导致推理效果差问题。
为解决上述技术问题,本发明采用如下技术方案:
一种基于异构知识融合的知识推理方法,包括以下步骤:
S1、每个问题对应c个候选选项,将问题与每个选项分别做拼接,得到c个问答对;
S2、利用分词技术与命名实体识技术,识别出问答各对中包含的问题概念集合eq与选项概念集合ec;
S3、获取各问答对的语义编码和模式图编码
a、获取语义图编码方法包括以下子步骤:
a1、拼接(eq,ec)作为查询条件,在大规模语料库、词典语料、训练集语料中做知识检索与筛选,得到与问答对相关的证据知识;将问答对与证据知识进行拼接,构造特征输入序列;
a2、将输入序列输入到预训练语言模型(例如ALBERT)中,进行融合推理,深度融合多源外部知识,生成上下文特征表示;
a3、将a2得到的上下文特征表示分为问题信息、选项信息、常识信息、训练集数据信息,利用注意力机制计算各部分知识对问题、选项上下文的注意力权重,得到语义编码h0;
b、获取模式图编码的方法包括以下子步骤:
b1、利用步骤S2中获取的问题概念集合eq与选项概念集合ec,引入现有常识知识图谱(例如Wikidata、ConceptNet等),并通过知识路径挖掘方法,抽取从问题概念到选项概念的三元组路径,将所有三元组路径合并构建为知识子图;在此基础上,借助于预训练好的知识图谱所提供的节点向量,作为知识子图节点的初始化向量表示,同时引入步骤a2中提供的上下文特征表示,作为新的语义节点,计算其与知识子图节点的语义相关性分数,得到上下文相关性权重,并根据节点重要性进行剪枝,得到模式图;
b2、在模式图中,引入图注意力机制,并扩展图卷积神经网络的消息传递机制,迭代更新图节点的特征表示;经过L层网络更新后,计算图中节点的平均池化表示,作为模式图的图编码;
S4、对步骤a3得到的语义编码与步骤b2中图编码进行拼接,并使用基于语境信息融合推理的方法,捕获两个表示空间中的相关信息,以得到融合表示向量;
S5、将步骤S4获取的融合表示向量,输入到多层感知机中进行维度变化,通过分类层计算每个候选选项的置信度分数,将置信度最高的候选选项作为知识推理模型的预测答案;
S6、循环执行步骤S1-S5,基于交叉熵损失对知识推理模型进行迭代训练,直到模型收敛或达到设定训练轮次;
S7、以问题文本与候选选项集合作为输入,利用训练好的知识推理问答模型完成答案预测。
进一步的,所述a1得到与问答对相关的证据知识的具体操作方法为:
针对大规模语料库,采用基于维基百科大规模文档库进行知识检索,建立文本知识检索库,导入到ElasticSearch工具建立文档索引;将问答对关键概念问题(eq,ec)作为查询,使用文档检索算法检索出粗粒度知识;采用基于知识贡献度的知识筛选策略对粗粒度知识进行提纯,过滤与问题上下文语境无关的知识噪声;
针对词典语料,采用基于概念语法的匹配规则,从维基字典中查找与关键概念最相关的词典释义;其中概念语法匹配规则具体为:优先匹配原文,若未匹配到原文则使用词形还原匹配,若仍未匹配到,则去除停用词后进行正向最大匹配;
针对训练集语料,利用外部常识数据集构建训练集语料库,将问答对关键概念问题(eq,ec)作为查询,检索语料库中与其最相似的问答对,作为原始问答对的外部训练集知识。
进一步的,所述b1中知识子图构建与模式图建立的具体操作方法为:
b1.1、使用步骤S2中问答对的问题概念集合eq与选项概念集合ec,对实体集合做词形还原处理,同时在常识知识图谱中做概念实体匹配。将匹配到的实体定义为主题实体Vtopic,随后抽取主题实体Vtopic之间的k跳知识子图Gsub=(Vsub,Esub)。
b1.2、通过检索已经训练好的知识图谱,得到相关的节点向量表,匹配获取知识子图节点的初始化向量表示,同时引入步骤a2中的上下文特征表示作为语义节点,得到语义节点v0;拼接语义节点v0与步骤b1.1中提供的知识子图节点v∈Vsub初始嵌入,通过预训练语言模型编码分析其深层次的相关性,得到图中节点与上下文的相关分数λv∈(0,1):
λv=sigmoid(MLP(ALBERT(v;v0)))
通过设置相关性剪枝阈值δ,将分数小于剪枝阈值δ的节点定义为上下文无关节点,按照节点重要性排序,删除无关节点,最终得到模式图Gpat=(Vpat,Epat)。
进一步的,所述步骤b2中基于图卷积神经网络的节点特征更新方法,具体包括:
b2.1、基于模式图,计算图中的节点信息与边信息,并计算获取节点间的消息传递表示;将模式图中节点信息与边信息/>定义为:
其中,表示节点u的类型信息,将节点定义为四种不同的类型T={h,q,c,o},分别对应为语义节点、问题概念节点、选项概念节点以及其他节点,因此节点类型可以通过独热向量表示/>
euv表示模式图中边关系类型信息,由于关系数量固定,关系类型也可以表示为独热向量euv∈{0,1}|R|;fn、fr均为线性层,分号表示向量拼接;
基于上述节点信息与边信息的影响,计算从节点u到节点v消息muv;
b2.2、引入图注意力机制,计算节点间消息的重要性;基于步骤b1.2得到的相关分数λv∈(0,1)和节点间消息的重要性,计算图节点间的注意力权重αuv:
b2.3、通过改良图卷积网络的消息传递机制,经过L层网络更新后,模式图Gpat中的所有节点都充分融入了问题上下文背景信息以及图结构信息,得到模式图中每个节点的最后一层隐层表示,并通过平均池化层得到模式图编码g。
进一步的,所述S4中基于语境信息融合推理的方法,具体包括:
将步骤a3得到的语义编码与步骤b2中图编码拼接后,输入到循环神经网络类结构中,充分融合文本语义空间与模式图符号空间的背景信息,获取知识的融合表示向量:
Tcontext=RNNs([h0;g])。
进一步的,步骤S5中置信度计算以及答案预测方法包括:
将融合表示向量输入到全连接层中变换特征维度,最终通过softmax层归一化得到选项的概率分布,模型选择选项置信度概率最大的选项作为预测答案:
P(c|q)=softmax(MLP(Tcontext))
进一步的,步骤S6中基于交叉熵损失对常识推理模型进行迭代训练,损失函数为:
其中,P为模型预测的选项概率分布,P*为真实选项的独热向量分布,|P|为问答任务的选项个数,训练目标为最小化标签数据与模型预测数据间的交叉熵损失。
本发明的有益效果是:
1)本发明通过高效的知识选择与检索方法,为模型提供了丰富的、高质量的多源知识,弥补了模型推理时上下文信息不足的缺陷,同时有效避免了知识噪声的问题。
2)在结构化知识编码阶段,本发明同时考虑到节点信息与边信息的影响,并利用图注意力方法扩展了消息传递机制,帮助模型提取到上下文语义更加丰富的图谱结构特征。
3)在知识融合阶段,利用语境信息融合方法,实现语义编码与图编码之间背景信息的交互,进而增强了模型推理的结构性、鲁棒性,提升系统的问答准确率。
附图说明
图1为实施例中提供的知识推理问答模型训练流程图。
具体实施方式
本发明旨在提供一种基于异构知识融合的知识推理方法,用于解决现有智能问答系统在回答常识相关的问题时,缺乏关联性高的背景知识,且针对多源知识融合不足导致推理效果差问题。本发明首先识别出输入的问答对中的关键实体概念,利用关键实体概念从多源外部知识中做知识检索与筛选,得到证据文本知识;然后将问答对与证据文本知识进行拼接,输入到预训练模型中获取语义编码;其次针对每个问答对,从知识图谱中抽取与关键实体概念相关的三元组路径,同时引入语义节点,计算上下文相关性并剪枝,构建模式图;在模式图中引入节点特征、关系特征、图注意力机制等,扩展图卷积网络的消息传递机制,推理得到模式图编码;随后采用基于语境信息融合推理的方法,捕获语义编码与模式图编码的潜在关联,实现知识融合推理;最终通过分类层计算每个候选选项的置信度分数,将置信度最高的候选选项作为模型的预测答案。
实施例:
本实施例中基于异构知识融合的知识推理问答方法,该方法中S1-S6为训练并构建知识推理问答模型过程,S7为利用训练好的模型执行常识推理问答。其中,训练并构建知识推理问答模型过程如图1所示,包括以下步骤:
S1、输入常识问题与候选选项集合
本实施例面向常识推理多项选择型任务。因此,每个常识问题对应c个候选选项,将问题与每个选项分别做拼接,得到问答对(q,a)。对应每个问题,得到c个问答对,分别输入到模型中。
S2、问答对关键概念识别
本实施例先使用NLTK工具,实现文本分词,并去除问题文本、选项文本中的停用词;然后利用Stanford NLP命名实体识别工具,获取问题文本与选项文本中的问题概念集合eq与候选选项概念集合ec。
S3、获取多个问答对的语义编码和模式图编码。
a、获取语义编码。本实施例针对每一个问答对从大规模语料库、词典语料、训练集语料等做知识检索与筛选,得到与问答对相关的证据知识。并将问答对与上述证据知识进行拼接,构造特征输入序列,输入到ALBERT预训练模型中进行语义编码,获取得到语义编码h0。具体而言,包括以下步骤:
a1、多源知识检索与筛选
该步骤中,需要基于步骤S2中问答对关键概念,从多个知识源中检索出最相关的证据知识信息,并利用适当的知识过滤方法去除知识噪声,提高多源知识对推理能力的正向作用。本实施例中使用维基百科、维基词典、外部训练集等作为知识源,并对每个知识源分别处理。
1)针对维基百科大规模语料库知识,首先爬取与原始数据集相关的文档库,将文档划分为句子,利用Spacy工具从提取553K的常识语句,作为本实施例的常识文本知识库。随后导入到ElasticSearch工具中建立文档索引。将问答对关键概念问题(eq,ec)作为查询,使用BM25检索算法,检索出最相关的10条常识文本信息作为粗粒度知识。
为了过滤与问题上下文语境无关的知识噪声,采用基于知识贡献度的知识筛选策略对粗粒度知识进行提纯,将知识贡献度sij定义为:
sij=sigmoid(MLP(hij))
其中,hij为知识编码的特征表示,由问题文本q、候选答案ai以及一条粗粒度知识kj拼接输入到预训练模型编码得到。通过对贡献度降序排序,为每个问答对筛选出2条证据知识。
2)针对维基词典知识,采用基于概念语法的匹配规则,从维基字典中查找与关键概念最相关的一条词典释义。其中概念语法匹配规则具体为:优先匹配原文,若未匹配到原文则使用词形还原匹配,若仍未匹配到,则去除停用词后进行正向最大匹配。
3)针对外部训练集知识,利用SWAG、CODAH等9个常识问答任务的训练集构建检索语料库,将问答对关键概念问题(eq,ec)作为查询,检索语料库中与其最相似一个的问答对(xi1,yi1),作为原始问答对的外部训练集知识。
a2、使用预训练模型编码,获取问答对的上下文特征
该步骤中,为了更好地融合多源外部知识,考虑将检索到的所有知识拼接,并输入到预训练模型中进行融合推理,生成问答对的上下文特征表示H:
H=ALBERT([(q,diq);(ci,dic);ki1;ki2;(xi1,yi1)])
其中ALBERT表示预训练模型,分号表示向量拼接,diq,dic分别代表问题概念释义与选项释义,ki1代表证据知识,(xi1,yi1)代表外部训练集知识。
a3、将上下文特征表示H划分为问题信息hq=[q1;…;qn]、选项信息hc=[c1;…;cm]、常识信息hk=[k1;…;ki]、训练集数据信息ht=[t1;…;tj],利用注意力机制计算各部分知识对问题、选项上下文的注意力权重,得到语义编码h0:
αkq=attention(hk,hq),αkc=attention(hk,hc)
αtq=attention(ht,hq),αtc=attention(ht,hc)
h0=[hq;hc;(αkq+αkc)hk;(αtc+αtq)ht]
b、获取模式图编码
该步骤中,针对每一个问答对,利用步骤S2中获取的问题概念集合eq与选项概念集合ec,从知识图谱中抽取从问题概念到选项概念的三元组路径,构建知识子图,并利用知识图谱预训练得到的向量初始化子图节点特征。引入步骤S3中特征作为语义节点v0,计算子图节点语义相关性分数,得到上下文相关性权重并剪枝,得到模式图。在模式图中,同时考虑图中节点信息与边信息的影响,引入图注意力机制,并扩展图卷积网络的消息传递机制,迭代更新图节点的特征表示。经过L层网络更新后,平均池化图中节点的特征,作为模式图编码g。具体而言,包括以下步骤:
b1、模式图构建
b1.1该步骤中,利用步骤S2中获取的问题概念集合eq与选项概念集合ec,在ConceptNet常识知识图谱中做概念实体匹配,得到匹配后的主题实体Vtopic,随后抽取主题实体Vtopic之间的2跳知识子图Gsub=(Vsub,Esub),并为子图中的节点添加反向关系。
b1.2引入步骤a2中上下文特征表示H作为语义节点v0,该节点与主题实体间Vtopic添加连边,并定义两种新的关系类型rah、rch,分别表示问题节点、选项节点与语义节点的关系。通过计算语义节点与图中其他节点v∈Vsub的相关性λv,并设置相关性剪枝阈值δ,完成模式图Gpat=(Vpat,Epat)的构建。
λv=sigmoid(MLP(ALBERT(v;v0)))
b2、扩展图卷积网络消息传递机制,推理获取图编码
在实施该步骤时,需要同时考虑图中节点信息与边信息的影响,引入图注意力机制,并扩展图卷积网络的消息传递机制,迭代更新图节点的特征表示。经过L层网络更新后,平均池化图中节点的特征,推理得到模式图编码g。详细操作步骤如下:
b2.1、计算模式图中节点信息与边信息/>
其中,表示节点u的类型信息,本实施例将节点定义为四种不同的类型T={h,q,c,o},分别对应为语义节点、问题概念节点、选项概念节点以及其他节点,因此节点类型可以通过独热向量表示/>euv表示模式图中边关系类型信息,由于关系数量固定,因此关系类型也可以表示为独热向量euv∈{0,1}|R|。fn、fr均为线性层,分号表示向量拼接。
基于上述节点信息与边信息的影响,计算从节点u到节点v消息:
其中代表节点u第l-1层的隐层编码,fu→v为线性层。
b2.2、基于上述消息的定义,通过引入图注意力机制计算节点间消息的重要性,使节点更加关注对推理有效的信息。消息的贡献程度由节点类型、关系类型以及相关性分数决定。因此,基于步骤b1.2得到的相关分数λv∈(0,1)和节点间消息的重要性,计算消息注意力权重αuv:
其中fq、fλ、fk均为线性层,D代表特征维度,上述三个线性层通过变换特征向量维度,使其维度统一,便于特征间的交互与融合。
b2.3、通过节点信息、边信息、图注意力等改良图卷积网络的消息传递机制,经过L层网络更新后,模式图Gpat中的所有节点都充分融入了问题上下文背景信息以及图结构信息,得到模式图中每个节点的最终表示平均池化节点的表示作为模式图编码g:
其中,Nv代表v的邻居节点,fn引入批标准化机制,代表维度不变映射,保持训练过程中每一层网络之间的分布相同。
S4、基于语境信息融合推理,获取融合编码
该步骤中,为了捕获两个表示空间中的潜在关联,需要将步骤a3得到的语义编码h0与步骤b2中图编码g,拼接输入到循环神经网络类结构中,进而充分融合文本语义空间与模式图符号空间的背景信息。本实施例中采用Bi-GRU、Bi-LSTM等循环神经网络方法,知识的融合表示Tcontext计算方法如下:
Tcontext=RNNs([h0;g])
S5、通过分类层计算候选选项置信度,进行答案预测
该步骤中,将知识融合表示Tcontext输入到全连接层中变换特征维度,最终通过softmax层归一化得到选项的概率分布,模型选择选项置信度最大的选项作为预测答案:
P(c|q)=softmax(MLP(Tcontext))
S6、循环执行步骤S1-S5,利用基于交叉熵的损失函数对常识推理模型进行端到端的迭代训练,直到模型收敛或达到设定训练轮次。其中,损失函数具体如下所示:
其中,P为模型预测的选项概率分布,P*为真实选项的one-hot分布,|P|为问答任务的选项个数,训练目标为最小化标签数据与模型预测数据间的交叉熵损失。
基于上述过程即可建立基于异构知识融合的知识推理模型,在实际应用中,以问题文本与候选选项集合作为输入,利用训练完成的知识推理问答模型即可获得答案预测结果。
基于上述方法,本实施例还提供了一种推理系统,该系统适用于语音助手、聊天机器人等多种产品中,包括数据采集模块和处理器,所述采集模块用户采集问题文本和候选选项,所述处理器接收采集模块提供的问题文本和候选选项,并执行上述基于异构知识融合的知识推理问答方法。
尽管这里参照本发明的实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制。应该理解,本领域技术人员可以设计出很多其他修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (7)
1.一种基于异构知识融合的知识推理方法,其特征在于,包括以下步骤:
S1、每个问题对应c个候选选项,将问题与每个选项分别做拼接,得到c个问答对;
S2、利用分词技术与命名实体识技术,识别出问答各对中包含的问题概念集合eq与选项概念集合ec;
S3、获取各问答对的语义编码和模式图编码
a、获取语义图编码方法包括以下子步骤:
a1、拼接(eq,ec)作为查询条件,在大规模语料库、词典语料、训练集语料中做知识检索与筛选,得到与问答对相关的证据知识;将问答对与证据知识进行拼接,构造特征输入序列;
a2、将输入序列输入到预训练语言模型中,进行融合推理,深度融合多源外部知识,生成上下文特征表示;
a3、将a2得到的上下文特征表示分为问题信息、选项信息、常识信息、训练集数据信息,利用注意力机制计算各部分知识对问题、选项上下文的注意力权重,得到语义编码h0;
b、获取模式图编码的方法包括以下子步骤:
b1、利用步骤S2中获取的问题概念集合eq与选项概念集合ec,引入现有常识知识图谱,并通过知识路径挖掘方法,抽取从问题概念到选项概念的三元组路径,将所有三元组路径合并构建为知识子图;在此基础上,借助于预训练好的知识图谱所提供的节点向量,作为知识子图节点的初始化向量表示,同时引入步骤a2中提供的上下文特征表示,作为新的语义节点,计算其与知识子图节点的语义相关性分数,得到上下文相关性权重,并根据节点重要性进行剪枝,得到模式图;
b2、在模式图中,引入图注意力机制,并扩展图卷积神经网络的消息传递机制,迭代更新图节点的特征表示;经过L层网络更新后,计算图中节点的平均池化表示,作为模式图的图编码;
S4、对步骤a3得到的语义编码与步骤b2中图编码进行拼接,并使用基于语境信息融合推理的方法,捕获两个表示空间中的相关信息,以得到融合表示向量;
S5、将步骤S4获取的融合表示向量,输入到多层感知机中进行维度变化,通过分类层计算每个候选选项的置信度分数,将置信度最高的候选选项作为知识推理模型的预测答案;
S6、循环执行步骤S1-S5,基于交叉熵损失对知识推理模型进行迭代训练,直到模型收敛或达到设定训练轮次;
S7、以问题文本与候选选项集合作为输入,利用训练好的知识推理问答模型完成答案预测。
2.如权利要求1所述的一种基于异构知识融合的知识推理方法,其特征在于:所述a1得到与问答对相关的证据知识的具体操作方法为:
针对大规模语料库,采用基于维基百科大规模文档库进行知识检索,建立文本知识检索库,导入到ElasticSearch工具建立文档索引;将问答对关键概念问题(eq,ec)作为查询,使用文档检索算法检索出粗粒度知识;采用基于知识贡献度的知识筛选策略对粗粒度知识进行提纯,过滤与问题上下文语境无关的知识噪声;
针对词典语料,采用基于概念语法的匹配规则,从维基字典中查找与关键概念最相关的词典释义;其中概念语法匹配规则具体为:优先匹配原文,若未匹配到原文则使用词形还原匹配,若仍未匹配到,则去除停用词后进行正向最大匹配;
针对训练集语料,利用外部常识数据集构建训练集语料库,将问答对关键概念问题(eq,ec)作为查询,检索语料库中与其最相似的问答对,作为原始问答对的外部训练集知识。
3.如权利要求1所述的一种基于异构知识融合的知识推理方法,其特征在于:所述b1中知识子图构建与模式图建立的具体操作方法为:
b1.1、使用步骤S2中问答对的问题概念集合eq与选项概念集合ec,对实体集合做词形还原处理,同时在常识知识图谱中做概念实体匹配;将匹配到的实体定义为主题实体Vtopic,随后抽取主题实体Vtopic之间的k跳知识子图Gsub=(Vsub,Esub);
b1.2、通过检索已经训练好的知识图谱,得到相关的节点向量表,匹配获取知识子图节点的初始化向量表示,同时引入步骤a2中的上下文特征表示作为语义节点,得到语义节点v0;拼接语义节点v0与步骤b1.1中提供的知识子图节点v∈Vsub初始嵌入,通过预训练语言模型编码分析其深层次的相关性,得到图中节点与上下文的相关分数λv∈(0,1):
λv=sigmoid(MLP(ALBERT(v;v0)))
通过设置相关性剪枝阈值δ,将分数小于剪枝阈值δ的节点定义为上下文无关节点,按照节点重要性排序,删除无关节点,最终得到模式图Gpat=(Vpat,Epat)。
4.如权利要求1所述的一种基于异构知识融合的知识推理方法,其特征在于:所述步骤b2中基于图卷积神经网络的节点特征更新方法,具体包括:
b2.1、基于模式图,计算图中的节点信息与边信息,并计算获取节点间的消息传递表示;将模式图中节点信息与边信息/>定义为:
其中,表示节点u的类型信息,将节点定义为四种不同的类型T={h,q,c,o},分别对应为语义节点、问题概念节点、选项概念节点以及其他节点,因此节点类型可以通过独热向量表示/>
euv表示模式图中边关系类型信息,由于关系数量固定,关系类型也可以表示为独热向量euv∈{0,1}|R|;fn、fr均为线性层,分号表示向量拼接;
基于上述节点信息与边信息的影响,计算从节点u到节点v消息muv;
b2.2、引入图注意力机制,计算节点间消息的重要性;基于步骤b1.2得到的相关分数λv∈(0,1)和节点间消息的重要性,计算图节点间的注意力权重αuv:
b2.3、通过改良图卷积网络的消息传递机制,经过L层网络更新后,模式图Gpat中的所有节点都充分融入了问题上下文背景信息以及图结构信息,得到模式图中每个节点的最后一层隐层表示,并通过平均池化层得到模式图编码g。
5.如权利要求1所述的一种基于异构知识融合的知识推理方法,其特征在于:所述S4中基于语境信息融合推理的方法,具体包括:
将步骤a3得到的语义编码与步骤b2中图编码拼接后,输入到循环神经网络类结构中,充分融合文本语义空间与模式图符号空间的背景信息,获取知识的融合表示向量:
Tcontext=RNNs([h0;g])。
6.如权利要求1所述的一种基于异构知识融合的知识推理方法,其特征在于:所述步骤S5中置信度计算以及答案预测方法包括:
将融合表示向量输入到全连接层中变换特征维度,最终通过softmax层归一化得到选项的概率分布,模型选择选项置信度概率最大的选项作为预测答案:
P(c|q)=softmax(MLP(Tcontext))
7.如权利要求1至5任一项所述的一种基于异构知识融合的知识推理方法,其特征在于:所述步骤S6中基于交叉熵损失对常识推理模型进行迭代训练,损失函数为:
其中,P为模型预测的选项概率分布,P*为真实选项的独热向量分布,|P|为问答任务的选项个数,训练目标为最小化标签数据与模型预测数据间的交叉熵损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311108953.5A CN117235216A (zh) | 2023-08-30 | 2023-08-30 | 一种基于异构知识融合的知识推理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311108953.5A CN117235216A (zh) | 2023-08-30 | 2023-08-30 | 一种基于异构知识融合的知识推理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117235216A true CN117235216A (zh) | 2023-12-15 |
Family
ID=89083537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311108953.5A Pending CN117235216A (zh) | 2023-08-30 | 2023-08-30 | 一种基于异构知识融合的知识推理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117235216A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118093834A (zh) * | 2024-04-22 | 2024-05-28 | 邦宁数字技术股份有限公司 | 一种基于aigc大模型的语言处理问答系统及方法 |
CN118364813A (zh) * | 2024-06-20 | 2024-07-19 | 曲阜师范大学 | 基于机器阅读理解的知识增强方法、系统、装置、介质 |
CN118656475A (zh) * | 2024-08-16 | 2024-09-17 | 泉州湖南大学工业设计与机器智能创新研究院 | 基于图神经网络检索器增强大语言模型生成的问答方法 |
-
2023
- 2023-08-30 CN CN202311108953.5A patent/CN117235216A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118093834A (zh) * | 2024-04-22 | 2024-05-28 | 邦宁数字技术股份有限公司 | 一种基于aigc大模型的语言处理问答系统及方法 |
CN118364813A (zh) * | 2024-06-20 | 2024-07-19 | 曲阜师范大学 | 基于机器阅读理解的知识增强方法、系统、装置、介质 |
CN118656475A (zh) * | 2024-08-16 | 2024-09-17 | 泉州湖南大学工业设计与机器智能创新研究院 | 基于图神经网络检索器增强大语言模型生成的问答方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109840287B (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN111259127B (zh) | 一种基于迁移学习句向量的长文本答案选择方法 | |
CN109947912A (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN117235216A (zh) | 一种基于异构知识融合的知识推理方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN113297364B (zh) | 一种面向对话系统中的自然语言理解方法及装置 | |
Xiong et al. | Knowledge graph question answering with semantic oriented fusion model | |
CN112633010A (zh) | 基于多头注意力和图卷积网络的方面级情感分析方法及系统 | |
CN109063164A (zh) | 一种基于深度学习的智能问答方法 | |
CN113076465A (zh) | 一种基于深度哈希的通用跨模态检索模型 | |
CN111930894A (zh) | 长文本匹配方法及装置、存储介质、电子设备 | |
CN111782961A (zh) | 一种面向机器阅读理解的答案推荐方法 | |
CN113239143B (zh) | 融合电网故障案例库的输变电设备故障处理方法及系统 | |
CN117421595B (zh) | 一种基于深度学习技术的系统日志异常检测方法及系统 | |
CN114579707B (zh) | 一种基于bert神经网络与多语义学习的方面级情感分析方法 | |
CN113806554A (zh) | 面向海量会议文本的知识图谱构建方法 | |
CN116361438A (zh) | 基于文本-知识扩展图协同推理网络的问答方法及系统 | |
CN117112786A (zh) | 一种基于图注意力网络的谣言检测方法 | |
CN117496388A (zh) | 基于动态记忆网络的跨模态视频描述模型 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
CN118093860A (zh) | 一种基于文本嵌入向量聚类的多层次科研主题挖掘方法 | |
CN111382333B (zh) | 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法 | |
CN116663523B (zh) | 多角度增强网络的语义文本相似度计算方法 | |
CN115268994B (zh) | 一种基于tbcnn和多头自注意力机制的代码特征提取方法 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |