CN115510814B - 一种基于双重规划的篇章级复杂问题生成方法 - Google Patents
一种基于双重规划的篇章级复杂问题生成方法 Download PDFInfo
- Publication number
- CN115510814B CN115510814B CN202211394785.6A CN202211394785A CN115510814B CN 115510814 B CN115510814 B CN 115510814B CN 202211394785 A CN202211394785 A CN 202211394785A CN 115510814 B CN115510814 B CN 115510814B
- Authority
- CN
- China
- Prior art keywords
- semantic
- sentence
- fact
- graph
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000009977 dual effect Effects 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 85
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims description 58
- 238000010586 diagram Methods 0.000 claims description 29
- 238000010276 construction Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 230000008447 perception Effects 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract 1
- 238000011156 evaluation Methods 0.000 description 13
- 230000006872 improvement Effects 0.000 description 13
- 238000011176 pooling Methods 0.000 description 10
- 238000001914 filtration Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于双重规划的篇章级复杂问题生成方法,主要用于依据给定的一篇文章和答案,生成能够被答案回答的自然语言问题序列。本发明首先使用预训练语言模型BERT对给定的文章和答案进行编码,获得答案感知的语义向量。然后针对给定文章中的每个句子序列构建语义结构图,并采用多头注意力机制对这些语义结构图进行编码,获取它们之间的相关信息,用来指导复杂问题生成。最后,采用神经网络Transformer作为解码器生成复杂问题,在解码的每个时间步,基于双重规划,即事实级规划和语义图级规划,选择需要重点关注的语义图和其中的事实三元组,通过融入这些信息增强生成问题的复杂度,辅助当前词汇的生成。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于双重规划的篇章级复杂问题生成方法。
背景技术
近年来,随着人工智能的快速发展,问题生成(Question Generation,QG)任务成为了当下的研究热点。问题生成指的是从一系列数据源中(例如文本、图片、知识库)自动生成内容相关、语言通顺的自然语言问题。而本发明研究的问题生成任务就是以事实文本和答案作为输入的。问题生成任务具有广阔的应用前景,可以为问答任务产生训练数据;在对话系统中主动提出问题提升对话的流畅性;构建自动辅导系统(automatic tutoringsystems)根据课程材料生成针对性的问题,辅导学生学习等。
当前基于深度学习的QG方法主要研究简单问题的生成,而很少有研究复杂问题生成的工作。其中,简单问题指的是只包含一个实体关系三元组的问题,复杂问题指的是包含多个实体关系三元组的问题,需要经过复杂的多跳推理才能得到答案。相比于只包含一个实体关系三元组的简单问题来说,复杂问题的生成具有更多的现实意义,例如,在教育领域,因为不同的学生接受知识的能力也不同,如果一味的生成简单问题,难以测试出学生的真实水平。对于能力强的学生,需要用复杂问题进行测试才能得到真实的反馈。另外,现有问答(Question Answering,QA)系统在简单问题上的表现已经达到了瓶颈,而复杂问题更有利于提升QA系统。因此,研究复杂问题生成具有一定的实用价值和应用前景。但是现有的复杂问题生成方法大多是基于知识图谱的复杂问题生成,这类方法无法直接应用于缺乏明确逻辑结构的非结构化文本的问题生成中。而在基于文本的复杂问题生成中,通常是以多文本作为输入的,没有考虑在单文本上生成复杂问题的情况。另外,这些方法在建模有效信息时直接融入了节点所在的句子序列,没有对句子中的事实进行进一步的筛选。而一个句子往往也包含多个事实。因此,这种篇章层面的问题生成方法缺乏整体规划,无法选择特定事实,容易造成实体和关系不匹配,从而影响问题的事实正确性。而且句子中包含其他冗余信息,可能会引入噪声。
因此,本发明提出了一种基于双重规划的篇章级问题生成模型,给文本中的每个句子都构建语义结构图,通过双重规划(事实级规划和语义图级规划)准确的定位每个解码时间步需要重点关注的信息。具体来说,在解码的时候,先选择需要关注的语义结构图,再进一步确定需要关注的事实三元组信息,通过融入这些信息增强生成问题的复杂度。
发明内容
本发明要解决的技术问题在于现有的复杂问题生成方法大多构建一个语义图,忽略了单个句子包含的丰富事实信息,缺乏整体规划导致无法选择特定事实,容易造成实体和关系不匹配,从而影响问题的事实正确性,提供一种基于双重规划的篇章级复杂问题生成方法。
本发明解决其技术问题所采用的技术方案是:一种基于双重规划的篇章级复杂问题生成方法。该方法首先使用BERT对给定的文章和答案进行编码,获得答案感知的语义向量。然后针对给定文章中的每个句子序列构建语义结构图,并采用多头注意力机制对这些语义结构图进行编码,获取它们之间的相关信息,用来指导复杂问题生成。最后,采用Transformer解码生成复杂问题,在解码的每个时间步,基于双重规划(事实级规划和语义图级规划)选择需要重点关注的语义图和其中的事实三元组,通过融入这些信息增强生成问题的复杂度,辅助当前词的生成。
本发明的基于双重规划的篇章级复杂问题生成方法,包括如下步骤:
1)采用BERT对给定的文章和答案进行编码,获得答案感知的文本向量表示。
2)对于给定文章中的每个句子序列,利用自适应跨句指代消解技术对该句子序列进行初步处理,然后采用记忆感知的语义图构建方法构建出细粒度的语义结构图。
3)对所述步骤2)最终得到的细粒度语义结构图,将图中的边也当作节点进行处理,通过多头注意力图编码器,首先获得句子中每个节点的向量表示,然后获得单个事实的向量表示,最后获得整张图的向量表示。
4)对所述步骤1)得到答案感知的文本向量表示,将其送入Transformer模型中解码。并且在解码的每个时间步,基于双重规划(事实级规划和语义图级规划)选择需要重点关注的语义图和其中的事实三元组,辅助当前词的生成。
5)设计损失函数,经过多次迭代,训练问题生成模型。
作为本发明的进一步改进,所述步骤1)中,采用BERT对给定的文本和答案进行编码,输入形式为,具体为,将文本序列和答案进行拼接,中间插入分隔符 ,将文本和答案分隔开来,在开头插入特定的分类标识符,通过BERT的预训练过程后,该分类标识符会学到融合文本和答案的表征信息,用向量C表示。
作为本发明的进一步改进,所述步骤2)中,对给定文章中的每个句子序列都构建一个细粒度语义结构图。首先采用自适应跨句指代消解技术,将代词替换成其指代的实体,便于后续构图时对实体进行融合。在自适应跨句指代消解技术中,需要将实体mention替换成现实世界的实体。首先要将每个实体mention表示成语义向量。然后通过在softmax层中输入相似性特征来预测查询实体和一组候选对象之间的共指链接,并预测实体和具有最大共指概率的候选者之间的联系。
作为本发明的进一步改进,所述步骤2)中,采用了自适应跨句指代消解技术,为了预测跨句子的共指链接,采用一种算法,来遍历句子列表并预测当前句子中提及的实体和跨所有先前句子计算的候选集群之间的共指链接,该算法首先对句子列表D进行任意排序,然后,对于每个句子中的实体,从先前的句子的共指集中计算候选集,其中,,表示句子的数量,,之后预测和一个候选对象之间的共指链接,最后,更新预测的候选集并重新计算的新候选对象。
作为本发明的进一步改进,所述步骤2)中,采用自适应跨句指代消解技术预测共指链接时,每个实体的可能候选者的数量会随着先前句子的数量的增加而增长,计算成本大大增加。为了降低计算成本,本发明提出在计算过程中仅考虑与相似的先前句子。
作为本发明的进一步改进,所述步骤2)中,对每个句子经过指代消解后,采用记忆感知的语义图构建方法,从句子中抽取出实体关系三元组,构建出语义图。在记忆感知的语义图构建方法中,本发明使用了迭代存储器将每轮生成的抽取结果都存储到内存中,以便下一次解码迭代可以访问所有先前的提取。具体来说,首先通过将句子输入到序列到序列架构中生成第一次抽取结果,然后将抽取结果与源句子拼接后再次输入到序列到序列架构中生成新的抽取结果,一直重复该过程直到生成EndOfExtractions,该符号表示抽取过程已结束。
作为本发明的进一步改进,所述步骤2)中,采用记忆感知的语义图构建方法中使用了序列到序列模型。为了训练该序列到序列模型,本发明需要一组句子—抽取对作为训练数据。人工构建数据集虽然效果很好,但是耗时耗力,无法构建大规模数据集。因此,本发明提出了一种自动构建句子—抽取对数据集的方法。通常来说,自动构建数据集分为两步,首先按照原始系统输出的置信度降序对所有抽取结果进行排序。然后,按照模型的输入输出格式构建训练数据。但是简单地汇集所有抽取结果是行不通的。因为存在以下问题:1)无校准:不同系统分配的置信度分数未校准到可比较的尺度。2)冗余提取:除了完全重复之外,多个系统会产生类似的提取,但边际效用较低。3)错误的提取:池化不可避免地会污染数据,并且会放大错误的实例,迫使下游开放的信息抽取系统学习质量较差的提取。为了解决上述问题,本发明使用了得评分—过滤框架来获得高质量的抽取结果。首先对汇集的抽取结果进行评分,通常来说,好的(正确的、信息丰富的)抽取结果会比坏的(不正确的)和冗余的抽取结果获得更高的值。然后过滤掉抽取结果中的冗余数据。通过上述的评分—过滤框架,可以获得高质量的事实三元组,从而构建语义图。
作为本发明的进一步改进,所述步骤3)中,对语义结构图进行编码时,将结构图中的边也当作节点进行编码。对于某个语义结构图,首先采用预先训练好的词向量初始化其中的节点embedding向量。接着为了能够捕获节点之间的语义联系,采用了关系增强的图Transformer对节点进行编码。该方法使用了关系增强的多头注意力机制得到每个节点的embedding向量,使得对语义结构图中的每个节点进行编码的时候,不仅包含当前节点的编码信息,还包含语义结构图中其他节点的信息,即保留了当前节点和其余节点之间的联系。最后,将语义结构图中的所有节点向量输入到全联接前馈网络(Fully ConnectedFeed-forward Network,FFN)中获得最终的节点语义表示向量,并采用残差连接解决深度学习中的退化问题。获得节点语义表示向量后,将图中位于同一事实三元组的节点向量输入到平均池化层中,得到该事实三元组的语义向量表示。类似的,在计算第i个语义结构图的向量表示时,将图中包含的所有事实三元组表示向量输入到平均池化层中,得到该语义结构图的语义向量表示。
作为本发明的进一步改进,所述步骤4)中,基于文本和语义结构图的编码结果,利用Transformer作为解码器,生成问题。在解码的每个时间步,基于双重规划(事实级规划和语义图级规划)选择需要重点关注的语义图和其中的事实三元组,辅助当前词的生成。具体来说,首先选择语义结构图,然后从语义结构图中选择相关的事实三元组,最后基于文本向量和选择的事实三元组更新解码器的隐状态,并生成当前词。
其中,语义图级规划旨在在每个解码时间步,基于文本语义向量C和之前时间步生成的单词,通过注意力机制选择当前需要重点关注的语义结构图,得到基于注意力的语义结构图表示。然后将基于注意力的语义结构图表示和文本语义向量C拼接起来,共同通过softmax层,计算得到每个子图的概率,从中选出概率最高的子图指导当前问题生成。
事实级规划旨在在每个解码时间步,基于文本语义向量C、之前时间步生成的单词以及被选择的语义结构图,通过注意力机制选择当前需要重点关注的事实三元组,得到第k个语义结构图中基于注意力的事实三元组表示。与语义图级规划相似,将基于注意力的事实三元组表示和文本语义向量C拼接起来,共同通过softmax层,计算得到每个事实三元组的概率,从中选出概率最高的事实三元组指导当前问题生成。
作为本发明的进一步改进,所述步骤4)中,基于文本和语义结构图的编码结果,利用Transformer作为解码器,生成问题。在解码的每个时间步,基于双重规划(事实级规划和语义图级规划)选择需要重点关注的语义图和其中的事实三元组,辅助当前词的生成。具体来说,首先选择语义结构图,然后从语义结构图中选择相关的事实三元组,最后基于文本向量和选择的事实三元组更新解码器的隐状态,并生成当前词。
作为本发明的进一步改进,所述步骤5)中,损失函数由三个部分组成—交叉熵损失、监督信息损失、覆盖损失。其中,交叉熵损失指的是最小化所有模型参数的负对数似然。监督信息损失指的是双重规划选择的语义图和事实与标准的语义图和事实之间存在的偏差。覆盖损失指的是在所述步骤4)中计算语义图和事实的覆盖向量时,会额外计算覆盖损失,以此来约束模型反复注意某个语义图或者某个事实。
有益效果:
相比于现有技术,本发明具有以下优点:1)现有的问题生成方法仅仅从篇章层面构建一个语义图,容易忽略掉句子中包含的丰富的事实信息。而本发明对于给定的一篇文章中的每个句子序列都构建了语义结构图,通过这种方式能够全面准确的获取句子中的事实,为复杂问题生成提供强大的数据支撑。2)现有的方法缺乏整体规划,无法选择特定事实,容易造成实体和关系不匹配,从而影响问题的事实正确性。而本发明使用双重规划,能够在解码的过程中通过语义图级规划和事实级规划选择需要重点关注的语义图和其中的事实三元组,通过融入这些信息辅助当前词的生成,确保生成的关系和实体相匹配,从而提升问题的事实正确性。
经过实验分析证明,本方法提出的基于双重规划的篇章级复杂问题生成方法对于提高生成复杂问题的事实正确性起到了改进作用,增强了问题生成的效果。
附图说明
图1是本发明的基本过程示意图;
图2是本发明的模型框架图;
图3是本发明的基于双重规划的解码实现图。
具体实施方式
下面结合实施例和说明书附图对本发明作进一步的说明。
实施例:本发明的基于句法感知提示学习的句子级问题生成方法,包括以下几个步骤:1)使用BERT对给定的文章和答案进行编码,获得答案感知的文本向量表示。BERT基于双向Transformer结构,采用掩码语言模型实现了一体化的特征融合,能够建模一词多义现象,并且生成深层次的双向语言表征。因此,本发明采用BERT编码,具体输入形式为
2)对于给定文章中的每个句子序列,利用自适应跨句指代消解技术对该句子序列进行初步处理,然后采用记忆感知的语义图构建方法构建出细粒度的语义结构图。构建语义结构图能够清晰的展示文本中不同实体间的语义信息,从而在解码过程中方便选择合适的信息融入到问题中,辅助复杂问题生成。由于单篇文本的篇幅较长,所以本章对于文本中的每个句子序列都单独构建了一个语义结构图,这样做有利于更加精准的捕获语义信息。对于每个句子序列,首先采用自适应跨句指代消解技术,将代词替换成其指代的实体,便于后续构图时对实体进行融合。在自适应跨句指代消解技术中,需要将实体mention替换成现实世界的实体。对于每个实体mention,定义为,其中是实体,是实体参与的事件集合。首先要将每个实体mention表示成语义向量。本发明将实体跨度输入到BERT中编码获得其初始向量表示,然后利用同样的方式获得每个事件的向量表示,并将其输入到BiLSTM中,外接均值池化层获得事件集合的向量表示。最后将实体初始向量表示和事件集合的向量表示结合起来,获得最终的实体mention语义表示向量。
假设是一组关于实体的先行词的共指簇。本发明通过增量的组合句子级信息和单词级信息为中的每个共指实体先行词集合P计算候选集群表示。其中,指将包含的句子通过BERT获得的CLS的向量表示,包含了句子的语义信息。计算方式如下:
然后通过在softmax层中输入相似性特征来预测查询实体和一组候选对象之间的共指链接。假设是的个候选表示的集合,本发明首先利用余弦相似度和多视角余弦相似度计算每个候选和实体的相似性。然后将这些相似性特征与候选和查询的差异以及点乘相结合,以
获得最终的特征表示,计算公式如下:
为了预测跨句子的共指链接,本发明设计了一种算法,来遍历句子列表并预测当前句子中提及的实体和跨所有先前句子计算的候选集群之间的共指链接。该算法首先对句子列表D进行任意排序,然后,对于每个句子中的实体,从先前的句子的共指集中计算候选集,其中,,表示句子的数量,,之后预测和一个候选对象之间的共指链接,最后,更新预测的候选集并重新计算的新候选对象。
采用自适应跨句指代消解技术预测共指链接时,每个实体的可能候选者的数量会随着先前句子的数量的增加而增长,计算成本大大增加。为了降低计算成本,本发明提出在计算过程中仅考虑与相似的先前句子。本发明认为具有相同主题的句子即为相似句子。在训练期间,本发明使用标准的实体集群来计算候选者和标准的句子主题集群。相比之下,在推理过程中,使用当前预测的共指簇来计算候选者。此外,使用 K-means计算的预测主题集群。通过最小化批量计算的交叉熵损失训练模型,单个句子中的所有M个实体形成一个批次,并且在M个顺序预测之后计算损失。对每个句子经过指代消解后,采用记忆感知的语义图构建方法,从句子中抽取出格式为(头实体,关系,尾实体)的三元组。头实体和尾实体分别表示主语和宾语,而关系就相当于连接主语和宾语的谓语。在记忆感知的语义图构建方法中,本发明使用了迭代存储器将每轮生成的抽取结果都存储到内存中,以便下一次解码迭代可以访问所有先前的提取。具体来说,首先通过将句子输入到序列到序列架构中生成第一次抽取结果,然后将抽取结果与源句子拼接后再次输入到序列到序列架构中生成新的抽取结果,一直重复该过程直到生成EndOfExtractions,该符号表示抽取过程已结束。由于采用记忆感知的语义图构建方法中使用了序列到序列模型,为了训练该序列到序列模型,本发明需要一组句子—抽取对作为训练数据。人工构建数据集虽然效果很好,但是耗时耗力,无法构建大规模数据集。因此,本发明提出了一种自动构建句子—抽取对数据集的方法。通常来说,自动构建数据集分为两步,首先按照原始系统输出的置信度降序对所有抽取结果进行排序。然后,按照模型的输入输出格式构建训练数据。但是简单地汇集所有抽取结果是行不通的。因为存在以下问题:1)无校准:不同系统分配的置信度分数未校准到可比较的尺度。2)冗余提取:除了完全重复之外,多个系统会产生类似的提取,但边际效用较低。3)错误的提取:池化不可避免地会污染数据,并且会放大错误的实例,迫使下游开放的信息抽取系统学习质量较差的提取。为了解决上述问题,本发明使用了评分—过滤框架来获得高质量的抽取结果。评分:本发明涉及了一种模型对汇集的抽取结果进行评分,该模型在随机引导数据集上进行了预训练。随机引导数据集是通过从任何一个正在聚合的引导系统中随机抽取每个句子的提取来生成的。该模型根据它的置信度值为池中的每个提取分配一个分数,通常来说,好的(正确的、信息丰富的)抽取结果会比坏的(不正确的)和冗余的抽取结果获得更高的值。过滤:然后过滤掉抽取结果中的冗余数据。对于给定的一组排序后的抽取结果,本发明希望选择具有最佳置信度分数的提取子集(由随机自举模型分配),同时与其他选定的提取具有最小的相似性。因此,本发明基于一组排序中所有的抽取结果构建了一个完整的加权图,图中的每个节点对应于一个抽取结果。每对节点由一条边连接。每条边都有一个相关的权重,表示两个对应提取之间的相似性。每个节点被分配一个分数,该分数等于随机引导模型给出的置信度。然后从中选择最佳子图,作为质量高的抽取结果,而图中的其他节点就默认为是冗余数据,被自动过滤。该过程用数学公式表示如下:
;其中表示节点的得分,即,并且是具有条目 的对称矩阵。是决策向量,其中表示特定节点是否属于图。通过上述的评分—过滤框架,可以获得高质量的事实三元组,最后将实体作为节点,关系作为连接两个实体之间的边,构建出语义结构图。
3)对所述步骤2)最终得到的细粒度语义结构图,将图中的边也当作节点进行处理,通过多头注意力图编码器,获得整张图的向量表示。具体来说,对于某个语义结构图,首先采用预先训练好的词向量初始化其中的节点embedding向量。接着为了能够捕获节点之间的语义联系,本发明采用了关系增强的图Transformer对节点进行编码。该方法使用了关系增强的多头注意力机制得到每个节点的embedding向量,是节点embedding的大小,计算公式如下:
其中,都是模型参数,多头注意力机制的作用是在对语义结构图中的每个节点进行编码的时候,不仅包含当前节点的编码信息,还包含语义结构图中其他节点的信息,即保留了当前节点和其余节点之间的联系。这个过程用公式表示如下:
,从公式中可以看出,多头注意力机制的关键点就在于将节点间的语义关系融入了查询向量和键向量中。其中,分别是是节点之间最短关系路径的编码。该编码结果通过将路径中所有关系节点的embedding向量相加得到。
最后,将语义结构图中的所有节点向量输入到全联接前馈网络(FullyConnectedFeed-forward Network,FFN)中获得最终的节点语义表示向量,并采用残差连接解决深度学习中的退化问题,计算公式如下:
获得节点语义表示向量后,将图中位于同一事实三元组的节点向量输入到平均池化层中,得到该事实三元组的语义向量表示表示第个语义结构图中的第个事实三元组。类似的,在计算第个语义结构图的向量表示时,将图中包含的所有事实三元组表示向量输入到平均池化层中,得到该语义结构图的语义向量表示,计算公式如下:
4)对所述步骤1)得到答案感知的文本向量表示,将其送入Transformer模型中解码。并且在解码的每个时间步,基于双重规划(事实级规划和语义图级规划)选择需要重点关注的语义图和其中的事实三元组,辅助当前词的生成。如图3所示,具体来说,首先选择语义结构图,然后从语义结构图中选择相关的事实三元组,最后基于文本向量和选择的事实三元组更新解码器的隐状态,并生成当前词,计算过程如下:
,其中,语义图级规划旨在在每个解码时间步,基于文本语义向量C和之前时间步生成的单词,通过注意力机制选择当前需要重点关注的语义结构图,得到基于注意力的语义结构图表示,为了防止解码器多次重复选择同一个语义图,本发明融入了覆盖机制,鼓励解码器在生成单词时能够覆盖到所有的语义结构图。计算过程如下:
在模型解码的每个时间步,对于选中的语义图会计算一个覆盖损失,计算方式如下:,然后将基于注意力的语义结构图表示和文本语义向量C拼接起来,共同通过softmax层,计算得到每个子图的概率,从中选出概率最高的子图指导当前问题生成。
事实级规划旨在在每个解码时间步,基于文本语义向量C、之前时间步生成的单词以及被选择的语义结构图,通过注意力机制选择当前需要重点关注的事实三元组,得到第个语义结构图中基于注意力的事实三元组表示。与语义图级规划相似,为了防止解码器多次重复选择同一个事实三元组,本发明融入了覆盖机制,鼓励解码器在生成单词时能够覆盖到所有的事实三元组。
同样的,在模型解码的每个时间步,对于选中的事实三元组会计算一个覆盖损失,计算方式如下:
5)设计损失函数,经过多次迭代,训练问题生成模型。损失函数由三个部分组成—交叉熵损失、监督信息损失、覆盖损失。其中,交叉熵损失指的是最小化所有模型参数的负对数似然,当给定文本D,答案A时,计算方式如下:
,监督信息损失指的是双重规划选择的语义图和事实与标准的语义图和事实之间存在的偏差,本发明还对每一步推理过程中选取的语义结构图和事实三元组的监督信息进行了统计,同时,对问题和答案进行解析,将答案和问题中涉及到的实体在文本中找到,由此确定标准的语义图和事实三元组。在问题生成的每个时间步,都会产生语义结构图的概率分布以及事实三元组的概率分布,这时将其与标准的应该被选择的语义结构图和事实三元组进行匹配,并计算相应的损失,公式如下:
;覆盖损失指的是在所述步骤4)中计算语义图和事实的覆盖向量时,会额外计算覆盖损失,通过覆盖损失能有效避免重复选择同一个图里面的信息,因为一个图在过往选择的attention越高,产生的loss也越大。
;本实施例使用了如下指标进行评估:在自动评估方面,双语评估辅助(Bilingual Evaluation Understudy,BLEU)用于评测生成结果与标准结果的重合程度;显示排序翻译评估(Metric forEvaluation of Translation with Explicit Ordering,METEOR)用于评估生成结果与标准结果之间的语义相关性;面向召回率的摘要评估辅助(Recall-Oriented Understudyfor Gisting Evaluation,ROUGE-L)评估生成结果和标准结果之间的最长公共子串。在人工评估方面,流畅性用于说明生成结果表述的流畅程度;相关性评测生成结果和给定输入文本的相关程度;复杂性指的是生成问题是否复杂,对复杂性的评估可以通过观察句子中包含从句的数量、修饰词的个数以及回答该问题需要进行多跳推理的步数。正确性指的是生成问题中包含的事实是否正确,即事实三元组是否存在于给定的源文本中、实体和关系是否匹配。
为了验证本发明的效果,在常用数据集SQuAD、MSMARCO上进行了自动评测和人工评测。实验结果如下:
表1不同方法在SQuAD上的自动评测结果;
表2不同方法在MSMARCO上的自动评测结果;
表3不同方法在MSMARCO上的人工评测结果;
本发明在多个数据集上都达到了最优的性能,相较于其他方法,有较大的提升。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。
Claims (9)
1.一种基于双重规划的篇章级复杂问题生成方法,其特征在于,该方法包括如下步骤:
1)采用预训练语言模型BERT对给定的文章和答案进行编码,获得答案感知的文本向量表示,
2)对于给定文章中的每个句子序列,利用自适应跨句指代消解技术对该句子序列进行初步处理,然后采用记忆感知的语义图构建方法构建出细粒度的语义结构图,
3)对所述步骤2)最终得到的细粒度语义结构图,将图中的边也当作节点进行处理,通过多头注意力图编码器,首先获得句子中每个节点的向量表示,然后获得单个事实的向量表示,最后获得整张图的向量表示,
4)对所述步骤1)得到答案感知的文本向量表示,将其送入Transformer模型中解码,并且在解码的每个时间步,基于双重规划即事实级规划和语义图级规划,选择需要重点关注的语义图和其中的事实三元组,辅助当前词的生成,
5)设计损失函数,经过多次迭代,训练问题生成模型;
其中,所述步骤4)中,基于文本和语义结构图的编码结果,利用Transformer作为解码器,生成问题,在解码的每个时间步,基于双重规划即事实级规划和语义图级规划,选择需要重点关注的语义图和其中的事实三元组,辅助当前词的生成,具体来说,首先选择语义结构图,然后从语义结构图中选择相关的事实三元组,最后基于文本向量和选择的事实三元组更新解码器的隐状态,并生成当前词,
其中,语义图级规划旨在在每个解码时间步,基于文本语义向量和之前时间步生成的单词,通过注意力机制选择当前需要重点关注的语义结构图,得到基于注意力的语义结构图表示,然后将基于注意力的语义结构图表示和文本语义向量拼接起来,共同通过softmax层,计算得到每个子图的概率,从中选出概率最高的子图指导当前问题生成,
6.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤2)中,对每个句子经过指代消解后,采用记忆感知的语义图构建方法,从句子中抽取出实体关系三元组,构建出语义图,在记忆感知的语义图构建方法中,使用了迭代存储器将每轮生成的抽取结果都存储到内存中,以便下一次解码迭代访问所有先前的提取,首先通过将句子输入到序列架构中生成第一次抽取结果,然后将抽取结果与源句子拼接后再次输入到序列架构中生成新的抽取结果,一直重复该过程直到生成EndOfExtractions,表示抽取过程已结束;
所述步骤2)中,采用记忆感知的语义图构建方法中使用了序列到序列模型,使用了得评分框架来获得高质量的抽取结果,首先对汇集的抽取结果进行评分,好的抽取结果会比坏的和冗余的抽取结果获得更高的值,然后过滤掉抽取结果中的冗余数据,通过上述的评分框架,获得高质量的事实三元组,从而构建语义图。
7.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤3)中,对语义结构图进行编码时,将结构图中的边也当作节点进行编码,对于某个语义结构图,首先采用预先训练好的词向量初始化其中的节点embedding向量,接着为了能够捕获节点之间的语义联系,采用了关系增强的图Transformer对节点进行编码,该方法使用了关系增强的多头注意力机制得到每个节点的embedding向量,使得对语义结构图中的每个节点进行编码的时候,不仅包含当前节点的编码信息,还包含语义结构图中其他节点的信息,即保留了当前节点和其余节点之间的联系,最后,将语义结构图中的所有节点向量输入到全联接前馈网络(Fully ConnectedFeed-forward Network,FFN)中获得最终的节点语义表示向量,并采用残差连接解决深度学习中的退化问题,获得节点语义表示向量后,将图中位于同一事实三元组的节点向量输入到平均池化层中,得到该事实三元组的语义向量表示。
8.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤4)中,解码生成问题的过程中,融入了覆盖机制,鼓励解码器在生成单词时能够覆盖到所有的语义结构图和所有的事实三元组。
9.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤5)中,损失函数由三个部分组成—交叉熵损失、监督信息损失、覆盖损失,其中,交叉熵损失指的是最小化所有模型参数的负对数似然,监督信息损失指的是双重规划选择的语义图和事实与标准的语义图和事实之间存在的偏差,覆盖损失指的是在所述步骤4)中计算语义图和事实的覆盖向量时,会额外计算覆盖损失,以此来约束模型反复注意某个语义图或者某个事实。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211394785.6A CN115510814B (zh) | 2022-11-09 | 2022-11-09 | 一种基于双重规划的篇章级复杂问题生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211394785.6A CN115510814B (zh) | 2022-11-09 | 2022-11-09 | 一种基于双重规划的篇章级复杂问题生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115510814A CN115510814A (zh) | 2022-12-23 |
CN115510814B true CN115510814B (zh) | 2023-03-14 |
Family
ID=84513613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211394785.6A Active CN115510814B (zh) | 2022-11-09 | 2022-11-09 | 一种基于双重规划的篇章级复杂问题生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115510814B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115795018B (zh) * | 2023-02-13 | 2023-05-09 | 广州海昇计算机科技有限公司 | 一种面向电网领域的多策略智能搜索问答方法及系统 |
CN116662582B (zh) * | 2023-08-01 | 2023-10-10 | 成都信通信息技术有限公司 | 基于自然语言的特定领域业务知识检索方法及检索装置 |
CN117151069B (zh) * | 2023-10-31 | 2024-01-02 | 中国电子科技集团公司第十五研究所 | 一种保障方案生成系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111538838B (zh) * | 2020-04-28 | 2023-06-16 | 中国科学技术大学 | 基于文章的问题生成方法 |
CN113065336B (zh) * | 2021-05-06 | 2022-11-25 | 清华大学深圳国际研究生院 | 一种基于深度学习和内容规划的文本自动生成方法及装置 |
-
2022
- 2022-11-09 CN CN202211394785.6A patent/CN115510814B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115510814A (zh) | 2022-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109840287B (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN115510814B (zh) | 一种基于双重规划的篇章级复杂问题生成方法 | |
He et al. | See: Syntax-aware entity embedding for neural relation extraction | |
CN112733533B (zh) | 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 | |
CN109918489A (zh) | 一种多策略融合的知识问答方法和系统 | |
CN110516245A (zh) | 细粒度情感分析方法、装置、计算机设备及存储介质 | |
CN108573411A (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
CN111475655B (zh) | 一种基于配电网知识图谱的电力调度文本实体链接方法 | |
CN107562792A (zh) | 一种基于深度学习的问答匹配方法 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN114969278B (zh) | 一种基于知识增强图神经网络的文本问答模型 | |
CN112232087B (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
CN114781651B (zh) | 基于对比学习的小样本学习鲁棒性提升方法 | |
CN111737427B (zh) | 融合论坛互动行为与用户阅读偏好的慕课论坛帖推荐方法 | |
CN113254675B (zh) | 基于自适应少样本关系抽取的知识图谱构建方法 | |
CN114756681A (zh) | 一种基于多注意力融合的评教文本细粒度建议挖掘方法 | |
CN113283488A (zh) | 一种基于学习行为的认知诊断方法及系统 | |
CN117992614A (zh) | 一种中文网络课程评论情感分类方法、装置、设备和介质 | |
CN110516240A (zh) | 一种基于Transformer的语义相似度计算模型DSSM技术 | |
CN115422369B (zh) | 基于改进TextRank的知识图谱补全方法和装置 | |
CN116757195B (zh) | 一种基于提示学习的隐性情感识别方法 | |
Li et al. | Approach of intelligence question-answering system based on physical fitness knowledge graph | |
CN115309858A (zh) | 算术表达式的生成方法、装置、设备、介质及产品 | |
CN112860882A (zh) | 一种基于神经网络的图书概念前后序关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |