CN111274800A

CN111274800A - 基于关系图卷积网络的推理型阅读理解方法

Info

Publication number: CN111274800A
Application number: CN202010063302.9A
Authority: CN
Inventors: 鲁伟明; 汤泽云; 吴飞; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2020-06-12
Anticipated expiration: 2040-01-19
Also published as: CN111274800B

Abstract

本发明公开了一种基于关系图卷积神经网络的推理型阅读理解方法：该方法主要针对在文档间进行推理的阅读理解场景，首先根据问题和候选答案，在文档间挖掘推理路径，抽取推理节点；然后利用问题节点，候选答案节点和推理节点构建一个图网络作为文档和候选答案的表示；利用上下文词向量初始化图网络的节点向量；接着利用问题相关的门控机制优化图卷积网络的更新公式，更新图网络中节点的表示；最后利用双向注意力机制再次对问题和图网络进行交互编码，并通过全连接网络输出每个候选答案的概率。本发明提出了一个解决推理型阅读理解任务的方法，能够在多篇文档之间进行推理，可以有效的提高推理型阅读理解任务的效果，对阅读理解的发展具有较大的意义。

Description

基于关系图卷积网络的推理型阅读理解方法

技术领域

本发明涉及基于关系图卷积网络的推理型阅读理解方法，特别是涉及一种包含推理路径的图卷积网络的选择式阅读理解，利用推理节点将推理路径的思想引入到图网络中，利用门控机制和注意力机制优化关系图卷积的更新方式，在推理过程中引入问题的信息。

背景技术

阅读理解任务是指让机器像人一样，能够阅读文档，理解文档的意思，往往用关于文档的相关问题来验证机器理解文档的能力。阅读理解作为自然语言处理的一个重要任务，在最近几年成为学术和工业界的热点。在智能客服，自动问答系统有广泛的应用，能大大降低人工的劳动力，提高公司的效率。随着大数据，人工智能时代的到来，设计一个能够自动理解文档的阅读理解系统是非常有意义的，可以极大的促进人工智能的发展。

早期的阅读理解模型主要受限于传统机器学习技术的缺陷和大规模数据集的缺失，随着深度神经网络的兴起和大规模数据集的构建，阅读理解任务在近几年发展迅速，成为学术界最炽手可热的研究热点。2015年Hermann等人提出了两个用于阅读理解任务的大规模数据集CNN和Daily Mail。该数据集是一个完形填空式数据集，答案都是文档中的实体。并受机器翻译领域的启发，提出了基于注意力机制和循环神经网络的阅读理解模型，根据注意力机制的不同分为Attentive Reader和Impatient Reader，在这两个数据集上相对传统的自然语言处理方法取得了巨大的提升，成为了后来许多研究的基础。2016年，斯坦福提出了著名的阅读理解数据集SQuAD。SQuAD是典型的抽取式数据集，每个样例包含一个问题，对应的文档和文档中某个连续片段作为答案。2018年，Kociskyd等人提出了NarrativeQA数据集，该数据集需要机器读懂文档，从文档的不同片段推理总结才能得到正确答案。同年，Welbl等人公开了WIKIHOP数据集，Yang等人公开了HotpotQA数据集，这两个数据集都是基于多文档的推理式阅读理解数据集，计算机需要至少从两篇不同文档中提取信息并经过多跳的推理才能得到正确的答案。其中WIKIHOP是答案选择式数据集，HotpotQA是答案抽取式数据集。Cao等人提出了多跳推理阅读理解任务的新方法，利用关系图卷积网络代替传统的RNN来编码文档，图中的节点表示文档中的实体，定义了多种边的关系，利用关系图卷积公式模拟多文档之间的推理过程，他们提出了模型Entity-GCN在WIKIHOP数据集上刷新了当时的最好效果。Yu Cao等人在基于Entity-GCN的基础上，应用双向注意力机制来学习基于问题相关的表示，并引入了ELMo，GloVe，POS，NER等多层次特征信息。

本发明设计并实现了一个基于关系图卷积网络的推理型阅读理解方法。该方法利用目前最新的关系图卷积网络(RGCN)来模拟文档间推理的过程，并且利用推理节点成功将推理路径的思想引入到图网络中，利用注意力机制和门控机制优化关系图卷积的过程，引入问题的信息。

发明内容

本发明为了解决现实中从多篇文档中进行推理，自动回答问题的场景，提出了一种基于关系图卷积网络的推理型阅读理解方法，能够有效回答需要多篇文档间进程推理的阅读理解问题。

本发明解决其技术问题采用的技术方案如下：一种基于关系图卷积网络的推理型阅读理解方法，包括以下步骤：

1)抽取问题节点和候选答案节点：首先利用实体识别工具抽取问题中的实体，然后在文档中寻找该实体，将找到的实体作为一个问题节点，不同的位置的实体做为问题不同的节点；对于候选答案节点，将每个候选答案当做一个实体，然后与问题中的实体做相同的操作形成候选答案节点；

2)抽取推理节点：首先用实体识别工具抽取所有文档的实体；然后选取某一文档中包含问题节点的句子s_q，找到句子s_q中除问题节点q外的其他实体集m₁，然后在其他文档找到另一个包含了m₁中的某个实体e₁的句子s₁。判断句子s₁中是否含有某个候选答案节点，如果存在某个候选答案节点c，则找到一条从问题节点q到候选答案节点c的路径为q→e₁→c，其中问题节点与候选答案节点之间的节点为推理节点；如果句子s₁中不存在任何候选答案节点，则继续找到s₁句子中除实体e₁外的其他实体集m₂，重复上述过程，直到找到存在候选答案的句子；

3)基于推理路径的图网络构建：图网络的构建主要包含节点的确定和边关系的确定。首选以步骤1)和步骤2)抽取的问题节点，候选答案节点和推理节点作为图网络的节点，根据步骤2)中得到的路径添加不同的边关系形成图网络，以此来作为文档和候选答案的表示；

4)图网络的初始化：用步骤3)获得的图网络表示所有文档和候选答案，将所有文档通过深度上下文词向量表示模型(ELMo)，获得文档中每个词的上下文相关表示，然后抽取文档中对应图网络节点的词向量，与静态词向量组合作为图网络节点的初始化向量表示。

5)引入问题信息的关系图卷积更新：利用关系图卷积网络(RGCN)来更新步骤3)获得的图网络时，首先利用双向长短期记忆网络(BiLSTM)将问题编码为q^rnn，然后利用关系图卷积公式获得图网络节点的更新表示为

然后利用注意力机制和门控机制将q^rnn引入到节点表示

中，接着在利用一个门控机制结合上一时刻的节点表示

和更新后的表示

获得当前时刻的向量表示

将该关系图卷积更新过程堆叠L层获得图网络的表示

6)基于双向注意力机制的交互编码：利用双向注意力机制对步骤5)得到的图网络的

和q^rnn进行交互，然后将交互后的向量拼接，形成节点最终的向量表示；

7)答案输出层：将步骤6)获得的节点向量表示，经过两层的全连接网络，输出每个候选答案的概率，选择概率最大的候选答案作为问题最终的答案。

进一步地，所述的步骤1)中，在文档中寻找相应的实体时，将所有标点统一化，字符小写化，然后采用字符匹配的方式去匹配实体。

进一步地，步骤1)中，所述候选答案为实体或者短语。

进一步地，所述步骤2)中，实体识别工具采用斯坦福大学提供的stanfordcorenlp工具包，并过滤掉日期，数字等无意义的实体。

进一步地，所述步骤3)中，所述图网络中的边关系具有以下6类，分别为：

a)为问题中的实体节点和与它出现在同一个句子中的推理节点添加一种边关系；

b)为出现在同一个推理路径中邻接的推理节点添加一种边关系；

c)为候选答案的节点和与它出现在同一个句子中的推理节点添加一种边关系；

d)为对应同一个候选答案的不同节点添加一种边关系；

e)为出现在同一篇文档中的所有节点添加一种边关系；

f)为不存在上述5类关系的两个节点，添加一种边的关系。

进一步地，所述步骤4)中，静态词向量采用斯坦福大学提供的GloVe词向量，上下文词向量采用AllenNLP提供的已经预训练好的EMLo模型。并且静态词向量和上下文词向量的组合方式采用词向量拼接的方式，然后通过一个全连接网络，得到节点的初始化表示。其中如果节点由多个单词组成，则分别计算GloVe和ELMo向量的均值再拼接。

进一步地，所述步骤5)中，图卷积更新的具体过程公式为：

其中

是第i个节点的邻接节点集，

表示

中节点的数量，R_ij表示第i个节点和第j个节点存在的关系集，

表示第l层第j个节点的向量表示，

则是关系r的参数，不同的关系有不同的参数，各个层的参数共享。其中

可以看做是一种对节点自身的特殊关系的参数。σ是sigmoid激活函数，

是对

和

的拼接操作，f_g是一个简单多层神经网络(MLP)，tanh是非线性激活函数，⊙表示元素相乘。

进一步地，所述的步骤5)中，基于注意力机制和门控机制引入问题信息的具体公式为：

q^rnn＝BiLSTM(q)

首先利用双向长短记忆网络(BiLSTM)网络编码问题信息，用GloVe作为词向量的初始化，得到q^rnn∈R^d×m。然后，运用注意力机制(Attention)与图网络进行交互，获得跟问题相关的图网络的向量表示，其中

表示第l层卷积的图网络中的第i个节点，通过与问题交互获得的问题相关的编码。最后利用门控机制引入问题的信息，其中

是图网络中融入了问题信息的第l层的第i个节点表示。

和b_s分别表示为门控机制的权重和偏置。

进一步地，所述的步骤6)中，双向注意力机制的具体公式为：

S＝avg_-1f_a([h^L；q^rnn；h^L⊙q^rnn])

g_n2q＝softmax_col(S)·q^rnn

g_q2n＝dup(softmax(max_col(S)))^T·h^L

首先计算相似度矩阵S，其中arg_-1表示在向量的最后一维取平均。f_a是一个单层的全连接网络，h^L为关系图卷积更新过程堆叠L层获得图网络的表示。然后计算基于问题相关的图网络表示g_n2q和基于图网络相关的问题表示g_q2n，其中softmax_col和max_col都是在S相似度矩阵的列向量上操作，dup表示将Softmax(max_col(S))∈R^1×M复制T次。最后将获得h^L，g_n2q和g_q2n拼接形成最终的图网络中的节点表示

进一步地，所述的步骤7)中，全连接网络输出每个节点的概率后，对于对应同一个候选答案的不同节点，选择其中的最高分作为该候选答案的分数。训练时利用交叉熵作为训练的损失函数。

本发明方法与现有技术相比具有的有益效果：

1.该方法提出了一种基于关系图卷积网络的推理型阅读理解方法，该方法利用关系图卷积网络来模拟在文档间进行推理的过程，通过利用推理节点在图网络中构建推理路径，提高了在推理型阅读理解任务的效果，对现实中的搜索，自动问答具有极大的应用意义；

2.本发明方法在利用注意力机制和基于问题相关的门控机制优化了关系图卷积的公式，在图卷积操作时引入问题的信息，有效提高了抽取效果。

附图说明

图1是本发明的步骤流程图；

图2是本发明的模型图；

图3是本发明的图网络示意图；

图4是本发明实施例的实验结果图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

如图1和图2所示，本发明提供的一种基于关系图卷积网络的推理型阅读理解方法，包括以下步骤：

1)抽取问题节点和候选答案节点：首先利用实体识别工具抽取问题中的实体对象，然后去文档中寻找该实体，将找到的实体作为一个问题节点。对于候选答案节点，将每个候选答案当做一个实体，然后与问题中的实体做相同的操作形成候选答案节点；去文档中寻找相应的实体时，将所有标点统一化，字符小写化，然后采用字符匹配的方式去匹配实体。

2)抽取推理节点：首先用实体识别工具抽取所有文档的实体；然后选取某一文档中包含问题节点的句子s_q，找到句子s_q中除问题节点q外的其他实体集m₁，然后在其他文档找到另一个包含了m₁中的某个实体e₁的句子s₁。判断句子s₁中是否含有某个候选答案节点，如果存在某个候选答案节点c，则找到一条从问题节点q到候选答案节点c的路径为q→e₁→c，其中问题节点与候选答案节点之间的节点为推理节点；如果句子s₁中不存在任何候选答案节点，则继续找到s₁句子中除实体e₁外的其他实体集m₂，重复上述过程，直到找到存在候选答案的句子；实体识别工具采用斯坦福大学提供的stanfordcorenlp工具包，并过滤掉日期，数字等无意义的实体。

3)基于推理路径的图网络构建：图网络的构建主要包含节点的确定和边关系的确定。首选以步骤1)和步骤2)抽取的问题节点，候选答案节点和推理节点作为图网络的节点，在不同的节点之间添加不同的边关系，其中关键是根据步骤2)中的推理路径添加的边关系。最终形成包含3类不同节点，6类不同关系的图网络，以此来作为文档和候选答案的表示；6类边的关系分别为：

d)为对应同一个候选答案的不同节点添加一种边关系；

e)为出现在同一篇文档中的所有节点添加一种边关系；

f)为不存在上述5类关系的两个节点，添加一种边的关系。

4)图网络的初始化：用步骤3)获得的图网络表示所有文档和候选答案，将所有文档通过深度上下文词向量表示模型(ELMo)，获得文档中每个词的上下文相关表示，然后抽取文档中对应图网络节点的词向量，与静态词向量组合作为图网络节点的初始化向量表示。静态词向量采用斯坦福大学提供的GloVe词向量，上下文词向量采用AllenNLP提供的已经预训练好的EMLo模型。并且静态词向量和上下文词向量的组合方式采用词向量拼接的方式，然后通过一个全连接网络，得到节点的初始化表示。其中如果节点由多个单词组成，则分别计算GloVe和ELMo向量的均值再拼接。

然后利用注意力机制和门控机制将q^rnn引入到节点表示

中，接着在利用一个门控机制结合上一时刻的节点表示

和更新后的表示

获得当前时刻的向量表示

将该关系图卷积更新过程堆叠L层获得图网络的表示

图卷积更新的具体过程公式为：

其中

是第i个节点的邻接节点集，

表示

表示第l层第j个节点的向量表示，

是对

和

基于注意力机制和门控机制引入问题信息的具体公式为：

q^rnn＝BiLSTM(q)

是图网络中融入了问题信息的第l层的第i个节点表示。

和b_s分别表示为门控机制的权重和偏置。

和问题表示q^rnn进行交互，然后将交互后的向量拼接，形成节点最终的向量表示。双向注意力机制的具体公式为：

S＝avg_-1f_a([h^L；q^rnn；h^L⊙q^rnn])

g_n2q＝softmax_col(S)·q^rnn

g_q2n＝dup(softmax(max_col(S)))^T·h^L

首先计算相似度矩阵S，其中arg_-1表示在向量的最后一维取平均。f_a是一个单层的全连接网络。然后计算基于问题相关的图网络表示g_n2q和基于图网络相关的问题表示g_q2n，其中softmax_col和max_col都是在S相似度矩阵的列向量上操作，dup表示将Softmax(max_col(S))∈R^1×M复制T次。最后将获得h^L，g_n2q和g_q2n拼接形成最终的图网络中的节点表示

7)答案输出层：将步骤6)获得的节点向量表示，经过两层的全连接网络，输出每个候选答案的概率，选择概率最大的候选答案作为问题最终的答案。全连接网络输出每个节点的概率后，对于对应同一个候选答案的不同节点，选择其中的最高分作为该候选答案的分数。训练时利用交叉熵作为训练的损失函数。

实施例

下面结合本技术的方法详细说明该实例实施的具体步骤，如下：

(1)如图2所示，模型的输入为问题，相关文档和候选答案。抽取问题的实体，如图中例子的“Alexander John Ellis”，找到在文档1中的对应实体作为一个问题节点。同样的方式抽取候选节点，如图中的“Kensington”实体。

(2)如图2所示，根据问题节点和候选答案节点抽取推理节点。如图中的“KensalGreen Cemetery”实体，它既在问题节点“Alexander John Ellis”附近，又在候选答案节点“Kensington”的附近，就可以抽取一条从“Alexander John Ellis”到“Kensal GreenCemetery”到“Kensington”的推理路径，然后将“Kensal Green Cemetery”节点作为推理节点放到图网络中；

(3)如图3所示，包含3类不同的节点和和6类不同的关系。其中m_s表示问题中实体对应的节点，m_c表示抽取的推理节点，m_a表示候选答案对应的节点，相同颜色的节点表示对应的实体相同，同一个椭圆内节点表示这些节点是在同一篇文档中抽取得到。默认图的节点数不大于500；

(4)如图2所示，关系图卷积节点的初始化采用GloVe和ELMo相结合的方式。其中ELMo的向量只利用模型最上层LSTM输出的向量，组合的方式采用拼接的模式，其中如果节点由多个单词组成，则分别计算GloVe和ELMo向量的均值再拼接。然后通过一个全连接网络将初始化维度转变为300维的向量。GloVe和ELMo都采用预训练好的模型和参数，并且在本方法的模型训练中不再参与训练；

(5)如图2所示，关系图卷积的更新操作主要分为3个部分，首先利用传统关系图卷积公式聚合上一时刻邻接节点和自身节点的信息，然后利用注意力机制和门控机制引入问题的信息，最后通过另外一个门控机制组合上一时刻的节点信息和当前更新得到的节点信息。关系图卷积的操作堆叠3层，每一层的参数共享，同一层的不同门控机制的参数不共享，所有获得的向量表示维度都为300维；

(6)如图2所示，利用双向注意力机制对图网络和问题表示进行交互，然后将交互后的向量拼接，形成节点最终的向量表示。

(7)如图2所示，将节点最终的向量表示经过两层的全连接网络，输出每个候选答案的概率，选择概率最大的候选答案作为问题最终的答案。全连接网络输出每个节点的概率后，对于对应同一个候选答案的不同节点，选择其中的最高分作为该候选答案的分数。训练时利用交叉熵作为训练的损失函数。

本实施例的结果在附图4所示。最终的实验结果，在公开数据集WIKIHOP测试，采用准确率作为评估的标准，与其他研究学者提出的模型的对比，模型无论在验证集还是测试集都达到了目前最好的效果，其中在single model的验证集达到70.8，测试集72.5的准确率，超过了目前效果最好的DynSAN模型1.1个百分点。在ensemble model中，在测试集更是达到了78.3的准确率，超过人类的准确率4.2个百分点。实验证明，该方法对于推理型阅读理解任务有非常好效果。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于关系图卷积网络的推理型阅读理解方法，其特征在于，包括以下步骤：

然后利用注意力机制和门控机制将q^rnn引入到节点表示

中，接着在利用一个门控机制结合上一时刻的节点表示

和更新后的表示

获得当前时刻的向量表示

将该关系图卷积更新过程堆叠L层获得图网络的表示

2.根据权利要求1所述的基于关系图卷积网络的推理型阅读理解方法，其特征在于，所述的步骤1)中，在文档中寻找相应的实体时，将所有标点统一化，字符小写化，然后采用字符匹配的方式去匹配实体。

3.根据权利要求1所述的基于关系图卷积网络的推理型阅读理解方法，其特征在于，步骤1)中，所述候选答案为实体或者短语。

4.根据权利要求1所述的基于关系图卷积网络的推理型阅读理解方法，其特征在于，所述步骤2)中，实体识别工具采用斯坦福大学提供的stanfordcorenlp工具包，并过滤掉日期，数字等无意义的实体。

5.根据权利要求1所述的基于关系图卷积网络的推理型阅读理解方法，其特征在于，所述步骤3)中，所述图网络中的边关系具有以下6类，分别为：

d)为对应同一个候选答案的不同节点添加一种边关系；

e)为出现在同一篇文档中的所有节点添加一种边关系；

f)为不存在上述5类关系的两个节点，添加一种边的关系。

6.根据权利要求1所述的基于关系图卷积网络的推理型阅读理解方法，其特征在于，所述步骤4)中，静态词向量采用斯坦福大学提供的GloVe词向量，上下文词向量采用AllenNLP提供的已经预训练好的EMLo模型。并且静态词向量和上下文词向量的组合方式采用词向量拼接的方式，然后通过一个全连接网络，得到节点的初始化表示。其中如果节点由多个单词组成，则分别计算GloVe和ELMo向量的均值再拼接。

7.根据权利要求1所述的基于关系图卷积网络的推理型阅读理解方法，其特征在于，所述步骤5)中，图卷积更新的具体过程公式为：