CN110597947A

CN110597947A - 一种基于全局和局部注意力交互的阅读理解系统及方法

Info

Publication number: CN110597947A
Application number: CN201910214487.6A
Authority: CN
Inventors: 蔡晓东; 侯珍珍
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2019-12-20
Anticipated expiration: 2039-03-20
Also published as: CN110597947B

Abstract

本发明涉及一种基于全局和局部注意力交互的阅读理解系统及方法，其方法包括以下步骤：S1、输入文本段落C、问题Q、候选答案集A构成的三元组格式数据，对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到词向量，并将词向量进行初始化，得到网络输入数据；S2、对网络输入数据中文本段落C和问题Q的词向量进行编码，在局部情况下，获得文本段落C和问题Q之间的交互信息S1；以及在全局情况下，获得问题Q对文本段落C的关注度S2；S3、将交互信息S1和关注度S2进行融合和计算，依据计算结果选择候选答案集A中概率最高的单词作为预测答案。相对现有技术，本发明能够获得问题和文档之间更多的交互信息，提高推断答案的准确性。

Description

一种基于全局和局部注意力交互的阅读理解系统及方法

技术领域

本发明涉及自然语言处理技术领域，具体而言，特别涉及一种基于全局和局部注意力交互的阅读理解系统及方法。

背景技术

相关技术中，在自然语言处理(Natural Language Processing，简称NLP)领域，阅读理解是通过对文档的阅读和理解从而推测出问题的正确答案。赋予计算机阅读文档，处理文档和理解其含义的能力是人工智能研究者的长期目标，也是自然语言处理的最终目标之一。对于机器的阅读能力，可以采用多种方式进行评估，但近年来，随着几个基准数据集的建立，许多基于神经网络的阅读理解模型被提出作为机器阅读能力的评估，其中，完形填空式阅读理解也越来越受到NLP社区的关注。

完型填空式阅读理解是文本段落中包含空白部分，问题是从文本中抽取的包含空白的部分，其任务是根据对文本的阅读和理解填写适当的词或短语在空白处。近年来，提出了各种类型的深度学习匹配模型，大多采用基于注意力机制的神经网络。但是上述这些现有技术方案推断答案的准确性低。

发明内容

本发明旨在至少在一定程度上解决现有技术中的上述技术问题之一。为此，本发明的一个目的在于提出一种能够获得问题和文档之间的交互信息，提高推断答案准确性的基于全局和局部注意力交互的阅读理解系统及方法。

本发明解决上述技术问题的技术方案如下：一种基于全局和局部注意力交互的阅读理解方法，包括以下步骤：

S1、输入文本段落C、问题Q、候选答案集A构成的三元组格式数据，对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到针对文本段落C、问题Q、候选答案集A的词向量，并将词向量进行初始化，得到网络输入数据；

S2、对网络输入数据中文本段落C和问题Q的词向量进行编码，在局部情况下，获得文本段落C和问题Q之间的交互信息S1；以及在全局情况下，获得问题Q对文本段落C的关注度S2；

S3、将文本段落C和问题Q之间的交互信息S1和问题Q对文本段落C的关注度S2进行融合和计算，依据计算结果选择候选答案集A中概率最高的单词作为预测答案。

其中局部情况下，为对局部数据进行处理的情况下；

全局情况下，为对全局数据进行处理的情况下。

本发明的有益效果是：能够获得问题和文档之间更多的交互信息，提高推断答案的准确性。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述S1的具体步骤为：从CBT-NE数据集和CBT-CN数据集中采集数据，数据采用三元组格式，即(C,Q,A)，其中C表示带有空格的文本段落，Q表示问题，A表示候选答案集；使用Word2vec模型对采集的数据进行训练得到词向量，再对词向量进行初始化，获得网络输入数据。其中CBT-NE数据集代表的是以普通名词为答案的CBT数据集；CBT-NE代表的是以命名实体为答案的CBT数据集；CBT数据集具体为机器阅读理解数据集。

进一步，所述S2的具体步骤为：采用双向GRU分别对文本段落C和问题Q的词向量进行编码，得到上下文表示数据；

利用编码器函数G和编码器函数F对上下文表示数据中文本段落C和问题Q的每个单词进行编码，在局部情况下，获得文本段落C和问题Q之间的交互信息S1；以及在全局情况下，获得问题Q对文本段落C的关注度S2。

其中编码器函数G表示编码器的函数G；其中编码器函数F表示编码器的函数F；

采用上述进一步方案的有益效果是：便于获取获取文本段落C和问题Q之间的交互信息。

进一步，所述编码器函数G用于对文本段落C和问题Q的上下文表示数据中的每个单词进行编码；

编码器函数G对文本段落C的上下文表示数据中的每个单词进行编码为：

编码器函数G对问题Q的上下文表示数据中的每个单词进行编码为：

其中，和分别表示文本段落C中的第i个单词，问题Q中的第j个单词。

进一步，所述编码器函数F用于将问题Q转化为与G_i(C)具有相同维度的固定长度；具体为：

进一步，在局部情况下，文本段落C和问题Q均采用编码器函数G进行编码，得到上下文嵌入数据和

在局部情况下，文本段落C和问题Q均采用编码器函数G进行编码，得到上下文嵌入数据和

在获得文本段落C和问题Q的上下文嵌入数据之后，利用上下文嵌入数据和计算成对匹配矩阵M,成对匹配矩阵M表示一个文档词和一个问题词的成对匹配度；当给出文本段落C的第i个单词和问题的第j个单词时，通过第i个单词和第j个单词的点积计算成对匹配分数；

M(ij)＝G_i(C)^T·G_j(Q)；

计算每个文本段落C和问题Q之间的每对成对匹配分数，形成成对匹配矩阵M∈R^|c|*|q|,其中，第i行和第j列的值由M(ij)进行填充；

在获得成对匹配矩阵M后，应用逐列softmax函数处理成对匹配矩阵M获得每列中的概率分布，也就是在时间t的问题词的文档级关注；用α(t)表示在时间t的问题词的文档级关注，即问题Q到文本段落C的关注；

α(t)＝soft max(M(1,t),…,M(i,t),…,M(m,t))；

α＝(α(1)，…,α(i),…,α(m))；

将逐行softmax函数处理成对匹配矩阵M获得查询级别的注意力；用β(t)表示时间t的文档词的问题级关注，即文本段落C到问题Q的关注；

β(t)＝soft max(M(t,1),…,M(t,i),…,M(t,m))；

然后平均所有β(t)得到平均查询级别的注意力β；

计算α和β之间的点积s1，获得文本段落C和问题Q之间的交互信息，点积s1具体为在时间t查看问题词时计算每个单独文本段落级别注意力α的加权和；s1＝α^Tβ∈R^m×1。

进一步，在全局情况下，文本段落C采用编码器函数G进行编码，问题Q采用编码器函数F进行编码，分别得到上下文嵌入数据和然后计算文本段落C的上下文嵌入数据和问题Q的上下文嵌入数据的点积s2，作为文本段落C中每个单词的权重，作为对文本段落C的关注度；

采用上述进一步方案的有益效果是：便于获取对文本段落C的关注度。

进一步，所述S3的具体步骤为：

S31、将得到的点积s1和点积s2进行合并为S；S＝F(s1,s2)；

其中，S是对文本段落C的最终关注,F表示融合函数，对融合函数F的定义如下所示:

S32、将最终关注S映射到词汇空间V，利用总和关注机制对出现在文本段落C不同位置且单词相同的注意值进行汇总，得P(W|C,Q)＝∑_i∈I(w,c)s_i,w∈V；

其中I(w,c)表示单词w出现在文本段落C中的位置,作为训练目标，最大化正确答案的对数似然函数为L＝∑log(p(x)),x∈A；

选择候选答案集A中概率最高的单词作为预测答案a*＝arg max_cP(W/C,Q)。

采用上述进一步方案的有益效果是：通过对点积s1和点积s2进行合并，提高推断答案的准确性。

本发明解决上述技术问题的另一技术方案如下：一种基于全局和局部注意力交互的阅读理解系统，包括预处理模块、特征提取模块和预测输出模块；

所述预处理模块用于输入文本段落C、问题Q、候选答案集A构成的三元组格式数据，对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到针对文本段落C、问题Q、候选答案集A的词向量，并将词向量进行初始化，得到网络输入数据；

所述特征提取模块用于对网络输入数据中文本段落C和问题Q的词向量进行编码，在局部情况下，获得文本段落C和问题Q之间的交互信息S1；以及在全局情况下，获得问题Q对文本段落C的关注度S2；

所述预测输出模块用于将文本段落C和问题Q之间的交互信息S1和问题Q对文本段落C的关注度S2进行融合和计算，依据计算结果选择候选答案集A中概率最高的单词作为预测答案。

附图说明

图1为本发明一种基于全局和局部注意力交互的阅读理解方法的流程图；

图2为本发明一种基于全局和局部注意力交互的阅读理解方法的整体框架图；

图3为本发明一种基于全局和局部注意力交互的阅读理解系统的模块框图。

附图中，各标号所代表的部件列表如下：

1、预处理模块，2、特征提取模块，3、预测输出模块。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例1：

如图1和图2所示，本发明涉及一种基于全局和局部注意力交互的阅读理解方法，包括以下步骤：

上述实施例中，所述S1的具体步骤为：从CBT-NE数据集和CBT-CN数据集中采集数据，数据采用三元组格式，即(C,Q,A)，其中C表示带有空格的文本段落，Q表示问题，A表示候选答案集；使用Word2vec模型对采集的数据进行训练得到词向量，再对词向量进行初始化，获得网络输入数据。

上述实施例中，所述S2的具体步骤为：采用双向GRU分别对文本段落C和问题Q的词向量进行编码，得到上下文表示数据；

上述实施例中，所述编码器函数G用于对文本段落C和问题Q的上下文表示数据中的每个单词进行编码；

上述实施例中，所述编码器函数F用于将问题Q转化为与G_i(C)具有相同维度的固定长度；具体为：

上述实施例中，在局部情况下，文本段落C和问题Q均采用编码器函数G，根据上下文编码层分别得到上下文嵌入和

M(ij)＝G_i(C)^T·G_j(Q)；

α(t)＝soft max(M(1,t),…,M(i,t),…,M(m,t))；

α＝(α(1)，…,α(i),…,α(m))；

β(t)＝soft max(M(t,1),…,M(t,i),…,M(t,m))；

然后平均所有β(t)得到平均查询级别的注意力β；

上述实施例中，在全局情况下，文本段落C采用编码器函数G进行编码，问题Q采用编码器函数F进行编码，分别得到上下文嵌入数据和然后计算文本段落C的上下文嵌入数据和问题Q的上下文嵌入数据的点积s2，作为文本段落C中每个单词的权重，作为对文本段落C的关注度；

上述实施例中，所述S3的具体步骤为：

S31、将得到的点积s1和点积s2进行合并为S；S＝F(s1,s2)；

本技术方案本能够获得问题和文档之间更多的交互信息，提高推断答案的准确性。

如图3所示，本发明还涉及一种基于全局和局部注意力交互的阅读理解系统，包括预处理模块1、特征提取模块2和预测输出模块3；

所述预处理模块1用于输入文本段落C、问题Q、候选答案集A构成的三元组格式数据，对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到针对文本段落C、问题Q、候选答案集A的词向量，并将词向量进行初始化，得到网络输入数据；

所述特征提取模块2用于对网络输入数据中文本段落C和问题Q的词向量进行编码，在局部情况下，获得文本段落C和问题Q之间的交互信息S1；以及在全局情况下，获得问题Q对文本段落C的关注度S2；

所述预测输出模块3用于将文本段落C和问题Q之间的交互信息S1和问题Q对文本段落C的关注度S2进行融合和计算，依据计算结果选择候选答案集A中概率最高的单词作为预测答案。

上述实施例中，所述预处理模块1从CBT-NE数据集和CBT-CN数据集中采集数据，数据采用三元组格式，即(C,Q,A)，其中C表示带有空格的文本段落，Q表示问题，A表示候选答案集；使用Word2vec模型对采集的数据进行训练得到词向量，再对词向量进行初始化，获得网络输入数据。

上述实施例中，所述特征提取模块2采用双向GRU分别对文本段落C和问题Q的词向量进行编码，得到上下文表示数据；

上述实施例中，在局部情况下，文本段落C和问题Q均采用编码器函数G进行编码，得到上下文嵌入数据和

M(ij)＝G_i(C)^T·G_j(Q)；

α(t)＝soft max(M(1,t),…,M(i,t),…,M(m,t))；

α＝(α(1)，…,α(i),…,α(m))；

β(t)＝soft max(M(t,1),…,M(t,i),…,M(t,m))；

然后平均所有β(t)得到平均查询级别的注意力β；

上述实施例中，所述预测输出模块3将得到的点积s1和点积s2进行合并为S；S＝F(s1,s2)；

还将最终关注S映射到词汇空间V，利用总和关注机制对出现在文本段落C不同位置且单词相同的注意值进行汇总，得P(W|C,Q)＝∑_i∈I(w,c)s_i,w∈V；

本技术方案能够获得问题和文档之间更多的交互信息，提高推断答案的准确性。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于全局和局部注意力交互的阅读理解方法，其特征在于：包括以下步骤：

2.根据权利要求1所述一种基于全局和局部注意力交互的阅读理解方法，其特征在于：所述S1的具体步骤为：从CBT-NE数据集和CBT-CN数据集中采集数据，数据采用三元组格式，即(C,Q,A)，其中C表示带有空格的文本段落，Q表示问题，A表示候选答案集；使用Word2vec模型对采集的数据进行训练得到词向量，再对词向量进行初始化，获得网络输入数据。

3.根据权利要求2所述一种基于全局和局部注意力交互的阅读理解方法，其特征在于：所述S2的具体步骤为：采用双向GRU分别对文本段落C和问题Q的词向量进行编码，得到上下文表示数据；

4.根据权利要求3所述一种基于全局和局部注意力交互的阅读理解方法，其特征在于：所述编码器函数G用于对文本段落C和问题Q的上下文表示数据中的每个单词进行编码；

5.根据权利要求4所述一种基于全局和局部注意力交互的阅读理解方法，其特征在于：所述编码器函数F用于将问题Q转化为与G_i(C)具有相同维度的固定长度；具体为：

6.根据权利要求5所述一种基于全局和局部注意力交互的阅读理解方法，其特征在于：在局部情况下，文本段落C和问题Q均采用编码器函数G进行编码，得到上下文嵌入数据和

M(ij)＝G_i(C)^T·G_j(Q)；

α(t)＝softmax(M(1,t),…,M(i,t),…,M(m,t))；

α＝(α(1)，…,α(i),…,α(m))；

β(t)＝softmax(M(t,1),…,M(t,i),…,M(t,m))；

然后平均所有β(t)得到平均查询级别的注意力β；

7.根据权利要求6所述一种基于全局和局部注意力交互的阅读理解方法，其特征在于：在全局情况下，文本段落C采用编码器函数G进行编码，问题Q采用编码器函数F进行编码，分别得到上下文嵌入数据和然后计算文本段落C的上下文嵌入数据和问题Q的上下文嵌入数据的点积s2，作为文本段落C中每个单词的权重，作为对文本段落C的关注度；

8.根据权利要求1至7任一项所述一种基于全局和局部注意力交互的阅读理解方法，其特征在于：所述S3的具体步骤为：

S31、将得到的点积s1和点积s2进行合并为S；S＝F(s1,s2)；

选择候选答案集A中概率最高的单词作为预测答案a*＝argmax_cP(W/C,Q)。

9.一种基于全局和局部注意力交互的阅读理解系统，其特征在于，包括预处理模块(1)、特征提取模块(2)和预测输出模块(3)；

所述预处理模块(1)用于输入文本段落C、问题Q、候选答案集A构成的三元组格式数据，对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到针对文本段落C、问题Q、候选答案集A的词向量，并将词向量进行初始化，得到网络输入数据；

所述特征提取模块(2)用于对网络输入数据中文本段落C和问题Q的词向量进行编码，在局部情况下，获得文本段落C和问题Q之间的交互信息S1；以及在全局情况下，获得问题Q对文本段落C的关注度S2；

所述预测输出模块(3)用于将文本段落C和问题Q之间的交互信息S1和问题Q对文本段落C的关注度S2进行融合和计算，依据计算结果选择候选答案集A中概率最高的单词作为预测答案。