CN110597947A - 一种基于全局和局部注意力交互的阅读理解系统及方法 - Google Patents
一种基于全局和局部注意力交互的阅读理解系统及方法 Download PDFInfo
- Publication number
- CN110597947A CN110597947A CN201910214487.6A CN201910214487A CN110597947A CN 110597947 A CN110597947 A CN 110597947A CN 201910214487 A CN201910214487 A CN 201910214487A CN 110597947 A CN110597947 A CN 110597947A
- Authority
- CN
- China
- Prior art keywords
- question
- word
- attention
- text
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 14
- 230000002452 interceptive effect Effects 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000000750 progressive effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 46
- 230000009286 beneficial effect Effects 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种基于全局和局部注意力交互的阅读理解系统及方法,其方法包括以下步骤:S1、输入文本段落C、问题Q、候选答案集A构成的三元组格式数据,对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到词向量,并将词向量进行初始化,得到网络输入数据;S2、对网络输入数据中文本段落C和问题Q的词向量进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2;S3、将交互信息S1和关注度S2进行融合和计算,依据计算结果选择候选答案集A中概率最高的单词作为预测答案。相对现有技术,本发明能够获得问题和文档之间更多的交互信息,提高推断答案的准确性。
Description
技术领域
本发明涉及自然语言处理技术领域,具体而言,特别涉及一种基于全局和局部注意力交互的阅读理解系统及方法。
背景技术
相关技术中,在自然语言处理(Natural Language Processing,简称NLP)领域,阅读理解是通过对文档的阅读和理解从而推测出问题的正确答案。赋予计算机阅读文档,处理文档和理解其含义的能力是人工智能研究者的长期目标,也是自然语言处理的最终目标之一。对于机器的阅读能力,可以采用多种方式进行评估,但近年来,随着几个基准数据集的建立,许多基于神经网络的阅读理解模型被提出作为机器阅读能力的评估,其中,完形填空式阅读理解也越来越受到NLP社区的关注。
完型填空式阅读理解是文本段落中包含空白部分,问题是从文本中抽取的包含空白的部分,其任务是根据对文本的阅读和理解填写适当的词或短语在空白处。近年来,提出了各种类型的深度学习匹配模型,大多采用基于注意力机制的神经网络。但是上述这些现有技术方案推断答案的准确性低。
发明内容
本发明旨在至少在一定程度上解决现有技术中的上述技术问题之一。为此,本发明的一个目的在于提出一种能够获得问题和文档之间的交互信息,提高推断答案准确性的基于全局和局部注意力交互的阅读理解系统及方法。
本发明解决上述技术问题的技术方案如下:一种基于全局和局部注意力交互的阅读理解方法,包括以下步骤:
S1、输入文本段落C、问题Q、候选答案集A构成的三元组格式数据,对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到针对文本段落C、问题Q、候选答案集A的词向量,并将词向量进行初始化,得到网络输入数据;
S2、对网络输入数据中文本段落C和问题Q的词向量进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2;
S3、将文本段落C和问题Q之间的交互信息S1和问题Q对文本段落C的关注度S2进行融合和计算,依据计算结果选择候选答案集A中概率最高的单词作为预测答案。
其中局部情况下,为对局部数据进行处理的情况下;
全局情况下,为对全局数据进行处理的情况下。
本发明的有益效果是:能够获得问题和文档之间更多的交互信息,提高推断答案的准确性。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述S1的具体步骤为:从CBT-NE数据集和CBT-CN数据集中采集数据,数据采用三元组格式,即(C,Q,A),其中C表示带有空格的文本段落,Q表示问题,A表示候选答案集;使用Word2vec模型对采集的数据进行训练得到词向量,再对词向量进行初始化,获得网络输入数据。其中CBT-NE数据集代表的是以普通名词为答案的CBT数据集;CBT-NE代表的是以命名实体为答案的CBT数据集;CBT数据集具体为机器阅读理解数据集。
进一步,所述S2的具体步骤为:采用双向GRU分别对文本段落C和问题Q的词向量进行编码,得到上下文表示数据;
利用编码器函数G和编码器函数F对上下文表示数据中文本段落C和问题Q的每个单词进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2。
其中编码器函数G表示编码器的函数G;其中编码器函数F表示编码器的函数F;
采用上述进一步方案的有益效果是:便于获取获取文本段落C和问题Q之间的交互信息。
进一步,所述编码器函数G用于对文本段落C和问题Q的上下文表示数据中的每个单词进行编码;
编码器函数G对文本段落C的上下文表示数据中的每个单词进行编码为:
编码器函数G对问题Q的上下文表示数据中的每个单词进行编码为:
其中,和分别表示文本段落C中的第i个单词,问题Q中的第j个单词。
采用上述进一步方案的有益效果是:便于获取获取文本段落C和问题Q之间的交互信息。
进一步,所述编码器函数F用于将问题Q转化为与Gi(C)具有相同维度的固定长度;具体为:
进一步,在局部情况下,文本段落C和问题Q均采用编码器函数G进行编码,得到上下文嵌入数据和
在局部情况下,文本段落C和问题Q均采用编码器函数G进行编码,得到上下文嵌入数据和
在获得文本段落C和问题Q的上下文嵌入数据之后,利用上下文嵌入数据和计算成对匹配矩阵M,成对匹配矩阵M表示一个文档词和一个问题词的成对匹配度;当给出文本段落C的第i个单词和问题的第j个单词时,通过第i个单词和第j个单词的点积计算成对匹配分数;
M(ij)=Gi(C)T·Gj(Q);
计算每个文本段落C和问题Q之间的每对成对匹配分数,形成成对匹配矩阵M∈R|c|*|q|,其中,第i行和第j列的值由M(ij)进行填充;
在获得成对匹配矩阵M后,应用逐列softmax函数处理成对匹配矩阵M获得每列中的概率分布,也就是在时间t的问题词的文档级关注;用α(t)表示在时间t的问题词的文档级关注,即问题Q到文本段落C的关注;
α(t)=soft max(M(1,t),…,M(i,t),…,M(m,t));
α=(α(1),…,α(i),…,α(m));
将逐行softmax函数处理成对匹配矩阵M获得查询级别的注意力;用β(t)表示时间t的文档词的问题级关注,即文本段落C到问题Q的关注;
β(t)=soft max(M(t,1),…,M(t,i),…,M(t,m));
然后平均所有β(t)得到平均查询级别的注意力β;
计算α和β之间的点积s1,获得文本段落C和问题Q之间的交互信息,点积s1具体为在时间t查看问题词时计算每个单独文本段落级别注意力α的加权和;s1=αTβ∈Rm×1。
采用上述进一步方案的有益效果是:便于获取获取文本段落C和问题Q之间的交互信息。
进一步,在全局情况下,文本段落C采用编码器函数G进行编码,问题Q采用编码器函数F进行编码,分别得到上下文嵌入数据和然后计算文本段落C的上下文嵌入数据和问题Q的上下文嵌入数据的点积s2,作为文本段落C中每个单词的权重,作为对文本段落C的关注度;
采用上述进一步方案的有益效果是:便于获取对文本段落C的关注度。
进一步,所述S3的具体步骤为:
S31、将得到的点积s1和点积s2进行合并为S;S=F(s1,s2);
其中,S是对文本段落C的最终关注,F表示融合函数,对融合函数F的定义如下所示:
S32、将最终关注S映射到词汇空间V,利用总和关注机制对出现在文本段落C不同位置且单词相同的注意值进行汇总,得P(W|C,Q)=∑i∈I(w,c)si,w∈V;
其中I(w,c)表示单词w出现在文本段落C中的位置,作为训练目标,最大化正确答案的对数似然函数为L=∑log(p(x)),x∈A;
选择候选答案集A中概率最高的单词作为预测答案a*=arg maxcP(W/C,Q)。
采用上述进一步方案的有益效果是:通过对点积s1和点积s2进行合并,提高推断答案的准确性。
本发明解决上述技术问题的另一技术方案如下:一种基于全局和局部注意力交互的阅读理解系统,包括预处理模块、特征提取模块和预测输出模块;
所述预处理模块用于输入文本段落C、问题Q、候选答案集A构成的三元组格式数据,对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到针对文本段落C、问题Q、候选答案集A的词向量,并将词向量进行初始化,得到网络输入数据;
所述特征提取模块用于对网络输入数据中文本段落C和问题Q的词向量进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2;
所述预测输出模块用于将文本段落C和问题Q之间的交互信息S1和问题Q对文本段落C的关注度S2进行融合和计算,依据计算结果选择候选答案集A中概率最高的单词作为预测答案。
本发明的有益效果是:能够获得问题和文档之间更多的交互信息,提高推断答案的准确性。
附图说明
图1为本发明一种基于全局和局部注意力交互的阅读理解方法的流程图;
图2为本发明一种基于全局和局部注意力交互的阅读理解方法的整体框架图;
图3为本发明一种基于全局和局部注意力交互的阅读理解系统的模块框图。
附图中,各标号所代表的部件列表如下:
1、预处理模块,2、特征提取模块,3、预测输出模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1:
如图1和图2所示,本发明涉及一种基于全局和局部注意力交互的阅读理解方法,包括以下步骤:
S1、输入文本段落C、问题Q、候选答案集A构成的三元组格式数据,对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到针对文本段落C、问题Q、候选答案集A的词向量,并将词向量进行初始化,得到网络输入数据;
S2、对网络输入数据中文本段落C和问题Q的词向量进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2;
S3、将文本段落C和问题Q之间的交互信息S1和问题Q对文本段落C的关注度S2进行融合和计算,依据计算结果选择候选答案集A中概率最高的单词作为预测答案。
上述实施例中,所述S1的具体步骤为:从CBT-NE数据集和CBT-CN数据集中采集数据,数据采用三元组格式,即(C,Q,A),其中C表示带有空格的文本段落,Q表示问题,A表示候选答案集;使用Word2vec模型对采集的数据进行训练得到词向量,再对词向量进行初始化,获得网络输入数据。
上述实施例中,所述S2的具体步骤为:采用双向GRU分别对文本段落C和问题Q的词向量进行编码,得到上下文表示数据;
利用编码器函数G和编码器函数F对上下文表示数据中文本段落C和问题Q的每个单词进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2。
上述实施例中,所述编码器函数G用于对文本段落C和问题Q的上下文表示数据中的每个单词进行编码;
编码器函数G对文本段落C的上下文表示数据中的每个单词进行编码为:
编码器函数G对问题Q的上下文表示数据中的每个单词进行编码为:
其中,和分别表示文本段落C中的第i个单词,问题Q中的第j个单词。
上述实施例中,所述编码器函数F用于将问题Q转化为与Gi(C)具有相同维度的固定长度;具体为:
上述实施例中,在局部情况下,文本段落C和问题Q均采用编码器函数G,根据上下文编码层分别得到上下文嵌入和
在获得文本段落C和问题Q的上下文嵌入数据之后,利用上下文嵌入数据和计算成对匹配矩阵M,成对匹配矩阵M表示一个文档词和一个问题词的成对匹配度;当给出文本段落C的第i个单词和问题的第j个单词时,通过第i个单词和第j个单词的点积计算成对匹配分数;
M(ij)=Gi(C)T·Gj(Q);
计算每个文本段落C和问题Q之间的每对成对匹配分数,形成成对匹配矩阵M∈R|c|*|q|,其中,第i行和第j列的值由M(ij)进行填充;
在获得成对匹配矩阵M后,应用逐列softmax函数处理成对匹配矩阵M获得每列中的概率分布,也就是在时间t的问题词的文档级关注;用α(t)表示在时间t的问题词的文档级关注,即问题Q到文本段落C的关注;
α(t)=soft max(M(1,t),…,M(i,t),…,M(m,t));
α=(α(1),…,α(i),…,α(m));
将逐行softmax函数处理成对匹配矩阵M获得查询级别的注意力;用β(t)表示时间t的文档词的问题级关注,即文本段落C到问题Q的关注;
β(t)=soft max(M(t,1),…,M(t,i),…,M(t,m));
然后平均所有β(t)得到平均查询级别的注意力β;
计算α和β之间的点积s1,获得文本段落C和问题Q之间的交互信息,点积s1具体为在时间t查看问题词时计算每个单独文本段落级别注意力α的加权和;s1=αTβ∈Rm×1。
上述实施例中,在全局情况下,文本段落C采用编码器函数G进行编码,问题Q采用编码器函数F进行编码,分别得到上下文嵌入数据和然后计算文本段落C的上下文嵌入数据和问题Q的上下文嵌入数据的点积s2,作为文本段落C中每个单词的权重,作为对文本段落C的关注度;
上述实施例中,所述S3的具体步骤为:
S31、将得到的点积s1和点积s2进行合并为S;S=F(s1,s2);
其中,S是对文本段落C的最终关注,F表示融合函数,对融合函数F的定义如下所示:
S32、将最终关注S映射到词汇空间V,利用总和关注机制对出现在文本段落C不同位置且单词相同的注意值进行汇总,得P(W|C,Q)=∑i∈I(w,c)si,w∈V;
其中I(w,c)表示单词w出现在文本段落C中的位置,作为训练目标,最大化正确答案的对数似然函数为L=∑log(p(x)),x∈A;
选择候选答案集A中概率最高的单词作为预测答案a*=arg maxcP(W/C,Q)。
本技术方案本能够获得问题和文档之间更多的交互信息,提高推断答案的准确性。
如图3所示,本发明还涉及一种基于全局和局部注意力交互的阅读理解系统,包括预处理模块1、特征提取模块2和预测输出模块3;
所述预处理模块1用于输入文本段落C、问题Q、候选答案集A构成的三元组格式数据,对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到针对文本段落C、问题Q、候选答案集A的词向量,并将词向量进行初始化,得到网络输入数据;
所述特征提取模块2用于对网络输入数据中文本段落C和问题Q的词向量进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2;
所述预测输出模块3用于将文本段落C和问题Q之间的交互信息S1和问题Q对文本段落C的关注度S2进行融合和计算,依据计算结果选择候选答案集A中概率最高的单词作为预测答案。
上述实施例中,所述预处理模块1从CBT-NE数据集和CBT-CN数据集中采集数据,数据采用三元组格式,即(C,Q,A),其中C表示带有空格的文本段落,Q表示问题,A表示候选答案集;使用Word2vec模型对采集的数据进行训练得到词向量,再对词向量进行初始化,获得网络输入数据。
上述实施例中,所述特征提取模块2采用双向GRU分别对文本段落C和问题Q的词向量进行编码,得到上下文表示数据;
利用编码器函数G和编码器函数F对上下文表示数据中文本段落C和问题Q的每个单词进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2。
上述实施例中,所述编码器函数G用于对文本段落C和问题Q的上下文表示数据中的每个单词进行编码;
编码器函数G对文本段落C的上下文表示数据中的每个单词进行编码为:
编码器函数G对问题Q的上下文表示数据中的每个单词进行编码为:
其中,和分别表示文本段落C中的第i个单词,问题Q中的第j个单词。
上述实施例中,所述编码器函数F用于将问题Q转化为与Gi(C)具有相同维度的固定长度;具体为:
上述实施例中,在局部情况下,文本段落C和问题Q均采用编码器函数G进行编码,得到上下文嵌入数据和
在获得文本段落C和问题Q的上下文嵌入数据之后,利用上下文嵌入数据和计算成对匹配矩阵M,成对匹配矩阵M表示一个文档词和一个问题词的成对匹配度;当给出文本段落C的第i个单词和问题的第j个单词时,通过第i个单词和第j个单词的点积计算成对匹配分数;
M(ij)=Gi(C)T·Gj(Q);
计算每个文本段落C和问题Q之间的每对成对匹配分数,形成成对匹配矩阵M∈R|c|*|q|,其中,第i行和第j列的值由M(ij)进行填充;
在获得成对匹配矩阵M后,应用逐列softmax函数处理成对匹配矩阵M获得每列中的概率分布,也就是在时间t的问题词的文档级关注;用α(t)表示在时间t的问题词的文档级关注,即问题Q到文本段落C的关注;
α(t)=soft max(M(1,t),…,M(i,t),…,M(m,t));
α=(α(1),…,α(i),…,α(m));
将逐行softmax函数处理成对匹配矩阵M获得查询级别的注意力;用β(t)表示时间t的文档词的问题级关注,即文本段落C到问题Q的关注;
β(t)=soft max(M(t,1),…,M(t,i),…,M(t,m));
然后平均所有β(t)得到平均查询级别的注意力β;
计算α和β之间的点积s1,获得文本段落C和问题Q之间的交互信息,点积s1具体为在时间t查看问题词时计算每个单独文本段落级别注意力α的加权和;s1=αTβ∈Rm×1。
上述实施例中,在全局情况下,文本段落C采用编码器函数G进行编码,问题Q采用编码器函数F进行编码,分别得到上下文嵌入数据和然后计算文本段落C的上下文嵌入数据和问题Q的上下文嵌入数据的点积s2,作为文本段落C中每个单词的权重,作为对文本段落C的关注度;
上述实施例中,所述预测输出模块3将得到的点积s1和点积s2进行合并为S;S=F(s1,s2);
其中,S是对文本段落C的最终关注,F表示融合函数,对融合函数F的定义如下所示:
还将最终关注S映射到词汇空间V,利用总和关注机制对出现在文本段落C不同位置且单词相同的注意值进行汇总,得P(W|C,Q)=∑i∈I(w,c)si,w∈V;
其中I(w,c)表示单词w出现在文本段落C中的位置,作为训练目标,最大化正确答案的对数似然函数为L=∑log(p(x)),x∈A;
选择候选答案集A中概率最高的单词作为预测答案a*=arg maxcP(W/C,Q)。
本技术方案能够获得问题和文档之间更多的交互信息,提高推断答案的准确性。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于全局和局部注意力交互的阅读理解方法,其特征在于:包括以下步骤:
S1、输入文本段落C、问题Q、候选答案集A构成的三元组格式数据,对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到针对文本段落C、问题Q、候选答案集A的词向量,并将词向量进行初始化,得到网络输入数据;
S2、对网络输入数据中文本段落C和问题Q的词向量进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2;
S3、将文本段落C和问题Q之间的交互信息S1和问题Q对文本段落C的关注度S2进行融合和计算,依据计算结果选择候选答案集A中概率最高的单词作为预测答案。
2.根据权利要求1所述一种基于全局和局部注意力交互的阅读理解方法,其特征在于:所述S1的具体步骤为:从CBT-NE数据集和CBT-CN数据集中采集数据,数据采用三元组格式,即(C,Q,A),其中C表示带有空格的文本段落,Q表示问题,A表示候选答案集;使用Word2vec模型对采集的数据进行训练得到词向量,再对词向量进行初始化,获得网络输入数据。
3.根据权利要求2所述一种基于全局和局部注意力交互的阅读理解方法,其特征在于:所述S2的具体步骤为:采用双向GRU分别对文本段落C和问题Q的词向量进行编码,得到上下文表示数据;
利用编码器函数G和编码器函数F对上下文表示数据中文本段落C和问题Q的每个单词进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2。
4.根据权利要求3所述一种基于全局和局部注意力交互的阅读理解方法,其特征在于:所述编码器函数G用于对文本段落C和问题Q的上下文表示数据中的每个单词进行编码;
编码器函数G对文本段落C的上下文表示数据中的每个单词进行编码为:
编码器函数G对问题Q的上下文表示数据中的每个单词进行编码为:
其中,和分别表示文本段落C中的第i个单词,问题Q中的第j个单词。
5.根据权利要求4所述一种基于全局和局部注意力交互的阅读理解方法,其特征在于:所述编码器函数F用于将问题Q转化为与Gi(C)具有相同维度的固定长度;具体为:
6.根据权利要求5所述一种基于全局和局部注意力交互的阅读理解方法,其特征在于:在局部情况下,文本段落C和问题Q均采用编码器函数G进行编码,得到上下文嵌入数据和
在获得文本段落C和问题Q的上下文嵌入数据之后,利用上下文嵌入数据和计算成对匹配矩阵M,成对匹配矩阵M表示一个文档词和一个问题词的成对匹配度;当给出文本段落C的第i个单词和问题的第j个单词时,通过第i个单词和第j个单词的点积计算成对匹配分数;
M(ij)=Gi(C)T·Gj(Q);
计算每个文本段落C和问题Q之间的每对成对匹配分数,形成成对匹配矩阵M∈R|c|*|q|,其中,第i行和第j列的值由M(ij)进行填充;
在获得成对匹配矩阵M后,应用逐列softmax函数处理成对匹配矩阵M获得每列中的概率分布,也就是在时间t的问题词的文档级关注;用α(t)表示在时间t的问题词的文档级关注,即问题Q到文本段落C的关注;
α(t)=softmax(M(1,t),…,M(i,t),…,M(m,t));
α=(α(1),…,α(i),…,α(m));
将逐行softmax函数处理成对匹配矩阵M获得查询级别的注意力;用β(t)表示时间t的文档词的问题级关注,即文本段落C到问题Q的关注;
β(t)=softmax(M(t,1),…,M(t,i),…,M(t,m));
然后平均所有β(t)得到平均查询级别的注意力β;
计算α和β之间的点积s1,获得文本段落C和问题Q之间的交互信息,点积s1具体为在时间t查看问题词时计算每个单独文本段落级别注意力α的加权和;s1=αTβ∈Rm×1。
7.根据权利要求6所述一种基于全局和局部注意力交互的阅读理解方法,其特征在于:在全局情况下,文本段落C采用编码器函数G进行编码,问题Q采用编码器函数F进行编码,分别得到上下文嵌入数据和然后计算文本段落C的上下文嵌入数据和问题Q的上下文嵌入数据的点积s2,作为文本段落C中每个单词的权重,作为对文本段落C的关注度;
8.根据权利要求1至7任一项所述一种基于全局和局部注意力交互的阅读理解方法,其特征在于:所述S3的具体步骤为:
S31、将得到的点积s1和点积s2进行合并为S;S=F(s1,s2);
其中,S是对文本段落C的最终关注,F表示融合函数,对融合函数F的定义如下所示:
S32、将最终关注S映射到词汇空间V,利用总和关注机制对出现在文本段落C不同位置且单词相同的注意值进行汇总,得P(W|C,Q)=∑i∈I(w,c)si,w∈V;
其中I(w,c)表示单词w出现在文本段落C中的位置,作为训练目标,最大化正确答案的对数似然函数为L=∑log(p(x)),x∈A;
选择候选答案集A中概率最高的单词作为预测答案a*=argmaxcP(W/C,Q)。
9.一种基于全局和局部注意力交互的阅读理解系统,其特征在于,包括预处理模块(1)、特征提取模块(2)和预测输出模块(3);
所述预处理模块(1)用于输入文本段落C、问题Q、候选答案集A构成的三元组格式数据,对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到针对文本段落C、问题Q、候选答案集A的词向量,并将词向量进行初始化,得到网络输入数据;
所述特征提取模块(2)用于对网络输入数据中文本段落C和问题Q的词向量进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2;
所述预测输出模块(3)用于将文本段落C和问题Q之间的交互信息S1和问题Q对文本段落C的关注度S2进行融合和计算,依据计算结果选择候选答案集A中概率最高的单词作为预测答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910214487.6A CN110597947B (zh) | 2019-03-20 | 2019-03-20 | 一种基于全局和局部注意力交互的阅读理解系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910214487.6A CN110597947B (zh) | 2019-03-20 | 2019-03-20 | 一种基于全局和局部注意力交互的阅读理解系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110597947A true CN110597947A (zh) | 2019-12-20 |
CN110597947B CN110597947B (zh) | 2023-03-28 |
Family
ID=68852459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910214487.6A Active CN110597947B (zh) | 2019-03-20 | 2019-03-20 | 一种基于全局和局部注意力交互的阅读理解系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110597947B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159340A (zh) * | 2019-12-24 | 2020-05-15 | 重庆兆光科技股份有限公司 | 基于随机优化预测的机器阅读理解的答案匹配方法及系统 |
CN111274800A (zh) * | 2020-01-19 | 2020-06-12 | 浙江大学 | 基于关系图卷积网络的推理型阅读理解方法 |
CN111538819A (zh) * | 2020-03-27 | 2020-08-14 | 北京工商大学 | 一种基于文档集多跳推理的问答系统的构建方法 |
CN111797219A (zh) * | 2020-07-07 | 2020-10-20 | 苏州大学 | 使用多通道融合模型处理答案的神经问题生成方法及系统 |
CN111858879A (zh) * | 2020-06-18 | 2020-10-30 | 达而观信息科技(上海)有限公司 | 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备 |
CN112052326A (zh) * | 2020-09-30 | 2020-12-08 | 民生科技有限责任公司 | 一种基于长短文本匹配的智能问答方法及系统 |
CN112084782A (zh) * | 2020-09-14 | 2020-12-15 | 成都数联铭品科技有限公司 | 一种基于能量增强的注意力网络的答案识别方法及系统 |
CN112417094A (zh) * | 2020-11-17 | 2021-02-26 | 华东理工大学 | 基于网络文本的答案选择方法、装置、服务器及存储介质 |
CN112507727A (zh) * | 2020-11-18 | 2021-03-16 | 北京科技大学 | 一种基于文本的文本视觉问答系统及方法 |
CN112651225A (zh) * | 2020-12-29 | 2021-04-13 | 昆明理工大学 | 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法 |
CN112784579A (zh) * | 2020-12-31 | 2021-05-11 | 山西大学 | 一种基于数据增强的阅读理解选择题答题方法 |
CN113032533A (zh) * | 2021-05-31 | 2021-06-25 | 宏龙科技(杭州)有限公司 | 一种基于稀疏向量匹配的高效检索方法 |
CN113033213A (zh) * | 2021-04-23 | 2021-06-25 | 中国工商银行股份有限公司 | 使用注意力模型分析文本信息的方法及装置、电子设备 |
CN113239678A (zh) * | 2021-04-02 | 2021-08-10 | 南京邮电大学 | 一种面向答案选择的多角度注意力特征匹配方法及系统 |
CN113312912A (zh) * | 2021-06-25 | 2021-08-27 | 重庆交通大学 | 一种用于交通基础设施检测文本的机器阅读理解方法 |
CN113361261A (zh) * | 2021-05-19 | 2021-09-07 | 重庆邮电大学 | 一种基于enhance matrix的法律案件候选段落的选取方法及装置 |
CN113779203A (zh) * | 2020-06-09 | 2021-12-10 | 北京金山数字娱乐科技有限公司 | 生成段落集的方法和装置、推理方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033068A (zh) * | 2018-06-14 | 2018-12-18 | 北京慧闻科技发展有限公司 | 基于注意力机制的用于阅读理解的方法、装置和电子设备 |
US20190057303A1 (en) * | 2017-08-18 | 2019-02-21 | Microsoft Technology Licensing, Llc | Hardware node having a mixed-signal matrix vector unit |
CN109408680A (zh) * | 2018-10-08 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 自动问答方法、装置、设备和计算机可读存储介质 |
CN109492232A (zh) * | 2018-10-22 | 2019-03-19 | 内蒙古工业大学 | 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法 |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
-
2019
- 2019-03-20 CN CN201910214487.6A patent/CN110597947B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190057303A1 (en) * | 2017-08-18 | 2019-02-21 | Microsoft Technology Licensing, Llc | Hardware node having a mixed-signal matrix vector unit |
CN109033068A (zh) * | 2018-06-14 | 2018-12-18 | 北京慧闻科技发展有限公司 | 基于注意力机制的用于阅读理解的方法、装置和电子设备 |
CN109408680A (zh) * | 2018-10-08 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 自动问答方法、装置、设备和计算机可读存储介质 |
CN109492232A (zh) * | 2018-10-22 | 2019-03-19 | 内蒙古工业大学 | 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法 |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
Non-Patent Citations (2)
Title |
---|
CUI Y, CHEN Z, WEI S: "Attention-overattention neural networks for reading comprehension", 《IN PROCEEDINGS OF THE 55TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
季静: "融合多重语义对齐表示的机器阅读理解研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159340A (zh) * | 2019-12-24 | 2020-05-15 | 重庆兆光科技股份有限公司 | 基于随机优化预测的机器阅读理解的答案匹配方法及系统 |
CN111159340B (zh) * | 2019-12-24 | 2023-11-03 | 重庆兆光科技股份有限公司 | 基于随机优化预测的机器阅读理解的答案匹配方法及系统 |
CN111274800A (zh) * | 2020-01-19 | 2020-06-12 | 浙江大学 | 基于关系图卷积网络的推理型阅读理解方法 |
CN111274800B (zh) * | 2020-01-19 | 2022-03-18 | 浙江大学 | 基于关系图卷积网络的推理型阅读理解方法 |
CN111538819A (zh) * | 2020-03-27 | 2020-08-14 | 北京工商大学 | 一种基于文档集多跳推理的问答系统的构建方法 |
CN113779203A (zh) * | 2020-06-09 | 2021-12-10 | 北京金山数字娱乐科技有限公司 | 生成段落集的方法和装置、推理方法和装置 |
CN111858879A (zh) * | 2020-06-18 | 2020-10-30 | 达而观信息科技(上海)有限公司 | 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备 |
CN111858879B (zh) * | 2020-06-18 | 2024-04-05 | 达观数据有限公司 | 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备 |
CN111797219A (zh) * | 2020-07-07 | 2020-10-20 | 苏州大学 | 使用多通道融合模型处理答案的神经问题生成方法及系统 |
CN111797219B (zh) * | 2020-07-07 | 2023-11-24 | 苏州大学 | 使用多通道融合模型处理答案的神经问题生成方法及系统 |
CN112084782A (zh) * | 2020-09-14 | 2020-12-15 | 成都数联铭品科技有限公司 | 一种基于能量增强的注意力网络的答案识别方法及系统 |
CN112084782B (zh) * | 2020-09-14 | 2024-05-03 | 成都数联铭品科技有限公司 | 一种基于能量增强的注意力网络的答案识别方法及系统 |
CN112052326A (zh) * | 2020-09-30 | 2020-12-08 | 民生科技有限责任公司 | 一种基于长短文本匹配的智能问答方法及系统 |
CN112417094B (zh) * | 2020-11-17 | 2024-04-05 | 华东理工大学 | 基于网络文本的答案选择方法、装置、服务器及存储介质 |
CN112417094A (zh) * | 2020-11-17 | 2021-02-26 | 华东理工大学 | 基于网络文本的答案选择方法、装置、服务器及存储介质 |
CN112507727A (zh) * | 2020-11-18 | 2021-03-16 | 北京科技大学 | 一种基于文本的文本视觉问答系统及方法 |
CN112651225A (zh) * | 2020-12-29 | 2021-04-13 | 昆明理工大学 | 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法 |
CN112651225B (zh) * | 2020-12-29 | 2022-06-14 | 昆明理工大学 | 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法 |
CN112784579B (zh) * | 2020-12-31 | 2022-05-27 | 山西大学 | 一种基于数据增强的阅读理解选择题答题方法 |
CN112784579A (zh) * | 2020-12-31 | 2021-05-11 | 山西大学 | 一种基于数据增强的阅读理解选择题答题方法 |
CN113239678B (zh) * | 2021-04-02 | 2023-06-20 | 南京邮电大学 | 一种面向答案选择的多角度注意力特征匹配方法及系统 |
CN113239678A (zh) * | 2021-04-02 | 2021-08-10 | 南京邮电大学 | 一种面向答案选择的多角度注意力特征匹配方法及系统 |
CN113033213A (zh) * | 2021-04-23 | 2021-06-25 | 中国工商银行股份有限公司 | 使用注意力模型分析文本信息的方法及装置、电子设备 |
CN113361261A (zh) * | 2021-05-19 | 2021-09-07 | 重庆邮电大学 | 一种基于enhance matrix的法律案件候选段落的选取方法及装置 |
CN113032533A (zh) * | 2021-05-31 | 2021-06-25 | 宏龙科技(杭州)有限公司 | 一种基于稀疏向量匹配的高效检索方法 |
CN113032533B (zh) * | 2021-05-31 | 2021-09-03 | 宏龙科技(杭州)有限公司 | 一种基于稀疏向量匹配的高效检索方法 |
CN113312912A (zh) * | 2021-06-25 | 2021-08-27 | 重庆交通大学 | 一种用于交通基础设施检测文本的机器阅读理解方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110597947B (zh) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597947B (zh) | 一种基于全局和局部注意力交互的阅读理解系统及方法 | |
CN109299262B (zh) | 一种融合多粒度信息的文本蕴含关系识别方法 | |
CN110598713B (zh) | 基于深度神经网络的智能图像自动描述方法 | |
CN110111399B (zh) | 一种基于视觉注意力的图像文本生成方法 | |
Zhang et al. | Understanding subtitles by character-level sequence-to-sequence learning | |
CN113656570B (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN109933808B (zh) | 一种基于动态配置解码的神经机器翻译方法 | |
CN110879940B (zh) | 一种基于深度神经网络的机器翻译方法及系统 | |
CN112464676B (zh) | 机器翻译结果打分方法和装置 | |
CN109471895A (zh) | 电子病历表型抽取、表型名称规范化方法及系统 | |
CN110795556A (zh) | 一种基于细粒度插入式解码的摘要生成方法 | |
CN109492202A (zh) | 一种基于拼音的编码与解码模型的中文纠错方法 | |
CN110188348B (zh) | 一种基于深度神经网络的中文语言处理模型及方法 | |
CN111460824B (zh) | 一种基于对抗迁移学习的无标注命名实体识别方法 | |
CN111966800A (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN109977199A (zh) | 一种基于注意力池化机制的阅读理解方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN112527966A (zh) | 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法 | |
CN114882488B (zh) | 基于深度学习与注意力机制的多源遥感图像信息处理方法 | |
CN113780059A (zh) | 一种基于多特征点的连续手语识别方法 | |
CN115512368A (zh) | 一种跨模态语义生成图像模型和方法 | |
CN110321568B (zh) | 基于融合词性和位置信息的汉-越卷积神经机器翻译方法 | |
CN113887251B (zh) | 一种结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法 | |
CN112651225B (zh) | 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |