Nothing Special   »   [go: up one dir, main page]

CN111339281A - 一种多视角融合的阅读理解选择题的答案选择方法 - Google Patents

一种多视角融合的阅读理解选择题的答案选择方法 Download PDF

Info

Publication number
CN111339281A
CN111339281A CN202010211253.9A CN202010211253A CN111339281A CN 111339281 A CN111339281 A CN 111339281A CN 202010211253 A CN202010211253 A CN 202010211253A CN 111339281 A CN111339281 A CN 111339281A
Authority
CN
China
Prior art keywords
question
answer
paragraph
representing
paragraph text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010211253.9A
Other languages
English (en)
Other versions
CN111339281B (zh
Inventor
李直旭
胡嘉欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202010211253.9A priority Critical patent/CN111339281B/zh
Publication of CN111339281A publication Critical patent/CN111339281A/zh
Application granted granted Critical
Publication of CN111339281B publication Critical patent/CN111339281B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种多视角融合的阅读理解选择题的答案选择方法,包括以下步骤:(1)获取上下文段落文本;(2)FACN模型。通过上述方式,本发明多视角融合的阅读理解选择题的答案选择方法通过引入上下文信息(段落文本),结合多感知的注意力机制和胶囊网络(FACN模型),能够有效地捕获事实类问题还是非事实类问题的特性,进而不同方式处理,在多视角融合的阅读理解选择题的答案选择方法的普及上有着广泛的市场前景。

Description

一种多视角融合的阅读理解选择题的答案选择方法
技术领域
本发明涉及机器阅读理解领域,特别是涉及一种多视角融合的阅读理解选择题的答案选择方法。
背景技术
随着大数据和人工智能技术的快速发展,答案选择技术广泛应用于各行各业,例如智能问答、搜索、推荐系统等。目前,自动问答技术研究大致分为以下几类:基于知识图谱的问答系统、基于机器阅读理解式的问答系统、答案选择式的问答系统。本案所研究的是最后一种:答案选择式的问答系统。不同于其他两种问答系统,答案选择式的问答系统中问题的对应答案一般较长,需要更加复杂的语义推理和综合回答。
现有的技术关于答案选择式的问答系统存在以下缺点:
(1)基于模板的方法通用性差,严重依赖人工编写模板和预定义的特征集;
(2)基于神经网络的方法仅仅考虑到问题与候选答案之间的匹配信息。
发明内容
本发明主要解决的技术问题是提供一种多视角融合的阅读理解选择题的答案选择方法,通过采用多项选择式阅读理解技术来解决答案选择任务,相比传统的答案选择方法,本案提出的技术能够学习到段落文本与候选答案、问题与候选答案之间的多视角交互信息,进而能够准确地找到最佳答案,通过利用一种增强型的预训练语言模型来获取FACNmodel所需的上下文(段落文本),能够极大地区分问题对应的答案类型、通过利用多视角下的融合注意力机制和门控下的胶囊网络层应用于答案选择任务,可以极大提高任务的效果,利用门控下的胶囊网络层应用于答案选择任务,能够有效地捕获事实类问题还是非事实类问题的特性,进而不同方式处理,在多视角融合的阅读理解选择题的答案选择方法的普及上有着广泛的市场前景。
为解决上述技术问题,本发明提供一种多视角融合的阅读理解选择题的答案选择方法,包括以下步骤:。
(1)获取上下文段落文本:
(1.1)检索上下文段落文本:
对于一个给定的初始问题Q,借助搜索引擎,检索出与问题相关的排名前10个的上下文段落文本;
(1.2)获取候选答案集和段落文本:
对于每个已检索出的上下文段落文本,利用增强型的预训练语言模型,分别计算候选答案集A与每个已检索出的上下文段落文本的相似度,由此得到10个相似度分数,降序输出相似度最高分数对应的段落文本,标记为P;
(1.3)编为三元组信息:
经过步骤(1.1)、步骤(1.2)的处理,可以获取到初始问题Q、段落文本P、候选答案集A,编为三元组(Q,P,A)信息,用于后续的模型训练;
(2)FACN模型:
(2.1)初始问题Q、段落文本P、候选答案集A编码表示:
借助开源的自然语言处理工具分别对初始问题Q、段落文本P、候选答案集A进行处理,把他们(P,Q,A)对应的词性标注特征、实体识别特征和词向量拼接在一起,送入到双向长短记忆BiLSTM网络,分别得到段落文本、问题和候选答案的隐藏层表示,即为
Figure BDA0002422640320000031
计算公式如下所示:
Figure BDA0002422640320000032
Figure BDA0002422640320000033
Figure BDA0002422640320000034
其中,h为隐藏层表示,e为词向量,p为词性标注特征,n为实体识别特征,t表示第t个词块,
Figure BDA0002422640320000035
规整后,即为Hp,Hq,Ha
(2.2)融合式的问题段落文本和候选答案注意力:
利用经典的attention机制来分别对齐问题段落文本和候选答案中重要的词语,分别得到对齐的上下文表示向量Attpa,Attap,计算公式如下:
Figure BDA0002422640320000036
Figure BDA0002422640320000037
Figure BDA0002422640320000038
其中,
Figure BDA0002422640320000039
表示段落文本和候选答案对齐交互矩阵,Wpa表示训练权重参数,softmax和tanh表示神经网络的激活函数,
为了从不同视角获取问题段落文本和候选答案交互信息,利用highway network来融合隐藏层表示和上下文表示向量,计算公式如下:
fp=relu(Wf[Hp;Attpa;Hp-Attpa;Hp⊙Attpa])
gp=σ(Wg[Hp;Attpa;Hp-Attpa;Hp⊙Attpa])
Op=gp⊙fp+(1-gp)⊙Hp
其中,Op表示多视角的段落文本融合向量fp和段落文本隐藏层表示向量Hp的门控输出,Wf,Wg表示训练权重参数,relu和σ表示神经网络的激活函数,⊙,-分别表示元素级的乘法和减法运算,
类似地,能够得到多视角融合下的段落文本下候选答案的门控输出向量Opa
同样地,利用以上的计算方法获取问题和候选答案对齐交互矩阵
Figure BDA0002422640320000041
上下文对齐向量Attqa,Attaq,多视角融合下的问题下候选答案问题下的门控输出向量Oqa,问题感知的门控输出向量Oq
为了充分利用之前的网络层输出,接着利用BiLSTM来编码历史网络层输出,分别得到关于段落文本、问题以及候选答案的上下文感知的隐层向量Fp,Fq,Fa
计算公式如下:
Fp=BiLSTM(Wfp[Op;Hp])
Fq=BiLSTM(Wfq[Oq;Hq])
Fa=BiLSTM(Wfa[Opa;Oqa;Ha])
其中,Wfp,Wfq,Wfa表示训练权重参数;
(2.3)门控下的胶囊网络层:
对于事实类的问题,包括Who型、When型、Where型,其答案往往由固定的词语或者一段简短的文本构成,经过简单的推理即可回答出来,对于非事实类的问题,包括Why型、How型、解释型,其答案往往较长,而且需要通过全部的上下文才能推断出来,不太容易回答出,为了解决事实类和非事实类问题的差异性,结合门控机制和胶囊网络来动态回答不同类型的问题,
为了聚合之前网络层的输出信息,利用动态路由算法来迭代地更新每层获取的胶囊信息,经过r次迭代,输出收敛下的胶囊网络层信息C,
C*=tanh(WcpFp+WcaFa+WcqFq)
g*=σ(WcpgFp+WcagFa+WcqgFq)
其中,Wcp,Wca,Wcq,Wcpg,Wcag,Wcqg表示可训练的权重参数,C*表示段落文本(或问题)和候选答案的交互输出向量,g*表示二值(0和1)激活向量,σ表示sigmoid激活函数,
动态路由算法如下:
Figure BDA0002422640320000051
之前网络层的交互输出向量C*,经过动态路由算法,得到了高层的且抽象的胶囊C,为了动态捕获不同问题类型的偏向表示,利用门控机制来输出最重要的向量Z,利用softmax归一化,找出每个候选答案的概率值,概率值最大的索引即为与问题最相关的答案,
Z=g*⊙C*+(1-g*)⊙C
Figure BDA0002422640320000052
其中,
Figure BDA0002422640320000053
表示第i个样本的模型预测答案,等号右边是关于向量Z的softmax归一化计算,|C|表示候选答案集中答案的个数;
(2.4)模型训练:
考虑本案提出的模型实际,采用交叉熵损失函数来拟合预测答案与真实答案之间的误差,训练目标函数
Figure BDA0002422640320000054
如下:
Figure BDA0002422640320000055
其中,N表示训练样本的个数,Ai,Pi,Qi分别表示第i个样本对应的候选答案集、段落文本和问题,pi表示第i个样本对应的真实答案,
Figure BDA0002422640320000056
表示L2正则化项,用来防止模型过拟合,θ表示模型的训练参数。
在本发明一个较佳实施例中,步骤(1.1)中的所述搜索引擎包括Bing、Google、百度、网易、雅虎、阿里巴巴、搜狗、中搜的一种或多种。
在本发明一个较佳实施例中,步骤(1.2)中的所述增强型的预训练语言模型为:原始的预训练语言模型采用的中文版BERT,考虑到不同问题的答案偏向性,在BERT中加入问题类型标志位和问题实体标志位,即在BERT输入层的前两个位置加入问题类型标志位+问题实体标志位。
在本发明一个较佳实施例中,所述答案偏向性包括时间类、原因类、方式方法类的一种或多种。
在本发明一个较佳实施例中,步骤(2.1)中所述的自然语言处理工具包括分词、词性标注、实体识别的一种或多种。
本发明的有益效果是:本发明多视角融合的阅读理解选择题的答案选择方法通过引入上下文信息(段落文本),结合多感知的注意力机制和胶囊网络(FACN模型),相比传统的答案选择方法,本案提出的技术能够学习到段落文本与候选答案、问题与候选答案之间的多视角交互信息,进而能够准确地找到最佳答案,通过利用一种增强型的预训练语言模型来获取FACN model所需的上下文(段落文本),能够极大地区分问题对应的答案类型、通过利用多视角下的融合注意力机制和门控下的胶囊网络层应用于答案选择任务,可以极大提高任务的效果,利用门控下的胶囊网络层应用于答案选择任务,能够有效地捕获事实类问题还是非事实类问题的特性,进而不同方式处理,在多视角融合的阅读理解选择题的答案选择方法的普及上有着广泛的市场前景。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例包括:
一种多视角融合的阅读理解选择题的答案选择方法,包括以下步骤:。
(1)获取上下文段落文本:
(1.1)检索上下文段落文本:
对于一个给定的初始问题Q,借助搜索引擎,检索出与问题相关的排名前10个的上下文段落文本;
(1.2)获取候选答案集和段落文本:
对于每个已检索出的上下文段落文本,利用增强型的预训练语言模型,分别计算候选答案集A与每个已检索出的上下文段落文本的相似度,由此得到10个相似度分数,降序输出相似度最高分数对应的段落文本,标记为P;
(1.3)编为三元组信息:
经过步骤(1.1)、步骤(1.2)的处理,可以获取到初始问题Q、段落文本P、候选答案集A,编为三元组(Q,P,A)信息,用于后续的模型训练;
(2)FACN模型:
(2.1)初始问题Q、段落文本P、候选答案集A编码表示:
借助开源的自然语言处理工具分别对初始问题Q、段落文本P、候选答案集A进行处理,把他们(P,Q,A)对应的词性标注特征、实体识别特征和词向量拼接在一起,送入到双向长短记忆BiLSTM网络,分别得到段落文本、问题和候选答案的隐藏层表示,即为
Figure BDA0002422640320000071
计算公式如下所示:
Figure BDA0002422640320000081
Figure BDA0002422640320000082
Figure BDA0002422640320000083
其中,h为隐藏层表示,e为词向量,p为词性标注特征,n为实体识别特征,t表示第t个词块,
Figure BDA0002422640320000084
规整后,即为Hp,Hq,Ha
(2.2)融合式的问题段落文本和候选答案注意力:
利用经典的attention机制来分别对齐问题段落文本和候选答案中重要的词语,分别得到对齐的上下文表示向量Attpa,Attap,计算公式如下:
Figure BDA0002422640320000085
Figure BDA0002422640320000086
Figure BDA0002422640320000087
其中,
Figure BDA0002422640320000088
表示段落文本和候选答案对齐交互矩阵,Wpa表示训练权重参数,softmax和tanh表示神经网络的激活函数,
为了从不同视角获取问题段落文本和候选答案交互信息,利用highway network来融合隐藏层表示和上下文表示向量,计算公式如下:
fp=relu(Wf[Hp;Attpa;Hp-Attpa;Hp⊙Attpa])
gp=σ(Wg[Hp;Attpa;Hp-Attpa;Hp⊙Attpa])
Op=gp⊙fp+(1-gp)⊙Hp
其中,Op表示多视角的段落文本融合向量fp和段落文本隐藏层表示向量Hp的门控输出,Wf,Wg表示训练权重参数,relu和σ表示神经网络的激活函数,⊙,-分别表示元素级的乘法和减法运算,
类似地,能够得到多视角融合下的段落文本下候选答案的门控输出向量Opa
同样地,利用以上的计算方法获取问题和候选答案对齐交互矩阵
Figure BDA0002422640320000089
上下文对齐向量Attqa,Attaq,多视角融合下的问题下候选答案问题下的门控输出向量Oqa,问题感知的门控输出向量Oq
为了充分利用之前的网络层输出,接着利用BiLSTM来编码历史网络层输出,分别得到关于段落文本、问题以及候选答案的上下文感知的隐层向量Fp,Fq,Fa
计算公式如下:
Fp=BiLSTM(Wfp[Op;Hp])
Fq=BiLSTM(Wfq[Oq;Hq])
Fa=BiLSTM(Wfa[Opa;Oqa;Ha])
其中,Wfp,Wfq,Wfa表示训练权重参数;
(2.3)门控下的胶囊网络层:
对于事实类的问题,包括Who型、When型、Where型,其答案往往由固定的词语或者一段简短的文本构成,经过简单的推理即可回答出来,对于非事实类的问题,包括Why型、How型、解释型,其答案往往较长,而且需要通过全部的上下文才能推断出来,不太容易回答出,为了解决事实类和非事实类问题的差异性,结合门控机制和胶囊网络来动态回答不同类型的问题,
为了聚合之前网络层的输出信息,利用动态路由算法来迭代地更新每层获取的胶囊信息,经过r次迭代,输出收敛下的胶囊网络层信息C,
C*=tanh(WcpFp+WcaFa+WcqFq)
g*=σ(WcpgFp+WcagFa+WcqgFq)
其中,Wcp,Wca,Wcq,Wcpg,Wcag,Wcqg表示可训练的权重参数,C*表示段落文本(或问题)和候选答案的交互输出向量,g*表示二值(0和1)激活向量,σ表示sigmoid激活函数,
动态路由算法如下:
Figure BDA0002422640320000101
之前网络层的交互输出向量C*,经过动态路由算法,得到了高层的且抽象的胶囊C,为了动态捕获不同问题类型的偏向表示,利用门控机制来输出最重要的向量Z,利用softmax归一化,找出每个候选答案的概率值,概率值最大的索引即为与问题最相关的答案,
Z=g*⊙C*+(1-g*)⊙C
Figure BDA0002422640320000102
其中,
Figure BDA0002422640320000103
表示第i个样本的模型预测答案,等号右边是关于向量Z的softmax归一化计算,|C|表示候选答案集中答案的个数;
(2.4)模型训练:
考虑本案提出的模型实际,采用交叉熵损失函数来拟合预测答案与真实答案之间的误差,训练目标函数
Figure BDA0002422640320000104
如下:
Figure BDA0002422640320000105
其中,N表示训练样本的个数,Ai,Pi,Qi分别表示第i个样本对应的候选答案集、段落文本和问题,pi表示第i个样本对应的真实答案,
Figure BDA0002422640320000106
表示L2正则化项,用来防止模型过拟合,θ表示模型的训练参数。
优选地,步骤(1.1)中的所述搜索引擎包括Bing、Google、百度、网易、雅虎、阿里巴巴、搜狗、中搜的一种或多种。
优选地,步骤(1.2)中的所述增强型的预训练语言模型为:原始的预训练语言模型采用的中文版BERT,考虑到不同问题的答案偏向性,在BERT中加入问题类型标志位和问题实体标志位,即在BERT输入层的前两个位置加入问题类型标志位+问题实体标志位。
优选地,所述答案偏向性包括时间类、原因类、方式方法类的一种或多种。
优选地,步骤(2.1)中所述的自然语言处理工具包括分词、词性标注、实体识别的一种或多种。
本发明多视角融合的阅读理解选择题的答案选择方法的有益效果是:
一、通过采用多项选择式阅读理解技术来解决答案选择任务,相比传统的答案选择方法,本案提出的技术能够学习到段落文本与候选答案、问题与候选答案之间的多视角交互信息,进而能够准确地找到最佳答案;
二、通过利用一种增强型的预训练语言模型来获取FACN model所需的上下文(段落文本),能够极大地区分问题对应的答案类型;
三、通过利用多视角下的融合注意力机制和门控下的胶囊网络层应用于答案选择任务,可以极大提高任务的效果,利用门控下的胶囊网络层应用于答案选择任务,能够有效地捕获事实类问题还是非事实类问题的特性,进而不同方式处理。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.一种多视角融合的阅读理解选择题的答案选择方法,其特征在于,包括以下步骤:。
(1)获取上下文段落文本:
(1.1)检索上下文段落文本:
对于一个给定的初始问题Q,借助搜索引擎,检索出与问题相关的排名前10个的上下文段落文本;
(1.2)获取候选答案集和段落文本:
对于每个已检索出的上下文段落文本,利用增强型的预训练语言模型,分别计算候选答案集A与每个已检索出的上下文段落文本的相似度,由此得到10个相似度分数,降序输出相似度最高分数对应的段落文本,标记为P;
(1.3)编为三元组信息:
经过步骤(1.1)、步骤(1.2)的处理,可以获取到初始问题Q、段落文本P、候选答案集A,编为三元组(Q,P,A)信息,用于后续的模型训练;
(2)FACN模型:
(2.1)初始问题Q、段落文本P、候选答案集A编码表示:
借助开源的自然语言处理工具分别对初始问题Q、段落文本P、候选答案集A进行处理,把他们(P,Q,A)对应的词性标注特征、实体识别特征和词向量拼接在一起,送入到双向长短记忆BiLSTM网络,分别得到段落文本、问题和候选答案的隐藏层表示,即为
Figure FDA0002422640310000011
计算公式如下所示:
Figure FDA0002422640310000012
Figure FDA0002422640310000013
Figure FDA0002422640310000014
其中,h为隐藏层表示,e为词向量,p为词性标注特征,n为实体识别特征,t表示第t个词块,
Figure FDA0002422640310000021
规整后,即为Hp,Hq,Ha
(2.2)融合式的问题段落文本和候选答案注意力:
利用经典的attention机制来分别对齐问题段落文本和候选答案中重要的词语,分别得到对齐的上下文表示向量Attpa,Attap,计算公式如下:
Figure FDA0002422640310000022
Figure FDA0002422640310000023
Figure FDA0002422640310000024
其中,
Figure FDA0002422640310000025
表示段落文本和候选答案对齐交互矩阵,Wpa表示训练权重参数,softmax和tanh表示神经网络的激活函数,
为了从不同视角获取问题段落文本和候选答案交互信息,利用highway network来融合隐藏层表示和上下文表示向量,计算公式如下:
fp=relu(Wf[Hp;Attpa;Hp-Attpa;Hp⊙Attpa])
gp=σ(Wg[Hp;Attpa;Hp-Attpa;Hp⊙Attpa])
Op=gp⊙fp+(1-gp)⊙Hp
其中,Op表示多视角的段落文本融合向量fp和段落文本隐藏层表示向量Hp的门控输出,Wf,Wg表示训练权重参数,relu和σ表示神经网络的激活函数,⊙,-分别表示元素级的乘法和减法运算,
类似地,能够得到多视角融合下的段落文本下候选答案的门控输出向量Opa
同样地,利用以上的计算方法获取问题和候选答案对齐交互矩阵
Figure FDA0002422640310000026
上下文对齐向量Attqa,Attaq,多视角融合下的问题下候选答案问题下的门控输出向量Oqa,问题感知的门控输出向量Oq
为了充分利用之前的网络层输出,接着利用BiLSTM来编码历史网络层输出,分别得到关于段落文本、问题以及候选答案的上下文感知的隐层向量Fp,Fq,Fa。计算公式如下:
Fp=BiLSTM(Wfp[Op;Hp])
Fq=BiLSTM(Wfq[Oq;Hq])
Fa=BiLSTM(Wfa[Opa;Oqa;Ha])
其中,Wfp,Wfq,Wfa表示训练权重参数;
(2.3)门控下的胶囊网络层:
对于事实类的问题,包括Who型、When型、Where型,其答案往往由固定的词语或者一段简短的文本构成,经过简单的推理即可回答出来,对于非事实类的问题,包括Why型、How型、解释型,其答案往往较长,而且需要通过全部的上下文才能推断出来,不太容易回答出,为了解决事实类和非事实类问题的差异性,结合门控机制和胶囊网络来动态回答不同类型的问题,
为了聚合之前网络层的输出信息,利用动态路由算法来迭代地更新每层获取的胶囊信息,经过r次迭代,输出收敛下的胶囊网络层信息C,
C*=tanh(WcpFp+WcaFa+WcqFq)
g*=σ(WcpgFp+WcagFa+WcqgFq)
其中,Wcp,Wca,Wcq,Wcpg,Wcag,Wcqg表示可训练的权重参数,C*表示段落文本(或问题)和候选答案的交互输出向量,g*表示二值(0和1)激活向量,σ表示sigmoid激活函数,
动态路由算法如下:
Figure FDA0002422640310000041
之前网络层的交互输出向量C*,经过动态路由算法,得到了高层的且抽象的胶囊C,为了动态捕获不同问题类型的偏向表示,利用门控机制来输出最重要的向量Z,利用softmax归一化,找出每个候选答案的概率值,概率值最大的索引即为与问题最相关的答案,
Z=g*⊙C*+(1-g*)⊙C
Figure FDA0002422640310000042
其中,
Figure FDA0002422640310000043
表示第i个样本的模型预测答案,等号右边是关于向量Z的softmax归一化计算,|C|表示候选答案集中答案的个数;
(2.4)模型训练:
考虑本案提出的模型实际,采用交叉熵损失函数来拟合预测答案与真实答案之间的误差,训练目标函数
Figure FDA0002422640310000044
如下:
Figure FDA0002422640310000045
其中,N表示训练样本的个数,Ai,Pi,Qi分别表示第i个样本对应的候选答案集、段落文本和问题,pi表示第i个样本对应的真实答案,
Figure FDA0002422640310000046
表示L2正则化项,用来防止模型过拟合,θ表示模型的训练参数。
2.根据权利要求1所述的多视角融合的阅读理解选择题的答案选择方法,其特征在于,步骤(1.1)中的所述搜索引擎包括Bing、Google、百度、网易、雅虎、阿里巴巴、搜狗、中搜的一种或多种。
3.根据权利要求1所述的多视角融合的阅读理解选择题的答案选择方法,其特征在于,步骤(1.2)中的所述增强型的预训练语言模型为:原始的预训练语言模型采用的中文版BERT,考虑到不同问题的答案偏向性,在BERT中加入问题类型标志位和问题实体标志位,即在BERT输入层的前两个位置加入问题类型标志位+问题实体标志位。
4.根据权利要求3所述的多视角融合的阅读理解选择题的答案选择方法,其特征在于,所述答案偏向性包括时间类、原因类、方式方法类的一种或多种。
5.根据权利要求1所述的多视角融合的阅读理解选择题的答案选择方法,其特征在于,步骤(2.1)中所述的自然语言处理工具包括分词、词性标注、实体识别的一种或多种。
CN202010211253.9A 2020-03-24 2020-03-24 一种多视角融合的阅读理解选择题的答案选择方法 Active CN111339281B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010211253.9A CN111339281B (zh) 2020-03-24 2020-03-24 一种多视角融合的阅读理解选择题的答案选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010211253.9A CN111339281B (zh) 2020-03-24 2020-03-24 一种多视角融合的阅读理解选择题的答案选择方法

Publications (2)

Publication Number Publication Date
CN111339281A true CN111339281A (zh) 2020-06-26
CN111339281B CN111339281B (zh) 2022-04-12

Family

ID=71186090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010211253.9A Active CN111339281B (zh) 2020-03-24 2020-03-24 一种多视角融合的阅读理解选择题的答案选择方法

Country Status (1)

Country Link
CN (1) CN111339281B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131370A (zh) * 2020-11-23 2020-12-25 四川大学 问答模型构建方法及系统、问答方法及装置、审判系统
CN112380326A (zh) * 2020-10-10 2021-02-19 中国科学院信息工程研究所 一种基于多层感知的问题答案抽取方法及电子装置
CN112507727A (zh) * 2020-11-18 2021-03-16 北京科技大学 一种基于文本的文本视觉问答系统及方法
CN112528003A (zh) * 2020-12-24 2021-03-19 北京理工大学 一种基于语义排序和知识修正的多项选择问答方法
CN112560443A (zh) * 2020-12-29 2021-03-26 平安银行股份有限公司 选择题生成模型训练方法、选择题生成方法、设备及介质
CN112818128A (zh) * 2021-01-21 2021-05-18 上海电力大学 一种基于知识图谱增益的机器阅读理解模型
CN113239160A (zh) * 2021-04-29 2021-08-10 桂林电子科技大学 一种问题生成方法、装置及存储介质
CN113569025A (zh) * 2021-07-23 2021-10-29 上海明略人工智能(集团)有限公司 数据处理的方法和装置、电子设备和存储介质
CN113609272A (zh) * 2021-08-12 2021-11-05 北京师范大学珠海校区 一种适用于数值推理任务的胶囊网络结构
CN113779360A (zh) * 2021-08-18 2021-12-10 深圳技术大学 基于多头问答模型的解题方法、装置、设备及存储介质
CN113971408A (zh) * 2021-10-29 2022-01-25 平安科技(深圳)有限公司 基于双向注意力机制的智能问答方法、装置、设备及介质
WO2024197740A1 (zh) * 2023-03-30 2024-10-03 中山大学 一种低资源场景下的常识型课后习题生成方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017210634A1 (en) * 2016-06-03 2017-12-07 Maluuba Inc. Iterative alternating neural attention for machine reading
CN107562792A (zh) * 2017-07-31 2018-01-09 同济大学 一种基于深度学习的问答匹配方法
CN109410575A (zh) * 2018-10-29 2019-03-01 北京航空航天大学 一种基于胶囊网络和嵌套式长短时记忆神经网络的路网状态预测方法
US20190303742A1 (en) * 2018-04-02 2019-10-03 Ca, Inc. Extension of the capsule network
CN110390001A (zh) * 2019-06-04 2019-10-29 深思考人工智能机器人科技(北京)有限公司 一种观点型机器阅读理解的实现方法、装置
CN110688478A (zh) * 2019-09-29 2020-01-14 腾讯科技(深圳)有限公司 一种答案排序方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017210634A1 (en) * 2016-06-03 2017-12-07 Maluuba Inc. Iterative alternating neural attention for machine reading
CN107562792A (zh) * 2017-07-31 2018-01-09 同济大学 一种基于深度学习的问答匹配方法
US20190303742A1 (en) * 2018-04-02 2019-10-03 Ca, Inc. Extension of the capsule network
CN109410575A (zh) * 2018-10-29 2019-03-01 北京航空航天大学 一种基于胶囊网络和嵌套式长短时记忆神经网络的路网状态预测方法
CN110390001A (zh) * 2019-06-04 2019-10-29 深思考人工智能机器人科技(北京)有限公司 一种观点型机器阅读理解的实现方法、装置
CN110688478A (zh) * 2019-09-29 2020-01-14 腾讯科技(深圳)有限公司 一种答案排序方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RONGQIANG MA等: "Hybrid Answer Selection Model for Non-Factoid Question Answering", 《INTERNATIONAL CONFERENCE ON ASIAN LANGUAGE PROCESSING (IALP)》 *
董燕举等: "面向事实性问题的答案选择技术研究综述", 《中文信息学报》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380326B (zh) * 2020-10-10 2022-07-08 中国科学院信息工程研究所 一种基于多层感知的问题答案抽取方法及电子装置
CN112380326A (zh) * 2020-10-10 2021-02-19 中国科学院信息工程研究所 一种基于多层感知的问题答案抽取方法及电子装置
CN112507727A (zh) * 2020-11-18 2021-03-16 北京科技大学 一种基于文本的文本视觉问答系统及方法
CN112131370A (zh) * 2020-11-23 2020-12-25 四川大学 问答模型构建方法及系统、问答方法及装置、审判系统
CN112528003A (zh) * 2020-12-24 2021-03-19 北京理工大学 一种基于语义排序和知识修正的多项选择问答方法
CN112528003B (zh) * 2020-12-24 2022-10-04 北京理工大学 一种基于语义排序和知识修正的多项选择问答方法
CN112560443A (zh) * 2020-12-29 2021-03-26 平安银行股份有限公司 选择题生成模型训练方法、选择题生成方法、设备及介质
CN112560443B (zh) * 2020-12-29 2022-11-29 平安银行股份有限公司 选择题生成模型训练方法、选择题生成方法、设备及介质
CN112818128B (zh) * 2021-01-21 2022-08-09 上海电力大学 一种基于知识图谱增益的机器阅读理解系统
CN112818128A (zh) * 2021-01-21 2021-05-18 上海电力大学 一种基于知识图谱增益的机器阅读理解模型
CN113239160A (zh) * 2021-04-29 2021-08-10 桂林电子科技大学 一种问题生成方法、装置及存储介质
CN113569025A (zh) * 2021-07-23 2021-10-29 上海明略人工智能(集团)有限公司 数据处理的方法和装置、电子设备和存储介质
CN113609272A (zh) * 2021-08-12 2021-11-05 北京师范大学珠海校区 一种适用于数值推理任务的胶囊网络结构
CN113779360A (zh) * 2021-08-18 2021-12-10 深圳技术大学 基于多头问答模型的解题方法、装置、设备及存储介质
CN113971408A (zh) * 2021-10-29 2022-01-25 平安科技(深圳)有限公司 基于双向注意力机制的智能问答方法、装置、设备及介质
WO2024197740A1 (zh) * 2023-03-30 2024-10-03 中山大学 一种低资源场景下的常识型课后习题生成方法和装置

Also Published As

Publication number Publication date
CN111339281B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN111339281B (zh) 一种多视角融合的阅读理解选择题的答案选择方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN111695779A (zh) 一种知识追踪方法、装置及存储介质
US20210125516A1 (en) Answer training device, answer training method, answer generation device, answer generation method, and program
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
CN117033571A (zh) 知识问答系统构建方法及系统
CN116450796B (zh) 一种智能问答模型构建方法及设备
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN113011196B (zh) 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型
Jha et al. A novel approach on visual question answering by parameter prediction using faster region based convolutional neural network
CN118312600B (zh) 一种基于知识图谱与大语言模型的智能客服问答方法
CN117762499A (zh) 任务指令构建方法和任务处理方法
CN116975288A (zh) 文本处理方法及文本处理模型训练方法
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN117711001B (zh) 图像处理方法、装置、设备和介质
CN114841151A (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
CN114138989A (zh) 相关性预测模型训练方法、装置及相关性预测方法
CN117952104A (zh) 一种基于大模型与知识图谱融合的小样本三元组抽取方法
CN113239678A (zh) 一种面向答案选择的多角度注意力特征匹配方法及系统
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN116737876A (zh) 辅助科普志愿服务的教育装置
CN114417880B (zh) 一种基于电网实训问答知识库的交互式智能问答方法
CN113657092B (zh) 识别标签的方法、装置、设备以及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant