CN115659947A - 基于机器阅读理解及文本摘要的多项选择答题方法及系统 - Google Patents
基于机器阅读理解及文本摘要的多项选择答题方法及系统 Download PDFInfo
- Publication number
- CN115659947A CN115659947A CN202211307144.2A CN202211307144A CN115659947A CN 115659947 A CN115659947 A CN 115659947A CN 202211307144 A CN202211307144 A CN 202211307144A CN 115659947 A CN115659947 A CN 115659947A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- item selection
- data set
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于机器阅读理解及文本摘要的多项选择答题方法及系统,包括:构建长文本多项选择数据集;对长文本多项选择数据集进行预处理;对长文本多项选择数据集进行文本摘要模型的预训练,得到短文本多项选择数据集;对短文本多项选择数据集进行阅读理解模型的多项选择推理预训练;将推理训练后的短文本中的长句进行相关性标注,并以此反向训练文本摘要模型。本发明支持多种文章长度的阅读理解多项选择任务,在常见多项选择答题模型处理长文本不理想的情况下,深入理解文章提供答案,使文本摘要更具有针对性,多项选择推理更准确。本发明解决了相关技术存在的实用性低及实际应用不便的问题,能够提高用户体验,具有重要的市场价值。
Description
技术领域
本发明属于自然语言处理领域,更具体地,涉及基于机器阅读理解及文本摘要的多项选择答题方法及系统。
背景技术
随着中国自然语言处理技术的不断发展,机器阅读理解及多项选择答题技术对于使机器拥有认知能力、提升机器智能水平具有重要价值,拥有广阔的应用前景,被广泛应用于各领域。自然语言理解是人工智能的重要研究领域,是实现智能化过程中必须要解决的技术问题。而自然语言理解的最终目标是为了让机器能够理解人类语言,实现机器通过语言符号了解人类的需求,从而智能化地服务于人类。
MRC是英文Machine Reading Comprehension的缩写,意为机器阅读理解;MRC模型为分类机器阅读理解模型;机器阅读理解是一种利用算法使计算机理解文章语义并回答相关问题的技术。由于文章和问题均采用人类语言的形式,因此机器阅读理解属于自然语言处理的范畴,也是其中最新最热门的课题之一。近些年来,随着机器学习,特别是深度学习的发展,机器阅读理解研究有了长足的进步,并在实际应用中崭露头角。m近年来出现的预训练语言模型根据建模方式、模型结构、模型介绍分为如表1所示的几种。
在机器阅读理解多项选择任务中,每条数据都包括一篇文章、至少一个问题,每个问题下有四个候选选项,有且仅有一个正确选项,需要模型理解文章意思并选出符合题意的选项。因此把该任务建模为输入问题、选项和文本,对输入文本进行四分类。
ES是英文Extractive Summarization的缩写,意为抽取式文本摘要,ES模型为抽取式文本摘要模型,由于预训练模型能够处理的文本长度有限,一般为512个字符,可以处理诗歌,短篇文言文等,但面对字符数在几千的长篇文言文、高考试题中的现代文等文章时,会出现超出字符限制的问题。在进行阅读理解任务时,文章中的部分句子就包含了可以回答问题的充分且必要的信息,因此需要优先筛选出关键句子,拼接出满足预训练模型输入要求的短文本。以往方法对于文章中的句子只进行简单的打分与筛选,并未考虑选项等外部信息的作用,导致文本摘要质量较低。结合实际生活中的答题经验,在做题时我们经常会带着选项去阅读文章,帮助我们精炼文章的信息。所以对于注意选项信息的文本摘要模型研究是极有意义的。
现有的预训练模型无法直接处理超出文本长度限制的长文本,常见的处理方法为先对长文本进行摘要,再根据摘要进行阅读理解。但在一般的方法中,文本摘要过程的筛选机制过于简单,没有融合有用的外部信息,会导致摘要文本质量较差,直接影响下游任务。
发明内容
为了解决上述现有技术中存在的不足,本发明提供了一种能够融合外部选项信息,结合常见文本摘要和机器阅读理解模型进行多项选择答题的方法,能够解决主流模型无法直接处理或处理长文本阅读理解多项选择任务时效果不佳的问题。
为了实现上述目的,本发明提出一种基于机器阅读理解及文本摘要的多项选择答题方法,包括以下步骤:
步骤1,构建长文本多项选择数据集;
步骤2,对长文本多项选择数据集进行预处理;
步骤3,对长文本多项选择数据集进行文本摘要模型的预训练,得到短文本多项选择数据集;
步骤4,对短文本多项选择数据集进行阅读理解模型的多项选择推理预训练;
步骤5,将推理训练后的短文本中的长句进行相关性标注,并以此反向训练文本摘要模型。
在上述技术方案的基础上,本发明还可以做出如下改进。
可选的所述构建长文本多项选择数据集包括:
收集互联网上零散的高考模拟题、真题数据,整理过滤后形成长文本多项选择数据集。
可选的,所述对长文本多项选择数据集进行预处理包括:
将长文本多项选择数据集根据标点符号分割成细粒度的短句,使用动态规划算法将短句拼接成长度小于等于64个字符的块。
可选的,所述对长文本多项选择数据集进行文本摘要模型的预训练包括:
将预处理好的长文本多项选择数据集放入文本摘要模型中,文本摘要模型对数据集中的块进行打分,将打分高的块拼接成短文本多项选择数据集。
可选的,所述使用阅读理解模型对短文本多项选择数据集进行多项选择推理预训练包括:
从文章的所有块选出相关块拼接出短文本,再将文章中的问题、选项、短文本拼接后输入到阅读理解模型,阅读理解模型预测分类值与标签、计算推理损失值。
可选的,所述阅读理解模型为MRC模型,所述文本摘要模型为ES模型。
可选的,所述将推理训练后的短文本中的长句进行相关性标注,并以此反向训练文本摘要模型包括:
步骤5.1,记录步骤4中的推理损失值;
步骤5.2,将短文本中块的注意力掩码依次改为0,输入到阅读理解模型中,阅读理解模型记录删除句子后的推理损失值,对比删除句子前后推理损失值,判断块的相关性并进行标注;
步骤5.3,抽取式摘要模型根据步骤5.2修改的相关性标签,进行文本摘要模型预训练。
可选的,所述对比删除句子前后推理损失值,判断块的相关性并进行标注包括:
当损失差值大于预设阙值tup,则认为该块有相关性,将该块的相关性标签数值加1,当损失差值小于预设阙值tdown,则认为该块无相关性,将该块的相关性标签数值减1。
根据本发明的第二方面,本发明还提供一种基于机器阅读理解及文本摘要的多项选择答题系统,所述系统包括:
文本构建模块,用于构建长文本多项选择数据集,并对长文本多项选择数据集进行预处理;
文本摘要模型,用于对长文本多项选择数据集进行文本摘要模型的预训练,得到短文本多项选择数据集;
阅读理解模型,用于对短文本多项选择数据集进行阅读理解模型的多项选择推理预训练;
相关性判断模块,用于将推理训练后的短文本中的长句进行相关性标注,并以此反向训练文本摘要模型。
可选的,所述阅读理解模型为MRC模型,所述文本摘要模型为ES模型。
本发明的技术效果和优点:
本发明通过进行长文本多项选择数据采集,构建长文本多项选择数据集;模型预训练,包括使用长文本多项选择数据集对ES模型和MRC模型进行训练;在ES模型进行文本摘要时,使用注意力机制,将选项信息融入文章中,辅助进行相关句识别,提高文本摘要质量;MRC模型使用摘要文本进行多项选择任务推理,推理完成后,对句子判断相关性,为ES模型提供更准确的相关性标签,形成上下游模型的联合训练。本发明支持多种文章长度的阅读理解多项选择任务,在常见多项选择答题模型处理长文本不理想的情况下,深入理解文章提供答案,使文本摘要更具有针对性,多项选择推理更准确。
同时本发明方案实施简单方便,实用性强,解决了相关技术存在的实用性低及实际应用不便的问题,能够提高用户体验,具有重要的市场价值。
附图说明
图1为本发明实施例基于机器阅读理解及文本摘要的多项选择答题方法步骤流程图;
图2为本发明实施例的答题方法具体流程图;
图3为本发明实施例模型整体框架图;
图4为本发明实施例的抽取式摘要模型框架图;
图5为本发明实施例的机器阅读理解模型框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中,首先就本发明的技术术语进行解释和说明:
MRC:MRC是Machine Reading Comprehension的缩写,意为机器阅读理解,本文中使用的MRC模型是分类机器阅读理解模型,即模型需要从多个类别中分辨出符合题意的一类;所述MRC模型基于BERT模型,分批读取数据集中的文章、问题、选项,根据块的相关性以及打分筛选出文章中的相关块拼接出短文本,再将问题、选项、短文本进行文本拼接,输入到MRC模型,使用自匹配注意力得到具有段落上下文信息的语义向量,用于多项选择答题。
ES:ES是Extractive Summarization的缩写,本文中使用的ES模型是抽取式文本摘要模型,意为抽取式文本摘要;其中,ES模型仅对文章中的句子进行建模,使用简单的打分机制评估句子的相关性。本发明对选项与文章的句子均进行建模,使用注意力的方式为文章向量融合选项信息。
BERT:BERT的全称为Bidirectional Encoder Representation fromTransformers,是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的掩码语言模型,即masked language model(MLM),以致能生成深度的双向语言表征。
Transformer:一种新颖的架构,旨在解决序列到序列的任务,同时轻松处理长期依赖(long-range dependencies)问题。
Sigmod:Sigmod函数,是使用范围最广的一类激活函数,具有指数函数形状,它在物理意义上最为接近生物神经元,是一个在生物学中常见的S型的函数,也称为S型生长曲线。此外,(0,1)的输出还可以被表示作概率。
近些年来,随着机器学习,特别是深度学习的发展,机器阅读理解研究有了长足的进步,并在实际应用中崭露头角。m近年来出现的预训练语言模型根据建模方式、模型结构、模型介绍分为如表1所示的几种。
表1预训练语言模型种类
为了更加清晰、直观的展示本发明的目的、技术方案及优点,以下结合附图及实施例,对本发明进行进一步详细说明,图1为本发明提供的一种基于机器阅读理解及文本摘要的多项选择答题方法流程图,如图1所示,所述方法包括以下步骤:
步骤1,构建长文本多项选择数据集;
步骤2,对长文本多项选择数据集进行预处理;
步骤3,对长文本多项选择数据集进行文本摘要模型的预训练,得到短文本多项选择数据集;
步骤4,对短文本多项选择数据集进行阅读理解模型的多项选择推理预训练;
步骤5,将推理训练后的短文本中的长句进行相关性标注,并以此反向训练文本摘要模型。
可以理解的是,基于背景技术中的缺陷,本发明实施例提出了一种基于机器阅读理解及文本摘要的多项选择答题方法,该方法通过进行长文本多项选择数据采集,构建长文本多项选择数据集,并使用长文本多项选择数据集对文本摘要模型和阅读理解模型进行训练;在文本摘要模型进行文本摘要时,使用注意力机制,将选项信息融入文章中,辅助进行相关句识别,提高文本摘要质量;在阅读理解模型使用摘要文本进行多项选择任务推理,推理完成后,对句子判断相关性,为文本摘要模型提供更准确的相关性标签,形成上下游模型的联合训练。
图2为本发明实施例的答题方法具体流程图。根据流程图所示,本发明首先构建了长文本多项选择数据集,对长文本进行切分、重新拼接等预处理操作后得到文本块,文本块拼接后输入到文本摘要模型进行相关性打分,打分高的块会重新拼接形成短文本输入到多项选择模型进行多项选择推理,多项选择推理过程中会依次模拟删除句子,根据删除句子后的推理损失判断删除的块是否是相关块。
具体地,所述构建长文本多项选择数据集具体包括:
收集互联网上零散的高考模拟题、真题数据,整理过滤后形成长文本多项选择数据集;
在另一种实现方式中,所述构建长文本多项选择数据集还包括以下步骤:
步骤1.1使用爬虫技术采集互联网上的高考模拟题、真题数据,并结构化HTML数据,抽取出文章、问题、选项、答案。其中抽取的文章、问题、选项、答案内容应当简明精炼,避免冗余;
步骤1.2对于问题文本中涉及多选、段落信息、加点字词解析的样例,选择丢弃。对于选项文本中涉及加点词解释的样例,选择补充信息。具体为类似“以下符合文章意思的两项是”的题目选择丢弃,类似“对文中加点词解释正确的是”的题目选择丢弃,类似“对文中第二段理解正确的选项是”的题目选择丢弃。类似“下列选项中加点词解释正确的是”的题目,选择在选项中补充“加点词为:”的信息。将所有文本筛选完成后,收集整理成为长文本多项选择数据集,具体如表2所示。
表2长文本多项选择数据集样例
在步骤2中,所述对长文本多项选择数据集进行预处理包括:文章划分和封装块。
具体地,文章划分包括:将长文本先根据标点符号进行分割,再使用动态规划算法将细粒度的短句拼接成长度小于等于64个字符的长句。
其中,文章预处理后被封装为多个块,包括以下步骤:
步骤2.1:将长文本按照标点符号进行分割,使用的标点符号有“。”、“,”、“?”、“!”。
步骤2.2:将细粒度的短句,根据动态规划算法合并成小于等于64个字符的短句,添加块的相关性标签、相关性打分等标签后封装成块。
在本实施例中,图3为本发明实施例模型整体框架图;本发明重点在于上下游的两个预训练模型,分别是抽取式文本摘要模型与机器阅读理解模型。一篇长文本x+先使用抽取式文本摘要模型识别出相关块,再将相关块拼接成短文本z+,与问题以及选项一起输入到阅读理解模型中进行多项选择任务的推理。如图3所示,块的文本举例:应当承认,新技术的确给古老的汉字艺术带来较大的冲击,美国学者杰茜卡·贝内就曾把电脑称为[UNK]手写体的诅咒[UNK]。[SEP],其中“[UNK]”、“[SEP]”均为BERT可以识别的特殊字符。之后将长文本多项选择数据集进行ES模型的预训练。在ES模型中,能够识别出相关块,并将相关块拼接成短文本z+,与问题以及选项一起输入到MCR模型,每个块文本的开头会添加“[CLS]”字符,标识句子的开头,将问题、选项和短文本z+段落组成一个块,并用字符[SEP]将问题、段落、短文本z+区分开。在文本结尾会添加“[SEP]”字符,标识句子的结束。之后输入到MCR模型进行多项选择任务的推理,然后输出各个选项的分数。
在步骤3中,所述对长文本多项选择数据集进行文本摘要模型的预训练包括:将预处理好的长文本多项选择数据集对ES模型进行训练,ES模型对长文本多项选择数据集中的长句进行打分,将打分高的长句拼接成短文本,输入到MRC模型。
在本发明实施例中,使用预处理好的长文本多项选择数据集对ES模型进行训练,包含以下步骤:
步骤3.1:分批读取数据,将一篇文章的所有块将分为多个段,每段内的块保持相对顺序,选项与每段的块拼接形成满足抽取式文本摘要模型输入的文本;
步骤3.2:ES模型基于BERT进行句子识别,需要输出每个句子的表示。由于BERT被训练为掩码语言模型,输出向量根植于符号而不是句子。同时,BERT虽然有分段嵌入来表示不同的句子,但它只有两个标签即句子A或句子B,无法提取多个句子形成摘要。因此修改BERT的输入序列和嵌入,使句子识别成为可能。
步骤3.3:一份样本包含多个块,每个块文本的开头会添加“[CLS]”字符,标识句子的开头,在文本结尾会添加“[SEP]”字符,标识句子的结束。图4为本发明实施例的ES模型框架图;图中,ES模型包括BERT编码层、注意力层、Transformer层和相关性打分。BERT编码层包括原始输入(input Document)为块一(block one)、块二(block two)和块三(blockagain)组成的句子对,在块一(block one)、块二(block two)和块三(block again)中输入序列的第一个字符为起始字符[CLS],输入序列的最后一个字符为结束字符[SEP]。组成形如[CLS]、sent、one、[SEP]块组合,BERT的输入包括三部分:1)字嵌入向量(TokenEmbeddings),即传统意义上的词嵌入,每个词对应一个嵌入表示;图中E[CLS]表示为特殊字符[CLS]的嵌入向量,E[SEP]表示为特殊字符[SEP]的嵌入向量,Esent~Eone表示为块一嵌入向量,同理依次输入块一、块二和块三的嵌入向量;2)分段嵌入向量(IntervalSegment Embeddings),用于对两个句子进行区分;其中,EA表示为块一的分段嵌入向量,EB表示为块二的分段嵌入向量,依次类推;3)位置编码向量(Position Embeddings),用于记录每个词在句子中的位置。图中,E1~E12表示为所在位置的编码向量,其中,12表示为编码向量的字符个数;上述三者相加得到BERT的输入向量表示E,再经过BERT编码后得到编码后的向量。
在BERT中,“[CLS]”符号被用来聚合一个句子或一对句子的特征。之后使用区间段嵌入来区分文档中的多个句子。对于第i个块,将根据i为奇数或偶数来嵌入EA段或EB段。例如,对于[sent1,sent2,sent3,sent4,sent5],将分配[EA,EB,EA,EB,EA]。在文章经过BERT编码后的向量中,第i个“[CLS]”符号对应的向量将被作为该块的表示。
为了方便选项与文章之间信息的交互,输入到摘要模型的块分为两部分,第一部分为选项的块,第二部分为文章的块。两部分块的表示向量经过匹配层(Matching)后达到注意力的效果。为了提取出各个块的表示向量,使用自注意力机制得到块具有段落上下文信息的语义向量,并用于相关性打分。在自注意力机制中,选项与文章文本经过BERT(Encoder)编码器编码得到文章部分的向量Hp与选项部分的向量Hc,其中,Hp∈R|P|×l、Hc∈R|C|×l,|P|、|C|为文本长度,l为隐藏层的维度。Hp和Hc在依次经过线性层和激活层,得到Hpc,最后输出向量表示T。图4中,T0~Ti表示第i个块在摘要层(Transfomer层)顶层输出的向量表示。得到Hp和Hc经过匹配层实现文章对选项的注意力,使文章表示向量融合选项的信息。抽取出每个块的表示后,再将块的表示输入到摘要层,在向量表示T经过摘要层后进入相关性打分,相关性打分包括在每个块的向量表示后,为了让取出的块表示获取文档级的特征,会再经过摘要层,在打分层中,T是块在摘要层顶层输出的向量表示。将T0分别经过多头注意力操作、归一化、前馈神经网络和归一化,最后的输出为sigmod分类层Y。图中,Y0~Yi分别表示第i个块的打分。为了进一步获取文档级的语义特征,分类层Y最终经过平均池化层(Mean Pooling)得到每一个块的相关性打分,将同一个块的四份打分平均后得到这个块的最终打分。
具体地,在注意力层,ES模型基于BERT模型,首先分批读取数据集中的选项与文章,样本输入到ES模型后,四份文本将经过BERT(Encoder)得到每份文本的表示,每份文本的表示又分为两部分,文章部分的向量Hp∈R|P|×l与选项部分的向量Hc∈R|C|×l,|P|、|C|为文本长度(字符级),l为隐藏层的维度。文章需要注意到选项的信息,Hp和Hc经过Matching(匹配层),达到注意力的效果,第i个块的首[CLS]字符在HPc中对应的向量Ti将作为这个块的表示。
在注意力过程的计算中,所述匹配层注意力机制的整体公式1所述:
在匹配层中,Gpc∈R|P|×|C|为文章与选项之间的权重矩阵,Epc∈R|P|×l为感知到选项信息的文章表示,最后经过激活层将得到文章融合选项信息后的向量表示Hpc∈R|P|×l,其中,W1∈Rl×l,w2∈Rl×l为可学习的参数。
得到每个块的向量表示后,为了让取出的块表示获取文档级的特征,会再经过Transformer层:
其中为经过多头注意力后的块表示,Td∈R|b|×l为当前Transformer层输出的块表示,上标d表示Transformer堆叠层的深度,T0=PosEmb(T)∈R|b|×l,|b|为短文本所包含的块的个数,PosEmb为T添加position embeding(表示每个句子的位置),LN为layernormalization(归一化)操作,MHAtt为multi-head attention(多头注意力)操作,FFN为前馈神经网络,最后的输出层Y为sigmod分类层:
其中多头注意力机制基于自注意力机制,所述自注意力机制的整体公式为:
在自注意力机制中,输入向量乘三个随机初始化向量,创建一个Query向量、一个Key向量和一个Value向量,用点积计算Query向量和Key向量的相似度,同时利用初始化矩阵的维度对输出进行调节,然后用相似度除以dk,最后通过softmax函数归一化,使最后的向量和为1;所述dk表示Query向量的维度;所述Q表示Query向量,K表示Key向量,V表示Value向量。多头注意力机制会进行多组自注意力运算,最终拼接所有的注意力结果,将其线性映射为最终输出。
步骤3.4:将每个块的打分与相关性标签计算交叉熵损失,公式如下:
其中,训练样本包含连续的块序列、相关块的和随机无关块的混合序列。CrossEntropy为交叉熵函数,relvlabel为块对应的相关性标签,count(z+)为短文本z+所包含块的数目,judger(z+)为评判器对z+中块的打分,lossjudger为计算得出的评判器损失。
在步骤4中,所述对短文本多项选择数据集进行阅读理解模型的多项选择推理预训练具体包括以下步骤:
步骤4.1:根据块的相关性标签以及打分从一篇文章的所有块中选出相关块,拼接形成输入到MRC模型的短文本;
步骤4.2:将问题、选项、短文本拼接后输入到MRC模型进行训练,当前问题的答案即为训练标签,MRC预测分类值与标签计算交叉熵损失,公式如下:
label(z+)=1∈{0,1,2,3} (8)
reasoner(z+)={0.1,0.6,0.3,0.2}∈(0,1)4 (9)
lossreasoner(z+)=CrossEntropy(reasoner(z+),label(z+)) (10)
其中,训练样本分为相关块与连续无关块的混合序列、相关块与随机无关块的混合序列。label为该题的正确选项,reasoner(z+)为推理器此次推理出的选项概率分布,lossreasoner为计算得出的推理器损失。
如图5所示为MCR模型的框架图,与抽取式文本摘要模型不同是,为了满足阅读理解模型的输入,块集合分成了三部分,如图5所示,第一部分为问题(Question)的块,第二部分为选项(Choice)的块,第三部分为文章(Passage)的块。由于一个问题(Question)下有四个选项,一份样本将由四份文本组成。每份文本的字符数需要小于等于512,输入到编码器(Encoder)中进行编码,此处的编码器为BERT,在经过分类层(Classifier)分类后输送至Softmax,经过Softmax后输出各个选项的概率分布。例如,选项A、B、C、D选项的概率依次为0.2、0.5、0.4、0.3。需要说明的是,每个块文本的开头会添加“[CLS]”字符,标识句子的开头,在文本结尾会添加“[SEP]”字符,标识句子的结束。样本输入到ES模型后,四份文本将经过BERT(Encoder)编码器得到每份文本的表示,每份文本的表示又分为两部分,即Classifier分类后,分为文章部分的向量HP与选项部分的向量HC,Hp和Hc经过匹配层实现文章对选项的注意力,使文章表示向量融合选项的信息,抽取出每个块的表示后,再将块的表示输入到Transformer网络层,最后经过激活层将得到文章注意选项信息后的向量表示Hpc∈R|P|×l,第i个块的首[CLS]字符在Hpc中对应的向量Ti将作为这个块的表示。MRC模型包括编码层(Encoder)和分类层(Classifier),所述分类层(Classifier)为全连接层,MRC模型基于BERT模型,能够分批读取数据集中的文章、问题、选项,根据块的相关性以及打分筛选出文章中的相关块拼接出短文本,再将问题、选项、短文本进行文本拼接,输入到MRC模型,使用自匹配注意力得到具有段落上下文信息的语义向量,用于多项选择答题。
在步骤5中,所述将推理训练后的短文本中的长句进行相关性标注,并以此反向训练文本摘要模型具体包括:
步骤5.1:记录步骤4中的推理损失值;
步骤5.2:将短文本中块的注意力掩码依次改为0,输入到阅读理解模型中,阅读理解模型记录删除句子后的推理损失值并对比删除句子前后损失值,判断块的相关性并进行标注;由于MRC模型基于BERT,在BERT进行编码时,不会注意注意力掩码为0的句子,因此依次将短文本中块的注意力掩码改为0,达到依次删除块的目的;
在一种可能的实施例方式中,所述判断块的相关性并进行标注具体包括:在短文本块集合z删除了块zi后,将此时的文本再输入到推理器模型中,对比删除前与删除后的损失,当损失差值大于预设阙值tup,则认为该块有相关性,将该块的相关性标签数值加1,当损失差值小于预设阙值tdown,则认为该块无相关性,将该块的相关性标签数值减1。在本实施例中,预设阙值tdown可自行确定。具体公式如下:
其中,lossresoner(z-zi+)为短文本块集合z删除了块zi后的损失,lossresoner(z+)为短文本块集合删除前的损失,tup为预设阙值,可自定义设置。
步骤5.3,抽取式摘要模型根据步骤5.2修改的相关性标签,进行文本摘要模型预训练。
在具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。例如,可以提供相应系统,分模块实现长文本多项选择数据采集和筛选、模型训练。
需要说明的是,长文本多项选择数据采集和筛选采用半人工标注的方式,首先使用机器对试题进行采集、结构化、筛选。再使用人工标注的方式,为数据进行信息补充,清洗数据后得到长文本多项选择数据集。
本发明还提供一种基于机器阅读理解及文本摘要的多项选择答题系统,所述系统应用于上述基于机器阅读理解及文本摘要的多项选择答题方法,其中,所述系统包括:
文本构建模块,用于构建长文本多项选择数据集,并对长文本多项选择数据集进行预处理;
文本摘要模型,用于对长文本多项选择数据集进行文本摘要模型的预训练,得到短文本多项选择数据集;
阅读理解模型,用于对短文本多项选择数据集进行阅读理解模型的多项选择推理预训练;
相关性判断模块,用于将推理训练后的短文本中的长句进行相关性标注,并以此反向训练文本摘要模型。
可以理解的是,本发明提供的基于机器阅读理解及文本摘要的多项选择答题系统与前述实施例提供的基于机器阅读理解及文本摘要的多项选择答题方法相对应,基于机器阅读理解及文本摘要的多项选择答题系统的相关技术特征可参考基于机器阅读理解及文本摘要的多项选择答题方法的相关技术特征,在此不再赘述。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
综上所述,模型训练使用长文本多项选择数据集,对于抽取式文本摘要模型,首先分批读取数据集中的数据。ES模型被训练用来识别相关句子,为了使用BERT进行句子识别,需要它输出每个句子的表示。但是,由于BERT被训练为掩码语言模型,输出向量根植于符号而不是句子。同时,BERT虽然有分段嵌入来表示不同的句子,但它只有两个标签(句子A或句子B),无法提取多个句子形成摘要。需要修改BERT的输入序列和嵌入,使句子识别成为可能。由于数据中的选项对识别相关句有重要作用,因此ES模型的输入中补充了选项信息,在打分过程中,增加了文章对选项的注意力,文章与选项交互后会再经过Transformer层获取文档级上下文特征,使得相关句的识别更为准确。MRC模型进行具体的多项选择任务推理,当完成多项选择答题任务后,会对短文本中的块进行相关性判断,相当于对ES模型进行标签的标注。依次将短文本中块的注意力掩码改为0,从而达到依次删除块的效果,再将删除块后的短文本输入到MRC模型,比较删除前后的损失来标注这句话是否是相关句,为ES模型提供更准确的训练标签,以此来达到上下游模型的联合训练。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于机器阅读理解及文本摘要的多项选择答题方法,其特征在于,所述方法包括以下步骤:
步骤1,构建长文本多项选择数据集;
步骤2,对长文本多项选择数据集进行预处理;
步骤3,对长文本多项选择数据集进行文本摘要模型的预训练,得到短文本多项选择数据集;
步骤4,对短文本多项选择数据集进行阅读理解模型的多项选择推理预训练;
步骤5,将推理训练后的短文本中的长句进行相关性标注,并以此反向训练文本摘要模型。
2.根据权利要求1所述基于机器阅读理解及文本摘要的多项选择答题方法,其特征在于,所述构建长文本多项选择数据集包括:
收集互联网上零散的高考模拟题、真题数据,整理过滤后形成长文本多项选择数据集。
3.根据权利要求1所述基于机器阅读理解及文本摘要的多项选择答题方法,其特征在于,所述对长文本多项选择数据集进行预处理包括:
将长文本多项选择数据集根据标点符号分割成细粒度的短句,使用动态规划算法将短句拼接成长度小于等于64个字符的块。
4.根据权利要求1所述基于机器阅读理解及文本摘要的多项选择答题方法,其特征在于,所述对长文本多项选择数据集进行文本摘要模型的预训练包括:
将预处理好的长文本多项选择数据集放入文本摘要模型中,文本摘要模型对数据集中的块进行打分,将打分高的块拼接成短文本多项选择数据集。
5.根据权利要求1所述基于机器阅读理解及文本摘要的多项选择答题方法,其特征在于,所述使用阅读理解模型对短文本多项选择数据集进行多项选择推理预训练包括:
从文章的所有块选出相关块拼接出短文本,再将文章中的问题、选项、短文本拼接后输入到阅读理解模型,阅读理解模型预测分类值与标签、计算推理损失值。
6.根据权利要求4所述基于机器阅读理解及文本摘要的多项选择答题方法,其特征在于,所述阅读理解模型为MRC模型,所述文本摘要模型为ES模型。
7.根据权利要求5所述基于机器阅读理解及文本摘要的多项选择答题方法,其特征在于:所述将推理训练后的短文本中的长句进行相关性标注,并以此反向训练文本摘要模型包括:
步骤5.1,记录步骤4中的推理损失值;
步骤5.2,将短文本中块的注意力掩码依次改为0,输入到阅读理解模型中,阅读理解模型记录删除句子后的推理损失值,对比删除句子前后推理损失值,判断块的相关性并进行标注;
步骤5.3,文本摘要模型根据步骤5.2标注的相关性标签,进行文本摘要模型预训练。
8.根据权利要求7所述基于机器阅读理解及文本摘要的多项选择答题方法,其特征在于:所述对比删除句子前后推理损失值,判断块的相关性并进行标注包括:
当损失差值大于预设阙值,则认为该块有相关性,将该块的相关性标签数值加1,当损失差值小于预设阙值,则认为该块无相关性,将该块的相关性标签数值减1。
9.基于机器阅读理解及文本摘要的多项选择答题系统,其特征在于:所述系统包括:
文本构建模块,用于构建长文本多项选择数据集,并对长文本多项选择数据集进行预处理;
文本摘要模型,用于对长文本多项选择数据集进行文本摘要模型的预训练,得到短文本多项选择数据集;
阅读理解模型,用于对短文本多项选择数据集进行阅读理解模型的多项选择推理预训练;
相关性判断模块,用于将推理训练后的短文本中的长句进行相关性标注,并以此反向训练文本摘要模型。
10.根据权利要求9所述基于机器阅读理解及文本摘要的多项选择答题系统,其特征在于:所述将推理训练后的短文本中的长句进行相关性标注包括:
对比删除句子前后推理损失值,判断块的相关性并进行标注;其中,当损失差值大于预设阙值,则认为该块有相关性,将该块的相关性标签数值加1,当损失差值小于预设阙值,则认为该块无相关性,将该块的相关性标签数值减1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211307144.2A CN115659947A (zh) | 2022-10-25 | 2022-10-25 | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211307144.2A CN115659947A (zh) | 2022-10-25 | 2022-10-25 | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115659947A true CN115659947A (zh) | 2023-01-31 |
Family
ID=84991512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211307144.2A Pending CN115659947A (zh) | 2022-10-25 | 2022-10-25 | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115659947A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116341554A (zh) * | 2023-05-22 | 2023-06-27 | 中国科学技术大学 | 面向生物医学文本的命名实体识别模型的训练方法 |
CN116562311A (zh) * | 2023-07-07 | 2023-08-08 | 中铁四局集团有限公司 | 基于自然语言机器翻译的运维方法及系统 |
-
2022
- 2022-10-25 CN CN202211307144.2A patent/CN115659947A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116341554A (zh) * | 2023-05-22 | 2023-06-27 | 中国科学技术大学 | 面向生物医学文本的命名实体识别模型的训练方法 |
CN116341554B (zh) * | 2023-05-22 | 2023-08-29 | 中国科学技术大学 | 面向生物医学文本的命名实体识别模型的训练方法 |
CN116562311A (zh) * | 2023-07-07 | 2023-08-08 | 中铁四局集团有限公司 | 基于自然语言机器翻译的运维方法及系统 |
CN116562311B (zh) * | 2023-07-07 | 2023-12-01 | 中铁四局集团有限公司 | 基于自然语言机器翻译的运维方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291185B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN111966917A (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN112836509B (zh) | 一种专家系统知识库构建方法及系统 | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 | |
CN112989841A (zh) | 一种用于突发事件新闻识别与分类的半监督学习方法 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN112989033B (zh) | 基于情绪类别描述的微博情绪分类方法 | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN113505589B (zh) | 一种基于bert模型的mooc学习者认知行为识别方法 | |
CN113948217A (zh) | 一种基于局部特征整合的医学嵌套命名实体识别方法 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN109101490A (zh) | 一种基于融合特征表示的事实型隐式情感识别方法和系统 | |
CN113343690A (zh) | 一种文本可读性自动评估方法及装置 | |
CN115713072A (zh) | 一种基于提示学习和上下文感知的关系类别推断系统及方法 | |
CN113934835A (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN113051886A (zh) | 一种试题查重方法、装置、存储介质及设备 | |
CN114491076B (zh) | 基于领域知识图谱的数据增强方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |