CN109992669B

CN109992669B - 一种基于语言模型和强化学习的关键词问答方法

Info

Publication number: CN109992669B
Application number: CN201910274243.7A
Authority: CN
Inventors: 潘博远; 蔡登�
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2020-12-15
Anticipated expiration: 2039-04-08
Also published as: CN109992669A

Abstract

本发明公开了一种基于语言模型和强化学习的关键词问答方法，包括以下步骤：(1)用关键词问题句和自然语言问题句的混合数据集来训练一个关键词问题分类器；(2)在自然语言问题句的数据集上预训练一个语言模型；(3)将步骤(2)中的语言模型高层网络提取，并用关键词问题句和其对应的自然语言问题句来训练一个含语言模型网络的问题重构模型来重构由步骤(1)判断为关键词问题句的问题；(4)将重构的问题句送入一个训练好的问答模型中，得到答案；(5)利用强化学习，以步骤(4)中预测答案和标准答案的相似度作为奖励函数来优化步骤(3)中的重构模型。利用本发明，可以大大提升了在大规模数据集上关键词问答任务的准确率。

Description

一种基于语言模型和强化学习的关键词问答方法

技术领域

本发明属于自然语言处理领域，尤其是涉及一种基于语言模型和强化学习的关键词问答方法。

背景技术

一直以来，问答类任务都是自然语言处理中最为热门和棘手的问题之一。在目前最热门的任务中，都是给定一篇文章和一个问题，我们需要根据文章找出这个问题的答案。然而，人类在与机器交互的时候经常会以关键词的形式表达问题，而很少输入一个完整的句子。一个高效的并能回答关键词问题的机器问答模型可以在以语义理解为基础的众多领域得到广泛应用，如对话机器人，问答系统和搜索系统等。

早期的一些工作尝试过将关键词问题转换成自然语言的问题，但所用的方法也都是传统的规则类方法。这样的方法生成的句子受制于一些固定的模板和规则，也无法解决信息不全的问题。最近，一些问题生成模型利用神经网络基于几个独立的关键词生成问题句。比如2017年发表在国际顶级自然语言处理会议Annual Meeting of the Associationfor Computational Linguistics上的《Learning to Ask:Neural Question Generationfor Reading Comprehension》在第3页到第4页公布了一种注意力机制序列到序列算法(NQG)；2018年发表在国际顶级自然语言处理会议Conference on Empirical Methods inNatural Language Processing上的《Answer-focused and position-aware neuralquestion generation》在第3页到第6页公布了一种称为Hybrid Model的答案定位算法；2018年发表在国际顶级自然语言处理会议Annual Meeting of the Association forComputational Linguistics上的《Harvesting paragraph-level question-answerpairs from wikipedia》在第3页到第6页公布了一种用共生关系在文章中找问答对的方法。然而这些方法所基于的关键词都是独立的，并不是人在日常生活中会组织的关键词问题，所以这些方法不会探索这些关键词所代表的具体意思。

语言模型的运用一直是自然语言理解的一个核心问题之一，因为语言模型的无监督性使得其不需要大量的标注数据，从而可以充分利用随处可见的无标注数据来训练模型。之前有相关技术将语言模型迁移到其他任务上，并且取得了可观的效果。然而，这些技术都是直接将语言模型的编码层与当前模型的词向量连接在一起作为当前模型编码层的输入。这种方法依赖于当前输入数据的语法完整性，无法在关键词组成的问题句上取得很好的效果。

发明内容

本发明提供了一种基于语言模型和强化学习的关键词问答方法，通过语言模型来将自然语言问题句的内在特征迁移到关键词问题上，并用强化学习来优化模型，大大提升了在大规模数据集上关键词问答任务的准确率。

本发明的技术方案如下；

一种基于语言模型和强化学习的关键词问答方法，包括以下步骤：

(1)用关键词问题句和自然语言问题句的混合数据集来训练一个关键词问题分类器，用于对问题句进行分类；

(2)在自然语言问题句的数据集上预训练一个语言模型；

(3)提取步骤(2)中语言模型的高层网络，建立一个包含语言模型高层网络的问题重构模型，并用关键词问题句和其对应的自然语言问题句来训练问题重构模型；

(4)使用训练好的问题重构模型对数据集中由关键词问题分类器分类得到的关键词问题句进行重构；

(5)训练一个问答模型，将重构后的关键词问题句输入问答模型，得到预测答案，并以预测答案与标准答案的相似度作为奖励函数，用强化学习来优化问题重构模型；

(6)问题重构模型训练完毕，将待测试的问题句输入关键词问题分类器，如果是自然语言问题，则直接输入问答模型，如果是关键词问题句，则先输入问题重构模型进行重构后再输入问答模型，最后得出问题的答案。

本发明可以在给定一个可能由关键词组成的问题句的情况下推断出这个问题句是否是自然语言问题句并给出问题的答案。

步骤(1)中，关键词问题分类器对问题句进行分类的过程为：

首先用词向量Glove对句子做词嵌入，之后送入关键词问题分类器的编码器中，得到每个句子的表达矩阵；再将表达矩阵的首尾两个隐藏单元提取出，并用线性变换投射为二分类向量，判断句子属于关键词问题句或自然语言问题句。

步骤(2)中，所述的语言模型包含词向量Glove和三层双向长短时记忆网络，其工作机制为：

首先使用Glove词向量将数据集中的自然语言问题句进行词向量嵌入，然后用三层双向长短时记忆网络来编码文本信息，最终使用条件概率来根据输入文本预测下一个词。

步骤(3)中，所述问题重构模型包含一个由三层双向长短时记忆网络组成的编码器、一个三层长短时记忆网络组成的解码器、以及一个从语言模型中提取的高层网络，所述高层网络为第三层双向长短时记忆网络。

步骤(4)中，问题重构模型对关键词问题句进行重构的具体步骤为：

(4-1)用词向量Glove来对关键词问题句做词嵌入，之后送入问题重构模型的编码器进行编码；

(4-2)编码器的第二层双向长短时记忆网络的输出作为语言模型中提取的高层网络的输入；

(4-3)将语言模型高层网络的输出和重构模型中编码器的输出进行合并，送入问题重构模型的解码器进行解码，输出重构后的问题句。

步骤(5)中，用强化学习来优化问题重构模型的具体公式为：

J＝-E_q～π(q|kq)[R(a^g,a^q)]

其中，π(q|r,c)是之前的问题重构模型，R(a^g,a^q)是奖励函数，也就是生成的答案a^q和标准答案a^g的F1值；使用束搜索进行采样，并保证标准问题在最终的采样池中。

与现有技术相比，本发明具有以下有益效果：

1、本发明使用迁移学习将语言模型这样的非监督学习任务中所学的知识转移到了关键词问答任务当中，提高了关键词问题句语意捕捉的准确性。

2、本发明使用了强化学习，从生成的问题的可回答性来优化模型，充分利用了如今效果优良的机器问答模型。

3、本发明各个模块相互独立，可以随着各项技术发展而进行替换更新，有较强的扩展性。

附图说明

图1为本发明一种基于语言模型和强化学习的关键词问答方法的流程示意图；

图2为本发明实施例的整体结构示意图；

图3为本发明实施例中相比于直接用问答模型在关键词问题上的回答示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1与图2所示，一种基于语言模型和强化学习的关键词问答方法，包括以下步骤：

S01，用关键词问题句和自然语言问题句的混合数据集来训练一个关键词问题分类器。我们使用TriviaQA这个大规模综合语料库作为训练集，经过预处理后的数据集呈(关键词问题，自然语言问题)的形式。我们的任务是给定一个问题，来预测这个问题是关键词或自然语言。如图2所示，我们用现有的词向量Glove来对句子做词嵌入，之后送入一个双层双向长短时记忆网络(编码器)中。我们把每层隐藏单元的最后一个并排连在一起，并用一个线性变换将整合后的向量投射到一个二维向量上来计算关键词和自然语言的概率分布。

S02，在自然语言问题句的数据集上预训练一个语言模型。我们首先使用Glove将数据集中的自然语言问题句进行词向量嵌入，然后用三层双向长短时记忆网络来编码文本信息，最终使用条件概率来根据输入文本预测下一个词。

S03，将S02中的语言模型高层网络提取，并用关键词问题句和其对应的自然语言问题句来训练一个含语言模型网络的问题重构模型来重构由S01判断为关键词问题句的问题。首先用三层双向长短时记忆网络将输入的关键词问题句编码，其次将训练好的语言模型的第三层双向长短时记忆网络提取，将重构模型的第二层双向长短时记忆网络的输出作为提取的语言模型的输入。之后我们将语言模型的输出和重构模型编码器的输出合并在一起，送入一个三层长短时记忆网络的解码器中进行解码，输出重构后的问题句。

S04，将重构的问题句送入一个训练好的问答模型中，得到答案。我们在自然语言的问答数据集上训练一个已有的高水平问答模型DS-QA。给定一个问题，DS-QA能够从已有的语料库中返回一篇相关的文章，并从文章中针对该问题选出一个答案。

S05，利用强化学习，以S04中预测答案和标准答案的相似度作为奖励函数来优化步骤S03中的重构模型。我们用DS-QA模型预测之前问题重构模型生成的问题句的答案，并将这个答案与标准答案对比算出F1值。我们以此F1值为奖励函数，用强化学习算法策略梯度来优化之前的问题生成模型：

J＝-E_q～π(q|kq)[R(a^g,a^q)]

其中，π(q|kq)是之前的问题重构模型，R(a^g,a^q)是奖励函数，也就是生成的答案a^q和标准答案a^g的F1值。我们使用束搜索来进行采样，并保证标准问题在最终的采样池中。

为验证本发明的有效性，我们在益智问答数据集(TriviaQA)和搜索问答数据集(SearchQA)这两个数据集上进行了对比实验。益智问答数据集(TriviaQA)是美国华盛顿大学公开的自然语言问答数据集，包括了训练集和测试集中的9万个问答对；搜索问答数据集(SearchQA)是纽约大学公开的开放式问答数据集，包含了14万个问答对。同时，我们将这两个数据集的问题句用去stopword的方法转换成关键词问题句。

本实施例在测试集上与直接使用问答模型不用问题重构的方法进行了比较。在表1中，上面的一栏是直接使用问答模型DS-QA的结果；下面一栏是本发明及其各个组成部分的效果验证。不难看出，本发明在各个指标上都取得了最好的效果，我们的方法(Our FullModel)相比于直接使用问答模型而不对关键词问题做处理具有更高的准确率，并且所有的改进模块都起到了正面效果。

表1

表2是本发明生成的问题(GQ)与自然语言问题(OQ)还有关键词问题(KQ)的语言学统计结果。其中可以看到本发明生成的问题句与人类标注的自然语言句子在问题类型和长度上都十分接近。这也反映了以语言模型为迁移知识来源是一个十分直观且有意义的做法。

表2

本实施例还展示了本发明在重构关键词问题前后的效果对比。如图3所示，是本发明在将自然语言问题句转化为关键词问题句的数据集TriviaQA上的问答结果。我们可以看出，用DS-QA对关键词问题的答复是错的，而本发明重构后的问题更接近于原问题，也引导DS-QA给出了正确答案。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于语言模型和强化学习的关键词问答方法，其特征在于，包括以下步骤：

(2)在自然语言问题句的数据集上预训练一个语言模型；

(5)训练一个问答模型，将重构后的关键词问题句输入问答模型，得到预测答案，并以预测答案与标准答案的相似度F1值作为奖励函数，用强化学习来优化问题重构模型；

2.根据权利要求1所述的基于语言模型和强化学习的关键词问答方法，其特征在于，步骤(1)中，关键词问题分类器对问题句进行分类的过程为：

3.根据权利要求1所述的基于语言模型和强化学习的关键词问答方法，其特征在于，步骤(2)中，所述的语言模型包含词向量Glove和三层双向长短时记忆网络，其工作机制为：

4.根据权利要求1所述的基于语言模型和强化学习的关键词问答方法，其特征在于，步骤(3)中，所述问题重构模型包含一个由三层双向长短时记忆网络组成的编码器、一个三层长短时记忆网络组成的解码器、以及一个从语言模型中提取的高层网络，所述高层网络为第三层双向长短时记忆网络。

5.根据权利要求4所述的基于语言模型和强化学习的关键词问答方法，其特征在于，步骤(4)中，问题重构模型对关键词问题句进行重构的具体步骤为：

(4-2)编码器的第二层双向长短时记忆网络的输出作为语言模型中提取的第三层网络的输入；

(4-3)将语言模型第三层网络的输出和重构模型中编码器第三层的输出进行合并，送入问题重构模型的解码器进行解码，输出重构后的问题句。

6.根据权利要求1所述的基于语言模型和强化学习的关键词问答方法，其特征在于，步骤(5)中，用强化学习来优化问题重构模型的具体公式为：

J＝-E_q～π(q|kq)[R(a^g,a^q)]

其中，π(q|kq)是之前的问题重构模型，R(a^g,a^q)是奖励函数，也就是生成的答案a^q和标准答案a^g的F1值；使用束搜索进行采样，并保证标准问题在最终的采样池中。