CN112364654B

CN112364654B - 一种面向教育领域的实体和关系联合抽取方法

Info

Publication number: CN112364654B
Application number: CN202011252896.4A
Authority: CN
Inventors: 秦锋; 张志文; 郑啸
Original assignee: Anhui University of Technology AHUT
Current assignee: Anhui University of Technology AHUT
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2024-12-20
Anticipated expiration: 2040-11-11
Also published as: CN112364654A

Abstract

本发明公开了一种面向教育领域的实体和关系联合抽取方法，用于解决现有方法缺少在教育领域中的应用，本发明利用预训练的XLNET语言模型获得高层次特征嵌入，并通过Mogrifier BiGRU神经网络捕获文本上下文语义信息，同时在Mogrifier BiGRU神经网络后引入MultiHead Attention机制捕捉文本特征中较为重要的部分，有效解决了实体内部存在大量修饰词干扰的问题；本发明通过联合提取的方式，同时进行实体与关系的抽取，通过参数共享编码层实现实体与关系子任务间的依赖，从而缓解了错误传播的问题。

Description

一种面向教育领域的实体和关系联合抽取方法

技术领域

本发明涉及一种面向教育领域的实体和关系联合抽取方法，属于自然语言处理技术。

背景技术

随着教育领域中在线学习的飞速发展，在线课程数据量呈指数增长，如何高效准确地从这些数据中抽取有用的实体和关系信息成为了研究热点。在过去的几十年里，文本挖掘和自然语言处理(NLP)取得了很大的进展；但是教育领域的信息抽取技术还有很大的提升空间。在线教育领域具有代表性的信息抽取技术包括从在线课程的文本信息中提取特定类型的课程知识点实体信息以及实体之间的关系。提取的信息用于各种类型的研究，它不仅适用于各种NLP任务(如文档分类和问答系统)，同时也在线上学习的个性化推荐中具有重要的作用。由于实体识别和关系提取广泛应用于知识发现和数据挖掘分析中，所以对该技术的需求将继续增长。

实体识别和关系提取主要有以下几种方法，包括基于字典的方式、基于规则的方式、基于机器学习的方式和基于深度学习的方式。在基于字典的方法中，字典中的术语与目标序列中的单词进行简单的匹配，以便进行实体提取。虽然这种方法很简单，但在线课程文本数据中实体数量的持续增加和符号的多样性使得提取困难。在基于规则的方法中，当只应用于一个特定的领域时，实体提取往往表现出较高的性能。在基于机器学习的方法中，使用各种算法和统计模型进行实体提取。然而，基于规则和机器学习的方法都高度依赖于特征工程，这不仅耗费人力和时间，而且也需要大量的领域知识。与以前的方法不同，深度学习方法不需要繁重的人工来制作特征，深度学习方法使用神经网络自动提取最具代表性的特征，获得了非常好的效果。

现有的关于命名实体识别和关系抽取的研究中，大部分学者把这一过程被分为两个独立的任务，以流水线的方式来解决实体及关系的抽取问题，这类方法把实体及关系抽取看成是先后执行的两个单独子任务：命名实体识别(NER)和关系抽取(RE)。具体而言，首先抽取句子中的命名实体，然后对抽取出的命名实体进行两两组合配对，最后识别命名实体对之间存在的语义关系。但是，这类方法存在两个主要的弊端：第一是错误传播，命名实体识别模块的错误会传递给下游的关系抽取模块，进而影响关系抽取的性能；第二是忽视了两个子任务之间存在的依赖关系。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种面向教育领域的实体和关系联合抽取方法，用于解决现有方法缺少在教育领域中的应用，同时，利用预训练的XLNET语言模型及注意力机制获得高层次特征嵌入，并通过联合模型同时处理实体识别和关系分类来缓解错误传播的问题。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种面向教育领域的实体和关系联合抽取方法，包括如下步骤：

(1)建立课程知识点命名实体语料库，课程知识点命名实体语料库由包含课程知识点的文本数据组成；

(2)对预处理后的含有课程知识点的文本数据进行分布式表示，将句子作为输入，通过XLNET语言模型(乱序语言模型)得到文本预训练向量；

(3)将得到的文本预训练向量输入到Mogrifier BiGRU神经网络(形变的双向门控循环神经网络)中进行文本特征提取；

(4)在Mogrifier BiGRU神经网络后引入MultiHead Attention机制(多头注意力机制)捕捉文本特征中较为重要的部分；其中，较为重要的部分指文本特征中能够组成知识实体的部分；

(5)结合CRF模型(条件随机场模型)，得到课程知识点命名实体和知识实体之间的关系。

具体的，所述步骤(1)中，先采用BIO标注方法(将一个序列转换为原始标注的标准方法)对课程知识点命名实体语料库中的文本数据进行知识实体标注，即将文本数据分为P个类别，每个类别为一个标签，第p个类别表示为标签p，p＝1,2,…,P；再将知识实体之间的关系分为Q种关系，第q种关系表示为关系q，q＝1,2,…,Q；然后将文本数据分为训练集和测试集；BIO标注方法中，B代表知识实体的开端、I代表知识实体的其他部分、O代表非知识实体。

具体的，所述步骤(2)中，输入XLNET语言模型的句子表示为S＝[s₁,s₂,…,s_N]，经XLNET语言模型输出的文本预训练向量表示为X＝[x₁,x₂,…,x_N]；其中，s_i表示组成句子S的第i个字，x_i为字s_i的表示向量，i＝1,2,…,N。

具体的，Mogrifier BiGRU神经网络区别于传统的GRU网络(补充中文解释)在于它可以通过预先交互的方式增强整体模型的上下文建模能力；Mogrifier BiGRU神经网络包括前向GRU网络和后向GRU网络，Mogrifier BiGRU神经网络的输入和隐藏层输出分别为X＝[x₁,x₂,…,x_N]和H＝[h₁,h₂,…,h_N]，前向GRU网络的输入和隐藏层输出分别为和后向GRU网络的输入和隐藏层输出分别为和

以上标t和t-1表示t时刻和t-1时刻，对和进行双向的多轮交互得到

对前向GRU网络，交互过程如下：

(a41)对和进行交互，得到

(a42)对和进行交互，得到

(a43)对和进行交互，得到

(a44)对和进行交互，得到

(a45)

对后向GRU网络，交互过程如下：

(b41)对和进行交互，得到

(b42)对和进行交互，得到

(b43)对和进行交互，得到

(b44)对和进行交互，得到

(b45)

其中：σ为逻辑回归函数，R¹、R²、R³、R⁴为模型参数；为了减少参数数量，可以将R¹、R²、R³、R⁴均设计为低秩矩阵的乘积形式。

具体的，所述步骤(4)中，在Mogrifier BiGRU神经网络后引入MultiHeadAttention机制，是使用MultiHead Attention机制进一步捕获字s_i的上下文语义，同时突出句子S中关键词的显著性，并分配注意力权重，将MultiHead Attention机制作为注意力层。MultiHead Attention机制相较于传统使用的Attention机制区别在于：MultiHeadAttention机制可以并行产生多个不同的注意力得分，最后将多个注意力得分进行拼接作为最终的注意力得分，如此可以更好地捕捉文本特征中较为重要的部分。

具体的，所述MultiHead Attention机制的计算过程包括如下步骤：

(41)将X＝[x₁,x₂,…,x_N]经Mogrifier BiGRU神经网络输出的H＝[h₁,h₂,…,h_N]映射为K、Q、V三个向量；

(42)K、Q、V对应MultiHead Attention机制的第j头注意力分别为其中：是三个全局参数矩阵，d_N表示MultiHead Attention机制的输入维度，D表示MultiHead Attention机制的总注意力头数，d_k＝d_q＝d_v＝d_N/D；

(43)计算第j头注意力的值

(44)对D个注意力的值进行拼接得到多头注意力其中：W^o为权重矩阵，B的第i行第j列元素b_ij表示字s_i在第j头注意力上的权重；

(45)结合字s_i的隐藏状态h_i和注意力权重b_ij生成字s_i的内容向量

(46)在Mogrifier BiGRU神经网络后引入MultiHead Attention机制捕捉到的文本特征中较为重要的部分为C＝[c₁,c₂,…,c_N]。

具体的，所述步骤(5)中，将CRF模型作为标签得分层，先使用CRF模型计算每个字在各个标签下的标签得分，再应用Viterbi算法(维特比算法)获得标签得分最高的标签序列，接着通过关系提取层得到课程知识点命名实体和知识实体之间的关系。

更为具体的，所述步骤(5)中，使用CRF模型计算字s_i在标签p下的标签得分

其中：上标(ner)表示知识实体标注识别；V^(ner)和U^(ner)表示权重矩阵，b^(ner)表示偏置矩阵，V^(ner)∈R^p×l，U^(ner)∈R^l×2d，b^(ner)∈R^l，l为CRF模型的层宽，d为Mogrifier BiGRU神经网络的隐藏层单元数；f(·)表示非线性激活函数；

对句子S中的所有字分配标签，即可得到句子S的标签序列，每个句子S有R＝N^P种标签序列，计算S在第r种标签序列下的标签得分：

其中：Y_r表示第r种标签序列，Y＝[Y₁,Y₂,…,Y_R]，r＝1,2,…,R，表示第r种标签序列下字s_i在所分配标签下的标签得分，表示第r种标签序列下句子S在所分配标签下的标签得分，A_{(i,r),(i+1,r)}表示第r种标签序列下字s_i所分配的标签转移到字s_i+1上的转移分数，A表示转移矩阵，A∈R^(P+2)×(P+2)；因为在构建得分层时考虑了开始标签与结束标签，因此转移过程中的维度比P多2；

对标签序列的标签得分进行归一化，得到各标签序列的概率分布：

应用Viterbi算法获得标签得分最高的标签序列

其中：在标签得分最高的标签序列中，字s_i所分配的标签为g_i；

使用最小化交叉熵损失方法训练标签得分层。

更为具体的，所述步骤(5)中，采用关系提取层提取课程知识点命名实体和知识实体之间的关系时，先计算在给定关系q下字s_i和字s_j之间的关系得分：

S^(re)(m_j,m_i,q)＝V^(re)f(U^(re)m_j+W^(re)m_i+b^(re))

其中：m_i＝[c_i；g_i]，m_j＝[c_j；g_j]，上标(re)表示关系识别，V^(re)、U^(re)和W^(re)表示权重矩阵，b^(re)表示偏置矩阵，V^(re)∈R^l，U^(re)∈R^l×(2a+d)，W^(re)∈R^l×(2a+d)，b^(re)∈R^l，l为关系提取层的层宽，d为Mogrifier BiGRU神经网络的隐藏层单元数，a为标签的维度；f(·)表示非线性激活函数；

字s_i和字s_j之间存在关系q的概率分布情况：

使用最小化交叉熵损失方法训练关系提取层。

具体的，所述关系提取层的训练过程中的交叉熵损失L_RE采用下式计算：

目标函数为min(L_NER+L_RE)，其中：L_NER为标签得分层的训练过程中的交叉熵损失。

有益效果：本发明提供的面向教育领域的实体和关系联合抽取方法，相对于现有技术，具有如下优势：1、本发明利用预训练的XLNET语言模型设计高层次特征嵌入，对同一个词不是直接使用固定的词向量信息，而是根据上下文信息进行动态嵌入表征，能够极大提高词嵌入层文本转化为低密度嵌入向量的精准性，降低多义词对模型性能造成的负面影响，有效地捕捉单词的局部和全局信息；2、本发明在Mogrifier BiGRU神经网络后引入MultiHead Attention机制捕捉文本特征中较为重要的部分，有效解决了实体内部存在大量修饰词干扰的问题；3、本发明通过联合提取的方式，同时进行实体与关系的抽取，通过参数共享编码层实现实体与关系子任务间的依赖，从而缓解了错误传播的问题。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示为一种面向教育领域的实体和关系联合抽取方法，包括如下步骤：

步骤一：建立课程知识点命名实体语料库，课程知识点命名实体语料库由包含课程知识点的文本数据组成。

先采用BIO标注方法对课程知识点命名实体语料库中的文本数据进行知识实体标注，即将文本数据分为P个类别，每个类别为一个标签，第p个类别表示为标签p，p＝1,2,…,P；再将知识实体之间的关系分为Q种关系，第q种关系表示为关系q，q＝1,2,…,Q；然后将文本数据分为训练集和测试集；BIO标注方法中，B代表知识实体的开端、I代表知识实体的其他部分、O代表非知识实体。

步骤二：对预处理后的含有课程知识点的文本数据进行分布式表示，将句子作为输入，通过XLNET语言模型得到文本预训练向量。

输入XLNET语言模型的句子表示为S＝[s₁,s₂,…,s_N]，经XLNET语言模型输出的文本预训练向量表示为X＝[x₁,x₂,…,x_N]；其中，s_i表示组成句子S的第i个字，x_i为字s_i的表示向量，i＝1,2,…,N。

步骤三：将得到的文本预训练向量输入到Mogrifier BiGRU神经网络中进行文本特征提取。

Mogrifier BiGRU神经网络包括前向GRU网络和后向GRU网络，Mogrifier BiGRU神经网络的输入和隐藏层输出分别为X＝[x₁,x₂,…,x_N]和H＝[h₁,h₂,…,h_N]，前向GRU网络的输入和隐藏层输出分别为和后向GRU网络的输入和隐藏层输出分别为和

对前向GRU网络，交互过程如下：

(a41)对和进行交互，得到

(a42)对和进行交互，得到

(a43)对和进行交互，得到

(a44)对和进行交互，得到

(a45)

对后向GRU网络，交互过程如下：

(b41)对和进行交互，得到

(b42)对和进行交互，得到

(b43)对和进行交互，得到

(b44)对和进行交互，得到

(b45)

其中：σ为逻辑回归函数，R¹、R²、R³、R⁴为模型参数。

步骤四：在Mogrifier BiGRU神经网络后引入MultiHead Attention机制捕捉文本特征中较为重要的部分；其中，较为重要的部分指文本特征中能够组成知识实体的部分。

在Mogrifier BiGRU神经网络后引入MultiHead Attention机制，是使用MultiHead Attention机制进一步捕获字s_i的上下文语义，同时突出句子S中关键词的显著性，并分配注意力权重，将MultiHead Attention机制作为注意力层。MultiHead Attention机制的计算过程包括如下步骤：

(43)计算第j头注意力的值

步骤五：结合CRF模型，得到课程知识点命名实体和知识实体之间的关系。

将CRF模型作为标签得分层，先使用CRF模型计算每个字在各个标签下的标签得分，再应用Viterbi算法获得标签得分最高的标签序列，接着通过关系提取层得到课程知识点命名实体和知识实体之间的关系。

使用CRF模型计算字s_i在标签p下的标签得分

其中：Y_r表示第r种标签序列，Y＝[Y₁,Y₂,…,Y_R]，r＝1,2,…,R，表示第r种标签序列下字s_i在所分配标签下的标签得分，表示第r种标签序列下句子S在所分配标签下的标签得分，A_{(i,r),(i+1,r)}表示第r种标签序列下字s_i所分配的标签转移到字s_i+1上的转移分数，A表示转移矩阵，A∈R^(P+2)×(P+2)；

应用Viterbi算法获得标签得分最高的标签序列

使用最小化交叉熵损失方法训练标签得分层。

采用关系提取层提取课程知识点命名实体和知识实体之间的关系时，先计算在给定关系q下字s_i和字s_j之间的关系得分：

S^(re)(m_j,m_i,q)＝V^(re)f(U^(re)m_j+W^(re)m_i+b^(re))

字s_i和字s_j之间存在关系q的概率分布情况：

使用最小化交叉熵损失方法训练关系提取层。

关系提取层的训练过程中的交叉熵损失L_RE采用下式计算：

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向教育领域的实体和关系联合抽取方法，其特征在于：包括如下步骤：

先采用BIO标注方法对课程知识点命名实体语料库中的文本数据进行知识实体标注，即将文本数据分为P个类别，每个类别为一个标签，第p个类别表示为标签p，p＝1,2,…,P；再将知识实体之间的关系分为Q种关系，第q种关系表示为关系q，q＝1,2,…,Q；然后将文本数据分为训练集和测试集；BIO标注方法中，B代表知识实体的开端、I代表知识实体的其他部分、O代表非知识实体；

(2)对预处理后的含有课程知识点的文本数据进行分布式表示，将句子作为输入，通过XLNET语言模型得到文本预训练向量；

输入XLNET语言模型的句子表示为S＝[s₁,s₂,…,s_N]，经XLNET语言模型输出的文本预训练向量表示为X＝[x₁,x₂,…,x_N]；其中，s_i表示组成句子S的第i个字，x_i为字s_i的表示向量，i＝1,2,…,N；

(3)将得到的文本预训练向量输入到Mogrifier BiGRU神经网络中进行文本特征提取；

对前向GRU网络，交互过程如下：

(a41)对和进行交互，得到

(a42)对和进行交互，得到

(a43)对和进行交互，得到

(a44)对和进行交互，得到

(a45)

对后向GRU网络，交互过程如下：

(b41)对和进行交互，得到

(b42)对和进行交互，得到

(b43)对和进行交互，得到

(b44)对和进行交互，得到

(b45)

其中：σ为逻辑回归函数，R¹、R²、R³、R⁴为模型参数；

(4)在Mogrifier BiGRU神经网络后引入MultiHead Attention机制捕捉文本特征中较为重要的部分；其中，较为重要的部分指文本特征中能够组成知识实体的部分；

在Mogrifier BiGRU神经网络后引入MultiHead Attention机制，是使用MultiHeadAttention机制进一步捕获字s_i的上下文语义，同时突出句子S中关键词的显著性，并分配注意力权重，将MultiHead Attention机制作为注意力层；所述MultiHead Attention机制的计算过程包括如下步骤：

(43)计算第j头注意力的值

(46)在Mogrifier BiGRU神经网络后引入MultiHead Attention机制捕捉到的文本特征中较为重要的部分为C＝[c₁,c₂,…,c_N]；

(5)将CRF模型作为标签得分层，先使用CRF模型计算每个字在各个标签下的标签得分，再应用Viterbi算法获得标签得分最高的标签序列，接着通过关系提取层得到课程知识点命名实体和知识实体之间的关系；

使用CRF模型计算字s_i在标签p下的标签得分

应用Viterbi算法获得标签得分最高的标签序列

使用最小化交叉熵损失方法训练标签得分层；

S^(re)(m_j,m_i,q)＝V^(re)f(U^(re)m_j+W^(re)m_i+b^(re))

字s_i和字s_j之间存在关系q的概率分布情况：

使用最小化交叉熵损失方法训练关系提取层。

2.根据权利要求1所述的面向教育领域的实体和关系联合抽取方法，其特征在于：所述关系提取层的训练过程中的交叉熵损失L_RE采用下式计算：