CN112364654B - 一种面向教育领域的实体和关系联合抽取方法 - Google Patents
一种面向教育领域的实体和关系联合抽取方法 Download PDFInfo
- Publication number
- CN112364654B CN112364654B CN202011252896.4A CN202011252896A CN112364654B CN 112364654 B CN112364654 B CN 112364654B CN 202011252896 A CN202011252896 A CN 202011252896A CN 112364654 B CN112364654 B CN 112364654B
- Authority
- CN
- China
- Prior art keywords
- label
- word
- score
- relationship
- mogrifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 43
- 230000007246 mechanism Effects 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 33
- 230000003993 interaction Effects 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 8
- 238000012546 transfer Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 3
- 239000003607 modifier Substances 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Educational Technology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向教育领域的实体和关系联合抽取方法,用于解决现有方法缺少在教育领域中的应用,本发明利用预训练的XLNET语言模型获得高层次特征嵌入,并通过Mogrifier BiGRU神经网络捕获文本上下文语义信息,同时在Mogrifier BiGRU神经网络后引入MultiHead Attention机制捕捉文本特征中较为重要的部分,有效解决了实体内部存在大量修饰词干扰的问题;本发明通过联合提取的方式,同时进行实体与关系的抽取,通过参数共享编码层实现实体与关系子任务间的依赖,从而缓解了错误传播的问题。
Description
技术领域
本发明涉及一种面向教育领域的实体和关系联合抽取方法,属于自然语言处理技术。
背景技术
随着教育领域中在线学习的飞速发展,在线课程数据量呈指数增长,如何高效准确地从这些数据中抽取有用的实体和关系信息成为了研究热点。在过去的几十年里,文本挖掘和自然语言处理(NLP)取得了很大的进展;但是教育领域的信息抽取技术还有很大的提升空间。在线教育领域具有代表性的信息抽取技术包括从在线课程的文本信息中提取特定类型的课程知识点实体信息以及实体之间的关系。提取的信息用于各种类型的研究,它不仅适用于各种NLP任务(如文档分类和问答系统),同时也在线上学习的个性化推荐中具有重要的作用。由于实体识别和关系提取广泛应用于知识发现和数据挖掘分析中,所以对该技术的需求将继续增长。
实体识别和关系提取主要有以下几种方法,包括基于字典的方式、基于规则的方式、基于机器学习的方式和基于深度学习的方式。在基于字典的方法中,字典中的术语与目标序列中的单词进行简单的匹配,以便进行实体提取。虽然这种方法很简单,但在线课程文本数据中实体数量的持续增加和符号的多样性使得提取困难。在基于规则的方法中,当只应用于一个特定的领域时,实体提取往往表现出较高的性能。在基于机器学习的方法中,使用各种算法和统计模型进行实体提取。然而,基于规则和机器学习的方法都高度依赖于特征工程,这不仅耗费人力和时间,而且也需要大量的领域知识。与以前的方法不同,深度学习方法不需要繁重的人工来制作特征,深度学习方法使用神经网络自动提取最具代表性的特征,获得了非常好的效果。
现有的关于命名实体识别和关系抽取的研究中,大部分学者把这一过程被分为两个独立的任务,以流水线的方式来解决实体及关系的抽取问题,这类方法把实体及关系抽取看成是先后执行的两个单独子任务:命名实体识别(NER)和关系抽取(RE)。具体而言,首先抽取句子中的命名实体,然后对抽取出的命名实体进行两两组合配对,最后识别命名实体对之间存在的语义关系。但是,这类方法存在两个主要的弊端:第一是错误传播,命名实体识别模块的错误会传递给下游的关系抽取模块,进而影响关系抽取的性能;第二是忽视了两个子任务之间存在的依赖关系。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种面向教育领域的实体和关系联合抽取方法,用于解决现有方法缺少在教育领域中的应用,同时,利用预训练的XLNET语言模型及注意力机制获得高层次特征嵌入,并通过联合模型同时处理实体识别和关系分类来缓解错误传播的问题。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种面向教育领域的实体和关系联合抽取方法,包括如下步骤:
(1)建立课程知识点命名实体语料库,课程知识点命名实体语料库由包含课程知识点的文本数据组成;
(2)对预处理后的含有课程知识点的文本数据进行分布式表示,将句子作为输入,通过XLNET语言模型(乱序语言模型)得到文本预训练向量;
(3)将得到的文本预训练向量输入到Mogrifier BiGRU神经网络(形变的双向门控循环神经网络)中进行文本特征提取;
(4)在Mogrifier BiGRU神经网络后引入MultiHead Attention机制(多头注意力机制)捕捉文本特征中较为重要的部分;其中,较为重要的部分指文本特征中能够组成知识实体的部分;
(5)结合CRF模型(条件随机场模型),得到课程知识点命名实体和知识实体之间的关系。
具体的,所述步骤(1)中,先采用BIO标注方法(将一个序列转换为原始标注的标准方法)对课程知识点命名实体语料库中的文本数据进行知识实体标注,即将文本数据分为P个类别,每个类别为一个标签,第p个类别表示为标签p,p=1,2,…,P;再将知识实体之间的关系分为Q种关系,第q种关系表示为关系q,q=1,2,…,Q;然后将文本数据分为训练集和测试集;BIO标注方法中,B代表知识实体的开端、I代表知识实体的其他部分、O代表非知识实体。
具体的,所述步骤(2)中,输入XLNET语言模型的句子表示为S=[s1,s2,…,sN],经XLNET语言模型输出的文本预训练向量表示为X=[x1,x2,…,xN];其中,si表示组成句子S的第i个字,xi为字si的表示向量,i=1,2,…,N。
具体的,Mogrifier BiGRU神经网络区别于传统的GRU网络(补充中文解释)在于它可以通过预先交互的方式增强整体模型的上下文建模能力;Mogrifier BiGRU神经网络包括前向GRU网络和后向GRU网络,Mogrifier BiGRU神经网络的输入和隐藏层输出分别为X=[x1,x2,…,xN]和H=[h1,h2,…,hN],前向GRU网络的输入和隐藏层输出分别为和后向GRU网络的输入和隐藏层输出分别为和
以上标t和t-1表示t时刻和t-1时刻,对和进行双向的多轮交互得到
对前向GRU网络,交互过程如下:
(a41)对和进行交互,得到
(a42)对和进行交互,得到
(a43)对和进行交互,得到
(a44)对和进行交互,得到
(a45)
对后向GRU网络,交互过程如下:
(b41)对和进行交互,得到
(b42)对和进行交互,得到
(b43)对和进行交互,得到
(b44)对和进行交互,得到
(b45)
其中:σ为逻辑回归函数,R1、R2、R3、R4为模型参数;为了减少参数数量,可以将R1、R2、R3、R4均设计为低秩矩阵的乘积形式。
具体的,所述步骤(4)中,在Mogrifier BiGRU神经网络后引入MultiHeadAttention机制,是使用MultiHead Attention机制进一步捕获字si的上下文语义,同时突出句子S中关键词的显著性,并分配注意力权重,将MultiHead Attention机制作为注意力层。MultiHead Attention机制相较于传统使用的Attention机制区别在于:MultiHeadAttention机制可以并行产生多个不同的注意力得分,最后将多个注意力得分进行拼接作为最终的注意力得分,如此可以更好地捕捉文本特征中较为重要的部分。
具体的,所述MultiHead Attention机制的计算过程包括如下步骤:
(41)将X=[x1,x2,…,xN]经Mogrifier BiGRU神经网络输出的H=[h1,h2,…,hN]映射为K、Q、V三个向量;
(42)K、Q、V对应MultiHead Attention机制的第j头注意力分别为 其中:是三个全局参数矩阵,dN表示MultiHead Attention机制的输入维度,D表示MultiHead Attention机制的总注意力头数,dk=dq=dv=dN/D;
(43)计算第j头注意力的值
(44)对D个注意力的值进行拼接得到多头注意力其中:Wo为权重矩阵,B的第i行第j列元素bij表示字si在第j头注意力上的权重;
(45)结合字si的隐藏状态hi和注意力权重bij生成字si的内容向量
(46)在Mogrifier BiGRU神经网络后引入MultiHead Attention机制捕捉到的文本特征中较为重要的部分为C=[c1,c2,…,cN]。
具体的,所述步骤(5)中,将CRF模型作为标签得分层,先使用CRF模型计算每个字在各个标签下的标签得分,再应用Viterbi算法(维特比算法)获得标签得分最高的标签序列,接着通过关系提取层得到课程知识点命名实体和知识实体之间的关系。
更为具体的,所述步骤(5)中,使用CRF模型计算字si在标签p下的标签得分
其中:上标(ner)表示知识实体标注识别;V(ner)和U(ner)表示权重矩阵,b(ner)表示偏置矩阵,V(ner)∈Rp×l,U(ner)∈Rl×2d,b(ner)∈Rl,l为CRF模型的层宽,d为Mogrifier BiGRU神经网络的隐藏层单元数;f(·)表示非线性激活函数;
对句子S中的所有字分配标签,即可得到句子S的标签序列,每个句子S有R=NP种标签序列,计算S在第r种标签序列下的标签得分:
其中:Yr表示第r种标签序列,Y=[Y1,Y2,…,YR],r=1,2,…,R,表示第r种标签序列下字si在所分配标签下的标签得分,表示第r种标签序列下句子S在所分配标签下的标签得分,A(i,r),(i+1,r)表示第r种标签序列下字si所分配的标签转移到字si+1上的转移分数,A表示转移矩阵,A∈R(P+2)×(P+2);因为在构建得分层时考虑了开始标签与结束标签,因此转移过程中的维度比P多2;
对标签序列的标签得分进行归一化,得到各标签序列的概率分布:
应用Viterbi算法获得标签得分最高的标签序列
其中:在标签得分最高的标签序列中,字si所分配的标签为gi;
使用最小化交叉熵损失方法训练标签得分层。
更为具体的,所述步骤(5)中,采用关系提取层提取课程知识点命名实体和知识实体之间的关系时,先计算在给定关系q下字si和字sj之间的关系得分:
S(re)(mj,mi,q)=V(re)f(U(re)mj+W(re)mi+b(re))
其中:mi=[ci;gi],mj=[cj;gj],上标(re)表示关系识别,V(re)、U(re)和W(re)表示权重矩阵,b(re)表示偏置矩阵,V(re)∈Rl,U(re)∈Rl×(2a+d),W(re)∈Rl×(2a+d),b(re)∈Rl,l为关系提取层的层宽,d为Mogrifier BiGRU神经网络的隐藏层单元数,a为标签的维度;f(·)表示非线性激活函数;
字si和字sj之间存在关系q的概率分布情况:
使用最小化交叉熵损失方法训练关系提取层。
具体的,所述关系提取层的训练过程中的交叉熵损失LRE采用下式计算:
目标函数为min(LNER+LRE),其中:LNER为标签得分层的训练过程中的交叉熵损失。
有益效果:本发明提供的面向教育领域的实体和关系联合抽取方法,相对于现有技术,具有如下优势:1、本发明利用预训练的XLNET语言模型设计高层次特征嵌入,对同一个词不是直接使用固定的词向量信息,而是根据上下文信息进行动态嵌入表征,能够极大提高词嵌入层文本转化为低密度嵌入向量的精准性,降低多义词对模型性能造成的负面影响,有效地捕捉单词的局部和全局信息;2、本发明在Mogrifier BiGRU神经网络后引入MultiHead Attention机制捕捉文本特征中较为重要的部分,有效解决了实体内部存在大量修饰词干扰的问题;3、本发明通过联合提取的方式,同时进行实体与关系的抽取,通过参数共享编码层实现实体与关系子任务间的依赖,从而缓解了错误传播的问题。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示为一种面向教育领域的实体和关系联合抽取方法,包括如下步骤:
步骤一:建立课程知识点命名实体语料库,课程知识点命名实体语料库由包含课程知识点的文本数据组成。
先采用BIO标注方法对课程知识点命名实体语料库中的文本数据进行知识实体标注,即将文本数据分为P个类别,每个类别为一个标签,第p个类别表示为标签p,p=1,2,…,P;再将知识实体之间的关系分为Q种关系,第q种关系表示为关系q,q=1,2,…,Q;然后将文本数据分为训练集和测试集;BIO标注方法中,B代表知识实体的开端、I代表知识实体的其他部分、O代表非知识实体。
步骤二:对预处理后的含有课程知识点的文本数据进行分布式表示,将句子作为输入,通过XLNET语言模型得到文本预训练向量。
输入XLNET语言模型的句子表示为S=[s1,s2,…,sN],经XLNET语言模型输出的文本预训练向量表示为X=[x1,x2,…,xN];其中,si表示组成句子S的第i个字,xi为字si的表示向量,i=1,2,…,N。
步骤三:将得到的文本预训练向量输入到Mogrifier BiGRU神经网络中进行文本特征提取。
Mogrifier BiGRU神经网络包括前向GRU网络和后向GRU网络,Mogrifier BiGRU神经网络的输入和隐藏层输出分别为X=[x1,x2,…,xN]和H=[h1,h2,…,hN],前向GRU网络的输入和隐藏层输出分别为和后向GRU网络的输入和隐藏层输出分别为和
以上标t和t-1表示t时刻和t-1时刻,对和进行双向的多轮交互得到
对前向GRU网络,交互过程如下:
(a41)对和进行交互,得到
(a42)对和进行交互,得到
(a43)对和进行交互,得到
(a44)对和进行交互,得到
(a45)
对后向GRU网络,交互过程如下:
(b41)对和进行交互,得到
(b42)对和进行交互,得到
(b43)对和进行交互,得到
(b44)对和进行交互,得到
(b45)
其中:σ为逻辑回归函数,R1、R2、R3、R4为模型参数。
步骤四:在Mogrifier BiGRU神经网络后引入MultiHead Attention机制捕捉文本特征中较为重要的部分;其中,较为重要的部分指文本特征中能够组成知识实体的部分。
在Mogrifier BiGRU神经网络后引入MultiHead Attention机制,是使用MultiHead Attention机制进一步捕获字si的上下文语义,同时突出句子S中关键词的显著性,并分配注意力权重,将MultiHead Attention机制作为注意力层。MultiHead Attention机制的计算过程包括如下步骤:
(41)将X=[x1,x2,…,xN]经Mogrifier BiGRU神经网络输出的H=[h1,h2,…,hN]映射为K、Q、V三个向量;
(42)K、Q、V对应MultiHead Attention机制的第j头注意力分别为 其中:是三个全局参数矩阵,dN表示MultiHead Attention机制的输入维度,D表示MultiHead Attention机制的总注意力头数,dk=dq=dv=dN/D;
(43)计算第j头注意力的值
(44)对D个注意力的值进行拼接得到多头注意力其中:Wo为权重矩阵,B的第i行第j列元素bij表示字si在第j头注意力上的权重;
(45)结合字si的隐藏状态hi和注意力权重bij生成字si的内容向量
(46)在Mogrifier BiGRU神经网络后引入MultiHead Attention机制捕捉到的文本特征中较为重要的部分为C=[c1,c2,…,cN]。
步骤五:结合CRF模型,得到课程知识点命名实体和知识实体之间的关系。
将CRF模型作为标签得分层,先使用CRF模型计算每个字在各个标签下的标签得分,再应用Viterbi算法获得标签得分最高的标签序列,接着通过关系提取层得到课程知识点命名实体和知识实体之间的关系。
使用CRF模型计算字si在标签p下的标签得分
其中:上标(ner)表示知识实体标注识别;V(ner)和U(ner)表示权重矩阵,b(ner)表示偏置矩阵,V(ner)∈Rp×l,U(ner)∈Rl×2d,b(ner)∈Rl,l为CRF模型的层宽,d为Mogrifier BiGRU神经网络的隐藏层单元数;f(·)表示非线性激活函数;
对句子S中的所有字分配标签,即可得到句子S的标签序列,每个句子S有R=NP种标签序列,计算S在第r种标签序列下的标签得分:
其中:Yr表示第r种标签序列,Y=[Y1,Y2,…,YR],r=1,2,…,R,表示第r种标签序列下字si在所分配标签下的标签得分,表示第r种标签序列下句子S在所分配标签下的标签得分,A(i,r),(i+1,r)表示第r种标签序列下字si所分配的标签转移到字si+1上的转移分数,A表示转移矩阵,A∈R(P+2)×(P+2);
对标签序列的标签得分进行归一化,得到各标签序列的概率分布:
应用Viterbi算法获得标签得分最高的标签序列
其中:在标签得分最高的标签序列中,字si所分配的标签为gi;
使用最小化交叉熵损失方法训练标签得分层。
采用关系提取层提取课程知识点命名实体和知识实体之间的关系时,先计算在给定关系q下字si和字sj之间的关系得分:
S(re)(mj,mi,q)=V(re)f(U(re)mj+W(re)mi+b(re))
其中:mi=[ci;gi],mj=[cj;gj],上标(re)表示关系识别,V(re)、U(re)和W(re)表示权重矩阵,b(re)表示偏置矩阵,V(re)∈Rl,U(re)∈Rl×(2a+d),W(re)∈Rl×(2a+d),b(re)∈Rl,l为关系提取层的层宽,d为Mogrifier BiGRU神经网络的隐藏层单元数,a为标签的维度;f(·)表示非线性激活函数;
字si和字sj之间存在关系q的概率分布情况:
使用最小化交叉熵损失方法训练关系提取层。
关系提取层的训练过程中的交叉熵损失LRE采用下式计算:
目标函数为min(LNER+LRE),其中:LNER为标签得分层的训练过程中的交叉熵损失。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (2)
1.一种面向教育领域的实体和关系联合抽取方法,其特征在于:包括如下步骤:
(1)建立课程知识点命名实体语料库,课程知识点命名实体语料库由包含课程知识点的文本数据组成;
先采用BIO标注方法对课程知识点命名实体语料库中的文本数据进行知识实体标注,即将文本数据分为P个类别,每个类别为一个标签,第p个类别表示为标签p,p=1,2,…,P;再将知识实体之间的关系分为Q种关系,第q种关系表示为关系q,q=1,2,…,Q;然后将文本数据分为训练集和测试集;BIO标注方法中,B代表知识实体的开端、I代表知识实体的其他部分、O代表非知识实体;
(2)对预处理后的含有课程知识点的文本数据进行分布式表示,将句子作为输入,通过XLNET语言模型得到文本预训练向量;
输入XLNET语言模型的句子表示为S=[s1,s2,…,sN],经XLNET语言模型输出的文本预训练向量表示为X=[x1,x2,…,xN];其中,si表示组成句子S的第i个字,xi为字si的表示向量,i=1,2,…,N;
(3)将得到的文本预训练向量输入到Mogrifier BiGRU神经网络中进行文本特征提取;
Mogrifier BiGRU神经网络包括前向GRU网络和后向GRU网络,Mogrifier BiGRU神经网络的输入和隐藏层输出分别为X=[x1,x2,…,xN]和H=[h1,h2,…,hN],前向GRU网络的输入和隐藏层输出分别为和后向GRU网络的输入和隐藏层输出分别为和
以上标t和t-1表示t时刻和t-1时刻,对和进行双向的多轮交互得到
对前向GRU网络,交互过程如下:
(a41)对和进行交互,得到
(a42)对和进行交互,得到
(a43)对和进行交互,得到
(a44)对和进行交互,得到
(a45)
对后向GRU网络,交互过程如下:
(b41)对和进行交互,得到
(b42)对和进行交互,得到
(b43)对和进行交互,得到
(b44)对和进行交互,得到
(b45)
其中:σ为逻辑回归函数,R1、R2、R3、R4为模型参数;
(4)在Mogrifier BiGRU神经网络后引入MultiHead Attention机制捕捉文本特征中较为重要的部分;其中,较为重要的部分指文本特征中能够组成知识实体的部分;
在Mogrifier BiGRU神经网络后引入MultiHead Attention机制,是使用MultiHeadAttention机制进一步捕获字si的上下文语义,同时突出句子S中关键词的显著性,并分配注意力权重,将MultiHead Attention机制作为注意力层;所述MultiHead Attention机制的计算过程包括如下步骤:
(41)将X=[x1,x2,…,xN]经Mogrifier BiGRU神经网络输出的H=[h1,h2,…,hN]映射为K、Q、V三个向量;
(42)K、Q、V对应MultiHead Attention机制的第j头注意力分别为 其中:是三个全局参数矩阵,dN表示MultiHead Attention机制的输入维度,D表示MultiHead Attention机制的总注意力头数,dk=dq=dv=dN/D;
(43)计算第j头注意力的值
(44)对D个注意力的值进行拼接得到多头注意力其中:Wo为权重矩阵,B的第i行第j列元素bij表示字si在第j头注意力上的权重;
(45)结合字si的隐藏状态hi和注意力权重bij生成字si的内容向量
(46)在Mogrifier BiGRU神经网络后引入MultiHead Attention机制捕捉到的文本特征中较为重要的部分为C=[c1,c2,…,cN];
(5)将CRF模型作为标签得分层,先使用CRF模型计算每个字在各个标签下的标签得分,再应用Viterbi算法获得标签得分最高的标签序列,接着通过关系提取层得到课程知识点命名实体和知识实体之间的关系;
使用CRF模型计算字si在标签p下的标签得分
其中:上标(ner)表示知识实体标注识别;V(ner)和U(ner)表示权重矩阵,b(ner)表示偏置矩阵,V(ner)∈Rp×l,U(ner)∈Rl×2d,b(ner)∈Rl,l为CRF模型的层宽,d为Mogrifier BiGRU神经网络的隐藏层单元数;f(·)表示非线性激活函数;
对句子S中的所有字分配标签,即可得到句子S的标签序列,每个句子S有R=NP种标签序列,计算S在第r种标签序列下的标签得分:
其中:Yr表示第r种标签序列,Y=[Y1,Y2,…,YR],r=1,2,…,R,表示第r种标签序列下字si在所分配标签下的标签得分,表示第r种标签序列下句子S在所分配标签下的标签得分,A(i,r),(i+1,r)表示第r种标签序列下字si所分配的标签转移到字si+1上的转移分数,A表示转移矩阵,A∈R(P+2)×(P+2);
对标签序列的标签得分进行归一化,得到各标签序列的概率分布:
应用Viterbi算法获得标签得分最高的标签序列
其中:在标签得分最高的标签序列中,字si所分配的标签为gi;
使用最小化交叉熵损失方法训练标签得分层;
采用关系提取层提取课程知识点命名实体和知识实体之间的关系时,先计算在给定关系q下字si和字sj之间的关系得分:
S(re)(mj,mi,q)=V(re)f(U(re)mj+W(re)mi+b(re))
其中:mi=[ci;gi],mj=[cj;gj],上标(re)表示关系识别,V(re)、U(re)和W(re)表示权重矩阵,b(re)表示偏置矩阵,V(re)∈Rl,U(re)∈Rl×(2a+d),W(re)∈Rl×(2a+d),b(re)∈Rl,l为关系提取层的层宽,d为Mogrifier BiGRU神经网络的隐藏层单元数,a为标签的维度;f(·)表示非线性激活函数;
字si和字sj之间存在关系q的概率分布情况:
使用最小化交叉熵损失方法训练关系提取层。
2.根据权利要求1所述的面向教育领域的实体和关系联合抽取方法,其特征在于:所述关系提取层的训练过程中的交叉熵损失LRE采用下式计算:
目标函数为min(LNER+LRE),其中:LNER为标签得分层的训练过程中的交叉熵损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011252896.4A CN112364654B (zh) | 2020-11-11 | 2020-11-11 | 一种面向教育领域的实体和关系联合抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011252896.4A CN112364654B (zh) | 2020-11-11 | 2020-11-11 | 一种面向教育领域的实体和关系联合抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364654A CN112364654A (zh) | 2021-02-12 |
CN112364654B true CN112364654B (zh) | 2024-12-20 |
Family
ID=74515944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011252896.4A Active CN112364654B (zh) | 2020-11-11 | 2020-11-11 | 一种面向教育领域的实体和关系联合抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364654B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553385B (zh) * | 2021-07-08 | 2023-08-25 | 北京计算机技术及应用研究所 | 一种司法文书中法律要素的关系抽取方法 |
CN114548111A (zh) * | 2022-01-14 | 2022-05-27 | 山东师范大学 | 基于深度学习的课程评论文本情感分析方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460012A (zh) * | 2018-02-01 | 2018-08-28 | 哈尔滨理工大学 | 一种基于gru-crf的命名实体识别方法 |
CN108874790A (zh) * | 2018-06-29 | 2018-11-23 | 中译语通科技股份有限公司 | 一种基于语言模型和翻译模型的清洗平行语料方法及系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875051B (zh) * | 2018-06-28 | 2020-04-28 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN109359291A (zh) * | 2018-08-28 | 2019-02-19 | 昆明理工大学 | 一种命名实体识别方法 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN110377903B (zh) * | 2019-06-24 | 2020-08-14 | 浙江大学 | 一种句子级实体和关系联合抽取方法 |
CN110489750A (zh) * | 2019-08-12 | 2019-11-22 | 昆明理工大学 | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 |
CN110866121A (zh) * | 2019-09-26 | 2020-03-06 | 中国电力科学研究院有限公司 | 一种面向电力领域知识图谱构建方法 |
CN111368528B (zh) * | 2020-03-09 | 2022-07-08 | 西南交通大学 | 一种面向医学文本的实体关系联合抽取方法 |
CN111522908A (zh) * | 2020-04-09 | 2020-08-11 | 国网上海市电力公司 | 一种基于BiGRU和注意力机制的多标签文本分类方法 |
CN111554360A (zh) * | 2020-04-27 | 2020-08-18 | 大连理工大学 | 基于生物医学文献和领域知识数据的药物重定位预测方法 |
CN111737484B (zh) * | 2020-05-15 | 2024-11-08 | 浙江工业大学 | 一种基于联合学习的警情知识图谱构建方法 |
CN111783462B (zh) * | 2020-06-30 | 2023-07-04 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
-
2020
- 2020-11-11 CN CN202011252896.4A patent/CN112364654B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460012A (zh) * | 2018-02-01 | 2018-08-28 | 哈尔滨理工大学 | 一种基于gru-crf的命名实体识别方法 |
CN108874790A (zh) * | 2018-06-29 | 2018-11-23 | 中译语通科技股份有限公司 | 一种基于语言模型和翻译模型的清洗平行语料方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112364654A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107562792B (zh) | 一种基于深度学习的问答匹配方法 | |
CN112115238B (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN109284506B (zh) | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 | |
CN109255119B (zh) | 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统 | |
CN106202054B (zh) | 一种面向医疗领域基于深度学习的命名实体识别方法 | |
Zhang et al. | Combining cross-modal knowledge transfer and semi-supervised learning for speech emotion recognition | |
CN110516055A (zh) | 一种结合bert的用于教学任务的跨平台智能问答实现方法 | |
CN109657239A (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN111160037A (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
CN106980608A (zh) | 一种中文电子病历分词和命名实体识别方法及系统 | |
CN111310474A (zh) | 基于激活-池化增强bert模型的在线课程评论情感分析方法 | |
Cai et al. | Intelligent question answering in restricted domains using deep learning and question pair matching | |
CN114722805B (zh) | 基于大小导师知识蒸馏的少样本情感分类方法 | |
CN112364654B (zh) | 一种面向教育领域的实体和关系联合抽取方法 | |
CN117932066A (zh) | 一种基于预训练的“提取-生成”式答案生成模型及方法 | |
CN112749566B (zh) | 一种面向英文写作辅助的语义匹配方法及装置 | |
CN114841151B (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
CN116127954A (zh) | 一种基于词典的新工科专业中文知识概念抽取方法 | |
CN113780350B (zh) | 一种基于ViLBERT和BiLSTM的图像描述方法 | |
CN114239730A (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
Guo et al. | Efficient Agricultural Question Classification with a BERT-Enhanced DPCNN Model | |
CN117556789A (zh) | 基于多层次语义挖掘的学生评语生成方法 | |
CN114692615B (zh) | 一种针对小语种的小样本意图识别方法 | |
CN111243060A (zh) | 一种基于手绘图的故事性文本生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |