Nothing Special   »   [go: up one dir, main page]

CN113761936B - 一种基于多头自注意力机制的多任务篇章级事件抽取方法 - Google Patents

一种基于多头自注意力机制的多任务篇章级事件抽取方法 Download PDF

Info

Publication number
CN113761936B
CN113761936B CN202110953670.5A CN202110953670A CN113761936B CN 113761936 B CN113761936 B CN 113761936B CN 202110953670 A CN202110953670 A CN 202110953670A CN 113761936 B CN113761936 B CN 113761936B
Authority
CN
China
Prior art keywords
sentence
event
attention
chapter
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110953670.5A
Other languages
English (en)
Other versions
CN113761936A (zh
Inventor
丁建睿
吴明瑞
丁卓
张立斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changjiang Shidai Communication Co ltd
Harbin Institute of Technology Weihai
Original Assignee
Changjiang Shidai Communication Co ltd
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changjiang Shidai Communication Co ltd, Harbin Institute of Technology Weihai filed Critical Changjiang Shidai Communication Co ltd
Priority to CN202110953670.5A priority Critical patent/CN113761936B/zh
Publication of CN113761936A publication Critical patent/CN113761936A/zh
Application granted granted Critical
Publication of CN113761936B publication Critical patent/CN113761936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于多头自注意力机制的多任务篇章级事件抽取方法,包括如下步骤:将单一句子级事件抽取转换为打包句子集合的篇章级事件抽取;利用预训练的语言模型BERT模型进行词嵌入表示;对单句中所有单词嵌入和位置嵌入作为输入,利用卷积神经网络模型进行编码,结合分段最大池策略捕获句子内部的最有价值的特征;利用多头自注意力模型,获得融合全文语义信息的篇章表示和注意力权重;利用分类器得到预测的事件类型;利用事件类型作为先验信息,链接到事件元素提取的输入序列中,利用预训练模型结合机器阅读理解方法提取序列中所有相关元素。本发明可用于篇章级事件抽取任务,实现了将序列标注问题转换为机器阅读理解问题的突破。

Description

一种基于多头自注意力机制的多任务篇章级事件抽取方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于多头自注意力机制的多任务篇章级事件抽取方法。
背景技术
当今时代数据信息呈几何级别爆炸式增长,依托互联网技术的发展,每时每刻都有大量的数据产生,新闻数据的迅猛增加,娱乐数据的急剧增多,广告数据的飞速攀升,科技数据的剧猛增长……现如今,我们已全面进入大数据时代。如此众多的数据信息,形式多样,错综复杂,难以挖掘和处理,难以利用和分析。为了从新闻数据中提取出更多有价值的信息,关键的就是对新闻文本中包含的实体,关系以及事件进行抽取,对他们之间的作用关系进行分析和预测,以将提取的信息展现的更加系统化规范化。当前已知的知识资源(例如,维基百科等),其所描述的实体及实体之间存在的关系绝大多数都是静态的,而事件更能描述动态的知识。事件,作为信息的表现形式之一,主要描述特定时间、地点、人和物相互作用的客观事实。事件抽取主要是从描述事件信息的文本中抽取出什么人,什么时间,在什么地点,做了什么事,以更加结构化的方式呈现出来。事件抽取作为一种主流的自然语言处理任务,包括一系列的抽取任务,如:事件触发词的发现,事件类型的识别,事件论元以及论元角色的提取。相比于关系抽取任务,事件抽取同样需要从文本中抽取出元素和参数,但与关系抽取不同的是,关系抽取的元素和参数大都存在于同一个句子中,而事件抽取的难点在于,同一个事件会有多个参数和事件触发词,可能分布在多个句子中,而且有些参数还可能不是必需的,这些都加大了事件抽取的难度。目前的事件抽取主要分为句子级别的抽取和篇章级别的事件抽取。事件抽取的第一步即是事件触发词的发现。事件触发词就是最能体现事件发生的动词或者名词。句子级别的事件抽取主要考虑从同一个句子中抽取出一个或者多个事件触发词,进而通过对事件触发词进行分类,从而找到该事件所属的类别。然而句子级别的事件抽取忽略了不同句子间的相互关系,忽略了事件元素和论元可能存在于不同句子中的情况。因此,如何高效地进行篇章级的事件抽取具有重要的研究价值。
目前的事件抽取方法主要包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等,涉及模式匹配,机器学习,深度学习等众多方法。这些方法在事件抽取领域取得了巨大的成功,其中预训练语言模型的出现使得事件抽取能力得到了进一步的提升。基于预训练模型的句子级事件抽取模型能捕捉到同一句子中不同单词上下文相关的双向特征表示,多头自注意力机制通过attentionmask动态编码变长序列,解决了长距离依赖问题,但是基于预训练模型BERT的语言模型,没有考虑mask之间的相关性,是对语言模型联合概率的有偏估计,而且输入噪声mask会造成预训练和微调两阶段之间的差异,并且只适合于句子和段落级别的任务。
发明内容
本发明为解决现有事件抽取技术大多停留在单句子事件抽取阶段,无法跨子句捕捉细节特征,且没有充分考虑篇章中上下文的相互关系,基于预训练模型的事件抽取只适用于句子和段落之间的任务等问题,提供了一种基于多头自注意力机制的多任务篇章级事件抽取方法,解决了现有句子级别的事件抽取大多停留在单据单一事件抽取,忽略了句内多触发词,忽略了不同句子间的相互关系,忽略了事件元素和论元可能存在于不同句子中的情况,实现了将序列标注问题转换为机器阅读理解问题的突破。本发明可用于篇章级事件抽取任务。
一种基于多头自注意力机制的多任务篇章级事件抽取方法,具体包括如下步骤:
步骤1、利用框架网络进行事件类型的建模,将框架网络与事件类型进行相应映射,根据框架得到标注数据集,并对触发词进行上下位词的发现和同义词的扩充,生成扩充触发词后的标注数据集;
步骤2、利用预训练的语言模型进行词嵌入表示;对单句中所有单词嵌入和位置嵌入作为输入,利用卷积神经网络模型进行编码,结合分段最大池策略,将特征图根据事件触发词划分为两段,分段提取每个句子段中单词的最大特征,全连接后得到单一句子的语义特征表示;
步骤3、利用假设:如果一个文本中含有某个事件类型,那么该文档中至少有一个句子可以完全概括该事件类型,将同一篇文本中的句子打包为一个句子包;句子包中含有步骤2得到的单一句子的语义特征表示,将句子包中的所有单一句子的语义特征表示输入到多头自注意力模型中,获得每个句子在整个文本中的融合了全文语义信息后的增强向量表示,即文本的篇章级语义特征表示;
步骤4、输入步骤3得到的篇章级语义特征表示,利用分类器函数进行分类,进而得到最终的事件类型;
步骤5、利用步骤4预测出的事件类型作为先验信息,链接到事件元素提取的输入序列中,构造基于微调的BERT模型的规范输入序列,并结合机器阅读理解方法进行序列标注;
步骤6、基于步骤5预测实体开始索引和结束索引的概率分布,利用二分类策略提取所有可能的参数实体。
优选地,所述对触发词进行上下位词的发现和同义词的扩充是利用基于认知学的英语词汇词典对框架网络中事件类型涉及的触发词进行的。
优选地,所述步骤2前,还包括步骤200:将扩充后的标注数据集进行数据预处理,获得符合预训练的语言模型的输入格式的规范数据。
优选地,所述步骤2,具体包括如下步骤:
步骤201、对各个篇章中的句子进行处理,将篇章划分为每个最大长度为500个单词的句子,对句子进行分词处理;
步骤202、利用预训练的语言模型BERT进行词嵌入表示,用word表示通过查找词嵌入转换而成的每个单词标记向量,将每个单词映射到一个维向量中;
步骤203、用position表示当前词到触发词的距离嵌入,通过查找位置嵌入矩阵,将当前词到触发词的相对距离转换为实值向量;
步骤204、将词嵌入和位置嵌入输入到卷积神经网络模型的卷积层得到句子特征矩阵;将特征矩阵输入到池化层获取细粒度特征,最后利用全连接层得到单个句子的特征表示。
优选地,所述池化层为了进一步获取更加细粒度的句子表示特征,利用触发词将每个特征映射依据是否包含事件触发词划分为两个部分{ci1,ci2},使用分段最大池策略对每个部分分别捕获最大值特征:
pij=max(cij) 1≤i≤n,1≤j≤2  (5)
其中,pij表示取两部分句子特征的最大值,因此,每个卷积核输出得到一个二维向量pi={pi1,pi2}利用非线性函数如双曲正切函数tanh(·)连接所有输出向量p1:n,得到分段最大池的输出向量如下:
g=tanh(p1:n)∈R2n。   (6)
优选地,所述步骤3,具体包括如下步骤:
步骤301、假设:每篇文本至少有一个句子可以完整的表述该文本所提及的事件,通过多头自注意力机制多场景多层面融合句子特征,以得到文本的篇章级表示,采用乘法注意力机制的策略来实现高度优化的矩阵乘法的运行;输入一个句子包,句子包中有m个句子,其句子包表示为:
G={g1,g2,...,gk,...gm}    (7)
其中,gk是m个句子中第k个句子的向量表示,G是整个句子包的表示,
步骤302、将得到的句子包中的所有单一句子的语义特征表示输入到多头自注意力模型,计算单头的Self-Attention,用r作为该层最终输出值的表示,过程如下:
Figure GDA0004054262680000041
Figure GDA0004054262680000042
其中,
Figure GDA0004054262680000043
dg是隐藏层的节点数,a是一个权重参数向量,
Figure GDA0004054262680000044
softmax(·)函数用来归一化单头计算的结果,经过一次单头的Self-Attention计算,得到的单次Attention输出特征值如下:
g*=tanh(r)    (10)
多头的注意力机制Multi-head Self-Attention计算过程则为多次计算单头的Self-Attention,假设多头的注意力模型头数为h,即进行h次单头的Self-Attention计算,再把输出合并起来,计算过程如下:
其中,式(8)每次使用句子包表示矩阵G前,为压缩单次Self-Attention计算的G的维度以及为达到单多头Attention并行执行的目的,需先对G做一次线性变换:
Figure GDA0004054262680000045
其中
Figure GDA0004054262680000046
步骤303、每次使用不同的权重a,用式(8)~(10)进行h次计算,将得到的每个Self-Attention结果g*合并起来并进行线性映射可得最终的Multi-head Self-Attention计算结果gc
Figure GDA0004054262680000047
其中,
Figure GDA0004054262680000048
表示逐个元素进行点乘运算,Ac表示权重矩阵,维度为h×dg
Figure GDA0004054262680000049
表示h个Self-Attention结果g*进行全连接,gc则为全连接层的输出,即融合了全文语义信息的增强的篇章级语义特征表示。
优选地,所述步骤5,具体包括如下步骤:
步骤501、将每个文本划分为最大为500词的语段,对于语段进行分句、分词等预处理操作;
步骤502、将每个句子作为一个给定的输入序列,记为x={x1,x2,...,xn},其中n为输入序列的长度,为抽取出事件中的所有元素,即找到X中的每个实体,然后给它分配一个预定义的实体标签t∈T,T是一个预定义的实际标签集合,如人名(PER),地名(LOC),时间(TIME),组织(ORG)等,对于每个t与一个长度为k的query问题序列相对应,记为qt={q1,q2,...,qk};
步骤503、利用基于模板的方法为不同的事件类型中的事件元素构造查询三元组(Q,A,C),其中Q为查询问题QUESTION,A为查询结果ANSWER,C为查询内容CONTENT,将标注实体表示为xs2e={xs,xs+1,...,xe-1,xe}(s<e),其中s表示start,e表示end,xs2e表示输入序列X起始到结束的连续标注的span,因此,三元组(qt,xs2e,X)对应于查询三元组(Q,A,C);
步骤504、利用事件类型和预标注的实体序列作为先验信息,构造输入序列:
{[CLS],et,[SEP],q1,q2,...,qk,[SEP],x1,x2,...,xn,[SEP]}  (15)
其中et为事件类型,[CLS]和[SEP]为特殊的标记,q1,q2,...,qk为问题序列,x1,x2,...,xn为标注的实体序列,利用预训练的语言模型BERT接收合并后的输入序列,并输出一个上下文表示矩阵E∈Rh×2,h是输入序列的隐藏大小。
本发明最为突出的特点和显著的有益效果是:本发明将单一句子级事件抽取转换为打包句子集合的篇章级事件抽取;利用预训练的语言模型BERT模型进行词嵌入表示,以获取语义增强的词向量表示;对单句中所有单词嵌入和位置嵌入作为输入,利用卷积神经网络(CNN)模型进行编码,结合分段最大池策略捕获句子内部的最有价值的特征;利用多头自注意力(Multi-head Self-Attention)模型,获得融合全文语义信息的篇章表示和注意力权重,不但考虑了句子内部单词间的语义关联程度,还考虑了整个篇章中不同句子间的上下文关系,使得语义增强的篇章向量表示更好的融合了全文信息;利用分类器得到预测的事件类型,具有优越的识别效果;利用事件类型作为先验信息,链接到事件元素提取的输入序列中,利用预训练模型结合机器阅读理解方法提取序列中所有相关元素,具有良好的识别提取性能,取得了将序列标注问题转换为机器阅读理解问题的突破。
附图说明
图1为本发明一种基于多头自注意力机制的多任务篇章级事件抽取方法流程图;
图2为本发明进行篇章级事件检测任务的整体结构示意图;
图3为利用卷积神经网络和分段最大池获取句子表示的示意图;
图4为利用多头自注意力机制获得篇章级向量表示的示意图;
图5为本发明中利用事件类型作为先验信息进行利用机器阅读理解方法进行事件元素提取任务的示意图;
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
为了更好说明本实施例,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。
如图1、2所示,本实施例提供一种基于预训练语言模型的多任务篇章级事件抽取方法,具体包括如下步骤:
步骤101、根据专家设计将通用领域事件类型分为5大类(Action、Change、Possession、Scenario、Sentiment),168小类(如:Attack、Bringing、Cost、Departing……)
步骤102、使用FrameNet工具对168小类事件类型进行与FrameNet的映射与分类。以Attack攻击事件类型为例,对应于FrameNet框架网络中的四种不同框架描述,每种描述代表一种词汇单元,不同词汇单元包含不同的框架元素,FrameNet框架的词汇单元的详细目录包括内容和功能词,即引起事件发生的触发词,例如,Attack攻击事件可能由触发词“fire(开火)”等触发;箭头表示事件元素之间的关系,包括Inheritance(继承关系)、Using(子框架以父框架为背景)、Subframe(子框架是父框架描述的一复杂事件的子事件)、Perspective_on(子框架提供了未透视的父框架上的特定透视图);同理,将所有类别的事件进行FrameNet框架网络的映射,触发词对应的事件类别即为对应的FrameNet框架网络类别。
步骤103、基于认知学的英语词汇词典(WordNet),扩充触发词的上下位词和同义词,生成扩充触发词后的标注数据集。训练数据集包括3000篇文本,涉及事件提及78000条(包含40%的负例),囊括168个事件类型,70000个事件。
步骤200:将扩充后的标注数据集进行数据预处理,获得符合预训练的语言模型的输入格式的规范数据;
步骤201、结合图3进行说明利用piece-max-poolingCNN模型获取句子级特征表示。分段最大池-卷积神经网络模型(piece-max-pooling-CNN模型)包括5层:分别为输入层,卷积层,池化层,全连接层和输出层;其中,卷积层由多个滤波器(fliters)和特征图(featuremaps)组成,池化层由分段最大池(piece-max-pooling)组成。首先对各个篇章中的句子进行处理,将篇章划分为每个最大长度为500个单词的句子,对句子进行分词处理;
步骤202、利用预训练的语言模型BERT进行词嵌入表示,用word表示通过查找词嵌入转换而成的每个单词标记向量,将每个单词映射到一个dw维向量中;
步骤203、用position表示当前词到触发词的距离嵌入,将当前词到触发词的相对距离转换为实值向量;如在图3中,假设词嵌入大小为dw=4,位置嵌入的大小为dp=1dp=1,因此一个句子中第i个词对应的d维向量表示记作:
d=dw+dp*2   (1)
长度为s的句子可用序列{q1,q2,…qs}表示为:
Figure GDA0004054262680000071
其中qi∈Rd
Figure GDA0004054262680000072
表示连接操作,通常用qi:j表示从qi到qi的连接;
步骤204、将词嵌入和位置嵌入共同组成实例的向量表示部分,转化为矩阵S∈Rs ×d,S则作为卷积操作的输入。
卷积操作目的是提取整个句子的组合语义特征,并将这些语义特征压缩为特征映射。卷积是权重向量w和输入序列q之间的运算,卷积操作涉及一个卷积核ω,如图3所示,假设ω=3,则表示为上下文每3个词的滑动窗口生成一个新特征,则w∈Rω*d;用序列q中的每个ω元字串(ω-gram)与权重矩阵w的点积运算得到特征序列(特征图)c∈Rs+ω-1,其中第j个特征cj的计算公式为:
cj=f(w·qj-ω+1:j+b)    (3)
其中,b是偏置项,b∈R,f(·)是一个非线性函数,j的取值范围是(1,s+ω-1)。为了提取多个特征,我们假设使用n个卷积核进行特征提取,则权重矩阵可用序列表示为W={w1,w2,…,wn},即提取n个特征可用公式表示为:
cij=f(wi·qj-ω+1:j+bi) 1≤i≤n1≤i≤n  (4)
卷积操作输出特征矩阵C={c1,c2,…,cn}∈Rn×(s+ω-1)
将特征层提取的特征组合起来才能应用后续各层,通常使用最大池化操作来捕捉每个特征图中的最重要特征(最大值),单个最大池无法获得更细粒度的特征。而考虑到多触发词的事件情况,为了动态捕捉每个特征图中最重要的特征,我们使用分段最大池策略,利用触发词将每个特征映射划分为两个部分,分段最大池返回每段的最大值,而不是单个最大池。如图3所示,“attack”将句子分为两段{ci1,ci2},分段最大池操作过程如下:
pij=max(cij) 1≤i≤n,1≤j≤2    (5)
因此,每个卷积核输出得到一个二维向量pi={pi1,pi2},利用非线性函数如双曲正切函数tanh(.)连接所有输出向量p1:n,对于单个句子得到分段最大池的输出向量g如下:
g=tanh(p1:n)∈R2n  (6)
步骤301、假设一个句子包中有m个句子,得到句子包的表示为:
G={g1,g2,...,gk,...gm}  (7)
结合图4对引入的多头自注意力机制进行篇章级特征提取加以说明。根据假设:每篇文本至少有一个句子可以完整的表述该文本所提及的事件,我们将进一步通过多头自注意力机制(Multi-head Self-Attention)融合句子特征,以得到文本的篇章级表示。Multi-head Self-Attention的本质就是进行多次的Self-Attention运算,如此不但可以使模型从不同表征子空间获取到更多场景更多层面下的特征,从而捕获更多的句子间的上下文特征。本方法采用乘法注意力机制的策略来实现高度优化的矩阵乘法的运行,如此不但可以提高模型的特征表达能力而且可以降低整体计算的计算成本。
步骤302、如图4所示,将步骤301获取到的句子包的表示G={g1,g2,...,gk,...gm}作为输入到Multi-head Self-Attention模型中,单头的Self-Attention计算过程如下,用r作为该层最终输出值的表示:
Figure GDA0004054262680000081
Figure GDA0004054262680000082
其中,
Figure GDA0004054262680000083
dg是隐藏层的节点数,a是一个权重参数向量,
Figure GDA0004054262680000084
softmax(·)函数用来归一化单头计算的结果。经过一次单头的Self-Attention计算,得到的单次Attention输出特征值如下:
g*=tanh(r)   (10)
多头的注意力机制Multi-head Self-Attention计算过程则为多次计算单头的Self-Attention,假设多头的注意力模型头数为h,即进行h次单头的Self-Attention计算,再把输出合并起来,计算过程如下:
其中,式(8)每次使用句子包表示矩阵G前,为压缩单次Self-Attention计算的G的维度以及为达到单多头Attention并行执行的目的,需先对G做一次线性变换:
Figure GDA0004054262680000091
其中
Figure GDA0004054262680000092
步骤303、每次使用不同的权重a,用式(8)~(10)进行h次计算,将得到的每个Self-Attention结果g*合并起来并进行线性映射可得最终的Multi-head Self-Attention计算结果gc
Figure GDA0004054262680000093
其中,
Figure GDA0004054262680000094
表示逐个元素进行点乘运算,Ac的维度为h×dg,gc则为融合了全文语义信息的增强的篇章向量表示。
步骤4、事件检测即事件触发词的多分类问题,因此,我们在输出层使用softmax(·)函数作为分类器,计算每一个类别的条件概率,然后选取条件概率的最大值所对应的类别作为事件检测输出的事件类别。以下是具体的计算过程:
p(y′|S)=softmax(Acgc+bc)  (12)
Figure GDA0004054262680000095
其中,
Figure GDA0004054262680000096
e为事件类型个数。目标函数是具有L2正则化的类别.y的负对数似然函数,如式子(14)所示:
Figure GDA0004054262680000097
其中,k是样本的个数,ti∈Rk是关于类别的one-hot向量,λ是L2的正则化因子,y′i是softmax(·)函数输出的概率向量,最大的概率所对应的类别就是事件检测出的事件类别。
本实施方式提出的基于卷积神经网络CNN,结合分段最大池策略和多头自注意力机制(Multi-head Self-Attention)的篇章级事件检测的方法,不但考虑到句子内各个词之间的上下文关系,而且融合了句子间的上下文语义关系,生成增强的篇章级文本向量表示,通过分类器计算的条件概率最大值所对应的类别作为最终的事件检测出来的事件类别,在篇章级事件抽取中取得了一定的成效。
如图5所示,本实施方式给出的一种利用事件类型作为先验信息,链接到事件元素提取的输入序列中,利用机器阅读理解方法(MRC)进行参数提取的方法,具体包括以下步骤:
步骤501、将每个文本划分为最大为500词的语段,对于语段进行分句,分词等预处理操作。
步骤502、将每个句子作为一个给定的输入序列,记为x={x1,x2,...,xn},其中n为输入序列的长度,为抽取出事件中的所有元素,即找到X中的每个实体,然后给它分配一个预定义的实体标签t∈T,T是一个预定义的实际标签集合,如人名(PER),地名(LOC),时间(TIME),组织(ORG)等,对于每个t与一个长度为k的query问题序列相对应,记为qt={q1,q2,…,qk}。
步骤503、利用基于模板的方法为不同的事件类型中的事件元素构造一些查询问题query,构造查询三元组(Q,A,C),其中Q为查询问题question,A为查询结果answer,C为查询内容content,例如,对于Attack事件,相应的查询可能有“Who is under attack?”等等。将标注实体表示为xs2e={xs,xs+1,...,xe-1,xe}(s<e),其中s表示start,e表示end,xs2e表示输入序列x起始到结束的连续标注的span。因此,三元组(qt,xs2e,X)对应于查询三元组(Q,A,C)。
步骤504、利用事件类型作为先验信息,构造输入序列:
{[CLS],et,[SEP],q1,q2,...,qk,[SEP],x1,x2,...,xn,[SEP]}  (15)
其中et为事件类型,[CLS]和[SEP]为特殊的标记。利用预训练的语言模型BERT接收合并后的输入序列,并输出一个上下文表示矩阵E∈Rh×2,h是输入序列的隐藏大小。
步骤601、将矩阵E输入到MRC模型中,利用两个二分类器策略,分别预测每个标记作为开始索引和结束索引的概率,用P表示,计算公式如下:
Ps=softmax(WsE+bs)∈Rh×2                           (16)
Pe=softmax(WeE+be)∈Rh×2                        (17)
其中,Ps表示每个标记作为开始索引的概率,Pe表示每个标记作为结束索引的概率,Ws和We表示每个标记作为开始索引和结束索引待学习的权重,bs和be表示偏置项。使用softmax(·)函数的二分类策略是指,如果标记是开始索引或者结束索引,则用1表示,否则用0表示。
步骤602、考虑到实体重叠问题,使用argmax(·)函数对预测的开始索引和结束索引进行匹配,得到可能是开始索引或者是结束索引,用公式表示如下:
Figure GDA0004054262680000101
Figure GDA0004054262680000102
其中(i)表示矩阵的第i行,(j)表示矩阵的第j行。
步骤603、步骤602得到的两个矩阵,开始索引矩阵
Figure GDA0004054262680000111
和结束索引矩阵
Figure GDA0004054262680000112
给定任意的开始索引
Figure GDA0004054262680000113
和结束索引
Figure GDA0004054262680000114
用一个二分类模型来训练开始索引和结束索引的匹配概率,用如下公式表示:
Figure GDA0004054262680000115
其中,w∈R1×2d是要学习的匹配权重,d是BERT模型最后一层的维度。
步骤604、分别预测实体的开始位置、结束位置、从开始到结束位置是实体的概率,损失函数由三部分构成:
Ls=CE(Ps,Ts)
Le=CE(Pe,Te)
Lspan=CE(Ps2e,Ts2e)
其中,Ls表示每个标记的二分类CE之和(答案answer开始),Le表示每个标记的二分类CE之和(答案answer结束),Lspan用二维矩阵来记录真实实体在句子中从开始到结束(start,end)的位置。
则整体损失函数为:
L=αLs+βLe+γLspan    (21)
其中,α,β,γ∈[0,1]是损失函数的超参数。在预训练语言模型BERT层三个损失函数进行端到端的训练,测试时将匹配的开始索引和结束索引利用匹配模型进行匹配对齐,得到提取的参数结果。
通过上述方案,充分利用事件类型的先验信息,在编码前链接了句子和对应事件类型的表示,使得来自同一文本的所有句子都共享事件检测模块所预测的相同事件类型,使得事件元素抽取的精度和性能得以提升。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (7)

1.一种基于多头自注意力机制的多任务篇章级事件抽取方法,其特征在于,具体包括如下步骤:
步骤1、利用框架网络进行事件类型的建模,将框架网络与事件类型进行相应映射,根据框架得到标注数据集,并对触发词进行上下位词的发现和同义词的扩充,生成扩充触发词后的标注数据集;
步骤2、利用预训练的语言模型进行词嵌入表示;对单句中所有单词嵌入和位置嵌入作为输入,利用卷积神经网络模型进行编码,结合分段最大池策略,将特征图根据事件触发词划分为两段,分段提取每个句子段中单词的最大特征,全连接后得到单一句子的语义特征表示;
步骤3、一个文本中含有某个事件类型,那么该文本中至少有一个句子可以完全概括该事件类型,将同一篇文本中的句子打包为一个句子包;句子包中含有步骤2得到的单一句子的语义特征表示,将句子包中的所有单一句子的语义特征表示输入到多头自注意力模型中,获得每个句子在整个文本中的融合了全文语义信息后的增强向量表示,即文本的篇章级语义特征表示,其中多头自注意力通过多次的单头注意力计算实现,在不同的单头注意力计算过程中使用不同的权重,将每个单头注意力的计算结果进行向量合并,并经过线性映射得到最终的多头注意力计算结果;
步骤4、输入步骤3得到的篇章级语义特征表示,利用分类器函数进行分类,进而得到最终的事件类型;
步骤5、利用步骤4预测出的事件类型作为先验信息,链接到事件元素提取的输入序列中,即将每个句子作为一个给定的输入序列,抽取出事件中的所有元素,为事件元素分配一个预定义的实体标签,并为每个实体标签对应一个问题序列,构造基于微调的BERT模型的规范输入序列,并结合机器阅读理解方法进行序列标注,即利用基于模板的方法为不同的事件类型中的事件元素构造查询三元组,利用三元组的对应关系实现机器阅读理解方法,并基于三元组使用BERT规范模型中的特殊标记完成对输入序列的标注;
步骤6、基于步骤5预测实体开始索引和结束索引的概率分布,利用二分类策略提取所有可能的参数实体。
2.根据权利要求1所述一种基于多头自注意力机制的多任务篇章级事件抽取方法,其特征在于,所述对触发词进行上下位词的发现和同义词的扩充是利用基于认知学的英语词汇词典对框架网络中事件类型涉及的触发词进行的。
3.根据权利要求1所述一种基于多头自注意力机制的多任务篇章级事件抽取方法,其特征在于,所述步骤2前,还包括步骤200:将扩充后的标注数据集进行数据预处理,获得符合预训练的语言模型的输入格式的规范数据。
4.根据权利要求1所述一种基于多头自注意力机制的多任务篇章级事件抽取方法,其特征在于,所述步骤2,具体包括如下步骤:
步骤201、对各个篇章中的句子进行处理,将篇章划分为每个最大长度为500个单词的句子,对句子进行分词处理;
步骤202、利用预训练的语言模型BERT进行词嵌入表示,用word表示通过查找词嵌入转换而成的每个单词标记向量,将每个单词映射到一个维向量中;
步骤203、用position表示当前词到触发词的距离嵌入,通过查找位置嵌入矩阵,将当前词到触发词的相对距离转换为实值向量;
步骤204、将词嵌入和位置嵌入输入到卷积神经网络模型的卷积层得到句子特征矩阵;将特征矩阵输入到池化层获取细粒度特征,最后利用全连接层得到单个句子的特征表示。
5.根据权利要求4所述一种基于多头自注意力机制的多任务篇章级事件抽取方法,其特征在于,所述池化层为了进一步获取更加细粒度的句子表示特征,利用触发词将每个特征映射依据是否包含事件触发词划分为两个部分{ci1,ci2},使用分段最大池策略对每个部分分别捕获最大值特征:
pij=max(cij) 1≤i≤n,1≤j≤2    (5)
其中,pij表示取两部分句子特征的最大值,因此,每个卷积核输出得到一个二维向量pi={pi1,pi2},利用非线性函数如双曲正切函数tanh(.)连接所有输出向量p1:n,对于单个句子得到分段最大池的输出向量g如下:
g=tanh(p1:n)∈R2n    (6)。
6.根据权利要求1所述一种基于多头自注意力机制的多任务篇章级事件抽取方法,其特征在于,所述步骤3,具体包括如下步骤:
步骤301、每篇文本至少有一个句子可以完整的表述该文本所提及的事件,通过多头自注意力机制多场景多层面融合句子特征,以得到文本的篇章级表示,采用乘法注意力机制的策略来实现高度优化的矩阵乘法的运行;输入一个句子包,句子包中有m个句子,其句子包表示为:
G={g1,g2,…,gk,…gm}    (7)
其中,gk是m个句子中第k个句子的向量表示,G是整个句子包的表示,
步骤302、将得到的句子包中的所有单一句子的语义特征表示输入到多头自注意力模型,计算单头的Self-Attention,用r作为该层最终输出值的表示,过程如下:
Figure FDA0004041185990000031
Figure FDA0004041185990000032
其中,
Figure FDA0004041185990000033
dg是隐藏层的节点数,a是一个权重参数向量,
Figure FDA0004041185990000034
softmax(·)函数用来归一化单头计算的结果,经过一次单头的Self-Attention计算,得到的单次Attention输出特征值如下:
g*=tanh(r)    (10)
多头的注意力机制Multi-headSelf-Attention计算过程则为多次计算单头的Self-Attention,多头的注意力模型头数为h,即进行h次单头的Self-Attention计算,再把输出合并起来,计算过程如下:
其中,式(8)每次使用句子包表示矩阵G前,为压缩单次Self-Attention计算的G的维度以及为达到单多头Attention并行执行的目的,需先对G做一次线性变换:
Figure FDA0004041185990000035
其中
Figure FDA0004041185990000036
步骤303、每次使用不同的权重a,用式(8)~(10)进行h次计算,将得到的每个Self-Attention结果g*合并起来并进行线性映射可得最终的Multi-headSelf-Attention计算结果gc
Figure FDA0004041185990000037
其中,
Figure FDA0004041185990000038
表示逐个元素进行点乘运算,Ac表示权重矩阵,维度为h×dg
Figure FDA0004041185990000039
表示h个Self-Attention结果g*进行全连接,gc则为全连接层的输出,即融合了全文语义信息的增强的篇章级语义特征表示。
7.根据权利要求1所述一种基于多头自注意力机制的多任务篇章级事件抽取方法,其特征在于,所述步骤5,具体包括如下步骤:
步骤501、将每个文本划分为最大为500词的语段,对于语段进行分句、分词预处理操作;
步骤502、将每个句子作为一个给定的输入序列,记为X={x1,x2,...,xn},其中n为输入序列的长度,为抽取出事件中的所有元素,即找到X中的每个实体,然后给它分配一个预定义的实体标签t∈T,T是一个预定义的实际标签集合,对于每个t与一个长度为k的query问题序列相对应,记为qt={q1,q2,...,qk};
步骤503、利用基于模板的方法为不同的事件类型中的事件元素构造查询三元组(Q,A,C),其中Q为查询问题QUESTION,A为查询结果ANSWER,C为查询内容CONTENT,将标注实体表示为xs2e={xs,xs+1,...,xe-1,xe}(s<e),其中s表示start,e表示end,xs2e表示输入序列X起始到结束的连续标注的span,因此,三元组(qt,xs2e,X)对应于查询三元组(Q,A,C);
步骤504、利用事件类型和预标注的实体序列作为先验信息,构造输入序列:
{[CLS],et,[SEP],q1,q2,...,qk,[SEP],x1,x2,...,xn,[SEP]}    (15)
其中et为事件类型,[CLS]和[SEP]为特殊的标记,q1,q2,...,qk为问题序列,x1,x2,...,xn为标注的实体序列,利用预训练的语言模型BERT接收合并后的输入序列,并输出一个上下文表示矩阵E∈Rh×2,h是输入序列的隐藏大小。
CN202110953670.5A 2021-08-19 2021-08-19 一种基于多头自注意力机制的多任务篇章级事件抽取方法 Active CN113761936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110953670.5A CN113761936B (zh) 2021-08-19 2021-08-19 一种基于多头自注意力机制的多任务篇章级事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110953670.5A CN113761936B (zh) 2021-08-19 2021-08-19 一种基于多头自注意力机制的多任务篇章级事件抽取方法

Publications (2)

Publication Number Publication Date
CN113761936A CN113761936A (zh) 2021-12-07
CN113761936B true CN113761936B (zh) 2023-04-07

Family

ID=78790443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110953670.5A Active CN113761936B (zh) 2021-08-19 2021-08-19 一种基于多头自注意力机制的多任务篇章级事件抽取方法

Country Status (1)

Country Link
CN (1) CN113761936B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4030355A1 (en) * 2021-01-14 2022-07-20 Naver Corporation Neural reasoning path retrieval for multi-hop text comprehension
CN114741516A (zh) * 2021-12-08 2022-07-12 商汤国际私人有限公司 一种事件抽取方法和装置、电子设备及存储介质
CN114169447B (zh) * 2021-12-10 2022-12-06 中国电子科技集团公司第十研究所 基于自注意力卷积双向门控循环单元网络的事件检测方法
CN114168738B (zh) * 2021-12-16 2024-06-07 北京感易智能科技有限公司 篇章级事件抽取方法、系统和设备
CN114444482A (zh) * 2021-12-28 2022-05-06 天翼云科技有限公司 一种事件信息抽取的方法及设备
CN114417824B (zh) * 2022-01-14 2024-09-10 大连海事大学 基于依存句法预训练模型的篇章级关系抽取方法及系统
CN114239536B (zh) * 2022-02-22 2022-06-21 北京澜舟科技有限公司 一种事件抽取方法、系统及计算机可读存储介质
CN114334159B (zh) * 2022-03-16 2022-06-17 四川大学华西医院 一种术后风险预测自然语言数据增强模型及方法
CN114742016B (zh) * 2022-04-01 2024-07-09 山西大学 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN114490954B (zh) * 2022-04-18 2022-07-15 东南大学 一种基于任务调节的文档级生成式事件抽取方法
CN114548101B (zh) * 2022-04-25 2022-08-02 北京大学 基于可回溯序列生成方法的事件检测方法和系统
CN114969343B (zh) * 2022-06-07 2024-04-19 重庆邮电大学 结合相对位置信息的弱监督文本分类方法
CN115062146B (zh) * 2022-06-07 2024-06-28 重庆邮电大学 基于BiLSTM结合多头注意力的中文重叠事件抽取系统
CN114880527B (zh) * 2022-06-09 2023-03-24 哈尔滨工业大学(威海) 一种基于多预测任务的多模态知识图谱表示方法
CN115510236A (zh) * 2022-11-23 2022-12-23 中国人民解放军国防科技大学 基于信息融合和数据增强的篇章级事件检测方法
CN115860002B (zh) * 2022-12-27 2024-04-05 中国人民解放军国防科技大学 一种基于事件抽取的作战任务生成方法及系统
CN115830402B (zh) * 2023-02-21 2023-09-12 华东交通大学 一种细粒度图像识别分类模型训练方法、装置及设备
CN116303996B (zh) * 2023-05-25 2023-08-04 江西财经大学 基于多焦点图神经网络的主题事件抽取方法
CN116757159B (zh) * 2023-08-15 2023-10-13 昆明理工大学 一种端到端的多任务联合篇章级事件抽取方法及系统
CN117332377B (zh) * 2023-12-01 2024-02-02 西南石油大学 一种基于深度学习的离散时间序列事件挖掘方法及系统
CN117390090B (zh) * 2023-12-11 2024-04-12 安徽思高智能科技有限公司 一种rpa流程挖掘方法、存储介质、电子设备
CN117527444B (zh) * 2023-12-29 2024-03-26 中智关爱通(南京)信息科技有限公司 用于训练检测登录数据风险值的模型的方法、设备和介质
CN117521658B (zh) * 2024-01-03 2024-03-26 安徽思高智能科技有限公司 一种基于篇章级事件抽取的rpa流程挖掘方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710919A (zh) * 2018-11-27 2019-05-03 杭州电子科技大学 一种融合注意力机制的神经网络事件抽取方法
CN110134757B (zh) * 2019-04-19 2020-04-07 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法
CN110619123B (zh) * 2019-09-19 2021-01-26 电子科技大学 一种机器阅读理解方法
CN111522915A (zh) * 2020-04-20 2020-08-11 北大方正集团有限公司 中文事件的抽取方法、装置、设备及存储介质
CN111859912B (zh) * 2020-07-28 2021-10-01 广西师范大学 基于pcnn模型的带有实体感知的远程监督关系抽取方法
CN112633010B (zh) * 2020-12-29 2023-08-04 山东师范大学 基于多头注意力和图卷积网络的方面级情感分析方法及系统
CN112860852B (zh) * 2021-01-26 2024-03-08 北京金堤科技有限公司 信息分析方法及装置、电子设备和计算机可读存储介质
CN113076391B (zh) * 2021-01-27 2022-09-20 北京理工大学 一种基于多层注意力机制的远程监督关系抽取方法
CN113220844B (zh) * 2021-05-25 2023-01-24 广东省环境权益交易所有限公司 基于实体特征的远程监督关系抽取方法
CN113255321B (zh) * 2021-06-10 2021-10-29 之江实验室 基于文章实体词依赖关系的金融领域篇章级事件抽取方法

Also Published As

Publication number Publication date
CN113761936A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN113761936B (zh) 一种基于多头自注意力机制的多任务篇章级事件抽取方法
Torfi et al. Natural language processing advancements by deep learning: A survey
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN110059217B (zh) 一种两级网络的图像文本跨媒体检索方法
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN112015859A (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
CN111274829B (zh) 一种利用跨语言信息的序列标注方法
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
Hou et al. Method and dataset entity mining in scientific literature: a CNN+ BiLSTM model with self-attention
CN113095080B (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
CN113157859B (zh) 一种基于上位概念信息的事件检测方法
CN112528658B (zh) 层次化分类方法、装置、电子设备和存储介质
CN112667813B (zh) 用于裁判文书的敏感身份信息的识别方法
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN114548099B (zh) 基于多任务框架的方面词和方面类别联合抽取和检测方法
Kastrati et al. Performance analysis of machine learning classifiers on improved concept vector space models
CN116385937B (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN115168574A (zh) 一种多价值链问题文本分类方法和装置
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN113128237A (zh) 一种服务资源的语义表征模型构建方法
CN114328934A (zh) 一种基于注意力机制的多标签文本分类方法及系统
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
He et al. Deep learning in natural language generation from images
CN114357167B (zh) 基于Bi-LSTM-GCN的多标签文本分类方法和系统
Tarride et al. A comparative study of information extraction strategies using an attention-based neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant