CN111581346A - 一种事件抽取方法和装置 - Google Patents
一种事件抽取方法和装置 Download PDFInfo
- Publication number
- CN111581346A CN111581346A CN202010338139.2A CN202010338139A CN111581346A CN 111581346 A CN111581346 A CN 111581346A CN 202010338139 A CN202010338139 A CN 202010338139A CN 111581346 A CN111581346 A CN 111581346A
- Authority
- CN
- China
- Prior art keywords
- span
- argument
- semantic representation
- vector
- statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种事件抽取方法和装置,该方法包括:获得语句的向量化语义表示W1;通过条件随机场CRF对向量化语义表示W1进行论元识别,并根据向量化语义表示W1进行span的划分获得的相应的span语义表示进行触发词识别;论元标记包括:一个或多个序列BIO标注;对每一个span和论元进行两两结合,并判断结合后的span和论元是否为正确的触发词‑论元对;获取全部正确的触发词‑论元对,以实现事件的抽取。通过该实施例方案,获取了更加有用的信息,具有较强的实际应用价值;避免了因使用自然语言处理工具而导致的误差累积的问题;完美解决了当前主流的事件抽取方法很难适用于中文等语料的问题,具有较强通用性。
Description
技术领域
本文涉及事件数据处理技术,尤指一种事件抽取方法和装置。
背景技术
互联网上每天都会产生大量的新闻数据,描述许多已经发生的事件。但由于事件种类繁多,无法快速而且准确地分辨事件的类型以及事件的各个因素,如时间、地点、参与人等信息。
对发生的公共事件或者特定行业内所发生的事件进行区分和主体识别,不仅有助于实时把握事件的发展趋势以及整个行业的发展方向,也可辅助高层决策、降低风险,具有重要的实际应用价值和研究意义。
现有的识别方法:[1]基于图神经网络的模型;[2]基于深度学习、注意力机制、序列标注的模型等。
现有方法存在以下缺点:
1、现有方法有的只进行事件类型检测即事件触发词,并没有进行事件主体(或称实体)抽取,任务单一,不具备较强的实际应用价值。有的方法虽然进行了事件触发词识别和论元识别,但是依赖了人工事先标记好的实体,但是这在实际应用中并不存在。
2、现有进行事件检测的方法大都辅助使用已有的自然语言处理工具,但是在实际应用中并不能通过这些工具预先处理好。现有方法大都使用特定的自然语言处理工具如Jieba,ltp,standfordNLP等首先对句子进行分词,建立依存树,然后再将这些特征输入模型。缺点在于:首先处理繁琐,其次这些工具在处理的过程中本身具有一定的误差,因此在后续建模分析的过程中会存在误差累积的问题。
3、现有方法大都将触发词当做单个token来进行识别,这种方法对于英文这类语言还是比较适合的,因为英语中每个单词都有确定的意思。但是像中文这种语言则不同,每个字并不能表达很确切的意思,比如“小明在这场事故中不小心受了伤,很严重”这句话中,“受了伤”才能表达明确的意思,而其中的任何一个字:”受”、”了”、”伤”均不能表达该含义。
发明内容
本申请实施例提供了一种事件抽取方法和装置,能够获取更加有用的信息,具有较强的实际应用价值;在数据处理和建模的过程中操作简单,避免了因使用自然语言处理工具而导致的误差累积的问题;通过划分span的方式完美解决了当前主流的事件抽取方法很难适用于中文等语料的问题,具有较强的通用性。
本申请实施例提供了一种事件抽取方法,所述方法可以包括:
获得语句的向量化语义表示W1;
通过条件随机场CRF对所述向量化语义表示W1进行论元识别,并根据所述向量化语义表示W1进行span的划分获得的相应的span语义表示进行触发词识别;其中,所述论元标记包括:一个或多个序列BIO标注;
对每一个span和论元进行两两结合,并判断结合后的span和论元是否为正确的(触发词-论元)对;
获取全部正确的(触发词-论元)对,以实现事件的抽取。
在本申请的示例性实施例中,所述获得语句的向量化语义表示W1可以包括:通过双向LSTM网络模型或BERT模型获得语句的向量化语义表示W1。
在本申请的示例性实施例中,在通过双向LSTM网络获得语句的向量化语义表示W1之前,所述方法还可以包括:将语句中的a个字符随机初始化为一个维度为[a,b]的b维向量D,其中,对于从0到a-1的索引id,每个id对应一个不同的字符;对于长度为S的语句,该语句中每一个字符能够在向量D中找到对应的id,从而获得维度为[S,D]的向量;
通过双向LSTM网络获得语句的向量化语义表示W1包括:将维度为[S,D]的向量输入预设的双向LSTM神经网络,将所述双向LSTM神经网络的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度为[S,D1];D1为2*LSTM隐层节点数。
在本申请的示例性实施例中,通过BERT模型获得语句的向量化语义表示W1可以包括:将语句直接输入所述BERT模型,将所述BERT模型的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度可以为[S,D1];D1=768。
在本申请的示例性实施例中,所述方法还可以包括:
预先将触发词类型划分为x种,将事件的论元类型划分为z种,将所述触发词类型以及所述事件的论元类型以外的类型作为其他类型other;其中,x、z均为正整数;
在获得语句的向量化语义表示W1之前,进行以下操作:
触发词标记:根据设定的span宽度,对语句进行span划分,以将语句划分为多个span,并对每个span进行标记,以确定当前span是否属于触发词;在当前span属于触发词时,将当前span标记为划分出的x种触发词类型中的一种;在当前span不属于触发词时,将当前span标记为其他类型O;
论元标记:对语句中每个标记token进行BIO标注,BIO标注的类型包括:B-[论元类型]、I-[论元类型]和O;
触发词-论元标记:对每个标记后的span和标注后的论元进行两两结合,并标记结合后的span和论元是否为(触发词-论元)对。
在本申请的示例性实施例中,所述通过条件随机场CRF对所述向量化语义表示W1进行论元识别可以包括:
将所述向量化语义表示W1进行线性变换,获取变换后的矩阵;
将所述变换后的矩阵输入条件随机场CRF中,通过CRF输出所述向量化语义表示W1所表示的语句中的每个字对应的BIO标注;
根据语句中的每个字对应的BIO标注识别出语句中的全部论元;
获取每个论元在语句中的位置,并根据该位置的语义表示获取相应论元的语义表示,获取语句中全部n_arg个论元的语义表示W2,实现论元识别;其中,W2的维度为[n_arg,D1]。
在本申请的示例性实施例中,所述根据所述向量化语义表示W1进行span的划分获得的相应的span语义表示进行触发词识别可以包括:
对所述向量化语义表示W1进行span划分,得到N个span的语义表示;对所述N个span的语义表示进行平均池化,得到所述N个span的向量表示W3;N为正整数;
将所述N个span的向量表示W3作为输入,使用两层全连接神经网络和softmax层对N个span进行分类,输出维度为[N,x+1]的向量W4,向量W4表示每个span属于每一类型触发词的概率。
在本申请的示例性实施例中,所述对所述向量化语义表示W1进行span划分,得到N个span的语义表示;对所述N个span的语义表示进行平均池化,得到所述N个span的向量表示W3可以包括:
获取设定的span的最大宽度max_span_width;根据span的宽度从1到max_span_width依次在所述向量化语义表示W1上进行选取,获得N个span的语义表示span_embedding;
对N个span的语义表示span_embedding进行平均池化,得到N个span的向量表示W3;其中,W3的维度为[N,D1]。
在本申请的示例性实施例中,所述对每一个span和论元进行两两结合,并判断结合后的span和论元是否为正确的(触发词-论元)对可以包括:
将进行论元识别后获得的语句中全部n_arg个论元的语义表示W2以及对所述向量化语义表示W1进行span划分获得的N个span的向量表示W3进行复制和变换,实现span和论元的两两拼接组合,获得维度为[n_arg,N,2*D1]的向量W4;
将向量W4作为输入,通过两层全连接神经网络和一层softmax层对向量W4进行二分类,输出维度为[a_arg,N,2]的向量W5;向量W5表示每个组合属于正确(触发词-论元)对的概率。
本申请实施例还提供了一种事件抽取装置,可以包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任意一项所述的事件抽取方法。
与相关技术相比,本申请实施例的方法包括:获得语句的向量化语义表示W1;通过条件随机场CRF对所述向量化语义表示W1进行论元识别,并根据所述向量化语义表示W1进行span的划分获得的相应的span语义表示进行触发词识别;其中,所述论元标记包括:一个或多个序列BIO标注;对每一个span和论元进行两两结合,并判断结合后的span和论元是否为正确的(触发词-论元)对;获取全部正确的(触发词-论元)对,以实现事件的抽取。通过该实施例方案,获取了更加有用的信息,具有较强的实际应用价值;在数据处理和建模的过程中操作简单,避免了因使用自然语言处理工具而导致的误差累积的问题;通过划分span的方式完美解决了当前主流的事件抽取方法很难适用于中文等语料的问题,具有较强的通用性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例的事件抽取方法流程图;
图2为本申请实施例的事件抽取装置组成框图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
在本申请的示例性实施例中,在介绍本申请实施例方案之前,可以首先对本申请实施例涉及的术语进行介绍:
1、事件类型及定义:
事件类型是指不同的事件所属的类别,比如在金融领域有“实控人股东变更”、“信批违规”、“财务造假”等事件类型。事件类型的定义一般由该领域的专家或经验人士来确定。
2、触发词:
触发词是指能够清楚的表明事件类型的一些词汇,比如”袭击”、”受了伤”、”上市”等。
3、论元:
论元是指事件所包含的因素,比如某个事件发生的时间、地点、参与者等因素。
4、事件抽取:
事件抽取可以包含两个任务,即触发词识别和论元识别。
5、span:
span可认为是“一段区域,每个span具有一定的宽度”,就是对一段话进行固定长度的选取,比如一句话“我今天吃了面包,喝了牛奶”,如果span的宽度为2,则可以得到片段“我今”、“今天”、“天吃”等。
6、span的划分:
span的划分是指根据设定的span的最大宽度,从小到大依次进行划分。比如span最大宽度为8,则span的宽度为1-8,分别进行划分,可以得到多个span。
7、序列(BIO)标注:
BIO标注是指在进行数据处理时,对数据所做的一种标记方式,用于模型的训练和结果的评估,其中每个字母分别代表(B-begin,I-inside,O-other)。如:‘李明是福建的居民’可以依次标记为‘B-PER I-PER O B-LOC I-LOC O O O’,各个标记之间以空格隔开,每个标记对应一个字。
8、条件随机场(CRF):
条件随机场(conditional random field,简称CRF),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。
9、span的分类:
span的分类是指通过模型或特定的方法判断一条数据所属的类型,即标签,一般而言,分类任务中的每条数据只属于一个类别。
本申请实施例提供了一种事件抽取方法,如图1所示,所述方法可以包括S101-S104:
S101、获得语句的向量化语义表示W1。
在本申请的示例性实施例中,在获得语句的向量化语义表示W1之前,可以首先对要进行事件抽取的数据进行预处理。该预处理可以包括但不限于:触发词标记和论元标记。
在本申请的示例性实施例中,所述方法还可以包括:
预先将触发词类型划分为x种,将事件的论元类型划分为z种,将所述触发词类型以及所述事件的论元类型以外的类型作为其他类型other;其中,x、z均为正整数;
在获得语句的向量化语义表示W1之前,进行以下操作:
触发词标记:根据设定的span宽度,对语句进行span划分,以将语句划分为多个span,并对每个span进行标记,以确定当前span是否属于触发词;在当前span属于触发词时,将当前span标记为划分出的x种触发词类型中的一种;在当前span不属于触发词时,将当前span标记为其他类型O;
论元标记:对语句中每个标记token进行BIO标注,BIO标注的类型包括:B-[论元类型]、I-[论元类型]和O;
触发词-论元标记:对每个标记后的span和标注后的论元进行两两结合,并标记结合后的span和论元是否为(触发词-论元)对。
在本申请的示例性实施例中,假设触发词的类型(可以称为事件类型)数为n_event=10,即x=10,事件论元的类型数为n_argument=15,即z=15。可以首先对句子进行span的划分,以单个句子为例,假如设定span的最大宽度max_span_width=5,则一个句子(或称语句)可以得到多个span。
在本申请的示例性实施例中,触发词标记可以包括:首先对句子中的每一个span进行标记是否为触发词(如果是,则标记触发词类型,否则标记为其他类型”O”)),共计10+1=11种。
在本申请的示例性实施例中,论元标记可以包括:对句子中的每个token进行BIO标注,标注方式可以为:B-[论元类型]、I-[论元类型]、O,共计2*15+1=31种。
在本申请的示例性实施例中,触发词-论元标记可以包括:对每个span与论元进行两两结合,并标记是否为(触发词-论元)对,如果是正确的(触发词-论元)对,则可以标记为1,否则可以标记为0。
在本申请的示例性实施例中,因计算机无法直接处理中文,因此可以将句子(语句)中每一个单词转化为数字的映射。即,获得语句的向量化语义表示W1。
在本申请的示例性实施例中,所述获得语句的向量化语义表示W1可以包括:通过双向LSTM网络模型或BERT模型获得语句的向量化语义表示W1。
在本申请的示例性实施例中,在通过双向LSTM网络获得语句的向量化语义表示W1之前,所述方法还可以包括:将语句中的a个字符随机初始化为一个维度为[a,b]的b维向量D,其中,对于从0到a-1的索引id,每个id对应一个不同的字符;对于长度为S的语句,该语句中每一个字符能够在向量D中找到对应的id,从而获得维度为[S,D]的向量;
通过双向LSTM网络获得语句的向量化语义表示W1包括:将维度为[S,D]的向量输入预设的双向LSTM神经网络,将所述双向LSTM神经网络的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度为[S,D1];D1为2*LSTM隐层节点数。
在本申请的示例性实施例中,假设语料中一共有20000个不同的字符(汉字和/或单词,可以包括其他常用符号),每个字符可以随机初始化为一个300维的向量,则可以得到一个维度为[20000,300]的向量D,其中对于索引id从0至19999,每个id对应一个不同的汉字。那么对于一句话(长度为S)中的每一个字符,都可以在D中找到对应的id,从而获取对应的向量,因此可以得到一个维度为[S,300]的向量。然后可以使用双向LSTM神经网络得到句子的语义表示向量W1。
在本申请的示例性实施例中,通过BERT模型获得语句的向量化语义表示W1可以包括:将语句直接输入所述BERT模型,将所述BERT模型的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度可以为[S,D1];D1=768。
在本申请的示例性实施例中,使用BERT模型时,可以将句子直接输入至BERT模型,BERT模型的输出即可以作为句子的向量化语义表示W1。
在本申请的示例性实施例中,设以上两种方法得到的语义表示为W1,则,1的维度为[S,D1],其中S为句子长度;如果使用双向LSTM网络获得语句的向量化语义表示W1,则D1为2*LSTM隐层节点数,如果使用BERT模型获得语句的向量化语义表示W1,则D1=768。
S102、通过条件随机场CRF对所述向量化语义表示W1进行论元识别,并根据所述向量化语义表示W1进行span的划分获得的相应的span语义表示进行触发词识别;其中,所述论元标记包括:一个或多个序列BIO标注。
在本申请的示例性实施例中,所述通过条件随机场CRF对所述向量化语义表示W1进行论元识别可以包括:
将所述向量化语义表示W1进行线性变换,获取变换后的矩阵;
将所述变换后的矩阵输入条件随机场CRF中,通过CRF输出所述向量化语义表示W1所表示的语句中的每个字对应的BIO标注;
根据语句中的每个字对应的BIO标注识别出语句中的全部论元;
获取每个论元在语句中的位置,并根据该位置的语义表示获取相应论元的语义表示,获取语句中全部n_arg个论元的语义表示W2,实现论元识别;其中,W2的维度为[n_arg,D1]。
在本申请的示例性实施例中,通过步骤S101可得到句子的特征(即所述向量化语义表示W1),然后将句子的特征进行线性变换,得到变换后的矩阵(因为论元有31种标签,因此变换后的矩阵维度即为[S,31]),然后将变换后的矩阵送入条件随机场CRF中:在训练阶段,CRF可以输出实体识别的损失误差loss1;在预测阶段,CRF可以输出句子中每个字对应的标签(例如,B-[论元类型]、I-[论元类型]、O)。然后根据当前识别出的论元在句子中的位置,找出对应位置的语义表示,并进行平均池化操作,得到每个论元的语义表示,假设句子中一共有n_arg个论元,则可得到论元的表示为W2,维度为[n_arg,D1]。
在本申请的示例性实施例中,所述根据所述向量化语义表示W1进行span的划分获得的相应的span语义表示进行触发词识别可以包括:
对所述向量化语义表示W1进行span划分,得到N个span的语义表示;对所述N个span的语义表示进行平均池化,得到所述N个span的向量表示W3;N为正整数;
将所述N个span的向量表示W3作为输入,使用两层全连接神经网络和softmax层对N个span进行分类,输出维度为[N,x+1]的向量W4,向量W4表示每个span属于每一类型触发词的概率。
在本申请的示例性实施例中,所述对所述向量化语义表示W1进行span划分,得到N个span的语义表示;对所述N个span的语义表示进行平均池化,得到所述N个span的向量表示W3可以包括:
获取设定的span的最大宽度max_span_width;根据span的宽度从1到max_span_width依次在所述向量化语义表示W1上进行选取,获得N个span的语义表示span_embedding;
对N个span的语义表示span_embedding进行平均池化,得到N个span的向量表示W3;其中,W3的维度为[N,D1]。
在本申请的示例性实施例中,可与根据设定的span的最大宽度max_span_width=5对步骤S101得到的语义表示W1进行span划分。划分方法可以包括:span的宽度从1至max_span_width依次在向量W1上进行选取,可得到N个span的语义表示,即span_embedding,因每个span的宽度不一样(span_embedding的维度为[sw,D1],其中sw取值为1~max_span_width),因此需要对这N个span的语义表示进行平均池化处理,从而得到这N个span的表示W3,维度为[N,D1]。
在本申请的示例性实施例中,通过上述方案得到N个span的表示W3后,可以使用两层全连接神经网络和softmax层对span进行分类,从而确定每个span是否属于某类触发词。全连接神经网络的输入为W3输出为一个维度为[N,n_event+1],即[N,x+1]的向量,意为每个span属于某类触发词的概率。
S103、对每一个span和论元进行两两结合,并判断结合后的span和论元是否为正确的(触发词-论元)对。
在本申请的示例性实施例中,所述对每一个span和论元进行两两结合,并判断结合后的span和论元是否为正确的(触发词-论元)对可以包括:
将进行论元识别后获得的语句中全部n_arg个论元的语义表示W2以及对所述向量化语义表示W1进行span划分获得的N个span的向量表示W3进行复制和变换,实现span和论元的两两拼接组合,获得维度为[n_arg,N,2*D1]的向量W4;
将向量W4作为输入,通过两层全连接神经网络和一层softmax层对向量W4进行二分类,输出维度为[a_arg,N,2]的向量W5;向量W5表示每个组合属于正确(触发词-论元)对的概率。
在本申请的示例性实施例中,因论元是与事件相关联,某个论元必然属于某个事件。因此,可以将句子中的每个span与论元进行两两组合配对,即获得(span-arg)对,又可以描述为(触发词-论元)对,并判断该组合是否为一个正确的(触发词-论元)对,具体做法可以包括:根据步骤S102得到的句子的表示W2,即n_arg个论元的语义表示W2(维度为[n_arg,D1])以及得到的所有span的表示W3(维度为[N,D1]),通过对它们进行复制、变换等操作进行两两拼接组合,可以得到一个维度为[n_arg,N,2*D1]的向量W4。然后经过两层全连接神经网络和一层softmax层进行二分类,从而确定每一个组合是否属于一个正确的(触发词-论元)对,该网络的输入为W4,输出为一个维度为[a_arg,N,2]的向量W5,意为每个组合是否属于一个正确的组合。
在本申请的示例性实施例中,在该实施例方案中的训练阶段,可以将以上分类结果与步骤S101中所得的预先进行的标记数据(触发词标记和论元标记)进行误差计算和反向传播、参数更新操作完成训练过程。
在本申请的示例性实施例中,在该实施例方案中的预测阶段,根据分类的结果即可得到的对应的类型,softmax的输出属于每个类别的概率,取概率最大值的索引所对应的类型即可。因此,对于触发词识别,则根据softmax的输出即可判断某个span是否为触发词;对于事件识别,则根据softmax的输出即可判断某个组合,即(触发词-论元)对,是否为一个正确的组合。
S104、获取全部正确的(触发词-论元)对,以实现事件的抽取。
在本申请的示例性实施例中,进行事件识别时,当把所有正确的组合都找出来时,则整个事件也就抽取出来了。
在本申请的示例性实施例中,本申请实施例方案可以同时抽取事件的触发词和论元。模型只需要原始句子的输入,避免了现有方法对自然语言处理工具的依赖问题。首先通过双向LSTM网络或者BERT得到句子的向量化语义表示,然后在此之上分为2个分支:第一个分支通过条件随机场(CRF)进行论元识别,得到句子中的论元;第二个分支在得到的句子的向量化语义表示上进行span的划分,从而得到多个语义片段,然后对每个语义片段进行最大池化操作得到每个span的表示,并对span进行分类从而确定该span是否为触发词。最后将每个span与识别出的论元进行组合并进行分类,从而判断该组合是否为正确的(触发词-论元)对,当识别出所有正确的组合时,整个事件也就抽出来了。基于以上过程可以将句子(文档)中的所有事件的触发词以及对应的论元识别出来,提高了事件抽取的效率,具有较强的实用性与适用性。
在本申请的示例性实施例中,至少包含以下优势:
1、同时抽取事件触发词和事件的论元,可获取更加有用的信息,具有较强的实际应用价值。
2、在数据处理和建模的过程中不使用现有的自然语言处理工具,使得操作简单,也避免了因使用自然语言处理工具而导致的误差累积的问题,同时也更加符合真实应用场景。
3、通过划分span的方式,完美解决了当前主流的事件抽取方法很难适用于中文等语料的问题,具有较强的通用性。
本申请实施例还提出了一种事件抽取装置1,如图2所示,可以包括处理器11和计算机可读存储介质12,所述计算机可读存储介质12中存储有指令,当所述指令被所述处理器11执行时,实现上述任意一项所述的事件抽取方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
Claims (10)
1.一种事件抽取方法,其特征在于,所述方法包括:
获得语句的向量化语义表示W1;
通过条件随机场CRF对所述向量化语义表示W1进行论元识别,并根据所述向量化语义表示W1进行span的划分获得的相应的span语义表示进行触发词识别;其中,所述论元标记包括:一个或多个序列BIO标注;
对每一个span和论元进行两两结合,并判断结合后的span和论元是否为正确的触发词-论元对;
获取全部正确的触发词-论元对,以实现事件的抽取。
2.根据权利要求1所述的事件抽取方法,其特征在于,所述获得语句的向量化语义表示W1包括:通过双向LSTM网络模型或BERT模型获得语句的向量化语义表示W1。
3.根据权利要求2所述的事件抽取方法,其特征在于,在通过双向LSTM网络获得语句的向量化语义表示W1之前,所述方法还包括:将语句中的a个字符随机初始化为一个维度为[a,b]的b维向量D,其中,对于从0到a-1的索引id,每个id对应一个不同的字符;对于长度为S的语句,该语句中每一个字符能够在向量D中找到对应的id,从而获得维度为[S,D]的向量;
通过双向LSTM网络获得语句的向量化语义表示W1包括:将维度为[S,D]的向量输入预设的双向LSTM神经网络,将所述双向LSTM神经网络的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度为[S,D1];D1为2*LSTM隐层节点数。
4.根据权利要求2所述的事件抽取方法,其特征在于,通过BERT模型获得语句的向量化语义表示W1包括:将语句直接输入所述BERT模型,将所述BERT模型的输出作为语句的向量化语义表示W1;
其中,所述向量化语义表示W1的维度为[S,D1];D1=768。
5.根据权利要求1所述的事件抽取方法,其特征在于,所述方法还包括:
预先将触发词类型划分为x种,将事件的论元类型划分为z种,将所述触发词类型以及所述事件的论元类型以外的类型作为其他类型other;其中,x、z均为正整数;
在获得语句的向量化语义表示W1之前,进行以下操作:
触发词标记:根据设定的span宽度,对语句进行span划分,以将语句划分为多个span,并对每个span进行标记,以确定当前span是否属于触发词;在当前span属于触发词时,将当前span标记为划分出的x种触发词类型中的一种;在当前span不属于触发词时,将当前span标记为其他类型O;
论元标记:对语句中每个标记token进行BIO标注,BIO标注的类型包括:B-[论元类型]、I-[论元类型]和O;
触发词-论元标记:对每个标记后的span和标注后的论元进行两两结合,并标记结合后的span和论元是否为触发词-论元对。
6.根据权利要求1或5所述的事件抽取方法,其特征在于,所述通过条件随机场CRF对所述向量化语义表示W1进行论元识别包括:
将所述向量化语义表示W1进行线性变换,获取变换后的矩阵;
将所述变换后的矩阵输入条件随机场CRF中,通过CRF输出所述向量化语义表示W1所表示的语句中的每个字对应的BIO标注;
根据语句中的每个字对应的BIO标注识别出语句中的全部论元;
获取每个论元在语句中的位置,并根据该位置的语义表示获取相应论元的语义表示,获取语句中全部n_arg个论元的语义表示W2,实现论元识别;其中,W2的维度为[n_arg,D1]。
7.根据权利要求1所述的事件抽取方法,其特征在于,所述根据所述向量化语义表示W1进行span的划分获得的相应的span语义表示进行触发词识别包括:
对所述向量化语义表示W1进行span划分,得到N个span的语义表示;对所述N个span的语义表示进行平均池化,得到所述N个span的向量表示W3;N为正整数;
将所述N个span的向量表示W3作为输入,使用两层全连接神经网络和softmax层对N个span进行分类,输出维度为[N,x+1]的向量W4,向量W4表示每个span属于每一类型触发词的概率。
8.根据权利要求7所述的事件抽取方法,其特征在于,所述对所述向量化语义表示W1进行span划分,得到N个span的语义表示;对所述N个span的语义表示进行平均池化,得到所述N个span的向量表示W3包括:
获取设定的span的最大宽度max_span_width;根据span的宽度从1到max_span_width依次在所述向量化语义表示W1上进行选取,获得N个span的语义表示span_embedding;
对N个span的语义表示span_embedding进行平均池化,得到N个span的向量表示W3;其中,W3的维度为[N,D1]。
9.根据权利要求1所述的事件抽取方法,其特征在于,所述对每一个span和论元进行两两结合,并判断结合后的span和论元是否为正确的(触发词-论元)对包括:
将进行论元识别后获得的语句中全部n_arg个论元的语义表示W2以及对所述向量化语义表示W1进行span划分获得的N个span的向量表示W3进行复制和变换,实现span和论元的两两拼接组合,获得维度为[n_arg,N,2*D1]的向量W4;
将向量W4作为输入,通过两层全连接神经网络和一层softmax层对向量W4进行二分类,输出维度为[a_arg,N,2]的向量W5;向量W5表示每个组合属于正确触发词-论元对的概率。
10.一种事件抽取装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现如权利要求1-9任意一项所述的事件抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010338139.2A CN111581346A (zh) | 2020-04-26 | 2020-04-26 | 一种事件抽取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010338139.2A CN111581346A (zh) | 2020-04-26 | 2020-04-26 | 一种事件抽取方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111581346A true CN111581346A (zh) | 2020-08-25 |
Family
ID=72111704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010338139.2A Withdrawn CN111581346A (zh) | 2020-04-26 | 2020-04-26 | 一种事件抽取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581346A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765980A (zh) * | 2021-02-01 | 2021-05-07 | 广州市刑事科学技术研究所 | 一种面向警情笔录的事件论元角色抽取方法和装置 |
CN114880431A (zh) * | 2022-05-10 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于prompt的事件论元抽取方法及系统 |
CN114936563A (zh) * | 2022-04-27 | 2022-08-23 | 苏州大学 | 一种事件抽取方法、装置及存储介质 |
CN116757159A (zh) * | 2023-08-15 | 2023-09-15 | 昆明理工大学 | 一种端到端的多任务联合篇章级事件抽取方法及系统 |
CN114880431B (zh) * | 2022-05-10 | 2024-11-19 | 中国人民解放军国防科技大学 | 一种基于prompt的事件论元抽取方法及系统 |
-
2020
- 2020-04-26 CN CN202010338139.2A patent/CN111581346A/zh not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765980A (zh) * | 2021-02-01 | 2021-05-07 | 广州市刑事科学技术研究所 | 一种面向警情笔录的事件论元角色抽取方法和装置 |
CN112765980B (zh) * | 2021-02-01 | 2023-05-12 | 广州市刑事科学技术研究所 | 一种面向警情笔录的事件论元角色抽取方法和装置 |
CN114936563A (zh) * | 2022-04-27 | 2022-08-23 | 苏州大学 | 一种事件抽取方法、装置及存储介质 |
CN114936563B (zh) * | 2022-04-27 | 2023-07-25 | 苏州大学 | 一种事件抽取方法、装置及存储介质 |
CN114880431A (zh) * | 2022-05-10 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于prompt的事件论元抽取方法及系统 |
CN114880431B (zh) * | 2022-05-10 | 2024-11-19 | 中国人民解放军国防科技大学 | 一种基于prompt的事件论元抽取方法及系统 |
CN116757159A (zh) * | 2023-08-15 | 2023-09-15 | 昆明理工大学 | 一种端到端的多任务联合篇章级事件抽取方法及系统 |
CN116757159B (zh) * | 2023-08-15 | 2023-10-13 | 昆明理工大学 | 一种端到端的多任务联合篇章级事件抽取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111723569A (zh) | 一种事件抽取方法、装置和计算机可读存储介质 | |
CN109902307B (zh) | 命名实体识别方法、命名实体识别模型的训练方法及装置 | |
CN110532353B (zh) | 基于深度学习的文本实体匹配方法、系统、装置 | |
CN111581345A (zh) | 一种文档级别的事件抽取方法和装置 | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN111428504B (zh) | 一种事件抽取方法和装置 | |
CN112417885A (zh) | 基于人工智能的答案生成方法、装置、计算机设备及介质 | |
CN111814482B (zh) | 文本关键数据的提取方法、系统和计算机设备 | |
CN113779358B (zh) | 一种事件检测方法和系统 | |
CN111428511B (zh) | 一种事件检测方法和装置 | |
CN112711660A (zh) | 文本分类样本的构建方法和文本分类模型的训练方法 | |
CN108664512B (zh) | 文本对象分类方法及装置 | |
CN112101027A (zh) | 基于阅读理解的中文命名实体识别方法 | |
CN111581346A (zh) | 一种事件抽取方法和装置 | |
CN116432655B (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
CN114661881A (zh) | 一种基于问答模式的事件抽取方法、装置和设备 | |
CN116610803A (zh) | 基于大数据的产业链优企信息管理方法及系统 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN111178080B (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN112784580A (zh) | 基于事件抽取的金融数据分析方法及装置 | |
CN114742016B (zh) | 一种基于多粒度实体异构图的篇章级事件抽取方法及装置 | |
EP4089568A1 (en) | Cascade pooling for natural language document processing | |
CN114330350B (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN115168590A (zh) | 文本特征提取方法、模型训练方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200825 |
|
WW01 | Invention patent application withdrawn after publication |