CN112613315A - 一种文本知识自动抽取方法、装置、设备及存储介质 - Google Patents
一种文本知识自动抽取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112613315A CN112613315A CN202011603742.5A CN202011603742A CN112613315A CN 112613315 A CN112613315 A CN 112613315A CN 202011603742 A CN202011603742 A CN 202011603742A CN 112613315 A CN112613315 A CN 112613315A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- extracted
- extraction
- paragraph
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 126
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 description 10
- 238000001914 filtration Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本知识自动抽取方法、装置、设备及存储介质,该方法包括:获取需要实现知识提取的全部文档均为待提取文档,并对每个待提取文档分别进行拆解,得到每个待提取文档包含的段落均为待抽取段落;通过Open‑IE模型对每个待抽取段落进行知识抽取,得到每个待抽取段落中包含的第一信息及第二信息均为知识;其中,第一信息包括实体及实体间关系,第二信息包括实体及属性间关系、实体、属性;将从每个待抽取段落中提取到的知识进行输出。可见,本申请能够自动对需要实现知识抽取的文档进行相应处理,并利用Open‑IE模型实现相应的知识抽取,最终得到文档中的知识并输出,从而无需人工介入,即可自动有效的实现知识抽取。
Description
技术领域
本发明涉及文本处理技术领域,更具体地说,涉及一种文本知识自动抽取方法、装置、设备及存储介质。
背景技术
伴随着互联网的发展,网络存在着大量的无结构化知识,知识抽取是指从海量的半结构化和非结构化数据中直接抽取实体、关系和属性等信息,是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到业界的广泛关注。因此,如何提供一种实现知识抽取的技术方案,是目前本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种文本知识自动抽取方法、装置、设备及存储介质,无需人工介入,即可自动有效的实现知识抽取。
为了实现上述目的,本发明提供如下技术方案:
一种文本知识自动抽取方法,包括:
获取需要实现知识提取的全部文档均为待提取文档,并对每个所述待提取文档分别进行拆解,得到每个所述待提取文档包含的段落均为待抽取段落;
通过Open-IE模型对每个所述待抽取段落进行知识抽取,得到每个所述待抽取段落中包含的第一信息及第二信息均为知识;其中,所述第一信息包括实体及实体间关系,所述第二信息包括实体及属性间关系、实体、属性;
将从每个所述待抽取段落中提取到的所述知识进行输出。
优选的,通过Open-IE模型对每个所述待抽取段落进行知识抽取,包括:
将每个所述待抽取段落按照预设长度及标点符号分别进行拆分,得到每个所述待抽取段落包含的句子均为待抽取句子,并将每个所述待抽取句子均输入至所述Open-IE模型中,得到所述Open-IE模型输出的信息为抽取的知识。
优选的,得到每个所述待抽取段落中包含的第一信息及第二信息均为知识之后,还包括:
确定包含停用词、和/或包含大于实体长度阈值的实体长度、和/或包含大于属性长度阈值的属性的、和/或包含大于关系长度阈值的表示关系的信息的知识为待过滤知识,并将所述待过滤知识删除。
优选的,将所述待过滤知识删除之后,还包括:
确定所述知识中具有相同含义的不同词语,并将具有相同含义的不同词语均替换为表示该相同含义的统一词语。
优选的,将具有相同含义的不同词语均替换为表示该相同含义的统一词语之后,还包括:
基于所述知识将主语表示实体相同的待抽取句子组成相应的段落。
优选的,对每个所述待提取文档分别进行拆解,得到每个所述待提取文档包含的段落均为待抽取段落,包括:
采用OCR软件对每个所述待提取文档进行解析,得到相应的文本信息,并基于所述文本信息的特点获取其中包含的段落均为待抽取段落。
优选的,所述Open-IE模型包括特征提取层、第一主谓抽取层、第二主谓抽取层、宾语抽取层及最终抽取层;其中,所述特征提取层采用BERT抽取特征,所述第一主谓抽取层采用Span方式抽取全部主语及谓语,所述第二主谓抽取层抽取存在关系的主语及谓语,所述宾语抽取层基于主语及谓语抽取相应的宾语,所述最终抽取层将存在关系的主语、谓语及相应的宾语为知识进行输出。
一种文本知识自动抽取装置,包括:
文档处理模块,用于:获取需要实现知识提取的全部文档均为待提取文档,并对每个所述待提取文档分别进行拆解,得到每个所述待提取文档包含的段落均为待抽取段落;
知识抽取模块,用于:通过Open-IE模型对每个所述待抽取段落进行知识抽取,得到每个所述待抽取段落中包含的第一信息及第二信息均为知识;其中,所述第一信息包括实体及实体间关系,所述第二信息包括实体及属性间关系、实体、属性;
知识输出模块,用于:将从每个所述待抽取段落中提取到的所述知识进行输出。
一种文本知识自动抽取设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述文本知识自动抽取方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述文本知识自动抽取方法的步骤。
本发明提供了一种文本知识自动抽取方法、装置、设备及存储介质,该方法包括:获取需要实现知识提取的全部文档均为待提取文档,并对每个所述待提取文档分别进行拆解,得到每个所述待提取文档包含的段落均为待抽取段落;通过Open-IE模型对每个所述待抽取段落进行知识抽取,得到每个所述待抽取段落中包含的第一信息及第二信息均为知识;其中,所述第一信息包括实体及实体间关系,所述第二信息包括实体及属性间关系、实体、属性;将从每个所述待抽取段落中提取到的所述知识进行输出。本申请获取需要实现知识提取的全部文档后,对这些文档进行拆解得到相应的段落,通过Open-IE模型对这些段落进行知识抽取,得到其中包含的表示实体、实体间关系的信息以及表示实体、属性、两者间关系的信息作为抽取得到的知识,最终将这些知识进行输出,供相应人员获取进而实现分析等操作。可见,本申请能够自动对需要实现知识抽取的文档进行相应处理,并利用Open-IE模型实现相应的知识抽取,最终得到文档中的知识并输出,从而无需人工介入,即可自动有效的实现知识抽取。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种文本知识自动抽取方法的第一种流程图;
图2为本发明实施例提供的一种文本知识自动抽取方法的第二种流程图;
图3为本发明实施例提供的一种文本知识自动抽取装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种文本知识自动抽取方法的流程图,可以包括:
S11:获取需要实现知识提取的全部文档均为待提取文档,并对每个待提取文档分别进行拆解,得到每个待提取文档包含的段落均为待抽取段落。
本发明实施例提供的一种文本知识自动抽取方法的执行主体可以为对应的文本知识自动抽取装置;本申请可以应用于银行领域,而需要实现知识提取的文档则可以包括政策文件、产品介绍、说明文档、公告文件等。其中,获取需要实现知识提取的不同类型的文档均可以为中文的待提取文档,这些待提取文档组成相应的文档集合D,对文档集合D中每个文档分别进行拆解,获取其中包含的全部段落,则得到由获取的全部段落组成段落集合P。
S12:通过Open-IE模型对每个待抽取段落进行知识抽取,得到每个待抽取段落中包含的第一信息及第二信息均为知识;其中,第一信息包括实体及实体间关系,第二信息包括实体及属性间关系、实体、属性。
其中,Open-IE模型即为使用Open-IE抽取方法实现知识抽取的模型,Open-IE不需要预定义的关系类型,其可以有效地提取包含在其中的实体之间的新关系事实,且覆盖范围更广;因此,本申请实施例可以利用Open-IE模型对文档集合D中每个段落分别进行知识提取,得到其中包含的第一信息及第二信息,也即为抽取得到的知识;具体来说,实体为客观存在并可相互区别的事物,如某银行、某投资者等,实体之间的关系为不同事物之间存在的联系,如某银行具有一定数量的投资者,则银行及投资者均为实体,实体之间的关系则为投资关系,属性为表示实体的特点的信息,如某银行营业收入的具体数值等,实体及属性之间的关系为实体及所具有的属性之间存在的联系,如某银行的营业收入为132.70亿元,实体及属性之间的关系则为营业收入;在此基础上,第一信息包括实体及实体之间关系,可以表示为实体-关系-实体,第二信息可以包括实体、属性及两者之间关系,可以表示为实体-关系-属性序列集合T1(属性序列集合T1中包含相应的属性),
S13:将从每个待抽取段落中提取到的知识进行输出。
将提取到的知识通过进行显示或者发送给相应终端等方式进行输出,能够使外界用户获知提取到的知识,进而实现相应的分析等操作。
本申请获取需要实现知识提取的全部文档后,对这些文档进行拆解得到相应的段落,通过Open-IE模型对这些段落进行知识抽取,得到其中包含的表示实体、实体间关系的信息以及表示实体、属性、两者间关系的信息作为抽取得到的知识,最终将这些知识进行输出,供相应人员获取进而实现分析等操作。可见,本申请能够自动对需要实现知识抽取的文档进行相应处理,并利用Open-IE模型实现相应的知识抽取,最终得到文档中的知识并输出,从而无需人工介入,即可自动有效的实现知识抽取。
本发明实施例提供的一种文本知识自动抽取方法,通过Open-IE模型对每个待抽取段落进行知识抽取,可以包括:
将每个待抽取段落按照预设长度及标点符号分别进行拆分,得到每个待抽取段落包含的句子均为待抽取句子,并将每个待抽取句子均输入至Open-IE模型中,得到Open-IE模型输出的信息为抽取的知识。
本申请实施例在获取到文档包含的全部段落后,可以对这些段落进行拆解,从而将段落转换为相应的句子集合;而在对段落进行拆解时,可以先设置每个标点符号均为对应的分割点,如果任意段落的长度在预设长度(根据实际需要进行设定)内,则将该任意段落作为单独的语句,否则,按照该任意段落内具有的标点符号分割成多个单独的语句(如将每个由句号结束的语句作为一个单独的语句);例如:对于段落“某银行2019年半年报披露,该行实现营业收入132.70亿元。在经营业绩表中可以发现,该行净利息收入114.86亿元,同比上涨28.31%,手续费及佣金净收入13.28亿元,同比上涨19.13%,增长势头都比较好。”,对该段落进行拆解后得到的句子集合为:[“某银行2019年半年报披露,该行实现营业收入132.70亿元。”,“在经营业绩表中可以发现,该行净利息收入114.86亿元,同比上涨28.31%,手续费及佣金净收入13.28亿元,同比上涨19.13%,增长势头都比较好。”]。
在得到句子集合之后,将句子集合中的句子均输入至Open-IE模型进行推理,则得到候选的实体-关系-实体以及实体-关系-属性序列,本申请实施例中可以将其定义为Subject-Predicate-Object。例如:对于句子集合P:[“某银行2019年半年报披露,该行实现营业收入132.70亿元。”,“在经营业绩表中可以发现,该行净利息收入114.86亿元,同比上涨28.31%,手续费及佣金净收入13.28亿元,同比上涨19.13%,增长势头都比较好。”],经过Open-IE模型推理后得到的结果为:
表1
从而实现段落拆解及Open-IE模型使用,有效实现段落中包含的各知识的提取。
本发明实施例提供的一种文本知识自动抽取方法,得到每个待抽取段落中包含的第一信息及第二信息均为知识之后,还可以包括:
确定包含停用词、和/或包含大于实体长度阈值的实体长度、和/或包含大于属性长度阈值的属性、和/或包含大于关系长度阈值的表示关系的信息的、和/或包含大于关系长度阈值的表示关系的信息的知识为待过滤知识,并将待过滤知识删除。
本申请在得到文档中包含的全部知识后,可以对这些知识进行过滤,以删除无效的知识;具体来说,在删除知识时,可以将包含停用词的知识、实体长度大于相应实体长度阈值的知识、属性长度大于相应属性长度阈值的知识以及表示关系的信息长度大于相应的关系长度阈值的知识均进行删除;其中,实体长度阈值、属性长度阈值及关系长度阈值均可以根据实际需要进行设定,如对于表1抽取得到的知识中Predicate为“手续费及佣金净收入”的三元组集合可以被删除。
本发明实施例提供的一种文本知识自动抽取方法,将待过滤知识删除之后,还可以包括:
确定知识中具有相同含义的不同词语,并将具有相同含义的不同词语均替换为表示该相同含义的统一词语。
为了进一步方便对知识的分析,本申请实施例还可以对抽取得到的知识进行合并;具体来说,在实现不同知识的合并时,可以是将知识中具有相同含义的不同词语,均替换为相应的统一词语,如“某银行”“该行”均可以替换为“某银行”,从而实现相同含义的不同词语的统一化,方便对于知识的理解。
本发明实施例提供的一种文本知识自动抽取方法,将具有相同含义的不同词语均替换为表示该相同含义的统一词语之后,还可以包括:
基于知识将主语表示实体相同的待抽取句子组成相应的段落。
本申请实施例在需要时还可以基于知识实现段落的还原,具体来说,可以将所包含的主语表示实体相同的待抽取句子组成同一段落,如对于表1中的信息得到的最终知识及还原的段落可以如表2所示,从而不仅能够从文档中提取所需知识,还可以基于提取的知识实现段落还原,方便用户根据实际需要实现不同的功能,以进行相应的分析等操作。
表2
本发明实施例提供的一种文本知识自动抽取方法,对每个待提取文档分别进行拆解,得到每个待提取文档包含的段落均为待抽取段落,可以包括:
采用OCR软件对每个待提取文档进行解析,得到相应的文本信息,并基于文本信息的特点获取其中包含的段落均为待抽取段落。
本申请实施例可以通过数据预处理对文档进行拆解得到相应的段落;具体来说,数据预处理主要包括两部分,第一部分是将各种政策文件、公告、产品说明等文档进行转化,得到其中包含的文本信息,如文档为pdf格式,则可以采用OCR软件对文档进行解析,包括对图表和图片的解析等;第二部分则是基于文档的特点,通过预先设定的规则等方式把将拆解得到的段落与拆解前的文档对齐,尽量保证拆解得到的段落与文档中段落的形式相同,最终把文档处理成段落形式,其中,基于文档的特点通过规则将拆解得到的段落与拆解前的文档对齐,则是文档中对于不同的段落可能设置有不同的标记,如每个段落的起止位置具有相应的标号,或者每个段落的起止位置具有相应的标题等,从而将每个标记对应的段落作为拆解得到的单独段落。通过上述方式,本申请能够对文档解析得到相应的文本信息后,提取得到符合文档特点的每个段落,便于后续实现相应的知识提取等处理。
本发明实施例提供的一种文本知识自动抽取方法,Open-IE模型可以包括特征提取层、第一主谓抽取层、第二主谓抽取层、宾语抽取层及最终抽取层;其中,特征提取层采用BERT抽取特征,第一主谓抽取层采用Span方式抽取全部主语及谓语,第二主谓抽取层抽取存在关系的主语及谓语,宾语抽取层基于主语及谓语抽取相应的宾语,最终抽取层将存在关系的主语、谓语及相应的宾语为知识进行输出。
需要说明的是,本申请中的Open-IE模型主要采用基于预训练语言模型(BERT)的联合建模方式直接抽取实体-关系-实体,实体-关系-属性序列。例如:“全球知名咨询机构x发布《未来银行白皮书》,就银行业的现状和未来发展趋势进行了深度剖析和洞察。”该句话抽取出的知识为(Subject:x,Predicate:发布,Object:《未来银行白皮书》)。的Open-IE模型可以包括:
1、Encoder-Layer:编码层可以采用BILSTM或者BERT,为了进一步提高模型性能,本申请实施例优选采用BERT作为特征提取层,以便更好的获取句子的上下文信息。
2、EntityRelation-Layer:第一主谓抽取层,该层主要抽取所有可能的Subject和Predicate;本申请实施例采用Span的方式,分别抽取Subject和Predicate的开始位置和结束位置,相应的计算公式如下:
Pi start_s=sigmoid(Wstarthi+bstart)
Pi end_s=sigmoid(Wendhi+bend)
Pi start_p=sigmoid(Wstarthi+bstart)
Pi end_p=sigmoid(Wendhi+bend)
其中,Pi start_s表示句子中第i个token是Subject的开始位置的概率,Pi end_s表示句子中第i个token是Subject的结束位置的概率,Pi start_p表示句子中第i个token是Predicate的开始位置的概率,Pi end_p表示句子中第i个token是Predicate的结束位置的概率,hi表示句子中第i个token通过Bert之后的编码,W(.)表示模型待训练的权重,b(.)为偏执。
3、MultiHead-Layer(第二主谓抽取层):句子中的每个token都有可能和其他token构成关系,该层会找出所有可能存在关系的Subject和Predicate,相应的计算公式如下:
Pi,j=sigmoid(hi,hj)
其中,hi表示句子中第i个特征的编码,表示为Subject的特征,hj表示句子中第j个特征的编码,表示Predicate的特征,Pi,j表示(hi,hj)可以构成关系的概率。
4、Object-Layer:宾语抽取层,该层的作用是抽取指定的Object,根据指定的Subject和Predicate抽取出对应的Object,相应的计算公式如下:
Pi start_o=sigmoid(Wstart_o(hi,Vs,Vp)+bstart_o)
Pi end_o=sigmoid(Wend_o(hi,Vs,Vp)+bend_o)
其中,Pi start_o表示句子中第i个token是Object的开始位置的概率,Pi end_o表示句子中第i个token是Object的结束位置的概率,Vs表示表示Subject的首尾特征之和,Vp表示Predicate的首尾特征之和。
5、Triple-Result:最终抽取层,其最后依据前几个步骤,抽取出句子中最终(Subject,predicate,Object)集合。
在一种具体应用场景中,如图2所示,本发明实施例提供的一种文本知识自动抽取方法具体可以包括以下步骤:
步骤101,获取银行不同类型的文档集合D,并进行拆解,获取其中所有的段落集合P。
数据预处理是影响Open-IE抽取的重要阶段,主要包括两部分:
1、首先把各种政策文件、公告、产品说明等文档转化,主要可以采用OCR软件进行解析,包括图表和图片的解析等;
2、段落格式处理:根据标准文档特点,通过规则等方式把段落与文档对齐,尽量保证与文档的形式相同,最终把文档处理成段落形式。
步骤102,通过Open-IE模型对段落集合P进行抽取,获得所有候选的实体-关系-实体以及实体-关系-属性序列的集合T1。
通过预设Open-IE模型抽取候选的实体-关系-实体以及实体-关系-属性序列,主要包括以下几个步骤:
1、段落拆解:段落拆解主要把较长的段落依据一定的长度和标点符号进行拆分,把段落转化成句子集合。例如:对于段落“某银行2019年半年报披露,该行实现营业收入132.70亿元。在经营业绩表中可以发现,该行净利息收入114.86亿元,同比上涨28.31%,手续费及佣金净收入13.28亿元,同比上涨19.13%,增长势头都比较好。”;拆解后的句子集合为:[“某银行2019年半年报披露,该行实现营业收入132.70亿元。”,“在经营业绩表中可以发现,该行净利息收入114.86亿元,同比上涨28.31%,手续费及佣金净收入13.28亿元,同比上涨19.13%,增长势头都比较好。”]
2、模型推理:把拆解后得到的句子集合进入模型进行推理,得到候选的实体-关系-实体以及实体-关系-属性序列,可以把它定义为Subject-Predicate-Object。
对于句子集合P:[“某银行2019年半年报披露,该行实现营业收入132.70亿元。”,“在经营业绩表中可以发现,该行净利息收入114.86亿元,同比上涨28.31%,手续费及佣金净收入13.28亿元,同比上涨19.13%,增长势头都比较好。”],经过模型推理后的结果为:
步骤103,对所有候选的实体-关系-实体以及实体-关系-属性序列的集合T1进行过滤,并对其规则合并,得到实体-关系-实体以及实体-关系-属性序列的集合T2。
对候选的知识进行过滤,主要包括去停用词、对关系进行规约、实体、关系及属性长度过滤等;例如对于步骤102中的抽取的结果中Predicate为“手续费及佣金净收入”的三元组集合被删除。
规则合并则可以为采用同义词词典把部分实体和属性等聚集到一起。
步骤104,对集合T3进行段落还原,输出最终的实体-关系-实体以及实体-关系-属性序列的集合T。
基于集合T把拆解后的句子进行还原,转化成原始的段落形式,对于步骤102中的段落,输出最终Subject-Predicate-Object序列集合可以为:
本申请可以应用于中文文档抽取,有效提升了中文Open-IE抽取准确率;减少人工构建知识成本,系统获取文档后自动抽取知识点,辅助知识图谱构建;采用联合建模的方式,不仅减少了不同任务之间的误差传播,而且大大减少了模型推理时间,提高了自动抽取效率。
本发明实施例还提供了一种文本知识自动抽取装置,如图3所示,具体可以包括:
文档处理模块11,用于:获取需要实现知识提取的全部文档均为待提取文档,并对每个待提取文档分别进行拆解,得到每个待提取文档包含的段落均为待抽取段落;
知识抽取模块12,用于:通过Open-IE模型对每个待抽取段落进行知识抽取,得到每个待抽取段落中包含的第一信息及第二信息均为知识;第一信息包括实体及实体间关系,第二信息包括实体及属性间关系、实体、属性;
知识输出模块13,用于:将从每个待抽取段落中提取到的知识进行输出。
本发明实施例提供的一种文本知识自动抽取装置,知识抽取模块具体可以包括:
知识抽取单元,用于:将每个待抽取段落按照预设长度及标点符号分别进行拆分,得到每个待抽取段落包含的句子均为待抽取句子,并将每个待抽取句子均输入至Open-IE模型中,得到Open-IE模型输出的信息为抽取的知识。
本发明实施例提供的一种文本知识自动抽取装置,还可以包括:
过滤模块,用于:得到每个待抽取段落中包含的第一信息及第二信息均为知识之后,确定包含停用词、和/或包含大于实体长度阈值的实体长度、和/或包含大于属性长度阈值的属性的、和/或包含大于关系长度阈值的表示关系的信息的知识为待过滤知识,并将待过滤知识删除。
本发明实施例提供的一种文本知识自动抽取装置,还可以包括:
合并模块,用于:将待过滤知识删除后,确定知识中具有相同含义的不同词语,并将具有相同含义的不同词语均替换为表示该相同含义的统一词语。
本发明实施例提供的一种文本知识自动抽取装置,还可以包括:
还原模块,用于:将具有相同含义的不同词语均替换为表示该相同含义的统一词语后,基于知识将主语表示实体相同的待抽取句子组成相应的段落。
本发明实施例提供的一种文本知识自动抽取装置,文档处理模块具体可以包括:
解析单元,用于:采用OCR软件对每个待提取文档进行解析,得到相应的文本信息,并基于文本信息的特点获取其中包含的段落均为待抽取段落。
本发明实施例提供的一种文本知识自动抽取装置,Open-IE模型可以包括特征提取层、第一主谓抽取层、第二主谓抽取层、宾语抽取层及最终抽取层;其中,特征提取层采用BERT抽取特征,第一主谓抽取层采用Span方式抽取全部主语及谓语,第二主谓抽取层抽取存在关系的主语及谓语,宾语抽取层基于主语及谓语抽取相应的宾语,最终抽取层将存在关系的主语、谓语及相应的宾语为知识进行输出。
本发明实施例还提供了一种文本知识自动抽取设备,可以包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上任一项文本知识自动抽取方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可以实现如上任一项文本知识自动抽取方法的步骤。
需要说明的是,本发明实施例提供的一种文本知识自动抽取装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种文本知识自动抽取方法中对应部分的详细说明,在此不再赘述。另外,本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种文本知识自动抽取方法,其特征在于,包括:
获取需要实现知识提取的全部文档均为待提取文档,并对每个所述待提取文档分别进行拆解,得到每个所述待提取文档包含的段落均为待抽取段落;
通过Open-IE模型对每个所述待抽取段落进行知识抽取,得到每个所述待抽取段落中包含的第一信息及第二信息均为知识;其中,所述第一信息包括实体及实体间关系,所述第二信息包括实体及属性间关系、实体、属性;
将从每个所述待抽取段落中提取到的所述知识进行输出。
2.根据权利要求1所述的方法,其特征在于,通过Open-IE模型对每个所述待抽取段落进行知识抽取,包括:
将每个所述待抽取段落按照预设长度及标点符号分别进行拆分,得到每个所述待抽取段落包含的句子均为待抽取句子,并将每个所述待抽取句子均输入至所述Open-IE模型中,得到所述Open-IE模型输出的信息为抽取的知识。
3.根据权利要求2所述的方法,其特征在于,得到每个所述待抽取段落中包含的第一信息及第二信息均为知识之后,还包括:
确定包含停用词、和/或包含大于实体长度阈值的实体长度、和/或包含大于属性长度阈值的属性的、和/或包含大于关系长度阈值的表示关系的信息的知识为待过滤知识,并将所述待过滤知识删除。
4.根据权利要求3所述的方法,其特征在于,将所述待过滤知识删除之后,还包括:
确定所述知识中具有相同含义的不同词语,并将具有相同含义的不同词语均替换为表示该相同含义的统一词语。
5.根据权利要求4所述的方法,其特征在于,将具有相同含义的不同词语均替换为表示该相同含义的统一词语之后,还包括:
基于所述知识将主语表示实体相同的待抽取句子组成相应的段落。
6.根据权利要求5所述的方法,其特征在于,对每个所述待提取文档分别进行拆解,得到每个所述待提取文档包含的段落均为待抽取段落,包括:
采用OCR软件对每个所述待提取文档进行解析,得到相应的文本信息,并基于所述文本信息的特点获取其中包含的段落均为待抽取段落。
7.根据权利要求6所述的方法,其特征在于,所述Open-IE模型包括特征提取层、第一主谓抽取层、第二主谓抽取层、宾语抽取层及最终抽取层;其中,所述特征提取层采用BERT抽取特征,所述第一主谓抽取层采用Span方式抽取全部主语及谓语,所述第二主谓抽取层抽取存在关系的主语及谓语,所述宾语抽取层基于主语及谓语抽取相应的宾语,所述最终抽取层将存在关系的主语、谓语及相应的宾语为知识进行输出。
8.一种文本知识自动抽取装置,其特征在于,包括:
文档处理模块,用于:获取需要实现知识提取的全部文档均为待提取文档,并对每个所述待提取文档分别进行拆解,得到每个所述待提取文档包含的段落均为待抽取段落;
知识抽取模块,用于:通过Open-IE模型对每个所述待抽取段落进行知识抽取,得到每个所述待抽取段落中包含的第一信息及第二信息均为知识;其中,所述第一信息包括实体及实体间关系,所述第二信息包括实体及属性间关系、实体、属性;
知识输出模块,用于:将从每个所述待抽取段落中提取到的所述知识进行输出。
9.一种文本知识自动抽取设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述文本知识自动抽取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本知识自动抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011603742.5A CN112613315B (zh) | 2020-12-29 | 2020-12-29 | 一种文本知识自动抽取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011603742.5A CN112613315B (zh) | 2020-12-29 | 2020-12-29 | 一种文本知识自动抽取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112613315A true CN112613315A (zh) | 2021-04-06 |
CN112613315B CN112613315B (zh) | 2024-06-07 |
Family
ID=75249170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011603742.5A Active CN112613315B (zh) | 2020-12-29 | 2020-12-29 | 一种文本知识自动抽取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112613315B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312917A (zh) * | 2021-05-28 | 2021-08-27 | 国网江苏省电力有限公司电力科学研究院 | 一种基于知识推理的实体关系抽取方法及系统 |
CN113822599A (zh) * | 2021-10-27 | 2021-12-21 | 国网江苏省电力有限公司营销服务中心 | 一种基于分类树融合技术的电力行业政策管理方法 |
CN114154489A (zh) * | 2021-12-08 | 2022-03-08 | 重庆农村商业银行股份有限公司 | 一种三元组抽取方法、装置、设备及存储介质 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050108001A1 (en) * | 2001-11-15 | 2005-05-19 | Aarskog Brit H. | Method and apparatus for textual exploration discovery |
CN104156352A (zh) * | 2014-08-15 | 2014-11-19 | 苏州大学 | 一种中文事件的处理方法及系统 |
CN106156365A (zh) * | 2016-08-03 | 2016-11-23 | 北京智能管家科技有限公司 | 一种知识图谱的生成方法及装置 |
CN107247739A (zh) * | 2017-05-10 | 2017-10-13 | 浙江大学 | 一种基于因子图的金融公报文本知识提取方法 |
CN108021682A (zh) * | 2017-12-11 | 2018-05-11 | 西安交通大学 | 开放式信息抽取背景下一种基于维基百科的实体语义化方法 |
US10002129B1 (en) * | 2017-02-15 | 2018-06-19 | Wipro Limited | System and method for extracting information from unstructured text |
US20190122145A1 (en) * | 2017-10-23 | 2019-04-25 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus and device for extracting information |
CN109871428A (zh) * | 2019-01-30 | 2019-06-11 | 北京百度网讯科技有限公司 | 用于确定文本相关度的方法、装置、设备和介质 |
CN110110329A (zh) * | 2019-04-30 | 2019-08-09 | 湖南星汉数智科技有限公司 | 一种实体行为抽取方法、装置、计算机装置及计算机可读存储介质 |
CN110188347A (zh) * | 2019-04-29 | 2019-08-30 | 西安交通大学 | 一种面向文本的知识主题间认知关系抽取方法 |
CN110427623A (zh) * | 2019-07-24 | 2019-11-08 | 深圳追一科技有限公司 | 半结构化文档知识抽取方法、装置、电子设备及存储介质 |
CN110489395A (zh) * | 2019-07-27 | 2019-11-22 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 自动获取多源异构数据知识的方法 |
CN110555153A (zh) * | 2019-08-20 | 2019-12-10 | 暨南大学 | 一种基于领域知识图谱的问答系统及其构建方法 |
CN110598000A (zh) * | 2019-08-01 | 2019-12-20 | 达而观信息科技(上海)有限公司 | 一种基于深度学习模型的关系抽取及知识图谱构建方法 |
CN111144116A (zh) * | 2019-12-25 | 2020-05-12 | 国网江苏省电力有限公司电力科学研究院 | 一种文档知识结构化的抽取方法及装置 |
CN111241295A (zh) * | 2020-01-03 | 2020-06-05 | 浙江大学 | 基于语义句法交互网络的知识图谱关系数据抽取方法 |
CN111291185A (zh) * | 2020-01-21 | 2020-06-16 | 京东方科技集团股份有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN111581363A (zh) * | 2020-04-30 | 2020-08-25 | 北京百度网讯科技有限公司 | 知识抽取方法、装置、设备及存储介质 |
CN111832287A (zh) * | 2020-07-22 | 2020-10-27 | 广东工业大学 | 一种实体关系联合抽取方法及装置 |
CN111930784A (zh) * | 2020-07-23 | 2020-11-13 | 南京南瑞信息通信科技有限公司 | 一种电网知识图谱构建方法及其系统 |
-
2020
- 2020-12-29 CN CN202011603742.5A patent/CN112613315B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050108001A1 (en) * | 2001-11-15 | 2005-05-19 | Aarskog Brit H. | Method and apparatus for textual exploration discovery |
CN104156352A (zh) * | 2014-08-15 | 2014-11-19 | 苏州大学 | 一种中文事件的处理方法及系统 |
CN106156365A (zh) * | 2016-08-03 | 2016-11-23 | 北京智能管家科技有限公司 | 一种知识图谱的生成方法及装置 |
US10002129B1 (en) * | 2017-02-15 | 2018-06-19 | Wipro Limited | System and method for extracting information from unstructured text |
CN107247739A (zh) * | 2017-05-10 | 2017-10-13 | 浙江大学 | 一种基于因子图的金融公报文本知识提取方法 |
US20190122145A1 (en) * | 2017-10-23 | 2019-04-25 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus and device for extracting information |
CN108021682A (zh) * | 2017-12-11 | 2018-05-11 | 西安交通大学 | 开放式信息抽取背景下一种基于维基百科的实体语义化方法 |
CN109871428A (zh) * | 2019-01-30 | 2019-06-11 | 北京百度网讯科技有限公司 | 用于确定文本相关度的方法、装置、设备和介质 |
CN110188347A (zh) * | 2019-04-29 | 2019-08-30 | 西安交通大学 | 一种面向文本的知识主题间认知关系抽取方法 |
CN110110329A (zh) * | 2019-04-30 | 2019-08-09 | 湖南星汉数智科技有限公司 | 一种实体行为抽取方法、装置、计算机装置及计算机可读存储介质 |
CN110427623A (zh) * | 2019-07-24 | 2019-11-08 | 深圳追一科技有限公司 | 半结构化文档知识抽取方法、装置、电子设备及存储介质 |
CN110489395A (zh) * | 2019-07-27 | 2019-11-22 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 自动获取多源异构数据知识的方法 |
CN110598000A (zh) * | 2019-08-01 | 2019-12-20 | 达而观信息科技(上海)有限公司 | 一种基于深度学习模型的关系抽取及知识图谱构建方法 |
CN110555153A (zh) * | 2019-08-20 | 2019-12-10 | 暨南大学 | 一种基于领域知识图谱的问答系统及其构建方法 |
CN111144116A (zh) * | 2019-12-25 | 2020-05-12 | 国网江苏省电力有限公司电力科学研究院 | 一种文档知识结构化的抽取方法及装置 |
CN111241295A (zh) * | 2020-01-03 | 2020-06-05 | 浙江大学 | 基于语义句法交互网络的知识图谱关系数据抽取方法 |
CN111291185A (zh) * | 2020-01-21 | 2020-06-16 | 京东方科技集团股份有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN111581363A (zh) * | 2020-04-30 | 2020-08-25 | 北京百度网讯科技有限公司 | 知识抽取方法、装置、设备及存储介质 |
CN111832287A (zh) * | 2020-07-22 | 2020-10-27 | 广东工业大学 | 一种实体关系联合抽取方法及装置 |
CN111930784A (zh) * | 2020-07-23 | 2020-11-13 | 南京南瑞信息通信科技有限公司 | 一种电网知识图谱构建方法及其系统 |
Non-Patent Citations (4)
Title |
---|
RUI SUN等: "Open Domain Atomic Event Extraction via Double Propagation for Chinese Text", IEEE, 16 January 2017 (2017-01-16), pages 844 * |
吴呈等: "基于文本化简的实体属性抽取方法", 计算机工程与应用, vol. 56, no. 21, 17 September 2019 (2019-09-17), pages 115 * |
王汀;冀付军;徐天晟;: "一种面向中文网络百科非结构化信息的知识获取方法", 图书情报工作, vol. 60, no. 13, 5 July 2016 (2016-07-05), pages 126 * |
解涛: "精确Web信息抽取集成模型与关键技术研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 12, 15 December 2011 (2011-12-15), pages 139 - 166 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312917A (zh) * | 2021-05-28 | 2021-08-27 | 国网江苏省电力有限公司电力科学研究院 | 一种基于知识推理的实体关系抽取方法及系统 |
CN113822599A (zh) * | 2021-10-27 | 2021-12-21 | 国网江苏省电力有限公司营销服务中心 | 一种基于分类树融合技术的电力行业政策管理方法 |
CN114154489A (zh) * | 2021-12-08 | 2022-03-08 | 重庆农村商业银行股份有限公司 | 一种三元组抽取方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112613315B (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113486189B (zh) | 一种开放性知识图谱挖掘方法及系统 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN112613315B (zh) | 一种文本知识自动抽取方法、装置、设备及存储介质 | |
US10824816B2 (en) | Semantic parsing method and apparatus | |
CN113961685A (zh) | 信息抽取方法及装置 | |
WO2023040493A1 (zh) | 事件检测 | |
CN111126065A (zh) | 一种自然语言文本的信息提取方法及装置 | |
CN110008463B (zh) | 用于事件抽取的方法、装置和计算机可读介质 | |
CN111460162B (zh) | 一种文本分类方法、装置、终端设备及计算机可读存储介质 | |
CN112131881A (zh) | 信息抽取方法及装置、电子设备、存储介质 | |
CN112733547A (zh) | 一种利用语义依存分析的中文问句语义理解方法 | |
CN117828042A (zh) | 用于金融服务的问答处理方法、装置、设备及介质 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN112906391B (zh) | 元事件抽取方法、装置、电子设备和存储介质 | |
CN118152590B (zh) | 基于文本语料生成医疗知识图谱的方法及装置 | |
CN112818693A (zh) | 一种电子元器件型号词的自动提取方法及系统 | |
CN113515587B (zh) | 一种标的物信息提取方法、装置、计算机设备及存储介质 | |
CN109597879B (zh) | 一种基于“引文关系”数据的业务行为关系抽取方法及装置 | |
CN115146634A (zh) | 应急预案转化待办流程图的处理方法及相关装置 | |
CN113590768B (zh) | 一种文本关联度模型的训练方法及装置、问答方法及装置 | |
CN114154489A (zh) | 一种三元组抽取方法、装置、设备及存储介质 | |
CN117573956B (zh) | 元数据管理方法、装置、设备及存储介质 | |
CN117473980B (zh) | 一种便携式文档格式文件的结构化解析方法及相关产品 | |
CN113590804B (zh) | 视频主题生成的方法、装置及电子设备 | |
CN110674254B (zh) | 基于深度学习和统计提取模型的智能合同信息提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |