Nothing Special   »   [go: up one dir, main page]

CN113312917A - 一种基于知识推理的实体关系抽取方法及系统 - Google Patents

一种基于知识推理的实体关系抽取方法及系统 Download PDF

Info

Publication number
CN113312917A
CN113312917A CN202110592842.0A CN202110592842A CN113312917A CN 113312917 A CN113312917 A CN 113312917A CN 202110592842 A CN202110592842 A CN 202110592842A CN 113312917 A CN113312917 A CN 113312917A
Authority
CN
China
Prior art keywords
entity
paragraph
entity relationship
electric power
power overhaul
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110592842.0A
Other languages
English (en)
Inventor
刘子全
朱雪琼
杨景刚
胡成博
高山
马径坦
刘咏飞
赵科
付慧
路永玲
王真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Jiangsu Electric Power Co Ltd, Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202110592842.0A priority Critical patent/CN113312917A/zh
Publication of CN113312917A publication Critical patent/CN113312917A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Water Supply & Treatment (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于知识推理的实体关系抽取方法及系统,通过获取电力检修初始文档中的段落集合,并对段落集合进行预处理,然后将预处理后的段落集合输入预设实体关系抽取模型中,得到实体关系三元组集合,并对实体关系三元组集合进行标准化处理,再将标准化处理后的实体关系三元组集合进行段落还原,最终得到电力检修目标文档,由于在抽取实体关系时无需预先定义关系类型,因此可以有效提取包含在其中的实体之间的新关系事实,且覆盖范围更广,与现有技术相比,能够提升电力检修领域实体和关系挖掘广度,同时提高实体关系的整体抽取准确率。

Description

一种基于知识推理的实体关系抽取方法及系统
技术领域
本发明涉及电力系统技术领域,尤其涉及一种基于知识推理的实体关系抽取方法及系统。
背景技术
随着电力信息化建设的越来越完善,业务逻辑越来越复杂,电力设备管理的各业务部门已经建立相应的信息管理系统,并积累了大量的数据信息,挖掘电力检修领域的文档的知识,成为电力检修信息化建设的不可或缺的步骤。由于电力设备使用具有一定周期性,各种环境、温度、操作导致设备出现故障的概率也不同,通过挖掘现有的异常分析报告,可以清晰的了解出设备缺陷异常变化情况,帮助维护人员更好的制定检修计划,把被动检修转化为主动检修。
目前,在电力检修领域中,实体关系挖掘主要包括模式匹配方法和基于深度学习方法,第一种方法依赖句法抽取结果,对句式要求高,导致结果错误传播,直接影响抽取的准确率;第二种方法通常采用Pipelined方式,用序列标注方式抽取头实体和尾实体,然后对实体进行分类,这种方法虽然可以能够灵活抽取出实体,但是导致分类部分负样本太多,影响最终抽取结果。
公开于该背景技术部分的信息仅仅旨在加深对本发明总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成本领域技术人员所公知的现有技术。
发明内容
本发明的目的是:提供一种基于知识推理的实体关系抽取方法及系统,能够提升电力检修领域实体和关系挖掘广度,同时提高实体关系的整体抽取准确率。
为了达到上述目的,本发明一方面提供一种基于知识推理的实体关系抽取方法,包括:
获取电力检修初始文档中的段落集合;
对所述段落集合进行预处理;
将预处理后的所述段落集合输入预设实体关系抽取模型中,得到实体关系三元组集合;
对所述实体关系三元组集合进行标准化处理;
对标准化处理后的所述实体关系三元组集合进行段落还原,得到电力检修目标文档。
优选地,所述获取电力检修初始文档中的段落集合,包括:
基于预设规则,将电力检修初始文档中的段落与文档对齐,得到段落形式的电力检修初始文档;
获取所述段落形式的电力检修初始文档中的段落集合。
优选地,所述对所述段落集合进行预处理,包括:
对所述段落集合进行语法分析,修正语法错误的句子;
基于预设长度和标点符号,对语法分析后的所述段落集合进行分句,得到句子集合。
优选地,所述预设实体关系抽取模型采用基于预训练语言模型的联合建模方式直接抽取预处理后的所述段落集合中的实体-关系-实体以及实体-关系-属性,得到实体关系三元组集合;
其中,所述预设实体关系抽取模型包括编码层、实体关系抽取层、多头选择层、尾实体抽取层和三元组结果输出层。
优选地,所述标准化处理包括以下至少一种方式:
过滤停用词;
对关系进行规约;
实体长度过滤和属性长度过滤;
实体对齐和属性对齐。
本发明另一方面提供一种基于知识推理的实体关系抽取系统,包括:
段落集合获取模块,用于获取电力检修初始文档中的段落集合;
预处理模块,用于对所述段落集合进行预处理;
实体关系抽取模块,用于将预处理后的所述段落集合输入预设实体关系抽取模型中,得到实体关系三元组集合;
标准化处理模块,用于对所述实体关系三元组集合进行标准化处理;
段落还原模块,用于对标准化处理后的所述实体关系三元组集合进行段落还原,得到电力检修目标文档。
优选地,所述段落集合获取模块包括:
段落对齐单元,用于基于预设规则,将电力检修初始文档中的段落与文档对齐,得到段落形式的电力检修初始文档;
段落集合获取单元,用于获取所述段落形式的电力检修初始文档中的段落集合。
优选地,所述预处理模块包括:
语法修正单元,用于对所述段落集合进行语法分析,修正语法错误的句子;
分句单元,用于基于预设长度和标点符号,对语法分析后的所述段落集合进行分句,得到句子集合。
优选地,所述预设实体关系抽取模型采用基于预训练语言模型的联合建模方式直接抽取预处理后的所述段落集合中的实体-关系-实体以及实体-关系-属性,得到实体关系三元组集合;
其中,所述预设实体关系抽取模型包括编码层、实体关系抽取层、多头选择层、尾实体抽取层和三元组结果输出层。
优选地,所述标准化处理包括以下至少一种方式:
过滤停用词;
对关系进行规约;
实体长度过滤和属性长度过滤;
实体对齐和属性对齐。
本发明至少具有以下有益效果:
本发明通过获取电力检修初始文档中的段落集合,并对段落集合进行预处理,然后将预处理后的段落集合输入预设实体关系抽取模型中,得到实体关系三元组集合,并对实体关系三元组集合进行标准化处理,再将标准化处理后的实体关系三元组集合进行段落还原,最终得到电力检修目标文档,由于在抽取实体关系时无需预先定义关系类型,因此可以有效提取包含在其中的实体之间的新关系事实,且覆盖范围更广,与现有技术相比,能够提升电力检修领域实体和关系挖掘广度,同时提高实体关系的整体抽取准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于知识推理的实体关系抽取方法的流程示意图;
图2为本发明实施例中实体关系抽取模型的结构示意图;
图3为本发明实施例中基于知识推理的实体关系抽取系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的,并不表示是唯一的实施方式。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
请参阅图1,本发明实施例一方面提供一种基于知识推理的实体关系抽取方法,包括:
S110、获取电力检修初始文档中的段落集合。
本发明实施例中,预先收集电力检修领域的电力检修初始文档,并对电力检修初始文档进行拆解,从而获取电力检修初始文档中所有的段落集合。
S120、对段落集合进行预处理。
本发明实施例中,获取电力检修初始文档中所有的段落集合后,对段落集合进行预处理,保证下一步实体关系抽取的准确性,同时提高抽取效率。
S130、将预处理后的段落集合输入预设实体关系抽取模型中,得到实体关系三元组集合。
本发明实施例中,将预处理后的段落集合输入预设实体关系抽取模型进行推理,得到实体关系三元组集合,其中,实体关系三元组包括实体-关系-实体以及实体-关系-属性,可以定义为Subject-Predicate-Object。
S140、对实体关系三元组集合进行标准化处理。
本发明实施例中,通过实体关系抽取得到的实体关系三元组集合中,各个实体和关系规则不一,且包含重复内容,需要对实体关系三元组集合进行标准化处理,方便知识图谱构建。
S150、对标准化处理后的实体关系三元组集合进行段落还原,得到电力检修目标文档。
本发明实施例中,对实体关系三元组集合进行标准化处理后,将拆解后的句子进行还原,转化为原始段落形式,最终得到经过实体关系抽取后的电力检修目标文档,方便维护人员挖掘电力检修领域的文档的知识,了解出设备缺陷异常变化情况,从而更好地制定检修计划,把被动检修转化为主动检修。
以上可知,本发明实施例提供的基于知识推理的实体关系抽取方法,通过获取电力检修初始文档中的段落集合,并对段落集合进行预处理,然后将预处理后的段落集合输入预设实体关系抽取模型中,得到实体关系三元组集合,并对实体关系三元组集合进行标准化处理,再将标准化处理后的实体关系三元组集合进行段落还原,最终得到电力检修目标文档,由于在抽取实体关系时无需预先定义关系类型,因此可以有效提取包含在其中的实体之间的新关系事实,且覆盖范围更广,与现有技术相比,能够提升电力检修领域实体和关系挖掘广度,同时提高实体关系的整体抽取准确率。
作为本发明优选的实施例,步骤S110具体包括:
基于预设规则,将电力检修初始文档中的段落与文档对齐,得到段落形式的电力检修初始文档;
获取段落形式的电力检修初始文档中的段落集合。
本发明实施例中,预先收集电力检修领域的电力检修初始文档后,通过规则等方式把文本段落与原始文档对齐,尽量保证文本段落与原始文档的形式相同,最终把电力检修初始文档处理成段落形式,从而方便获取段落集合。
作为本发明优选的实施例,步骤S120包括:
对段落集合进行语法分析,修正语法错误的句子;
基于预设长度和标点符号,对语法分析后的段落集合进行分句,得到句子集合。
本发明实施例中,在获取的电力检修初始文档中的段落集合中,可能存在语法错误的句子,或存在容易产生歧义的句子,如部分句子缺少主语,或句子中的部分代词存在歧义等,需要对缺少主语的句子进行补全,以及对句子中存在歧义的代词进行替换等。然后将较长的段落依据一定的预设长度和标点符号进行拆分,把段落转换成句子集合。
作为本发明优选的实施例,在步骤S130中,预设实体关系抽取模型采用基于预训练语言模型的联合建模方式直接抽取预处理后的段落集合中的实体-关系-实体以及实体-关系-属性,得到实体关系三元组集合;
其中,预设实体关系抽取模型包括编码层、实体关系抽取层、多头选择层、尾实体抽取层和三元组结果输出层。
本发明实施例中,预设实体关系抽取模型主要采用基于预训练语言模型(BERT:Bidirectional Encoder Representation from Transformers)的联合建模方式直接抽取实体-关系-实体以及实体-关系-属性,即Subject-Predicate-Object。其中,预设实体关系抽取模型包括编码层(Encoder-Layer)、实体关系抽取层(SubPre-Layer)、多头选择层(MultiHead-Layer)、尾实体抽取层(Object-Layer)和三元组结果输出层(Triple-Result)。
具体的,请参阅图2,本发明实施例中实体关系抽取模型的结构示意图。
Encoder-Layer采用BERT作为特征提取层,以便更好的获取句子的上下文信息。
SubPre-Layer抽取所有可能的Subject和Predicate。我们采用Span的方式,分别抽取Subject和Predicate的开始位置和结束位置。其中,计算公式如下:
Pi start_s=sigmoid(Wstarthi+bstart)
Pi end_s=sigmoid(Wendhi+bend)
Pi start_p=sigmoid(Wstarthi+bstart)
Pi end_p=sigmoid(Wendhi+bend)
式中,Pi start_s代表句子中第i个token是Subject的开始位置的概率,Pi end_s代表句子中第i个token是Subject的结束位置的概率,Pi start_p代表句子中第i个token是Predicate的开始位置的概率,Pi end_p代表句子中第i个token是Predicate的结束位置的概率,hi代表句子中第i个token通过Bert之后的编码,W(.)代表模型待训练的权重,b(.)代表偏执。
MultiHead-Layer根据指定的Subject和Predicate,抽取出对应的Object。其中,计算公式如下:
Pi start_o=sigmoid(Wstart_o(hi,Vs,Vp)+bstart_o)
Pi end_o=sigmoid(Wend_o(hi,Vs,Vp)+bend_o)
式中,Pi start_o代表句子中第i个token是Object的开始位置的概率,Pi end_o代表句子中第i个token是Object的结束位置的概率,Vs代表Subject的首尾特征之和,Vp代表Predicate的首尾特征之和。
Triple-Result最后依据前几个步骤,抽取句子中最终的实体关系三元组(Subject,predicate,Object)集合。
例如,对于句子“电解式温度计测量范围应是1μL/L-1000μL/L。”,抽取出的实体关系三元组为(Subject:电解式温度计,Predicate:测量范围,Object:1μL/L-1000μL/L)。
本发明实施例中,由于采用联合建模的方式,不仅可以减少不同任务之间的误差传播,而且可以大大减少模型推理时间,提高自动抽取效率。
作为本发明优选的实施例,在步骤S140中,标准化处理包括以下至少一种方式:
过滤停用词;
对关系进行规约;
实体长度过滤和属性长度过滤;
实体对齐和属性对齐。
本发明实施例中,过滤停用词是指过滤完全没有用或者没有意义的词,例如助词、语气词等,将其忽略。对关系进行规约是指将关系按照一定的规则进行合并。实体长度过滤和属性长度过滤是指对长度超过一定字符长度的实体和属性进行过滤。实体对齐和属性对齐是指采用同义词词典把部分实体和属性聚集到一起,并与原始句子对齐。
为了进一步方便理解本发明实施例提供的技术方案,下面举例说明本发明实施例提供的基于知识推理的实体关系抽取方法的实际应用。
对于段落“瓷外套表面破损面积不允许超过40mm2,均压环表面午毛刺、平整光滑、表面凸起不应小于1mm。阻容式温度计测量范围应满足0℃至-60℃,其测量误差不应超过±2.0℃,流量调节不超过1L/min。”。
经过预处理后,拆解后的句子集合为:[“瓷外套表面破损面积不允许超过40mm2,均压环表面午毛刺、平整光滑、表面凸起不应小于1mm。”,“阻容式温度计测量范围应满足0℃至-60℃,其测量误差不应超过±2.0℃,流量调节不超过1L/min。”]。
将拆解后的句子集合输入到预设实体关系抽取模型中,得到的结果为:
Figure BDA0003089857620000071
Figure BDA0003089857620000081
本发明实施例另一方面提供一种基于知识推理的实体关系抽取系统,下文描述的该系统可以与上文描述的方法相互对应参照。
请参阅图3,该系统包括:
段落集合获取模块110,用于获取电力检修初始文档中的段落集合;
预处理模块120,用于对段落集合进行预处理;
实体关系抽取模块130,用于将预处理后的段落集合输入预设实体关系抽取模型中,得到实体关系三元组集合;
标准化处理模块140,用于对实体关系三元组集合进行标准化处理;
段落还原模块150,用于对标准化处理后的实体关系三元组集合进行段落还原,得到电力检修目标文档。
作为本发明优选的实施例,段落集合获取模块110包括:
段落对齐单元,用于基于预设规则,将电力检修初始文档中的段落与文档对齐,得到段落形式的电力检修初始文档;
段落集合获取单元,用于获取段落形式的电力检修初始文档中的段落集合。
作为本发明优选的实施例,预处理模块120包括:
语法修正单元,用于对段落集合进行语法分析,修正语法错误的句子;
分句单元,用于基于预设长度和标点符号,对语法分析后的段落集合进行分句,得到句子集合。
作为本发明优选的实施例,预设实体关系抽取模型采用基于预训练语言模型的联合建模方式直接抽取预处理后的段落集合中的实体-关系-实体以及实体-关系-属性,得到实体关系三元组集合;
其中,预设实体关系抽取模型包括编码层、实体关系抽取层、多头选择层、尾实体抽取层和三元组结果输出层。
作为本发明优选的实施例,标准化处理包括以下至少一种方式:
过滤停用词;
对关系进行规约;
实体长度过滤和属性长度过滤;
实体对齐和属性对齐。
以上可知,本发明实施例提供的基于知识推理的实体关系抽取系统,通过获取电力检修初始文档中的段落集合,并对段落集合进行预处理,然后将预处理后的段落集合输入预设实体关系抽取模型中,得到实体关系三元组集合,并对实体关系三元组集合进行标准化处理,再将标准化处理后的实体关系三元组集合进行段落还原,最终得到电力检修目标文档,由于在抽取实体关系时无需预先定义关系类型,因此可以有效提取包含在其中的实体之间的新关系事实,且覆盖范围更广,与现有技术相比,能够提升电力检修领域实体和关系挖掘广度,同时提高实体关系的整体抽取准确率。
本发明实施例提供的一种基于知识推理的实体关系抽取系统中相关部分的说明请参见本发明实施例提供的一种基于知识推理的实体关系抽取方法中对应部分的详细说明,且均具有本发明实施例提供的一种基于知识推理的实体关系抽取方法具有的对应效果,在此不再赘述。
上文中提到的基于知识推理的实体关系抽取系统是从功能模块的角度描述,进一步的,本发明实施例又一方面提供一种基于知识推理的实体关系抽取设备,是从硬件角度描述。
该设备包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述任意实施例提供的基于知识推理的实体关系抽取方法的步骤。
其中,处理器可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器还可以包括AI(ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器至少用于存储以下计算机程序,其中,该计算机程序被处理器加载并执行之后,能够实现前述任一实施例公开的基于知识推理的实体关系抽取方法的相关步骤。另外,存储器所存储的资源还可以包括操作系统和数据等,存储方式可以是短暂存储或者永久存储。其中,操作系统可以包括Windows、Unix、Linux等,数据可以包括但不限于测试结果对应的数据等。
可以理解的是,如果上述任意实施例提供的基于知识推理的实体关系抽取方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
有鉴于此,本发明实施例又一方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述任意实施例提供的基于知识推理的实体关系抽取方法的步骤。
本发明实施例提供的计算机可读存储介质的各功能模块的功能可根据上述任意方法实施例中的方法具体实现,其具体实现过程可以参照上述任意方法实施例的相关描述,此处不再赘述。
本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种基于知识推理的实体关系抽取方法,其特征在于,包括:
获取电力检修初始文档中的段落集合;
对所述段落集合进行预处理;
将预处理后的所述段落集合输入预设实体关系抽取模型中,得到实体关系三元组集合;
对所述实体关系三元组集合进行标准化处理;
对标准化处理后的所述实体关系三元组集合进行段落还原,得到电力检修目标文档。
2.根据权利要求1所述的基于知识推理的实体关系抽取方法,其特征在于,所述获取电力检修初始文档中的段落集合,包括:
基于预设规则,将电力检修初始文档中的段落与文档对齐,得到段落形式的电力检修初始文档;
获取所述段落形式的电力检修初始文档中的段落集合。
3.根据权利要求2所述的基于知识推理的实体关系抽取方法,其特征在于,所述对所述段落集合进行预处理,包括:
对所述段落集合进行语法分析,修正语法错误的句子;
基于预设长度和标点符号,对语法分析后的所述段落集合进行分句,得到句子集合。
4.根据权利要求3所述的基于知识推理的实体关系抽取方法,其特征在于,所述预设实体关系抽取模型采用基于预训练语言模型的联合建模方式直接抽取预处理后的所述段落集合中的实体-关系-实体以及实体-关系-属性,得到实体关系三元组集合;
其中,所述预设实体关系抽取模型包括编码层、实体关系抽取层、多头选择层、尾实体抽取层和三元组结果输出层。
5.根据权利要求1所述的基于知识推理的实体关系抽取方法,其特征在于,所述标准化处理包括以下至少一种方式:
过滤停用词;
对关系进行规约;
实体长度过滤和属性长度过滤;
实体对齐和属性对齐。
6.一种基于知识推理的实体关系抽取系统,其特征在于,包括:
段落集合获取模块,用于获取电力检修初始文档中的段落集合;
预处理模块,用于对所述段落集合进行预处理;
实体关系抽取模块,用于将预处理后的所述段落集合输入预设实体关系抽取模型中,得到实体关系三元组集合;
标准化处理模块,用于对所述实体关系三元组集合进行标准化处理;
段落还原模块,用于对标准化处理后的所述实体关系三元组集合进行段落还原,得到电力检修目标文档。
7.根据权利要求6所述的基于知识推理的实体关系抽取系统,其特征在于,所述段落集合获取模块包括:
段落对齐单元,用于基于预设规则,将电力检修初始文档中的段落与文档对齐,得到段落形式的电力检修初始文档;
段落集合获取单元,用于获取所述段落形式的电力检修初始文档中的段落集合。
8.根据权利要求7所述的基于知识推理的实体关系抽取系统,其特征在于,所述预处理模块包括:
语法修正单元,用于对所述段落集合进行语法分析,修正语法错误的句子;
分句单元,用于基于预设长度和标点符号,对语法分析后的所述段落集合进行分句,得到句子集合。
9.根据权利要求7所述的基于知识推理的实体关系抽取系统,其特征在于,所述预设实体关系抽取模型采用基于预训练语言模型的联合建模方式直接抽取预处理后的所述段落集合中的实体-关系-实体以及实体-关系-属性,得到实体关系三元组集合;
其中,所述预设实体关系抽取模型包括编码层、实体关系抽取层、多头选择层、尾实体抽取层和三元组结果输出层。
10.根据权利要求9所述的基于知识推理的实体关系抽取系统,其特征在于,所述标准化处理包括以下至少一种方式:
过滤停用词;
对关系进行规约;
实体长度过滤和属性长度过滤;
实体对齐和属性对齐。
CN202110592842.0A 2021-05-28 2021-05-28 一种基于知识推理的实体关系抽取方法及系统 Pending CN113312917A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110592842.0A CN113312917A (zh) 2021-05-28 2021-05-28 一种基于知识推理的实体关系抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110592842.0A CN113312917A (zh) 2021-05-28 2021-05-28 一种基于知识推理的实体关系抽取方法及系统

Publications (1)

Publication Number Publication Date
CN113312917A true CN113312917A (zh) 2021-08-27

Family

ID=77375944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110592842.0A Pending CN113312917A (zh) 2021-05-28 2021-05-28 一种基于知识推理的实体关系抽取方法及系统

Country Status (1)

Country Link
CN (1) CN113312917A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822599A (zh) * 2021-10-27 2021-12-21 国网江苏省电力有限公司营销服务中心 一种基于分类树融合技术的电力行业政策管理方法
CN114154489A (zh) * 2021-12-08 2022-03-08 重庆农村商业银行股份有限公司 一种三元组抽取方法、装置、设备及存储介质
JP7466158B2 (ja) 2022-07-28 2024-04-12 株式会社Tokium プログラム、コンピュータおよび情報処理方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156365A (zh) * 2016-08-03 2016-11-23 北京智能管家科技有限公司 一种知识图谱的生成方法及装置
CN107330125A (zh) * 2017-07-20 2017-11-07 云南电网有限责任公司电力科学研究院 基于知识图谱技术的海量非结构化配网数据集成方法
CN108460136A (zh) * 2018-03-08 2018-08-28 国网福建省电力有限公司 电力运维信息知识图谱构建方法
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN109543043A (zh) * 2018-05-10 2019-03-29 国网江西省电力有限公司信息通信分公司 一种基于知识图谱推理的电力通信大数据错误的自动监测方法
CN110245131A (zh) * 2019-06-05 2019-09-17 江苏瑞中数据股份有限公司 一种知识图谱中实体对齐方法、系统及其存储介质
CN112231494A (zh) * 2020-12-16 2021-01-15 完美世界(北京)软件科技发展有限公司 信息抽取方法、装置、电子设备及存储介质
CN112528043A (zh) * 2020-12-18 2021-03-19 中国南方电网有限责任公司 一种基于知识图谱的电网检修单结构化存储方法及系统
CN112613315A (zh) * 2020-12-29 2021-04-06 重庆农村商业银行股份有限公司 一种文本知识自动抽取方法、装置、设备及存储介质
CN112612902A (zh) * 2020-12-23 2021-04-06 国网浙江省电力有限公司电力科学研究院 一种电网主设备的知识图谱构建方法及设备
CN112699681A (zh) * 2020-12-17 2021-04-23 国网冀北电力有限公司信息通信分公司 基于知识图谱的电力通信系统缺陷故障派单方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156365A (zh) * 2016-08-03 2016-11-23 北京智能管家科技有限公司 一种知识图谱的生成方法及装置
CN107330125A (zh) * 2017-07-20 2017-11-07 云南电网有限责任公司电力科学研究院 基于知识图谱技术的海量非结构化配网数据集成方法
CN108460136A (zh) * 2018-03-08 2018-08-28 国网福建省电力有限公司 电力运维信息知识图谱构建方法
CN109543043A (zh) * 2018-05-10 2019-03-29 国网江西省电力有限公司信息通信分公司 一种基于知识图谱推理的电力通信大数据错误的自动监测方法
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN110245131A (zh) * 2019-06-05 2019-09-17 江苏瑞中数据股份有限公司 一种知识图谱中实体对齐方法、系统及其存储介质
CN112231494A (zh) * 2020-12-16 2021-01-15 完美世界(北京)软件科技发展有限公司 信息抽取方法、装置、电子设备及存储介质
CN112699681A (zh) * 2020-12-17 2021-04-23 国网冀北电力有限公司信息通信分公司 基于知识图谱的电力通信系统缺陷故障派单方法及装置
CN112528043A (zh) * 2020-12-18 2021-03-19 中国南方电网有限责任公司 一种基于知识图谱的电网检修单结构化存储方法及系统
CN112612902A (zh) * 2020-12-23 2021-04-06 国网浙江省电力有限公司电力科学研究院 一种电网主设备的知识图谱构建方法及设备
CN112613315A (zh) * 2020-12-29 2021-04-06 重庆农村商业银行股份有限公司 一种文本知识自动抽取方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822599A (zh) * 2021-10-27 2021-12-21 国网江苏省电力有限公司营销服务中心 一种基于分类树融合技术的电力行业政策管理方法
CN114154489A (zh) * 2021-12-08 2022-03-08 重庆农村商业银行股份有限公司 一种三元组抽取方法、装置、设备及存储介质
JP7466158B2 (ja) 2022-07-28 2024-04-12 株式会社Tokium プログラム、コンピュータおよび情報処理方法

Similar Documents

Publication Publication Date Title
US20220004714A1 (en) Event extraction method and apparatus, and storage medium
CN113312917A (zh) 一种基于知识推理的实体关系抽取方法及系统
CN113705187A (zh) 预训练语言模型的生成方法、装置、电子设备和存储介质
US20230011678A1 (en) Method for predicting protein-protein interaction
CN109726293A (zh) 一种因果事件图谱构建方法、系统、装置及存储介质
CN111126065A (zh) 一种自然语言文本的信息提取方法及装置
CN112541070B (zh) 槽位更新语料的挖掘方法、装置、电子设备和存储介质
CN116561538A (zh) 问答评分方法、问答评分装置、电子设备及存储介质
CN115238029A (zh) 一种电力故障知识图谱的构建方法和装置
CN114281968B (zh) 一种模型训练及语料生成方法、装置、设备和存储介质
CN112507118A (zh) 信息分类抽取方法、装置和电子设备
CN112613315A (zh) 一种文本知识自动抽取方法、装置、设备及存储介质
CN114722774B (zh) 数据压缩方法、装置、电子设备及存储介质
CN118378631B (zh) 文本审查方法、装置、设备及存储介质
CN112989797B (zh) 模型训练、文本扩展方法,装置,设备以及存储介质
CN113392220B (zh) 一种知识图谱生成方法、装置、计算机设备及存储介质
CN113641724A (zh) 知识标签挖掘方法、装置、电子设备及存储介质
CN112287077A (zh) 用于文档的结合rpa和ai的语句提取方法、装置、存储介质及电子设备
CN117891958A (zh) 一种基于知识图谱的标准数据处理方法
CN117038099A (zh) 医疗类术语标准化方法以及装置
CN115983383A (zh) 面向电力设备的实体关系抽取方法及相关装置
CN113724738B (zh) 语音处理方法、决策树模型训练方法、装置、设备及存储介质
CN115292506A (zh) 应用于办公领域的知识图谱本体构建方法和装置
CN113033179A (zh) 知识获取方法、装置、电子设备及可读存储介质
CN111325016A (zh) 一种文本处理方法、系统、设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination