CN112905804B - 一种电网调度知识图谱的动态更新方法及装置 - Google Patents
一种电网调度知识图谱的动态更新方法及装置 Download PDFInfo
- Publication number
- CN112905804B CN112905804B CN202110196210.2A CN202110196210A CN112905804B CN 112905804 B CN112905804 B CN 112905804B CN 202110196210 A CN202110196210 A CN 202110196210A CN 112905804 B CN112905804 B CN 112905804B
- Authority
- CN
- China
- Prior art keywords
- power grid
- entity
- data
- dictionary
- grid dispatching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000011218 segmentation Effects 0.000 claims abstract description 33
- 238000013507 mapping Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 44
- 238000000605 extraction Methods 0.000 claims description 22
- 238000002372 labelling Methods 0.000 claims description 15
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000012423 maintenance Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000012552 review Methods 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract description 9
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 11
- 241000152447 Hades Species 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000012950 reanalysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种电网调度知识图谱的动态更新方法及装置,用于解决电网调度知识图谱和大量新增电网调度知识的同步问题。本发明包括如下步骤:首先对于电网调度中需更新的数据,统一为Json文件格式;接着结合领域实体词典的分词包对语句进行中文分词;然后使用基于RoBERTa_base_e‑BiLSTM‑CRF模型的命名实体识别模型识别电网实体词,并实体等价映射至电网核心词典的标准词;再使用训练好的关系识别模型识别实体间的关系,生成三元组并校验;最终将生成的三元组更新入知识图谱。本发明保证调度优化决策图谱的灵活适应性与时效性,有利于调控决策领域长期积累的调度知识和经验的共享和传承。
Description
技术领域
本发明属于电网调度技术领域,具体涉及一种电网调度知识图谱的动态更新方法及装置。
背景技术
电力系统有功调度是保证系统安全高效运行的基础,分为日前调度、日内调度和实时控制三个环节。在日前和日内阶段,通常以优化周期内的运行经济性为目标,根据新能源及负荷预测结果,通过安全约束机组组合(Security-Constrained Unit Commitment,SCUC)和安全约束经济调度(Security-Constrained Economic Dispatch,SCED)制定多时段的机组开停机计划和发电计划,实现供需平衡配置,这一过程遵循的是优化建模的思路。在当前能源变革与电力市场改革的新形势下,随着可再生能源、柔性负荷、储能等资源渗透率不断增加,电网调度对象类型和数量呈指数级增加,电网运行方式的不确定性显著增加,调度优化决策也更为复杂。受制于预测误差、边界条件、数学模型、优化算法等条件限制,在实际调度中时常出现分析结果与实际电网情况差异较大、优化结果无解或求解时间过长等问题。在市场环境下,由于新能源和负荷预测不准确问题尚无法避免(新能源预测误差常高达30%~50%),上述制约因素依然存在,导致软件优化前后需要做大量的人工调整。以宁夏电网为例,近年来,受光伏电价调整和宁夏风电预警转“绿色”影响,宁夏新能源出现大规模增长,部分断面长期接近稳定极限运行,同时考虑冬季供暖、检修等问题,电网调度不再是简单的多目标优化计算,而是依据调度软件计算结果人工再分析、调整和验证的过程,人工决策的过程常常花费较长时间,效率较低,电力系统最优调度决策的复杂度急遽增加。
发明内容
本发明的目的在于克服现有技术中的不足,提供了一种基于电网调度的知识图谱动态更新方法及装置,解决了现有技术中调度系统智能化水平不足的技术问题。
为解决上述技术问题,本发明采用的技术方案如下:
本发明实施例提供一种电网调度知识图谱动态更新方法,包括:
解析电网调度中需更新的数据,将数据转换为统一格式;
提取统一格式后的电网调度数据,进行中文分词;
采用训练好的命名实体识别模型识别中文分词后的电网调度数据中的实体词,并进行实体抽取;
采用训练好的实体关系识别模型对实体间的关系进行抽取,生成实体-关系-实体三元组;
基于生成的实体-关系-实体三元组对电网调度知识图谱进行更新。
进一步的,所述解析电网调度中需更新的数据,将数据转换为统一格式,包括:
对于结构化数据从电网实时数据库中导出,采用规则化提取方式直接生成实体-关系-实体三元组存入知识图谱;所述结构化数据包括:负荷预测数据、新能源预测数据和安全约束断面;
对于非结构化的文本数据,采用数据清洗和接口转化的方式对文本内容进行遍历,并根据篇章结构将文本进行划分,将docx文档转化为Json文件;所述非结构化的文本数据包括:联络线计划、检修计划、电网运行方式和电网异常事件。
进一步的,所述提取统一格式后的电网调度数据,进行中文分词,包括:
构建领域实体词典;
将领域实体词典加入到jieba词典内,对电网调度数据进行中文分词。
进一步的,所述领域实体词典包括核心词典和扩展词典,所述核心词典包括电网调度知识的标准词,所述扩展词典包括扩展的电网非标准词;
所述构建领域实体词典,包括:
采用基于深度神经网络的命名实体识别对电网实体、调度事件和电网属性进行自动标引;
基于结合电力业务模型的关联度分类对电网实体按照变电站、电厂、线路、主变、母线、开关、断路器和机组进行分类;
基于核心词典对分类后的电网实体进行校验匹配;
将校验的异常结果提交人工审核,构建扩展词典。
进一步的,训练命名实体识别模型,包括:
收集电网调度原始文本数据并进行语料分割;
按照电网设备、调度事件、电网属性和无实义对分割后的语料进行标注;
将标注好的语料按照8:1:1划分成训练集、验证集和测试集;
基于中文预训练开源模型RoBERTa_base对训练集进行训练,构建命名实体识别模型。
进一步的,所述收集电网调度原始文本数据并进行语料分割,包括:
以“,”、“。”、“;”、“:”、“(”和“)”作为分隔符,对文本数据进行切块分割,生成语料。
进一步的,所述按照电网设备、调度事件、电网属性和无实义对分割后的语料进行标注,包括:
采用BIO标注对语料以中文字、英文词为一个单位进行标注,包括:
B-X、I-X和O三种形式;
其中,B和I代表标记字在语料中的位置,B代表开头,I代表中间,X为实体符号,电网设备的实体符号为DD,调度事件的实体符号为DE,电网属性的实体符号为DA;O为非实体。
进一步的,所述进行实体抽取,包括:
将命名实体识别模型识别后的实体词,与领域实体词典中的实体词一一映射,提取对应的领域实体词典中的实体词。
进一步的,训练实体关系识别模型包括:
基于预先确定的全局关系,对积累的电网调度计划文本中的实体进行关系标注;
基于卷积神经网络训练标注好的实体关系,得到实体关系识别模型。
本发明实施例还提供一种电网调度知识图谱动态更新装置,包括:
解析模块,用于解析电网调度中需更新的数据,将数据转换为统一格式;
分词模块,用于提取统一格式后的电网调度数据,进行中文分词;
识别模块,用于采用训练好的命名实体识别模型识别中文分词后的电网调度数据中的实体词,并进行实体抽取;
关系抽取模块,用于采用训练好的实体关系识别模型对实体间的关系进行抽取,生成实体-关系-实体三元组;
以及,
更新模块,用于基于生成的实体-关系-实体三元组对电网调度知识图谱进行更新。
进一步的,所述解析模块具体用于,
对于结构化数据从电网实时数据库中导出,采用规则化提取方式直接生成实体-关系-实体三元组存入知识图谱;所述结构化数据包括:负荷预测数据、新能源预测数据和安全约束断面;
对于非结构化的文本数据,采用数据清洗和接口转化的方式对文本内容进行遍历,并根据篇章结构将文本进行划分,将docx文档转化为Json文件;所述非结构化的文本数据包括:联络线计划、检修计划、电网运行方式和电网异常事件。
进一步的,所述识别模块还用于,
收集电网调度原始文本数据并进行语料分割;
按照电网设备、调度事件、电网属性和无实义对分割后的语料进行标注;
将标注好的语料按照8:1:1划分成训练集、验证集和测试集;
基于中文预训练开源模RoBERTa_base对训练集进行训练,构建命名实体识别模型。
进一步的,所述关系抽取模块还用于,
基于预先确定的全局关系,对积累的电网调度计划文本中的实体进行关系标注;
基于卷积神经网络训练标注好的实体关系,得到实体关系识别模型。
本发明的有益效果为:
本发明提供了一种基于电网调度的知识图谱动态更新方法,通过将电网调度中需更新的数据统一为Json文件格式,再基于领域实体词典进行中文分词,基于RoBERTa_base_e-BiLSTM-CRF模型进行实体识别,基于深度学习模型进行实体关系抽取,最终生成实体-关系-实体三元组,对电网调度知识图谱进行更新,解决了电网调度知识图谱和大量新增电网调度知识的自动同步更新问题,保证调度优化决策图谱的灵活适应性与时效性,有利于调控决策领域长期积累的调度知识和经验的共享和传承。
附图说明
图1为本发明实施实例提供的电网调度知识图谱的动态更新方法示意图;
图2为本发明实施实例提供的主题词典构建示意图;
图3为本发明实施实例提供的实体等价映射流程示意图。
具体实施方式
下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明实施例提供一种电网调度知识图谱动态更新方法,参见图1,包括以下5个步骤:
(1)解析源数据:对于电网调度中需更新的数据,分析有用信息,统一处理成Json文件格式;
调度优化决策涉及负荷预测数据、新能源预测数据、联络线计划、检修计划、电网运行方式、安全约束断面、电网异常事件等多元异构数据,其中,负荷预测数据、新能源预测数据、安全约束断面为结构化数据,联络线计划、检修计划、电网运行方式和电网异常事件为文本类的非结构化数据。
对于结构化数据可从电网实时数据库中导出,此类数据使用规则化提取,直接生成三元组并存入知识图谱。
对于非结构化的文本数据采用数据清洗和接口转化技术的方式对文档内容的遍历,之后根据每个文档的篇章结构将文档划分,从而将docx文档转化为Json文件,解决原始数据格式不统一的问题。
(2)针对提取的电网调度数据,结合电网领域词典的jieba分词对语句进行中文分词;
领域实体词典包括核心词典和扩展词典,核心词典包括电网调度知识的标准词,如电力术语、电网模型,扩展词典包括新增扩展数据出现的电网非标准词,如核心词典词的别名/组合词,例如“阎黄4681/82双线”是“阎黄4681线”和“阎黄4682线”的组合词。
首先将输入的语句使用jieba进行中文分词,分词使用精确分词模式,同时将领域实体词典加入到jieba词典内,保证电网领域的实体词不被错分。
领域实体词典构建的整体思路如图2所示,包括,
利用基于深度神经网络的命名实体识别技术,实现电网实体、事件、属性的自动标引;
利用结合电力业务模型的关联度分类技术,实现电网实体词以变电站、电厂、线路、主变、母线、开关、断路器、机组8类概念的分类;
利用基于核心词典的正确性校验技术,实现对电网实体词的校验匹配;
最终将校验的异常结果提交人工审核,由非核心词典词构建扩展词典。
(3)基于BERT语义模型进行调度实体自动识别及抽取
对于上述处理过后格式统一的数据,实现全时段、自动化、高精准的调度实体抽取,具体步骤如下:
(31)使用训练好的命名实体识别模型识别电网实体词,
本方法使用RoBERTa_base(基于大规模中文通用语料训练的开源模型)-BiLSTM(双向长短时间记忆)-CRF(条件随机场)模型用于命名实体识别。将上述分词过后的实体词使用训练后的命名实体识别模型RoBERTa_base_e模型进行实体识别,调度领域实体识别主要识别电力调度领域的标准实体,实体分类如下:电网设备、调度事件、电网属性和无实义,词性分别标注为DD、DE、DA、O,其中电网设备可细分为以下几类:变电站、电厂、线路、主变、母线、开关、断路器、机组。
为了更加适配电网调度文本的理解,在RoBERTa_base的基础上,利用大量的电力语料进行迁移学习,微调RoBERTa_base模型的参数,训练出适用电力语料的语言模型RoBERTa_base_e。
训练RoBERTa_base_e的步骤如下:
a.原始语料分割:人工阅读原始文本数据,总结句子切割规则,再对原始文本进行分割。本实施例中以“,”、“。”、“;”、“:”、“(”、“)”符号作为分隔符,对原始文本进行切块分割,生成语料。
b.语料标注:识别目标定为变电站、电厂、线路、主变、母线、开关、断路器、机组、调度事件、电网属性10类。为保证训练模型的识别精度,将变电站、电厂、线路、主变、母线、开关、断路器、机组归为电网设备,因此将识别目标类别定为电网设备、调度事件、电网属性和无实义,对应符号为DD(电网设备)、DE(调度事件)、DA(电网属性)、O(无实义)。在此采用BIO标注对基础语料以中文字、英文词为一个单位进行标注。将X表示为实体符号,则BIO的三个标记为:①B-X:实体开头;②I-X:实体中间;③O:非实体,无意义词。B和I代表标记字在词中的位置,B代表开头,I代表中间。
三种类别对应标注标签如下:
开头标签 | 中间标签 | |
电网实体 | B-DD | I-DD |
调度事件 | B-DE | I-DE |
电网属性 | B-DA | I-DA |
在语句对每个字进行标记,例如“东桥变”为电网实体,“东”标记为B-DD,“桥”和“变”都标记为I-DD。
c.命名实体识别模型训练
首先使用大量电力语料进行RoBERTa_base迁移学习,微调RoBERTa_base模型的参数,训练出适用电力语料的语言模型RoBERTa_base_e。其中RoBERTa_base是基于大规模中文通用语料训练的开源模型,电力语料来自于制作好的领域实体词典。
然后将上述训练过的语料按照8:1:1划分成训练集、验证集、测试集,使用电力语料理解的语言模型RoBERTa_base_e,对命名实体识别模型RoBERTa_base_e-BiLSTM-CRF使用训练集进行训练。
(32)将识别出的电网实体词等价映射至电网核心词典的标准词,完成更新数据的实体抽取,
实体等价映射的目的是将命名实体识别后的实体词,与电网调度领域词典的实体词一一映射起来,解决同实体名称不一致的问题。针对8类电网设备,总共提出映射的12条规则。
12条规则具体为:
1.主变、间隔、断路器、母线、开关、刀闸首先定位在厂站上,杆、塔定位到线路上;
2.映射首先定位到厂站/线路,根据(#1#2)、设备类型和受控对象(根据受控对象的关联关系)映射具体设备;
3.厂站的区分规则,含有词:变(不含主变)、风电、核电、电厂、厂、燃机、机;
4.线路区分规则:根据词末尾关键词:线、双线、三线;
5.带有#标识则按照#区分,#前面部分为厂站/线路;
6.线路的固定范式:“堡吴2W73线”“新渡5116线”;
7.双线的三种范式:“堡吴2W73/74线”“新渡5115/5116线”“周庄-任庄双线”;
8.三线范式:“堡吴2W73/74/75线”“新渡5114/5115/5116线”“周庄-任庄三线”;
9.变电站含有三种形式:全称、简称、带路径全程;
10.地名根据语义可以映射到厂站;
11.映射到具体设备,具体设备标识为#1、#2(#1、2)(1号);
12.母线主变带有电压等级信息,可根据电压等级信息。
以电气缺陷日志为例,如图3所示,三条文本中会出现黄阎4681/4682双线、阎黄4681/82双线、黄阎双线等三种双线写法,基于之前研究的结论,已知电网实体词汇的类别,再利用对应的7类规则中总结的线路规则,通过识别线路规则确定线路是单线、双线或者三线,这里由“双线”确定是两条线,由识别合称规则找到对应的两个厂站的合称简写,找到“阎黄”、“黄阎”,再由词义匹配找到核心词典的“黄阎”,结合知识图谱由“黄阎”找到关联的两条线路,最终映射到核心词汇江苏.黄阎4681线、江苏.黄阎4682线。
对于新的映射到核心词汇的实体词,映射后加入扩展词典中并与对应的核心词产生映射关系,便于之后的实体映射。
(4)基于深度学习模型进行调度实体间关系抽取
使用训练好的关系识别模型识别实体间的关系,生成“实体-关系-实体”的三元组并校验;
a.抽取调度计划文本中的所有关系对,总结全局关系;
b.基于全局实体关系研究结论,面向调度计划文本中实体的关系识别方法,建立调度实体之间的关系;
c.基于知识图谱的关系校核,实现调度实体的关系校验,提升关系抽取的可信度。
面向调度计划文本数据的全局关系抽取方法,基于自然语言处理技术,结合语形特征和语义特征自动地在语料库中对实体进行关系识别,无需事先人为制定关系类型。主要流程如下:
(1)首先使用实体之间的距离限制和关系指示词的位置限制自动获取候选关系三元组,利用朴素贝叶斯分类器训练已标注可信和不可信的关系三元组构建关系表示模型;
(2)利用关系表示模型及词性、序列等特征等数据,在训练好的分类器上进行关系识别,获取候选关系三元组;
(3)合并候选关系三元组,通过统计的方法计算各个关系三元组的可信度,并人工校核。
(4)人工确定三元组的关系类型,总结出全局关系。
基于已知的全局实体关系集合,研究调度计划文本中调度实体的关系识别方法,建立调度实体之间的关系。关系识别方法采用有监督的学习方法,主要步骤如下:
基于全局关系,对积累的调度计划文本中的实体关系进行标注;
基于标注好的语料训练基于卷积神经网络的关系识别模型;
基于训练好的关系识别模型,用于未标注文本的调度实体关系识别。
最后,基于实体关系的识别结果,结合知识图谱校核实体关系,保证实体关系的一致性。基于抽取的关系类型,结合概念图谱,校验关系类型是否存在于概念图谱的关系集合中,若不存在则要提示人工审核。若抽取的关系类型存在于概念图谱的关系集合中,则要通过实体语义特征搜索到图谱中相匹配实体,若匹配到的实体关系不一致,则要提示人工审核。
(5)基于三元组更新电网调度知识图谱
审核过后生成“实体-关系-实体”或者“实体-关系-属性”的三元组作为图谱更新的元数据,存入之前构建的知识图谱之中。
存储数据库采用开源图数据库Neo4j。
本发明实施例还提供一种电网调度知识图谱动态更新装置,包括:
解析模块,用于解析电网调度中需更新的数据,将数据转换为统一格式;
分词模块,用于提取统一格式后的电网调度数据,进行中文分词;
识别模块,用于采用训练好的命名实体识别模型识别中文分词后的电网调度数据中的实体词,并进行实体抽取;
关系抽取模块,用于采用训练好的实体关系识别模型对实体间的关系进行抽取,生成实体-关系-实体三元组;
以及,
更新模块,用于基于生成的实体-关系-实体三元组对电网调度知识图谱进行更新。
具体的,解析模块用于,
对于结构化数据从电网实时数据库中导出,采用规则化提取方式直接生成实体-关系-实体三元组存入知识图谱;所述结构化数据包括:负荷预测数据、新能源预测数据和安全约束断面;
对于非结构化的文本数据,采用数据清洗和接口转化的方式对文本内容进行遍历,并根据篇章结构将文本进行划分,将docx文档转化为Json文件;所述非结构化的文本数据包括:联络线计划、检修计划、电网运行方式和电网异常事件。
具体的,识别模块还用于,
收集电网调度原始文本数据并进行语料分割;
按照电网设备、调度事件、电网属性和无实义对分割后的语料进行标注;
将标注好的语料按照8:1:1划分成训练集、验证集和测试集;
基于中文预训练开源模RoBERTa_base对训练集进行训练,构建命名实体识别模型。
具体的,关系抽取模块还用于,
基于预先确定的全局关系,对积累的电网调度计划文本中的实体进行关系标注;
基于卷积神经网络训练标注好的实体关系,得到实体关系识别模型。
值得指出的是,该装置实施例是与上述方法实施例对应的,上述方法实施例的实现方式均适用于该装置实施例中,并能达到相同或相似的技术效果,故不在此赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (11)
1.一种电网调度知识图谱动态更新方法,其特征在于,包括:
解析电网调度中需更新的数据,将数据转换为统一格式;
提取统一格式后的电网调度数据,进行中文分词,包括:构建领域实体词典;将领域实体词典加入到jieba词典内,对统一格式后的电网调度数据进行中文分词;所述领域实体词典包括核心词典和扩展词典,所述核心词典包括电网调度知识的标准词,所述扩展词典包括扩展的电网非标准词;
所述构建领域实体词典,包括:采用基于深度神经网络的命名实体识别对电网实体、调度事件和电网属性进行自动标引;基于结合电力业务模型的关联度分类对电网实体按照变电站、电厂、线路、主变、母线、开关、断路器和机组进行分类;基于核心词典对分类后的电网实体进行校验匹配;将校验的异常结果提交人工审核,构建扩展词典;
采用训练好的命名实体识别模型识别中文分词后的电网调度数据中的实体词,并进行实体抽取;
采用训练好的实体关系识别模型对实体间的关系进行抽取,生成实体-关系-实体三元组;
基于生成的实体-关系-实体三元组对电网调度知识图谱进行更新。
2.根据权利要求1所述的一种电网调度知识图谱动态更新方法,其特征在于,所述解析电网调度中需更新的数据,将数据转换为统一格式,包括:
对于结构化数据从电网实时数据库中导出,采用规则化提取方式直接生成实体-关系-实体三元组存入知识图谱;所述结构化数据包括:负荷预测数据、新能源预测数据和安全约束断面;
对于非结构化的文本数据,采用数据清洗和接口转化的方式对文本内容进行遍历,并根据篇章结构将文本进行划分,将docx文档转化为Json文件;所述非结构化的文本数据包括:联络线计划、检修计划、电网运行方式和电网异常事件。
3.根据权利要求1所述的一种电网调度知识图谱动态更新方法,其特征在于,训练命名实体识别模型,包括:
收集电网调度原始文本数据并进行语料分割;
按照电网设备、调度事件、电网属性和无实义对分割后的语料进行标注;
将标注好的语料按照8:1:1划分成训练集、验证集和测试集;
基于中文预训练开源模型RoBERTa_base对训练集进行训练,构建命名实体识别模型。
4.根据权利要求3所述的一种电网调度知识图谱动态更新方法,其特征在于,所述收集电网调度原始文本数据并进行语料分割,包括:
以“,”、“。”、“;”、“:”、“(”和“)”作为分隔符,对文本数据进行切块分割,生成语料。
5.根据权利要求3所述的一种电网调度知识图谱动态更新方法,其特征在于,所述按照电网设备、调度事件、电网属性和无实义对分割后的语料进行标注,包括:
采用BIO标注对语料以中文字、英文词为一个单位进行标注,包括:
B-X、I-X和O三种形式;
其中,B和I代表标记字在语料中的位置,B代表开头,I代表中间,X为实体符号,电网设备的实体符号为DD,调度事件的实体符号为DE,电网属性的实体符号为DA; O为非实体。
6.根据权利要求1所述的一种电网调度知识图谱动态更新方法,其特征在于,所述进行实体抽取,包括:
将命名实体识别模型识别后的实体词,与领域实体词典中的实体词一一映射,提取对应的领域实体词典中的实体词。
7.根据权利要求1所述的一种电网调度知识图谱动态更新方法,其特征在于,训练实体关系识别模型包括:
基于预先确定的全局关系,对积累的电网调度计划文本中的实体进行关系标注;
基于卷积神经网络训练标注好的实体关系,得到实体关系识别模型。
8.一种电网调度知识图谱动态更新装置,其特征在于,包括:
解析模块,用于解析电网调度中需更新的数据,将数据转换为统一格式;
分词模块,用于提取统一格式后的电网调度数据;构建领域实体词典;将领域实体词典加入到jieba词典内,对统一格式后的电网调度数据进行中文分词;所述领域实体词典包括核心词典和扩展词典,所述核心词典包括电网调度知识的标准词,所述扩展词典包括扩展的电网非标准词;
以及用于,采用基于深度神经网络的命名实体识别对电网实体、调度事件和电网属性进行自动标引;基于结合电力业务模型的关联度分类对电网实体按照变电站、电厂、线路、主变、母线、开关、断路器和机组进行分类;基于核心词典对分类后的电网实体进行校验匹配;将校验的异常结果提交人工审核,构建扩展词典;
识别模块,用于采用训练好的命名实体识别模型识别中文分词后的电网调度数据中的实体词,并进行实体抽取;
关系抽取模块,用于采用训练好的实体关系识别模型对实体间的关系进行抽取,生成实体-关系-实体三元组;
以及,
更新模块,用于基于生成的实体-关系-实体三元组对电网调度知识图谱进行更新。
9.根据权利要求8所述的一种电网调度知识图谱动态更新装置,其特征在于,所述解析模块具体用于,
对于结构化数据从电网实时数据库中导出,采用规则化提取方式直接生成实体-关系-实体三元组存入知识图谱;所述结构化数据包括:负荷预测数据、新能源预测数据和安全约束断面;
对于非结构化的文本数据,采用数据清洗和接口转化的方式对文本内容进行遍历,并根据篇章结构将文本进行划分,将docx文档转化为Json文件;所述非结构化的文本数据包括:联络线计划、检修计划、电网运行方式和电网异常事件。
10.根据权利要求8所述的一种电网调度知识图谱动态更新装置,其特征在于,所述识别模块还用于,
收集电网调度原始文本数据并进行语料分割;
按照电网设备、调度事件、电网属性和无实义对分割后的语料进行标注;
将标注好的语料按照8:1:1划分成训练集、验证集和测试集;
基于中文预训练开源模型RoBERTa_base对训练集进行训练,构建命名实体识别模型。
11.根据权利要求8所述的一种电网调度知识图谱动态更新装置,其特征在于,所述关系抽取模块还用于,
基于预先确定的全局关系,对积累的电网调度计划文本中的实体进行关系标注;
基于卷积神经网络训练标注好的实体关系,得到实体关系识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110196210.2A CN112905804B (zh) | 2021-02-22 | 2021-02-22 | 一种电网调度知识图谱的动态更新方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110196210.2A CN112905804B (zh) | 2021-02-22 | 2021-02-22 | 一种电网调度知识图谱的动态更新方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112905804A CN112905804A (zh) | 2021-06-04 |
CN112905804B true CN112905804B (zh) | 2022-08-26 |
Family
ID=76124250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110196210.2A Active CN112905804B (zh) | 2021-02-22 | 2021-02-22 | 一种电网调度知识图谱的动态更新方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905804B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113342982B (zh) * | 2021-06-24 | 2023-07-25 | 长三角信息智能创新研究院 | 融合RoBERTa和外部知识库的企业行业分类方法 |
CN113434634A (zh) * | 2021-06-28 | 2021-09-24 | 国网北京市电力公司 | 知识图谱构建方法、装置 |
CN114398880A (zh) * | 2021-12-06 | 2022-04-26 | 北京思特奇信息技术股份有限公司 | 一种用于优化中文分词的系统及方法 |
CN114386427A (zh) * | 2021-12-08 | 2022-04-22 | 国家电网有限公司西北分部 | 基于语义分析的电网调控非结构化表格数据提取处理方法、装置及存储介质 |
CN114444116B (zh) * | 2021-12-20 | 2024-08-30 | 西安理工大学 | 基于安全访问控制知识图谱的授权鉴权引擎生成方法 |
CN114626367A (zh) * | 2022-03-11 | 2022-06-14 | 广东工业大学 | 基于新闻文章内容的情感分析方法、系统、设备及介质 |
CN115344717B (zh) * | 2022-10-18 | 2023-02-17 | 国网江西省电力有限公司电力科学研究院 | 面向多类型供用能系统调控运行知识图谱构建方法及装置 |
CN115658931B (zh) * | 2022-12-27 | 2023-04-07 | 清华大学 | 百科知识图谱动态更新方法、装置、设备及介质 |
CN117786126A (zh) * | 2023-12-28 | 2024-03-29 | 永信至诚科技集团股份有限公司 | 基于知识图谱的裸敲线索分析方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111061841A (zh) * | 2019-12-19 | 2020-04-24 | 京东方科技集团股份有限公司 | 知识图谱的构建方法及装置 |
CN111860882A (zh) * | 2020-06-17 | 2020-10-30 | 国网江苏省电力有限公司 | 一种电网调度故障处理知识图谱的构建方法及装置 |
CN111930784A (zh) * | 2020-07-23 | 2020-11-13 | 南京南瑞信息通信科技有限公司 | 一种电网知识图谱构建方法及其系统 |
-
2021
- 2021-02-22 CN CN202110196210.2A patent/CN112905804B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111061841A (zh) * | 2019-12-19 | 2020-04-24 | 京东方科技集团股份有限公司 | 知识图谱的构建方法及装置 |
CN111860882A (zh) * | 2020-06-17 | 2020-10-30 | 国网江苏省电力有限公司 | 一种电网调度故障处理知识图谱的构建方法及装置 |
CN111930784A (zh) * | 2020-07-23 | 2020-11-13 | 南京南瑞信息通信科技有限公司 | 一种电网知识图谱构建方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112905804A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112905804B (zh) | 一种电网调度知识图谱的动态更新方法及装置 | |
CN111860882B (zh) | 一种电网调度故障处理知识图谱的构建方法及装置 | |
CN111985653B (zh) | 基于知识图谱的电网故障知识推荐与知识管理系统及方法 | |
CN112527997B (zh) | 一种基于电网领域调度场景知识图谱的智能问答方法及系统 | |
CN110188345A (zh) | 一种电力操作票的智能识别方法与装置 | |
Kong et al. | Entity extraction of electrical equipment malfunction text by a hybrid natural language processing algorithm | |
CN111274814A (zh) | 一种新型的半监督文本实体信息抽取方法 | |
CN111177323B (zh) | 基于人工智能的停电计划非结构化数据提取与识别方法 | |
CN115409122A (zh) | 一种变电设备并发故障分析方法、系统、设备及介质 | |
CN112036179A (zh) | 基于文本分类与语义框架的电力预案信息抽取方法 | |
CN115563968A (zh) | 水电运检知识自然语言人工智能系统及方法 | |
CN114625837A (zh) | 一种铁路车站联锁系统智能运维方法及系统 | |
CN117932295A (zh) | 多源数据融合的电网监控运行特征信息提取方法及系统 | |
CN113065580A (zh) | 一种基于多信息融合的电厂设备管理方法及系统 | |
CN117592482A (zh) | 一种基于BiLSTM+CRF模型的操作票命名实体识别方法 | |
CN112215012A (zh) | 基于条件随机场的配电网检修单安全措施语义解析方法 | |
Zhang et al. | Defect diagnosis method of main transformer based on operation and maintenance text mining | |
CN111553158A (zh) | 一种基于BiLSTM-CRF模型的电力调度领域命名实体识别方法及系统 | |
CN114936667A (zh) | 一种基于知识图谱的电网日前调度计划优化决策方法 | |
CN113987164A (zh) | 一种基于领域事件知识图谱的项目研判方法及装置 | |
Zheng et al. | A CNN-Based Warning Information Preprocessing Method for Power Grid Fault Diagnosis Analytical Model | |
Zhang et al. | Research on knowledge graph construction for intelligent operation and maintenance of electrical transformers | |
CN113011183A (zh) | 一种电力调控领域非结构化文本数据处理方法及系统 | |
CN111274355A (zh) | 一种基于lucene的主厂站遥信信号自动对比方法 | |
CN115759053A (zh) | 基于nlp技术的预案数据结构化解析方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |