一种电力生产运行数据的清洗方法及计算设备
技术领域
本发明涉及电力生产数据采集领域,具体涉及一种电力生产运行数据的清洗方法及计算设备。
背景技术
随着信息化与工业化相融合的推进,我国电力企业信息化建设取得了长足的进步。与此同时发电企业也积累了大量的运行数据,为充分挖掘这些数据的价值,需要展开大量的数据分析工作。电力二次系统信息安全防护的基本原则要求电力数据传输满足“安全分区、专网专用、纵向加密、横向隔离”的十六字方针,故生产数据需要通过传感器、接口机、防火墙、网闸等多个环节才能传送至业务数据库,在保证数据安全的同时,增加了潜在故障点。在实际的数据分析中,关键决策性数据会出现中断、跳变、超值越限、数据刷新延迟、数据状态异常等情况。低质量的数据对后续模型创建和业务分析带来负面影响。尤其是对于大规模数据中心远程监控诊断系统,无法即时准确获取电厂设备运行状态,数据分析结果不尽如人意,数据价值无法有效挖掘。
电力生产涉及到的设备系统众多,主要有汽水系统、风烟系统、制粉系统、疏水系统、吹灰系统、空压系统等,各系统又可分为多个子系统,子系统中又分为多种设备,生产信息数据关联性强,逻辑复杂。这些特征使得传统数据清洗方法在电力生产过程中应用效果欠佳,针对电力生产过程的数据清洗成为了一个难题。
目前国内针对电力生产数据的清洗并没有普遍统一的算法。较为普遍是基于模型和基于密度的异常校验,模型通常依赖3σ准则,在大样本下数据趋向于正态分布,其中观察值和平均值的偏差超过3倍标准差的数据,即大于3σ的值出现的概率小于0.003属于小概率事件,可认定其为异常值。基于密度的算法,如局部异常因子方法,原理是认为异常点周围数据密度比正常点少的多。关于清洗目前已有大量成熟方法和装置,如公开号为CN108280096A的专利公开了一种清洗装置。此装置根据原始样本数据确认的筛选机制和用户设定筛选值进行清洗;公开号为CN108021684A的专利,基于导数求和对数据清洗,其中需要根据正常数据设定阀值根据判定。在电力行业数据实时生产,动态变化,监视测点多测点范围和变化率均不相同,根据每个测点数据特性来确定筛选机制和阀值,前期准备工作量大,一旦设备结构发生变化相关参数需要重新制定,并且难以做到即时清洗,此类方法难以适用。
3σ准则要求数据符合正态分布,但电厂实际生产过程中并不是所有的参数均满足正态分布,例如有功功率,根据火力发电的特点,在快速调峰和运行状态切换时,部分功率值可能不符合此准则被判定为异常数据,不符合现场生产要求。其次3σ准则适用于大样本数据的统计规律,对样本量要求高,在实时监控系统中,需要对设备状态切换做出快速的反应,大样本量带来网络传输压力,延长模型处理时间、业务响应时间。最后此方法依赖平均值和标准差,其对于评估数据集的中心和范围都不够健壮,极其受异常点干扰,有限样本击穿点为0%。因此基于3σ准则的清洗方法在电力生产过程应用并不完备。局部异常因子方法,对数据局部密度和邻居进行比较,判断数据是否属于相似的密度区域。基于邻近性的方法高度依赖所使用的邻近性或距离度量,在电力生产数据中离群点互相靠近,无法高效准确判出。
发明内容
为了解决现有技术问题,本发明提供一种电力生产运行数据的清洗方法,在传统上下限阈值判定的基础上,创新性的提出基于动态浮箱与数据测点裁判相结合的数据清洗方案,实现了重要电力生产数据实时校验,个性化清洗的目标。为后续程序运行、指标分析、模型拟合,平台应用提供有效可靠数据,在海量数据情况下减少人工识别成本,提高业务效率,提升模型准确性和决策可靠性,为实时全自动信息化监管提供良好基础。
为达到以上目的,本发明采用以下技术方案来实现。
一种电力生产运行数据的清洗方法,包括裁判测点清洗数据和动态浮箱清洗数据;裁判测点清洗数据用于过滤短期中断的数据;动态浮箱清洗数据用于过滤数据变化趋势不合理数据或不符合当前生产场景的数据。
裁判测点清洗数据具体包括以下步骤:
步骤(1-1)选取裁判测点;裁判测点选取与主监视测点同一接口机的其他测点,与主监视测点数据通断性保持一致,选取机组主蒸汽温度和汽轮机转速为双裁判测点;
步骤(1-2)建立裁判测点清洗规则:裁判测点清洗规则包括主蒸汽温度值的裁判规则和汽轮机转速值的裁判规则;
步骤(1-3)裁判测点清洗数据:记录待清洗测点值的时刻,从数据源中获取所述时刻裁判测点值,验证裁判测点主蒸汽温度是否满足主蒸汽温度值的裁判规则,或裁判测点汽轮机转速值是否满足汽轮机转速值规则,满足其中任意一条规则则裁判测点数据清洗通过,数据源信号稳定,否则数据未通过数据清洗,当前数据源数据异常。
主汽温度值的裁判规则为:
(1a)、停机状态时,主汽温度值不低于停机温度门限值;
(1b)、运行状态时,主汽温度不低于运行温度门限值;
(1c)、以某个功率值的时刻为起点,向前并向后各取一个裁判测点a主汽温度值的真实点值,计算前后裁判测点真实点值的时间差,时间差小于等于时间门限值;
(1d)以某个功率值的时刻为起点,向前并向后各取一个裁判测点a主汽温度值的真实点值,计算两个真实点值的差,所述差小于等于温度差值门限值。
汽轮机转速值的裁判规则为:
(2a)、停机状态时,汽轮机转速不高于停机转速门限值;
(2b)、运行状态时,汽轮机转速不低于运行转速门限值;
(2c)、以某个功率值的时刻为起点,向前并向后各取一个裁判测点b汽轮机转速的真实点值,计算前后裁判测点真实点值的时间差,所述时间差应小于等于时间门限值。
动态浮箱清洗具体包括以下步骤:
步骤(2-1)建立实时数据仓;
以目标数据采集时间间隔T为周期采集目标数据,以测点采集时间间隔S为周期从目标数据中采集测点值,采集的测点值作为单元数据仓,将单元数据仓按时序排序,固定时间段N*T内采集的单元数据仓构成一个实时数据仓,实时数据仓包括N个仓位,当实时数据仓随时序更新,单元数据仓从实时数据仓中剔除,其余单元数据仓时序依次向前移动一个仓位;
步骤(2-2)根据实时数据仓建立动态浮箱:
取实时数据仓内的所有单元数据仓的数据值从大到小进行排序,分别建立箱顶值与箱底值,动态浮箱内数据点为实时数据仓内数据点m,m=N*T/S,箱顶值的建立规则为经过排序后的第n个数据值加上α乘以经排序后的第n个数据值减去经排序后第m-n个数据值的差值;箱底值为经过排序后的第m-n个数据值减去α乘以经排序后的第n个数据值减去经排序后第m-n个数据值的差值,其中α由发电机组特性确定,表示机组短期内能接受的数值变化程度;
步骤(2-3)动态更新浮箱对数据进行清洗:
当目标数据值进入到实时数据仓的最后一个仓位时,建立数据清洗动态浮箱,获得基于当前时间段的箱顶值和箱底值,如果目标数据值高于箱顶值或低于箱底值,则认为数据为异常数据,忽略所述数据引起的状态切换,如果目标数据值不低于箱底值且不高于箱顶值,则目标数据值通过数据清洗机组状态切换有效。
较优地,T=5分钟,S=30秒,N=6;
一种计算设备,包括:一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行一种电力生产运行数据的清洗方法的指令。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行一种电力生产运行数据的清洗方法。
本发明有益效果包括:
本发明公开一种电力生产运行数据的清洗方法,动态浮箱清洗的方案引入裁判测点,可以将电力生产运行的基本机理引入到数据清洗逻辑中,避免单一数理清洗造成对数据清洗能力的不足。无需对数据进行假设,实时高效连续可靠对数据进行清洗,准确给出机组运行状态信息,减少噪声对高级业务分析影响,误判率低准确性提高,时间延迟小,可以在短时间内完成采集清洗分析工作并且能接受25%的异常样本冲击鲁棒性好,在数据基数大即时性要求高的电力一体化大数据平台中得到良好应用;本发明为满足电力数据实时监视实时清洗的要求,建立基于小样本非正态分布的数理清洗方法,结合其他主要数据作为裁判测点,对目标测点实时清洗,状态实时判断。
附图说明
图1为本发明一种电力生产运行数据的清洗方法流程图;
图2为实时数据仓结构图。
具体实施方式
下面结合附图并通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
如图1所示,一种电力生产运行数据的清洗方法,包括裁判测点清洗数据和动态浮箱清洗数据,过滤出异常数据;采用裁判测点清洗数据用于过滤短期(时间门限值,本实施例为15分钟)中断的数据;动态浮箱清洗数据用来过滤数据变化趋势不合理数据或不符合当前生产场景的数据;
裁判测点清洗数据具体包括以下步骤:
步骤(1-1)选取裁判测点;引入裁判测点是为解决数据中断或者电厂大修调试造成系统误报的问题,裁判测点选取与主监视测点同一接口机的其他测点,与主监视测点数据通断性保持一致。本实施例以监视机组功率值为例,选取机组主蒸汽温度及转速为双裁判测点,裁判测点判断的原则为“或”的关系,即有一个裁判测点通过判断,即认为当前数据通过裁测点清洗。
步骤(1-2)建立裁判测点清洗规则:裁判测点清洗规则包括主蒸汽温度值的裁判规则和汽轮机转速值的裁判规则;
步骤(1-3)裁判测点清洗数据:记录需清洗测点值的时刻,从数据源中获取该时刻裁判测点的值,验证裁判测点主蒸汽温度是否满足主蒸汽温度值的裁判规则,或裁判测点汽轮机转速值是否满足汽轮机转速值,满足其中任意一条认为裁判测点清洗通过,数据源信号稳定,当前数值有参考价值。否则视为数据未通过数据清洗,当前数据源数据异常,参考价值低。
本实施例以监测功率值为例,为验证某个功率值的准确性,针对裁判测点a主汽温度值与裁判测点b的汽轮机转速值。
主汽温度值的裁判规则为:
(1a)、停机状态时,主汽温度值不低于(停机温度门限值)2℃,因为在实际生产过程中,该值最低值应为环境室温,从历史数据挖掘得出,正常情况下温度值不应低于2℃;
(1b)、运行状态时,主汽温度不低于(运行温度门限值)300℃,汽轮发电机组以高温高压蒸汽为工质,当主汽温度低于300℃时,不具备发电条件;
(1c)、验证某个功率值的时刻的时间差规则:以某个功率值的时刻为起点,向前并向后各取一个裁判测点a主汽温度值的真实点值(不是差值计算获得,是数据库中实际记录的点值),计算前后裁判测点真实值的时间差,时间差小于等于(时间门限值)15分钟;
(1d)验证某个功率值的时刻的主汽温度值规则:以某个功率值的时刻为起点,向前并向后各取一个裁判测点a主汽温度值的真实点值(不是差值计算获得,是数据库中实际记录的点值),计算两个真实测点值的差,所述差小于等于(温度差值门限值)50℃,主汽温度是大惯性量,缓变量,不应发生阶跃性突变。
汽轮机转速值的裁判规则为:
(2a)、停机状态时,汽轮机转速不高于(停机转速门限值)2800r/min,不低于0r/min;
(2b)、运行状态时,汽轮机转速不低于(运行转速门限值)2950r/min;
(2c)、以某个功率值的时刻为起点,向前并向后各取一个裁判测点b汽轮机转速的真实点值(不是差值计算获得,是数据库中实际记录的点值),计算前后裁判测点真实值的时间差,所述时间差应小于等于(时间门限值)15分钟。
动态浮箱清洗具体包括以下步骤:
步骤(2-1)建立数据仓;
以目标数据采集时间间隔T为周期采集目标数据,以测点采集时间间隔S为周期从目标数据中采集测点值,采集的测点值作为单元数据仓,将单元数据仓按时序排序,固定时间段N*T内采集的单元数据仓构成一个实时数据仓;实时数据仓包括N个仓位,实时数据仓随时序更新,当单元数据仓从实时数据仓中剔除,其余单元数据仓时序依次向前移动一个仓位。
本实施例,T=5分钟,S=30秒,N=6;
N*T分钟共N*T/S个数据测点值组成实时数据仓。数据仓随时序不断更新,即每过T分钟,将时序为1的单元数据仓从实时数据仓中剔除,其余单元数据仓时序依次向前移动一个仓位,即2号仓变成1号仓,3号仓变为2号仓,4号仓变为3号仓,5号变为4号仓,6号仓变为5号仓,依次类推,新采集的单元数据仓位于最后一个仓位构建新的实时数据仓。
本实施例,以5分钟为单位,每5分钟集中采集一次目标数据,每30秒中采集一个测点值作为单元数据仓,将单元数据仓按时序排序,每6个目标数据内采集的单元数据仓构成一个实时数据仓,即30分钟共60个数据点值组成实时数据仓。实时数据仓随时序不断更新,如图2所示,即每过5分钟,将时序为1的单元数据仓从实时数据仓中剔除,其余单元数据仓时序依次向前移动一个仓位,即2号仓变成1号仓,3号仓变为2号仓,4号仓变为3号仓,5号变为4号仓,6号仓变为5号仓,最近的5分钟单元数据仓为6号仓。
步骤(2-2)根据实时数据仓建立动态浮箱:
取实时数据仓内的所有数据值从大到小进行排序,分别建立箱顶值与箱底值,动态浮箱内数据点为实时数据仓内数据点共60个,m=N*T/S=60,箱顶值的建立规则为经过排序后的第15个数据值加上α乘以经排序后的第15个数据值减去经排序后第45个数据值的差值。,箱底值为经过排序后的第45个数据值减去α乘以经排序后的第15个数据值减去经排序后第45个数据值的差值,其中α由发电机组特性确定,表示机组短期内能接受的数值变化程度。α越大,允许数据突变的程度越大。
当目标数据值(待清洗数据时刻值)进入到实时数据仓的最后一个(本实施例6号仓)仓位时,建立动态浮箱,具体建立方法如下:取实时数据仓内的所有数据值(共30分钟,60个测点值)从大到小进行排序,从大到小分别记录第一个四分位置测点值A1,中位数为A2,以及第三个四分位置测点值A3,分别建立箱顶值与箱底值,箱顶值的建立规则为A1+α(A1-A3),箱底值为A3-α(A1-A3),其中α由发电机组特性确定。
步骤(2-3)动态更新浮箱对数据进行清洗:当目标数据值进入到实时数据仓的最后一个仓位时,建立数据清洗动态浮箱,获得基于当前时间段的箱顶值和箱底值,如果目标数据值高于箱顶值或低于箱底值,则认为数据为异常数据,忽略所述数据引起的状态切换,如果目标数据值不低于箱底值且不高于箱顶值,则目标数据值通过数据清洗机组状态切换有效。步骤(2-1)所述实时数据仓数据更新,浮箱需要根据新数据动态重构才能实施清洗。
一种计算设备,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行一种电力生产运行数据的清洗方法的指令。
一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行一种电力生产运行数据的清洗方法。
本领域内的技术人员可以对本发明进行改动或变型的设计但不脱离本发明的思想和范围。因此,如果本发明的这些修改和变型属于本发明权利要求及其等同的技术范围之内,则本发明也意图包含这些改动和变型在内。