CN106709035B

CN106709035B - 一种电力多维全景数据的预处理系统

Info

Publication number: CN106709035B
Application number: CN201611247497.2A
Authority: CN
Inventors: 黄�良; 赵立进; 吕黔苏; 杨涛; 吴建蓉; 王波; 陈思远; 林刚; 张亚茹; 赵芳菲
Original assignee: Electric Power Research Institute of Guizhou Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Guizhou Power Grid Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2019-11-26
Anticipated expiration: 2036-12-29
Also published as: CN106709035A

Abstract

本发明涉及一种电力多维全景数据的预处理系统，包括依次相连的数据清洗模块、数据存储与检索模块和数据的价值提取模块。本发明的电力对位全景数据的预处理方法生成系统，能有效处理来自电力系统的海量交易数据、海量交互数据和海量处理数据，快速判断数据类型并提取数据价值。

Description

一种电力多维全景数据的预处理系统

技术领域

本发明涉及数据处理技术领域，涉及一种电力多维全景数据的预处理方法。

背景技术

近年来，智能电网的发展与研究已成为当今时代的一大热点，而智能电表作为智能电网的重要组成部分，采集了大量详细的多时间尺度、多类型的基础输入数据，与传统的潮流数据等基础数据相比，数据量从一个时间断面数据变成一段时间的整体数据，甚至出现了更多非结构化数据，现有的结构化数据已无法满足其实际分析需求。

随着智能电网建设的推进，电力多维全景数据根据其所属用户性质，主要分为电网企业、电力用户、政府及第三方机构三个方面所分别对应的电网数据、用户数据和社会数据。这些数据一般以信息集成化平台的方式呈现；其中，电网企业数据主要包括配电自动化、GIS、SCADA、用电信息采集系统、客户营销服务系统、用户用能管理系等；电力用户数据主要包括分布式电源EMS、微电网MG-EMS、家庭HEMS、楼宇BEMS、企业EMS等用户数据；政府及第三方机构数据主要包括气象监测系统、能耗监管系统、智慧城市监控系统、能源公共服务平台等社会数据。这些数据在数据异构方面呈现出设计风格异构、存储方式异构以及结构化与非结构化共存等特点，同时它又具有海量、数据更新速度极快、分布地域广泛等特性。

由于数据来源多、量大、更新速度快以及价值密度低等特点，加大了数据价值挖掘的难度，一方面使我们很难快速发现数据有用价值信息和规律性等特点，另一方面存在的若干数据冗余也会影响我们的判断。因此，提出一种电力多维全景数据的与处理方法，对数据价值挖掘具有十分重要的意义。

发明内容

针对以上问题，本发明提出了一种电力多维全景数据的预处理方法，以提高数据质量，减少数据价值挖掘难度。

一种电力多维全景数据的预处理系统，包括依次相连的：

数据清洗模块：用于对电力多维全景数据进行修正、降噪和填补缺失值，包括属性识别、坏数据辨析、数据分类、数据填补和平滑处理，此模块用来提高数据质量，有助于提高数据挖掘过程的准确率和效率；该数据清洗模块利用时间序列模型识别各状态量的时间序列，从而得到数据的属性值，检测出数据的异常模式，判断异常数据是能提取设备故障信息的“有用数据”还是可被清洗的“无用数据”，然后将数据进行分类，将分类后的数据分别用时间序列干预模型进行拟合以提取有效故障信息。在数据清洗时，根据序列中异常值的种类选择不同的修正公式，从而达到修正噪声点数据和填补缺失值的目的

数据存储模块：用于对经过数据清洗后的电力多维全景数据进行存储与管理，以更好的方式优化存储空间，支持海量同构异构的电力数据；该数据存储模块充分考虑数据的相关性和时空属性，以关系型数据库和“key-value”的非关系型数据库来支持海量数据的存储与处理，对数据进行存储优化和基于MapReduce的并行分析处理，并使用MapReduce框架设计实现了数据的并行分析算法；

数据集成模块：用于在数据存储后，针对大量的、分布式的数据源，将这些数据按一种统一的结构与方式进行处理，将分散的数据集中起来形成统一的数据集；该数据集成模块考虑到数据来源于多个数据库、数据仓库或一般文件，将它们按照数据类型分别存入结构化数据库和非结构化数据库之后，为了便于数据的索引与提取，设计基于数据关联矩阵的数据聚集方法，建立两种数据库之间的关联关系，最后将两种类型数据库并行连接，采用分层结构构建一个大的数据平台。

在上述的一种电力多维全景数据的预处理系统，所述数据清洗模块对电力多维全景数据进行修正、降噪和填补缺失值的具体方法包括：

步骤1，属性识别：输入具有n个属性的数据集样本S，其中属性集为X，|X|＝n。设我们对数据的评价方法为J，候选属性生成策略为GS。

定义L为属性集X的起点，Solution为根据评价方法J得出的L中的最佳属性。对属性集进行循环操作，当属性集中X′经过评价方法J的评价值J(X′)大于之前生成的最佳属性的评价值J(Soltion)时，即J(X′)≥J(Soltion)，则X′为最佳属性。

步骤2，坏数据辨析：输入含有n个样本的属性数据集Solution，{x₁,x₂,…,x_n}。对于数据集中的每一个数据x_i，如果(σ为可接受的误差范围)，则认为x_i为坏数据，并将它添加到坏数据集BS。

步骤3，数据分类：首先选择k个初始中心点，然后把每个数据对象分到距离它最近的类内，从而形成k个簇，最后再重新计算每个簇的中心；重复上述过程直到每个簇中心不发生变化。

步骤4，数据填补：输入包含n个对象且被分为k个簇的数据集D，处理步骤包括：

步骤4.1、把数据集D分为两个数据子集D_C和D_i：D_C中的记录全部为完整记录，没有任何属性含有缺失值；D_i中的记录为缺损记录，即属性中含有一个及以上的缺失值。

步骤4.2、对数据子集D_C使用k-means算法。

步骤4.3、从数据子集D_i中顺序去除记录，计算该记录与D_C的k个类中任一类的相似度，选出最大的相似度，把该记录标记为C_i(i＝1,2…，k)类；直到数据子集为空。

步骤4.4、根据D_i中记录被分配的类，对记录的缺失值进行如下处理：

其中，A_i为类别中的数据。

将按步骤4.1至步骤4.4处理完后的D_i即为数据填补后的数据集。

步骤5，平滑去噪处理：将填补好缺失数据的数据集进行小波变换，选取合适的小波基函数和分解层数，分离噪声数据和信息数据，删掉其中的噪声数据并进行信号重构，保持数据的完整和特性。

在上述的一种电力多维全景数据的预处理系统，所述数据存储模块对经过数据清洗后的电力多维全景数据进行存储与管理的具体步骤是：

对于结构化数据：为每类数据附上标签，标签与数据之间的处于一对多的联系，利用已有的MySQL数据库，将数据与标签存储进去。

对于非结构化数据：使用HDFS作为文件存储系统，利用数据之间的映射关系(key-value)模式，建立数据矩阵进行存储。数据矩阵的索引由行键(Row Key)、列族(Columnfamily)、列键(Column Qualifier)以及时间戳(Timestamp)构成，可以表示为(Row，Family：Column，Timestamp)→Value。

在上述的一种电力多维全景数据的预处理系统，所述数据集成模块针对大量的、分布式的数据源按一种统一的结构与方式进行处理，将分散的数据集中起来形成统一的数据集的具体方法是：用权利要求3种所述两种存储方法将数据进行存储(关系型数据存入关系型数据库，非关系型数据存入非关系型数据库)，将两个数据库上传至预处理系统。在Hadoop运行环境下利用MapReduce的技术，在映射(Map)阶段，所有数据在多个节点上进行分组排序，之后由约减(Reduce)阶段的TaskTracker节点通过远程访问的方式进行数据拉取。

本发明能有效处理来自电力系统的海量交易数据、海量交互数据和海量处理数据，快速判断数据类型并提取数据价值。

附图说明

附图1电力多维全景数据的预处理方法流程图。

附图2数据清洗模块流程图。

附图3数据存储模块流程图。

附图4数据集成模块流程图。

具体实施方式

为了进一步阐述本发明的过程和有益效果，结合附图进行说明。

为实现上述目的，本发明提出的技术方案是：构建一种包括数据清洗、数据存储和数据集成三大模块的数据预处理系统，由以下功能构成：

(1)数据清洗模块用于对电力多维全景数据进行修正、降噪和填补缺失值，包括属性识别、坏数据辨析和数据分类，此模块用来提高数据质量，有助于提高数据挖掘过程的准确率和效率。

(2)数据存储模块用于对经过数据清洗后的电力多维全景数据进行存储与管理，以更好的方式优化存储空间，支持海量同构异构的电力数据。

(3)数据集成模块用于在数据存储后，针对大量的、分布式的数据源，将这些数据按一种统一的结构与方式进行处理，将分散的数据集中起来形成统一的数据集。

数据清洗模块功能如下：

该模块利用时间序列模型识别各状态量的时间序列，检测出数据的异常模式，判断异常数据是能提取设备故障信息的“有用数据”还是可被清洗的“无用数据”，用时间序列干预模型进行拟合以提取有效故障信息。在数据清洗时，根据序列中异常值的种类选择不同的修正公式，从而达到修正噪声点数据和填补缺失值的目的。

数据存储模块功能如下：

该模块充分考虑数据的相关性和时空属性，以关系型数据库和“key-value”的非关系型数据库来支持海量数据的存储与处理，对数据进行存储优化和基于MapReduce的并行分析处理，并使用MapReduce框架设计实现了数据的并行分析算法。

数据集成模块功能如下：

考虑到数据来源于多个数据库、数据仓库或一般文件等等，将它们按照数据类型分别存入结构化数据库和非结构化数据库之后，为了便于数据的索引与提取，设计基于数据关联矩阵的数据聚集方法，建立两种数据库之间的关联关系，最后将两种类型数据库并行连接，采用分层结构构建一个大的数据平台。

如图2，海量的电力数据包括结构化数据和非结构化数据，将数据导入数据清洗模块之后，首先利用数据来源以及数据时间标签进行属性识别，然后辨识并清除类似于孤立点地坏数据。在初步处理数据之后，将数据分为常用的结构化数据和图片、文本等非结构化数据，并分别利用不同的算法，对数据进行填补去噪。

如图3，进行数据清洗后的数据已经分为结构化和非结构化，将它们分别存入关系型与非关系型数据库，并用MapReduce框架并行处理分析。

如图4，将已经构建好的两种数据库进行数据关联矩阵聚类分析，建立两种数据库的关联关系，最后将其放入一个数据仓库搭建一个大数据平台。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种电力多维全景数据的预处理系统，其特征在于，包括依次相连的：

数据清洗模块：用于对电力多维全景数据进行修正、降噪和填补缺失值，包括属性识别、坏数据辨析、数据分类、数据填补和平滑处理，此模块用来提高数据质量，有助于提高数据挖掘过程的准确率和效率；该数据清洗模块利用时间序列模型识别各状态量的时间序列，从而得到数据的属性值，检测出数据的异常模式，判断异常数据是能提取设备故障信息的有用数据还是可被清洗的无用数据，然后将数据进行分类，将分类后的数据分别用时间序列干预模型进行拟合以提取有效故障信息；在数据清洗时，根据序列中异常值的种类选择不同的修正公式，从而达到修正噪声点数据和填补缺失值的目的；

数据存储模块：用于对经过数据清洗后的电力多维全景数据进行存储与管理，以更好的方式优化存储空间，支持海量同构异构的电力数据；该数据存储模块充分考虑数据的相关性和时空属性，以关系型数据库和key-value的非关系型数据库来支持海量数据的存储与处理，对数据进行存储优化和基于MapReduce的并行分析处理，并使用MapReduce框架设计实现了数据的并行分析算法；

2.根据权利要求1所述的一种电力多维全景数据的预处理系统，其特征在于，所述数据清洗模块对电力多维全景数据进行修正、降噪和填补缺失值的具体方法包括：

步骤1，属性识别：输入具有n个属性的数据集样本S，其中属性集为X，|X|＝n；对数据的评价方法为J，候选属性生成策略为GS；

定义L为属性集X的起点，Solution为根据评价方法J得出的L中的最佳属性；对属性集进行循环操作，当属性集中X′经过评价方法J的评价值J(X′)大于之前生成的最佳属性的评价值J(Solution)时，即J(X′)≥J(Solution)，则X′为最佳属性；

步骤2，坏数据辨析：输入含有n个样本的最佳属性数据集Solution，{x₁,x₂,…,x_n}；对于数据集中的每一个数据x_i，如果σ为可接受的误差范围，则认为x_i为坏数据，并将它添加到坏数据集BS；

步骤3，数据分类：首先选择k个初始中心点，然后把每个数据对象分到距离它最近的类内，从而形成k个簇，最后再重新计算每个簇的中心；重复上述过程直到每个簇中心不发生变化；

步骤4.1、把数据集D分为两个数据子集D_C和D_i：D_C中的记录全部为完整记录，没有任何属性含有缺失值；D_i中的记录为缺损记录，即属性中含有一个及以上的缺失值；

步骤4.2、对数据子集D_C使用k-means算法；

步骤4.3、从数据子集D_i中顺序去除记录，计算该记录与D_C的k个类中任一类的相似度，选出最大的相似度，把该记录标记为C_i类，i＝1,2…，k；直到数据子集为空；

其中，A_i为类别中的数据；

将按步骤4.1至步骤4.4处理完后的D_i即为数据填补后的数据集；

3.根据权利要求1所述的一种电力多维全景数据的预处理系统，其特征在于，所述数据存储模块对经过数据清洗后的电力多维全景数据进行存储与管理的具体步骤是：

对于结构化数据：为每类数据附上标签，标签与数据之间的处于一对多的联系，利用已有的MySQL数据库，将数据与标签存储进去；

对于非结构化数据：使用HDFS作为文件存储系统，利用数据之间的映射关系模式，建立数据矩阵进行存储；数据矩阵的索引由行键、列族、列键以及时间戳构成，可以表示为Row，Family：Column，Timestamp→Value。

4.根据权利要求1所述的种电力多维全景数据的预处理系统，其特征在于，所述数据集成模块针对大量的、分布式的数据源按一种统一的结构与方式进行处理，将分散的数据集中起来形成统一的数据集的具体方法是：用权利要求3中所述两种存储方法将数据进行存储，将两个数据库上传至预处理系统；在Hadoop运行环境下利用MapReduce的技术，在映射阶段，所有数据在多个节点上进行分组排序，之后由约减阶段的TaskTracker节点通过远程访问的方式进行数据拉取。