CN108345908A

CN108345908A - 电网数据的分类方法、分类设备及存储介质

Info

Publication number: CN108345908A
Application number: CN201810141169.7A
Authority: CN
Inventors: 谢妍
Original assignee: Wuhan Polytechnic University
Current assignee: Wuhan Polytechnic University
Priority date: 2018-02-10
Filing date: 2018-02-10
Publication date: 2018-07-31

Abstract

本发明公开了一种电网数据的分类方法、分类设备及存储介质。本发明的分类设备获取多个电力用户的日负荷曲线，对所述日负荷曲线进行组合，获得由所述日负荷曲线组成的初始矩阵，对所述初始矩阵进行KL变换，获得降维后的目标矩阵，基于所述目标矩阵，利用K‑means聚类算法对所述日负荷曲线进行聚类分析以完成对所述日负荷曲线的分类，通过对日负荷曲线组成的初始矩阵进行KL变换，大大减小了矩阵的维度，使得在对海量负荷曲线进行聚类算法时，有效地提高了负荷曲线聚类的速度。

Description

电网数据的分类方法、分类设备及存储介质

技术领域

本发明涉及电力领域，尤其涉及一种电网数据的分类方法、分类设备及存储介质。

背景技术

近年来，在信息化、自动化、互动化的技术革新下，智能电网和能源互联网得到了快速的发展。电网用户在售电平台上购电和用电的行为愈发普遍，从专线专变大客户，覆盖到一般工商业户、市政部门、智能小区等多种电力现场。同时，随着电能计量技术的发展，集线器、集中抄表、智能电表各类电能采集终端及表计的规模也随之增加，每日采集及处理的用电数据量呈指数级增长。电力大数据时代已然来临，随着智能电网的不断发展以及电力改革的纵深推进，针对用户行为特征的分析将成为日后供电公司开展售电业务拓展的关键，但如何驾驭如此海量的数据信息，从中获取有用的信息，挖掘潜在的价值，是电力系统面临的挑战和机遇。

电力系统负荷建模是电力系统仿真分析的重要基础，负荷建模的准确性直接关系到仿真计算的可信度和精确性。负荷建模需要建立在电力负荷特性充分分析的基础之上，而面对用电采集系统中海量的负荷数据，对每一个用户的负荷特性进行分析是不可能的，因此有必要对用户进行负荷聚类，根据聚类结果分析不同用户群的负荷特性。

针对电力负荷曲线分类的研究在国内已展开，传统的分类方法的K-means聚类算法简单易行，操作简便，是目前使用最为广泛的聚类方法之一。它首先选定一组初始聚类中心，通过迭代使得类间保持独立、类内保持紧密，迭代期间将聚类子集中所有数据样本的均值作为类的中心。目前K-means聚类算法在图形分割、客户分类、负荷聚类等领域得到了广泛的应用。

但在用电信息大数据的背景下，数以万亿的日负荷曲线需要进行聚类分析，传统的K-means聚类算法计算难以应付。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种电网数据的分类方法、分类设备及存储介质，旨在解决现有技术中在对海量的负荷曲线进行聚类分析时，传统的聚类算法难以应付的技术问题。

为实现上述目的，本发明提供一种电网数据的分类方法，所述方法包括以下步骤：

获取多个电力用户的日负荷曲线；

对所述日负荷曲线进行组合，获得由所述日负荷曲线组成的初始矩阵；

对所述初始矩阵进行KL变换，获得降维后的目标矩阵；

基于所述目标矩阵，利用K-means聚类算法对所述日负荷曲线进行聚类分析以完成对所述日负荷曲线的分类。

优选地，所述基于所述目标矩阵，利用K-means聚类算法对所述日负荷曲线进行聚类分析以完成对所述日负荷曲线的分类，具体包括：

基于所述目标矩阵，分别计算所述日负荷曲线之间的KL散度；

根据所述KL散度确定所述日负荷曲线的初始聚类中心；

基于所述初始聚类中心，利用K-means聚类算法对所述日负荷曲线进行聚类分析以完成对所述日负荷曲线的分类。

优选地，所述根据所述KL散度确定所述日负荷曲线的初始聚类中心，具体包括：

对所述日负荷曲线之间的KL散度进行组合，得到所述日负荷曲线的差异矩阵；

删除所述差异矩阵中超过预设散度阈值的KL散度；

获取与所述差异矩阵中剩余KL散度对应的日负荷曲线；

以行为单位，分别计算以所述差异矩阵中剩余KL散度对应的日负荷曲线为中心的其余日负荷曲线的密度值；

对所述密度值进行对比，将最大的密度值对应的中心作为目标日负荷曲线；

基于以所述目标日负荷曲线为中心其余的日负荷曲线的密度值对所述目标日负荷曲线进行排序；

根据所述排序结果确定多个所述初始聚类中心。

优选地，所述删除所述差异矩阵中超过预设散度阈值的KL散度，具体包括：

计算每一行的散度均值；

基于所述散度均值确定每一行的所述预设散度阈值；

将所述差异矩阵中的各KL散度与相应的预设散度值进行比较，删除超过所述预设散度阈值的KL散度。

优选地，所述基于所述目标矩阵，利用K-means聚类算法对所述日负荷曲线进行聚类分析以完成对所述日负荷曲线的分类之后，所述方法还包括：

对同一类别的所述日负荷曲线进行综合，获得各个类别的典型日负荷曲线。

优选地，所述对同一类别的所述日负荷曲线进行综合，获得各个类别的典型日负荷曲线，具体包括：

对同一类别的所述日负荷曲线上的所有数据进行统计，根据统计结果，确定各所述数据对应的权重，基于所述日负荷曲线上的所有数据以及各所述数据对应的权重，确定各个类别的典型日负荷曲线。

优选地，所述日负荷曲线为48点负荷曲线或96点负荷曲线；

相应地，所述获取多个电力用户的日负荷曲线之后，所述方法还包括：

删除所述日负荷曲线中负荷数据不全和负荷容量为0的曲线。

优选地，所述获取多个电力用户的日负荷曲线，具体包括：

获取多个电力用户的历史负荷曲线，分别对多个所述电力用户的历史负荷曲线进行综合，获得各所述电力用户典型的日负荷曲线。

此外，为实现上述目的，本发明还提供一种分类设备，所述分类设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的电网数据的分类程序，所述电网数据的分类程序配置为实现如上文所述的电网数据的分类方法的步骤。

此外，为实现上述目的，本发明还提供一种存储介质，所述计算机可读存储介质上存储有电网数据的分类程序，所述电网数据的分类程序被处理器执行时实现如上文所述的电网数据的分类方法的步骤。

本发明的分类设备获取多个电力用户的日负荷曲线，对所述日负荷曲线进行组合，获得由所述日负荷曲线组成的初始矩阵，对所述初始矩阵进行KL变换，获得降维后的目标矩阵，基于所述目标矩阵，利用K-means聚类算法对所述日负荷曲线进行聚类分析以完成对所述日负荷曲线的分类，通过对日负荷曲线组成的初始矩阵进行KL变换，大大减小了矩阵的维度，使得在对海量负荷曲线进行聚类算法时，有效地提高了负荷曲线聚类的速度。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的分类设备结构示意图；

图2为本发明电网数据的分类方法第一实施例的流程示意图；

图3为本发明电网数据的分类方法第二实施例的流程示意图；

图4为本发明电网数据的分类方法第三实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的分类设备的结构示意图。

如图1所示，该设备可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对分类设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及电网数据的分类程序。

图1所示的分类设备中，网络接口1004主要用于与外部网络进行数据通信；用户接口1003主要用于接收用户的输入指令；所述分类设备通过处理器1001调用存储器1005中存储的电网数据的分类程序，并执行以下操作：

获取多个电力用户的日负荷曲线；

对所述初始矩阵进行KL变换，获得降维后的目标矩阵；

进一步地，处理器1001可以调用存储器1005中存储的电网数据的分类程序，还执行以下操作：

根据所述KL散度确定所述日负荷曲线的初始聚类中心；

删除所述差异矩阵中超过预设散度阈值的KL散度；

获取与所述差异矩阵中剩余KL散度对应的日负荷曲线；

根据所述排序结果确定多个所述初始聚类中心。

计算每一行的散度均值；

基于所述散度均值确定每一行的所述预设散度阈值；

删除所述日负荷曲线中负荷数据不全和负荷容量为0的曲线。

本实施例通过上述方案，分类设备获取多个电力用户的日负荷曲线，对所述日负荷曲线进行组合，获得由所述日负荷曲线组成的初始矩阵，对所述初始矩阵进行KL变换，获得降维后的目标矩阵，基于所述目标矩阵，利用K-means聚类算法对所述日负荷曲线进行聚类以完成对所述日负荷曲线的分类，通过对日负荷曲线组成的初始矩阵进行KL变换，大大减小了矩阵的维度，使得在对海量负荷曲线进行聚类算法时，有效地提高了负荷曲线聚类的速度。

基于上述硬件结构，提出本发明电网数据的分类方法实施例。

参照图2，图2为本发明电网数据分类的方法第一实施例的流程示意图。

在第一实施例中，所述电网数据的分类方法包括以下步骤：

S10：获取多个电力用户的日负荷曲线。

需要说明的是，本实施例方法的执行主体为能够对用户的日负荷曲线进行分析进而分类的设备。

可以理解的是，分类设备可以从用电采集数据库中获取电力用户的日负荷曲线。

需要说明的是，获取的日负荷曲线可以为96点负荷曲线，也可以为48点负荷曲线。96点负荷曲线是指用户15分钟采集1个点，一天96点，构成1个用户的96点负荷曲线；相应地，48点负荷曲线是指用户30分钟采集1个点，一天48个点，构成1个用户的48点负荷曲线。

在具体实现中，可以采集多个电力用户同一天的日负荷曲线，从而对采集到的日负荷曲线进行聚类分析，当然，也可以获取多个电力用户一定时间段内的历史用电负荷数据，采用智能算法计算并提取各电力用户的典型日负荷曲线，本实施例对于数据具体的获取方式不加以限制。

可以理解的是，不管是哪一种采集数据的方式，在采集了大量用户的日负荷曲线之后，会剔除其中异常用电负荷数据，比如，删除其中负荷数据不全以及负荷容量为0的曲线，从而提取出最能代表用户正常用电形态的日负荷曲线。

S20：对所述日负荷曲线进行组合，获得由所述日负荷曲线组成的初始矩阵。

可以理解的是，由于所有日负荷曲线具有统一的数据采集的时间点，可以将所有日负荷曲线组合成一个数据庞大的初始矩阵，比如采用了1000个用户的日负荷曲线，每个用户电力数据采集48个点，即组成了1000×48的矩阵。

S30：对所述初始矩阵进行KL变换，获得降维后的目标矩阵。

显然，不管是采集用户的96点日负荷曲线，还是采集用户的48点日负荷曲线，由于用电用户量较大，最终获得的用电信息数据量都是相当大的，为了从如此海量的数据信息中提取有用的信息，挖掘潜在的价值，可以采用KL变换的方法，计算出新矩阵，实现用电数据原始矩阵的降维，实现海量用电数据的压缩与简化的同时，保留原始数据信息。

在具体实现中，设X是n维模式向量，{X}即是由所有日负荷曲线组成的初始矩阵，其中n为48或者96，对由所有日负荷曲线进行KL变换为d维向量的具体步骤为：

第一步：求初始矩阵{X}的总体自相关矩阵R。

第二步：求R的特征值λ_j,j＝1，2，···，n。对特征值由大到小进行排队，选择前d个较大的特征值。

第三步：计算d个特征值对应的特征向量u_j，j＝1，2，···，d，归一化后构成变换矩阵U。

U＝[u₁，u₂，···，u_d]

第四步：对{X}中的每个X进行K-L变换，得变换后向量X*：

X*＝U^TX

降维之后获得的d维向量X*就是代替n维向量X进行分类的模式向量，矩阵X*逼近原始矩阵X的分布，即降低了维数同时又保留了关键信息。

需要说明的是，在确定最终保留的维数d时，可以采用主元方差累积百分比法，即设置一个阈值(通常取85％),根据公式来确定最终的d值，具体的公式如下：

在具体实现时，可以根据实际情况进行具体阈值的设置，本实施例对此不加以限制。

S40：基于所述目标矩阵，利用K-means聚类算法对所述日负荷曲线进行聚类以完成对所述日负荷曲线的分类。

需要说明的是，K-means算法法是聚类中的经典算法，算法接收参数k，然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足聚类中的对象相似度较高，而不同聚类中的对象相似度较小。

算法具体为：适当选择k个类的初始中心；在第n次迭代中，对任意一个样本，求其到k各中心的距离，将该样本归到距离最短的那个中心所在的类；利用均值等方法更新该类的中心值；对于所有的k个聚类中心，如果前面步骤的迭代法更新后，值保持不变，则迭代结束，否则继续迭代。即以空间中k个点为中心进行聚类，对最靠近他们的对象进行归类，通过迭代的方法，逐次更新各聚类中心的值，直到得到最好的聚类结果。

可以理解的是，通过K-means聚类算法对所述日负荷曲线进行运算处理，能够将曲线形态相似的日负荷曲线划分到同一个类别中，以实现对所述日负荷曲线的分类。

本实例的分类设备获取多个电力用户的日负荷曲线，对所述日负荷曲线进行组合，获得由所述日负荷曲线组成的初始矩阵，对所述初始矩阵进行KL变换，获得降维后的目标矩阵，基于所述目标矩阵，利用K-means聚类算法对所述日负荷曲线进行聚类，通过对日负荷曲线组成的初始矩阵进行KL变换，大大减小了矩阵的维度，使得在对海量负荷曲线进行聚类算法时，有效地提高了负荷曲线聚类的速度。

进一步地，如图3所示，基于第一实施例提出本发明电网数据的分类方法第二实施例，在本实施例中，步骤S40具体包括：

S401：基于所述目标矩阵，分别计算各所述日负荷曲线之间的KL散度。

需要说明的是，KL散度是用来度量两个随机变量之间的距离，比如，设由某一位用户的日负荷曲线用集合M表示，其中M＝{x₁，x₂，….x_n}，其中的x_n即代表该用户的日负荷曲线在第n点对应的值，其中i用户的日负荷曲线对j用户的日负荷曲线的KL散度计算如下：

S402：根据所述KL散度确定所述日负荷曲线的初始聚类中心。

在具体实现中，对各所述日负荷曲线之间的KL散度进行组合，得到所述日负荷曲线的差异矩阵，计算差异矩阵每一行所有散度的均值，基于所述散度均值为每一行设置一个散度阈值，所述散度阈值可以为所述散度均值的二分之一或者三分之一，并将每一行中超过相应预设散度阈值的KL散度删除，获取与所述KL散度对应的日负荷曲线，以行为单位，分别计算以所述差异矩阵中剩余KL散度对应的日负荷曲线为中心的其余日负荷曲线的密度值，对所述密度值进行对比，将最大的密度值对应的中心作为目标日负荷曲线，基于以所述目标日负荷曲线为中心其余的日负荷曲线的密度值对所述目标日负荷曲线进行排序，从所述排序结果中选取预设个数的多个初始聚类中心。

需要说明的是，在将每一行中超出相应预设散度阈值的KL散度删除之后，对于密度值的计算只是为了确定以不同日负荷曲线为中心时，剩余日负荷曲线的聚集程度，以确定能够产生最大聚集效果的中心日负荷曲线，具体的密度计算方式本实施例不加以限制。

S403：基于所述初始聚类中心，利用K-means聚类算法对所述日负荷曲线进行聚类分析以完成对所述日负荷曲线的分类。

在本实施例中，通过KL散度确定了初始聚类中心，而不同于以往的K-means中随机选取初始聚类中心的方式，从而提高了对电力用户的负荷曲线进行聚类分析的效率和准确率。

进一步地，如图4所示，基于第一实施例或第二实施例提出本发明电网数据的分类方法第三实施例，图4以基于图2所示的实施例为例。

在本实施例中，步骤S40之后，所述方法还包括：

S50：对同一类别的所述日负荷曲线进行综合，获得各个类别的典型日负荷曲线。

可以理解的是，在对由用户的日负荷曲线进行聚类分析之后，会将众多的日负荷曲线划分为不同的类别。归属于同一类别的日负荷曲线具有大致相同的曲线形态，为了更加明确地了解具体类别的用电情况，可以对同一类别的所有曲线进行综合，获得各个类别的典型日负荷曲线。

在具体实现中，可以通过计算，得到归属于同一类的所有用户在各个采集点的负荷均值，基于在各个采集点的负荷均值，获得该类别的典型日负荷曲线。

当然，在求取典型日负荷曲线时，还可以采用其他的方式，例如，对同一类别的所述日负荷曲线上的所有数据进行统计，根据统计结果，确定各所述数据对应的权重，基于所述日负荷曲线上的所有数据以及各所述数据对应的权重，确定各个类别的典型日负荷曲线。

本实施例在对多个用户的日负荷曲线进行聚类分析之后，对同一类别的日负荷曲线进行综合，获得各个类别的典型日负荷曲线，更加清晰、明了地展示出各个类别日负荷曲线的数据特征。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有电网数据的分类程序，所述电网数据的分类程序被处理器执行时实现如下操作：

获取多个电力用户的日负荷曲线；

对所述初始矩阵进行KL变换，获得降维后的目标矩阵；

进一步地，所述电网数据的分类程序被处理器执行时还实现如下操作：

根据所述KL散度确定所述日负荷曲线的初始聚类中心；

删除所述差异矩阵中超过预设散度阈值的KL散度；

获取与所述差异矩阵中剩余KL散度对应的日负荷曲线；

根据所述排序结果确定多个所述初始聚类中心。

计算每一行的散度均值；

基于所述散度均值确定每一行的所述预设散度阈值；

删除所述日负荷曲线中负荷数据不全和负荷容量为0的曲线。

本实施例通过上述方案，分类设备获取多个电力用户的日负荷曲线，对所述日负荷曲线进行组合，获得由所述日负荷曲线组成的初始矩阵，对所述初始矩阵进行KL变换，获得降维后的目标矩阵，基于所述目标矩阵，利用K-means聚类算法对所述日负荷曲线进行聚类分析以完成对所述日负荷曲线的分类，通过对日负荷曲线组成的初始矩阵进行KL变换，大大减小了矩阵的维度，使得在对海量负荷曲线进行聚类算法时，有效地提高了负荷曲线聚类的速度。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种电网数据的分类方法，其特征在于，所述方法包括以下步骤：

获取多个电力用户的日负荷曲线；

对所述初始矩阵进行KL变换，获得降维后的目标矩阵；

2.如权利要求1所述的方法，其特征在于，所述基于所述目标矩阵，利用K-means聚类算法对所述日负荷曲线进行聚类分析以完成对所述日负荷曲线的分类，具体包括：

根据所述KL散度确定所述日负荷曲线的初始聚类中心；

3.如权利要求2所述的方法，其特征在于，所述根据所述KL散度确定所述日负荷曲线的初始聚类中心，具体包括：

删除所述差异矩阵中超过预设散度阈值的KL散度；

获取与所述差异矩阵中剩余KL散度对应的日负荷曲线；

根据所述排序结果确定多个所述初始聚类中心。

4.如权利要求3所述的方法，其特征在于，所述删除所述差异矩阵中超过预设散度阈值的KL散度，具体包括：

计算每一行的散度均值；

基于所述散度均值确定每一行的所述预设散度阈值；

5.如权利要求1所述的方法，其特征在于，所述基于所述目标矩阵，利用K-means聚类算法对所述日负荷曲线进行聚类分析以完成对所述日负荷曲线的分类之后，所述方法还包括：

6.如权利要求5所述的方法，其特征在于，所述对同一类别的所述日负荷曲线进行综合，获得各个类别的典型日负荷曲线，具体包括：

7.如权利要求1至6中任一项所述的方法，其特征在于，所述日负荷曲线为48点负荷曲线或96点负荷曲线；

删除所述日负荷曲线中负荷数据不全和负荷容量为0的曲线。

8.如权利要求1至6中任一项所述的方法，其特征在于，所述获取多个电力用户的日负荷曲线，具体包括：

9.一种分类设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的电网数据的分类程序，所述电网数据的分类程序配置为实现如权利要求1至8中任一项所述的电网数据的分类方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有电网数据的分类程序，所述电网数据的分类程序被处理器执行时实现如权利要求1至8中任一项所述的电网数据的分类方法的步骤。