CN111428804B

CN111428804B - 一种优化加权的随机森林窃电用户检测方法

Info

Publication number: CN111428804B
Application number: CN202010250147.1A
Authority: CN
Inventors: 林锐涛; 林志坚; 林峰; 林幕群; 林洪浩; 李裕辉; 马泽杰; 周勤兴; 陈管丹; 范晟; 王烁; 程超鹏; 彭显刚
Original assignee: Guangdong Power Grid Co Ltd; Shantou Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Shantou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2024-07-19
Anticipated expiration: 2040-04-01
Also published as: CN111428804A

Abstract

本发明涉及窃电监测技术领域，具体公开一种优化加权的随机森林窃电用户检测方法，可以用于电力供应技术领域中的窃电监控情形，通过构建由若干进行加权后的单一窃电决策模型组成的综合窃电决策模型，然后将待测用户的用电负荷数据输入综合窃电决策模型从而得到该待测用户是否属于窃电用户的推测结果，有利于供电企业有针对性地进行调查核实，极大的降低了窃电调查的工作量，提高了窃电监测的效率。

Description

一种优化加权的随机森林窃电用户检测方法

技术领域

本发明涉及窃电监测技术领域，尤其涉及一种优化加权的随机森林窃电用户检测方法。

背景技术

随着智能电网的不断推进，智能电表等计量装置得到大规模普及，这虽然在一定程度上增加了供电企业的数据采集便捷性，但也使得用电用户针对计量装置进行窃电的方式变得复杂多样，供电企业无法有效在线检测用户是否窃电。

近年来电网的电力供应形势严峻，电力缺口较大，除了因电网自身的问题造成电力缺口较大的现象以外，用电用户的窃电也造成了大量电量的流失，给我们国家和供电企业带来了非常大的亏损与资产流失，同时非常大的影响了正常社会的用电秩序。因此，如何准确及时的检测出配电网窃电用户从而减少电量的大量流失，挽回巨额的经济损失是电网公司填补电力缺口维护正常用电秩序所需要解决的难题。

发明内容

本发明的一个目的在于，提供一种优化加权的随机森林窃电用户检测方法，能从所有用电用户中查找出疑似窃电用户，以便供电企业进行核实，极大的减少了电量的流失，有利于保证正常的电力供应。

为达以上目的，本发明提供一种优化加权的随机森林窃电用户检测方法，包括：

S10、建立综合窃电决策模型，包括：

S101、提供训练数据集和测试数据集，所述训练数据集和测试数据集均包含窃电用户和非窃电用户两种用电用户的用电负荷数据；

S102、从所述训练数据集中选出若干用电负荷数据作为训练子集；

S103、获取所述训练子集中每一用电用户的若干用电特征指标；

S104、根据各用电特征指标与真实窃电情况建立与该训练子集对应的单一窃电决策模型；

S105、从所述测试数据集选出若干用电负荷数据作为测试子集；

S106、将所述测试子集的用电负荷数据输入所述单一窃电决策模型，得到单一窃电判断结果，根据所述单一窃电判断结果与真实窃电情况得到所述单一窃电决策模型的决策正确率；

S107、根据各单一窃电决策模型决策正确率的高低为各单一窃电决策模型的单一窃电判断结果赋予不同的决策权值；

S108、将各单一窃电判断结果结合对应的决策权值得到所述综合窃电决策模型；

S20、通过综合窃电决策模型判断待测用电用户是否窃电。

优选的，所述用电特征指标包括含零百分数、异常值百分数、平均日负荷率、日用电量离散系数方差、负载率均值和相似度系数。

优选的，所述单一窃电决策模型为包含若干分裂节点的决策树，所述S104包括：

计算所述用电特征指标的信息熵；

根据所述信息熵计算各用电特征指标的信息增益；

计算各所述信息增益的平均值作为平均增益；

计算高于所述平均增益的信息增益对应的信息增益率；

以信息增益率最高的用电特征指标作为分裂节点的分裂依据。

优选的，所述S102包括：

从所述训练数据集中随机选取若干用电负荷数据作为训练子集；

将所选取的用电负荷数据放回所述训练数据集；

从所述训练数据集再次随机选取若干用电负荷数据作为另一训练子集。

优选的，所述S105包括：

从所述测试数据集中随机选取若干用电负荷数据作为测试子集；

将所选取的用电负荷数据放回所述测试数据集；

从所述测试数据集再次随机选取若干用电负荷数据作为另一测试子集。

优选的，所述训练数据集和测试数据集均包括工业用户、商业用户和居民用户的用电负荷数据。

优选的，所述S20包括：

S201、根据所述待测用电用户的用电负荷数据获取其对应的用电特征指标；

S202、将所述待测用电用户的用电特征指标输入所述综合窃电决策模型，得到用于表征所述待测用电用户是否窃电的推测结果的综合窃电判断结果。

本发明的有益效果在于：提供一种优化加权的随机森林窃电用户检测方法，可以用于电力供应技术领域中的窃电监控情形，通过构建由若干进行加权后的单一窃电决策模型组成的综合窃电决策模型，然后将待测用户的用电负荷数据输入综合窃电决策模型从而得到该待测用户是否属于窃电用户的推测结果，有利于供电企业有针对性地进行调查核实，极大的降低了窃电调查的工作量，提高了窃电监测的效率。

附图说明

为了更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的优化加权的随机森林窃电用户检测方法的流程图；

图2是本发明实施例提供的决策树的示意图。

具体实施方式

为使得本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本实施例中的附图，对本实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本实施例提供一种优化加权的随机森林窃电用户检测方法，适用于窃电监测领域中的应用场景，可以提高电网运行监控的效率，所述优化加权的随机森林窃电用户检测方法由一种监控装置来执行，通过软件和/或硬件实现。

图1是本实施例提供的优化加权的随机森林窃电用户检测方法的流程图。

参见图1，所述优化加权的随机森林窃电用户检测方法包括如下步骤S10和S20。

S10、建立综合窃电决策模型，包括：

S101、提供训练数据集和测试数据集，所述训练数据集和测试数据集均包含窃电用户和非窃电用户两种用电用户的用电负荷数据。

需要指出的是，步骤S10的目的在于建立一可供步骤S20使用的综合窃电决策模型，故训练数据集和测试数据集中的用电负荷数据均为已知数据，即每个用电负荷数据对应的用电用户是否属于窃电用户为已知。

S102、从所述训练数据集中选出若干用电负荷数据作为训练子集。

具体地，S102包括：

S1021、从所述训练数据集中随机选取若干用电负荷数据作为训练子集；

S1022、将所选取的用电负荷数据放回所述训练数据集；

S1023、从所述训练数据集再次随机选取若干用电负荷数据作为另一训练子集。

需要说明的是，将已经选取过的用电负荷数据放回训练数据集，然后重新进行采样，可以极大地增加训练子集的数量和多样性，从而提高单一窃电决策模型的数量。

可选的，为了保证该单一窃电决策模型适用于多种用户，故可以使测试数据集包含工业用户、商业用户和居民用户三种用户的用电负荷数据。可选的，在进行训练子集的抽取时，按照用户类别的比例进行抽取，即若训练数据集中工业用户、商业用户和居民用户的比例为1：3：5，则训练子集中工业用户、商业用户和居民用户的比例也为1：3：5。

S103、获取所述训练子集中每一用电用户的若干用电特征指标。

可选的，所述用电特征指标包括含零百分数、异常值百分数、平均日负荷率、日用电量离散系数方差、负载率均值和相似度系数。

各个分类器的分类质量受待分类项特征属性、特征属性划分及训练样本质量影响较大，因此在对用户进行窃电检测前，需要对用户的用电量样本提取有价值的信息作为用电特征指标。本实施例从用电模式、用电稳定情况、用电负荷变化趋势三个层面来进行特征提取，反应用户用电量用电模式，用电稳定情况以及用电负荷变化趋势。具体地：

(1)含零百分数

其中Z_j为单个用户三个月内用电量为零的个数；Z_i为单个用户的总数据量。当出现大量时刻用电量为零时，疑似窃电用户的可能性大。

(2)异常值百分数

其中Z_j为单个用户三个月内用电量异常的个数；Z_i为单个用户的总数据量。当某用户用电数据含有大量异常值，说明该用户电表出现问题，存在人为干扰电表计数及上传的嫌疑。

(3)平均日负荷率

其中P_k.av为用户的第k天负荷均值；P_k.max为用户的第k天最大负荷。平均日负荷率反映三个月内用户用电趋势的变化。

(4)日用电量离散系数方差特征

其中M_ij为用户第k天用电量离散系数；P_m为用户一天中每个点的用电量数据；V_i为用户的日用电量离散系数方差；当方差较小时，用户用电行为平稳，反之波动较大。

(5)峰期负载率、平期负载率和谷期负载率均值

每个用户每月峰、平、谷期负载率均值：

其中P为用电量，下标av、max、min、av.peak、av.sh、av.val分别为平均值、最大值、最小值、峰段均值、平段均值、谷段均值，全面地反映了各类用户的用电特性。

(6)相似度系数特征

通过提取每个用户平均日负荷曲线M_av＝(m₁，m₂，…m_t)与其所在用户区域的典型日负荷特征曲线L_x.av＝(l_x1，l_x2，…l_xt)，x＝1，2，…X，计算两负荷特征曲线的皮尔逊相关系数与欧氏距离，得到每个用户的相似度系数。

皮尔逊相关系数：

欧氏距离：

则各用户的相似度系数：

S_i＝p_i+d_i (11)

用户的相似度系数越小，说明该用户与同区域类型用户的用电模式相似度越低，窃电嫌疑越大。

S104、根据各用电特征指标与真实窃电情况建立与该训练子集对应的单一窃电决策模型。

可选的，所述单一窃电决策模型为为包含若干分裂节点的决策树，所述S104包括：

S1041、计算所述用电特征指标的信息熵；具体地，信息熵的大小代表对应用电特征指标的差异性，若某一用电特征指标的信息熵较大，说明各用电用户的该用电特征指标差异较大，值得关注；

S1042、根据所述信息熵计算各用电特征指标的信息增益；

S1043、计算各所述信息增益的平均值作为平均增益；

S1044、计算高于所述平均增益的信息增益对应的信息增益率；用电特征指标的信息增益率较大表明其在窃电判断过程中的作用较大，由于部分用电特征指标可能存在由于信息增益较小而导致信息增益率较大的情况，故选取高于平均增益的信息增益进行信息增益率的计算；

S1045、计算各所述用电特征指标在所述信息熵中的信息增益率；

S1046、以信息增益率最高的用电特征指标作为分裂节点的分裂依据。

具体地，决策树是传统的随机森林分类算法中常用的分类器，其分裂节点一般是随机的，本实施例通过使用信息增益率作为分裂节点的分裂依据，可以极大地减少决策树下层的信息冗余度，提高决策效率。

在决策树的最顶层输入的是训练子集，则在第一个分裂节点进行分裂时，传统的随机森林分类算法可能会从含零百分数、异常值百分数、平均日负荷率、日用电量离散系数方差、负载率均值和相似度系数中随机选取一个作为分裂节点，故第一个分裂节点可能是含零百分数，也可能是异常值百分数等。而本实施例会先依次计算含零百分数、异常值百分数、平均日负荷率、日用电量离散系数方差、负载率均值和相似度系数上述六者的信息增益，然后计算平均增益，选出高于平均增益的用电特征指标，例如选出含零百分数、异常值百分数和平均日负荷率，再计算含零百分数、异常值百分数和平均日负荷率三者的信息增益率，假设含零百分数的信息增益率最大，则选取含零百分数作为第一个分裂节点的分裂依据。

信息增益率越高，表明该用电特征指标进行窃电判断的积极作用越明显，因此，优先使用信息增益率最高的用电特征指标作为分裂依据可以保证分裂时所使用的有效信息越多，从而有利于减少决策树下层的信息冗余度，提高决策效率。

在进行第一个分裂节点的分裂后，由于用电负荷数据已经分流，故各用电特征指标的信息增益率会改变，需要对第二个分裂节点处剩余的用电特征指标重新进行信息增益和平均增益的计算，然后选取信息增益高于平均增益且信息增益率最高的用电特征指标作为第二个分裂节点。如此类推，一般进行三到五次分裂即可达到决策精度要求。

例如，参见图2，若训练子集包含A、B、C和D等四个用电负荷数据集合，先求取A、B、C和D的信息熵，然后求取A、B、C和D的含零百分数、异常值百分数、平均日负荷率、日用电量离散系数方差、负载率均值和相似度系数等六个用电特征指标在该信息熵下对应的信息增益、平均增益和信息增益率，例如，在高于平均增益的用电特征指标中含零百分数的信息增益率最高，则将含零百分数作为第一个分裂节点301的分裂依据，A和D分到左边，B和C分到右边。

进行第一次分裂后，再对A和D组成的数据集进行信息熵求取，然后计算A和D的含零百分数、异常值百分数、平均日负荷率、日用电量离散系数方差、负载率均值和相似度系数等六个用电特征指标在刚求取的信息熵下对应的信息增益、平均增益和信息增益率，例如，在高于平均增益的用电特征指标中异常值百分数的信息增益率最高，则将异常值百分数作为第二个分裂节点302的分裂依据，如此类推，进行三到五次分裂即可达到决策精度要求。

本实施例提供的分裂方法通过计算信息增益率作为分裂节点的选用依据，极大的提高了当前分裂节点的有效信息率，减少了下层分裂节点的冗余信息，故能提高决策树的决策速度。

需要指出的是，决策树、信息熵、信息增益、平均增益、信息增益率和随机森林分类算法等概念、信息熵的求取公式、信息增益的求取公式以及信息增益率的求取公式等均属于信息处理领域的公知常识，且非本文的重点，故不进行赘述。

S105、从所述测试数据集选出若干用电负荷数据作为测试子集。

具体地，S105包括：

S1051、从所述测试数据集中随机选取若干用电负荷数据作为测试子集；

S1052、将所选取的用电负荷数据放回所述测试数据集；

S1053、从所述测试数据集再次随机选取若干用电负荷数据作为另一测试子集。

需要说明的是，将已经选取过的用电负荷数据放回测试数据集，然后重新进行采样，可以极大地增加测试子集的数量和多样性，从而提高预测正确率的正确率，有利于提高决策权值的合理性。

为了保证该综合窃电决策模型适用于多种用户，故可以使测试数据集包含工业用户、商业用户和居民用户三种用户的用电负荷数据。可选的，在进行测试子集的抽取时，按照用户类别的比例进行抽取，即若测试数据集中工业用户、商业用户和居民用户的比例为1：3：5，则测试子集中工业用户、商业用户和居民用户的比例也为1：3：5。

S106、将所述测试子集的用电负荷数据输入所述单一窃电决策模型，得到单一窃电判断结果，根据所述单一窃电判断结果与真实窃电情况得到所述单一窃电决策模型的决策正确率。

S108、将各单一窃电判断结果结合对应的决策权值得到所述综合窃电决策模型。

需要指出的是，训练子集和测试子集的区别在于，训练子集用于建立单一窃电决策模型，即每一训练子集均会对应产生一个单一窃电决策模型，而测试子集用于测试各单一窃电决策模型的单一窃电判断结果的预测正确率。

例如，若在某一训练子集中，含零百分数超过50％的用电用户均为窃电用户，则该训练子集所建立的单一窃电决策模型可以为：将所有含零百分数超过50％的用电用户判断为大概率窃电用户；然而，在另一训练子集中，含零百分数超过20％的用电用户均为窃电用户，则该训练子集所建立的单一窃电决策模型可以为：将所有含零百分数超过20％的用电用户判断为大概率窃电用户。若某一待测用电用户的含零百分数为30％，上述两个单一窃电决策模型的预测结果可能会分别是该待测用电用户不窃电和该待测用电用户窃电，由此可知，由于受训练子集的限制，不同单一窃电决策模型的单一窃电判断结果可能不同，有的预测正确率较高，有的预测正确率较低，因此，需要输入测试子集中的用电负荷数据并对各单一窃电决策模型的单一窃电判断结果进行验证，以获取各单一窃电决策模型的预测正确率。

预测正确率指正确预测用电用户与总预测用电用户数量的比值。例如，若某一训练子集包含100个用电用户，某一单一窃电决策模型对窃电情况进行判断时，判断对了90个，则其预测正确率为90/100*100％＝90％，因此，每将一个测试子集代入一个单一窃电决策模型就会得到一个预测正确率，可选的，将若干测试子集代入同一单一窃电决策模型就会得到若干预测正确率，然后取若干预测正确率的平均值作为该单一窃电决策模型的决策权值的分配依据

可以理解的是，本发明实施例所提供的综合窃电决策模型，其本质是由若干单一窃电决策模型组成的，例如，当输入一组待测用户的用电负荷数据后，系统将该用电负荷数据对应的用电特征指标逐一输入到各单一窃电决策模型，有的单一窃电决策模型可能会判断该待测用户属于窃电用户，有的单一窃电决策模型可能会判断该待测用户属于非窃电用户，最终各个单一窃电决策模型进行投票，判断该待测用户是否属于窃电用户。然而，由于不同的单一窃电决策模型的预测正确率是不同的，因此，预测正确率较高的单一窃电决策模型应当拥有较高的投票权，即其单一窃电判断结果对应的决策权值较高。例如，若综合窃电决策模型包含第一单一窃电决策模型、第二单一窃电决策模型和第三单一窃电决策模型，三者的单一窃电判断结果依次为非窃电、窃电和窃电，三者的预测正确率分别是30％、45％和75％，则可以根据三者预测正确率的比值将三者对应的决策权值依次定义为20％、30％和50％，最终综合窃电决策模型对应的综合窃电判断结果＝20％非窃电+30％窃电+50％窃电＝60％窃电，即该待测用户有60％的可能属于窃电用户。当然，各单一窃电决策模型的单一窃电判断结果也可以包含概率，即三者的单一窃电判断结果可以依次为20％窃电、80％窃电和80％窃电等，然后再结合决策权值得到综合窃电判断结果＝20％*20％窃电+30％*80％窃电+50％*80％窃电＝68％窃电，即该待测用户有68％的可能属于窃电用户。

可以理解的是，随着训练子集的增多，拥有投票权的单一窃电决策模型数量也会增多，从而降低了由于某个单一窃电决策模型具有过高决策权值可能导致的决策失误风险。随着测试子集数量的增多，各单一窃电决策模型的预测正确率越接近真实情况，进而提高决策权值的合理性，避免为某一单一决策判断结果赋予过高的决策权值。因此，提高训练子集和测试子集的数量是提高本实施例提供的优化加权的随机森林窃电用户检测方法可靠性的有效途径。优选的，为了提高练子集和测试子集的数量，本实施例采用重取样的方式生成训练子集及测试子集。

可以理解的是，不同类别的用电用户用电情况相差较大，例如工业用户、商业用户和居民用户三者的用电情况显然存在较大差异，为了保证综合窃电决策模型判断的准确度，可以先将用电用户进行分类，即将用电用户划分为工业用户、商业用户和居民用户，然后针对每一类别的用电用户分别执行所述S10和S20。同理，不同地域的用电用户差异也较大，例如内蒙古地区居民用户的用电情况与广东地区居民用户的用电情况也相差较大，故也可以根据地域对用电用户进行分类，然后针对每一类别的用电用户分别执行所述S10和S20。

S20、通过综合窃电决策模型判断待测用电用户是否窃电。其包括：

步骤S20属于对综合窃电决策模型的应用，只要将待测用电用户的用电特征指标输入综合窃电决策模型，综合窃电决策模型就可以判断出该待测用户是否属于窃电用户，当综合窃电决策模型判断某一待测用户属于窃电用户时，供电企业就可以有针对性地进行调查核实，极大的降低了窃电调查的工作量，提高了窃电监测的效率。

本实施例提供的优化加权的随机森林窃电用户检测方法具有以下优点：

1)考虑不同类别用电用户的用电特征差异性，首先根据用户类别进行分区，采用分区随机抽样的方式生成用电特征指标，保证每个训练子集中均为同类用电用户的用电负荷数据，减小不同类别用户的用电行为特征的差异性影响，避免数据在不同程度上的信息压缩与丢失；

2)通过使用优化的节点分裂算法在每棵决策树内部节点分裂属性选择，避免传统随机森林随机选择部分特征属性进行分裂的不确定性，增强随机森林的泛化能力，提高决策树的运算速度；

3)采用加权投票法输出结果，避免出现相同票数的死局现象，以及避免每棵决策树都拥有相等的投票权重从而影响决策树输出的弊端，有效提高了预测的精准度。

本实施例提供的优化加权的随机森林窃电用户检测方法，可以用于电力供应技术领域中的窃电监控情形，通过构建由若干进行加权后的单一窃电决策模型组成的综合窃电决策模型，然后将待测用户的用电负荷数据输入综合窃电决策模型从而得到该待测用户是否属于窃电用户的推测结果，有利于供电企业有针对性地进行调查核实，极大的降低了窃电调查的工作量，提高了窃电监测的效率。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种优化加权的随机森林窃电用户检测方法，其特征在于，包括：

S10、建立综合窃电决策模型，包括：

S20、通过综合窃电决策模型判断待测用电用户是否窃电；

所述用电特征指标包括含零百分数、异常值百分数、平均日负荷率、日用电量离散系数方差、负载率均值和相似度系数；

所述单一窃电决策模型为包含若干分裂节点的决策树，所述S104包括：

计算所述用电特征指标的信息熵；

根据所述信息熵计算各用电特征指标的信息增益；

计算各所述信息增益的平均值作为平均增益；

计算高于所述平均增益的信息增益对应的信息增益率；

以信息增益率最高的用电特征指标作为分裂节点的分裂依据；

所述S102包括：

将所选取的用电负荷数据放回所述训练数据集；

从所述训练数据集再次随机选取若干用电负荷数据作为另一训练子集；

所述S105包括：

将所选取的用电负荷数据放回所述测试数据集；

从所述测试数据集再次随机选取若干用电负荷数据作为另一测试子集；

所述训练数据集和测试数据集均包括工业用户、商业用户和居民用户的用电负荷数据；

所述S20包括：