CN111428804B - 一种优化加权的随机森林窃电用户检测方法 - Google Patents
一种优化加权的随机森林窃电用户检测方法 Download PDFInfo
- Publication number
- CN111428804B CN111428804B CN202010250147.1A CN202010250147A CN111428804B CN 111428804 B CN111428804 B CN 111428804B CN 202010250147 A CN202010250147 A CN 202010250147A CN 111428804 B CN111428804 B CN 111428804B
- Authority
- CN
- China
- Prior art keywords
- electricity
- user
- decision
- stealing
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 283
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 20
- 238000001514 detection method Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims description 58
- 238000012360 testing method Methods 0.000 claims description 50
- 238000003066 decision tree Methods 0.000 claims description 14
- 230000002159 abnormal effect Effects 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 abstract description 10
- 238000011835 investigation Methods 0.000 description 6
- 238000000034 method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000005612 types of electricity Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000012952 Resampling Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R31/00—Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
- G01R31/08—Locating faults in cables, transmission lines, or networks
- G01R31/081—Locating faults in cables, transmission lines, or networks according to type of conductors
- G01R31/086—Locating faults in cables, transmission lines, or networks according to type of conductors in power transmission or distribution networks, i.e. with interconnected conductors
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R31/00—Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
- G01R31/08—Locating faults in cables, transmission lines, or networks
- G01R31/088—Aspects of digital computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P80/00—Climate change mitigation technologies for sector-wide applications
- Y02P80/10—Efficient use of energy, e.g. using compressed air or pressurized fluid as energy carrier
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及窃电监测技术领域,具体公开一种优化加权的随机森林窃电用户检测方法,可以用于电力供应技术领域中的窃电监控情形,通过构建由若干进行加权后的单一窃电决策模型组成的综合窃电决策模型,然后将待测用户的用电负荷数据输入综合窃电决策模型从而得到该待测用户是否属于窃电用户的推测结果,有利于供电企业有针对性地进行调查核实,极大的降低了窃电调查的工作量,提高了窃电监测的效率。
Description
技术领域
本发明涉及窃电监测技术领域,尤其涉及一种优化加权的随机森林窃电用户检测方法。
背景技术
随着智能电网的不断推进,智能电表等计量装置得到大规模普及,这虽然在一定程度上增加了供电企业的数据采集便捷性,但也使得用电用户针对计量装置进行窃电的方式变得复杂多样,供电企业无法有效在线检测用户是否窃电。
近年来电网的电力供应形势严峻,电力缺口较大,除了因电网自身的问题造成电力缺口较大的现象以外,用电用户的窃电也造成了大量电量的流失,给我们国家和供电企业带来了非常大的亏损与资产流失,同时非常大的影响了正常社会的用电秩序。因此,如何准确及时的检测出配电网窃电用户从而减少电量的大量流失,挽回巨额的经济损失是电网公司填补电力缺口维护正常用电秩序所需要解决的难题。
发明内容
本发明的一个目的在于,提供一种优化加权的随机森林窃电用户检测方法,能从所有用电用户中查找出疑似窃电用户,以便供电企业进行核实,极大的减少了电量的流失,有利于保证正常的电力供应。
为达以上目的,本发明提供一种优化加权的随机森林窃电用户检测方法,包括:
S10、建立综合窃电决策模型,包括:
S101、提供训练数据集和测试数据集,所述训练数据集和测试数据集均包含窃电用户和非窃电用户两种用电用户的用电负荷数据;
S102、从所述训练数据集中选出若干用电负荷数据作为训练子集;
S103、获取所述训练子集中每一用电用户的若干用电特征指标;
S104、根据各用电特征指标与真实窃电情况建立与该训练子集对应的单一窃电决策模型;
S105、从所述测试数据集选出若干用电负荷数据作为测试子集;
S106、将所述测试子集的用电负荷数据输入所述单一窃电决策模型,得到单一窃电判断结果,根据所述单一窃电判断结果与真实窃电情况得到所述单一窃电决策模型的决策正确率;
S107、根据各单一窃电决策模型决策正确率的高低为各单一窃电决策模型的单一窃电判断结果赋予不同的决策权值;
S108、将各单一窃电判断结果结合对应的决策权值得到所述综合窃电决策模型;
S20、通过综合窃电决策模型判断待测用电用户是否窃电。
优选的,所述用电特征指标包括含零百分数、异常值百分数、平均日负荷率、日用电量离散系数方差、负载率均值和相似度系数。
优选的,所述单一窃电决策模型为包含若干分裂节点的决策树,所述S104包括:
计算所述用电特征指标的信息熵;
根据所述信息熵计算各用电特征指标的信息增益;
计算各所述信息增益的平均值作为平均增益;
计算高于所述平均增益的信息增益对应的信息增益率;
以信息增益率最高的用电特征指标作为分裂节点的分裂依据。
优选的,所述S102包括:
从所述训练数据集中随机选取若干用电负荷数据作为训练子集;
将所选取的用电负荷数据放回所述训练数据集;
从所述训练数据集再次随机选取若干用电负荷数据作为另一训练子集。
优选的,所述S105包括:
从所述测试数据集中随机选取若干用电负荷数据作为测试子集;
将所选取的用电负荷数据放回所述测试数据集;
从所述测试数据集再次随机选取若干用电负荷数据作为另一测试子集。
优选的,所述训练数据集和测试数据集均包括工业用户、商业用户和居民用户的用电负荷数据。
优选的,所述S20包括:
S201、根据所述待测用电用户的用电负荷数据获取其对应的用电特征指标;
S202、将所述待测用电用户的用电特征指标输入所述综合窃电决策模型,得到用于表征所述待测用电用户是否窃电的推测结果的综合窃电判断结果。
本发明的有益效果在于:提供一种优化加权的随机森林窃电用户检测方法,可以用于电力供应技术领域中的窃电监控情形,通过构建由若干进行加权后的单一窃电决策模型组成的综合窃电决策模型,然后将待测用户的用电负荷数据输入综合窃电决策模型从而得到该待测用户是否属于窃电用户的推测结果,有利于供电企业有针对性地进行调查核实,极大的降低了窃电调查的工作量,提高了窃电监测的效率。
附图说明
为了更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的优化加权的随机森林窃电用户检测方法的流程图;
图2是本发明实施例提供的决策树的示意图。
具体实施方式
为使得本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本实施例中的附图,对本实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本实施例提供一种优化加权的随机森林窃电用户检测方法,适用于窃电监测领域中的应用场景,可以提高电网运行监控的效率,所述优化加权的随机森林窃电用户检测方法由一种监控装置来执行,通过软件和/或硬件实现。
图1是本实施例提供的优化加权的随机森林窃电用户检测方法的流程图。
参见图1,所述优化加权的随机森林窃电用户检测方法包括如下步骤S10和S20。
S10、建立综合窃电决策模型,包括:
S101、提供训练数据集和测试数据集,所述训练数据集和测试数据集均包含窃电用户和非窃电用户两种用电用户的用电负荷数据。
需要指出的是,步骤S10的目的在于建立一可供步骤S20使用的综合窃电决策模型,故训练数据集和测试数据集中的用电负荷数据均为已知数据,即每个用电负荷数据对应的用电用户是否属于窃电用户为已知。
S102、从所述训练数据集中选出若干用电负荷数据作为训练子集。
具体地,S102包括:
S1021、从所述训练数据集中随机选取若干用电负荷数据作为训练子集;
S1022、将所选取的用电负荷数据放回所述训练数据集;
S1023、从所述训练数据集再次随机选取若干用电负荷数据作为另一训练子集。
需要说明的是,将已经选取过的用电负荷数据放回训练数据集,然后重新进行采样,可以极大地增加训练子集的数量和多样性,从而提高单一窃电决策模型的数量。
可选的,为了保证该单一窃电决策模型适用于多种用户,故可以使测试数据集包含工业用户、商业用户和居民用户三种用户的用电负荷数据。可选的,在进行训练子集的抽取时,按照用户类别的比例进行抽取,即若训练数据集中工业用户、商业用户和居民用户的比例为1:3:5,则训练子集中工业用户、商业用户和居民用户的比例也为1:3:5。
S103、获取所述训练子集中每一用电用户的若干用电特征指标。
可选的,所述用电特征指标包括含零百分数、异常值百分数、平均日负荷率、日用电量离散系数方差、负载率均值和相似度系数。
各个分类器的分类质量受待分类项特征属性、特征属性划分及训练样本质量影响较大,因此在对用户进行窃电检测前,需要对用户的用电量样本提取有价值的信息作为用电特征指标。本实施例从用电模式、用电稳定情况、用电负荷变化趋势三个层面来进行特征提取,反应用户用电量用电模式,用电稳定情况以及用电负荷变化趋势。具体地:
(1)含零百分数
其中Zj为单个用户三个月内用电量为零的个数;Zi为单个用户的总数据量。当出现大量时刻用电量为零时,疑似窃电用户的可能性大。
(2)异常值百分数
其中Zj为单个用户三个月内用电量异常的个数;Zi为单个用户的总数据量。当某用户用电数据含有大量异常值,说明该用户电表出现问题,存在人为干扰电表计数及上传的嫌疑。
(3)平均日负荷率
其中Pk.av为用户的第k天负荷均值;Pk.max为用户的第k天最大负荷。平均日负荷率反映三个月内用户用电趋势的变化。
(4)日用电量离散系数方差特征
其中Mij为用户第k天用电量离散系数;Pm为用户一天中每个点的用电量数据;Vi为用户的日用电量离散系数方差;当方差较小时,用户用电行为平稳,反之波动较大。
(5)峰期负载率、平期负载率和谷期负载率均值
每个用户每月峰、平、谷期负载率均值:
其中P为用电量,下标av、max、min、av.peak、av.sh、av.val分别为平均值、最大值、最小值、峰段均值、平段均值、谷段均值,全面地反映了各类用户的用电特性。
(6)相似度系数特征
通过提取每个用户平均日负荷曲线Mav=(m1,m2,…mt)与其所在用户区域的典型日负荷特征曲线Lx.av=(lx1,lx2,…lxt),x=1,2,…X,计算两负荷特征曲线的皮尔逊相关系数与欧氏距离,得到每个用户的相似度系数。
皮尔逊相关系数:
欧氏距离:
则各用户的相似度系数:
Si=pi+di (11)
用户的相似度系数越小,说明该用户与同区域类型用户的用电模式相似度越低,窃电嫌疑越大。
S104、根据各用电特征指标与真实窃电情况建立与该训练子集对应的单一窃电决策模型。
可选的,所述单一窃电决策模型为为包含若干分裂节点的决策树,所述S104包括:
S1041、计算所述用电特征指标的信息熵;具体地,信息熵的大小代表对应用电特征指标的差异性,若某一用电特征指标的信息熵较大,说明各用电用户的该用电特征指标差异较大,值得关注;
S1042、根据所述信息熵计算各用电特征指标的信息增益;
S1043、计算各所述信息增益的平均值作为平均增益;
S1044、计算高于所述平均增益的信息增益对应的信息增益率;用电特征指标的信息增益率较大表明其在窃电判断过程中的作用较大,由于部分用电特征指标可能存在由于信息增益较小而导致信息增益率较大的情况,故选取高于平均增益的信息增益进行信息增益率的计算;
S1045、计算各所述用电特征指标在所述信息熵中的信息增益率;
S1046、以信息增益率最高的用电特征指标作为分裂节点的分裂依据。
具体地,决策树是传统的随机森林分类算法中常用的分类器,其分裂节点一般是随机的,本实施例通过使用信息增益率作为分裂节点的分裂依据,可以极大地减少决策树下层的信息冗余度,提高决策效率。
在决策树的最顶层输入的是训练子集,则在第一个分裂节点进行分裂时,传统的随机森林分类算法可能会从含零百分数、异常值百分数、平均日负荷率、日用电量离散系数方差、负载率均值和相似度系数中随机选取一个作为分裂节点,故第一个分裂节点可能是含零百分数,也可能是异常值百分数等。而本实施例会先依次计算含零百分数、异常值百分数、平均日负荷率、日用电量离散系数方差、负载率均值和相似度系数上述六者的信息增益,然后计算平均增益,选出高于平均增益的用电特征指标,例如选出含零百分数、异常值百分数和平均日负荷率,再计算含零百分数、异常值百分数和平均日负荷率三者的信息增益率,假设含零百分数的信息增益率最大,则选取含零百分数作为第一个分裂节点的分裂依据。
信息增益率越高,表明该用电特征指标进行窃电判断的积极作用越明显,因此,优先使用信息增益率最高的用电特征指标作为分裂依据可以保证分裂时所使用的有效信息越多,从而有利于减少决策树下层的信息冗余度,提高决策效率。
在进行第一个分裂节点的分裂后,由于用电负荷数据已经分流,故各用电特征指标的信息增益率会改变,需要对第二个分裂节点处剩余的用电特征指标重新进行信息增益和平均增益的计算,然后选取信息增益高于平均增益且信息增益率最高的用电特征指标作为第二个分裂节点。如此类推,一般进行三到五次分裂即可达到决策精度要求。
例如,参见图2,若训练子集包含A、B、C和D等四个用电负荷数据集合,先求取A、B、C和D的信息熵,然后求取A、B、C和D的含零百分数、异常值百分数、平均日负荷率、日用电量离散系数方差、负载率均值和相似度系数等六个用电特征指标在该信息熵下对应的信息增益、平均增益和信息增益率,例如,在高于平均增益的用电特征指标中含零百分数的信息增益率最高,则将含零百分数作为第一个分裂节点301的分裂依据,A和D分到左边,B和C分到右边。
进行第一次分裂后,再对A和D组成的数据集进行信息熵求取,然后计算A和D的含零百分数、异常值百分数、平均日负荷率、日用电量离散系数方差、负载率均值和相似度系数等六个用电特征指标在刚求取的信息熵下对应的信息增益、平均增益和信息增益率,例如,在高于平均增益的用电特征指标中异常值百分数的信息增益率最高,则将异常值百分数作为第二个分裂节点302的分裂依据,如此类推,进行三到五次分裂即可达到决策精度要求。
本实施例提供的分裂方法通过计算信息增益率作为分裂节点的选用依据,极大的提高了当前分裂节点的有效信息率,减少了下层分裂节点的冗余信息,故能提高决策树的决策速度。
需要指出的是,决策树、信息熵、信息增益、平均增益、信息增益率和随机森林分类算法等概念、信息熵的求取公式、信息增益的求取公式以及信息增益率的求取公式等均属于信息处理领域的公知常识,且非本文的重点,故不进行赘述。
S105、从所述测试数据集选出若干用电负荷数据作为测试子集。
具体地,S105包括:
S1051、从所述测试数据集中随机选取若干用电负荷数据作为测试子集;
S1052、将所选取的用电负荷数据放回所述测试数据集;
S1053、从所述测试数据集再次随机选取若干用电负荷数据作为另一测试子集。
需要说明的是,将已经选取过的用电负荷数据放回测试数据集,然后重新进行采样,可以极大地增加测试子集的数量和多样性,从而提高预测正确率的正确率,有利于提高决策权值的合理性。
为了保证该综合窃电决策模型适用于多种用户,故可以使测试数据集包含工业用户、商业用户和居民用户三种用户的用电负荷数据。可选的,在进行测试子集的抽取时,按照用户类别的比例进行抽取,即若测试数据集中工业用户、商业用户和居民用户的比例为1:3:5,则测试子集中工业用户、商业用户和居民用户的比例也为1:3:5。
S106、将所述测试子集的用电负荷数据输入所述单一窃电决策模型,得到单一窃电判断结果,根据所述单一窃电判断结果与真实窃电情况得到所述单一窃电决策模型的决策正确率。
S107、根据各单一窃电决策模型决策正确率的高低为各单一窃电决策模型的单一窃电判断结果赋予不同的决策权值;
S108、将各单一窃电判断结果结合对应的决策权值得到所述综合窃电决策模型。
需要指出的是,训练子集和测试子集的区别在于,训练子集用于建立单一窃电决策模型,即每一训练子集均会对应产生一个单一窃电决策模型,而测试子集用于测试各单一窃电决策模型的单一窃电判断结果的预测正确率。
例如,若在某一训练子集中,含零百分数超过50%的用电用户均为窃电用户,则该训练子集所建立的单一窃电决策模型可以为:将所有含零百分数超过50%的用电用户判断为大概率窃电用户;然而,在另一训练子集中,含零百分数超过20%的用电用户均为窃电用户,则该训练子集所建立的单一窃电决策模型可以为:将所有含零百分数超过20%的用电用户判断为大概率窃电用户。若某一待测用电用户的含零百分数为30%,上述两个单一窃电决策模型的预测结果可能会分别是该待测用电用户不窃电和该待测用电用户窃电,由此可知,由于受训练子集的限制,不同单一窃电决策模型的单一窃电判断结果可能不同,有的预测正确率较高,有的预测正确率较低,因此,需要输入测试子集中的用电负荷数据并对各单一窃电决策模型的单一窃电判断结果进行验证,以获取各单一窃电决策模型的预测正确率。
预测正确率指正确预测用电用户与总预测用电用户数量的比值。例如,若某一训练子集包含100个用电用户,某一单一窃电决策模型对窃电情况进行判断时,判断对了90个,则其预测正确率为90/100*100%=90%,因此,每将一个测试子集代入一个单一窃电决策模型就会得到一个预测正确率,可选的,将若干测试子集代入同一单一窃电决策模型就会得到若干预测正确率,然后取若干预测正确率的平均值作为该单一窃电决策模型的决策权值的分配依据
可以理解的是,本发明实施例所提供的综合窃电决策模型,其本质是由若干单一窃电决策模型组成的,例如,当输入一组待测用户的用电负荷数据后,系统将该用电负荷数据对应的用电特征指标逐一输入到各单一窃电决策模型,有的单一窃电决策模型可能会判断该待测用户属于窃电用户,有的单一窃电决策模型可能会判断该待测用户属于非窃电用户,最终各个单一窃电决策模型进行投票,判断该待测用户是否属于窃电用户。然而,由于不同的单一窃电决策模型的预测正确率是不同的,因此,预测正确率较高的单一窃电决策模型应当拥有较高的投票权,即其单一窃电判断结果对应的决策权值较高。例如,若综合窃电决策模型包含第一单一窃电决策模型、第二单一窃电决策模型和第三单一窃电决策模型,三者的单一窃电判断结果依次为非窃电、窃电和窃电,三者的预测正确率分别是30%、45%和75%,则可以根据三者预测正确率的比值将三者对应的决策权值依次定义为20%、30%和50%,最终综合窃电决策模型对应的综合窃电判断结果=20%非窃电+30%窃电+50%窃电=60%窃电,即该待测用户有60%的可能属于窃电用户。当然,各单一窃电决策模型的单一窃电判断结果也可以包含概率,即三者的单一窃电判断结果可以依次为20%窃电、80%窃电和80%窃电等,然后再结合决策权值得到综合窃电判断结果=20%*20%窃电+30%*80%窃电+50%*80%窃电=68%窃电,即该待测用户有68%的可能属于窃电用户。
可以理解的是,随着训练子集的增多,拥有投票权的单一窃电决策模型数量也会增多,从而降低了由于某个单一窃电决策模型具有过高决策权值可能导致的决策失误风险。随着测试子集数量的增多,各单一窃电决策模型的预测正确率越接近真实情况,进而提高决策权值的合理性,避免为某一单一决策判断结果赋予过高的决策权值。因此,提高训练子集和测试子集的数量是提高本实施例提供的优化加权的随机森林窃电用户检测方法可靠性的有效途径。优选的,为了提高练子集和测试子集的数量,本实施例采用重取样的方式生成训练子集及测试子集。
可以理解的是,不同类别的用电用户用电情况相差较大,例如工业用户、商业用户和居民用户三者的用电情况显然存在较大差异,为了保证综合窃电决策模型判断的准确度,可以先将用电用户进行分类,即将用电用户划分为工业用户、商业用户和居民用户,然后针对每一类别的用电用户分别执行所述S10和S20。同理,不同地域的用电用户差异也较大,例如内蒙古地区居民用户的用电情况与广东地区居民用户的用电情况也相差较大,故也可以根据地域对用电用户进行分类,然后针对每一类别的用电用户分别执行所述S10和S20。
S20、通过综合窃电决策模型判断待测用电用户是否窃电。其包括:
S201、根据所述待测用电用户的用电负荷数据获取其对应的用电特征指标;
S202、将所述待测用电用户的用电特征指标输入所述综合窃电决策模型,得到用于表征所述待测用电用户是否窃电的推测结果的综合窃电判断结果。
步骤S20属于对综合窃电决策模型的应用,只要将待测用电用户的用电特征指标输入综合窃电决策模型,综合窃电决策模型就可以判断出该待测用户是否属于窃电用户,当综合窃电决策模型判断某一待测用户属于窃电用户时,供电企业就可以有针对性地进行调查核实,极大的降低了窃电调查的工作量,提高了窃电监测的效率。
本实施例提供的优化加权的随机森林窃电用户检测方法具有以下优点:
1)考虑不同类别用电用户的用电特征差异性,首先根据用户类别进行分区,采用分区随机抽样的方式生成用电特征指标,保证每个训练子集中均为同类用电用户的用电负荷数据,减小不同类别用户的用电行为特征的差异性影响,避免数据在不同程度上的信息压缩与丢失;
2)通过使用优化的节点分裂算法在每棵决策树内部节点分裂属性选择,避免传统随机森林随机选择部分特征属性进行分裂的不确定性,增强随机森林的泛化能力,提高决策树的运算速度;
3)采用加权投票法输出结果,避免出现相同票数的死局现象,以及避免每棵决策树都拥有相等的投票权重从而影响决策树输出的弊端,有效提高了预测的精准度。
本实施例提供的优化加权的随机森林窃电用户检测方法,可以用于电力供应技术领域中的窃电监控情形,通过构建由若干进行加权后的单一窃电决策模型组成的综合窃电决策模型,然后将待测用户的用电负荷数据输入综合窃电决策模型从而得到该待测用户是否属于窃电用户的推测结果,有利于供电企业有针对性地进行调查核实,极大的降低了窃电调查的工作量,提高了窃电监测的效率。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (1)
1.一种优化加权的随机森林窃电用户检测方法,其特征在于,包括:
S10、建立综合窃电决策模型,包括:
S101、提供训练数据集和测试数据集,所述训练数据集和测试数据集均包含窃电用户和非窃电用户两种用电用户的用电负荷数据;
S102、从所述训练数据集中选出若干用电负荷数据作为训练子集;
S103、获取所述训练子集中每一用电用户的若干用电特征指标;
S104、根据各用电特征指标与真实窃电情况建立与该训练子集对应的单一窃电决策模型;
S105、从所述测试数据集选出若干用电负荷数据作为测试子集;
S106、将所述测试子集的用电负荷数据输入所述单一窃电决策模型,得到单一窃电判断结果,根据所述单一窃电判断结果与真实窃电情况得到所述单一窃电决策模型的决策正确率;
S107、根据各单一窃电决策模型决策正确率的高低为各单一窃电决策模型的单一窃电判断结果赋予不同的决策权值;
S108、将各单一窃电判断结果结合对应的决策权值得到所述综合窃电决策模型;
S20、通过综合窃电决策模型判断待测用电用户是否窃电;
所述用电特征指标包括含零百分数、异常值百分数、平均日负荷率、日用电量离散系数方差、负载率均值和相似度系数;
所述单一窃电决策模型为包含若干分裂节点的决策树,所述S104包括:
计算所述用电特征指标的信息熵;
根据所述信息熵计算各用电特征指标的信息增益;
计算各所述信息增益的平均值作为平均增益;
计算高于所述平均增益的信息增益对应的信息增益率;
以信息增益率最高的用电特征指标作为分裂节点的分裂依据;
所述S102包括:
从所述训练数据集中随机选取若干用电负荷数据作为训练子集;
将所选取的用电负荷数据放回所述训练数据集;
从所述训练数据集再次随机选取若干用电负荷数据作为另一训练子集;
所述S105包括:
从所述测试数据集中随机选取若干用电负荷数据作为测试子集;
将所选取的用电负荷数据放回所述测试数据集;
从所述测试数据集再次随机选取若干用电负荷数据作为另一测试子集;
所述训练数据集和测试数据集均包括工业用户、商业用户和居民用户的用电负荷数据;
所述S20包括:
S201、根据所述待测用电用户的用电负荷数据获取其对应的用电特征指标;
S202、将所述待测用电用户的用电特征指标输入所述综合窃电决策模型,得到用于表征所述待测用电用户是否窃电的推测结果的综合窃电判断结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010250147.1A CN111428804B (zh) | 2020-04-01 | 2020-04-01 | 一种优化加权的随机森林窃电用户检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010250147.1A CN111428804B (zh) | 2020-04-01 | 2020-04-01 | 一种优化加权的随机森林窃电用户检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111428804A CN111428804A (zh) | 2020-07-17 |
CN111428804B true CN111428804B (zh) | 2024-07-19 |
Family
ID=71550437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010250147.1A Active CN111428804B (zh) | 2020-04-01 | 2020-04-01 | 一种优化加权的随机森林窃电用户检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111428804B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101420A (zh) * | 2020-08-17 | 2020-12-18 | 广东工业大学 | 一种相异模型下Stacking集成算法的异常用电用户识别方法 |
CN113361943A (zh) * | 2021-06-21 | 2021-09-07 | 广东电网有限责任公司 | 一种基于决策树规则生成的专变用户窃电检测方法及系统 |
CN113589034B (zh) * | 2021-07-30 | 2023-08-08 | 南方电网科学研究院有限责任公司 | 一种配电系统的窃电检测方法、装置、设备和介质 |
CN113591334A (zh) * | 2021-09-30 | 2021-11-02 | 深圳市景星天成科技有限公司 | 基于潮流调整的自愈电路馈线负荷率提高算法 |
CN114218522B (zh) * | 2021-12-02 | 2024-04-09 | 清华大学 | 基于信息传递熵的台区用户贡献度测算方法及窃电排查方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273920A (zh) * | 2017-05-27 | 2017-10-20 | 西安交通大学 | 一种基于随机森林的非侵入式家用电器识别方法 |
CN107862347A (zh) * | 2017-12-04 | 2018-03-30 | 国网山东省电力公司济南供电公司 | 一种基于随机森林的窃电行为的发现方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718490A (zh) * | 2014-12-04 | 2016-06-29 | 阿里巴巴集团控股有限公司 | 一种用于更新分类模型的方法及装置 |
CN108062560A (zh) * | 2017-12-04 | 2018-05-22 | 贵州电网有限责任公司电力科学研究院 | 一种基于随机森林的电力用户特征识别分类方法 |
US20200074306A1 (en) * | 2018-08-31 | 2020-03-05 | Ca, Inc. | Feature subset evolution by random decision forest accuracy |
CN110458725A (zh) * | 2019-08-20 | 2019-11-15 | 国网福建省电力有限公司 | 一种基于xgBoost模型和Hadoop架构的窃电识别分析方法及终端 |
-
2020
- 2020-04-01 CN CN202010250147.1A patent/CN111428804B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273920A (zh) * | 2017-05-27 | 2017-10-20 | 西安交通大学 | 一种基于随机森林的非侵入式家用电器识别方法 |
CN107862347A (zh) * | 2017-12-04 | 2018-03-30 | 国网山东省电力公司济南供电公司 | 一种基于随机森林的窃电行为的发现方法 |
Non-Patent Citations (1)
Title |
---|
随机森林在文本分类中的应用;贺捷;《信息科技》;20160115(第1期);第29-31页第3.4节 * |
Also Published As
Publication number | Publication date |
---|---|
CN111428804A (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428804B (zh) | 一种优化加权的随机森林窃电用户检测方法 | |
CN104408667B (zh) | 一种电能质量综合评估的方法和系统 | |
CN113077020B (zh) | 一种变压器集群管理方法及系统 | |
CN110879377A (zh) | 基于深度信念网络的计量装置故障溯源方法 | |
CN117578434B (zh) | 考虑柔性资源可调能力的配电网灵活性评估方法及装置 | |
CN113112188B (zh) | 一种基于预筛选动态集成的电力调度监控数据异常检测方法 | |
CN112257784A (zh) | 一种基于梯度提升决策树的窃电检测方法 | |
CN110837915A (zh) | 一种基于混合集成深度学习的电力系统低压负荷点预测及概率预测方法 | |
CN115563477B (zh) | 谐波数据识别方法、装置、计算机设备和存储介质 | |
CN112633315A (zh) | 一种电力系统扰动分类方法 | |
CN111178690A (zh) | 基于风控评分卡模型的用电客户窃电风险评估方法 | |
CN110349050B (zh) | 一种基于电网参数关键特征抽取的智能窃电判据方法及装置 | |
Pan et al. | Study on intelligent anti–electricity stealing early-warning technology based on convolutional neural networks | |
CN117874615A (zh) | 一种基于深度数字孪生的光伏故障诊断方法以及系统 | |
CN113092934B (zh) | 基于聚类和lstm的单相接地故障判定方法及系统 | |
CN115081551A (zh) | 基于K-Means聚类和优化RVM线损模型建立方法及系统 | |
Huang et al. | Electricity Theft Detection based on Iterative Interpolation and Fusion Convolutional Neural Network | |
CN116187799A (zh) | 一种基于停电态势分析的事件影响评估调控方法及系统 | |
Dian-Gang et al. | Anomaly behavior detection based on ensemble decision tree in power distribution network | |
CN109447490B (zh) | 一种基于用户地址的户变关系异常判别方法 | |
Bao et al. | Application of genetic-algorithm improved BP neural network in automated deformation monitoring | |
CN115545191B (zh) | 电流降噪网络模型训练方法及故障限流器电流降噪方法 | |
Luo et al. | Detection of abnormal power consumption patterns of power users based on machine learning | |
CN113258672B (zh) | 一种配电台区智慧物联监测方法及系统 | |
Yang et al. | Synchronous Line Loss Rate Analysis of Transformer District Based on K-Modes Clustering Algorithm and Deep Belief Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |