CN111178957B - 一种用电客户电量突增预警的方法 - Google Patents
一种用电客户电量突增预警的方法 Download PDFInfo
- Publication number
- CN111178957B CN111178957B CN201911341505.3A CN201911341505A CN111178957B CN 111178957 B CN111178957 B CN 111178957B CN 201911341505 A CN201911341505 A CN 201911341505A CN 111178957 B CN111178957 B CN 111178957B
- Authority
- CN
- China
- Prior art keywords
- electric quantity
- data
- power
- ratio
- sudden increase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000005611 electricity Effects 0.000 title claims abstract description 27
- 238000004140 cleaning Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 10
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 2
- 230000035945 sensitivity Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000004141 dimensional analysis Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Primary Health Care (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种用电客户电量突增预警的方法,所述方法包括:获取电量数据、客服工单数据和天气数据,并对所述获取的电量数据、客服工单数据和天气数据进行数据清洗,得到数据清洗后的数据;利用数据清洗后的数据,构建电量水平角度特征、电量环比和同比角度特征、气温影响程度特征和历史诉求情况特征;在所述特征构建之后,对所述构建的电量水平角度特征、电量环比和同比角度特征、气温影响程度特征和历史诉求情况特征进行筛选,得到筛选后的特征;基于所述得到筛选后的特征进行数据平衡化处理;基于所述数据平衡化处理后的特征构建Xgboost模型;基于所述Xgboost模型,对用电客户电量突增进行预警。在本发明实施中,可以对用电客户电量突增进行预警。
Description
技术领域
本发明涉及一种用电预警的技术领域,尤其涉及一种用电客户电量突增预警的方法。
背景技术
在电力体制改革的背景下,配售电服务将逐步放开,实现市场化,客户资源将成为配售电市场争夺的对象;对供电公司而言,提升客户服务质量是争夺客户资源的有力手段。随着电力客户的服务需求越来越多样化,传统“被动式”客户服务模式已经不能适应客户不断变化的服务要求,电力客户越来越需要电网企业提供多样化、差异化的服务;因此,对供电服务的期望值越来越高,对电网企业提供服务的要求也越来越多。目前,挖掘客户诉求多维度分析参数,构建多维度特征指标,考虑各个特征指标包含的信息大小、相关性以及对诉求与否的影响程度,建立客户诉求多维度分析与预警的数学模型,是电网企业亟需解决的问题。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种用电客户电量突增预警的方法,可以对用电客户电量突增进行预警。
为了解决上述技术问题,本发明实施例提供了一种用电客户电量突增预警的方法,所述方法包括:
获取电量数据、客服工单数据和天气数据,并对所述获取的电量数据、客服工单数据和天气数据进行数据清洗,得到数据清洗后的数据;
利用数据清洗后的数据,构建电量水平角度特征、电量环比和同比角度特征、气温影响程度特征和历史诉求情况特征;
在所述特征构建之后,对所述构建的电量水平角度特征、电量环比和同比角度特征、气温影响程度特征和历史诉求情况特征进行筛选,得到筛选后的特征;
基于所述得到筛选后的特征进行数据平衡化处理;
基于所述数据平衡化处理后的特征构建Xgboost模型;
基于所述Xgboost模型,对用电客户电量突增进行预警。
可选的,所述获取电量数据、客服工单数据和天气数据,并对所述获取的电量数据、客服工单数据和天气数据进行数据清洗,得到数据清洗后的数据包括:
基于分层抽样的形式获取电量数据、客服工单数据,并通过技术手段获取天气数据;
对所述获取的电量数据、客服工单数据和天气数据进行数据清洗,其中,所述数据清洗包括月电量缺失值填补、月电量异常小识别、是否来电缺失填补、月平均气温缺失值填补;
在所述数据清洗完成之后,得到数据清洗后的数据。
可选的,所述电量水平角度特征包括:电量消耗平均水平、电量的波动性和电量变化的差异性建立月均电量、月电量方差、电量的变异系数、月电量最大值和最小值的比值、月电量最大值和月均电量的比值、月均电量和月电量最小值的比值、当前月的月电量和月均电量的比值。
可选的,所述电量环比和同比角度特征包括:电量环比/同比的平均值、电量环比/同比的方差、电量环比/同比的变异系数、电量环比/同比的最大值、电量环比/同比的最小值、当期电量环比/同比、前一期电量环比/同比、当期电量环比/同比与电量环比平均值的差值、前一期电量环比与电量环比平均值的差值。
可选的,所述气温影响程度特征通过皮尔森相关系数计算得出其余月电量与相应月的平均气温之间的相关关系,进而得出气温与用电量之间的关联程度;其中,所述皮尔森相关系数的具体计算公式如下:
其中,ρx,y为皮尔森相关系数,xj为去掉异常小月电量之后的第j个月电量,yj为与xj所在月的平均气温,k为去掉异常小月电量之后其余月电量的个数。
可选的,所述历史诉求情况特征包括:统计每个用户最近一年因电量突增的来电次数、统计在各个月平均气温区间的来电总次数、统计上一个月是否因电量突增来电、统计过去一年每个月中因电量突增来电的最大次数和历史中是否出现过因电量突增来电现象。
可选的,所述在所述特征构建之后,对所述构建的电量水平角度特征、电量环比和同比角度特征、气温影响程度特征和历史诉求情况特征进行筛选,得到筛选后的特征包括:
在所述特征构建之后,基于零方差的算法,对所述构建的电量水平角度特征、电量环比和同比角度特征、气温影响程度特征和历史诉求情况特征中的离散型变量进行筛选;
在所述筛选之后,利用皮尔森相关系数的算法,排除所述离散型变量之间的高度相关性;
在所述排除所述离散型变量之间的高度相关性之后,利用多重共线性进行检验,排除引起多重共线性的变量;
在所述排除引起多重共线性的变量之后,基于随机森林的机器学习算法,选择出所述电量水平角度特征、电量环比和同比角度特征、气温影响程度特征和历史诉求情况特征中的重要特征。
可选的,所述基于所述得到筛选后的特征进行数据平衡化处理包括:
基于所述得到筛选后的特征,以欧氏距离为标准,计算电量突增来电用户中的每一个样本a到电量突增来电用户样本集中所有样本的距离,得到电量突增来电用户的k近邻;
根据样本不平衡比例设置采样比例来确定采样倍率N,从所述得到的电量突增来电用户的k近邻中随机选择若干个样本b;
基于每一个随机选出的近邻b,分别与所述电量突增来电用户中的每一个样本a构建新的样本c;所述新的样本c即数据平衡化处理的结果,具体公式如下:
c=a+rand(0,1)*|a-b|。
可选的,所述基于所述数据平衡化处理后的特征构建Xgboost模型,其中,所述Xgboost的目标函数具体公式如下:
Obj(θ)=L(θ)+Ω(θ);
可转换为:
其中,Obj(θ)为Xgboost的目标函数,L(θ)为误差函数,Ω(θ)为正则项。
可选的,所述基于所述Xgboost模型,对用电客户电量突增进行预警包括:
基于所述Xgboost模型进行训练,并得到训练的结果;
结合所述训练的结果和评价指标AUC,对用电客户电量突增进行预警。
在本发明实施中,在客户用电量和客服工单数据基础上,引入了外部天气数据,经过清洗处理得到月电量、是否来电诉求和月平均气温等信息,利用大数据分析技术手段,从电量的波动性、季节性和来电诉求的频率、诉求时的电量变化水平等角度构建多维度特征指标,考虑各个特征指标包含的信息大小、相关性以及对诉求与否的影响程度,并充分利用特征指标的信息,使用Xgboost模型对用电客户是否诉求进行预警。所述方法可以有效地运用于用电客户电量突增的预警,以便于相关业务人员提前做好相应的工作,降低用户因电量突增而造成的投诉。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中一种用电客户电量突增预警的方法的流程示意图;
图2是本发明实施例中的不同模型对电量突诉求预警结果AUC评估指标箱线图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例
请参阅图1,图1是本发明实施例中一种用电客户电量突增预警的方法的流程示意图。
如图1所示,一种用电客户电量突增预警的方法,所述方法包括:
S11:获取电量数据、客服工单数据和天气数据,并对所述获取的电量数据、客服工单数据和天气数据进行数据清洗,得到数据清洗后的数据;
在本发明具体实施过程中,所述获取电量数据、客服工单数据和天气数据,如表1所示,表1示出话务量预测来源表,并对所述获取的电量数据、客服工单数据和天气数据进行数据清洗,得到数据清洗后的数据包括:基于分层抽样的形式获取电量数据、客服工单数据,并通过技术手段获取天气数据;对所述获取的电量数据、客服工单数据和天气数据进行数据清洗,其中,所述数据清洗包括月电量缺失值填补、月电量异常小识别、是否来电缺失填补、月平均气温缺失值填补;在所述数据清洗完成之后,得到数据清洗后的数据。
具体的,对所述获取电量数据、客服工单数据和天气数据进行统计,得到缺失值占比为5.3%,各个月份的缺失值如表2所示,表2示出月电量缺失值统计结果。将月电量低于3度的置为NA,并删除月电量全部缺失的用户;根据电量的确实程度采用相应的方法进行填补,其中,当用户的月电量缺失比例大于0.5,使用历史平均电量来填补,否则将历史电量按照历史时间序列顺序构建一个向量矩阵,进而使用K近邻算法将其缺失值填补完整;识别出异常小的月电量并将其置为缺失值,即计算每个用户的月平均电量,若月电量小于0.1倍的月均电量,则将该月电量置为缺失值;另外,对于外部的气温数据,利用日最高气温和日最低气温的平均值得到日平均气温,剔除其中的缺失值,计算每个月的日均气温的平均值;对于诉求数据,若用户在某个月因电量电费突增来电则记录为1,否则记录为0。
表1话务量预测来源表
来源表 | 月电量数据 | 客服工单数 | 气候数据(日最高/低气温) |
用户数 | 110128 | 110128 | 730条 |
时间跨度 | 2017.06.01-2019.05.31 | 2017.06.01-2019.05.31 | 2017.06.01-2019.05.31 |
表2月电量缺失值统计结果
电量年月 | 缺失个数 | 缺失率 |
201706 | 0 | 0.00 |
201707 | 0 | 0.00 |
201708 | 9618 | 0.09 |
201709 | 0 | 0.00 |
201710 | 0 | 0.00 |
201711 | 0 | 0.00 |
201712 | 0 | 0.00 |
201801 | 8990 | 0.08 |
201802 | 8476 | 0.08 |
201803 | 7981 | 0.07 |
201804 | 8235 | 0.07 |
201805 | 0 | 0.00 |
201806 | 8475 | 0.08 |
201807 | 8431 | 0.08 |
201808 | 8294 | 0.07 |
201809 | 8410 | 0.08 |
201810 | 8594 | 0.08 |
201811 | 9105 | 0.08 |
201812 | 8982 | 0.08 |
201901 | 8622 | 0.08 |
201902 | 8300 | 0.07 |
201903 | 8448 | 0.08 |
201904 | 9049 | 0.08 |
201905 | 9053 | 0.08 |
S12:利用数据清洗后的数据,构建电量水平角度特征、电量环比和同比角度特征、气温影响程度特征和历史诉求情况特征;
在本发明具体实施过程中,所述电量水平角度特征包括:电量消耗平均水平、电量的波动性和电量变化的差异性建立月均电量、月电量方差、电量的变异系数、月电量最大值和最小值的比值、月电量最大值和月均电量的比值、月均电量和月电量最小值的比值、当前月的月电量和月均电量的比值。
在本发明具体实施过程中,所述电量环比和同比角度特征包括:电量环比/同比的平均值、电量环比/同比的方差、电量环比/同比的变异系数、电量环比/同比的最大值、电量环比/同比的最小值、当期电量环比/同比、前一期电量环比/同比、当期电量环比/同比与电量环比平均值的差值、前一期电量环比与电量环比平均值的差值。
在本发明具体实施过程中,所述气温影响程度特征通过皮尔森相关系数计算得出其余月电量与相应月的平均气温之间的相关关系,进而得出气温与用电量之间的关联程度;其中,所述皮尔森相关系数的具体计算公式如下:
其中,ρx,y为皮尔森相关系数,xj为去掉异常小月电量之后的第j个月电量,yj为与xj所在月的平均气温,k为去掉异常小月电量之后其余月电量的个数。具体的,ρx,y的取值在[-1,1]之间,若ρx,y小于0,则气温升高电量降低;若ρx,y等于0,则气温和电量之间相互独立;若ρx,y大于0,则气温升高电量也增加。
需要说明的是,考虑用电量变化因温度变化的季节特性,将月平均气温按照(-∞,24),[24,25],(25,+∞)划分为三个区间,依次成为低适季、合适季和高适季,进而计算相应月均气温所在有的电量环比平均值。
在本发明具体实施过程中,所述历史诉求情况特征包括:统计每个用户最近一年因电量突增的来电次数、统计在各个月平均气温区间(-∞,24),[24,25],(25,+∞)的来电总次数、统计上一个月是否因电量突增来电、统计过去一年每个月中因电量突增来电的最大次数和历史中是否出现过因电量突增来电现象。
S13:在所述特征构建之后,对所述构建的电量水平角度特征、电量环比和同比角度特征、气温影响程度特征和历史诉求情况特征进行筛选,得到筛选后的特征;
在本发明具体实施过程中,所述在所述特征构建之后,对所述构建的电量水平角度特征、电量环比和同比角度特征、气温影响程度特征和历史诉求情况特征进行筛选,得到筛选后的特征包括:在所述特征构建之后,基于零方差的算法,对所述构建的电量水平角度特征、电量环比和同比角度特征、气温影响程度特征和历史诉求情况特征中的离散型变量进行筛选;在所述筛选之后,利用皮尔森相关系数的算法,排除所述离散型变量之间的高度相关性;在所述排除所述离散型变量之间的高度相关性之后,利用多重共线性进行检验,排除引起多重共线性的变量;在所述排除引起多重共线性的变量之后,基于随机森林的机器学习算法,选择出所述电量水平角度特征、电量环比和同比角度特征、气温影响程度特征和历史诉求情况特征中的重要特征。
S14:基于所述得到筛选后的特征进行数据平衡化处理;
在本发明具体实施过程中,所述基于所述得到筛选后的特征进行数据平衡化处理包括:基于所述得到筛选后的特征,以欧氏距离为标准,计算电量突增来电用户中的每一个样本a到电量突增来电用户样本集中所有样本的距离,得到电量突增来电用户的k近邻;根据样本不平衡比例设置采样比例来确定采样倍率N,从所述得到的电量突增来电用户的k近邻中随机选择若干个样本b;基于每一个随机选出的近邻b,分别与所述电量突增来电用户中的每一个样本a构建新的样本c;所述新的样本c即数据平衡化处理的结果,具体公式如下:
c=a+rand(0,1)*|a-b|。
具体的,基于所述得到筛选后的特征进行数据平衡化处理采用SMOTE算法,采用数据合成的SMOTE生成新的来电诉求用户特征指标;需要说明的是,所述SMOTE算法,是合成少数采样技术,它是基于随机过采样算法的一种改进方案,该技术是目前处理非平衡数据的常用手段。SMOTE算法的基本思想就是对少数类别样本进行分析和模拟,并将人工模拟的新样本添加到数据集中,进而使原始数据中的类别不再严重失衡。该算法的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本。
S15:基于所述数据平衡化处理后的特征构建Xgboost模型;
在本发明具体实施过程中,所述基于所述数据平衡化处理后的特征构建Xgboost模型,其中,所述Xgboost的目标函数具体公式如下:
Obj(θ)=L(θ)+Ω(θ);
可转换为:
其中,Obj(θ)为Xgboost的目标函数,L(θ)为误差函数,Ω(θ)为正则项。
将上式代入原始的目标函数中,即:
根据泰勒展开式的定义将其代入目标函数中,则目标函数为:
则上述表达式为:
移除常数项后,算法的优化方向仅与每个点的误差函数的一阶和二阶导数有关,进而确定了算法优化方向,即目标函数转化为:
根据预测结果可知ft(x)=ωq(x),其中ft(x)表示第t棵树,q(x)表示第t棵树的树结构,ωq(x)表示在该树结构上的叶子节点的权重,其取值为ω=RT,q∈Rd,d∈{1,2,...,T};一般将复杂度函数设为将其代入目标函数中,则有:
具体实施中,对于用电客户的电量突增诉求预警,y=0表示不会因为电量增加而来电,y=1表示因电量突增来电诉求,x表示诉求与否的影响因素,即上述特征工程中选择出的特征指标x=(x1,x2,x3,...xm)。
需要说明的是,Xgboost是一个由GBDT(Gradient Bosted Decision Tree)发展而来的大规模、分布式的通用(Gradient Boosting)库,并在Gradient Boosting框架下实现了GBDT和一些广义的线性机器学习算法,而GBDT是一个基于迭代累加的决策树算法,它通过构造一组弱的学习器(树),并把多棵决策树的结果累加起来作为最终的预测输出。
S16:基于所述Xgboost模型,对用电客户电量突增进行预警。
在本发明具体实施过程中,所述基于所述Xgboost模型,对用电客户电量突增进行预警包括:基于所述Xgboost模型进行训练,并得到训练的结果;结合所述训练的结果和评价指标AUC,对用电客户电量突增进行预警。
具体的,AUC值是被定义为ROC曲线与横向正半轴围成的图形面积,而ROC是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的阈值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线;在ROC曲线上,最高进坐标图左上方的点为敏感性和特异性均较高的阈值。
为了选择出在电量突增诉求预警中表现好的模型,经过特征筛选后,利用SMOTE技术进行样本平衡化,分别使用逻辑回归模型、朴素贝叶斯模型、Xgboost模型以及它们的组合模型对2019年1月~2019年3月的样本数据进行训练,进而依次对2019年2月~2019年4月的电量突增诉求进行预警,其中,在整个模型的训练和预测过程中,基于bootstrap思想从非诉求用户中随机抽取一定的样本量进行30次试验,各个模型在不同月份上的电量突增诉求识别能力如表3所示,表3示出不同模型对电量突增预警的AUC指标分布情况。
表3不同模型对电量突增预警的AUC指标分布情况
注:表3中数据均为AUC指标值;组合模型是将逻辑回归模型、朴素贝叶斯模型和Xgboost模型的预测结果进行平均。
从表3中可以看出:(1)各个模型的标准差在0.0037~0.0212范围之内,体现出指标特征的合理稳定性;(2)Xgboost模型在对各个月的电量突增诉求预警能力最为稳定,其AUC基本上维持在0.81左右,说明该算法的泛化能力强。进一步为了更清晰的观看各个模型的预测效果,将它们的预测结果绘制成箱线图,如附图2所示,图2示出不同模型对电量突诉求预警结果AUC评估指标箱线图。经过上述一系列分析可知,从电量的波动性、季节性和历史电量突增诉求情况构建的特征指标能很好的度量电量突增诉求发生与否的可能性大小,且Xgboost模型在整体的表现中对电量突增诉求的预警能力最强最稳定,可以很好地运用于下期的电量突增诉求预警,以便于相关业务人员提前做好相应的工作,降低用户因电量突增而造成的投诉。
在本发明实施中,在客户用电量和客服工单数据基础上,引入了外部天气数据,经过清洗处理得到月电量、是否来电诉求和月平均气温等信息,利用大数据分析技术手段,从电量的波动性、季节性和来电诉求的频率、诉求时的电量变化水平等角度构建多维度特征指标,考虑各个特征指标包含的信息大小、相关性以及对诉求与否的影响程度,并充分利用特征指标的信息,使用Xgboost模型对用电客户是否诉求进行预警。所述方法可以有效地运用于用电客户电量突增的预警,以便于相关业务人员提前做好相应的工作,降低用户因电量突增而造成的投诉。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的一种用电客户电量突增预警的方法进行了详细介绍,本文中应采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (9)
1.一种用电客户电量突增预警的方法,其特征在于,所述方法包括:
获取电量数据、客服工单数据和天气数据,并对所述获取的电量数据、客服工单数据和天气数据进行数据清洗,得到数据清洗后的数据;
利用数据清洗后的数据,构建电量水平角度特征、电量环比和同比角度特征、气温影响程度特征和历史诉求情况特征;
在所述特征构建之后,对所述构建的电量水平角度特征、电量环比和同比角度特征、气温影响程度特征和历史诉求情况特征进行筛选,得到筛选后的特征;
基于所述得到筛选后的特征进行数据平衡化处理;
基于所述数据平衡化处理后的特征构建Xgboost模型;
基于所述Xgboost模型,对用电客户电量突增进行预警;
所述基于所述得到筛选后的特征进行数据平衡化处理包括:
基于所述得到筛选后的特征,以欧氏距离为标准,计算电量突增来电用户中的每一个样本a到电量突增来电用户样本集中所有样本的距离,得到电量突增来电用户的k近邻;
根据样本不平衡比例设置采样比例来确定采样倍率N,从所述得到的电量突增来电用户的k近邻中随机选择若干个样本b;
基于每一个随机选出的近邻b,分别与所述电量突增来电用户中的每一个样本a构建新的样本c;所述新的样本c即数据平衡化处理的结果,具体公式如下:
c=a+rand(0,1)*|a-b|。
2.根据权利要求1所述的一种用电客户电量突增预警的方法,其特征在于,所述获取电量数据、客服工单数据和天气数据,并对所述获取的电量数据、客服工单数据和天气数据进行数据清洗,得到数据清洗后的数据包括:
基于分层抽样的形式获取电量数据、客服工单数据,并通过技术手段获取天气数据;
对所述获取的电量数据、客服工单数据和天气数据进行数据清洗,其中,所述数据清洗包括月电量缺失值填补、月电量异常小识别、是否来电缺失填补、月平均气温缺失值填补;
在所述数据清洗完成之后,得到数据清洗后的数据。
3.根据权利要求1所述的一种用电客户电量突增预警的方法,其特征在于,所述电量水平角度特征包括:电量消耗平均水平、电量的波动性和电量变化的差异性建立月均电量、月电量方差、电量的变异系数、月电量最大值和最小值的比值、月电量最大值和月均电量的比值、月均电量和月电量最小值的比值、当前月的月电量和月均电量的比值。
4.根据权利要求1所述的一种用电客户电量突增预警的方法,其特征在于,所述电量环比和同比角度特征包括:电量环比/同比的平均值、电量环比/同比的方差、电量环比/同比的变异系数、电量环比/同比的最大值、电量环比/同比的最小值、当期电量环比/同比、前一期电量环比/同比、当期电量环比/同比与电量环比平均值的差值、前一期电量环比与电量环比平均值的差值。
6.根据权利要求1所述的一种用电客户电量突增预警的方法,其特征在于,所述历史诉求情况特征包括:统计每个用户最近一年因电量突增的来电次数、统计在各个月平均气温区间的来电总次数、统计上一个月是否因电量突增来电、统计过去一年每个月中因电量突增来电的最大次数和历史中是否出现过因电量突增来电现象。
7.根据权利要求1所述的一种用电客户电量突增预警的方法,其特征在于,所述在所述特征构建之后,对所述构建的电量水平角度特征、电量环比和同比角度特征、气温影响程度特征和历史诉求情况特征进行筛选,得到筛选后的特征包括:
在所述特征构建之后,基于零方差的算法,对所述构建的电量水平角度特征、电量环比和同比角度特征、气温影响程度特征和历史诉求情况特征中的离散型变量进行筛选;
在所述筛选之后,利用皮尔森相关系数的算法,排除所述离散型变量之间的高度相关性;
在所述排除所述离散型变量之间的高度相关性之后,利用多重共线性进行检验,排除引起多重共线性的变量;
在所述排除引起多重共线性的变量之后,基于随机森林的机器学习算法,选择出所述电量水平角度特征、电量环比和同比角度特征、气温影响程度特征和历史诉求情况特征中的重要特征。
9.根据权利要求1所述的一种用电客户电量突增预警的方法,其特征在于,所述基于所述Xgboost模型,对用电客户电量突增进行预警包括:
基于所述Xgboost模型进行训练,并得到训练的结果;
结合所述训练的结果和评价指标AUC,对用电客户电量突增进行预警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911341505.3A CN111178957B (zh) | 2019-12-23 | 2019-12-23 | 一种用电客户电量突增预警的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911341505.3A CN111178957B (zh) | 2019-12-23 | 2019-12-23 | 一种用电客户电量突增预警的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111178957A CN111178957A (zh) | 2020-05-19 |
CN111178957B true CN111178957B (zh) | 2023-04-14 |
Family
ID=70657386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911341505.3A Active CN111178957B (zh) | 2019-12-23 | 2019-12-23 | 一种用电客户电量突增预警的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178957B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035715B (zh) * | 2020-07-10 | 2023-04-14 | 广西电网有限责任公司 | 一种用户标签设计方法及装置 |
CN113222245A (zh) * | 2021-05-11 | 2021-08-06 | 深圳供电局有限公司 | 居民用户月度电量电费异常核查方法及系统、存储介质 |
CN114565181A (zh) * | 2022-03-18 | 2022-05-31 | 广西电网有限责任公司南宁供电局 | 一种电费异常投诉风险的预测方法及装置 |
CN115456210B (zh) * | 2022-08-22 | 2024-04-12 | 国网浙江省电力有限公司杭州市临安区供电公司 | 一种基于级联逻辑回归贝叶斯算法的用电投诉预警方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104008430A (zh) * | 2014-05-29 | 2014-08-27 | 华北电力大学 | 一种构建拟境挖掘动态智能负荷预测模型的方法 |
CN105512768A (zh) * | 2015-12-14 | 2016-04-20 | 上海交通大学 | 大数据环境下用户用电关联因素辨识及用电量预测方法 |
CN109165763A (zh) * | 2018-06-13 | 2019-01-08 | 广西电网有限责任公司电力科学研究院 | 一种95598客服工单的潜在被投诉的评估方法及装置 |
CN109410089A (zh) * | 2018-12-29 | 2019-03-01 | 广州供电局有限公司 | 低压跳闸和客户投诉预测方法、装置和存储介质 |
CN109727066A (zh) * | 2018-12-27 | 2019-05-07 | 浙江华云信息科技有限公司 | 一种基于XGBoost算法的大工业用电用户负荷预测方法 |
CN109858674A (zh) * | 2018-12-27 | 2019-06-07 | 国网浙江省电力有限公司 | 基于XGBoost算法的月度负荷预测方法 |
-
2019
- 2019-12-23 CN CN201911341505.3A patent/CN111178957B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104008430A (zh) * | 2014-05-29 | 2014-08-27 | 华北电力大学 | 一种构建拟境挖掘动态智能负荷预测模型的方法 |
CN105512768A (zh) * | 2015-12-14 | 2016-04-20 | 上海交通大学 | 大数据环境下用户用电关联因素辨识及用电量预测方法 |
CN109165763A (zh) * | 2018-06-13 | 2019-01-08 | 广西电网有限责任公司电力科学研究院 | 一种95598客服工单的潜在被投诉的评估方法及装置 |
CN109727066A (zh) * | 2018-12-27 | 2019-05-07 | 浙江华云信息科技有限公司 | 一种基于XGBoost算法的大工业用电用户负荷预测方法 |
CN109858674A (zh) * | 2018-12-27 | 2019-06-07 | 国网浙江省电力有限公司 | 基于XGBoost算法的月度负荷预测方法 |
CN109410089A (zh) * | 2018-12-29 | 2019-03-01 | 广州供电局有限公司 | 低压跳闸和客户投诉预测方法、装置和存储介质 |
Non-Patent Citations (3)
Title |
---|
基于大数据分析的电网增量负荷预测研究;余建平等;《机电信息》;20181023(第30期);1-3 * |
基于时序分解的用电负荷分析与预测;王旭强等;《计算机工程与应用》;20181015(第20期);230-236 * |
气温变化对用电负荷影响的分析;于巧梅等;《浙江气象》;20051230(第04期);36-39 * |
Also Published As
Publication number | Publication date |
---|---|
CN111178957A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111178957B (zh) | 一种用电客户电量突增预警的方法 | |
CN107563705A (zh) | 利用大数据分析家电产品安全库存及再订货的系统和方法 | |
CN107220732A (zh) | 一种基于梯度提升树的停电投诉风险预测方法 | |
CN111898839B (zh) | 电力用户的重要程度分类方法及装置 | |
CN111724039B (zh) | 一种向电力用户推荐客服人员的推荐方法 | |
CN111178585A (zh) | 基于多算法模型融合的故障接报量预测方法 | |
CN117578434B (zh) | 考虑柔性资源可调能力的配电网灵活性评估方法及装置 | |
CN109993380A (zh) | 一种信息处理方法、装置和计算机可读存储介质 | |
CN112163781A (zh) | 基于多维度指标聚类的园区用电群体生命周期评价方法 | |
CN117674119A (zh) | 电网运行风险评估方法、装置、计算机设备和存储介质 | |
CN113112186A (zh) | 一种企业评估方法、装置及设备 | |
CN116628534A (zh) | 基于电力大数据的园区用能动态画像划分方法 | |
CN113902181A (zh) | 公变重过载的短期预测方法及设备 | |
CN113793170A (zh) | 基于神经网络和LightGBM算法的二手车价格预测方法 | |
CN112330030A (zh) | 业扩物资需求预测系统及方法 | |
CN110070256B (zh) | 基于critic方法的零电量用户排查优先度权重计算方法 | |
CN117391542A (zh) | 一种基于综合灾情指数的地震间接经济损失评估方法 | |
CN117575564A (zh) | 可扩展的基础设施网络组件维修与改造决策评估方法及系统 | |
CN113837486B (zh) | 一种基于rnn-rbm的配网馈线长期负荷预测方法 | |
CN112039111A (zh) | 一种新能源微电网参与电网调峰能力的方法及系统 | |
Li et al. | Distribution transformer mid-term heavy load and overload pre-warning based on logistic regression | |
CN113589034A (zh) | 一种配电系统的窃电检测方法、装置、设备和介质 | |
CN112614006A (zh) | 负荷预测方法、装置、计算机可读存储介质以及处理器 | |
CN111797924A (zh) | 一种基于聚类算法的三维度园区画像方法及系统 | |
CN116011698B (zh) | 机组组合确定方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |