CN107507038A - 一种基于stacking和bagging算法的电费敏感用户分析方法 - Google Patents
一种基于stacking和bagging算法的电费敏感用户分析方法 Download PDFInfo
- Publication number
- CN107507038A CN107507038A CN201710780176.7A CN201710780176A CN107507038A CN 107507038 A CN107507038 A CN 107507038A CN 201710780176 A CN201710780176 A CN 201710780176A CN 107507038 A CN107507038 A CN 107507038A
- Authority
- CN
- China
- Prior art keywords
- electricity charge
- sensitive
- stacking
- bagging
- analysis method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 103
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 57
- 238000004458 analytical method Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000012360 testing method Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000035945 sensitivity Effects 0.000 claims description 13
- 238000007477 logistic regression Methods 0.000 claims description 7
- 238000007637 random forest analysis Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000013480 data collection Methods 0.000 claims description 2
- 230000004069 differentiation Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 4
- 238000000638 solvent extraction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于stacking和bagging算法的电费敏感用户分析方法,根据电费敏感的分类目标,基于电费敏感的原始数据表的几个核心业务指标,利用优区算法,解决非平衡和不相容问题,构建训练集和测试集。一方面,进一步细化基于电费敏感相关的核心业务结构化特征。另一方面,基于分词和词频统计的非结构化文本特征,利用stacking方法构建电费敏感的初级模型,为每个样本生成扩展的stacking特征。然后,将二者的特征进行合并作为整体输入。这样利用bagging和vote算法,在训练集和测试集上构建电费敏感的次级模型。利用训练好的模型,对验证集进行预测,并在实际业务中进行验证。从而,能提高了电力公司对用户的电费敏感度的掌握,有利于为电力客户提供差异化、针对性的优质供电服务。
Description
技术领域
本发明涉及电力技术领域,更具体的说,是涉及一种基于stacking和bagging算法的电费敏感用户分析的方法。
背景技术
随着电力体制改革向纵深推进,随着售电侧逐步向社会资本放开,当下的粗放式经营和统一式的客户服务内容及模式,难以应对日益增长的个性化、精准化客户服务体验要求。如何充分利用现有数据资源,深入挖掘客户潜在需求,改善供电服务质量,增强客户黏性,对公司未来发展至关重要。对电力服务具有较强敏感度的客户,对于电费计量、供电质量、电力营销等各方面服务的质量及方式上往往具备更高的要求,成为各级电力公司关注的重点客户。
经过多年的发展与沉淀,目前电力公司已经积累了全网4亿多客户档案数据和海量供电服务信息,以及公司营销、电网生产等数据,可以有效的支撑海量电力数据分析。电网公司的电费敏感客户往往对由用电引发的电量、电价、电费、缴费、欠费复电等电力服务具有强烈反应。
发明人在实现本发明的过程中发现,电力公司对这些数据进行分析和利用的程度还不够高。需要通过科学的开展电费敏感的用电客户分析,以准确地识别敏感客户,并量化敏感程度,以便为用户提供更安全、平稳、方便、可靠、优质的供电服务,有利于树立电力企业信誉及知名度、提高电力企业效益。
发明内容
有鉴于此,本申请提供了一种基于stacking和bagging算法的电费敏感用户分析方法,以支撑有针对性的精细化的客户服务策略,控制电力服务人工成本、提升企业公众形象。
为实现上述目的,本发明提供如下技术方案:
一种基于stacking和bagging算法的电费敏感用户分析方法,包括:
根据电费敏感的分类目标,基于电费敏感的原始数据表的核心业务指标,利用分区算法构建训练集和测试集;
进一步细化基于电费敏感相关的核心业务结构化特征;
基于分词和词频统计的非结构化文本特征;
利用Stacking方法构建电费敏感的初级模型,为每个样本生成扩展的stacking特征。
在本发明的一个优选实施例中,利用训练集和测试集中生成的结构化、非结构化特征以及初级模型,为每个样本生成扩展的stacking特征,进行合并特征后形成整体输入,利用bagging+vote算法,在训练集和测试集上构建电费敏感的次级模型;
利用训练好的次级模型,对验证集进行预测,并在实际业务中进行验证。
在本发明的一个优选实施例中,所述核心业务指标包括总用电量、总电费、总违约次数、总违约金额、合同容量以及致电95598次数。
在本发明的一个优选实施例中,所述构建训练集和测试集为:
根据电费敏感的分类目标,采集电费敏感用户训练集和电费非敏感用户测试集的指标数据;
分析原始数据的分布特征,确定原始数据为非平衡、不相容数据集;
基于L1正则化模型实现电费敏感与否分区,将测试集中识别出的“优区”数据加入训练集,重构形成新的训练集和测试集。
在本发明的一个优选实施例中,所述基于分词和词频统计的非结构化文本特征为:
根据用户95598致电的详细工单文本内容,进行分词并过滤停用词;
统计客户致电内容中各个词语词频,并按照大小降序排序;
输出top1000个词语作为非结构化文本特征。
在本发明的一个优选实施例中,所述利用stacking方法构建电费敏感的初级模型为:
利用K折交叉验证,将数据集均匀拆分为K份;
分别针对拆分数据集利用随机森林RF、逻辑回归LR、AdaBoosting分类、梯度提升树GBDT的4个分类方法构建K个分类模型器,用以生成每个样本stacking特征,为每个样本输出扩展的4*2个stacking特征。
在本发明的一个优选实施例中,所述利用bagging+vote算法构建电费敏感的次级模型为:
合并细化核心业务指标和4*K个结构化特征;
利用bagging算法,构建惩罚函数计算权重,确定K个分类器的组合方式,
利用vote方法对分类结果进行投票,选择多个分类模型输出结果中出现次数最多的作为最终预测结果。
在本发明的一个优选实施例中,所述对验证集进行预测,并在实际业务中进行验证为:
选取未来一年上半年1月至6月的窗口为统计期;
在统计期内,对用户的敏感性进行预测,并进行验证;
将验证的结果反馈至模型,进行新一轮模型的迭代调优。
在本发明的一个优选实施例中,所述L1正则化模型为:
对于原始训练集,以支持度最大化为准则,构造一个代价敏感损失函数来构建线性分类器;
在原始测试集利用AdaBoost算法求解模型;
将模型分离出的一片“优区”加入训练集,其中优区指代这个区域里包含的样本几乎全部是电费不敏感的样本。
经由上述的技术方案可知,本发明实施例公开的一种用户电费敏感分析方法,以电力用户的95598工单数据、电量电费营销数据等为基础,综合分析电费敏感客户特征,建立客户电费敏感度模型,对电费敏感用户的敏感程度进行量化评判,帮助供电企业快速、准确的识别电费敏感客户,从而对应的提供有针对性的电费、电量提醒等精细化用电服务。
一方面本发明对实际的数据集进行了再平衡,基于L1正则化方法分区算法进行分区,从而重构训练集和测试集,解决原始实际数据非平衡和不相容问题,以提高电费敏感型用户的f1值。
另一方面,在建模时融合了结构化和非结构的特征,综合运行各种机器学习算法优势获得泛化性好的预测结果。过程中对于非结构化文本特征维数多且稀疏的特点,针对性的应用了stacking初级模型进行处理。在构建stacking次级模型上,为避免单一模型在部分特征上的学习能力偏向性,利用bagging和vote结合的方法增强模型的泛化性能。
本发明对于快速定位电费敏感客户,对于降低客户投诉率,提升客户满意度,树立供电企业良好的服务形象具有重要的作用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的基于stacking和bagging算法电费敏感用户分析方法的一种实现流程图;
图2为本申请实施例提供的重构训练集和测试集的一种实现流程图;
图3为本申请实施例提供的基于分词和词频统计的非结构化文本特征的一种实现流程图;
图4为本申请实施例提供的利用Stacking方法构建电费敏感的初级模型的一种实现流程图;
图5为本申请实施例提供的利用bagging+vote算法构建电费敏感的次级模型的另一种实现流程图;
图6为本申请实施例提供的对验证集进行预测并在实际业务中进行验证的一种实现流程图;
图7为本申请实施例提供的L1正则化模型的一种实现流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,以某省电力公司在2015年的电力用户为目标群体,根据下辖地市公司中电力专家对于电费敏感用户的标记为基础,探索和分析敏感用户和非敏感用户这两大类群体的特征差异。依靠机器学习的二分类算法,将发掘的敏感用户识别方法应用在电力服务实际中,促进电力公司更好地针对电力敏感用户和非敏感用户提供差异化服务。
请参阅图1,图1为本发明实施例提供的基于stacking和bagging算法电费敏感用户分析方法的一种实现流程图,可以包括:
步骤S01:根据电费敏感的分类目标,基于电费敏感的原始数据表的几个核心业务指标(具体指代总用电量、总电费、总违约次数、总违约金额、合同容量以及致电95598次数),利用分区算法,解决非平衡和不相容问题,构建训练集和测试集;新的训练集和测试集是根据原始训练集、原始测试集,利用分区算法(即优区算法)得到的;
步骤S02:进一步细化基于电费敏感相关的核心业务的结构化特征;
步骤S03:基于分词和词频统计的非结构化文本特征;将原始数据表中的部分文本数据转换为以关键词词频表示的表格数据,从而实现结构化数据与文本数据一起建模。
核心业务中的非结构特征比较多,且每个特征一般比较稀疏(很多关键字词频对于少数用户不为0,很多用户为0),结构化特征数量相对少。
非结构化特征是指的文本数据,如“【电能表异常】客户来电反映,户号为1315034277的电能表液晶显示屏长亮。现申请对电表进行现场检查,请相关工作人员核实处理。”,需要将这些文本进行文本处理后,转换成结构化特征再进行分析。而结构化数据可以直接进行建模分析。
步骤S02和步骤S03中的结构化特征以及非结构化特征是后续S04步骤的输入的列,S01中的新训练集和新测试集分别是后续S04步骤输入的行;
步骤S04:使用步骤S02与步骤S03整合的结构化与非结构化特征,选择逻辑回归、随机森林等简单模型,基于stacking框架构建电费敏感的初级模型,将初级模型的预测概率扩展为每个样本的stacking特征,为次级模型的构建提供输入;
为了进一步提升整个测试的精度,还包括步骤S05:为每一个样本合并由步骤S02与S03两步生成的结构化、非结构化特征与步骤S04生成的stacking特征后形成整体输入,利用bagging+vote算法,在训练集和测试集上构建电费敏感的次级模型;
步骤S06:利用训练好的模型,对验证集进行预测,并在实际业务中进行验证。
请参阅图2,图2为本发明实施例提供的构建训练集和测试集的一种实现流程图,可以包括:
步骤S011:根据电费敏感的分类目标即判断当前用户是否对电费敏感,采集电费敏感用户训练集和电费非敏感用户测试集的指标数据。
详细说明此步骤。本发明实施例中,设计的六个指标数据见下表:
指标1 | 总用电量 | 指标2 | 总电费 |
指标3 | 总违约次数 | 指标4 | 总违约金额 |
指标5 | 合同容量 | 指标6 | 致电95598次数 |
步骤S012:此步骤。本发明实施例中,本发明实施例中,鉴于原始数据集中的涵盖带标签用户数65万,这些用户已标注了其为电费敏感或不敏感,其中8万为电费敏感用户,占比相对较小;而大部分用户为非电费敏感用户,数量57万,占比很大。在测试集37万用户中,敏感用户为1万,占比仅为3%,非敏感用户为36万,占比高达97%。所以实际数据二者表征出了典型的非平衡性。
此外,从城乡区域分布、地市分布、负荷性质、电压等级、是否执行峰谷电价、用电类别等特征上看,电费敏感用户和非电费敏感用户在这些特征的分布差异很小,这就是典型数据不相容性。
步骤S013:基于L1正则化模型(lasso)实现电费敏感与否分区,将测试集中识别出的“优区”数据加入训练集,重构形成新的训练集和测试集。
详细说明此步骤。因为训练集和测试集的非敏感用户(敏感用户类似)数据分布差异又很大。面对这种情况,如果直接简单的拿原始数据集进行分类算法粗暴应用,无法通过上述特征来准确区分哪些用户是敏感的,哪些用户是不敏感的,导致准确识别敏感用户的f1特别低。
因此这里采用分区算法,在测试集37万用户中筛选出“优区”(lasso为一个分类模型,根据原训练集、原测试集应该该算法,将6个指标作为输入指标,即可得到每个用户的预测结果,将原测试集37万用户中lasso模型预测结果为0的用户作为优区中的点,进行筛选),这部分区域涵盖几乎全部为非敏感用户。将这部分用户加入训练集65万后构成新的训练集,将测试集37万减少后构成新的测试集,实现训练集和测试集的重构。
请参阅图3,图3为本发明实施例提供的基于分词和词频统计的非结构化文本特征的一种实现流程图,可以包括:
步骤S31:根据用户95598致电的详细工单文本内容,进行分词并过滤停用词。
详细说明此步骤。本发明实施例中,文本内容和分词、过滤停用词示例如下表:
步骤S32:统计客户致电内容中各个词语词频,并按照大小降序排序。
详细说明此步骤。本发明实施例中,词频统计并排序后结果示例如下表:
序号 | 词语 | 词频 |
1 | 查询电费 | 5489 |
2 | 抄表示数 | 5412 |
3 | 分时电价 | 5405 |
…… | …… | …… |
步骤S33:输出top1000个词语作为非结构化文本特征;
详细说明此步骤。本发明实施例中,将这100个文本特征作为步骤S41的输入。
请参阅图4,图4为本发明实施例提供的利用Stacking方法构建电费敏感的初级模型的一种实现流程图,可以包括:
步骤S41:利用K折交叉验证,对数据集进行拆分;
为了防止生成stacking特征的初级模型过拟合,我们采用了K折交叉验证的方式重新构建训练集,将数据集均匀拆分为K份。详细说明此步骤。本发明实施例中,设置K=5,具体数据集拆分方式如下表:
名称 | 数据集1 | 数据集2 | 数据集3 | 数据集4 | 数据集5 |
分类算法1 | ※ | ※ | ※ | ※ | 验证 |
分类算法2 | ※ | ※ | ※ | 验证 | ※ |
分类算法3 | ※ | ※ | 验证 | ※ | ※ |
分类算法4 | ※ | 验证 | ※ | ※ | ※ |
分类算法5 | 验证 | ※ | ※ | ※ | ※ |
将训练数据集分为5块并保证每一块数据之间没有相同的样本,这样对于同一个算法,产生5个分类器模型,每一块数据集对应的stacking特征都是用另外的四块数据集训练得到的模型进行预测生成。
步骤S42:分别针对拆分数据集利用随机森林RF、逻辑回归LR、AdaBoosting分类、梯度提升树GBDT等4个分类方法构建K个分类模型器,用以生成每个样本stacking特征。
详细说明此步骤。本发明实施例中,以逻辑回归LR为例,K=5,训练分类器如下表所示:
名称 | 数据集1 | 数据集2 | 数据集3 | 数据集4 | 数据集5 |
LR1 | ※ | ※ | ※ | ※ | 验证 |
LR2 | ※ | ※ | ※ | 验证 | ※ |
LR3 | ※ | ※ | 验证 | ※ | ※ |
LR4 | ※ | 验证 | ※ | ※ | ※ |
LR5 | 验证 | ※ | ※ | ※ | ※ |
—— | LR5预测输出 | LR4预测输出 | LR3预测输出 | LR2预测输出 | LR1预测输出 |
表中的5个LR分类器分别对5个数据块进行预测,从而得到整体训练集上每个样本的stacking特征。如数据集1上的stacking特征,是由使用数据集2至5训练得到的模型LR5预测得到的。
对于随机森林RF、AdaBoosting分类、梯度提升树GBDT,类似逻辑回归LR的方法进行,不再赘述。
步骤S43:为每个样本输出扩展的4*2个stacking特征。
详细说明此步骤。本发明实施例中,由于是二分类(正类/负类)输出,即每个模型针对每个样本都会有两个概率值输出,故由逻辑回归LR、随机森林RF、AdaBoosting分类、梯度提升树GBDT这4个模型的多个分类器处理后,训练集中的每个样本最终扩展出4*2个stacking特征,如下表给出了一个训练样本扩展得到的8个stacking特征示例:
LR-负类 | 0.54 | LR-正类 | 0.46 |
RF-负类 | 0.91 | RF-正类 | 0.09 |
AdaBoosting-负类 | 0.85 | AdaBoosting-正类 | 0.57 |
GBDT-负类 | 0.25 | GBDT-正类 | 0.75 |
这样,我们实现了所有数据从输入特征到输出特征的特征变换,而且因为每个模型的多个分类器预测的数据块均未参与到该分类器的训练,减小了过拟合的风险。
请参阅图5,图5为本发明实施例提供的利用bagging+vote算法构建电费敏感的次级模型的一种实现流程图,可以包括:
步骤S51:合并细化核心业务指标和4*2个stacking特征(分别是4个分类算法对每个样本的2个预测概率结果,共计8个。如,针对RF随机森林算法,对每个样本用户有2个结果作为输入特征,其中一个是预测为敏感用户的概率,一个是预测为非敏感用户的概率,二者之和为1)。
详细说明此步骤。本发明实施例中,细化核心指标见下表:
4*2个stacking特征在S43中已经描述。将这些特征合并后,形成72+8=80个指标作为S52的输入。
步骤S52:利用bagging算法,构建惩罚函数计算权重,确定K个分类器的组合方式。
详细说明此步骤。本发明实施例中,经过K=5折交叉验证后,每种分类算法都会产生5个分类器模型,应用到验证集则会产生5个预测结果。因为过程中使用了4种不同的分类算法,因此共产生20个预测结果。
对于这20个预测结果,利用梯度下降求解5组分类器模型的权重,具体如下的处理方式:
1.对于每一种分类算法,采用相同的数据分块顺序进行训练,即保证4种分类算法的分类器模型$k$使用的验证集数据相同(k in[1,5])
2.按照分类器模型序号进行分组,共有5组,使第$k$组中包含这4种分类算法的第k个分类器模型,训练得到该组中各个分类器模型的权重w。
损失函数L为对数似然函数取负值:
其中,wi为每个分类器模型的权重,yj为第j个样本的类别真实值,xij为第i个分类器预测第j个样本为正样本的概率。
利用梯度下降求解使得损失函数最小,即梯度上升使对数似然函数最大化:
其中:i=1,2,3,4,为分类算法的个数m=4(Rf、LR、Adboosting和GBDT);
j=1,2,……,N为4个数据集的样本个数;
α为步长,xij为第i个分类器预测第j个样本为正样本的概率,yj为第j个样本的类别真实值;
n=2为分类的类别数,代表电费敏感类和电费非敏感类;
从而产生的各模型在各组的权重值满足如下表:
其中A1+B1+C1+D1=1,A2+B2+C2+D2=1,A3+B3+C3+D3=1,A4+B4+C4+D4=1,A5+B5+C5+D5=1。
因为各个模型对数据特征的抽取效果可能受到分组的影响。采用这种分组加权的组合方式,通过降低组内某个模型的权重减少其对结果的影响,可以有效避免因分组数据自身特点导致个别模型效果变差而影响到最终的预测效果。
步骤S53:利用vote方法对分类结果进行投票,选择多个分类模型输出结果中出现次数最多的作为最终预测结果。
详细说明此步骤。本发明实施例中,总共5个分类结果,对于任意一个电力用户,若分类器中票数为敏感标记预测结果个数多余非敏感标记预测结果,则将此用户标记为疑似电费敏感用户;否则,将此用户标记为非敏感用户。
请参阅图6,图6为本发明实施例提供的对验证集进行预测并在实际业务中进行验证的一种实现流程图,可以包括:
步骤S61:选取未来一年上半年1月至6月的窗口为统计期。
详细说明此步骤。本发明实施例中,鉴于2015年数据为基准期,因此此处将2016年的上半年1月至6月作为窗口观察期。
步骤S62:在统计期内,对用户的敏感性进行预测,并进行验证。
详细说明此步骤。本发明实施例中,观察这个统计期下,用户的敏感性如何,具体业务实践可依据用户是否进行投诉、多次连续致电、逾期欠费等进行行为进行验证。
步骤S63:将验证的结果反馈至模型,进行新一轮模型的迭代调优。
详细说明此步骤。本发明实施例中,将模型预测有偏差的结果,即实际非敏感预测为敏感,或者实际敏感预测为非敏感,反馈至模型中。对原始数据进行持续训练,优化至可接受的误差范围即可(作为模型的评估标准选择,本专利中选取敏感用户的f1作为评价指标,通过的标准为模型f1需要大于等于0.5,此时认为模型是可接受的)。
请参阅图7,图7为本发明实施例提供的L1正则化模型(lasso)的一种实现流程图,可以包括:
步骤S71:对于原始训练集,以支持度最大化为准则,构造一个代价敏感损失函数来构建线性分类器。
详细说明此步骤。鉴于本发明中数据的分布特征,这里采取的分类依据为最大化支持度(=TN/N,TN为属于负类被预测为负类的样本数,N为总样本数),代价敏感损失函数为:线性分类器惩罚项为构造的正则化模型为:
其中,N为总样本的个数,yi为第i个样本的真实分类值,fi为第i个样本的分类预测值,ρ为组合损失函数的系数,βi为线性分类器的参数,λ为正则项系数。
步骤S72:在原始测试集利用AdaBoost算法求解模型。
详细说明此步骤。通过不同的训练集得到若干个弱分类器,最后将这些弱分类器组合成一个强分类器。过程中回增大分类错误样本的权重,减少分类正确样本的权重,迭代一定次数(这里取3000次)之后,终止迭代。
步骤S73:将模型分离出的一片“优区”(即在这个区域里包含的样本几乎全部是电费不敏感的样本)加入训练集。
详细说明此步骤。本模型从37万测试集中抽取出优区为17万,这17万用户中基本全部为电费非敏感用户,仅包含29个用户是电费敏感的,几乎可以忽略不计。因此将这些优区用户全部加入原始训练65万中,可以有效弥补缩小训练集和测试集之间的分布差异。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。
Claims (9)
1.一种基于stacking和bagging算法的电费敏感用户分析方法,其特征在于,包括:
根据电费敏感的分类目标,基于电费敏感的原始数据表的核心业务指标,利用分区算法构建训练集和测试集;
进一步细化基于电费敏感相关的核心业务结构化特征;
基于分词和词频统计的非结构化文本特征;
利用Stacking方法构建电费敏感的初级模型,为每个样本生成扩展的stacking特征。
2.根据权利要求1所述的一种基于stacking和bagging算法的电费敏感用户分析方法,其特征在于,利用训练集和测试集中生成的结构化、非结构化特征以及初级模型,为每个样本生成扩展的stacking特征,进行合并特征后形成整体输入,利用bagging+vote算法,在训练集和测试集上构建电费敏感的次级模型;
利用训练好的次级模型,对验证集进行预测,并在实际业务中进行验证。
3.根据权利要求1所述的一种基于stacking和bagging算法的电费敏感用户分析方法,其特征在于,所述核心业务指标包括总用电量、总电费、总违约次数、总违约金额、合同容量以及致电95598次数。
4.根据权利要求1所述的一种基于stacking和bagging算法的电费敏感用户分析方法,其特征在于,所述构建训练集和测试集为:
根据电费敏感的分类目标,采集电费敏感用户训练集和电费非敏感用户测试集的指标数据;
分析原始数据的分布特征,确定原始数据为非平衡、不相容数据集;
基于L1正则化模型实现电费敏感与否分区,将测试集中识别出的“优区”数据加入训练集,重构形成新的训练集和测试集。
5.根据权利要求1所述的一种基于stacking和bagging算法的电费敏感用户分析方法,其特征在于,所述基于分词和词频统计的非结构化文本特征为:
根据用户95598致电的详细工单文本内容,进行分词并过滤停用词;
统计客户致电内容中各个词语词频,并按照大小降序排序;
输出top1000个词语作为非结构化文本特征。
6.根据权利要求1所述的一种基于stacking和bagging算法的电费敏感用户分析方法,其特征在于,所述利用stacking方法构建电费敏感的初级模型为:
利用K折交叉验证,将数据集均匀拆分为K份;
分别针对拆分数据集利用随机森林RF、逻辑回归LR、AdaBoosting分类、梯度提升树GBDT的4个分类方法构建K个分类模型器,用以生成每个样本stacking特征,为每个样本输出扩展的4*2个stacking特征。
7.根据权利要求2所述的一种基于stacking和bagging算法的电费敏感用户分析方法,其特征在于,所述利用bagging+vote算法构建电费敏感的次级模型为:
合并细化核心业务指标和4*K个结构化特征;
利用bagging算法,构建惩罚函数计算权重,确定K个分类器的组合方式,
利用vote方法对分类结果进行投票,选择多个分类模型输出结果中出现次数最多的作为最终预测结果。
8.根据权利要求2所述的一种基于stacking和bagging算法的电费敏感用户分析方法,其特征在于,所述对验证集进行预测,并在实际业务中进行验证为:
选取未来一年上半年1月至6月的窗口为统计期;
在统计期内,对用户的敏感性进行预测,并进行验证;
将验证的结果反馈至模型,进行新一轮模型的迭代调优。
9.根据权利要求4所述的一种基于stacking和bagging算法的电费敏感用户分析方法,其特征在于,所述L1正则化模型为:
对于原始训练集,以支持度最大化为准则,构造一个代价敏感损失函数来构建线性分类器;
在原始测试集利用AdaBoost算法求解模型;
将模型分离出的一片“优区”加入训练集,其中优区指代这个区域里包含的样本几乎全部是电费不敏感的样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710780176.7A CN107507038B (zh) | 2017-09-01 | 2017-09-01 | 一种基于stacking和bagging算法的电费敏感用户分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710780176.7A CN107507038B (zh) | 2017-09-01 | 2017-09-01 | 一种基于stacking和bagging算法的电费敏感用户分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107507038A true CN107507038A (zh) | 2017-12-22 |
CN107507038B CN107507038B (zh) | 2021-03-19 |
Family
ID=60694779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710780176.7A Active CN107507038B (zh) | 2017-09-01 | 2017-09-01 | 一种基于stacking和bagging算法的电费敏感用户分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107507038B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241227A (zh) * | 2018-09-03 | 2019-01-18 | 四川佳联众合企业管理咨询有限公司 | 基于stacking集成学习算法的时空数据预测建模方法 |
CN109726740A (zh) * | 2018-12-05 | 2019-05-07 | 国网浙江省电力公司湖州供电公司 | 一种基于聚类分析的行业用电行为分析方法 |
CN109839917A (zh) * | 2019-01-08 | 2019-06-04 | 浙江大学 | 一种自适应校正的采煤机故障诊断系统 |
CN110163381A (zh) * | 2019-04-26 | 2019-08-23 | 美林数据技术股份有限公司 | 智能学习方法及装置 |
CN110275956A (zh) * | 2019-06-24 | 2019-09-24 | 成都数之联科技有限公司 | 一种人员识别方法及系统 |
CN110378364A (zh) * | 2019-05-29 | 2019-10-25 | 上海欣方智能系统有限公司 | 话单诈骗模型识别方法和系统 |
CN110929025A (zh) * | 2018-09-17 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 垃圾文本的识别方法、装置、计算设备及可读存储介质 |
CN111506908A (zh) * | 2020-04-10 | 2020-08-07 | 深圳新致软件有限公司 | 针对保险业的大数据推荐方法、系统以及设备 |
CN111539585A (zh) * | 2020-05-26 | 2020-08-14 | 国网湖南省电力有限公司 | 一种基于随机森林的电力客户诉求敏感度监督及预警方法 |
CN113535694A (zh) * | 2021-06-18 | 2021-10-22 | 北方民族大学 | 一种基于Stacking框架的特征选择方法 |
CN114726502A (zh) * | 2022-03-10 | 2022-07-08 | 高哲赛科技(南通)有限公司 | 基于物联网和大数据的安全系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104680261A (zh) * | 2015-03-16 | 2015-06-03 | 朗新科技股份有限公司 | 基于重点大客户负荷曲线聚类的电力负荷运行控制方法 |
CN106600455A (zh) * | 2016-11-25 | 2017-04-26 | 国网河南省电力公司电力科学研究院 | 一种基于逻辑回归的电费敏感度评估方法 |
-
2017
- 2017-09-01 CN CN201710780176.7A patent/CN107507038B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104680261A (zh) * | 2015-03-16 | 2015-06-03 | 朗新科技股份有限公司 | 基于重点大客户负荷曲线聚类的电力负荷运行控制方法 |
CN106600455A (zh) * | 2016-11-25 | 2017-04-26 | 国网河南省电力公司电力科学研究院 | 一种基于逻辑回归的电费敏感度评估方法 |
Non-Patent Citations (2)
Title |
---|
NING CHEN等: "Comparative study of classifier ensembles for cost-sensitive credit risk assessment", 《INTELLIGENT DATA ANALYSIS》 * |
刘彪等: "基于用户画像分析预测电费敏感型客户的建模实践", 《电力大数据》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241227A (zh) * | 2018-09-03 | 2019-01-18 | 四川佳联众合企业管理咨询有限公司 | 基于stacking集成学习算法的时空数据预测建模方法 |
CN110929025A (zh) * | 2018-09-17 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 垃圾文本的识别方法、装置、计算设备及可读存储介质 |
CN110929025B (zh) * | 2018-09-17 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 垃圾文本的识别方法、装置、计算设备及可读存储介质 |
CN109726740A (zh) * | 2018-12-05 | 2019-05-07 | 国网浙江省电力公司湖州供电公司 | 一种基于聚类分析的行业用电行为分析方法 |
CN109839917B (zh) * | 2019-01-08 | 2020-10-20 | 浙江大学 | 一种自适应校正的采煤机故障诊断系统 |
CN109839917A (zh) * | 2019-01-08 | 2019-06-04 | 浙江大学 | 一种自适应校正的采煤机故障诊断系统 |
CN110163381A (zh) * | 2019-04-26 | 2019-08-23 | 美林数据技术股份有限公司 | 智能学习方法及装置 |
CN110378364A (zh) * | 2019-05-29 | 2019-10-25 | 上海欣方智能系统有限公司 | 话单诈骗模型识别方法和系统 |
CN110275956A (zh) * | 2019-06-24 | 2019-09-24 | 成都数之联科技有限公司 | 一种人员识别方法及系统 |
CN111506908A (zh) * | 2020-04-10 | 2020-08-07 | 深圳新致软件有限公司 | 针对保险业的大数据推荐方法、系统以及设备 |
CN111506908B (zh) * | 2020-04-10 | 2023-02-17 | 深圳新致软件有限公司 | 针对保险业的大数据推荐方法、系统以及设备 |
CN111539585A (zh) * | 2020-05-26 | 2020-08-14 | 国网湖南省电力有限公司 | 一种基于随机森林的电力客户诉求敏感度监督及预警方法 |
CN111539585B (zh) * | 2020-05-26 | 2023-05-23 | 国网湖南省电力有限公司 | 一种基于随机森林的电力客户诉求敏感度监督及预警方法 |
CN113535694A (zh) * | 2021-06-18 | 2021-10-22 | 北方民族大学 | 一种基于Stacking框架的特征选择方法 |
CN114726502A (zh) * | 2022-03-10 | 2022-07-08 | 高哲赛科技(南通)有限公司 | 基于物联网和大数据的安全系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107507038B (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107507038A (zh) | 一种基于stacking和bagging算法的电费敏感用户分析方法 | |
CN110097297B (zh) | 一种多维度窃电态势智能感知方法、系统、设备及介质 | |
Li et al. | Application of interpretable machine learning models for the intelligent decision | |
Keramati et al. | A proposed classification of data mining techniques in credit scoring | |
CN104321794B (zh) | 一种使用多维评级来确定一实体的未来商业可行性的系统和方法 | |
Oprea et al. | Machine learning classification algorithms and anomaly detection in conventional meters and Tunisian electricity consumption large datasets | |
CN107862347A (zh) | 一种基于随机森林的窃电行为的发现方法 | |
CN106022509A (zh) | 考虑地域和负荷性质双重差异的配电网空间负荷预测方法 | |
CN107368918A (zh) | 数据处理方法和装置 | |
CN107730269A (zh) | 一种基于行为分析的用电客户画像方法 | |
CN112417176B (zh) | 基于图特征的企业间隐性关联关系挖掘方法、设备及介质 | |
CN111325619A (zh) | 一种基于联合学习的信用卡欺诈检测模型更新方法及装置 | |
CN108364187A (zh) | 一种基于停电敏感特性的停电敏感用户确定方法和系统 | |
CN110288137A (zh) | 路网级道路基础设施结构综合养护决策方法及系统 | |
CN110930038A (zh) | 一种贷款需求识别方法、装置、终端及存储介质 | |
CN107609771A (zh) | 一种供应商价值评价方法 | |
CN112116256A (zh) | 一种数据资产管理方法 | |
CN109102396A (zh) | 一种用户信用评级方法、计算机设备及可读介质 | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
CN115099450A (zh) | 基于融合模型的家庭碳排放监测核算平台 | |
CN116681450B (zh) | 一种支撑智能催费的客户信用评价方法及系统 | |
Zheng et al. | [Retracted] Using an Optimized Learning Vector Quantization‐(LVQ‐) Based Neural Network in Accounting Fraud Recognition | |
Balcı et al. | Hierarchies in communities of UK stock market from the perspective of Brexit | |
CN112288172A (zh) | 台区线损率的预测方法、装置 | |
CN110619564B (zh) | 一种反欺诈特征生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: 710075 6th floor, national e-commerce demonstration base, No.528, tianguba Road, software new town, high tech Zone, Xi'an City, Shaanxi Province Patentee after: MERITDATA TECHNOLOGY CO.,LTD. Address before: 710000 C501, Hanyun Pavilion, Xi'an Software Park, No.68, Keji 2nd Road, high tech Zone, Xi'an City, Shaanxi Province Patentee before: MERITDATA TECHNOLOGY CO.,LTD. |