Nothing Special   »   [go: up one dir, main page]

CN116307111A - 一种基于k均值聚类和随机森林算法的无功负荷预测方法 - Google Patents

一种基于k均值聚类和随机森林算法的无功负荷预测方法 Download PDF

Info

Publication number
CN116307111A
CN116307111A CN202310135713.8A CN202310135713A CN116307111A CN 116307111 A CN116307111 A CN 116307111A CN 202310135713 A CN202310135713 A CN 202310135713A CN 116307111 A CN116307111 A CN 116307111A
Authority
CN
China
Prior art keywords
load
data
random forest
algorithm
means clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310135713.8A
Other languages
English (en)
Inventor
韦冬妮
车彬
陈宝生
张泽龙
齐彩娟
靳盘龙
纪强
杨燕
杨钊
刘桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
State Grid Ningxia Electric Power Co Ltd
Economic and Technological Research Institute of State Grid Ningxia Electric Power Co Ltd
Original Assignee
Economic and Technological Research Institute of State Grid Ningxia Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Economic and Technological Research Institute of State Grid Ningxia Electric Power Co Ltd filed Critical Economic and Technological Research Institute of State Grid Ningxia Electric Power Co Ltd
Priority to CN202310135713.8A priority Critical patent/CN116307111A/zh
Publication of CN116307111A publication Critical patent/CN116307111A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于K均值聚类和随机森林相结合的无功负荷预测方法,所述方法包括:获取电力系统的电力负荷数据并构建数据集;数据集归一化处理,对数据集进行归一化;利用K‑means聚类,根据历史载荷数据将载荷划分为k种载荷;对聚类过后的数据集进行特征提取,通过随机森林算法对提取的特征进行训练与验证,实现某一地区一定时间内的无功负荷预测。通过对电力系统的聚类分析,得到典型的数据类型,避免了人为制订规则的主观性,减小了人工分类的错误概率;利用智能优化算法,对负荷无功功率预测,为电力系统决策提供重要依据。理论与实际相结合,根据算法模型结果,完成实际的电力系统负荷预测,为电网调节的主动性和精细化做出了贡献。

Description

一种基于K均值聚类和随机森林算法的无功负荷预测方法
技术领域
本发明涉及电力领域,更具体地说是一种基于K均值聚类和随机森林算法的无功负荷预测方法。
背景技术
电力负荷预测是根据某一地区的历史用电负荷数据,预测该区域未来一段时间内的有功无功负荷。以往的电力负荷预测研究主要是负载有功功率的预测,对负荷无功功率预测的研究较少。因此,负载的无功功率需要引起我们的关注。电力预测可以为电力系统决策提供重要依据,是建设智能电网过程中的重要环节。随着电网智能化的发展,电网对电力负荷预测的速度和准确性的要求逐渐提高。
在交流输电网中,无功损耗将远大于有功功率损耗,因此无功负荷受线路潮流的影响很大,同时受电压等级、变流能力、负荷系数、非线性无功补偿能力等的影响。该因子的影响,无功功率点的分布比有功功率点更细、更分散,这使得无功负载的变化比有功负载更随机、更非线性。传统的有功功率预测方法缺乏正确性。考虑到无功负荷的特点,预测效果不好。
基于机器学习的无功负荷预测算法可以提供良好的预测精度。如e自回归移动平均(ARMA)[文献:Lu J,Wang B,Ren H,Zhao D,Wang F,Shafie-khah M,
Figure SMS_1
J.P,“Two-tier reactive power and voltage control strategy based on ARMA renewablepower forecasting models”Energies,2017,10(10):1518.]、支持向量机回归(SVR)[文献:Zhang X,Wang Y,Zheng Y,Ding R,Chen Y,Wang Y,“Reactive Load PredictionBased on a Long Short-Term Memory Neural Network,”IEEE Access,2020,8,90969-90977..]、集成学习算法随机森林(RF)、长短期记忆神经网络(LSTM)[文献Wang Y,Sun S,Chen X,Zeng X,Kong Y,Chen J,“Short-term load forecasting ofindustrialcustomers based on SVMD andXGBoost,”International Journal ofElectrical Power&Energy Systems,2021,129:106830.]等具有良好的预测性能。然而,由于负载的波动性,单个预测模型有时无法获得较高的精度。采用多种机器学习方法进行组合预测,可以有效提高模型的泛化能力。例如,文献[Zheng H,Yuan J,Chen L,“Short-term load forecastingusing EMDLSTM neural networks with a Xgboost algorithm for feature importanceevaluation,”2017,Energies,10(8),1168.]使用VMD和SampEn(SVMD)方法将原始负荷数据分解为趋势序列和一组波动性子序列,然后建立XGBoost回归模型进行预测。文献[Kong W,Dong Z Y,Jia Y,Hill,D.J,Xu Y,“Short-term residential load forecasting basedon LSTM recurrent neural network,”IEEE Transactions on Smart Grid,2019,10(1),841-851]提出了一种混合算法,该算法结合了相似天数(SD)选择,经验模态分解(EMD)和LSTM,以构建负载预测的预测模型。文献[[6]Breiman L.Random Forests[J].MachineLearning,2001,45(1):5-32.]使用聚类模型对用户进行分类,然后使用基于LSTM循环神经网络的模型进行最终预测。
本发明提出一种基于K均值聚类和随机森林相结合的无功负荷预测方法。从负荷的数据特征出发,采用K均值聚类得到不同的负荷类别,然后结合随机森林算法进行无功负荷预测。
发明内容
本发明要解决的技术问题是:1)大规模可再生能源接入电网具有多方面的经济效益,但其出力具有波动性等特性,为调度部门的工作带来难题;2)目前电网细粒度控制的需求越来越迫切。电网无功功率具有变化复杂、功率因数波动的特点;3)精确的无功负荷预测可以提高电网无功优化的精度和过程,提高控制效果。母线无功负载和有功负载的变化不同步,无功负载的基数小,非线性变化丰富,难以挖掘固有的数据趋势。
为实现上述目的,本发明提供如下技术方案:
一种基于K均值聚类和随机森林算法的无功负荷预测方法,包括:
获取电力系统的电力负荷数据并构建数据集;
数据集归一化处理,对数据集进行归一化;
利用K-means聚类,根据历史载荷数据将载荷划分为k种载荷;
对聚类过后的数据集进行特征提取,通过随机森林算法对提取的特征进行训练与验证,实现某一地区一定时间内的无功负荷预测。
具体流程如下:
步骤一:数据采集与构造数据集
(1)采集地区内电力系统中8天内不同负荷的无功功率数据集。负载数据大约每2分钟采集一次,共10个采样点。
(2)将数据与标签制作成数据集用于后续归一化处理。
(3)对负荷数据进行归一化处理,分为训练集与测试集。对负荷数据进行归一化处理主要是为了让负荷数据的值能够缩小在在一定范围,有助于数据内部的量级差距,且有助于降低后续深度学习过程的复杂程度,加快程序的执行速度,更好的适应海量数据分析处理的应用场景。归一化处理方式如下:
在聚类之前,我们使用最小-最大规范化将所有负载数据映射到[0,1]:
Figure SMS_2
在公式中,xmax是某个负载历史数据的最小值,并且xmin是某个负载历史数据的最大值。
步骤二:K-means聚类分析
为了使负荷预测结果更加准确,我们首先使用K均值聚类算法将负荷划分为k个类别,相似历史数据的负荷被分组为一个类别。
本研究使用K-means聚类算法将多个荷载划分为几种典型类型。K-means聚类选择原始聚类中心和类数,因此从每个特征向量到所选类中心的欧氏距离最小。
K-means聚类分析算法的步骤如下:
(1)选择数据集中的k个点作为初始聚类中心点
(2)计算从其他点到k个中心点的欧氏距离,并将其分配给由最近的聚类中心表示的聚类。欧几里得距离的计算公式为:
Figure SMS_3
其中N是样本向量的大小。
(3)计算分类到每个类别的所有样本的平均值,并更新每个类别的中心
(4)按照步骤2)和3)迭代更新,直到平方误差准则函数稳定在最小值。平方误差准则计算公式为:
Figure SMS_4
其中k是要聚类的聚类数,n是类的样本数,以及
Figure SMS_5
为类样本的平均值
经过上述算法处理数据,可以将步骤一中处理的数据集分为不同类别、不同程度及不同负荷的的k类负荷数据,具有相同历史数据的负荷被分到同一个类别,即:基于历史负荷数据,本文为每种负荷类型构建了四个特征:负荷标签、前一天同一时间的负荷、前12小时同一时间的负荷和前24小时的平均负荷。
聚类之后的数据能够以“同类”的方式分布,能够帮助后续特征处理一个良好的分布及加快随机森林算法模型训练的拟合速度和算法模型的精确度。
步骤三:随机森林算法提取特征
由Leo Breiman和Adele Cutler提出的随机森林是一种监督集成学习算法。它按照一定的规则由多元分类回归树组成,回归预测结果取每个决策树的预测值的平均值。
使用随机样本训练样本和一些特征来形成随机子空间训练决策树。随机森林是一种由多个决策树组成的综合学习方法。可以有效解决大数据快速处理的问题。目前,电网中的SCADA数据量不断增加,迫切需要随机森林等人工智能算法来帮助电力公司分析和处理电网运行中的大数据。因此,随机森林算法在大数据领域的电力无功负荷预测中具有良好的应用前景。
随机森林是由其弱模型分类和回归树(CART)结合baging算法方法组成的。CART可用于回归和分类,相应的随机森林也可用于分类和回归分析。
CART使用二元除法递归划分每个特征,从而将特征空间划分为有限单位,并确定这些单位上的预测概率分布;CART使用基尼系数来选择要素。假设给定数据集具有类别,并且类别的数量为,则数据集的基尼系数为:
Figure SMS_6
如果根据特征A的某个属性值a,则将样本集D分为两部分D1和D2,则特征条件下的基尼系数为:
Figure SMS_7
将构建好的数据集送入随机森林算法进行训练,利用模型达到对一定时间内负荷预测的需求。
(3)算法初始化
RF是一组回归决策树{h(X,θk),k=1,...,Ntree},其中k表示随机向量,与第K个决策树独立且分布相同。一个算法量表(用于回归)用于获取随机森林的最终预测值。
对于输入向量X,它最多包含J个不同的类别,并设置为正确的分类类别。对于输入向量X和输出向量Y,边函数定义如下:
F(X,Y)=akI(h(X,θk)=Y)-maxj≠YakI(h(X,θk)=j) (6)
其中j表示J其中的一个类别,I( )表示度量函数,ak表示的是平均值,且k=1,...,n。
但是又由于决策树的数量趋于无穷大:
Figure SMS_8
avk是设置的一个平均函数,θk是表示第K哥决策树的决策变量,Eθ表示预期的函数。由此可以推出RF的泛化误差为:
Figure SMS_9
式中,Y-Eθh(Xθ)表示随机森林的回归函数。而平均的泛化误差则由(8)加上一个期望函数得到如下:
Figure SMS_10
随机变量和θ和θ’在不同的决策树彼此独立。假设对于θ有EY=EXh(Xθ),可以证明:
Figure SMS_11
其中,
Figure SMS_12
表示残差(Y-h(Xθ)和Y-h(Xθ’))的权重系数。
最后采取平均绝对百分比误差(MAPE)和均方根误差(RMSE)为评价指标,评价无功负荷预测模型的准确性。
Figure SMS_13
Figure SMS_14
(4)算法步骤
step1:提取聚类特征,负荷标签:每种类型的负载中都有多个不同的负载。因此,我们按照1、2、3的顺序对这些负荷进行标注。在负载历史数据中找到前一天同一时间的负载数据,并将其分配给那一刻的特征y24。在负荷历史数据中找到前12小时的同一时间的负荷数据,并将其分配给此时的特征y12。前24小时的平均负荷:如公式(9)所示,在该时刻将前24小时的平均负荷分配给a。
Figure SMS_15
step2:采用装袋思想,从原始数据集中提取K个不同的样本数据集,每个样本量与原始数据集相同。
step3:为每个样本建立回归决策树以生成K决策树。在生成过程中,选择最优变量进行节点拆分,直到所有决策树停止生长形成随机森林。
Step4:将测试数据输入到随机森林模型中,以K决策树预测结果的平均值作为预测值
Step5:获取预测结果并进行误差计算以评估模型性能。
本发明的技术效果和优点:
(1)通过对电力系统的聚类分析,得到典型的数据类型,避免了人为制订规则的主观性,减小了人工分类的错误概率;
(2)利用智能优化算法,对负荷无功功率预测,为电力系统决策提供重要依据。
(3)理论与实际相结合,根据算法模型结果,完成实际的电力系统负荷预测,为电网调节的主动性和精细化做出了贡献。
附图说明
图1一种负荷聚合商模式下的源荷协调多目标优化调度方法整体流程图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于K均值聚类和随机森林算法的无功负荷预测方法,包括:
获取电力系统的电力负荷数据并构建数据集;
数据集归一化处理,对数据集进行归一化;
利用K-means聚类,根据历史载荷数据将载荷划分为k种载荷;
对聚类过后的数据集进行特征提取,通过随机森林算法对提取的特征进行训练与验证,实现某一地区一定时间内的无功负荷预测。
具体流程如下:
步骤一:数据采集与构造数据集
(1)采集地区内电力系统中8天内不同负荷的无功功率数据集。负载数据大约每2分钟采集一次,共10个采样点。
(2)将数据与标签制作成数据集用于后续归一化处理。
(3)对负荷数据进行归一化处理,分为训练集与测试集。对负荷数据进行归一化处理主要是为了让负荷数据的值能够缩小在在一定范围,有助于数据内部的量级差距,且有助于降低后续深度学习过程的复杂程度,加快程序的执行速度,更好的适应海量数据分析处理的应用场景。归一化处理方式如下:
在聚类之前,我们使用最小-最大规范化将所有负载数据映射到[0,1]:
Figure SMS_16
在公式中,xmax是某个负载历史数据的最小值,并且xmin是某个负载历史数据的最大值。
步骤二:K-means聚类分析
为了使负荷预测结果更加准确,我们首先使用K均值聚类算法将负荷划分为k个类别,相似历史数据的负荷被分组为一个类别。
本研究使用K-means聚类算法将多个荷载划分为几种典型类型。K-means聚类选择原始聚类中心和类数,因此从每个特征向量到所选类中心的欧氏距离最小。
K-means聚类分析算法的步骤如下:
(1)选择数据集中的k个点作为初始聚类中心点
(2)计算从其他点到k个中心点的欧氏距离,并将其分配给由最近的聚类中心表示的聚类。欧几里得距离的计算公式为:
Figure SMS_17
其中N是样本向量的大小。
(3)计算分类到每个类别的所有样本的平均值,并更新每个类别的中心
(4)按照步骤2)和3)迭代更新,直到平方误差准则函数稳定在最小值。平方误差准则计算公式为:
Figure SMS_18
其中k是要聚类的聚类数,n是类的样本数,以及
Figure SMS_19
为类样本的平均值
经过上述算法处理数据,可以将步骤一中处理的数据集分为不同类别、不同程度及不同负荷的的k类负荷数据,具有相同历史数据的负荷被分到同一个类别,即:基于历史负荷数据,本文为每种负荷类型构建了四个特征:负荷标签、前一天同一时间的负荷、前12小时同一时间的负荷和前24小时的平均负荷。
聚类之后的数据能够以“同类”的方式分布,能够帮助后续特征处理一个良好的分布及加快随机森林算法模型训练的拟合速度和算法模型的精确度。
步骤三:随机森林算法提取特征
由Leo Breiman和Adele Cutler提出的随机森林是一种监督集成学习算法。它按照一定的规则由多元分类回归树组成,回归预测结果取每个决策树的预测值的平均值。
使用随机样本训练样本和一些特征来形成随机子空间训练决策树。随机森林是一种由多个决策树组成的综合学习方法。可以有效解决大数据快速处理的问题。目前,电网中的SCADA数据量不断增加,迫切需要随机森林等人工智能算法来帮助电力公司分析和处理电网运行中的大数据。因此,随机森林算法在大数据领域的电力无功负荷预测中具有良好的应用前景。
随机森林是由其弱模型分类和回归树(CART)结合baging算法方法组成的。CART可用于回归和分类,相应的随机森林也可用于分类和回归分析。
CART使用二元除法递归划分每个特征,从而将特征空间划分为有限单位,并确定这些单位上的预测概率分布;CART使用基尼系数来选择要素。假设给定数据集具有类别,并且类别的数量为,则数据集的基尼系数为:
Figure SMS_20
如果根据特征A的某个属性值a,则将样本集D分为两部分D1和D2,则特征条件下的基尼系数为:
Figure SMS_21
将构建好的数据集送入随机森林算法进行训练,利用模型达到对一定时间内负荷预测的需求。
(5)算法初始化
RF是一组回归决策树{h(X,θk),k=1,...,Ntree},其中k表示随机向量,与第K个决策树独立且分布相同。一个算法量表(用于回归)用于获取随机森林的最终预测值。
对于输入向量X,它最多包含J个不同的类别,并设置为正确的分类类别。对于输入向量X和输出向量Y,边函数定义如下:
F(X,Y)=akI(h(X,θk)=Y)-maxj≠YakI(h(X,θk)=j) (6)
其中j表示J其中的一个类别,I( )表示度量函数,ak表示的是平均值,且k=1,...,n。
但是又由于决策树的数量趋于无穷大:
Figure SMS_22
avk是设置的一个平均函数,θk是表示第K哥决策树的决策变量,Eθ表示预期的函数。由此可以推出RF的泛化误差为:
Figure SMS_23
式中,Y-Eθh(Xθ)表示随机森林的回归函数。而平均的泛化误差则由(8)加上一个期望函数得到如下:
Figure SMS_24
随机变量和θ和θ’在不同的决策树彼此独立。假设对于θ有EY=EXh(Xθ),可以证明:
Figure SMS_25
其中,
Figure SMS_26
表示残差(Y-h(Xθ)和Y-h(Xθ’))的权重系数。
最后采取平均绝对百分比误差(MAPE)和均方根误差(RMSE)为评价指标,评价无功负荷预测模型的准确性。
Figure SMS_27
Figure SMS_28
(6)算法步骤
step1:提取聚类特征,负荷标签:每种类型的负载中都有多个不同的负载。因此,我们按照1、2、3的顺序对这些负荷进行标注。在负载历史数据中找到前一天同一时间的负载数据,并将其分配给那一刻的特征y24。在负荷历史数据中找到前12小时的同一时间的负荷数据,并将其分配给此时的特征y12。前24小时的平均负荷:如公式(9)所示,在该时刻将前24小时的平均负荷分配给a。
Figure SMS_29
step2:采用装袋思想,从原始数据集中提取K个不同的样本数据集,每个样本量与原始数据集相同。
step3:为每个样本建立回归决策树以生成K决策树。在生成过程中,选择最优变量进行节点拆分,直到所有决策树停止生长形成随机森林。
Step4:将测试数据输入到随机森林模型中,以K决策树预测结果的平均值作为预测值
Step5:获取预测结果并进行误差计算以评估模型性能。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于K均值聚类和随机森林算法的无功负荷预测方法,包括:
获取电力系统的电力负荷数据并构建数据集;
数据集归一化处理,对数据集进行归一化;
利用K-means聚类,根据历史载荷数据将载荷划分为k种载荷;
对聚类过后的数据集进行特征提取,通过随机森林算法对提取的特征进行训练与验证,实现某一地区一定时间内的无功负荷预测。
2.根据权利要求1所述的一种基于K均值聚类和随机森林算法的无功负荷预测方法,其特征在于:数据采集与构造数据集
(1)采集地区内电力系统中8天内不同负荷的无功功率数据集;负载数据大约每2分钟采集一次,共10个采样点;
(2)将数据与标签制作成数据集用于后续归一化处理;
(3)对负荷数据进行归一化处理,分为训练集与测试集;对负荷数据进行归一化处理主要是为了让负荷数据的值能够缩小在在一定范围,有助于数据内部的量级差距,且有助于降低后续深度学习过程的复杂程度,加快程序的执行速度,更好的适应海量数据分析处理的应用场景;归一化处理方式如下:
在聚类之前,我们使用最小-最大规范化将所有负载数据映射到[0,1]:
Figure QLYQS_1
在公式中,xmax是某个负载历史数据的最小值,并且xmin是某个负载历史数据
的最大值。
3.根据权利要求1所述的一种基于K均值聚类和随机森林算法的无功负荷预测方法,其特征在于:K-means聚类分析
为了使负荷预测结果更加准确,我们首先使用K均值聚类算法将负荷划分为k个类别,相似历史数据的负荷被分组为一个类别;
本研究使用K-means聚类算法将多个荷载划分为几种典型类型;K-means聚类选择原始聚类中心和类数,因此从每个特征向量到所选类中心的欧氏距离最小;
K-means聚类分析算法的步骤如下:
(1)选择数据集中的k个点作为初始聚类中心点
(2)计算从其他点到k个中心点的欧氏距离,并将其分配给由最近的聚类中心表示的聚类;欧几里得距离的计算公式为:
Figure QLYQS_2
其中N是样本向量的大小;
(3)计算分类到每个类别的所有样本的平均值,并更新每个类别的中心
(4)按照步骤2)和3)迭代更新,直到平方误差准则函数稳定在最小值;平方误差准则计算公式为:
Figure QLYQS_3
其中k是要聚类的聚类数,n是类的样本数,以及
Figure QLYQS_4
为类样本的平均值
经过上述算法处理数据,可以将步骤一中处理的数据集分为不同类别、不同程度及不同负荷的的k类负荷数据,具有相同历史数据的负荷被分到同一个类别,即:基于历史负荷数据,本文为每种负荷类型构建了四个特征:负荷标签、前一天同一时间的负荷、前12小时同一时间的负荷和前24小时的平均负荷;
聚类之后的数据能够以“同类”的方式分布,能够帮助后续特征处理一个良好的分布及加快随机森林算法模型训练的拟合速度和算法模型的精确度。
4.根据权利要求1所述的一种基于K均值聚类和随机森林算法的无功负荷预测方法,其特征在于:随机森林算法提取特征
由Leo Breiman和Adele Cutler提出的随机森林是一种监督集成学习算法;它按照一定的规则由多元分类回归树组成,回归预测结果取每个决策树的预测值的平均值;
使用随机样本训练样本和一些特征来形成随机子空间训练决策树;随机森林是一种由多个决策树组成的综合学习方法;可以有效解决大数据快速处理的问题;目前,电网中的SCADA数据量不断增加,迫切需要随机森林等人工智能算法来帮助电力公司分析和处理电网运行中的大数据;因此,随机森林算法在大数据领域的电力无功负荷预测中具有良好的应用前景;
随机森林是由其弱模型分类和回归树(CART)结合baging算法方法组成的;CART可用于回归和分类,相应的随机森林也可用于分类和回归分析;
CART使用二元除法递归划分每个特征,从而将特征空间划分为有限单位,并确定这些单位上的预测概率分布;CART使用基尼系数来选择要素;假设给定数据集具有类别,并且类别的数量为,则数据集的基尼系数为:
Figure QLYQS_5
如果根据特征A的某个属性值a,则将样本集D分为两部分D1和D2,则特征条件下的基尼系数为:
Figure QLYQS_6
将构建好的数据集送入随机森林算法进行训练,利用模型达到对一定时间内负荷预测的需求。
5.根据权利要求4所述的一种基于K均值聚类和随机森林算法的无功负荷预测方法,其特征在于:包括:
(1)算法初始化
RF是一组回归决策树{h(X,θk),k=1,...,Ntree},其中k表示随机向量,与第K个决策树独立且分布相同;一个算法量表(用于回归)用于获取随机森林的最终预测值;
对于输入向量X,它最多包含J个不同的类别,并设置为正确的分类类别;对于输入向量X和输出向量Y,边函数定义如下:
F(X,Y)=akI(h(X,θk)=Y)-maxj≠YakI(h(X,θk)=j) (6)
其中j表示J其中的一个类别,I( )表示度量函数,ak表示的是平均值,且k=1,...,n;
但是又由于决策树的数量趋于无穷大:
Figure QLYQS_7
avk是设置的一个平均函数,θk是表示第K哥决策树的决策变量,Eθ表示预期的函数;由此可以推出RF的泛化误差为:
Figure QLYQS_8
式中,Y-Eθh(Xθ)表示随机森林的回归函数;而平均的泛化误差则由(8)加上一个期望函数得到如下:
Figure QLYQS_9
随机变量和θ和θ’在不同的决策树彼此独立;假设对于θ有EY=EXh(Xθ),可以证明:
Figure QLYQS_10
其中,
Figure QLYQS_11
表示残差(Y-h(Xθ)和Y-h(Xθ’))的权重系数;
最后采取平均绝对百分比误差(MAPE)和均方根误差(RMSE)为评价指标,评价无功负荷预测模型的准确性;
Figure QLYQS_12
Figure QLYQS_13
(2)算法步骤
step1:提取聚类特征,负荷标签:每种类型的负载中都有多个不同的负载;因此,我们按照1、2、3的顺序对这些负荷进行标注;在负载历史数据中找到前一天同一时间的负载数据,并将其分配给那一刻的特征y24;在负荷历史数据中找到前12小时的同一时间的负荷数据,并将其分配给此时的特征y12;前24小时的平均负荷:如公式(9)所示,在该时刻将前24小时的平均负荷分配给a;
Figure QLYQS_14
step2:采用装袋思想,从原始数据集中提取K个不同的样本数据集,每个样本量与原始数据集相同;
step3:为每个样本建立回归决策树以生成K决策树;在生成过程中,选择最优变量进行节点拆分,直到所有决策树停止生长形成随机森林;
Step4:将测试数据输入到随机森林模型中,以K决策树预测结果的平均值作为预测值
Step5:获取预测结果并进行误差计算以评估模型性能。
CN202310135713.8A 2023-02-20 2023-02-20 一种基于k均值聚类和随机森林算法的无功负荷预测方法 Pending CN116307111A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310135713.8A CN116307111A (zh) 2023-02-20 2023-02-20 一种基于k均值聚类和随机森林算法的无功负荷预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310135713.8A CN116307111A (zh) 2023-02-20 2023-02-20 一种基于k均值聚类和随机森林算法的无功负荷预测方法

Publications (1)

Publication Number Publication Date
CN116307111A true CN116307111A (zh) 2023-06-23

Family

ID=86784363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310135713.8A Pending CN116307111A (zh) 2023-02-20 2023-02-20 一种基于k均值聚类和随机森林算法的无功负荷预测方法

Country Status (1)

Country Link
CN (1) CN116307111A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117035311A (zh) * 2023-08-09 2023-11-10 上海智租物联科技有限公司 一种通过向量网络连接强度计算换电柜撤柜需求的方法
CN118656605A (zh) * 2024-08-21 2024-09-17 江苏如神重工有限公司 一种智能卷扬机构负载分析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117035311A (zh) * 2023-08-09 2023-11-10 上海智租物联科技有限公司 一种通过向量网络连接强度计算换电柜撤柜需求的方法
CN117035311B (zh) * 2023-08-09 2024-07-16 上海智租物联科技有限公司 一种通过向量网络连接强度计算换电柜撤柜需求的方法
CN118656605A (zh) * 2024-08-21 2024-09-17 江苏如神重工有限公司 一种智能卷扬机构负载分析方法
CN118656605B (zh) * 2024-08-21 2024-11-08 江苏如神重工有限公司 一种智能卷扬机构负载分析方法

Similar Documents

Publication Publication Date Title
CN111091143A (zh) 基于深度信念网络和K-means聚类的配变重过载预警方法
CN105069521A (zh) 一种基于加权fcm聚类算法的光伏电站输出功率预测方法
CN116307111A (zh) 一种基于k均值聚类和随机森林算法的无功负荷预测方法
CN111369045A (zh) 一种短期光伏发电功率预测的方法
CN114792156A (zh) 基于曲线特征指标聚类的光伏输出功率预测方法和系统
CN110717610A (zh) 一种基于数据挖掘的风电功率预测方法
CN113595071A (zh) 台区用户辨识与电压影响评估方法
CN115204698A (zh) 一种低压台区供电稳定性的实时分析方法
CN115186882A (zh) 一种基于聚类的可控负荷空间密度预测方法
CN115118015B (zh) 一种基于融合终端的台区供电稳定性监测系统
CN111680818B (zh) 一种短期无功负荷预测方法和系统
Cheng et al. Reactive power load forecasting based on k-means clustering and random forest algorithm
CN115169719A (zh) 一种基于模糊聚类和bp神经网络的台区状态预测模型
CN114707422A (zh) 一种基于负荷预测的智能电力缉查方法
CN113361776A (zh) 一种基于用户用电行为聚类的电力负荷概率预测方法
CN112270440A (zh) 一种基于胶囊神经网络的配电网负荷预测方法
CN117638864A (zh) 一种基于混合预测模型的分布式电源聚合功率预测方法
CN117407758A (zh) 一种云边协同的负荷库自学习方法
Xu et al. Substation clustering based on improved KFCM algorithm with adaptive optimal clustering number selection
CN115598459A (zh) 一种配电网10kV馈线故障停电预测方法
CN112668764A (zh) 一种基于云模型和fcm算法的海上风电场储能系统优化配置方法
Zuo et al. Mid-and Long-term Forecast of Load Peak-Valley Difference based on Random Forest and Secondary Correction
Li et al. A Short-Term Load Forecasting Method via Model Selection Based on Random Forest
Liu et al. Analysis of SCADA Data Preprocessing Methods for Wind Power Farms
CN117498403B (zh) 基于分布式新能源特征聚类算法数据处理的能量管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right

Effective date of registration: 20240508

Address after: 750000 National Grid CBD Building at the intersection of Houhai Road and Fengwu Street, Jinfeng District, Yinchuan City, Ningxia Hui Autonomous Region

Applicant after: ECONOMIC TECHNOLOGY RESEARCH INSTITUTE OF STATE GRID NINGXIA ELECTRIC POWER CO.,LTD.

Country or region after: China

Applicant after: STATE GRID NINGXIA ELECTRIC POWER Co.,Ltd.

Applicant after: NORTH CHINA ELECTRIC POWER University

Address before: 750011 National Grid CBD Building at the intersection of Houhai Road and Fengwu Street, Jinfeng District, Yinchuan City, Ningxia Hui Autonomous Region

Applicant before: ECONOMIC TECHNOLOGY RESEARCH INSTITUTE OF STATE GRID NINGXIA ELECTRIC POWER CO.,LTD.

Country or region before: China

TA01 Transfer of patent application right