CN114897264A

CN114897264A - 一种基于迁移学习的小样本场景下光伏出力区间预测方法

Info

Publication number: CN114897264A
Application number: CN202210647544.1A
Authority: CN
Inventors: 刘维亮; 郁家麟; 龙寰; 耿润昊; 吴志; 陈鼎; 周旻; 钟伟东
Original assignee: Southeast University; Jiaxing Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Southeast University; Jiaxing Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-08-12

Abstract

本发明公开一种基于迁移学习的小样本场景下光伏出力区间预测方法，该预测方法包括以下步骤：对数据进行收集并对数据预处理后生成训练所需样本数据集，提出光伏出力预测区间评价指标并初始化模型的整体参数，构建基于极限学习机的基础区间边界预测模型，分别建立满足覆盖率需求的预测区间上下边界，并基于直接分位数回归的方法优化模型参数，利用两阶段数据迁移算法构建小样本场景下光伏出力区间预测模型。本发明预测方法，构建区间上下边界预测模型，通过所提数据迁移方法，建立小样本场景下光伏出力区间预测模型，显著提升了训练数据不足场景下的预测效果。

Description

一种基于迁移学习的小样本场景下光伏出力区间预测方法

技术领域

本发明涉及光伏出力预测技术领域，具体是一种小样本场景下的光伏出力区间预测方法。

背景技术

随着电力系统中光伏渗透率的迅速提高，准确的光伏出力预测对于电网电能质量、系统运行调度以及安全稳定运行愈发重要。目前，现有大多数研究主要集中于光伏出力点预测，其提供的确定性点预测结果缺乏对于光伏发电功率不确定性的评估，在实际运行调度过程受到一定约束。因此，反映光伏出力波动范围和不确定度的区间预测方法能够有效描述光伏出力的未来变化趋势。

此外，对于电力系统实际运行过程中的小样本场景，诸如新建光伏电站、极端天气和数据缺失等场景，光伏出力区间预测模型往往出于训练数据量不足而陷入严重过拟合的状态，导致预测准确度大大下降。如何有效弥补数据量的不足，提升小样本场景下光伏出力区间预测的性能，成为光伏出力预测领域亟需解决的问题之一。

发明内容

本发明的目的在于提供一种基于迁移学习的小样本场景下光伏出力区间预测方法，解决上述背景技术中现有缺少对光伏出力不确定性评估、小样本场景预测性能差以及缺乏小样本场景下有效预测方法等问题。

本发明的目的可以通过以下技术方案实现：

一种基于迁移学习的小样本场景下光伏出力区间预测方法，所述预测方法包括以下步骤：

步骤一、对数据进行收集，并对数据预处理后生成训练所需样本数据集；

步骤二、提出光伏出力预测区间评价指标并初始化模型的整体参数；

步骤三、构建基于极限学习机的基础区间边界预测模型，分别建立满足覆盖率需求的预测区间上下边界，并基于直接分位数回归的方法优化模型参数；

步骤四、利用两阶段数据迁移算法构建小样本场景下光伏出力区间预测模型。

进一步地，所述步骤一中收集的样本数据的对象包括数据量短缺的预测目标域光伏电站以及其他样本量充足的源域光伏电站，收集的样本数据类型包括历史运行、环境监测以及数值天气预报数据。

进一步地，所述步骤二中光伏出力预测区间的评价指标包括区间覆盖率PICP、区间平均宽度PINAW和综合评价指标CWC；

预测区间覆盖率PICP为

其中N为数据集中样本的个数，函数

衡量第t个预测点的实际y_t是否在预测区间[l_t,u_t]之内，

平均预测区间宽度PINAW为

R为真实值的跨度，

预测区间整体评价指标CWC为

γ用于判断是否引入指数项，

其中PINRW为预测区间归一化均方根宽度，

进一步地，所述步骤三中基础区间预测器由两个独立的极限学习机构成，两个独立的极限学习机分别用于拟合两个不同比例度α_u和α_l的分位数，以此作为预测区间的上下边界，其中比例度α_u和α_l需满足关系式α_u–α_l＝PICP^*。

进一步地，所述步骤三中所采用的直接分位数回归方法的步骤为：

S1、对于分位数回归对应的Pinball损失函数，其形式为

通过最小化该式可得对应于比例度α的分位数；

S2、为兼顾基础区间预测模型的泛化性能和模型输出结果的合理性，为上式优化目标添加正则化项，并增添预测结果上下限约束，其最终形式如下：

s.t.

其中ω_α表示分位数拟合函数的参数；

代表拟合比例度为α的分位数的拟合函数，即极限学习机；y_t表示光伏出力真实值；x_t代表输入数据；λ表示正则化系数；该式可由线性规划算法高效求解并生成预测区间上下边界。

进一步地，所述步骤四中利用所提出的数据迁移算法实现小样本场景下光伏出力区间预测的步骤包括：

(a)、构建模型训练所需统一数据集：将数据量充足的源域数据集和数据量受限的目标域数据集合并以构成一个样本总数为N的统一数据集，为该数据集每一个样本设置一个权重以构成样本权重向量

i为迭代次数；

(b)、构建集成区间预测模型：基于当前迭代次数i下的样本权重向量，利用重采样技术重构训练数据集，以筛选对预测目标有益的样本，首次迭代(即i＝1时)取当前迭代步数k的样本权重向量，基于筛选后的训练数据集训练基础区间预测器，并利用Winkler函数描述预测误差，其计算式为

基于预测误差

计算校准误差

和目标域权重调整系数β_i＝ε_i/1-ε_i，利用目标域权重调整系数更新目标域样本权重

而保持源域样本权重不变

其中Z_i为归一化常数且归一化在更新后进行，若未达到迭代最大次数I则返回重复操作，否则利用交叉验证获取该集成预测模型的预测误差Winkler损失error_k；

(c)、更新源域及目标域样本权重：基于迭代步数k下的样本权重向量所重构的训练数据集，训练一基础区间预测器，并计算预测误差

更新统一数据集样本权重，对于目标域样本

对于源域样本

其中Z_k为归一化常数；

(d)、构建光伏出力预测区间：若未达到迭代最大步数K，则重复(b)至(d)步骤，否则对于迭代所生成的K个集成区间预测器，选择步骤(b)中交叉验证所得预测误差最小的集成区间预测器作为最终输出的预测器model_j，model_j＝argmin_k error_k，最优集成区间预测器中I次迭代所构建的I个基础区间预测器，利用ln(1/β_i)作为权重，在每个样本点t针对I个基础预测器的输出结果选择加权中位数作为该样本点的预测区间。

进一步地，所述步骤(c)中源域样本权重更新系数β_k由二分搜索得到，更新后目标域样本权重总和满足关系式

其中N^S为源域样本总数，N^T为目标域样本总数。

本发明的有益效果：

1、本发明预测方法，提出一种小样本场景下光伏出力区间预测方法，基于迁移学习理论有效解决了目标域训练样本量不足的问题，并通过设计合理的学习机制克服了小样本场景下预测模型过拟合的问题，显著提升了样本量受限场景下的光伏出力区间预测性能；

2、本发明预测方法，提出一种基于数据迁移方法的光伏出力区间预测算法TrAdaBoostIP，引入其他数据量充足光伏电站的样本，通过样本权重筛选有效样本以补足目标光伏电站的数据不足，基于集成思想提升小样本场景下预测模型的准确性和稳定性；

3、本发明预测方法，通过优化样本权重更新机制进一步提出一种两阶段TrAdaBoostIP算法，细化样本权重更新过程，使样本筛选机制更为合理有效，进一步提升所提光伏出力区间预测方法在小样本场景下的性能。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明在小样本场景下预测光伏出力区间的流程图；

图2是本发明验证预测性能所选取的五处光伏发电站发电功率的数据分布情况；

图3是本发明在目标域构建小样本场景的规则；

图4是本发明在秋季6％数据量场景下的预测结果；

图5是本发明在春季6％数据量场景下的预测结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

一种基于迁移学习的小样本场景下光伏出力区间预测方法，本发明为一种串行集成框架，如图1所示，预测方法包括以下步骤：

步骤一、对数据进行收集，并对数据预处理后生成训练所需样本数据集。收集的样本数据的对象包括数据量短缺的预测目标域光伏电站以及其他样本量充足的源域光伏电站，收集的样本数据类型包括历史运行、环境监测以及数值天气预报数据。在数据预处理阶段，首先去除晚十点至早五点的数据，因为该时段光伏出力为零。其次，利用相关性分析进行特征提取，确定特征空间并保证源域及目标域特征相同。最后将输入数据与预测目标利用线性归一化方法去除量纲，以构成训练所需样本数据集。

步骤二、提出光伏出力预测区间评价指标并初始化模型的整体参数。光伏出力预测区间的评价指标包括平均预测区间宽度PINAW、预测区间覆盖率PICP以及区间整体评价指标CWC，给定训练数据集为{(x₁,y₁),…,(x_N,y_N)}，预测区间评价指标分别如式(1)至式(7)所示：

上述式(1)至式(7)中，N是训练数据集中统计数据样本的个数,y₁为第1个预测点x₁的实际值，y_N为第N个预测点x_N的实际值，函数

衡量第t个预测点的实际值y_t是否在预测区间[l_t,u_t]之内,u_t、l_t为第t个预测点预测区间的上下限，R为真实值的跨度，γ用于判断是否引入指数项，η₁线性扩大PINRW的数值，η₂为PICP的惩罚系数，PINC为预设期望覆盖率。

随机初始化极限学习机输入层权重，赋予所有样本相同初始化权重，利用交叉验证确定极限学习机隐藏层神经元个数、正则化系数、两阶段TrAdaBoostIP算法的迭代次数I和迭代步数K。

步骤三、构建基于极限学习机的基础区间边界预测模型，分别建立满足覆盖率需求的预测区间上下边界，并基于直接分位数回归的方法优化模型参数。基础区间边界预测器由两个独立的极限学习机构成，基于分位数回归的理论，两个独立的极限学习机分别用于拟合两个不同比例度α_u和α_l的分位数，以此作为预测区间的上下边界。为满足预设区间覆盖率PICP^*的要求，比例度α_u和α_l需满足关系式α_u–α_l＝PICP^*。由于极限学习机其本质是凸函数，因此网络参数可借助直接分位数回归的方法进行优化求解；而采用直接分位数回归方法的步骤又包括：

S1、对于分位数回归对应的Pinball损失函数，其形式为

通过最小化该式可得对应于比例度α的分位数；

S2、利用辅助变量

替换上式，将上述优化问题转化为线性规划问题；

S3、为兼顾基础区间预测模型的泛化性能和模型输出结果的合理性，为上式优化目标添加正则化项，并增添预测结果上下限约束，其最终形式如下：

s.t.

上式中ω_α表示分位数拟合函数的参数，

代表拟合比例度为α的分位数的拟合函数，即极限学习机，y_t表示光伏出力真实值，x_t代表输入数据，λ表示正则化系数，该式可由线性规划算法高效求解并生成预测区间上下边界。

步骤四、利用两阶段数据迁移算法构建小样本场景下光伏出力区间预测模型。基于目标域发电站以及源域发电站的训练数据，利用数据迁移算法迭代筛选样本并训练基础区间预测器，根据集成理论得到最终目标域电站光伏出力预测区间。该算法将数据量充足的源域数据集和数据量受限的目标域数据集合并以构成一个统一数据集，以样本权重向量描述样本对于预测目标的效用，通过串行集成的方式优化预测结果的准确性，基于两阶段训练机制，细化样本权重更新过程以保证样本筛选过程的有效性，进一步提升所得集成区间预测器的性能。

小样本场景下所提预测模型的两阶段迭代训练过程如下：

(a)构建模型训练所需统一数据集；将数据量充足的源域数据集和数据量受限的目标域数据集合并以构成一个样本总数为N的统一数据集，为该数据集每一个样本设置一个权重以构成样本权重向量

k为迭代步数。

(b)构建集成区间预测模型；第一步，基于当前迭代次数i下的样本权重向量，利用重采样技术重构训练数据集，以筛选对预测目标有益的样本，首次迭代(即i＝1时)取当前迭代步数k的样本权重向量；第二步，基于筛选后的训练数据集训练基础区间预测器，并利用Winkler函数描述预测误差，其计算式为

第三步，基于预测误差

计算校准误差

而保持源域样本权重不变

其中Z_i为归一化常数且归一化在更新后进行；第四步，若未达到迭代最大次数I，则重复第一步至第四步，否则转至第五步；第五步，利用交叉验证获取该集成预测模型的预测误差Winkler损失error_k，该数据用于确定所有迭代步数中构造的最优集成区间预测模型；

(c)更新源域及目标域样本权重

第一步，基于迭代步数k下的样本权重向量所重构的训练数据集，训练一基础区间预测器，并计算预测误差

第二步，更新统一数据集样本权重，对于目标域样本，

对于源域样本，

其中Z_k为归一化常数。源域样本权重更新系数β_k由二分搜索得到，以保证更新后目标域样本权重总和满足关系式

其中N^S为源域样本总数，N^T为目标域样本总数。

(d)构建光伏出力预测区间

若未达到迭代最大步数K，则重复(b)至(d)步骤，否则对于迭代所生成的K个集成区间预测器，选择步骤(b)中交叉验证所得预测误差最小的集成区间预测器作为最终输出的预测器model_j，model_j＝argmin_kerror_k。至此，最优集成区间预测器构建完成。对于最优集成区间预测器中I次迭代所构建的I个基础区间预测器，利用ln(1/β_i)作为权重，在每个样本点t针对I个基础预测器的输出结果选择加权中位数作为该样本点的预测区间。

选取中国五处不同地点的光伏发电站2019年12月至2020年11月的光伏出力数据作为实施案例的数据来源，数据的时间分辨率为15分钟/点。选取一个光伏电站作为目标域而其他四个电站作为源域，图2以箱型图形式展示出五处光伏发电站发电功率的数据分布情况，可见目标域数据分布与源域数据分布相异，确保了实施案例的合理性和有效性。在数据预处理阶段，首先去除晚十点至早五点的数据，因为该时段光伏出力为零。其次，利用相关性分析进行特征提取，确定特征空间并保证源域及目标域特征相同。最后将输入数据与预测目标利用线性归一化方法去除量纲，以构成训练所需样本数据集。由于光伏出力的特征在不同季节表现不同，因此预测按季节进行。

为构建合理的小样本场景，首先在目标域每个季节选择前两个月，第二个月的样本作为测试集，而训练数据按照不同比例度从第一个月选取以人为构造样本受限的预测场景，图3展示出具体构造规则。其次，在源域中选择与目标域训练数据同一月份的数据，以补充目标域数据量的不足。最后，将源域数据集与目标域训练数据集合并形成模型训练所需的统一数据集，而模型测试数据集为目标域中所构造的测试集。

基于上述构造的小样本场景验证所提预测模型的性能，选取在目标域小样本场景上直接训练基础区间预测器的方法作为对比算例，记为M1；所提方法采用统一数据集作为训练集，基于迁移学习策略构造稳定有效的集成区间预测器，记为SIP。预设期望覆盖率90％，基于测试集预测结果，使用平均覆盖率偏差指标对预测模型的可靠性和稳定性进行评估，计算公式如式(9)所示，利用评估指标CWC对预测区间作整体评估。

ACD＝PICP-PINC (9)

采用本申请所公开方法得到的预测区间的评估结果如表1所示。

表1各超前步数及期望覆盖率下本申请预测区间的评估结果

通过评估结果可以看出，本申请能够将小样本场景下光伏出力预测区间性能显著提升。在覆盖率PICP方面，利用小样本直接学习的预测模型在大部分实施案例中其ACD均为负值，说明该方法很难满足覆盖率的需求。所提SIP预测方法通过迁移学习的方式极大地改善了这一问题，尤其在目标域样本量极少时，即数据量6％时，直接学习法所得预测区间覆盖率与期望值相差10％以上，而所提方法仍然能够维持预设覆盖率的要求。在平均宽度PINAW方面，直接学习法由于训练数据量不足，其所得预测区间宽度极大，导致预测过于保守且信息量更低，无法应用于实际电网运行决策。所提SIP预测方法在保证预设覆盖率的前提下，仍然能够获得较窄的预测区间，更加符合区间预测的目标。综合评价指标CWC进一步验证了所提方法的优越性，相较于直接学习法，所提预测方法能够获得更小的CWC值，说明所得预测区间能够更好地兼顾覆盖率与区间宽度。图4和图5展示了本申请所提预测方法在小样本场景下的预测结果，当数据量仅有6％时，所提预测方法仍然能够生成准确有效的预测区间。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种基于迁移学习的小样本场景下光伏出力区间预测方法，其特征在于，所述预测方法包括以下步骤：

2.根据权利要求1所述的一种基于迁移学习的小样本场景下光伏出力区间预测方法，其特征在于，所述步骤一中收集的样本数据的对象包括数据量短缺的预测目标域光伏电站以及其他样本量充足的源域光伏电站，收集的样本数据类型包括历史运行、环境监测以及数值天气预报数据。

3.根据权利要求1所述的一种基于迁移学习的小样本场景下光伏出力区间预测方法，其特征在于，所述步骤二中光伏出力预测区间的评价指标包括区间覆盖率PICP、区间平均宽度PINAW和综合评价指标CWC；

预测区间覆盖率PICP为

其中N为数据集中样本的个数，函数

衡量第t个预测点的实际y_t是否在预测区间[l_t,u_t]之内，

平均预测区间宽度PINAW为

R为真实值的跨度，

预测区间整体评价指标CWC为

γ用于判断是否引入指数项，

其中PINRW为预测区间归一化均方根宽度，

4.根据权利要求1所述的一种基于迁移学习的小样本场景下光伏出力区间预测方法，其特征在于，所述步骤三中基础区间预测器由两个独立的极限学习机构成，两个独立的极限学习机分别用于拟合两个不同比例度α_u和α_l的分位数，以此作为预测区间的上下边界，其中比例度α_u和α_l需满足关系式α_u–α_l＝PICP^*。

5.根据权利要求1所述的一种基于迁移学习的小样本场景下光伏出力区间预测方法，其特征在于，所述步骤三中所采用的直接分位数回归方法的步骤为：对于分位数回归对应的Pinball损失函数，其形式为

通过最小化该式可得对应于比例度α的分位数，其最终形式如下：

其中ω_α表示分位数拟合函数的参数；

6.根据权利要求1所述的一种基于迁移学习的小样本场景下光伏出力区间预测方法，其特征在于，所述步骤四中利用所提出的数据迁移算法实现小样本场景下光伏出力区间预测的步骤包括：

i为迭代次数；

基于预测误差

计算校准误差

而保持源域样本权重不变

更新统一数据集样本权重，对于目标域样本

对于源域样本

其中Z_k为归一化常数；

7.根据权利要求6所述的一种基于迁移学习的小样本场景下光伏出力区间预测方法，其特征在于，所述步骤(c)中源域样本权重更新系数β_k由二分搜索得到，更新后目标域样本权重总和满足关系式

其中N^S为源域样本总数，N^T为目标域样本总数。

8.一种计算机设备，其特征在于：该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求1-7任一项所述的基于迁移学习的小样本场景下光伏出力区间预测方法。

9.一种计算机可读存储介质，其特征在于：该计算机可读存储介质存储有执行如权利要求1-7中任一项所述的基于迁移学习的小样本场景下光伏出力区间预测方法的计算机程序。