CN110442038A

CN110442038A - 基于FP-Growth算法的火电机组运行优化目标值确定方法

Info

Publication number: CN110442038A
Application number: CN201910675924.4A
Authority: CN
Inventors: 林金星; 缪宇航
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-11-12
Anticipated expiration: 2039-07-25
Also published as: CN110442038B

Abstract

本发明公开了一种基于Apache Spark和改进FP‑Growth算法的火电机组运行优化目标值确定方法，包括以下步骤：S1、选取供电煤耗率的影响参数，根据影响参数采集历史运行数据并进行数据预处理和稳态检测；S2、使用Pearson相关性分析从供电煤耗率的影响参数中筛选运行优化参数；S3、基于矩阵技术改进FP‑Growth算法；S4、基于Apache Spark将改进FP‑Growth算法并行化；S5、将运行优化参数的数据离散化，利用并行的改进FP‑Growth算法从数据集中挖掘频繁模式，对挖掘结果进行反离散化并整理得到各个工况下机组运行优化参数的目标值。本发明的一种火电机组运行优化参数目标值确定方法，基于Apache Spark和改进FP‑Growth算法，具备耗时短、占用内存低和挖掘海量数据的效率高的优点。

Description

基于FP-Growth算法的火电机组运行优化目标值确定方法

技术领域

本发明涉及一种基于Apache Spark和改进FP-Growth算法的火电机组运行优化目标值确定方法，属于电力工程技术领域。

背景技术

近年来，面对大气污染治理和应对气候变化等新形势，节能减排工作进一步深入，发电机组提效运行面临着更大的压力。由于机组中具备节能潜力的设备基本都进行了节能改造，节能减排工作更需要落实在日常工作运行中，向更加精细化的方向发展。因此，运行优化研究对机组节能减排工作至关重要。

目标值的合理确定是机组实施运行优化和能耗分析的前提和基础。传统的机组运行优化目标值确定方法有设计值法、最优运行试验法和变工况热力计算法，这些方法存在实际可行性差、覆盖工况局限以及耗时耗力的问题。

随着数据挖掘技术的发展，国内许多专家学者开始将数据挖掘技术用于机组运行优化参数目标值的研究。已有文献提出一种改进的动态数据流模糊关联规则挖掘算法并设计了电站热力系统实时分析与运行优化仿真平台，通过仿真平台对影响机组运行的供电煤耗率的可控参数进行动态数据挖掘，将供电煤耗率最小的运行参数作为运行优化的目标值。已有文献提出一种改进的关联规则Apriori算法，通过MATLAB编程和GUI设计挖掘得到不同工况下锅炉达到最优运行状况时各项运行参数的目标值。已有文献利用K-means聚类算法并结合Silhouette聚类有效评价函数，对历史数据进行多参数同步聚类，确定各典型工况下对机组供电煤耗影响较大的关键能效特征指标的基准值。已有文献基于模糊粗糙集约简和模糊均值聚类等数据挖掘方法，确定了设定边界条件和工况下使供电煤耗最低的部分可控参数实际可达优化目标值。已有文献在Hadoop平台的MapReduce架构上对经典关联规则算法Apriori算法进行改进，新算法被应用于汽轮机运行优化目标值的确定。已有文献通过Canopy算法对K-means算法改进，并实现改进K-means聚类算法在Hadoop平台上的并行化计算，新算法被用于挖掘典型负荷工况下影响供电煤耗的可控运行参数的基准值。已有文献采用K-means聚类算法分析实时运行数据，分别挖掘再热器压损和锅炉排烟温度的基准值。已有文献结合粒子群算法来提升关联规则Apriori算法的性能，改进算法被用于挖掘符合机组NOx减排要求的各个参数的最优目标值。已有文献采用基于编码的矩阵法对Apriori算法进行改进并用改进算法挖掘得到了汽轮机组热耗率相关运行参数的目标值。已有文献提出采用轮廓系数法来确定K-means聚类算法的聚类中心数，改进算法被用于确定典型工况下供电煤耗率最优的各参数基准值。

现有的基于关联规则挖掘的研究大多数都是使用Apriori算法。该算法存在两点不足：每次迭代都需要扫描一次数据集；每次迭代都会产生大量的候选项集。在挖掘海量的高维数据时，Apriori算法会出现耗时过长、占用内存高的问题。

发明内容

本发明要解决的技术问题是，克服现有技术中Apriori算法的缺陷，提供一种耗时短、占用内存低和挖掘海量数据的效率高的火电机组运行优化参数目标值确定方法。

为解决上述技术问题，本发明采用的技术方案为：

一种基于Apache Spark和改进FP-Growth算法的火电机组运行优化目标值确定方法，包括以下步骤：

S1、选取供电煤耗率的影响参数，根据影响参数采集历史运行数据并进行数据预处理和稳态检测；

S2、使用Pearson相关性分析从影响参数中筛选运行优化参数；

S3、基于矩阵技术改进FP-Growth算法；

S4、基于Apache Spark将改进FP-Growth算法并行化；

S5、将运行优化参数的数据离散化，利用并行的改进FP-Growth算法从数据集中挖掘频繁模式，对挖掘结果进行反离散化并整理得到各个工况下机组运行优化参数的目标值。

S1中，供电煤耗率的影响参数为分别选取锅炉侧和汽轮机侧影响锅炉效率和汽轮机热耗率的运行参数并进行合并；历史运行数据采样间隔为1分钟；稳态检测的参数是机组负荷和主蒸汽压力。

S2具体步骤为：按季节将稳态检测后的历史运行数据分为4组，分别对4组数据使用Pearson相关性分析，将每个季节内和供电煤耗率强相关的参数合并，合并结果即为机组运行优化参数。

S3具体包括以下步骤：

S31、遍历一次原始数据集D并根据最小支持度阈值筛选得到所有的频繁1-项集，按支持度由大到小的顺序生成一个频繁1-项集的横向列表，记为F-List；

S32、生成一个n行k列的零矩阵M，n等于D中事务T的条数，k等于F-List的长度，即F-List中频繁1-项集的个数；

S33、再次遍历D并更新矩阵M，具体包括以下步骤：

S331、读取D的第i条事务T_i用于更新矩阵M的第i行元素其中1≤i≤n，从T₁开始逐条进行更新；

S332、将T_i的第x项T_i(x)和F-List中的每一项依次进行比较，其中1≤x≤len(i)，len(i)等于第i条事务中所有项的个数，从T_i(1)开始逐项进行比较；

S333、如果T_i(x)和F-List的第j项F-List(j)相同，其中1≤j≤k，则将矩阵M中的元素M_ij＝0更新为M_ij＝1，同时结束T_i(x)和F-List的比较并且F-List(j)不再参与T_i中剩余项的比较；如果T_i(x)没有出现在F-List中，则不对矩阵M作任何改动；

S334、T_i的所有项目完成比较后，对应在矩阵M的第i行元素也更新完毕，则T_i的频繁项目信息完全压缩并保存在了矩阵M的第i行中；

S335、原始数据集D的所有事务T完成更新后，矩阵M压缩并保存了原始数据集中所有频繁项的信息。

S34、利用更新后的矩阵M构造FP-Tree，矩阵M每一行中值为1的元素对应为原始数据集中每一条事务含有的频繁项目，元素值为0则说明元素所在行对应的数据集事务不含相应的频繁项目；

S35、利用构造的FP-Tree挖掘频繁模式。

S4具体包括以下步骤：

S41、启动HDFS，将原始数据集D存放在指定目录下；

S42、启动Apache Spark，主节点从指定存放目录中读取原始数据集D，并将D切割成大小相等且连续的p个数据块分别发送到p个从节点上；

S43、每个从节点遍历一次各自的数据块，计算所有项目的支持度计数；

S44、从节点将计算结果发送至主节点进行汇总，主节点根据最小支持度阈值生成F-List，并采用负载均衡的分配方式对F-List中的频繁1-项集进行分组，分组结果保存在G-List中。主节点将F-List和G-list发送给p个从节点；

S45、从节点根据F-List和步骤S33将数据块中的信息压缩到矩阵中，并根据G-List在从节点之间交换矩阵中的数据；

S46、数据交换完成后，各从节点根据G-List和步骤S34、S35构建子FP-Tree并挖掘局部频繁模式；

S47、从节点将局部频繁模式发送至主节点进行汇总，得到全局频繁模式，即原始数据集D的频繁模式。

S5中，使用模糊C均值聚类算法分别将各个运行优化参数的稳态历史数据离散化，离散化后的数据区间使用字母+数字的形式进行标记，并将每条数据的数值用所在区间的标号替换。

本发明的有益效果：本发明提供一种基于Apache Spark和改进FP-Growth算法的火电机组运行优化目标值确定方法，通过对FP-Growth算法进行改进，并基于Apache Spark实现改进算法的并行化，从而提高了海量机组历史运行数据的挖掘效率。

附图说明

图1为本发明基于Apache Spark和改进FP-Growth算法的火电机组运行优化目标值确定方法的流程图；

图2为改进FP-Growth算法的流程图；

图3为改进FP-Growth算法在Apache Spark上的并行化流程图。

具体实施方式

下面结合附图对本发明作进一步描述，以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

FP-Growth算法是一种基于内存的关联规则挖掘算法，该算法只需要扫描两次数据集，而且不产生候选项集。相较于Apriori算法，FP-Growth算法的运行速度快、占用计算机资源少。特别是在处理大数据时，FP-Growth算法的优势更为明显。发电机组的海量历史数据具有高维属性，因此，基于FP-Growth算法的机组运行优化研究更有意义。

为了提高数据挖掘算法挖掘海量数据的效率，已有文献都通过Hadoop平台对算法进行了并行化改进，取得了不错的效果。相对于Hadoop平台，Apache Spark更加适合于数据挖掘和机器学习等需要迭代的算法。因此，基于Apache Spark的并行化FP-Growth算法对于机组运行优化研究更有意义。

如图1所示，本发明提供一种基于Apache Spark和改进FP-Growth算法的火电机组运行优化目标值确定方法，基于Apache Spark和改进FP-Growth算法，以降低机组供电煤耗为目的，具体包括以下步骤：

步骤一、选取供电煤耗率的影响参数，根据影响参数采集历史运行数据并进行数据预处理和稳态检测。供电煤耗率是锅炉效率和汽轮机热耗率的函数，选取供电煤耗率的影响参数就是分别选取锅炉侧和汽轮机侧影响锅炉效率和汽轮机热耗率的参数并进行合并。本发明采集了一个维修期间内的历史运行数据，采样间隔为1分钟。数据预处理主要是删除异常的数据和空缺的数据。用于稳态检测的参数是机组负荷和主蒸汽压力，判稳依据是20分钟内数据的最大值和最小值之差在某个稳定阈值内。

步骤二、使用相关性分析法从主要影响参数中筛选运行优化参数。步骤二主要包括：按季节将稳态检测后的历史运行数据分为4组，分别对4组数据使用Pearson相关性分析，将每个季节内和供电煤耗率强相关的参数合并，合并结果即为机组运行优化参数。

步骤三、基于矩阵技术改进FP-Growth算法。如图2所示，FP-Growth算法的改进主要包括以下步骤：

S31、遍历一次原始数据集D并根据最小支持度阈值筛选得到所有的频繁1-项集，按支持度由大到小的顺序生成一个频繁1-项集的横向列表记为F-List；

S33、再次遍历D并更新矩阵M，具体包括以下步骤：

S331、读取D的第i条事务T_i用于更新矩阵M的第i行元素(1≤i≤n)，从T₁开始逐条进行更新；

S332、将T_i的第x项T_i(x)和F-List中的每一项依次进行比较(1≤x≤len(i))，len(i)等于第i条事务中所有项的个数，从T_i(1)开始逐项进行比较；

S333、如果T_i(x)和F-List的第j项F-List(j)相同(1≤j≤k)，则将矩阵M中的元素M_ij＝0更新为M_ij＝1，同时结束T_i(x)和F-List的比较并且F-List(j)不再参与T_i中剩余项的比较；如果T_i(x)没有出现在F-List中，则不对矩阵M作任何改动；

S34、利用更新后的矩阵M构造FP-Tree，矩阵M每一行中值为1的元素对应为原始数据集中每一条事务含有的频繁项目，元素值为0则说明元素所在行对应的数据集事务不含相应的频繁项目，这里的FP-Tree构造方法和经典FP-Growth算法的构造方法相同；

S35、利用构造的FP-Tree挖掘频繁模式。

步骤四、基于Apache Spark将改进FP-Growth算法并行化。如图3所示，步骤四基于Apache Spark将改进FP-Growth算法并行化具体包括以下步骤：

S41、启动HDFS，将原始数据集D存放在指定目录下；

步骤五、将运行优化参数的数据离散化，利用并行的改进FP-Growth算法从数据集中挖掘频繁模式，对挖掘结果进行反离散化并整理得到各个工况下机组运行优化参数的目标值。本发明使用模糊C均值聚类算法分别将各个运行优化参数的稳态历史数据离散化。离散化后的数据区间使用字母+数字的形式进行标记，并将每条数据的数值用所在区间的标号替换。至此，原数值型数据集就被转换为可用于关联规则挖掘的离散型数据集。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于Apache Spark和改进FP-Growth算法的火电机组运行优化目标值确定方法，其特征在于：包括以下步骤：

S2、使用Pearson相关性分析从影响参数中筛选运行优化参数；

S3、基于矩阵技术改进FP-Growth算法；

S4、基于Apache Spark将改进的FP-Growth算法并行化；

2.根据权利要求1所述的一种基于Apache Spark和改进FP-Growth算法的火电机组运行优化目标值确定方法，其特征在于：S1中，供电煤耗率的影响参数为分别选取锅炉侧和汽轮机侧影响锅炉效率和汽轮机热耗率的参数并进行合并；历史运行数据采样间隔为1分钟；稳态检测的参数是机组负荷和主蒸汽压力。

3.根据权利要求2所述的一种基于Apache Spark和改进FP-Growth算法的火电机组运行优化目标值确定方法，其特征在于：S2具体步骤为：按季节将稳态检测后的历史运行数据分为4组，分别对4组数据使用Pearson相关性分析，将每个季节内和供电煤耗率强相关的参数合并，合并结果即为机组运行优化参数。

4.根据权利要求3所述的一种基于Apache Spark和改进FP-Growth算法的火电机组运行优化目标值确定方法，其特征在于：S3具体包括以下步骤：

S33、再次遍历D并更新矩阵M，具体包括以下步骤：

S35、利用构造的FP-Tree挖掘频繁模式。

5.根据权利要求4所述的一种火电机组运行优化参数目标值确定方法，其特征在于：S4具体包括以下步骤：

S41、启动HDFS，将原始数据集D存放在指定目录下；

S44、从节点将计算结果发送至主节点进行汇总，主节点根据最小支持度阈值生成F-List，并采用负载均衡的分配方式对F-List中的频繁1-项集进行分组，分组结果保存在G-List中；主节点将F-List和G-list发送给p个从节点；

6.根据权利要求5所述的一种基于Apache Spark和改进FP-Growth算法的火电机组运行优化目标值确定方法，其特征在于：S5中，使用模糊C均值聚类算法分别将各个运行优化参数的稳态历史数据离散化，离散化后的数据区间使用字母+数字的形式进行标记，并将每条数据的数值用所在区间的标号替换。