WO2022193569A1

WO2022193569A1 - 基于稀疏大数据挖掘的火电机组汽轮机优化方法及系统

Info

Publication number: WO2022193569A1
Application number: PCT/CN2021/116827
Authority: WO
Inventors: 林金星; 陆铭杰; 胡志
Original assignee: 南京邮电大学
Priority date: 2021-03-15
Filing date: 2021-09-07
Publication date: 2022-09-22
Also published as: CN112861379B; US20240134331A1; US20240231295A9; CN112861379A

Abstract

一种基于稀疏大数据挖掘的火电机组汽轮机优化方法及系统，包括：采集机组历史运行数据；选取一组与汽轮机热耗率较强相关的可控运行参数作为优化参数；基于二进制矩阵和超链接技术，构建新型面向稀疏数据的模式增长类关联规则挖掘算法；在Apache Spark平台上，提出基于矩阵运算的负载均衡策略，并行化实现全局计算平衡的模式增长类关联规则挖掘算法；通过聚类离散化历史运行数据，并行挖掘离散化历史运行数据得到关联规则，并反离散化，得出各个边界条件下汽轮机优化参数的目标值。可有效解决火电机组汽轮机连续运行数据离散化导致的稀疏特性，并可高效挖掘汽轮机大规模运行数据以获取热耗率较低时的运行优化目标值。

Description

基于稀疏大数据挖掘的火电机组汽轮机优化方法及系统

技术领域

本发明属于汽轮机优化技术领域，具体涉及一种基于稀疏大数据挖掘的火电机组汽轮机优化方法及系统。

背景技术

近年来，在我国节能减排工作不断深入的大环境下，节能降耗成为各火电厂迫切需要完成的任务。汽轮机作为火电机组的重要组成部分，其运行效率直接决定火力发电厂电力资源的供应。因此，研究火电机组汽轮机运行优化至关重要，不仅提高发电效率，也能降低发电成本。关联规则挖掘是数据挖掘领域中应用广泛且实用意义较高的方法，能够发掘数据之间隐含着的关联性和相关性。相较于设计值法、最优运行试验法和变工况热力计算法，基于关联规则挖掘的机组运行优化方法是从机组长期运行数据中获取机组性能较好状态下主要运行参数与机组相关性能指标间的强关联规则，不需要建立复杂的机理模型，避免了易受工况局限以及耗时耗力的问题，具有较高的可行性。此外，随着自动化及信息化程度的日益提高，电厂广泛部署DCS系统和SIS系统，积累了大规模的运行数据，为基于关联规则挖掘的机组运行优化方法创造了有利条件。

现有技术中的算法大多是串行运行方式，处理的是小样本汽轮机数据。火电机组运行参数众多、系统工况多变且数据采集周期短，小样本运行数据难以体现汽轮机的实际特性。现有技术中采用Apriori算法或FP-Growth算法挖掘稀疏数据频繁模式时，因算法自身瓶颈导致耗时长、占用内存高的缺陷；串行关联规则挖掘算法受单机硬件资源限制，难以分析处理大规模数据。

发明内容

为解决现有技术中的不足，本发明提供一种基于稀疏大数据挖掘的火电机组汽轮机优化方法及系统，可有效克服挖掘稀疏海量数据关联规则时，以往关联规则挖掘算法耗时长、内存占用过高的缺陷，并能负载均衡地挖掘大规模数据。

为达到上述目的，本发明所采用的技术方案是：一种火电机组汽轮机优化方法，包括：以降低汽轮机热耗率为优化目标，采集历史运行数据并数据预处理；基于典型相关性分析粗选与皮尔森相关性分析精选的方法，从历史运行数据中选取一组与汽轮机热耗率相关性符合设定条件的机组可控运行参数作为优化参数；构建面向稀疏数据的模式增长类关联规则挖掘算法；在大数据分析处理框架Apache Spark上，基于矩阵运算的负载均衡策略，并行化实现全局计算平衡的模式增长类关联规则挖掘算法；采用模糊C均值聚类算法离散化历史运行数据，基于并行化的模式增长类关联规则挖掘算法，挖掘离散化历史运行数据得到关联规则，并反离散化，得出各个边界条件下汽轮机优化参数的目标值。

进一步地，所述数据预处理，是指剔除历史运行数据中的异常数据和冗余数据并对历史运行数据进行稳态检测。

进一步地，所述稳态检测的判别标准是：在一定时间段内，当汽轮机的运行状态参数波动值小于设定范围时，可以认为机组处于稳定运行工况。

进一步地，所述构建面向稀疏数据的模式增长类关联规则挖掘算法，包括：S31、设定最小支持度阈值，遍历稀疏事务数据集，记为D，统计各项频数，生成频繁项列表，记为F_List；S32、遍历F_List，对频繁项标号，生成项头表，记为H-Table，包括项号、支持度计数和链接指针；S33、筛去D中的非频繁项，转化存储为二进制矩阵，记为PBM，其中为“1”的元素表示在某个事务中含有该元素对应F-List中的某个频繁项，为“0”的元素表示在某个事务中不含有该元素对应F-List中的某个频繁项；S34、扫描PBM，调整H-Table中的指针，将PBM中每行首个“1”所在位置和频繁项项头表H-Table中对应频繁项链接，提取PBM中首个“1”在相同位置的行，生成多个子PBM，将挖掘全部频繁项集的任务转化为多个挖掘局部频繁项集的子任务；S35、聚合局部频繁项集，输出全部频繁项集。

进一步地，所述子任务包括以下步骤：S341、扫描子PBM，对每列求和，更新对应子PBM的子项头表H-Table中频繁项的支持度计数；S342、利用指针将子PBM中和大于最小支持度阈值的列与子H-Table中对应频繁项链接起来，增长为更长的局部频繁项集；S343、递归执行S341和S342，直到子PBM每列的和小于最小支持度阈值。

进一步地，所述在大数据分析处理框架Apache Spark上，基于矩阵运算的负载均衡策略，并行化实现全局计算平衡的模式增长类关联规则挖掘算法，包括：S41、启动Apache Spark，主节点读取稀疏事务数据集D，并将D水平切割成大小相等且连续的P个数据块，分别发送到P个从节点；S42、每个从节点遍历一次各自的数据块，计算所有项的支持度计数，并发送至主节点；S43、主节点比较所有项的支持度计数与最小支持度阈值，筛选出频繁项，生成F_List和H-Table，并将F_List和H-Table发送到P个从节点；S44、每个从节点根据F_List，再次遍历各自的数据块，按步骤S33转化存储为PBM，并统计PBM中首个在相同位置的“1”的行的个数，列号对应H-Table中的项号，形成项号、行数，发送到主节点；S45、主节点将相同项号的行数相加，根据基于矩阵计算的负载均衡策略进行分组，生成分组列表，记为G_List，发送到P个从节点；S46、从节点根据G-List在从节点之间交换PBM中的数据；S47、数据交换完成后，各从节点根据G-List和步骤S34，挖掘局部频繁项集；S48、从节点将局部频繁项集发送至主节点进行汇总，得到全部频繁项集，即稀疏事务数据集D的频繁项集。

进一步地，所述基于矩阵计算的负载均衡策略，包括：S451、主节点将行数相加后的项号、行数按行数递减顺序进行排序；S452、主节点根据F_List和H-Table间频繁项与项号一一对应的关系，将排序后的项号、行数转化为按此顺序排序的频繁项；S453、主节点按从两端开始的组合顺序依次组合频繁项，分为P组；S454、主节点依次扫描P组中的频繁项，生成分组列表G_List。

进一步地，所述采用模糊C均值聚类算法离散化历史运行数据，包括：使用字母加数字的形式标记离散化后的数据区间，并用每条数据所在区间的标号替换其数值。

一种火电机组汽轮机优化系统，包括：第一模块，用于以降低汽轮机热耗率为优化目标，采集历史运行数据并数据预处理；第二模块，用于基于典型相关性分析粗选与皮尔森相关性分析精选的方法，从历史运行数据中选取一组与汽轮机热耗率相关性符合设定条件的机组可控运行参数作为优化参数；第三模块，用于构建面向稀疏数据的模式增长类关联规则挖掘算法；第四模块，用于在大数据分析处理框架Apache Spark上，基于矩阵运算的负载均衡策略，并行化实现全局计算平衡的模式增长类关联规则挖掘算法；第五模块，用于采用模糊C均值聚类算法离散化历史运行数据，基于并行化的模式增长类关联规则挖掘算法，挖掘离散化历史运行数据得到关联规则，并反离散化，得出各个边界条件下汽轮机优化参数的目标值。

与现有技术相比，本发明所达到的有益效果：本发明通过运用二进制矩阵和超链接技术设计一种新的模式增长类关联规则挖掘算法，可有效克服Apriori算法和FP-Growth算法挖掘稀疏数据频繁模式时，耗时长、内存占用过高的缺陷；同时，本发明还针对火电机组汽轮机全工况、长周期下，运行数据规模大的特点，基于以内存计算为主的大数据分析处理框架Apache Spark实现所设计的关联规则挖掘算法并行化，避免MapReduce频繁读写磁盘的缺点，减少大量I/O开销；并且，本发明针对二进制矩阵数据存储结构易于矩阵计算的特点，提出一种基于矩阵计算的负载均衡策略，较精确地分配集群计算节点的任务，充分发挥集群的性能优势，可高效挖掘汽轮机大规模运行数据以获取热耗率较低时的运行优化目标值。

附图说明

图1是本发明实施例提供的一种火电机组汽轮机优化方法的主要流程示意图；

图2是本发明实施例中设计的关联规则挖掘算法的流程图；

图3是本发明实施例中设计的关联规则挖掘算法在Apache Spark上的并行化流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

如图1～图3所示，一种火电机组汽轮机优化方法，包括：以降低汽轮机热耗率为优化目标，采集历史运行数据并数据预处理；基于典型相关性分析粗选与皮尔森相关性分析精选的方法，从历史运行数据中选取一组与汽轮机热耗率相关性符合设定条件的机组可控运行参数作为优化参数；构建面向稀疏数据的模式增长类关联规则挖掘算法；在大数据分析处理框架Apache Spark上，基于矩阵运算的负载均衡策略，并行化实现全局计算平衡的模式增长类关联规则挖掘算法；采用模糊C均值聚类算法离散化历史运行数据，基于并行化的模式增长类关联规则挖掘算法，挖掘离散化历史运行数据得到关联规则，并反离散化，得出各个边界条件下汽轮机优化参数的目标值。

步骤一：以汽轮机热耗率较低为优化目标，采集历史运行数据并数据预处理；数据预处理，是指剔除历史运行数据中的异常数据和冗余数据以及稳态检测；稳态检测的判别标准是：在一定时间段内，当汽轮机的运行状态参数波动值小于设定范围时，可以认为机组处于稳定运行工况；

首先，在汽轮机组中，热耗率作为热经济性指标之一，全面地反映了机组热经济性，因此选择热耗率作为性能指标，并以降低汽轮机热耗率作为运行优化目标；接着，本实施例从某电厂SIS和DCS系统中采集1000MW火电机组汽轮机从2018年8月到到2019年7月的历史数据，数据范围为两次停机检修之间的一个完整运行周期，采样频率为60s，除去极少缺失值，共采集525600条历史运行数据；然后，针对数据明显异常地死点、坏点，直接剔除；针对一个参数对应多个测点所测得的多个正常数据，采用求平均值的方法得到一个能够全面、正确反映实际状态的数据；最后，用于稳态检测的参数时机组负荷和主蒸汽压力，判稳依据是20分钟内数据的最大值和最小值之差在某个稳定阈值内。

步骤二：针对汽轮机运行数据参数高维和强相关的特点，基于典型相关性分析粗选与皮尔森相关性分析精选的方法，选取一组与汽轮机热耗率较强相关的机组可控运行参数作为优化参数；

首先，对汽轮机可控变量的典型相关系数进行显著性检验，若某对可控变量的相关程度不显著，说明这对变量不具有代表性，舍弃这对变量；接着，找出相关程度显著且典型相关系数较高的几对可控变量，选取线性组合系数绝对值较大的变量作为候选运行优化参数；然后，运用皮尔森相关性分析对候选运行优化参数进一步缩减，缩减的原则是保留皮尔森相关系数大于0.8的；最后，确定汽轮机运行优化参数为：机组功率，主蒸汽流量、主蒸汽压力及温度、给水泵出水压力、给水温度和凝汽器真空。

步骤三：针对稀疏数据在频繁模式挖掘时具有事务模式差异度大和项分布零散的特点，基于二进制矩阵和超链接技术，构建新型面向稀疏数据的模式增长类关联规则挖掘算法；包括：

S31、设定最小支持度阈值，遍历稀疏事务数据集，记为D，统计各项频数，生成频繁项列表，记为F_List；

S32、遍历F_List，对频繁项标号，生成项头表，记为H-Table，包括项号、支持度计数和链接指针；

S33、筛去D中的非频繁项，转化存储为二进制矩阵，记为PBM，其中为“1”的元素表示在某个事务中含有该元素对应F-List中的某个频繁项，为“0”的元素表示在某个事务中不含有该元素对应F-List中的某个频繁项；

S34、扫描PBM，调整H-Table中的指针，将PBM中每行首个“1”所在位置和频繁项项头表H-Table中对应频繁项链接，提取PBM中首个“1”在相同位置的行，生成多个子PBM，将挖掘全部频繁项集的任务转化为多个挖掘局部频繁项集的子任务；所述子任务包括以下步骤：

S341、扫描子PBM，对每列求和，更新对应子PBM的子项头表H-Table中频繁项的支持度计数；

S342、利用指针将子PBM中和大于最小支持度阈值的列与子H-Table中对应频繁项链接起来，增长为更长的局部频繁项集；

S343、递归执行S341和S342，直到子PBM每列的和小于最小支持度阈值；

S35、聚合局部频繁项集，输出全部频繁项集。

步骤四：针对串行关联规则挖掘算法受单机硬件资源限制无法挖掘大规模数据的问题，在大数据分析处理框架Apache Spark上，提出基于矩阵运算的负载均衡策略，并行化实现全局计算平衡的模式增长类关联规则挖掘算法；包括：

S41、启动Apache Spark，主节点读取稀疏事务数据集D，并将D水平切割成大小相等且连续的P个数据块，分别发送到P个从节点；

S42、每个从节点遍历一次各自的数据块，计算所有项的支持度计数，并发送至主节点；

S43、主节点比较所有项的支持度计数与最小支持度阈值，筛选出频繁项，生成F_List和H-Table，并将F_List和H-Table发送到P个从节点；

S44、每个从节点根据F_List，再次遍历各自的数据块，按步骤S33转化存储为PBM，并统计PBM中首个在相同位置的“1”的行的个数，列号对应H-Table中的项号，形成键值对(项号，行数)，发送到主节点；

S45、主节点将相同项号的行数相加，根据新的负载均衡策略进行分组，生成分组列表，记为G_List，发送到P个从节点，包括：

S451、主节点将行数相加后的键值对(项号，行数)按行数递减顺序进行排序；

S452、主节点根据F_List和H-Table间频繁项与项号一一对应的关系，将排序后的键值对(项号，行数)转化为按此顺序排序的频繁项；

S453、主节点按从两端开始的组合顺序依次组合频繁项，分为P组；

S454、主节点依次扫描P组中的频繁项，生成分组列表G_List；

S46、从节点根据G-List在从节点之间交换PBM中的数据；

S47、数据交换完成后，各从节点根据G-List和步骤S34，挖掘局部频繁项集；

S48、从节点将局部频繁项集发送至主节点进行汇总，得到全部频繁项集，即稀疏事务数据集D的频繁项集(或离散稳态历史运行数据的频繁模式)。

步骤五：采用模糊C均值聚类算法离散化历史运行数据，基于并行化的模式增长类关联规则挖掘算法，挖掘离散化历史运行数据的频繁模式，并反离散化，得出各个边界条件下汽轮机优化参数的目标值；模糊C均值(FCM)聚类算法可有效地分类特性比较复杂的对象，给出相对最优的分类结果，更符合客观实际。因此，运用模糊C均值(FCM)聚类算法分别离散化各个运行优化参数的稳态历史数据，使用字母+数字的形式标记离散化后的数据区间，并用每条数据所在区间的标号替换其数值。

经计算，得到边界条件一定时，各典型负荷下的强关联规则如表1所示：

表1强关联规则

运行参数及性能指标	500MW	600MW	700MW	800MW	900MW	1000MW
机组功率/MW	[494.8,500.5]	[602.5,623.1]	[703.1,715.6]	[798.2,802.1]	[892.4,899.5]	[980.0,933.5]

主蒸汽流量/(t/h)	[1070.4,1271.5]	[1225.6,1514.8]	[1780.5,1805.8]	[1715.6,2052.3]	[2115.2,2331.5]	[2432.8,2552.5]
主蒸汽压力/MPa	[13.54,13.84]	[17.35,18.57]	[19.56,19.80]	[21.49,21.76]	[23.76,24.05]	[24.41,25.34]
主蒸汽温度/℃	[593.6,596.4]	[593.8,596.0]	[595.4,597.9]	[594.6,596.9]	[594.6,595.8]	[593.8,595.7]
给水泵出水压力/MPa	[17.12,17.45]	[20.32,22.34]	[22.98,23.24]	[25.48,26.12]	[28.68,29.08]	[29.62,30.68]
给水温度/℃	[248.7,255.8]	[265.4,272.9]	[275.5,276.7]	[282.9,283.7]	[289.6,291.1]	[296.5,297.4]
凝汽器真空(kPa)	[2.67,3.58]	[3.48,3.75]	[3.87,3.96]	[3.86,4.19]	[2.89,3.67]	[5.3,6.4]
热耗率(kJ/kWh)	[7135.1,7465.8]	[6902.3,7266.8]	[6820.7,7158.2]	[6802.5,7116.1]	[6785.5,7057.8]	[6690.3,6816.8]

以该汽轮机组的挖掘结果为例，此强关联规则的意义是当调节运行参数的值处于表1中所示的区间范围时，就有不低于80％的概率使热耗率达到最佳值。那么，这些运行优化参数的目标值即为表中所示的区间，为使目标值更为直观，本发明选择区间的中心值作为优化目标值，得优化目标值如表2所示：

表2优化目标值

运行参数及性能指标	500MW	600MW	700MW	800MW	900MW	1000MW
机组功率/MW	497.65	612.8	709.35	800.15	895.95	956.75
主蒸汽流量/(t/h)	1170.95	1370.2	1793.15	1883.95	2223.35	2492.65
主蒸汽压力/MPa	13.69	17.96	19.68	21.63	23.91	24.88
主蒸汽温度/℃	595	594.9	596.65	595.75	595.2	594.75
给水泵出水压力/MPa	17.29	21.33	23.11	25.8	28.88	30.15
给水温度/℃	252.25	269.15	276.1	283.3	290.35	296.95
凝汽器真空(kPa)	3.13	3.62	3.92	4.03	3.28	5.85
热耗率(kJ/kW·h)	7300.45	7084.55	6989.45	6959.3	6921.65	6753.55

针对该机组，在不同负荷下，可按照表2中优化目标值对各参数进行调整，使热耗率达到最优值，进而使机组在最佳状况下运行。以该机组1000MW负荷时的关联规则为例，将热耗率的优化值与实际运行平均值进行比较，优化值是6753.55kJ/kW·h，较之实际运行平均值6780.35kJ/kW·h，热耗率减少了26.8kJ/kW·h。由标准煤耗率的计算公式：

b _b＝q×10 ³/(29308η _gdη _g) (1)

其中，b _b为标准煤耗率，g/kW·h；η _gd为管道效率，本发明取值0.98；η _g为锅炉效率，本发明取值0.92。可算得优化值与实际运行平均值的标准煤耗率相差1.01g/kW·h，即当该机组以1000MW左右的负荷运行时，若采用本发明所述的一种基于稀疏大数据的火电机组汽轮机运行优化方法，可每发1kW·h电节省1.01g的煤，节省经济开支的同时，也减少空气污染物的排放，能有效达到节能减排的目的。

关联规则挖掘算法是对离散数据分析处理，但火电机组汽轮机运行数据都是连续的，连续数据离散化后不可避免地会导致模式差异度大且项分布零散；另外，汽轮机是一个多变量高维系统，高维数据离散化后稀疏特性更为明显，本实施例通过运用二进制矩阵和超链接技术设计一种新的模式增长类关联规则挖掘算法，可有效克服Apriori算法和FP-Growth算法挖掘稀疏数据频繁模式时，耗时长、内存占用过高的缺陷；同时，本发明还针对火电机组汽轮机全工况、长周期下，运行数据规模大的特点，基于以内存计算为主的大数据分析处理框架Apache Spark实现所设计的关联规则挖掘算法并行化，避免MapReduce频繁读写磁盘的缺点，减少大量I/O开销；并且，本发明针对二进制矩阵数据存储结构易于矩阵计算的特点，提出一种新的负载均衡策略，较精确地分配集群计算节点的任务，充分发挥集群的性能优势，可高效挖掘汽轮机大规模运行数据以获取热耗率较低时的运行优化目标值。

实施例二：

基于实施例一所述的火电机组汽轮机优化方法，本实施例提供一种火电机组汽轮机优化系统，包括：第一模块，用于以降低汽轮机热耗率为优化目标，采集历史运行数据并数据预处理；第二模块，用于基于典型相关性分析粗选与皮尔森相关性分析精选的方法，从历史运行数据中选取一组与汽轮机热耗率相关性符合设定条件的机组可控运行参数作为优化参数；第三模块，用于构建面向稀疏数据的模式增长类关联规则挖掘算法；第四模块，用于在大数据分析处理框架Apache Spark上，基于矩阵运算的负载均衡策略，并行化实现全局计算平衡的模式增长类关联规则挖掘算法；第五模块，用于采用模糊C均值聚类算法离散化历史运行数据，基于并行化的模式增长类关联规则挖掘算法，挖掘离散化历史运行数据得到关联规则，并反离散化，得出各个边界条件下汽轮机优化参数的目标值。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

一种火电机组汽轮机优化方法，其特征是，包括：

以降低汽轮机热耗率为优化目标，采集历史运行数据并数据预处理；

基于典型相关性分析粗选与皮尔森相关性分析精选的方法，从历史运行数据中选取一组与汽轮机热耗率相关性符合设定条件的机组可控运行参数作为优化参数；

构建面向稀疏数据的模式增长类关联规则挖掘算法；

在大数据分析处理框架Apache Spark上，基于矩阵运算的负载均衡策略，并行化实现全局计算平衡的模式增长类关联规则挖掘算法；

采用模糊C均值聚类算法离散化历史运行数据，基于并行化的模式增长类关联规则挖掘算法，挖掘离散化历史运行数据得到关联规则，并反离散化，得出各个边界条件下汽轮机优化参数的目标值。
根据权利要求1所述的火电机组汽轮机优化方法，其特征是，所述数据预处理，是指剔除历史运行数据中的异常数据和冗余数据并对历史运行数据进行稳态检测。
根据权利要求1所述的火电机组汽轮机优化方法，其特征是，所述稳态检测的判别标准是：在一定时间段内，当汽轮机的运行状态参数波动值小于设定范围时，可以认为机组处于稳定运行工况。
根据权利要求1所述的火电机组汽轮机优化方法，其特征是，所述构建面向稀疏数据的模式增长类关联规则挖掘算法，包括：

S31、设定最小支持度阈值，遍历稀疏事务数据集，记为D，统计各项频数，生成频繁项列表，记为F_List；

S32、遍历F_List，对频繁项标号，生成项头表，记为H-Table，包括项号、支持度计数和链接指针；

S33、筛去D中的非频繁项，转化存储为二进制矩阵，记为PBM，其中为“1”的元素表示在某个事务中含有该元素对应F-List中的某个频繁项，为“0”的元素表示在某个事务中不含有该元素对应F-List中的某个频繁项；

S34、扫描PBM，调整H-Table中的指针，将PBM中每行首个“1”所在位置和频繁项项头表H-Table中对应频繁项链接，提取PBM中首个“1”在相同位置的行，生成多个子PBM，将挖掘全部频繁项集的任务转化为多个挖掘局部频繁项集的子任务；

S35、聚合局部频繁项集，输出全部频繁项集。
根据权利要求4所述的火电机组汽轮机优化方法，其特征是，所述子任务包括以下步骤：

S341、扫描子PBM，对每列求和，更新对应子PBM的子项头表H-Table中频繁项的支持度计数；

S342、利用指针将子PBM中和大于最小支持度阈值的列与子H-Table中对应频繁项链接起来，增长为更长的局部频繁项集；

S343、递归执行S341和S342，直到子PBM每列的和小于最小支持度阈值。
根据权利要求1所述的火电机组汽轮机优化方法，其特征是，所述在大数据分析处理框架Apache Spark上，基于矩阵运算的负载均衡策略，并行化实现全局计算平衡的模式增长类关联规则挖掘算法，包括：

S41、启动Apache Spark，主节点读取稀疏事务数据集D，并将D水平切割成大小相等且连续的P个数据块，分别发送到P个从节点；

S42、每个从节点遍历一次各自的数据块，计算所有项的支持度计数，并发送至主节点；

S43、主节点比较所有项的支持度计数与最小支持度阈值，筛选出频繁项，生成F_List和H-Table，并将F_List和H-Table发送到P个从节点；

S44、每个从节点根据F_List，再次遍历各自的数据块，按步骤S33转化存储为PBM，并统计PBM中首个在相同位置的“1”的行的个数，列号对应H-Table中的项号，形成项号、行数，发送到主节点；

S45、主节点将相同项号的行数相加，根据基于矩阵计算的负载均衡策略进行分组，生成分组列表，记为G_List，发送到P个从节点；

S46、从节点根据G-List在从节点之间交换PBM中的数据；

S47、数据交换完成后，各从节点根据G-List和步骤S34，挖掘局部频繁项集；

S48、从节点将局部频繁项集发送至主节点进行汇总，得到全部频繁项集，即稀疏事务数据集D的频繁项集。
根据权利要求6所述的火电机组汽轮机优化方法，其特征是，所述基于矩阵计算的负载均衡策略，包括：

S451、主节点将行数相加后的项号、行数按行数递减顺序进行排序；

S452、主节点根据F_List和H-Table间频繁项与项号一一对应的关系，将排序后的项号、行数转化为按此顺序排序的频繁项；

S453、主节点按从两端开始的组合顺序依次组合频繁项，分为P组；

S454、主节点依次扫描P组中的频繁项，生成分组列表G_List。
根据权利要求1所述的火电机组汽轮机优化方法，其特征是，所述采用模糊C均值聚类算法离散化历史运行数据，包括：使用字母加数字的形式标记离散化后的数据区间，并用每条数据所在区间的标号替换其数值。
一种火电机组汽轮机优化系统，其特征是，包括：

第一模块，用于以降低汽轮机热耗率为优化目标，采集历史运行数据并数据预处理；

第二模块，用于基于典型相关性分析粗选与皮尔森相关性分析精选的方法，从历史运行数据中选取一组与汽轮机热耗率相关性符合设定条件的机组可控运行参数作为优化参数；

第三模块，用于构建面向稀疏数据的模式增长类关联规则挖掘算法；

第四模块，用于在大数据分析处理框架Apache Spark上，基于矩阵运算的负载均衡策略，并行化实现全局计算平衡的模式增长类关联规则挖掘算法；

第五模块，用于采用模糊C均值聚类算法离散化历史运行数据，基于并行化的模式增长类关联规则挖掘算法，挖掘离散化历史运行数据得到关联规则，并反离散化，得出各个边界条件下汽轮机优化参数的目标值。