CN112232571B

CN112232571B - 一种废气主要污染物浓度的预测方法

Info

Publication number: CN112232571B
Application number: CN202011118067.7A
Authority: CN
Inventors: 蒋鸿伟; 叶效强; 余阳; 暴军; 胡晓辉; 谭成灶
Original assignee: Guangdong Ctsy Environmental Technology Co ltd
Current assignee: Guangdong Ctsy Environmental Technology Co ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2023-08-08
Anticipated expiration: 2040-10-19
Also published as: CN112232571A

Abstract

一种废气主要污染物浓度的预测方法，具体步骤如下：对烟气在线监测数据进行预处理；特征指标构造，包括：构造时间分布特征指标；构造燃烧参数及污染因子特征指标；构造燃烧过程特征指标；构造周期性特征指标；采用相关系数法进行特征指标筛选；进行模型结构数据处理；进行模型训练和自动调参；进行模型预测和结果评测。本发明针对烟气的在线监测数据，结合烟气的燃烧特征，实现准确的预测废气主要污染物浓度的效果。

Description

一种废气主要污染物浓度的预测方法

技术领域

本发明涉及浓度检测技术领域，尤其涉及一种废气主要污染物浓度的预测方法。

背景技术

随着节能减排政策的实施，对固定污染源烟气主要污染物排放的控制越来越高，为了确保实现节能减排目标、更好地满足日益严格的污染物排放控制指标，实现对主要污染排放的控制，排污企业需要更及时、更精准预测烟尘、SO2、NOx等主要污染物，并提前采取措施避免超标排放。

目前，在污染物浓度的预测方法中，主要包括：基于污染物生成机理的模型、统计回归、人工神经网络和支持向量机等预测方法。其中，基于污染物生成机理的预测模型，受给煤量/燃料量、燃料种类、燃烧器类型、炉膛温度、氧含量、传送带转速、一次送风、二次送风、锅炉负荷和运行方式等多种输入参数影响，是一种极复杂的燃烧过程系统。在烟气在线监测实践中，获得这些输入参数数据的成本较大，建立预测模型的难度也较大。而统计回归模型，对样本数据要求较高；支持向量机则更适用于小样本建模；人工神经网络具有能够充分拟合非线性关系、适应和学习严重不确定性、训练速度快等优点，对于复杂的燃烧系统，神经网络预测模型更具有优势，但也因模型参数多，选取困难，易出现过拟合现象。

在人工神经网络预测模型中，按照是否考虑变量时间滞后性的影响可分为静态神经网络、动态神经网络和循环神经网络。其中，静态神经网络不考虑变量时间延迟，即t时刻自变量输入对应t时刻因变量的输出；动态神经网络考虑自变量时间延迟，即x(t-1)…x(t-n)对y(t)产生的影响；循环神经网络考虑因变量时间延迟，即y(t-1)…y(t-m)对y(t)产生的影响。由于燃烧过程是一个复杂的系统，受一系列燃烧参数的影响，并且燃烧过程具有滞后性，不同燃料滞后程度不同。而烟气主要污染物浓度的预测的工程化布署方面，也尚缺乏深入的研究。因此，针对烟气的在线监测数据，迫切需要一种结合烟气的燃烧特征，更准确的预测方法及工程化布署实施方案。

发明内容

本发明的目的在于针对背景技术中的缺陷，提出一种废气主要污染物浓度的预测方法，解决背景技术中问题。

为达此目的，本发明采用以下技术方案：

一种废气主要污染物浓度的预测方法，具体步骤如下：

对烟气在线监测数据进行预处理；

特征指标构造，包括：

构造时间分布特征指标；

构造燃烧参数及污染因子特征指标；

构造燃烧过程特征指标；

构造周期性特征指标；

采用相关系数法进行特征指标筛选；

进行模型结构数据处理；

进行模型训练和自动调参；

进行模型预测和结果评测。

优选的，对烟气在线监测数据进行预处理包括：

步骤A：接入站点监测数据；

步骤B：对站点监测数据中异常数据进行初级识别；

步骤C：对站点监测数据中异常数据进行二级识别，剔除非正常监测时段的异常数据；

步骤D：通过污染因子之间、污染因子与烟气参数之间的逻辑关系，对不符合逻辑关系的异常数据进行三级筛查；

步骤E：判别监测站点的燃烧阶段、燃烧持续类型和燃烧波动类型；

步骤F：判别全局疑似异常数据；

步骤G：通过预测模型判别局部疑似异常数据；

步骤H：对不符合逻辑关系的异常数据、全局疑似异常数据和局部疑似异常数据进行记录并处理。

优选的，特征指标构造的具体步骤如下：

步骤S1：构造时间分布特征指标；

根据排污生产特征，提取时间类的特征指标，分别标记为hour_x、week_x、day_x、month_x、season_x；

其中：

hour_x表示1-24小时的时间特征；

week_x表示1-7天代表的周一至周日的星期特征；

day_x表示1-30天代表的一个月的天特征；

month_x表示1-12月代表的12个月的月特征；

season_x表示1-4季度代表的4个季度的季度特征；

步骤S2：构造燃烧参数及污染因子特征指标；

包括提取烟尘、SO2、NOx、烟温、压力、流速、湿度、含氧量之间存在的线性关系，及利用二次函数、三次函数、自然对数、平方根等函数提取非线性关系；

步骤S3：构造燃烧过程特征指标；

包括对燃烧阶段以及同燃烧时段均值进行特征提取；

步骤S4：构造周期性特征指标；

通过正弦和余弦函数构造sin(hour_x)、sin(week_x)、sin(day_x)、sin(month_x)、sin(season_x)等周期性特征指标，sin()表示正弦函数。

优选的，采用相关系数法进行特征指标筛选包括：

通过Pearson相关系数法进行LSTM模型的特征筛选；

根据相关系数强弱划分标准：Pearson相关系数取绝对值后，0-0.09为没有相关性，0.1-0.3为弱相关，0.3-0.5为中等相关，0.5-1.0为强相关；

只筛选特征指标与待预测变量|相关系数|＞0.5的特征指标参与模型训练。

优选的，进行模型结构数据处理包括：

将参与模型训练的特征指标进行标准化归一到[0，1]；

标准化公式如下：

X_stan＝(X-X_min)/X_max-X_min；

其中：

X表示进入模型参与训练的数据；

X_stan表示进入模型参与训练的数据的标准化；

X_min表示进入模型参与训练的数据的最小值；

X_max表示进入模型参与训练的数据的最大值；

将训练集和测试集按照比例随机拆分；

将训练集和测试集数据转换为LSTM模型的三维框架数据。

优选的，进行模型训练及自动调参，包括：

通过tensorflow的keras构造LSTM模型训练框架；

通过贝叶斯优化自动调整LSTM模型参数。

优选的，进行模型预测及结果评测包括：

对LSTM模型进行预测；

将预测结果进行逆转换，公式如下：

Y_forecast＝Y_{forecast-stan}*(Y_max-Y_min)+Y_min；

其中：

Y_forecast表示待预测的污染物浓度数据；

Y_{forecast-stan}表示标准化待预测的污染物浓度数据；

Y_max表示待预测的污染物浓度数据的最大值；

Y_min表示待预测的污染物浓度数据的最小值；

进行模型评测，包括：

使用如下公式进行评测；

其中，y_i表示污染物浓度i时刻真实值；

表示污染物浓度i时刻预测值；

n表示预测的总条数；

MAE和RMSE表示两种度量方式。

有益效果：

本发明结合烟气的燃烧特征，通过提取污染物浓度的时间特征、周期性特征，以及提取其它污染因子、温度、压力、流速、湿度、含氧量、燃烧阶段等在线监测数据的线性特征、非线性特征等，并利用相关系数法进行特征筛选，然后将数据标准化、三维数据转换，采用动态神经网络和循环神经网络相结合的多步、多变量方式构造模型，并采用贝叶斯优化的方式进行自动调整最优参数，最后将预测结果经过逆标准化转换后输出。

附图说明

图1是本发明的一个实施例的烟气在线监测数据预处理流程图；

图2是本发明的一个实施例的烟气主要污染物浓度预测的建模与线上布署流程图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

本发明的一种废气主要污染物浓度的预测方法，具体步骤如下：

对烟气在线监测数据进行预处理；

特征指标构造，包括：

构造时间分布特征指标；

构造燃烧参数及污染因子特征指标；

构造燃烧过程特征指标；

构造周期性特征指标；

采用相关系数法进行特征指标筛选；

进行模型结构数据处理；

进行模型训练和自动调参；

进行模型预测和结果评测。

优选的，对烟气在线监测数据进行预处理包括：

步骤A：接入站点监测数据；

步骤B：对站点监测数据中异常数据进行初级识别；

步骤F：判别全局疑似异常数据；

步骤G：通过预测模型判别局部疑似异常数据；

具体的：

步骤A：接入站点监测数据；

步骤B：对站点监测数据中异常数据进行初级识别；

包括：结合企业工况、监测仪器运行状态、以及运维状态，对异常数据进行二级识别。将企业工况处于停运、停炉检修、停电等停炉状态，监测仪器处于故障期间、维修期间、超期限未校准时段、失控时段、有计划的维护保养、校准校验等非正常监测时段的数据予以剔除。

包括：通过污染因子之间、污染因子与烟气参数之间的逻辑关系，对不符合逻辑的异常数据进行三级筛查。例如：烟尘折算值偏高(超过均值+2倍标准差)，但是烟尘实测值正常(在均值+2倍标准差范围内)，并且氧气值偏高(超过均值+2倍标准差)，这可能由于气态污染物通道堵塞、漏气、或故障，引起氧气值异常偏高，从而导致烟尘折算值偏高。再如，烟尘折算值、烟尘实测值均偏高(超过均值+2倍标准差)，但是气态污染物SO2、NOX、氧气值均正常(在均值+2倍标准差范围内)，这可能由于烟尘仪镜片被污染、烟尘仪故障、或清理排放口等原因导致烟尘异常偏高。

步骤F：判别全局疑似异常数据；

步骤G：通过预测模型判别局部疑似异常数据；

优选的，在步骤B中，初级识别包括检测站点监测数据的完整性，补全站点监测数据中报文数据缺失的时段、并将补全时段的监测值标记为NULL值；

剔除步骤B中识别的异常数据包括剔除缺失值、不变值、负值、超量程、低于分位数的极小值、超出分位数的极大值的数据，以及剔除显著异常值。

包括对数据完整性进行检查，补全报文缺失的时段、并将补全时段的监测值标记为NULL值；此外，剔除缺失值/NULL值、值不变、负值、超量程、低于0.3％分位数的极小值、以及超出99.7％分位数的极大值等，不符合现场监测情况、不符合逻辑的显著异常值

优选的，在步骤E中，判别监测站点的燃烧阶段、燃烧持续类型和燃烧波动类型的具体步骤如下：

步骤E1：氧气异常值处理，设定氧气监测范围区间，将不属于氧气监测范围区间内的值作为氧气异常值进行处理；

在实际生产中，将烟气的氧含量控制在6％以下有较大的难度，一般烟煤锅炉的氧含量控制在6％～8％作为经济运行指标，考虑到烟道等部位漏风的影响，烟道尾部的氧含量会进一步增加。在停炉期，氧含量会接近空气氧含量的21％左右(在仪器监测95％置信度内，空气含氧量标准值范围约在20％-22％之间)。因此，对于氧气监测值小于6％、或者大于22％的值，可当作氧气异常值处理。

步骤E2：监测站点的燃烧阶段的判别，包括根据燃烧占比来判断监测站点是否处于燃烧阶段；

监测站点的燃烧阶段的判别。一般情况下，停炉期可参考以下几个参数判断：一是烟气负荷只为锅炉满负荷的20％(限安装在引风机前)；二是烟气流速为2m/s以下；三是氧气含量为19％以上；四是烟温在40度以下。在以上几个参数中，负荷易受监测位置的影响，烟气流速易受自然风速的影响，烟温易受天气温度的影响，而氧含量对于燃烧阶段的判断较为准确。在烟气实际监测中，即使在燃烧期，氧气含量偶尔也会出现大于19％的情况。因此，为了更准确识别燃烧阶段，本发明通过使用燃烧占比(氧含量<19％的占比)来判断燃烧阶段。利用30秒一条的实时数据判断t时刻燃烧阶段的逻辑：

优选的，在步骤E2中，根据燃烧占比来判断监测站点是否处于燃烧阶段的具体步骤为：

若(t-1)小时内燃烧占比小于第一阈值，并且(t+1)小时内燃烧占比大于第二阈值，则t时刻燃烧阶段为“启炉”阶段；

若(t-1)小时内燃烧占比大于第二阈值，并且(t+1)小时内燃烧占比小于第一阈值，则t时刻燃烧阶段为“燃尽”阶段；

若t时刻氧含量小于第三阈值，并且t时刻燃烧阶段不属于“启炉”阶段或者t时刻燃烧阶段不属于“燃尽”阶段，则t时刻燃烧阶段为“燃烧”阶段；

若t时刻氧含量大于第三阈值，并且t时刻燃烧阶段不属于“启炉”阶段或者t时刻燃烧阶段不属于“燃尽”阶段，则t时刻燃烧阶段为“停炉”阶段；

其中，第一阈值为10％，第二阈值为20％，第三阈值为19％，10％，20％是自定义阀值，从燃烧阶段的判别效果看，选定10％，20％的阀值，燃烧阶段的界定清晰、判别准确率较高。另外，t-1小时燃烧占比指的是最近一小时的燃烧占比，t+1小时燃烧占比指的是接下来一小时的燃烧占比。

步骤E3：燃烧持续类型的判别，包括：

计算持续燃烧状态，将“启炉”阶段至“燃尽”阶段的时间段划分为持续燃烧状态，并将持续燃烧状态标记为“1”，非持续燃烧状态标记为“0”；

判断持续燃烧的类型，包括：

设定燃烧间断率判定值，检测燃烧间断率，若燃烧间断率大于燃烧间断率判定值，则为间断燃烧类型，否则为持续燃烧类型；

步骤E4：燃烧波动类型的判别，由于烟气不同站点污染因子的浓度均值相差较大，因此，即使两个站点因子相同的标准差、但浓度均值相差较大，波动的相对大小也相差较大。为了更客观、全面刻画站点因子的波动大小，本发明通过统计实时数据最近3个月，处于持续燃烧状态的离群率、变异系数，判断站点因子波动类型。包括：

获取离群率和变异系数；

根据离群率和变异系数判定站点因子波动类型，站点因子波动类型包括平稳型、低波动型、中波动型和高波动型。

优选的，在步骤E3中:

cdr＝count(RT,CCS,(PF<u-2*σorO₂>th))tp/rttp；

其中，cdr表示燃烧间断率；

RT表示近期时间范围，为上文的近期3个月内；

CCS表示持续燃烧状态标记为“1”；

PF表示污染因子；

O₂表示氧含量；

th表示第三阈值；

tp表示时间点数；

rttp表示近期时间范围内的总时间点数；

u指的是近期时间范围内氧含量小于第三阈值的污染因子浓度的均值；

σ指的是近期时间范围内氧含量小于第三阈值的污染因子浓度的标准差；

count表示count函数。

优选的，获取变异系数包括：

CV＝σ/u×100％，其中CV表示变异系数；

获取离群率包括：

Count_odd_rate＝count(RT,CCS,(PF>u+2*σorPF<u-2*σ)tp/rttp；

其中：

Count_odd_rate表示离群率；

RT表示近期时间范围，为上文的近期3个月内；

CCS表示持续燃烧状态标记为“1”；

PF表示污染因子；

tp表示时间点数；

rttp表示近期时间范围内的总时间点数；

count表示count函数；

u指的是近期时间范围内氧含量小于第三阈值的污染因子浓度的均值，σ指的是近期时间范围内氧含量小于第三阈值的污染因子浓度的标准差。

优选的，判断站点因子波动类型。根据行业经验，在进行数据统计分析时，如果变异系数大于15％，则要考虑该数据波动性较大或可能不正常。通过分析比较站点因子，可将站点因子波动类型分为平稳型、低波动型、中波动型、高波动型；

判断站点因子波动类型的步骤包括：

若CV<15％并且Count_odd_rate<5％，则站点因子波动类型为平稳型；

若CV<50％并且5％≤Count_odd_rate<10％，或者15％≤CV<50％并且Count_odd_rate<10％，则站点因子波动类型为低波动型；

若50％≤CV<100％并且Count_odd_rate<20％，或者CV<100％并且10％≤Count_odd_rate<20％，则站点因子波动类型为中波动型；

若CV≥100％或者Count_odd_rate≥20％，则站点因子波动类型为高波动型；

其中，CV表示变异系数，Count_odd_rate表示离群率。

优选的，全局异常数据判别，对于持续燃烧、波动平稳的站点，因波动较小，这里使用2-Sigman异常值检测方法；对于间断燃烧、波动较大的站点，因波动较大，这里使用3-Sigman异常值检测方法。此外，烟气在启炉时，因氧气含量不稳定、脱硫脱硝系统启动滞后，往往会导致污染物折算浓度偏高的现象；烟气在燃尽时，因氧气含量上升、脱硫脱硝系统提前退出，同样会导致污染物折算浓度偏高的现象。因此，启炉、燃尽阶段浓度的偏高属于正常的情况，不应判为异常值。另外，此处的全局异常只针对处于燃烧状态的异常值，处于停炉期的异常状态，前文步骤已经识别。

判别全局疑似异常数据包括：

若污染因子为零值，并且氧含量小于第三阈值以及污染因子燃烧持续类型为持续燃烧型，则该污染因子属于疑似异常数据；

若污染因子燃烧持续类型为持续燃烧型、污染因子波动类型为平稳型或者低波动型、污染因子的值小于(u+2*σ)或者大于(u-2*σ)、污染因子燃烧阶段为“启炉”阶段或者“燃尽”阶段、污染因子持续燃烧状态标记为“1”，则该污染因子属于疑似异常数据；

若污染因子不属于以下范围：

污染因子燃烧持续类型为持续燃烧型、污染因子波动类型为平稳型或者低波动型、污染因子的值大于(u+3*σ)或者大于(u-3*σ)、污染因子燃烧阶段为“启炉”阶段或者“燃尽”阶段、污染因子持续燃烧状态标记为“1”；

则该污染因子属于疑似异常数据。

优选的，通过SVR预测模型判别局部疑似异常。通过SVR模型预测未来一步时，在95％的置信度下，预测置信区间为：一步预测值±1.96*拟合数据与训练数据间的残差的标准差。根据实测值是否超出预测的置信区间，可以判断烟气监测数据是否异常，实测值超过区间范围的数据属于疑似异常，进入后续的人工现场核实。

通过预测模型判别局部疑似异常数据包括：

步骤G1：建立最优SVR回归模型，其表达式为：

支持向量机回归通过引入核函数而避开了非线性映射的显示表达式,它具有较好的鲁棒性。在实际应用中，核函数的选取本身一种调参的过程，它可以与其它参数一起，通过网格搜索、随机搜索、贝叶斯优化等方式自动调整最优参数。

步骤G2：通过SVR模型对未来数据进行预测，在95％的置信度下，一步预测的置信区间为：其中：/>为时刻预测值，σ_t为拟合数据与训练数据之间的残差的标准差；

步骤G3：根据实测值是否超出预测的置信区间，判断烟气监测数据是否异常。如果实测值超出置信区间则判别为局部疑似异常值。

步骤H：现场运维人员对不符合逻辑数据、全局疑似异常数据、局部疑似异常数据，根据现场实际监测情况进行核实标记。

优选的，特征指标构造的具体步骤如下：

步骤S1：构造时间分布特征指标；

在一天中，排污企业主要生产排放时间往往分布在8:00-18:00，而晚上时间往往排放较小，具有昼夜交替的特点；一周之中，周一至周五工作日往往是生产排放时间，而周六日排放较小；一个月中，月底通常是赶工生产排放高峰期；月份、季度中，年底通常是生产旺季，而年初通常是淡季。因此，根据排污企业生产特征，可提取时间类的特征指标。1-24小时的时间特征，记为hour_x(小时)；1-7的代表周一至周日的星期特征，记为week_x(星期)；1-30的代表一个月的天特征，记为day_x(天)；1-12的代表12个月的月特征，记为month_x(月)；1-4的代表4个季度的季度特征，记为season_x(季)

其中：

hour_x表示1-24小时的时间特征；

week_x表示1-7天代表的周一至周日的星期特征；

day_x表示1-30天代表的一个月的天特征；

month_x表示1-12月代表的12个月的月特征；

season_x表示1-4季度代表的4个季度的季度特征；

步骤S2：构造燃烧参数及污染因子特征指标；

步骤S3：构造燃烧过程特征指标；

包括对燃烧阶段以及同燃烧时段均值进行特征提取；

企业锅炉燃烧通常会经历启炉、燃烧、燃尽、停炉的过程，其中，烟气在启炉时，因氧气含量不稳定、脱硫脱硝系统启动滞后，往往会导致污染物折算浓度升高的现象；而烟气在燃尽时，因氧气含量上升、脱硫脱硝系统提前退出，同样会导致污染物折算浓度升高的现象。此外，同一个排污企业的污染因子，历史上启炉后的波动走势通常具有相似的特征，即同燃烧时段(自启炉后已燃烧的时长相同的时段)的污染浓度彼此接近。为了刻画燃烧过程对排放污染浓度的影响，本发明对燃烧阶段、以及同燃烧时段均值进行特征提取。

步骤S4：构造周期性特征指标；

考虑到污染物排放的小时、天、周、月、季的排放周期性变化特征，通过正弦和余弦函数构造sin(hour_x)、sin(week_x)、sin(day_x)、sin(month_x)、sin(season_x)等周期性特征指标，sin()表示正弦函数；

优选的，在LSTM模型训练中，特征指标比较多，其中可能存在不相关的特征，特征之间也可能存在相互依赖。特征指标过多，一方面会导致训练模型所需的时间比较长，另一方面容易引起“维度灾难”，模型过度复杂，推广能力、预测准确率下降。

特征选择能剔除不相关、亢余的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。Pearson相关系数法，衡量每个特征与待预测变量之间的关系，单变量特征选择能够对每一个特征进行测试，衡量该特征和待预测变量之间的关系，根据相关系数大小筛选特征，扔掉不相关或相关性较弱的特征。在特征选择方法中，Pearson相关系数法，具有简单、易于运行、易于理解的特点，通常在特征筛选上有较好的效果；

采用相关系数法进行特征指标筛选包括：

通过Pearson相关系数法进行LSTM模型的特征筛选；

只筛选特征指标与待预测变量|相关系数|>0.5的特征指标参与模型训练。

优选的，进行模型结构数据处理包括：

将参与模型训练的特征指标进行标准化归一到[0,1]；

标准化可以避免因输入变量的数量级不一致带来一些不必要的数值问题；

标准化公式如下：

X标准化＝(X-X最小值)/(X最大值-X最小值)；

将训练集和测试集按照3:1的比例随机拆分；

将训练集和测试集数据转换为LSTM模型的三维框架数据。

优选的，进行模型训练及自动调参，包括：

通过tensorflow的keras构造LSTM模型训练框架；

通过烟气在线监测的数据的自相关分析，污染因子与最近3天排放浓度具有较高的相关性，因此，本发明构造的多步、多变量模型的时长步长，选取最近3天为时间步长参与模型训练；

通过贝叶斯优化自动调整LSTM模型参数；

超参数的选择对模型预测的效果有极大的影响。如果模型过于复杂、迭代次数太多、层数太多等可能导致过拟合的现象，甚至出现梯度消失无法训练；如果模型过于简单、迭代次数太少、层数太少等可能导致欠拟合的现象，同样会导致预测准确率不高的问题。而人工调整参数，往往会面临调参过程漫长，以及经历长时间调参仍然难以调整出最优的参数；并且在面对成百上千个烟气在线监测站点因子时，通过人工调参每个站点因子的LSTM模型也不太现实。

因此，本发明对烟气在线监测数据的污染预测，采取了自动调参的方式。

优选的，进行模型预测及结果评测包括：

对LSTM模型进行预测；

将预测结果进行逆转换，公式如下：

Y预测数据＝Y标准化预测数据*(Y最大值-Y最小值)+Y最小值；

进行模型评测，包括：

使用如下公式进行评测；

其中，y_i表示污染物浓度i时刻真实值；

表示污染物浓度i时刻预测值；

n表示预测的总条数；

MAE和RMSE表示两种度量方式。

以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理，而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些方式都将落入本发明的保护范围之内。

Claims

1.一种废气主要污染物浓度的预测方法，其特征在于：具体步骤如下：

对烟气在线监测数据进行预处理；

特征指标构造，包括：

构造时间分布特征指标；

构造燃烧参数及污染因子特征指标；

构造燃烧过程特征指标；

构造周期性特征指标；

采用相关系数法进行特征指标筛选；

进行模型结构数据处理；

进行模型训练和自动调参；

进行模型预测和结果评测；

对烟气在线监测数据进行预处理包括：

步骤A：接入站点监测数据；

步骤B：对站点监测数据中异常数据进行初级识别；

步骤D：通过污染因子之间或污染因子与烟气参数之间的逻辑关系，对不符合逻辑关系的异常数据进行三级筛查；

包括：

步骤E2：监测站点的燃烧阶段的判别，包括根据燃烧占比来判断监测站点是否处于燃烧阶段，包括：

步骤E3：燃烧持续类型的判别，包括：

判断持续燃烧的类型，包括：

步骤E4：燃烧波动类型的判别，包括统计实时3个月内处于持续燃烧状态的离群率、变异系数的数据，来判断站点因子波动类型，站点因子波动类型包括平稳型、低波动型、中波动型和高波动型；

cdr＝count(RT,CCS,(PF<u-2*σorO₂>th))tp/rttp；

其中，cdr表示燃烧间断率；

RT表示近期时间范围，为3个月内；

CCS表示持续燃烧状态标记为“1”；

PF表示污染因子；

O₂表示氧含量；

th表示第三阈值；

tp表示时间点数；

rttp表示近期时间范围内的总时间点数；

count表示count函数；

获取变异系数包括：

CV＝σ/u×100％，其中CV表示变异系数；

获取离群率包括：

Count_odd_rate＝count(RT,CCS,(PF>u+2*σorPF<u-2*σ)tp/rttp)；

其中：

Count_odd_rate表示离群率；

判断站点因子波动类型包括：

其中，CV表示变异系数，Count_odd_rate表示离群率；

步骤F：判别全局疑似异常数据；

步骤G：通过预测模型判别局部疑似异常数据；

2.根据权利要求1所述一种废气主要污染物浓度的预测方法，其特征在于：

特征指标构造的具体步骤如下：

步骤S1：构造时间分布特征指标；

根据排污生产特征，提取时间类的特征指标，分别标记为hour_x、week_x、day_x、month_x和season_x；

其中：

hour_x表示1-24小时的时间特征；

week_x表示1-7天代表的周一至周日的星期特征；

day_x表示1-30天代表的一个月的天特征；

month_x表示1-12月代表的12个月的月特征；

season_x表示1-4季度代表的4个季度的季度特征；

步骤S2：构造燃烧参数及污染因子特征指标；

包括提取烟尘、SO2、NOx、烟温、压力、流速、湿度和含氧量之间存在的线性关系，及利用二次函数、三次函数、自然对数和平方根函数提取非线性关系；

步骤S3：构造燃烧过程特征指标；

包括对燃烧阶段以及同燃烧时段均值进行特征提取；

步骤S4：构造周期性特征指标；

通过正弦和余弦函数构造sin(hour_x)、sin(week_x)、sin(day_x)、sin(month_x)和sin(season_x)周期性特征指标，sin()表示正弦函数。

3.根据权利要求1所述一种废气主要污染物浓度的预测方法，其特征在于：

采用相关系数法进行特征指标筛选包括：

通过Pearson相关系数法进行LSTM模型的特征筛选；

4.根据权利要求3所述一种废气主要污染物浓度的预测方法，其特征在于：

进行模型结构数据处理包括：

将参与模型训练的特征指标进行标准化归一到[0,1]；

标准化公式如下：

X_stan＝(X-X_min)/X_max-X_min；

其中：

X表示进入模型参与训练的数据；

X_stan表示进入模型参与训练的数据的标准化；

X_min表示进入模型参与训练的数据的最小值；

X_max表示进入模型参与训练的数据的最大值；

将训练集和测试集按照比例随机拆分；

将训练集和测试集数据转换为LSTM模型的三维框架数据。

5.根据权利要求1所述一种废气主要污染物浓度的预测方法，其特征在于：

进行模型训练及自动调参，包括：

通过tensorflow的keras构造LSTM模型训练框架；

通过贝叶斯优化自动调整LSTM模型参数。

6.根据权利要求1所述一种废气主要污染物浓度的预测方法，其特征在于：

进行模型预测及结果评测包括：

对LSTM模型进行预测；

将预测结果进行逆转换，公式如下：

Y_forecast＝Y_{forecast-stan}*(Y_max-Y_min)+Y_min；

其中：

Y_forecast表示待预测的污染物浓度数据；

Y_{forecast-stan}表示标准化待预测的污染物浓度数据；

Y_max表示待预测的污染物浓度数据的最大值；

Y_min表示待预测的污染物浓度数据的最小值；

进行模型评测，包括：

使用如下公式进行评测；

其中，y_i表示污染物浓度i时刻真实值；

表示污染物浓度i时刻预测值；

n表示预测的总条数；

MAE和RMSE表示两种度量方式。