CN115456245A - 一种感潮河网区溶解氧预测方法 - Google Patents
一种感潮河网区溶解氧预测方法 Download PDFInfo
- Publication number
- CN115456245A CN115456245A CN202210967488.XA CN202210967488A CN115456245A CN 115456245 A CN115456245 A CN 115456245A CN 202210967488 A CN202210967488 A CN 202210967488A CN 115456245 A CN115456245 A CN 115456245A
- Authority
- CN
- China
- Prior art keywords
- dissolved oxygen
- time
- value
- information
- long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 title claims abstract description 114
- 229910052760 oxygen Inorganic materials 0.000 title claims abstract description 114
- 239000001301 oxygen Substances 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000015654 memory Effects 0.000 claims abstract description 66
- 238000012216 screening Methods 0.000 claims abstract description 13
- 230000006403 short-term memory Effects 0.000 claims abstract description 13
- 230000007787 long-term memory Effects 0.000 claims abstract description 11
- 238000002790 cross-validation Methods 0.000 claims abstract description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 63
- 238000012549 training Methods 0.000 claims description 42
- 210000004027 cell Anatomy 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 23
- 238000010606 normalization Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 15
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 claims description 12
- 230000007613 environmental effect Effects 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 9
- XKMRRTOUMJRJIA-UHFFFAOYSA-N ammonia nh3 Chemical compound N.N XKMRRTOUMJRJIA-UHFFFAOYSA-N 0.000 claims description 8
- 238000005096 rolling process Methods 0.000 claims description 8
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 7
- 229910052698 phosphorus Inorganic materials 0.000 claims description 7
- 239000011574 phosphorus Substances 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 6
- 229910052757 nitrogen Inorganic materials 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 238000013277 forecasting method Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- -1 permanganate index Substances 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 10
- 238000010801 machine learning Methods 0.000 abstract description 3
- 230000000737 periodic effect Effects 0.000 abstract description 2
- 206010021143 Hypoxia Diseases 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000003911 water pollution Methods 0.000 description 2
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007954 hypoxia Effects 0.000 description 1
- 230000001146 hypoxic effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 235000015097 nutrients Nutrition 0.000 description 1
- 238000005293 physical law Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Biomedical Technology (AREA)
- Mining & Mineral Resources (AREA)
- Animal Husbandry (AREA)
- Agronomy & Crop Science (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Primary Health Care (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Marine Sciences & Fisheries (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种感潮河网区溶解氧预测方法,包括以下步骤:S1、数据采集;S2、数据筛选:S2‑1、互信息定义;S2‑2、值域划分;S2‑3、求取最大值;S2‑4、关联性分析;S3、长短时记忆网络模型建立:S3‑1、框架构建;S3‑2、初始化;S3‑3、前向传播计算;S3‑4、更新权重;S3‑5、均方根误差评估;S4、k折交叉验证;S5、计算及预测。本发明充分考虑了感潮河网区受潮汐影响、溶解氧呈现周期性变化的特点,选取时间滞后的溶解氧数据作为输入变量,并通过最大互信息系数方法识别出影响溶解氧变化的关键因素作为输入变量,使用深度机器学习模型建立长短时记忆网络有效解决了传统循环网络中的梯度消失的问题。
Description
技术领域
本发明涉及水质预测技术领域,具体是涉及一种感潮河网区溶解氧预测方法。
背景技术
溶解氧是水环境的一个关键度量指标,通常被用于评估水生生态系统的健康状况,水体缺氧会极大地影响水生生物的代谢、遗传和繁殖。感潮河网区受到径流与潮汐双重影响,动力条件复杂,温度、盐度、水体层化等因素均会影响水体复氧,导致感潮河网区时常出现低氧现象(溶解氧浓度≤3mg/L)。预测感潮河网区溶解氧浓度变化有利于对水环境突发的低氧事件进行预警预报和风险优化控制,提升对感潮河网区的水质风险防控和决策支持能力。
溶解氧预测模型主要分为过程驱动模型和数据驱动模型。过程驱动模型基于物理定律,能够捕捉到水体动力学和营养组分循环的非线性相互作用以及水体中的化学和生物过程,充分模拟水污染过程的机理,但建模过程对环境数据的需求量和依赖性很大,求解过程复杂,需要大量的计算成本,当数据缺失或环境发生变化就难以模拟水污染过程。数据驱动模型有别于过程驱动模型,不依赖于物理机制,能捕捉到目标变量与解释变量之间复杂的非线性关系并通过动态自适应地修正模型元素(如结构、算法和参数),可用于非线性和高度随机的预测,已广泛地应用于水文水环境领域的相关研究。经典的数据驱动模型时间序列预测模型要求数据具有一定的平稳性和线性相关性,不能处理非线性问题;支持向量机(SVM)、Boosting算法、最大熵方法(MaxEnt)等都属于浅层机器学习的范畴,体系结构中通常最多包含一到两层非线性特征转换,在解决许多简单或约束良好的问题时表现出有效性,但它们有限的建模和表达能力在处理更复杂的现实问题时会造成困难。
长短时记忆网络(Long Short-Term Memory Network,LSTM),是深度学习机器模型的其中一种,通过在循环神经网络的基础上引入了输入门、遗忘门和输出门来实现信息的自动化保留与舍弃,能够在预测过程中实现过去、现在和将来信息之间的有效关联,并解决了传统循环网络中的梯度消失的问题,相较于传统的浅层学习网络具有更好的预测性能。在实际预测中,过量的输入变量会增加模型计算的复杂性和降低模型性能,此时识别并筛选出驱动溶解氧变化的重要因素作为预测模型的输入变量对于预测溶解氧具有重要意义,最大互信息系数(Maximal Information Coefficient,MIC)可以有效地捕获变量之间的线性与非线性关系,被广泛用于各种研究领域内的输入变量的筛选。感潮河网区的溶解氧变化具有很强的日周期性,每天相同时刻溶解氧变化有着相似的变化趋势,但是,目前还没有很好地将长短时记忆网络结合溶解氧变化的日周期性对溶解氧做出更加精确预测的方法。
发明内容
针对上述存在的问题,本发明提供了一种感潮河网区溶解氧预测方法。
本发明的技术方案是:
一种感潮河网区溶解氧预测方法,包括以下步骤:
S1、数据采集:在需要进行溶解氧预测的感潮河网区建立水质自动站,通过水质自动站采集水质时间序列数据,并对采集到的水质时间序列数据进行预处理,水质时间序列数据包括溶解氧和其他环境变量;
S2、数据筛选:计算步骤S1得到的水质时间序列数据中溶解氧和其他环境变量的最大互信息系数,筛选出与溶解氧相关性较大的其他环境变量,作为长短时记忆网络的输入变量;
S2-1、互信息定义:互信息是衡量其他环境变量与溶解氧之间相关程度的指标,给定变量A={xi,i=1,2,...,n}和B={yi,i=1,2,...,n},其中,n为样本数量,A和B的互信息I(A;B)定义公式为:
式中,p(x,y)为A和B的联合概率密度,p(x)为A的边缘概率密度,p(y)为B的边缘概率密度;
S2-2、值域划分:假设D={(ai,b),i=1,2,...,n}为一个有限集合,同时,将变量A和变量B的值域分别划分为x段和y段,得到x×y的网格G,再在得到的每一种网格划分的内部计算互信息MI(A,B),得到互信息MI(A,B)的最大值G,则定义最大值G条件下有限集合D的最大归一化值公式为:
MI*(D,x,y)=maxMI(D│G)
式中,D|G为有限集合D在使用网格G进行划分,MI*(D,x,y)为最大归一化值;
S2-3、求取最大值:对每一种网格划分下得到的最大归一化值组成的特征矩阵求取最大值,即得最大信息系数的公式为:
式中,MIC(D)为最大信息系数;
S2-4、关联性分析:将溶解氧作为变量A,其他环境变量作为变量B,计算溶解氧与其他环境变量的最大信息系数MIC(D)的值,得到的最大信息系数MIC(D)的值在[0,1]区间内,最大信息系数MIC(D)的值越大,则溶解氧与其他环境变量的关联性越大,最大信息系数MIC(D)的值越小,则溶解氧与其他环境变量的关联性越小,选择与溶解氧关联性较大的其他环境变量作为预测模型的输入变量;
S3、长短时记忆网络模型建立:
S3-1、框架构建:所述长短时记忆网络模型包含1个输入层、1个输出层及多个隐藏层,每个隐藏层由多个记忆单元组成,所述记忆单元通过引入门控机制来控制历史信息的更新和利用,所述门控机制包括输入门it、遗忘门itft和输出门ot,输入门it、遗忘门ft和输出门ot的取值均在[0,1]区间内表示以一定的比例让信息通过,对细胞状态定期重置避免细胞状态不短累加,细胞状态包括候选状态内部状态Ct和外部状态ht,输入门it控制当前时刻的候选状态有多少信息需要保存,遗忘门ft控制上一个时刻的内部状态Ct需要遗忘多少信息,输出门ot控制当前时刻的内部状态Ct有多少信息需要输出给外部状态ht,同时激活函数sigmoid(σ)和双曲正切函数层tanh,如下式所示:
S3-2、初始化:将记忆单元的矩阵和向量进行初始化,用于保存模型参数和保存中间计算结果,保存输入层和输出层神经元个数、隐含层细胞个数、网络状态;
S3-3、前向传播计算:长短时记忆网络模型会决定从细胞状态中舍弃的信息,这个步骤由遗忘门完成,首先,针对当前时刻的输入信息xt和上一时刻的隐藏层外部状态ht-1的输出信息通过sigmoid(σ)函数层处理得到一个0到1之间的输出,作为上一时刻内部状态Ct-1的过滤值,即得遗忘门ft的公式为:
ft=σ(Wxfxt+Whfht―1+bf)
式中,W为权重矩阵,W的下标代表具体两个单元之间的连接权重,b代表偏置项;
其次,长短时记忆网络模型判定存储到细胞状态中的信息,首先将当前时刻的输入信息xt和上一时刻的隐藏层外部状态ht-1的输出信息经过sigmoid函数层计算得到输入门it取值,如下式所示:
it=σ(Wxixt+Whiht―1+bi)
最后,长短时记忆网络模型决定细胞的输出信息,将当前时刻的输入信息xt和上一时刻的隐藏层外部状态ht-1的输出信息经过sigmoid(σ)函数层计算输出门ot,如下式所示:
ot=σ(Wxoxt+Whoht―1+bo)
然后将当前细胞的内部状态Ct通过tanh函数压缩至[-1,1]的区间,最后将压缩后的细胞的内部状态Ct与输出门ot相乘得到当前时刻的隐藏层外部状态ht输出信息,如下式所示:
ht=ottanh(Ct)
记忆单元还会与长短时记忆网络模型中其他部分相连,当前时刻的隐藏层外部状态ht的输出信息一方面作为隐藏层外部状态ht的输入信息被传递到下个时刻,另一方面作为隐藏层外部状态ht的输出信息被传递到下一层长短时记忆网络,当下一层长短时记忆网络为全连接层时,会对隐藏层结果做一个变换得到最终输出信息,从而得到时间序列的预测值如下式所示:
式中,Vout为全连接层的权重矩阵,b代表偏置项;
S3-4、更新权重:求解长短时记忆网络的每一个权重的梯度,通过使用训练数据进行随机梯度下降找到最优解,由输出层往输入层的权重开始求梯度,依次更新各个权重,重置内部状态,设计误差函数,计算并检查梯度;
S3-5、均方根误差评估:通过长短时记忆网络模型对与溶解氧相关的其他环境变量的时序数据进行训练,将归一化及经过MIC筛选的其他环境变量的时序数据作为训练数据集对长短时记忆网络模型进行训练,为了缓解在多变量预测模型神经网络的训练过程中出现的过拟合问题,在隐藏层的训练机制中加入Dropout机制,训练完成后计算均方根误差来评估长短时记忆网络模型的预测结果,均方根误差如下式所示:
S4、k折交叉验证:将步骤S2-4中得到的输入变量作为原始数据集分成k等份,每次选取k-1份作为训练集,剩下1份作为测试集,使用不同的超参数组合来训练k-1份和测试其余的1个部分,并计算测试集的RMSE值,重复上述步骤S3-2~S3-5中长短时记忆网络模型训练和测试的步骤,直到k份原始数据集中每个超参数组合都被测试完毕,并计算每个最终输出信息的RMSE平均值,RMSE平均值最小的参数组合为最优组合,如下式所示:
S5、计算及预测:使用感潮河网区水质自动站的实时数据经预处理后输入到建立好的长短时记忆网络模型中,通过长短时记忆网络模型输出的结果通过放缩得到溶解氧的预测值,采用滚动预报的方法,绘制出溶解氧的走势图。
进一步地,步骤S1中水质时间序列数据的其他环境变量包括pH、水温、电导率、浊度、水位、流量、氨氮、总磷、高锰酸盐指数、化学需氧量、总氮以及DO25h,所述DO25h为修正后的溶解氧时间序列数据,DO25h修正方法为:一个潮汐周期的时长为24h50min,增加滞后时间至25h,此时得到的修正后的溶解氧时间序列数据即为DO25h。
进一步地,所述步骤S1中预处理的方法为:对采集到的水质时间序列数据进行缺失值插补以及归一化处理;
S1-1、缺失值插补:当水质时间序列数据出现缺失时使用相邻两个时刻数据的平均值插补;
S1-2、归一化处理:归一化处理的公式为:
式中,x’为归一化处理后的水质时间序列数据,x为归一化处理前的水质时间序列数据,xmin为水质时间序列数据中的最小值,xmax为水质时间序列数据中的最大值。
进一步地,所述步骤S2-4中最大信息系数MIC(D)的值大于0.8时认为其他环境变量与溶解氧关联性较大。通常溶解氧与DO25的MIC(D)值较大,约为0.7-0.8左右,关联性的计算由python模块sklearn.metrics.cluster中的normalized_mutual_info_score完成。
进一步地,所述步骤S3-2中模型参数包括权重矩阵W和偏置项b,中间计算结果包括外部状态ht的输出信息、输入门ft、遗忘门it、输出门ot。
进一步地,所述步骤S3-5中Dropout机制为:在其他环境变量的时序数据进行训练的过程中随机丢失神经单元及其连接。
进一步地,所述步骤S3-1中搭建长短时记忆网络模型是基于TensorFlow深度学习框架搭建。
进一步地,所述步骤S5中滚动预报的方法具体为:依据已有溶解氧的预测值的采样间隔,设置合理的预测时间步长,假设预测的时间为n日,长短时记忆网络模型会根据测试集中的t日溶解氧数据及S2所述方法筛选出的重要参数,对t+n日的溶解氧数据进行计算并输出得到溶解氧真实值,然后在t+2n日,运用t+n日的溶解氧真实值以及S2所述方法筛选出其他环境变量,采用滚动预报的方法及时更新序列信息,避免误差积累。
本发明的有益效果是:
本发明的感潮河网区溶解氧预测方法提供了针对感潮河网区溶解氧预测的解决方案,充分考虑了感潮河网区受潮汐影响、溶解氧呈现周期性变化的特点,选取时间滞后的溶解氧数据作为输入变量,并通过最大互信息系数(Maximal Information Coefficient,MIC)方法识别出影响溶解氧变化的关键因素作为输入变量,使用深度机器学习模型建立长短时记忆网络(Long Short-Term Memory Network,LSTM)有效解决了传统循环网络中的梯度消失的问题,并使用K折交叉验证网格搜索的方法选择模型最优超参数组合,提升了感潮河网区溶解氧预测的精度。
附图说明
图1是本发明的感潮河网区溶解氧预测方法流程图;
图2是本发明的感潮河网区溶解氧预测方法实验例中步骤S3的示意图;
图3是本发明的感潮河网区溶解氧预测方法实验例1中长短时记忆网络模型的测试及训练结果示意图;
图4是本发明的感潮河网区溶解氧预测方法实验例2中长短时记忆网络模型的测试及训练结果示意图;
图5是本发明的感潮河网区溶解氧预测方法实验例3中长短时记忆网络模型的测试及训练结果示意图。
具体实施方式
实施例1
一种感潮河网区溶解氧预测方法,如图1所示,包括以下步骤:
S1、数据采集:在需要进行溶解氧预测的感潮河网区建立水质自动站,通过水质自动站采集水质时间序列数据,并对采集到的水质时间序列数据进行预处理,水质时间序列数据包括溶解氧和其他环境变量,水质时间序列数据的其他环境变量包括pH、水温、电导率、浊度、水位、流量、氨氮、总磷、高锰酸盐指数、化学需氧量、总氮以及DO25h,所述DO25h为修正后的溶解氧时间序列数据,DO25h修正方法为:一个潮汐周期的时长为24h50min,增加滞后时间至25h,此时得到的修正后的溶解氧时间序列数据即为DO25h;
预处理的方法为:对采集到的水质时间序列数据进行缺失值插补以及归一化处理;
S1-1、缺失值插补:当水质时间序列数据出现缺失时使用相邻两个时刻数据的平均值插补;
对数据的异常值(在数据二次表格中用L或者多个000标识)和缺省值进行识别,标记为nan。当水质时间序列数据出现缺失时使用相邻两个时刻数据的平均值插补;
并对采样频率的统一化,在水质自动站的数据记录中,会出现非整点或者整天记录的情况,对此类情况进行甄别,依照各个站点的实际情况,统一到整天或者整小时;
缺失值插补:依照统一化的各站点数据采样频率,在对应时间点无有效数据的情况下,利用最近的有效数据进行填补,如果缺失数据大于12个时间步长,则运用线性插值进行插补。
S1-2、归一化处理:归一化处理的公式为:
式中,x’为归一化处理后的水质时间序列数据,x为归一化处理前的水质时间序列数据,xmin为水质时间序列数据中的最小值,xmax为水质时间序列数据中的最大值;
S2、数据筛选:计算步骤S1得到的水质时间序列数据中溶解氧和其他环境变量的最大互信息系数,筛选出与溶解氧相关性较大的其他环境变量,作为长短时记忆网络的输入变量;
S2-1、互信息定义:互信息是衡量其他环境变量与溶解氧之间相关程度的指标,给定变量A={xi,i=1,2,...,n}和B={yi,i=1,2,...,n},其中,n为样本数量,A和B的互信息I(A;B)定义公式为:
式中,p(x,y)为A和B的联合概率密度,p(x)为A的边缘概率密度,p(y)为B的边缘概率密度;
S2-2、值域划分:假设D={(ai,b),i=1,2,...,n}为一个有限集合,同时,将变量A和变量B的值域分别划分为x段和y段,得到x×y的网格G,再在得到的每一种网格划分的内部计算互信息MI(A,B),得到互信息MI(A,B)的最大值G,则定义最大值G条件下有限集合D的最大归一化值公式为:
MI*(D,x,y)=maxMI(D│G)
式中,D|G为有限集合D在使用网格G进行划分,MI*(D,x,y)为最大归一化值;
S2-3、求取最大值:对每一种网格划分下得到的最大归一化值组成的特征矩阵求取最大值,即得最大信息系数的公式为:
式中,MIC(D)为最大信息系数;
S2-4、关联性分析:将溶解氧作为变量A,其他环境变量作为变量B,计算溶解氧与其他环境变量的最大信息系数MIC(D)的值,得到的最大信息系数MIC(D)的值在[0,1]区间内,最大信息系数MIC(D)的值越大,则溶解氧与其他环境变量的关联性越大,最大信息系数MIC(D)的值越小,则溶解氧与其他环境变量的关联性越小,选择与溶解氧关联性较大的其他环境变量作为预测模型的输入变量,最大信息系数MIC(D)的值大于0.8时认为其他环境变量与溶解氧关联性较大;
S3、长短时记忆网络模型建立:
S3-1、框架构建:基于TensorFlow深度学习框架搭建长短时记忆网络模型,所述长短时记忆网络模型包含1个输入层、1个输出层及3个隐藏层,每个隐藏层由20个记忆单元组成,所述记忆单元通过引入门控机制来控制历史信息的更新和利用,所述门控机制包括输入门it、遗忘门itft和输出门ot,输入门it、遗忘门ft和输出门ot的取值均在[0,1]区间内表示以一定的比例让信息通过,对细胞状态定期重置避免细胞状态不短累加,细胞状态包括候选状态内部状态Ct和外部状态ht,输入门it控制当前时刻的候选状态有多少信息需要保存,遗忘门ft控制上一个时刻的内部状态Ct需要遗忘多少信息,输出门ot控制当前时刻的内部状态Ct有多少信息需要输出给外部状态ht,同时激活函数sigmoid(σ)和双曲正切函数层tanh,如下式所示:
S3-2、初始化:将记忆单元的矩阵和向量进行初始化,用于保存模型参数和保存中间计算结果,模型参数包括权重矩阵W和偏置项b,中间计算结果包括外部状态ht的输出信息、输入门ft、遗忘门it、输出门ot,保存输入层和输出层神经元个数、隐含层细胞个数、网络状态;
S3-3、前向传播计算:长短时记忆网络模型会决定从细胞状态中舍弃的信息,这个步骤由遗忘门完成,首先,针对当前时刻的输入信息xt和上一时刻的隐藏层外部状态ht-1的输出信息通过sigmoid(σ)函数层处理得到一个0到1之间的输出,作为上一时刻内部状态Ct-1的过滤值,即得遗忘门ft的公式为:
ft=σ(Wxfxt+Whfht―1+bf)
式中,W为权重矩阵,W的下标代表具体两个单元之间的连接权重,b代表偏置项;
其次,长短时记忆网络模型判定存储到细胞状态中的信息,首先将当前时刻的输入信息xt和上一时刻的隐藏层外部状态ht-1的输出信息经过sigmoid函数层计算得到输入门it取值,如下式所示:
it=σ(Wxixt+Whiht―1+bi)
最后,长短时记忆网络模型决定细胞的输出信息,将当前时刻的输入信息xt和上一时刻的隐藏层外部状态ht-1的输出信息经过sigmoid(σ)函数层计算输出门ot,如下式所示:
ot=σ(Wxoxt+Whoht―1+bo)
然后将当前细胞的内部状态Ct通过tanh函数压缩至[-1,1]的区间,最后将压缩后的细胞的内部状态Ct与输出门ot相乘得到当前时刻的隐藏层外部状态ht输出信息,如下式所示:
ht=ottanh(Ct)
记忆单元还会与长短时记忆网络模型中其他部分相连,当前时刻的隐藏层外部状态ht的输出信息一方面作为隐藏层外部状态ht的输入信息被传递到下个时刻,另一方面作为隐藏层外部状态ht的输出信息被传递到下一层长短时记忆网络,当下一层长短时记忆网络为全连接层时,会对隐藏层结果做一个变换得到最终输出信息,从而得到时间序列的预测值如下式所示:
式中,Vout为全连接层的权重矩阵,b代表偏置项;
S3-4、更新权重:求解长短时记忆网络的每一个权重的梯度,通过使用训练数据进行随机梯度下降找到最优解,由输出层往输入层的权重开始求梯度,依次更新各个权重,重置内部状态,设计误差函数,计算并检查梯度;
S3-5、均方根误差评估:通过长短时记忆网络模型对与溶解氧相关的其他环境变量的时序数据进行训练,将归一化及经过MIC筛选的其他环境变量的时序数据作为训练数据集对长短时记忆网络模型进行训练,为了缓解在多变量预测模型神经网络的训练过程中出现的过拟合问题,在隐藏层的训练机制中加入Dropout机制,Dropout机制为:在其他环境变量的时序数据进行训练的过程中随机丢失神经单元及其连接,训练完成后计算均方根误差来评估长短时记忆网络模型的预测结果,均方根误差如下式所示:
S4、k折交叉验证:将步骤S2-4中得到的输入变量作为原始数据集分成k等份,k取5,每次选取k-1份作为训练集,剩下1份作为测试集,使用不同的超参数组合来训练k-1份和测试其余的1个部分,并计算测试集的RMSE值,重复上述步骤S3-2~S3-5中长短时记忆网络模型训练和测试的步骤,直到k份原始数据集中每个超参数组合都被测试完毕,并计算每个最终输出信息的RMSE平均值,RMSE平均值最小的参数组合为最优组合,如下式所示:
S5、计算及预测:使用感潮河网区水质自动站的实时数据经预处理后输入到建立好的长短时记忆网络模型中,通过长短时记忆网络模型输出的结果通过放缩得到溶解氧的预测值,采用滚动预报的方法,绘制出溶解氧的走势图,所述步骤S5中滚动预报的方法具体为:依据已有溶解氧的预测值的采样间隔,设置合理的预测时间步长,假设预测的时间为n日,长短时记忆网络模型会根据测试集中的t日溶解氧数据及S2所述方法筛选出的重要参数,对t+n日的溶解氧数据进行计算并输出得到溶解氧真实值,然后在t+2n日,运用t+n日的溶解氧真实值以及S2所述方法筛选出其他环境变量,采用滚动预报的方法及时更新序列信息,避免误差积累。
实施例2
本实施例与实施例1基本相同,其不同之处在于:步骤S3-1框架构建中隐藏层的个数不同。
S3-1、框架构建:基于TensorFlow深度学习框架搭建长短时记忆网络模型,所述长短时记忆网络模型包含1个输入层、1个输出层及3个隐藏层。
实施例3
本实施例与实施例1基本相同,其不同之处在于:步骤S2-4中最大信息系数MIC(D)的值不同。最大信息系数MIC(D)为0.5,用于预测的变量包含氨氮和总磷。
实验例1
为了验证本发明的实际应用效果,选择了某水质自动在线站点实际运行的实测水质在线观测数据进行验证。以实施例1中的感潮河网区溶解氧预测方法进行预测,所选择的站点为大龙涌站点,时间跨度为2019年1月1日到2021年3月29日。高锰酸盐指数、氨氮、总磷、总氮的采样频率为4小时,其余变量的时间采样频率为1小时,如表1所示。
在步骤S1数据采集中处理后的时间序列样本共有8832个,在步骤S2中分别计算温度、pH、DO25、电导率、浊度、高锰酸盐指数、氨氮、总磷、总氮与溶解氧的MIC(D)值,按MIC(D)值,以0.85为阈值,选取DO25、电导率、水温、氨氮、总氮浓度作为长短时记忆网络模型的预测变量;在步骤S3中,基于主流的TensorFlow深度学习框架搭建长短时记忆网络模型,针对预测模型中涉及的超参数,如图2所示,在步骤S4中采用k折交叉验证网格搜索法进行寻优,以得到最优的超参数组合,选取样本中67%的数据作为训练集,对长短时记忆网络模型进行训练,剩余33%的样本作为测试集,训练及测试结果见图3所示,各个相关变量的计算结果如表1所示,模型参数设置及结果评价列表如表2所示。训练完成后计算均方根误差评估模型性能,其中训练集RMSE为0.29,测试集RMSE为0.22。
实验例2
本实验例与实验例1基本相同,其不同之处在于:选择的观测站点不同,选择墩头基的数据对模型进行训练和预测测试,各个相关变量的计算结果如表1所示,模型参数设置及结果评价列表如表2所示,训练及测试结果如图4所示。
实验例3
本实验例与实验例2基本相同,其不同之处在于:选择的网格层数不同,各个相关变量的计算结果如表1所示,模型参数设置及结果评价列表如表2所示,训练及测试结果如图5所示。
实验例4
本实验例与实验例2基本相同,其不同之处在于:基于实施例3中的最大信息系数MIC(D)为0.5,用于预测的变量包含氨氮和总磷,各个相关变量的计算结果如表1所示,模型参数设置及结果评价列表如表2所示。
实验例5
本实验例与实验例1基本相同,其不同之处在于:步长有所改变,运用更多的输入和输出时间步长,各个相关变量的计算结果如表1所示,模型参数设置及结果评价列表如表2所示。
表1大龙涌站点和墩头基站点中各个相关变量的最大信息系数MIC(D)计算结果列表
表2实验案例1-5中模型参数设置及结果评价列表
Claims (8)
1.一种感潮河网区溶解氧预测方法,其特征在于,包括以下步骤:
S1、数据采集:在需要进行溶解氧预测的感潮河网区建立水质自动站,通过水质自动站采集水质时间序列数据,并对采集到的水质时间序列数据进行预处理,水质时间序列数据包括溶解氧和其他环境变量;
S2、数据筛选:计算步骤S1得到的水质时间序列数据中溶解氧和其他环境变量的最大互信息系数,筛选出与溶解氧相关性较大的其他环境变量,作为长短时记忆网络的输入变量;
S2-1、互信息定义:互信息是衡量其他环境变量与溶解氧之间相关程度的指标,给定变量A={xi,i=1,2,...,n}和B={yi,i=1,2,...,n},其中,n为样本数量,A和B的互信息I(A;B)定义公式为:
式中,p(x,y)为A和B的联合概率密度,p(x)为A的边缘概率密度,p(y)为B的边缘概率密度;
S2-2、值域划分:假设D={(ai,b),i=1,2,...,n}为一个有限集合,同时,将变量A和变量B的值域分别划分为x段和y段,得到x×y的网格G,再在得到的每一种网格划分的内部计算互信息MI(A,B),得到互信息MI(A,B)的最大值G,则定义最大值G条件下有限集合D的最大归一化值公式为:
MI*(D,x,y)=maxMI(D│G)
式中,D|G为有限集合D在使用网格G进行划分,MI*(D,x,y)为最大归一化值;
S2-3、求取最大值:对每一种网格划分下得到的最大归一化值组成的特征矩阵求取最大值,即得最大信息系数的公式为:
式中,MIC(D)为最大信息系数;
S2-4、关联性分析:将溶解氧作为变量A,其他环境变量作为变量B,计算溶解氧与其他环境变量的最大信息系数MIC(D)的值,得到的最大信息系数MIC(D)的值在[0,1]区间内,最大信息系数MIC(D)的值越大,则溶解氧与其他环境变量的关联性越大,最大信息系数MIC(D)的值越小,则溶解氧与其他环境变量的关联性越小,选择与溶解氧关联性较大的其他环境变量作为预测模型的输入变量;
S3、长短时记忆网络模型建立:
S3-1、框架构建:所述长短时记忆网络模型包含1个输入层、1个输出层及多个隐藏层,每个隐藏层由多个记忆单元组成,所述记忆单元通过引入门控机制来控制历史信息的更新和利用,所述门控机制包括输入门it、遗忘门itft和输出门ot,输入门it、遗忘门ft和输出门ot的取值均在[0,1]区间内表示以一定的比例让信息通过,对细胞状态定期重置避免细胞状态不短累加,细胞状态包括候选状态内部状态Ct和外部状态ht,输入门it控制当前时刻的候选状态有多少信息需要保存,遗忘门ft控制上一个时刻的内部状态Ct需要遗忘多少信息,输出门ot控制当前时刻的内部状态Ct有多少信息需要输出给外部状态ht,同时激活函数sigmoid(σ)和双曲正切函数层tanh,如下式所示:
S3-2、初始化:将记忆单元的矩阵和向量进行初始化,用于保存模型参数和保存中间计算结果,保存输入层和输出层神经元个数、隐含层细胞个数、网络状态;
S3-3、前向传播计算:长短时记忆网络模型会决定从细胞状态中舍弃的信息,这个步骤由遗忘门完成,首先,针对当前时刻的输入信息xt和上一时刻的隐藏层外部状态ht-1的输出信息通过sigmoid(σ)函数层处理得到一个0到1之间的输出,作为上一时刻内部状态Ct-1的过滤值,即得遗忘门ft的公式为:
ft=σ(Wxfxt+Whfht―1+bf)
式中,W为权重矩阵,W的下标代表具体两个单元之间的连接权重,b代表偏置项;
其次,长短时记忆网络模型判定存储到细胞状态中的信息,首先将当前时刻的输入信息xt和上一时刻的隐藏层外部状态ht-1的输出信息经过sigmoid函数层计算得到输入门it取值,如下式所示:
it=σ(Wxixt+Whiht―1+bi)
最后,长短时记忆网络模型决定细胞的输出信息,将当前时刻的输入信息xt和上一时刻的隐藏层外部状态ht-1的输出信息经过sigmoid(σ)函数层计算输出门ot,如下式所示:
ot=σ(Wxoxt+Whoht―1+bo)
然后将当前细胞的内部状态Ct通过tanh函数压缩至[-1,1]的区间,最后将压缩后的细胞的内部状态Ct与输出门ot相乘得到当前时刻的隐藏层外部状态ht输出信息,如下式所示:
ht=ottanh(Ct)
记忆单元还会与长短时记忆网络模型中其他部分相连,当前时刻的隐藏层外部状态ht的输出信息一方面作为隐藏层外部状态ht的输入信息被传递到下个时刻,另一方面作为隐藏层外部状态ht的输出信息被传递到下一层长短时记忆网络,当下一层长短时记忆网络为全连接层时,会对隐藏层结果做一个变换得到最终输出信息,从而得到时间序列的预测值如下式所示:
式中,Vout为全连接层的权重矩阵,b代表偏置项;
S3-4、更新权重:求解长短时记忆网络的每一个权重的梯度,通过使用训练数据进行随机梯度下降找到最优解,由输出层往输入层的权重开始求梯度,依次更新各个权重,重置内部状态,设计误差函数,计算并检查梯度;
S3-5、均方根误差评估:通过长短时记忆网络模型对与溶解氧相关的其他环境变量的时序数据进行训练,将归一化及经过MIC筛选的其他环境变量的时序数据作为训练数据集对长短时记忆网络模型进行训练,为了缓解在多变量预测模型神经网络的训练过程中出现的过拟合问题,在隐藏层的训练机制中加入Dropout机制,训练完成后计算均方根误差来评估长短时记忆网络模型的预测结果,均方根误差如下式所示:
S4、k折交叉验证:将步骤S2-4中得到的输入变量作为原始数据集分成k等份,每次选取k-1份作为训练集,剩下1份作为测试集,使用不同的超参数组合来训练k-1份和测试其余的1个部分,并计算测试集的RMSE值,重复上述步骤S3-2~S3-5中长短时记忆网络模型训练和测试的步骤,直到k份原始数据集中每个超参数组合都被测试完毕,并计算每个最终输出信息的RMSE平均值,RMSE平均值最小的参数组合为最优组合,如下式所示:
S5、计算及预测:使用感潮河网区水质自动站的实时数据经预处理后输入到建立好的长短时记忆网络模型中,通过长短时记忆网络模型输出的结果通过放缩得到溶解氧的预测值,采用滚动预报的方法,绘制出溶解氧的走势图。
2.根据权利要求1所述的一种感潮河网区溶解氧预测方法,其特征在于,步骤S1中水质时间序列数据的其他环境变量包括pH、水温、电导率、浊度、水位、流量、氨氮、总磷、高锰酸盐指数、化学需氧量、总氮以及DO25h,所述DO25h为修正后的溶解氧时间序列数据,DO25h修正方法为:一个潮汐周期的时长为24h50min,增加滞后时间至25h,此时得到的修正后的溶解氧时间序列数据即为DO25h。
4.根据权利要求1所述的一种感潮河网区溶解氧预测方法,其特征在于,所述步骤S2-4中最大信息系数MIC(D)的值大于0.8时认为其他环境变量与溶解氧关联性较大。
5.根据权利要求1所述的一种感潮河网区溶解氧预测方法,其特征在于,所述步骤S3-2中模型参数包括权重矩阵W和偏置项b,中间计算结果包括外部状态ht的输出信息、输入门ft、遗忘门it、输出门ot。
6.根据权利要求1所述的一种感潮河网区溶解氧预测方法,其特征在于,所述步骤S3-5中Dropout机制为:在其他环境变量的时序数据进行训练的过程中随机丢失神经单元及其连接。
7.根据权利要求1所述的一种感潮河网区溶解氧预测方法,其特征在于,所述步骤S3-1中搭建长短时记忆网络模型是基于TensorFlow深度学习框架搭建。
8.根据权利要求1所述的一种感潮河网区溶解氧预测方法,其特征在于,所述步骤S5中滚动预报的方法具体为:依据已有溶解氧的预测值的采样间隔,设置合理的预测时间步长,假设预测的时间为n日,长短时记忆网络模型会根据测试集中的t日溶解氧数据及S2所述方法筛选出的重要参数,对t+n日的溶解氧数据进行计算并输出得到溶解氧真实值,然后在t+2n日,运用t+n日的溶解氧真实值以及S2所述方法筛选出其他环境变量,采用滚动预报的方法及时更新序列信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210967488.XA CN115456245A (zh) | 2022-08-12 | 2022-08-12 | 一种感潮河网区溶解氧预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210967488.XA CN115456245A (zh) | 2022-08-12 | 2022-08-12 | 一种感潮河网区溶解氧预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115456245A true CN115456245A (zh) | 2022-12-09 |
Family
ID=84298975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210967488.XA Pending CN115456245A (zh) | 2022-08-12 | 2022-08-12 | 一种感潮河网区溶解氧预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115456245A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116703455A (zh) * | 2023-08-02 | 2023-09-05 | 北京药云数据科技有限公司 | 基于时间序列的混合模型的医药数据销售预测方法及系统 |
CN116969582A (zh) * | 2023-09-22 | 2023-10-31 | 深圳市友健科技有限公司 | 一种污水处理智能调控方法及系统 |
CN118067200A (zh) * | 2024-04-17 | 2024-05-24 | 河北省沧州生态环境监测中心 | 一种河流水质实时监测与预警系统 |
-
2022
- 2022-08-12 CN CN202210967488.XA patent/CN115456245A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116703455A (zh) * | 2023-08-02 | 2023-09-05 | 北京药云数据科技有限公司 | 基于时间序列的混合模型的医药数据销售预测方法及系统 |
CN116703455B (zh) * | 2023-08-02 | 2023-11-10 | 北京药云数据科技有限公司 | 基于时间序列的混合模型的医药数据销售预测方法及系统 |
CN116969582A (zh) * | 2023-09-22 | 2023-10-31 | 深圳市友健科技有限公司 | 一种污水处理智能调控方法及系统 |
CN116969582B (zh) * | 2023-09-22 | 2023-12-08 | 深圳市友健科技有限公司 | 一种污水处理智能调控方法及系统 |
CN118067200A (zh) * | 2024-04-17 | 2024-05-24 | 河北省沧州生态环境监测中心 | 一种河流水质实时监测与预警系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967688B (zh) | 一种基于卡尔曼滤波器与卷积神经网络的电力负荷预测方法 | |
Wang et al. | Adaptive learning hybrid model for solar intensity forecasting | |
CN115456245A (zh) | 一种感潮河网区溶解氧预测方法 | |
CN113297801A (zh) | 一种基于steof-lstm的海洋环境要素预测方法 | |
CN114547974B (zh) | 基于输入变量选择与lstm神经网络的动态软测量建模方法 | |
CN113554466B (zh) | 一种短期用电量预测模型构建方法、预测方法和装置 | |
CN114119273B (zh) | 一种园区综合能源系统非侵入式负荷分解方法及系统 | |
CN114282443B (zh) | 基于mlp-lstm有监督联合模型的剩余使用寿命预测方法 | |
Dong et al. | An integrated deep neural network approach for large-scale water quality time series prediction | |
Li et al. | A novel multichannel long short-term memory method with time series for soil temperature modeling | |
CN115495991A (zh) | 一种基于时间卷积网络的降水区间预测方法 | |
CN112434848A (zh) | 基于深度信念网络的非线性加权组合风电功率预测方法 | |
CN114492922A (zh) | 一种中长期发电量预测方法 | |
CN114444561A (zh) | 基于CNNs-GRU融合深度学习模型的PM2.5预测方法 | |
Ehsan et al. | Wind speed prediction and visualization using long short-term memory networks (LSTM) | |
CN116703644A (zh) | 一种基于Attention-RNN的短期电力负荷预测方法 | |
CN114862032A (zh) | 一种基于XGBoost-LSTM的电网负荷预测方法及装置 | |
CN116720080A (zh) | 同源气象要素融合检验方法 | |
Wang et al. | A transformer-based multi-entity load forecasting method for integrated energy systems | |
CN113151842B (zh) | 风光互补电解水制氢的转化效率的确定方法和确定装置 | |
Kerboua et al. | Recurrent neural network optimization for wind turbine condition prognosis | |
CN116613732A (zh) | 一种基于shap值选择策略的多元负荷预测方法及系统 | |
CN116865235A (zh) | 一种基于lstm与多模型集成的负荷预测方法及装置 | |
Xu et al. | Prediction of the Wastewater's pH Based on Deep Learning Incorporating Sliding Windows. | |
CN115618725A (zh) | 一种基于机器学习的综合能源系统多元负荷预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |