CN117272202A

CN117272202A - 大坝变形异常值识别方法及系统

Info

Publication number: CN117272202A
Application number: CN202311210414.2A
Authority: CN
Inventors: 费新峰; 刘海敏; 张治�; 张小宁; 岳子·文轩丞稷; 孙剑; 宋璇; 朱海晨; 寇一丹; 魏鹏刚
Original assignee: Qinghai Huanghe Power Technology Co Ltd Of National Power Investment Group; PowerChina Northwest Engineering Corp Ltd
Current assignee: Qinghai Huanghe Power Technology Co Ltd Of National Power Investment Group; PowerChina Northwest Engineering Corp Ltd
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-12-22

Abstract

本发明属于大坝安全监测技术领域，具体公开了一种大坝变形异常值识别方法及系统，解决了现有大坝变形异常值识别方法存在的识别结果不准确的技术问题。本发明的识别方法包括：对大坝上多个测点进行聚类分区，并获取每个分区内每个测点的预测值和实测值之间的残差；根据每个分区内所有测点的残差，确定每个分区的综合残差；结合预测值和综合残差，确定每个分区内测点的实测值中的异常值。本发明的识别方法及系统，考虑大坝变形的时空关联特性并提出了高精度的大坝变形预测模型，可以更加合理地识别出大坝的异常测值，提升了对变形监测数据的异常值识别精度，为大坝变形提供了一种高精度预测及异常值识别方法。

Description

大坝变形异常值识别方法及系统

技术领域

本发明公开了一种大坝变形异常值识别方法及系统，具体为一种基于时空聚类和深度学习的大坝变形异常值识别方法及系统，属于大坝安全监测技术领域。

背景技术

安全监测是定量分析大坝安全性态的重要方法。大坝众多监测科目中，变形能够真实、直观、准确地反映大坝安全性态变化，是大坝最重要的监测内容。然而，采集的变形监测数据受仪器故障、人为因素或其他不确定因素的影响，不可避免地会出现各种异常值。

异常数据可能是荷载急剧变化造成的正常结构反映，也可能是仪器故障、人为因素等造成的粗差错误数据。因此，对大坝变形异常值进行精准识别，对大坝监测数据分析及安全评价研究具有重要意义。

现有技术通常是利用统计检验法和监控模型法识别大坝变形异常值。但统计检验法仅考虑变形数据本身，未结合大坝变形输入输出关系，容易错误将正常数据误诊断为异常值。监控模型法主要考虑单测点监测数据的异常值，忽略了与相似测点的时空关联特性，导致识别结果出错。

发明内容

本申请的目的在于，提供一种大坝变形异常值识别方法及系统，以解决现有技术中大坝变形异常值识别方法存在的识别结果不准确的技术问题。

本发明的第一方面提供了一种大坝变形异常值识别方法，包括：

对大坝上多个测点进行聚类分区，并获取每个分区内每个测点的预测值和实测值之间的残差；

根据每个分区内所有测点的残差，确定每个分区的综合残差；

结合所述预测值和所述综合残差，确定每个分区内测点的实测值中的异常值。

优选地，对大坝上多个测点进行聚类分区，具体包括：

获取大坝上每一个测点与其他测点之间的综合距离；

根据所述综合距离，利用最小离差平方和系统聚类法对多个测点进行聚类分区。

优选地，获取大坝上每一个测点与其他测点之间的综合距离，具体包括：

获取大坝上每一个测点与其他测点之间的绝对距离、增量距离和增速距离；

根据所述绝对距离、增量距离和增速距离，确定每一个测点与其他测点之间的综合距离。

优选地，所述绝对距离根据一个测点的变形值与另一个测点的变形值之间的差值确定；

所述增量距离根据一个测点相较于前一时刻的变形增量与另一个测点相较于前一时刻的变形增量之间的差值确定；

所述增速距离根据一个测点的变形增速与另一个测点的变形增速之间的差值确定。

优选地，获取每个分区内每个测点的预测值和实测值之间的残差，具体包括：

优化每个分区的预测模型的超参数；

根据每个分区的环境影响因子、每个测点的历史测值和所述超参数，训练对应分区的所述预测模型；

获取预测模型对对应每个分区内每个测点的预测值，并确定每个测点的预测值和实测值之间的残差。

优选地，优化每个分区的预测模型的超参数，具体包括：

利用蜜獾算法优化每个分区的预测模型的超参数。

优选地，所述预测模型为双向长短时记忆神经网络模型。

优选地，根据每个分区内所有测点的残差，确定每个分区的综合残差，具体包括：

获取每个分区内每一个测点的残差与其余测点的残差之间的相关系数；

根据所述分区内的所有所述相关系数，确定每个分区的综合残差。

优选地，结合所述预测值和所述综合残差，确定每个分区内测点的实测值中的异常值，具体包括：

利用所述综合残差确定每个分区的基准值；

将每个分区内的每个测点的预测值与实测值之间的差值与所述基准值进行对比，确定每个分区内测点的实测值中的异常值。

本发明的第二方面提供了一种大坝变形异常值识别系统，包括：

残差模块，所述残差模块用于对大坝上多个测点进行聚类分区，并获取每个分区内每个测点的预测值和实测值之间的残差；

综合残差模块，所述综合残差模块用于根据每个分区内所有测点的残差，确定每个分区的综合残差；

异常值确定模块，所述异常值确定模块用于结合所述预测值和所述综合残差，确定每个分区内测点的实测值中的异常值。

本发明的大坝变形异常值识别方法及系统，相较于现有技术，具有如下有益效果：

本发明方法利用最小离差平方和系统聚类法完成测点变形聚类分区，采用蜜獾算法对预测模型进行超参数优化，基于最优超参数进行建模预测。然后，在相似测点残差相关性的基础上构建异常值判别指标，当研究测点的监测数据序列残差大于指标标准，即可识别为异常值。

本发明方法考虑大坝变形的时空关联特性并提出高精度的大坝变形预测模型，可以更加合理地识别出大坝的异常测值，提升了对变形监测数据的异常值识别的精度，为大坝变形提供了一种高精度预测及异常值识别方法。

附图说明

图1为本发明大坝变形异常值识别方法的流程图；

图2为本发明实施例中气温与上游水位时间序列过程线；

图3为本发明实施例中坝体测点Ward聚类分区结果图；

图4为本发明实施例中坝体各分区测点径向水平位移过程线，其中(a)为图3中的分区I内各测点径向水平位移过程线；(b)为图3中的分区Ⅱ内各测点径向水平位移过程线；(c)为图3中的分区Ⅲ内各测点径向水平位移过程线；(d)为图3中的分区Ⅳ内各测点径向水平位移过程线；(e)为图3中的分区Ⅴ内各测点径向水平位移过程线；

图5中的(a)为本发明实施例中各模型在PL3-1测点预测结果与实际变形序列对比图，(b)为本发明实施例中各模型在PL3-1测点的各评价指标分析对比图；

图6中的(a)为本发明实施例中各模型在PL4-1测点预测结果与实际变形序列对比图，(b)为本发明实施例中各模型在PL4-1测点的各评价指标分析对比图；

图7中的(a)为本发明实施例中各模型在PL5-1测点预测结果与实际变形序列对比图，(b)为本发明实施例中各模型在PL5-1测点的各评价指标分析对比图；

图8为本发明实施例中PL4-1测点异常值识别结果图；

图9为本发明大坝变形异常值识别系统的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

本发明的第一方面提供了一种大坝变形异常值识别方法，如图1所示，包括：

步骤1、对大坝上多个测点进行聚类分区，并获取每个分区内每个测点的预测值和实测值之间的残差。

在步骤1之前，通过大坝安全监测系统获取多个测点的变形值数据及对应环境量数据，并对获取的数据集进行预处理工作。

本发明实施例的步骤1具体包括：

步骤1.1、获取大坝上每一个测点与其他测点之间的综合距离，具体包括：

步骤1.1.1、获取大坝上每一个测点与其他测点之间的绝对距离、增量距离和增速距离。

其中绝对距离根据一个测点的变形值与另一个测点的变形值之间的差值确定；

增量距离根据一个测点相较于前一时刻的变形增量与另一个测点相较于前一时刻的变形增量之间的差值确定；

增速距离根据一个测点的变形增速与另一个测点的变形增速之间的差值确定。

上述绝对距离、增量距离和增速距离如公式(1)所示：

式中：分别表示测点a和测点b之间的绝对距离、增量距离和增速距离；x_at表示测点a在t时刻的变形值大小、x_bt表示测点b在t时刻的变形值大小；y_at表示测点a在t时刻的数值变化，y_at＝x_at-x_a,t-1，y_bt表示测点b在t时刻的数值变化，y_bt＝x_bt-x_b，t-1；z_at表示测点a在t时刻的数值变化幅度，/>z_bt表示测点b在t时刻的数值变化幅度，/>

步骤1.1.2、根据绝对距离、增量距离和增速距离，确定每一个测点与其他测点之间的综合距离，如公式(2)所示：

式中：表示测点a和测点b之间的综合距离，α₁、α₂及α₃为三种距离的权重，且拟定/>

步骤1.2、根据综合距离，利用最小离差平方和系统聚类法(Ward法)对多个测点进行聚类分区。

Ward方法将坝体的N个测点自成为一类，通过不断缩小类别，将类别内测点间的离差平方和增加最小的两类合并为一类，直至将所有相似测点聚成一类为止，最终输出聚类结果。该方法相比于K-means方法，无需指定聚类数目。每个分类内部测点离差平方和如式(3)所示：

若分为m类，其全局总离差平方和如式(4)所示：

式中：k_n表示类别；N_n表示k_n类中的测点个数；W_tn表示k_n中测点t在所有时间截面的离差平方和；分别代表k_n中t时刻N_n个测点参数的平均值。

步骤1.3、获取每个分区内每个测点的预测值和实测值之间的残差，具体包括：

步骤1.3.1、优化每个分区的预测模型的超参数。

本发明实施例中的预测模型为双向长短时记忆神经网络模型(BiLSTM)，其是一种在LSTM基础上进行深度改进的双向LSTM神经网络，使模型提取序列信息的能力在LSTM基础上得到提升，解决LSTM仅从单向探索数据规律造成的信息挖掘能力不足问题。

但模型参数的选取对于深度学习预测精度的影响显著，参数优化算法的优劣直接影响异常值识别的准确率。因此，本发明实施例利用蜜獾算法优化每个分区的预测模型的超参数。

蜜獾算法(Honey Badger Algorithm,HBA)是一种新型群智能优化算法，主要模拟蜜獾的挖掘和寻找蜂蜜的动态搜索行为。和传统优化算法相比具有寻优能力强，收敛精度高，稳定性强等优点。

HBA算法优化超参数的过程分为“挖掘阶段”和“寻蜜阶段”。其优化过程如下所示：

初始化种群：

根据式(5)初始化蜜獾的种群规模N及个体i的位置。

x_i＝lb_i+r₁×(ub_i-lb_i) (5)

式中：x_i是种群N中第i只蜜獾的位置；r₁∈(0,1)之间的随机数；ub_i和lb_i分别是寻优空间的上界和下界。

定义嗅觉强度：

蜜獾的嗅觉强度与猎物的集中强度和猎物与第i只蜜獾之间的距离有关。I_i是猎物的气味强度，I_i的值越大，蜜獾运动越快，反之亦然。定义如下：

式中：S为猎物集中强度；d_i表示猎物与第i只蜜獾之间的距离；x_prey是猎物的最佳位置；r₂∈(0,1)内的随机数。

更新密度因子：

密度因子α随迭代的次数慢慢递减，定义如下：

式中：l_max是迭代最大次数；C为一个大于1的常数，通常默认为2。

挖掘阶段：

在挖掘阶段，蜜獾通过挖掘确定猎物的位置，从而完成对猎物的抓捕。其运动范围类似于心形，其运动轨迹公式如下：

式中：x_new为蜜獾更新后的位置；β大于等于1(一般默认为6)是蜜獾获取食物的能力；r₃、r₄和r₅是(0,1)三个不同的随机数；F是改变搜索方向的标志，由式(9)所确定：

式中：r₆∈(0,1)内的随机数。在挖掘阶段中，蜜獾不仅对嗅觉强度I_i、与猎物之间的距离d_i、更新密度因子α有很强依赖性很强，还会受F的干扰，从而找到更好的猎物位置。

寻蜜阶段：

蜜獾会跟随猎物信息还有蜂蜜距离信息不停更新运动轨迹，直至完成寻蜜任务，具体位置更新如式(10)所示：

x_new ＝x_prey +F×r₇×w×d_i (10)

式中：x_new是蜜獾更新后位置；x_prey是猎物的位置。蜜獾在搜寻猎物时根据距离信息d_i在x_prey附近的位置进行搜索。

步骤1.3.2、根据每个分区的环境影响因子、每个测点的历史测值和利用HBA算法优化后的超参数，训练对应分区的预测模型。

本发明实施例，基于大坝安全监测理论，根据大坝环境量数据计算得到环境影响因子，然后建立每个分区内各测点的环境影响因子集，作为输入，将每个分区内每个测点的历史实测值作为输出，对输入和输出数据分别进行归一化处理，并划分训练集和测试集，训练并测试预测模型。

LSTM神经网络的计算公式如下：

式中：x_t为当前时刻输入，i_t、f_t、c_t、o_t分别表示输入门、遗忘门、更新后的细胞状态及输出门；W_i、W_f、W_c、W_o为权重矩阵；b_i、b_f、b_c、b_o为偏置向量；σ为sigmoid函数；tanh为双曲正切激活函数；*表示哈达玛积符号。

Bi-LSTM网络数学表达式为：

式中：和/>分别表示正向和反向LSTM网络在t时刻的隐藏层输出；y_t表示t时刻输出的最终结果；f、g均为激活函数；/>和/>为正向偏置和权重；/>和/>为反向偏置和权重。c和U为偏置和权重。

步骤1.3.3、获取预测模型对对应分区内每个测点的预测值，并确定每个测点的预测值和实测值之间的残差。

以一个研究测点为例：将研究测点对应的大坝当前阶段的环境影响因子输入至经训练集训练并经测试集测试后的对应分区的预测模型中，得到研究测点的预测值；然后计算研究测点的预测值和实测值之间的残差。

步骤2、根据每个分区内所有测点的残差，确定每个分区的综合残差，具体包括：

步骤2.1、获取每个分区内每一个测点的残差与其余测点的残差之间的相关系数。

本发明实施例选用相同分区内不同测点间残差的相关性作为判定依据，构建基于相似测点综合残差的大坝变形异常值判别指标，具体为：对于分区内某测点i，假设同一分区内其余的变形序列相似测点为1、2、3、…、n，计算其余变形测点的残差与该测点的残差之间的相关系数r_i(i＝1、2、3、…、n)。

步骤2.2、根据分区内的所有相关系数，确定每个分区的综合残差。

根据式(13)和式(14)构建分区内所研究测点的综合残差指标：

s_综＝w₁×s₁+w₂×s₂+…+w_n×s_n (14)

式中：r_i为第i个测点残差与所研究测点残差之间的相关系数；w_i为第i个测点残差在综合残差中的占比；s_综为综合残差；s_i为第i个测点的残差。

步骤3、结合预测值和综合残差，确定每个分区内测点的实测值中的异常值，具体包括：

步骤3.1、利用综合残差确定每个分区的基准值，本发明实施例的基准值为3std(S_综合)。

步骤3.2、将每个分区内的每个测点的预测值与实测值之间的差值与基准值进行对比，确定每个分区内测点的实测值中的异常值。

通过融合综合残差指标和置信区间法作为异常值识别的标准，当所研究测点的监测数据序列残差大于此标准，即可识别为异常值，判别标准如式(15)所示：

式中：Y_i为模型预测值；Y_i'为实测值；std为残差序列的标准差。

为了验证异常值识别方法的有效性，选取精准率P、召回率R、加权评价指标F等作为评价指标，如式(16)所示：

式中：TP代表正确识别为异常值的个数；FP代表错误识别为异常值的个数；TN代表正确识别为正常值的个数；FN代表错误识别为正常值的个数。

本发明方法考虑大坝变形的时空关联特性并提出高精度的大坝变形预测模型，提升了对变形监测数据的异常值识别精度，为大坝变形提供了一种高精度预测及异常值识别方法。

下面将以更为具体的实施例详述本发明的大坝变形异常值识别方法及系统。

采用本发明的大坝变形异常值识别方法对某水电站大坝的变形监测数据进行预测和异常值识别，具体包括以下步骤：

步骤1、选取大坝坝体的21个正垂线测点，选定自2012年9月14日到2021年7月9日的变形测值进行分析，气温与上游水位时间过程线如图2所示。

步骤2、将各测点变形测值转化为综合距离属性，借助Ward法实现测点的聚类分区，21个测点分区结果如图3所示，各分区测点径向水平位移过程线如图4所示。

步骤3、基于大坝安全监测理论，建立分区内各测点的监控模型因子集(即环境影响因子集)。输出变量为测点变形序列δ，输入变量为各环境影响因子。大坝变形δ主要由水压分量δ_H、温度分量δ_T、时效分量δ_θ构成，即：

δ＝δ_H+δ_T+δ_θ (17)

δ_θ＝c₁(θ-θ₀)+c₂(lnθ-lnθ₀) (20)

式中：a_i、b_1i、b_2i、c₁、c₂为各分量回归系数；H₀为初始水深；H为坝前水深；t₀为监测序列基准时刻；t为监测序列观测时刻；θ₀为基准时刻的时效因子；θ为t时刻的时效因子。

综上所述，HBA-BiLSTM模型输入各环境因子共计10项，即H¹、H²、H³、H⁴、θ-θ₀、lnθ-lnθ₀。为了提高模型的预测精度，对重构的数据进行归一化处理。

步骤4、为构建HBA-BiLSTM模型并测试模型预测精度，选取分区I中PL3-1、PL4-1、PL5-1三个相似测点作为研究对象，监测数据的85％作为训练集，监测数据的15％作为测试集。采用HBA算法对模型的隐藏节点个数、初始学习率、最大迭代次数共3个参数进行自动寻优，设定寻优范围分别为[10,400]、[0.0001,0.005]和[0,500]，miniBatchSize设置为128。HBA算法的种群数量为50，最大迭代次数为100。

为验证本发明的HBA-BiLSTM模型和传统预测模型相比的提升程度，将HBA-BiLSTM模型的预测结果与支持向量回归(SVR)、LSTM、BiLSTM等模型的预测结果和评价指标进行对比分析，并通过分区内多个测点的实测数据验证该方法的适用性。其中LSTM和BiLSTM的隐藏节点个数、初始学习率、最大迭代次数设置为300、0.005、400；SVR模型惩罚因子、核函数参数设置为128、0.2。图5、图6、图7分别为PL3-1、PL4-1、PL5-1三个测点的各个模型预测结果与实际变形序列对比情况，表1为不同模型预测结果评价指标对比。

表1不同模型预测结果评价指标对比

由表1可以看出本发明的HBA-BiLSTM模型对各个测点的预测精度更高。

步骤5、针对模型输出的分区内各测点变形值，计算出每个测点的模型预测残差。

步骤6、选用相同分区内不同测点间模型预测残差的相关性作为判定依据，构建基于相似测点综合残差的大坝变形异常值判别指标。

步骤7、选取PL4-1测点实测变形数据为例，选取2020年3月20日至2021年7月9日的数据序列共68组数据，为验证不同异常值识别方法的识别能力，其中人为在PL4-1测点的2020年7月3日、8月21日、12月18日以及2021年3月5日、5月14日共计五处随机位置加入粗差，一般粗差添加时选取2-3倍标准差作为构造粗差。为检验不同识别方法的高精度识别能力，选取2倍标准差作为粗差构造标准，采用构建的综合残差置信区间法对PL4-1的实测数据进行异常值识别，PL4-1测点异常值识别结果如图8所示。为了验证该识别方法的优越性，将检测结果与莱茵达准则、格拉布斯准则、基于HBA-BiLSTM的综合残差置信区间法和基于时空聚类的HBA-LSTM的综合残差置信区间法等检测结果进行对比分析，对比结果见表2。

表2PL4-1测点不同方法异常值识别结果评价指标

由表2可以看出，本发明基于时空聚类的HBA-BiLSTM综合残差置信区间法的识别精度较高。

本发明的第二方面提供了一种大坝变形异常值识别系统，如图9所示，包括残差模块101、综合残差模块102和异常值确定模块103。

其中残差模块101用于对大坝上多个测点进行聚类分区，并获取每个分区内每个测点的预测值和实测值之间的残差；

综合残差模块102用于根据所有测点的残差，确定每个分区的综合残差；

异常值确定模块103用于结合预测值和综合残差，确定每个分区内测点的实测值中的异常值。

本发明公开的基于时空聚类和深度学习的大坝变形异常值识别方法，主要是鉴于大坝变形监测数据不可避免地会出现各种异常值，影响大坝监测数据分析及安全评价研究而提出的。本发明首先利用Ward法实现测点的时空聚类分区，然后基于大坝安全监测理论，建立分区内各测点的监控模型因子集，将其作为被HBA算法超参数优化后BiLSTM模型的输入并预测，得到研究测点的变形预测值，计算出研究测点的模型预测残差，通过判断研究测点的监测数据序列残差是否超出指标范围完成异常值识别及其验证。本发明提出的HBA-BiLSTM模型提高了变形预测精度，基于时空聚类的HBA-BiLSTM综合残差置信区间法在大坝变形异常值识别的精度、漏判、误判等方面均具有较好的性能提升，对大坝监测数据分析及安全评价研究具有重要意义。

以上所述，仅是本申请的几个实施例，并非对本申请做任何形式的限制，虽然本申请以较佳实施例揭示如上，然而并非用以限制本申请，任何熟悉本专业的技术人员，在不脱离本申请技术方案的范围内，利用上述揭示的技术内容做出些许的变动或修饰均等同于等效实施案例，均属于技术方案范围内。

Claims

1.一种大坝变形异常值识别方法，其特征在于，包括：

2.根据权利要求1所述的大坝变形异常值识别方法，其特征在于，对大坝上多个测点进行聚类分区，具体包括：

获取大坝上每一个测点与其他测点之间的综合距离；

3.根据权利要求2所述的大坝变形异常值识别方法，其特征在于，获取大坝上每一个测点与其他测点之间的综合距离，具体包括：

4.根据权利要求3所述的大坝变形异常值识别方法，其特征在于，所述绝对距离根据一个测点的变形值与另一个测点的变形值之间的差值确定；

5.根据权利要求1所述的大坝变形异常值识别方法，其特征在于，获取每个分区内每个测点的预测值和实测值之间的残差，具体包括：

优化每个分区的预测模型的超参数；

获取预测模型对对应分区内每个测点的预测值，并确定每个测点的预测值和实测值之间的残差。

6.根据权利要求5所述的大坝变形异常值识别方法，其特征在于，优化每个分区的预测模型的超参数，具体包括：

利用蜜獾算法优化每个分区的预测模型的超参数。

7.根据权利要求5所述的大坝变形异常值识别方法，其特征在于，所述预测模型为双向长短时记忆神经网络模型。

8.根据权利要求1所述的大坝变形异常值识别方法，其特征在于，根据每个分区内所有测点的残差，确定每个分区的综合残差，具体包括：

9.根据权利要求1所述的大坝变形异常值识别方法，其特征在于，结合所述预测值和所述综合残差，确定每个分区内测点的实测值中的异常值，具体包括：

利用所述综合残差确定每个分区的基准值；

10.一种大坝变形异常值识别系统，其特征在于，包括：