CN117992726B

CN117992726B - 一种面向旋转机械的多级预警方法、装置、设备及介质

Info

Publication number: CN117992726B
Application number: CN202311481519.1A
Authority: CN
Inventors: 姜孝谟; 惠怀宇; 张可欣; 陈荟泽; 孟文清
Original assignee: Dalian Lanxue Intelligent Technology Co ltd; Dalian University of Technology
Current assignee: Dalian Lanxue Intelligent Technology Co ltd; Dalian University of Technology
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-09-20
Anticipated expiration: 2043-11-08
Also published as: CN117992726A

Abstract

本发明公开了一种面向旋转机械的多级预警方法、装置、设备及介质，包括如下：采集旋转机械设备运行过程中的运行数据；对采集的数据进行数据预处理；使用滑动窗口对预处理后的数据进行处理，构建数据集并划分为训练集与测试集；搭建高斯过程回归模型、基于贝叶斯优化的长短期记忆网络模型和基于优化的自联想核回归模型，并利用训练集数据对各模型进行训练；采用测试集数据对训练好的模型进行预测，将得到的预测值与真实值做差生成残差序列；确定各模型的阈值指标，对生成的残差序列进行判断，若超出阈值，则发出预警。本发明通过结合多个状态监测模型和多个阈值指标，以及多级预警策略，减少了模型误报，提高报警正确率，减少不必要的停机损失。

Description

一种面向旋转机械的多级预警方法、装置、设备及介质

技术领域

本发明涉及旋转机械故障预警技术领域，具体涉及一种面向旋转机械的多级预警方法、装置、设备及介质。

背景技术

近年来，随着大数据、人工智能和边缘计算等先进数字技术的发展，对于设备故障预警技术的研究和应用也在不断进步，目前设备的故障预警技术已成功地应用在发电机、离心压缩机、燃气轮机和风机等多种大型旋转机械。现有的旋转机械故障预警技术主要分为三大类：基于知识、机理和数据驱动的方法。其中数据驱动的方法通过挖掘设备历史运行数据中的内在信息，建立数学模型来表达过程状态，根据模型来实现对设备的状态监测。随着大数据时代的到来，一系列广泛的数据驱动故障预警方法，如机器学习、深度学习，已经被广泛应用于监测工业设备的运行状态，并对设备的潜在故障给出报警。

基于机器学习的方法通常与信号处理技术相结合，典型的方法是基于人工神经网络模型以及其优化改进模型。基于深度学习的方法相比神经网络算法具有更加深层的结构，并具备特征自学能力，通过将原始数据转变为更高阶的特征，不断调整模型参数，使模型具备更强的表征能力，但其学习过程高度依赖于数据的质量和数量。

现阶段针对工业装备的故障预警方法往往只结合单一的状态监测模型和单一的故障阈值指标对设备进行故障预警。若出现了指标偏离的情况则被认为是出现故障，从而达到故障预警的目的。然而以旋转机械为主要代表的旋转机械，其设计复杂，零部件较多，单一的状态监测模型和单一的故障阈值指标往往不足以正确反应设备的运行状态，导致误报频发，设备频繁停机将带来不小的经济损失。因此，亟需一种能够最大程度的保证机器设备安全平稳高效运行，对设备的运行状态进行预测和预警的方法，来减少不必要的停机损失。

发明内容

为解决现有技术中存在的问题，本发明提供了一种面向旋转机械的多级预警方法、装置、设备及介质，通过结合高斯过程回归模型、基于贝叶斯优化的长短期记忆网络模型和基于优化的自联想核回归模型对旋转机械的运行状态进行预测；并结合3σ、MSE、多变量贝叶斯因子和多变量排列熵预警指标对旋转机械进行故障预警，解决了上述背景技术中提到的问题。

为实现上述目的，本发明提供如下技术方案：一种面向旋转机械的多级预警方法，包括如下步骤：

S1、采集旋转机械设备运行过程中的运行数据；

S2、对采集的数据进行数据预处理；

S3、使用滑动窗口对预处理后的数据进行处理，构建数据集并划分为训练集与测试集；

S4、分别搭建高斯过程回归模型(GP)、基于贝叶斯优化的长短期记忆网络模型(Bayes-LSTM)和基于优化的自联想核回归模型(OAKR)，并利用训练集数据对各模型进行训练；

S5、采用测试集数据对训练好的模型进行预测，将得到的预测值与真实值做差生成残差序列；

S6、确定各模型的阈值指标，对生成的残差序列进行判断，若超出阈值，则发出预警。

优选的，在步骤S2中，所述的数据预处理包括数据降采样、数据清洗、数据去噪、数据降维以及数据标准化。

优选的，在步骤S6中，确定各模型的阈值指标具体包括：

高斯过程回归模型GP选择MSE、多变量排列熵和多变量贝叶斯因子阈值指标进行故障预警；

基于贝叶斯优化的长短期记忆网络模型Bayes-LSTM选择MSE、多变量排列熵和3σ阈值指标进行故障预警；

基于优化的自联想核回归模型OAKR选择MSE、多变量排列熵和3σ阈值指标进行故障预警。

优选的，阈值指标的阈值具体包括如下：

1)在3σ阈值指标中，残差序列的残差值如果在区间[μ+3σ,μ-3σ]之内，则判断为故障，其中μ表示残差序列数据的均值，σ表示残差序列数据的方差；

2)在MSE阈值指标中，均方误差MSE用来检测模型预测值与真实值之间的残差，N个测试样本的平均均方误差计算公式如下：

式中N为测试样本总数，p为模型变量总数，为第i个样本的第j个变量的真实值，为模型对应第i个样本的第j个变量的预测值；

将设置为故障报警阈值，如果超过该报警阈值，则判断为故障；

3)在多变量贝叶斯因子阈值指标中，多变量贝叶斯因子的表达式如下：

设健康和故障的概率均为0.5，那么贝叶斯置信度λ表示为：

当贝叶斯因子η→0，置信度λ→0％，表示趋于故障状态；

当贝叶斯因子η→∞，置信度λ→100％，表示趋于健康状态；

设定贝叶斯置信度故障预警阈值为70％，低于70％则判断为故障；

4)在多变量排列熵指标中，多变量排列熵的计算公式为：

式中，p_r表示原始多变量时间序列的边缘相对频率，m表示时间序列相空间重构的嵌入维数，l表示时间序列点数量；熵值的计算结果波动性较大，为了更好地从结果中提取更有利于分析的信息，将累积和CUSUM算法引入结果的分析中；

对于任意一个多变量排列熵的时间序列CUSUM的计算公式如下：

式中，S_upper(t)表示上限累计和，S_lower(t)表示为下限累计和，μ_H和σ_H分别为机组健康时刻熵值的均值与方差，α是检测均值偏移的参数；

当机组发生异常/故障状态时通常会引起熵值降低，因此无需设置报警预警上限，只需考虑下限累积和S_lower(t)即可；当S_lower(t)≤μ_S-3σ_S时，则判断为故障，μ_S和σ_S分别为机组健康运行时段的下限累积和S_lower(t)的均值与方差。

优选的，在步骤S6中，所述的预警是采用多级预警策略来预警，多级预警策略具体包括如下：

当其中一个模型中某一个报警指标发生预警时，启动一级黄色报警，提醒运维人员应该注意该机组；

当其中一个模型中有两个或两个以上预警指标发生预警时，启动二级橙色预警，提醒运维人员重点关注该机组运行状态；

当有两个或两个以上的模型发生二级橙色预警时，将启动三级红色预警，提醒运维人员将机组停机检修。

另一方面，为实现上述目的，本发明还提供了如下技术方案：一种面向旋转机械的多级预警装置，所述装置包括：

数据采集模块(110)、采集旋转机械设备运行过程中的运行数据；

数据预处理模块(120)、对采集的数据进行数据预处理；

数据集构建模块(130)、使用滑动窗口对预处理后的数据进行处理，构建数据集并划分为训练集与测试集；

模型构建模块(140)、分别搭建高斯过程回归模型GP、基于贝叶斯优化的长短期记忆网络模型Bayes-LSTM和基于优化的自联想核回归模型OAKR，并利用训练集数据对各模型进行训练；

残差序列生成模块(150)、采用测试集数据对训练好的模型进行预测，将得到的预测值与真实值做差生成残差序列；

预警模块(160)、确定各模型的阈值指标，对生成的残差序列进行判断，若超出阈值，则发出预警。

另一方面，为实现上述目的，本发明还提供了如下技术方案：一种电子设备，所述电子设备包括：处理器(210)；和存储器(220)，用于存储一个或多个程序；

当所述一个或多个程序被处理器(210)执行时，使得所述处理器执行所述的面向旋转机械的多级预警方法。

另一方面，为实现上述目的，本发明还提供了如下技术方案：一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器(210)执行时实现所述的面向旋转机械的多级预警方法。

本发明的有益效果是：本发明本发明通过多个状态监测模型GP模型、Bayes-LSTM模型和OAKR模型对旋转机械设备的运行状态进行预测。在此基础上引入3σ、MSE指标、多变量贝叶斯因子指标和多变量排列熵等指标，通过计算恰当的阈值，从而实现设备的故障预警。本发明通过结合多个状态监测模型和多个阈值指标，制定了一套多级预警策略，经实际数据验证能够有效的减少模型误报，提高报警正确率，提供给运维人员最佳的维修措施，减少不必要的停机损失。

附图说明

图1为本发明方法步骤流程示意图；

图2为实施例中LSTM单元示意图；

图3为实施例中多级预警策略流程图；

图4是本发明实施例装置模块示意图；

图5是本发明实施例设备结构示意图；

图中，110-数据采集模块；120-数据预处理模块；130-数据集构建模块；140-模型构建模块；150-残差序列生成模块；160-预警模块；210-处理器；220-存储器。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图5，本发明提供一种技术方案：一种面向旋转机械的多级预警方法，如图1所示，包括如下步骤：

S1、采集旋转机械设备运行过程中的运行数据。

通过传感器等数据采集装置获取燃气轮机设备运行过程中的运行数据。

S2、对采集的数据进行数据预处理。

对采集数据进行数据预处理，包括但不限于数据降采样、数据清洗、数据去噪、数据降维、数据标准化。

由于数据模型计算成本较大，故需对数据进行数据降采样处理。

数据清洗则是为了去除异常值并补全因记录遗漏等问题导致的空缺值。

数据去噪是消除原始数据中存在的不确定噪声。

数据降维是由于旋转机械等工业装备是多变量耦合的系统，原始数据包含变量较多，故需进行降维处理以降低复杂度。

数据标准化是消除多维变量的量纲影响。

S3、使用滑动窗口对预处理后的数据进行处理，构建数据集并划分为训练集与测试集。

进行时序预测即以历史数据预测未来时刻的数据，为了充分利用全部数据的信息，使用滑动窗口对数据进行处理，构建数据集并划分为训练集与测试集，以健康数据作为训练集，用于后续对模型进行训练。

S4、分别搭建高斯过程回归模型GP、基于贝叶斯优化的长短期记忆网络模型Bayes-LSTM和基于优化的自联想核回归模型OAKR，并利用训练集数据对各模型进行训练。

S5、采用测试集数据对训练好的模型进行预测，将得到的预测值与真实值做差生成残差序列。

进一步的，预警是采用多级预警策略来预警，多级预警策略具体包括如下：

当有两个或两个以上的模型发生二级橙色预警时，将启动三级红色预警，提醒运维人员将机组停机检修，以免造成重大经济损失。

高斯过程回归模型(GP)：

高斯过程与高斯分布联系紧密，高斯过程可以认为是高斯分布的推广，二者不同之处在于高斯分布是关于变量的，而高斯过程则是一种无限维空间上的随机过程。

针对一元高斯过程，又称为正态分布，为连续性概率分布，由期望μ与标准差σ确定，其概率密度函数如式1所示。

多元高斯分布概率密度函数为：

如果多元高斯分布的随机变量为无数个，且是离散时间的状态量，即随机变量为随时间变化的函数，那么该过程则称为高斯过程。其中每个时刻的均值用一个均值函数刻画，两个不同时刻的方差用一个协方差函数刻画。高斯过程表达式如式3所示。

式中，μ为均值函数，C为协方差函数，也称为核函数，本发明使用高斯核函数。

高斯过程回归(Gaussian Process Regression,GPR)即为在高斯过程基础上发展出的一种对数据进行回归分析的非参数模型。

从函数空间对GPR模型进行推导，考虑没有噪音的情况，给定训练数据X＝{X₁,X₂,…,X_N},y＝{y₁,y₂,…,y_N},假设测试集输入为X^*，输出为y^*,则有

依据联合高斯分布性质，则有：

式(4)-式(5)中，N代指高斯分布，K为核函数。在给定训练数据X，y以及测试集输入X^*的情况下，通过计算式(4)中的各项，即可获得测试集输出所对应的高斯分布，从而实现预测。

基于贝叶斯优化的长短期记忆网络模型(Bayes-LSTM)：

长短期记忆(Long Short-Term Memory，LSTM)包含遗忘门、输入门、输出门(遗忘门确定前一个步长中哪些相关的信息需要被保留；输入门确定当前输入中哪些信息是重要的，需要被添加的；输出门确定下一个隐藏状态应该是什么)，LSTM单元示意图如图2所示。

图2中，x_t表示当前时刻的输入，h_t-1表示前一个时刻的隐藏状态，C_t-1表示前一个时刻的单元状态，h_t表示当前时刻的隐藏状态，C_t表示当前时刻的单元状态。

LSTM有两个输出，其中当前时刻的隐藏状态h_t与当前的单元状态C_t有关，C_t与前一个时刻的单元状态C_t-1和候选值C_t′有关。其中C_t′计算公式：

C_t′＝tanh(W_c[h_t-1，x_t]+b_c) (6)

当前的单元状态C_t受遗忘门f_t和输入门i_t影响：

f_t＝σ(W_f[h_t-1，x_t]+b_f) (7)

i_t＝σ(W_i[h_t-1，x_t]+b_i) (8)

其中，遗忘门f_t用来控制内存中前一个时刻的单元状态C_t-1是否会被遗忘掉，输入门i_t决定候选值能多大程度的存入当前单元状态C_t：

C_t＝f_t*C_t+i_t*C′_t (9)

基于当前单元状态C_t，可计算得到当前时刻的隐藏状态h_t，输出门控制了当前时刻能输出多少隐藏状态：

h_t＝o_t*tanh(C_t) (10)

O_t＝σ(W_o[h_t-1，x_t]+b_o) (11)

基于当前的隐藏状态h_t，可以计算出当前时刻的输出：

在对深度学习模型参数进行贝叶斯推理时，假设权重先验值服从均值为μ、方差为δ的高斯分布，通过贝叶斯推理来优化权重的均值和方差。在使用模型进行预测时，通过蒙特卡洛方法从每个高斯分布中采样，得到权重值，进行多次采样后，得到多次预测结果，其平均值作为最终的预测结果。

给定训练数据，假设输入为X＝{x₁，...，x_N}，这里输入即可以是原始数据或优化治理后的降噪数据，也可以是降维后的主成分，输出为Y＝{y₁，...，y_N}，贝叶斯神经网络任意一权重为w，非线性映射函数f代表贝叶斯神经网络，输出为y＝f^w(x)。根据贝叶斯原理，在神经网络每个权重上设置先验分布p(w)，后验分布可以写为p(w|X，Y)。后验分布很难通过解析计算获得，通常需要抽样近似。本发明定义一个近似变分分布q(w|θ)与参数θ，让其尽量接近从给定数据中学到的真实后验分布，两个分布之间的相似度或距离通过Kullback-Leibler(KL)散度来测量，即：

通过最小化公式(13)的KL散度，变分分布q(w|θ)可以近似后验分布p(w|X，Y)，预测分布可以近似为：

p(y^*|x^*，X，Y)＝∫p(y^*|x^*，w)p(w|X，Y)dw

≈∫p(y^*|x^*，w)q^*(w|θ)dw＝：q^*(y^*|x^*，θ) (14)

其中x^*表示输入数据，y^*表示相应的输出。

在实际应用时，为了提高优化收敛，同时确保效率，通常对公式(13)的KL散度取对数，再最大化其下限(Evidence Lower Bound，ELB)，目标函数如下：

O_VI＝∫q(w|θ)logp(Y|X，w)dw-KL(q(w|θ)||p(w)) (15)

其中O_VI定义了贝叶斯网络参数估计的优化目标。

基于优化的自联想核回归方法(OAKR)：

自联想核回归方法(Auto-associative Kernel Regression，AAKR)是一种基于两列数组相似性原理的非参数建模技术，它使用监测向量与记忆向量的相似度来推断模型的响应，模型训练简单，不依赖于设备和故障类型信息，适用于多变量的各种设备运行监测和故障报警。OAKR方法是在此基础上通过优化的方式，得到最佳的模型参数，从而更好的用于设备状态监测和故障预警。

提取设备多维监测数据，把用于创建OAKR模型的样本记忆向量储存在一个矩阵X中，其中X_i,j代表第j个关键变量的第i个向量值。对于n个记忆向量，p个变量的记忆矩阵X可表示为：

监测向量用1×p的矩阵V表示为：

V＝[v₁，v₂，...，v_p] (17)

模型的预测值可以通过对记忆矩阵X的每一个记忆向量进行加权平均计算得到，其中加权平均参数用机组健康数据进行估计。OAKR方法由四步组成：首先，计算监测向量v和每一个记忆向量X_i之间的距离，得到一个n×1的距离向量d，本发明采用最常用的欧式距离计算：

第二步，通过得到的距离矩阵d和高斯核函数来计算权重w，w也是一个n×1的向量矩阵，每个元素由以下公式计算：

式中h是核函数带宽，决定了核函数的平滑程度。小的带宽h可以体现更多细节但常常导致尾部欠平滑；相反，大的带宽h常丢失细节，导致变化剧烈部分过于平滑。

第三步，使用单纯形算法优化带宽h。

第四步，通过得到的权重w做监测向量v的预测值由每个记忆向量X_i的加权平均值计算得到，计算公式如下：

3σ阈值指标：

3σ指标是基于正态分布的一种检验指标，使用模型对数据进行预测，利用预测值与真实值生成残差，当残差线超过一定范围显示报警,通过利用残差值的统计特性设定判断报警点。残差值是空值参数,当残差符合正态分布的情况下,目标值的残差值落在区间[μ+3σ,μ-3σ]之外时为极小概率事件,其中μ表示残差序列数据的均值，σ表示残差序列数据的方差，因而,一旦落入此区间内,基本可以断定设备存在故障。

MSE阈值指标：

MSE是衡量平均误差的一种较方便的方法，MSE可以衡量数据的变化程度，MSE的值越小，说明机组运行状态越健康。本发明采用基于移动窗口策略的MSE指标来对各模型输出残差进行分析，需要注意的是，此时N为移动窗口的长度。当训练好的模型用于设备运行监测和故障报警时，MSE超过某一给定的阈值则表征设备健康状态出现异常，并触发报警。报警时的MSE报警阈值通常由模型测试阶段确定，在模型测试阶段，测试数据为机组健康运行数据，计算得到的MSE值表征机组健康运行状态，报警阈值设置应注意不易过小，以免产生误报，将模型测试阶段计算得到的设置为故障报警阈值。

均方误差(MSE)用来检测模型预测值与真实值之间的残差，N个测试样本的平均均方误差计算公式如下：

式中N为测试样本总数，p为模型变量总数，为第i个样本的第j个变量的真实值，为模型对应第i个样本的第j个变量的预测值。

多变量贝叶斯因子指标：

多变量贝叶斯因子是一种基于贝叶斯风险的决策方法，用于不确定条件下多元预测模型的有效性评估。该方法基于贝叶斯推理和模型预测数据和测量数据残差的高斯分布假设，导出一个广义似然比，即多变量贝叶斯因子作为定量验证指标，最后与预先设定的阈值进行比较，来对多变量残差数据进行分析验证。

同样，假设在时刻t的实际监测数据和模型预测数据的时间序列样本v_t＝[v_t-l+1，...，v_t]与各含有l个时间序列数据点，令Δ＝[ε₁，ε₂，...，ε_p]^T代表两组数据对应的残差序列，多变量贝叶斯方法中残差序列Δ是一个p×l的矩阵，为p个变量的残差数据，每个变量包含l个观测值，其中ε_i＝[ε_i1，ε_i2，...，ε_il](i＝1，2，...，p)为第i个变量ε_i的l个观测值。假设多变量残差数据Δ服从多元正态分布N_p(μ，∑)，其中向量μ＝E[ε]表示相应的p个均值，矩阵∑＝E[(ε-μ)(ε-μ)′]表示为p个变量的协方差矩阵。考虑到多个变量之间的相关性，协方差∑受数据的不确定影响。因此，多个观测变量的似然函数L(Δ)表示为：

系统健康运行状态下，观察到的均值集合应为零矩阵，其中，为第i个变量ε_i的1个数据点的均值。假设H₀：μ＝E₀代表健康状况，H₁：μ≠E₀，μ|H₁～N(ρ，Λ)代表故障状况，其中E₀＝[0，0，...，0]^T。矩阵∑＝E[(ε-μ)(ε-μ)′]表示为p个变量的协方差矩阵。考虑到多个变量之间的相关性，协方差∑受数据的不确定影响。多变量贝叶斯因子的表达式与之前描述的单变量情况相似，采用类似的方法来推导：

假定系统健康和故障的概率均为0.5，那么贝叶斯置信度λ可以表示为：

当贝叶斯因子η→0，置信度λ→0％，表示系统趋于故障状态；当贝叶斯因子η→∞，置信度λ→100％，表示系统趋于健康状态，因此设定贝叶斯置信度故障预警阈值为70％，低于70％则代表系统发生故障。

多变量排列熵指标：

熵的概念作为非线性信号复杂性的指标已经达成了广泛的共识。熵泛指某些物质系统状态复杂度的一种量度，某些物质系统状态可能出现的程度。熵的本质是一个系统内在的混乱程度，熵值越大代表系统状态越复杂、随机，熵值越小代表系统状态越简单、规则。在旋转机械等工业装备的状态监测过程中，如果系统的熵值发生连续大幅度的改变，则说明设备的运行状态发生了本质改变，机组中可能存在潜在的故障。

本发明使用的熵为多变量多尺度排列熵(MMSPE)，首先介绍其中的排列熵算法(PE)算法。PE算法是针对时间序列本身所具有的空间特性而提出的信号突变检测方法。该方法的主要优点为：1)计算简单，抗噪能力较强；2)算法对时间敏感性较强，可获得较高的分辨率；3)算法的输出结果直观，对突变信息有较好的可识别性。

设一时间序列x＝[x₁，x₂，...，x_l]，对其进行相空间重构，得到矩阵：

式中：m和τ分别为嵌入维数和延迟时间；K＝l-(m-1)τ是重构后时间序列长度。矩阵中的每一行为一个重构分量，共有K个重构分量。将x重构矩阵中的第j个重构分量[x(j)，x(j+τ)，…，x(j+(m-1)τ)]，根据数值大小按照升序重新排列，j₁，j₂，...，j_m表示重构分量中各个元素所在列的索引，即

x[i+(j₁-1)τ]≤x[i+(j₂-1)τ]≤…≤x[i+(j_m-1)τ] (26)

对于任意一个时间序列x重构所得的矩阵中每一行都可以得到一组符号序列

S(r)＝(j₁，j₂，…，j_m)，r＝1，2，…k，k≤m！ (27)

值得注意的是，m维空间映射不同的符号序列(j₁，j₂，...，j_m)总共有m！种，符号序列S(r)是其中的一种排列。若计算每一种符号序列出现的概率P₁，P₂，...，P_k，时间序列x的k种不同序号序列的排列熵可以定义为

当时，H_P(m)就达到最大值log₂(m！)。为了方便，通常用log₂(m！)将H_P(m)进行归一化处理，即

在PE的基础上，MMSPE考虑了多变量和多尺度对结果的影响。同样，假设在时刻t的实际监测数据和各模型预测数据的时间序列样本v_t＝[v_t-l+1，...，v_t]与各含有l个时间序列数据点，令Δ＝[ε₁，ε₂，...，ε_p]^T代表两组数据对应的残差序列，Δ是一个p×l的矩阵，包含p个变量，每个变量包含l个观测值，MMSPE算法的实现分为以下几个步骤：

第一步，粗粒化原始多变量时间序列Δ，定义尺度因子s，多元粗粒度时间序列中的每个元素可以推导为：

第二步，计算粗粒度多维时间序列的多变量多尺度排列熵。针对多变量时间序列对于每一个变量i∈[1，p]、排列方式r∈[1，m！]，统计每个变量经过相空间重构后符号序列S(r)出现的次数q，相对频率P_i，r可表示为：

通过这个过程，原始的多变量时间序列被转换成一个时间相关矩阵，从该矩阵中可以计算出相关的统计量和熵。序列分布的边缘相对频率可表示为

多变量多尺度排列熵的计算公式为：

式中，p_r表示原始多变量时间序列的边缘相对频率，m表示时间序列相空间重构的嵌入维数，l表示时间序列点数量。

通常熵值的计算结果波动性较大，为了更好地从结果中提取更有利于分析的信息，本发明将累积和(Cumulative Summation，CUSUM)算法引入结果的分析中，CUSUM是一种序贯分析法，它的设计思想是对样本数据信息加以累积，将过程的小偏移累积起来，达到放大的效果，从而提高检测过程中对小偏移的灵敏度。CUSUM主要研究信号均值和方差信息来判断系统是否发生了变化，其主要思想是：当监测量的CUSUM明显比正常平稳运行条件下的平均水平高或者低的时候，就意味着系统发生了变化。对于任意一个多变量排列熵的时间序列CUSUM的计算公式如下：

式中，S_upper(t)表示上限累计和，S_lower(t)表示为下限累计和。μ_H和σ_H分别为机组健康时刻熵值的均值与方差，α是检测均值偏移的参数。在本发明中，当机组发生异常状态时通常会引起熵值降低，所以只需考虑下限累积和S_lower(t)即可。

CUSUM报警阈值由3σ准则确定，由于S_lower(t)≤0恒成立，故无需设置报警预警上限，当S_lower(t)≤μ_S-3σ_S时，认为系统发生故障，其中，μ_S和σ_S分别为机组健康运行时段的下限累积和S_lower(t)的均值与方差。

以实际的燃气轮机运行数据为例验证本发明所提出的方法，包括如下：

数据源自某重型燃气轮机组，共分为10组数据，其中健康数据6组，故障数据4组。首先对数据进行预处理，包括数据降采样、数据空缺值填充、数据去噪、数据降维和数据标准化，从而得到高质量数据用于后续构建状态监测模型；

对10组数据划分数据训练集和测试集，比例为5:5，选用训练集的数据建立GP模型、Bayes-LSTM模型和OAKR模型；

通过模型的预测结果，得到预测值与实际值的残差序列；

针对生成的残差序列，分别使用3σ、MSE、多变量排列熵以及多变量贝叶斯因子指标进行故障预警阈值的确定；

使用测试集数据进行故障预警测试，并通过多级预警策略流程，如图3所示，进行多级预警。

预警结果：

统计10组数据经多级预警策略后的报警结果，其中故障数据如表1所示：

表1故障数据多级预警策略结果统计表

所有故障数据均实现了报警，健康数据报警结果如表2所示：

表2健康数据多级预警策略结果统计表

只有数据2出现了误报，其余健康数据均未最终报警。综合10组数据报警结果，正确率为90％，漏报率为0，误报率为10％。通过数据结果发现，多级预警策略能够对燃气轮机的运行状态进行有效的监测，并能提前进行故障预警，相比于单模型和单个阈值指标的预警结果，本发明所提出的多级报警策略有效降低了机组的误报漏报率，减少了不必要的停机和人员劳动消耗。

基于与上述方法实施例相同地发明构思，本申请实施例还提供了一种面向旋转机械的多级预警装置，该装置可以实现上述方法实施例所提供的功能，如图4所示，该装置包括：

数据采集模块110、采集旋转机械设备运行过程中的运行数据；

数据预处理模块120、对采集的数据进行数据预处理；

数据集构建模块130、使用滑动窗口对预处理后的数据进行处理，构建数据集并划分为训练集与测试集；

模型构建模块140、分别搭建高斯过程回归模型GP、基于贝叶斯优化的长短期记忆网络模型Bayes-LSTM和基于优化的自联想核回归模型OAKR，并利用训练集数据对各模型进行训练；

残差序列生成模块150、采用测试集数据对训练好的模型进行预测，将得到的预测值与真实值做差生成残差序列；

预警模块160、确定各模型的阈值指标，对生成的残差序列进行判断，若超出阈值，则发出预警。

基于与上述方法实施例相同地发明构思，本申请实施例还提供了一种设备，如图5所示，所述设备包括：处理器210；和存储器220，用于存储一个或多个程序；

当所述一个或多个程序被处理器210执行时，使得所述处理器执行所述的面向旋转机械的多级预警方法。

所述面向旋转机械的多级预警方法包括如下步骤：

采集旋转机械设备运行过程中的运行数据；

对采集的数据进行数据预处理；

使用滑动窗口对预处理后的数据进行处理，构建数据集并划分为训练集与测试集；

分别搭建高斯过程回归模型GP、基于贝叶斯优化的长短期记忆网络模型Bayes-LSTM和基于优化的自联想核回归模型OAKR，并利用训练集数据对各模型进行训练；

采用测试集数据对训练好的模型进行预测，将得到的预测值与真实值做差生成残差序列；

确定各模型的阈值指标，对生成的残差序列进行判断，若超出阈值，则发出预警。

基于与上述方法实施例相同地发明构思，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器210执行时实现所述的面向旋转机械的多级预警方法。

所述面向旋转机械的多级预警方法包括如下步骤：

采集旋转机械设备运行过程中的运行数据；

对采集的数据进行数据预处理；

本发明通过多个状态监测模型GP模型、Bayes-LSTM模型和OAKR模型对旋转机械设备的运行状态进行预测。在此基础上引入3σ、MSE指标、多变量贝叶斯因子指标和多变量排列熵等指标，通过计算恰当的阈值，从而实现设备的故障预警。本发明通过结合多个状态监测模型和多个阈值指标，制定了一套多级预警策略，经实际数据验证能够有效的减少模型误报，提高报警正确率，提供给运维人员最佳的维修措施，减少不必要的停机损失。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向旋转机械的多级预警方法，其特征在于，包括如下步骤：

S1、采集旋转机械设备运行过程中的运行数据；

S2、对采集的数据进行数据预处理；

S4、分别搭建高斯过程回归模型GP、基于贝叶斯优化的长短期记忆网络模型Bayes-LSTM和基于优化的自联想核回归模型OAKR，并利用训练集数据对各模型进行训练；

S6、确定各模型的阈值指标，对生成的残差序列进行判断，若超出阈值，则发出预警；

确定各模型的阈值指标具体包括：

基于优化的自联想核回归模型OAKR选择MSE、多变量排列熵和3σ阈值指标进行故障预警；

在3σ阈值指标中，残差序列的残差值如果在区间[μ+3σ,μ-3σ]之内，则判断为故障；

在MSE阈值指标中，均方误差MSE用来检测模型预测值与真实值之间的残差，N个测试样本的平均均方误差计算公式如下：

在多变量贝叶斯因子阈值指标中，多变量贝叶斯因子的表达式如下：

设健康和故障的概率均为0.5，那么贝叶斯置信度λ表示为：

式中，Δ表示残差序列，∑表示协方差矩阵；

当贝叶斯因子η→0，置信度λ→0％，表示趋于故障状态；

当贝叶斯因子η→∞，置信度λ→100％，表示趋于健康状态；

在多变量排列熵指标中，多变量排列熵的计算公式为：

熵值的计算结果波动性较大，为了更好地从结果中提取更有利于分析的信息，将累积和CUSUM算法引入结果的分析中；

当机组发生异常/故障状态时通常会引起熵值降低，因此无需设置报警预警上限，只需考虑下限累积和S_lower(t)即可；当S_lower(t)≤μ_S-3σ_S时，则判断为故障，μ_S和σ_S分别为机组健康运行时段的下限累积和S_lower(t)的均值与方差；

在步骤S6中，所述的预警是采用多级预警策略来预警，多级预警策略具体包括如下：

2.根据权利要求1所述的面向旋转机械的多级预警方法，其特征在于：在步骤S2中，所述的数据预处理包括数据降采样、数据清洗、数据去噪、数据降维以及数据标准化。

3.一种根据权利要求1-2中任一项所述面向旋转机械多级预警方法的多级预警装置，其特征在于，所述装置包括：

数据预处理模块(120)、对采集的数据进行数据预处理；

4.一种电子设备，其特征在于：所述电子设备包括：处理器(210)；和存储器(220)，用于存储一个或多个程序；

当所述一个或多个程序被处理器(210)执行时，使得所述处理器执行如权利要求1-2中任一项所述的面向旋转机械的多级预警方法。

5.一种计算机可读存储介质，其特征在于：其上存储有计算机程序，所述计算机程序被处理器(210)执行时实现如权利要求1-2中任一项所述的面向旋转机械的多级预警方法。