CN112904810B

CN112904810B - 基于有效特征选择的流程工业非线性过程监测方法

Info

Publication number: CN112904810B
Application number: CN202110044130.5A
Authority: CN
Inventors: 袁小锋; 网文聪; 王雅琳; 王凯; 阳春华; 桂卫华
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2022-07-01
Anticipated expiration: 2041-01-13
Also published as: CN112904810A

Abstract

本发明提供了一种基于有效特征选择的流程工业非线性过程监测方法，包括：步骤1，获取流程工业正常运行时的过程变量，根据获取的过程变量构建正常数据集，并对正常数据集进行数据预处理；步骤2，将预处理后的正常数据样本输入预先设置的堆叠自编码器模型，提取预处理后的正常数据样本的隐藏层特征，并预训练多个自编码器，将预训练后的多个自编码器的输入层和隐藏层依次连接和堆叠，构建训练后的堆叠自编码器模型，对训练后的堆叠自编码器模型的参数进行微调，得到训练后的堆叠自编码器模型的超参数。本发明通过有效特征选择策略对提取的隐藏层特征做选择，选取对故障监测更有效的特征，大幅提高了故障监测的准确率，极大地提高了故障监测效果。

Description

基于有效特征选择的流程工业非线性过程监测方法

技术领域

本发明涉及流程工业技术领域，特别涉及一种基于有效特征选择的流程工业非线性过程监测方法。

背景技术

流程工业指生产制造流程性产品的现代制造业，主要处理以连续和间歇物料流、能量流为主的产品。其产品加工方法主要有化学和物理反应、分离、混合等，近几十年，流程工业一直是我国国民经济和社会发展的支柱性产业。随着生产能力与科学技术的发展，中国的流程工业也有了长足的提升和进步。如今，工业生产过程面临新的形势和新的问题，自动化、信息化、智能化已成为工业生产过程转型升级、安全生产、节能减排的发展方向。因此，系统的能力和现代化水平日益提高，工业规模迅速扩大，对于大型生产系统来说，系统异常的出现可能会导致生产损失、作业单元损坏，甚至造成人员伤亡。为了保证工业系统的正常运行和产品质量，确保人员和财产的安全，需要实时识别异常工况的存在并及时给与操作恢复生产状况，即对工业生产过程在线监测。

目前，计算机技术与分布式控制系统在流程工业广泛应用，使得大量的过程变量数据也能被收集和利用，然而许多产品生产过程的故障事件仍由操作人员人工处理。由于操作人员自身经验及能力的不足，在面对生产异常状况时，难免采用错误的应对方式，导致工业生产不能平稳的运行。因此，本研究的重点内容是引入计算机控制系统对流程工业生产过程进行实时且准确的监控，在应对生产故障时对现场操作人员进行指导与协助。

近年来，工业数据的采集更加方便快捷，在诸多过程监控的研究方法中，大多使用定性分析方法与定量分析方法实施工业过程的实时监控。定性分析方法是通过分析系统变量或参数之间的关系来描述一个系统的状态，常见的方法有：专家系统方法、图论方法和与定性仿真方法。定量分析法是使用数学模块对工业数据的数量特征、数量关系及数量变化进行分析的方法，从而揭示和描述过程变量间的相关关系和发展趋势。通常情况下，定量分析方法分为基于解析模型的方法和数据驱动的方法。

基于解析模型的过程监控方法研究较早。此类方法包含了对系统内部的隐层认识，但是它只适用于被监控对象拥有精确的数学模型，且建模过程复杂，而实际中，工业过程的精确数学模型往往难以得到，此时该方法便不能得到满意的监控效果。目前，在现代工业工厂中，不同的操作单元可测量大量反映工业过程操作状态的变量，从而给基于数据驱动的方法提供了契机。基于数据驱动的过程监控是一种有效的技术，它可以从现代过程系统中随时可用的过程数据中提取信息，从而在不需要知道系统精确解析模型的情况下更好地了解过程。由于这种数据驱动的性质，数据驱动的监测方法非常适合于复杂和大规模的流程系统。数据驱动方法使用历史数据来建立流程监控模型，进而得出故障检测的监控指标。

然而，基于数据驱动的过程监测也存在以下问题。模型提取的有效特征信息不充分，如何去除冗余信息，提取到关键信息也是提高系统监测性能的一个重要方面。但是现有的过程监控的特征提取方法无法从这些高度非线性且动态变化的数据中提取关键的有效特征，影响了监控的性能。而堆栈自编码器作为一种提取特征的方法，通过非线性映射训练多个自编码器网络，将高维数据转换为低维特征，能够获得输入数据的抽象关键特征并提取到变量的非线性关系。

发明内容

本发明提供了一种基于有效特征选择的流程工业非线性过程监测方法，其目的是为了解决传统的自编码器模型仅仅关注于尽可能重构原始输入的特征提取，忽略了从故障检测的角度提取增大故障数据与正常数据区别的特征信息的问题。

为了达到上述目的，本发明的实施例提供了一种基于有效特征选择的流程工业非线性过程监测方法，包括：

步骤1，获取流程工业正常运行时的过程变量，根据获取的过程变量构建正常数据集，并对正常数据集进行数据预处理；

步骤2，将预处理后的正常数据样本输入预先设置的堆叠自编码器模型，提取预处理后的正常数据样本的隐藏层特征，并预训练多个自编码器，将预训练后的多个自编码器的输入层和隐藏层依次连接和堆叠，构建训练后的堆叠自编码器模型，对训练后的堆叠自编码器模型的参数进行微调，得到训练后的堆叠自编码器模型的超参数；

步骤3，通过有效特征选择策略选择出预处理后的正常数据样本隐藏层特征中的有效特征，根据选择出的正常数据样本隐藏层特征的有效特征计算正常数据集中样本的统计量，并通过核密度估计计算统计量的控制限；

步骤4，获取流程工业运行过程中的实时过程变量，根据获取的实时过程变量构建在线检测数据集，并对在线检测数据集进行数据预处理；

步骤5，将预处理后的在线检测数据样本输入训练后的堆叠自编码器模型，提取预处理后的在线检测数据样本的隐藏层特征，通过有效特征选择策略选择隐藏层特征中的有效特征，根据选择出的隐藏层特征的有效特征计算在线检测数据集中样本的统计量；

步骤6，将在线检测数据集中各个样本的统计量与统计量的控制限进行比较，判断在线检测数据集中各个样本的统计量是否超过统计量的控制限，当在线检测数据集中某一在线检测数据样本的统计量超过统计量的控制限时，进行报警提示，且将当前在线检测数据样本判断为故障的在线检测数据样本，并记录判断为故障的在线检测数据样本的个数，当在线检测数据集中某一在线检测数据样本的统计量未超过统计量的控制限时，将当前在线检测数据样本判断为正常的在线检测数据样本，根据在线检测数据集中的故障数据样本的个数和在线检测数据集中判断为故障的在线检测数据样本的个数计算故障检测率。

其中，所述步骤1具体包括：

基于正常流程工业按一定时间顺序采集过程变量，根据采集的过程变量构建正常数据集，正常数据集表示为X₁＝[x₁,x₂,...,x_n]^T∈R^n×m，其中，n表示正常数据集数，m表示过程变量个数；

对正常数据集X₁＝[x₁,x₂,...,x_n]^T∈R^n×m进行数据预处理，如下所示：

其中，i表示正常数据样本，i＝1,2,...,n，

表示第i个正常数据样本的第m个过程变量，

表示正常数据样本中的第m个过程变量中的最大值，

表示正常数据样本中的第m个过程变量中的最小值。

其中，所述步骤2具体包括：

将预处理后的正常数据集输入预先设置的堆叠自编码器模型的首个自编码器进行模型训练，自编码器与解码器的结构，如下所示：

h_i＝f(x_i；θ₁)＝f(W₁x_i+b₁),θ₁＝{W₁,b₁} (2)

r_i＝g(h_i；θ₂)＝g(W₂h_i+b₂),θ₂＝{W₂,b₂} (3)

其中，h＝f(x)表示隐藏层的激活函数，r＝g(h)表示输出层的激活函数；θ₁表示隐藏层的参数集合，θ₂表示输出层的参数集合，k表示隐藏层结点的个数，x_i∈R^m表示第i个正常数据样本，h_i∈R^k表示经过自编码器提取的隐藏层特征，g(·)表示解码函数，r_i∈R^m表示输出向量，W₁表示编码器的权重，W₁∈R^k×m，W₂表示解码器的权重，W₂∈R^m×k，b₁表示编码器的偏置参数，b₁∈R^k，b₂表示解码器的偏置参数，b₂∈R^m。

其中，所述步骤2还包括：

将正常数据集输入预先设置的堆叠自编码器模型的首个自编码器，通过首个自编码器提取隐藏层特征；

将提取的隐藏层特征输入后一个自编码器，通过后一个自编码器提取隐藏层特征；

重复执行将前一个自编码器提取的隐藏层特征数据输入后一个自编码器，通过后一个自编码器提取隐藏层特征，直到无后一个自编码器停止，获得各个自编码器的权重、各个自编码器的偏置参数和各个自编码器的隐藏层特征；

将预训练完成后的各个自编码器按照输入层和隐藏层依次连接起来，构建训练后的堆叠自编码器模型；

通过反向传播算法对训练后的堆叠自编码器模型的参数进行全局微调。

其中，所述步骤3具体包括：

通过有效特征选择策略对堆叠自编码器最终提取的隐藏层的特征进行有效特征提取，在特征空间构建的统计量T²，如下所示：

根据式(4)定义正常数据集隐藏层的每个特征的贡献度的计算公式并计算正常数据集隐藏层各个特征的贡献度，如下所示：

其中，c_j表示正常数据集隐藏层第j个特征的贡献度，f表示自编码器激活函数，X₁表示正常数据集，w_1j表示正常数据集隐藏层第j个特征的自编码器权重，

表示正常数据集隐藏层第j个特征的偏置参数，

表示正常数据集提取的隐藏层中第j个特征的均值，σ_1j ²表示正常数据集提取的隐藏层中第j个特征的方差。

其中，所述步骤3还包括：

将计算出的隐藏层各个特征的贡献度进行降序排列，选取贡献度最大的d个特征，训练后的堆叠自编码器模型的超参数d满足以下条件，如下所示：

C(d)≥C^* (6)

其中，C^*表示预先设定的阈值，C^*设定为80％到90％之间；

假设第l个自编码器的隐藏层有y个特征，则y个特征的贡献度降序排列为c₁≥c₂≥...≥c_y，得出满足式(6)条件的最小训练后的堆叠自编码器模型的超参数d，如下所示：

其中，d表示训练后的堆叠自编码器模型的超参数，1≤d≤y，y表示特征个数，k表示第k个隐藏层特征，c_k表示第k个隐藏层特征的贡献度；

计算正常数据集中样本的统计量，如下所示：

其中，T₁ ²表示正常数据集中样本的统计量，H_1j表示正常数据集提取的隐藏层中第j个特征的值。

其中，所述步骤3还包括：

通过核密度估计计算统计量的控制限，如下所示：

其中，p(x)表示正常数据集X₁的概率分布函数，X_1i表示正常数据集的第i个正常数据样本，n表示正常数据样本个数，h表示带宽参数，K(·)表示核函数；

核函数K(·)满足以下条件：

K(x)≥0 (11)。

其中，所述步骤4具体包括：

获取流程工业中实时的过程变量，根据获取的实时过程变量构建在线检测数据集，在线检测数据集表示为X₂＝[x₁,x₂,...,x_n]^T∈R^n×m，在线检测数据集中包括正常在线检测数据样本和故障数据样本，对在线检测数据集X₂＝[x₁,x₂,...,x_n]^T∈R^n×m进行数据预处理，如下所示：

其中，θ表示在线检测数据样本，θ＝1,2,...,n，

表示第θ个在线检测数据样本的第m个过程变量。

其中，所述步骤5具体包括：

将预处理后的在线检测数据样本输入训练后的堆叠自编码器模型，提取在线检测数据样本隐藏层的特征，通过有效特征选择策略选择在线检测数据样本隐藏层的特征的有效特征，根据选择出的在线检测数据样本隐藏层特征的有效特征计算在线检测数据集中样本的统计量，如下所示：

其中，T₂ ²表示在线检测数据集中样本的统计量，H_2j表示在线检测数据集提取的隐藏层中第j个特征的值。

其中，所述步骤6具体包括：

计算故障检测率，如下所示：

其中，fdr表示故障检测率，a表示在线检测数据集中被判断为故障的在线检测数据样本的个数，s表示在线检测数据集中故障数据样本的个数。

本发明的上述方案有如下的有益效果：

本发明的上述实施例所述的基于有效特征选择的流程工业非线性过程监测方法，通过有效特征选择策略对提取的原始特征做选择，选取对故障监测更有效的特征，大幅提高了故障监测的准确率，极大地提高了故障监测效果。

附图说明

图1为本发明的流程图；

图2为本发明的TE过程示意图；

图3为本发明在特征空间的故障检测率对比示意图；

图4为本发明在残差空间的故障检测率对比示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的自编码器模型仅仅关注于尽可能重构原始输入的特征提取，忽略了从故障检测的角度提取增大故障数据与正常数据区别的特征信息的问题，提供了一种基于有效特征选择的流程工业非线性过程监测方法。

如图1至图4所示，本发明的实施例提供了一种基于有效特征选择的流程工业非线性过程监测方法，包括：步骤1，获取流程工业正常运行时的过程变量，根据获取的过程变量构建正常数据集，并对正常数据集进行数据预处理；步骤2，将预处理后的正常数据样本输入预先设置的堆叠自编码器模型，提取预处理后的正常数据样本的隐藏层特征，并预训练多个自编码器，将预训练后的多个自编码器的输入层和隐藏层依次连接和堆叠，构建训练后的堆叠自编码器模型，对训练后的堆叠自编码器模型的参数进行微调，得到训练后的堆叠自编码器模型的超参数；步骤3，通过有效特征选择策略选择出预处理后的正常数据样本隐藏层特征中的有效特征，根据选择出的正常数据样本隐藏层特征的有效特征计算正常数据集中样本的统计量，并通过核密度估计计算统计量的控制限；步骤4，获取流程工业运行过程中的实时过程变量，根据获取的实时过程变量构建在线检测数据集，并对在线检测数据集进行数据预处理；步骤5，将预处理后的在线检测数据样本输入训练后的堆叠自编码器模型，提取预处理后的在线检测数据样本的隐藏层特征，通过有效特征选择策略选择隐藏层特征中的有效特征，根据选择出的隐藏层特征的有效特征计算在线检测数据集中样本的统计量；步骤6，将在线检测数据集中各个样本的统计量与统计量的控制限进行比较，判断在线检测数据集中各个样本的统计量是否超过统计量的控制限，当在线检测数据集中某一在线检测数据样本的统计量超过统计量的控制限时，进行报警提示，且将当前在线检测数据样本判断为故障的在线检测数据样本，并记录判断为故障的在线检测数据样本的个数，当在线检测数据集中某一在线检测数据样本的统计量未超过统计量的控制限时，将当前在线检测数据样本判断为正常的在线检测数据样本，根据在线检测数据集中的故障数据样本的个数和在线检测数据集中判断为故障的在线检测数据样本的个数计算故障检测率。

其中，所述步骤1具体包括：基于正常流程工业按一定时间顺序采集过程变量，根据采集的过程变量构建正常数据集，正常数据集表示为X₁＝[x₁,x₂,...,x_n]^T∈R^n×m，其中，n表示正常数据集数，m表示过程变量个数；

其中，i表示正常数据样本，i＝1,2,...,n，

表示第i个正常数据样本的第m个过程变量，

表示正常数据样本中的第m个过程变量中的最大值，

表示正常数据样本中的第m个过程变量中的最小值。

其中，所述步骤2具体包括：将预处理后的正常数据集输入预先设置的堆叠自编码器模型的首个自编码器进行模型训练，自编码器与解码器的结构，如下所示：

h_i＝f(x_i；θ₁)＝f(W₁x_i+b₁),θ₁＝{W₁,b₁} (2)

r_i＝g(h_i；θ₂)＝g(W₂h_i+b₂),θ₂＝{W₂,b₂} (3)

其中，所述步骤2还包括：将正常数据集输入预先设置的堆叠自编码器模型的首个自编码器，通过首个自编码器提取隐藏层特征；将提取的隐藏层特征输入后一个自编码器，通过后一个自编码器提取隐藏层特征；重复执行将前一个自编码器提取的隐藏层特征数据输入后一个自编码器，通过后一个自编码器提取隐藏层特征，直到无后一个自编码器停止，获得各个自编码器的权重、各个自编码器的偏置参数和各个自编码器的隐藏层特征；将预训练完成后的各个自编码器按照输入层和隐藏层依次连接起来，构建训练后的堆叠自编码器模型；通过反向传播算法对训练后的堆叠自编码器模型的参数进行全局微调。

本发明的上述实施例所述的基于有效特征选择的流程工业非线性过程监测方法，自编码器的原理是通过网络隐层的学习在输出部分对输入进行重构，即让r_i逼近x_i，之后通过反向传播算法，利用二者之间的误差反向传播训练即得到一个预训练完成的自编码器，对于l-1自编码器的训练，将第l-1隐藏层特征作为第l个自编码器的输入，获得第l个自编码器的权重和偏置参数，并提取第l隐藏层特征，激活函数可以是sigmoid，tanh双曲正切函数或者ReLu线性整流函数。

其中，所述步骤3具体包括：通过有效特征选择策略对堆叠自编码器最终提取的隐藏层的特征进行有效特征提取，在特征空间构建的统计量T²，如下所示：

其中，c_j表示正常数据集隐藏层第j个特征的贡献度，f表示自编码器激活函数，X₁表示正常数据集，

表示正常数据集隐藏层第j个特征的自编码器权重，

表示正常数据集隐藏层第j个特征的偏置参数，

其中，所述步骤3还包括：将计算出的隐藏层各个特征的贡献度进行降序排列，选取贡献度最大的d个特征，训练后的堆叠自编码器模型的超参数d满足以下条件，如下所示：

C(d)≥C^* (6)

其中，C^*表示预先设定的阈值，C^*设定为80％到90％之间；

计算正常数据集中样本的统计量，如下所示：

其中，所述步骤3还包括：通过核密度估计计算统计量的控制限，如下所示：

核函数K(·)满足以下条件：

K(x)≥0 (11)。

其中，所述步骤4具体包括：获取流程工业中实时的过程变量，根据获取的实时过程变量构建在线检测数据集，在线检测数据集表示为X₂＝[x₁,x₂,...,x_n]^T∈R^n×m，在线检测数据集中包括正常在线检测数据样本和故障数据样本，对在线检测数据集X₂＝[x₁,x₂,...,x_n]^T∈R^n×m进行数据预处理，如下所示：

其中，θ表示在线检测数据样本，θ＝1,2,...,n，

表示第θ个在线检测数据样本的第m个过程变量。

本发明的上述实施例所述的基于有效特征选择的流程工业非线性过程监测方法，通过在线检测数据集验证训练后的堆叠自编码模型的预测性能。

其中，所述步骤5具体包括：将预处理后的在线检测数据样本输入训练后的堆叠自编码器模型，提取在线检测数据样本隐藏层的特征，通过有效特征选择策略选择在线检测数据样本隐藏层的特征的有效特征，根据选择出的在线检测数据样本隐藏层特征的有效特征计算在线检测数据集中样本的统计量，如下所示：

其中，所述步骤6具体包括：计算故障检测率，如下所示：

本发明的上述实施例所述的基于有效特征选择的流程工业非线性过程监测方法，堆叠自编码器模型的训练过程分为逐层预训练和反向微调两个步骤，首先逐层预训练每个自编码器，输入正常数据集经过第一个自编码器，提取第一隐藏层特征数据；将第一隐藏层特征数据作为第二个自编码器的输入，提取第二隐藏层特征数据；重复将前一个自编码器的隐藏层特征数据作为后一个自编码器的隐藏层特征数据的输入，并提取后一个自编码器的隐藏层特征数据的步骤，l表示自编码器在堆叠自编码器模型中的位置，l＝1，2,…，n；对于后续自编码器(即l>＝2时)的训练，将l-1隐藏层特征数据作为第l个自编码器的输入，进而获得第l个自编码器的权重及偏置参数，并提取第l隐藏层特征数据；将预训练后的l个自编码器按照输入层和隐藏层依次连接起来，形成一个堆叠自编码器模型，在预训练获得的参数基础上，最后利用反向传播做全局微调，训练后堆叠自编码器模型。在反向微调步骤中，利用反向传播算法，通过构造堆叠自编码器模型的损失函数来微调堆叠自编码器模型的参数，直至网络收敛到目标范围。

在本实施例中将本发明应用到流程工业TE过程的过程监测中，具体方法步骤包括：TE过程(Tennessee Eastman,TE，田纳西-伊斯曼)的控制结构包含五个主要的操作单元，反应器，冷凝器，分离器，压缩器，剥离器。包含22个测量变量，19个成分变量，12个操作变量，选取11个操作变量和22个连续变量用于过程监测，该TE过程共有21个故障数据集当作测试集，每个数据集包含960个样本，从第161个样本开始引入故障，正常数据集有500个样本，为TE过程采集的正常数据，堆叠自编码器模型为33->30->27->30->33，即输入维度为33，自编码器个数为2。两个自编码器的输入层到隐藏层的各参数分别为{w₁、w₂、b₁、b₂}，两个自编码器的隐层激活函数分别为{g₁、g₂}。

如表1所示，为主元分析(Principal component analysis,PCA)、堆叠自编码器(StackAutoEncoder，SAE)、有效特征选择的堆叠自编码器(SAE-Characteristicselection，SAE-CS)这三种模型在测试集21中故障上的特征空间和残差空间故障检测率。

表1三种模型在TE过程上的故障检测率

由表中可看出有效特征选择的堆叠自编码器的故障检测率在TE数据集的21类故障中表现很好，无论是特征空间，还是残差空间，有效特征选择的堆叠自编码器的检测率都普遍比原始堆叠自编码器的检测率效果好，有效特征选择的堆叠自编码器具有更高的准确性。

表2TE过程故障类别

本发明的上述实施例所述的基于有效特征选择的流程工业非线性过程监测方法，获取流程工业正常运行时的过程变量，构成正常数据集，将正常数据集输入原先设定好由l个自编码器依次堆叠而成的堆叠自编码器模型，l＝1,2...,n，得到多个隐藏层特征，训练堆叠自编码器模型，得到训练后的堆叠自编码器模型，在堆叠自编码器模型中通过有效特征选择策略从故障检测的角度，选取多个隐藏层特征中更能区分故障样本与正常样本的有效特征，根据选取的有效特征计算正常数据集中样本的统计量，通过核密度估计计算正常数据集中样本控制量的控制限；获取流程工业中实时的过程变量，根据实时过程变量构建在线检测数据集，并对在线检测数据集进行数据预处理，将预处理后的在线检测数据集输入训练后的堆叠自编码器进行隐藏层特征提取，通过有效特征选择策略选择隐藏层特征中的有效特征，根据选择出的隐藏层特征的有效特征计算在线检测数据集中样本的统计量，将在线检测数据集中各个样本的统计量与正常数据集的控制限相比较，判断当前在线检测数据样本是否为故障的在线检测数据样本，并记录被判断为故障的在线检测数据样本的个数，根据在线检测数据集的中故障数据样本的个数和被判断为故障的在线检测数据样本的个数计算故障检测率，通过故障检测率判断训练后的堆叠自编码器模型的预测性能。

本发明的上述实施例所述的基于有效特征选择的流程工业非线性过程监测方法，通过有效特征选择策略对提取的隐藏层特征做选择，选取对故障监测更有效的特征，能自适应地选择提高故障检测率的有效特征，极大地提高了堆叠自编码器模型的监测效果，大幅提高了故障监测的准确率。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。