CN109766745A

CN109766745A - 强化学习三态组合长短时记忆神经网络系统及训练和预测方法

Info

Publication number: CN109766745A
Application number: CN201811393984.9A
Authority: CN
Inventors: 李锋; 陈勇; 田大庆
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2019-05-17
Anticipated expiration: 2038-11-22
Also published as: CN109766745B

Abstract

本发明涉及一种强化学习三态组合长短时记忆神经网络系统，包括长短时记忆神经网络、强化学习单元和单调趋势识别器，单调趋势识别器判断由输入时间序列的趋势状态，强化学习单元为根据输入时间序列的趋势状态，选择一个隐层层数和隐层节点数与其变化规律相适应的长短时记忆神经网络，其中，输入时间序列的趋势状态包括三种状态，每个趋势状态对应一个隐层层数和隐层节点数与其变化规律相适应的长短时记忆神经网络。本发明判断输入时间序列的趋势，根据更新后的Q值集来选择执行最优的动作，增强了网络泛化能力，对于旋转机械的退化趋势具有较高的预测精度；通过输出误差计算奖励，提高了网络的收敛速度，提高了系统的计算效率。

Description

强化学习三态组合长短时记忆神经网络系统及训练和预测方法

技术领域

本发明涉及神经网络技术领域，尤其涉及强化学习三态组合长短时记忆神经网络系统及训练和预测方法。

背景技术

旋转机械是民用及国防领域的机械设备中应用最广泛的组件之一，在长期运行过程中旋转机械会逐渐退化，剩余寿命会逐步下降，故障的发生往往带来灾难性的事故，造成重大经济损失和严重的社会影响。目前工业企业对旋转机械的维护普遍采用视时维护制度，即无论设备是否发生故障，都对其进行定期检修，这样的检修制度虽然计划性强，但是时间和空间占用多，需要储备大量备品备件，消耗大批的资金，容易因检修周期间隔过长或过短造成旋转机械设备的欠维护或过维护。因此，有计划、有针对性地对旋转机械进行状态退化趋势预测，在旋转机械发生故障之前采取适当的措施以防止灾难性事故的发生，成为一个十分重要和紧迫的课题。

近年来国内外针对旋转机械状态退化趋势预测理论都作了较多研究，各种不同的模型、新算法和新技术被提出并引入到状态退化趋势预测的研究之中，经归纳总结后将其分为四类：基于物理模型的预测方法、基于统计经验的预测方法、基于知识的预测方法、基于数据驱动的预测方法。基于物理模型的预测方法是根据设备退化过程中材料物理行为的数学公式来估计设备的退化数据。常用的方法有应力、应变法，场强法能量法，断裂力学方法等。但在实际中设备或部件的失效物理模型是较难建立的，建立的模型与真实模型之间会有一定的偏差，使得预测结果较差。基于统计经验的方法是通过大量的寿命试验得到产品失效数据，然后根据统计分析准则，选择恰当的寿命统计分布模型对失效数据进行“拟合”，获得产品寿命的特征分布。这类方法是基于同类事件的概率分布，其分析过程中没有考虑外界载荷、环境等因素对个体的影响，忽略了机械设备的退化数据具有较大的离散性，使得其预测结果可靠性较差。基于知识的预测方法是根据已有的知识和各种推理方法，对设备的故障时间进行预测。主要方法包括专家系统和模糊逻辑。基于知识的方法在获得领域知识并将其转换为规则时常常会遇到困难，系统模型容易受到人类专家知识的限制；模糊逻辑需要和其它方法结合才可用于预测，模糊规则不容易设定，缺乏学习能力且没有记忆能力。基于数据的预测方法基于各种统计模型和机器学习理论，通过设备历史故障数据和现有的观测数据来进行状态退化趋势预测，该方法不依赖任何物理或工程原理，是其最大的优势。只需要对设备运行过程中的特征数据进行采集和存储，其预测结果只依赖于数据的可用性。

而基于数据驱动的旋转机械剩余寿命预测方法可细分为三类：第一类是现代模型预测方法，如粒子滤波(Particle filter，PF)等；第二类是数值分析预测方法，如支持向量回归(Support Vector Regression，SVR)等；第三类是人工智能的预测方法，如神经网络。但这些方法依然存在不足，如，对于PF，重采样阶段会造成样本有效性和多样性的损失，导致样本贫化现象。由于SVR的核函数类型和核参数依然很难准确设定，导致预测结果也不确定。人工神经网络的隐层层数和节点数的选择没有成熟的理论指导，一般依据经验进行选取，导致模型的预测精度和计算效率不理想。

作为解决序贯决策的机器学习方法，强化学习采取持续的“交互-试错”机制，实现Agent与环境的不断交互，从而学得完成任务的最优策略，契合了人类提升智能的行为决策方式。针对神经网络隐层层数和节点数依据经验选取造成非线性逼近能力和泛化性能不可控的问题，结合强化学习在智能决策方面的优势，在长短时记忆神经网络(Long and shorttime memory neural network,LSTMNN)的基础上，本发明提出了强化学习三态组合长短时记忆神经网络。

发明内容

本发明所要解决的技术问题是提供一种收敛速度快，计算效率高且预测精度准的强化学习三态组合长短时记忆神经网络系统及训练和预测方法。

为解决上述技术问题，本发明的技术方案是：一种强化学习三态组合长短时记忆神经网络系统，包括长短时记忆神经网络、强化学习单元和单调趋势识别器，所述长短时记忆神经网络包括输入门、输出门、遗忘门、记忆单元和候选记忆单元、单元输出(即隐层状态)，所述单调趋势识别器判断由输入构建的时间序列的趋势状态，所述强化学习单元为根据输入时间序列的趋势状态，选择一个隐层层数和隐层节点数与其变化规律相适应的长短时记忆神经网络，其中，所述输入时间序列的趋势状态包括三种状态，每个趋势状态对应一个隐层层数和隐层节点数与其变化规律相适应的长短时记忆神经网络。

作为优选的技术方案，所述趋势状态包括上升趋势状态、下降趋势状态和平稳趋势状态。

作为优选的技术方案，所述单调趋势识别器将所述输入的时间序列x_t＝[x₁,x₂,…,x_t]^T在时域坐标系中构建出相对应的点坐标(1,x₁),(2,x₂),…,(t,x_t)，并将所述点坐标通过线性拟合，得出所述点坐标的线性拟合直线方程x＝ht+b，并求解出所述线性拟合方程的斜率h和截距b，则：

1)若则为下降趋势状态；

2)若则为上升趋势状态；

3)若λ＜arctanh＜μ，则为平稳趋势状态；

其中，λ是第一阈值，μ是第二阈值，λ＜0且μ＞0。

作为优选的技术方案，所述强化学习单元包括一个与隐层数和隐层节点数相对应的长短时记忆神经网络的的动作集、一个与所述趋势状态及其动作所对应的Q值；所述强化学习单元根据所述输入时间序列的趋势状态，从动作集中选择一个动作，再根据所述Q值集，以及所述趋势状态下的最优策略得到所述趋势状态下的动作，通过所述趋势状态下的动作在动作集中所对应的隐层数和隐层节点数，得到所述趋势状态下的时间序列所对应的长短时记忆神经网络，并计算出所述长短时记忆神经网络的最终输出。

一种强化学习三态组合长短时记忆神经网络系统的训练方法，包括以下步骤：

根据当前时间序列所对应的趋势状态，所述趋势状态下执行的动作以及当前时间序列对应的长短时记忆神经网络，并计算出所述长短时记忆神经网络的最终输出；

计算最终输出与理想输出的误差，根据所述误差，更新Q值集中所述趋势状态下执行所述动作的Q值；

通过随机梯度下降法对当前时间序列对应的长短时记忆神经网络的各隐层的权值和活性值进行更新。

一种旋转机械退化趋势的预测方法，包括以下步骤：

对旋转机械的振动数据进行特征提取，获得所述旋转机械的奇异谱熵并通过滑动平均降噪处理后，将其作为所述旋转机械的状态退化特征；

将所述奇异谱熵分解成多个训练样本，作为输入时间序列依次输入强化学习匹配长短时记忆神经网络系统中，通过单调趋势识别器判断所述输入时间序列的趋势状态，得到与所述趋势状态对应的长短时记忆神经网络，并对所述长短时记忆神经网络进行多次训练；

将最后一个训练样本通过单调趋势识别器判断其趋势状态，得到其对应的长短时记忆神经网络，通过所述长短时记忆神经网络得到第一个奇异谱熵预测值，将第一个奇异谱熵预测值与最后一个训练样本中的最后t-1个奇异谱熵值结合构建一个新的训练样本，将该新训练样本输入与其趋势状态对应的长短时记忆神经网络中，得到第二个奇异谱熵预测值，以此类推，得到t个奇异谱熵预测值，并将所述t个奇异谱熵预测值构建成第一个预测样本；

将第一个预测样本再通过单调趋势识别器判断其趋势状态后，输入与其趋势状态对应的长短时记忆神经网络中，得到第二个预测样本，以此类推得到V个由奇异谱熵预测值构建的预测样本，通过所述预测样本得到所述奇异谱熵预测值的曲线图。

由于采用了上述技术方案，本发明的有益效果是：本发明通过单调趋势识别器，来判断输入时间序列的趋势(上升，下降，平稳)，用这三种趋势和不同隐层层数及隐层节点数分别表示Q值集的状态与动作，Agent根据更新后的Q值集来选择执行最优的动作(即选择隐层层数和隐层节点数与每种序列趋势单元最匹配的长短时记忆神经网络)，增强了网络泛化能力，使所提出的预测方法具有较高的预测精度；另外，为了明确强化学习的学习目标(即i-LSTMNN的输出误差E较小)，避免Agent在Q值集更新过程中的盲目搜索动作，通过输出误差计算奖励，避免了Agent的盲目搜索，提高了网络的收敛速度，使所提出的预测方法具有较高的计算效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中强化学习单元的拓扑图；

图2是本发明实施例中长短时记忆神经网络模型的拓扑图；

图3是本发明实施例中强化学习单元匹配长短时记忆神经网络系统的模型示意图；

图4是本发明实施例中旋转机械剩余寿命预测方法的流程图；

图5是本发明实施例中旋转机械的奇异谱熵曲线图；

图6是强化学习单元匹配长短时记忆神经网络预测的奇异谱熵曲线图；

图7是长短时记忆神经网络预测的奇异谱熵曲线图；

图8是多核最小二乘支持向量机MK-LSSVM预测的奇异谱熵曲线图；

图9是遗传-BP网络GA-BP预测的奇异谱熵曲线图；

图10是极限学习机ELM预测的奇异谱熵曲线图；

图11是五种剩余寿命预测方法消耗时间的对比图。

具体实施方式

一种强化学习三态组合长短时记忆神经网络系统，包括长短时记忆神经网络、强化学习单元和单调趋势识别器。

长短时记忆神经网络包括输入门、输出门、遗忘门、记忆单元和候选记忆单元、单元输出(即隐层状态)。

单调趋势识别器判断由输入构建的时间序列的趋势状态，强化学习单元为根据输入时间序列的趋势状态，选择一个隐层层数和隐层节点数与其变化规律相适应的长短时记忆神经网络，其中，输入时间序列的趋势状态包括三种状态，每个趋势状态对应一个隐层层数和隐层节点数与其变化规律相适应的长短时记忆神经网络。

趋势状态包括上升趋势状态、下降趋势状态和平稳趋势状态。

单调趋势识别器将输入的时间序列x_t＝[x₁,x₂,…,x_t]^T在时域坐标系中构建出相对应的点坐标(1,x₁),(2,x₂),…,(t,x_t)，并将点坐标通过线性拟合，得出点坐标的线性拟合直线方程x＝ht+b，并求解出线性拟合方程的斜率h和截距b，则：

1)若则为下降趋势状态；

2)若则为上升趋势状态；

3)若λ＜arctanh＜μ，则为平稳趋势状态；

其中，λ是第一阈值，μ是第二阈值，λ＜0且μ＞0。

强化学习单元包括一个与隐层数和隐层节点数相对应的长短时记忆神经网络的的动作集、一个与趋势状态及其动作所对应的Q值；强化学习单元根据输入时间序列的趋势状态，从动作集中选择一个动作，再根据Q值集，以及趋势状态下的最优策略得到趋势状态下的动作，通过趋势状态下的动作在动作集中所对应的隐层数和隐层节点数，得到趋势状态下的时间序列所对应的长短时记忆神经网络，并计算出长短时记忆神经网络的最终输出。

强化学习三态组合长短时记忆神经网络系统模型构建过程如下：

1.强化学习单元

强化学习是基于Markov决策过程(Markov Decision Process,MDP)的理论框架[13]。

如图1所示，在一个标准的强化学习框架中，主要有四个要素：动作、奖励、状态、环境。其目标是学习一个行为策略，使得Agent选择的动作最终能够获得环境最大的奖励。

记t时刻的状态为s_t，下一个时刻的状态为s_t+1，t时刻的状态和下一时刻状态下采取的动作分别为a_t和a_t+1。定义折扣累积奖励期望值表达式如下：

式中：γ为折扣因子，0＜γ＜1；π为策略空间；r_t为t时刻状态下采取动作a_t获得的奖励。

在每一次采取动作后，就通过贝尔曼方程对Q值进行迭代更新，其表达式如下：

Q(s_t+1,a_t+1)＝(1-α)Q(s_t,a_t)+α(r(s_t,a_t,s_t+1)+γV(s)) (2)

式中：α为调节系数；r(s_t,a_t,s_t+1)表示从状态s_t选择动作a_t达到状态s_t+1获得的奖励，状态s_t下的价值函数即为表达式：

在s_t状态下的最优策略即获得最大奖励的决策函数表达式如下：

2.长短时记忆神经网络

由于存在梯度消散问题，传统的循环神经网络(RNN)对长序列建模效果较差。而LSTMNN通过增加门控单元来控制即时信息对历史信息的影响程度，使得网络能够较长时间保存并传递信息，其拓扑结构如图2所示，在LSTMNN中，i表示输入门；f表示遗忘门；o表示输出门；c和分别表示记忆单元和候选记忆单元；h表示单元输出(即隐层状态)。

LSTMNN通过输入门、遗忘门和输出门分别调节候选记忆添加程度、现有记忆遗忘程度和记忆暴露量，i_t、f_t和o_t分别定义如下：

i_t＝σ(W_ix_t+U_ih_t-1+b_i) (5)

f_t＝σ(W_fx_t+U_fh_t-1+b_f) (6)

o_t＝σ(W_ox_t+U_oh_t-1+b_o) (7)

其中，σ为sigmoid函数；W_i、U_i和b_i分别表示输入门中的输入权值矩阵、上一时刻活性值权值矩阵和偏置向量；W_f、U_f和b_f分别表示遗忘门中的输入权值矩阵、上一时刻活性值权值矩阵和偏置向量；W_o、U_o和b₀分别表示输出门中的输入权值矩阵、上一时刻活性值权值矩阵和偏置向量。

另外，LSTMNN通过遗忘部分现有记忆并添加候选记忆来更新记忆单元。t时刻的记忆单元c_t和候选记忆单元分别定义如下：

其中，和分别表示候选记忆单元中的输入权值矩阵、上一时刻隐层权值矩阵和偏置向量。

t时刻的隐层状态h_t定义如下：

其中，表示张量积；tanh表示双曲正切函数。

最后，根据公式(5-10)，可通过如下公式计算LSTMNN的输出y_t：

y_t＝σ(W_yh_t) (11)

其中，W_y表示输出层权值矩阵。

3.强化学习三态组合长短时记忆神经网络系统

强化学习三态组合长短时记忆神经网络系统，简称为RL-3S-LSTMNN，RL-3S-LSTMNN模型通过构造单调趋势识别器将时间序列分为三个基本的趋势状态，即上升、下降、平稳三种状态，并利用强化学习单元分别为每一个趋势状态选择一个隐层层数和节点数与其变化规律相适应的长短时记忆神经网络。其模型如图3所示。

记输入门输入的时间序列为x_t＝[x₁,x₂,…,x_t]^T，在时域坐标里与x_t相对应的点坐标为(1,x₁),(2,x₂),…,(t,x_t)。首先利用单调趋势识别器对点(1,x₁),(2,x₂),…,(t,x_t)进行线性拟合，设拟合的直线方程为：

x＝ht+b (12)

则平方拟合误差为：

为了求出最优的拟合方程，根据微积分求极值思想，则需满足如下条件：

由公式(14)解出线性拟合方程的斜率h和截距b。根据斜率h的取值可判别该时间序列的趋势状态，其具体判据如下：

1)若则为下降趋势状态，记作s₁；

2)若则为上升趋势状态，记作s₂；

3)若λ＜arctanh＜μ，则为平稳趋势状态，记作s₃；

其中，λ和μ为状态临界值即第一阈值和第二阈值，λ＜0且μ＞0。

将这三种趋势状态作为强化学习的环境状态，Agent根据当前的趋势状态，从动作集a里选择执行一个动作，动作集a如表一所示。

表一动作集a

在选择动作的过程中，采用由状态集s与动作集a构成的Q值集代替折扣累积奖励期望值，如表二所示。

表二 Q值集

根据Q值集，采用决策函数为每一个状态选择一个对应的动作，决策函数的表达式如下：

其中，i∈1,2,3；a^*(s_i)∈a₁,a₂,…a_d表示在状态s_i下决策函数选择的动作。

得到状态s_i下的动作a^*(s_i)后，再通过a^*(s_i)表示的网络隐层数和节点数对一个多隐层的LSTMNN进行设置，则得到一个与时间序列x_t(即趋势状态s_i)相对应的长短时神经网络，记为i-LSTMNN。

将时间序列x_t＝[x₁,x₂,…,x_t]^T作为i-LSTMNN的输入，若i-LSTMNN隐层为一层，隐层节点为m个，则该隐层中输入门输出遗忘门输出f_t ¹和输出门输出分别计算如下：

根据矩阵运算法则可知，隐层节点数和输入向量维数共同决定权值和活性值维度，因此式中各门的权值和活性值的维度为t×m；为了简化网络的更新过程，将各偏置量简略，因此只需对权值与活性值进行更新。

该隐层记忆单元和候选记忆单元表达如下：

然后，由式(18-19)可求出该隐层状态如下：

最后，由式(21)计算最终输出如下：

若i-LSTMNN隐层为两层，隐层节点为m个，则上述隐层变为第一隐层，继续将第一隐层最终输出作为第二隐层的输入。根据第一隐层的计算过程，同理可求出第二隐层的输入门输出遗忘门输出f_t ²、输出门输出记忆单元候选记忆单元隐层状态和第二层最终输出

以此类推，若i-LSTMNN隐层为n层，隐层节点为m个，则可求出f_t ⁿ、和虽然不同隐层的计算法则相同，但是各隐层初始设置的参数值(即各项权值W和活性值U)是互异的。

根据当前时间序列所对应的趋势状态，趋势状态下执行的动作以及当前时间序列对应的长短时记忆神经网络，并计算出长短时记忆神经网络的最终输出；

计算最终输出与理想输出的误差，根据该误差，更新Q值集中趋势状态下执行所述动作的Q值；

强化学习训练的具体步骤如下：

1.强化学习Q值集的更新

采用ε-贪婪策略对Q值集进行迭代更新：设ε＝[ε₁,ε₂,…,ε_P]为一个单调递减数列，且该数列的每个元素ε_ρ∈(0,1)。对Q值集进行P轮更新，并将ε₁,ε₂,…,ε_P分别依次作为每一轮的动作选择参考值(即第ρ轮的动作选择参考值为ε_ρ)。在第ρ轮中又进行K_ρ次更新，每一次生成一个随机数χ_ρk∈(0,1)，比较χ_ρk与ε_ρ的大小：若χ_ρk≤ε_ρ，则在状态s_i下随机选择执行动作；若χ_ρk＞ε_ρ，则在状态s_i下根据式(15)选择执行动作。然后，根据上文得到对应的i-LSTMNN后，计算出i-LSTMNN的输出

设理想输出为y_t，则输出误差函数如下：

结合输出误差，在状态s_i下，选择执行动作a得到的奖励r计算如下：

式中，e为自然指数。显然r∈(0,1)且与输出误差一范数||Eⁿ||成负相关(即误差越大，得到的奖励值越小)。

再根据得到的奖励和贝尔曼方程更新计算Q值集中在状态s_i下选择执行动作a的Q值：

式中，q(s_i,a)′表示Q值集中q(s_i,a)更新后的值，表示Q值集中在下一个状态s_i′下的最大Q值，而状态s_i′可通过输入到趋势状态识别器中进行判断。

2.i-LSTMNN权值和活性值的更新

采用随机梯度下降法对权值和活性值进行更新，若最终i-LSTMNN隐层为一层，根据式(16-20)、式(23)及链式求导法则，可分别计算各权值和活性值的梯度和

求得梯度后，分别依据如下公式进行更新：

式中W′和U′为更新后的权值和活性值，ψ为学习率。

若最终i-LSTMNN隐层为两层，则用以上相同更新法则对第二隐层的权值和活性值进行更新，再对第一隐层进行更新，由于此时不存在第一隐层输出误差，不能直接用误差计算关于第一隐层输出的梯度，但为第二隐层的输入，因此可根据第二隐层的输出误差E²间接求出关于第一隐层输出的梯度，其公式如下：

将代替的并计算第一隐层权值和活性值梯度，根据式(26)进行权值和活性值更新。

以此类推，若最终i-LSTMNN隐层为n层，则可实现n层中各权值和活性值的更新。

一种旋转机械退化趋势的预测方法，包括以下步骤：

对旋转机械的振动数据进行特征提取，获得旋转机械的奇异谱熵并通过滑动平均降噪处理后，将其作为旋转机械的状态退化特征；

将处理后的奇异谱熵分解成多个训练样本，作为输入时间序列依次输入强化学习匹配长短时记忆神经网络系统中，通过单调趋势识别器判断输入时间序列的趋势状态，得到与该趋势状态对应的长短时记忆神经网络，并对该长短时记忆神经网络进行多次训练；

将最后一个训练样本通过单调趋势识别器判断其趋势状态，得到其对应的长短时记忆神经网络，通过长短时记忆神经网络得到第一个奇异谱熵预测值，将第一个奇异谱熵预测值与最后一个训练样本中的最后t-1个奇异谱熵值结合构建一个新的训练样本，将该新训练样本输入与其趋势状态对应的长短时记忆神经网络中，得到第二个奇异谱熵预测值，以此类推，得到t个奇异谱熵预测值，并将所述t个奇异谱熵预测值构建成第一个预测样本；

将第一个预测样本再通过单调趋势识别器判断其趋势状态后，输入与其趋势状态对应的长短时记忆神经网络中，得到第二个预测样本，以此类推得到V个由奇异谱熵预测值构建的预测样本，通过预测样本得到奇异谱熵预测值的曲线图。

具体如下：

取样一段奇异谱熵序列[x_b,x_b+1,…,x_b+(l+1)t-1]作为训练样本，并对该序列进行分解：

T₁＝[x_b,x_b+1,…,x_b+t-1]→T₁′＝[x_b+t,x_b+t+1,…,x_b+2t-1]

T₂＝[x_b+t,x_b+t+1,…,x_b+2t-1]→T′₂＝[x_b+2t,x_b+2t+1,…,x_b+3t-1]

T_l＝[x_b+(l-1)t,x_b+(l-1)t+1,…,x_b+lt-1]→T_l′＝[x_b+lt,x_b+lt+1,…,x_b+(l+1)t-1]

其中，b为取样起始点；T₁、T₂、…、T_l为训练输入样本；T₁′、T′₂、…、T_l′为训练输入样本对应的期望输出；l为训练样本组数；t为样本维数。

将样本依次输入RL-3S-LSTMNN中，首先利用单调趋势识别器为l组训练样本判别趋势状态；接下来由强化学习单元依据最终训练更新好的Q值集选择执行最佳动作，分别为三种趋势状态选择最终对应的i-LSTMNN(1-LSTMNN、2-LSTMNN、3-LSTMNN)。此后，采用随机梯度下降法分别对强化学习单元选择的i-LSTMNN进行M次训练，即每次训练前从状态s_i的训练样本中随机抽取一组样本输入对应的i-LSTMNN，再对i-LSTMNN的进行权值和活性值的更新，完成i-LSTMNN的一次训练。循环重复以上训练过程M次，就完成了RL-3S-LSTMNN的完整训练过程。

RL-3S-LSTMNN的预测过程如下：

将训练集最后一组样本[x_b+lt,x_b+lt+1,…,x_b+(l+1)t-1]经由单调趋势识别器识别趋势之后输入到与趋势对应的i-LSTMNN得到第b+(l+1)t点的预测值x′_b+(l+1)t，再将[x_b+lt+1,x_b+lt+2,…,x′_b+(l+1)t]输入到与之前相同的i-LSTMNN得到x′_b+(l+1)t+1，以此类推进行t次预测得到[x′_b+(l+1)t,x′_b+(l+1)t+1,…,x′_b+(l+2)t-1]，记每t次预测为一个预测回合，则上述为第一回合，同第一回合预测过程一样，再将第一回合输出作为第二回合输入进行预测。以此类推，进行V回合预测，则有V×t个预测值。

具体工作实例：

采用Cincinnati大学实测的滚动轴承状态退化数据对所提方法进行验证。

轴承实验台的转轴上安装四个航空用轴承，这些航空轴承为Rexnord公司制造的ZA-2115双列滚子轴承，交流电机通过皮带传动以2000r/min的恒定转速带动转轴旋转，实验过程中轴承被施加6000lbs的径向载荷。采样频率为20kHz，采样长度为20480个点，每隔10min采集一次轴承的振动数据，轴承持续运行直到出现故障。在第一组实验中，实验台持续运行21560分钟后，轴承3出现内圈故障。采用该组实验中采集到的轴承3的状态退化数据验证所提方法。

轴承3全寿命振动数据共计2156组，每组20480个数据，分别提取每一组前10000个振动数据进行矩阵重组得到维数1000×10的矩阵并计算奇异谱熵，如图6所示。对奇异谱熵序列进行滑动平均降噪处理得到降噪后的奇异谱熵序列，如图5所示，从起始点至第200点奇异谱熵快速攀升，轴承处于跑合阶段；从第200点至1700点奇异谱熵变化速率缓慢，轴承处于稳定运行阶段；第1700点之后奇异谱熵开始急剧上升，轴承处于失效阶段。由于轴承失效是其故障逐渐恶化造成，所以在稳定运行阶段后期，轴承就处于故障初期。取第1301点至第1500点(共200个点)作为训练样本；输入RL-3S-LSTMNN中，来预测后500个点(即第1501点至2000点)的奇异谱熵。

RL-3S-LSTMNN各参数设置如下：状态趋势识别器临界值λ＝-7×10^-6，μ＝7×10^-6；强化学习过程训练轮数P＝5、动作选择参考值ε＝[0.9,0.7,0.5,0.3,0.1]以及每轮训练次数K_ρ＝100ε_ρ；动作集为可选隐层数[1,2,3]和可选隐层节点数3至10两两组合一共24种动作的集合；Q值表中各Q值初始数据为[0,1]的随机值；Q值更新折扣因子γ＝0.001，Q值更新调节系数α＝0.1；i-LSTMNN学习率ψ＝0.001及训练次数M＝2000；训练样本组数l＝49；预测回合数V＝125及每回合预测次数(即样本维数，也即输入节点数)t＝4；输出节点数为1。预测结果如图6所示。

为验证提出的基于RL-3S-LSTMNN的旋转机械状态退化趋势预测方法的优势，首先，分别用LSTMNN、多核最小二乘支持向量机(MK-LSSVM)、遗传-BP网络(GA-BP)和极限学习机(ELM)这四种模型的预测精度与所提方法进行比较。这四种模型的训练次数与RL-3S-LSTMNN的总训练次数相同；标准LSTMNN隐层数设为1层，隐层节点数设为8；GA-BP的隐层数设为3，隐层节点数设为8；LSTMNN和GA-BP学习率都取ψ＝0.001；ELM隐层节点数设为10，激活函数采用sigmoid函数。四种模型得到的双列滚子轴承状态退化预测结果如图7至图10所示。

为更好地评估模型预测效果，用纳什系数(NSE)、平均绝对百分比误差(MAPE)和均方根误差(RMSE)作为预测精度评价指标，即：

其中，y_i为实际值；y′_i为预测值；n为预测点数；为n个实际值的平均数；NSE∈(-∞,1)，且NSE越接近1，模型预测精度越高。

表3五种状态退化趋势预测方法的预测效果对比

在RL-3S-LSTMNN、LSTMNN、MK-LSSVM、GA-BP和ELM参数设置保持不变的条件下，用这五种预测模型反复进行100次预测，并计算这100次预测后三个评价指标的平均值和其对比结果如表3所示。

图7至图10和表3结果表明：RL-3S-LSTMNN的和都最小，且最接近1，说明RL-3S-LSTMNN具有良好的泛化性能，将其用于双列滚子轴承的状态退化趋势预测，相较于LSTMNN、MK-LSSVM、GA-BP和ELM可得到更高的预测精度。

最后，再用LSTMNN、MK-LSSVM、GA-BP和ELM进行状态退化趋势预测所耗用的计算时间(即训练时间与预测时间之和)与RL-3S-LSTMNN所耗用的计算时间进行对比，结果如图11所示，RL-3S-LSTMNN消耗的时间仅为14.782s，LSTMNN消耗的时间为10.866s，MK-LSSVM消耗的时间为26.051s，GA-BP消耗的时间为35.636s，ELM消耗的时间为22.374s。显然，RL-3S-LSTMNN的计算时间比MK-LSSVM、GA-BP、ELM都要短，仅比LSTMNN稍长(但两者仍处于同一数量级)。以上比较结果表明：将RL-3S-LSTMNN用于双列滚子轴承的状态退化趋势预测，比MK-LSSVM、GA-BP和ELM具有更高的收敛速度和计算效率。

以上显示和描述了本发明的基本原理、主要特征及本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种强化学习三态组合长短时记忆神经网络系统，其特征在于：包括长短时记忆神经网络、强化学习单元和单调趋势识别器，所述长短时记忆神经网络包括输入门、输出门、遗忘门、记忆单元和候选记忆单元、单元输出(即隐层状态)，所述单调趋势识别器判断由输入构建的时间序列的趋势状态，所述强化学习单元为根据输入时间序列的趋势状态，选择一个隐层层数和隐层节点数与其变化规律相适应的长短时记忆神经网络，其中，所述输入时间序列的趋势状态包括三种状态，每个趋势状态对应一个隐层层数和隐层节点数与其变化规律相适应的长短时记忆神经网络。

2.如权利要求1所述的一种强化学习三态组合长短时记忆神经网络系统，其特征在于：所述趋势状态包括上升趋势状态、下降趋势状态和平稳趋势状态。

3.如权利要求2所述的一种强化学习三态组合长短时记忆神经网络系统，其特征在于：所述单调趋势识别器将所述输入的时间序列x_t＝[x₁,x₂,…,x_t]^T在时域坐标系中构建出相对应的点坐标(1,x₁),(2,x₂),…,(t,x_t)，并将所述点坐标通过线性拟合，得出所述点坐标的线性拟合直线方程x＝ht+b，并求解出所述线性拟合方程的斜率h和截距b，则：

1)若则为下降趋势状态；

2)若则为上升趋势状态；

3)若λ＜arctanh＜μ，则为平稳趋势状态；

其中，λ是第一阈值，μ是第二阈值，λ＜0且μ＞0。

4.如权利要求1所述的一种强化学习三态组合长短时记忆神经网络系统，其特征在于：所述强化学习单元包括一个与隐层数和隐层节点数相对应的长短时记忆神经网络的的动作集、一个与所述趋势状态及其动作所对应的Q值；所述强化学习单元根据所述输入时间序列的趋势状态，从动作集中选择一个动作，再根据所述Q值集，以及所述趋势状态下的最优策略得到所述趋势状态下的动作，通过所述趋势状态下的动作在动作集中所对应的隐层数和隐层节点数，得到所述趋势状态下的时间序列所对应的长短时记忆神经网络，并计算出所述长短时记忆神经网络的最终输出。

5.一种强化学习三态组合长短时记忆神经网络系统的训练方法，其特征在于，包括以下步骤：

6.一种应用如权利要求1至5任一项所述的一种强化学习长短时记忆神经网络系统及其训练方法的旋转机械退化趋势的预测方法，其特征在于，包括以下步骤：