CN118502994B

CN118502994B - 一种基于机器学习的分布式存储故障预测方法及系统

Info

Publication number: CN118502994B
Application number: CN202410961522.1A
Authority: CN
Inventors: 汪立生; 覃方; 王卓
Original assignee: Wuhan Zeta Cloud Technology Co ltd
Current assignee: Wuhan Zeta Cloud Technology Co ltd
Filing date: 2024-07-18
Publication date: 2024-11-12
Anticipated expiration: 2044-07-18

Abstract

本发明涉及分布式存储和机器学习技术领域，具体涉及一种基于机器学习的分布式存储故障预测方法及系统，该方法获取初始样本数据集合；基于高维数据特征的聚类分析，从初始样本数据集合中筛选出对应高维空间的初始锚点集合；将初始锚点集合输入到训练好的生成对抗网络中，经生成器的处理得到目标样本数据集合；构建初始多层感知机，将目标样本数据集合输入到初始多层感知机中进行训练，训练过程中，基于Adam优化器自适应地调整学习率；训练结束后，输出目标多层感知机；获取对应分布式存储系统实时运行状态的实时运行数据，将所述实时运行数据输入到所述目标多层感知机中，进行分布式存储故障的预测。该方法的实施能够提高预测准确率。

Description

一种基于机器学习的分布式存储故障预测方法及系统

技术领域

本发明涉及分布式存储和机器学习技术领域，具体涉及一种基于机器学习的分布式存储故障预测方法及系统。

背景技术

在分布式存储系统中，多台独立的计算机通过网络连接并协同工作，共同完成一个或多个任务的系统，这些计算机相互之间可能分布于不同的地理位置，但对外表现为一个统一的整体，数据量巨大到超出了传统数据处理软件工具的能力范围，需要采用新型数据处理技术和架构进行存储、管理和分析的数据集合，利用机器学习算法让计算机从数据中自动“学习”规律，无需显式编程就能做出预测，旨在提高故障预测的准确度，可以合理安排设备的定期检查和维护时间，降低维护成本，提高存储系统的运行效率，通过智能化的故障预警和资源管理，能够显著增强分布式存储系统的可靠性、可用性和效率，是构建高可用、高扩展性数据中心的关键技术之一。

目前的分布式存储故障预测方法往往直接将原始数据馈入预测模型，缺乏对数据质量的前期评估和处理，都导致预测结果不准确。

发明内容

为了解决在缺乏对数据质量的前期评估和处理的情况下，导致预测结果不准确这一技术问题，本发明的目的在于提供一种基于机器学习的分布式存储故障预测方法及系统，所采用的技术方案具体如下：

第一方面，本申请公开的一种基于机器学习的分布式存储故障预测方法，所述方法包括：

S1、获取对应分布式存储系统历史运行状态的初始样本数据集合；

S2、基于高维数据特征的聚类分析，从所述初始样本数据集合中筛选出对应高维空间的

初始锚点集合；

S3、将所述初始锚点集合输入到训练好的生成对抗网络中，经生成器的处理得到目标样本数据集合，其中，所述生成对抗网络是在高、低维数据映射关系上进行训练的；

S4、构建初始多层感知机，将所述目标样本数据集合输入到所述初始多层感知机中进行训练，训练过程中，基于Adam优化器自适应地调整学习率；

S5、训练结束后，输出目标多层感知机；

S6、获取对应分布式存储系统实时运行状态的实时运行数据，将所述实时运行数据输入到所述目标多层感知机中，进行分布式存储故障的预测。

进一步的，步骤S2中，所述基于高维数据特征的聚类分析，从所述初始样本数据集合中筛选出对应高维空间的初始锚点集合，包括：

S21、对所述初始样本数据集合进行预处理，得到预处理样本数据集；

S22、基于训练好的非线性回归模型，构建映射函数；

S23、基于所述映射函数将所述预处理样本数据集映射到高维空间，得到高维样本数据集；

S24、基于所述高维样本数据集进行特征聚类分析，得到用于反映数据集关键特征的初始锚点集合。

进一步的，步骤S3中，所述将所述初始锚点集合输入到训练好的生成对抗网络中，经生成器的处理得到目标样本数据集合，包括：

S31、基于所述映射函数对所述高维样本数据集进行降维，得到降维数据；

S32、基于所述降维数据进行随机向量的抽取，得到随机向量集；

S33、针对每个随机向量，从所述初始锚点集合中筛选出距离最近的目标锚点，并构建所述目标锚点与对应随机向量之间的映射集；

S34、将所述映射集输入到训练好的生成对抗网络中，经生成器的处理得到目标样本数据集合。

进一步的，步骤S34中，经生成器的得到样本数据的处理公式包括：

；

其中，G为生成器；为高维空间中的任意向量z通过映射函数降维后随机抽取的向量；A=(a ₁,a ₂,...,a _i)为锚点集合；，其中，用于计算向量和锚点之间的距离，argmin()用于从所得的各个距离项中，筛选出最小的距离项。

进一步的，步骤S21中，所述对所述初始样本数据集合进行预处理，得到预处理样本数据集，包括：

S211、基于所述初始样本数据集合进行数据标准化处理，得到标准化样本数据集；

S212、基于所述标准化样本数据集进行缺失值插补处理，得到预处理样本数据集。

进一步的，步骤S4中，基于Adam优化器自适应地调整学习率的步骤包括：

S41、初始化参数，所述参数包括学习率η、一阶矩估计的指数衰减率β₁、二阶矩估计的指数衰减率β₂、小的常数、一阶矩估计m₀、二阶矩估计v₀、以及时间步t；

S42、在每个时间步t中：

1）根据链式法则计算目标函数关于模型参数的梯度P_t；

2）基于梯度p_t，引入相应的指数衰减率，对一阶矩估计m_t、二阶矩估计进行更新；

3）基于一阶矩估计的指数衰减率构建第一缩放因子，基于所述第一缩放因子来缩放一阶矩估计m_t，以抵消由β₁引起的偏差；

4）基于二阶矩估计的指数衰减率构建第二缩放因子，基于所述第二缩放因子来缩放二阶矩估计，以抵消由 β₂引起的偏差；

5）基于修正后的、，更新模型参数。

进一步的，所述模型参数包括权重W和偏置项b，根据以下公式计算目标函数关于模型参数的梯度P_t：

；

其中，为用于计算预测概率分布和真实标签之间的差异的均方差函数，表示第层i到第层j的权重，是第l层经过W、b计算的结果，是第l层节点i的输出值，是第l-1层节点j的输出值，是对的偏导数，是第层的偏置项。

第二方面，本申请公开的一种基于机器学习的分布式存储故障预测系统，所述系统包括样本数据构建模块、模型训练模块、以及预测模块，其中：

所述样本数据构建模块，用于获取对应分布式存储系统历史运行状态的初始样本数据集合；

所述样本数据构建模块，还用于基于高维数据特征的聚类分析，从所述初始样本数据集合中筛选出对应高维空间的初始锚点集合；

所述样本数据构建模块，还用于将所述初始锚点集合输入到训练好的生成对抗网络中，经生成器的处理得到目标样本数据集合，其中，所述生成对抗网络是在高、低维数据映射关系上进行训练的；

所述模型训练模块，用于构建初始多层感知机，将所述目标样本数据集合输入到所述初始多层感知机中进行训练，训练过程中，基于Adam优化器自适应地调整学习率；

所述模型训练模块，还用于训练结束后，输出目标多层感知机；

所述预测模块，用于获取对应分布式存储系统实时运行状态的实时运行数据，将所述实时运行数据输入到所述目标多层感知机中，进行分布式存储故障的预测。

第三方面，本申请公开的一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现所述的基于机器学习的分布式存储故障预测方法。

第四方面，本申请公开的一种基于机器学习的分布式存储故障预测设备，包括通信接口、存储器、通信总线和处理器，其中，所述处理器、通信接口和存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现所述的基于机器学习的分布式存储故障预测方法的步骤。

本发明具有如下有益效果：

通过结合高维数据特征的聚类分析和生成对抗网络，能够筛选出关键的高维空间锚点，并生成与目标故障预测更为相关的目标样本数据集合。这种数据预处理和特征提取方式有助于提高多层感知机模型的预测准确性。另外，采用Adam优化器自适应地调整学习率，也可以更有效地进行多层感知机的训练，提高预测准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种基于机器学习的分布式存储故障预测的方法流程图；

图2为本发明一个实施例所提供的一种基于机器学习的分布式存储故障预测的系统结构图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于机器学习的分布式存储故障预测方法及系统详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体地说明本发明所提供的一种基于机器学习的分布式存储故障预测方法及系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基于机器学习的分布式存储故障预测的方法流程图，该方法包括：

步骤S1，获取对应分布式存储系统历史运行状态的初始样本数据集合；

步骤S2，基于高维数据特征的聚类分析，从所述初始样本数据集合中筛选出对应高维空间的初始锚点集合；

步骤S3，将所述初始锚点集合输入到训练好的生成对抗网络中，经生成器的处理得到目标样本数据集合，其中，所述生成对抗网络是在高、低维数据映射关系上进行训练的；

S5、训练结束后，输出目标多层感知机；

由上可知，本申请公开的一种基于机器学习的分布式存储故障预测方法，通过结合高维数据特征的聚类分析和生成对抗网络，能够筛选出关键的高维空间锚点，并生成与目标故障预测更为相关的目标样本数据集合。这种数据预处理和特征提取方式有助于提高多层感知机模型的预测准确性。另外，采用Adam优化器自适应地调整学习率，也可以更有效地进行多层感知机的训练，提高预测准确率。

在其中一个实施例中，步骤S2中，所述基于高维数据特征的聚类分析，从所述初始样本

数据集合中筛选出对应高维空间的初始锚点集合，包括：

步骤S21，对所述初始样本数据集合进行预处理，得到预处理样本数据集。

具体的，数据预处理包括数据标准化、缺失值填充等，具体可参考后续实施例。

步骤S22，基于训练好的非线性回归模型，构建映射函数。

具体的，所述非线性回归模型的函数形式为：

；

其中，F是一个非线性函数，x是输入数据，θ为最优模型参数。需要说明的是，本申请预先使用了大量数据来训练这个非线性回归模型，使得该模型能够准确地将低维空间的输入数据点映射到高维空间中。

需要说明的是，参数θ是需要确定的变量，它决定了函数如何将输入数据映射到输出空间。在训练过程中，需要使用训练数据找到最优的θ值，使得模型能够准确地预测数据。

步骤S23，基于所述映射函数将所述预处理样本数据集映射到高维空间，得到高维样本数据集。

具体的，本申请将所述预处理样本数据集中的每个数据点与所述映射函数相乘，从而得到高维空间中的对应点。之后，将所有映射后的数据点组合起来，即可得到高维样本数据集。

步骤S24，基于所述高维样本数据集进行特征聚类分析，得到用于反映数据集关键特征的初始锚点集合。

具体的，本申请应用了K-means聚类算法对所述高维样本数据集进行聚类，并将得到的聚类中心作为锚点集合A=(a ₁,a ₂,...,a _i)。其中，，x是矩阵中根据不同向量到各个聚类中心点的距离，划分到不同聚类中心类别中的样本向量，i是矩阵中不同类别。

需要说明的是，这些锚点不仅捕捉了数据集的主要特征，还充当了连接原始数据和高维表示之间的桥梁。它们在高维空间中具有代表性，能够有效地概括数据集的内在属性。

上述实施例中，通过在高维空间进行特征聚类分析并提取关键特征，可以更加准确地识别出可能导致故障的关键因素。这有助于模型在实时预测时更准确地判断分布式存储系统的运行状态，提前发现潜在故障并进行预警。

在其中一个实施例中，步骤S3中，所述将所述初始锚点集合输入到训练好的生成对抗网

络中，经生成器的处理得到目标样本数据集合，包括：

步骤S31，基于所述映射函数对所述高维样本数据集进行降维，得到降维数据。

具体的，本申请中将高维样本数据集中的每个样本与所述映射函数相乘，得到对应的低维表示即为降维数据。

步骤S32，基于所述降维数据进行随机向量的抽取，得到随机向量集。

步骤S33，针对每个随机向量，从所述初始锚点集合中筛选出距离最近的目标锚点，并构建所述目标锚点与对应随机向量之间的映射集。

具体的，本申请基于预设的距离度量指标，包括欧式距离、余弦相似度等，来确定所述初始锚点集合中哪个锚点与随机向量最近，为了后续能够基于生成对抗网络进行锚点的降维，本申请还构建了相应的映射集，以便网络能够基于预先学习到的高、低维数据映射关系，将锚点降维至低维空间中。

这一过程实际上是寻找与随机向量在数据空间中最相似或最具代表性的锚点。这些目标锚点通常代表了数据集中的关键特征或模式，对于后续的故障预测具有重要意义。

步骤S34，将所述映射集输入到训练好的生成对抗网络中，经生成器的处理得到目标样本数据集合。

上述实施例中，通过一系列步骤生成的目标样本数据集合，包含了更多样化和贴近实际的数据点。将这些数据点用于训练多层感知机这一预测模型时，使得模型能够学习到更多关于故障发生的规律和模式，从而提高故障预测的准确性和可靠性。

在其中一个实施例中，步骤S34中，经生成器的得到样本数据的处理公式包括：

；

在其中一个实施例中，步骤S21中，所述对所述初始样本数据集合进行预处理，得到预处理样本数据集，包括：

步骤S211，基于所述初始样本数据集合进行数据标准化处理，得到标准化样本数据集。

需要说明的是，考虑到数据的多重属性，本申请在获取到初始样本数据集合后，会先对其进行数据规范化处理，其目的是确保数据的所有特征或属性在同一尺度上，避免某些属性因数值范围较大而对模型产生不成比例的影响。

具体的，数据标准化处理公式包括：

；

其中，是规范化后的值，是输入数据集中的值，、分别是输入数据特征属性对应的最小值和最大值。

步骤S212、基于所述标准化样本数据集进行缺失值插补处理，得到预处理样本数据集。

需要说明的是，本申请采用众数插补方法进行缺失值插补处理，其中，众数指的是数据集中出现次数最多的元素。

具体的，本申请使用计算出的众数来替代数据集中的缺失值，对于每个时间步t，众数的计算公式包括：

；

其中，指的是计算出的众数，M _t指的是数据x中每个特征的非缺失值的集合。

上述实施例中，通过数据标准化处理，能够将原始数据转换到同一尺度上，消除了不同特征之间由于量纲和单位不同所带来的影响。这有助于模型更好地学习和理解数据中的内在规律，从而提高预测的准确性。另外，通过缺失值插补处理，能够解决数据集中存在的缺失值问题。通过插补缺失值，可以保持数据的完整性和一致性，避免在后续的分析和建模过程中由于数据缺失而导致的偏差或错误。

在其中一个实施例中，步骤S4中，基于Adam优化器自适应地调整学习率的步骤包括：

步骤S41，初始化参数，所述参数包括学习率η、一阶矩估计的指数衰减率β₁、二阶矩估计的指数衰减率β₂、小的常数、一阶矩估计m₀、二阶矩估计v₀、以及时间步t。

具体的，学习率η设置为0.001，β₁设置为0.9，β₂设置为0.999，小的常数用于防止除零错误，其设置为10^(-8)。初始的一阶矩估计m₀、二阶矩估计v₀均设置为0。

步骤S42，在每个时间步t中：

1）根据链式法则计算目标函数关于模型参数的梯度P_t。

2）基于梯度p_t，引入相应的指数衰减率，对一阶矩估计m_t、二阶矩估计进行更新。

具体的更新公式包括：

；

其中，m_t-1为上一个时间步t-1产生的一阶矩估计，为上一个时间步t-1产生的二阶矩估计。

3）基于一阶矩估计的指数衰减率构建第一缩放因子，基于所述第一缩放因子来缩放一阶矩估计m_t，以抵消由β₁引起的偏差。

具体的，偏差修正公式包括：

。

4）基于二阶矩估计的指数衰减率构建第二缩放因子，基于所述第二缩放因子来缩放二阶矩估计，以抵消由 β₂引起的偏差。

具体的，修正公式包括：

。

5）基于修正后的、，更新模型参数。

具体的，模型参数更新公式包括：

；

其中，是更新后的参数值。

在其中一个实施例中，所述模型参数包括权重W和偏置项b，根据以下公式计算目标函数关于模型参数的梯度P_t：

；

具体的，在求得相应的偏导后，本申请采用的反向传播的训练方式公式如下：

；

其中，是学习速率。

经过多次的前向-反向传播训练后，通过逐层反向地更新权重、偏置项参数，最终的目的是求解一个局部最优W、b，使得最小，也就是最小化预测输出与实际输出之间的误差。

需要说明的是，采用均方差函数，其具体的函数形式如下所示：

；

其中，n为样本值的个数，k为预测输出的个数，为第t个样本第t个输出的预测输出，为实际输出。为输入值经过前向传播的函数公式，其中，f(x)表示ReLU激活函数，g(x)表示sigmoid激活函数，、、分别是输入层到隐层的权重、隐层到隐层状态权重、隐层到输出层权重，、分别表示隐层、输出层的激活偏置项。

请参考图2，本申请公开的一种基于机器学习的分布式存储故障预测系统，所述系统系统包括样本数据构建模块、模型训练模块、以及预测模块，其中：

在其中一个实施例中，上述各模块还用于实现如前述实施例中任一项所述的方法。

本申请公开的一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现所述的基于机器学习的分布式存储故障预测方法。

本申请公开的一种基于机器学习的分布式存储故障预测设备，包括通信接口、存储器、通信总线和处理器，其中，所述处理器、通信接口和存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

由上可知，本申请公开的一种基于机器学习的分布式存储故障预测方法及系统，通过结合高维数据特征的聚类分析和生成对抗网络，能够筛选出关键的高维空间锚点，并生成与目标故障预测更为相关的目标样本数据集合。这种数据预处理和特征提取方式有助于提高多层感知机模型的预测准确性。另外，采用Adam优化器自适应地调整学习率，也可以更有效地进行多层感知机的训练，提高预测准确率。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

Claims

1.一种基于机器学习的分布式存储故障预测方法，其特征在于，所述方法包括：

S2、基于高维数据特征的聚类分析，从所述初始样本数据集合中筛选出对应高维空间的初始锚点集合；

S5、训练结束后，输出目标多层感知机；

S6、获取对应分布式存储系统实时运行状态的实时运行数据，将所述实时运行数据输入到所述目标多层感知机中，进行分布式存储故障的预测；

步骤S4中，基于Adam优化器自适应地调整学习率的步骤包括：

S41、初始化参数，所述参数包括学习率η、一阶矩估计的指数衰减率β₁、二阶矩估计的指数衰减率β₂、小的常数ε、一阶矩估计m₀、二阶矩估计v₀、以及时间步t；

S42、在每个时间步t中：

1)根据链式法则计算均方差函数关于模型参数θ_t的梯度P_t；

2)基于梯度P_t，引入相应的指数衰减率，对一阶矩估计m_t、二阶矩估计v_t进行更新；

3)基于一阶矩估计的指数衰减率构建第一缩放因子，基于所述第一缩放因子来缩放一阶矩估计m_t，以抵消由β₁引起的偏差；

4)基于二阶矩估计的指数衰减率构建第二缩放因子，基于所述第二缩放因子来缩放二阶矩估计v_t，以抵消由β₂引起的偏差；

5)基于修正后的更新模型参数θ_t；

所述模型参数包括权重W和偏置项b，根据以下公式计算均方差函数关于模型参数θ_t的梯度P_t：

其中，P(W，b)为用于计算预测概率分布和真实标签之间的差异的均方差函数，表示第l层i到第l-1层j的权重，是第l层经过W、b计算的结果，是第l层节点i的输出值，是第l-1层节点j的输出值，是对的偏导数，是第l层的偏置项。

2.根据权利要求1所述的基于机器学习的分布式存储故障预测方法，其特征在于，步骤S2中，所述基于高维数据特征的聚类分析，从所述初始样本数据集合中筛选出对应高维空间的初始锚点集合，包括：

S22、基于训练好的非线性回归模型，构建映射函数；

3.根据权利要求2所述的基于机器学习的分布式存储故障预测方法，其特征在于，步骤S3中，所述将所述初始锚点集合输入到训练好的生成对抗网络中，经生成器的处理得到目标样本数据集合，包括：

4.根据权利要求3所述的基于机器学习的分布式存储故障预测方法，其特征在于，步骤S34中，经生成器的得到样本数据的处理公式包括：

其中，G为生成器；为高维空间中的任意向量z通过映射函数降维后随机抽取的向量；A＝(a₁,a₂,...,a_i)为锚点集合；其中，用于计算向量和锚点a_i之间的距离，argmin()用于从所得的各个距离项中，筛选出最小的距离项。

5.根据权利要求2所述的基于机器学习的分布式存储故障预测方法，其特征在于，步骤S21中，所述对所述初始样本数据集合进行预处理，得到预处理样本数据集，包括：

6.一种基于机器学习的分布式存储故障预测系统，其特征在于，所述系统包括样本数据构建模块、模型训练模块、以及预测模块，其中：

所述预测模块，用于获取对应分布式存储系统实时运行状态的实时运行数据，将所述实时运行数据输入到所述目标多层感知机中，进行分布式存储故障的预测；

所述模型训练模块基于Adam优化器自适应地调整学习率的具体实现为：

初始化参数，所述参数包括学习率η、一阶矩估计的指数衰减率β₁、二阶矩估计的指数衰减率β₂、小的常数ε、一阶矩估计m₀、二阶矩估计v₀、以及时间步t；

在每个时间步t中：

1)根据链式法则计算均方差函数关于模型参数θ_t的梯度P_t；

5)基于修正后的更新模型参数θ_t；

7.一种计算机可读存储介质，存储有计算机程序，其特征在于：所述计算机程序被处理器执行时，实现权利要求1-5任一项所述的基于机器学习的分布式存储故障预测方法。

8.一种基于机器学习的分布式存储故障预测设备，其特征在于：包括通信接口、存储器、通信总线和处理器，其中，所述处理器、通信接口和存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-5任一项所述的基于机器学习的分布式存储故障预测方法的步骤。