CN117251327A - 模型训练方法、磁盘故障预测方法、相关装置及设备 - Google Patents
模型训练方法、磁盘故障预测方法、相关装置及设备 Download PDFInfo
- Publication number
- CN117251327A CN117251327A CN202311294971.7A CN202311294971A CN117251327A CN 117251327 A CN117251327 A CN 117251327A CN 202311294971 A CN202311294971 A CN 202311294971A CN 117251327 A CN117251327 A CN 117251327A
- Authority
- CN
- China
- Prior art keywords
- disk
- model
- module
- training
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 136
- 238000000034 method Methods 0.000 title claims abstract description 84
- 230000001364 causal effect Effects 0.000 claims abstract description 38
- 238000005516 engineering process Methods 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims abstract description 4
- 238000012544 monitoring process Methods 0.000 claims abstract description 4
- 230000015654 memory Effects 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000000875 corresponding effect Effects 0.000 description 47
- 230000006870 function Effects 0.000 description 20
- 230000005291 magnetic effect Effects 0.000 description 11
- 230000001360 synchronised effect Effects 0.000 description 9
- 238000009826 distribution Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 4
- 235000019800 disodium phosphate Nutrition 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003862 health status Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012005 ligant binding assay Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2205—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
- G06F11/2221—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test input/output devices or peripheral units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2263—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3037—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请公开了一种模型训练方法、磁盘故障预测方法、模型训练装置、磁盘故障预测装置、第一设备、第二设备及存储介质。其中,模型训练方法包括:确定训练数据集,所述训练数据集包含多个样本及每个样本对应的标签,所述样本包括一块磁盘在第一日期的时序数据,所述时序数据与所述磁盘的M个自我监测分析和报告技术(SMART)指标关联,所述标签表征所述磁盘在所述第一日期后的N天内是否发生故障,M和N为大于0的整数;利用所述训练数据集,训练基于因果卷积结构的第一模型,所述第一模型用于预测目标磁盘在N天内是否发生故障。
Description
技术领域
本申请涉及深度学习技术领域,尤其涉及一种模型训练方法、磁盘故障预测方法、相关装置及设备。
背景技术
目前,一块磁盘(也可以称为硬盘)的生命周期通常为三到五年,并通常在使用两年后故障率明显升高,磁盘故障会导致用户数据丢失或损坏,系统读写性能降低,严重时还会导致系统故障和/或业务中断,造成极大的经济损失。据统计,在服务器硬件故障中,磁盘故障占比达到48%以上,是影响服务器运行可靠性的主要因素。
相关技术中,磁盘厂商可以采用自监测分析和报告技术(SMART,Self-MonitoringAnalysis and Reporting Technology)来监测磁盘的健康状态,并可以基于特定的设计规则制定故障检测手段来检测磁盘故障。
然而,对于如何实现磁盘故障的精准预测,相关技术尚未有有效解决方案。
发明内容
为解决相关技术问题,本申请实施例提供一种模型训练方法、磁盘故障预测方法、相关装置及设备。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种模型训练方法,包括:
确定训练数据集,所述训练数据集包含多个样本及每个样本对应的标签,所述样本包括一块磁盘在第一日期的时序数据,所述时序数据与所述磁盘的M个SMART指标关联,所述标签表征所述磁盘在所述第一日期后的N天内是否发生故障,M和N为大于0的整数;
利用所述训练数据集,训练基于因果卷积结构的第一模型,所述第一模型用于预测目标磁盘在N天内是否发生故障。
上述方案中,所述确定训练数据集,包括:
确定多个候选SMART指标及每个候选SMART指标关联的时序数据集;
基于每个候选SMART指标关联的时序数据集,确定每个候选SMART指标的交叉熵,确定的交叉熵表征候选SMART指标关联的故障磁盘的时序数据与健康磁盘的时序数据之间的相似性;
根据确定的每个候选SMART指标的交叉熵,从所述多个候选SMART指标中选择所述M个SMART指标;
基于所述M个SMART指标中的每个SMART指标关联的时序数据集,确定所述训练数据集。
上述方案中,确定所述训练数据集时,所述方法还包括:
将与健康磁盘关联的每个样本均确定为负样本;
针对与故障磁盘关联的每个样本,确定样本对应的第二日期和所述第一日期之间间隔的天数,所述第二日期是磁盘发生故障的日期;在确定的天数小于或等于N的情况下,将样本确定为正样本;在确定的天数大于N的情况下,将样本确定为负样本;其中,
所述负样本的标签表征对应磁盘在所述第一日期后的N天内未发生故障,所述正样本的标签表征对应磁盘在所述第一日期后的N天内发生故障。
上述方案中,所述第一模型包含第一模块、第二模块和第三模块,所述第一模块用于对输入样本的时序特征进行标准卷积,所述第二模块用于对所述第一模块输出的标准卷积结果进行空洞卷积,所述第三模块用于基于所述第二模块输出的空洞卷积结果确定对应磁盘在所述第一日期后的N天内发生故障的概率,所述第一模块、第二模块和第三模块形成因果卷积结构;所述利用所述训练数据集,训练基于因果卷积结构的第一模型,包括:
利用所述训练数据集,对所述第一模块、第二模块和第三模块进行训练。
上述方案中,训练所述第一模型时,所述方法还包括:
利用TrAdaBoost算法调整每个样本的权重,并利用调整后的权重训练所述第一模型。
本申请实施例还提供一种磁盘故障预测方法,包括:
采集目标磁盘的时序数据,所述时序数据与所述目标磁盘的M个SMART指标关联,M为大于0的整数;
利用第一模型和采集的时序数据,预测所述目标磁盘在N天内是否发生故障,N为大于0的整数,所述第一模型是采用上述任一模型训练方法训练的。
本申请实施例还提供一种模型训练装置,包括:
第一处理单元,用于确定训练数据集,所述训练数据集包含多个样本及每个样本对应的标签,所述样本包括一块磁盘在第一日期的时序数据,所述时序数据与所述磁盘的M个SMART指标关联,所述标签表征所述磁盘在所述第一日期后的N天内是否发生故障,M和N为大于0的整数;
第二处理单元,用于利用所述训练数据集,训练基于因果卷积结构的第一模型,所述第一模型用于预测目标磁盘在N天内是否发生故障。
本申请实施例还提供一种磁盘故障预测装置,包括:
采集单元,用于采集目标磁盘的时序数据,所述时序数据与所述目标磁盘的M个SMART指标关联,M为大于0的整数;
预测单元,用于利用第一模型和采集的时序数据,预测所述目标磁盘在N天内是否发生故障,N为大于0的整数,所述第一模型是采用上述任一模型训练方法训练的。
本申请实施例还提供一种第一设备,包括:第一处理器和用于存储能够在处理器上运行的计算机程序的第一存储器,
其中,所述第一处理器用于运行所述计算机程序时,执行上述任一模型训练方法的步骤。
本申请实施例还提供一种第二设备,包括:第二处理器和用于存储能够在处理器上运行的计算机程序的第二存储器,
其中,所述第二处理器用于运行所述计算机程序时,执行上述任一磁盘故障预测方法的步骤。
本申请实施例还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一模型训练方法的步骤,或者实现上述任一磁盘故障预测方法的步骤。
本申请实施例提供的模型训练方法、磁盘故障预测方法、相关装置及设备,模型训练方法包括:确定训练数据集,所述训练数据集包含多个样本及每个样本对应的标签,所述样本包括一块磁盘在第一日期的时序数据,所述时序数据与所述磁盘的M个SMART指标关联,所述标签表征所述磁盘在所述第一日期后的N天内是否发生故障,M和N为大于0的整数;利用所述训练数据集,训练基于因果卷积结构的第一模型,所述第一模型用于预测目标磁盘在N天内是否发生故障。本申请实施例提供的方案,基于训练数据集包含的多个样本及每个样本对应的标签训练基于因果卷积结构的、用于预测目标磁盘在N(N为大于0的整数)天内是否发生故障的模型(即上述第一模型),由于每个样本包括一块磁盘在特定日期(即上述第一日期)与磁盘的M(M为大于0的整数)个SMART指标关联的时序数据,并且,标签表征磁盘在特定日期后的N天内是否发生故障,所以该模型能够基于磁盘的SMART指标提前N天实现对磁盘故障的精准预测,即实现对磁盘在以特定日期为起始时间的特定时间范围(即未来N天)内是否会发生故障进行精准预测,从而能够实现对磁盘的健康状态评估(可以理解为对磁盘在未来N天内是否发生故障的评估),如此,后续按照特定周期、周期性地(也可以理解为实时地)利用该模型预测目标磁盘在未来N天内是否发生故障,能够实时感知磁盘的健康状态,并能够提前N天感知磁盘故障,即提前N天感知磁盘的健康隐患,从而能够提前更换即将发生故障的亚健康磁盘以避免数据丢失或损坏,并避免系统故障和/或业务中断,从而能够确保存储系统的稳定运行,降低运维成本,提升基于该存储系统的大规模云平台的服务可靠性。
附图说明
图1为本申请实施例模型训练方法的流程示意图;
图2为本申请实施例磁盘故障预测方法的流程示意图;
图3为本申请应用示例磁盘故障预测框架结构示意图;
图4为本申请应用示例磁盘故障预测网络(即第一模型)结构示意图;
图5为本申请实施例模型训练装置结构示意图;
图6为本申请实施例磁盘故障预测装置结构示意图;
图7为本申请实施例第一设备结构示意图;
图8为本申请实施例第二设备结构示意图。
具体实施方式
下面结合附图及实施例对本申请再作进一步详细的描述。
相关技术中,可以训练基于机器学习或深度学习的故障预测模型来提前预测磁盘故障。然而,传统的基于机器学习或深度学习的故障预测模型无法捕捉不同属性特征之间隐藏的特征关系;并且,受限于磁盘使用状态和寿命的持续变化,在模型训练时缺乏对时间窗口的动态特征的挖掘,模型稳健性和泛化能力较差,误报率普遍较高,无法满足存储系统日渐严格的、提前预测磁盘故障的需求。换句话说,相关技术中的故障预测模型无法实现磁盘故障的精准预测。
基于此,在本申请的各种实施例中,基于训练数据集包含的多个样本及每个样本对应的标签训练基于因果卷积结构的、用于预测目标磁盘在N(N为大于0的整数)天内是否发生故障的模型,由于每个样本包括一块磁盘在特定日期与磁盘的M(M为大于0的整数)个SMART指标关联的时序数据,并且,标签表征磁盘在特定日期后的N天内是否发生故障,所以该模型能够基于磁盘的SMART指标提前N天实现对磁盘故障的精准预测,即实现对磁盘在以特定日期为起始时间的特定时间范围(即未来N天)内是否会发生故障进行精准预测,从而能够实现对磁盘的健康状态评估(可以理解为对磁盘在未来N天内是否发生故障的评估),如此,后续按照特定周期、周期性地(也可以理解为实时地)利用该模型预测目标磁盘在未来N天内是否发生故障,能够实时感知磁盘的健康状态,并能够提前N天感知磁盘故障,即提前N天感知磁盘的健康隐患,从而能够提前更换即将发生故障的亚健康磁盘以避免数据丢失或损坏,并避免系统故障和/或业务中断,从而能够确保存储系统的稳定运行,降低运维成本,提升基于该存储系统的大规模云平台的服务可靠性。
本申请实施例提供了一种模型训练方法,应用于第一设备,如图1所示,该方法包括:
步骤101:确定训练数据集,所述训练数据集包含多个(即至少两个)样本及每个样本对应的标签,所述样本包括一块磁盘在第一日期的时序数据,所述时序数据与所述磁盘的M个SMART指标关联,所述标签表征所述磁盘在所述第一日期后的N天内是否发生故障,M和N为大于0的整数;
步骤102:利用所述训练数据集,训练基于因果卷积结构的第一模型,所述第一模型用于预测目标磁盘在N天内是否发生故障。
其中,实际应用时,所述第一设备可以包括服务器等电子设备。并且,所述第一设备可以部署在基础设施即服务(IaaS,Infrastructure as a Service)层的存储系统的运维和/或管理中心;可以理解,所述第一设备具有采集存储系统中的每块磁盘及每个服务器的时序数据(即上述第一时序数据、第二时序数据)的能力。另外,IaaS层是指基础设施层,通常部署有海量的服务器,可以提供中央处理器(CPU)、内存、存储、网络和其他基本的计算资源。
实际应用时,所述样本也可以称为样本数据;所述时序数据也可以称为磁盘数据或SMART信息等;所述第一模型也可以称为磁盘故障预测模型、磁盘故障预测网络、因果关联模型、磁盘因果卷积网络(DTCN,Disk-Temporal Convolutional Network)或磁盘因果卷积模型等;本申请实施例对各种名称不作限定,只要实现其功能即可。
实际应用时,考虑到通常故障磁盘的样本数量较少,即故障磁盘和健康磁盘的比例通常不平衡,所以为了增加样本数量,提高所述训练数据集中样本的丰富度和平衡性,可以基于相关技术公开的(即开源的)一个或多个数据集进行迁移学习,即从开源的一个或多个数据集中获取磁盘的相关数据来生成样本,也即根据开源的一个或多个数据集确定所述训练数据集。换句话说,可以将开源的一个或多个数据集作为源域数据进行所述第一模型的训练,所述第一模型训练完成后,再采集目标域的目标磁盘的时序数据输入所述第一模型以预测所述目标磁盘在未来N天内是否会发生故障。
实际应用时,所述SMART指标是指记录磁盘生命周期相关的重要安全指标,可以包括由嵌入磁盘驱动器的固件所提供的硬件级的传感器数据;换句话说,SMART指标是由磁盘自身提供的指标,挂载有该磁盘的服务器可以通过一些组件/插件,或者通过磁盘提供的接口/功能来读取磁盘的SMART指标,比如磁盘的温度、磁盘的转速、磁盘的通电时间、计数等。
实际应用时,M的取值大小可以根据需求来设置/调整,比如10、20、30等。另外,所述样本包含的时序数据所关联的所述磁盘的M个SMART指标也可以根据需求来预先设置;示例性地,可以直接将与磁盘的故障特征存在较强相关性的、标识(即ID)为1、3、5、9、187、188、191、192、193、197和242的SMART指标确定为所述样本包含的时序数据所关联的M个SMART指标,此时M的取值为11;其中,标识为1的SMART指标表示磁盘的底层数据读取错误率(英文可以表达为Raw Read Error Rate),标识为3的SMART指标表示磁盘的主轴起旋时间(英文可以表达为Spin Up Time),标识为5的SMART指标表示磁盘的重映射扇区计数(英文可以表达为Reallocated Sectors Count)或退役块计数(英文可以表达为Retired BlockCount),标识为9的SMART指标表示磁盘的通电时间累计(英文可以表达为Power-On TimeCount,简称为POH),标识为187的SMART指标表示磁盘的无法校正的错误(英文可以表达为Reported Uncorrectable Errors),标识为188的SMART指标表示磁盘的命令超时(英文可以表达为Command Timeout),标识为191的SMART指标表示磁盘的冲击错误率(英文可以表达为G-sense error rate),标识为192的SMART指标表示磁盘的断电返回计数(英文可以表达为Power-Off Retract Count),标识为193的SMART指标表示磁盘的磁头加载/卸载计数(英文可以表达为Load/Unload Cycle Count),标识为197的SMART指标表示磁盘的当前待映射扇区计数(英文可以表达为Current Pending Sector Count)或读取错误块计数(英文可以表达为Read Failure block Count),标识为242的SMART指标表示磁盘的读取剩余寿命(英文可以表达为Lifetime Reads from Host)或逻辑块地址(LBA,Logical BlockAddressing)读取总数(英文可以表达为Total LBAs Read)。
实际应用时,也可以采用交叉熵来计算故障磁盘和健康磁盘的指标相似性,从而确定与磁盘的故障特征强烈相关的、所述样本包含的时序数据所关联的所述磁盘的M个SMART指标。
基于此,在一实施例中,所述确定训练数据集,可以包括:
确定多个候选SMART指标及每个候选SMART指标关联的时序数据集;
基于每个候选SMART指标关联的时序数据集,确定每个候选SMART指标的交叉熵,确定的交叉熵表征候选SMART指标关联的故障磁盘的时序数据与健康磁盘的时序数据之间的相似性;
根据确定的每个候选SMART指标的交叉熵,从所述多个候选SMART指标中选择所述M个SMART指标;
基于所述M个SMART指标中的每个SMART指标关联的时序数据集,确定所述训练数据集。
其中,实际应用时,可以基于上述开源的一个或多个数据集确定所述多个候选SMART指标及每个候选SMART指标关联的时序数据集。另外,可以理解,所述交叉熵越大,对应的候选SMART指标所关联的故障磁盘的时序数据与健康磁盘的时序数据之间的相似性越大,即该候选SMART指标与磁盘的故障特征之间的相关性越小;因此,确定每个候选SMART指标的交叉熵后,可以将所述多个候选SMART指标按照对应的交叉熵从小到大进行排序,并选择前M个候选SMART指标作为所述M个SMART指标。
实际应用时,所述标签表征所述磁盘在所述第一日期后的N天内是否发生故障,可以理解为所述标签表征所述磁盘在以所述第一日期为起始时间的、时长为N天的时间范围内是否发生故障。所述第一模型用于预测目标磁盘在N天内是否发生故障,可以理解为所述第一模型用于预测所述目标磁盘在当前日期后的未来N天内是否发生故障,或者可以理解为所述第一模型用于预测所述目标磁盘在以当前日期为起始时间的、时长为N天的时间范围内是否发生故障。
实际应用时,N的取值大小也可以根据需求来设置/调整,比如10、20、30等;示例性地,在N取值为10的情况下,所述标签表征所述磁盘在所述第一日期后的10天内是否发生故障,所述第一模型用于预测目标磁盘在未来10天内是否发生故障。另外,从上面的描述可以看出,所述第一模型所预测的、所述目标磁盘发生故障的日期与当前日期(即进行故障预测的日期)之间的间隔为N天,因此,可以将N天称为所述第一模型的预测窗口(英文可以表达为Predict Window)。
实际应用时,在确定所述训练数据集的过程中,需要确定每个样本对应的标签。
基于此,在一实施例中,确定所述训练数据集时,该方法还可以包括:
将与健康磁盘关联的每个样本均确定为负样本;
针对与故障磁盘关联的每个样本,确定样本对应的第二日期和所述第一日期之间间隔的天数,所述第二日期是磁盘发生故障的日期;在确定的天数小于或等于N的情况下,将样本确定为正样本;在确定的天数大于N的情况下,将样本确定为负样本。
其中,所述负样本的标签表征对应磁盘在所述第一日期后的N天内未发生故障,所述正样本的标签表征对应磁盘在所述第一日期后的N天内发生故障;换句话说,所述标签能够反映对应的样本是正样本还是负样本,当所述标签表征对应磁盘在所述第一日期后的N天内未发生故障时,所述标签对应的样本是负样本,当所述标签表征对应磁盘在所述第一日期后的N天内发生故障时,所述标签对应的样本是正样本。
实际应用时,所述标签的具体表现形式可以根据需求来设置。示例性地,在N取值为10的情况下,假设一个样本对应的第一日期为2023年5月20日,并假设该样本对应的第二日期为2023年5月30日,则可以确定该样本为正样本,标签为1;假设一个样本对应的第一日期为2023年5月20日,并假设该样本无对应的第二日期,或者假设该样本对应的第二日期为2023年6月10日,则可以确定该样本为负样本,标签为0。
实际应用时,确定所述训练数据集后,可以对所述训练数据集的每个样本进行时序特征的提取,得到每个样本对应的特征向量;再将所述训练数据集的每个样本对应的特征向量作为输入数据,训练所述第一模型。另外,考虑到各磁盘的厂商、型号、或规格等属性可能存在差异,所以对所述训练数据集的每个样本进行时序特征的提取后,可以根据时序特征的结构和/或分布等特点,采用归一化、差分、斜率等方式消除样本数据之间的差异(比如量纲差异等)。
实际应用时,所述第一模型所采用的具体网络结构可以根据需求来设置。示例性地,所述第一模型至少可以包含用于进行标准卷积的模块和用于进行空洞卷积的模块。
基于此,在一实施例中,所述第一模型可以包含第一模块、第二模块和第三模块,所述第一模块用于对输入样本(即输入的样本的特征向量)的时序特征进行标准卷积,所述第二模块用于对所述第一模块输出的标准卷积结果进行空洞卷积,所述第三模块用于基于所述第二模块输出的空洞卷积结果确定对应磁盘在所述第一日期后的N天内发生故障的概率,所述第一模块、第二模块和第三模块形成因果卷积结构;所述利用所述训练数据集,训练基于因果卷积结构的第一模型,可以包括:
利用所述训练数据集,对所述第一模块、第二模块和第三模块进行训练。
其中,实际应用时,所述第一模块、第二模块和第三模块形成因果卷积结构,可以理解为所述第一模块、第二模块和第三模块形成因果卷积网络(TCN,TemporalConvolutional Network)。另外,所述第一模块、第二模块和第三模块相关的具体参数可以根据需求来设置,本申请实施例对此不作限定,只要实现其功能即可。这里,通过所述第二模块进行的空洞卷积,能够有效平滑时空相邻数据的抖升/抖降情况,从而能够使所述第一模型对时间维度中的噪声不敏感,大幅降低数据采集错误引起的误报情况。
实际应用时,在训练所述第一模型之前,可以对所述第一模型进行初始化,初始化的具体内容可以根据需求来设置,本申请实施例对此不作限定,只要实现所述第一模型的功能即可。示例性地,可以将焦点损失(Focal Loss)函数确定为所述第一模型的损失函数,从而能够针对不均衡的样本加大部分正样本的权重,并加大对难分类样本的关注,从而能够有效解决样本的长尾分布等问题。
实际应用时,由于所述训练数据集中的样本来自源域而不是目标域,为了解决数据不同源引起的数据漂移和数据分布差异等问题,可以在训练所述第一模型时利用TrAdaBoost算法调整每个样本的权重,即提高与目标域数据相似性较高的样本的权重,或者提高对目标域样本分类有帮助的样本的权重,并降低其他样本的权重,如此,能够提高所述第一模型的性能和效果。
基于此,在一实施例中,训练所述第一模型时,该方法还可以包括:
利用TrAdaBoost算法调整每个样本的权重,并利用调整后的权重训练所述第一模型。
相应地,本申请实施例还提供了一种磁盘故障预测方法,应用于第二设备,如图2所示,该方法包括:
步骤201:采集目标磁盘的时序数据,所述时序数据与所述目标磁盘的M个SMART指标关联,M为大于0的整数;
步骤202:利用第一模型和采集的时序数据,预测所述目标磁盘在N天内是否发生故障,N为大于0的整数,所述第一模型是采用上述一个或多个技术方案提供的模型训练方法训练的。
其中,实际应用时,所述第二设备可以包括服务器等电子设备;并且,所述第二设备与所述第一设备可以相同或不同,即所述第二设备与所述第一设备可以是同一电子设备,也可以是两个不同的电子设备。可以理解,在所述第二设备与所述第一设备是两个不同的电子设备的情况下,所述第二设备能够与所述第一设备进行信息交互,比如,所述第一设备可以向所述第二设备传输训练/优化后的所述第一模型;再比如,所述第二设备可以将一段时间范围(时间范围的取值具体可以根据需求来设置)内所述第一模型的预测结果(即所述第一模型的输出数据)与对应的时序数据关联后传输给所述第一设备,以供所述第一设备优化所述第一模型。
实际应用时,可以理解,为了使用所述第一模型,需要采用与模型训练过程相同的特征提取方式对所述时序数据进行时序特征的提取,得到所述目标磁盘对应的特征向量,再将所述目标磁盘对应的特征向量输入所述第一模型,以使所述第一模型输出预测结果,所述预测结果表征所述目标磁盘在未来N天内是否会发生故障。
本申请实施例提供的模型训练方法和磁盘故障预测方法,确定训练数据集,所述训练数据集包含多个样本及每个样本对应的标签,所述样本包括一块磁盘在第一日期的时序数据,所述时序数据与所述磁盘的M个SMART指标关联,所述标签表征所述磁盘在所述第一日期后的N天内是否发生故障,M和N为大于0的整数;利用所述训练数据集,训练基于因果卷积结构的第一模型,所述第一模型用于预测目标磁盘在N天内是否发生故障。本申请实施例提供的方案,基于训练数据集包含的多个样本及每个样本对应的标签训练基于因果卷积结构的、用于预测目标磁盘在N(N为大于0的整数)天内是否发生故障的模型(即上述第一模型),由于每个样本包括一块磁盘在特定日期(即上述第一日期)与磁盘的M(M为大于0的整数)个SMART指标关联的时序数据,并且,标签表征磁盘在特定日期后的N天内是否发生故障,所以该模型能够基于磁盘的SMART指标提前N天实现对磁盘故障的精准预测,即实现对磁盘在以特定日期为起始时间的特定时间范围(即未来N天)内是否会发生故障进行精准预测,从而能够实现对磁盘的健康状态评估(可以理解为对磁盘在未来N天内是否发生故障的评估),如此,后续按照特定周期、周期性地(也可以理解为实时地)利用该模型预测目标磁盘在未来N天内是否发生故障,能够实时感知磁盘的健康状态,并能够提前N天感知磁盘故障,即提前N天感知磁盘的健康隐患,从而能够提前更换即将发生故障的亚健康磁盘以避免数据丢失或损坏,并避免系统故障和/或业务中断,从而能够确保存储系统的稳定运行,降低运维成本,提升基于该存储系统的大规模云平台的服务可靠性。
下面结合应用示例对本申请再作进一步详细的描述。
在本应用示例中,针对相关技术中的故障预测模型所存在的无法捕捉不同属性特征之间隐藏的特征关系、缺乏对时间窗口的动态特征的挖掘等问题,提供一种基于因果卷积结构的磁盘故障预测算法,也可以理解为一种磁盘故障预测框架。具体地,通过硬件领域知识、企业数据和专家经验等多方知识的融合和深度挖掘,提取磁盘故障关键特征,构建因果关联模型(即上述第一模型);通过迁移学习和时间渐进采样来解决故障磁盘的样本不均衡问题;基于空洞卷积捕捉磁盘故障特征的时序依赖和故障传播的模式,从而实现精准的磁盘故障预测,即根据磁盘的SMART指标信息预测未来一段时间内(即N天内,N为大于0的整数)磁盘是否会发生故障。其中,所述一段时间(即N天)是所述因果关联模型的预测窗口,指所述因果关联模型预测的未来磁盘故障发生的时刻与当前时刻(即进行故障预测的时刻)之间的间隔。所述时间渐进采样,是指对磁盘故障发生的时刻与样本采集时刻之间的间隔为N、N-1、N-2、N-3…0的样本分别进行采样,从而提高故障样本的数量和丰富度。
在本应用示例中,如图3所示,所述磁盘故障预测框架包括离线训练模块和在线预测模块;所述离线训练模块用于基于公开数据集Backblaze训练算法模型(即上述第一模型),由于故障磁盘和健康磁盘的比例不平衡,所以需要基于多源数据进行样本迁移学习,扩充更多的故障样本数据;所述在线预测模块用于实时地采集云平台服务器下所有磁盘的相关SMART指标进行磁盘故障预测。所述离线训练模块包括数据分析模块、样本构建模块、特征工程模块、模型训练模块和模型评价模块;所述在线预测模块包括数据采集模块、特征变换模块、DTCN预测模块、规则检验模块和结果输出模块。
其中,所述数据分析模块用于分析各个SMART指标在健康磁盘与故障磁盘之间的相关性和分布差异,并确定哪些指标(即上述M个SMART指标,M为大于0的整数)与故障特征强烈相关;具体地,可以采用交叉熵来计算故障磁盘和健康磁盘之间的指标相似性,相似性越高,对应的指标越不具备故障特征,即对应的指标与故障特征之间的相关性越低。示例性地,结合专家经验和领域知识,避免不同磁盘厂商、型号规格导致的指标定义和量纲差异,本应用示例选取的SMART指标ID为1、3、5、9、187、188、191、193、197和242。
所述样本构建模块用于根据磁盘的时序数据划分正负样本数据,正样本指故障磁盘发生故障时前10天(本应用示例中N取值为10)内的数据,超出10天的数据为负样本,健康磁盘任何时间的数据均为负样本。可以理解,10天为预测窗口的长度,该长度可以根据需求来调整。另外,所述样本构建模块可以用于进行磁盘选择,即可以选择一些主流磁盘型号的样本数据。
所述特征工程模块用于基于统计学习提取SMART指标的原始值、差分值、变化率、方差、一阶距等,即用于对样本数据进行时序特征的提取,得到原始特征、差分特征、窗口特征等特征。
所述模型评价模块用于通过指标检出率和误报率来进行模型性能的评价,所述检出率指预测正确的故障样本占实际故障样本的百分比。
所述模型训练模块用于进行DTCN的训练,即训练所述因果关联模型。其中,所述模型训练模块可以采用因果卷积网络(TCN,Temporal Convolutional Network)作为骨干网络,TCN可以用于时序预测任务,相比于循环神经网络的庞大计算成本,TCN可以通过大规模并行提升算法速度,且某一时间t的输出只与t之前发生的特征进行卷积,即强调所谓的先有因后有果。另外,本应用示例提出的DTCN用于进行磁盘故障预测,可以后置全连接层将时序预测任务转为故障分类任务;针对不均衡的样本,可以采用Focal Loss作为损失函数,即加大少量的正样本的权重,也加大对难分样本的关注,从而能够有效解决样本的长尾分布等问题。
在本应用示例中,如图4所示,DTCN模型(即所述因果关联模型,也即上述第一模型)具体包含第一模块、第二模块和第三模块;其中,所述第一模块也可以称为标准卷积模块,用于提取相关的时序特征,可以包含二维卷积函数(Conv2d)、标准化(BN,BatchNormalization)层、激活函数(线性整流函数(ReLU,Rectified Linear Unit))和池化层(MaxPool2D)等子模块;所述第二模块也可以称为残差模块,用于融合高层时序特征和浅层时序特征(即用于充分挖掘磁盘故障隐藏特征),可以包含空洞卷积(DilatedConv)、BN层、激活函数(双曲正切函数(Tanh))、随机失活(Dropout)和一维卷积函数(Conv1d)等子模块;所述第三模块也可以称为因果卷积模块,用于进行因果卷积,所述第三模块包含用于输出磁盘故障的概率的全连接(FC)模块。实际应用时,循环神经网络通常对触发事件发生的确切时间很敏感,而在真实环境中,触发事件与硬件故障之间存在不确定的延迟,很难学习统一的规则。因此,所述DTCN模型采用了空洞卷积,能够有效平滑时空相邻数据的抖升/抖降情况,从而能够使所述DTCN模型对时间维度中的噪声不敏感,大幅降低数据采集错误引起的误报情况。
在本应用示例中,所述DTCN模型是基于开源的磁盘数据训练的,并不能直接用于线上的数据预测(即预测目标域的磁盘故障),否则可能会存在数据不同源引起的数据漂移和分布差异等问题,例如不同的磁盘厂商型号、不同的采集速率、不同的业务需求等。为了解决该问题,需要从大规模的外部磁盘数据(即开源的磁盘数据)中筛选出和线上数据(即目标域的磁盘数据)分布相同的样本用于模型训练,因此,本应用示例引入了TrAdaboost的迁移思想,对训练数据集中的每个样本增加权重,利用权重来弱化那些不同分布的测试集数据(即样本)。具体地,在每一次的迭代训练中,如果模型误分类了一个线下样本(即开源的磁盘数据对应的样本),那么这个样本可能和目标域的样本具有较大的差距,需要降低这个样本的权重,通过降低该样本的权重,即通过降低的权重值的影响,在下一次的迭代中,这个样本对分类模型(即所述DTCN模型,也即所述因果关联模型/第一模型)的影响就会降低,通过一系列的迭代之后,开源数据中与线上数据相似的或者说对目标域样本分类有帮助的样本的权重就会提高,而其他来源的样本权重会降低,从而能够提高模型的效果和性能。
在本应用示例中,所述数据采集模块可以用于按照特定周期、周期性地(也可以理解为实时地)采集目标域的磁盘数据,并将采集的磁盘数据输入所述特征变换模块;所述特征变换模块可以用于采用与所述特征工程模块一致的方式对输入的磁盘数据进行特征提取,并将提取的特征输入所述DTCN预测模块;所述DTCN预测模块可以利用输入的特征和所述DTCN模型预测对应磁盘在未来10天内是否会发生故障,并将预测结果输入所述规则检验模块;所述规则检验模块可以用于采用特定的规则(具体可以根据需求来设置,本应用示例对此不作限定)检验所述预测结果的准确性,并将检验结果输入所述结果输出模块;所述结果输出模块可以用于向特定设备输出所述预测结果和检验结果。
实际应用时,图3所示的磁盘故障预测框架和图4所示的DTCN模型结构也可以在修改相应参数后应用于除磁盘故障外的其他服务器硬件故障预测,其他服务器硬件故障预测的具体预测流程可以根据需求来设置,本申请实施例对此不作限定。
本应用示例提供的方案,基于因果网络(即所述DTCN模型,也即所述因果关联模型/第一模型),能够实时感知磁盘的健康状态,并能够提前10天(时间长度可调整)预测磁盘故障,从而能够帮助客户构建磁盘的主动式故障处理机制,即主动更换即将发生故障的亚健康磁盘,以避免业务数据丢失或损坏,并避免系统故障和/或业务中断,从而能够确保存储系统的稳定运行,降低运维成本,提升基于该存储系统的大规模云平台的服务可靠性。
为了实现本申请实施例的模型训练方法,本申请实施例还提供了一种模型训练装置,如图5所示,该装置包括:
第一处理单元501,用于确定训练数据集,所述训练数据集包含多个样本及每个样本对应的标签,所述样本包括一块磁盘在第一日期的时序数据,所述时序数据与所述磁盘的M个SMART指标关联,所述标签表征所述磁盘在所述第一日期后的N天内是否发生故障,M和N为大于0的整数;
第二处理单元502,用于利用所述训练数据集,训练基于因果卷积结构的第一模型,所述第一模型用于预测目标磁盘在N天内是否发生故障。
其中,在一实施例中,所述第一处理单元501,具体用于:
确定多个候选SMART指标及每个候选SMART指标关联的时序数据集;
基于每个候选SMART指标关联的时序数据集,确定每个候选SMART指标的交叉熵,确定的交叉熵表征候选SMART指标关联的故障磁盘的时序数据与健康磁盘的时序数据之间的相似性;
根据确定的每个候选SMART指标的交叉熵,从所述多个候选SMART指标中选择所述M个SMART指标;
基于所述M个SMART指标中的每个SMART指标关联的时序数据集,确定所述训练数据集。
在一实施例中,所述第一处理单元501,还用于:
将与健康磁盘关联的每个样本均确定为负样本;
针对与故障磁盘关联的每个样本,确定样本对应的第二日期和所述第一日期之间间隔的天数,所述第二日期是磁盘发生故障的日期;在确定的天数小于或等于N的情况下,将样本确定为正样本;在确定的天数大于N的情况下,将样本确定为负样本;其中,
所述负样本的标签表征对应磁盘在所述第一日期后的N天内未发生故障,所述正样本的标签表征对应磁盘在所述第一日期后的N天内发生故障。
在一实施例中,所述第一模型包含第一模块、第二模块和第三模块,所述第一模块用于对输入样本的时序特征进行标准卷积,所述第二模块用于对所述第一模块输出的标准卷积结果进行空洞卷积,所述第三模块用于基于所述第二模块输出的空洞卷积结果确定对应磁盘在所述第一日期后的N天内发生故障的概率,所述第一模块、第二模块和第三模块形成因果卷积结构;
相应地,所述第二处理单元502,具体用于利用所述训练数据集,对所述第一模块、第二模块和第三模块进行训练。
在一实施例中,训练所述第一模型时,所述第二处理单元502,还用于利用TrAdaBoost算法调整每个样本的权重,并利用调整后的权重训练所述第一模型。
其中,所述第一处理单元501的功能相当于上述应用示例的磁盘故障预测框架中数据分析模块和样本构建模块的功能;所述第二处理单元502的功能相当于上述应用示例的磁盘故障预测框架中特征工程模块和模型训练模块的功能。
实际应用时,所述第一处理单元501和第二处理单元502可由模型训练装置中的处理器实现。
需要说明的是:上述实施例提供的模型训练装置在进行模型训练时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块(比如上述应用示例的磁盘故障预测框架中的数据分析模块、样本构建模块、特征工程模块和模型训练模块),以完成以上描述的全部或者部分处理。另外,上述实施例提供的模型训练装置与模型训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
为了实现本申请实施例的磁盘故障预测方法,本申请实施例还提供了一种磁盘故障预测装置,如图6所示,该装置包括:
采集单元601,用于采集目标磁盘的时序数据,所述时序数据与所述目标磁盘的M个SMART指标关联,M为大于0的整数;
预测单元602,用于利用第一模型和采集的时序数据,预测所述目标磁盘在N天内是否发生故障,N为大于0的整数,所述第一模型是采用上述一个或多个技术方案提供的模型训练方法训练的。
其中,所述采集单元601的功能相当于上述应用示例的磁盘故障预测框架中数据采集模块的功能;所述预测单元602的功能相当于上述应用示例的磁盘故障预测框架中特征变换模块和DTCN预测模块的功能。
实际应用时,所述采集单元601可由磁盘故障预测装置中的处理器结合通信接口实现;所述预测单元602可由磁盘故障预测装置中的处理器实现。
需要说明的是:上述实施例提供的磁盘故障预测装置在进行磁盘故障预测时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块(比如上述应用示例的磁盘故障预测框架中的数据采集模块、特征变换模块和DTCN预测模块),以完成以上描述的全部或者部分处理。另外,上述实施例提供的磁盘故障预测装置与磁盘故障预测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,且为了实现本申请实施例的模型训练方法,本申请实施例还提供了一种第一设备,如图7所示,该第一设备700包括:
第一通信接口701,能够与其他电子设备(比如上述第二设备等)进行信息交互;
第一处理器702,与所述第一通信接口701连接,以实现与其他电子设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的模型训练方法;
第一存储器703,所述计算机程序存储在所述第一存储器703上。
具体地,所述第一处理器702,用于:
确定训练数据集,所述训练数据集包含多个样本及每个样本对应的标签,所述样本包括一块磁盘在第一日期的时序数据,所述时序数据与所述磁盘的M个SMART指标关联,所述标签表征所述磁盘在所述第一日期后的N天内是否发生故障,M和N为大于0的整数;
利用所述训练数据集,训练基于因果卷积结构的第一模型,所述第一模型用于预测目标磁盘在N天内是否发生故障。
其中,在一实施例中,所述第一处理器702,还用于:
确定多个候选SMART指标及每个候选SMART指标关联的时序数据集;
基于每个候选SMART指标关联的时序数据集,确定每个候选SMART指标的交叉熵,确定的交叉熵表征候选SMART指标关联的故障磁盘的时序数据与健康磁盘的时序数据之间的相似性;
根据确定的每个候选SMART指标的交叉熵,从所述多个候选SMART指标中选择所述M个SMART指标;
基于所述M个SMART指标中的每个SMART指标关联的时序数据集,确定所述训练数据集。
在一实施例中,确定所述训练数据集时,所述第一处理器702,还用于:
将与健康磁盘关联的每个样本均确定为负样本;
针对与故障磁盘关联的每个样本,确定样本对应的第二日期和所述第一日期之间间隔的天数,所述第二日期是磁盘发生故障的日期;在确定的天数小于或等于N的情况下,将样本确定为正样本;在确定的天数大于N的情况下,将样本确定为负样本;其中,
所述负样本的标签表征对应磁盘在所述第一日期后的N天内未发生故障,所述正样本的标签表征对应磁盘在所述第一日期后的N天内发生故障。
在一实施例中,所述第一模型包含第一模块、第二模块和第三模块,所述第一模块用于对输入样本的时序特征进行标准卷积,所述第二模块用于对所述第一模块输出的标准卷积结果进行空洞卷积,所述第三模块用于基于所述第二模块输出的空洞卷积结果确定对应磁盘在所述第一日期后的N天内发生故障的概率,所述第一模块、第二模块和第三模块形成因果卷积结构;所述第一处理器702,还用于利用所述训练数据集,对所述第一模块、第二模块和第三模块进行训练。
在一实施例中,训练所述第一模型时,所述第一处理器702,还用于利用TrAdaBoost算法调整每个样本的权重,并利用调整后的权重训练所述第一模型。
需要说明的是:所述第一处理器702的具体处理过程可参照上述方法理解,这里不再赘述。
当然,实际应用时,第一设备700中的各个组件通过总线系统704耦合在一起。可理解,总线系统704用于实现这些组件之间的连接通信。总线系统704除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统704。
本申请实施例中的第一存储器703用于存储各种类型的数据以支持第一设备700的操作。这些数据的示例包括:用于在第一设备700上操作的任何计算机程序。
上述本申请实施例揭示的方法可以应用于所述第一处理器702中,或者由所述第一处理器702实现。所述第一处理器702可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过所述第一处理器702中的硬件的集成逻辑电路或者软件形式的指令完成。所述第一处理器702可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述第一处理器702可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于第一存储器703,所述第一处理器702读取第一存储器703中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,第一设备700可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。
基于上述程序模块的硬件实现,且为了实现本申请实施例的磁盘故障预测方法,本申请实施例还提供了一种第二设备,如图8所示,该第二设备800包括:
第二通信接口801,能够与其他电子设备(比如上述第一设备和/或挂载有目标磁盘的服务器等)进行信息交互;
第二处理器802,与所述第二通信接口801连接,以实现与其他电子设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的磁盘故障预测方法;
第二存储器803,所述计算机程序存储在所述第二存储器803上。
具体地,所述第二处理器802,用于:
采集目标磁盘的时序数据,所述时序数据与所述目标磁盘的M个SMART指标关联,M为大于0的整数;
利用第一模型和采集的时序数据,预测所述目标磁盘在N天内是否发生故障,N为大于0的整数,所述第一模型是采用上述一个或多个技术方案提供的模型训练方法训练的。
需要说明的是:所述第二处理器802的具体处理过程可参照上述方法理解,这里不再赘述。
当然,实际应用时,第二设备800中的各个组件通过总线系统804耦合在一起。可理解,总线系统804用于实现这些组件之间的连接通信。总线系统804除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图8中将各种总线都标为总线系统804。
本申请实施例中的第二存储器803用于存储各种类型的数据以支持第二设备800的操作。这些数据的示例包括:用于在第二设备800上操作的任何计算机程序。
上述本申请实施例揭示的方法可以应用于所述第二处理器802中,或者由所述第二处理器802实现。所述第二处理器802可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过所述第二处理器802中的硬件的集成逻辑电路或者软件形式的指令完成。所述第二处理器802可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述第二处理器802可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于第二存储器803,所述第二处理器802读取第二存储器803中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,第二设备800可以被一个或多个ASIC、DSP、PLD、CPLD、FPGA、通用处理器、控制器、MCU、Microprocessor、或其他电子元件实现,用于执行前述方法。
可以理解,本申请实施例的存储器(第一存储器703、第二存储器803)可以是易失性存储器或者非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,ProgrammableRead-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically ErasableProgrammable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic randomaccess memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,StaticRandom Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static RandomAccess Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic RandomAccess Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced SynchronousDynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLinkDynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct RambusRandom Access Memory)。本申请实施例描述的存储器旨在包括但不限于这些和任意其他适合类型的存储器。
在示例性实施例中,本申请实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的第一存储器703,上述计算机程序可由第一设备700的第一处理器702执行,以完成前述模型训练方法所述步骤。再比如包括存储计算机程序的第二存储器803,上述计算机程序可由第二设备800的第二处理器802执行,以完成前述磁盘故障预测方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
需要说明的是:“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
另外,本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。
Claims (11)
1.一种模型训练方法,其特征在于,包括:
确定训练数据集,所述训练数据集包含多个样本及每个样本对应的标签,所述样本包括一块磁盘在第一日期的时序数据,所述时序数据与所述磁盘的M个自我监测分析和报告技术SMART指标关联,所述标签表征所述磁盘在所述第一日期后的N天内是否发生故障,M和N为大于0的整数;
利用所述训练数据集,训练基于因果卷积结构的第一模型,所述第一模型用于预测目标磁盘在N天内是否发生故障。
2.根据权利要求1所述的方法,其特征在于,所述确定训练数据集,包括:
确定多个候选SMART指标及每个候选SMART指标关联的时序数据集;
基于每个候选SMART指标关联的时序数据集,确定每个候选SMART指标的交叉熵,确定的交叉熵表征候选SMART指标关联的故障磁盘的时序数据与健康磁盘的时序数据之间的相似性;
根据确定的每个候选SMART指标的交叉熵,从所述多个候选SMART指标中选择所述M个SMART指标;
基于所述M个SMART指标中的每个SMART指标关联的时序数据集,确定所述训练数据集。
3.根据权利要求2所述的方法,其特征在于,确定所述训练数据集时,所述方法还包括:
将与健康磁盘关联的每个样本均确定为负样本;
针对与故障磁盘关联的每个样本,确定样本对应的第二日期和所述第一日期之间间隔的天数,所述第二日期是磁盘发生故障的日期;在确定的天数小于或等于N的情况下,将样本确定为正样本;在确定的天数大于N的情况下,将样本确定为负样本;其中,
所述负样本的标签表征对应磁盘在所述第一日期后的N天内未发生故障,所述正样本的标签表征对应磁盘在所述第一日期后的N天内发生故障。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述第一模型包含第一模块、第二模块和第三模块,所述第一模块用于对输入样本的时序特征进行标准卷积,所述第二模块用于对所述第一模块输出的标准卷积结果进行空洞卷积,所述第三模块用于基于所述第二模块输出的空洞卷积结果确定对应磁盘在所述第一日期后的N天内发生故障的概率,所述第一模块、第二模块和第三模块形成因果卷积结构;所述利用所述训练数据集,训练基于因果卷积结构的第一模型,包括:
利用所述训练数据集,对所述第一模块、第二模块和第三模块进行训练。
5.根据权利要求1至3任一项所述的方法,其特征在于,训练所述第一模型时,所述方法还包括:
利用TrAdaBoost算法调整每个样本的权重,并利用调整后的权重训练所述第一模型。
6.一种磁盘故障预测方法,其特征在于,包括:
采集目标磁盘的时序数据,所述时序数据与所述目标磁盘的M个SMART指标关联,M为大于0的整数;
利用第一模型和采集的时序数据,预测所述目标磁盘在N天内是否发生故障,N为大于0的整数,所述第一模型是采用权利要求1至5任一项所述的模型训练方法训练的。
7.一种模型训练装置,其特征在于,包括:
第一处理单元,用于确定训练数据集,所述训练数据集包含多个样本及每个样本对应的标签,所述样本包括一块磁盘在第一日期的时序数据,所述时序数据与所述磁盘的M个SMART指标关联,所述标签表征所述磁盘在所述第一日期后的N天内是否发生故障,M和N为大于0的整数;
第二处理单元,用于利用所述训练数据集,训练基于因果卷积结构的第一模型,所述第一模型用于预测目标磁盘在N天内是否发生故障。
8.一种磁盘故障预测装置,其特征在于,包括:
采集单元,用于采集目标磁盘的时序数据,所述时序数据与所述目标磁盘的M个SMART指标关联,M为大于0的整数;
预测单元,用于利用第一模型和采集的时序数据,预测所述目标磁盘在N天内是否发生故障,N为大于0的整数,所述第一模型是采用权利要求1至5任一项所述的模型训练方法训练的。
9.一种第一设备,其特征在于,包括:第一处理器和用于存储能够在处理器上运行的计算机程序的第一存储器,
其中,所述第一处理器用于运行所述计算机程序时,执行权利要求1至5任一项所述方法的步骤。
10.一种第二设备,其特征在于,包括:第二处理器和用于存储能够在处理器上运行的计算机程序的第二存储器,
其中,所述第二处理器用于运行所述计算机程序时,执行权利要求6所述方法的步骤。
11.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤,或者实现权利要求6所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311294971.7A CN117251327A (zh) | 2023-09-28 | 2023-09-28 | 模型训练方法、磁盘故障预测方法、相关装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311294971.7A CN117251327A (zh) | 2023-09-28 | 2023-09-28 | 模型训练方法、磁盘故障预测方法、相关装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117251327A true CN117251327A (zh) | 2023-12-19 |
Family
ID=89134728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311294971.7A Pending CN117251327A (zh) | 2023-09-28 | 2023-09-28 | 模型训练方法、磁盘故障预测方法、相关装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117251327A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118657175A (zh) * | 2024-08-19 | 2024-09-17 | 山东云海国创云计算装备产业创新中心有限公司 | 模型生成方法、故障预测方法、装置、设备、介质及产品 |
-
2023
- 2023-09-28 CN CN202311294971.7A patent/CN117251327A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118657175A (zh) * | 2024-08-19 | 2024-09-17 | 山东云海国创云计算装备产业创新中心有限公司 | 模型生成方法、故障预测方法、装置、设备、介质及产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | System-level hardware failure prediction using deep learning | |
CN108052528B (zh) | 一种存储设备时序分类预警方法 | |
CN108647136B (zh) | 基于smart信息和深度学习的硬盘损坏预测方法及装置 | |
Shang et al. | Automated detection of performance regressions using regression models on clustered performance counters | |
TWI510916B (zh) | 儲存裝置壽命監控系統以及其儲存裝置壽命監控方法 | |
US10216558B1 (en) | Predicting drive failures | |
CN112308126B (zh) | 故障识别模型训练方法、故障识别方法、装置及电子设备 | |
KR101948634B1 (ko) | 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법 | |
CN112214369A (zh) | 基于模型融合的硬盘故障预测模型建立方法及其应用 | |
Xu et al. | General feature selection for failure prediction in large-scale SSD deployment | |
Di et al. | Exploring properties and correlations of fatal events in a large-scale hpc system | |
CN112951311A (zh) | 一种基于变权重随机森林的硬盘故障预测方法及系统 | |
CN117094184B (zh) | 基于内网平台的风险预测模型的建模方法、系统及介质 | |
CN111124732A (zh) | 一种磁盘故障的预测方法、系统、设备及存储介质 | |
CN111813585A (zh) | 慢盘的预测和处理 | |
Wang et al. | An attention-augmented deep architecture for hard drive status monitoring in large-scale storage systems | |
CN114691403A (zh) | 一种服务器故障诊断方法、装置、电子设备及存储介质 | |
CN117251327A (zh) | 模型训练方法、磁盘故障预测方法、相关装置及设备 | |
CN112988437B (zh) | 一种故障预测方法、装置及电子设备和存储介质 | |
Liu et al. | Incident-aware duplicate ticket aggregation for cloud systems | |
Xie et al. | Dfpe: Explaining predictive models for disk failure prediction | |
Zhang et al. | Tier-scrubbing: An adaptive and tiered disk scrubbing scheme with improved MTTD and reduced cost | |
CN113127274A (zh) | 磁盘故障预测方法、装置、设备及计算机存储介质 | |
CN117251114A (zh) | 模型训练方法、磁盘寿命预测方法、相关装置及设备 | |
KR20240065183A (ko) | 메모리 오류의 예측 방법, 전자 장치 및 컴퓨터 판독 가능한 저장 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |