Nothing Special   »   [go: up one dir, main page]

CN116028815B - 一种针对工业时序不平衡数据的时间序列数据增强方法 - Google Patents

一种针对工业时序不平衡数据的时间序列数据增强方法 Download PDF

Info

Publication number
CN116028815B
CN116028815B CN202310011120.0A CN202310011120A CN116028815B CN 116028815 B CN116028815 B CN 116028815B CN 202310011120 A CN202310011120 A CN 202310011120A CN 116028815 B CN116028815 B CN 116028815B
Authority
CN
China
Prior art keywords
data
sequence
subsequence
neighbor
dtw
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310011120.0A
Other languages
English (en)
Other versions
CN116028815A (zh
Inventor
孟义平
苏世杰
杨鑫
张元春
张建
唐文献
陈赟
殷宝吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN202310011120.0A priority Critical patent/CN116028815B/zh
Publication of CN116028815A publication Critical patent/CN116028815A/zh
Application granted granted Critical
Publication of CN116028815B publication Critical patent/CN116028815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了一种针对工业不平衡数据的时间序列数据增强方法,通过平均欧氏距离,将少数类数据分为近多数类数据集n‑maj和近少数类数据集n‑min,分别进行数据增强;利用DTW对齐计算,再通过建立待增强数据集间的DTW距离矩阵来寻找距离待增强序列的K个近邻序列;将待增强序列与K个近邻序列的DTW对齐,获得临时对齐序列,同时通过基于DTW距离的权重和临时对齐序列进行加权平均生成多样性样本,并且针对近少数类数据集,添加了随机噪声,扩增了样本空间,丰富符合原数据集分布的样本特征。由于改善了原数据类不平衡的情况,因此通过结合机器学习与深度学习模型,可以提高在工业时序不平衡数据上评价指标。

Description

一种针对工业时序不平衡数据的时间序列数据增强方法
技术领域
本发明涉及工业领域和机器学习方法,尤其涉及一种采用机器学习方法对工业时序不平衡数据的时间序列数据增强方法。
背景技术
在工业领域,由于异常时序样本的罕见性、保密性、不完整性以及部分数据可解释性差等原因,通常很难获得大量的、可解释的异常数据。因此,如何根据少量的异常时序样本,去进行工业时序数据的异常检测,是相关领域专家研究的热点。现有解决时序数据类不平衡问题的主流方法是利用已有的数据集进行数据增强,丰富原数据的样本数量以及特征数量。已有的典型方案主要为时域频域变换、基于分解、基于机器学习和记忆模型建模等方法。
时域频域以及两者混合的方法为基础的方法,主要将异常数据在时域或者频域上进行切片,缩放添加噪声等操作,生成新的异常数据;除了基础方法以外,也有统计模型高级方法,比如专利CN202011564567.3公开了通过拟合时间t的值与之前时间步的值的依赖来描述时序分布,进而通过基础的扰动生成新的时序样本。此外还有基于插值和外推的方法;专利CN202110670088.8中公开了利用样本间的欧几里得距离,采用SMOTE的方式在样本间生成基于欧几里得距离产生的样本等。但是上述方法并不完全适用于工业领域的时序数据,存在以下问题:
(1)简单直接的合成数据,容易混淆样本界限,可能使模型对于处于样本界限附近的数据的学习困难;
(2)由于工业时序数据大多属于离散型时序数据,异常持续时间较短,而且此类数据整体时间步长较短,因此基础方法比如切片,窗口扰动等,容易破坏时序数据的原始特征;
(3)基于统计模型的方法大多具有复杂且众多的参数,需要大量原始数据进行训练,且工业时序异常数据具有很强的随机性,因此该类方法并不适用于工业时序数据集。
发明内容
发明目的:本发明旨在提供一种解决模型过拟合和泛化能力差问题并提高各种分类器对工业不平衡时序数据的预测效果的时间序列数据增强方法的时间序列数据增强方法。
技术方案:本发明所述的针对工业不平衡数据的时间序列数据增强方法,步骤如下:
S1、将不平衡时序数据集划分为少数类数据集M={m1,m2,...,mm},其中,mi表示第i个子序列;多数类数据集N={n1,n2,...,nn},其中,nj表示第j个子序列;设置近邻样本数量参数K;确定需要生成的样本总数量num;
S2、根据平均欧氏距离D1、D2的大小,将M划分为近多数类数据集N-Maj,样本数量为n_maj;近少数数据集N-Min,样本数量为n-min;
S3、计算N-Maj的子序列之间的DTW距离,并组成DTW距离矩阵E3;计算N-Min的子序列之间的DTW距离,并组成DTW距离矩阵E4;确定N-Maj需要生成的序列数量为num1,确定N-Min需要生成的数量为num2
S4、随机选取N-Maj中的子序列ap,通过E3的对应元素位置,筛选ap的K个近邻子序列,组成近邻序列集P={ap1,ap2,...,apK};
S4.1、通过ap和P={ap1,ap2,...,apK}之间的DTW规整对齐,得到临时对齐序列集Cp={ap-avg1,ap-avg2,...,ap-avgK};
S4.2、根据子序列ap及其近邻序列集Cp,确定距离权重集W;
S4.3、:按照距离权重集W,对临时对齐序列集Cp求取加权平均值,构成新的平均序列ap-avg
S4.4、将新的平均序列ap-avg加入N-Maj中,并与N-Maj中每个子序列进行DTW计算,更新DTW距离矩阵E3;
S4.5、重复步骤S4到S4.4,直到生成num1条新数据;
S5、随机选取N-Min中的第q个子序列bq,通过E4的对应元素位置,筛选bq的K个近邻子序列,组成近邻序列集Q={bq1,bq2,...,bqK};
S5.1、通过bq和Q={bq1,bq2,...,bqK}之间的DTW规整对齐,得到临时对齐序列集Cq={bq-avg1,bq-avg2,...,bq-avgK};
S5.2、根据子序列bq及其近邻序列集Cq,确定距离权重集W;
S5.3、按照距离权重集W,对临时对齐序列集求取加权平均值,构成平均序列bq-avg
S5.4、在bq-avg的每个时间步上添加样本随机差异rand_diff,形成新的序列bq-new
S5.5、将新生成序列bq-new加入N-Min中,并与N-Min中每个子序列进行DTW计算,同时更新DTW距离矩阵E4和N-Min;
S5.6、重复步骤S5到S5.5,直到生成num2条新数据;
S6、合并N-Min和N-Maj,组成新的少数类数据集M′,将新的数据集M′与N合并,组成平衡数据集。
进一步的,步骤S2中,D1表示子序列mi与少数类数据集M中K个近邻子序列的平均欧氏距离;D2表示子序列mi与多数类数据集N={n1,n2,...,nn}中K个近邻序列的平均欧氏距离;
当D1>D2时,子序列mi储存至近多数类数据集N-Mai;
当D1≤D2时,子序列mi储存至近少数数据集N-Min。
进一步的,步骤S4、S5中,通过E3、E4对应的元素位置,筛选ap的K个近邻子序列,组成近邻序列集P={ap1,ap2,...,apK}和bq的K个近邻子序列,组成近邻序列集Q={bq1,bq2,...,bqK}。
进一步的,步骤S4.2中,对子序列ap和近邻序列集P中的子序列进行DTW规整对齐,根据DTW计算过程中求得的最优匹配路径,获得子序列ap和近邻序列集P最优对齐的临时对齐序列集Cp={ap-avg1,ap-avg2,...,ap-avgK};通过序列bq和近邻序列集Q的DTW最优对齐,得到临时对齐序列集Cq={bq-avg1,bq-avg2,...,bq-avgK}。
进一步的,步骤S4.3和S5.3中,根据子序列ap与Cp在E3中对应的DTW距离,确定权重集;权重集W初始权重为ω0,权重数量为K+1,其和为1,权重集W为:
W=[ω0,ω1,ω2,...,ωK]
其中,ωj表示权重集中第j个权重,1≤j≤K;ej表示子序列与自身第j条近邻序列DTW距离;fj表示与距离成反比的系数,ρ为配置参数。
同理,S5.2中,按根据子序列bq与近邻序列集Cq子序列在E4中对应的DTW距离,确定权重集。
进一步的,步骤S5.4中,对于由N-Min中生成的新序列bq-avg,在其每个时间步的值上添加随机差异rand_diff;其中,每条新序列的随机差异由步骤S5中的子序列bq与近邻序列集Q={bq1,bq2,...,bqK}决定,即bq-avg每个时间步上的值需要添加的随机差异,都是由bq=(xq,1,xq,2,...,xq,1)与近邻序列集Q={bq1,bq2,...,bqK}中的所有子序列在同一时间步上的平均差异得到,组成长度为t的rand_diff(r):
其中,bqi为近邻序列集Q={bq1,bq2,...,bqK}的子序列之一。bqi(r)和bq(r)为bqi和bq在不同时间步上的值,1≤r≤t。
在bq-avg所有时间步上,添加随机差异,得到bq-new
bq-new(r)=bq-avg(r)+rand_diff(r)。
有益效果:本发明与现有技术相比,其显著优点是:本发明与现有技术相比,其显著优点是:1、本发明通过平均欧氏距离,将少数类数据分为近多数类数据集N-Maj和近少数类数据集N-Min,分别进行数据增强,有效减少数据增强对样本类边界的影响;2、本发明通过DTW对齐计算,建立待增强数据集间的DTW距离矩阵来寻找距离待增强序列的K个近邻序列,将待增强序列与K个近邻序列的DTW对齐,获得临时对齐序列,同时通过基于DTW距离的权重和临时对齐序列进行加权平均生成多样性样本,并且针对近少数类数据集,添加了随机差异,扩增了样本空间,改善了原数据类不平衡的情况,提高模型的泛化能力;3、本发明提高各种分类器对工业不平衡时序数据的预测效果;4、本发明也可用于其他领域的时序数据集,能够有效解决样本数据不足时,模型学习困难的问题。
附图说明
图1为本发明的流程图;
图2为本发明与机器学习模型结合时的整体分类框架;
图3中的(a)和(b)为时序电流数据通过NDWA数据增强后的效果图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种针对工业不平衡数据的时间序列数据增强方法,即一种基于动态时间规整的时间序列数据增强方法NDWA(Nearest DTW Weighted Average),该方法包括以下步骤:基于输入的工业异常时序数据,首先通过平均欧氏距离,将少数类数据M分为近多数类数据集N-Maj和近少数类数据集N-Min。对于两类数据集分别产生临时DTW对齐的样本,然后同时通过距离权重分配得到新的异常样本,再针对N-Min的数据,通过添加不同的随机样本差异的方式提高数据多样性,并将新合成的时序数据加入原数据集参与数据增强过程,使异常数据与正常数据的数据量达到数据平衡,解决了模型过拟合和泛化能力差的问题,有效提高各种分类器对工业不平衡时序数据的预测效果。
具体过程如下:
步骤S1:将不平衡时序数据集划分为少数类数据集M与多数类数据集N,少数类数据集M={m1,m2,...,mm},数量为m,子序列的长度为t。多数类数据集N={n1,n2,...,nn},数量为n,需要扩增的数据量为num。配置近邻数K为3,配置基准权重参数ω0为0.5。
步骤S2:从M的第一条子序列m1=(x1,1,x1,2,...,x1,t)开始,计算少数类数据集M中每条子序列与其他子序列的欧氏距离,并储存为欧氏距离矩阵E1。同时计算少数类数据集M中每条序列与多数类数据集N中每条子序列的欧氏距离,并储存为欧氏矩阵E2。E1、E2如下:
遍历少数类数据集M,计算每条子序列距离少数类数据集的子序列最近的3个欧氏距离,累加求平均,得到平均欧氏距离D1;同理,计算每条子序列距离多数类数据集的子序列最近的3个欧氏距离,累加求平均,得到平均欧氏距离D2。
如果D1>D2,将此数据储存为近多数类数据集N-Maj;
如果D1≤D2,将此数据储存为近少数类数据集N-Min。
直到少数类数据集M中的每条子序列都被分类完毕,得到近多数类数据集N-Maj={a1,a2,...,an-maj}和近少数类数据集N-Min={b1,b2,...,bn-min}。
步骤S3:对于N-Maj和N-Min,其中,N-Maj的数量为n_maj,N-Min的数量为n_min,从各自的第一条子序列开始,计算与各自数据集中其他序列之间的DTW距离,并形成距离矩阵。
N-Maj的DTW距离矩阵E3如下:
N-Min的DTW距离矩阵E4如下:
计算N-Maj中需要生成的序列数量为num1,向下取整:
计算于N-Min数据集中需要生成的序列数量为num2
num2=num-num1
步骤S4:筛选近邻序列集,随机选中子序列ap,并确定ap在E3中的对应位置的除0以外的最小元素,再根据最小的DTW距离的对应元素位置来确定N-Maj中ap的近邻序列集P={ap1,ap2,ap3}。
步骤S4.1:通过DTW规整后对齐,得到子序列ap和近邻序列集P={ap1,ap2,ap3}的临时对齐序列集Cp={ap-avg1,ap-avg2,ap-avg3}。以子序列ap为例,ap=(xp,1,xp,2,...,xp,t)与近邻序列进行DTW规整对齐。因为DTW规整后对齐可能产生一对一,一对多,多对一的映射关系,所以Cp中的元素在不同时间步上会有不同数量的对齐值,其中,临时对齐数据Cp中ap-avg1的形状为:
步骤S4.2:根据子序列ap及其近邻序列集P={ap1,ap2,ap3}的DTW距离,确定关于ap的距离权重集W;权重集初始权重ω0为0.5,权重数量为4。
关于ap的权重集W为:
W=[0.5,ω1,ω2,ω3]
其中,ωj表示权重集中除ω0以外的第j个权重,1≤j≤3;ej表示ap与本身的第j条近邻序列的DTW距离;fj表示与距离成反比的系数。
步骤S4.3:按照关于ap的距离权重集W,对ap=(xp,1,xp,2,...,xp,t)和Cp求取加权平均值,构成平均序列集ap-avg;首先计算临时对齐数据集Cp的平均序列集
具体地,Cp-avg序列集中的平均序列为:
上述序列中,每个元素的分母为临时对齐序列中每个时间步上的元素的数量。
其次,根据距离权重进行加权求和,得到新生成的时间序列ap-avg
其中,为平均序列中的第一个元素,同理为平均序列中的第t个元素,为平均序列中的第一个元素,为平均序列中的第t个元素。
步骤S4.4:将序列ap-avg加入近多数类数据集N-Maj中,并与N-Maj中每个子序列进行DTW计算,同时更新E3;进一步提高近邻的选择范围,既增加了原始样本的多样性,同时又扩增了样本的探索空间,提高了模型的检测效果。
步骤S4.5:重复步骤S4到S4.4,直到生成num1条数据为止。
步骤S5:筛选近邻序列集,随机选中N-Min子序列bq,并根据E4中的DTW距离来确定bq的近邻序列集Q={bq1,bq2,bq3}。
步骤S5.1:通过DTW规整后对齐,得到子序列bq和近邻序列集Q={bq1,bq2,bq3}的临时对齐序列集Cq={bq-avg1,bq-avg2,bq-avg3}。以子序列bq为例,bq=(xq,1,xq,2,...,xq,t)与进行DTW规整对齐,临时对齐数据Cq中bq-avg1形状为:
步骤S5.2:根据子序列bq与其近邻序列集Q={bq1,bq2,bq3}的DTW距离,确定关于bq权重集W;权重集初始权重ω0为0.5,权重数量为4。
关于bq的权重集W为:
W=[0.5,ω1,ω2,ω3]
其中,ωj表示权重集中除ω0以外的第j个权重,1≤j≤3;ej表示bq与本身的第j条近邻序列的DTW距离;fj表示与距离成反比的系数。
步骤S5.3:按照关于bq的距离权重集W,对bq=(xq,1,xq,2,...,xq,t)和Cq求取加权平均值,构成平均序列集bq-avg;同理,按照距离权重集Wq。首先计算临时对齐数据集Cq的平均序列集
具体地,序列集中的平均序列为:
上述序列中,每个元素的分母为临时对齐序列中每个时间步上的元素的数量。
其次,根据距离权重进行加权求和,得到新生成的时间序列bq-avg
其中,为平均序列中的第一个元素,同理为平均序列中的第t个元素,为平均序列中的第一个元素,为平均序列中的第t个元素。
步骤S5.4:针对平均序列bq-avg,对bq-avg上每个时间步上添加样本随机差异rand_diff,形成序列bq-new;其中,每条新序列的rand_diff由步骤S5中的子序列bq与bq的近邻序列集Q={bq1,bq2,...,bqK}决定,具体地,bq-avg每个时间步上的值需要添加的随机差异,都是由bq=(xq,1,xq,2,...,xq,1)与近邻序列集Q={bq1,bq2,...,bqx}中的所有子序列在同一时间步上的平均差异得到,随机差异为:
其中,bqi为Q={bq1,bq2,bq3}中的子序列之一。bqi(r)和bq(r)为bqi和bq在不同时间步上的值;rand_diff(r)是在不同时间步上组成的长度为t的随机差异。
在bq-avg每个时间步上,添加上随机差异:
bq-new(r)=bq-avg(r)+rand_diff(r)
其中,对于bq-avg中的每一个时间步上的元素添加随机差异,形成序列bq-new
步骤S5.5:将序列bq-new加入近少数类数据集N-Min中,并与N-Min中每个子序列进行DTW计算,同时更新E4;进一步提高近邻的选择范围,既增加了原始样本的多样性,同时又扩增了样本的探索空间,提高了模型的检测效果。
步骤S5.6:重复步骤S5到S5.5,直到生成num2条数据为止。
步骤S6:合并N-Min和N-Maj,组成新的数据集M′,将新的数据集M′与N合并,组成平衡数据集。
图2是本发明与机器学习模型结合时的整体分类框架。对于原始数据集首先划分为训练集和测试集,训练集用于生成新样本和训练分类器,测试集用于最后验证分类器的预测效果。我们对训练集采用上述NDWA数据增强方法来进行数据扩增,生成一定数量的新样。数据增强完成后合并数据形成训练集,输入到搭建的分类模型进行训练。训练结束后在测试集进行模型拟合效果的测试。上述模型可以是传统机器学习模型,也可以是搭建的神经网络分类器。
图3是工业锚链焊接传感器电流数据,上部区域为少数类异常电流样本,通过NDWA数据增强的方法,在下部区域合成一条新的电流数据。从图中可以看出,本发明的数据增强方法可以有效地生成新的异常样本,既保留了原始数据的有效特征,又增加了样本的多样性,丰富了原始数据集样本数量。
表1是该数据增强方法在UCR开源数据集的传感器数据集上的分类任务测试实验。对比方法上,我们选取SMOTE、ADASYN、BLSMOTE、DTWSMOTE这些主流数据增强方法来体现NDWA的优越性。分类模型上,本发明选择了随机森林模型(RF)和支持向量机分类(SVM)。这里将原始数据集按照1:5的类不平衡度进行调整。测试过程中配置的近邻数K为3,基准权重为0.5。在实验过程中,模型参数均选用默认参数。如表1所示,表中数值为测试集的F1值,可以看出与主流方法相比,经过NDWA数据增强后的训练集在模型上可以得到最高的F1值,说明该数据增强方法NDWA能够有效改善工业传感器数据在不同模型上的预测效果,同时对其他数据集同样有一定的改善效果。
表1

Claims (6)

1.一种针对工业时序不平衡数据的时间序列数据增强方法,其特征在于,包括以下步骤:
S1、将不平衡时序数据集划分为少数类数据集M={m1,m2,...,mm},其中,mi表示第i个子序列;多数类数据集N={n1,n2,...,nn},其中,nj表示第j个子序列;设置近邻样本数量参数K;确定需要生成的样本总数量num;
S2、根据平均欧氏距离D1、D2的大小,将M划分为近多数类数据集N-Maj,样本数量为n_maj;近少数数据集N-Min,样本数量为n_min;
S3、计算N-Maj的子序列之间的DTW距离,并组成DTW距离矩阵E3;计算N-Min的子序列之间的DTW距离,并组成DTW距离矩阵E4;确定N-Maj需要生成的序列数量为num1,确定N-Min需要生成的数量为num2
S4、随机选取N-Maj中的子序列ap,通过E3的对应元素位置,筛选ap的K个近邻子序列,组成近邻序列集P={ap1,ap2,...,apK};
S4.1、通过ap和P={ap1,ap2,...,apK}之间的DTW规整对齐,得到临时对齐序列集Cp={ap-avg1,ap-avg2,...,ap-avgK};
S4.2、根据子序列ap及其近邻序列集Cp,确定距离权重集W;
S4.3、:按照距离权重集W,对临时对齐序列集Cp求取加权平均值,构成新的平均序列ap-avg
S4.4、将新的平均序列ap-avg加入N-Maj中,并与N-Maj中每个子序列进行DTW计算,更新DTW距离矩阵E3;
S4.5、重复步骤S4到S4.4,直到生成num1条新数据;
S5、随机选取N-Min中的第q个子序列bq,通过E4的对应元素位置,筛选bq的K个近邻子序列,组成近邻序列集Q={bq1,bq2,...,bqK};
S5.1、通过bq和Q={bq1,bq2,...,bqK}之间的DTW规整对齐,得到临时对齐序列集Cq={bq-avg1,bq-avg2,...,bq-avgK};
S5.2、根据子序列bq及其近邻序列集Cq,确定距离权重集W;
S5.3、按照距离权重集W,对临时对齐序列集求取加权平均值,构成平均序列bq-avg
S5.4、在bq-avg的每个时间步上添加样本随机差异rand_diff,形成新的序列bq-new
S5.5、将新生成序列bq-new加入N-Min中,并与N-Min中每个子序列进行DTW计算,同时更新DTW距离矩阵E4和N-Min;
S5.6、重复步骤S5到S5.5,直到生成num2条新数据;
S6、合并N-Min和N-Maj,组成新的少数类数据集M',将新的数据集M'与N合并,组成平衡数据集。
2.根据权利要求1所述针对工业时序不平衡数据的时间序列数据增强方法,其特征在于,步骤S2中,D1表示子序列mi与少数类数据集M中K个近邻子序列的平均欧氏距离;D2表示子序列mi与多数类数据集N={n1,n2,...,nn}中K个近邻序列的平均欧氏距离;
当D1>D2时,子序列mi储存至近多数类数据集N-Maj;
当D1≤D2时,子序列mi储存至近少数数据集N-Min。
3.根据权利要求1所述针对工业时序不平衡数据的时间序列数据增强方法,其特征在于,步骤S4、S5中,通过E3、E4对应的元素位置,筛选ap的K个近邻子序列,组成近邻序列集P={ap1,ap2,...,apK}和bq的K个近邻子序列,组成近邻序列集Q={bq1,bq2,...,bqK}。
4.根据权利要求1所述针对工业时序不平衡数据的时间序列数据增强方法,其特征在于,步骤S4.2中,对子序列ap和近邻序列集P中的子序列进行DTW规整对齐,根据DTW计算过程中求得的最优匹配路径,获得子序列ap和近邻序列集P最优对齐的临时对齐序列集Cp={ap-avg1,ap-avg2,...,ap-avgK};通过序列bq和近邻序列集Q的DTW最优对齐,得到临时对齐序列集Cq={bq-avg1,bq-avg2,...,bq-avgK}。
5.根据权利要求1所述针对工业时序不平衡数据的时间序列数据增强方法,其特征在于,步骤S4.3和S5.3中,根据子序列ap与Cp在E3中对应的DTW距离,确定权重集;权重集W初始权重为ω0,权重数量为K+1,其和为1,权重集W为:
W=[ω012,...,ωK]
其中,ωj表示权重集中第j个权重,1≤j≤K;ej表示子序列与自身第j条近邻序列DTW距离;fj表示与距离成反比的系数,ρ为配置参数;
同理,S5.2中,按根据子序列bq与近邻序列集Cq子序列在E4中对应的DTW距离,确定权重集。
6.根据权利要求1所述针对工业时序不平衡数据的时间序列数据增强方法,其特征在于,步骤S5.4中,对于由N-Min中生成的新序列bq-avg,在其每个时间步的值上添加随机差异rand_diff;其中,每条新序列的随机差异由步骤S5中的子序列bq与近邻序列集Q={bq1,bq2,...,bqK}决定,即bq-avg每个时间步上的值需要添加的随机差异,都是由bq=(xq,1,xq,2,...,xq,t)与近邻序列集Q={bq1,bq2,...,bqK}中的所有子序列在同一时间步上的平均差异得到,组成长度为t的rand_diff(r):
其中,bqi为近邻序列集Q={bq1,bq2,...,bqK}的子序列之一;bqi(r)和bq(r)为bqi和bq在不同时间步上的值,1≤r≤t;
在bq-avg所有时间步上,添加随机差异,得到bq-new
bq-new(r)=bq-avg(r)+rand_diff(r)。
CN202310011120.0A 2023-01-05 2023-01-05 一种针对工业时序不平衡数据的时间序列数据增强方法 Active CN116028815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310011120.0A CN116028815B (zh) 2023-01-05 2023-01-05 一种针对工业时序不平衡数据的时间序列数据增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310011120.0A CN116028815B (zh) 2023-01-05 2023-01-05 一种针对工业时序不平衡数据的时间序列数据增强方法

Publications (2)

Publication Number Publication Date
CN116028815A CN116028815A (zh) 2023-04-28
CN116028815B true CN116028815B (zh) 2024-08-23

Family

ID=86078992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310011120.0A Active CN116028815B (zh) 2023-01-05 2023-01-05 一种针对工业时序不平衡数据的时间序列数据增强方法

Country Status (1)

Country Link
CN (1) CN116028815B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290802B (zh) * 2023-11-27 2024-03-26 惠州市鑫晖源科技有限公司 一种基于数据处理的主机电源运行监测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070125A (zh) * 2020-08-19 2020-12-11 西安理工大学 一种基于孤立森林学习的不平衡数据集的预测方法
CN114496280A (zh) * 2022-01-14 2022-05-13 西北工业大学 一种针对创面微环境数据的多元时间序列数据增强方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163261B (zh) * 2019-04-28 2024-06-21 平安科技(深圳)有限公司 不平衡数据分类模型训练方法、装置、设备及存储介质
CN113971429A (zh) * 2021-05-10 2022-01-25 桂林理工大学 一种以One-Class SVM作为监督机制的过采样方法
CN113535522A (zh) * 2021-07-29 2021-10-22 中国工商银行股份有限公司 一种异常情况的检测方法、装置和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070125A (zh) * 2020-08-19 2020-12-11 西安理工大学 一种基于孤立森林学习的不平衡数据集的预测方法
CN114496280A (zh) * 2022-01-14 2022-05-13 西北工业大学 一种针对创面微环境数据的多元时间序列数据增强方法

Also Published As

Publication number Publication date
CN116028815A (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
Starczewski et al. A new method for automatic determining of the DBSCAN parameters
CN110213222B (zh) 基于机器学习的网络入侵检测方法
Nannen et al. Efficient relevance estimation and value calibration of evolutionary algorithm parameters
Liu et al. S-metric based multi-objective fireworks algorithm
Sato et al. Variable space diversity, crossover and mutation in MOEA solving many-objective knapsack problems
Wei et al. An effective gas sensor array optimization method based on random forest
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN116028815B (zh) 一种针对工业时序不平衡数据的时间序列数据增强方法
CN114036610A (zh) 一种基于数据增强的侵彻深度预测方法
Hutahaean et al. Impact of model parameterisation and objective choices on assisted history matching and reservoir forecasting
Furqan et al. Performance of arithmetic crossover and heuristic crossover in genetic algorithm based on alpha parameter
CN105608329A (zh) 一种基于社团演化的组织行为异常检测方法
CN113066527B (zh) 一种siRNA敲减mRNA的靶点预测方法和系统
CN104376078A (zh) 一种基于知识熵的异常数据检测方法
Chira et al. A cluster merging method for time series microarray with production values
CN113268936B (zh) 一种基于多目标进化随机森林特征选择的关键质量特性识别方法
Lin et al. A new density-based scheme for clustering based on genetic algorithm
Aguirre et al. Space partitioning with adaptive ε-ranking and substitute distance assignments: a comparative study on many-objective mnk-landscapes
CN107766887A (zh) 一种局部加权的不完整数据混杂聚类方法
Jiang et al. An efficient differential memetic algorithm for clustering problem
Li et al. Research of clustering algorithm based on information entropy and frequency sensitive discrepancy metric in anomaly detection
CN111813669A (zh) 基于多目标群体智能的适应性随机测试用例生成方法
Grudniewski et al. Do general Genetic Algorithms provide benefits when solving real problems?
Lingchi et al. Dycusboost: Adaboost-based imbalanced learning using dynamic clustering and undersampling
Ordway-West et al. Autoencoder evaluation and hyper-parameter tuning in an unsupervised setting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Meng Yiping

Inventor after: Su Shijie

Inventor after: Yang Xin

Inventor after: Zhang Yuanchun

Inventor after: Zhang Jian

Inventor after: Tang Wenxian

Inventor after: Chen Bin

Inventor after: Yin Baoji

Inventor before: Su Shijie

Inventor before: Yang Xin

Inventor before: Zhang Yuanchun

Inventor before: Zhang Jian

Inventor before: Tang Wenxian

Inventor before: Chen Bin

Inventor before: Yin Baoji

GR01 Patent grant
GR01 Patent grant