CN114781779A - 一种无监督能耗异常检测方法、装置及存储介质 - Google Patents
一种无监督能耗异常检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN114781779A CN114781779A CN202210181399.2A CN202210181399A CN114781779A CN 114781779 A CN114781779 A CN 114781779A CN 202210181399 A CN202210181399 A CN 202210181399A CN 114781779 A CN114781779 A CN 114781779A
- Authority
- CN
- China
- Prior art keywords
- energy consumption
- sequence
- data
- consumption sequence
- unsupervised
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005265 energy consumption Methods 0.000 title claims abstract description 286
- 238000001514 detection method Methods 0.000 title claims abstract description 72
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000002159 abnormal effect Effects 0.000 claims abstract description 22
- 230000003044 adaptive effect Effects 0.000 claims abstract description 20
- 230000004927 fusion Effects 0.000 claims description 64
- 238000012549 training Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000012952 Resampling Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000000295 complement effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 18
- 230000005856 abnormality Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000005611 electricity Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Probability & Statistics with Applications (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明公开了一种无监督能耗异常检测方法PLAD。本发明利用伪标签指导能耗数据重构误差的分类,克服了有监督异常检测方法对于标签数据的依赖。特别是,提取了能耗数据的关键特征,并采用了一种自适应参数的密度聚类算法来生成能耗数据的伪标签,以避免不同的场景中参数选择困难的问题。利用自动编码器对能耗数据进行重建,得到能耗数据的重构误差,最后利用伪标签指导重构误差的分类,得到能耗数据异常检测的结果,实现了更高的异常检测精度。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其是指一种无监督能耗异常检测方法、设备、装置及计算机存储介质。
背景技术
随着人民生活水平的提高,狭义的建筑能耗,即建筑的运行能耗,就是人们日常用能,如采暖、空调、照明、炊事、洗衣等的能耗,迅速上升,可见我们对家庭用电能耗的异常检测是非常必要的。
目前,针对用电行为的异常检测方法主要是有监督的方法,该方法的问题在于需要利用有标签的数据集对模型进行训练,然而在很多现实场景中,对数据进行人工标记的成本过高;并且异常用电行为发生的概率较低,没有进行预处理的能耗数据,通常因为一些冗余信息的干扰,使得异常检测模型对于异常用电行为不敏感,异常检测的精度低。
因此如何提供一种成本低、精确度更高的无监督能耗异常检测方法是目前待解决的问题。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中有监督异常检测方法成本大、精度低的问题。
为解决上述技术问题,本发明提供了一种无监督能耗异常检测方法、设备、装置及计算机存储介质,包括:
将输入的原始能耗序列进行预处理,得到补全能耗序列;
计算所述补全能耗序列中各个能耗数据的三维融合特征,所述三维融合特征包括一阶差分特征、二阶差分特征、规律性特征;
利用所述补全能耗序列中各个能耗数据的三维融合特征得到k-dist图,并根据所述k-dist图计算密度聚类算法的自适应参数;
基于所述自适应参数利用所述密度聚类算法对所述补全能耗序列中各个能耗数据的三维融合特征聚类,生成能耗伪标签序列;
利用自编码器重构所述补全能耗序列得到重构能耗序列,并计算所述补全能耗序列与所述重构能耗序列的数据差值,得到能耗序列重构误差;
将所述能耗序列重构误差输入利用所述能耗伪标签序列训练后的分类器进行分类,得到异常检测结果。
优选地,所述利用所述能耗伪标签序列训练分类器包括:
将所述能耗序列重构误差按预设比例划分出能耗序列重构误差训练集;
利用SMOTE算法对能耗序列重构误差训练集中的异常样本进行重采样;
将重采样后的能耗序列重构误差训练集输入所述分类器,并利用所述能耗伪标签序列对所述分类器进行训练。
优选地,所述将输入的原始能耗序列进行预处理,得到补全能耗序列包括:
对补全后的所述原始能耗序列进行归一化得到所述补全能耗序列X={x1,x2,…,xn},n为能耗数据点个数。
优选地,所述计算所述补全能耗序列的三维融合特征包括:
分别提取所述补全能耗序列X中i时刻的能耗值xi的一阶差分特征fid1、二阶差分特征fid2、规律性特征fir,构成所述三维融合特征(fid1,fid2,fir)。
优选地,所述利用所述补全能耗序列中各个能耗数据的三维融合特征得到k-dist图,并根据所述k-dist图计算密度聚类算法的自适应参数包括:
计算所述补全能耗序列中各个能耗数据的三维融合特征到其第k个近邻融合特征点的距离d,得到k-dist序列{d1,d2,…,dn};
对所述k-dist序列递增排序得到k-dist图;
通过所述k-dist图计算出DBSCAN算法的自适应参数Eps。
优选地,所述基于所述自适应参数利用所述密度聚类算法对所述补全能耗序列中各个能耗数据的三维融合特征聚类,生成能耗伪标签序列包括:
基于所述自适应参数利用所述DBSCAN算法对所述补全能耗序列中各个能耗数据的三维融合特征聚类,得到多个能耗模式簇;
将聚类后不属于任何所述能耗模式簇的离群三维融合特征点标记为异常点,将其他三维融合特征点标记为正常点,生成所述能耗伪标签序列:
优选地,所述利用自编码器重构所述补全能耗序列得到重构能耗序列,并计算所述补全能耗序列与所述重构能耗序列的数据差值,得到能耗序列重构误差包括:
采用滑动窗口机制,基于LSTM网络构建自编码器模型重建所述补全能耗序列,得到重构能耗序列;
计算所述补全能耗序列与重构能耗序列的数据差值,得到能耗序列重构误差。
本发明还提供了一种无监督能耗异常检测装置,包括:
预处理模块,将输入的原始能耗序列进行预处理,得到补全能耗序列;
三维融合特征计算模块,计算所述补全能耗序列中各个能耗数据的三维融合特征,所述三维融合特征包括一阶差分特征、二阶差分特征、规律性特征;
自适应参数计算模块,利用所述补全能耗序列中各个能耗数据的三维融合特征得到k-dist图,并根据所述k-dist图计算密度聚类算法的自适应参数;
伪标签序列生成模块,基于所述自适应参数利用所述密度聚类算法对所述补全能耗序列中各个能耗数据的三维融合特征聚类,生成能耗伪标签序列;
重构误差计算模块,利用自编码器重构所述补全能耗序列得到重构能耗序列,并计算所述补全能耗序列与所述重构能耗序列的数据差值,得到能耗序列重构误差;
异常检测模块,将所述能耗序列重构误差输入利用所述能耗伪标签序列训练后的分类器进行分类,得到异常检测结果。
本发明还提供了一种无监督能耗异常检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述一种无监督能耗异常检测方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种无监督能耗异常检测的方法的步骤。
本发明的上述技术方案相比现有技术具有以下优点:
本发明通过计算三维融合特征,提取的能耗数据差分特征以及规律性特征,更精准地描述了能耗数据序列,避免了冗余特征的干扰,提升计算速度的同时有效提升了异常检测精度;通过自适应的密度聚类算法提取能耗序列的伪标签,避免了有监督异常检测模型对于有标签数据依赖的问题;不需要设定聚类类别数,这使得本发明适用于能耗模式簇数量未知时的场景;自适应参数机制,充分利用了能耗数据的多种特征,增强了对不同能耗场景的泛化能力,使得本发明的方法更适用于现实任务;利用伪标签指导重构误差的分类,克服了对重构误差进行分类需要设定阈值的困难,并且本发明的异常检测精度也优于设定固定阈值对重构误差进行分类。本发明采用无监督异常检测方法,降低了人工成本,更加适用于现实场景,并提升了异常检测精度和速度。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中:
图1是本发明无监督能耗异常检测方法的实现流程图;
图2是本发明的算法流程图;
图3是本发明的k-dist图;
图4是LSTM自编码器模型图;
图5为本发明实施例提供的一种无监督能耗异常检测装置的结构框图。
具体实施方式
本发明的核心是提供一种无监督能耗异常检测方法、装置、设备及计算机存储介质,降低了人工成本高、提高了检测精度。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的无监督能耗异常检测方法的实现流程图;具体操作步骤如下:
S101:将输入的原始能耗序列进行预处理,得到补全能耗序列;
对补全后的所述原始能耗序列进行归一化得到所述补全能耗序列X={x1,x2,…,xn},n为能耗数据点个数。
S102:计算所述补全能耗序列中各个能耗数据的三维融合特征,所述三维融合特征包括一阶差分特征、二阶差分特征、规律性特征;
分别提取所述补全能耗序列X中i时刻的能耗值xi的一阶差分特征fid1、二阶差分特征fid2、规律性特征fir,构成所述三维融合特征(fid1,fid2,fir)。
S103:利用所述补全能耗序列中各个能耗数据的三维融合特征得到k-dist图,并根据所述k-dist图计算密度聚类算法的自适应参数;
计算所述补全能耗序列中各个能耗数据的三维融合特征到其第k个近邻融合特征点的距离d,得到k-dist序列{d1,d2,…,dn};
对所述k-dist序列递增排序得到k-dist图;
通过所述k-dist图计算出DBSCAN算法的自适应参数Eps。
S104:基于所述自适应参数利用所述密度聚类算法对所述补全能耗序列中各个能耗数据的三维融合特征聚类,生成能耗伪标签序列;
基于所述自适应参数利用所述DBSCAN算法对所述补全能耗序列中各个能耗数据的三维融合特征聚类,得到多个能耗模式簇;
将聚类后不属于任何所述能耗模式簇的离群三维融合特征点标记为异常点,将其他三维融合特征点标记为正常点,生成所述能耗伪标签序列:
S105:利用自编码器重构所述补全能耗序列得到重构能耗序列,并计算所述补全能耗序列与所述重构能耗序列的数据差值,得到能耗序列重构误差;
采用滑动窗口机制,基于LSTM网络构建自编码器模型重建所述补全能耗序列,得到重构能耗序列;
计算所述补全能耗序列与重构能耗序列的数据差值,得到能耗序列重构误差。
S106:将所述能耗序列重构误差输入利用所述能耗伪标签序列训练后的分类器进行分类,得到异常检测结果。
将所述能耗序列重构误差按预设比例划分出能耗序列重构误差训练集;
利用SMOTE算法对能耗序列重构误差训练集中的异常样本进行重采样;
将重采样后的能耗序列重构误差训练集输入所述分类器,并利用所述能耗伪标签序列对所述分类器进行训练。
图2表示本发明的算法模型图。算法为无监督框架,适用于现实应用场景中的无标签数据。模型包括三维融合特征提取模块、DBSCAN聚类获取伪标签模块、LSTM自动编码器重建能耗数据模块以及异常分类器模块四个关键部分。其中,左上框图中包括三维融合特征提取以及获取伪标签,获取伪标签模块采用自适应参数的DBSCAN算法。下方框图中包含LSTM自编码器,这一重构能耗数据网络利用LSTM构建。最终,伪标签用于指导重构误差的分类任务,实现异常检测功能。
本发明通过计算三维融合特征,提取的能耗数据差分特征以及规律性特征,更精准地描述了能耗数据序列,避免了冗余特征的干扰,提升计算速度的同时有效提升了异常检测精度;通过自适应的密度聚类算法提取能耗序列的伪标签,避免了有监督异常检测模型对于有标签数据依赖的问题;不需要设定聚类类别数,这使得本发明适用于能耗模式簇数量未知时的场景;自适应参数机制,充分利用了能耗数据的多种特征,增强了对不同能耗场景的泛化能力,使得本发明的方法更适用于现实任务;利用SMOTE对异常样本重采样,使得正负样本均衡,提升了模型对用电异常的敏感度;利用LSTM自动编码器对能耗数据进行重建,充分提取了时序信息;利用伪标签指导重构误差的分类,克服了对重构误差进行分类需要设定阈值的困难,并且本发明的异常检测精度也优于设定固定阈值对重构误差进行分类。本发明利用伪标签指导重构误差分类,实现了无监督异常检测,克服了对标签数据的依赖。特别是,提取了能耗数据的关键特征,并采用了一种自适应参数的DBSCAN算法来生成能耗数据的伪标签,以避免不同的场景中参数选择困难的问题。利用LSTM自动编码器对能耗数据进行重建,充分提取了时序信息,将正负样本均衡化,利用伪标签指导重构误差的分类,使得分类效果更好,实现了更高的异常检测精度。
基于以上实施例,本发明对以上步骤进行进一步详细说明,具体如下:
本实施例中K=8;
该步骤也可更换为其他缺失值补全方法,如极大似然估计,多重插补等方法。
S202:分别提取所述补全能耗序列X中i时刻的能耗值xi(i∈1,2,…,n)的一阶差分特征fid1=xi-xi-1、二阶差分特征fid2=xi-xi-2、规律性特征fir=xi,构成所述三维融合特征(fid1,fid2,fir);
其中,规律性特征fir提取步骤如下:首先,将原始数据分成p个子序列,其集合S可以表示为S={s1,s2,…,sp},其中第m个序列的计算方式为sm={xm,xm+p,…,xm+k*p},m∈1,2,…,p,m+k*p≤n<m+(k+1)*p,其次计算每个子序列的中位数xi的规律性特征表示为fir=xi;
本实施例中p=24。
S203:以三维融合特征作为输入,基于欧式距离,计算每个融合特征(fid1,fid2,fir)到其第k个近邻融合特征点的距离d,得到k-dist序列{d1,d2,…,dn},对k-dist做递增排序,得到的k-dist图,基于k-dist图中的拐点计算DBSCAN定义邻域半径的参数Eps;
所述k-dist图如图3所示;
本实施例中k为5,DBSCAN阈值Minpts也设置为5;
本发明计算拐点的具体实现如下:LSTM图中除开始点S及结束点E外的其他点i表示为为点i到开始点S的向量表示为点i到结束点E的向量表示为两个向量之间的夹角的余弦表示为计算k-dist图中除开始点及结束点外所有点的向量和向量的cosθ值,cosθ值最小的点即定义为拐点dturning,得到拐点的k-dist值此外,k-dist图中的中位数点的值表示为计算自适应参数Eps的方法表示为
本实施例中α=2,β=1。
S204:基于得到的自适应参数Eps,应用DBSCAN聚类算法对所述补全能耗序列中各个能耗数据的三维融合特征进行聚类,得到不同的能耗模式簇,将不属于任何模式簇的离群三维融合特征点标记为异常点,将其他三维融合特征点标记为正常点,得到能耗伪标签序列;
本实施例中,密度聚类算法采用DBSCAN算法,可以变换为其他密度聚类算法,例如,密度最大值聚类算法MDCA(Maximum Density Clustering Algorithm))等。
S205:利用滑动窗口机制,提取能耗序列{xi,xi+1,…,xi+u},其中u为滑动窗口的长度,将能耗序列送入LSTM自编码器模型,提取时序信息,利用最后一个单元的输出重建能耗x′i,得到重构能耗序列{x′i,x′i+1,…,x′i+u},计算计算所述补全能耗序列与所述重构能耗序列的数据差值得到重构误差序列{x′i,x′i+1,…,x′i+u}{x′i,x′i+1,…,x′i+u};
所述LSTM自编码器模型图如图4所示,本实施例中设置u为128;
对于重构误差,利用SMOTE对异常样本重采样,使得正负样本均衡;
本实施例中重采样后正常样本与异常样本的比例设置为1:1。
S206:利用能耗伪标签序列,指导重构误差分类器的训练,利用训练好的分类器进行异常检测。
本实施例中采用单层神经网络作为分类器,其输入为重构误差序列,利用获取的能耗伪标签序列指导神经网络的训练,得到训练好的分类器用于重构误差的分类,执行异常检测。
基于以上实施例,本实施例为验证本发明的准确性和鲁棒性,本发明在某高校能耗数据集上进行了实验,具体如下:
该能耗数据集包含12座不同用途建筑物的能耗数据,建筑用途包括住宿、科研、教学、食堂。数据起止时间为2020.6.1-2020.12.31,采样率为每小时一个数据点,总计157248个采样点。
在实验中,将数据集划均分成两部分,作为训练集与测试集。其中,训练集中的异常比例为0.09%,测试集中的异常比例为0.06%,实验中,选择精准率precision,召回率recall与F1 score作为评价指标。
本实施例中,训练LSTM自编码器以及训练重构误差分类的单层神经网络的参数如表1所示:
表1实验参数设置
模型 | 训练样本数 | 测试样本数 | 学习率 | 迭代次数 |
LSTM自编码器 | 占1/2 | 占1/2 | 0.0003 | 50 |
重构误差分类网络 | 占1/2 | 占1/2 | 0.001 | 50 |
本发明为了验证提出的伪标签异常检测无监督框架PLAD的优势,进行的对比实验如表2所示,比较对象为基于KNN、CBLOF、IF、HBOS、PCA的无监督异常检测模型,本发明在指标上均达到了最优性能:
表2对比实验结果
方法 | Precision | Recall | F1 score |
PLAD | 0.9998 | 0.9838 | 0.9918 |
KNN | 0.9995 | 0.9092 | 0.9522 |
CBLOF | 0.9997 | 0.8965 | 0.9453 |
IF | 0.9998 | 0.8940 | 0.9440 |
HBOS | 0.9997 | 0.9602. | 0.9795 |
PCA | 0.9998 | 0.8972 | 0.9457 |
本发明公开了利用伪标签指导重构误差分类的无监督能耗异常检测方法PLAD。该方法提出了一种自适应伪标签异常检测框架,利用伪标签指导能耗数据重构误差的分类,克服了有监督异常检测方法对于标签数据的依赖。本发明设计的异常检测框架含有两部分:自适应伪标签部分和LSTM自动编码器部分。自适应伪标签部分先从能耗数据中提取差分特征以及规律性特征,并通过这些特征得到K-dist图,再利用K-dist图获取DBSCAN算法的自适应参数,生成能耗数据的伪标签,解决了在不同场景下参数选择困难的问题。LSTM自动编码器部分对能耗数据进行重构,得到能耗数据的重构误差。最终,本发明将两个部分结合,利用伪标签指导能耗数据重构误差的分类,得到能耗数据异常检测的结果。
请参考图5,图5为本发明实施例提供的一种无监督能耗异常检测装置的结构框图;具体装置可以包括:
预处理模块100,用于将输入的原始能耗序列进行预处理,得到补全能耗序列;
三维融合特征计算模块200,用于计算所述补全能耗序列中各个能耗数据的三维融合特征,所述三维融合特征包括一阶差分特征、二阶差分特征、规律性特征;
自适应参数计算模块300,用于利用所述补全能耗序列中各个能耗数据的三维融合特征得到k-dist图,并根据所述k-dist图计算密度聚类算法的自适应参数;
伪标签序列生成模块400,用于基于所述自适应参数利用所述密度聚类算法对所述补全能耗序列中各个能耗数据的三维融合特征聚类,生成能耗伪标签序列;
重构误差计算模块500,用于利用自编码器重构所述补全能耗序列得到重构能耗序列,并计算所述补全能耗序列与所述重构能耗序列的数据差值,得到能耗序列重构误差;
异常检测模块600,用于将所述能耗序列重构误差输入利用所述能耗伪标签序列训练得到的分类器进行分类,得到异常检测结果。
本实施例的无监督能耗异常检测装置用于实现前述的无监督能耗异常检测方法,因此无监督能耗异常检测装置中的具体实施方式可见前文无监督能耗异常检测方法的实施例部分,例如,预处理模块100,三维融合特征计算模块200,自适应参数计算模块300,伪标签序列生成模块400,重构误差计算模块500,异常检测模块600,分别用于实现上述无监督能耗异常检测方法中步骤S101,S102,S103,S104、S105和S106,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本发明具体实施例还提供了一种无监督能耗异常检测的设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种无监督能耗异常检测的方法的步骤。
本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种无监督能耗异常检测的方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种无监督能耗异常检测方法,其特征在于,包括:
将输入的原始能耗序列进行预处理,得到补全能耗序列;
计算所述补全能耗序列中各个能耗数据的三维融合特征,所述三维融合特征包括一阶差分特征、二阶差分特征、规律性特征;
利用所述补全能耗序列中各个能耗数据的三维融合特征得到k-dist图,并根据所述k-dist图计算密度聚类算法的自适应参数;
基于所述自适应参数利用所述密度聚类算法对所述补全能耗序列中各个能耗数据的三维融合特征聚类,生成能耗伪标签序列;
利用自编码器重构所述补全能耗序列得到重构能耗序列,并计算所述补全能耗序列与所述重构能耗序列的数据差值,得到能耗序列重构误差;
将所述能耗序列重构误差输入利用所述能耗伪标签序列训练后的分类器进行分类,得到异常检测结果。
2.根据权利要求1所述的无监督能耗异常检测方法,其特征在于,所述利用所述能耗伪标签序列训练分类器包括:
将所述能耗序列重构误差按预设比例划分出能耗序列重构误差训练集;
利用SMOTE算法对所述能耗序列重构误差训练集中的异常样本进行重采样;
将重采样后的能耗序列重构误差训练集输入所述分类器,并利用所述能耗伪标签序列对所述分类器进行训练。
4.根据权利要求3所述的无监督能耗异常检测方法,其特征在于,所述计算所述补全能耗序列中各个能耗数据的三维融合特征包括:
分别提取所述补全能耗序列X中i时刻的能耗值xi的一阶差分特征fid1、二阶差分特征fid2、规律性特征fir,构成所述三维融合特征(fid1,fid2,fir)。
5.根据权利要求4所述的无监督能耗异常检测方法,其特征在于,所述利用所述补全能耗序列中各个能耗数据的三维融合特征得到k-dist图,并根据所述k-dist图计算密度聚类算法的自适应参数包括:
计算所述补全能耗序列中各个能耗数据的三维融合特征到其第k个近邻融合特征点的距离d,得到k-dist序列{d1,d2,…,dn};
对所述k-dist序列递增排序得到k-dist图;
通过所述k-dist图计算出DBSCAN算法的自适应参数Eps。
7.根据权利要求1所述的无监督能耗异常检测方法,其特征在于,所述利用自编码器重构所述补全能耗序列得到重构能耗序列,并计算所述补全能耗序列与所述重构能耗序列的数据差值,得到能耗序列重构误差包括:
采用滑动窗口机制,基于LSTM网络构建自编码器模型重建所述补全能耗序列,得到重构能耗序列;
计算所述补全能耗序列与重构能耗序列的数据差值,得到能耗序列重构误差。
8.一种无监督能耗异常检测的装置,其特征在于,包括:
预处理模块,将输入的原始能耗序列进行预处理,得到补全能耗序列;
三维融合特征计算模块,计算所述补全能耗序列中各个能耗数据的三维融合特征,所述三维融合特征包括一阶差分特征、二阶差分特征、规律性特征;
自适应参数计算模块,利用所述补全能耗序列中各个能耗数据的三维融合特征得到k-dist图,并根据所述k-dist图计算密度聚类算法的自适应参数;
伪标签序列生成模块,基于所述自适应参数利用所述密度聚类算法对所述补全能耗序列中各个能耗数据的三维融合特征聚类,生成能耗伪标签序列;
重构误差计算模块,利用自编码器重构所述补全能耗序列得到重构能耗序列,并计算所述补全能耗序列与所述重构能耗序列的数据差值,得到能耗序列重构误差;
异常检测模块,将所述能耗序列重构误差输入利用所述能耗伪标签序列训练后的分类器进行分类,得到异常检测结果。
9.一种无监督能耗异常检测的设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述一种无监督能耗异常检测的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种无监督能耗异常检测的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210181399.2A CN114781779A (zh) | 2022-02-25 | 2022-02-25 | 一种无监督能耗异常检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210181399.2A CN114781779A (zh) | 2022-02-25 | 2022-02-25 | 一种无监督能耗异常检测方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114781779A true CN114781779A (zh) | 2022-07-22 |
Family
ID=82422856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210181399.2A Pending CN114781779A (zh) | 2022-02-25 | 2022-02-25 | 一种无监督能耗异常检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114781779A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116893297A (zh) * | 2023-09-11 | 2023-10-17 | 常州旭泰克系统科技有限公司 | 旋转设备能耗的监测方法、监测系统 |
CN117633978A (zh) * | 2023-11-30 | 2024-03-01 | 广东南海产业集团有限公司 | 一种基于大数据的建筑能耗管理系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110995508A (zh) * | 2019-12-23 | 2020-04-10 | 中国人民解放军国防科技大学 | 基于kpi突变的自适应无监督在线网络异常检测方法 |
CN112381181A (zh) * | 2020-12-11 | 2021-02-19 | 桂林电子科技大学 | 一种建筑能耗异常的动态检测方法 |
CN112686286A (zh) * | 2020-12-18 | 2021-04-20 | 博锐尚格科技股份有限公司 | 建筑运行能耗异常识别方法、系统、计算机可读存储介质 |
CN113242207A (zh) * | 2021-04-02 | 2021-08-10 | 河海大学 | 一种迭代聚类的网络流量异常检测方法 |
CN114077872A (zh) * | 2021-11-29 | 2022-02-22 | 税友软件集团股份有限公司 | 一种数据异常检测方法及相关装置 |
-
2022
- 2022-02-25 CN CN202210181399.2A patent/CN114781779A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110995508A (zh) * | 2019-12-23 | 2020-04-10 | 中国人民解放军国防科技大学 | 基于kpi突变的自适应无监督在线网络异常检测方法 |
CN112381181A (zh) * | 2020-12-11 | 2021-02-19 | 桂林电子科技大学 | 一种建筑能耗异常的动态检测方法 |
CN112686286A (zh) * | 2020-12-18 | 2021-04-20 | 博锐尚格科技股份有限公司 | 建筑运行能耗异常识别方法、系统、计算机可读存储介质 |
CN113242207A (zh) * | 2021-04-02 | 2021-08-10 | 河海大学 | 一种迭代聚类的网络流量异常检测方法 |
CN114077872A (zh) * | 2021-11-29 | 2022-02-22 | 税友软件集团股份有限公司 | 一种数据异常检测方法及相关装置 |
Non-Patent Citations (1)
Title |
---|
沈潇军等: "一种基于LSTM自动编码机的工业系统异常检测方法", 电信科学, no. 7, 31 December 2020 (2020-12-31), pages 136 - 145 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116893297A (zh) * | 2023-09-11 | 2023-10-17 | 常州旭泰克系统科技有限公司 | 旋转设备能耗的监测方法、监测系统 |
CN116893297B (zh) * | 2023-09-11 | 2024-01-12 | 常州旭泰克系统科技有限公司 | 旋转设备能耗的监测方法、监测系统 |
CN117633978A (zh) * | 2023-11-30 | 2024-03-01 | 广东南海产业集团有限公司 | 一种基于大数据的建筑能耗管理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914644B (zh) | 一种基于双模态协同的弱监督时序动作定位方法及系统 | |
CN110197099B (zh) | 跨年龄人脸识别及其模型训练的方法和装置 | |
US10719780B2 (en) | Efficient machine learning method | |
CN107480575B (zh) | 模型的训练方法、跨年龄人脸识别方法和对应的装置 | |
CN105740912B (zh) | 基于核范数正则化的低秩图像特征提取的识别方法及系统 | |
CN110210513B (zh) | 数据分类方法、装置及终端设备 | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
CN113850281A (zh) | 一种基于meanshift优化的数据处理方法和装置 | |
Azzalini et al. | A minimally supervised approach based on variational autoencoders for anomaly detection in autonomous robots | |
CN114781779A (zh) | 一种无监督能耗异常检测方法、装置及存储介质 | |
CN111401339A (zh) | 识别人脸图像中的人的年龄的方法、装置及电子设备 | |
CN113869398B (zh) | 一种不平衡文本分类方法、装置、设备及存储介质 | |
CN114066236A (zh) | 风光有功出力场景生成方法、装置、电子设备及存储介质 | |
CN115587335A (zh) | 异常值检测模型的训练方法、异常值检测方法及系统 | |
Farnoosh et al. | DeepPBM: deep probabilistic background model estimation from video sequences | |
CN114332500A (zh) | 图像处理模型训练方法、装置、计算机设备和存储介质 | |
CN112597997A (zh) | 感兴趣区域确定方法、图像内容识别方法及装置 | |
Sharma et al. | A semi-supervised generalized vae framework for abnormality detection using one-class classification | |
CN113780129B (zh) | 基于无监督图序列预测编码的动作识别方法及存储介质 | |
Liu et al. | An anomaly detection method based on double encoder–decoder generative adversarial networks | |
CN114626426A (zh) | 基于K-means优化算法的工业设备行为检测方法 | |
CN114912109B (zh) | 一种基于图嵌入的异常行为序列识别方法及系统 | |
CN113887509B (zh) | 一种基于图像集合的快速多模态视频人脸识别方法 | |
CN112488238B (zh) | 一种基于对抗自编码器的混合异常检测方法 | |
CN115358473A (zh) | 基于深度学习的电力负荷预测方法及预测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |