CN116756594A - 一种电网数据异常点检测方法、系统、设备及介质 - Google Patents
一种电网数据异常点检测方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN116756594A CN116756594A CN202310736030.8A CN202310736030A CN116756594A CN 116756594 A CN116756594 A CN 116756594A CN 202310736030 A CN202310736030 A CN 202310736030A CN 116756594 A CN116756594 A CN 116756594A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- gaussian mixture
- encoder
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000000203 mixture Substances 0.000 claims abstract description 68
- 230000006870 function Effects 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 238000009826 distribution Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000005457 optimization Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000000354 decomposition reaction Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 7
- 238000012847 principal component analysis method Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 2
- 238000013450 outlier detection Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 6
- 230000000875 corresponding effect Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Mathematical Analysis (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Molecular Biology (AREA)
- Mathematical Optimization (AREA)
- General Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Operations Research (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Complex Calculations (AREA)
Abstract
本发明提出了一种电网数据异常点检测方法、系统、设备及介质,方法通过使用生成式对抗网络模型生成的正常点的编码信息作为高斯混合模型的输入,确定高斯混合模型中组件的数量,对高斯混合模型进行训练,得到正常点编码信息的概率密度函数,将待测数据点经过编码后输入至高斯混合模型中,利用概率密度函数得到其概率值,当待检测数据点的概率值低于正常样本的概率值时,则该待检测数据点为异常点。通过结合两种模型,有效地避免了高维数据问题以及深度学习中网络结构复杂造成的模型训练速度慢、模型超参数过多等问题,减少了模型的复杂度和训练时间。并且使用高斯混合模型作为生成模型,能够更准确地捕捉数据的概率分布,进而提高异常检测的精度。
Description
技术领域
本发明属于电网故障检测技术领域,涉及一种电网数据异常点检测方法、系统、设备及介质。
背景技术
近年来,随着电力行业的数字化、网络化和智能化发展,人工智能在电网数据分析中的运用越来越多。针对于异常检测领域,相关算法能为电网异常检测提供一种高效、准确的解决方案,能够帮助电力企业及时发现电网故障,及早排除隐患,提高电网的安全性、可靠性和稳定性。当前常用的异常检测方法可以大致分为两类:一种是基于数理统计的传统方法,从统计学的角度出发,通过计算数据的相关概率来识别异常点。一种是基于深度学习的异常检测算法,利用神经网络的特征提取能力来提取待检测点的特征,再进行异常点的识别。
对抗生成网络作为一种深度学习的神经网络模型,可以利用原始数据与重构数据之间的重构误差来有效地判断一个样本是否是属于异常样本。但是该方法的网络结构较为复杂,导致训练较为困难。此外,对抗生成网络是通过判别器来对异常点进行判断的。判别器的输出大部分为直接的分类器,很难从定量的角度去分析异常点的识别概率。CN112561383A使用了对抗生成网络的半监督异常检测方式,将从生产设备采集的批量历史正常数据经过数据清洗后输入到生成对抗网络模型,对抗网络模型生成异常数据并进行鉴别检测,训练完成后将对抗网络模型部署到实时检测环境。再将从生产设备采集实时数据,输入到生成对抗网络模型进行异常检测;当检测结果为正常时,将实时数据标注为正常数据,并回流输入到对抗网络模型进行增量训练;当检测结果为异常时,触发异常报警,等待人工处理。该专利直接使用生成式对抗网络来进行异常检测,判别器的输出大部分为直接的分类器,很难从定量的角度去分析异常点的识别概率,并且采用的网络结构复杂,训练时间较长。
发明内容
本发明的目的在于解决现有技术中直接采用生成式对抗网络来进行异常检测,判别器的输出大部分为直接的分类器,难以从定量的角度去分析异常点的识别概率,并且采用的网络结构复杂,训练时间较长的问题,提供一种电网数据异常点检测方法、系统、设备及介质。
为达到上述目的,本发明采用以下技术方案予以实现:
一种电网数据异常点检测方法,包括以下步骤:
通过聚类算法确定高斯混合模型中的组件数量;
提取检测数据中的有效信息,得到特征编码,训练生成式对抗网络模型;
基于组件数量训练高斯混合模型,计算特征编码的概率密度函数,得到正常样本的概率值;
将待检测数据点输入至生成式对抗网络模型中,输出编码结果;
将编码结果输入至训练后的高斯混合模型中,得到概率密度函数,由概率密度函数计算待检测数据点的概率值;
当待检测数据点的概率值低于正常样本的概率值时,则该待检测数据点为异常点。
本发明的进一步改进在于:
所述高斯混合模型中的组件数量通过获取数据簇的数量确定,数据簇的数量采用主成分分析法中的线性变换计算,具体包括以下步骤:
首先对原始数据进行中心化处理,将每个维度上的数据都减去该对应维度上的均值,使得每一维度上的平均值归零;
计算中心化处理后数据集的协方差矩阵;
对协方差矩阵进行特征值分解,得到特征向量和特征值;
将特征向量按照对应的特征值从大到小进行排序;
选取满足特征值集合95%以上比重的特征值数量K,将特征值数量K作为数据簇的数量。
所述高斯混合模型中的组件数量通过肘部法则确定。
所述训练生成式对抗网络模型时,具体包括以下步骤:
从标准正态分布中采样一组噪声作为初始的异常输入,通过生成器生成初始假样本;
将正常样本与初始假样本均输入至编码器中;
保持生成器的网络参数不变,根据编码器的优化目标对编码器的网络参数进行更新,直至编码器的网络参数收敛;
保持编码器的网络参数不变,根据生成器的优化目标对生成器的网络参数进行更新,直至生成器的网络参数收敛;
重复对编码器的网络参数和生成器的网络参数进行更新,直至网络参数均不变化,生成式对抗网络模型的参数收敛。
所述编码器的优化目标具体表示为:
其中,E为编码器,E表示期望,x~p(x)表示变量x服从分布p(x),z~q(z)表示变量z服从分布q(z),avg为均值,ρ为皮尔逊相关系数,λ为正则项系数,z为原始的数据输入分布。
所述生成器的优化目标具体表示为:
其中,G为生成器。
所述训练高斯混合模型时,具体包括以下步骤:
初始化高斯混合模型中的参数值,对于模型中的每个组件,随机初始化均值、协方差矩阵和权重系数;
E步,根据当前组件,计算每个样本属于该组件的后验概率,得到每个样本在每个高斯分量上的响应度;
M步,根据E步的结果,更新模型中每个组件的参数值,包括均值、协方差矩阵和权重系数,用以最大化似然函数;
判断模型是否收敛或是否达到预定的迭代次数,若模型未收敛或未达到预定的迭代次数,跳转至E步。
一种电网数据异常点检测系统,包括以下单元:
第一处理单元,所述第一处理单元用于通过聚类算法确定高斯混合模型中的组件数量;
生成式对抗网络模型单元,所述生成式对抗网络模型单元用于提取检测数据中的有效信息,得到特征编码,训练生成式对抗网络模型;
高斯混合模型单元,所述高斯混合模型单元用于训练高斯混合模型,计算特征编码的概率密度函数,得到正常样本的概率密度;
编码单元,所述编码单元用于将待检测数据点输入至生成式对抗网络模型中,输出编码结果;
第二处理单元,所述第二处理单元用于将生成式对抗网络模型输出的编码结果输入至高斯混合模型中,得到概率密度函数,计算待检测数据点的概率密度;
异常点检测单元,所述异常点检测单元用于根据概率值判断待检测数据点是否为异常点,当待检测数据点的概率密度低于正常样本的概率密度时,则该待检测数据点为异常点。
所述第一处理单元具体包括以下模块:
数据预处理模块,所述数据预处理模块用于对原始数据进行中心化处理,将每个维度上的数据都减去该对应维度上的均值,使得每一维度上的平均值归零;
数据计算模块,所述数据计算模块用于计算中心化处理后数据集的协方差矩阵;
特征分解模块,所述特征分解模块用于对协方差矩阵进行特征值分解,得到特征向量和特征值;
排序模块,所述排序模块用于将特征向量按照对应的特征值从大到小进行排序;
特征值筛选模块,所述特征值筛选模块用于选取满足特征值集合95%以上比重的特征值数量K,将特征值数量K作为数据簇的数量。
所述生成式对抗网络模型单元具体包括以下模块:
样本生成模块,所述样本生成模块用于从标准正态分布中采样一组噪声作为初始的异常输入,通过生成器生成初始假样本;
样本输入模块,所述样本输入模块用于将正常样本与初始假样本均输入至编码器中;
编码器优化模块,所述编码器优化模块用于保持生成器的网络参数不变,根据编码器的优化目标对编码器的网络参数进行更新,直至编码器的网络参数收敛;
生成器优化模块,所述生成器优化模块用于保持编码器的网络参数不变,根据生成器的优化目标对生成器的网络参数进行更新,直至生成器的网络参数收敛;
循环模块,所述循环模块用于重复对编码器的网络参数和生成器的网络参数进行更新,直至网络参数均不变化,生成式对抗网络模型的参数收敛。
所述高斯混合模型单元具体包括以下模块:
数据初始化模块,所述数据初始化模块用于初始化高斯混合模型中的参数值,对于模型中的每个组件,随机初始化均值、协方差矩阵和权重系数;
第一数据处理模块,所述第一数据处理模块用于根据当前组件,计算每个样本属于该组件的后验概率,得到每个样本在每个高斯分量上的响应度;
第二数据处理模块,所述第二数据处理模块用于根据第一数据处理模块中的结果,更新模型中每个组件的参数值,包括均值、协方差矩阵和权重系数,用以最大化似然函数;
判断模块,所述判断模块用于判断模型是否收敛或是否达到预定的迭代次数,若模型未收敛或未达到预定的迭代次数,跳转至第一数据处理模块。
一种设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前项任一项所述方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前项任一项所述方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明提出了一种基于高斯混合模型和正交生成式对抗网络的电网数据异常点检测方法,将高斯混合模型与正交生成式对抗网络模型相结合对电网数据异常点进行检测,使用生成式对抗网络模型生成的正常点的编码信息作为高斯混合模型的输入,确定高斯混合模型中组件的数量,对高斯混合模型进行训练,得到正常点编码信息的概率密度函数,将待测数据点经过编码后输入至高斯混合模型中,利用概率密度函数得到其概率值,当待检测数据点的概率值低于正常样本的概率值时,则该待检测数据点为异常点。通过结合两种模型,有效地避免了传统方法难以处理的高维数据问题以及深度学习中网络结构过于复杂造成的模型训练速度慢、模型超参数过多等问题,减少了模型的复杂度和训练时间。使用高斯混合模型作为生成模型,能够更准确地捕捉数据的概率分布,进而提高异常检测的精度。
进一步的,通过采用主成分分析法中的线性变换来计算原始数据的数据簇,从而确定对应的高斯混合模型的组件数量,避免了需要手动设置组件数量的问题。
附图说明
为了更清楚的说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的电网数据异常点检测方法流程图;
图2为本发明的电网数据异常点检测系统结构图;
图3为本发明中生成式对抗网络模型训练过程示意图;
图4为本发明中对于电网数据异常点的检测过程示意图;
图5为本发明中正交生成式对抗网络结构解码器部分示意图;
图6为本发明中正交生成式对抗网络结构编码器部分示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明实施例的描述中,需要说明的是,若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,若出现术语“水平”,并不表示要求部件绝对水平,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
鉴于深度学习算法能有效地提取高维数据中的特征,而传统算法能快速计算,检测时间较短的优点。本发明所使用的技术方案是将基于深度学习的生成式对抗网络以及基于传统算法的高斯混合模型相结合,利用生成对抗式网络提取检测数据的有效信息,形成特征编码;再使用高斯混合模型去生成数据集中正确点的特征编码的概率密度函数;对于待检测的数据点,先通过生成对抗式网络形成对应的特征编码,然后将特征编码作为高斯混合模型的输入去计算其概率密度。由于异常点和正常点在统计分布上应该具有明显偏差,所以其概率密度应明显小于正常点,因此可以将计算得到的概率密度低于某一阈值的点识别为异常点。
本发明中的电网数据异常点检测方法,包括以下步骤:
通过聚类算法确定高斯混合模型中的组件数量;
提取检测数据中的有效信息,得到特征编码,训练生成式对抗网络模型;
基于组件数量训练高斯混合模型,计算特征编码的概率密度函数,得到正常样本的概率值;
将待检测数据点输入至生成式对抗网络模型中,输出编码结果;
将编码结果输入至训练后的高斯混合模型中,得到概率密度函数,由概率密度函数计算待检测数据点的概率值;
当待检测数据点的概率值低于正常样本的概率值时,则该待检测数据点为异常点。
下面结合附图对本发明做进一步详细描述:
参见图1,为本发明中一种电网数据异常点检测方法,具体包括以下步骤:
S1,通过聚类算法确定高斯混合模型中的组件数量。
高斯混合模型中的组件数量通过获取数据簇的数量确定,数据簇的数量采用主成分分析法中的线性变换计算,具体通过以下步骤:
S1.1,首先对原始数据进行中心化处理,将每个维度上的数据都减去该对应维度上的均值,使得每一维度上的平均值归零。
S1.2,计算中心化处理后数据集的协方差矩阵。
S1.3,对协方差矩阵进行特征值分解,得到特征向量和特征值。
S1.4,将特征向量按照对应的特征值从大到小进行排序。
S1.5,选取满足特征值集合95%以上比重的特征值数量K,将特征值数量K作为数据簇的数量。
对于高斯混合模型的组件K的值可以使用肘部法则等其它方法确定。
S2,提取检测数据中的有效信息,得到特征编码,训练生成式对抗网络模型。
S2.1,从标准正态分布中采样一组噪声作为初始的异常输入,通过生成器生成初始假样本。
S2.2,将正常样本与初始假样本均输入至编码器中。
S2.3,保持生成器的网络参数不变,根据编码器的优化目标对编码器的网络参数进行更新,直至编码器的网络参数收敛。
编码器的优化目标具体表示为:
其中,E为编码器,E表示期望,x~p(x)表示变量x服从分布p(x),z~q(z)表示变量z服从分布q(z),avg为均值,ρ为皮尔逊相关系数,λ为正则项系数,z为原始的数据输入分布。
S2.4,保持编码器的网络参数不变,根据生成器的优化目标对生成器的网络参数进行更新,直至生成器的网络参数收敛。
生成器的优化目标具体表示为:
其中,G为生成器。
S2.5,重复对编码器的网络参数和生成器的网络参数进行更新,直至网络参数均不变化,生成式对抗网络模型的参数收敛。
S3,训练高斯混合模型,计算特征编码的概率密度函数,得到正常样本的概率值。
S3.1,初始化高斯混合模型中的参数值,对于模型中的每个组件,随机初始化均值、协方差矩阵和权重系数。
S3.2,E步,根据当前组件,计算每个样本属于该组件的后验概率,得到每个样本在每个高斯分量上的响应度。
S3.3,M步,根据E步的结果,更新模型中每个组件的参数值,包括均值、协方差矩阵和权重系数,用以最大化似然函数。
S3.4,判断模型是否收敛或是否达到预定的迭代次数,若模型未收敛或未达到预定的迭代次数,重复执行E步和M步。
S4,将待检测数据点输入至生成式对抗网络模型中,输出编码结果;
S5,将生成式对抗网络模型输出的编码结果输入至高斯混合模型中,得到概率密度函数,计算待检测数据点的概率值;
S6,根据概率值判断待检测数据点是否为异常点,当待检测数据点的概率值低于正常样本的概率值时,则该待检测数据点为异常点。
参见图2,为本发明中一种电网数据异常点检测系统单元结构图,具体包括:
第一处理单元,所述第一处理单元用于通过聚类算法确定高斯混合模型中的组件数量;其中第一处理单元具体包括以下模块:
数据预处理模块,所述数据预处理模块用于对原始数据进行中心化处理,将每个维度上的数据都减去该对应维度上的均值,使得每一维度上的平均值归零;
数据计算模块,所述数据计算模块用于计算中心化处理后数据集的协方差矩阵;
特征分解模块,所述特征分解模块用于对协方差矩阵进行特征值分解,得到特征向量和特征值;
排序模块,所述排序模块用于将特征向量按照对应的特征值从大到小进行排序;
特征值筛选模块,所述特征值筛选模块用于选取满足特征值集合95%以上比重的特征值数量K,将特征值数量K作为数据簇的数量。
生成式对抗网络模型单元,所述生成式对抗网络模型单元用于提取检测数据中的有效信息,得到特征编码,训练生成式对抗网络模型;其中生成式对抗网络模型单元具体包括以下模块:
样本生成模块,所述样本生成模块用于从标准正态分布中采样一组噪声作为初始的异常输入,通过生成器生成初始假样本;
样本输入模块,所述样本输入模块用于将正常样本与初始假样本均输入至编码器中;
编码器优化模块,所述编码器优化模块用于保持生成器的网络参数不变,根据编码器的优化目标对编码器的网络参数进行更新,直至编码器的网络参数收敛;
生成器优化模块,所述生成器优化模块用于保持编码器的网络参数不变,根据生成器的优化目标对生成器的网络参数进行更新,直至生成器的网络参数收敛;
循环模块,所述循环模块用于重复对编码器的网络参数和生成器的网络参数进行更新,直至网络参数均不变化,生成式对抗网络模型的参数收敛。
高斯混合模型单元,所述高斯混合模型单元用于训练高斯混合模型,计算特征编码的概率密度函数,得到正常样本的概率密度;其中高斯混合模型单元具体包括以下模块:
数据初始化模块,所述数据初始化模块用于初始化高斯混合模型中的参数值,对于模型中的每个组件,随机初始化均值、协方差矩阵和权重系数;
第一数据处理模块,所述第一数据处理模块用于根据当前组件,计算每个样本属于该组件的后验概率,得到每个样本在每个高斯分量上的响应度;
第二数据处理模块,所述第二数据处理模块用于根据第一数据处理模块中的结果,更新模型中每个组件的参数值,包括均值、协方差矩阵和权重系数,用以最大化似然函数;
判断模块,所述判断模块用于判断模型是否收敛或是否达到预定的迭代次数,若模型未收敛或未达到预定的迭代次数,跳转至第一数据处理模块。
编码单元,所述编码单元用于将待检测数据点输入至生成式对抗网络模型中,输出编码结果。
第二处理单元,所述第二处理单元用于将生成式对抗网络模型输出的编码结果输入至高斯混合模型中,得到概率密度函数,计算待检测数据点的概率密度。
异常点检测单元,所述异常点检测单元用于根据概率值判断待检测数据点是否为异常点,当待检测数据点的概率密度低于正常样本的概率密度时,则该待检测数据点为异常点。
实施例
本发明中所提出的基于高斯混合模型和生成式对抗网络模型的异常检测点检测方法,具体通过以下步骤实现:
步骤一,确定高斯混合模型中的组件数量。高斯混合模型可以看成是由多个高斯分布组件加权和后组成的混合分布。首先需要确定检测算法中高斯混合模型的组件数量。一般而言,模型组件的数量与检测数据簇的数量相关,而数据簇的特性一般不会受到线性变换的影响。因此,如果使用相应的线性变换,将数据映射到维度差别更大的正交基上,能更有效地确定数据簇的数量。
主成分分析法是对原始数据进行线性变化,将原始数据中线性相关的标准正交基映射到线性无关的正交基上。在本发明中,借用了主成分分析法进行线性变换前的预处理步骤,首先通过对原始数据的协方差矩阵进行特征值分解,得到数据的主成分,即数据在各个方向上的方差最大的方向。之后选取能满足特征值集合95%以上的比重的特征值数量作为簇的数量。
步骤二,训练生成式对抗网络模型对样本进行编码,其网络结构是由一个生成器G和一个判别器E构成。生成器G的目标是尽可能地生成和真实样本类似的数据,判别器E的目标是尽可能地分辨出真实样本和生成样本之间的区别。在训练过程中,网络不停地迭代这两部分地参数,最后可以得到性能优秀的生成器和判别器。
本发明所使用的生成式对抗网络是正交生成式对抗网络,该网络是在原始生成式对抗网络上进行修改,将判别器部分修改为了编码器。由于利用了正交分解的特点,复用了原始判别器的大部分的参数,使得两者具有大体相似的网络结构的。其原始判别器E可以分解为:
其中E是原始判别器的映射,T是正交分解函数,D是分解得到的编码器。通过该分解,使得生成式对抗网络在没有增加更复杂的网络结构的基础上,获得了生成能力与编码能力,其网络结构如图5和图6所示。
在正交生成式对抗网络中,为了能够使编码器E对数据具有实际的编码能力,需要使得对于生成器生成的数据,编码后的E(G(z))与原始的输入数据分布z尽可能相关。因此,在原有的目标函数中加入一个额外的重构损失项,为z与E(G(z))之间的皮尔逊相关系数。为了进一步简化网络结构,正交分解的映射函数可以使用均值avg(E(x))来代替。因此,正交生成式对抗网络的编码器优化目标可以视为:
其中,avg为均值,ρ为皮尔逊相关系数,λ为正则项系数。
此时,网络中生成器的优化目标为:
如图3所示,网络训练的具体实现过程如下:
从标准正态分布中采样一组噪声作为初始的异常输入,将这组噪声通过生成器G生成初始假样本。
将正常的样本与所生成的假样本一同输入到编码器E中。
固定生成器的网络参数不变,按照编码器的优化目标对网络参数进行更新,直到参数收敛。
固定编码器的网络参数不变,按照生成器的优化目标对网络参数进行更新,直到参数收敛。
重复对编码器的网络参数和生成器的网络参数进行更新,直到当前更新时,两部分网络参数均不变化。此时经过多次迭代后,对抗生产网络的参数收敛。
步骤三,使用高斯混合模型来计算正确样本编码后的概率分布。此时的输入是正常样本通过生成式对抗网络得到的编码,输出是该编码对应的概率密度函数。一个由K个组件构成的高斯混合模型可以定义为具有如下形式的概率分布模型:
其中,αk是第k个组件的系数,而φ(x|θk)是第k个组件的高斯分布密度。理论上只要组件的数量足够多,并且组件的系数设置合理,就能够计算任意的分布的函数。
确定高斯混合模型的组件数量通常涉及到具体数据的特征。一般而言,可以使用启发式的方法来设置组件数量。例如将原始数据的每个数据簇看成一个单独的高斯分布,则组件数量和数据簇的数量相同。因此由步骤一的得到的近似数据簇的数量,可以设置为高斯混合模型的组件数量K。
确定高斯混合模型的每个组件的参数常常采用EM算法,具体步骤如下:
初始化模型的参数值,对于每个组件,随机初始化均值、协方差矩阵和权重系数。
E-步,依据当前组件k,计算每个样本属于该组件的后验概率,即计算每个样本在每个高斯分量上的响应度。
M-步,根据E步的结果,更新每个组件的参数,包括均值、协方差矩阵和权重系数,以最大化似然函数。
迭代优化,重复执行E步和M步,直到收敛或达到预定的迭代次数。
步骤四,在异常检测阶段,将待检测的点输入正交对抗生成网络中,通过利用在训练阶段所训练好的的编码器E,能够获得待测样本的特征编码表示。
步骤五,将所获得的待测样本的特征表示编码输入到训练好的高斯混合模型中,能够获得待测样本特征表示编码的概率分布的输出值。所输出的概率值能够被视为待测样本的异常得分。
步骤六,设定异常点对应的概率阈值M,当待检测点的概率值低于该阈值M时,将该检测点识别为异常点,检测过程如图4所示。
本发明一实施例提供一种终端设备。该实施例的终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。
所述装置/终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述装置/终端设备可包括,但不仅限于,处理器、存储器。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述装置/终端设备的各种功能。
所述装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (13)
1.一种电网数据异常点检测方法,其特征在于,包括以下步骤:
通过聚类算法确定高斯混合模型中的组件数量;
提取检测数据中的有效信息,得到特征编码,训练生成式对抗网络模型;
基于组件数量训练高斯混合模型,计算特征编码的概率密度函数,得到正常样本的概率值;
将待检测数据点输入至生成式对抗网络模型中,输出编码结果;
将编码结果输入至训练后的高斯混合模型中,得到概率密度函数,由概率密度函数计算待检测数据点的概率值;
当待检测数据点的概率值低于正常样本的概率值时,则该待检测数据点为异常点。
2.如权利要求1所述的一种电网数据异常点检测方法,其特征在于,所述高斯混合模型中的组件数量通过获取数据簇的数量确定,数据簇的数量采用主成分分析法中的线性变换计算,具体包括以下步骤:
首先对原始数据进行中心化处理,将每个维度上的数据都减去该对应维度上的均值,使得每一维度上的平均值归零;
计算中心化处理后数据集的协方差矩阵;
对协方差矩阵进行特征值分解,得到特征向量和特征值;
将特征向量按照对应的特征值从大到小进行排序;
选取满足特征值集合95%以上比重的特征值数量K,将特征值数量K作为数据簇的数量。
3.如权利要求1所述的一种电网数据异常点检测方法,其特征在于,所述高斯混合模型中的组件数量通过肘部法则确定。
4.如权利要求1所述的一种电网数据异常点检测方法,其特征在于,所述训练生成式对抗网络模型时,具体包括以下步骤:
从标准正态分布中采样一组噪声作为初始的异常输入,通过生成器生成初始假样本;
将正常样本与初始假样本均输入至编码器中;
保持生成器的网络参数不变,根据编码器的优化目标对编码器的网络参数进行更新,直至编码器的网络参数收敛;
保持编码器的网络参数不变,根据生成器的优化目标对生成器的网络参数进行更新,直至生成器的网络参数收敛;
重复对编码器的网络参数和生成器的网络参数进行更新,直至网络参数均不变化,生成式对抗网络模型的参数收敛。
5.如权利要求4所述的一种电网数据异常点检测方法,其特征在于,所述编码器的优化目标具体表示为:
其中,E为编码器,E表示期望,x~p(x)表示变量x服从分布p(x),z~q(z)表示变量z服从分布q(z),avg为均值,ρ为皮尔逊相关系数,λ为正则项系数,z为原始的数据输入分布。
6.如权利要求4所述的一种电网数据异常点检测方法,其特征在于,所述生成器的优化目标具体表示为:
其中,G为生成器。
7.如权利要求1所述的一种电网数据异常点检测方法,其特征在于,所述训练高斯混合模型时,具体包括以下步骤:
初始化高斯混合模型中的参数值,对于模型中的每个组件,随机初始化均值、协方差矩阵和权重系数;
E步,根据当前组件,计算每个样本属于该组件的后验概率,得到每个样本在每个高斯分量上的响应度;
M步,根据E步的结果,更新模型中每个组件的参数值,包括均值、协方差矩阵和权重系数,用以最大化似然函数;
判断模型是否收敛或是否达到预定的迭代次数,若模型未收敛或未达到预定的迭代次数,跳转至E步。
8.一种电网数据异常点检测系统,其特征在于,包括以下单元:
第一处理单元,所述第一处理单元用于通过聚类算法确定高斯混合模型中的组件数量;
生成式对抗网络模型单元,所述生成式对抗网络模型单元用于提取检测数据中的有效信息,得到特征编码,训练生成式对抗网络模型;
高斯混合模型单元,所述高斯混合模型单元用于训练高斯混合模型,计算特征编码的概率密度函数,得到正常样本的概率密度;
编码单元,所述编码单元用于将待检测数据点输入至生成式对抗网络模型中,输出编码结果;
第二处理单元,所述第二处理单元用于将生成式对抗网络模型输出的编码结果输入至高斯混合模型中,得到概率密度函数,计算待检测数据点的概率密度;
异常点检测单元,所述异常点检测单元用于根据概率值判断待检测数据点是否为异常点,当待检测数据点的概率密度低于正常样本的概率密度时,则该待检测数据点为异常点。
9.如权利要求8所述的一种电网数据异常点检测系统,其特征在于,所述第一处理单元具体包括以下模块:
数据预处理模块,所述数据预处理模块用于对原始数据进行中心化处理,将每个维度上的数据都减去该对应维度上的均值,使得每一维度上的平均值归零;
数据计算模块,所述数据计算模块用于计算中心化处理后数据集的协方差矩阵;
特征分解模块,所述特征分解模块用于对协方差矩阵进行特征值分解,得到特征向量和特征值;
排序模块,所述排序模块用于将特征向量按照对应的特征值从大到小进行排序;
特征值筛选模块,所述特征值筛选模块用于选取满足特征值集合95%以上比重的特征值数量K,将特征值数量K作为数据簇的数量。
10.如权利要求8所述的一种电网数据异常点检测系统,其特征在于,所述生成式对抗网络模型单元具体包括以下模块:
样本生成模块,所述样本生成模块用于从标准正态分布中采样一组噪声作为初始的异常输入,通过生成器生成初始假样本;
样本输入模块,所述样本输入模块用于将正常样本与初始假样本均输入至编码器中;
编码器优化模块,所述编码器优化模块用于保持生成器的网络参数不变,根据编码器的优化目标对编码器的网络参数进行更新,直至编码器的网络参数收敛;
生成器优化模块,所述生成器优化模块用于保持编码器的网络参数不变,根据生成器的优化目标对生成器的网络参数进行更新,直至生成器的网络参数收敛;
循环模块,所述循环模块用于重复对编码器的网络参数和生成器的网络参数进行更新,直至网络参数均不变化,生成式对抗网络模型的参数收敛。
11.如权利要求8所述的一种电网数据异常点检测系统,其特征在于,所述高斯混合模型单元具体包括以下模块:
数据初始化模块,所述数据初始化模块用于初始化高斯混合模型中的参数值,对于模型中的每个组件,随机初始化均值、协方差矩阵和权重系数;
第一数据处理模块,所述第一数据处理模块用于根据当前组件,计算每个样本属于该组件的后验概率,得到每个样本在每个高斯分量上的响应度;
第二数据处理模块,所述第二数据处理模块用于根据第一数据处理模块中的结果,更新模型中每个组件的参数值,包括均值、协方差矩阵和权重系数,用以最大化似然函数;
判断模块,所述判断模块用于判断模型是否收敛或是否达到预定的迭代次数,若模型未收敛或未达到预定的迭代次数,跳转至第一数据处理模块。
12.一种设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述方法的步骤。
13.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310736030.8A CN116756594A (zh) | 2023-06-20 | 2023-06-20 | 一种电网数据异常点检测方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310736030.8A CN116756594A (zh) | 2023-06-20 | 2023-06-20 | 一种电网数据异常点检测方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116756594A true CN116756594A (zh) | 2023-09-15 |
Family
ID=87954858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310736030.8A Pending CN116756594A (zh) | 2023-06-20 | 2023-06-20 | 一种电网数据异常点检测方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116756594A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116933146A (zh) * | 2023-09-19 | 2023-10-24 | 航天宏图信息技术股份有限公司 | 一种数字孪生空间实体的分类体系创建方法及装置 |
CN117170979A (zh) * | 2023-10-26 | 2023-12-05 | 广东百德朗科技有限公司 | 一种大规模设备的能耗数据处理方法、系统、设备及介质 |
CN117914629A (zh) * | 2024-03-18 | 2024-04-19 | 台州市大数据发展有限公司 | 一种网络安全检测方法及系统 |
-
2023
- 2023-06-20 CN CN202310736030.8A patent/CN116756594A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116933146A (zh) * | 2023-09-19 | 2023-10-24 | 航天宏图信息技术股份有限公司 | 一种数字孪生空间实体的分类体系创建方法及装置 |
CN116933146B (zh) * | 2023-09-19 | 2023-12-26 | 航天宏图信息技术股份有限公司 | 一种数字孪生空间实体的分类体系创建方法及装置 |
CN117170979A (zh) * | 2023-10-26 | 2023-12-05 | 广东百德朗科技有限公司 | 一种大规模设备的能耗数据处理方法、系统、设备及介质 |
CN117170979B (zh) * | 2023-10-26 | 2024-04-05 | 广东百德朗科技有限公司 | 一种大规模设备的能耗数据处理方法、系统、设备及介质 |
CN117914629A (zh) * | 2024-03-18 | 2024-04-19 | 台州市大数据发展有限公司 | 一种网络安全检测方法及系统 |
CN117914629B (zh) * | 2024-03-18 | 2024-05-28 | 台州市大数据发展有限公司 | 一种网络安全检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108737406B (zh) | 一种异常流量数据的检测方法及系统 | |
CN116756594A (zh) | 一种电网数据异常点检测方法、系统、设备及介质 | |
CN110287983B (zh) | 基于最大相关熵深度神经网络单分类器异常检测方法 | |
CN110298249A (zh) | 人脸识别方法、装置、终端及存储介质 | |
CN112527604A (zh) | 一种基于深度学习的运维检测方法、系统、电子设备及介质 | |
CN112199670B (zh) | 一种基于深度学习改进iforest对行为异常检测的日志监控方法 | |
CN111931601A (zh) | 齿轮箱错误类别标签修正系统及方法 | |
CN113158722A (zh) | 基于多尺度深度神经网络的旋转机械故障诊断方法 | |
CN113542241A (zh) | 一种基于CNN-BiGRU混合模型的入侵检测方法及装置 | |
CN114067915A (zh) | 一种基于深度对抗变分自编码器的scRNA-seq数据降维方法 | |
CN116400168A (zh) | 一种基于深度特征聚类的电网故障诊断方法及系统 | |
CN115905959B (zh) | 基于缺陷因子的电力断路器关联性故障分析方法及装置 | |
CN113839926A (zh) | 一种基于灰狼算法特征选择的入侵检测系统建模方法、系统及装置 | |
CN117171702A (zh) | 一种基于深度学习的多模态电网故障检测方法和系统 | |
CN116720095A (zh) | 一种基于遗传算法优化模糊c均值的电特性信号聚类方法 | |
CN114978586B (zh) | 一种基于攻击基因的电网攻击检测方法、系统和电子设备 | |
CN111915595A (zh) | 图像质量评价方法、图像质量评价模型的训练方法和装置 | |
CN115664814A (zh) | 网络入侵检测方法、装置、电子设备及存储介质 | |
Schrunner et al. | A comparison of supervised approaches for process pattern recognition in analog semiconductor wafer test data | |
CN117236572B (zh) | 一种基于数据分析的干粉灭火设备性能评估方法及系统 | |
CN116232761B (zh) | 基于shapelet的网络异常流量检测方法及系统 | |
CN116451131A (zh) | 一种基于自监督时间卷积网络的雷达脉冲序列识别方法 | |
CN116975742A (zh) | 局部放电模式识别方法、装置、设备和存储介质 | |
CN112014821B (zh) | 一种基于雷达宽带特征的未知车辆目标识别方法 | |
CN112001449A (zh) | 一种船舶电力系统故障识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |