Nothing Special   »   [go: up one dir, main page]

CN109308306B - 一种基于孤立森林的用户用电异常行为检测方法 - Google Patents

一种基于孤立森林的用户用电异常行为检测方法 Download PDF

Info

Publication number
CN109308306B
CN109308306B CN201811151326.9A CN201811151326A CN109308306B CN 109308306 B CN109308306 B CN 109308306B CN 201811151326 A CN201811151326 A CN 201811151326A CN 109308306 B CN109308306 B CN 109308306B
Authority
CN
China
Prior art keywords
data
power consumption
user
trend
electricity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811151326.9A
Other languages
English (en)
Other versions
CN109308306A (zh
Inventor
张程
曹宇佳
田野
杨璨宇
古平
陈自郁
陈柯芯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201811151326.9A priority Critical patent/CN109308306B/zh
Publication of CN109308306A publication Critical patent/CN109308306A/zh
Application granted granted Critical
Publication of CN109308306B publication Critical patent/CN109308306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于孤立森林的用户用电异常行为检测方法,包括如下步骤:S1、通过数据采集方式获得用电时序数据;S2、对数据进行清洗,以将残缺数据、错误数据、重复数据清除;S3、基于统计的特征提取;S4、数据预处理;S5、对矩阵YM×K进行归一化处理得到新矩阵YM×K';S6、采用孤立森林模型判断出是用电异常还是用电正常:S61、从新矩阵YM×K中提取,每个用户提取ψ个统计特征,设iTree树的数量t,yij是新矩阵YM×K中第i行第j列元素;S62、计算出yij的异常分值s(yij,ψ);S63、判断s(yij,ψ)是否小于1‑Δe,Δe为0.22~0.07范围内的常数;若是,则为用电异常;若否,则用电正常。基于孤立森林的用户用电异常行为检测方法解决现有技术中因没有对数据进行处理导致后续运算较大而导致分析计算运行时间长的问题。

Description

一种基于孤立森林的用户用电异常行为检测方法
技术领域
本发明涉及用电监测领域,具体涉及一种基于孤立森林的用户用电异常行为检测方 法。
背景技术
较早期的用电异常监测办法是确定各个用电异常指标,确定每个异常指标的阈值,并 对各个异常指标赋予不同的权重分值,累加后计算每个用户的窃电嫌疑系数。一般的用电 异常指标简要来讲分为线损异常和瞬时量异常两类。根据这些异常设计窃电识别模型,通 过计算嫌疑系数来识别窃电用户。
然而对于这类设备故障及用户用电异常指标的检测,早期多采用的是现场检测方法, 即技术人员到用电现场进行排查。这种处理方式极其耗费人力物力资源,效率低、效果差, 即使部分地区实现了集中抄表也只能监测到日用电量,而无法获取到计量装置的电压、电 流、功率等瞬时量数据。同时,这种方式还存在极大的人为因素,不利于电力行业的管理。
中国专利公开了一种申请号为CN201810104000.4的基于模糊神经网络的用电异常行 为识别方法,从用电数据库中抽取部分用户的原始数据作为样本数据;进行数据预处理; 在分析历史用电异常行为案例的基础上,设计用电异常行为评价指标体系;利用预处理后 的数据构建专家样本;以异常用电行为标志为输入项,以异常用电嫌疑系数为输出项,构 建模糊神经网络模型;将测试数据输入所构建的模糊神经网络模型,进行异常用电行为诊 断;对异常用电诊断结果做出评价,设定目标评价,优化模型。本发明实现了用电异常行 为的自动化识别诊断,利用模糊神经网络的方法,实现了系统的自动训练学习和建模,达 到快速又精准的定位嫌疑用户,为获取各种异常用电的违规行为提供的便利。但是由于没 有对数据进行处理导致后续运算较大,运行时间长,极易导致当机现象发生。
发明内容
本发明要提供一种基于孤立森林的用户用电异常行为检测方法,解决现有技术中因没 有对数据进行处理导致后续运算较大而导致分析计算运行时间长的问题。
为实现上述目的,本发明采用了如下的技术方案:
一种基于孤立森林的用户用电异常行为检测方法,包括如下步骤:
S1、通过数据采集方式获得用电时序数据;
S2、对数据进行清洗,以将残缺数据、错误数据、重复数据清除;
S3、基于统计的特征提取:
S31、数据定义:S311、令数据集为X={xn},n取1至N,数据集中包含N个日常 用电用户,每个用户划分为D天、M个月、Q个季度的用电数据;S312、每个用户的日用 电量序列:xn={xnd},d取1至D;S313、每个用户的月用电量序列:yn={ynm},m取1 至M,
Figure BDA0001818021820000021
S114、每个用户的季度用电量序列:zn={znq},q取1至Q,
Figure BDA0001818021820000022
S32、对用户用电行为特征在时间上以年、季度、月份为单位划分,并计算每个用户的单位时间均值、标准差和离散系数序列,即是计算:每个用户的全年用电量标准差D1、每个用户的全年用电量离散系数D2、每季度用电量标准差D3~D6、每季度用电量离散系 数D7~D10、每月用电量标准差D11~D21、每月用电量离散系数D22~D32、每月平均 用电量上升下降趋势D33~D41、相邻两月用电均值之差和比值的最大值D42~D43、相邻 两月用电均值之差和比值的最小值D44~D45、相邻季度用电均值之差和比值的最大值 D46~D47、相邻季度用电均值之差和比值的最小值D48~D49,其中,D1~D49为统计特 征;
S4、数据预处理:假设将原始数据用于基于统计特征的方式处理后形成有n维向量的 M个样本值,M表示用户个数,N表示每个用户提取的统计特征的个数,并令其为一个 M×N的矩阵X,矩阵X中xmn表示第M个用户第N个统计特征的具体值;通过预处理模 型将矩阵X降为M×K的矩阵YM×K,K<N;
S5、采用孤立森林模型判断出是用电异常还是用电正常:
S51、从新矩阵YM×K中提取,每个用户提取ψ个统计特征,设iTree树的数量t,yij是新矩阵YM×K中第i行第j列元素;
S52、检测的过程就是让每个用户的统计特征值yij遍历每一棵iTree树,然后计算遍 历过程中yij经过每棵iTree树的路径长度h(yij),最后根据所有的路径长度计算出yij的异 常分值s(yij,ψ),计算公式为:
Figure BDA0001818021820000031
Figure BDA0001818021820000032
其中,c(ψ)用于计算二叉搜索树的平均路径长度,作用是对结果进行归一化处理;H(ψ)的计算方式是:
Figure BDA0001818021820000033
γ是欧拉常数;E(h(yij))为yij在孤立森林中所有iTree树的平均路径长度;
S53、判断s(yij,ψ)是否小于1-Δe,Δe为0.22~0.07范围内的常数;若是,则为用电异常;若否,则用电正常。
相比于现有技术,本发明具有如下有益效果:
通过实现统计特征提取,获得了有效的数据;通过实现降维处理,减少了运算数据, 提高了运算速度,避免了当机现象的发生,同时通过条件选取,保证了运算数据具有代表 性,表面了因为选取一些统计特征进行计算而导致出现漏判现象出现,保证了判断结果的 精度。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发 明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为孤立森林模型的算法实现过程图;
图2为自动编码器网络结构图;
图3为自动编码器的ReLU激活函图像图;
图4为自动编码器的训练优化函数算法实现图;
图5为深层自动编码器网络结构图;
图6利用keras工具建立的自动编码器网络结构;
图7为利用keras工具建立的深层自动编码器网络结构。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与作用更加清楚及易于了解,下 面结合附图和具体实施方式对本发明作进一步阐述:
实施例1:
一种基于孤立森林的用户用电异常行为检测方法,包括如下步骤:
S1、通过数据采集方式获得用电时序数据;
S2、对数据进行清洗,以将残缺数据、错误数据、重复数据清除;
S3、基于统计的特征提取:
S31、数据定义:S311、令数据集为X={xn},n取1至N,数据集中包含N个日常 用电用户,每个用户划分为D天、M个月、Q个季度的用电数据;S312、每个用户的日用 电量序列:xn={xnd},d取1至D;S313、每个用户的月用电量序列:yn={ynm},m取1 至M,
Figure BDA0001818021820000041
S114、每个用户的季度用电量序列:zn={znq},q取1至Q,
Figure BDA0001818021820000042
S32、对用户用电行为特征在时间上以年、季度、月份为单位划分,并计算每个用户的单位时间均值、标准差和离散系数序列,即是计算:每个用户的全年用电量标准差D1、每个用户的全年用电量离散系数D2、每季度用电量标准差D3~D6、每季度用电量离散系 数D7~D10、每月用电量标准差D11~D21、每月用电量离散系数D22~D32、每月平均 用电量上升下降趋势D33~D41、相邻两月用电均值之差和比值的最大值D42~D43、相邻 两月用电均值之差和比值的最小值D44~D45、相邻季度用电均值之差和比值的最大值 D46~D47、相邻季度用电均值之差和比值的最小值D48~D49,其中,D1~D49为统计特 征;
S4、数据预处理:假设将原始数据用于基于统计特征的方式处理后形成有n维向量的 M个样本值,M表示用户个数,N表示每个用户提取的统计特征的个数,并令其为一个 M×N的矩阵X,矩阵X中xmn表示第M个用户第N个统计特征的具体值;通过预处理模 型将矩阵X降为M×K的矩阵YM×K,K<N;
S5、采用孤立森林模型判断出是用电异常还是用电正常:
S51、从新矩阵YM×K中提取,每个用户提取ψ个统计特征,设iTree树的数量t,yij是新矩阵YM×K中第i行第j列元素;
S52、检测的过程就是让每个用户的统计特征值yij遍历每一棵iTree树,然后计算遍 历过程中yij经过每棵iTree树的路径长度h(yij)(行走方式与孤立森林模型一样,没走一步计 量为1),最后根据所有的路径长度计算出yij的异常分值s(yij,ψ),计算公式为:
Figure BDA0001818021820000051
Figure BDA0001818021820000052
其中,c(ψ)用于计算二叉搜索树的平均路径长度,作用是对结果进行归一化处理;H(ψ)的计算方式是:
Figure BDA0001818021820000053
γ是欧拉常数;E(h(yij))为yij在孤立森林中所有iTree树的平均路径长度;
S53、判断s(yij,ψ)是否小于1-Δe,Δe为0.22~0.07范围内的常数;若是,则为用电异常;若否,则用电正常。
为了获得孤立森林模型,如图1所示,孤立森林模型的获得步骤包括:
S711、假设原始数据集用F表示,从数据集中随机选择F′个样本点作为子样本放入树的根 节点,
Figure BDA0001818021820000055
S712、随机选择一个维度q,在当前节点数据中随机产生一个分割点p,这个分割点p产生 于当前节点数据中指定维度q的最大值和最小值之间;
S713、以此分割点p生成一个超平面,然后将当前节点数据空间划分为2个子空间:把指 定维度里q<p的数据放入当前节点的左子树Fl,把q≥p的数据放入当前节点的右子树Fr;
S714、在子节点中递归步骤S712和S713,不断构造新的子树节点,直到子树节点中只有一 个数据或子树节点已到达限定高度,不再继续分割,得到t个iTree树。
本实施例中,预处理模型为PCA降维处理。
为了获得更多有效的统计特征,在步骤S12后还进行以下步骤:
S13、将用电走势分为变动趋势、波动趋势以及升降趋势三种趋势类型;
S14、计算变动趋势、波动趋势以及升降趋势:
S141、波动趋势:在统计中标准差被用来评估序列可能的变化或波动程度,标准差越大,数值波动的范围就越大;所以这里计算用电量标准差std来表示用电数据的波动趋势特征;同时,计算用电离散系数cv来衡量用户用电的离散程度,令某一时间段用电 平均值为μ,则:
用电量标准差:
Figure BDA0001818021820000054
用电离散系数:
cv=std/μ (2.2)
S142、变动趋势:变动趋势特征是指用户用电量的前后差异性度量,即由某一时间段与前一相邻时间段的平均用电量比较,其差值和比值来反映用电量变动的快慢程度,定义计算方式如下:
相邻k月或k季度用电均值的差值:
Figure BDA0001818021820000061
相邻k月或k季度用电均值的比值:
Figure BDA0001818021820000062
S143、升降趋势:升降趋势特征是指通过根据用户连续几日的用电量做出下一次用电量的预测,并与下一次实际用电量比较,得出上升或下降的可能性;这里使用简单移动平均法来确定升降趋势的特征向量;简单移动平均法根据时间序列逐项推移,依次计算固定项数的一组平均值,并作为下一次的预测值;令k为移动项数,t时刻实际值为xnt, 则升降趋势特征的计算方法:
t时刻预测值:
Ft=(xn(t-1)+xn(t-2)+…xn(t-k))/k (2.5)
t时刻升降趋势:
tr=xnt-Ft (2.6)
若tr<0,则表明用电趋势下降;若tr>0,则用电趋势上升;
其中,电量标准差std、电离散系数cv、相邻k月或k季度用电均值的差值avga、 相邻k月或k季度用电均值的比值avgb、t时刻升降趋势tr均为统计特征值。
优选的是,在步骤S2中PCA降维步骤如下:
S21、将X的每一列减去对应该列的均值,即将数据X的每一行特征进行零均值化,得到X’:
Figure BDA0001818021820000071
S22、计算X’协方差矩阵C,向量xi和xj的协方差,(3.1)式中,
Figure BDA0001818021820000072
Figure BDA0001818021820000073
Figure BDA0001818021820000074
S23、求出协方差矩阵C的N个特征值λ及每个特征值λ对应的特征向量V:
CV=λV (3.2)
S24、将所有特征值λ按照从大到小排列成一个队列{λ1,…,λi,…,λN},按 照特征值从大到小将特征向量V排列组成一个N*N的矩阵W,矩阵W中第i列的元素为 队列中第i个特征值λi对应的特征向量V的元素,并从矩阵W中取前K个特征值对应的 特征向量,得到一个N×K的矩阵AN×K
S25、根据公式3.3计算K,取满足3.3式的第一个K值:
Figure BDA0001818021820000075
S26、计算公式3.4,其中YM×K即为降维到k维后的新特征数据;
YM×K=XM×NAN×K (3.4)
1.算例介绍:实验数据来源于国家电网搜集到的2015年全年近10000个用户的每日用 电量数据表,,用户日用电量表记录了所有用户每日用电量千瓦时、当天及前一天的总用 电量表示值,每个用户拥有一组维度为334的时序数据。用户清单确定了用户标识信息, 提供了对应编号用户是否为用电异常用户的标识。
2.数据清洗:用户用电原始数据集中经过清洗处理后得到334个有效数据维度,其中 包含1394个异常用电行为用户和8562个未知用电行为用户,异常用户比例为14.00%。
3.数据预处理:
1)基于自动编码器的数据预处理:对清洗后的数据集做基于自动编码器和深度自编 码器两种方式的数据预处理。首先对数据进行归一化处理,将每一个特征维度数据表示在 [0,1]之间,然后根据设计的自编码器网络模型,利用基于TensorFlow的神经网络工具keras 建立两种自编码器的网络层结构,如图4所示。设置中间层的激活函数ReLU,训练优化 函数为adadelta,损失函数为binary_crossentropy,训练次数为100次。
通过建立的自动编码器和深度自编码器模型对数据做预处理,经过100次训练后,模 型趋于稳定,loss值分别达到0.0313和0.0311。
对原始数据预处理后,数据的维度压缩至32维。为了直观上的对基于自动编码器模 型的预处理方法的有效性和性能优劣进行测试,将预处理后的新数据集映射到如图6的二 维可视化平面下进行观察。
其中白色点代表无用电异常嫌疑用户,红色点代表确定有用电异常行为的用户。一方 面,可以看到图中大部分白色的数据点聚集于(0,0)区域附近,并向外有小部分扩散,而多 数红色的数据点向外扩散明显,存在偏离数据集中区域的趋势,表现出离群点的特性。另 一方面,相较于自动编码器模型,基于深度自编码器模型预处理的异常数据点呈现出更为 分散的分布,采用相似度函数(式7)定义的相似性度量函数来分析两类数据点,取α=0.1, 计算测得结果如表1所示。
Figure BDA0001818021820000081
其中dist为距离函数,当两个数据样本相似时,dist趋近于0,Lp=1;否则Lp趋近于 0。
表1自动编码器结果的相似性度量对比(α=0.1)
Figure BDA0001818021820000082
在该实验中dist计算采用欧氏距离方法计算同一类数据间的平均距离。从表中可以看 出,正常数据点的Lp值均远大于异常数据点的Lp值,得出正常用户相似程度高,表明分 布较为聚集,而异常用电行为用户间相距较远,表明数据分散较大。同时,对比自动编码器和深度自编码器预处理模型,可以看出深度自编码器模型训练出的正常用户数据Lp值更大更聚集,而异常用户数据Lp值更小更分散。因此,该部分实验中基于深度自编码器 的预处理方法相比传统自动编码器,应用于用电异常数据检测中效果表现会更好。
基于主成分分析方法的数据预处理:对清洗后的数据集做基于线性PCA的数据预处 理。得到的主成分按从大到小顺序排列,并选取前32个主成分对应的特征空间计算出新的特征维度,以便于比较分析。
该步骤分别建立基于线性PCA数据降维方法对原始数据做预处理,预处理后选择前 32个主成份对应的特征向量,将原数据映射到32维的新特征空间。选择前32个主成份的目的是将所有预处理方法的结果统一到同一个维度。
其中白色点代表无用电异常嫌疑用户,红色点代表确定有用电异常行为的用户。首先, 从图中可以看到基于PCA预处理后的数据都有从某一聚集点向外扩散的趋势,而且相对来 讲,白色数据点都相对聚集,红色数据点都相对更加分散。然后,从基于PCA预处理后的 图形来看,白色数据点与红色数据点仍有较大部分重合,可见该预处理方法对两类数据的 划分效果不明显。
采用公式(7)定义的相似性度量函数来分析两类数据点,取α=0.03,计算测得结果如 下表。
表2主成分分析结果的相似性度量对比(α=0.03)
Figure BDA0001818021820000091
在该实验中dist计算依然采用欧氏距离方法计算同一类数据间的平均距离。从表中可 以看出,基于PCA的方法达到了很好的效果。
孤立森林模型建立:对上述四种数据预处理方式所得出的新的数据集进行二维可视化 展现,对比不同预处理方法的效果。
接下来,针对孤立森林模型所采用的四种数据预处理方法,最终得出的对应混淆矩阵、 Precision-Recall指标及其P-R曲线图分别如表3、表4所示。
表3不同预处理方法下孤立森林模型的混淆矩阵结果
Figure BDA0001818021820000092
Figure BDA0001818021820000101
表4针对异常数据的Precision-Recall指标及整体精度
Figure BDA0001818021820000102
首先,从以上实验的混淆矩阵及Precision-Recall指标结果中可以看出,不同预处理模 型下基于孤立森林的异常检测模型都达到了较高的整体精度。同时,不同的数据预处理方 法选择对模型的检测效果影响也有差别。观察有异常用电行为的用户数据检测情况,可以 发现基于深度自编码器的模型异常检测Precision值和Recall值比基于自动编码器方法的指 标高0.07和0.14,效果上要优于自动编码器方法。而基于线性PCA的预处理方法在对模 型异常检测的性能提升上也比自动编码器方法要更好,Precision值和Recall值高0.05和 0.04,但是不及深度自编码器对模型异常检测的性能提升大。
实施例2:
本实施例与实施例1的区别仅在于:本实施例在实施例1的基础上仅对预处理模型进 行了改变,本实施例采用自动编码器。
首先,建立一个传统的单隐层自动编码器模型,它是一个全连接神经网络,如图2所 示。
图2中,模型的前半部分作为自动编码部分,后半部分作为自动解码部分。该模型将 从原始数据清洗处理后的334个特征维度同时作为输入和输出,即输入层的神经元个数和 输出层的神经元个数是一样的。这里把中间层的节点个数设置为32,少于输入层和输出层 的节点个数,起到数据压缩的作用。
接下来,为自动编码器模型配置相关参数。其中网络的中间层激活函数使用ReLU激 活函数,ReLU激活函数图形如图3所示,它的基本数学形式如下:
f(x)=max(0,wTx+b) (5.1)
对于非线性函数而言,相较于传统的sigmoid激活函数,首先ReLU由于非负区间的梯度为常数,因此应用在深度网络中不存在梯度消失和梯度爆炸问题,使得模型的收敛速度维持在一个稳定状态。然后,ReLU只需要一个阈值就可以得到激活值,而不用去算一 大堆复杂的运算,简化了计算过程。
模型的训练优化函数采用adadelta梯度下降函数,它是一种学习率自适应的优化方法, 在训练深度复杂网络的时候能够有更快的收敛速度。它的算法具体计算过程图4所示。
对模型选择的损失函数为binary_crossentropy,即对数损失函数,主要用来做极大似然 估计,它的计算公式如4.2所示。最后设定训练迭代次数为100次。
L(Y,P(Y|X))=-logP(Y|X) (5.2)
该软件算法实现如图6所示。
实施例3:
本实施例与实施例2的区别在于:本实施例仅在实施例2的基础上对自动编码器增加 了一个隐含层。
前一个自动编码器数据处理模型只建立了单个隐含层,这一次对待处理数据建立一个 更深层自编码模型,网络结构如图5所示:
基本配置参数与前一个模型配置相同,配置模型的训练优化函数为adadelta,损失函 数为binary_crossentropy,训练次数为100次,中间的编码层和解码层激活函数使用ReLU 激活函数。该软件算法如图7所示。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳 实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术 方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发 明的权利要求范围当中。

Claims (5)

1.一种基于孤立森林的用户用电异常行为检测方法,其特征在于,包括如下步骤:
S1、通过数据采集方式获得用电时序数据;
S2、对数据进行清洗,以将残缺数据、错误数据、重复数据清除;
S3、基于统计的特征提取:
S31、数据定义:S311、令数据集为X={xn},n取1至N,数据集中包含N个日常用电用户,每个用户划分为D天、M个月、Q个季度的用电数据;S312、每个用户的日用电量序列:xn={xnd},d取1至D;S313、每个用户的月用电量序列:yn={ynm},m取1至M,
Figure FDA0001818021810000011
S114、每个用户的季度用电量序列:zn={znq},q取1至Q,
Figure FDA0001818021810000012
S32、对用户用电行为特征在时间上以年、季度、月份为单位划分,并计算每个用户的单位时间均值、标准差和离散系数序列,即是计算:每个用户的全年用电量标准差D1、每个用户的全年用电量离散系数D2、每季度用电量标准差D3~D6、每季度用电量离散系数D7~D10、每月用电量标准差D11~D21、每月用电量离散系数D22~D32、每月平均用电量上升下降趋势D33~D41、相邻两月用电均值之差和比值的最大值D42~D43、相邻两月用电均值之差和比值的最小值D44~D45、相邻季度用电均值之差和比值的最大值D46~D47、相邻季度用电均值之差和比值的最小值D48~D49,其中,D1~D49为统计特征;
S4、数据预处理:假设将原始数据用于基于统计特征的方式处理后形成有n维向量的M个样本值,M表示用户个数,N表示每个用户提取的统计特征的个数,并令其为一个M×N的矩阵X,矩阵X中xmn表示第M个用户第N个统计特征的具体值;通过预处理模型将矩阵X降为M×K的矩阵YM×K,K<N;
S5、采用孤立森林模型判断出是用电异常还是用电正常:
S51、从新矩阵YM×K中提取,每个用户提取ψ个统计特征,设iTree树的数量t,yij是新矩阵YM×K中第i行第j列元素;
S52、检测的过程就是让每个用户的统计特征值yij遍历每一棵iTree树,然后计算遍历过程中yij经过每棵iTree树的路径长度h(yij),最后根据所有的路径长度计算出yij的异常分值s(yij,ψ),计算公式为:
Figure FDA0001818021810000021
Figure FDA0001818021810000022
其中,c(ψ)用于计算二叉搜索树的平均路径长度,作用是对结果进行归一化处理;H(ψ)的计算方式是:
Figure FDA0001818021810000023
γ是欧拉常数;E(h(yij))为yij在孤立森林中所有iTree树的平均路径长度;
S53、判断s(yij,ψ)是否小于1-Δe,Δe为0.22~0.07范围内的常数;若是,则为用电异常;若否,则用电正常。
2.根据权利要求1所述的一种基于孤立森林的用户用电异常行为检测方法,其特征在于,孤立森林模型的获得步骤包括:
S711、假设原始数据集用F表示,从数据集中随机选择F′个样本点作为子样本放入树的根节点,
Figure FDA0001818021810000024
S712、随机选择一个维度q,在当前节点数据中随机产生一个分割点p,这个分割点p产生于当前节点数据中指定维度q的最大值和最小值之间;
S713、以此分割点p生成一个超平面,然后将当前节点数据空间划分为2个子空间:把指定维度里q<p的数据放入当前节点的左子树Fl,把q≥p的数据放入当前节点的右子树Fr;
S714、在子节点中递归步骤S712和S713,不断构造新的子树节点,直到子树节点中只有一个数据或子树节点已到达限定高度,不再继续分割,得到t个iTree树。
3.根据权利要求1所述的一种基于孤立森林的用户用电异常行为检测方法,其特征在于,在步骤S4中,预处理模型为自动编码器、深层自动编码器或PCA降维处理。
4.根据权利要求3所述的一种基于孤立森林的用户用电异常行为检测方法,其特征在于,在步骤S12后还进行以下步骤:
S13、将用电走势分为变动趋势、波动趋势以及升降趋势三种趋势类型;
S14、计算变动趋势、波动趋势以及升降趋势:
S141、波动趋势:在统计中标准差被用来评估序列可能的变化或波动程度,标准差越大,数值波动的范围就越大;所以这里计算用电量标准差std来表示用电数据的波动趋势特征;同时,计算用电离散系数cv来衡量用户用电的离散程度,令某一时间段用电平均值为μ,则:
用电量标准差:
Figure FDA0001818021810000031
用电离散系数:
cv=std/μ (2.2)
S142、变动趋势:变动趋势特征是指用户用电量的前后差异性度量,即由某一时间段与前一相邻时间段的平均用电量比较,其差值和比值来反映用电量变动的快慢程度,定义计算方式如下:
相邻k月或k季度用电均值的差值:
Figure FDA0001818021810000032
相邻k月或k季度用电均值的比值:
Figure FDA0001818021810000033
S143、升降趋势:升降趋势特征是指通过根据用户连续几日的用电量做出下一次用电量的预测,并与下一次实际用电量比较,得出上升或下降的可能性;这里使用简单移动平均法来确定升降趋势的特征向量;简单移动平均法根据时间序列逐项推移,依次计算固定项数的一组平均值,并作为下一次的预测值;令k为移动项数,t时刻实际值为xnt,则升降趋势特征的计算方法:
t时刻预测值:
Ft=(xn(t-1)+xn(t-2)+…+xn(t-k))/k (2.5)
t时刻升降趋势:
tr=xnt-Ft (2.6)
若tr<0,则表明用电趋势下降;若tr>0,则用电趋势上升;
其中,电量标准差std、电离散系数cv、相邻k月或k季度用电均值的差值avga、相邻k月或k季度用电均值的比值avgb、t时刻升降趋势tr均为统计特征值。
5.根据权利要求4所述的一种基于孤立森林的用户用电异常行为检测方法,其特征在于,在步骤S2中PCA降维步骤如下:
S21、将X的每一列减去对应该列的均值,即将数据X的每一行特征进行零均值化,得到X’:
Figure FDA0001818021810000041
S22、计算X’协方差矩阵C,向量xi和xj的协方差,(3.1)式中,
Figure FDA0001818021810000042
Figure FDA0001818021810000043
Figure FDA0001818021810000044
S23、求出协方差矩阵C的N个特征值λ及每个特征值λ对应的特征向量V:
CV=λV (3.2)
S24、将所有特征值λ按照从大到小排列成一个队列{λ1,…,λi,…,λN},按照特征值从大到小将特征向量V排列组成一个N*N的矩阵W,矩阵W中第i列的元素为队列中第i个特征值λi对应的特征向量V的元素,并从矩阵W中取前K个特征值对应的特征向量,得到一个N×K的矩阵AN×K
S25、根据公式3.3计算K,取满足3.3式的第一个K值:
Figure FDA0001818021810000045
S26、计算公式3.4,其中YM×K即为降维到k维后的新特征数据;
YM×K=XM×NAN×K (3.4)。
CN201811151326.9A 2018-09-29 2018-09-29 一种基于孤立森林的用户用电异常行为检测方法 Active CN109308306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811151326.9A CN109308306B (zh) 2018-09-29 2018-09-29 一种基于孤立森林的用户用电异常行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811151326.9A CN109308306B (zh) 2018-09-29 2018-09-29 一种基于孤立森林的用户用电异常行为检测方法

Publications (2)

Publication Number Publication Date
CN109308306A CN109308306A (zh) 2019-02-05
CN109308306B true CN109308306B (zh) 2021-07-06

Family

ID=65224976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811151326.9A Active CN109308306B (zh) 2018-09-29 2018-09-29 一种基于孤立森林的用户用电异常行为检测方法

Country Status (1)

Country Link
CN (1) CN109308306B (zh)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723338A (zh) * 2019-03-18 2020-09-29 京东数字科技控股有限公司 一种检测方法和检测设备
CN110135614A (zh) * 2019-03-26 2019-08-16 广东工业大学 一种基于异常值检测和抽样技术的10kV配变低压跳闸预测方法
CN109977107B (zh) * 2019-04-02 2022-04-05 电子科技大学 一种用电采集数据清洗方法
CN109948738B (zh) * 2019-04-11 2021-03-09 合肥工业大学 涂装烘干室的能耗异常检测方法、装置
CN110149258A (zh) * 2019-04-12 2019-08-20 北京航空航天大学 一种基于孤立森林的汽车can总线网络数据异常检测方法
CN110188799A (zh) * 2019-04-29 2019-08-30 国网上海市电力公司 一种计量数据多维分析与智能运维方法
WO2020237540A1 (zh) * 2019-05-29 2020-12-03 西门子股份公司 电网用户分类方法、装置和计算机可读存储介质
CN110288383B (zh) * 2019-05-31 2024-02-02 国网上海市电力公司 基于用户属性标签的群体行为配电网用电异常检测方法
CN110243599B (zh) * 2019-07-02 2020-05-05 西南交通大学 多维离群列车动车组轴箱轴承温度异常状态监测方法
CN110502883B (zh) * 2019-08-23 2022-08-19 四川长虹电器股份有限公司 一种基于pca的击键行为异常检测方法
CN110852860B (zh) * 2019-11-15 2024-11-08 北京优途豪程汽车科技发展有限公司 车辆维修报销行为异常检测方法、设备及存储介质
CN110929643B (zh) * 2019-11-21 2022-04-26 西北工业大学 一种基于多特征和孤立树的高光谱异常检测方法
CN111062590A (zh) * 2019-12-02 2020-04-24 深圳供电局有限公司 用电异常行为检测方法、装置、计算机设备和存储介质
CN111008662B (zh) * 2019-12-04 2023-01-10 贵州电网有限责任公司 一种输电线路在线监测数据异常分析方法
CN111160647B (zh) * 2019-12-30 2023-08-22 第四范式(北京)技术有限公司 一种洗钱行为预测方法及装置
CN111275576A (zh) * 2020-01-19 2020-06-12 烟台海颐软件股份有限公司 一种电价执行异常用户的识别方法及识别系统
CN111612037B (zh) * 2020-04-24 2024-06-21 平安直通咨询有限公司上海分公司 异常用户检测方法、装置、介质及电子设备
CN112215386A (zh) * 2020-05-11 2021-01-12 北京明略软件系统有限公司 一种人员活跃度预测方法、装置和计算机可读存储介质
CN111861785A (zh) * 2020-06-12 2020-10-30 国网浙江省电力有限公司电力科学研究院 一种基于用电特征与离群点检测的专变行业错户识别方法
CN111767951A (zh) * 2020-06-29 2020-10-13 上海积成能源科技有限公司 一种居民用电安全分析中应用孤立森林算法发现异常数据的方法
CN111931834B (zh) * 2020-07-31 2023-05-02 广东工业大学 基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质
CN112561251B (zh) * 2020-11-30 2022-10-25 广东电网有限责任公司广州供电局 配电网异常点检测方法、装置、计算机设备及存储介质
CN112668614B (zh) * 2020-12-11 2022-11-01 浙江成功软件开发有限公司 一种反洗钱研判方法
CN112633412B (zh) * 2021-01-05 2024-05-14 南方电网数字平台科技(广东)有限公司 异常用电检测方法、设备及存储介质
CN112821556B (zh) * 2021-01-19 2023-04-07 深圳市迅捷光通科技有限公司 一种电力检测控制系统及方法
CN112906744B (zh) * 2021-01-20 2023-08-04 湖北工业大学 一种基于孤立森林算法的故障单体电池识别方法
CN113128567A (zh) * 2021-03-25 2021-07-16 云南电网有限责任公司 一种基于用电量数据的异常用电行为识别方法
CN112966163A (zh) * 2021-03-31 2021-06-15 国家电网有限公司华东分部 电力用户用电费用的审计方法、系统及电子设备
CN113469235B (zh) * 2021-06-24 2024-04-26 珠海卓邦科技有限公司 用水波动异常识别方法及装置、计算机装置及存储介质
CN113420816B (zh) * 2021-06-24 2024-09-06 北京市生态环境监测中心 一种针对全光谱水质监测设备的数据异常值确定方法
CN113496440B (zh) * 2021-06-28 2023-12-12 国网上海市电力公司 一种用户异常用电检测方法及系统
CN113902581B (zh) * 2021-08-04 2024-07-12 广西电网有限责任公司 一种基于深度自编码器高斯混合模型的用电异常检测方法
CN114168583A (zh) * 2021-12-15 2022-03-11 国网福建省电力有限公司营销服务中心 一种基于正则自动编码器的电量数据清洗方法及系统
CN114755002B (zh) * 2022-04-06 2023-05-30 燕山大学 一种基于全连接神经网络的缓冲平衡阀故障诊断方法
CN114495137B (zh) * 2022-04-15 2022-08-02 深圳高灯计算机科技有限公司 票据异常检测模型生成方法与票据异常检测方法
CN115099291B (zh) * 2022-08-29 2022-11-11 同方德诚(山东)科技股份公司 一种建筑节能监测方法
CN116645097B (zh) * 2023-03-30 2024-08-23 广东盛迪嘉电子商务股份有限公司 一种支付清算平台监控预警系统
CN116304962B (zh) * 2023-05-25 2023-08-04 湖南东润智能仪表有限公司 一种用于水表计量数据的智能异常监测方法
CN116611000B (zh) * 2023-07-17 2023-10-24 东营市恒盛农业科技有限公司 基于机器学习的大闸蟹养殖环境智能监测系统
CN117312997B (zh) * 2023-11-21 2024-03-08 乾程电力有限公司 一种电力管理系统智能诊断方法及系统
CN117349764B (zh) * 2023-12-05 2024-02-27 河北三臧生物科技有限公司 一种干细胞诱导数据智能分析方法
CN117786587B (zh) * 2024-02-28 2024-06-04 国网河南省电力公司经济技术研究院 基于数据分析的电网数据质量异常诊断方法
CN118445273A (zh) * 2024-07-08 2024-08-06 伽利略(天津)技术有限公司 基于大数据的智能运维监控系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657288A (zh) * 2017-10-26 2018-02-02 国网冀北电力有限公司 一种基于孤立森林算法的电力调度流数据异常检测方法
US10045218B1 (en) * 2016-07-27 2018-08-07 Argyle Data, Inc. Anomaly detection in streaming telephone network data
CN108494747A (zh) * 2018-03-08 2018-09-04 上海观安信息技术股份有限公司 流量异常检测方法、电子设备及计算机程序产品

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10045218B1 (en) * 2016-07-27 2018-08-07 Argyle Data, Inc. Anomaly detection in streaming telephone network data
CN107657288A (zh) * 2017-10-26 2018-02-02 国网冀北电力有限公司 一种基于孤立森林算法的电力调度流数据异常检测方法
CN108494747A (zh) * 2018-03-08 2018-09-04 上海观安信息技术股份有限公司 流量异常检测方法、电子设备及计算机程序产品

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
An Improved Data Anomaly Detection Method Based on Isolation Forest;Dong Xu等;《IEEE》;20180208;全文 *
Isolation Forest;Fei Tony Liu等;《IEEE》;20090210;全文 *
张荣昌.基于数据挖掘的用电数据异常的分析与研宄.《中国优秀硕士学位论文全文数据库》.2018, *

Also Published As

Publication number Publication date
CN109308306A (zh) 2019-02-05

Similar Documents

Publication Publication Date Title
CN109308306B (zh) 一种基于孤立森林的用户用电异常行为检测方法
CN110263846B (zh) 基于故障数据深度挖掘及学习的故障诊断方法
CN108805202B (zh) 一种用于电解槽故障预警的机器学习方法及其应用
CN115276006A (zh) 一种用于电力集成系统的负荷预测的方法及系统
US10496730B2 (en) Factor analysis device, factor analysis method, and factor analysis program
CN107065843A (zh) 基于独立子空间的多方向kica间歇过程故障监测方法
CN108491991B (zh) 基于工业大数据产品工期的约束条件分析系统与方法
CN113255777B (zh) 基于多模态敏感特征选取融合的设备故障预警方法及系统
CN109947815B (zh) 一种基于离群点算法的窃电辨识方法
CN114841268B (zh) 基于Transformer和LSTM融合算法的异常电力客户识别方法
CN104536996B (zh) 一种同构环境下计算节点异常检测方法
CN111612149A (zh) 一种基于决策树的主网线路状态检测方法、系统及介质
CN111898637B (zh) 一种基于ReliefF-DDC特征选择算法
CN117171702A (zh) 一种基于深度学习的多模态电网故障检测方法和系统
Liao et al. Assessing neural network representations during training using noise-resilient diffusion spectral entropy
CN117671393B (zh) 一种电气机械设备的故障监测方法及系统
CN117994026A (zh) 一种基于大数据的金融风险智能分析方法
CN109214268B (zh) 一种基于集成流形学习的填料塔液泛状态在线监测方法
CN114399407B (zh) 一种基于动静态选择集成的电力调度监控数据异常检测方法
Gogebakan et al. Mixture model clustering using variable data segmentation and model selection: a case study of genetic algorithm
Wang Employee Salaries Analysis and Prediction with Machine Learning
CN116956089A (zh) 电器设备温度异常检测模型训练方法以及检测方法
CN118296565B (zh) 基于数据挖掘的动力电池事故溯源管控系统
Sumalatha et al. Real Time Big Data Analytics for Agricultural Land Hotspot Prediction
Forsgren et al. Predicting Battery Lifetime Based on Early Cycling Data: Using a machine learning approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant