CN105808900B

CN105808900B - 确定待评估用户是否有窃漏电嫌疑的方法和装置

Info

Publication number: CN105808900B
Application number: CN201410837414.XA
Authority: CN
Inventors: 刘泉斌; 李晶
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2014-12-29
Filing date: 2014-12-29
Publication date: 2019-12-31
Anticipated expiration: 2034-12-29
Also published as: CN105808900A

Abstract

本发明提供了一种确定待评估用户是否有窃漏电嫌疑的方法和装置。该方法包括：根据待评估用户历史上的用电数据，获取待评估用户历史用电数据曲线；在预定义的用户类别集合中确定待评估用户的类别；根据确定的待评估用户的类别，在预定义的第一标准用电数据曲线集合中查找与该待评估用户的类别对应的第一标准用电数据曲线；基于获取的待评估用户历史用电数据曲线和查找到的第一标准用电数据曲线，计算获取的待评估用户历史用电数据曲线与查找到的第一标准用电数据曲线的第一相似度；根据计算出的第一相似度，确定待评估用户是否有窃漏电嫌疑。本发明实施例实现了快速、准确地锁定有窃漏电嫌疑的用户。

Description

确定待评估用户是否有窃漏电嫌疑的方法和装置

技术领域

本发明涉及电力安全领域，尤其涉及一种确定待评估用户是否有窃漏电嫌疑的方法和装置。

背景技术

窃电是一种盗窃国家、供电企业和他人财物的违法行为。由于目前窃漏电手段越来越层出不穷，且做法隐蔽，很难找到一种有效的、普适性的反窃电措施。

发明内容

有鉴于此，本发明的一个实施例解决的问题之一是提供一种快速确定待评估用户是否有窃漏电嫌疑的方法，能够快速、准确地锁定有窃漏电嫌疑的用户。

根据本发明的一个实施例，提供了一种确定待评估用户是否有窃漏电嫌疑的方法，包括：根据待评估用户历史上的用电数据，获取待评估用户历史用电数据曲线；在预定义的用户类别集合中确定待评估用户的类别，其中预定义的类别集合中的每一类别对应于预定义第一标准用电数据曲线集合中的一条第一标准用电数据曲线，第一标准用电数据曲线集合是按如下方式预定义的：对多个样本用户的历史用电数据曲线进行聚类，并对聚成的每一类，基于属于该类下的样本用户的历史用电数据曲线，获得一条该类的第一标准用电数据曲线，放入第一标准用电数据曲线集合中，其中，聚成的每一类用户具有行业共性；根据确定的待评估用户的类别，在预定义第一标准用电数据曲线集合中查找与该待评估用户的类别对应的第一标准用电数据曲线；基于获取的待评估用户历史用电数据曲线和查找到的第一标准用电数据曲线，计算获取的待评估用户历史用电数据曲线与查找到的第一标准用电数据曲线的第一相似度；根据计算出的第一相似度，确定待评估用户是否有窃漏电嫌疑。

可选地，根据计算出的第一相似度确定待评估用户是否有窃漏电嫌疑的步骤包括：如果第一相似度小于第一阈值，则认为待评估用户有窃漏电嫌疑。

可选地，该方法还包括：根据确定的待评估用户的类别，在预定义第二标准用电数据曲线集合中查找属于该类别的窃漏电用户的第二标准用电数据曲线，第二标准用电数据曲线集合是按如下方式预定义的：对预定义的第一标准用电数据曲线集合的过程中聚成的每一类，基于属于该类下的预先已知为窃漏电用户的用电数据曲线，获得该类的第二标准用电数据曲线，放入第二标准用电数据曲线集合中；基于获取的待评估用户历史用电数据曲线和查找到的第二标准用电数据曲线，计算获取的待评估用户历史用电数据曲线与查找到的第二标准用电数据曲线的第二相似度。根据计算出的第一相似度确定待评估用户是否有窃漏电嫌疑的步骤还包括：根据计算出的第一相似度和第二相似度，确定待评估用户是否有窃漏电嫌疑。

可选地，根据计算出的第一相似度和第二相似度确定待评估用户是否有窃漏电嫌疑的步骤还包括：如果第一相似度小于第一阈值且第二相似度大于第二阈值，则认为待评估用户有窃漏电嫌疑。

可选地，在预定义第一标准用电数据曲线集合的过程中，对聚成的每一类，求该类下的历史用电数据曲线的平均曲线，作为该类的第一标准用电数据曲线。

可选地，在预定义第二标准用电数据曲线集合的过程中，对聚成的每一类，求该类下的预先已知为窃漏电用户的用电数据曲线的平均曲线，作为该类的第二标准用电数据曲线。

根据本发明的一个实施例，提供了一种确定待评估用户是否有窃漏电嫌疑的装置，包括：获取单元，被配置为根据待评估用户历史上的用电数据，获取待评估用户历史用电数据曲线；确定单元，被配置为在预定义的用户类别集合中确定待评估用户的类别，其中预定义的类别集合中的每一类别分别对应于预定义的第一标准用电数据曲线集合中的一条第一标准用电数据曲线，第一标准用电数据曲线集合是按如下方式预定义的：对多个样本用户的历史用电数据曲线进行聚类，并对聚成的每一类，基于属于该类下的样本用户的历史用电数据曲线，获得一条该类的第一标准用电数据曲线，放入第一标准用电数据曲线集合中；第一查找单元，被配置为根据确定的待评估用户的类别，查找预定义第一标准用电数据曲线集合中与该待评估用户的类别对应的第一标准用电数据曲线；第一计算单元，被配置为基于获取的待评估用户历史用电数据曲线和查找到的第一标准用电数据曲线，计算获取的待评估用户历史用电数据曲线与查找到的第一标准用电数据曲线的第一相似度；评估单元，被配置为根据计算出的第一相似度，确定待评估用户是否有窃漏电嫌疑。

可选地，评估单元进一步被配置为：如果第一相似度小于第一阈值，则认为待评估用户有窃漏电嫌疑。

可选地，该装置还包括：第二查找单元,被配置为根据确定的待评估用户的类别，在预定义第二标准用电数据曲线集合中查找属于该类别的窃漏电用户的第二标准用电数据曲线，第二标准用电数据曲线集合是按如下方式预定义的：对预定义的第一标准用电数据曲线集合的过程中聚成的每一类，基于属于该类下的预先已知为窃漏电用户的用电数据曲线，获得该类的第二标准用电数据曲线，放入第二标准用电数据曲线集合中；第二计算单元,被配置为基于获取的待评估用户历史用电数据曲线和查找到的第二标准用电数据曲线，计算获取的待评估用户历史用电数据曲线与查找到的第二标准用电数据曲线的第二相似度,且评估单元进一步被配置为：根据计算出的第一相似度和第二相似度，确定待评估用户是否有窃漏电嫌疑。

可选地，评估单元进一步被配置为：如果第一相似度小于第一阈值且第二相似度大于第二阈值，则认为待评估用户有窃漏电嫌疑。

由于本发明的发明人意识到，不同类别(例如不同行业)的用户具有不同的特点，如果对不同类别的用户的用电数据不加区分，很难仅从待评估用户的用电数据或用电曲线准确地确定出待评估用户是否有窃漏电嫌疑。而且本发明实施例的这种用户的类别不是指定的，而是对实际的多个样本用户的历史用电数据曲线进行聚类得到的。这样，将获取的待评估用户历史用电数据曲线与根据该类别查找到的聚类得到的第一标准用电数据曲线进行对比，就能够保证作为对比的基础的曲线的客观性，从而进一步提高了锁定有窃漏电嫌疑的用户的精确度。

另外，为了进一步提高锁定有窃漏电嫌疑的用户的精确度，本发明的另一实施例还根据待评估用户的类别查找该类别的窃漏电用户的第二标准用电数据曲线，并根据待评估用户历史用电数据曲线与第一标准用电数据曲线的对比以及与第二标准用电数据曲线的对比两者来综合判断待评估用户是否有窃漏电嫌疑。这样，当仅根据该类别的通常用户的标准用电数据曲线不容易判断待评估用户是否有窃漏电嫌疑时，由于在一个类别内，窃漏电用户的用电数据曲线一般都很象，通过这种方式进一步提高了锁定有窃漏电嫌疑的用户的精确度。

附图说明

本发明的其它特点、特征、优点和益处通过以下结合附图的详细描述将变得更加显而易见。

图1示出了根据本发明一个实施例的确定待评估用户是否有窃漏电嫌疑的方法的流程图。

图2示出了根据本发明另一个实施例的确定待评估用户是否有窃漏电嫌疑的方法的流程图。

图3示出了根据本发明一个实施例的一条待评估用户历史用电数据曲线和相应的第一、第二标准用电数据曲线的示意图。

图4示出了根据本发明一个实施例的确定待评估用户是否有窃漏电嫌疑的装置的框图。

图5示出了根据本发明另一个实施例的确定待评估用户是否有窃漏电嫌疑的装置的框图。

图6示出了根据本发明一个实施例的确定待评估用户是否有窃漏电嫌疑的设备的框图。

具体实施方式

下面，将结合附图详细描述本发明的各个实施例。

图1示出了根据本发明一个实施例的确定待评估用户是否有窃漏电嫌疑的方法1的流程图。这里的用户是指使用电力公司提供的电力的人、单位。由于单位用户的窃漏电行为对社会财富的影响更大，而且单位用户由于所在的行业等不同，容易表现出一些在某一或某些行业内共性的特点，使用后述的根据用户的类别查找该类别的用户的第一标准用电数据曲线的方法效果更好，因此，本发明的实施例更适合于单位用户，但对个人用户也可应用。下述的举例中是以单位用户进行举例的。该确定待评估用户是否有窃漏电嫌疑的方法1可以用于电力公司等确定哪些待评估用户可能有窃漏电嫌疑的初查。在初查之后，电力公司可以采用一些例如收集证据的方式等来证明该用户是否有窃漏电行为。

在步骤S1中，根据待评估用户历史上的用电数据，获取待评估用户历史用电数据曲线。

用电数据是表征用户对电力的使用情况的数据。用电数据包括电量数据、负荷数据(功率数据)、报警数据、线损数据等。电量数据是表明用户使用的电量的数据。负荷数据是表明用户使用电力时实际负载的功率的数据。报警数据是表明用户使用电力时发生的异常情况的数据，包括电压缺相报警数据、电压断相报警数据、电流反极性报警数据等。线损数据是多个用户所公用的公用线路的线路损耗数据。一条公用线路下往往连到多个用户，只有其中一个用户发生窃漏电行为，该公用线路的线路损耗就增加。因此，线损增加时该公用线路连接的所有用户都有嫌疑。该指标属于大众指标，应用时要结合其它指标进行综合评判。

当用电数据是电量数据时，待评估用户历史上的用电数据例如指待评估用户历史上若干时间区间各自的用电电量，例如2014年11月每一天的待评估用户的用电电量、或2014年1-11月每个月的待评估用户的用电电量、或2001-2014年每年待评估用户的用电电量。待评估用户历史用电数据曲线就是以历史上的各时间区间为横轴、各时间区间的用电电量为纵轴确立各用电电量的坐标点，并将这些坐标点连接起来得到的曲线。例如，当图3中的t1-t5表示2014年7-11月每个月时，图3中的曲线C1就表示待评估用户在2014年7-11月每个月的用电电量曲线。

当待评估用户数据是负荷数据时，待评估用户历史上的用电数据例如指待评估用户历史上若干时间点各自的用电功率数据，例如2014年11月每一天上午10点钟的用电功率。待评估用户历史用电数据曲线就是以历史上的各时间点为横轴、各时间段的用电功率为纵轴确立各用电功率的坐标点，并将这些坐标点连接起来得到的曲线。例如，当图3中的t1-t5表示2014年11月1-5日每一天上午10点钟时，图3中的曲线C1就表示待评估用户在2014年11月1-5日每一天上午10点钟的用电功率。

当用电数据是电压缺相报警数据时，待评估用户历史上的用电数据例如指在待评估用户历史上哪些时间点发生过缺相报警。例如，考察2014年11月的整个月，在哪个时间点发生了缺相报警，该电压缺相报警数据即为1，在没有发生缺相报警的时间点的缺相报警数据为0。待评估用户历史用电数据曲线就是以历史上一段时间为横轴、在该段时间上发生缺相报警的点或部分纵坐标为1、其余部分纵坐标为0的一条曲线。当用电数据是电压断相报警数据、电流反极性报警数据等时，情况是类似的。

当待评估用户数据是线损数据时，待评估用户历史上的用电数据例如指待评估用户历史上若干时间区间所连接的公用线路的线损，例如2014年11月每一天待评估用户所连接的公用线路的线损。待评估用户历史用电数据曲线就是以历史上的各时间区间为横轴、各时间区间待评估用户所连接的公用线路的线损为纵轴确立各线损的坐标点，并将这些坐标点连接起来得到的曲线。例如，当图3中的t1-t5表示2014年7-11月每个月时，图3中的曲线C1就表示待评估用户在2014年7-11月每个月待评估用户所连接的公用线路的线损的曲线。

另外，在根据待评估用户历史上的用电数据获取待评估用户历史用电数据曲线时可以先对待评估用户历史上的用电数据进行预处理，然后基于预处理后的用电数据获取待评估用户历史用电数据曲线。预处理包括缺失值处理、异常值处理、节假日数据处理等。

缺失值处理指当待评估用户历史上的用电数据部分缺失时的处理。例如，按照缺失部分之前和之后的数据估计缺失的部分，并将缺失的部分补全。例如取缺失部分之前的若干个数据和缺失部分之后的若干个数据的平均值来补全缺失的部分。

异常值处理指当待评估用户历史上的用电数据出现异常的值时的处理。对于异常的值，不能简单地丢弃。例如可以采取提示专家进行判断，让专家判断是否丢弃该数据并接受专家的反馈的方式来处理异常值。

节假日数据处理指对待评估用户历史上的节假日的用电数据进行的处理。节假日的用电量及实时负荷(功率)同工作日比起来，会明细偏低。为了确保节假日的用电数据与工作日的用电数据具有可比性和连贯性，可以将节假日数据(例如节假日的用电量)修正成按照节假日前的数据和节假日后的数据估计出的数据。

先对待评估用户历史上的用电数据进行预处理的好处是，消除由于待评估用户历史上的用电数据缺失、异常等原因对于整个评估结果的影响，使对待评估用户是否有窃漏电嫌疑的确定更准确。

在步骤S2中，在预定义的类别集合中确定待评估用户的类别。预定义的类别集合中的每一类别对应于预定义的第一标准用电数据曲线集合中的一条第一标准用电数据曲线。

第一标准用电数据曲线集合是按如下方式预定义的：对多个样本用户的历史用电数据曲线进行聚类，并针对聚成的每一类，基于属于该类下的样本用户的历史用电数据曲线，获得一条该类的第一标准用电数据曲线，放入第一标准用电数据曲线集合中，其中，聚成的每一类用户具有行业共性。

首先，根据多个样本用户(构成一个样本集合)历史上的用电数据，获得各样本用户的用电数据曲线。

历史上的用电数据、用电数据曲线分别与步骤S1中的历史上的用电数据、用电数据曲线具有相同含义。

例如，随机取北京市的1000家用电企业构成样本集合。这1000家用电企业的每一家是一个样本用户。为这1000家用电企业的每一家，按照步骤S1中获取用电数据曲线的方式，获取其用电数据曲线，这样就得到了1000个用电数据曲线。

然后，将所述各样本用户的用电数据曲线进行聚类。

有很多方法可以实现数据曲线的聚类。在一个实施例中，采用基于灰色关联算法的聚类。

当采用基于灰色关联的聚类时，先假定M条样本曲线要聚成K类(K为正整数)，则基于灰色关联的聚类方法的基本步骤为：随机选取M条样本曲线中的一条曲线作为第一聚类中心m1。然后计算剩余M-1条样本曲线与该曲线的距离。将这M-1条样本曲线中与该曲线的距离最大的样本曲线作为第二聚类中心m2。然后计算剩余M-2条样本曲线与第一聚类中心m1和第二聚类中心m2的距离和。将这M-2条样本曲线中该距离和最大的样本曲线作为第三聚类中心m3。以此类推，直到出现第K聚类中心mK为止。对于非聚类中心的M-K个样本曲线中的每条样本曲线，分别计算与K个聚类中心的距离，并将其和与其距离最小的那个聚类中心聚成一类。这样，就将M条样本曲线聚到了K类中。

两条样本曲线的距离例如通过以下方式计算出：设有两条样本曲线a、b。将这两条样本曲线a、b置于同一坐标系中，该坐标系的一个轴是时间轴，另一个轴是用电数据轴。在时间轴上取多个点。对于这多个点中的每个点，在这两条样本曲线a、b上查找与该点对应的曲线值并得到其差的绝对值。将为这多个点中各点得到的差的绝对值求平均，即样本曲线a、b的距离。在时间轴上取的点越多，该距离越准确。

假设要将北京市的1000家企业用户的样本曲线聚到10类中。先随机选取1000条样本曲线中的一条曲线作为第一聚类中心m1。然后计算剩余999条样本曲线与第一聚类中心m1的距离。将这999条样本曲线中与该第一聚类中心m1的距离最大的样本曲线作为第二聚类中心m2。然后计算剩余998条样本曲线与第一聚类中心m1和第二聚类中心m2的距离和。将这998条样本曲线中与第一聚类中心m1和第二聚类中心m2的距离和最大的样本曲线作为第三聚类中心m3。以此类推，直到出现第10聚类中心m10为止。对于非聚类中心的990个样本曲线中的每条样本曲线，分别计算与10个聚类中心的距离，并将一条样本曲线和与其距离最小的那个聚类中心聚成一类。这样，就将1000家企业用户的样本曲线聚到10类中。

接着，对聚成的每一类，基于该类下的样本用户的历史用电数据曲线，获得该类的第一标准用电数据曲线，放入第一标准用电数据曲线集合中。

例如，将1000家企业用户的样本曲线聚到10类中，其中第一类中共有120个样本曲线，第二类中共有100个样本曲线，第三类中共有50个样本曲线……，则基于第一类中这120个样本曲线获得第一类的第一标准用电数据曲线，基于第二类中这100个样本曲线获得第二类的第一标准用电数据曲线，基于第三类中这50个样本曲线获得第三类的第一标准用电数据曲线……当10个类的第一标准用电数据曲线聚成后，第一标准用电数据曲线集合就形成了。

对聚成的每一类基于该类下的历史用电数据曲线获得该类的第一标准用电数据曲线的一种方式是对聚成的每一类，求该类下的历史用电数据曲线的平均曲线，作为该类的第一标准用电数据曲线。

平均曲线是这样的一条曲线：对于平均曲线上的每个点的用电数据轴坐标值等于其时间轴坐标所对应的该类别的样本用户的所有用电数据曲线在该时间轴坐标下的用电数据的平均值。因此，可以根据每个聚成的类的所有样本用户的用电数据曲线，得到该平均曲线，作为该类别的用户的第一标准用电数据曲线。

也可以通过其它的方式，对聚成的每一类，基于该类下的样本用户的历史用电数据曲线获得该类的第一标准用电数据曲线，这里不再详述。

这样，就预定义了第一标准用电数据曲线集合。接着，就可以预定义类别集合。将类别集合中的每一类别预定义成对应于预定义第一标准用电数据曲线集合中的一条第一标准用电数据曲线。实际上，也就是对应于上述聚类聚成的一类。可以认为，给上述聚类聚成的一类指定一个类名，就成为类别集合中的一个类别。

实验发现，只要适当选取聚类中聚成的类的数目，样本曲线聚成的每一类的用户都有明显的行业共性，例如煤炭企业的用电数据曲线往往比较类似，最后可能聚到一个类中；餐饮、娱乐、商场的用电数据曲线往往比较类似，最后可能聚到一个类中；交通传输企业的用电数据往往随着电车、地铁还是飞机的不同，可能会呈现出三种不同的用电特性，可能分别聚到三个类中。因此，这些通过聚类聚成的类会表现出明显的行业特点。这样，当在步骤S1中获得一个新的用户历史用电数据曲线后，就能够根据这个用户的名称、所述的行业等，容易地确定用户的类别。例如，当某一聚成的类中的样本曲线有大量饭店、宾馆、KTV、商场等用户的样本曲线时，可能会将类别集合中与该聚成的类对应的类别定义为餐饮、娱乐、商场类别。这时，如果新用户的名称是友谊商场，就能够根据新用户的名称将其确定其属于餐饮、娱乐、商场类别。

在一种方式中，获取待评估用户的类别可以通过在界面上显示输入框，并接受在输入框中的输入获得。输入框中的输入是由人(例如电力公司的职工)根据待评估用户的名称、行业以及类别集合中各类别对应的第一标准用电数据曲线在聚类时是由哪些行业的企业的用电数据曲线聚成的来人为判断并完成的。这要求人(例如电力公司的职工)熟知样本曲线聚成的各类分别代表什么行业或什么子行业。

在另一种实施方式中，为第一标准用电数据曲线集合中的每条第一标准用电数据曲线指定若干检索关键词，并查找待评估用户的名称与为各第一标准用电数据曲线指定的检索关键词的匹配，从而获取待评估用户的类别。在这种实施方式中，电力公司的职工需要分析样本曲线所聚成的每个类的用户的特点，为每个类指定检索关键词。例如电力公司的职工发现某一聚成的类中的样本曲线有饭店、宾馆、KTV、商场等用户的样本曲线，可以为该类指定检索关键词餐饮、娱乐、商场等。当需要确定一个大型娱乐城是否有窃漏电嫌疑时，例如电力公司的职工在界面输入娱乐城名，通过机器自动分词并查找分出的词的同义词，将分出的词和查找出的同义词与指定的各检索关键词进行匹配查找。如查找到匹配，则检索关键词匹配上的类对应的类别集合中的类别就是确定的待评估用户的类别。

由于本发明实施例中待评估用户的类别是通过将大量样本用户的用电数据曲线聚类得出的，不是人为指定的，相比于人为简单地将一个行业的企业指定为一个类别(例如人为地将煤炭企业指定为一类，对餐饮企业指定为一类、对交通企业指定为一类)的方式，由于多个行业可能有相似的用电特点，而一个行业又可能分成用电特点不相同的子行业，因此这种聚类得到的待评估用户的类别更具有科学性，提高了确定的准确率。

应当注意，获取的待评估用户历史用电数据曲线和第一标准用电数据曲线应当在时间轴上对准。例如，如果根据样本集合训练出的第一标准用电数据曲线是时间轴从2014年1月-11月的每个月的用电曲线，则要求获取的待评估用户历史用电数据曲线也是时间轴从2014年1月-11月的每个月的用电曲线。如果不是，可以按照步骤S1中提到的预处理的方法对待评估用户历史上的用电数据进行预处理并根据预处理后的用电数据获取时间轴上与第一标准用电数据曲线对准的待评估用户历史用电数据曲线。当然，也可以通过对第一标准用电数据曲线进行类似处理使其与获取的待评估用户历史用电数据曲线在时间轴上对准的方式来实现这一点。

在步骤S3中，根据确定的待评估用户的类别，查找预定义第一标准用电数据曲线集合中与该待评估用户的类别对应的第一标准用电数据曲线。

例如，当确定的待评估用户的类别是餐饮、娱乐、商场类别时，就查找预定义第一标准用电数据曲线集合中与该餐饮、娱乐、商场类别对应的第一标准用电数据曲线。

在步骤S4中，基于获取的待评估用户历史用电数据曲线、以及查找到的第一标准用电数据曲线，计算获取的待评估用户历史用电数据曲线与查找到的第一标准用电数据曲线的第一相似度。

数据曲线之间的相似度为数据曲线之间的相似程度。在一个实施例中，获取的待评估用户历史用电数据曲线与查找到的第一标准用电数据曲线的第一相似度可以这样计算：将获取的待评估用户历史用电数据曲线和第一标准用电数据曲线置于同一坐标系中，该坐标系的一个轴是时间轴(例如x轴)，另一个轴是用电数据轴(例如y轴)。在时间轴上取多个点，在获取的待评估用户历史用电数据曲线上查找所述多个点对应的第一曲线值，在第一标准用电数据曲线上查找所述多个点对应的第二曲线值，将在每个点查找到的第一曲线值和第二曲线值的差的绝对值求平均并取倒数，作为第一相似度。

如图3所示，t1-t5分别表示2014年7、8、9、10、11月，C1表示用户A在2014年7-11月每个月的用电电量(单位：千瓦)连成的历史用电数据曲线，Cr1是根据获取的用户A的类别查找到的第一标准用电数据曲线(其代表该用户A所属的类别的所有样本用户的用电电量的平均曲线)。计算出第一相似度S1为：

S1＝1/[(∣2000-3000∣+∣5000-3500∣+∣4000-3500∣+∣5000-3500∣+∣4000-3000∣)/5]＝1/[(1000+1500+500+1500+1000)/5]＝0.00091(kw^-1)。

在步骤S5中，根据计算出的第一相似度，确定待评估用户是否有窃漏电嫌疑。

在一个实施例中，可以设定第一阈值。如果第一相似度小于第一阈值，则认为待评估用户有窃漏电嫌疑。然后，可以根据事后对待评估用户是否真正窃漏电的进一步排查结果来不断修正、完善第一阈值。

在其他的实施例中，也可以不设定第一阈值，而是对大量待评估用户的第一相似度从低到高进行排序，名次比较靠前的前m名列为有窃漏电嫌疑的用户,其中m为正整数。

图2示出了根据本发明另一个实施例的评估待评估用户是否有窃漏电嫌疑的方法的流程图。它与图1不同的是，它增加了步骤S3’和S4’，并且在步骤S5中增加子步骤S51。

在步骤S3’中，根据确定的待评估用户的类别，在预定义第二标准用电数据曲线集合中查找属于该类别的窃漏电用户的第二标准用电数据曲线。第二标准用电数据曲线集合按如下方式预定义：对预定义的第一标准用电数据曲线集合的过程中聚成的每一类，基于该类下的预先已知为窃漏电用户的用电数据曲线，获得该类的第二标准用电数据曲线，放入第二标准用电数据曲线集合中。

仍以将1000家企业用户的样本曲线聚到10类为例。假设10类中的第一类中共有120个样本曲线，其中34个预先已知为窃漏电用户的样本曲线；第二类中共有100个样本曲线，其中63个预先已知为窃漏电用户的样本曲线；第三类中共有50个样本曲线，其中17个预先已知为窃漏电用户的样本曲线……，则基于第一类中这34个预先已知为窃漏电用户的样本曲线获得第一类的第二标准用电数据曲线，基于第二类中这63个预先已知为窃漏电用户的样本曲线获得第二类的第二标准用电数据曲线，基于第三类中这17个预先已知为窃漏电用户的样本曲线获得第三类的第二标准用电数据曲线……当10个类的第二标准用电数据曲线聚成后，第二标准用电数据曲线集合就形成了。

基于该类下的预先已知为窃漏电用户的用电数据曲线获得该类的第二标准用电数据曲线的一种方式可以是，对聚成的每一类，求该类下的预先已知为窃漏电用户的用电数据曲线的平均曲线，作为该类的第二标准用电数据曲线。

求平均曲线的方法与前述相同。

在步骤S4’中，基于获取的待评估用户历史用电数据曲线、以及查找到的第二标准用电数据曲线，计算获取的待评估用户历史用电数据曲线与查找到的第二标准用电数据曲线的第二相似度。

在一个实施例中，获取的待评估用户历史用电数据曲线与查找到的第二标准用电数据曲线的第二相似度可以这样计算：将获取的待评估用户历史用电数据曲线和第二标准用电数据曲线置于同一坐标系中，该坐标系的一个轴是时间轴(例如x轴)，另一个轴是用电数据轴(例如y轴)。在时间轴上取多个点，在获取的待评估用户历史用电数据曲线上查找所述多个点对应的第一曲线值，在第二标准用电数据曲线上查找所述多个点对应的第三曲线值。将在每个点查找到的第一曲线值和第三曲线值的差的绝对值求平均并取倒数，作为第二相似度。

如图3所示，t1-t5分别表示2014年7、8、9、10、11月，C1表示用户A在2014年7-11月每个月的用电电量(单位：千瓦)连成的历史用电数据曲线，Cr2是根据获取的用户A的类别查找到的第二标准用电数据曲线(其代表该用户A所属的类别的预先已知为窃漏电用户的用电电量的平均曲线)。计算出第二相似度S2为：

S2＝1/[(∣2000-4000∣+∣5000-6000∣+∣4000-0∣+∣5000-1000∣+∣4000-0∣)/5]＝1/[(2000+1000+4000+4000+4000)/5]＝0.00033(kw^-1)。

在子步骤S51中，根据计算出的第一相似度和第二相似度，确定待评估用户是否有窃漏电嫌疑。

在一个实施例中，事先设定第二阈值。如果第一相似度小于第一阈值且第二相似度大于第二阈值，则认为待评估用户有窃漏电嫌疑。然后，可以根据事后对待评估用户是否真正窃漏电的进一步排查结果来不断修正、完善第二阈值。

在其他的实施例中，也可以不设定第一、第二阈值，而是对大量待评估用户的第一相似度从低到高排序，对它们的第二相似度从高到低排序。如果在第一相似度的排序中进入前m名，在第二相似度的排序中进入前n名，则认为待评估用户有窃漏电嫌疑，其中m和n为正整数。

如图4所示，本发明的另一个实施例提供了一种评估待评估用户是否有窃漏电嫌疑的装置2，包括：获取单元21，被配置为根据待评估用户历史上的用电数据，获取待评估用户历史用电数据曲线；确定单元22，被配置为在预定义的用户类别集合中确定待评估用户的类别，其中预定义的类别集合中的每一类别分别对应于预定义的第一标准用电数据曲线集合中的一条第一标准用电数据曲线，第一标准用电数据曲线集合是按如下方式预定义的：对多个样本用户的历史用电数据曲线进行聚类，并对聚成的每一类，基于属于该类下的样本用户的历史用电数据曲线，获得一条该类的第一标准用电数据曲线，放入第一标准用电数据曲线集合中；第一查找单元23，被配置为根据确定的待评估用户的类别，在预定义的第一标准用电数据曲线集合中查找与该待评估用户的类别对应的第一标准用电数据曲线；第一计算单元24，被配置为基于获取的待评估用户历史用电数据曲线和查找到的第一标准用电数据曲线，计算获取的待评估用户历史用电数据曲线与查找到的第一标准用电数据曲线的第一相似度；评估单元25，被配置为根据计算出的第一相似度，评估待评估用户是否有窃漏电嫌疑。图4中的各单元可以利用软件、硬件(例如集成电路、FPGA等)或软硬件结合的方式来实现。

可选地，评估单元25进一步被配置为：如果第一相似度小于第一阈值，则认为待评估用户有窃漏电嫌疑。

可选地，如图5所示，装置2还包括：第二查找单元23’,被配置为根据确定的待评估用户的类别，在预定义第二标准用电数据曲线集合中查找属于该类别的窃漏电用户的第二标准用电数据曲线，第二标准用电数据曲线集合是按如下方式预定义的：对预定义的第一标准用电数据曲线集合的过程中聚成的每一类，基于属于该类下的预先已知为窃漏电用户的用电数据曲线，获得该类的第二标准用电数据曲线，放入第二标准用电数据曲线集合中；第二计算单元24’,被配置为基于获取的待评估用户历史用电数据曲线和查找到的第二标准用电数据曲线，计算获取的待评估用户历史用电数据曲线与查找到的第二标准用电数据曲线的第二相似度。另外，评估单元25进一步被配置为：根据计算出的第一相似度和第二相似度，评估待评估用户是否有窃漏电嫌疑。

可选地，评估单元25进一步被配置为：如果第一相似度小于第一阈值且第二相似度大于第二阈值，则确定待评估用户有窃漏电嫌疑。

现在参考图6，其示出了按照本发明一个实施例的一种确定待评估用户是否有窃漏电嫌疑的设备3的结构图。如图6所示，评估待评估用户是否有窃漏电嫌疑的设备3可以包括存储器31和处理器32。存储器31可以存储可执行指令。处理器32可以根据存储器31所存储的可执行指令，实现前述装置2的各个单元所执行的操作。

此外，本发明实施例还提供一种机器可读介质，其上存储有可执行指令，当所述可执行指令被执行时，使得机器执行处理器32所实现的操作。

本领域技术人员应当理解，上面所公开的各个实施例，可以在不偏离发明实质的情况下做出各种变形和改变。因此，本发明的保护范围应当由所附的权利要求书来限定。

Claims

1.一种确定待评估用户是否有窃漏电嫌疑的方法(1)，包括：

根据待评估用户历史上的用电数据，获取待评估用户历史用电数据曲线(S1)；

在预定义的用户类别集合中确定待评估用户的类别(S2)，其中预定义的类别集合中的每一类别分别对应于预定义的第一标准用电数据曲线集合中的一条第一标准用电数据曲线，第一标准用电数据曲线集合是按如下方式预定义的：对多个样本用户的历史用电数据曲线进行聚类，并针对聚成的每一类，基于属于该类下的样本用户的历史用电数据曲线，获得一条该类的第一标准用电数据曲线，放入第一标准用电数据曲线集合中，其中，聚成的每一类用户具有行业共性，且对聚成的每一类，求该类下的历史用电数据曲线的平均曲线，作为该类的第一标准用电数据曲线；

根据确定的待评估用户的类别，在预定义的第一标准用电数据曲线集合中查找与该待评估用户的类别对应的第一标准用电数据曲线(S3)；

基于获取的待评估用户历史用电数据曲线和查找到的第一标准用电数据曲线，计算获取的待评估用户历史用电数据曲线与查找到的第一标准用电数据曲线的第一相似度(S4)；

根据确定的待评估用户的类别，在预定义的第二标准用电数据曲线集合中查找属于该类别的窃漏电用户的第二标准用电数据曲线(S3’)，第二标准用电数据曲线集合是按如下方式预定义的：对预定义的第一标准用电数据曲线集合的过程中聚成的每一类，基于属于该类下的预先已知为窃漏电用户的用电数据曲线，获得该类的第二标准用电数据曲线，放入第二标准用电数据曲线集合中；

基于获取的待评估用户历史用电数据曲线和查找到的第二标准用电数据曲线，计算获取的待评估用户历史用电数据曲线与查找到的第二标准用电数据曲线的第二相似度(S4’)；

根据计算出的第一相似度和第二相似度，评估待评估用户是否有窃漏电嫌疑(S51)。

2.根据权利要求1的方法，其中根据计算出的第一相似度和第二相似度评估待评估用户是否有窃漏电嫌疑(S51)的步骤还包括：

如果第一相似度小于第一阈值且第二相似度大于第二阈值，则认为待评估用户有窃漏电嫌疑。

3.根据权利要求1的方法，其中在预定义的第二标准用电数据曲线集合的过程中，对聚成的每一类，求该类下的预先已知为窃漏电用户的用电数据曲线的平均曲线，作为该类的第二标准用电数据曲线。

4.一种确定待评估用户是否有窃漏电嫌疑的装置(2)，包括：

获取单元(21)，被配置为根据待评估用户历史上的用电数据，获取待评估用户历史用电数据曲线；

确定单元(22)，被配置为在预定义的用户类别集合中确定待评估用户的类别，其中预定义的用户类别集合中的每一类别分别对应于预定义的第一标准用电数据曲线集合中的一条第一标准用电数据曲线，第一标准用电数据曲线集合是按如下方式预定义的：对多个样本用户的历史用电数据曲线进行聚类，并针对聚成的每一类，基于属于该类下的样本用户的历史用电数据曲线，获得一条该类的第一标准用电数据曲线，放入第一标准用电数据曲线集合中，其中，聚成的每一类用户具有行业共性，且对聚成的每一类，求该类下的历史用电数据曲线的平均曲线，作为该类的第一标准用电数据曲线；

第一查找单元(23)，被配置为根据确定的待评估用户的类别，在预定义的第一标准用电数据曲线集合中查找与该待评估用户的类别对应的第一标准用电数据曲线；

第一计算单元(24)，被配置为基于获取的待评估用户历史用电数据曲线和查找到的第一标准用电数据曲线，计算获取的待评估用户历史用电数据曲线与查找到的第一标准用电数据曲线的第一相似度；

第二查找单元(23’),被配置为根据确定的待评估用户的类别，在预定义第二标准用电数据曲线集合中查找属于该类别的窃漏电用户的第二标准用电数据曲线，第二标准用电数据曲线集合是按如下方式预定义的：对预定义的第一标准用电数据曲线集合的过程中聚成的每一类，基于属于该类下的预先已知为窃漏电用户的用电数据曲线，获得该类的第二标准用电数据曲线，放入第二标准用电数据曲线集合中；

第二计算单元(24’),被配置为基于获取的待评估用户历史用电数据曲线和查找到的第二标准用电数据曲线，计算获取的待评估用户历史用电数据曲线与查找到的第二标准用电数据曲线的第二相似度,且

评估单元(25)，被配置为根据计算出的第一相似度和第二相似度，评估待评估用户是否有窃漏电嫌疑。

5.根据权利要求4的装置，其中评估单元(25)进一步被配置为：

6.根据权利要求4的装置，其中在预定义第二标准用电数据曲线集合的过程中，对聚成的每一类，求该类下的预先已知为窃漏电用户的用电数据曲线的平均曲线，作为该类的第二标准用电数据曲线。