CN108470127B - 一种用电负荷数据的离线脱敏方法和装置 - Google Patents
一种用电负荷数据的离线脱敏方法和装置 Download PDFInfo
- Publication number
- CN108470127B CN108470127B CN201710099139.XA CN201710099139A CN108470127B CN 108470127 B CN108470127 B CN 108470127B CN 201710099139 A CN201710099139 A CN 201710099139A CN 108470127 B CN108470127 B CN 108470127B
- Authority
- CN
- China
- Prior art keywords
- load data
- desensitization
- data
- desensitized
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000586 desensitisation Methods 0.000 title claims abstract description 165
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000009466 transformation Effects 0.000 claims abstract description 75
- 230000000694 effects Effects 0.000 claims abstract description 47
- 230000035945 sensitivity Effects 0.000 claims abstract description 9
- 238000011156 evaluation Methods 0.000 claims description 41
- 238000004458 analytical method Methods 0.000 claims description 21
- 230000005611 electricity Effects 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 210000002816 gill Anatomy 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明提供一种用电负荷数据的离线脱敏方法和装置,通过提取用电负荷数据、选择时频变换算法,并根据选择的时频变换算法对提取的用电负荷数据进行脱敏,最后将脱敏后的用电负荷数据进行存储,能够快速高效的完成用电负荷数据离线脱敏。本发明能够从文档、文件、数据库等多种途径选择用电负荷数据,以多种文件格式获取待脱敏的用电负荷数据,并根据数据特性以及提供者对数据敏感性的要求和使用者对数据可用性的要求选择用于脱敏的时频变换算法,确保能够顺利获取待脱敏的用电负荷数据,自由地选择适当的时频变换算法,达到最好的脱敏效果。
Description
技术领域
本发明涉及一种数据脱敏技术,具体涉及一种用电负荷数据的离线脱敏方法和装置。
背景技术
大数据时代的到来,使得各界组织和企业都将数据作为未来发展的重要资源,并大力投入数据采集、传输、存储和分析应用的技术研发。在全球数据总量急剧增长的趋势下,电力行业信息化数据总量也呈现爆发式上升。
电网企业利用长期积累的用电大数据,在公司各业务部门开展电能质量监测分析、窃电及违规用电分析、工商业发展分析、用电方案优化等工作,有力提升了电网内部的运营效率和客户服务水平;而且其数亿电力用户的用电信息采集数据已成为政府开展智慧城市建设,电信运营商、互联网企业和金融保险行业进行客户画像,以及零售娱乐企业辅助商业选址的重要数据来源。海量数据的不断积累,在为企业和社会不断创造价值的同时,也对企业保护数据的能力提出了更高的要求。
由于电网企业信息化高速推进,越来越多的组织和企业希望从电网和用户数据中分析得到有效信息,更好的提高自身效益。也有越来越多的人士呼吁电网企业向社会开放自己的数据,为社会提供更好的信息服务。但电力用户的用电负荷数据直接关乎用户隐私,某些特殊电力客户的用电负荷数据甚至关系到社会发展和国家秘密,对用电负荷数据的开放和分析应用必须经过技术性去隐私化处理。
通过完整的原始用电负荷数据,甚至能够分析出用户的作息规律、开关灯时间等不必要的信息,还可能给犯罪分子提供信息支持,这是大家不愿意看到的。因此,实现用电负荷数据脱敏已经成为电网大数据应用亟待解决的问题。
发明内容
为了克服上述现有技术的不足,本发明提供一种用电负荷数据的离线脱敏方法和装置,通过提取用电负荷数据、选择时频变换算法,并根据选择的时频变换算法对提取的用电负荷数据进行脱敏,最后将脱敏后的用电负荷数据进行存储,完成对用电负荷数据的离线脱敏。
为了实现上述发明目的,本发明采取如下技术方案:
本发明提供一种用电负荷数据的离线脱敏方法,包括:
提取用电负荷数据,并选择时频变换算法;
根据选择的时频变换算法对提取的用电负荷数据进行脱敏;
将脱敏后的用电负荷数据进行存储。
所述提取用电负荷数据包括:
从本地、服务器、数据库、大数据平台或云端采用以下任一方式提取用电负荷数据:
1)直接人工录入用电负荷数据;
2)从txt文件、excel文件、csv文件中提取用电负荷数据;
3)通过sql语句导入用电负荷数据;
4)通过从数据库中导入用电负荷数据。
所述选择时频变换算法包括:
根据提取的用电负荷数据的数据特性,选择相应的时频变换算法,其中时频变换算法包括傅立叶变换、小波变换和希尔伯特黄变换。
所述根据选择的时频变换算法对提取的用电负荷数据进行脱敏包括:
根据提取的用电负荷数据和选择的时频变换算法,初始化脱敏参数;
将待脱敏的长度为N的用电负荷数据通过时频变换算法变换为长度为N的频域数据;
在频域对长度为N的频域数据的成分进行筛选、过滤、删除、修改处理,保留分析必要信息,去掉敏感信息;所述分析必要信息包括主要趋势,所述敏感信息包括明细特征;
对处理后的频域数据进行时频逆变换,得到脱敏后的用电负荷数据。
所述所述根据选择的时频变换算法对提取的用电负荷数据进行脱敏之后包括:
对脱敏效果进行评估,具体如下:
将脱敏前后的用电负荷数据进行对比,建立如下脱敏效果评估函数:
其中,F(x,y)为脱敏效果评估值,x表示脱敏前的用电负荷数据集合,且x=[x1,x2,...,xi,...,xN],N为用电负荷数据长度,xi为x中第i个用电负荷数据;y表示脱敏后的用电负荷数据集合,且y=[y1,y2,...,yi,...,yN],yi表示y中第i个用电负荷数据;x表示x中所有用电负荷数据的算术平均值,y表示y中所有用电负荷数据的算数平均值,a,b,c,d均为线性组合的系数;
如果脱敏效果评估值低于设定的脱敏效果评估下限,表明脱敏力度不足,需调节脱敏参数,以提高脱敏力度;如果脱敏效果评估值超过设定的脱敏效果评估上限,则表明脱敏力度过大,脱敏后的用电负荷数据不能满足提供者对数据敏感性的要求和使用者对数据可用性的要求,需调节脱敏参数,以降低脱敏力度。
所述将脱敏后的用电负荷数据进行存储包括:
将脱敏后的用电负荷数据以txt、excel或csv格式存储到目标地点,可以导出,也可以,或将脱敏后的用电负荷数据存入数据库或大数据平台。
所述将脱敏后的用电负荷数据进行存储之后包括:
将用电负荷数据脱敏过程中所使用的脱敏算法和脱敏参数进行保存。
本发明还提供一种用电负荷数据的离线脱敏装置,包括:
提取模块,用于提取用电负荷数据,并选择时频变换算法;
脱敏模块,用于根据选择的时频变换算法对提取的用电负荷数据进行脱敏;
存储模块,用于将脱敏后的用电负荷数据进行存储。
所述提取模块具体用于:
从本地、服务器、数据库、大数据平台或云端采用以下任一方式提取用电负荷数据:
1)直接人工录入用电负荷数据;
2)从txt文件、excel文件、csv文件中提取用电负荷数据;
3)通过sql语句导入用电负荷数据;
4)通过从数据库中导入用电负荷数据。
所述提取模块具体用于:
根据提取的用电负荷数据的数据特性,选择相应的时频变换算法,其中时频变换算法包括傅立叶变换、小波变换和希尔伯特黄变换。
所述脱敏模块具体用于:
根据提取的用电负荷数据和选择的时频变换算法,初始化脱敏参数;
将待脱敏的长度为N的用电负荷数据通过时频变换算法变换为长度为N的频域数据;
在频域对长度为N的频域数据的成分进行筛选、过滤、删除、修改处理,保留分析必要信息,去掉敏感信息;所述分析必要信息包括主要趋势,所述敏感信息包括明细特征;
对处理后的频域数据进行时频逆变换,得到脱敏后的用电负荷数据。
所述脱敏模块还包括评估模块,所述评估模块用于对脱敏效果进行评估。
所述评估模块具体用于:
将脱敏前后的用电负荷数据进行对比,建立如下脱敏效果评估函数:
其中,F(x,y)为脱敏效果评估值,x表示脱敏前的用电负荷数据集合,且x=[x1,x2,...,xi,...,xN],N为用电负荷数据长度,xi为x中第i个用电负荷数据;y表示脱敏后的用电负荷数据集合,且y=[y1,y2,...,yi,...,yN],yi表示y中第i个用电负荷数据;x表示x中所有用电负荷数据的算术平均值,y表示y中所有用电负荷数据的算数平均值,a,b,c,d均为线性组合的系数;
如果脱敏效果评估值低于设定的脱敏效果评估下限,表明脱敏力度不足,需调节脱敏参数,以提高脱敏力度;如果脱敏效果评估值超过设定的脱敏效果评估上限,则表明脱敏力度过大,脱敏后的用电负荷数据不能满足提供者对数据敏感性的要求和使用者对数据可用性的要求,需调节脱敏参数,以降低脱敏力度。
所述存储模块具体用于:
将脱敏后的用电负荷数据以txt、excel或csv格式存储到目标地点,可以导出,也可以,或将脱敏后的用电负荷数据存入数据库或大数据平台。
所述存储模块具体用于:
将用电负荷数据脱敏过程中所使用的脱敏算法和脱敏参数进行保存。
与最接近的现有技术相比,本发明提供的技术方案具有以下有益效果:
1)本发明提供的用电负荷数据的离线脱敏方法和装置通过提取用电负荷数据、选择时频变换算法,并根据选择的时频变换算法对提取的用电负荷数据进行脱敏,最后将脱敏后的用电负荷数据进行存储,能够快速高效的完成用电负荷数据离线脱敏;
2)提取用电负荷数据并选择时频变换算法过程中,能够从文档、文件、数据库等多种途径选择用电负荷数据,以多种文件格式获取待脱敏的用电负荷数据,并根据数据特性以及提供者对数据敏感性的要求和使用者对数据可用性的要求选择用于脱敏的时频变换算法,确保能够顺利获取待脱敏的用电负荷数据,自由地选择适当的时频变换算法,达到最好的脱敏效果;
3)本发明利用时频变换的手段,在频域对数据进行相应的筛选、过滤、删除、修改等处理,脱敏过程保留主要趋势等分析的必要信息,使得脱敏后的数据能够满足相关分析应用的需求,同时去掉了明细特征等敏感信息,有效保护了用户的隐私信息;并且由于时频变换拥有快速算法,脱敏过程的时间消耗较小;
4)本发明能够自由调整脱敏参数,修改和删除不同频率成分的信息,对敏感数据提供最好的隐私保护,同时对使用者提供高质量的用电负荷数据。
附图说明
图1是本发明实施例中用电负荷数据的离线脱敏方法流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本实施例提供的用电负荷数据脱敏方法和装置,旨在对用电负荷数据进行处理,保留模糊的趋势信息和一些分析所必要的特征信息,剔除不必要的明细特征,在保护用户隐私的前提下,给予分析者尽可能优质的脱敏用电负荷数据。通过用电负荷数据脱敏,能够将隐私的数据转换为开放的数据,社会各界可以对这些信息加以利用分析,获取其有效信息,提高企业效益,提升社会生产效率。
用电负荷数据离线脱敏的核心思想如下:
通过多渠道抽取待脱敏的用电负荷数据,利用基于时频变换的用电负荷数据脱敏为基础,对待脱敏的用电负荷数据进行脱敏工作,并进行脱敏效果评估,如果不满足数据提供者对数据敏感性的要求和数据分析使用者对数据可用性的要求,对算法参数进行适当调整,并重新进行脱敏工作,最后将脱敏后的数据存储入库。
如图1,本发明提供的用电负荷数据的离线脱敏方法具体过程包括:
S101:提取用电负荷数据,并选择时频变换算法;
S102:根据选择的时频变换算法对提取的用电负荷数据进行脱敏;
S103:将脱敏后的用电负荷数据进行存储。
S101中,提取用电负荷数据具体包括:
从本地、服务器、数据库、大数据平台或云端采用以下任一方式提取用电负荷数据:
1)直接人工录入用电负荷数据;
2)从txt文件、excel文件、csv文件中提取用电负荷数据;
3)通过sql语句导入用电负荷数据;
4)通过从数据库中导入用电负荷数据。
S101中,选择时频变换算法包括:
根据提取的用电负荷数据的数据特性,选择相应的时频变换算法,其中时频变换算法包括傅立叶变换、小波变换和希尔伯特黄变换。不同变换算法拥有各自的特点,他们在频域的各成分含义不同,例如:傅立叶变换在删掉高频成分时,会产生吉普斯效应,逆变换后的信号具有剧烈震荡;小波变换在删掉细节成分后,逆变换后的信号会变得平滑。针对不同脱敏需求,选择合适的算法能够得到更好的效果。
S102中,根据选择的时频变换算法对提取的用电负荷数据进行脱敏具体包括:
1)根据提取的用电负荷数据和选择的时频变换算法,初始化脱敏参数;
2)将待脱敏的长度为N的用电负荷数据通过时频变换算法变换为长度为N的频域数据;
3)在频域对长度为N的频域数据的成分进行筛选、过滤、删除、修改处理,保留分析必要信息,去掉敏感信息;所述分析必要信息包括主要趋势,所述敏感信息包括明细特征;
4)对处理后的频域数据进行时频逆变换,得到脱敏后的用电负荷数据。
S102中,根据选择的时频变换算法对提取的用电负荷数据进行脱敏之后还需要对脱敏效果进行评估,具体过程如下:
将脱敏前后的用电负荷数据进行对比,建立如下脱敏效果评估函数:
其中,F(x,y)为脱敏效果评估值,x表示脱敏前的用电负荷数据集合,且x=[x1,x2,...,xi,…,xN],N为用电负荷数据长度,xi为x中第i个用电负荷数据;y表示脱敏后的用电负荷数据集合,且y=[y1,y2,…,yi,…,yN],yi表示y中第i个用电负荷数据;x表示x中所有用电负荷数据的算术平均值,y表示y中所有用电负荷数据的算数平均值,a,b,c,d均为线性组合的系数;
如果脱敏效果评估值低于设定的脱敏效果评估下限,表明脱敏力度不足,需调节脱敏参数,以提高脱敏力度;如果脱敏效果评估值超过设定的脱敏效果评估上限,则表明脱敏力度过大,脱敏后的用电负荷数据不能满足提供者对数据敏感性的要求和使用者对数据可用性的要求,需调节脱敏参数,以降低脱敏力度。
S103中,将脱敏后的用电负荷数据进行存储具体包括:
将脱敏后的用电负荷数据以txt、excel或csv格式存储到目标地点,可以导出,也可以,或将脱敏后的用电负荷数据存入数据库或大数据平台。
S103之后,还需要将用电负荷数据脱敏过程中所使用的脱敏算法和脱敏参数进行保存。
本发明实施例还提供用电负荷数据的离线脱敏装置,该装置包括:
提取模块,用于提取用电负荷数据,并选择时频变换算法;
脱敏模块,用于根据选择的时频变换算法对提取的用电负荷数据进行脱敏;
存储模块,用于将脱敏后的用电负荷数据进行存储。
上述提取模块具体用于:
从本地、服务器、数据库、大数据平台或云端采用以下任一方式提取用电负荷数据:
1)直接人工录入用电负荷数据;
2)从txt文件、excel文件、csv文件中提取用电负荷数据;
3)通过sql语句导入用电负荷数据;
4)通过从数据库中导入用电负荷数据。
上述提取模块还具体用于:
根据提取的用电负荷数据的数据特性,选择相应的时频变换算法,其中时频变换算法包括傅立叶变换、小波变换和希尔伯特黄变换。
上述脱敏模块具体用于:
1)根据提取的用电负荷数据和选择的时频变换算法,初始化脱敏参数;
2)将待脱敏的长度为N的用电负荷数据通过时频变换算法变换为长度为N的频域数据;
3)在频域对长度为N的频域数据的成分进行筛选、过滤、删除、修改处理,保留分析必要信息,去掉敏感信息;所述分析必要信息包括主要趋势,所述敏感信息包括明细特征;
4)对处理后的频域数据进行时频逆变换,得到脱敏后的用电负荷数据。
上述的脱敏模块还包括评估模块,该评估模块用于对脱敏效果进行评估,具体评估过程如下:
先将脱敏前后的用电负荷数据进行对比,建立如下脱敏效果评估函数:
其中,F(x,y)为脱敏效果评估值,x表示脱敏前的用电负荷数据集合,且x=[x1,x2,…,xi,…,xN],N为用电负荷数据长度,xi为x中第i个用电负荷数据;y表示脱敏后的用电负荷数据集合,且y=[y1,y2,…,yi,…,yN],yi表示y中第i个用电负荷数据;x表示x中所有用电负荷数据的算术平均值,y表示y中所有用电负荷数据的算数平均值,a,b,c,d均为线性组合的系数;
然后进行判断,如果脱敏效果评估值低于设定的脱敏效果评估下限,表明脱敏力度不足,需调节脱敏参数,以提高脱敏力度;如果脱敏效果评估值超过设定的脱敏效果评估上限,则表明脱敏力度过大,脱敏后的用电负荷数据不能满足提供者对数据敏感性的要求和使用者对数据可用性的要求,需调节脱敏参数,以降低脱敏力度。
上述存储模块具体用于:
将脱敏后的用电负荷数据以txt、excel或csv格式存储到目标地点,可以导出,也可以,或将脱敏后的用电负荷数据存入数据库或大数据平台。
存储模块还需要将用电负荷数据脱敏过程中所使用的脱敏算法和脱敏参数进行保存。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
Claims (9)
1.一种用电负荷数据的离线脱敏方法,其特征在于,所述方法包括:
提取用电负荷数据,并选择时频变换算法;
根据选择的时频变换算法对提取的用电负荷数据进行脱敏;
将脱敏后的用电负荷数据进行存储;
所述提取用电负荷数据包括:
从本地、服务器、数据库、大数据平台或云端采用以下任一方式提取用电负荷数据:
1)直接人工录入用电负荷数据;
2)从txt文件、excel文件、csv文件中提取用电负荷数据;
3)通过sql语句导入用电负荷数据;
4)通过从数据库中导入用电负荷数据;
所述选择时频变换算法包括:
根据提取的用电负荷数据的数据特性,选择相应的时频变换算法,其中时频变换算法包括傅立叶变换、小波变换和希尔伯特黄变换;
所述根据选择的时频变换算法对提取的用电负荷数据进行脱敏包括:
根据提取的用电负荷数据和选择的时频变换算法,初始化脱敏参数;
将待脱敏的长度为N的用电负荷数据通过时频变换算法变换为长度为N的频域数据;
在频域对长度为N的频域数据的成分进行筛选、过滤、删除、修改处理,保留分析必要信息,去掉敏感信息;所述分析必要信息包括主要趋势,所述敏感信息包括明细特征;
对处理后的频域数据进行时频逆变换,得到脱敏后的用电负荷数据。
2.根据权利要求1所述的用电负荷数据的离线脱敏方法,其特征在于,所述根据选择的时频变换算法对提取的用电负荷数据进行脱敏之后包括:
对脱敏效果进行评估,具体如下:
将脱敏前后的用电负荷数据进行对比,建立如下脱敏效果评估函数:
其中,F(x,y)为脱敏效果评估值,x表示脱敏前的用电负荷数据集合,且x=[x1,x2,...,xi,...,xN],N为用电负荷数据长度,xi为x中第i个用电负荷数据;y表示脱敏后的用电负荷数据集合,且y=[y1,y2,...,yi,...,yN],yi表示y中第i个用电负荷数据;表示x中所有用电负荷数据的算术平均值,表示y中所有用电负荷数据的算数平均值,a,b,c,d均为线性组合的系数;
如果脱敏效果评估值低于设定的脱敏效果评估下限,表明脱敏力度不足,需调节脱敏参数,以提高脱敏力度;如果脱敏效果评估值超过设定的脱敏效果评估上限,则表明脱敏力度过大,脱敏后的用电负荷数据不能满足提供者对数据敏感性的要求和使用者对数据可用性的要求,需调节脱敏参数,以降低脱敏力度。
3.根据权利要求1所述的用电负荷数据的离线脱敏方法,其特征在于,所述将脱敏后的用电负荷数据进行存储包括:
将脱敏后的用电负荷数据以txt、excel或csv格式存储到目标地点,可以导出,也可以,或将脱敏后的用电负荷数据存入数据库或大数据平台。
4.根据权利要求3所述的用电负荷数据的离线脱敏方法,其特征在于,所述将脱敏后的用电负荷数据进行存储之后包括:
将用电负荷数据脱敏过程中所使用的脱敏算法和脱敏参数进行保存。
5.一种用电负荷数据的离线脱敏装置,其特征在于,所述装置包括:
提取模块,用于提取用电负荷数据,并选择时频变换算法;
脱敏模块,用于根据选择的时频变换算法对提取的用电负荷数据进行脱敏;
存储模块,用于将脱敏后的用电负荷数据进行存储;
所述提取模块具体用于:
从本地、服务器、数据库、大数据平台或云端采用以下任一方式提取用电负荷数据:
1)直接人工录入用电负荷数据;
2)从txt文件、excel文件、csv文件中提取用电负荷数据;
3)通过sql语句导入用电负荷数据;
4)通过从数据库中导入用电负荷数据;
所述提取模块具体用于:
根据提取的用电负荷数据的数据特性,选择相应的时频变换算法,其中时频变换算法包括傅立叶变换、小波变换和希尔伯特黄变换;
所述脱敏模块具体用于:
根据提取的用电负荷数据和选择的时频变换算法,初始化脱敏参数;
将待脱敏的长度为N的用电负荷数据通过时频变换算法变换为长度为N的频域数据;
在频域对长度为N的频域数据的成分进行筛选、过滤、删除、修改处理,保留分析必要信息,去掉敏感信息;所述分析必要信息包括主要趋势,所述敏感信息包括明细特征;
对处理后的频域数据进行时频逆变换,得到脱敏后的用电负荷数据。
6.根据权利要求5所述的用电负荷数据的离线脱敏装置,其特征在于,所述脱敏模块还包括评估模块,所述评估模块用于对脱敏效果进行评估。
7.根据权利要求6所述的用电负荷数据的离线脱敏装置,其特征在于,所述评估模块具体用于:
将脱敏前后的用电负荷数据进行对比,建立如下脱敏效果评估函数:
其中,F(x,y)为脱敏效果评估值,x表示脱敏前的用电负荷数据集合,且x=[x1,x2,...,xi,...,xN],N为用电负荷数据长度,xi为x中第i个用电负荷数据;y表示脱敏后的用电负荷数据集合,且y=[y1,y2,...,yi,...,yN],yi表示y中第i个用电负荷数据;表示x中所有用电负荷数据的算术平均值,y表示y中所有用电负荷数据的算数平均值,a,b,c,d均为线性组合的系数;
如果脱敏效果评估值低于设定的脱敏效果评估下限,表明脱敏力度不足,需调节脱敏参数,以提高脱敏力度;如果脱敏效果评估值超过设定的脱敏效果评估上限,则表明脱敏力度过大,脱敏后的用电负荷数据不能满足提供者对数据敏感性的要求和使用者对数据可用性的要求,需调节脱敏参数,以降低脱敏力度。
8.根据权利要求5所述的用电负荷数据的离线脱敏装置,其特征在于,所述存储模块具体用于:
将脱敏后的用电负荷数据以txt、excel或csv格式存储到目标地点,可以导出,也可以,或将脱敏后的用电负荷数据存入数据库或大数据平台。
9.根据权利要求8所述的用电负荷数据的离线脱敏装置,其特征在于,所述存储模块具体用于:
将用电负荷数据脱敏过程中所使用的脱敏算法和脱敏参数进行保存。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710099139.XA CN108470127B (zh) | 2017-02-23 | 2017-02-23 | 一种用电负荷数据的离线脱敏方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710099139.XA CN108470127B (zh) | 2017-02-23 | 2017-02-23 | 一种用电负荷数据的离线脱敏方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108470127A CN108470127A (zh) | 2018-08-31 |
CN108470127B true CN108470127B (zh) | 2021-10-29 |
Family
ID=63266912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710099139.XA Active CN108470127B (zh) | 2017-02-23 | 2017-02-23 | 一种用电负荷数据的离线脱敏方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108470127B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113055159B (zh) * | 2021-01-25 | 2023-11-21 | 兴业证券股份有限公司 | 一种数据脱敏方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2603025A1 (en) * | 2011-12-06 | 2013-06-12 | Samsung Electronics Co., Ltd | Apparatus and method for secure storage of private information on a mobile terminal and control of private information transmitted by the mobile terminal |
EP2728508A1 (en) * | 2012-10-31 | 2014-05-07 | Tata Consultancy Services Limited | Dynamic data masking |
CN104361110A (zh) * | 2014-12-01 | 2015-02-18 | 广东电网有限责任公司清远供电局 | 海量用电数据分析系统及其实时计算、数据挖掘方法 |
CN104573560A (zh) * | 2015-01-27 | 2015-04-29 | 上海交通大学 | 基于小波变换的差分隐私数据发布方法 |
CN105577356A (zh) * | 2015-12-17 | 2016-05-11 | 西安电子科技大学 | 基于对用户隐私保护的智能电网中数据收集方法 |
US9436835B1 (en) * | 2012-01-05 | 2016-09-06 | Gokay Saldamli | Homomorphic encryption in computing systems and environments |
CN106022645A (zh) * | 2016-06-07 | 2016-10-12 | 李祖毅 | 非侵入式在线实时电力负荷识别方法及识别系统 |
CN106295365A (zh) * | 2016-08-12 | 2017-01-04 | 武汉大学 | 一种基于正交变换的指纹加密模板保护方法及系统 |
CN106339976A (zh) * | 2016-08-16 | 2017-01-18 | 广东工业大学 | 一种加密方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708561B (zh) * | 2012-02-29 | 2016-05-18 | 北京无线电计量测试研究所 | 一种基于毫米波成像的隐私保护装置 |
CN103914659B (zh) * | 2014-03-12 | 2017-01-11 | 西安电子科技大学 | 基于频率的轨迹抑制数据发布隐私保护的系统及其方法 |
CN104598835A (zh) * | 2014-12-29 | 2015-05-06 | 无锡清华信息科学与技术国家实验室物联网技术中心 | 一种保护隐私的基于云的实数向量距离计算方法 |
-
2017
- 2017-02-23 CN CN201710099139.XA patent/CN108470127B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2603025A1 (en) * | 2011-12-06 | 2013-06-12 | Samsung Electronics Co., Ltd | Apparatus and method for secure storage of private information on a mobile terminal and control of private information transmitted by the mobile terminal |
US9436835B1 (en) * | 2012-01-05 | 2016-09-06 | Gokay Saldamli | Homomorphic encryption in computing systems and environments |
EP2728508A1 (en) * | 2012-10-31 | 2014-05-07 | Tata Consultancy Services Limited | Dynamic data masking |
CN104361110A (zh) * | 2014-12-01 | 2015-02-18 | 广东电网有限责任公司清远供电局 | 海量用电数据分析系统及其实时计算、数据挖掘方法 |
CN104573560A (zh) * | 2015-01-27 | 2015-04-29 | 上海交通大学 | 基于小波变换的差分隐私数据发布方法 |
CN105577356A (zh) * | 2015-12-17 | 2016-05-11 | 西安电子科技大学 | 基于对用户隐私保护的智能电网中数据收集方法 |
CN106022645A (zh) * | 2016-06-07 | 2016-10-12 | 李祖毅 | 非侵入式在线实时电力负荷识别方法及识别系统 |
CN106295365A (zh) * | 2016-08-12 | 2017-01-04 | 武汉大学 | 一种基于正交变换的指纹加密模板保护方法及系统 |
CN106339976A (zh) * | 2016-08-16 | 2017-01-18 | 广东工业大学 | 一种加密方法 |
Non-Patent Citations (3)
Title |
---|
Algorithm Optimization and Mask Data Generating for Dammann Gratings in Laser Medical Applications;Guoxing Zheng 等;《 2010 International Conference on Biomedical Engineering and Computer Science》;20100506;第1-3页 * |
电力调度SCADA系统中历史数据压缩及存储策略;马发勇 等;《电网技术》;20140430;第38卷(第4期);第1109-1114页 * |
面向智能电网应用的电力大数据关键技术;彭小圣 等;《电子设计工程》;20150205;第35卷(第3期);第503-510页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108470127A (zh) | 2018-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112241543A (zh) | 一种基于数据中台的敏感数据梳理方法 | |
US9251216B2 (en) | Efficient publication of sparse data | |
Kim et al. | Optimal modular remanufactured product configuration and harvesting planning for end-of-life products | |
CN108470127B (zh) | 一种用电负荷数据的离线脱敏方法和装置 | |
CN111931848A (zh) | 数据的特征提取方法、装置、计算机设备及存储介质 | |
CN108470128B (zh) | 一种用电负荷数据的在线脱敏方法和装置 | |
CN111178722B (zh) | 适用于销售线索评级和分配的机器学习系统、方法及介质 | |
KR20210132853A (ko) | 확률적 경사 하강법을 이용한 변수 선택 장치 및 방법 | |
CN114841267B (zh) | 实时预测方法、装置、电子设备及计算机程序产品 | |
CN111008078A (zh) | 数据的批量处理方法、装置、设备及计算机存储介质 | |
CN111026940A (zh) | 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备 | |
CN114757546A (zh) | 风险预警方法、装置、设备及介质 | |
KR102404983B1 (ko) | 릿지 회귀를 이용한 변수 선택 장치 및 방법 | |
CN113590447A (zh) | 埋点处理方法和装置 | |
KR20210132852A (ko) | 엘라스틱 넷 회귀를 이용한 변수 선택 장치 및 방법 | |
KR101904901B1 (ko) | 아이디 발급을 통한 원본 데이터 관리 방법 및 장치 | |
CN115577093B (zh) | 金融信息的ai分析方法及系统 | |
CN113515494B (zh) | 基于分布式文件系统的数据库处理方法和电子设备 | |
CN117112846B (zh) | 一种多信息源证照信息管理方法、系统及介质 | |
CN113360652B (zh) | 一种企业级电力用户智能分类方法及装置 | |
CN113496031B (zh) | 基于日志安全审计增强分析方法、装置、设备和存储介质 | |
Sun et al. | Wideband Wireless Transmitter Identification Based on Hammerstein-Wiener Model | |
JP2002041559A (ja) | 主観的データ予測方法及び装置 | |
CN110991557A (zh) | 一种资产分类方法及装置 | |
CN118396736A (zh) | 贷款资产的风险确定方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |