CN111340196A

CN111340196A - 对抗网络数据生成方法以及异常事件检测方法

Info

Publication number: CN111340196A
Application number: CN202010163093.5A
Authority: CN
Inventors: 厍睿; 樊平毅; 刘善赟; 宛烁; 朱哲祺; 辛港涛
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-06-26

Abstract

本发明公开一种对抗网络数据生成方法以及异常事件检测方法。主要针对当前人工智能和数据挖掘领域中多维数据集异常事件检测场景而设计。利用指数型信息测度对生成对抗网络目标函数及其对应的优化方式进行设计，从而引导对抗网络生成数据。进而，本发明通过基于指数型信息测度生成对抗网络对多维数据集中常规事件数据与异常事件数据进行分类，减小分类误差，提高异常事件检测性能。

Description

对抗网络数据生成方法以及异常事件检测方法

技术领域

本发明涉及人工智能和数据挖掘领域中异常事件检测的场景，特别涉及基于指数型信息测度生成对抗网络的训练及其在多维特征数据集的异常事件检测上的应用。

背景技术

随着人工智能技术的发展与大数据时代的来临，人们对如何挖掘隐藏在大量数据中更具价值的信息的需求愈加强烈，与日俱增。时至今日，数据信息处理技术的发展趋势，已由原来针对低维度同构数据的分析处理转化为高维度异构数据的挖掘处理。对此，作为当前数据信息处理的主流方法之一，人工神经网络已广泛应用于数据挖掘，并在分析处理高维度异构数据方面有显著效果。尤其是，生成对抗网络在外延广泛的多维特征数据集异常事件检测中，已取得显著的成效，并带来可观的经济价值，受到越来越多的相关领域科研人员的关注。

然而，由于目前研究人员对神经网络算法训练方式及其核心原理的理解上尚存在一些的疑惑；对一些具体技术(如生成对抗网络)的训练性能包括稳定性、收敛速度、敏感性等局限性理解不够深刻。故而，很难使用该方法在一些典型的数据集上高效准确地检测出异常数据，达到理想效果。为改善该性能，引导神经网络权参数更新的目标函数成为一个重要的技术支点。

另一方面，由于生成对抗网络的目标函数引导数据生成，故而，生成效果与训练数据所占概率对目标函数的影响有关。特别是，对于数据集中存在小概率类型的数据时，相对出现频次不高的数据生成效果不佳。对此，考虑制定基于新型信息测度的目标函数，以对数据生成效果进行优化，进而改善生成对抗网络异常检测结果，是一个可能的突破点，并且目前相关研究比较罕见。

因此，需要基于有效信息测度改进生成对抗网络训练方式，以提高异常事件检测性能。

发明内容

针对上述问题，本发明提供一种对抗网络数据生成方法以及异常事件检测方法。

为达到上述目的，本发明对抗网络数据生成方法，所述的方法为：利用指数型信息测度对生成对抗网络目标函数及其对应的优化方式进行设计，从而引导对抗网络生成数据。

进一步的，所述目标函数的方程为：

其对应的优化方式为：

其中，D为鉴别器，G为生成器，且鉴别器与生成器均为神经网络；x与z分别为鉴别器与生成器的输入；P_r,

P_z分别为真实数据概率分布，生成器生成数据概率分布，生成器输入数据概率分布。

进一步的，给定任意生成器G，相对应的最优的鉴别器为：

并且，相对应的所述目标函数计算结果为：

其中，p_r(x)，

分别为真实数据概率分布P_r与生成器生成数据概率分布

中概率元素。

进一步的，所述的方法为：所述目标函数与优化方式，从指数型信息测度角度，对生成器与鉴别器两个神经网络的损失函数进行制定。

进一步的，对生成器神经网络与鉴别器神经网络的损失函数进行制定，鉴别器神经网络损失函数的方程为：

与此同时，生成器神经网络损失函数的方程为：

其中，y_r为真实数据标签(y_r＝1)，

为生成器生成数据标签

D为鉴别器，G为生成器，且鉴别器与生成器均为神经网络；x与z分别为鉴别器与生成器的输入；P_r,

为达到上述目的，本发明基于指数型信息测度生成对抗网络的异常事件检测方法，包括：

S1利用指数型信息测度对生成对抗网络目标函数及其对应的优化方式进行设计，从而引导对抗网络生成数据；

S2基于S1所述目标函数与优化方式，从指数型信息测度角度，对生成器与鉴别器两个神经网络的损失函数进行制定；

S3设置生成器与鉴别器的两个神经网络的结构与基本初始参数；

S4利用目标数据集的训练数据对生成器与鉴别器进行训练，获得更新权重参数后的两个已训网络，及相应的生成数据；

S5利用所述生成器与鉴别器计算每个测试数据的异常属性指数；

S6根据异常属性指数对测试数据进行分类，完成异常事件检测。

进一步的，所述目标函数的方程为：

其对应的优化方式为：

进一步的，给定任意生成器G，相对应的最优的鉴别器为：

并且，相对应的所述目标函数计算结果为：

其中，p_r(x)，

分别为真实数据概率分布P_r与生成器生成数据概率分布

中概率元素。

进一步的，

所述的鉴别器神经网络损失函数的方程为：

所述的生成器神经网络损失函数的方程为：

其中，y_r为真实数据标签(y_r＝1)，

为生成器生成数据标签

进一步的，所述的S5利用所述生成器与鉴别器计算每个测试数据的异常属性指数，所述异常属性指数求解方式为：

ρ＝(1-η)(1-λ)||x-G(z_opt)||₂+(1-η)λH_ce(D(G(z_opt))，β)+ηH_ce(D(x)，β)

其中，η与λ均为权系数，满足η∈[0,1]与λ∈[0,1]；z_opt是潜在空间中的变量，其表达形式为：

并且，H_ce(D(·),β)为sigmoid函数交叉熵，其定义形式为：

其中，β为内部参数，其满足β＝1。

本发明根据生成对抗网络的目标函数能够影响其在异常事件检测中性能表现的特点，利用指数型信息测度设计生成对抗网络目标函数及其优化策略，进一步制定引导生成器与鉴别器两个神经网络参数更新的损失函数，同时设置生成对抗网络结构与初始参数并进行训练，获得相应生成数据，进而利用该网络计算每个测试数据的异常属性指数，从而对测试数据分类，实现异常事件检测。本发明能够通过基于指数型信息测度生成对抗网络对多维数据集中常规事件数据与异常事件数据进行分类，减小分类误差，提高异常事件检测性能。

附图说明

图1是本发明基于指数型信息测度生成对抗网络的训练和异常事件检测方法结构示意图；

图2不同种类信息测度的生成对抗网络进行异常事件检测实测结果比较图；

具体实施方式

下面结合说明书附图对本发明做进一步的描述。

实施例1

本实施例对抗网络数据生成方法为利用指数型信息测度对生成对抗网络目标函数及其对应的优化方式进行设计，从而引导对抗网络生成数据。

其中，所述目标函数的方程为：

其对应的优化方式为：

P_z分别为真实数据概率分布，生成器生成数据概率分布，生成器输入数据概率分布；

分别表示[]中项关于分布P_r,

P_z求均值计算

步骤一：试验数据准备与实施方式设计。所述方法的数据集需要具备多维特征或多层关系的数据样本，并且数据样本的类别可以被分为常规事件及异常事件。具体地，本实施例选定公开数据集Outlier Detection DataSets(缩写为ODDS)中子数据集ThyroidDisease Dataset为试验样本数据集。对此，所述方法目标为，基于指数型信息测度的生成对抗网络，对试验样本数据进行相似数据生成。具体地，实施方式内容包括：开发平台搭建(对应步骤二)、基于指数型测度生成对抗网络搭建(对应步骤三)、利用数据集训练生成对抗网络(对应步骤四)、对测试样本数据进行相似数据生成(对应步骤五)。

步骤二：开发平台搭建。所述实施例基于Pytorch平台在Windows10(版本号：1903)操作系统的环境中进行，安装并联调配置相应软件：Anaconda(版本：Anaconda3-2019.03(Python 3.7.3 64-bit))、Pytorch(版本：Pytorch-1.2.0)、Cuda(版本：Cuda-10.0)、PyCharm(版本：JetBrains PyCharm Community Edition-2019.2.1)。具体地，安装联调步骤为：首先，下载并安装Anaconda，同时配置添加其到系统路径环境变量，完成安装；然后，利用Anaconda下载并安装Pytorch与Cuda，具体地，打开Anaconda Prompt，先激活环境(语句：activate Pytorch_envs)，再输入语句：

conda install pytorch＝＝1.2.0 torchvision＝＝0.4.0 cudatoolkit＝10.0-c pytorch

完成所述下载与安装；最后，下载并安装PyCharm，完成后，将Anaconda安装目标下的python.exe添加到其解释器，以完成PyCharm与Anaconda联调；至此，开发平台搭建完成。

步骤三：基于指数型测度生成对抗网络搭建。首先，制定生成器网络损失函数Loss_G与鉴别器神经网络损失函数Loss_D，如图1中所示；然后，配置生成器与鉴别器两个神经网络结构，具体地，鉴别器神经网络结构的python语句为：

与此同时，生成器神经网络结构的python语句为：

进而，完成两个神经网络结构配置；最后，进行生成器与鉴别器的神经网络初始化设置。

步骤四：利用数据集训练生成对抗网络。首先，对样本数据集进行随机乱序处理，以辅助训练样本数与测试样本数的分配，此处，分配训练样本2800个，测试样本960个；然后，对原始训练样本预处理实现标准化，进而利用已处理样本，在一个训练循环内，先对鉴别器网络训练再对生成器网络训练，直到所设定的训练次数为止；最后，保存已训生成器与鉴别器两个神经网络，包括网络结构与网络参数，以便使用其获得生成数据。

步骤五：对测试样本数据进行相似数据生成。先针对每个测试样本真实数据进行标准化，然后利用生成器网络获得测试样本数据相似的生成数据。

实施例2

本实施例基于所述对抗网络的异常事件检测方法，包括：

步骤一：试验数据准备与总体系统设计。所述异常事件检测方法的数据集，需要具备多维特征或多层关系的数据样本，并且数据样本的类别可以被分为常规事件及异常事件。具体地，本实施例选定公开数据集Outlier Detection DataSets(缩写为ODDS)中子数据集Thyroid Disease Dataset为试验样本数据集。对此，总体系统目标为，基于指数型信息测度的生成对抗网络，对试验样本数据集中异常事件进行检测。具体地，总体系统设计如图1所示，包括：基于指数型信息测度的目标函数指导生成对抗网络搭建(对应步骤三)、训练生成器与鉴别器两个神经网络，获得相应的生成数据(对应步骤四)、基于异常属性指数的异常事件检测(对应步骤五、六)。

与此同时，生成器神经网络结构的python语句为：

步骤五：利用生成器网络与鉴别器网络，对测试样本进行异常属性指数计算。首先，针对每个测试样本真实数据进行标准化，并利用生成器网络获得测试样本生成数据；然后，利用求解优化问题的Adam算法，获得真实数据与生成数据的欧式距离(即2范数运算)到达最小值时(与此同时，将生成数据经过鉴别器的输出进行sigmoid函数交叉熵计算，作为正则化项，正则化权重λ＝0.1)，对应生成器潜在空间输入数据z_opt，及其对应生成数据G(z_opt)；随后，计算所述异常属性指数ρ，其定义式为：

ρ＝(1-η)(1-λ)||x-G(z_opt)||₂+(1-η)λH_ce(D(G(z_opt)),β)+ηH_ce(D(x),β)

其中，权重参数η＝0.05，且λ＝0.1；x是真实数据，D(x)为其对应的鉴别器输出；z_opt是所述生成器潜在空间输入数据，G(z_opt)为所述z_opt对应的生成数据；H_ce(D(·),β)为sigmoid函数交叉熵，其定义形式为：

其中，β为内部参数，其满足β＝1。

步骤六：根据测试样本异常属性指数，对进行样本分类，实现异常事件检测。首先，对每个测试样本计算出的异常属性指数进行归一化预处理，并根据训练经验设置样本异常属性指数门限T(此处，T＝0.2)；然后，将异常属性指数值低于门限T的样本标记“0”标签，高于门限的样本标记“1”标签，完成测试样本事件分类；至此，完成所要求的异常事件检测，即标签为“1”的样本为异常事件样本。

步骤七：绘制上述算法异常检测结果性能曲线和指标。将所述方法同其他基于不同信息测度生成对抗网络的异常检测方法进行比较，对所述其他方法，采用所述步骤四至六的方式进行处理，获得相对应的样本预测分类标签；然后，绘制所述异常检测方法与所述其他方法的检测结果性能曲线，具体地，Receiver Operating Characteristic曲线(缩写为ROC曲线)实测结果如图2中(a)所示；最后，重复本实施例试验20次，绘制AUC(Area UnderCurve)盒图与F₁分数盒图，如图2中(b)与(c)所示。

所述公开数据集Outlier Detection DataSets(缩写为ODDS)，包括多维度采样点数据集、用于事件检测的时间序列图数据集、时间序列采样点数据集、对抗/攻击场景和涉及安全领域的数据集、拥挤场景视频数据集共五类数据集。

进一步地，所述实施例选定数据集ODDS中子数据集Thyroid，下载网址：odds.cs.stonybrook.edu/thyroid-disease-dataset/，作为试验样本数据集，其特征为：样本真实属性6种(即6维属性特征)；样本类别分为甲亢类，非甲亢类，弱甲亢类三种，为实现异常检测，甲亢类数据被视为异常事件数据，其余两类为常规事件；样本数目为3772，其中，甲亢类样本数目为93(即异常事件样本占比约2.5％)。

所述生成器与鉴别器的神经网络初始化设置，包括：网络权重更新算法使用Adam，学习率为0.0001，单次训练样本数(即batch size)为40，训练次数为500等。

所述其他基于不同信息测度生成对抗网络的异常检测方法，包括：基于对数型信息测度(Kullback-Leibler距离)方法、基于多项式型信息测度(最小平方距离)方法与基于Wasserstein距离的生成对抗网络异常事件检测方法。

所述绘制Receiver Operating Characteristic曲线(缩写为ROC曲线)，实现之，可以利用Matlab软件，对所述测试样本的预测分类标签从小到大排序，按此顺序逐个把测试样本作为正例进行预测，每次计算出两个重要量的值：“真正例率”TPR与“假正例率”FPR，并分别以它们为纵、横坐标作图即可获得ROC曲线，其中，TPR与FPR定义公式分别为：

与

(TP为真正例，FP为真正例，FN为假负例，TN为真负例)。

进一步地，所述AUC(Area Under Curve)盒图与F₁分数盒图，根据多次重复试验结果获得，具体地，AUC可由计算ROC曲线下面积得出，F₁分数计算公式为：

其中，

并且，TP为真正例，FP为真正例，FN为假负例。

以上，仅为本发明的较佳实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求所界定的保护范围为准。