CN108737406B - 一种异常流量数据的检测方法及系统 - Google Patents
一种异常流量数据的检测方法及系统 Download PDFInfo
- Publication number
- CN108737406B CN108737406B CN201810444291.1A CN201810444291A CN108737406B CN 108737406 B CN108737406 B CN 108737406B CN 201810444291 A CN201810444291 A CN 201810444291A CN 108737406 B CN108737406 B CN 108737406B
- Authority
- CN
- China
- Prior art keywords
- flow data
- objective function
- abnormal
- piece
- ith
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000000513 principal component analysis Methods 0.000 claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 28
- 238000001514 detection method Methods 0.000 claims description 27
- 230000004044 response Effects 0.000 claims description 18
- 210000002569 neuron Anatomy 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 abstract description 15
- 238000010801 machine learning Methods 0.000 abstract description 8
- 238000012216 screening Methods 0.000 abstract description 8
- 230000008569 process Effects 0.000 abstract description 4
- 238000012847 principal component analysis method Methods 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011425 standardization method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明实施例提供一种异常流量数据的检测方法及系统。方法包括:将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取任一条流量数据对应的评分;若评分大于预设异常门限,则判定任一条流量数据为异常流量数据。本发明实施例提供的方法及系统,通过采用非监督式机器学习聚类算法中的主成分分析法和自动编码器进行异常流量数据的检测,可以对网络中的流量数据进行在线或者离线的检测,具有更加广泛的应用。并且,利用机器学习算法去检测网络中的异常流量数据,可以避免人为筛选过程中因自身原因造成的高筛选误差,使网络提前采取相应的行为从而降低网络遭受攻击和用户隐私泄露的概率。
Description
技术领域
本发明实施例涉及网络安全技术领域,尤其涉及一种异常流量数据的检测方法及系统。
背景技术
当今网络技术发展迅猛,网络每天都会产生数亿兆级别的流量,网络流量检测关系着网络安全和用户隐私安全等多方面问题,因而越来越受到人们的关注。网络异常流量检测是网络安全领域中一个非常重要且热门的研究方向。网络异常流量检测是指从大量混合的网络流量数据中把具有网络攻击行为的异常流量分离出来以区别于正常行为的流量数据。
网络安全中的异常流量检测要求检测系统能够快速准确地检测出网络中的异常流量,同时保证能够对在线流量实时检测尤为重要。针对目前现有的异常流量检测方法,其很难进行在线检测,同时当网络发生新的攻击行为时,现有的异常流量检测方法很难将其检测出来。
发明内容
本发明实施例提供一种异常流量数据的检测方法及系统,用以解决现有技术中无法快速准确地检测出网络中的异常流量数据且无法对在线流量数据进行实时检测的缺陷,提高了异常流量数据检测的效率和准确率,并能够对在线流量数据进行实时检测。
本发明实施例提供一种异常流量数据的检测方法,包括:
将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分;
若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据。
本发明实施例提供一种异常流量数据的检测系统,包括:
特征输入模块,用于将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分;
异常流量数据判定模块,用于若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据。
本发明实施例提供一种异常流量数据的检测设备,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述的方法。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述的方法。
本发明实施例提供的一种异常流量数据的检测方法及系统,通过采用非监督式机器学习聚类算法中的主成分分析法和自动编码器进行异常流量数据的检测,可以对网络中的流量数据进行在线或者离线的检测,具有更加广泛的应用。并且,利用机器学习算法去检测网络中的异常流量数据,可以避免人为筛选过程中因自身原因造成的高筛选误差,使网络提前采取相应的行为从而降低网络遭受攻击和用户隐私泄露的概率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种异常流量数据的检测方法实施例流程图;
图2为本发明一种异常流量数据的检测设备实施例结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一种异常流量数据的检测方法实施例流程图,如图1所示,该方法包括:
将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分。
若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据。
具体地,自动编码器模型属于神经网络的一种,主成分分析模型是一种运用主成分分析统计方法的模型。通过对自动编码器模型进行训练,生成训练好的自动编码器模型,通过对主成分分析模型进行训练,生成训练好的主成分分析模型。在待检测流量数据包中,选取任一条流量数据作为目标流量数据,将目标流量数据输入至训练好的自动编码器模型或训练好的主成分分析模型中,可以获取该条目标流量数据对应的评分。若该条目标流量数据的评分大于预设异常门限,则判定该条目标流量数据为异常流量数据。
本发明实施例提供的方法,通过采用非监督式机器学习聚类算法中的主成分分析法(PCA)和自动编码器(AutoEncoder)进行异常流量数据的检测,不需要事先为每一条流量数据打好标签(异常或者非异常),由算法自己学习流量数据的特征从而分离出异常的流量数据,可以对网络中的流量数据进行在线或者离线的检测,具有更加广泛的应用。并且,利用机器学习算法去检测网络中的异常流量数据,可以大大解放人力资源而且可以避免人为筛选过程中因自身原因造成的高筛选误差,使网络提前采取相应的行为从而降低网络遭受攻击和用户隐私泄露的概率。
基于上述实施例,所述将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分,之前还包括:
获取所述任一条流量数据的原始特征,其中,所述原始特征包括统计特征和/或字符特征。将所述原始特征进行标准化,以获取所述任一条流量数据的特征。
其中,标准化的公式如下:
具体地,由于流量数据的各维度特征值大小差距较大,有的特征值非常大,而有的特征值非常小,而特征值之间的不平衡严重影响着检测的结果。因此,本发明实施例对待检测流量数据包中的每一条流量数据的原始特征进行标准化,其比传统的归一化方法能更加有效的降低特征值差距非常大的不平衡性问题。
例如,一个待检测流量数据包中有100条流量数据,对于目标流量数据A的字符特征,都需要对该字符特征进行标准化。标准化的方法如下:获取100条流量数据中每一条流量数据的字符特征的以10为底的对数值,在100个对数值中挑选出一个最大的对数值,将目标流量数据A的字符特征的以10为底的对数值与最大的对数值相除,得到目标流量数据A的字符特征标准化之后的特征。
本发明实施例提供的方法,通过标准化的公式对任一条流量数据的原始特征进行标准化,再将进行了标准化后的特征输入至训练好的自动编码器模型或训练好的主成分分析模型中,以实现对异常流量数据的检测。相比传统的归一化方法,能更加有效的降低特征值差距非常大的不平衡性问题,提高了异常数据检测的准确率。
基于上述实施例,所述获取所述任一条流量数据的原始特征,进一步包括:
获取所述任一条流量数据的http请求字段。在所述http请求字段中,获取所述任一条流量数据的请求响应码、响应尺寸、请求参数、请求字符频率熵、请求字符频率和请求路径中的一种或任意多种,并作为所述任一条流量数据的统计特征。基于n-gram算法,获取所述任一条流量数据的字符特征。将所述统计特征和/或所述字符特征作为所述任一条流量数据的原始特征。
具体地,流量数据的统计特征主要包括请求响应码、响应尺寸、请求参数、请求字符频率熵、请求字符频率和请求路径六大类特征。其中,请求响应码特征包含五个维度分别表示200,403,404,304和others五类响应码类型;响应尺寸表示响应页面的比特数;请求参数表包括请求参数的长度、个数最大长度和最小长度四个维度;请求字符频率包括各个字符出现的频率;请求字符频率熵表示每个字符频率的熵;请求路径包括短路径的个数、最大长度、最小长度和长度四个维度。
流量数据的字符特征通过n-gram方法来提取,本发明实施例中采用了1-gram和2-gram方法。对于2-gram为了提高模型的泛化能力,英文字母和数字的组合表示成同一特征。例如,d3和z4是一样的,这样大大减少了特征的维度。
本发明实施例提供的方法,针对流量数据的特征提取的问题,首先从流量数据中提取出http请求字段,然后对该字段中所包含的信息进行进一步的特征提取,从而尽最大可能的表示流量所包含的信息。
基于上述实施例,所述训练好的自动编码器模型的训练步骤如下:
构建所述自动编码器模型的第一目标函数。在训练集上对所述第一目标函数进行训练,以使所述第一目标函数最小。
其中,构建所述第一目标函数L的公式如下:
其中,xi为将第i条流量数据的所有特征,xi'为将第i条流量数据的所有特征输入至自动编码器模型得到的输出向量,h为稀疏参数,hj为隐藏层中第j个神经元的活跃度。
所述训练好的主成分分析模型的训练步骤如下:
构建所述主成分分析模型的第二目标函数。在训练集上对所述第二目标函数进行训练,以使所述第二目标函数最大。
其中,构建所述第二目标函数M的公式如下:
针对模型的训练目标函数,本文分别对主成分分析模型和自动编码器模型设计其训练目标函数。对于主成分分析模型,在训练时要求用更少的数据特征维度来保留更多的原始数据特征,其目标函数如下:
对于自动编码器模型,设计一种稀疏自动编码器损失函数作为训练的目标函数,自动编码器模型的损失函数如下:
其中h是一个稀疏参数,通常设置为0.05,hj表示隐藏层中第j个神经元的活跃度。
基于上述实施例,所述自动编码器模型的网络结构包括输入层、若干个隐藏层和输出层;
其中,所述若干个隐藏层中任一隐藏层的神经元个数为5-8个,所述输入层和所述输出层的尺寸一致,每一隐藏层和所述输出层连接有偏置单元。
具体地,针对自编码器模型的网络结构的设计问题,不同的网络结构对异常流量数据的检测效果各不相同。网络层数越深,越能够学习到流量数据的更多信息检测效果在训练集上会非常明显,但是同样会出现过拟合的现象,造成模型泛化能力较低。相反,网络层数过浅,网络可能不能够学习到流量数据的充分信息,对于检测效果不太好。如何选择合适的网络结构是一个重难点。本发明实施例分别采用四种网络结构,其中间隐藏层的神经元个数分别包含:5,6,7,8这四种网络结构。由于网络的输入层和输出层的尺寸是一样的,这样才能满足自编码最小化重构误差这种特性。其中,在中间隐藏层和输出层都会加上一个偏置。
基于上述实施例,本发明实施例作为一个优选实施例,对上述实施例中两种模型的性能进行测试:
步骤一、获取数据集
本发明实施例使用了4个不同网络流量数据集进行训练,并对检测出来的异常流量数据和其原始标签进行了比较,得出了模型在不同训练参数下的检测结果。表1为数据集基本信息表,本发明实施例使用的4种数据集如表1所示:
表1 数据集基本信息表
数据集主要来自4个不同的网络系统,网络流量数据从某网站中收集了一个月,并且是由安全公司提供。其中数据集1共有174808条网络流量数据,正常流量数据和异常流量数据分别是142329条和32479条;数据集2共有133749条网络流量数据,正常流量数据和异常流量数据分别是112345条和21404条;数据集3共有122925条网络流量数据,正常流量数据和异常流量数据分别是92139条和30786条;数据集4共有93221条网络流量数据,正常流量数据和异常流量数据分别是75278条和17943条。
步骤二、对数据集进行特征提取
针对本发明实施例中所用到的数据集,主要对数据集每条流量数据进行了统计特征和字符特征的提取。首先从流量中提取出http请求字段,和请求响应码。
对于统计特征的提取,把所有请求响应码分为200、403、404、304和others五大类作为特征向量的五个维度。获取响应页面的比特数作为响应特征,由于该特征取值范围较大,对特征取值采取技术方案中所提出的数据标准化方法,以降低数据之间的不平衡性。对http请求字段的取值进行切分获取参数的相关特征值,切分方法首先采用“?”符号分离出请求参数集合,然后采用“&”符号分离每一个参数,最后用“=”分离参数和其取值。从而分别获得参数的长度、最大长度、最小长度和参数的个数。对http请求中的每个字符逐一统计该字符在这条http请求中所出现的频数,然后用各字符的频数除以这条http请求中所有字符的总数得出每个字符出现的频率。根据信息熵的计算公式算出http请求熵。对路径特征,首先用“?”符号分离出请求路径集合,然后采用“/”符号分离出各个请求短路径,然后分别统计短路径的个数、最大长度、最小长度和请求路径的长度。
对于字符特征的提取,采用n-gram的方法。分别设置长度为1和长度为2的滑动窗口在每条流量的http请求字段上滑动,获得不同的窗口,然后统计条流量的http请求字段不同窗口出现的频数。
步骤三、非监督聚类
采用主成分分析模型和自动编码器模型这两个算法模型,分别把流量数据的特征集作为两个模型的输入,模型输出得到每条流量数据的一个分数值。
(1)对于主成分分析模型,模型是一个线性模型。在训练时,首先初始化模型对数据特征压缩到小于原始特征维度的一个正整数来重构数据,从而获得分数值。
(2)对于自动编码器模型,模型是一个非线性模型。在训练时,初始化网络结构中间隐藏层的层数和每个隐藏层的神经元个数。同时,初始化每个神经元输出采用的激活函数。输出层重构原始数据,得到分数值。
步骤四、异常流量检测
根据步骤三中模型对每条流量数据的输出得分从高到低为每条流量排序。设置一个门限值p,选取前百分之p的流量作为检测到的异常流量数据。比较这些检测到的异常流量数据和其真实标签,分别计算出检测正确率,检测错误率和F1分数来表达模型的性能。
本发明实施例提供一种异常流量数据的检测系统,包括:
特征输入模块,用于将待检测流量数据包中每一条待检测流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述待检测流量数据对应的分值。
异常流量数据判定模块,用于若所述分值大于预设异常门限,则判定所述待检测流量数据为异常流量数据。
需要说明的是,本发明实施例的系统可用于执行图1所示的一种异常流量数据的检测方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本发明实施例提供的系统,通过采用非监督式机器学习聚类算法中的主成分分析法(PCA)和自动编码器(AutoEncoder)进行异常流量数据的检测,不需要事先为每一条流量数据打好标签(异常或者非异常),由算法自己学习流量数据的特征从而分离出异常的流量数据,可以对网络中的流量数据进行在线或者离线的检测,具有更加广泛的应用。并且,利用机器学习算法去检测网络中的异常流量数据,可以大大解放人力资源而且可以避免人为筛选过程中因自身原因造成的高筛选误差,使网络提前采取相应的行为从而降低网络遭受攻击和用户隐私泄露的概率。
基于上述实施例,本发明实施例提供的系统还包括:
原始特征获取模块,用于获取所述任一条流量数据的原始特征,其中,所述原始特征包括统计特征和/或字符特征;
标准化模块,用于将所述原始特征进行标准化,以获取所述任一条流量数据的特征;
其中,标准化的公式如下:
本发明实施例提供的系统,通过标准化的公式对任一条流量数据的原始特征进行标准化,再将进行了标准化后的特征输入至训练好的自动编码器模型或训练好的主成分分析模型中,以实现对异常流量数据的检测。相比传统的归一化方法,能更加有效的降低特征值差距非常大的不平衡性问题,提高了异常数据检测的准确率。
图2为本发明一种异常流量数据的检测设备实施例结构框图,如图2所示,所述设备包括:处理器(processor)201、存储器(memory)202和总线203;其中,所述处理器201和所述存储器202通过所述总线203完成相互间的通信;所述处理器201用于调用所述存储器202中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分;若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分;若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分;若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
综上,本发明实施例提供的一种异常流量数据的检测方法及系统,涉及网络安全技术领域,使网络可以检测攻击行为。通过对网络中异常流量数据的检测,判断网络是遭受到攻击。有益效果如下:
针对网络流量数据包,提供一种特征提取的方法,能够最大可能的表达每条流量数据所包含的信息,提高异常流量数据检测的准确率。
针对特征值取值范围较大的问题,提出一种新的数据标准化的方法,能够有效降低数据之间的不平衡性,大大提高模型检测异常流量数据的准确率。
针对自动编码器,设计一种适用于异常流量检测的网络结构,在保证异常流量检测准确率的条件下,尽可能降低网络结构的复杂度,减少计算量,从而提高训练速度。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种异常流量数据的检测方法,其特征在于,包括:
将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分;
若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据;
其中,所述训练好的自动编码器模型的训练步骤如下:
构建所述自动编码器模型的第一目标函数;
在训练集上对所述第一目标函数进行训练,以使所述第一目标函数最小;
其中,构建所述第一目标函数L的公式如下:
其中,xi为将第i条流量数据的所有特征,xi′为将第i条流量数据的所有特征输入至自动编码器模型得到的输出向量,h为稀疏参数,hj为隐藏层中第j个神经元的活跃度;
其中,所述训练好的主成分分析模型的训练步骤如下:
构建所述主成分分析模型的第二目标函数;
在训练集上对所述第二目标函数进行训练,以使所述第二目标函数最大;
其中,构建所述第二目标函数M的公式如下:
3.根据权利要求2所述的方法,其特征在于,所述获取所述任一条流量数据的原始特征,进一步包括:
获取所述任一条流量数据的http请求字段;
在所述http请求字段中,获取所述任一条流量数据的请求响应码、响应尺寸、请求参数、请求字符频率熵、请求字符频率和请求路径中的一种或任意多种,并作为所述任一条流量数据的统计特征;
基于n-gram算法,获取所述任一条流量数据的字符特征;
将所述统计特征和/或所述字符特征作为所述任一条流量数据的原始特征。
4.根据权利要求1所述的方法,其特征在于,所述自动编码器模型的网络结构包括输入层、若干个隐藏层和输出层;
其中,所述若干个隐藏层中任一隐藏层的神经元个数为5-8个,所述输入层和所述输出层的尺寸一致,每一隐藏层和所述输出层连接有偏置单元。
5.一种异常流量数据的检测系统,其特征在于,包括:
特征输入模块,用于将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分;
异常流量数据判定模块,用于若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据;
其中,所述异常流量数据的检测系统,还用于构建所述自动编码器模型的第一目标函数;在训练集上对所述第一目标函数进行训练,以使所述第一目标函数最小;
其中,构建所述第一目标函数L的公式如下:
其中,xi为将第i条流量数据的所有特征,xi′为将第i条流量数据的所有特征输入至自动编码器模型得到的输出向量,h为稀疏参数,hj为隐藏层中第j个神经元的活跃度;
其中,所述异常流量数据的检测系统,还用于构建所述主成分分析模型的第二目标函数;
在训练集上对所述第二目标函数进行训练,以使所述第二目标函数最大;
其中,构建所述第二目标函数M的公式如下:
7.一种异常流量数据的检测设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至4任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810444291.1A CN108737406B (zh) | 2018-05-10 | 2018-05-10 | 一种异常流量数据的检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810444291.1A CN108737406B (zh) | 2018-05-10 | 2018-05-10 | 一种异常流量数据的检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108737406A CN108737406A (zh) | 2018-11-02 |
CN108737406B true CN108737406B (zh) | 2020-08-04 |
Family
ID=63938105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810444291.1A Active CN108737406B (zh) | 2018-05-10 | 2018-05-10 | 一种异常流量数据的检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108737406B (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109583729B (zh) * | 2018-11-19 | 2023-06-20 | 创新先进技术有限公司 | 用于平台在线模型的数据处理方法和装置 |
CN109886833B (zh) * | 2019-01-21 | 2023-01-17 | 广东电网有限责任公司信息中心 | 一种面向智能电网服务器流量异常检测的深度学习方法 |
KR20200108523A (ko) * | 2019-03-05 | 2020-09-21 | 주식회사 엘렉시 | 이상 패턴 감지 시스템 및 방법 |
CN111835696B (zh) * | 2019-04-23 | 2023-05-09 | 阿里巴巴集团控股有限公司 | 一种检测异常请求个体的方法及装置 |
US11443137B2 (en) | 2019-07-31 | 2022-09-13 | Rohde & Schwarz Gmbh & Co. Kg | Method and apparatus for detecting signal features |
CN110572362B (zh) * | 2019-08-05 | 2020-09-15 | 北京邮电大学 | 针对多类不均衡异常流量的网络攻击检测方法及装置 |
CN110691100B (zh) * | 2019-10-28 | 2021-07-06 | 中国科学技术大学 | 基于深度学习的分层网络攻击识别与未知攻击检测方法 |
CN111030992B (zh) * | 2019-11-08 | 2022-04-15 | 厦门网宿有限公司 | 检测方法、服务器及计算机可读存储介质 |
CN111262857B (zh) * | 2020-01-16 | 2022-03-29 | 北京秒针人工智能科技有限公司 | 一种异常流量检测方法、装置、电子设备及存储介质 |
CN111556017B (zh) * | 2020-03-25 | 2021-07-27 | 中国科学院信息工程研究所 | 一种基于自编码机的网络入侵检测方法及电子装置 |
CN111669396B (zh) * | 2020-06-15 | 2022-11-29 | 绍兴文理学院 | 一种软件定义物联网自学习安全防御方法及系统 |
CN115043446B (zh) * | 2020-06-16 | 2024-01-23 | 浙江富春紫光环保股份有限公司 | 基于异常分类模型的污水处理进程的异常监控方法与系统 |
CN111787018A (zh) * | 2020-07-03 | 2020-10-16 | 中国工商银行股份有限公司 | 用于识别网络攻击行为的方法、装置、电子设备及介质 |
CN112104666B (zh) * | 2020-11-04 | 2021-04-02 | 广州竞远安全技术股份有限公司 | 一种基于gpu视频编码接口的异常网络流量高速检测系统及方法 |
CN112202817B (zh) * | 2020-11-30 | 2021-04-06 | 北京微智信业科技有限公司 | 一种基于多事件关联与机器学习的攻击行为检测方法 |
CN112688946B (zh) * | 2020-12-24 | 2022-06-24 | 工业信息安全(四川)创新中心有限公司 | 异常检测特征的构造方法、模块、存储介质、设备及系统 |
CN112434298B (zh) * | 2021-01-26 | 2021-07-06 | 浙江大学 | 一种基于自编码器集成的网络威胁检测系统 |
CN112839059B (zh) * | 2021-02-22 | 2022-08-30 | 北京六方云信息技术有限公司 | Web入侵检测自适应告警过滤处理方法、装置及电子设备 |
CN113297241A (zh) * | 2021-06-11 | 2021-08-24 | 工银科技有限公司 | 网络流量的判断方法、装置、设备、介质和程序产品 |
CN115941218A (zh) * | 2021-08-24 | 2023-04-07 | 中兴通讯股份有限公司 | 流量检测方法、装置、电子设备和存储介质 |
CN114257517B (zh) * | 2021-11-22 | 2022-11-29 | 中国科学院计算技术研究所 | 一种生成用于检测网络节点的状态的训练集的方法 |
CN114721264A (zh) * | 2022-03-21 | 2022-07-08 | 浙江工业大学 | 一种基于两阶段自编码器的工业信息物理系统攻击检测方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6718316B1 (en) * | 2000-10-04 | 2004-04-06 | The United States Of America As Represented By The Secretary Of The Navy | Neural network noise anomaly recognition system and method |
CN101150581A (zh) * | 2007-10-19 | 2008-03-26 | 华为技术有限公司 | 分布式拒绝服务攻击检测方法及装置 |
EP1914638A1 (en) * | 2006-10-18 | 2008-04-23 | Bp Oil International Limited | Abnormal event detection using principal component analysis |
CN101534305A (zh) * | 2009-04-24 | 2009-09-16 | 中国科学院计算技术研究所 | 网络流量异常检测方法和系统 |
CN105553998A (zh) * | 2015-12-23 | 2016-05-04 | 中国电子科技集团公司第三十研究所 | 一种网络攻击异常检测方法 |
CN105897517A (zh) * | 2016-06-20 | 2016-08-24 | 广东电网有限责任公司信息中心 | 一种基于svm的网络流量异常检测方法 |
CN106657065A (zh) * | 2016-12-23 | 2017-05-10 | 陕西理工学院 | 一种基于数据挖掘的网络异常检测方法 |
CN106663169A (zh) * | 2015-07-24 | 2017-05-10 | 策安保安有限公司 | 使用无监督式机器学习和优先权算法的高速威胁情报管理的系统及方法 |
CN106790008A (zh) * | 2016-12-13 | 2017-05-31 | 浙江中都信息技术有限公司 | 用于在企业网络中检测异常主机的机器学习系统 |
WO2017200558A1 (en) * | 2016-05-20 | 2017-11-23 | Informatica Llc | Method, apparatus, and computer-readable medium for detecting anomalous user behavior |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070192863A1 (en) * | 2005-07-01 | 2007-08-16 | Harsh Kapoor | Systems and methods for processing data flows |
US7349746B2 (en) * | 2004-09-10 | 2008-03-25 | Exxonmobil Research And Engineering Company | System and method for abnormal event detection in the operation of continuous industrial processes |
JP4603512B2 (ja) * | 2006-06-16 | 2010-12-22 | 独立行政法人産業技術総合研究所 | 異常領域検出装置および異常領域検出方法 |
EP3017403A2 (en) * | 2013-07-01 | 2016-05-11 | Agent Video Intelligence Ltd. | System and method for abnormality detection |
US9210181B1 (en) * | 2014-05-26 | 2015-12-08 | Solana Networks Inc. | Detection of anomaly in network flow data |
CN104778659A (zh) * | 2015-04-15 | 2015-07-15 | 杭州电子科技大学 | 基于深度学习的单帧图像超分辨率重建方法 |
-
2018
- 2018-05-10 CN CN201810444291.1A patent/CN108737406B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6718316B1 (en) * | 2000-10-04 | 2004-04-06 | The United States Of America As Represented By The Secretary Of The Navy | Neural network noise anomaly recognition system and method |
EP1914638A1 (en) * | 2006-10-18 | 2008-04-23 | Bp Oil International Limited | Abnormal event detection using principal component analysis |
CN101150581A (zh) * | 2007-10-19 | 2008-03-26 | 华为技术有限公司 | 分布式拒绝服务攻击检测方法及装置 |
CN101534305A (zh) * | 2009-04-24 | 2009-09-16 | 中国科学院计算技术研究所 | 网络流量异常检测方法和系统 |
CN106663169A (zh) * | 2015-07-24 | 2017-05-10 | 策安保安有限公司 | 使用无监督式机器学习和优先权算法的高速威胁情报管理的系统及方法 |
CN105553998A (zh) * | 2015-12-23 | 2016-05-04 | 中国电子科技集团公司第三十研究所 | 一种网络攻击异常检测方法 |
WO2017200558A1 (en) * | 2016-05-20 | 2017-11-23 | Informatica Llc | Method, apparatus, and computer-readable medium for detecting anomalous user behavior |
CN105897517A (zh) * | 2016-06-20 | 2016-08-24 | 广东电网有限责任公司信息中心 | 一种基于svm的网络流量异常检测方法 |
CN106790008A (zh) * | 2016-12-13 | 2017-05-31 | 浙江中都信息技术有限公司 | 用于在企业网络中检测异常主机的机器学习系统 |
CN106657065A (zh) * | 2016-12-23 | 2017-05-10 | 陕西理工学院 | 一种基于数据挖掘的网络异常检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108737406A (zh) | 2018-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108737406B (zh) | 一种异常流量数据的检测方法及系统 | |
CN108491817B (zh) | 一种事件检测模型训练方法、装置以及事件检测方法 | |
CN111881983B (zh) | 基于分类模型的数据处理方法、装置、电子设备及介质 | |
CN109302410B (zh) | 一种内部用户异常行为检测方法、系统及计算机存储介质 | |
CN110909348B (zh) | 一种内部威胁检测方法及装置 | |
CN112231562A (zh) | 一种网络谣言识别方法及系统 | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN115146068B (zh) | 关系三元组的抽取方法、装置、设备及存储介质 | |
CN112685324B (zh) | 一种生成测试方案的方法及系统 | |
CN111260620A (zh) | 图像异常检测方法、装置和电子设备 | |
CN111641608A (zh) | 异常用户识别方法、装置、电子设备及存储介质 | |
CN108667678A (zh) | 一种基于大数据的运维日志安全检测方法及装置 | |
CN115687925A (zh) | 针对不平衡样本的故障类型识别方法及装置 | |
CN114004283A (zh) | 文本对抗攻击方法、装置、设备和存储介质 | |
CN112948578B (zh) | 一种dga域名开集分类方法、装置、电子设备及介质 | |
CN114969334B (zh) | 异常日志检测方法、装置、电子设备及可读存储介质 | |
CN115659244A (zh) | 故障预测方法、装置及存储介质 | |
CN111737688B (zh) | 基于用户画像的攻击防御系统 | |
CN108846476A (zh) | 一种基于卷积神经网络的智能终端安全等级分类方法 | |
CN114118398A (zh) | 目标类型网站的检测方法、系统、电子设备及存储介质 | |
CN111581640A (zh) | 一种恶意软件检测方法、装置及设备、存储介质 | |
CN117272142A (zh) | 一种日志异常检测方法、系统及电子设备 | |
CN111209567B (zh) | 提高检测模型鲁棒性的可知性判断方法及装置 | |
CN115618297A (zh) | 识别异常企业的方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |