Nothing Special   »   [go: up one dir, main page]

CN108737406B - 一种异常流量数据的检测方法及系统 - Google Patents

一种异常流量数据的检测方法及系统 Download PDF

Info

Publication number
CN108737406B
CN108737406B CN201810444291.1A CN201810444291A CN108737406B CN 108737406 B CN108737406 B CN 108737406B CN 201810444291 A CN201810444291 A CN 201810444291A CN 108737406 B CN108737406 B CN 108737406B
Authority
CN
China
Prior art keywords
flow data
objective function
abnormal
piece
ith
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810444291.1A
Other languages
English (en)
Other versions
CN108737406A (zh
Inventor
王小娟
张勇
金磊
陈旭
由靖文
陈墨
宋梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201810444291.1A priority Critical patent/CN108737406B/zh
Publication of CN108737406A publication Critical patent/CN108737406A/zh
Application granted granted Critical
Publication of CN108737406B publication Critical patent/CN108737406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供一种异常流量数据的检测方法及系统。方法包括:将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取任一条流量数据对应的评分;若评分大于预设异常门限,则判定任一条流量数据为异常流量数据。本发明实施例提供的方法及系统,通过采用非监督式机器学习聚类算法中的主成分分析法和自动编码器进行异常流量数据的检测,可以对网络中的流量数据进行在线或者离线的检测,具有更加广泛的应用。并且,利用机器学习算法去检测网络中的异常流量数据,可以避免人为筛选过程中因自身原因造成的高筛选误差,使网络提前采取相应的行为从而降低网络遭受攻击和用户隐私泄露的概率。

Description

一种异常流量数据的检测方法及系统
技术领域
本发明实施例涉及网络安全技术领域,尤其涉及一种异常流量数据的检测方法及系统。
背景技术
当今网络技术发展迅猛,网络每天都会产生数亿兆级别的流量,网络流量检测关系着网络安全和用户隐私安全等多方面问题,因而越来越受到人们的关注。网络异常流量检测是网络安全领域中一个非常重要且热门的研究方向。网络异常流量检测是指从大量混合的网络流量数据中把具有网络攻击行为的异常流量分离出来以区别于正常行为的流量数据。
网络安全中的异常流量检测要求检测系统能够快速准确地检测出网络中的异常流量,同时保证能够对在线流量实时检测尤为重要。针对目前现有的异常流量检测方法,其很难进行在线检测,同时当网络发生新的攻击行为时,现有的异常流量检测方法很难将其检测出来。
发明内容
本发明实施例提供一种异常流量数据的检测方法及系统,用以解决现有技术中无法快速准确地检测出网络中的异常流量数据且无法对在线流量数据进行实时检测的缺陷,提高了异常流量数据检测的效率和准确率,并能够对在线流量数据进行实时检测。
本发明实施例提供一种异常流量数据的检测方法,包括:
将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分;
若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据。
本发明实施例提供一种异常流量数据的检测系统,包括:
特征输入模块,用于将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分;
异常流量数据判定模块,用于若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据。
本发明实施例提供一种异常流量数据的检测设备,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述的方法。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述的方法。
本发明实施例提供的一种异常流量数据的检测方法及系统,通过采用非监督式机器学习聚类算法中的主成分分析法和自动编码器进行异常流量数据的检测,可以对网络中的流量数据进行在线或者离线的检测,具有更加广泛的应用。并且,利用机器学习算法去检测网络中的异常流量数据,可以避免人为筛选过程中因自身原因造成的高筛选误差,使网络提前采取相应的行为从而降低网络遭受攻击和用户隐私泄露的概率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种异常流量数据的检测方法实施例流程图;
图2为本发明一种异常流量数据的检测设备实施例结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一种异常流量数据的检测方法实施例流程图,如图1所示,该方法包括:
将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分。
若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据。
具体地,自动编码器模型属于神经网络的一种,主成分分析模型是一种运用主成分分析统计方法的模型。通过对自动编码器模型进行训练,生成训练好的自动编码器模型,通过对主成分分析模型进行训练,生成训练好的主成分分析模型。在待检测流量数据包中,选取任一条流量数据作为目标流量数据,将目标流量数据输入至训练好的自动编码器模型或训练好的主成分分析模型中,可以获取该条目标流量数据对应的评分。若该条目标流量数据的评分大于预设异常门限,则判定该条目标流量数据为异常流量数据。
本发明实施例提供的方法,通过采用非监督式机器学习聚类算法中的主成分分析法(PCA)和自动编码器(AutoEncoder)进行异常流量数据的检测,不需要事先为每一条流量数据打好标签(异常或者非异常),由算法自己学习流量数据的特征从而分离出异常的流量数据,可以对网络中的流量数据进行在线或者离线的检测,具有更加广泛的应用。并且,利用机器学习算法去检测网络中的异常流量数据,可以大大解放人力资源而且可以避免人为筛选过程中因自身原因造成的高筛选误差,使网络提前采取相应的行为从而降低网络遭受攻击和用户隐私泄露的概率。
基于上述实施例,所述将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分,之前还包括:
获取所述任一条流量数据的原始特征,其中,所述原始特征包括统计特征和/或字符特征。将所述原始特征进行标准化,以获取所述任一条流量数据的特征。
其中,标准化的公式如下:
Figure BDA0001656806890000041
其中,
Figure BDA0001656806890000042
为待检测流量数据包中第k条流量数据的第i个特征,
Figure BDA0001656806890000043
为待检测流量数据包中第k条流量数据的第i个原始特征。
具体地,由于流量数据的各维度特征值大小差距较大,有的特征值非常大,而有的特征值非常小,而特征值之间的不平衡严重影响着检测的结果。因此,本发明实施例对待检测流量数据包中的每一条流量数据的原始特征进行标准化,其比传统的归一化方法能更加有效的降低特征值差距非常大的不平衡性问题。
例如,一个待检测流量数据包中有100条流量数据,对于目标流量数据A的字符特征,都需要对该字符特征进行标准化。标准化的方法如下:获取100条流量数据中每一条流量数据的字符特征的以10为底的对数值,在100个对数值中挑选出一个最大的对数值,将目标流量数据A的字符特征的以10为底的对数值与最大的对数值相除,得到目标流量数据A的字符特征标准化之后的特征。
本发明实施例提供的方法,通过标准化的公式对任一条流量数据的原始特征进行标准化,再将进行了标准化后的特征输入至训练好的自动编码器模型或训练好的主成分分析模型中,以实现对异常流量数据的检测。相比传统的归一化方法,能更加有效的降低特征值差距非常大的不平衡性问题,提高了异常数据检测的准确率。
基于上述实施例,所述获取所述任一条流量数据的原始特征,进一步包括:
获取所述任一条流量数据的http请求字段。在所述http请求字段中,获取所述任一条流量数据的请求响应码、响应尺寸、请求参数、请求字符频率熵、请求字符频率和请求路径中的一种或任意多种,并作为所述任一条流量数据的统计特征。基于n-gram算法,获取所述任一条流量数据的字符特征。将所述统计特征和/或所述字符特征作为所述任一条流量数据的原始特征。
具体地,流量数据的统计特征主要包括请求响应码、响应尺寸、请求参数、请求字符频率熵、请求字符频率和请求路径六大类特征。其中,请求响应码特征包含五个维度分别表示200,403,404,304和others五类响应码类型;响应尺寸表示响应页面的比特数;请求参数表包括请求参数的长度、个数最大长度和最小长度四个维度;请求字符频率包括各个字符出现的频率;请求字符频率熵表示每个字符频率的熵;请求路径包括短路径的个数、最大长度、最小长度和长度四个维度。
流量数据的字符特征通过n-gram方法来提取,本发明实施例中采用了1-gram和2-gram方法。对于2-gram为了提高模型的泛化能力,英文字母和数字的组合表示成同一特征。例如,d3和z4是一样的,这样大大减少了特征的维度。
本发明实施例提供的方法,针对流量数据的特征提取的问题,首先从流量数据中提取出http请求字段,然后对该字段中所包含的信息进行进一步的特征提取,从而尽最大可能的表示流量所包含的信息。
基于上述实施例,所述训练好的自动编码器模型的训练步骤如下:
构建所述自动编码器模型的第一目标函数。在训练集上对所述第一目标函数进行训练,以使所述第一目标函数最小。
其中,构建所述第一目标函数L的公式如下:
Figure BDA0001656806890000051
其中,xi为将第i条流量数据的所有特征,xi'为将第i条流量数据的所有特征输入至自动编码器模型得到的输出向量,h为稀疏参数,hj为隐藏层中第j个神经元的活跃度。
所述训练好的主成分分析模型的训练步骤如下:
构建所述主成分分析模型的第二目标函数。在训练集上对所述第二目标函数进行训练,以使所述第二目标函数最大。
其中,构建所述第二目标函数M的公式如下:
Figure BDA0001656806890000061
其中,di为第i条流量数据的所有特征维度,
Figure BDA0001656806890000062
为第i条重构流量数据的所有特征维度,W为各维度的特征权值。
针对模型的训练目标函数,本文分别对主成分分析模型和自动编码器模型设计其训练目标函数。对于主成分分析模型,在训练时要求用更少的数据特征维度来保留更多的原始数据特征,其目标函数如下:
Figure BDA0001656806890000063
其中di
Figure BDA0001656806890000064
分别表示原始数据和重构数据的所有特征维度,W表示各维度的特征权值。
对于自动编码器模型,设计一种稀疏自动编码器损失函数作为训练的目标函数,自动编码器模型的损失函数如下:
Figure BDA0001656806890000065
其中h是一个稀疏参数,通常设置为0.05,hj表示隐藏层中第j个神经元的活跃度。
基于上述实施例,所述自动编码器模型的网络结构包括输入层、若干个隐藏层和输出层;
其中,所述若干个隐藏层中任一隐藏层的神经元个数为5-8个,所述输入层和所述输出层的尺寸一致,每一隐藏层和所述输出层连接有偏置单元。
具体地,针对自编码器模型的网络结构的设计问题,不同的网络结构对异常流量数据的检测效果各不相同。网络层数越深,越能够学习到流量数据的更多信息检测效果在训练集上会非常明显,但是同样会出现过拟合的现象,造成模型泛化能力较低。相反,网络层数过浅,网络可能不能够学习到流量数据的充分信息,对于检测效果不太好。如何选择合适的网络结构是一个重难点。本发明实施例分别采用四种网络结构,其中间隐藏层的神经元个数分别包含:5,6,7,8这四种网络结构。由于网络的输入层和输出层的尺寸是一样的,这样才能满足自编码最小化重构误差这种特性。其中,在中间隐藏层和输出层都会加上一个偏置。
基于上述实施例,本发明实施例作为一个优选实施例,对上述实施例中两种模型的性能进行测试:
步骤一、获取数据集
本发明实施例使用了4个不同网络流量数据集进行训练,并对检测出来的异常流量数据和其原始标签进行了比较,得出了模型在不同训练参数下的检测结果。表1为数据集基本信息表,本发明实施例使用的4种数据集如表1所示:
表1 数据集基本信息表
Figure BDA0001656806890000071
数据集主要来自4个不同的网络系统,网络流量数据从某网站中收集了一个月,并且是由安全公司提供。其中数据集1共有174808条网络流量数据,正常流量数据和异常流量数据分别是142329条和32479条;数据集2共有133749条网络流量数据,正常流量数据和异常流量数据分别是112345条和21404条;数据集3共有122925条网络流量数据,正常流量数据和异常流量数据分别是92139条和30786条;数据集4共有93221条网络流量数据,正常流量数据和异常流量数据分别是75278条和17943条。
步骤二、对数据集进行特征提取
针对本发明实施例中所用到的数据集,主要对数据集每条流量数据进行了统计特征和字符特征的提取。首先从流量中提取出http请求字段,和请求响应码。
对于统计特征的提取,把所有请求响应码分为200、403、404、304和others五大类作为特征向量的五个维度。获取响应页面的比特数作为响应特征,由于该特征取值范围较大,对特征取值采取技术方案中所提出的数据标准化方法,以降低数据之间的不平衡性。对http请求字段的取值进行切分获取参数的相关特征值,切分方法首先采用“?”符号分离出请求参数集合,然后采用“&”符号分离每一个参数,最后用“=”分离参数和其取值。从而分别获得参数的长度、最大长度、最小长度和参数的个数。对http请求中的每个字符逐一统计该字符在这条http请求中所出现的频数,然后用各字符的频数除以这条http请求中所有字符的总数得出每个字符出现的频率。根据信息熵的计算公式算出http请求熵。对路径特征,首先用“?”符号分离出请求路径集合,然后采用“/”符号分离出各个请求短路径,然后分别统计短路径的个数、最大长度、最小长度和请求路径的长度。
对于字符特征的提取,采用n-gram的方法。分别设置长度为1和长度为2的滑动窗口在每条流量的http请求字段上滑动,获得不同的窗口,然后统计条流量的http请求字段不同窗口出现的频数。
步骤三、非监督聚类
采用主成分分析模型和自动编码器模型这两个算法模型,分别把流量数据的特征集作为两个模型的输入,模型输出得到每条流量数据的一个分数值。
(1)对于主成分分析模型,模型是一个线性模型。在训练时,首先初始化模型对数据特征压缩到小于原始特征维度的一个正整数来重构数据,从而获得分数值。
(2)对于自动编码器模型,模型是一个非线性模型。在训练时,初始化网络结构中间隐藏层的层数和每个隐藏层的神经元个数。同时,初始化每个神经元输出采用的激活函数。输出层重构原始数据,得到分数值。
步骤四、异常流量检测
根据步骤三中模型对每条流量数据的输出得分从高到低为每条流量排序。设置一个门限值p,选取前百分之p的流量作为检测到的异常流量数据。比较这些检测到的异常流量数据和其真实标签,分别计算出检测正确率,检测错误率和F1分数来表达模型的性能。
本发明实施例提供一种异常流量数据的检测系统,包括:
特征输入模块,用于将待检测流量数据包中每一条待检测流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述待检测流量数据对应的分值。
异常流量数据判定模块,用于若所述分值大于预设异常门限,则判定所述待检测流量数据为异常流量数据。
需要说明的是,本发明实施例的系统可用于执行图1所示的一种异常流量数据的检测方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本发明实施例提供的系统,通过采用非监督式机器学习聚类算法中的主成分分析法(PCA)和自动编码器(AutoEncoder)进行异常流量数据的检测,不需要事先为每一条流量数据打好标签(异常或者非异常),由算法自己学习流量数据的特征从而分离出异常的流量数据,可以对网络中的流量数据进行在线或者离线的检测,具有更加广泛的应用。并且,利用机器学习算法去检测网络中的异常流量数据,可以大大解放人力资源而且可以避免人为筛选过程中因自身原因造成的高筛选误差,使网络提前采取相应的行为从而降低网络遭受攻击和用户隐私泄露的概率。
基于上述实施例,本发明实施例提供的系统还包括:
原始特征获取模块,用于获取所述任一条流量数据的原始特征,其中,所述原始特征包括统计特征和/或字符特征;
标准化模块,用于将所述原始特征进行标准化,以获取所述任一条流量数据的特征;
其中,标准化的公式如下:
Figure BDA0001656806890000091
其中,
Figure BDA0001656806890000092
为待检测流量数据包中第k条流量数据的第i个特征,
Figure BDA0001656806890000093
为待检测流量数据包中第k条流量数据的第i个原始特征。
本发明实施例提供的系统,通过标准化的公式对任一条流量数据的原始特征进行标准化,再将进行了标准化后的特征输入至训练好的自动编码器模型或训练好的主成分分析模型中,以实现对异常流量数据的检测。相比传统的归一化方法,能更加有效的降低特征值差距非常大的不平衡性问题,提高了异常数据检测的准确率。
图2为本发明一种异常流量数据的检测设备实施例结构框图,如图2所示,所述设备包括:处理器(processor)201、存储器(memory)202和总线203;其中,所述处理器201和所述存储器202通过所述总线203完成相互间的通信;所述处理器201用于调用所述存储器202中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分;若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分;若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分;若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
综上,本发明实施例提供的一种异常流量数据的检测方法及系统,涉及网络安全技术领域,使网络可以检测攻击行为。通过对网络中异常流量数据的检测,判断网络是遭受到攻击。有益效果如下:
针对网络流量数据包,提供一种特征提取的方法,能够最大可能的表达每条流量数据所包含的信息,提高异常流量数据检测的准确率。
针对特征值取值范围较大的问题,提出一种新的数据标准化的方法,能够有效降低数据之间的不平衡性,大大提高模型检测异常流量数据的准确率。
针对自动编码器,设计一种适用于异常流量检测的网络结构,在保证异常流量检测准确率的条件下,尽可能降低网络结构的复杂度,减少计算量,从而提高训练速度。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种异常流量数据的检测方法,其特征在于,包括:
将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分;
若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据;
其中,所述训练好的自动编码器模型的训练步骤如下:
构建所述自动编码器模型的第一目标函数;
在训练集上对所述第一目标函数进行训练,以使所述第一目标函数最小;
其中,构建所述第一目标函数L的公式如下:
Figure FDA0002445918290000011
其中,xi为将第i条流量数据的所有特征,xi′为将第i条流量数据的所有特征输入至自动编码器模型得到的输出向量,h为稀疏参数,hj为隐藏层中第j个神经元的活跃度;
其中,所述训练好的主成分分析模型的训练步骤如下:
构建所述主成分分析模型的第二目标函数;
在训练集上对所述第二目标函数进行训练,以使所述第二目标函数最大;
其中,构建所述第二目标函数M的公式如下:
Figure FDA0002445918290000012
其中,di为第i条流量数据的所有特征维度,
Figure FDA0002445918290000013
为第i条重构流量数据的所有特征维度,W为各维度的特征权值。
2.根据权利要求1所述的方法,其特征在于,所述将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分,之前还包括:
获取所述任一条流量数据的原始特征,其中,所述原始特征包括统计特征和/或字符特征;
将所述原始特征进行标准化,以获取所述任一条流量数据的特征;
其中,标准化的公式如下:
Figure FDA0002445918290000021
其中,
Figure FDA0002445918290000022
为待检测流量数据包中第k条流量数据的第i个特征,
Figure FDA0002445918290000023
为待检测流量数据包中第k条流量数据的第i个原始特征。
3.根据权利要求2所述的方法,其特征在于,所述获取所述任一条流量数据的原始特征,进一步包括:
获取所述任一条流量数据的http请求字段;
在所述http请求字段中,获取所述任一条流量数据的请求响应码、响应尺寸、请求参数、请求字符频率熵、请求字符频率和请求路径中的一种或任意多种,并作为所述任一条流量数据的统计特征;
基于n-gram算法,获取所述任一条流量数据的字符特征;
将所述统计特征和/或所述字符特征作为所述任一条流量数据的原始特征。
4.根据权利要求1所述的方法,其特征在于,所述自动编码器模型的网络结构包括输入层、若干个隐藏层和输出层;
其中,所述若干个隐藏层中任一隐藏层的神经元个数为5-8个,所述输入层和所述输出层的尺寸一致,每一隐藏层和所述输出层连接有偏置单元。
5.一种异常流量数据的检测系统,其特征在于,包括:
特征输入模块,用于将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分;
异常流量数据判定模块,用于若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据;
其中,所述异常流量数据的检测系统,还用于构建所述自动编码器模型的第一目标函数;在训练集上对所述第一目标函数进行训练,以使所述第一目标函数最小;
其中,构建所述第一目标函数L的公式如下:
Figure FDA0002445918290000031
其中,xi为将第i条流量数据的所有特征,xi′为将第i条流量数据的所有特征输入至自动编码器模型得到的输出向量,h为稀疏参数,hj为隐藏层中第j个神经元的活跃度;
其中,所述异常流量数据的检测系统,还用于构建所述主成分分析模型的第二目标函数;
在训练集上对所述第二目标函数进行训练,以使所述第二目标函数最大;
其中,构建所述第二目标函数M的公式如下:
Figure FDA0002445918290000032
其中,di为第i条流量数据的所有特征维度,
Figure FDA0002445918290000033
为第i条重构流量数据的所有特征维度,W为各维度的特征权值。
6.根据权利要求5所述的系统,其特征在于,还包括:
原始特征获取模块,用于获取所述任一条流量数据的原始特征,其中,所述原始特征包括统计特征和/或字符特征;
标准化模块,用于将所述原始特征进行标准化,以获取所述任一条流量数据的特征;
其中,标准化的公式如下:
Figure FDA0002445918290000034
其中,
Figure FDA0002445918290000035
为待检测流量数据包中第k条流量数据的第i个特征,
Figure FDA0002445918290000036
为待检测流量数据包中第k条流量数据的第i个原始特征。
7.一种异常流量数据的检测设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至4任一所述的方法。
CN201810444291.1A 2018-05-10 2018-05-10 一种异常流量数据的检测方法及系统 Active CN108737406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810444291.1A CN108737406B (zh) 2018-05-10 2018-05-10 一种异常流量数据的检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810444291.1A CN108737406B (zh) 2018-05-10 2018-05-10 一种异常流量数据的检测方法及系统

Publications (2)

Publication Number Publication Date
CN108737406A CN108737406A (zh) 2018-11-02
CN108737406B true CN108737406B (zh) 2020-08-04

Family

ID=63938105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810444291.1A Active CN108737406B (zh) 2018-05-10 2018-05-10 一种异常流量数据的检测方法及系统

Country Status (1)

Country Link
CN (1) CN108737406B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583729B (zh) * 2018-11-19 2023-06-20 创新先进技术有限公司 用于平台在线模型的数据处理方法和装置
CN109886833B (zh) * 2019-01-21 2023-01-17 广东电网有限责任公司信息中心 一种面向智能电网服务器流量异常检测的深度学习方法
KR20200108523A (ko) * 2019-03-05 2020-09-21 주식회사 엘렉시 이상 패턴 감지 시스템 및 방법
CN111835696B (zh) * 2019-04-23 2023-05-09 阿里巴巴集团控股有限公司 一种检测异常请求个体的方法及装置
US11443137B2 (en) 2019-07-31 2022-09-13 Rohde & Schwarz Gmbh & Co. Kg Method and apparatus for detecting signal features
CN110572362B (zh) * 2019-08-05 2020-09-15 北京邮电大学 针对多类不均衡异常流量的网络攻击检测方法及装置
CN110691100B (zh) * 2019-10-28 2021-07-06 中国科学技术大学 基于深度学习的分层网络攻击识别与未知攻击检测方法
CN111030992B (zh) * 2019-11-08 2022-04-15 厦门网宿有限公司 检测方法、服务器及计算机可读存储介质
CN111262857B (zh) * 2020-01-16 2022-03-29 北京秒针人工智能科技有限公司 一种异常流量检测方法、装置、电子设备及存储介质
CN111556017B (zh) * 2020-03-25 2021-07-27 中国科学院信息工程研究所 一种基于自编码机的网络入侵检测方法及电子装置
CN111669396B (zh) * 2020-06-15 2022-11-29 绍兴文理学院 一种软件定义物联网自学习安全防御方法及系统
CN115043446B (zh) * 2020-06-16 2024-01-23 浙江富春紫光环保股份有限公司 基于异常分类模型的污水处理进程的异常监控方法与系统
CN111787018A (zh) * 2020-07-03 2020-10-16 中国工商银行股份有限公司 用于识别网络攻击行为的方法、装置、电子设备及介质
CN112104666B (zh) * 2020-11-04 2021-04-02 广州竞远安全技术股份有限公司 一种基于gpu视频编码接口的异常网络流量高速检测系统及方法
CN112202817B (zh) * 2020-11-30 2021-04-06 北京微智信业科技有限公司 一种基于多事件关联与机器学习的攻击行为检测方法
CN112688946B (zh) * 2020-12-24 2022-06-24 工业信息安全(四川)创新中心有限公司 异常检测特征的构造方法、模块、存储介质、设备及系统
CN112434298B (zh) * 2021-01-26 2021-07-06 浙江大学 一种基于自编码器集成的网络威胁检测系统
CN112839059B (zh) * 2021-02-22 2022-08-30 北京六方云信息技术有限公司 Web入侵检测自适应告警过滤处理方法、装置及电子设备
CN113297241A (zh) * 2021-06-11 2021-08-24 工银科技有限公司 网络流量的判断方法、装置、设备、介质和程序产品
CN115941218A (zh) * 2021-08-24 2023-04-07 中兴通讯股份有限公司 流量检测方法、装置、电子设备和存储介质
CN114257517B (zh) * 2021-11-22 2022-11-29 中国科学院计算技术研究所 一种生成用于检测网络节点的状态的训练集的方法
CN114721264A (zh) * 2022-03-21 2022-07-08 浙江工业大学 一种基于两阶段自编码器的工业信息物理系统攻击检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6718316B1 (en) * 2000-10-04 2004-04-06 The United States Of America As Represented By The Secretary Of The Navy Neural network noise anomaly recognition system and method
CN101150581A (zh) * 2007-10-19 2008-03-26 华为技术有限公司 分布式拒绝服务攻击检测方法及装置
EP1914638A1 (en) * 2006-10-18 2008-04-23 Bp Oil International Limited Abnormal event detection using principal component analysis
CN101534305A (zh) * 2009-04-24 2009-09-16 中国科学院计算技术研究所 网络流量异常检测方法和系统
CN105553998A (zh) * 2015-12-23 2016-05-04 中国电子科技集团公司第三十研究所 一种网络攻击异常检测方法
CN105897517A (zh) * 2016-06-20 2016-08-24 广东电网有限责任公司信息中心 一种基于svm的网络流量异常检测方法
CN106657065A (zh) * 2016-12-23 2017-05-10 陕西理工学院 一种基于数据挖掘的网络异常检测方法
CN106663169A (zh) * 2015-07-24 2017-05-10 策安保安有限公司 使用无监督式机器学习和优先权算法的高速威胁情报管理的系统及方法
CN106790008A (zh) * 2016-12-13 2017-05-31 浙江中都信息技术有限公司 用于在企业网络中检测异常主机的机器学习系统
WO2017200558A1 (en) * 2016-05-20 2017-11-23 Informatica Llc Method, apparatus, and computer-readable medium for detecting anomalous user behavior

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070192863A1 (en) * 2005-07-01 2007-08-16 Harsh Kapoor Systems and methods for processing data flows
US7349746B2 (en) * 2004-09-10 2008-03-25 Exxonmobil Research And Engineering Company System and method for abnormal event detection in the operation of continuous industrial processes
JP4603512B2 (ja) * 2006-06-16 2010-12-22 独立行政法人産業技術総合研究所 異常領域検出装置および異常領域検出方法
EP3017403A2 (en) * 2013-07-01 2016-05-11 Agent Video Intelligence Ltd. System and method for abnormality detection
US9210181B1 (en) * 2014-05-26 2015-12-08 Solana Networks Inc. Detection of anomaly in network flow data
CN104778659A (zh) * 2015-04-15 2015-07-15 杭州电子科技大学 基于深度学习的单帧图像超分辨率重建方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6718316B1 (en) * 2000-10-04 2004-04-06 The United States Of America As Represented By The Secretary Of The Navy Neural network noise anomaly recognition system and method
EP1914638A1 (en) * 2006-10-18 2008-04-23 Bp Oil International Limited Abnormal event detection using principal component analysis
CN101150581A (zh) * 2007-10-19 2008-03-26 华为技术有限公司 分布式拒绝服务攻击检测方法及装置
CN101534305A (zh) * 2009-04-24 2009-09-16 中国科学院计算技术研究所 网络流量异常检测方法和系统
CN106663169A (zh) * 2015-07-24 2017-05-10 策安保安有限公司 使用无监督式机器学习和优先权算法的高速威胁情报管理的系统及方法
CN105553998A (zh) * 2015-12-23 2016-05-04 中国电子科技集团公司第三十研究所 一种网络攻击异常检测方法
WO2017200558A1 (en) * 2016-05-20 2017-11-23 Informatica Llc Method, apparatus, and computer-readable medium for detecting anomalous user behavior
CN105897517A (zh) * 2016-06-20 2016-08-24 广东电网有限责任公司信息中心 一种基于svm的网络流量异常检测方法
CN106790008A (zh) * 2016-12-13 2017-05-31 浙江中都信息技术有限公司 用于在企业网络中检测异常主机的机器学习系统
CN106657065A (zh) * 2016-12-23 2017-05-10 陕西理工学院 一种基于数据挖掘的网络异常检测方法

Also Published As

Publication number Publication date
CN108737406A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN108737406B (zh) 一种异常流量数据的检测方法及系统
CN108491817B (zh) 一种事件检测模型训练方法、装置以及事件检测方法
CN111881983B (zh) 基于分类模型的数据处理方法、装置、电子设备及介质
CN109302410B (zh) 一种内部用户异常行为检测方法、系统及计算机存储介质
CN110909348B (zh) 一种内部威胁检测方法及装置
CN112231562A (zh) 一种网络谣言识别方法及系统
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN115146068B (zh) 关系三元组的抽取方法、装置、设备及存储介质
CN112685324B (zh) 一种生成测试方案的方法及系统
CN111260620A (zh) 图像异常检测方法、装置和电子设备
CN111641608A (zh) 异常用户识别方法、装置、电子设备及存储介质
CN108667678A (zh) 一种基于大数据的运维日志安全检测方法及装置
CN115687925A (zh) 针对不平衡样本的故障类型识别方法及装置
CN114004283A (zh) 文本对抗攻击方法、装置、设备和存储介质
CN112948578B (zh) 一种dga域名开集分类方法、装置、电子设备及介质
CN114969334B (zh) 异常日志检测方法、装置、电子设备及可读存储介质
CN115659244A (zh) 故障预测方法、装置及存储介质
CN111737688B (zh) 基于用户画像的攻击防御系统
CN108846476A (zh) 一种基于卷积神经网络的智能终端安全等级分类方法
CN114118398A (zh) 目标类型网站的检测方法、系统、电子设备及存储介质
CN111581640A (zh) 一种恶意软件检测方法、装置及设备、存储介质
CN117272142A (zh) 一种日志异常检测方法、系统及电子设备
CN111209567B (zh) 提高检测模型鲁棒性的可知性判断方法及装置
CN115618297A (zh) 识别异常企业的方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant