CN113746862A - 一种基于机器学习的异常流量检测方法、装置和设备 - Google Patents
一种基于机器学习的异常流量检测方法、装置和设备 Download PDFInfo
- Publication number
- CN113746862A CN113746862A CN202111075333.7A CN202111075333A CN113746862A CN 113746862 A CN113746862 A CN 113746862A CN 202111075333 A CN202111075333 A CN 202111075333A CN 113746862 A CN113746862 A CN 113746862A
- Authority
- CN
- China
- Prior art keywords
- data set
- time sequence
- sequence data
- data
- periodic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 85
- 238000001514 detection method Methods 0.000 title claims abstract description 69
- 238000010801 machine learning Methods 0.000 title claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 230000002547 anomalous effect Effects 0.000 claims abstract description 7
- 230000000737 periodic effect Effects 0.000 claims description 90
- 230000009466 transformation Effects 0.000 claims description 38
- 238000000034 method Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 19
- 238000001914 filtration Methods 0.000 claims description 11
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 238000007689 inspection Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 8
- 230000005856 abnormality Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于机器学习的异常流量检测方法、装置和设备。一种基于机器学习的异常流量检测方法,包括:获取网络流量数据;根据所述网络流量数据得到底层流量数据话单;对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;确定时序数据集中大小超过时序数据集基线范围的第一异常数据。本实施例的技术方案,解决了人工对网络流量进行检测需要耗费大量人力,准确性也难以得到保障的问题,达到了精确地确定网络流量中的异常数据的效果。
Description
技术领域
本发明实施例涉及网络安全及机器学习技术,尤其涉及一种基于机器学习的异常流量检测方法、装置和设备。
背景技术
随着计算机网络的日益发展,网络规模扩大,创新性的应用模式和需求的不断涌现,导致呈现出了越来越多的安全问题,出现各种安全事件和网络异常的可能性增大,这些安全事件和网络异常极大地增加了检测和管理的难度。
现有技术中,网络管理者通过人工实时对网络流量进行检测可以及时有效地发觉网络异常,并产生相应的报警,防止异常的进一步传播和扩大,从而为阻断网络异常行为提供决策依据,并为网络安全的管控提供技术支持和保障。
然而,发明人在实现本发明的过程中,发现现有技术存在如下缺陷:人工对网络流量进行检测需要耗费大量人力,准确性也难以得到保障。
发明内容
本发明提供一种基于机器学习的异常流量检测方法、装置和设备,以实现精确地确定网络流量中的异常数据的效果。
第一方面,本发明实施例提供了一种基于机器学习的异常流量检测方法,包括:
获取网络流量数据;
根据所述网络流量数据得到底层流量数据话单;
对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;
确定时序数据集中大小超过时序数据集基线范围的第一异常数据。
第二方面,本发明实施例还提供了一种基于机器学习的异常流量检测装置,包括:
网络流量获取模块,用于获取网络流量数据;
数据话单获取模块,用于根据所述网络流量数据得到底层流量数据话单;
数据预处理模块,用于对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;
第一异常数据确定模块,用于确定时序数据集中大小超过时序数据集基线范围的第一异常数据。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如实施例中任一所述的基于机器学习的异常流量检测方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,该计算机可执行指令被处理器执行时实现如实施例中任一所述的基于机器学习的异常流量检测方法。
本实施例的技术方案,通过获取网络流量数据;根据所述网络流量数据得到底层流量数据话单;对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;确定时序数据集中大小超过时序数据集基线范围的第一异常数据,解决了人工对网络流量进行检测需要耗费大量人力,准确性也难以得到保障的问题,达到了精确地确定网络流量中的异常数据的效果。
附图说明
图1为本发明实施例一提供的一种基于机器学习的异常流量检测方法的流程图;
图2为对时序数据进行预处理的流程图;
图3为本发明实施例二提供的一种基于机器学习的异常流量检测方法的流程图;
图4为得到周期时序数据集阈值基线的流程图;
图5为得到非周期时序数据集阈值基线的流程图;
图6为本发明实施例三提供的一种基于机器学习的异常流量检测装置的结构图;
图7为本发明实施例四提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
机器学习是人工智能研究领域的核心课题之一,具有深刻的理论内蕴,在本发明中主要体现在通过已有的数据来对检测机制进行训练和优化,从而准确地对异常流量进行检测。
实施例一
图1为本发明实施例一提供的一种基于机器学习的异常流量检测方法的流程图,本实施例可适用于利用机器学习技术来对网络数据中的异常流量进行检测的情况,该方法可以由一种基于机器学习的异常流量检测装置来执行,具体包括如下步骤:
S110、获取网络流量数据。
本发明所检测的异常,主要体现在数据量的异常上,例如,某IP对应的客户端通常情况下在早8点至9点之间网络流量数据量为5GB,如果某天该IP对应的客户端在早8点至9点之间网络流量数据量为50GB,远大于通常的5GB,则认为50GB的网络流量数据量可能存在异常。
这里所述的获取网络流量数据是指获取一段时间内的流量数据,例如,1天内、1周内或者1月内的流量数据。
S120、根据所述网络流量数据得到底层流量数据话单。
获取的网络流量数据较为原始,因此需要将所述网络流量数据转化为更适合后续处理的底层流量数据话单,底层流量数据话单中包含各个时间处的网络流量数据量。
S130、对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集。
由于本发明对网络流量数据量的检测是与时间相关联的,因此,对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集,包括:计算所述时序数据的缺失值,对所述缺失值进行填充;对填充后的时序数据进行周期性检测;对周期性检测后的周期时序数据进行噪声过滤,得到时序数据集;或根据周期性检测后的非周期时序数据得到时序数据集。
图2为对时序数据进行预处理的流程图,如图所示:
S210、计算所述时序数据的缺失值,对所述缺失值进行填充。
底层流量话单中的时序数据可能由于传输或检测中的故障导致某一时间处的时序数据有缺失,例如,在表示1月内流量数据量的底层流量话单中,第3天早8点至早9点之间的时序数据量为0,此时认为底层流量话单中缺失第3天早8点至早9点之间的时序数据,而不是该时间段中的时序数据量实际为0。
因此,需要对所述缺失值进行填充。可选的,本发明提供了4种不同的缺失值填充方法以供选择,包括总体均值填充、特定值填充、中位数填充和前后数值的均值填充。例如,对早8点至9点之间的时序数据进行填充,可以采用1月内平均得到的1小时时序数据量进行填充,采用预先确定的填充值进行填充,采用1月内1小时时序数据量的中位数进行填充,还可以采用早7点至8点以及早9点至10点这个两个相邻数据量的平均值进行填充。可选地,返回时序数据的缺失率,作为检测结果的一部分进行输出。
S220、对填充后的时序数据进行周期性检测。
判断填充后的时序数据是否具有周期性,若是,执行S230,若否,结束流程,直接得到时序数据集。
可选的,可以使用ADF(Augmented Dickey Fuller)检测方法来检测时序数据是否存在周期性。在使用ADF检测方法进行周期性检验时,由于ADF检测方法无法检测周期函数和线性函数的叠加,因此需要在进行周期性检测之前首先使用线性拟合,得到数据的整体趋势,并去除趋势,从而得到没有与线性函数进行叠加的周期函数或非周期函数,继而对其进行周期性检测。
S230、对周期性检测后的周期时序数据进行噪声过滤。
对于存在周期的时序数据,可以采用滤波函数来去除数据中的噪声。例如,在表示1月内流量数据量的底层流量话单中,其流量数据量可能以星期为单位具有周期性,即每个周一的流量数据量相似,每个周六的流量数据量相似,以此类推。此时,可以根据所述时序数据的周期性进行噪声过滤,需要注意的是,如果所述时序数据不具有周期性,则不进行噪声过滤。
可选的,根据情况使用合适的滤波方法,例如,卡尔曼滤波、移动平均滤波、有限长单位冲击响应(Finite Impulse Response,FIR)滤波等方法来过滤数据中存在的噪声信息。
S140、确定时序数据集中大小超过时序数据集基线范围的第一异常数据。
根据得到的时序数据集确定所述时序数据集中各个数据应该满足的阈值的范围,例如,通过对时序数据集进行分析,认为每小时正常的数据流量的量应该小于等于5GB,则某小时的数据流量的量为10GB,就认为这属于第一异常数据。需要注意的是,这里的“第一”只是为了对异常数据的类型进行区分,数据量的异常是数据异常中的一种重要的类型,同样还会有其他指标来表征其他类型的数据异常。
本实施例的技术方案,通过获取网络流量数据;根据所述网络流量数据得到底层流量数据话单;对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;确定时序数据集中大小超过时序数据集基线范围的第一异常数据,解决了人工对网络流量进行检测需要耗费大量人力,准确性也难以得到保障的问题,达到了精确地确定网络流量中的异常数据的效果。
实施例二
图3为本发明实施例二提供的一种基于机器学习的异常流量检测方法的流程图,本实施例所述的异常流量检测方法对实施例一中的异常流量检测算法进行了进一步的细化,具体地,对S140进行了进一步的细化,该方法可以由一种基于机器学习的异常流量检测装置来执行,具体包括如下步骤,其中与实施例一中相同的步骤将不再赘述:
S310、获取网络流量数据。
S320、根据所述网络流量数据得到底层流量数据话单。
S330、对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集。
S340、对时序数据集进行周期性检测,得到周期时序数据集或非周期时序数据集。
需要注意的是,这里所述的周期性检测也可以使用S220中所述的周期性检测的方法,但是这里所述的周期性检测是对噪声过滤之后的数据再次进行的,从而对于周期性的时序数据得到更加精确的周期。
S350、得到周期时序数据集阈值基线或得到非周期时序数据集阈值基线。
对于周期时序数据集和非周期时序数据集而言,分别计算阈值基线。例如,假设1个月内的底层流量数据话单中的数据不具备周期性,即对于非周期时序数据集而言,可以设置恒定的阈值,流量数据的量超过阈值范围的部分就认为是异常数据。假设1个月内的底层流量数据话单中的数据具备周期性,并且以星期为周期,则可以设置变化的阈值,例如工作日采用一个阈值,休息日采用另一个阈值,流量数据的量超过相应时间对应的阈值范围的部分就认为是异常数据。
可选的,所述得到周期时序数据集阈值基线,包括:使用傅里叶变换,得到周期时序数据集的变换周期;利用所述变换周期的周期长度,对所述周期时序数据集进行STL分解,得到残差项;使用三西格玛方法对所述残差项进行处理,得到周期时序数据集阈值基线;其中,所述STL为一种时间序列分解算法。
图4为得到周期时序数据集阈值基线的流程图,具体包括:
S410、使用傅里叶变换,得到周期时序数据集的变换周期。
对于周期性数据,我们需要考虑到周期性变化对于数据的影响,不能简单的认为一个极大值或极小值就是异常数据。因此,对周期时序数据集进行傅里叶变换,从而得到所述时序数据集的周期。
S420、利用所述变换周期的周期长度,对所述周期时序数据集进行STL分解,得到残差项。
其中,所述STL(Seasonal-Trend decomposition procedure based on Loess)为一种时间序列分解算法。通过STL分解,能够去除数据本身的趋势性和周期性,仅得到数据的残差。
S430、使用三西格玛方法对所述残差项进行处理,得到周期时序数据集阈值基线。
对残差项使用三西格玛方法,得到周期时序数据集中正常数据的阈值上下限,以便根据阈值来检测异常数据。
可选的,得到非周期时序数据集阈值基线,包括:判断非周期时序数据集能够进行对数变换;对非周期时序数据集进行对数变换,得到变换后非周期时序数据集;使用KS检验,找出所述非周期时序数据集和变换后非周期时序数据集中最接近正太分布的数据集;使用K西格玛方法对所述最接近正太分布的数据集进行处理,得到能够进行对数变换条件下的所述非周期时序数据集阈值基线。
图5为得到非周期时序数据集阈值基线的流程图,具体包括:
S510、判断非周期时序数据集能够进行对数变换。
对于非周期性数据,可以直接使用K西格玛算法得到非周期时序数据集的阈值基线,但是由于使用K西格玛算法的前提是数据集接近正态分布,即在数据集接近正态分布的条件下,K西格玛算法计算得到的结果才是相对准确的,因此,需要对非周期时序数据集进行适当的变换操作,使其接近于正态分布。
判断非周期时序数据集是否可以进行对数变换,对于能够进行对数变换的非时序数据集进行对数变换。
S520、对非周期时序数据集进行对数变换,得到变换后非周期时序数据集。
S530、使用KS检验,找出所述非周期时序数据集和变换后非周期时序数据集中最接近正太分布的数据集。
将对数变换前后的非周期时序数据集进行比较,通过KS(Kolmogorov-Smirnov)检验方法确定最接近正态分布的形式。
S540、使用K西格玛方法对所述最接近正太分布的非周期时序数据集进行处理,得到能够进行对数变换条件下的所述非周期时序数据集阈值基线。
可选的,所述得到非周期时序数据集阈值基线的流程还可以包括:判断非周期时序数据集不能进行对数变换;使用K西格玛方法对所述非周期时序数据集进行处理,得到不能进行对数变换条件下的所述非周期时序数据集阈值基线。
也就是说,对于不能进行对数变换的非周期时序数据集而言,直接使用K西格玛方法得到其阈值基线。
本实施例的技术方案,通过对时序数据集进行周期性检测,得到周期时序数据集或非周期时序数据集;得到周期时序数据集阈值基线或得到非周期时序数据集阈值基线;确定周期时序数据集中大小超过周期时序数据集阈值基线的第一异常数据或非周期时序数据集中大小超过非周期时序数据集阈值基线的第一异常数据,解决了周期时序数据集与非周期时序数据集使用相同的阈值确定方法来确定阈值导致阈值确定不准确,进而导致异常数据确定不准确的问题,达到了细分阈值类型,提高异常数据检测准确率的效果。
可选的,本发明所述的基于机器学习的异常流量检测方法还可以包括:使用变点检测算法对所述时序数据集进行处理,得到第二异常数据;所用数据离散程度分析算法对所述时序数据集进行处理,得到第三异常数据。
也就是说,异常数据的类型可以是多种的,单位时间内网络流量数据的数据量大小的异常变化是异常数据的一种类型,同时也可以利用其他算法来检测其他类型的异常数据。
可选的,可以采用PELT(Per-Entity Load Tracking)变点检测算法对所述时序数据集进行分析,从而得到表征网络流量数据稳定性的第二异常数据;亦可以采用数据离散程度分析算法来满足分析端口扫描的场景需求。也就是说,可以使用多种异常检测算法来全方位的检测网络流量数据中可能存在的异常数据。
这样设置的好处在于,可以对网络流量数据中的异常数据进行更加全面的检测,满足异常数据监测中的各种需求。
实施例三
本发明实施例所提供的一种基于机器学习的异常流量检测装置可执行本发明任意实施例所提供的一种基于机器学习的异常流量检测方法,具备执行方法相应的功能模块和有益效果。图6为本发明实施例三提供的一种基于机器学习的异常流量检测装置的结构图。
一种基于机器学习的异常流量检测装置,包括:
网络流量获取模块610,用于获取网络流量数据;
数据话单获取模块620,用于根据所述网络流量数据得到底层流量数据话单;
数据预处理模块630,用于对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;
第一异常数据确定模块640,用于确定时序数据集中大小超过时序数据集基线范围的第一异常数据。
可选的,所述数据预处理模块630,包括:
填充子模块,用于计算所述时序数据的缺失值,对所述缺失值进行填充;
周期性检测子模块,用于对填充后的时序数据进行周期性检测;
时序数据集获得子模块,用于对周期性检测后的周期时序数据进行噪声过滤,得到时序数据集;或根据周期性检测后的非周期时序数据得到时序数据集。
可选的,所述第一异常数据确定模块640,包括:
周期性检测子模块,用于对时序数据集进行周期性检测,得到周期时序数据集或非周期时序数据集;
阈值基线获取子模块,用于得到周期时序数据集阈值基线或得到非周期时序数据集阈值基线;
第一异常数据获取子模块,用于确定周期时序数据集中大小超过周期时序数据集阈值基线的第一异常数据或非周期时序数据集中大小超过非周期时序数据集阈值基线的第一异常数据。
可选的,所述阈值基线获取子模块,包括:
变换周期获取单元,用于使用傅里叶变换,得到周期时序数据集的变换周期;
残差项获取单元,用于利用所述变换周期的周期长度,对所述周期时序数据集进行STL分解,得到残差项;
周期阈值基线获取单元,用于使用三西格玛方法对所述残差项进行处理,得到周期时序数据集阈值基线。
可选的,所述阈值基线获取子模块,包括:
对数变换判断单元,用于判断非周期时序数据集能够进行对数变换;
非周期时序数据集获取单元,用于对非周期时序数据集进行对数变换,得到变换后非周期时序数据集;
KS检验单元,用于使用KS检验,找出所述非周期时序数据集和变换后非周期时序数据集中最接近正太分布的数据集;
非周期阈值基线获取单元,用于使用K西格玛方法对所述最接近正太分布的非周期时序数据集进行处理,得到能够进行对数变换条件下的所述非周期时序数据集阈值基线。
可选的,所述对数变换判断单元,还用于:判断非周期时序数据集不能进行对数变换;
非周期阈值基线获取单元,还用于:使用K西格玛方法对所述非周期时序数据集进行处理,得到不能进行对数变换条件下的所述非周期时序数据集阈值基线。
可选的,所述基于机器学习的异常流量检测装置,还包括:
第二异常数据确定模块,用于使用变点检测算法对所述时序数据集进行处理,得到第二异常数据;
第三异常数据确定模块,用于所用数据离散程度分析算法对所述时序数据集进行处理,得到第三异常数据。
本实施例的技术方案,通过获取网络流量数据;根据所述网络流量数据得到底层流量数据话单;对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;确定时序数据集中大小超过时序数据集基线范围的第一异常数据,解决了人工对网络流量进行检测需要耗费大量人力,准确性也难以得到保障的问题,达到了精确地确定网络流量中的异常数据的效果。
实施例四
图7为本发明实施例四提供的一种设备的结构示意图,如图7所示,该设备包括处理器720、存储器710、输入装置730和输出装置740;设备中处理器720的数量可以是一个或多个,图7中以一个处理器720为例;设备中的处理器720、存储器710、输入装置730和输出装置740可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储器710作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种基于机器学习的异常流量检测方法对应的程序指令/模块(例如,一种基于机器学习的异常流量检测装置中的网络流量获取模块610、数据话单获取模块620、数据预处理模块630和第一异常数据确定模块640)。处理器720通过运行存储在存储器710中的软件程序、指令以及模块,从而执行设备/终端/服务器的各种功能应用以及数据处理,即实现上述的基于机器学习的异常流量检测方法。
存储器710可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器710可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器710可进一步包括相对于处理器720远程设置的存储器,这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置730可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种基于机器学习的异常流量检测方法,该方法包括:
获取网络流量数据;
根据所述网络流量数据得到底层流量数据话单;
对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;
确定时序数据集中大小超过时序数据集基线范围的第一异常数据。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的一种基于机器学习的异常流量检测方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种基于机器学习的异常流量检测方法,其特征在于,包括:
获取网络流量数据;
根据所述网络流量数据得到底层流量数据话单;
对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;
确定时序数据集中大小超过时序数据集基线范围的第一异常数据。
2.根据权利要求1所述的异常流量检测方法,其特征在于,所述对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集,包括:
计算所述时序数据的缺失值,对所述缺失值进行填充;
对填充后的时序数据进行周期性检测;
对周期性检测后的周期时序数据进行噪声过滤,得到时序数据集;或
根据周期性检测后的非周期时序数据得到时序数据集。
3.根据权利要求1所述的异常流量检测方法,其特征在于,确定时序数据集中大小超过时序数据集基线范围的第一异常数据,包括:
对时序数据集进行周期性检测,得到周期时序数据集或非周期时序数据集;
得到周期时序数据集阈值基线或得到非周期时序数据集阈值基线;
确定周期时序数据集中大小超过周期时序数据集阈值基线的第一异常数据或非周期时序数据集中大小超过非周期时序数据集阈值基线的第一异常数据。
4.根据权利要求3所述的异常流量检测方法,其特征在于,得到周期时序数据集阈值基线,包括:
使用傅里叶变换,得到周期时序数据集的变换周期;
利用所述变换周期的周期长度,对所述周期时序数据集进行STL分解,得到残差项;
使用三西格玛方法对所述残差项进行处理,得到周期时序数据集阈值基线;
其中,所述STL为一种时间序列分解算法。
5.根据权利要求3所述的异常流量检测方法,其特征在于,得到非周期时序数据集阈值基线,包括:
判断非周期时序数据集能够进行对数变换;
对非周期时序数据集进行对数变换,得到变换后非周期时序数据集;
使用KS检验,找出所述非周期时序数据集和变换后非周期时序数据集中最接近正太分布的数据集;
使用K西格玛方法对所述最接近正太分布的非周期时序数据集进行处理,得到能够进行对数变换条件下的所述非周期时序数据集阈值基线。
6.根据权利要求5所述的异常流量检测方法,其特征在于,还包括:
判断非周期时序数据集不能进行对数变换;
使用K西格玛方法对所述非周期时序数据集进行处理,得到不能进行对数变换条件下的所述非周期时序数据集阈值基线。
7.根据权利要求1所述的异常流量检测方法,其特征在于,还包括:
使用变点检测算法对所述时序数据集进行处理,得到第二异常数据;
所用数据离散程度分析算法对所述时序数据集进行处理,得到第三异常数据。
8.一种基于机器学习的异常流量检测装置,其特征在于,包括:
网络流量获取模块,用于获取网络流量数据;
数据话单获取模块,用于根据所述网络流量数据得到底层流量数据话单;
数据预处理模块,用于对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;
第一异常数据确定模块,用于确定时序数据集中大小超过时序数据集基线范围的第一异常数据。
9.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的基于机器学习的异常流量检测方法。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,该计算机可执行指令被处理器执行时实现如权利要求1-7中任一所述的基于机器学习的异常流量检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111075333.7A CN113746862A (zh) | 2021-09-14 | 2021-09-14 | 一种基于机器学习的异常流量检测方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111075333.7A CN113746862A (zh) | 2021-09-14 | 2021-09-14 | 一种基于机器学习的异常流量检测方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113746862A true CN113746862A (zh) | 2021-12-03 |
Family
ID=78738923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111075333.7A Pending CN113746862A (zh) | 2021-09-14 | 2021-09-14 | 一种基于机器学习的异常流量检测方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113746862A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114860801A (zh) * | 2022-04-24 | 2022-08-05 | 南斗六星系统集成有限公司 | 时间序列缺失填充方法、装置、设备及可读存储介质 |
CN115016433A (zh) * | 2022-06-01 | 2022-09-06 | 哈尔滨工业大学(威海) | 一种车载can总线流量异常检测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019095719A1 (zh) * | 2017-11-14 | 2019-05-23 | 深圳中兴网信科技有限公司 | 网络流量异常检测方法、装置、计算机设备和存储介质 |
CN112436968A (zh) * | 2020-11-23 | 2021-03-02 | 恒安嘉新(北京)科技股份公司 | 一种网络流量的监测方法、装置、设备及存储介质 |
WO2021056724A1 (zh) * | 2019-09-23 | 2021-04-01 | 平安科技(深圳)有限公司 | 异常检测方法、装置、电子设备及存储介质 |
-
2021
- 2021-09-14 CN CN202111075333.7A patent/CN113746862A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019095719A1 (zh) * | 2017-11-14 | 2019-05-23 | 深圳中兴网信科技有限公司 | 网络流量异常检测方法、装置、计算机设备和存储介质 |
WO2021056724A1 (zh) * | 2019-09-23 | 2021-04-01 | 平安科技(深圳)有限公司 | 异常检测方法、装置、电子设备及存储介质 |
CN112436968A (zh) * | 2020-11-23 | 2021-03-02 | 恒安嘉新(北京)科技股份公司 | 一种网络流量的监测方法、装置、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114860801A (zh) * | 2022-04-24 | 2022-08-05 | 南斗六星系统集成有限公司 | 时间序列缺失填充方法、装置、设备及可读存储介质 |
CN115016433A (zh) * | 2022-06-01 | 2022-09-06 | 哈尔滨工业大学(威海) | 一种车载can总线流量异常检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110839016B (zh) | 异常流量监测方法、装置、设备及存储介质 | |
CN110807024B (zh) | 动态阈值异常检测方法、系统、存储介质及智能设备 | |
CN113518011B (zh) | 异常检测方法和装置、电子设备及计算机可读存储介质 | |
WO2021212756A1 (zh) | 指标异常分析方法、装置、电子设备及存储介质 | |
CN111309539A (zh) | 一种异常监测方法、装置和电子设备 | |
CN110830450A (zh) | 基于统计的异常流量监测方法、装置、设备及存储介质 | |
CN108599977B (zh) | 基于统计方法监控系统可用性的系统及方法 | |
CN110647447B (zh) | 用于分布式系统的异常实例检测方法、装置、设备和介质 | |
CN117439827B (zh) | 一种网络流量大数据分析方法 | |
CN115454778A (zh) | 大规模云网络环境下的时序指标异常智能监控系统 | |
CN113746862A (zh) | 一种基于机器学习的异常流量检测方法、装置和设备 | |
CN114338372B (zh) | 网络信息安全监控方法及系统 | |
CN112532643A (zh) | 基于深度学习的流量异常检测方法、系统、终端及介质 | |
US9116804B2 (en) | Transient detection for predictive health management of data processing systems | |
CN112256548B (zh) | 异常数据的监听方法、装置、服务器及存储介质 | |
CN118193658B (zh) | 一种基于多源数据融合的地理信息分析方法及系统 | |
CN116668264A (zh) | 一种告警聚类的根因分析方法、装置、设备及存储介质 | |
CN117194191A (zh) | 日志监控告警方法、装置、计算机设备和存储介质 | |
CN116048915A (zh) | 一种指标异常的监控方法及装置、电子设备、存储介质 | |
CN111611483B (zh) | 一种对象画像构建方法、装置、设备及存储介质 | |
CN113992496B (zh) | 基于四分位算法的异动告警方法、装置及计算设备 | |
CN116108376A (zh) | 一种反窃电的监测系统、方法、电子设备及介质 | |
CN115600195A (zh) | 一种web攻击检测方法、装置、设备及可读存储介质 | |
CN113032227B (zh) | 一种异常网元检测方法、装置、电子设备及存储介质 | |
CN118519818B (zh) | 一种基于深度递归网络的大数据计算机系统故障检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211203 |