CN113434823B - 数据采集任务异常预警方法、装置、计算机设备和介质 - Google Patents
数据采集任务异常预警方法、装置、计算机设备和介质 Download PDFInfo
- Publication number
- CN113434823B CN113434823B CN202110985000.1A CN202110985000A CN113434823B CN 113434823 B CN113434823 B CN 113434823B CN 202110985000 A CN202110985000 A CN 202110985000A CN 113434823 B CN113434823 B CN 113434823B
- Authority
- CN
- China
- Prior art keywords
- value
- data acquisition
- early warning
- maximum
- minimum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000009499 grossing Methods 0.000 claims abstract description 24
- 238000007689 inspection Methods 0.000 claims abstract description 15
- 230000002159 abnormal effect Effects 0.000 claims description 79
- 238000013480 data collection Methods 0.000 claims description 56
- 238000004364 calculation method Methods 0.000 claims description 34
- 238000012360 testing method Methods 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 14
- 230000005856 abnormality Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 238000012544 monitoring process Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请涉及一种数据采集任务异常预警方法、装置、计算机设备和介质。所述方法包括:获取若干数据采集量,对数据采集量进行平滑处理,得到平滑数据采集量;将平滑数据采集量、预设的显著性水平作为广义ESD检验的输入参数,计算得到第一极大值和第一极小值;通过平滑数据采集量的第一四分位数值、第三四分位数值、预先测试的阈值计算得到第二极大值和第二极小值;比较第一极大值和第二极大值,得到极大预警阈值,比较第一极小值和第二极小值进行,得到极小预警阈值;利用极小预警阈值、极大预警阈值和平滑数据采集量对平滑数据采集量对应的数据采集任务进行异常预警。采用本方法能够动态地进行设置上万甚至更多的数据采集任务的阈值。
Description
技术领域
本公开涉及数据处理技术领域,特别是涉及一种数据采集任务异常预警方法、装置、计算机设备和介质。
背景技术
21世纪已成为大数据时代,随着互联网技术的发展,数据已然成为众多领域最重要的一环。数据分析,个性化推荐等任务离不开海量的数据支持,进而出现了数据采集技术,然而随着各种数据业务的展开,同一平台可能存在着成千上万个数据采集任务。由于各个数据采集任务的周期,所处状态(全量、增量)和采集细节等都不同,人工难以对每个数据采集任务实现密切的监控和关注。所以构建数据采集任务的通用异常检测系统十分重要。
目前的数据采集异常检测方式通常是迁移到时间序列的异常检测。这一领域虽然有长足的发展,但是大多应用于单一的场景/任务,依赖人工针对任务场景手动调节参数或确定阈值,会导致报警不准确,误报率偏高,并且不适于较大数量(如上万个)数据采集任务的异常检测场景。
发明内容
基于此,有必要针对上述技术问题,提供一种能够适用于大量数据采集任务,低误报率的数据采集任务异常预警方法、装置、计算机设备和介质。
一种数据采集任务异常预警方法,方法包括以下步骤:
获取若干数据采集任务的数据采集量,对数据采集量进行平滑处理,得到平滑数据采集量,其中,平滑处理包括对数据采集量采用预设数值为底的对数进行处理;
将平滑数据采集量、预设的显著性水平作为广义ESD检验的输入参数,计算得到第一极大值和第一极小值,预设的显著性水平包括预先设置的所述广义ESD检验的参数;
通过平滑数据采集量的第一四分位数值、第三四分位数值以及预先测试的阈值进行计算,得到第二极大值和第二极小值,其中第一四分位数值和第三四分位数值是将平滑数据采集量通过四分位方法进行处理,得到的;
将第一极大值和第二极大值进行第一比较,根据第一比较结果得到极大预警阈值,将第一极小值和第二极小值进行第二比较,根据第二比较结果得到极小预警阈值;
利用极小预警阈值、极大预警阈值和平滑数据采集量对与平滑数据采集量对应的数据采集任务进行异常预警。
在其中一个实施例中,将所述平滑数据采集量、预设的显著性水平作为广义ESD检验的输入参数,计算得到第一极大值和第一极小值,包括:
通过广义ESD检验和显著性水平检测平滑数据采集量中是否存在异常值,若存在异常值,则从平滑数据采集量中删除异常值,得到第一平滑数据采集量;
计算第一平滑数据采集量的均值和第一平滑数据采集量的标准差;
获取第一平滑数据采集量中最大值、最小值、数据的数量;
通过均值、标准差、最大值、显著性水平、数据的数量进行计算,得到第一极大值;
通过均值、标准差、最小值、显著性水平、数据的数量进行计算,得到第一极小值。
在其中一个实施例中,将所述平滑数据采集量、预设的显著性水平作为广义ESD检验的输入参数,计算得到第一极大值和第一极小值,还包括:
通过广义ESD检验和显著性水平检测平滑数据采集量中是否存在异常值,若不存在异常值,则获取平滑数据采集量中最大值、最小值、数据的数量;
计算所述平滑数据采集量的均值和所述平滑数据采集量的标准差;
通过所述均值、所述标准差、最大值、显著性水平、数据的数量进行计算,得到第一极大值;
通过所述均值、所述标准差、最小值、显著性水平、数据的数量进行计算,得到第一极小值。
在其中一个实施例中,通过均值、标准差、最大值、显著性水平、数据的数量进行计算,得到第一极大值,包括:
计算数据的数量减去第一预设数值加上预设的显著性水平下的最大值,得到第一数值;
计算预设的显著性水平下的最大值与第一数值比值的算术平方根,得到第二数值;
将数据的数量减去第二预设数值得到第三数值,计算第三数值与算术平方根下数据的数量的第一比值;
将第一比值乘以第二数值,得到单边最大值;
将单边最大值乘以标准差的值并与均值相加,得到第一极大值。
在其中一个实施例中,通过均值、标准差、最小值、显著性水平、数据的数量进行计算,得到第一极小值,包括:
计算数据的数量减去第一预设数值加上预设的显著性水平下的最小值,得到第四数值;
计算预设的显著性水平下的最大值与第一数值比值的算术平方根,得到第五数值;
将数据的数量减去第二预设数值得到第六数值,计算第六数值与算术平方根下数据的数量的第二比值;
将第二比值乘以第五数值,得到单边最小值;
将均值与单边最大值乘以标准差的值相减,得到第一极小值。
在其中一个实施例中,其特征在于,方法还包括:
统计数据采集任务的累积运行次数;
当累积运行次数大于预设的第一次数阈值时,通过广义ESD检验和显著性水平检测平滑数据采集量中是否存在异常值;
若存在异常值,则统计异常值出现的次数;
当异常值出现的次数大于预设的第二次数阈值时,通过百分位数设置第三极大值和第三极小值。
在其中一个实施例中,方法还包括:将第一极大值、第二极大值、第三极大值进行第三比较,根据第三比较结果得到极大预警阈值;
将第一极小值、第二极小值、第三极小值进行第四比较,根据第四比较结果得到极小预警阈值;
利用极小预警阈值、极大预警阈值和平滑数据采集量对与平滑数据采集量对应的数据采集任务进行异常预警。
在其中一个实施例中,通过广义ESD检验和显著性水平检测平滑数据采集量中是否存在异常值,包括:
计算平滑数据采集量的均值和平滑数据采集量的标准差;
计算均值减去平滑数据采集量中最小值得到的数值与标准差的比值,得到单边最小值;
计算平滑数据采集量中最大值减去均值得到的数值与标准差的比值,得到单边最大值;
比较最小值、最大值分别与均值的差值的绝对值,根据比较结果确定可疑值;
根据显著性水平、平滑数据采集量的数量、格拉布斯表确定临界值;
若可疑值大于临界值,则确定可疑值对应的平滑数据采集量中的数据为异常值;
将可疑值对应的平滑数据采集量中的数据删除,重复上述步骤,直至删除数据后的平滑数据采集量中未存在异常值;
若可疑值小于临界值,则确定平滑数据采集量中未存在异常值。
在其中一个实施例中,利用极小预警阈值、极大预警阈值和平滑数据采集量对数据采集任务进行异常预警,包括:
进行实时监控若干数据采集任务的平滑数据采集量;
当平滑数据采集量小于极小预警阈值,或,平滑数据采集量大于极大预警阈值时;对与平滑数据采集量对应的数据采集任务进行异常预警。
一种数据采集任务异常预警装置,所述装置包括:
平滑处理模块,用于获取若干数据采集任务的数据采集量,对所述数据采集量进行平滑处理,得到平滑数据采集量,其中所述平滑处理包括对所述数据采集量采用预设数值的对数进行处理;
四分位处理模块,用于将所述平滑数据采集量通过四分位方法进行处理,得到第一四分位数值和第三四分位数值;
第一极值计算模块,用于所述平滑数据采集量、预设的显著性水平作为广义ESD检验的输入参数,计算得到第一极大值和第一极小值,所述预设的显著性水平包括预先设置的所述平滑数据采集量的显著性水平;
第二极值计算模块,用于通过所述第一四分位数值、第三四分位数值以及预先测试的百分比阈值进行计算,得到第二极大值和第二极小值;
第一极值比较模块,用于将所述第一极大值和第二极大值进行第一比较,根据第一比较结果得到极大预警阈值;
第二极值比较模块,将所述第一极小值和第二极小值进行第二比较,根据第二比较结果得到极小预警阈值;
异常预警模块,用于利用所述极小预警阈值、所述极大预警阈值和所述平滑数据采集量对与所述平滑数据采集量对应的所述数据采集任务进行异常预警。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
上述数据采集任务异常预警方法、装置、计算机设备和介质,通过广义ESD检验以及四分位方法计算极大值和极小值,进而能够选择极大预警阈值和极小预警阈值,不需要对每个数据采集任务人工设定阈值,能够进行设置上万甚至更多的数据采集任务的阈值。
并且当数据采集量变化时,通过该方法也能够自动动态调节极大预警阈值和极小预警阈值进而进行异常预警,使得效率变高。
而且,经过平滑处理后的数据会使得的方差很小,便于计算,并且当进行异常预警时,需要给出参考值来告知问题严重性,用平滑数据采集量可以很直观看到数据量级的变化。
此外,当通过广义ESD检验进行检验到平滑数据采集量中异常值超过预设的第二次数阈值时,引入百分位数对阈值进行校正,从而计算得到的极小预警阈值和极大预警阈值能够保证异常预警的准确率,降低数据采集任务异常预警的误报率。
附图说明
图1为一个实施例中数据采集任务异常预警方法的应用环境图;
图2为一个实施例中数据采集任务异常预警方法的流程示意图;
图3为一个实施例中S204步骤中一部分流程示意图;
图4为一个实施例中S204步骤中另一部分流程示意图;
图5为一个实施例中S303和S304步骤的流程示意图;
图6为一个实施例中S305和S306步骤的流程示意图;
图7为一个实施例中数据采集任务异常预警方法的一部分流程示意图;
图8为一个实施例中S301、S302、S504的步骤的流程示意图;
图9为一个实施例中S201、S606的步骤的流程示意图;
图10为一个实施例中数据采集任务异常预警装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本说明书提供的一些实施例的描述中,需要说明的是,术语“第一”、“第二”、“第三”、“第四”、“第五”、“第六”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本申请提供的数据采集任务异常预警方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与数据采集任务服务器104进行通信,终端102获取数据采集任务服务器104中的数据采集量,并对数据采集量进行平滑处理,得到平滑数据采集量,并将平滑数据采集量保存至终端102中,在终端102中将所述平滑数据采集量、预设的显著性水平作为广义ESD检验的输入参数,计算得到第一极大值和第一极小值,并存储在终端102中;在终端102中对平滑数据采集量通过四分位方法进行处理,得到所述平滑数据采集量的第一四分位数值和第三四分位数值,并在终端102中通过第一四分位数值、第三四分位数值和预先测试的百分比阈值进行计算,得到第二极大值和第二极小值,并存储在终端102中;在终端102中将所述第一极大值和第二极大值进行第一比较,根据第一比较结果得到极大预警阈值,将所述第一极小值和第二极小值进行第二比较,根据第二比较结果得到极小预警阈值,终端102利用极小预警阈值、所述极大预警阈值和所述平滑数据采集量对数据采集任务服务器104的与所述平滑数据采集量对应的数据采集任务进行异常预警。
可以理解的是,该方法也可应用于数据采集任务服务器104,通过数据采集任务服务器104进行实现。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑,数据采集任务服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据采集任务异常预警方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
S202,获取若干数据采集任务的数据采集量,对所述数据采集量进行平滑处理,得到平滑数据采集量,其中,所述平滑处理包括对所述数据采集量采用预设数值为底的对数进行处理。
其中,数据采集任务通常是指的是自动或人工获取数据的任务;数据采集量通常指的是任务所获取的数据量;平滑处理通常指的是对数据采集量采用预设数值为底的对数进行处理的方法。
具体地,对数据采集量采用预设数值为底的对数进行处理,得到处理后的数据,即平滑数据采集量。进行平滑处理后的平滑数据采集量近似的服从正态分布。
在一些实施方式中,例如若干数据采集任务的采集量分别为10000、10001、100、1000,预设数值的对数为lg10,则进行平滑处理,处理后的平滑数据采集量为4、4、2、3,此处因为10000和10001数据差距不大,所以10001通过lg10进行平滑处理近似的可以为4。
需要说明的是,此处采用的预设数值的对数为10是因为可以对数据做很好的平滑处理,并且因为采用的预设数值的对数为10,所以能够很好地看清楚数量级的变化,例如10000和1000,分别为4和3,能够看出数量的变化。
本领域技术人员可根据实际情况选择其他预设的对数,只要是近似数字对数也可以达到类似的方便计算的效果即可。
S204,将所述平滑数据采集量、预设的显著性水平作为广义ESD检验的输入参数,计算得到第一极大值和第一极小值,所述预设的显著性水平包括预先设置的广义ESD检验的参数。
其中,预设的显著性水平通常是估计总体参数落在某一区间内,这里的参数通常指的是平滑数据采集量可能犯错误的概率,通常情况下用α表示,在本实施例中,显著性水平可以为0.05,代表否定对应假设的显著性水平。广义ESD检验(Generalized extremeStudentized deviate test)可以是概率论中检测一维数据中多个离散值的方法,要求原数据分布服从正态分布。
具体地,广义ESD检验通常情况下可以看成一个公式,因为广义ESD检验通常情况下要求数据分布服从正态分布,而进行平滑处理后的平滑数据采集量近似的服从正态分布,所以能够通过广义ESD检验进行计算。
将平滑数据采集量、预设的显著性水平作为公式的输入参数,通过广义ESD检验计算并输出参数,该输出参数可以包括第一极大值和第一极小值。
S206,通过所述平滑数据采集量的第一四分位数值、第三四分位数值以及预先测试的阈值进行计算,得到第二极大值和第二极小值,其中所述第一四分位数值和第三四分位数值是将所述平滑数据采集量通过四分位方法进行处理,得到的。
其中,四分位方法(Quartile)通常指的是统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值的一种方法。平滑数据采集量的第一四分位数值可以是通过四分位方法分割后的第一个四分位数的数值,可以是该平滑数据采集量中所有数值由小到大排列后第25%的数字。第三四分位数值可以是通过四分位方法分割后的第三个四分位数的数值,可以是该平滑数据采集量中所有数值由小到大排列后第75%的数字。预先测试的阈值可以经过测试后是使得预警准确且漏报少的数值。且单维数据异常值可表现为远小于第一四分位数值或远大于第三四分位数值。
具体地,将所述平滑数据采集量通过四分位方法进行处理,在一些实施方式中,处理的方法可以是:第一四分位数值的位置= (n+1)×0.25,第二四分位数值的位置= (n+1)×0.5,第三四分位数值的位置= (n+1)×0.75,n为平滑数据采集的数目。
处理的方法还可以是:第一四分位数值的位置=1+(n-1)×0.25,第二四分位数值的位置=1+(n-1)×0.5,第三四分位数值的位置=1+(n-1)×0.75。
本领域技术人员也可以根据实际处理过程中平滑数据采集量进行选择其他方式确定四分位数值的位置,从而确定四分位数值,在本实施方式中不进行限定。
得到平滑数据采集量的第一四分位数值、第三四分位数值后,设置预警的阈值,在一些实施方式中,该预警的阈值可以包括:0.5、1、1.5、2,通过该预警的阈值和第一四分位数值、第三四分位数值进行计算得到不同的第二极大值和第二极小值,并通过不同的第二极大值和第二极小值进行比较预警的准确度,最终得到预警的阈值中0.5、1、1.5、2取值为1.5时预警准确且漏报少,1.5可以为预先测试的阈值。最终第二极小值为第一四分位数值减去1.5,即Q1-1.5,第二极大值为第三四分位数值加上1.5,即Q3+1.5。Q1通常代表第一四分位数值,Q3通常代表第三四分位数值。
需要说明的是,本领域技术人员也可以进行选择其他的预警的阈值进行测试,能够预警准确且漏报少即可。
S208,将所述第一极大值和第二极大值进行第一比较,根据第一比较结果得到极大预警阈值,将所述第一极小值和第二极小值进行第二比较,根据第二比较结果得到极小预警阈值。
具体地,将第一极大值和第二极大值进行第一比较,第一比较可以为比较第一极大值和第二极大值的数值大小,得到三种第一比较结果,三种第一比较结果可以包括:第一极大值大于第二极大值、第一极大值等于第二极大值、第一极大值小于第二极大值。
当第一极大值大于第二极大值时,极大预警阈值可以为第一极大值,当第一极大值等于第二极大值时,极大预警阈值可以为第一极大值/第二极大值,当第一极大值小于第二极大值时,极大预警阈值可以为第二极大值。
将所述第一极小值和第二极小值进行第二比较,第二比较可以为比较第一极小值和第二极小值的数值大小,得到三种第二比较结果,第三种第二比较结果可以包括:第一极小值小于第二极小值、第一极小值等于第二极小值、第一极小值大于第二极小值。
当第一极小值小于第二极小值时,极小预警阈值可以为第一极小值,当第一极小值等于第二极小值时,极小预警阈值可以为第一极小值/第二极小值,当第一极小值大于第二极小值时,极小预警阈值可以为第二极小值。
S210,利用所述极小预警阈值、所述极大预警阈值和所述平滑数据采集量对与所述平滑数据采集量对应的所述数据采集任务进行异常预警。
其中,异常预警可以是对异常状态的数据采集任务进行报警的动作,进行报警的动作可以是进行报警,进行短信提示,语音提示,邮件提示等。
具体地,当所述平滑数据采集量不满足所述极小预警阈值、所述极大预警阈值中任一一个条件时,对不满足条件的平滑数据采集量对应的数据采集任务进行异常预警。其中极小预警阈值通常小于极大预警阈值。
需要说明的是,上述数据采集任务计算极大预警阈值和极小预警阈值,在执行次数超过60次的数据采集任务上阈值效果更好。因为本领域工作人员根据工作经验得到当数据采集任务工作一段时间后数据采集量会趋于稳定,通常情况下采集任务执行次数大于30次时趋于稳定,此处认为次数超过60次可以拿到采集任务的全面数据,次数设为更高(100或者200)的话计算出的阈值会更有代表性。但是大多数的数据采集任务不满足次数更高的条件,所以60次的设定是考虑到足够多的数据采集任务以及数据的完整性来设定,经实验发现次数大于45均可满足条件,实验比较发现执行次数超过60次时效果最好。
上述数据采集任务异常预警方法中,通过广义ESD检验以及四分位方法计算极大值和极小值,进而能够选择极大预警阈值和极小预警阈值,不需要对每个数据采集任务人工设定阈值,能够进行设置上万甚至更多的数据采集任务的阈值,并且当数据采集量发生变化时,通过该方法也能够自动动态调节极大预警阈值和极小预警阈值进而进行异常预警,使得效率变高。并且对数据采集量进行平滑处理能够消除噪声以及确保警报的严重性,此外由于数据采集任务的特殊性,同一任务每日采集数目可从几个到上千,如果我们采用原数量级作为指标计算阈值,数据方差很大,但经过平滑处理后会使得的方差很小,便于计算,并且当进行异常预警时,需要给出参考值来告知问题严重性,用数量级的变化可以很直观看到。
在一个实施例中,如图3所示,所述将所述平滑数据采集量、预设的显著性水平作为广义ESD检验的输入参数,计算得到第一极大值和第一极小值,包括:
S301,通过所述广义ESD检验和所述显著性水平检测所述平滑数据采集量中是否存在异常值,若存在所述异常值,则从所述平滑数据采集量中删除所述异常值,得到第一平滑数据采集量。
S303,计算所述第一平滑数据采集量的均值和所述第一平滑数据采集量的标准差。
S305,通过所述均值、所述标准差、所述最大值、所述显著性水平、所述数据的数量进行计算,得到所述第一极大值。
S307,通过所述均值、所述标准差、所述最小值、所述显著性水平、所述数据的数量进行计算,得到所述第一极小值。
在一个实施例中,如图4所示,所述将所述平滑数据采集量、预设的显著性水平作为广义ESD检验的输入参数,计算得到第一极大值和第一极小值,还包括:
S302,通过所述广义ESD检验和所述显著性水平检测所述平滑数据采集量中是否存在异常值,若不存在所述异常值,则获取所述平滑数据采集量中最大值、最小值、数据的数量。
S304,计算所述平滑数据采集量的均值和所述平滑数据采集量的标准差。
S306,通过所述均值、所述标准差、所述最大值、所述显著性水平、所述数据的数量进行计算,得到所述第一极大值。
S308,通过所述均值、所述标准差、所述最小值、所述显著性水平、所述数据的数量进行计算,得到所述第一极小值。
其中,异常值通常情况下指的是通过广义ESD检验检验平滑数据采集量得到的值。在本实施例中,广义ESD检验是基于Grubbs(Grubbs test)检验,用于检测单变量数据集中多个异常值的。具体流程为每轮异常检测会删除掉上一轮数据偏差最大的值,通过(数据-均值)/标准差,计算得到偏差值,再次通过格拉布斯表检验偏差值对应的数据是否异常。而Grubbs检验(Grubbs test)又称为最大标准差测试,用于检测单变量数据集中的单个异常值,该单变量数据集需近似正态分布。Grubbs检验针对假设定义,检验最大/小值距离数据均值偏离程度是否异常。
在其中一个实施例中,如图5所示,所述通过所述均值、所述标准差、所述最大值、所述显著性水平、所述数据的数量进行计算,得到所述第一极大值,包括:
S401,计算所述数据的数量减去第一预设数值加上预设的显著性水平下的所述最大值,得到第一数值。
S403,计算所述预设的显著性水平下的所述最大值与所述第一数值比值的算术平方根,得到第二数值。
S405,将所述数据的数量减去所述第二预设数值得到第三数值,计算所述第三数值与算术平方根下所述数据的数量的第一比值。
S407,将所述第一比值乘以所述第二数值,得到所述单边最大值。
S409,将所述单边最大值乘以所述标准差的值与所述均值相加,得到所述第一极大值。
在其中一个实施例中,如图6所示,所述通过所述均值、所述标准差、所述最小值、所述显著性水平、所述数据的数量进行计算,得到所述第一极小值,包括:
S402,计算所述数据的数量减去第一预设数值加上预设的显著性水平下的所述最小值,得到第四数值。
S404,计算所述预设的显著性水平下的所述最大值与所述第一数值比值的算术平方根,得到第五数值。
S406,将所述数据的数量减去所述第二预设数值得到第六数值,计算所述第六数值与算术平方根下所述数据的数量的第二比值。
S408,将所述第二比值乘以所述第五数值,得到所述单边最小值;
S410,将所述均值与所述单边最大值乘以所述标准差的值相减,得到所述第一极小值。
在一些实施方式中,可以采用下述公式,
进行计算得到单边最大值和单边最小值,进而计算得到第一极大值和第一极小值,上式中可以是平滑数据采集量中数据的数量,可以是表示具有显着性水平
并具有自由度的分布的临界值,即可以是上述的预设的显著性水平下的最大值或
预设的显著性水平下的最小值。
在其中一个实施例中,如图7所示,数据采集任务异常预警方法还可以包括:
S502,统计所述数据采集任务的累积运行次数。
S504,当所述累积运行次数大于预设的第一次数阈值时,通过所述广义ESD检验和所述显著性水平检测所述平滑数据采集量中是否存在异常值。
S506,若存在所述异常值,则统计所述异常值出现的次数。
S508,当所述异常值出现的次数大于预设的第二次数阈值时,通过百分位数设置第三极大值和第三极小值。
其中,预设的第一次数阈值通常指的是上述数据采集任务执行次数60次,因为在60次的情况下此方法计算出的阈值效果较好。预设的第二次数阈值通常指的是当异常值大于预设的第二次数阈值时,引入百分位数对阈值进行校正。
具体的,在一些实施方式中,例如该数据采集任务的运行次数为70次,则大于第一预设阈值,通过广义ESD检验和所述显著性水平检测平滑数据采集量中是否存在异常值,并且通过预设的第二次数阈值进行判断广义ESD检验计算第一极大值和第二极小值是否适用,如果大于预设的第二次数阈值,则代表广义ESD检验预警时,广义ESD检验可能不能很好地捕捉这一数据采集任务的数据特征或者数据采集任务的状态发生改变(增量变全量)等,这种情况下引入百分位数对阈值进行校正,通过百分位数设置第三极大值和第三极小值,进而再次计算极大预警阈值和极小预警阈值。
在其中一个实施例中,数据采集任务异常预警方法还包括:
S602,将所述第一极大值、第二极大值、第三极大值进行第三比较,根据第三比较结果得到极大预警阈值。
S604,将第一极小值、第二极小值、第三极小值进行第四比较,根据第四比较结果得到极小预警阈值。
S606,利用所述极小预警阈值、所述极大预警阈值和所述平滑数据采集量对与所述平滑数据采集量对应的所述数据采集任务进行异常预警。
具体地,将第一极大值、第二极大值、第三极大值进行第三比较,得到第三比较结果,第三比较可以为比较第一极大值、第二极大值、第三极大值的数值大小,根据第三比较结果得到极大预警阈值。
当第三比较结果中最大值为第一极大值时,极大预警阈值可以为第一极大值;当第三比较结果中最大值为第二极大值时,极大预警阈值可以为第二极大值;当第三比较结果中最大值为第三极大值时,极大预警阈值可以为第三极大值。
将第一极小值、第二极小值、第三极小值进行第四比较,得到第四比较结果,第四比较可以为比较第一极小值、第二极小值、第三极小值的数值大小,根据第四比较结果得到极小预警阈值。
当第四比较结果中最小值为第一极大值时,极小预警阈值可以为第一极小值;当第四比较结果中最小值为第二极大值时,极小预警阈值可以为第二极小值;当第四比较结果中最小值为第三极大值时,极小预警阈值可以为第三极小值。
本实施例中,通过引入百分位进行设置第三极小值和第三极大值,能够在广义ESD检验不准确时,通过引入的第三极小值和第三极大值进行校正,从而得到极大预警阈值和极小预警阈值,使得进行异常预警更加准确,降低数据采集任务异常预警的误报率。
在其中一个实施例中,如图8所示,所述通过所述广义ESD检验和所述显著性水平检测所述平滑数据采集量中是否存在异常值,包括:
S701,计算所述平滑数据采集量的均值和所述平滑数据采集量的标准差。
S702,计算所述均值减去所述平滑数据采集量中最小值得到的数值与所述标准差的比值,得到单边最小值。
S703,计算所述平滑数据采集量中最大值减去所述均值得到的数值与所述标准差的比值,得到单边最大值。
S704,比较所述最小值、所述最大值分别与所述均值的差值的绝对值,根据比较结果确定可疑值。
S705,根据所述显著性水平、所述平滑数据采集量的数量、格拉布斯表确定临界值。
S706,若所述可疑值大于所述临界值,则确定所述可疑值对应的所述平滑数据采集量中的数据为异常值。
S707,将所述可疑值对应的所述平滑数据采集量中的数据删除,重复上述步骤,直至删除数据后的所述平滑数据采集量中未存在异常值。
S708,若所述可疑值小于所述临界值,则确定所述平滑数据采集量中未存在异常值。
其中,单边最小值和单边最大值可以是用于计算最小/大值距离数据均值偏离程度是否异常地值。可疑值可以是所述单边最小值和所述单边最大值比较得到的其中之一较为异常地值。格拉布斯表可以是通过可疑值进行判断可疑值是否为异常值的一个表。
具体的,在一些实施方式中,例如平滑数据采集量Y分别为1、1、2、3、3,则均值means(Y)=2,标准差s=0.89,Ymax=3,Ymin=1。
单边最小值Gmin=(2-1)/0.89=1.12;
单边最大值Gmax=(3-2)/0.89=1.12。
其中,可以通过(mean(Y) - Ymin)的绝对值为1等于(Ymax-mean(Y))的绝对值1进行判断,所以单边最小值和单边最大值对应的值均可成为可疑值。
也可以通过Gmin和Gmax进行判断,因为Gmin=Gmax,所以Gmin和Gmax均可成为可疑值。
因为显著性水平为0.05,平滑数据采集量Y的数量为5,所以通过格拉布斯表确定临界值为1.672,又因为Gmin=Gmax=1.12小于1.672,所以Gmin和Gmax对应的平滑数据采集量Y中的1和3不为异常值。所以平滑数据采集量Y中无异常值。
在另一些实施方式中,数据采集量为1.58,100, 316,1000,1000;则平滑数据采集量为:0.2,2, 2.5, 3, 3;其中均值mean=2.14,标准差s=1.04,最小值为0.2,最大值为3。
Gmin = 1.87,Gmax = 0.83,mean减去最小值的绝对值为1.96,最大值减去mean的绝对值为0.86,所以最小值偏离更大,所以最小值为可疑值,且Gmin>1.672,所以平滑数据采集量0.2为异常值。
需要说明的是单边最小值和单边最大值也可采用上述S304和S305步骤中的方法计算得出。
将异常值从平滑数据采集量中删除,得到新的平滑数据采集量,重复上述步骤,直至删除数据后的平滑数据采集量中未存在异常值。
在其中一个实施例中,如图9所示,所述利用所述极小预警阈值、所述极大预警阈值和所述平滑数据采集量对与所述平滑数据采集量对应的所述数据采集任务进行异常预警,包括:
S802,进行实时监控若干所述数据采集任务的所述平滑数据采集量。
S804,当所述平滑数据采集量小于所述极小预警阈值,或,所述平滑数据采集量大于所述极大预警阈值时。
S806,对与所述平滑数据采集量对应的所述数据采集任务进行异常预警。
具体地,进行实时监控若干数据采集任务中每个数据采集任务对应的平滑数据采集量。在一些实施方式中,例如平滑数据采集量为4、4、3、1,极小预警阈值为2.1,极大预警阈值为4.5,则为1的平滑数据采集量小于极小预警阈值为2.1,不满足条件,对与平滑数据采集量1对应的数据采集任务进行异常预警。
应该理解的是,虽然附图中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,附图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种数据采集任务异常预警装置1000,包括:平滑处理模块1010、四分位处理模块1020、第一极值计算模块1030、第二极值计算模块1040、第一极值比较模块1050、第二极值比较模块1060和异常预警模块1070,其中:
平滑处理模块1010,用于获取若干数据采集任务的数据采集量,对所述数据采集量进行平滑处理,得到平滑数据采集量,其中所述平滑处理包括对所述数据采集量采用预设数值的对数进行处理。
四分位处理模块1020,用于将所述平滑数据采集量通过四分位方法进行处理,得到第一四分位数值和第三四分位数值。
第一极值计算模块1030,用于将所述平滑数据采集量、预设的显著性水平作为广义ESD检验的输入参数,计算得到第一极大值和第一极小值,所述预设的显著性水平包括预先设置的所述平滑数据采集量的显著性水平。
第二极值计算模块1040,用于通过所述第一四分位数值、第三四分位数值以及预先测试的百分比阈值进行计算,得到第二极大值和第二极小值。
第一极值比较模块1050,用于将所述第一极大值和第二极大值进行第一比较,根据第一比较结果得到极大预警阈值。
第二极值比较模块1060,将所述第一极小值和第二极小值进行第二比较,根据第二比较结果得到极小预警阈值。
异常预警模块1070,用于利用所述极小预警阈值、所述极大预警阈值和所述平滑数据采集量对与所述平滑数据采集量对应的所述数据采集任务进行异常预警。
在所述装置的一个实施例中,第一极值计算模块1030包括异常检测模块、获取模块、第一极大值计算模块和第一极小值计算模块;
异常检测模块用于通过所述广义ESD检验和所述显著性水平检测所述平滑数据采集量中是否存在异常值。
当存在所述异常值时,则从所述平滑数据采集量中删除所述异常值,得到第一平滑数据采集量。获取模块用于获取所述第一平滑数据采集量中最大值、最小值、数据的数量。
第一极大值计算模块用于通过所述最大值、所述显著性水平、所述数据的数量进行计算,得到所述第一极大值。
第一极小值计算模块用于通过所述最小值、所述显著性水平、所述数据的数量进行计算,得到所述第一极小值。
异常检测模块还用于通过所述广义ESD检验和所述显著性水平检测所述平滑数据采集量中是否存在异常值。
当不存在所述异常值时,则获取模块用于获取所述平滑数据采集量中最大值、最小值、数据的数量。第一极大值计算模块用于通过所述最大值、所述显著性水平、所述数据的数量进行计算,得到所述第一极大值。第一极小值计算模块用于通过所述最小值、所述显著性水平、所述数据的数量进行计算,得到所述第一极小值。
在所述装置的一个实施例中,第一极大值计算模块包括第一数值计算模块、第二数值计算模块、第三数值计算模块、第一比值计算模块和第一综合计算模块。
第一数值计算模块,用于计算所述数据的数量减去第一预设数值加上预设的显著性水平下的所述最大值,得到第一数值。
第二数值计算模块,用于计算所述预设的显著性水平下的所述最大值与所述第一数值比值的算术平方根,得到第二数值。
第三数值计算模块,用于将所述数据的数量减去所述第二预设数值得到第三数值。
第一比值计算模块,用于计算所述第三数值与算术平方根下所述数据的数量的第一比值。
第一综合计算模块,用于将所述第一比值乘以所述第二数值,得到所述第一极大值。
在所述装置的一个实施例中,第一极小值计算模块包括第四数值计算模块、第五数值计算模块、第六数值计算模块、第二比值计算模块和第二综合计算模块。
第四数值计算模块,用于计算所述数据的数量减去第一预设数值加上预设的显著性水平下的所述最小值,得到第四数值。
第五数值计算模块,用于计算所述预设的显著性水平下的所述最大值与所述第一数值比值的算术平方根,得到第五数值。
第六数值计算模块,用于将所述数据的数量减去所述第二预设数值得到第六数值。
第二比值计算模块,用于计算所述第六数值与算术平方根下所述数据的数量的第二比值。
第二综合计算模块,用于将所述第二比值乘以所述第五数值,得到所述第一极小值。
在所述装置的一个实施例中,数据采集任务异常预警装置还包括:运行次数统计模块、百分位数模块。
运行次数统计模块,用于统计所述数据采集任务的累积运行次数,用于统计异常值出现的次数。
百分位数模块,用于当所述异常检测模块通过所述广义ESD检验和所述显著性水平检测所述平滑数据采集量中存在异常值时,且所述异常值出现的次数大于预设的第二次数阈值时,通过百分位数设置第三极大值和第三极小值。
在所述装置的一个实施例中,数据采集任务异常预警装置还包括:第三极值比较模块、第四极值比较模块。
第三极值比较模块,用于将所述第一极大值、第二极大值、第三极大值进行第三比较,根据第三比较结果得到极大预警阈值。
第四极值比较模块,用于将第一极小值、第二极小值、第三极小值进行第四比较,根据第四比较结果得到极小预警阈值。
在所述装置的一个实施例中,所述异常检测模块包括均值计算模块、标准差计算模块、单边最大值计算模块、单边最小值计算模块、临界值匹配模块、可疑值确定模块、异常值确定模块、异常值处理模块。
均值计算模块,用于计算所述平滑数据采集量的均值。
标志差计算模块,用于计算所述平滑数据采集量的标准差。
单边最大值计算模块,用于计算所述均值减去所述平滑数据采集量中最小值得到的数值与所述标准差的比值,得到单边最小值。
单边最小值计算模块,用于计算所述平滑数据采集量中最大值减去所述均值得到的数值与所述标准差的比值,得到单边最大值。
临界值匹配模块,用于根据所述显著性水平、所述平滑数据采集量的数量、格拉布斯表确定临界值。
可疑值确定模块,用于比较所述最小值、最大值分别与所述均值的差值的绝对值,根据比较结果确定可疑值。
异常值确定模块,用于确定是否存在异常值,若所述可疑值大于所述临界值,则确定所述可疑值对应的所述平滑数据采集量中的数据为异常值,若所述可疑值小于所述临界值,则确定所述平滑数据采集量中未存在异常值。
异常值处理模块,用于将所述可疑值对应的所述平滑数据采集量中的数据删除,重复上述步骤,直至删除数据后的所述平滑数据采集量中未存在异常值。
在所述装置的一个实施例中,异常预警模块1070包括数据量监控模块、数据量判断模块,数据采集任务预警模块。
数据量监控模块,用于进行实时监控若干所述数据采集任务的所述平滑数据采集量。
数据量判断模块,用于判断所述平滑数据采集量小于所述极小预警阈值,或,所述平滑数据采集量大于所述极大预警阈值。
数据采集任务预警模块,用于当所述平滑数据采集量小于所述极小预警阈值,或,所述平滑数据采集量大于所述极大预警阈值时;对与所述平滑数据采集量对应的所述数据采集任务进行异常预警。
关于数据采集任务异常预警装置的具体限定可以参见上文中对于数据采集任务异常预警方法的限定,在此不再赘述。上述数据采集任务异常预警装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在计算机设备的一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据采集量、平滑数据采集量、极大预警阈值和极小预警阈值。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据采集任务异常预警方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在计算机设备的一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在计算机可读存储介质的一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种数据采集任务异常预警方法,其特征在于,所述方法包括以下步骤:
获取若干数据采集任务的数据采集量,对所述数据采集量进行平滑处理,得到平滑数据采集量,其中,所述平滑处理包括对所述数据采集量采用预设数值为底的对数进行处理;
将所述平滑数据采集量、预设的显著性水平作为广义ESD检验的输入参数,计算得到第一极大值和第一极小值,所述预设的显著性水平包括预先设置的所述广义ESD检验的参数;
通过所述平滑数据采集量的第一四分位数值、第三四分位数值以及预先测试的阈值进行计算,得到第二极大值和第二极小值,其中所述第一四分位数值和第三四分位数值是将所述平滑数据采集量通过四分位方法进行处理,得到的;
将所述第一极大值和第二极大值进行第一比较,当第一极大值大于第二极大值时,极大预警阈值为第一极大值,当第一极大值等于第二极大值时,极大预警阈值为第一极大值/第二极大值,当第一极大值小于第二极大值时,极大预警阈值为第二极大值,将所述第一极小值和第二极小值进行第二比较,当第一极小值小于第二极小值时,极小预警阈值为第一极小值,当第一极小值等于第二极小值时,极小预警阈值为第一极小值/第二极小值,当第一极小值大于第二极小值时,极小预警阈值为第二极小值;
当所述平滑数据采集量小于所述极小预警阈值,或,所述平滑数据采集量大于所述极大预警阈值时,对与所述平滑数据采集量对应的所述数据采集任务进行异常预警。
2.根据权利要求1所述的数据采集任务异常预警方法,其特征在于,所述将所述平滑数据采集量、预设的显著性水平作为广义ESD检验的输入参数,计算得到第一极大值和第一极小值,包括:
通过所述广义ESD检验和所述显著性水平检测所述平滑数据采集量中是否存在异常值,若存在所述异常值,则从所述平滑数据采集量中删除所述异常值,得到第一平滑数据采集量;
获取所述第一平滑数据采集量中最大值、最小值、数据的数量;
计算所述第一平滑数据采集量的均值和所述第一平滑数据采集量的标准差;
通过所述均值、所述标准差、所述最大值、所述显著性水平、所述数据的数量进行计算,得到所述第一极大值;
通过所述均值、所述标准差、所述最小值、所述显著性水平、所述数据的数量进行计算,得到所述第一极小值。
3.根据权利要求1所述的数据采集任务异常预警方法,其特征在于,所述将所述平滑数据采集量、预设的显著性水平作为广义ESD检验的输入参数,计算得到第一极大值和第一极小值,还包括:
通过所述广义ESD检验和所述显著性水平检测所述平滑数据采集量中是否存在异常值,若不存在所述异常值,则获取所述平滑数据采集量中最大值、最小值、数据的数量;
计算所述平滑数据采集量的均值和所述平滑数据采集量的标准差;
通过所述均值、所述标准差、所述最大值、所述显著性水平、所述数据的数量进行计算,得到所述第一极大值;
通过所述均值、所述标准差、所述最小值、所述显著性水平、所述数据的数量进行计算,得到所述第一极小值。
4.根据权利要求1所述的数据采集任务异常预警方法,其特征在于,所述方法还包括:
统计所述数据采集任务的累积运行次数;
当所述累积运行次数大于预设的第一次数阈值时,通过所述广义ESD检验和所述显著性水平检测所述平滑数据采集量中是否存在异常值;
若存在所述异常值,则统计所述异常值出现的次数;
当所述异常值出现的次数大于预设的第二次数阈值时,通过百分位数设置第三极大值和第三极小值。
5.根据权利要求4所述的数据采集任务异常预警方法,其特征在于,所述方法还包括:
将所述第一极大值、第二极大值、第三极大值进行第三比较,根据第三比较结果得到极大预警阈值;
将所述第一极小值、第二极小值、第三极小值进行第四比较,根据第四比较结果得到极小预警阈值;
利用所述极小预警阈值、所述极大预警阈值和所述平滑数据采集量对与所述平滑数据采集量对应的所述数据采集任务进行异常预警。
6.根据权利要求3或4所述的数据采集任务异常预警方法,其特征在于,所述通过所述广义ESD检验和所述显著性水平检测所述平滑数据采集量中是否存在异常值,包括:
计算所述平滑数据采集量的均值和所述平滑数据采集量的标准差;
计算所述均值减去所述平滑数据采集量中最小值得到的数值与所述标准差的比值,得到单边最小值;
计算所述平滑数据采集量中最大值减去所述均值得到的数值与所述标准差的比值,得到单边最大值;
比较所述最小值、所述最大值分别与所述均值的差值的绝对值,根据比较结果确定可疑值;
根据所述显著性水平、所述平滑数据采集量的数量、格拉布斯表确定临界值;
若所述可疑值大于所述临界值,则确定所述可疑值对应的所述平滑数据采集量中的数据为异常值;
将所述可疑值对应的所述平滑数据采集量中的数据删除,重复上述步骤,直至删除数据后的所述平滑数据采集量中未存在异常值;
若所述可疑值小于所述临界值,则确定所述平滑数据采集量中未存在异常值。
7.根据权利要求5所述的数据采集任务异常预警方法,其特征在于,所述利用所述极小预警阈值、所述极大预警阈值和所述平滑数据采集量对与所述平滑数据采集量对应的所述数据采集任务进行异常预警,包括:
进行实时监控若干所述数据采集任务的所述平滑数据采集量;
当所述平滑数据采集量小于所述极小预警阈值,或,所述平滑数据采集量大于所述极大预警阈值时;
对与所述平滑数据采集量对应的所述数据采集任务进行异常预警。
8.一种数据采集任务异常预警装置,其特征在于,所述装置包括:
平滑处理模块,用于获取若干数据采集任务的数据采集量,对所述数据采集量进行平滑处理,得到平滑数据采集量,其中所述平滑处理包括对所述数据采集量采用预设数值的对数进行处理;
四分位处理模块,用于将所述平滑数据采集量通过四分位方法进行处理,得到第一四分位数值和第三四分位数值;
第一极值计算模块,用于所述平滑数据采集量、预设的显著性水平作为广义ESD检验的输入参数,计算得到第一极大值和第一极小值,所述预设的显著性水平包括预先设置的所述平滑数据采集量的显著性水平;
第二极值计算模块,用于通过所述第一四分位数值、第三四分位数值以及预先测试的百分比阈值进行计算,得到第二极大值和第二极小值;
第一极值比较模块,用于将所述第一极大值和第二极大值进行第一比较,当第一极大值大于第二极大值时,极大预警阈值为第一极大值,当第一极大值等于第二极大值时,极大预警阈值为第一极大值/第二极大值,当第一极大值小于第二极大值时,极大预警阈值为第二极大值;
第二极值比较模块,将所述第一极小值和第二极小值进行第二比较,当第一极小值小于第二极小值时,极小预警阈值为第一极小值,当第一极小值等于第二极小值时,极小预警阈值为第一极小值/第二极小值,当第一极小值大于第二极小值时,极小预警阈值为第二极小值;
异常预警模块,用于当所述平滑数据采集量小于所述极小预警阈值,或,所述平滑数据采集量大于所述极大预警阈值时,对与所述平滑数据采集量对应的所述数据采集任务进行异常预警。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110985000.1A CN113434823B (zh) | 2021-08-26 | 2021-08-26 | 数据采集任务异常预警方法、装置、计算机设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110985000.1A CN113434823B (zh) | 2021-08-26 | 2021-08-26 | 数据采集任务异常预警方法、装置、计算机设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113434823A CN113434823A (zh) | 2021-09-24 |
CN113434823B true CN113434823B (zh) | 2021-11-16 |
Family
ID=77797931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110985000.1A Active CN113434823B (zh) | 2021-08-26 | 2021-08-26 | 数据采集任务异常预警方法、装置、计算机设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113434823B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116026780B (zh) * | 2023-03-28 | 2023-07-14 | 江西中医药大学 | 基于串联策略波长选择的包衣吸湿率在线检测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915846A (zh) * | 2015-06-18 | 2015-09-16 | 北京京东尚科信息技术有限公司 | 一种电子商务时间序列数据的异常检测方法及系统 |
CN110851338A (zh) * | 2019-09-23 | 2020-02-28 | 平安科技(深圳)有限公司 | 异常检测方法、电子设备及存储介质 |
CN111275570A (zh) * | 2020-01-13 | 2020-06-12 | 浙江大学 | 一种基于迭代式统计与假设检验的风电机组功率异常值检测方法 |
CN112509326A (zh) * | 2020-12-02 | 2021-03-16 | 北京航空航天大学 | 一种基于广义极值t分布偏差的非周期拥堵检测方法 |
-
2021
- 2021-08-26 CN CN202110985000.1A patent/CN113434823B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915846A (zh) * | 2015-06-18 | 2015-09-16 | 北京京东尚科信息技术有限公司 | 一种电子商务时间序列数据的异常检测方法及系统 |
CN110851338A (zh) * | 2019-09-23 | 2020-02-28 | 平安科技(深圳)有限公司 | 异常检测方法、电子设备及存储介质 |
CN111275570A (zh) * | 2020-01-13 | 2020-06-12 | 浙江大学 | 一种基于迭代式统计与假设检验的风电机组功率异常值检测方法 |
CN112509326A (zh) * | 2020-12-02 | 2021-03-16 | 北京航空航天大学 | 一种基于广义极值t分布偏差的非周期拥堵检测方法 |
Non-Patent Citations (1)
Title |
---|
《A Comparative Analysis of Different Outlier Detection Techniques in Cognitive Radio Networks with Malicious Users》;Arshed Ahmed等;《Wireless Communications and Mobile Computing》;20201209 * |
Also Published As
Publication number | Publication date |
---|---|
CN113434823A (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111143102B (zh) | 异常数据检测方法、装置、存储介质及电子设备 | |
CN110880984A (zh) | 基于模型的流量异常监测方法、装置、设备及存储介质 | |
CN109583758B (zh) | 监察系统的预警规则修正方法、装置和计算机设备 | |
CN107871190A (zh) | 一种业务指标监控方法及装置 | |
KR102097953B1 (ko) | 고장 리스크 지표 추정 장치 및 고장 리스크 지표 추정 방법 | |
EP3869424A1 (en) | Equipment failure diagnosis support system and equipment failure diagnosis support method | |
JP5768983B2 (ja) | 契約違反予測システム、契約違反予測方法および契約違反予測プログラム | |
CN111314173A (zh) | 监控信息异常的定位方法、装置、计算机设备及存储介质 | |
CN117076258A (zh) | 一种基于互联网云端的远程监控方法及系统 | |
CN115841046A (zh) | 基于维纳过程的加速退化试验数据处理方法和装置 | |
CN113434823B (zh) | 数据采集任务异常预警方法、装置、计算机设备和介质 | |
CN113723861A (zh) | 异常用电行为检测方法、装置、计算机设备和存储介质 | |
CN115795928A (zh) | 基于伽马过程的加速退化试验数据处理方法和装置 | |
CN109714201A (zh) | 网络系统可靠性评估方法、装置、计算机设备和存储介质 | |
CN110866682B (zh) | 基于历史数据的地下电缆预警方法和装置 | |
CN108362957B (zh) | 设备故障诊断方法、装置、储存介质和电子设备 | |
CN117237678B (zh) | 用电行为异常检测方法、装置、设备及存储介质 | |
CN110704773A (zh) | 基于频繁行为序列模式的异常行为检测方法及系统 | |
CN118113574A (zh) | 一种服务器健康度评估方法、装置、设备及存储介质 | |
CN111555917A (zh) | 基于云平台的告警信息处理方法及装置 | |
CN114938339B (zh) | 一种数据处理方法和相关装置 | |
CN111259338A (zh) | 元器件失效率修正方法、装置、计算机设备及存储介质 | |
CN117422195A (zh) | 水质评估方法、装置、计算机设备和存储介质 | |
CN113869373A (zh) | 设备异常检测方法、装置、计算机设备和存储介质 | |
CN111274687B (zh) | 元器件失效率预计方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: No. 8 Huizhi Street, Suzhou Industrial Park, Suzhou Area, China (Jiangsu) Pilot Free Trade Zone, Suzhou City, Jiangsu Province, 215000 Patentee after: Qichacha Technology Co.,Ltd. Address before: Room 503, 5 / F, C1 building, 88 Dongchang Road, Suzhou Industrial Park, 215000, Jiangsu Province Patentee before: Qicha Technology Co.,Ltd. |
|
CP03 | Change of name, title or address |