Nothing Special   »   [go: up one dir, main page]

CN110324168A - 异常事件监控方法和装置及电子设备 - Google Patents

异常事件监控方法和装置及电子设备 Download PDF

Info

Publication number
CN110324168A
CN110324168A CN201810294103.1A CN201810294103A CN110324168A CN 110324168 A CN110324168 A CN 110324168A CN 201810294103 A CN201810294103 A CN 201810294103A CN 110324168 A CN110324168 A CN 110324168A
Authority
CN
China
Prior art keywords
anomalous event
baseline
test object
event
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810294103.1A
Other languages
English (en)
Inventor
夏明�
吕奇
王华锋
司徒放
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810294103.1A priority Critical patent/CN110324168A/zh
Publication of CN110324168A publication Critical patent/CN110324168A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明实施例提供了一种异常事件监控方法和装置及电子设备。该方法包括:根据检测对象的历史数值预测其动态基线,所述动态基线用于表示所述检测对象的性能指标数值在未来预设时间段内的变化趋势;按照预设检测规则,根据所述动态基线对所述检测对象的实时数值进行检测,以确定系统是否存在异常事件。本发明实施例通过对性能指标数值进行预测,获取其动态基线,从而判定实时数据是否存在异常,该动态基线随业务的自然增长自适应变化,使得对系统的异常检测具有灵活性,同时,避免采用人工进行阈值设置,提高了检测的准确性。

Description

异常事件监控方法和装置及电子设备
技术领域
本发明涉及通信技术领域,尤其涉及一种异常事件监控方法和装置及电子设备。
背景技术
在大规模分布式环境中,计算机系统及其服务会由于各种各样的原因发生问题或故障,如何快速准确地发现、定位并解决问题是保障系统稳定性的关键。
传统的异常检测方法是,针对各种性能指标数据进行监控,以阈值的方式进行检测,当某个性能指标数据超出阈值时,确认系统或应用出现异常。
发明人在实现本发明的过程中,发现现有技术至少存在如下问题:现有技术中,用于检测性能指标数据的阈值是人为设置且固定不变的,不能够灵活适用于系统的各种情形,且阈值设置人员的经验和能力差异极大地制约了检测的准确性。
发明内容
本发明实施例提供一种异常事件监控方法和装置及电子设备,以解决现有技术中采用固定阈值进行异常检测所带来的缺陷,提高检测的准确性。
为达到上述目的,本发明实施例提供了一种异常事件监控方法,包括:根据检测对象的历史数值预测其动态基线,所述动态基线用于表示所述检测对象的性能指标数值在未来预设时间段内的变化趋势;按照预设检测规则,根据所述动态基线对所述检测对象的实时数值进行检测,以确定系统是否存在异常事件。
本发明实施例还提供了一种异常事件监控装置,包括:基线预测模块,用于根据检测对象的历史数值预测其动态基线,所述动态基线用于表示所述检测对象的性能指标数值在未来预设时间段内的变化趋势;检测模块,用于按照预设检测规则,根据所述动态基线对所述检测对象的实时数值进行检测,以确定系统是否存在异常事件。
本发明实施例还提供一种电子设备,包括:存储器,用于存储程序;处理器,用于运行所述存储器中存储的所述程序,以用于:根据检测对象的历史数值预测其动态基线,所述动态基线用于表示所述检测对象的性能指标数值在未来预设时间段内的变化趋势;按照预设检测规则,根据所述动态基线对所述检测对象的实时数值进行检测,以确定系统是否存在异常事件。
本发明实施例提供的异常事件监控方法和装置及电子设备,通过对性能指标数值进行预测,获取其动态基线,从而判定实时数据是否存在异常,该动态基线随业务的自然增长自适应变化,使得对系统的异常检测具有灵活性,同时,避免采用人工进行阈值设置,提高了检测的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明提供的业务系统实施例的系统框图;
图2为本发明提供的异常事件监控方法一个实施例的流程图;
图3为本发明提供的异常事件监控方法另一个实施例的流程图;
图4为本发明提供的异常事件监控装置一个实施例的结构示意图;
图5为本发明提供的异常事件监控装置另一个实施例的结构示意图;
图6为本发明提供的电子设备实施例的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
针对现有技术的缺陷,本申请提供一种解决方案,其主要原理是:通过对检测对象的历史数值进行预测,获取性能指标数值在未来预设时间段内的动态基线,该动态基线是随时间变化的,然后将检测对象的实际数值与动态基线上相应时刻的数值进行比较,从而判断系统是否存在异常事件。由于该动态基线是随系统业务的自然增长自适应变化,因此,相比于现有技术中的固定阈值,本方案提供的方法对于系统异常的检测具有更高的灵活性及准确性。
本发明实施例提供的方法可应用于任何提供异常监控服务的业务系统。图1为本发明提供的业务系统实施例的系统框图。如图1所示,业务系统中包括监控装置。该监控装置包括:基线预测模块和检测模块,可以用来执行下述图2所示的处理流程。首先,根据检测对象的历史数值预测其动态基线。然后按照预设检测规则,对检测对象的实时数值进行检测,当实时数值高于上行基线在相应时刻的数值时,和/或,当实时数值低于下行基线在相应时刻的数值时,确定系统存在异常事件。该动态基线随系统业务的自然增长自适应变化,使得对系统的异常检测更加灵活,同时,避免采用人工进行阈值设置,能够提高检测的准确性。
上述实施例是对本发明实施例的技术原理及示例性的应用框架的说明,下面通过多个实施例来进一步对本发明实施例具体技术方案进行详细描述。
首先,对各实施例中出现的术语进行解释:
检测对象:应用中各项服务的性能指标,通过对性能指标的检测,来判断应用是否出现异常。
动态基线:用于表示性能指标数值在未来预设时间段内的变化趋势,可以包括上行基线和下行基线,是随时间变化的曲线。
异常事件:包括异常产生的时间、所属应用和服务、对应的性能指标、异常类型、基准值及偏差值等。
应用维度场景模型:系统内预先设置的多个应用维度的场景模型,针对同一个应用,每个应用维度场景模型的输入是一组事件,输出是一个应用维度检测结论,该应用维度检测结论中包含输入的各事件之间的因果关系。
链路维度场景模型:系统内预先设置的多个链路维度的场景模型,针对同一个链路拓扑中的多个应用,每个链路维度场景模型的输入是多个应用发生的事件,输出是一个链路维度检测结论,该链路维度检测结论中包含输入的各事件之间的因果关系。
实施例一
图2为本发明提供的异常事件监控方法一个实施例的流程图,该方法的执行主体可以为上述业务系统中的监控装置。如图2所示,该异常事件监控方法包括如下步骤:
S201,根据检测对象的历史数值预测其动态基线,该动态基线用于表示检测对象的性能指标数值在未来预设时间段内的变化趋势。
在本发明实施例中,业务系统首先根据检测对象的历史数值进行预测,例如,可以采用集成机器学习算法,对检测对象的历史数值进行学习,获取检测对象的动态基线。该动态基线表示检测对象的性能指标数值在未来预设时间段内的变化趋势,具体可以包括:上行基线和/或下行基线,分别是两条随时间动态变化的曲线。所谓集成机器学习算法是结合多种机器学习算法(包括但不限于:经验归纳学习算法、分析学习算法、类比学习算法、遗传算法、连接学习算法和增强学习算法),将多个机器学习模型,通过一定的方式进行组合,集成各机器学习模型的优点,提供具有更强泛化能力(指机器学习算法对新鲜样本的适应能力)的集成模型。
S202,按照预设检测规则,根据上述动态基线对检测对象的实时数值进行检测,以确定系统是否存在异常事件。
然后,业务系统按照预设检测规则对检测对象的实时数值进行检测。具体地,该预设检测规则可以包括:当实时数值高于上行基线在相应时刻(即,实时数值产生的时刻)的数值时,和/或,当实时数值低于下行基线在相应时刻(即,实时数值产生的时刻)的数值时,确定系统存在异常事件。此外,一个检测对象除了可以关联上述两条动态的检测规则外,还可以关联多个静态的检测规则(如,在上/下行基线之外,还可以根据经验设置不随时间变化的固定阈值等)。当业务系统判定检测对象的实时数值符合预设检测规则时,判定系统存在异常事件,并将异常事件进行结构化处理,具体地,可以包括异常产生的时间、所属应用和服务、对应的性能指标、异常类型、基准值及偏差值等。
本发明实施例提供的异常事件监控方法,通过对性能指标数值进行预测,获取可随业务的自然增长自适应变化的动态基线,从而判定实时数据是否存在异常,实时生成结构化的异常事件,使得对系统的异常检测具有较高的灵活性,同时,避免采用人工进行阈值设置,大量减少人工开销,提高了检测的准确性。
实施例二
图3为本发明提供的异常事件监控方法另一个实施例的流程图。如图3所示,在上述图2所示实施例的基础上,本实施例提供的异常事件监控方法还可以包括以下步骤:
S301,根据检测对象的历史数值预测其动态基线。
S302,按照预设检测规则,根据上述动态基线对检测对象的实时数值进行检测,以确定系统是否存在异常事件。
在本发明实施例中,业务系统可以离线对检测对象的上/下行基线进行预测,并将其写回数据层,等待调用。然后,启动实时模块,实时地进行检测操作。在首次执行检测操作时,可以先进行初始化,加载相应的静态资源,主要包括:检测对象、预设检测规则、应用维度场景模型、链路维度场景模型和全局链路拓扑等。在初始化完成后,业务系统可以启动调度器进行周期性调度,请求当前周期的实时数据与相应的动态基线进行比较,当实时数值符合预设检测规则时,生成结构化的异常事件。
S303,当系统存在异常事件时,获取异常事件所属应用所发生的所有外部事件。
当业务系统根据检测结果生成结构化的异常事件后,可以批量请求异常事件所属应用(例如,应用A)在最近一段时间内所发生的所有外部事件。在本发明实施例中,应用的外部事件可以包括但不限于:应用变更、机器下线、开关推送、网络变更等。
S304,遍历应用维度场景模型列表,筛选出满足条件的应用维度场景模型。
S305,获取满足条件的应用维度场景模型输出的应用维度结论,该应用维度结论包含输入的各事件之间的因果关系。
在本发明实施例中,满足条件的应用维度场景模型的输入由上述异常事件和外部事件中的至少两个组成、且满足条件的应用维度场景模型的至少一个输入为异常事件。业务系统内可以预先设置多个应用维度场景模型,针对同一个应用,每个应用维度场景模型的输入是一组事件,输出是一个应用维度检测结论;满足场景模型的输入,就会输出相应的结论。比如,A场景模型需要应用发布变更事件与服务每秒查询数(Query Per Second;以下简称:QPS)下跌事件同时发生,结论是应用发布变更导致服务QPS下跌;B场景模型需要垃圾回收(Garbage Collection;以下简称:GC)频繁事件、RT上升事件和QPS下跌事件同时发生,结论是GC频繁导致服务QPS下跌(RT上升事件是因果关系的中间状态,因此在结论中省略)。
进一步地,在获取到满足条件的应用维度场景模型输出的应用维度结论后,本发明实施例提供的方法还可以对异常事件进行应用维度分析,具体可以包括下述步骤:
S306,根据应用维度结论,计算异常事件所属应用的综合异常分数。
具体地,业务系统在执行上述步骤时可能获取到多个异常事件和多个外部事件,因此,可以对异常事件的偏移度与外部事件的布尔值进行加权求和,计算综合异常分数,也就是说,根据公式(1)计算应用的综合异常分数:
其中,H为综合异常分数,Ai为第i个异常事件的权重值,ai为第i个异常事件的偏移度,n为异常事件的个数,Bj为第j个外部事件的权重值,bj为第j个外部事件的布尔值,m为外部事件的个数,i和j为正整数。该综合异常分数为累加所有异常事件与外部事件的分值,异常事件数和外部事件越多,最后累加得到的值通常也会越大。
在上述公式中,bj为第j个外部事件的布尔值,也就是说,当存在第j个外部事件时,bj为1,当不存在第j个外部事件时,bj为0。同时,异常事件的偏移度为异常事件对应的实时数值与动态基线在相应时刻的数值之差的绝对值与异常事件对应的动态基线在相应时刻的数值的比值,也就是说,可以根据公式(2)获取异常事件的偏移度:
其中,a为异常事件的偏移度,R为该异常事件对应的实时数值,T为该异常事件对应的动态基线在相应时刻(即,实时数值产生的时刻)的数值。
S307,根据综合异常分数,触发相应的反馈操作。
在本发明实施例中,当计算出应用的综合异常分数后,根据该分数所对应的不同范围,触发不同的反馈操作,具体地,所触发的反馈操作可以包括但不限于:数据写回、邮件报警、短信告警等。
更进一步地,本发明实施例提供的方法还可以对异常事件进行链路维度分析,具体可以包括下述步骤:
S308,将异常事件所属应用作为关键异常节点,遍历全局链路拓扑,获取该关键异常节点的关联异常节点。
在本发明实施例中,关联异常节点为与关键异常节点相关联、且也发生异常事件的应用。假设根据上述步骤确定应用A为关键异常节点,且与应用A相关的链路拓扑为:应用A的上游是应用B,应用A的下游是应用C(即,B→A→C),如果在应用B和C中,应用B也发生了异常事件,那用应用B便为应用A的关联异常节点。
S309,遍历链路维度场景模型列表,筛选出满足条件的链路维度场景模型。
在本发明实施例中,满足条件的链路维度场景模型的输入由关键异常节点和关联异常节点发生的异常事件以及外部事件中的至少三个组成、该满足条件的链路维度场景模型的至少一个输入为上述关键异常节点发生的异常事件、且该满足条件的链路维度场景模型的至少一个输入为上述关联异常节点发生的异常事件。
S310,获取满足条件的链路维度场景模型输出的链路维度结论,该链路维度结论包含输入的各事件之间的因果关系。
S311,根据上述链路维度结论,向各关联异常节点发送反馈操作。
在本发明实施例中,根据对异常事件进行链路维度分析,获取各关联异常节点,并向各关联异常节点发送反馈操作,具体地,所发送的反馈操作可以包括但不限于:数据写回、邮件报警、短信告警等。在反馈操作完成后,可以回到步骤S302,重新进行周期调度,等待下一周期,开始新一轮的任务调度,如此循环往复,直至系统关闭。
本发明实施例将异常检测和事件模型相结合,提出了计算机监控领域的自动问题发现与定位的解决方案,在应用维度分析和链路维度分析中,将事件与各场景模型相结合,有效地简化了根因分析的过程。同时,根据结论进行评分,从而触发不同级别的反馈操作,实现了层次化的处理模式,有效减少了误报干扰。
以下为本发明实施例提供的具体示例。
1、假设系统在进行初始化后,获得如下静态资源:
检测对象:应用A的CreateOrder服务的响应时间(Response Time;以下简称:RT);
预设检测规则:检测实时数值是否高于上行基线在相应时刻(即,实时数值产生的时刻)的数值;
应用链路场景模型:输入为:<应用A发布变更>事件和<RT高于上行基线在相应时刻的数值>事件,输出为:应用A发布变更失败,导致RT上升;
全局链路拓扑:应用A的上游是应用B,应用A的下游是应用C(即,B→A→C)。
2、调度器,每隔一分钟启动一次。
数据请求:2017-08-20 13:10:00请求应用A的CreateOrder服务的过去一分钟的平台RT为3500毫秒,上行基线在相应时刻的数值为2000毫秒;
任务调度:相继启动时序异常检测、应用维度分析和链路维度分析。
3、异常检测:根据预设检测规则比较实际数值与上行基线在相应时刻的数值,发现实际数值为3000高于相应时刻上行基线的数值2000,因此,生成异常事件:
时间:2017-08-20 13:10:00;
应用:A;
服务:CreateOrder;
性能指标:RT;
异常类型:高于上行基线;
基准值:2000;
偏差:1500;
4、应用维度分析:发现应用A存在时序异常事件,请求应用A的外部事件,发现应用A在2017-08-20 13:09:00执行了一次应用变更。遍历应用维度场景模型,获取满足条件的应用维度场景模型的应用维度结论:
应用:A;
问题现象:2017-08-20 13:10:00服务CreateOrder发生RT超时异常,实际值为3500毫秒,超过上行基线,偏差为1500毫秒;
问题原因:2017-08-20 13:09:00应用发布变更有异常,导致RT上升。
5、链路维度分析:查询应用A的关联应用,发现应用B和C。其中应用B也出现了RT超时问题,获取满足条件的链路维度场景模型(上下游同时出现RT超时,原因为下游导致)的链路维度结论如下:
时间:2017-08-20 13:10:00;
问题现象:应用A和B同时出现RT超时异常;
问题原因:应用A发布变更失败。
6、动作触发:计算应用A的综合异常分数为5*0.75+10=13.75,其中,服务CreateOrder的RT事件的权重值为5,异常事件的偏移度为0.75=(3500-2000)/2000,应用变更事件的权重值为10,则应用A的综合异常分为13.75,大于短信告警阈值10,因此将该结论写回数据层,并向应用A发送短信告警。同时向应用B发送短信告警。
本发明实施例提供的异常事件监控方法,通过对性能指标数值进行预测,获取其动态基线,以判定实时数据是否存在异常,使得对系统的异常检测具有灵活性,避免采用人工进行阈值设置,提高了检测的准确性,同时,实时生成带有语义的结构化异常事件,结合应用的外部事件,进行应用维度和链路维度分析,能够自动发现异常节点及关联异常节点,定位异常原因,并给出结论与解决方案,减少了开发运维人员发现、定位、解决问题的周期与工作量,有效提升了系统的稳定性与可用性。
实施例三
图4为本发明提供的异常事件监控装置一个实施例的结构示意图,可用于执行如图2所示的方法步骤。如图4所示,该装置可以包括:基线预测模块41和检测模块42。
其中,基线预测模块41用于根据检测对象的历史数值预测其动态基线,该动态基线用于表示检测对象的性能指标数值在未来预设时间段内的变化趋势;检测模块42用于按照预设检测规则,根据基线预测模块41产生的动态基线对检测对象的实时数值进行检测,以确定系统是否存在异常事件。
在本发明实施例中,基线预测模块41首先根据检测对象的历史数值进行预测,例如,基线预测模块41可以采用集成机器学习算法,对检测对象的历史数值进行学习,获取检测对象的动态基线。该动态基线表示检测对象的性能指标数值在未来预设时间段内的变化趋势,具体可以包括:上行基线和/或下行基线,分别是两条随时间动态变化的曲线。然后,检测模块42按照预设检测规则对检测对象的实时数值进行检测。具体地,该预设检测规则可以包括:当实时数值高于上行基线在相应时刻(即,实时数值产生的时刻)的数值时,和/或,当实时数值低于下行基线在相应时刻(即,实时数值产生的时刻)的数值时,确定系统存在异常事件。此外,一个检测对象除了可以关联上述两条动态的检测规则外,还可以关联多个静态的检测规则(如,在上/下行基线之外,还可以根据经验设置不随时间变化的固定阈值等)。当业务系统判定检测对象的实时数值符合预设检测规则时,判定系统存在异常事件,并将异常事件进行结构化处理,具体地,可以包括异常产生的时间、所属应用和服务、对应的性能指标、异常类型、基准值及偏差值等。
本发明实施例提供的异常事件监控装置,通过对性能指标数值进行预测,获取可随业务的自然增长自适应变化的动态基线,从而判定实时数据是否存在异常,实时生成结构化的异常事件,使得对系统的异常检测具有较高的灵活性,同时,避免采用人工进行阈值设置,大量减少人工开销,提高了检测的准确性。
实施例四
图5为本发明提供的异常事件监控装置另一个实施例的结构示意图,可用于执行如图3所示的方法步骤。如图5所示,在上述图4所示实施例的基础上,本实施例提供的异常事件监控装置还可以包括:应用维度分析模块51。该应用维度分析模块51可以用于当系统存在异常事件时,获取异常事件所属应用所发生的所有外部事件;遍历应用维度场景模型列表,筛选出满足条件的应用维度场景模型,该满足条件的应用维度场景模型的输入由上述异常事件和上述外部事件中的至少两个组成、且该满足条件的应用维度场景模型的至少一个输入为上述异常事件;获取该满足条件的应用维度场景模型输出的应用维度结论,该应用维度结论包含输入的各事件之间的因果关系。
在本发明实施例中,基线预测模块41可以离线对检测对象的上/下行基线进行预测,并将其写回数据层,等待调用。然后,检测模块42实时地进行检测操作。在检测模块42首次执行检测操作时,可以先进行初始化,加载相应的静态资源,主要包括:检测对象、预设检测规则、应用维度场景模型、链路维度场景模型和全局链路拓扑等。在初始化完成后,检测模块42可以启动调度器进行周期性调度,请求当前周期的实时数据与相应的动态基线进行比较,当实时数值符合预设检测规则时,生成结构化的异常事件。
当检测模块42根据检测结果生成结构化的异常事件后,应用维度分析模块51可以批量请求异常事件所属应用(例如,应用A)在最近内所发生的所有外部事件。在本发明实施例中,应用的外部事件可以包括但不限于:应用变更、机器下线、开关推送、网络变更等。
在本发明实施例中,满足条件的应用维度场景模型的输入由上述异常事件和外部事件中的至少两个组成、且满足条件的应用维度场景模型的至少一个输入为异常事件。业务系统内可以预先设置多个应用维度场景模型,针对同一个应用,每个应用维度场景模型的输入是一组事件,输出是一个应用维度检测结论;满足场景模型的输入,就会输出相应的结论。比如,A场景模型需要应用发布变更事件与服务QPS下跌事件同时发生,结论是应用发布变更导致服务QPS下跌;B场景模型需要GC频繁事件、RT上升事件和QPS下跌事件同时发生,结论是GC频繁导致服务QPS下跌(RT上升事件是因果关系的中间状态,因此在结论中省略)。
此时,本发明实施例提供的异常事件监控装置,还可以包括:第一处理模块52。该第一处理模块52可以用于根据应用维度分析模块51产生的应用维度结论,计算异常事件所属应用的综合异常分数;并根据该综合异常分数,触发相应的反馈操作。
具体地,业务系统可能获取到多个异常事件和多个外部事件,因此,第一处理模块52可以对异常事件的偏移度与外部事件的布尔值进行加权求和,计算综合异常分数,也就是说,第一处理模块52根据公式(3)计算应用的综合异常分数:
其中,H为综合异常分数,Ai为第i个异常事件的权重值,ai为第i个异常事件的偏移度,n为异常事件的个数,Bj为第j个外部事件的权重值,bj为第j个外部事件的布尔值,m为外部事件的个数,i和j为正整数。该综合异常分数为累加所有异常事件与外部事件的分值,异常事件数和外部事件越多,最后累加得到的值通常也会越大。
在上述公式中,bj为第j个外部事件的布尔值,也就是说,当存在第j个外部事件时,bj为1,当不存在第j个外部事件时,bj为0。同时,异常事件的偏移度为异常事件对应的实时数值与动态基线在相应时刻的数值之差的绝对值与异常事件对应的动态基线在相应时刻的数值的比值,也就是说,可以根据公式(4)获取异常事件的偏移度:
其中,a为异常事件的偏移度,R为该异常事件对应的实时数值,T为该异常事件对应的动态基线在相应时刻(即,实时数值产生的时刻)的数值。
当计算出应用的综合异常分数后,第一处理模块52根据该分数所对应的不同范围,触发不同的反馈操作,具体地,所触发的反馈操作可以包括但不限于:数据写回、邮件报警、短信告警等。
进一步地,本发明实施例提供的异常事件监控装置,还可以包括:链路维度分析模块53。该链路维度分析模块53可以用于将异常事件所属应用作为关键异常节点,遍历全局链路拓扑,获取关键异常节点的关联异常节点,该关联异常节点为与关键异常节点相关联、且也发生异常事件的应用;遍历链路维度场景模型列表,筛选出满足条件的链路维度场景模型,该满足条件的链路维度场景模型的输入由关键异常节点和关联异常节点发生的异常事件以及上述外部事件中的至少三个组成、该满足条件的链路维度场景模型的至少一个输入为关键异常节点发生的异常事件、且该满足条件的链路维度场景模型的至少一个输入为关联异常节点发生的异常事件;获取满足条件的链路维度场景模型输出的链路维度结论,该链路维度结论包含输入的各事件之间的因果关系。
在本发明实施例中,链路维度分析模块53获取到的关联异常节点为与关键异常节点相关联、且也发生异常事件的应用。假设应用A为关键异常节点,且与应用A相关的链路拓扑为:应用A的上游是应用B,应用A的下游是应用C(即,B→A→C),如果在应用B和C中,应用B也发生了异常事件,那用应用B便为应用A的关联异常节点。
此时,本发明实施例提供的异常事件监控装置,还可以包括:第二处理模块54。该第二处理模块54可以用于根据上述链路维度结论,向各关联异常节点发送反馈操作。
在本发明实施例中,链路维度分析模块53根据对异常事件进行链路维度分析,获取各关联异常节点,第二处理模块54向各关联异常节点发送反馈操作,具体地,第二处理模块54所发送的反馈操作可以包括但不限于:数据写回、邮件报警、短信告警等。在反馈操作完成后,检测模块42可以重新进行周期调度,等待下一周期,开始新一轮的任务调度,如此循环往复,直至系统关闭。
本发明实施例将异常检测和事件模型相结合,提出了计算机监控领域的自动问题发现与定位的解决方案,在应用维度分析和链路维度分析中,将事件与各场景模型相结合,有效地简化了根因分析的过程。同时,根据结论进行评分,从而触发不同级别的反馈操作,实现了层次化的处理模式,有效减少了误报干扰。
本发明实施例提供的异常事件监控装置,通过对性能指标数值进行预测,获取其动态基线,以判定实时数据是否存在异常,使得对系统的异常检测具有灵活性,避免采用人工进行阈值设置,提高了检测的准确性,同时,实时生成带有语义的结构化异常事件,结合应用的外部事件,进行应用维度和链路维度分析,能够自动发现异常节点及关联异常节点,定位异常原因,并给出结论与解决方案,减少了开发运维人员发现、定位、解决问题的周期与工作量,有效提升了系统的稳定性与可用性。
实施例五
以上描述了异常事件监控装置的内部功能和结构,该装置可实现为一种电子设备。图6为本发明提供的电子设备实施例的结构示意图。如图6所示,该电子设备包括存储器61和处理器62。
存储器61,用于存储程序。除上述程序之外,存储器61还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器61可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器62,与存储器61耦合,执行存储器61所存储的程序,以用于:
根据检测对象的历史数值预测其动态基线,该动态基线用于表示检测对象的性能指标数值在未来预设时间段内的变化趋势;按照预设检测规则,根据上述动态基线对检测对象的实时数值进行检测,以确定系统是否存在异常事件。
进一步,如图6所示,电子设备还可以包括:通信组件63、电源组件64、音频组件65、显示器66等其它组件。图6中仅示意性给出部分组件,并不意味着电子设备只包括图6所示组件。
通信组件63被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件63经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件63还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件64,为电子设备的各种组件提供电力。电源组件64可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件65被配置为输出和/或输入音频信号。例如,音频组件65包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器61或经由通信组件63发送。在一些实施例中,音频组件65还包括一个扬声器,用于输出音频信号。
显示器66包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (11)

1.一种异常事件监控方法,其特征在于,包括:
根据检测对象的历史数值预测其动态基线,所述动态基线用于表示所述检测对象的性能指标数值在未来预设时间段内的变化趋势;
按照预设检测规则,根据所述动态基线对所述检测对象的实时数值进行检测,以确定系统是否存在异常事件。
2.根据权利要求1所述的异常事件监控方法,其特征在于,所述根据检测对象的历史数值预测其动态基线,包括:
采用集成机器学习算法,对所述检测对象的历史数值进行学习,获取所述检测对象的动态基线。
3.根据权利要求1或2所述的异常事件监控方法,其特征在于,所述动态基线包括:上行基线和/或下行基线,所述预设检测规则包括:当所述实时数值高于所述上行基线在相应时刻的数值时,和/或,当所述实时数值低于所述下行基线在相应时刻的数值时,确定系统存在异常事件。
4.根据权利要求3所述的异常事件监控方法,其特征在于,还包括:
当系统存在异常事件时,获取所述异常事件所属应用所发生的所有外部事件;
遍历应用维度场景模型列表,筛选出满足条件的应用维度场景模型,所述满足条件的应用维度场景模型的输入由所述异常事件和所述外部事件中的至少两个组成、且所述满足条件的应用维度场景模型的至少一个输入为所述异常事件;
获取所述满足条件的应用维度场景模型输出的应用维度结论,所述应用维度结论包含输入的各事件之间的因果关系。
5.根据权利要求4所述的异常事件监控方法,其特征在于,还包括:
根据所述应用维度结论,计算所述异常事件所属应用的综合异常分数;
根据所述综合异常分数,触发相应的反馈操作。
6.根据权利要求5所述的异常事件监控方法,其特征在于,所述根据所述应用维度结论,计算所述异常事件所属应用的综合异常分数,包括:
对所述异常事件的偏移度与所述外部事件的布尔值进行加权求和,计算所述综合异常分数。
7.根据权利要求6所述的异常事件监控方法,其特征在于,所述异常事件的偏移度为所述异常事件对应的实时数值与动态基线在相应时刻的数值之差的绝对值与所述异常事件对应的动态基线在相应时刻的数值的比值。
8.根据权利要求4所述的异常事件监控方法,其特征在于,还包括:
将所述异常事件所属应用作为关键异常节点,遍历全局链路拓扑,获取所述关键异常节点的关联异常节点,所述关联异常节点为与所述关键异常节点相关联、且也发生异常事件的应用;
遍历链路维度场景模型列表,筛选出满足条件的链路维度场景模型,所述满足条件的链路维度场景模型的输入由所述关键异常节点和所述关联异常节点发生的异常事件以及所述外部事件中的至少三个组成、所述满足条件的链路维度场景模型的至少一个输入为所述关键异常节点发生的异常事件、且所述满足条件的链路维度场景模型的至少一个输入为所述关联异常节点发生的异常事件;
获取所述满足条件的链路维度场景模型输出的链路维度结论,所述链路维度结论包含输入的各事件之间的因果关系。
9.根据权利要求8所述的异常事件监控方法,其特征在于,还包括:
根据所述链路维度结论,向各关联异常节点发送反馈操作。
10.一种异常事件监控装置,其特征在于,包括:
基线预测模块,用于根据检测对象的历史数值预测其动态基线,所述动态基线用于表示所述检测对象的性能指标数值在未来预设时间段内的变化趋势;
检测模块,用于按照预设检测规则,根据所述动态基线对所述检测对象的实时数值进行检测,以确定系统是否存在异常事件。
11.一种电子设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以用于:
根据检测对象的历史数值预测其动态基线,所述动态基线用于表示所述检测对象的性能指标数值在未来预设时间段内的变化趋势;
按照预设检测规则,根据所述动态基线对所述检测对象的实时数值进行检测,以确定系统是否存在异常事件。
CN201810294103.1A 2018-03-30 2018-03-30 异常事件监控方法和装置及电子设备 Pending CN110324168A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810294103.1A CN110324168A (zh) 2018-03-30 2018-03-30 异常事件监控方法和装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810294103.1A CN110324168A (zh) 2018-03-30 2018-03-30 异常事件监控方法和装置及电子设备

Publications (1)

Publication Number Publication Date
CN110324168A true CN110324168A (zh) 2019-10-11

Family

ID=68112397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810294103.1A Pending CN110324168A (zh) 2018-03-30 2018-03-30 异常事件监控方法和装置及电子设备

Country Status (1)

Country Link
CN (1) CN110324168A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109416534A (zh) * 2016-05-04 2019-03-01 Abb瑞士股份有限公司 工厂过程自动化中的报警处置系统和方法
CN110991241A (zh) * 2019-10-31 2020-04-10 支付宝(杭州)信息技术有限公司 异常识别方法、设备及计算机可读介质
CN111563022A (zh) * 2020-05-12 2020-08-21 中国民航信息网络股份有限公司 一种集中式存储器监控方法和装置
CN111611517A (zh) * 2020-05-13 2020-09-01 咪咕文化科技有限公司 指标监控方法、装置、电子设备及存储介质
CN111861394A (zh) * 2020-07-21 2020-10-30 重庆现代建筑产业发展研究院 一种基于物联网的小区智能管理方法及系统
WO2021099890A1 (en) * 2019-11-18 2021-05-27 International Business Machines Corporation Identification of constituent events in an event storm in operations management
CN112862019A (zh) * 2021-04-25 2021-05-28 北京必示科技有限公司 一种动态筛选非周期性异常方法
CN112953904A (zh) * 2021-01-27 2021-06-11 北京达佳互联信息技术有限公司 异常检测方法、装置、服务器以及存储介质
CN113010389A (zh) * 2019-12-20 2021-06-22 阿里巴巴集团控股有限公司 一种训练方法、故障预测方法、相关装置及设备
WO2021190068A1 (zh) * 2020-03-27 2021-09-30 华为技术有限公司 一种建模方法及装置
CN113688004A (zh) * 2021-07-30 2021-11-23 济南浪潮数据技术有限公司 云平台时序监控数据管理方法、装置、设备及存储介质
CN113992496A (zh) * 2020-07-10 2022-01-28 中国移动通信集团湖北有限公司 基于四分位算法的异动告警方法、装置及计算设备
CN114138617A (zh) * 2022-02-07 2022-03-04 杭州朗澈科技有限公司 自学习的变频监控方法、系统、电子设备和存储介质
CN114816950A (zh) * 2021-01-21 2022-07-29 腾讯科技(深圳)有限公司 数据监控方法、装置及电子设备
CN114978568A (zh) * 2021-02-23 2022-08-30 迈络思科技有限公司 使用机器学习进行数据中心管理
CN117032052A (zh) * 2023-10-07 2023-11-10 华能信息技术有限公司 一种基于动态事件的安全管控方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111307A (zh) * 2009-12-29 2011-06-29 亿阳信通股份有限公司 网络风险监控方法和装置
CN103236953A (zh) * 2012-10-30 2013-08-07 吉林大学 一种基于模糊时间序列预测模型的ip承载网性能指标主动监控方法
CN106856442A (zh) * 2015-12-09 2017-06-16 北京神州泰岳软件股份有限公司 一种性能指标监控方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111307A (zh) * 2009-12-29 2011-06-29 亿阳信通股份有限公司 网络风险监控方法和装置
CN103236953A (zh) * 2012-10-30 2013-08-07 吉林大学 一种基于模糊时间序列预测模型的ip承载网性能指标主动监控方法
CN106856442A (zh) * 2015-12-09 2017-06-16 北京神州泰岳软件股份有限公司 一种性能指标监控方法和装置

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109416534A (zh) * 2016-05-04 2019-03-01 Abb瑞士股份有限公司 工厂过程自动化中的报警处置系统和方法
CN110991241A (zh) * 2019-10-31 2020-04-10 支付宝(杭州)信息技术有限公司 异常识别方法、设备及计算机可读介质
CN110991241B (zh) * 2019-10-31 2022-06-03 支付宝(杭州)信息技术有限公司 异常识别方法、设备及计算机可读介质
GB2604081B (en) * 2019-11-18 2022-11-30 Ibm Identification of constituent events in an event storm in operations management
GB2604081A (en) * 2019-11-18 2022-08-24 Ibm Identification of constituent events in an event storm in operations management
US11294748B2 (en) 2019-11-18 2022-04-05 International Business Machines Corporation Identification of constituent events in an event storm in operations management
WO2021099890A1 (en) * 2019-11-18 2021-05-27 International Business Machines Corporation Identification of constituent events in an event storm in operations management
CN113010389B (zh) * 2019-12-20 2024-03-01 阿里巴巴集团控股有限公司 一种训练方法、故障预测方法、相关装置及设备
CN113010389A (zh) * 2019-12-20 2021-06-22 阿里巴巴集团控股有限公司 一种训练方法、故障预测方法、相关装置及设备
WO2021190068A1 (zh) * 2020-03-27 2021-09-30 华为技术有限公司 一种建模方法及装置
CN111563022B (zh) * 2020-05-12 2023-09-05 中国民航信息网络股份有限公司 一种集中式存储器监控方法和装置
CN111563022A (zh) * 2020-05-12 2020-08-21 中国民航信息网络股份有限公司 一种集中式存储器监控方法和装置
CN111611517A (zh) * 2020-05-13 2020-09-01 咪咕文化科技有限公司 指标监控方法、装置、电子设备及存储介质
CN111611517B (zh) * 2020-05-13 2023-07-21 咪咕文化科技有限公司 指标监控方法、装置、电子设备及存储介质
CN113992496B (zh) * 2020-07-10 2023-11-17 中国移动通信集团湖北有限公司 基于四分位算法的异动告警方法、装置及计算设备
CN113992496A (zh) * 2020-07-10 2022-01-28 中国移动通信集团湖北有限公司 基于四分位算法的异动告警方法、装置及计算设备
CN111861394A (zh) * 2020-07-21 2020-10-30 重庆现代建筑产业发展研究院 一种基于物联网的小区智能管理方法及系统
CN114816950B (zh) * 2021-01-21 2024-03-22 腾讯科技(深圳)有限公司 数据处理方法、装置及电子设备
CN114816950A (zh) * 2021-01-21 2022-07-29 腾讯科技(深圳)有限公司 数据监控方法、装置及电子设备
CN112953904B (zh) * 2021-01-27 2022-11-18 北京达佳互联信息技术有限公司 异常检测方法、装置、服务器以及存储介质
CN112953904A (zh) * 2021-01-27 2021-06-11 北京达佳互联信息技术有限公司 异常检测方法、装置、服务器以及存储介质
CN114978568A (zh) * 2021-02-23 2022-08-30 迈络思科技有限公司 使用机器学习进行数据中心管理
CN112862019A (zh) * 2021-04-25 2021-05-28 北京必示科技有限公司 一种动态筛选非周期性异常方法
CN113688004A (zh) * 2021-07-30 2021-11-23 济南浪潮数据技术有限公司 云平台时序监控数据管理方法、装置、设备及存储介质
CN114138617A (zh) * 2022-02-07 2022-03-04 杭州朗澈科技有限公司 自学习的变频监控方法、系统、电子设备和存储介质
CN117032052A (zh) * 2023-10-07 2023-11-10 华能信息技术有限公司 一种基于动态事件的安全管控方法及系统
CN117032052B (zh) * 2023-10-07 2024-02-27 华能信息技术有限公司 一种基于动态事件的安全管控方法及系统

Similar Documents

Publication Publication Date Title
CN110324168A (zh) 异常事件监控方法和装置及电子设备
US11721195B2 (en) Augmented industrial management
US11099551B2 (en) Deep learning architecture for maintenance predictions with multiple modes
US10809704B2 (en) Process performance issues and alarm notification using data analytics
CN104142629B (zh) 用于对工业机器环境进行虚拟化的系统和方法
US9679243B2 (en) System and method for detecting platform anomalies through neural networks
CN104635686B (zh) 目标资源分配
CN104142664B (zh) 使用大数据的工业产品的预测维护
CN104142663B (zh) 云平台中的工业设备和系统证明
JP2023545440A (ja) 拡張可能オブジェクトモデル及びモデリングを可能にするグラフィカルユーザインターフェース
US20170351226A1 (en) Industrial machine diagnosis and maintenance using a cloud platform
CN103703425A (zh) 监控工业过程的方法
WO2017159501A1 (ja) 表示装置及びプラント機器状態収集システム
CN108491626A (zh) 进行工业自动化系统的模拟的系统、方法和存储介质
US20210279578A1 (en) Elevator Maintenance Solution Leveraging IOT Data, Cloud-Based Predictive Analytics and Machine Learning
JP6298214B2 (ja) ユーティリティグリッド内での信号注入テストパターンの予想効用を最大化するためのシステム及び方法
CN104142630A (zh) 用信息叠加把基于云的数据用于工业自动化环境的虚拟化
CN105325023A (zh) 用于小区异常检测的方法和网络设备
Pistofidis et al. A layered e-maintenance architecture powered by smart wireless monitoring components
JP7481537B2 (ja) 情報処理システム、情報処理方法及び情報処理装置
JP2017167761A (ja) 表示装置及びプラント機器状態収集システム
CN112801423A (zh) 空气质量监测数据的异常识别方法及装置、存储介质
CN116244444A (zh) 设备故障诊断方法和装置
da Costa et al. Policies for the dynamic traveling maintainer problem with alerts
Schachinger et al. An advanced data analytics framework for energy efficiency in buildings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191011

RJ01 Rejection of invention patent application after publication