Nothing Special   »   [go: up one dir, main page]

CN110493025B - 一种基于多层有向图的故障根因诊断的方法及装置 - Google Patents

一种基于多层有向图的故障根因诊断的方法及装置 Download PDF

Info

Publication number
CN110493025B
CN110493025B CN201810461456.6A CN201810461456A CN110493025B CN 110493025 B CN110493025 B CN 110493025B CN 201810461456 A CN201810461456 A CN 201810461456A CN 110493025 B CN110493025 B CN 110493025B
Authority
CN
China
Prior art keywords
service
node
root cause
multilayer
directed graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810461456.6A
Other languages
English (en)
Other versions
CN110493025A (zh
Inventor
乔柏林
叶晓龙
任赣
唐涛
蒋通通
胡林熙
蒋健
竺士杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Zhejiang Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201810461456.6A priority Critical patent/CN110493025B/zh
Publication of CN110493025A publication Critical patent/CN110493025A/zh
Application granted granted Critical
Publication of CN110493025B publication Critical patent/CN110493025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Monitoring And Testing Of Exchanges (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明的实施例公开了一种基于多层有向图的故障根因诊断的方法及装置,该方法根据原始业务数据和属性信息共同确定各业务节点的调用关系,能够全面考虑到实际中新增加的业务节点或者新增加的调用关系,保证了在根据调用关系建立多层有向图模型时能够将每一业务节点均添加到多层有向图模型中,为基于多层有向图模型准确快速查找产生异常业务数据的根因节点奠定了基础。由于本实施例中的多层有向图模型中的业务节点根据实际业务节点生成,节点的全面性避免了法对新出现的故障进行根因查询的情况发生,同时,对数据的分析不仅仅是基于调用关系,而是基于创建的多层有向图模型对数据进行全面分析。

Description

一种基于多层有向图的故障根因诊断的方法及装置
技术领域
本发明实施例涉及计算机软件技术领域,尤其是涉及一种基于多层有向图的故障根因诊断的方法及装置。
背景技术
云计算和容器云的普及,使得大量IT应用系统逐步被部署在虚拟化、容器化环境中。而随着各类业务场景的不断丰富和业务量的井喷式增长,给系统及应用的易维护性上带来巨大的挑战。尤其是在电信行业,运营商本身就构建了非常多的应用系统为广大消费者提供各种特色服务,而有些系统功能更涉及到多个业务系统的子功能,需要多系统协同才能正常工作。架构的演变更加剧此类业务系统的复杂性,对运维故障定位及解决能力提出了更高的要求。
目前的故障诊断方法包括三种类型,方案一是基于告警等预案库形式的故障诊断,方案二是基于告警等预案库形式的故障诊断,方案三是基于决策树模型的故障诊断及修复方法。其中,基于告警等预案库形式的故障诊断:多数运维部门通常根据故障现象及处理记录汇总成故障处理手册,部分设备供应商也会提供类似的简单故障定位能力,以此来实现故障的初步定位及解决。除了基于历史故障经验,还包括QoE(用户体验质量)等其他维度来进行故障诊断。一旦故障发生,通过收集告警关键信息,并找到相应诊断手册进行检索生成诊断结果。因此,基于告警的方式可以简单快速的完成日常故障定位及修复,而一旦面对未知故障等与已知告警信息不符时则无能为力。基于离线指标分析工具的故障诊断方法:离线指标分析工具包含业务指标及系统运行指标,前者主要通过业务入库数据反映业务量指标,后者主要通过日志等外部数据导入数据库后进行分析,通过对系统运行指标分析,对系统性能,成功率,失败分布等信息予以分析,以判断系统运行健康度。基于数据库的方式便于提取系统关键指标,有效监控程序各环节运行状态,但相对而言时间延长较大,会对系统监控时效性上造成一定影响。基于决策树模型的故障诊断及修复方法:多数系统设计采用多层系统拓扑架构,基于分层调用的原则,建立树形关系的拓扑图,并基于此树形拓扑建立了面向业务及系统故障的决策树。一旦故障发生,通过收集故障关键信息,并找到相应决策树进行检索生成诊断结果。因此,基于决策树的方式可以简单快速的完成日常故障定位及修复,而一旦面对非树形结构调用关系时则无能为力。
然而,在基于大数据平台、DCOS平台、模块系统、微服务系统等虚拟化、容器化的环境中,针对集群节点故障或异常的诊断及修复,现有方案不足以支撑快速响应、高效分析解决的能力要求,其主要表现在以下几个方面:(1)使用场景狭隘,无法处理未知场景。如方案一中基于告警及预案库形式的故障诊断及修复方法,主要依赖于对已知故障信息的经验积累,而且这种方式对故障场景有极大的要求。同样的故障现象在不同的故障场景下可能会有不同的处理方式,也就超出了简单预案库的处理范围。尤其是在面对未知故障信息时,已有的手册等手段已经完全失效,需要人工进行逐步排查,定位故障,修复问题,导致运维效率低下。(2)指标时效性差,无法及时反馈信息。现有方案对故障定位能力的提升仅限于加强故障信息收集,而对故障的最终定位及修复还是依赖于运维人员的判断和执行。通过海量的监控指标数据,极大程度上扩大了故障信息来源,但也对指标的采集延迟较高,造成这些数据的自动处理和分析上能力不足,无法及时展现问题的信息点和根源。(3)需要海量历史数据,不适应敏捷模式。现有方案主要采用训练决策树来提升分析能力,但是训练决策树需要大量的历史数据,由于本司系统业务特点,新出问题占比较多,无法提供足量的有效训练数据,导致决策树模型准确度不高,对故障根因分析能力不足,无法提供有效支撑。
在实现本发明实施例的过程中,发明人发现现有的查找故障根因的方法的环境适应能力差,无法对新出现的故障进行根因查询,且现有的查找故障根因的方法仅依据业务节点的调用关系查找,对数据的分析较为单一,数据分析能力较弱。
发明内容
本发明所要解决的技术问题是如何解决现有的查找故障根因的方法的环境适应能力差,无法对新出现的故障进行根因查询,且现有的查找故障根因的方法仅依据业务节点的调用关系查找,对数据的分析较为单一,数据分析能力较弱的问题。
针对以上技术问题,本发明的实施例提供了一种基于多层有向图的故障根因诊断的方法,包括:
获取在预设业务的各业务节点处生成的原始业务数据,根据所述原始业务数据和预先存储的各业务节点的属性信息确定各业务节点的调用关系;
根据由所述原始业务数据和所述属性信息确定的各业务节点的调用关系和与预先划分的各业务节点所属层建立各业务节点的多层有向图模型;
获取所述原始业务数据中的异常业务数据,根据所述多层有向图模型确定导致所述业务业务生成所述异常业务数据的至少一个根因节点,从根因节点中确定导致所述预设业务异常的目标根因节点。
本发明的实施例提供了一种基于多层有向图的故障根因诊断的装置,包括:
获取模块,用于获取在预设业务的各业务节点处生成的原始业务数据,根据所述原始业务数据和预先存储的各业务节点的属性信息确定各业务节点的调用关系;
建立模块,用于根据由所述原始业务数据和所述属性信息确定的各业务节点的调用关系和与预先划分的各业务节点所属层建立各业务节点的多层有向图模型;
根因确定模块,用于获取所述原始业务数据中的异常业务数据,根据所述多层有向图模型确定导致所述业务业务生成所述异常业务数据的至少一个根因节点,从根因节点中确定导致所述预设业务异常的目标根因节点。
本实施例提供了一种电子设备,包括:
至少一个处理器、至少一个存储器、通信接口和总线;其中,
所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述通信接口用于该电子设备和终端设备的通信设备之间的信息传输;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行以上所述的方法。
本实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行以上所述的方法。
本发明的实施例提供了一种基于多层有向图的故障根因诊断的方法及装置,该方法根据原始业务数据和属性信息共同确定各业务节点的调用关系,能够全面考虑到实际中新增加的业务节点或者新增加的调用关系,保证了在根据调用关系建立多层有向图模型时能够将每一业务节点均添加到多层有向图模型中,为基于多层有向图模型准确快速查找产生异常业务数据的根因节点奠定了基础。由于本实施例中的多层有向图模型中的业务节点根据实际业务节点生成,节点的全面性避免了法对新出现的故障进行根因查询的情况发生,同时,对数据的分析不仅仅是基于调用关系,而是基于创建的多层有向图模型对数据进行全面分析。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的基于多层有向图的故障根因诊断的方法的流程示意图;
图2是本发明另一个实施例提供的多层有向图的故障根因诊断的架构示意图;
图3是本发明另一个实施例提供的进行故障根因查询的流程示意图;
图4是本发明另一个实施例提供的基于多层有向图的故障根因诊断的装置的结构框图;
图5是本发明另一个实施例提供的电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本实施例提供的基于多层有向图的故障根因诊断的方法的流程示意图,参见图1,该方法包括:
101:获取在预设业务的各业务节点处生成的原始业务数据,根据所述原始业务数据和预先存储的各业务节点的属性信息确定各业务节点的调用关系;
102:根据由所述原始业务数据和所述属性信息确定的各业务节点的调用关系和与预先划分的各业务节点所属层建立各业务节点的多层有向图模型;
103:获取所述原始业务数据中的异常业务数据,根据所述多层有向图模型确定导致所述业务业务生成所述异常业务数据的至少一个根因节点,从根因节点中确定导致所述预设业务异常的目标根因节点。
本实施例提供的方法通常由对业务是否正常运行进行故障诊断和修复的设备执行,例如,服务器,本实施例对此不做具体限制。该方法用于对某一出现故障的业务进行根因查询。业务节点为该预设业务运行过程中的节点,在各业务节点处采集的数据为该业务的原始业务数据。属性信息为预先定义的各业务节点的属性信息,属性信息反应了各业务节点的调用关系。根据属性信息也可以对各业务节点进行分层,例如,位于应用层的节点、传输层的节点等。在创建各业务节点的多层有向图模型时需参照预先划分好的各业务节点的所属层。通过多层有向图查找导致预设业务异常的根因节点时,根据各业务节点的调用关系逐层查找。目标根因节点通常通过计算得到,具体的计算方法可以进行设定,本实施例对此不做具体限定。
本实施例提供了一种基于多层有向图的故障根因诊断的方法,该方法根据原始业务数据和属性信息共同确定各业务节点的调用关系,能够全面考虑到实际中新增加的业务节点或者新增加的调用关系,保证了在根据调用关系建立多层有向图模型时能够将每一业务节点均添加到多层有向图模型中,为基于多层有向图模型准确快速查找产生异常业务数据的根因节点奠定了基础。由于本实施例中的多层有向图模型中的业务节点根据实际业务节点生成,节点的全面性避免了法对新出现的故障进行根因查询的情况发生,同时,对数据的分析不仅仅是基于调用关系,而是基于创建的多层有向图模型对数据进行全面分析。
进一步地,在上述实施例的基础上,所述获取在预设业务的各业务节点处生成的原始业务数据,根据所述原始业务数据和预先存储的各业务节点的属性信息确定各业务节点的调用关系,包括:
获取在预设业务的各业务节点处生成的原始业务数据和CMDB数据库中存储的各业务节点的属性信息,根据各业务节点的属性信息得到各业务节点之间的原始调用关系;
根据所述原始业务数据分析各业务节点的实际调用关系,根据实际调用关系对所述原始调用关系进行调整,得到由所述原始业务数据和所述属性信息确定的各业务节点的调用关系。
CMDB数据库为存储与管理企业IT架构中设备的各种配置信息的数据库。对预设业务的各业务节点,首先根据CMDB数据库中定义的属性信息,得到各业务节点的调用关系。然而,由于实际中可能新增了预设业务的业务节点,而CMDB数据库中可能没有该新增的业务节点,因此在确定原始调用关系后需要再根据原始业务数据将新增节点和其它各业务节点的调用关系进行补充,最终得到符合实际的由所述原始业务数据和所述属性信息确定的各业务节点的调用关系。
本实施例提供了一种基于多层有向图的故障根因诊断的方法,该方法对根据CMDB数据库得到的原始调用关系进行调整,保证最终确定的调用关系包括了业务实际运行过程中的所有调用关系,为对新出现的故障也能进行根因查询提供了保证。
进一步地,在上述各实施例的基础上,所述根据由所述原始业务数据和所述属性信息确定的各业务节点的调用关系和与预先划分的各业务节点所属层建立各业务节点的多层有向图模型,包括:
根据由所述原始业务数据和所述属性信息确定的各业务节点的调用关系,对所述CMDB数据库中存储的业务节点进行修正;
获取预先划分的修正后的CMDB数据库中第i层的业务节点,对CMDB数据库中第i层的业务节点vn,根据由所述原始业务数据和所述属性信息确定的各业务节点的调用关系获取由该业务节点vn到达且能到达该业务节点vn的目标业务节点;
将CMDB数据库中第i层的每一业务节点对应的目标业务节点添加到第i层节点集合中,则所述第i层节点集合中的点为所述多层有向图模型中第i层的节点。
例如,业务实际运行时新增了业务节点,那么需要将该业务节点添加到CMDB数据库中,及时对CMDB数据库进行更新。各业务节点在CMDB数据库中预先根据各业务节点的属性划分了层,例如,将属于应用层的业务节点划分为同一层,将属于传输层的业务节点划分为同一层。
在多层有向图模型中,第i层节点集合可以通过公式Li={R1∩A1,R2∩A2,……,Rn∩An}表示。其中,Rn表示所有从vn到达的节点的集合,An表示所有能够到达vn的节点的集合。CMDB数据库中第i层的业务节点共有n各,分别为v1,v2,……vn
本实施例提供了一种基于多层有向图的故障根因诊断的方法,该方法根据CMDB数据库中各业务节点所属层得到多层有向图模型中各层的业务节点。
进一步地,在上述各实施例的基础上,所述获取所述原始业务数据中的异常业务数据,根据所述多层有向图模型确定导致所述业务业务生成所述异常业务数据的至少一个根因节点,从根因节点中确定导致所述预设业务异常的目标根因节点,包括:
根据预先设定的阈值区间判断每一业务节点处生成的原始业务数据是否异常,获取原始业务数据中所有异常的异常业务数据;
将每一异常业务数据映射到所述多层有向图模型中生成该异常业务数据的业务节点上,根据所述多层有向图模型中各业务节点的调用关系和各业务节点在所述多层有向图模型中所属层查找导致所述业务业务的至少一个根因节点;
构建时间序列数据<m,k,T,Em×k>,以xi(t)为自变量,以Em×k-xi(t)为应变量,构造函数f[xi(t)]=Em×k-xi(t),对每一根因节点所有时间序列上的值xi(t)~xi(t-k)进行扰动,得到每一根因节点的波动值y[δ,f[xi(t)]],将波动值小于预设波动值的根因节点作为所述目标根因节点;
其中,m是所述多层有向图模型中业务节点个数,k是每个业务节点存在的时滞个数,T为时间序列的长度,Em×k为所述多层有向图模型中所有业务节点在所有时滞上的集合,δ为与所述多层有向图模型有关的参数,根因节点的总个数为j,xi(t)为第i个业务节点在时间序列长度为t时对应的业务数据。
判断业务数据是否为异常业务数据可以根据设定的阈值范围进行判断,也可以对业务数据进行运算处理后,根据运算处理后的结果判断业务数据是否异常,本实施例对此不做具体限制。在进行根因查找的过程中,只需要将异常业务数据映射到多层有向图模型中。
在查找根因节点时,需要根据各业务节点所属层和各业务节点之间的调用关系进行查找。例如,具有调用关系的一组节点在每一层均存在一个异常点,则通常位于最底层的业务节点为根因节点;若具有调用关系的一组业务节点在某一层不存在异常业务节点,则应将该层之上和该层之下的业务节点作为独立的两个部分进行根因查找。
查找到根因节点后,根据计算出的每一根因节点对应的波动值对根因节点进行排序,波动值越小,说明该根因节点导致业务异常的可能性更大,将可能性较大的几个根因节点作为目标根因节点。
本实施例提供了一种基于多层有向图的故障根因诊断的方法,该方法通过多层有向图模型进行根因查询,多个维度分析数据,提高了根因查找的准确性。从根因节点中确定出目标根因节点,缩小了对业务进行修复时需要考虑的节点范围,提高了修复业务的效率。
进一步地,在上述各实施例的基础上,所述获取在预设业务的各业务节点处生成的原始业务数据之前,还包括:
对每一业务进行KEI指标评估,判断该业务是否处于健康状态,若该业务未处于健康状态,则将该业务作为所述预设业务,获取在所述预设业务的各业务节点处生成的原始业务数据。
KEI(关键绩效指标)用于对业务是否处于健康装填进行评估,本实施例提供的方法仅对处于不健康状态的业务进行根因诊断。
本实施例提供了一种基于多层有向图的故障根因诊断的方法,该方法通过KEI指标筛选出处于不健康状态的业务,对处于不健康状态的业务进行根因诊断,避免了对健康状态的业务进行不必要的诊断。
进一步地,在上述各实施例的基础上,所述从根因节点中确定导致所述预设业务异常的目标根因节点之后,还包括:
判断是否存储有对所述目标根因节点进行修复的故障处理预案,若是,根据故障处理预案修复所述目标根因节点,并发送已经对目标根因节点进行修复的第一提示信息,否则,发送所述目标根因节点的节点信息和未对目标根因节点进行修复的第二提示信息。
确定目标根因节点后,需要针对目标根因节点进行修复,保证系统的正常运行。第一提示信息和第二提示信息可以是通过邮件发送或者通过短信发送的信息,本实施例对此不做具体限定。
本实施例提供了一种基于多层有向图的故障根因诊断的方法,该方法在能够及时修复故障的情况下及时对故障进行修复,在无法修复故障的情况下及时发出提示信息,及时告知工作人员采取修复方案进行故障修复,保证业务的正常运行。
作为更为具体的实施例,图2为本实施例提供的多层有向图的故障根因诊断的架构示意图,参见图2,其主要涉及CMDB数据库,应用拓扑关系管理,有向图模型转换器,模型库,指标管理装置,故障根源分析装置,故障自动化处理装置等。其中,有向图转换器通过对现有资产数据继续分析,生成故障多层有向图模型(FSDG),故障根源诊断装置利用FSDG模型对实时KEI指标进行评估计算,最终挖掘故障根因。
如图2所示的各部分中,(1)应用生产系统实时对用户的操作进行处理,当业务处理产生异常时,应用生产系统必然存在异常点。应用生产系统与应用拓扑管理系统连接:当各应用服务之间产生调用关系时,拓扑管理系统获取到调用关系数据。
(2)应用拓扑关系管理主要有6个装置组成,包括调用数据采集,数据清洗,规则转换,调用关系分析,调用行为分析,规则持续学习。应用拓扑关系管理通过调用数据采集,分析系统中各节点之间的调用关系,为后续的有向图提供数据支持,并和CMDB数据共同提交至模型转换器生产多层有向图模型。
(3)CMDB数据库中保存了应用系统中各CI项的属性,已经CI项之间的多种关系定义。通过CMDB数据,可以定义出多层有向图中的FSDG分层模型,并将模型提交至模型转换器生产多层有向图模型。
(4)模型转换器对输入数据进行处理与转换,根据数据属性转换为对应编码。通过应用拓扑关系数据及CMDB数据,将系统的复杂调用关系转换为多层有向图模型。模型转换器与模型库相连,将数据进行编码转换后提交至FSDG模型库;
由CMDB数据,得到节点集合V={vi|vi为CMDB中管理的资产节点};
由应用拓扑关系数据,得到支路集合E={ei,j|节点vi指向节点vj的有向边};
多层有向图模型中,第i层的所有业务节点通过集合Li={R1∩A1,R2∩A2,……,Rn∩An}表示。
(5)模型库中包含已知系统拓扑模型,根据业务和系统进行分类,可分为CRM,渠道,CBOSS模型等等,不同系统的拓扑层次及调用关系都有差异。与故障根源分析装置相连:当模型库将信息输入故障根源分析装置后,与指标管理装置的指标数据一起供分析模块分析故障根源。
(6)指标管理装置管理了系统中业务,系统等指标数据,包含多层有向图模型中各节点指标数据,包括健康度等关键指标。与故障根源分析装置连接:将指标推送至分析装置,并与指标库中模型配合分析故障根源。
(7)故障根源分析装置基于大数据STORM流计算架构,通过实时数据计算,将故障根源计算耗时缩短至秒级;根据多层有向图模型及节点指标数据,判断系统是否有异常,如果有异常,根据多层有向图算法,计算出根源节点,即分析出系统故障的根因。与故障自动化处理装置连接:当分析出故障根源时,将故障根源发送至处理装置进行故障处理。
图3为本实施例提供的进行故障根因查询的流程示意图,参见图3,该过程包括:
利用KEI模型对FSDG模型最高层的指标数据进行评估,如果评估结果处于健康状态,系统不进行后续分析;如果评估结果处于不健康状态,则触发FSDG故障根源分析流程,计算故障源。
对FSDG故障节点集合采用朴素因果挖掘算法进行处理,构建故障因果挖掘对象FCS,FCS是系统中各个要素产生的所有时间序列数据,形式化表达成四元组<m,k,T,Em×k>,m是FSDG中要素个数,k是每个要素存在时滞个数,T表示时间序列的长度,Em×k表示系统中所有要素在所有时滞上的集合。FSDG图可能有多条业务节点组成的链路需要进行故障根因诊断,C1……Cn表示针对不同的业务节点组成的关联链路拆分的对应于每一链路的FSDG图。
在波动话计算的过程中,target=xi(t),variables=Em×k-xi(t),以target为因变量,以variables为自变量进行基于GEP的函数拟合,得到函数fxi(t);依次对fxi(t)自变量集合variable中的每个要素进行扰动。由于系统的时滞为k,故对每个要素xj所有时间序列上的值xi(t)~xj(t-k)都进行扰动;基于扰动计算出各要素波动值δfxi(t)(xi,δ)然后根据波动大小进行因果判断,波动值较小的为故障根源。
(8)故障自动化处理装置用于对故障根源进行自动处理,如有相应故障处理预案,装置自动按预案执行,及时对系统进行修复,并通知系统相关责任人。
针对现有方案只局限于已知故障分析根源,无法灵活应对新发现故障,且无法提供实时计算能力的缺点,本实施例提供的基于多层有向图的故障根因诊断的方法基于Storm流计算技术,采用故障有向图算法FSDG及朴素因果挖掘算法NCM相结合的方法,提供了实时高效灵活的故障根源分析能力。另一方面,针对当前IT运维系统建模方法难以提供海量数据进行训练的缺点,本实施例提供的方法提出了一种基于CMDB数据及应用拓扑关系管理模块生成FSDG模型的快速建模方法,提升的模型建立的便捷性,避免训练数据不足造成模型误差较大。
本实施例提供的基于多层有向图的故障根因诊断的方法不局限于对已知故障的定位处理,对于新的故障能够依据模型自动进行根因分析。加强了故障数据分析能力,通过数据实时计算,避免了信息爆炸等带来的数据积压影响。提升了故障自动处理能力,引入自动化处理装置,实现了故障从自动发现、定位到最终处理的闭环管理。
图4为本实施例提供的基于多层有向图的故障根因诊断的装置的结构框图,参见图4,该装置包括获取模块401、建立模块402和根因确定模块403,其中,
获取模块401,用于获取在预设业务的各业务节点处生成的原始业务数据,根据所述原始业务数据和预先存储的各业务节点的属性信息确定各业务节点的调用关系;
建立模块402,用于根据由所述原始业务数据和所述属性信息确定的各业务节点的调用关系和与预先划分的各业务节点所属层建立各业务节点的多层有向图模型;
根因确定模块403,用于获取所述原始业务数据中的异常业务数据,根据所述多层有向图模型确定导致所述业务业务生成所述异常业务数据的至少一个根因节点,从根因节点中确定导致所述预设业务异常的目标根因节点。
本实施例提供的基于多层有向图的故障根因诊断的装置适用于上述实施例提供的基于多层有向图的故障根因诊断的方法,在此不再赘述。
本实施例提供了一种基于多层有向图的故障根因诊断的装置,该方法根据原始业务数据和属性信息共同确定各业务节点的调用关系,能够全面考虑到实际中新增加的业务节点或者新增加的调用关系,保证了在根据调用关系建立多层有向图模型时能够将每一业务节点均添加到多层有向图模型中,为基于多层有向图模型准确快速查找产生异常业务数据的根因节点奠定了基础。由于本实施例中的多层有向图模型中的业务节点根据实际业务节点生成,节点的全面性避免了法对新出现的故障进行根因查询的情况发生,同时,对数据的分析不仅仅是基于调用关系,而是基于创建的多层有向图模型对数据进行全面分析。
图5是示出本实施例提供的电子设备的结构框图。
参照图5,所述电子设备包括:处理器(processor)501、存储器(memory)502、通信接口(Communications Interface)503和总线504;
其中,
所述处理器501、存储器502、通信接口503通过所述总线504完成相互间的通信;
所述通信接口503用于该电子设备和其它电子设备的通信设备之间的信息传输;
所述处理器501用于调用所述存储器502中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取在预设业务的各业务节点处生成的原始业务数据,根据所述原始业务数据和预先存储的各业务节点的属性信息确定各业务节点的调用关系;根据由所述原始业务数据和所述属性信息确定的各业务节点的调用关系和与预先划分的各业务节点所属层建立各业务节点的多层有向图模型;获取所述原始业务数据中的异常业务数据,根据所述多层有向图模型确定导致所述业务业务生成所述异常业务数据的至少一个根因节点,从根因节点中确定导致所述预设业务异常的目标根因节点。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取在预设业务的各业务节点处生成的原始业务数据,根据所述原始业务数据和预先存储的各业务节点的属性信息确定各业务节点的调用关系;根据由所述原始业务数据和所述属性信息确定的各业务节点的调用关系和与预先划分的各业务节点所属层建立各业务节点的多层有向图模型;获取所述原始业务数据中的异常业务数据,根据所述多层有向图模型确定导致所述业务业务生成所述异常业务数据的至少一个根因节点,从根因节点中确定导致所述预设业务异常的目标根因节点。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如,包括:获取在预设业务的各业务节点处生成的原始业务数据,根据所述原始业务数据和预先存储的各业务节点的属性信息确定各业务节点的调用关系;根据由所述原始业务数据和所述属性信息确定的各业务节点的调用关系和与预先划分的各业务节点所属层建立各业务节点的多层有向图模型;获取所述原始业务数据中的异常业务数据,根据所述多层有向图模型确定导致所述业务业务生成所述异常业务数据的至少一个根因节点,从根因节点中确定导致所述预设业务异常的目标根因节点。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的电子设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims (8)

1.一种基于多层有向图的故障根因诊断的方法,其特征在于,包括:
获取在预设业务的各业务节点处生成的原始业务数据和CMDB数据库中存储的各业务节点的属性信息,根据各业务节点的属性信息得到各业务节点之间的原始调用关系;
根据所述原始业务数据分析各业务节点的实际调用关系,根据实际调用关系对所述原始调用关系进行调整,得到由所述原始业务数据和所述属性信息确定的各业务节点的调用关系;
根据由所述原始业务数据和所述属性信息确定的各业务节点的调用关系和预先划分的各业务节点所属层建立各业务节点的多层有向图模型;
获取所述原始业务数据中的异常业务数据,根据所述多层有向图模型确定导致所述预设业务生成所述异常业务数据的至少一个根因节点,从根因节点中确定导致所述预设业务异常的目标根因节点。
2.根据权利要求1所述的方法,其特征在于,所述根据由所述原始业务数据和所述属性信息确定的各业务节点的调用关系和预先划分的各业务节点所属层建立各业务节点的多层有向图模型,包括:
根据由所述原始业务数据和所述属性信息确定的各业务节点的调用关系,对所述CMDB数据库中存储的业务节点进行修正;
获取预先划分的修正后的CMDB数据库中第i层的业务节点,对CMDB数据库中第i层的业务节点vn,根据由所述原始业务数据和所述属性信息确定的各业务节点的调用关系获取由该业务节点vn到达且能到达该业务节点vn的目标业务节点;
将CMDB数据库中第i层的每一业务节点对应的目标业务节点添加到第i层节点集合中,则所述第i层节点集合中的点为所述多层有向图模型中第i层的节点。
3.根据权利要求2所述的方法,其特征在于,所述获取所述原始业务数据中的异常业务数据,根据所述多层有向图模型确定导致所述预设业务生成所述异常业务数据的至少一个根因节点,从根因节点中确定导致所述预设业务异常的目标根因节点,包括:
根据预先设定的阈值区间判断每一业务节点处生成的原始业务数据是否异常,获取原始业务数据中所有异常的异常业务数据;
将每一异常业务数据映射到所述多层有向图模型中生成该异常业务数据的业务节点上,根据所述多层有向图模型中各业务节点的调用关系和各业务节点在所述多层有向图模型中所属层查找导致所述预设业务异常的至少一个根因节点;
构建时间序列数据<m,k,T,Em×k>,以xi(t)为自变量,以Em×k-xi(t)为应变量,构造函数f[xi(t)]=Em×k-xi(t),对每一根因节点所有时间序列上的值xi(t)~xi(t-k)进行扰动,得到每一根因节点的波动值y[δ,f[xi(t)]],将波动值小于预设波动值的根因节点作为所述目标根因节点;
其中,m是所述多层有向图模型中业务节点个数,k是每个业务节点存在的时滞个数,T为时间序列的长度,Em×k为所述多层有向图模型中所有业务节点在所有时滞上的集合,δ为与所述多层有向图模型有关的参数,根因节点的总个数为j,xi(t)为第i个业务节点在时间序列长度为t时对应的业务数据。
4.根据权利要求1所述的方法,其特征在于,所述获取在预设业务的各业务节点处生成的原始业务数据之前,还包括:
对每一业务进行KEI指标评估,判断该业务是否处于健康状态,若该业务未处于健康状态,则将该业务作为所述预设业务,获取在所述预设业务的各业务节点处生成的原始业务数据。
5.根据权利要求1所述的方法,其特征在于,所述从根因节点中确定导致所述预设业务异常的目标根因节点之后,还包括:
判断是否存储有对所述目标根因节点进行修复的故障处理预案,若是,根据故障处理预案修复所述目标根因节点,并发送已经对目标根因节点进行修复的第一提示信息,否则,发送所述目标根因节点的节点信息和未对目标根因节点进行修复的第二提示信息。
6.一种基于多层有向图的故障根因诊断的装置,其特征在于,包括:
获取模块,用于获取在预设业务的各业务节点处生成的原始业务数据和CMDB数据库中存储的各业务节点的属性信息,根据各业务节点的属性信息得到各业务节点之间的原始调用关系;根据所述原始业务数据分析各业务节点的实际调用关系,根据实际调用关系对所述原始调用关系进行调整,得到由所述原始业务数据和所述属性信息确定的各业务节点的调用关系;
建立模块,用于根据由所述原始业务数据和所述属性信息确定的各业务节点的调用关系和预先划分的各业务节点所属层建立各业务节点的多层有向图模型;
根因确定模块,用于获取所述原始业务数据中的异常业务数据,根据所述多层有向图模型确定导致所述预设业务生成所述异常业务数据的至少一个根因节点,从根因节点中确定导致所述预设业务异常的目标根因节点。
7.一种电子设备,其特征在于,包括:
至少一个处理器、至少一个存储器、通信接口和总线;其中,
所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述通信接口用于该电子设备和其它电子设备的通信设备之间的信息传输;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至5中任一项所述的方法。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至5任一项所述的方法。
CN201810461456.6A 2018-05-15 2018-05-15 一种基于多层有向图的故障根因诊断的方法及装置 Active CN110493025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810461456.6A CN110493025B (zh) 2018-05-15 2018-05-15 一种基于多层有向图的故障根因诊断的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810461456.6A CN110493025B (zh) 2018-05-15 2018-05-15 一种基于多层有向图的故障根因诊断的方法及装置

Publications (2)

Publication Number Publication Date
CN110493025A CN110493025A (zh) 2019-11-22
CN110493025B true CN110493025B (zh) 2022-06-14

Family

ID=68545155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810461456.6A Active CN110493025B (zh) 2018-05-15 2018-05-15 一种基于多层有向图的故障根因诊断的方法及装置

Country Status (1)

Country Link
CN (1) CN110493025B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112887108A (zh) * 2019-11-29 2021-06-01 中兴通讯股份有限公司 故障定位方法、装置、设备及存储介质
CN111107158B (zh) * 2019-12-26 2023-02-17 远景智能国际私人投资有限公司 用于物联网设备集群中的告警方法、装置、设备及介质
CN111639115A (zh) * 2020-04-29 2020-09-08 国家电网有限公司客户服务中心 基于五维模型的电网信息系统运维数据异常的分析方法
CN111913824B (zh) * 2020-06-23 2024-03-05 中国建设银行股份有限公司 确定数据链路故障原因的方法及相关设备
CN113970913A (zh) * 2020-07-24 2022-01-25 华为技术有限公司 一种故障诊断方法和装置
CN111858123B (zh) * 2020-07-29 2023-09-26 中国工商银行股份有限公司 基于有向图网络的故障根因分析方法和装置
CN112506763A (zh) * 2020-11-30 2021-03-16 清华大学 数据库系统故障根因自动定位方法和装置
CN114629776B (zh) * 2020-12-11 2023-05-30 中国联合网络通信集团有限公司 基于图模型的故障分析方法及装置
CN112541098A (zh) * 2020-12-17 2021-03-23 杉数科技(北京)有限公司 一种有向图绘制方法及化工物料规划方法
CN112580810A (zh) * 2020-12-22 2021-03-30 济南中科成水质净化有限公司 一种基于有向无环图的污水处理工艺分析诊断方法
CN112711493A (zh) * 2020-12-25 2021-04-27 上海精鲲计算机科技有限公司 一种场景化根因分析应用
CN113282884B (zh) * 2021-04-28 2023-09-26 沈阳航空航天大学 通用根因分析方法
CN113793128A (zh) * 2021-09-18 2021-12-14 北京京东振世信息技术有限公司 业务故障原因信息生成方法、装置、设备和计算机可读介质
CN117061332B (zh) * 2023-10-11 2023-12-29 中国人民解放军国防科技大学 一种基于概率有向图深度学习的故障诊断方法与系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106330501A (zh) * 2015-06-26 2017-01-11 中兴通讯股份有限公司 一种故障关联方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8301755B2 (en) * 2007-12-14 2012-10-30 Bmc Software, Inc. Impact propagation in a directed acyclic graph

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106330501A (zh) * 2015-06-26 2017-01-11 中兴通讯股份有限公司 一种故障关联方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于多层有向图的故障根因诊断的方法;赵靓;《中国优秀硕士学位论文期刊网》;20150915;第19-39 *
基于扰动的亚复杂动力系统因果关系挖掘;郑皎凌;《计算机学报》;20141231;第37卷(第12期);第2549-2560页 *

Also Published As

Publication number Publication date
CN110493025A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN110493025B (zh) 一种基于多层有向图的故障根因诊断的方法及装置
EP3798846B1 (en) Operation and maintenance system and method
US10902368B2 (en) Intelligent decision synchronization in real time for both discrete and continuous process industries
US11409962B2 (en) System and method for automated insight curation and alerting
CN113935497A (zh) 智能运维故障处理方法、装置、设备及其存储介质
CN115097788A (zh) 一种基于数字孪生工厂的智能管控平台
US10444746B2 (en) Method for managing subsystems of a process plant using a distributed control system
CN111915143B (zh) 一种基于智能合约的复杂产品装配管控系统
CN114430365B (zh) 故障根因分析方法、装置、电子设备和存储介质
CN117041029A (zh) 网络设备故障处理方法、装置、电子设备及存储介质
KR20190001501A (ko) 통신망의 인공지능 운용 시스템 및 이의 동작 방법
US20230105304A1 (en) Proactive avoidance of performance issues in computing environments
CN116992346A (zh) 一种基于人工智能大数据分析的企业生产数据处理系统
CN109409780B (zh) 变更处理方法、装置、计算机设备和存储介质
CN115421950A (zh) 一种基于机器学习的自动化系统运维管理方法及系统
CN114443437A (zh) 告警根因输出方法、装置、设备、介质和程序产品
CN112579402A (zh) 一种应用系统故障定位的方法和装置
CN118337654A (zh) 一种监测工业互联网标识解析服务的方法、设备及介质
CN112148347A (zh) 一种全流程溯源管理的方法和装置
CN114757448A (zh) 一种基于数据空间模型的制造环节间最优价值链构建方法
CN114862098A (zh) 资源分配方法以及装置
CN114385398A (zh) 一种请求响应状态确定方法、装置、设备和存储介质
Peng et al. Research on data quality detection technology based on ubiquitous state grid internet of things platform
Guo et al. Research on prognostics technology of spot-welding system in automotive manufacturing based on statistical process control
CN112990744B (zh) 一种面向海量百万级云化设备的自动化运维方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant