Nothing Special   »   [go: up one dir, main page]

CN112787841B - 故障根因定位方法及装置、计算机存储介质 - Google Patents

故障根因定位方法及装置、计算机存储介质 Download PDF

Info

Publication number
CN112787841B
CN112787841B CN201911096747.0A CN201911096747A CN112787841B CN 112787841 B CN112787841 B CN 112787841B CN 201911096747 A CN201911096747 A CN 201911096747A CN 112787841 B CN112787841 B CN 112787841B
Authority
CN
China
Prior art keywords
abnormal
network entity
target
sub
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911096747.0A
Other languages
English (en)
Other versions
CN112787841A (zh
Inventor
高云鹏
谢于明
肖欣
王仲宇
尘福兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201911096747.0A priority Critical patent/CN112787841B/zh
Publication of CN112787841A publication Critical patent/CN112787841A/zh
Application granted granted Critical
Publication of CN112787841B publication Critical patent/CN112787841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种故障根因定位方法及装置、计算机存储介质,属于网络技术领域。管理设备获取发生故障的目标网络的第一知识图谱,该第一知识图谱上标识有目标网络中产生异常事件的异常网络实体。管理设备基于第一知识图谱生成n个异常子图谱,每个异常子图谱中包括一个或多个异常网络实体,当异常子图谱中包括多个异常网络实体时,异常子图谱中的任一异常网络实体与异常子图谱中的一个或多个其它异常网络实体之间满足故障传播条件,n个异常子图谱中包括第一知识图谱上的所有异常网络实体,且任一异常网络实体仅属于一个异常子图谱。管理设备确定一个或多个异常子图谱中的根因故障网络实体。本申请提高了网络中故障根因定位的准确性。

Description

故障根因定位方法及装置、计算机存储介质
技术领域
本申请涉及网络技术领域,特别涉及一种故障根因定位方法及装置、计算机存储介质。
背景技术
由于当前网络中的故障原因较为复杂,例如在数据中心网络(data centernetwork,DCN)中,地址解析协议(Address Resolution Protocol,ARP)表项超限、设备重启或路由器标识(router identity)冲突等均会导致网络故障,因此网络故障排查的难度较高。
目前提出了通过故障树确定网络中产生故障的根本原因(以下简称:故障根因)的方式。在基于规则的故障树中,一个根因判定规则可以对应一个故障根因,当在故障场景下获取到的网络数据的表现情况符合一个根因判定规则时,可以确定导致出现该故障场景的故障根因为该根因判定规则对应的故障根因。其中,一个根因判定规则可以是通过与门和或门对多个单规则的组合。
但是,由于目前的故障树通常基于单个设备的故障传播规则构建,而实际网络中不同设备之间可能也会发生故障传播,此时故障树无法对网络中的故障根因进行准确定位。因此采用故障树在网络中进行故障根因定位的准确性较低。
发明内容
本申请提供了一种故障根因定位方法及装置、计算机存储介质,可以解决目前网络中故障根因定位的准确性较低的问题。
第一方面,提供了一种故障根因定位方法。该方法包括:
管理设备获取发生故障的目标网络的第一知识图谱,该第一知识图谱上标识有目标网络中产生异常事件的异常网络实体,该第一知识图谱上的网络实体的类型为网络设备、接口、协议或业务。管理设备基于第一知识图谱生成n个异常子图谱,每个异常子图谱中包括一个或多个异常网络实体,当异常子图谱中包括多个异常网络实体时,异常子图谱中的任一异常网络实体与异常子图谱中的一个或多个其它异常网络实体之间满足故障传播条件,n个异常子图谱中包括第一知识图谱上的所有异常网络实体,且任一异常网络实体仅属于一个异常子图谱,n为正整数。管理设备对n个异常子图谱中的一个或多个异常子图谱,确定异常子图谱中的根因故障网络实体。其中,根因故障网络实体指的是为故障根因的异常网络实体。
本申请中,由于知识图谱是基于整个网络生成的,知识图谱对应的故障传播条件也是基于整个网络的,因此采用知识图谱在网络中进行故障根因定位时可以考虑到设备之间的故障传播,提高了网络中的故障根因定位准确性。通过将知识图谱划分成n个异常子图谱,使每个异常子图谱中的异常网络实体之间满足故障传播条件,实现了对目标网络中的故障分组,管理设备后续可以基于各个异常子图谱分别进行故障根因定位,缩小了知识图谱的规模,可以有效提高故障根因定位效率。
可选地,故障传播条件包括故障传播关系、故障传播时间条件以及故障传播概率条件中的一个或多个。故障传播关系用于指示故障在通信网络中被传播的路径。两个网络实体之间满足故障传播关系,即该两个网络实体位于同一故障所在的传播路径上。两个异常网络实体之间满足故障传播时间条件,表示该两个异常网络实体的故障发生时刻的时间间隔小于目标时长。两个异常网络实体之间满足故障传播概率条件,表示该两个异常网络实体之间的故障传播关系对应的故障传播概率大于目标概率阈值。
可选地,管理设备基于第一知识图谱生成n个异常子图谱的实现过程,包括:
管理设备获取异常网络实体集合,异常网络实体集合中包括第一知识图谱上的所有异常网络实体。管理设备重复执行子图谱生成流程直至异常网络实体集合为空集合,得到n个异常子图谱。子图谱生成流程包括:
管理设备从异常网络实体集合中选取起始异常网络实体。管理设备对起始异常网络实体执行目标匹配流程,得到包括起始异常网络实体的一个异常子图谱。管理设备从异常网络实体集合中删除异常子图谱中的所有异常网络实体,得到更新后的异常网络实体集合。
其中,目标匹配流程包括:
管理设备基于第一知识图谱,获取起始异常网络实体的所有目标最近邻异常网络实体,目标最近邻异常网络实体与起始异常网络实体之间不存在其它异常网络实体,且目标最近邻异常网络实体不位于起始异常网络实体所在的异常子图谱中。对每个目标最近邻异常网络实体:
当目标最近邻异常网络实体与起始异常网络实体之间满足故障传播条件时,管理设备将目标最近邻异常网络实体添加到起始异常网络实体所在的异常子图谱中,并将目标最近邻异常网络实体作为新的起始异常网络实体,再次执行目标匹配流程。当目标最近邻异常网络实体与起始异常网络实体之间不满足故障传播条件时,管理设备确定目标最近邻异常网络实体不属于起始异常网络实体所在的异常子图谱。
在一种实现方式中,当目标最近邻异常网络实体与起始异常网络实体为相邻的两个网络实体时,目标最近邻异常网络实体与起始异常网络实体之间满足故障传播条件,包括:
目标最近邻异常网络实体与起始异常网络实体之间具有故障传播关系,目标最近邻异常网络实体的故障发生时刻与起始异常网络实体的故障发生时刻的时间间隔小于目标时长,且故障传播关系对应的故障传播概率大于目标概率阈值。
在另一种实现方式中,当目标最近邻异常网络实体与起始异常网络实体之间具有正常网络实体时,目标最近邻异常网络实体与起始异常网络实体之间满足故障传播条件,包括:
目标最近邻异常网络实体与正常网络实体之间具有第一故障传播关系,起始异常网络实体与正常网络实体之间具有第二故障传播关系,目标最近邻异常网络实体的故障发生时刻与起始异常网络实体的故障发生时刻的时间间隔小于目标时长,且第一故障传播关系对应的故障传播概率以及第二故障传播关系对应的故障传播概率均大于目标概率阈值。
可选地,管理设备在获取发生故障的目标网络的第一知识图谱之后,管理设备还获取m个时刻对应的目标网络的m个第二知识图谱,m个时刻与m个第二知识图谱一一对应,m个时刻与第一知识图谱的生成时刻均不同,m为正整数。管理设备根据m个第二知识图谱,补齐第一知识图谱中的网络实体连接关系。
本申请中,通过子图谱比较的方式确定当前知识图谱中缺失的连接关系,并将置信度高的连接关系补齐在当前的知识图谱上,可以解决因网络故障导致知识图谱上的连接关系缺失最终导致故障根因溯源不准确的问题,进一步提高了故障根因定位的准确性。
可选地,管理设备根据m个第二知识图谱,补齐第一知识图谱中的网络实体连接关系的实现过程,包括:
管理设备对第一知识图谱中的每个异常网络实体分别执行连接关系补齐流程。该连接关系补齐流程包括:
管理设备从第一知识图谱中获取第一子图谱,第一子图谱中包括异常网络实体以及与异常网络实体具有连接关系的所有网络实体,连接关系包括直接连接关系和/或间接连接关系。管理设备根据异常网络实体的标识,分别从各个第二知识图谱中获取一个第二子图谱,得到m个第二子图谱,第二子图谱中包括目标网络实体以及与目标网络实体具有连接关系的所有网络实体,目标网络实体的标识与异常网络实体的标识相同。管理设备基于第一子图谱以及m个第二子图谱获取目标连接关系,该目标连接关系满足:第一子图谱中不包括该目标连接关系,且m个第二子图谱中存在一个或多个第二子图谱中包括该目标连接关系。当目标连接关系的置信度大于置信度阈值时,管理设备将目标连接关系添加到第一子图谱中,目标连接关系的置信度与目标连接关系在m个第二子图谱中的出现次数正相关。
可选地,目标连接关系在m个第二子图谱中的出现次数为c,目标连接关系的置信度等于c/m,c为正整数。
可选地,管理设备确定异常子图谱中的根因故障网络实体的实现过程,包括:
管理设备计算异常子图谱中各个异常网络实体的出度。管理设备将出度为0的异常网络实体确定为异常子图谱中的根因故障网络实体。
可选地,管理设备在确定异常子图谱中的根因故障网络实体之后,对异常子图谱中的每个根因故障网络实体,管理设备基于根因故障网络实体所在的目标路径,确定根因故障网络实体为故障根因的概率,目标路径为以根因故障网络实体为尾结点的路径。管理设备输出目标网络的故障根因,故障根因包括n个异常子图谱分别对应的故障结果,故障结果包括异常子图谱中的各个根因故障网络实体以及每个根因故障网络实体为故障根因的概率。
本申请中,管理设备不仅可以输出目标网络对应的知识图谱中的根因故障网络实体(即目标网络中的故障根因),还可以输出每个根因故障网络实体为故障根因的概率,便于运维人员有针对性地处理各个故障问题,进而提高网络修复效率。
可选地,管理设备基于根因故障网络实体所在的目标路径,确定根因故障网络实体为故障根因的概率的实现过程,包括:
管理设备确定根因故障网络实体所在的目标路径对应的故障传播概率。当根因故障网络实体所在的目标路径的数量等于1时,管理设备将目标路径对应的故障传播概率作为根因故障网络实体为故障根因的概率。当根因故障网络实体所在的目标路径的数量大于1时,管理设备将指定目标路径对应的故障传播概率作为根因故障网络实体为故障根因的概率,指定目标路径为根因故障网络实体所在的所有目标路径中对应的故障概率最小的目标路径。
可选地,管理设备确定根因故障网络实体所在的目标路径对应的故障传播概率的实现过程,包括:
管理设备获取目标路径上的网络实体之间的所有故障传播关系。管理设备将目标故障传播关系对应的故障传播概率确定为目标路径对应的故障传播概率,目标故障传播关系为所有故障传播关系中对应的故障传播概率最小的故障传播关系。
可选地,管理设备获取发生故障的目标网络的第一知识图谱的实现过程,包括:
当目标网络发生故障时,管理设备获取目标网络中产生的异常事件。管理设备在目标网络的初始知识图谱上标识出目标网络中产生异常事件的异常网络实体,得到第一知识图谱,初始知识图谱基于目标网络的网络数据生成,网络数据包括目标网络的组网拓扑以及目标网络中多个网络设备的设备信息,设备信息包括接口配置信息、协议配置信息和业务配置信息中的一个或多个。
可选地,当目标网络发生故障时,管理设备还可以获取目标网络的网络数据。管理设备从网络数据中提取多个知识图谱三元组,每个知识图谱三元组包括两个网络实体以及两个网络实体之间的关系。管理设备根据多个知识图谱三元组,生成初始知识图谱。
可选地,异常事件中携带有产生异常事件的异常网络实体的故障发生时刻。
可选地,异常事件包括告警日志、状态变化日志以及异常关键绩效指标中的一个或多个。
第二方面,提供了一种故障根因定位装置。所述装置包括多个功能模块,所述多个功能模块相互作用,实现上述第一方面及其各实施方式中的方法。所述多个功能模块可以基于软件、硬件或软件和硬件的结合实现,且所述多个功能模块可以基于具体实现进行任意组合或分割。
第三方面,提供了一种故障根因定位装置,包括:处理器和存储器;
所述存储器,用于存储计算机程序,所述计算机程序包括程序指令;
所述处理器,用于调用所述计算机程序,实现如第一方面任一所述的故障根因定位方法。
第四方面,提供了一种计算机存储介质,所述计算机存储介质上存储有指令,当所述指令被处理器执行时,实现如第一方面任一所述的故障根因定位方法。
第五方面,提供了一种芯片,芯片包括可编程逻辑电路和/或程序指令,当芯片运行时,实现如第一方面任一所述的故障根因定位方法。
本申请提供的技术方案带来的有益效果至少包括:
由于知识图谱是基于整个网络生成的,知识图谱对应的故障传播条件也是基于整个网络的,因此本申请采用知识图谱在网络中进行故障根因定位时可以考虑到设备之间的故障传播,提高了网络中的故障根因定位准确性。通过将知识图谱划分成n个异常子图谱,使每个异常子图谱中的异常网络实体之间满足故障传播条件,实现了对目标网络中的故障分组,管理设备后续可以基于各个异常子图谱分别进行故障根因定位,缩小了知识图谱的规模,可以有效提高故障根因定位效率。
另外,本申请中还通过子图谱比较的方式确定当前知识图谱中缺失的连接关系,并将置信度高的连接关系补齐在当前的知识图谱上,可以解决因网络故障导致知识图谱上的连接关系缺失最终导致故障根因溯源不准确的问题,进一步提高了故障根因定位的准确性。
附图说明
图1是本申请实施例提供的故障根因定位方法所涉及的应用场景示意图;
图2是本申请实施例提供的一种故障根因定位方法的流程示意图;
图3是本申请实施例提供的一种初始知识图谱的结构示意图;
图4是本申请实施例提供的一种第一知识图谱的结构示意图;
图5是本申请实施例提供的一种补齐知识图谱中的连接关系的流程示意图;
图6是本申请实施例提供的一种第一子图谱的结构示意图;
图7是本申请实施例提供的m个第二子图谱的结构示意图;
图8是本申请实施例提供的另一种第一子图谱的结构示意图;
图9是本申请实施例提供的一个子图谱样本的结构示意图;
图10是本申请实施例提供的另一个子图谱样本的结构示意图;
图11是本申请实施例提供的一种异常子图谱的匹配示意图;
图12是本申请实施例提供的一种异常子图谱的结构示意图;
图13是本申请实施例提供的一种故障根因定位装置的结构示意图;
图14是本申请实施例提供的另一种故障根因定位装置的结构示意图;
图15是本申请实施例提供的又一种故障根因定位装置的结构示意图;
图16是本申请实施例提供的再一种故障根因定位装置的结构示意图;
图17是本申请实施例提供的一种故障根因定位装置的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请实施例提供的故障根因定位方法所涉及的应用场景示意图。如图1所示,该应用场景中包括管理设备101以及通信网络中的网络设备102a-102c(统称为网络设备102)。图1中管理设备和网络设备的数量仅用作示意,不作为对本申请实施例提供的故障根因定位方法所涉及的应用场景的限制。其中,通信网络可以是数据中心网络(datacenter network,DCN)、城域网络、广域网络、园区网络、虚拟局域网(virtual local areanetwork,VLAN)或虚拟扩展局域网(virtual extensible local area network,VXLAN)等,本申请实施例对通信网络的类型不做限定。
可选地,管理设备101可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。网络设备102可以是交换机或路由器等。可选地,请继续参见图1,该应用场景中还可以包括控制设备103。控制设备103用于管理和控制通信网络中的网络设备102。管理设备101与控制设备103之间通过有线网络或无线网络连接,控制设备103与网络设备102之间通过有线网络或无线网络连接。控制设备103可以是网络控制器,网络管理设备,网关或其它具有控制能力的设备。控制设备103可以是一台或多台设备。
其中,控制设备103中可以存储有该控制设备103管理的通信网络的组网拓扑。控制设备103还用于收集通信网络中的网络设备102的设备信息以及通信网络中产生的异常事件等,并向管理设备101提供通信网络的组网拓扑、网络设备102的设备信息以及通信网络中产生的异常事件等。网络设备的设备信息包括网络设备的网络配置信息和/或路由表项等。网络配置信息通常包括接口配置信息、协议配置信息以及业务配置信息等。可选地,控制设备103可以周期性地采集网络设备102的设备信息以及通信网络中产生的异常事件。示例地,控制设备可以采用简单网络管理协议(simple network management protocol,SNMP)或网络遥测(network telemetry)技术采集网络设备的异常信息以及通信网络中产生的异常事件。当网络设备102的设备信息发生变更时,网络设备102主动向控制设备103上报变更后的设备信息;当通信网络发生故障时,网络设备102主动向控制设备103上报产生的异常事件。当然,在某些应用场景中,管理设备也可以与通信网络中的网络设备直接连接,也即是,该应用场景中也可以不包括控制设备,本申请实施例对此不做限定。
图2是本申请实施例提供的一种故障根因定位方法的流程示意图。可以应用于如图1所示的应用场景中的管理设备101。如图2所示,该方法包括:
步骤201、获取发生故障的目标网络的第一知识图谱,该第一知识图谱上标识有目标网络中产生异常事件的异常网络实体。
第一知识图谱上的网络实体的类型为网络设备、接口、协议或业务。可选地,步骤201的实现过程包括:
在步骤2011中,当目标网络发生故障时,管理设备获取目标网络中产生的异常事件。
可选地,异常事件中携带有产生该异常事件的异常网络实体的故障发生时刻。
目标网络发生故障指目标网络中的网络设备发生故障,网络设备的故障类型包括接口故障、协议故障(包括无法正常收发协议报文等)以及业务故障等。可选地,异常事件包括告警日志、状态变化日志以及异常关键绩效指标(key performance indicator,KPI)中的一个或多个。告警日志中包括网络设备中异常网络实体的标识以及告警类型。状态变化日志中包括配置文件变化信息和/或路由表项变化信息等,例如状态变化日志中可以包括“接入子接口删除”以及“目的IP主机路由删除”等信息。异常关键绩效指标用于描述某个网络实体的某种指标出现异常。
在步骤2012中,管理设备在目标网络的初始知识图谱上标识出目标网络中产生异常事件的异常网络实体,得到第一知识图谱。
该初始知识图谱基于该目标网络的网络数据生成。目标网络的网络数据包括目标网络的组网拓扑以及目标网络中多个网络设备的设备信息。网络设备的设备信息包括网络设备的网络配置信息,具体包括接口配置信息、协议配置信息和业务配置信息中的一个或多个。设备信息还可以包括路由表项等。可选地,网络设备的接口配置信息包括接口的互联网协议(Internet Protocol,IP)地址、接口支持的协议类型以及接口支持的业务类型等。网络设备的协议配置信息包括协议的标识符,协议的标识符用于唯一标识该协议,协议的标识符可以采用字符、字母和/或数字等表示。网络设备的业务配置信息包括网络设备使用的业务,例如虚拟专用网络(virtual private network,VPN)业务和/或动态主机配置协议(Dynamic Host Configuration Protocol,DHCP)业务等。
可选地,当目标网络发生故障时,管理设备还可以获取目标网络的网络数据,并从网络数据中提取多个知识图谱三元组,然后根据多个知识图谱三元组生成初始知识图谱。其中,每个知识图谱三元组包括两个网络实体以及该两个网络实体之间的关系。两个网络实体之间的关系可以是依赖关系、从属关系或对等关系等。示例地,网络设备与接口之间的关系为从属关系,即接口属于网络设备。又示例地,建立通信连接的两个接口之间的关系为对等关系。
可选地,知识图谱中类型为网络设备的网络实体可以采用网络设备的名称、媒体访问控制(media access control,MAC)地址、硬件地址、开放式最短路径优先(openshortest path first,OSPF)路由(简称:OsRouter,可以在OSPF层唯一标识网络设备)或其它可唯一标识网络设备的标识符表示。类型为接口的网络实体可以采用接口的名称表示。类型为协议的网络实体可以采用协议的标识符表示。知识图谱三元组以图的形式表示,知识图谱三元组由点和边两个基本元素构成,点表示网络实体,边表示两个网络实体之间的关系,例如依赖关系、从属关系或对等关系等。当两个网络实体之间为对等关系时,可以采用无方向的边连接该两个网络实体。当两个网络实体之间为依赖关系或从属关系时,可以采用有方向的边(例如箭头)连接该两个网络实体,该边的方向由依赖的网络实体指向被依赖的网络实体,或者,该边的方向由附属的网络实体指向被附属的网络实体。
可选地,管理设备基于目标网络的网络类型对应的抽象业务模型,从网络数据中提取知识图谱三元组对应的结构化的json数据,例如可以包括OsRouter、OSPF层的网段(简称:OsNetwork)、网络设备上的物理接口信息、OSPF邻居状态改变信息以及边界网关协议(Border Gateway Protocol,BGP)状态机的状态值改变信息等。然后对提取的json数据进行解析并转换成知识图谱三元组。其中,抽象业务模型用于反映不同网络实体之间的关系。不同网络类型对应的抽象业务模型可以不同。抽象业务模型实质上为用于定义不同网络实体之间的依赖关系的数据对象。例如,抽象业务模型中可以定义:每个网络设备具有一个或多个接口,也即是,接口属于网络设备;接口上可以承载转发业务,例如接口上可以承载三层IP转发业务,即接口支持采用内部网关协议(interior gateway protocol,IGP)转发报文,也即是,三层IP转发业务或IGP依赖于接口;三层IP转发业务之上可以承载VXLAN隧道、流量工程(traffic engineering,TE)隧道以及BGP,也即是,VXLAN隧道、TE隧道以及BGP依赖于三层IP转发业务;TE隧道之上可以承载VPN业务,也即是,VPN业务依赖于TE隧道;等等。其中,三层IP转发业务之上可以承载VXLAN隧道,表示承载有三层IP转发业务的接口可作为VXLAN隧道的端点;三层IP转发业务之上可以承载TE隧道,表示承载有三层IP转发业务的接口可作为TE隧道的端点;三层IP转发业务之上可以承载BGP,表示承载有三层IP转发业务的接口可收发基于BGP的协议报文;TE隧道之上可以承载VPN业务,表示承载有TE隧道的接口可支持VPN业务。
可选地,管理设备可以从网络设备的网络配置信息中提取知识图谱三元组对应的结构化的json数据,也可以基于网络设备的路由表项提取知识图谱三元组对应的结构化的json数据。
可选地,管理设备可以周期性地获取目标网络中网络设备的设备信息,并生成目标网络的初始知识图谱。管理设备在生成目标网络的初始知识图谱之后,还可以在管理设备中或与管理设备连接的存储设备中存储该目标网络的初始知识图谱,以便后续使用,例如目标网络的初始知识图谱可以作为确定网络实体间的故障传播关系的基础,和/或,作为故障根因推理的基础等。示例地,当目标网络在某个周期内发生故障时,管理设备可以在该周期对应的初始知识图谱上标识出产生异常事件的异常网络实体,得到标识有异常网络实体的知识图谱,进而提高了标识有异常网络实体的知识图谱的获取效率。
示例地,假设目标网络中包括两个网络设备,分别为网络设备A和网络设备B。网络设备A具有3个接口,该3个接口的名称分别为10GE1/0/1、10GE1/0/2和10GE1/0/3。网络设备B具有4个接口,该4个接口的名称分别为10GE3/0/1、10GE3/0/2、10GE3/0/3和10GE3/0/4。网络设备A和网络设备B均支持OSPF协议,OSPF协议是一个IGP。网络设备A中OSPF协议的标识符采用10.89.46.25表示,包括3个路由IP,分别为11.11.11.11、11.11.11.12和11.11.11.13。网络设备B中OSPF协议的标识符采用10.89.49.37表示,包括4个路由IP,分别为11.12.11.11、11.12.11.12、11.12.11.13和11.12.11.14。网络设备A的接口“10GE1/0/2”与网络设备B的接口“10GE3/0/2”连接,且该两个接口之间采用OSPF协议通信,其中,网络设备A的接口“10GE1/0/2”采用的路由IP为11.11.11.11,网络设备B的接口“10GE3/0/2”采用的路由IP为11.12.11.14。则基于上述网络数据可以得到如图3所示的初始知识图谱。
进一步的,假设网络设备A的接口“10GE1/0/2”发生故障,路由IP“11.11.11.11”不通,导致目标网络发生故障时,可以在如图3所示的初始知识图谱上,将接口“10GE1/0/2”对应的网络实体和路由IP“11.11.11.11”对应的网络实体标识为异常网络实体,参见图4,可以通过在异常网络实体上连接异常事件实体,以标识出异常网络实体。异常事件实体可以采用特殊的图形或颜色等区别于网络实体。例如参见图4,可以采用三角形表示异常事件实体。
步骤202、获取m个时刻对应的目标网络的m个第二知识图谱。
该m个时刻与m个第二知识图谱一一对应,即目标网络在m个时刻中的每个时刻对应一个第二知识图谱。该m个时刻与第一知识图谱的生成时刻均不同,m为正整数。
可选地,上述m个时刻在时序上位于第一知识图谱的生成时刻之前,则管理设备获取m个时刻对应的目标网络的m个第二知识图谱,也即是,管理设备获取目标网络在过去m个时刻分别对应的m个第二知识图谱。
步骤203、根据m个第二知识图谱,补齐第一知识图谱中的网络实体连接关系。
可选地,步骤203的实现过程包括:管理设备对第一知识图谱中的每个异常网络实体分别执行连接关系补齐流程。如图5所示,该连接关系补齐流程包括:
步骤2031、管理设备从第一知识图谱中获取第一子图谱。
该第一子图谱中包括异常网络实体以及与该异常网络实体具有连接关系的所有网络实体。该连接关系包括直接连接关系和/或间接连接关系。
可选地,管理设备根据配置的最大连接阶数N,在第一知识图谱中寻找与异常网络实体的连接阶数小于或等于N的所有网络实体,构成第一子图谱。N为正整数,N取值可以是1或2。当N取值为1时,第一子图谱中包括异常网络实体以及与该异常网络实体直接连接的所有网络实体。当N取值为2时,第一子图谱中包括异常网络实体、与该异常网络实体直接连接的所有网络实体以及与该异常网络实体具有二阶连接关系的所有网络实体。两个网络实体之间具有N阶连接关系,也即是该两个网络实体之间间隔有(N-1)个网络实体。
示例地,假设N取值为1,图6是本申请实施例提供的一种第一子图谱的结构示意图。如图6所示,第一子图谱中包括异常网络实体A以及与异常网络实体A连接的网络实体B。
步骤2032、管理设备根据异常网络实体的标识,分别从m个第二知识图谱中的各个第二知识图谱中获取一个第二子图谱,得到m个第二子图谱。
异常网络实体的标识用于在第一知识图谱中唯一标识该异常网络实体。可选地,异常网络实体的标识可由该异常网络实体的名称、该异常网络实体的类型标识以及该异常网络实体对应的网络设备标识组合得到。第二子图谱中包括目标网络实体以及与该目标网络实体具有上述连接关系的所有网络实体,目标网络实体的标识与异常网络实体的标识相同。
可选地,管理设备根据异常网络实体的标识,从第二知识图谱中获取目标网络实体,然后根据配置的最大连接阶数N,在第二知识图谱中寻找与目标网络实体的连接阶数小于或等于N的所有网络实体,构成第二子图谱。
示例地,图7是本申请实施例提供的m个第二子图谱的结构示意图。如图7所示,该m个第二子图谱包括3个第二子图谱L1、L2和L3。第二子图谱L1中包括目标网络实体A’以及与该目标网络实体A’连接的网络实体B、网络实体C和网络实体D。第二子图谱L2中包括目标网络实体A’以及与该目标网络实体A’连接的网络实体B、网络实体D和网络实体E。第三子图谱L3中包括目标网络实体A’以及与该目标网络实体A’连接的网络设备D和网络实体E。
步骤2033、管理设备基于第一子图谱以及m个第二子图谱获取目标连接关系。
该目标连接关系满足:第一子图谱中不包括该目标连接关系,且m个第二子图谱中存在一个或多个第二子图谱中包括该目标连接关系。
示例地,结合步骤2031和步骤2032中的例子,目标连接关系包括目标网络实体A’连接网络实体C,目标网络实体A’连接网络实体D,以及目标网络实体A’连接网络实体E。
步骤2034、当目标连接关系的置信度大于置信度阈值时,管理设备将目标连接关系添加到第一子图谱中。
目标连接关系的置信度与目标连接关系在m个第二子图谱中的出现次数正相关。可选地,目标连接关系在m个第二子图谱中的出现次数为c,则目标连接关系的置信度等于c/m,c为正整数。
示例地,假设置信度阈值为0.5,参考步骤2033中的例子,目标网络实体A’连接网络实体C的置信度为1/3,目标网络实体A’连接网络实体D的置信度为1,目标网络实体A’连接网络实体E的置信度为2/3,管理设备可以将目标网络实体A’连接网络实体D以及目标网络实体A’连接网络实体E的连接关系添加到第一子图谱中,即在第一子图谱中补充异常网络实体A与网络实体D的连接关系以及异常网络实体A与网络实体E的连接关系,得到如图8所示的第一子图谱。
由于目标网络发生故障时,会导致目标网络的网络数据发生一些变化,进而可能会导致网络实体之间一些连接关系的变化,因此基于目标网络发生故障时的网络数据生成的知识图谱与其它时刻对应的知识图谱在连接关系上可能会存在一定差异,进而会影响到故障根因溯源的结果。本申请实施例中,通过子图谱比较的方式确定当前知识图谱中缺失的连接关系,并将置信度高的连接关系补齐在当前的知识图谱上,可以解决因网络故障导致知识图谱上的连接关系缺失最终导致故障根因溯源不准确的问题,从而提高了故障根因定位的准确性。
步骤204、基于第一知识图谱生成n个异常子图谱。
每个异常子图谱中包括一个或多个异常网络实体。当异常子图谱中包括多个异常网络实体时,该异常子图谱中的任一异常网络实体与该异常子图谱中的一个或多个其它异常网络实体之间满足故障传播条件。该n个异常子图谱中包括第一知识图谱上的所有异常网络实体,n为正整数。
可选地,故障传播条件包括故障传播关系、故障传播时间条件以及故障传播概率条件中的一个或多个。故障传播关系用于指示故障在通信网络中被传播的路径。两个网络实体之间满足故障传播关系,即该两个网络实体位于同一故障所在的传播路径上。两个异常网络实体之间满足故障传播时间条件,表示该两个异常网络实体的故障发生时刻的时间间隔小于目标时长。两个异常网络实体之间满足故障传播概率条件,表示该两个异常网络实体之间的故障传播关系对应的故障传播概率大于目标概率阈值。
本申请实施例中,管理设备获取故障传播关系的过程可以包括下述步骤A1-A3:
在步骤A1中,管理设备获取知识图谱样本,知识图谱样本上标识有该知识图谱样本所属的网络发生一次故障时,该知识图谱样本所属的网络中产生异常事件的所有异常网络实体。
可选地,知识图谱样本所属的网络为目标网络,或者,知识图谱样本所属的网络为与目标网络的网络类型相同的其它网络。
在步骤A2中,管理设备在知识图谱样本中选取多个异常网络实体作为中心节点,并基于每个中心节点确定一个或多个子图谱样本,每个子图谱样本中包括中心节点以及该中心节点的一个最近邻异常网络实体。
中心节点的最近邻异常网络实体与该中心节点之间不存在其它异常网络实体。可选地,中心节点可以具有与该中心节点直接连接或间接连接的最近邻异常网络实体。中心节点与最近邻异常网络实体直接连接,也即是,中心节点与该最近邻异常网络实体之间不存在其它任何网络实体。中心节点与最近邻异常网络实体间接连接,也即是,中心节点与该最近邻异常网络实体之间存在一个或多个正常网络实体。
可选地,管理设备确定的子图谱样本中,中心节点的最近邻异常网络实体与该中心节点的连接阶数小于或等于q,q为正整数。可选地,q可以取值为2。
示例地,图9和图10分别是本申请实施例提供的一个子图谱样本的结构示意图。如图9所示,该子图谱样本中的两个异常网络实体均为OsNetwork,这两个异常网络实体之间的连接阶数等于1。如图10所示,该子图谱样本中的两个异常网络实体分别为BGP Peer和OsNetwork,这两个异常网络实体之间通过L3link连接,即这两个异常网络实体之间的连接阶数等于2。
在步骤A3中,管理设备基于多个子图谱样本,确定故障传播关系。
在一些实施例中,管理设备可以根据图嵌入算法,将多个子图谱样本分别转换为图嵌入向量,得到与多个子图谱样本一一对应的多个图嵌入向量。根据多个图嵌入向量和聚类算法确定多个子图集合,多个子图集合中的每个子图集合包括多个子图谱样本中的至少一个子图谱样本。根据频繁子图挖掘算法,从多个子图集合中的每个子图集合包括的子图谱样本中提取故障传播关系。
作为一种示例,管理设备根据多个图嵌入向量和聚类算法确定多个子图集合的实现过程可以为:确定多个图嵌入向量中每两个图嵌入向量之间的相似度。根据确定的相似度和聚类算法对多个子图谱样本进行聚类,得到多个子图集合。
由于图嵌入向量可以代表子图谱样本,因此,管理设备根据多个图嵌入向量中每两个图嵌入向量之间的相似度,按照聚类算法可以对多个子图谱样本进行聚类,得到多个子图集合。
在另一些实施例中,网络设备可以根据频繁子图挖掘算法,从多个子图谱样本中提取故障传播关系。也即是,网络设备不用进行图嵌入向量的转换,也不需要进行子图谱样本的聚类,而是直接根据频繁子图挖掘算法,从多个子图谱样本中提取故障传播关系。当然,本申请实施例是以频繁子图挖掘算法为例进行说明,网络设备也可以按照其他的算法,从多个子图谱样本中提取故障传播关系,本申请实施例在此不再一一列举。
值得注意的是,管理设备根据频繁子图挖掘算法提取出的故障传播关系的数量可以为0,也可以为1,当然,也可以大于1。而且,有的子图谱样本中可能提取不出故障传播关系,有的子图谱样本中可以提取出数量大于或等于1的故障传播关系,且两个或者两个以上的子图谱样本中也可能会提取出相同的故障传播关系。
可选地,上述图嵌入算法可以为graph2vec、GNN图神经网络等算法,聚类算法可以为Kmeans、AP等算法,频繁子图挖掘算法可以为gSpan、CloseGraph等算法,本申请实施例对此不做限定。
另外,故障传播关系可以以文本的形式来表示,也可以以图形的形式来表示。比如,对于文本形式的故障传播关系“OsNetwork-L3link-BGPpeer”,该故障传播关系用于指示OsNetwork内邻居协议状态故障导致BGP Loopback口IP不可达(L3link),最终导致BGP邻居(BGP Peer)断链。
本申请实施例中,管理设备确定的故障传播关系可以包括1阶故障传播关系(例如图9所示的故障传播关系)和2阶故障传播关系(例如图10所示的故障传播关系),当然还可以包括3阶、4阶等更高阶的故障传播关系,对此不作限定。
在管理设备根据多个子图谱样本确定故障传播关系之后,还可以确定提取出的故障传播关系对应的故障传播概率和/或故障传播时间。也即是,管理设备可以确定提取出的故障传播关系对应的故障传播概率,也可以确定提取出的故障传播关系对应的故障传播时间,还可以确定提取出的故障传播关系对应的故障传播概率以及对应的故障传播时间。
在一些实施例中,管理设备确定提取出的故障传播关系对应的故障传播时间的实现过程可以为:管理设备获取第一故障传播关系的起点的故障发生时刻和终点的故障发生时刻,第一故障传播关系为第一子图集合中提取出的故障传播关系,多个子图集合包括第一子图集合。管理设备将第一故障传播关系的起点的故障发生时刻与终点的故障发生时刻之间的差值,确定为第一故障传播关系对应的故障传播时间。
可选地,管理设备确定第一故障传播关系的起点的故障发生时刻和终点的故障发生时刻的实现过程可以为:从第一子图集合中确定出现第一故障传播关系的子图谱样本,从确定的子图谱样本中获取第一故障传播关系的起点所对应的异常事件携带的故障发生时刻,以及终点所对应的异常事件携带的故障发生时刻。将这些起点所对应的异常事件携带的故障发生时刻的平均值确定为第一故障传播关系的起点的故障发生时刻,将这些终点所对应的异常事件携带的故障发生时刻的平均值确定为第一故障传播关系的终点的故障发生时刻。
当然,管理设备还可以从第一子图集合中确定出现第一故障传播关系的子图谱样本,从确定的子图谱样本中获取第一故障传播关系的起点所对应的异常事件携带的故障发生时刻,以及终点所对应的异常事件携带的故障发生时刻,确定获取的第一故障传播关系的起点所对应的异常事件携带的故障发生时刻和终点所对应的异常事件携带的故障发生时刻之间的差值,将确定的这些差值的平均值确定为第一故障传播关系对应的故障传播时间。
由于第一子图集合为多个子图集合中的一个子图集合,第一故障传播关系是第一子图集合中提取出的一个故障传播关系,因此,按照上述方法可以确定出每个子图集合中提取出的每个故障传播关系对应的故障传播时间。
比如,管理设备提取出3个故障传播关系,分别为故障传播关系1、故障传播关系2和故障传播关系3。故障传播关系1的起点的故障发生时刻为10点20分21秒,终点的故障发生时刻为10点21分,那么,故障传播关系1对应的故障传播时间为39秒。同理,故障传播关系2的起点的故障发生时刻为10点23分02秒,终点的故障发生时刻为10点24分20秒,那么,故障传播关系2对应的故障传播时间为1分18秒。故障传播关系3的起点的故障发生时刻为10点22分10秒,终点的故障发生时刻为10点22分59秒,那么,故障传播关系3对应的故障传播时间为49秒。
在一些实施例中,管理设备确定故障传播关系出现的概率的实现过程可以为:管理设备确定第一子图集合中出现第一故障传播关系的子图谱样本的个数,第一故障传播关系为第一子图集合中提取出的故障传播关系,多个子图集合包括第一子图集合。管理设备根据确定的个数与第一子图集合中的子图谱样本的总数之间的比值,确定第一故障传播关系出现的概率。
由于第一子图集合为多个子图集合中的一个子图集合,第一故障传播关系是第一子图集合中提取出的一个故障传播关系,因此按照上述方法可以确定出每个子图集合中提取出的每个故障传播关系出现的概率。
作为一种示例,管理设备可以直接将确定的个数与第一子图集合中的子图谱样本的总数之间的比值确定为第一故障传播关系出现的概率。
比如,管理设备从第一子图集合中提取出故障传播关系1,且第一子图集合中出现故障传播关系1的子图谱样本的个数为20个,第一子图集合中的子图谱样本的总数为30个,那么,故障传播关系1出现的概率可以为67%。
可选地,管理设备可以基于图匹配的算法对第一知识图谱上的异常网络实体进行分组,得到n个异常子图谱,具体实现过程包括:管理设备获取异常网络实体集合,该异常网络实体集合中包括第一知识图谱上的所有异常网络实体。管理设备重复执行子图谱生成流程直至异常网络实体集合为空集合,得到n个异常子图谱。其中,子图谱生成流程包括步骤B1-B3:
在步骤B1中,管理设备从异常网络实体集合中选取起始异常网络实体。
可选地,起始异常网络实体可以是异常网络实体集合中的任一异常网络实体。管理设备选取起始异常网络实体后,将该起始异常网络实体作为一个异常子图谱。
在步骤B2中,管理设备对起始异常网络实体执行目标匹配流程,得到包括起始异常网络实体的一个异常子图谱。
其中,目标匹配流程包括:
管理设备基于第一知识图谱,获取起始异常网络实体的所有目标最近邻异常网络实体,该目标最近邻异常网络实体与起始异常网络实体之间不存在其它异常网络实体,且目标最近邻异常网络实体不位于起始异常网络实体所在的异常子图谱中。对该起始异常网络实体的每个目标最近邻异常网络实体:当目标最近邻异常网络实体与起始异常网络实体之间满足故障传播条件时,将目标最近邻异常网络实体添加到起始异常网络实体所在的异常子图谱中,并将该目标最近邻异常网络实体作为新的起始异常网络实体,再次执行上述目标匹配流程。当目标最近邻异常网络实体与起始异常网络实体之间不满足故障传播条件时,确定目标最近邻异常网络实体不属于起始异常网络实体所在的异常子图谱。
可选地,当起始异常网络实体的所有目标最近邻异常网络实体与该起始异常网络实体之间均不满足故障传播条件时,管理设备结束基于该起始异常网络实体执行的目标匹配流程。管理设备在执行目标匹配流程的过程中,每将一个异常网络实体添加到起始异常网络实体所在的异常子图谱中,就可以将该异常网络实体从异常网络实体集合中删除。
在一种可能情况下,当目标最近邻异常网络实体与起始异常网络实体为相邻的两个网络实体时,目标最近邻异常网络实体与起始异常网络实体之间满足故障传播条件,包括:
目标最近邻异常网络实体与起始异常网络实体之间具有故障传播关系,目标最近邻异常网络实体的故障发生时刻与起始异常网络实体的故障发生时刻的时间间隔小于目标时长,且该故障传播关系对应的故障传播概率大于目标概率阈值。
在另一种可能情况下,当目标最近邻异常网络实体与起始异常网络实体之间具有正常网络实体时,目标最近邻异常网络实体与起始异常网络实体之间满足故障传播条件,包括:
目标最近邻异常网络实体与正常网络实体之间具有第一故障传播关系,起始异常网络实体与正常网络实体之间具有第二故障传播关系,目标最近邻异常网络实体的故障发生时刻与起始异常网络实体的故障发生时刻的时间间隔小于目标时长,且第一故障传播关系对应的故障传播概率以及第二故障传播关系对应的故障传播概率均大于目标概率阈值。
示例地,图11是本申请实施例提供的一种异常子图谱的匹配示意图。以异常网络实体A为起始异常网络实体,异常网络实体A具有6个最近邻异常网络实体B-G,图中虚线箭头表示故障传播关系。如图11所示,异常网络实体A分别与异常网络实体B以及异常网络实体C满足一阶故障传播关系,异常网络实体A分别与异常网络实体E以及异常网络实体F满足二阶故障传播关系。当异常网络实体A与异常网络实体B之间的故障传播关系对应的故障传播概率大于目标概率阈值,且异常网络实体A的故障发生时刻与异常网络实体B的故障发生时刻的时间间隔小于目标时长时,可以确定异常网络实体B与异常网络实体A之间满足故障传播条件,进而确定异常网络实体B属于异常网络实体A所在的异常子图谱,然后可以以异常网络实体B作为起始异常网络节点,再在知识图谱中匹配与异常网络实体B满足故障传播条件的其它异常网络实体。确定异常网络实体C、异常网络实体E以及异常网络实体F是否属于异常网络实体A所在的异常子图谱的过程,可参考上述异常网络实体B对应的确定过程,本申请实施例在此不再一一赘述。
另外,异常网络实体A还与正常网络实体X满足一阶故障传播关系,正常网络实体X与异常网络实体G满足二阶故障传播关系。当异常网络实体A与正常网络实体X之间的故障传播关系对应的故障传播概率大于目标概率阈值,正常网络实体X与异常网络实体G之间的故障传播关系对应的故障传播概率大于目标概率阈值,且异常网络实体A的故障发生时刻与异常网络实体G的故障发生时刻的时间间隔小于目标时长时,可以确定异常网络实体G与异常网络实体A之间满足故障传播条件,进而确定异常网络实体G属于异常网络实体A所在的异常子图谱,然后可以以异常网络实体G作为起始异常网络节点,再在知识图谱中匹配与异常网络实体G满足故障传播条件的其它异常网络实体。
在步骤B3中,管理设备从异常网络实体集合中删除异常子图谱中的所有异常网络实体,得到更新后的异常网络实体集合。
当更新后的异常网络实体集合不为空时,管理设备再次继续执行子图谱生成流程;当更新后的异常网络实体集合为空时,即管理设备完成异常子图谱的生成过程。
本申请实施例中,通过将知识图谱划分成n个异常子图谱,使每个异常子图谱中的异常网络实体之间满足故障传播条件,实现了对目标网络中的故障分组,管理设备后续可以基于各个异常子图谱分别进行故障根因定位,缩小了知识图谱的规模,可以有效提高故障根因定位效率。
步骤205、对n个异常子图谱中的一个或多个异常子图谱,确定该异常子图谱中的根因故障网络实体。
可选地,管理设备可以分别确定n个异常子图谱中各个异常子图谱中的根因故障网络实体。管理设备确定异常子图谱中的根因故障网络实体的实现过程包括:管理设备计算异常子图谱中各个异常网络实体的出度(outdegree);并将出度为0的异常网络实体确定为异常子图谱中的根因故障网络实体。异常子图谱通常为有向图,异常网络实体的出度等于以该异常网络实体为尾的边的数目。
示例地,图12是本申请实施例提供的一种异常子图谱的结构示意图。如图12所示,该异常子图谱中包括异常网络实体A,异常网络实体F和异常网络实体H。异常网络实体A的出度等于2,异常网络实体F的出度等于1,异常网络实体H的出度等于0,因此管理设备可以确定该异常子图谱中的根因故障网络实体为异常网络实体H。
值得注意的是,每个异常子图谱中可以包括一个或多个根因故障网络实体。
步骤206、对异常子图谱中的每个根因故障网络实体,基于根因故障网络实体所在的目标路径,确定该根因故障网络实体为故障根因的概率。
其中,目标路径为以根因故障网络实体为尾结点的路径。示例地,在如图12所示的异常子图谱中,根因故障网络实体H对应有2条目标路径,分别为:A→X1→F→H,以及A→X2→F→H。
可选地,管理设备可以基于深度优先搜索(depth first search,DFS)算法进行路径检索,获取异常子图谱中所有以根因故障网络实体为尾节点的路径。管理设备基于根因故障网络实体所在的目标路径,确定根因故障网络实体为故障根因的概率的实现过程,包括:
在步骤2061中,管理设备确定根因故障网络实体所在的目标路径对应的故障传播概率。
可选地,管理设备获取目标路径上的网络实体之间的所有故障传播关系;并将目标故障传播关系对应的故障传播概率确定为目标路径对应的故障传播概率。该目标故障传播关系为所有故障传播关系中对应的故障传播概率最小的故障传播关系。
示例地,在如图12所示的异常子图谱中,2条目标路径上均包括一个二阶故障传播关系和一个一阶故障传播关系。对于目标路径A→X1→F→H,假设异常网络实体A与异常网络实体F之间的二阶故障传播关系对应的故障传播概率为P1,异常网络实体F与异常网络实体H之间的一阶故障传播关系对应的故障传播概率为P2,则该目标路径对应的故障传播概率取P1和P2中的较小值。对于目标路径A→X2→F→H,假设异常网络实体A与异常网络实体F之间的二阶故障传播关系对应的故障传播概率为P3,异常网络实体F与异常网络实体H之间的一阶故障传播关系对应的故障传播概率为P2,则该目标路径对应的故障传播概率取P3和P2中的较小值。
在步骤2062中,当根因故障网络实体所在的目标路径的数量等于1时,管理设备将目标路径对应的故障传播概率作为根因故障网络实体为故障根因的概率。
在步骤2063中,当根因故障网络实体所在的目标路径的数量大于1时,管理设备将指定目标路径对应的故障传播概率作为根因故障网络实体为故障根因的概率,该指定目标路径为根因故障网络实体所在的所有目标路径中对应的故障传播概率最小的目标路径。
示例地,参考步骤2061中的例子,假设P1<P2<P3,则目标路径A→X1→F→H的故障概率为P1,目标路径A→X2→F→H的故障概率为P2,根因故障网络实体H的故障概率为P1。
步骤207、输出目标网络的故障根因。
目标网络的故障根因包括n个异常子图谱分别对应的故障结果,该故障结果包括对应的异常子图谱中的各个根因故障网络实体以及每个根因故障网络实体为故障根因的概率。
可选地,管理设备输出的目标网络的故障根因可以表示为:[{故障组A,根因故障网络实体集合,根因故障网络实体集合对应的故障概率集合},{故障组B,根因故障网络实体集合,根因故障网络实体集合对应的故障概率集合},…]。每个故障组中可以包括一个异常子图谱中的所有异常网络实体。示例地,参考步骤206中的例子,如图12所示的异常子图谱对应的故障结果可以表示为:{{A,F,H},{H},{P1}}。
可选地,管理设备向运维支撑系统(operations support system,OSS)或其它与管理设备连接的终端设备输出目标网络对应的故障结果,供OSS或终端设备显示。当然,若管理设备自身具有显示功能,则管理设备也可以直接在自身的显示界面上显示目标网络的知识图谱。
本申请实施例中,管理设备通过输出目标网络的故障根因,以便于运维人员查看目标网络中的根因故障网络实体,实现快速故障根因定位,进而提高故障修复效率,即能够缩短网络设备由故障状态转为工作状态所耗费的时间,网络设备由故障状态转为工作状态所耗费的时间也可称为平均修复时间(mean time to recovery,MTTR)。
可选地,本申请实施例中,管理设备可以包括一台设备或多台设备。当管理设备包括一台设备时,上述故障根因定位方法涉及的步骤均由该设备执行。或者,当管理设备包括多台设备,例如包括第一设备、第二设备和第三设备时,第一设备可以生成目标网络的初始知识图谱,并在目标网络的初始知识图谱上标识出异常网络实体。第二设备可以基于知识图谱样本训练得到目标网络对应的故障传播条件集合。第一设备将标识有异常网络实体的知识图谱发送给第三设备,第二设备将故障传播条件集合发送给第三设备。第三设备执行步骤201至步骤207。
本申请实施例提供的故障根因定位方法的步骤先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减,例如步骤202和步骤203也可以不执行。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本申请的保护范围之内,因此不再赘述。
综上所述,在本申请实施例提供的故障根因定位方法中,由于知识图谱是基于整个网络生成的,知识图谱对应的故障传播条件也是基于整个网络的,因此采用知识图谱在网络中进行故障根因定位时可以考虑到设备之间的故障传播,提高了网络中的故障根因定位准确性。通过将知识图谱划分成n个异常子图谱,使每个异常子图谱中的异常网络实体之间满足故障传播条件,实现了对目标网络中的故障分组,管理设备后续可以基于各个异常子图谱分别进行故障根因定位,缩小了知识图谱的规模,可以有效提高故障根因定位效率。
另外,本申请实施例中还通过子图谱比较的方式确定当前知识图谱中缺失的连接关系,并将置信度高的连接关系补齐在当前的知识图谱上,可以解决因网络故障导致知识图谱上的连接关系缺失最终导致故障根因溯源不准确的问题,进一步提高了故障根因定位的准确性。
图13是本申请实施例提供的一种故障根因定位装置的结构示意图。可以应用于如图1所示的应用场景中的管理设备101。如图13所示,装置130包括:
第一获取模块1301,用于获取发生故障的目标网络的第一知识图谱,第一知识图谱上标识有目标网络中产生异常事件的异常网络实体,第一知识图谱上的网络实体的类型为网络设备、接口、协议或业务。
第一生成模块1302,用于基于第一知识图谱生成n个异常子图谱,每个异常子图谱中包括一个或多个异常网络实体,当异常子图谱中包括多个异常网络实体时,异常子图谱中的任一异常网络实体与异常子图谱中的一个或多个其它异常网络实体之间满足故障传播条件,n个异常子图谱中包括第一知识图谱上的所有异常网络实体,且任一异常网络实体仅属于一个异常子图谱,n为正整数。
第一确定模块1303,用于对n个异常子图谱中的一个或多个异常子图谱,确定异常子图谱中的根因故障网络实体。
综上所述,本申请实施例提供的故障根因定位装置,由于知识图谱是基于整个网络生成的,知识图谱对应的故障传播条件也是基于整个网络的,因此采用知识图谱在网络中进行故障根因定位时可以考虑到设备之间的故障传播,提高了网络中的故障根因定位准确性。通过将知识图谱划分成n个异常子图谱,使每个异常子图谱中的异常网络实体之间满足故障传播条件,实现了对目标网络中的故障分组,管理设备后续可以基于各个异常子图谱分别进行故障根因定位,缩小了知识图谱的规模,可以有效提高故障根因定位效率。
可选地,故障传播条件包括故障传播关系、故障传播时间条件以及故障传播概率条件中的一个或多个。
可选地,第一生成模块,用于:获取异常网络实体集合,异常网络实体集合中包括第一知识图谱上的所有异常网络实体;重复执行子图谱生成流程直至异常网络实体集合为空集合,得到n个异常子图谱,子图谱生成流程包括:
从异常网络实体集合中选取起始异常网络实体;对起始异常网络实体执行目标匹配流程,得到包括起始异常网络实体的一个异常子图谱;从异常网络实体集合中删除异常子图谱中的所有异常网络实体,得到更新后的异常网络实体集合;其中,目标匹配流程包括:
基于第一知识图谱,获取起始异常网络实体的所有目标最近邻异常网络实体,目标最近邻异常网络实体与起始异常网络实体之间不存在其它异常网络实体,且目标最近邻异常网络实体不位于起始异常网络实体所在的异常子图谱中,对每个目标最近邻异常网络实体:
当目标最近邻异常网络实体与起始异常网络实体之间满足故障传播条件时,将目标最近邻异常网络实体添加到起始异常网络实体所在的异常子图谱中,并将目标最近邻异常网络实体作为新的起始异常网络实体,再次执行目标匹配流程,当目标最近邻异常网络实体与起始异常网络实体之间不满足故障传播条件时,确定目标最近邻异常网络实体不属于起始异常网络实体所在的异常子图谱。
可选地,当目标最近邻异常网络实体与起始异常网络实体为相邻的两个网络实体时,目标最近邻异常网络实体与起始异常网络实体之间满足故障传播条件,包括:
目标最近邻异常网络实体与起始异常网络实体之间具有故障传播关系,目标最近邻异常网络实体的故障发生时刻与起始异常网络实体的故障发生时刻的时间间隔小于目标时长,且故障传播关系对应的故障传播概率大于目标概率阈值。
可选地,当目标最近邻异常网络实体与起始异常网络实体之间具有正常网络实体时,目标最近邻异常网络实体与起始异常网络实体之间满足故障传播条件,包括:
目标最近邻异常网络实体与正常网络实体之间具有第一故障传播关系,起始异常网络实体与正常网络实体之间具有第二故障传播关系,目标最近邻异常网络实体的故障发生时刻与起始异常网络实体的故障发生时刻的时间间隔小于目标时长,且第一故障传播关系对应的故障传播概率以及第二故障传播关系对应的故障传播概率均大于目标概率阈值。
可选地,如图14所示,装置130还包括:
第二获取模块1304,用于在获取发生故障的目标网络的第一知识图谱之后,获取m个时刻对应的目标网络的m个第二知识图谱,m个时刻与m个第二知识图谱一一对应,m个时刻与第一知识图谱的生成时刻均不同,m为正整数;
补齐模块1305,用于根据m个第二知识图谱,补齐第一知识图谱中的网络实体连接关系。
可选地,补齐模块,用于:对第一知识图谱中的每个异常网络实体分别执行连接关系补齐流程,连接关系补齐流程包括:
从第一知识图谱中获取第一子图谱,第一子图谱中包括异常网络实体以及与异常网络实体具有连接关系的所有网络实体,连接关系包括直接连接关系和/或间接连接关系;根据异常网络实体的标识,分别从各个第二知识图谱中获取一个第二子图谱,得到m个第二子图谱,第二子图谱中包括目标网络实体以及与目标网络实体具有连接关系的所有网络实体,目标网络实体的标识与异常网络实体的标识相同;基于第一子图谱以及m个第二子图谱获取目标连接关系,目标连接关系满足:第一子图谱中不包括目标连接关系,且m个第二子图谱中存在一个或多个第二子图谱中包括目标连接关系;当目标连接关系的置信度大于置信度阈值时,将目标连接关系添加到第一子图谱中,目标连接关系的置信度与目标连接关系在m个第二子图谱中的出现次数正相关。
可选地,目标连接关系在m个第二子图谱中的出现次数为c,目标连接关系的置信度等于c/m,c为正整数。
可选地,第一确定模块,用于:
对每个异常子图谱,计算异常子图谱中各个异常网络实体的出度;将出度为0的异常网络实体确定为异常子图谱中的根因故障网络实体。
可选地,如图15所示,装置130还包括:
第二确定模块1306,用于在确定异常子图谱中的根因故障网络实体之后,对异常子图谱中的每个根因故障网络实体,基于根因故障网络实体所在的目标路径,确定根因故障网络实体为故障根因的概率,目标路径为以根因故障网络实体为尾结点的路径;
输出模块1307,用于输出目标网络的故障根因,该故障根因包括n个异常子图谱分别对应的故障结果,故障结果包括异常子图谱中的各个根因故障网络实体以及每个根因故障网络实体为故障根因的概率。
可选地,第二确定模块,用于:
确定根因故障网络实体所在的目标路径对应的故障传播概率;当根因故障网络实体所在的目标路径的数量等于1时,将目标路径对应的故障传播概率作为根因故障网络实体为故障根因的概率;当根因故障网络实体所在的目标路径的数量大于1时,将指定目标路径对应的故障传播概率作为根因故障网络实体为故障根因的概率,指定目标路径为根因故障网络实体所在的所有目标路径中对应的故障传播概率最小的目标路径。
可选地,第二确定模块,还用于:
获取目标路径上的网络实体之间的所有故障传播关系;将目标故障传播关系对应的故障传播概率确定为目标路径对应的故障传播概率,目标故障传播关系为所有故障传播关系中对应的故障传播概率最小的故障传播关系。
可选地,第一获取模块,用于:
当目标网络发生故障时,获取目标网络中产生的异常事件;在目标网络的初始知识图谱上标识出目标网络中产生异常事件的异常网络实体,得到第一知识图谱,初始知识图谱基于目标网络的网络数据生成,网络数据包括目标网络的组网拓扑以及目标网络中多个网络设备的设备信息,设备信息包括接口配置信息、协议配置信息和业务配置信息中的一个或多个。
可选地,如图16所示,装置130还包括:
第三获取模块1308,用于当目标网络发生故障时,获取目标网络的网络数据;
提取模块1309,用于从网络数据中提取多个知识图谱三元组,每个知识图谱三元组包括两个网络实体以及两个网络实体之间的关系;
第二生成模块1310,用于根据多个知识图谱三元组,生成初始知识图谱。
可选地,异常事件中携带有产生异常事件的异常网络实体的故障发生时刻。
可选地,异常事件包括告警日志、状态变化日志以及异常关键绩效指标中的一个或多个。
综上所述,本申请实施例提供的故障根因定位装置,由于知识图谱是基于整个网络生成的,知识图谱对应的故障传播条件也是基于整个网络的,因此采用知识图谱在网络中进行故障根因定位时可以考虑到设备之间的故障传播,提高了网络中的故障根因定位准确性。通过将知识图谱划分成n个异常子图谱,使每个异常子图谱中的异常网络实体之间满足故障传播条件,实现了对目标网络中的故障分组,管理设备后续可以基于各个异常子图谱分别进行故障根因定位,缩小了知识图谱的规模,可以有效提高故障根因定位效率。
另外,本申请实施例中还通过子图谱比较的方式确定当前知识图谱中缺失的连接关系,并将置信度高的连接关系补齐在当前的知识图谱上,可以解决因网络故障导致知识图谱上的连接关系缺失最终导致故障根因溯源不准确的问题,进一步提高了故障根因定位的准确性。
图17是本申请实施例提供的一种故障根因定位装置的框图。该故障根因定位装置可以是如图1所示的应用场景中的管理设备。如图17所示,该管理设备170包括:处理器1701和存储器1702。
存储器1702,用于存储计算机程序,所述计算机程序包括程序指令;
处理器1701,用于调用计算机程序,实现如图2所示的故障根因定位方法。
可选地,该管理设备170还包括通信总线1703和通信接口1704。
其中,处理器1701包括一个或者一个以上处理核心,处理器1701通过运行计算机程序执行各种功能应用以及故障根因定位。
存储器1702可用于存储计算机程序。可选地,存储器可存储操作系统和至少一个功能所需的应用程序单元。操作系统可以是实时操作系统(Real Time eXecutive,RTX)、LINUX、UNIX、WINDOWS或OS X之类的操作系统。
通信接口1704可以为多个,通信接口1704用于与其它设备进行通信。例如与控制设备或网络设备进行通信。
存储器1702与通信接口1704分别通过通信总线1703与处理器1701连接。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质上存储有指令,当所述指令被处理器执行时,实现如图2所示的故障根因定位方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本申请实施例中,术语“第一”、“第二”和“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“至少一个”是指一个或多个,术语“多个”指两个或两个以上,除非另有明确的限定。
本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的构思和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (34)

1.一种故障根因定位方法,其特征在于,所述方法包括:
获取发生故障的目标网络的第一知识图谱,所述第一知识图谱上标识有所述目标网络中产生异常事件的异常网络实体,所述第一知识图谱上的网络实体的类型为网络设备、接口、协议或业务;
基于所述第一知识图谱生成n个异常子图谱,每个所述异常子图谱中包括一个或多个异常网络实体,当异常子图谱中包括多个异常网络实体时,所述异常子图谱中的任一异常网络实体与所述异常子图谱中的一个或多个其它异常网络实体之间满足故障传播条件,所述n个异常子图谱中包括所述第一知识图谱上的所有异常网络实体,且任一所述异常网络实体仅属于一个异常子图谱,n为正整数;
对所述n个异常子图谱中的一个或多个异常子图谱,确定所述异常子图谱中的根因故障网络实体。
2.根据权利要求1所述的方法,其特征在于,所述故障传播条件包括故障传播关系、故障传播时间条件以及故障传播概率条件中的一个或多个。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述第一知识图谱生成n个异常子图谱,包括:
获取异常网络实体集合,所述异常网络实体集合中包括所述第一知识图谱上的所有异常网络实体;
重复执行子图谱生成流程直至所述异常网络实体集合为空集合,得到所述n个异常子图谱,所述子图谱生成流程包括:
从所述异常网络实体集合中选取起始异常网络实体;
对所述起始异常网络实体执行目标匹配流程,得到包括所述起始异常网络实体的一个异常子图谱;
从所述异常网络实体集合中删除所述异常子图谱中的所有异常网络实体,得到更新后的异常网络实体集合;
其中,所述目标匹配流程包括:
基于所述第一知识图谱,获取所述起始异常网络实体的所有目标最近邻异常网络实体,所述目标最近邻异常网络实体与所述起始异常网络实体之间不存在其它异常网络实体,且所述目标最近邻异常网络实体不位于所述起始异常网络实体所在的异常子图谱中,
对每个所述目标最近邻异常网络实体:
当所述目标最近邻异常网络实体与所述起始异常网络实体之间满足故障传播条件时,将所述目标最近邻异常网络实体添加到所述起始异常网络实体所在的异常子图谱中,并将所述目标最近邻异常网络实体作为新的起始异常网络实体,再次执行所述目标匹配流程,
当所述目标最近邻异常网络实体与所述起始异常网络实体之间不满足故障传播条件时,确定所述目标最近邻异常网络实体不属于所述起始异常网络实体所在的异常子图谱。
4.根据权利要求3所述的方法,其特征在于,当所述目标最近邻异常网络实体与所述起始异常网络实体为相邻的两个网络实体时,所述目标最近邻异常网络实体与所述起始异常网络实体之间满足故障传播条件,包括:
所述目标最近邻异常网络实体与所述起始异常网络实体之间具有故障传播关系,所述目标最近邻异常网络实体的故障发生时刻与所述起始异常网络实体的故障发生时刻的时间间隔小于目标时长,且所述故障传播关系对应的故障传播概率大于目标概率阈值。
5.根据权利要求3所述的方法,其特征在于,当所述目标最近邻异常网络实体与所述起始异常网络实体之间具有正常网络实体时,所述目标最近邻异常网络实体与所述起始异常网络实体之间满足故障传播条件,包括:
所述目标最近邻异常网络实体与所述正常网络实体之间具有第一故障传播关系,所述起始异常网络实体与所述正常网络实体之间具有第二故障传播关系,所述目标最近邻异常网络实体的故障发生时刻与所述起始异常网络实体的故障发生时刻的时间间隔小于目标时长,且所述第一故障传播关系对应的故障传播概率以及所述第二故障传播关系对应的故障传播概率均大于目标概率阈值。
6.根据权利要求1或2所述的方法,其特征在于,在所述获取发生故障的目标网络的第一知识图谱之后,所述方法还包括:
获取m个时刻对应的所述目标网络的m个第二知识图谱,所述m个时刻与所述m个第二知识图谱一一对应,所述m个时刻与所述第一知识图谱的生成时刻均不同,m为正整数;
根据所述m个第二知识图谱,补齐所述第一知识图谱中的网络实体连接关系。
7.根据权利要求6所述的方法,其特征在于,所述根据所述m个第二知识图谱,补齐所述第一知识图谱中的网络实体连接关系,包括:
对所述第一知识图谱中的每个异常网络实体分别执行连接关系补齐流程,所述连接关系补齐流程包括:
从所述第一知识图谱中获取第一子图谱,所述第一子图谱中包括所述异常网络实体以及与所述异常网络实体具有连接关系的所有网络实体,所述连接关系包括直接连接关系和/或间接连接关系;
根据所述异常网络实体的标识,分别从各个所述第二知识图谱中获取一个第二子图谱,得到m个第二子图谱,所述第二子图谱中包括目标网络实体以及与所述目标网络实体具有所述连接关系的所有网络实体,所述目标网络实体的标识与所述异常网络实体的标识相同;
基于所述第一子图谱以及所述m个第二子图谱获取目标连接关系,所述目标连接关系满足:所述第一子图谱中不包括所述目标连接关系,且所述m个第二子图谱中存在一个或多个第二子图谱中包括所述目标连接关系;
当所述目标连接关系的置信度大于置信度阈值时,将所述目标连接关系添加到所述第一子图谱中,所述目标连接关系的置信度与所述目标连接关系在所述m个第二子图谱中的出现次数正相关。
8.根据权利要求7所述的方法,其特征在于,所述目标连接关系在所述m个第二子图谱中的出现次数为c,所述目标连接关系的置信度等于c/m,c为正整数。
9.根据权利要求1或2所述的方法,其特征在于,所述确定所述异常子图谱中的根因故障网络实体,包括:
计算所述异常子图谱中各个异常网络实体的出度;
将出度为0的异常网络实体确定为所述异常子图谱中的根因故障网络实体。
10.根据权利要求1或2所述的方法,其特征在于,在所述确定所述异常子图谱中的根因故障网络实体之后,所述方法还包括:
对所述异常子图谱中的每个根因故障网络实体,基于所述根因故障网络实体所在的目标路径,确定所述根因故障网络实体为故障根因的概率,所述目标路径为以所述根因故障网络实体为尾结点的路径;
输出所述目标网络的故障根因,所述故障根因包括所述n个异常子图谱分别对应的故障结果,所述故障结果包括所述异常子图谱中的各个根因故障网络实体以及每个所述根因故障网络实体为故障根因的概率。
11.根据权利要求10所述的方法,其特征在于,所述基于所述根因故障网络实体所在的目标路径,确定所述根因故障网络实体为故障根因的概率,包括:
确定所述根因故障网络实体所在的目标路径对应的故障传播概率;
当所述根因故障网络实体所在的目标路径的数量等于1时,将所述目标路径对应的故障传播概率作为所述根因故障网络实体为故障根因的概率;
当所述根因故障网络实体所在的目标路径的数量大于1时,将指定目标路径对应的故障传播概率作为所述根因故障网络实体为故障根因的概率,所述指定目标路径为所述根因故障网络实体所在的所有目标路径中对应的故障传播概率最小的目标路径。
12.根据权利要求11所述的方法,其特征在于,所述确定所述根因故障网络实体所在的目标路径对应的故障传播概率,包括:
获取所述目标路径上的网络实体之间的所有故障传播关系;
将目标故障传播关系对应的故障传播概率确定为所述目标路径对应的故障传播概率,所述目标故障传播关系为所述所有故障传播关系中对应的故障传播概率最小的故障传播关系。
13.根据权利要求1或2所述的方法,其特征在于,所述获取发生故障的目标网络的第一知识图谱,包括:
当所述目标网络发生故障时,获取所述目标网络中产生的异常事件;
在所述目标网络的初始知识图谱上标识出所述目标网络中产生所述异常事件的异常网络实体,得到所述第一知识图谱,所述初始知识图谱基于所述目标网络的网络数据生成,所述网络数据包括所述目标网络的组网拓扑以及所述目标网络中多个网络设备的设备信息,所述设备信息包括接口配置信息、协议配置信息和业务配置信息中的一个或多个。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
当所述目标网络发生故障时,获取所述目标网络的网络数据;
从所述网络数据中提取多个知识图谱三元组,每个所述知识图谱三元组包括两个网络实体以及所述两个网络实体之间的关系;
根据所述多个知识图谱三元组,生成所述初始知识图谱。
15.根据权利要求13所述的方法,其特征在于,所述异常事件中携带有产生所述异常事件的异常网络实体的故障发生时刻。
16.根据权利要求1或2所述的方法,其特征在于,所述异常事件包括告警日志、状态变化日志以及异常关键绩效指标中的一个或多个。
17.一种故障根因定位装置,其特征在于,所述装置包括:
第一获取模块,用于获取发生故障的目标网络的第一知识图谱,所述第一知识图谱上标识有所述目标网络中产生异常事件的异常网络实体,所述第一知识图谱上的网络实体的类型为网络设备、接口、协议或业务;
第一生成模块,用于基于所述第一知识图谱生成n个异常子图谱,每个所述异常子图谱中包括一个或多个异常网络实体,当异常子图谱中包括多个异常网络实体时,所述异常子图谱中的任一异常网络实体与所述异常子图谱中的一个或多个其它异常网络实体之间满足故障传播条件,所述n个异常子图谱中包括所述第一知识图谱上的所有异常网络实体,且任一所述异常网络实体仅属于一个异常子图谱,n为正整数;
第一确定模块,用于对所述n个异常子图谱中的一个或多个异常子图谱,确定所述异常子图谱中的根因故障网络实体。
18.根据权利要求17所述的装置,其特征在于,所述故障传播条件包括故障传播关系、故障传播时间条件以及故障传播概率条件中的一个或多个。
19.根据权利要求17或18所述的装置,其特征在于,所述第一生成模块,用于:
获取异常网络实体集合,所述异常网络实体集合中包括所述第一知识图谱上的所有异常网络实体;
重复执行子图谱生成流程直至所述异常网络实体集合为空集合,得到所述n个异常子图谱,所述子图谱生成流程包括:
从所述异常网络实体集合中选取起始异常网络实体;
对所述起始异常网络实体执行目标匹配流程,得到包括所述起始异常网络实体的一个异常子图谱;
从所述异常网络实体集合中删除所述异常子图谱中的所有异常网络实体,得到更新后的异常网络实体集合;
其中,所述目标匹配流程包括:
基于所述第一知识图谱,获取所述起始异常网络实体的所有目标最近邻异常网络实体,所述目标最近邻异常网络实体与所述起始异常网络实体之间不存在其它异常网络实体,且所述目标最近邻异常网络实体不位于所述起始异常网络实体所在的异常子图谱中,
对每个所述目标最近邻异常网络实体:
当所述目标最近邻异常网络实体与所述起始异常网络实体之间满足故障传播条件时,将所述目标最近邻异常网络实体添加到所述起始异常网络实体所在的异常子图谱中,并将所述目标最近邻异常网络实体作为新的起始异常网络实体,再次执行所述目标匹配流程,
当所述目标最近邻异常网络实体与所述起始异常网络实体之间不满足故障传播条件时,确定所述目标最近邻异常网络实体不属于所述起始异常网络实体所在的异常子图谱。
20.根据权利要求19所述的装置,其特征在于,当所述目标最近邻异常网络实体与所述起始异常网络实体为相邻的两个网络实体时,所述目标最近邻异常网络实体与所述起始异常网络实体之间满足故障传播条件,包括:
所述目标最近邻异常网络实体与所述起始异常网络实体之间具有故障传播关系,所述目标最近邻异常网络实体的故障发生时刻与所述起始异常网络实体的故障发生时刻的时间间隔小于目标时长,且所述故障传播关系对应的故障传播概率大于目标概率阈值。
21.根据权利要求19所述的装置,其特征在于,当所述目标最近邻异常网络实体与所述起始异常网络实体之间具有正常网络实体时,所述目标最近邻异常网络实体与所述起始异常网络实体之间满足故障传播条件,包括:
所述目标最近邻异常网络实体与所述正常网络实体之间具有第一故障传播关系,所述起始异常网络实体与所述正常网络实体之间具有第二故障传播关系,所述目标最近邻异常网络实体的故障发生时刻与所述起始异常网络实体的故障发生时刻的时间间隔小于目标时长,且所述第一故障传播关系对应的故障传播概率以及所述第二故障传播关系对应的故障传播概率均大于目标概率阈值。
22.根据权利要求17或18所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于在所述获取发生故障的目标网络的第一知识图谱之后,获取m个时刻对应的所述目标网络的m个第二知识图谱,所述m个时刻与所述m个第二知识图谱一一对应,所述m个时刻与所述第一知识图谱的生成时刻均不同,m为正整数;
补齐模块,用于根据所述m个第二知识图谱,补齐所述第一知识图谱中的网络实体连接关系。
23.根据权利要求22所述的装置,其特征在于,所述补齐模块,用于:
对所述第一知识图谱中的每个异常网络实体分别执行连接关系补齐流程,所述连接关系补齐流程包括:
从所述第一知识图谱中获取第一子图谱,所述第一子图谱中包括所述异常网络实体以及与所述异常网络实体具有连接关系的所有网络实体,所述连接关系包括直接连接关系和/或间接连接关系;
根据所述异常网络实体的标识,分别从各个所述第二知识图谱中获取一个第二子图谱,得到m个第二子图谱,所述第二子图谱中包括目标网络实体以及与所述目标网络实体具有所述连接关系的所有网络实体,所述目标网络实体的标识与所述异常网络实体的标识相同;
基于所述第一子图谱以及所述m个第二子图谱获取目标连接关系,所述目标连接关系满足:所述第一子图谱中不包括所述目标连接关系,且所述m个第二子图谱中存在一个或多个第二子图谱中包括所述目标连接关系;
当所述目标连接关系的置信度大于置信度阈值时,将所述目标连接关系添加到所述第一子图谱中,所述目标连接关系的置信度与所述目标连接关系在所述m个第二子图谱中的出现次数正相关。
24.根据权利要求23所述的装置,其特征在于,所述目标连接关系在所述m个第二子图谱中的出现次数为c,所述目标连接关系的置信度等于c/m,c为正整数。
25.根据权利要求17或18所述的装置,其特征在于,所述第一确定模块,用于:
计算所述异常子图谱中各个异常网络实体的出度;
将出度为0的异常网络实体确定为所述异常子图谱中的根因故障网络实体。
26.根据权利要求17或18所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于在确定所述异常子图谱中的根因故障网络实体之后,对所述异常子图谱中的每个根因故障网络实体,基于所述根因故障网络实体所在的目标路径,确定所述根因故障网络实体为故障根因的概率,所述目标路径为以所述根因故障网络实体为尾结点的路径;
输出模块,用于输出所述目标网络的故障根因,所述故障根因包括所述n个异常子图谱分别对应的故障结果,所述故障结果包括所述异常子图谱中的各个根因故障网络实体以及每个所述根因故障网络实体为故障根因的概率。
27.根据权利要求26所述的装置,其特征在于,所述第二确定模块,用于:
确定所述根因故障网络实体所在的目标路径对应的故障传播概率;
当所述根因故障网络实体所在的目标路径的数量等于1时,将所述目标路径对应的故障传播概率作为所述根因故障网络实体为故障根因的概率;
当所述根因故障网络实体所在的目标路径的数量大于1时,将指定目标路径对应的故障传播概率作为所述根因故障网络实体为故障根因的概率,所述指定目标路径为所述根因故障网络实体所在的所有目标路径中对应的故障传播概率最小的目标路径。
28.根据权利要求27所述的装置,其特征在于,所述第二确定模块,还用于:
获取所述目标路径上的网络实体之间的所有故障传播关系;
将目标故障传播关系对应的故障传播概率确定为所述目标路径对应的故障传播概率,所述目标故障传播关系为所述所有故障传播关系中对应的故障传播概率最小的故障传播关系。
29.根据权利要求17或18所述的装置,其特征在于,所述第一获取模块,用于:
当所述目标网络发生故障时,获取所述目标网络中产生的异常事件;
在所述目标网络的初始知识图谱上标识出所述目标网络中产生所述异常事件的异常网络实体,得到所述第一知识图谱,所述初始知识图谱基于所述目标网络的网络数据生成,所述网络数据包括所述目标网络的组网拓扑以及所述目标网络中多个网络设备的设备信息,所述设备信息包括接口配置信息、协议配置信息和业务配置信息中的一个或多个。
30.根据权利要求29所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于当所述目标网络发生故障时,获取所述目标网络的网络数据;
提取模块,用于从所述网络数据中提取多个知识图谱三元组,每个所述知识图谱三元组包括两个网络实体以及所述两个网络实体之间的关系;
第二生成模块,用于根据所述多个知识图谱三元组,生成所述初始知识图谱。
31.根据权利要求29所述的装置,其特征在于,所述异常事件中携带有产生所述异常事件的异常网络实体的故障发生时刻。
32.根据权利要求17或18所述的装置,其特征在于,所述异常事件包括告警日志、状态变化日志以及异常关键绩效指标中的一个或多个。
33.一种故障根因定位装置,其特征在于,包括:处理器和存储器;
所述存储器,用于存储计算机程序,所述计算机程序包括程序指令;
所述处理器,用于调用所述计算机程序,实现如权利要求1至16任一所述的故障根因定位方法。
34.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有指令,当所述指令被处理器执行时,实现如权利要求1至16任一所述的故障根因定位方法。
CN201911096747.0A 2019-11-11 2019-11-11 故障根因定位方法及装置、计算机存储介质 Active CN112787841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911096747.0A CN112787841B (zh) 2019-11-11 2019-11-11 故障根因定位方法及装置、计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911096747.0A CN112787841B (zh) 2019-11-11 2019-11-11 故障根因定位方法及装置、计算机存储介质

Publications (2)

Publication Number Publication Date
CN112787841A CN112787841A (zh) 2021-05-11
CN112787841B true CN112787841B (zh) 2022-04-05

Family

ID=75749289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911096747.0A Active CN112787841B (zh) 2019-11-11 2019-11-11 故障根因定位方法及装置、计算机存储介质

Country Status (1)

Country Link
CN (1) CN112787841B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113328872B (zh) 2020-02-29 2023-03-28 华为技术有限公司 故障修复方法、装置和存储介质
CN113032238B (zh) * 2021-05-25 2021-08-17 南昌惠联网络技术有限公司 基于应用知识图谱的实时根因分析方法
CN113098723B (zh) * 2021-06-07 2021-09-17 新华三人工智能科技有限公司 一种故障根因定位方法、装置、存储介质及设备
CN113595994B (zh) * 2021-07-12 2023-03-21 深信服科技股份有限公司 一种异常邮件检测方法、装置、电子设备及存储介质
CN113434326B (zh) * 2021-07-12 2024-05-31 国泰君安证券股份有限公司 基于分布式集群拓扑实现网络系统故障定位的方法及装置、处理器及其计算机可读存储介质
CN115883320B (zh) * 2021-09-27 2024-10-01 中国联合网络通信集团有限公司 网络设备异常分析方法、装置、电子设备及可读存储介质
CN114422325A (zh) * 2021-12-30 2022-04-29 优刻得科技股份有限公司 内容分发网络异常定位方法、装置、设备及存储介质
CN114430365B (zh) * 2022-04-06 2022-07-29 北京宝兰德软件股份有限公司 故障根因分析方法、装置、电子设备和存储介质
CN114978877B (zh) * 2022-05-13 2024-04-05 京东科技信息技术有限公司 一种异常处理方法、装置、电子设备及计算机可读介质
CN115277453B (zh) * 2022-06-13 2024-06-18 北京宝兰德软件股份有限公司 运维领域异常知识图谱的生成方法、应用方法和装置
CN115756929B (zh) * 2022-11-23 2023-06-02 北京大学 一种基于动态服务依赖图的异常根因定位方法及系统
CN116909782A (zh) * 2022-12-28 2023-10-20 中移物联网有限公司 根因分析方法、装置、电子设备及可读存储介质
CN116467468B (zh) * 2023-05-05 2024-01-05 国网浙江省电力有限公司 基于知识图谱技术的电力管理系统异常信息处置方法
CN117131445B (zh) * 2023-07-28 2024-07-23 深圳市财富趋势科技股份有限公司 一种异常交易检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522192A (zh) * 2018-10-17 2019-03-26 北京航空航天大学 一种基于知识图谱和复杂网络组合的预测方法
CN109992440A (zh) * 2019-04-02 2019-07-09 北京睿至大数据有限公司 一种基于知识图谱和机器学习的it根故障分析识别方法
CN110008288A (zh) * 2019-02-19 2019-07-12 武汉烽火技术服务有限公司 用于网络故障分析的知识图谱库的构建方法及其应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190286504A1 (en) * 2018-03-15 2019-09-19 Ca, Inc. Graph-based root cause analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522192A (zh) * 2018-10-17 2019-03-26 北京航空航天大学 一种基于知识图谱和复杂网络组合的预测方法
CN110008288A (zh) * 2019-02-19 2019-07-12 武汉烽火技术服务有限公司 用于网络故障分析的知识图谱库的构建方法及其应用
CN109992440A (zh) * 2019-04-02 2019-07-09 北京睿至大数据有限公司 一种基于知识图谱和机器学习的it根故障分析识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向故障分析的知识图谱构建技术研究;刘鑫;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20190815;全文 *

Also Published As

Publication number Publication date
CN112787841A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN112787841B (zh) 故障根因定位方法及装置、计算机存储介质
CN112887119B (zh) 故障根因确定方法及装置、计算机存储介质
WO2022083540A1 (zh) 故障恢复预案确定方法、装置及系统、计算机存储介质
CN112491636B (zh) 数据处理方法及装置、计算机存储介质
US20110093579A1 (en) Apparatus and system for estimating network configuration
CN111404822B (zh) 数据传输方法、装置、设备以及计算机可读存储介质
US7808888B2 (en) Network fault correlation in multi-route configuration scenarios
US10764214B1 (en) Error source identification in cut-through networks
CN113225194B (zh) 路由异常检测方法、装置及系统、计算机存储介质
CN113852476A (zh) 确定异常事件关联对象的方法、装置及系统
CN113868367A (zh) 构建知识图谱的方法、装置及系统、计算机存储介质
Lad et al. An algorithmic approach to identifying link failures
US20040158780A1 (en) Method and system for presenting neighbors of a device in a network via a graphical user interface
CN113190368A (zh) 实现表项检查的方法、装置及系统、计算机存储介质
US9893979B2 (en) Network topology discovery by resolving loops
CN113271216B (zh) 一种数据处理方法及相关设备
CN112468400A (zh) 一种故障定位方法、装置、设备和介质
US20230254244A1 (en) Path determining method and apparatus, and computer storage medium
US9158871B2 (en) Graph modeling systems and methods
US20160344571A1 (en) Determining Connections Between Disconnected Partial Trees
CN116248479A (zh) 网络路径探测方法、装置、设备及存储介质
Jones VULNERABILITY ANALYSIS OF THE PHYSICAL AND LOGICAL NETWORK TOPOLOGY ON THE US VIRGIN ISLANDS
CN116684262A (zh) 获取故障传播关系的方法及装置
CN114519095A (zh) 数据处理方法、装置及系统、计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant