CN108092850A - 一种基于心跳机制的集群服务器故障诊断方法与系统 - Google Patents
一种基于心跳机制的集群服务器故障诊断方法与系统 Download PDFInfo
- Publication number
- CN108092850A CN108092850A CN201711318289.1A CN201711318289A CN108092850A CN 108092850 A CN108092850 A CN 108092850A CN 201711318289 A CN201711318289 A CN 201711318289A CN 108092850 A CN108092850 A CN 108092850A
- Authority
- CN
- China
- Prior art keywords
- mtd
- node
- msub
- test
- mrow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0659—Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0817—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/104—Peer-to-peer [P2P] networks
- H04L67/1044—Group management mechanisms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/104—Peer-to-peer [P2P] networks
- H04L67/1044—Group management mechanisms
- H04L67/1048—Departure or maintenance mechanisms
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Environmental & Geological Engineering (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
本发明提供一种基于心跳机制的集群服务器故障诊断方法与系统,所述方法包括:对本节点进行故障诊断获取本节点的测试向量;向其他节点发送本节点的测试向量;接收来自其他节点的测试向量;形成测试矩阵,根据所述测试矩阵判定节点间通信是否异常。本发明利用心跳机制,在节点之间相互发送测试信息进行测试,每个节点侦测其他节点传送的心跳信号,通过自身节点的测试向量以及其他各节点发送的测试向量组成测试矩阵,并利用系统级故障诊断模块对测试矩阵进行故障节点判别,定位到故障节点,从而形成分布式诊断,适用于集群服务器的故障诊断,不需要额外的设备就可以实现故障诊断,节约了人力以及时间成本。
Description
技术领域
本发明涉及高性能服务器领域,特别是一种基于心跳机制的集群服务器故障诊断方法与系统。
背景技术
集群服务器(cluster server),将多个系统连到一起,使多台服务器能够像一台机器一样工作,换言之,就是一组相互独立的服务器在网络中表现为单一的系统,并以单一系统的模式加以管理。通常,一个服务器集群包含多台拥有共享数据存储空间的服务器,各服务器之间通过内部局域网相互通信。
现今随着科技的发展和进步,集群服务器的应用领域越来越广泛,目前已经应用于银行、军事、航天和气象服务等领域,且用来处理关键业务,如若发生系统数据丢失或者异常停机,都会对业务系统造成非常严重的后果。由于集群系统中服务器节点数量众多,当集群系统中的一个或多个节点发生故障时,计算机集群系统的计算速度通常会受到影响,甚至导致集群系统中所有节点都无法正常使用,因此对集群服务器的可靠性提出了很高的要求。
由于集群服务器中发生的故障,通常都是维护人员利用额外的设备进行逐台服务器进行故障检测,耗费大量的人力物力,且时间成本巨大。
发明内容
本发明的目的是提供一种基于心跳机制的集群服务器故障诊断方法与系统,旨在解决现有现有集群服务器故障检测中人工以及时间成本巨大,且需要借助额外工具的问题,实现不需要额外工具即可进行自动化检测,降低了人工以及时间成本。
为达到上述技术目的,本发明提供了一种基于心跳机制的集群服务器故障诊断方法,包括以下步骤:
对本节点进行故障诊断获取本节点的测试向量;
向其他节点发送本节点的测试向量;
接收来自其他节点的测试向量;
形成测试矩阵,根据所述测试矩阵判定节点间通信是否异常。
优选地,所述测试矩阵为:
σij,i={0,1,2,…,n-1},j={0,1,2,…,n-1},为节点i到节点j的测试结果,当测试结果为0时,表示通信正常;测试结果为1时,则通信异常。
优选地,所述方法还包括对故障节点进行定位,具体为:
将测试矩阵进行转置后与转置前的测试矩阵进行逻辑或,获得诊断矩阵;
对诊断矩阵利用判别法则进行判别,对故障节点进行定位。
优选地,所述判别法则为:
1)如果σii=1,将节点i加入集合FS;
2)如果σij=0,将节点j加入集合FS;
3)如果σij=1,将节点i加入集合FS;
其中S为所有节点集合,NS为正常节点集合,FS为故障节点集合,S-NS-FS为需要进行判别的节点,S-FS为除故障节点以外的节点集合。
优选地,所述方法还包括:对筛选出的故障节点进行隔离并离线修复。
本发明还提供了一种基于心跳机制的集群服务器故障诊断系统,包括:
单机故障诊断模块,用于对当前节点进行故障诊断;
心跳模块,用于获取本节点的测试向量以及来自其他节点的测试向量,形成测试矩阵;
系统级故障诊断模块,用于将测试矩阵进行转置后与转置前的测试矩阵进行逻辑或,获得诊断矩阵,并对诊断矩阵利用判别法则进行判别,对故障节点进行定位。
优选地,所述测试矩阵为:
σij,i={0,1,2,…,n-1},j={0,1,2,…,n-1},为节点i到节点j的测试结果,当测试结果为0时,表示通信正常;测试结果为1时,则通信异常。
优选地,所述判别法则为:
1)如果σii=1,将节点i加入集合FS;
2)如果σij=0,将节点j加入集合FS;
3)如果σij=1,将节点i加入集合FS;
其中S为所有节点集合,NS为正常节点集合,FS为故障节点集合,S-NS-FS为需要进行判别的节点,S-FS为除故障节点以外的节点集合。
优选地,所述单机故障诊断模块包括:
硬件故障诊断单元,用于诊断硬件模块状态;
软件故障诊断单元,用于诊断系统运行状态。
优选地,所述系统还包括:
修复模块,用于对筛选出的故障节点进行隔离并离线修复。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
与现有技术相比,本发明利用心跳机制,在节点之间相互发送测试信息进行测试,每个节点侦测其他节点传送的心跳信号,通过自身节点的测试向量以及其他各节点发送的测试向量组成测试矩阵,实现基于心跳机制的自动故障检测。
并利用系统级故障诊断模块对测试矩阵进行故障节点判别,定位到故障节点,从而形成分布式诊断,适用于集群服务器的故障诊断,且由于采用心跳机制检测,不需要额外的设备就可以实现故障诊断,节约了人力以及时间成本。
附图说明
图1为本发明实施例中所提供的一种基于心跳机制的集群服务器故障诊断方法流程图;
图2为本发明实施例中所提供的一种基于心跳机制的集群服务器故障诊断系统结构框图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
下面结合附图对本发明实施例所提供的一种基于心跳机制的集群服务器故障诊断方法与系统进行详细说明。
如图1所示,本发明实施例公开了一种基于心跳机制的集群服务器故障诊断方法,下述为该方法的详细阐述。
建立测试模型。
利用每个节点自身的单机故障诊断模块对该节点进行故障诊断,所述故障诊断包括硬件故障诊断和软件故障诊断,所述硬件故障诊断包括对硬件模块状态的诊断,所述软件故障诊断包括对系统运行状态的诊断。
利用心跳模块周期性的给其他节点发送本节点的诊断测试结果,即测试向量,并接收来自其他节点的诊断测试结果,将本节点的测试向量和所获得的测试向量形成一个测试矩阵,并利用测试诊断规则对测试矩阵进行分析,判定节点间通信是否异常。
单机故障诊断模块当没有发现故障时,其所在节点的心跳模块发送到其他节点的信号为正常信号;单机故障诊断模块当发现故障时,其所在节点的心跳模块发送到其他节点的信号为节点故障信号;而当本节点死机或系统发生崩溃时,其所在节点的心跳模块无信号发送。
所述测试矩阵如下:
上述矩阵的每一行的元素都代表某个节点对其他节点的测试结果,如第i行的元素分别代表节点i对节点0到节点n-1的测试结果,例如σij为节点i到节点j的测试结果,当测试结果为0时,表示通信正常;测试结果为1时,则通信异常。
心跳模块将上述测试矩阵发送至系统级故障诊断模块进行系统级的故障诊断,通过运算进行故障节点的定位,然后由故障处理模块进行处理。
系统级故障诊断模块将上述测试矩阵进行转置,再与转置前的测试矩阵进行逻辑或,得到诊断矩阵:
Z新=ZT||Z
Z新为诊断矩阵,ZT为测试矩阵的转置,Z为转置前的测试矩阵。诊断矩阵{σij},i={0,1,2,…,n-1},j={0,1,2,…,n-1};σij为1时,则表示节点i到节点j之间通信异常,则节点i或节点j为故障节点,或者两者均为故障节点。
并根据下述规则进行故障节点的定位:
1)如果σii=1,将节点i加入集合FS;
2)如果σij=0,将节点j加入集合FS;
3)如果σij=1,将节点i加入集合FS;
其中S为所有节点集合,NS为正常节点集合,FS为故障节点集合,S-NS-FS为需要进行判别的节点,S-FS为除故障节点以外的节点集合。
利用上述诊断规则对诊断矩阵进行判别,最后属于FS集合的节点为故障加点,需要对其进行隔离,并离线修复,属于NS集合的节点为正常节点。
本发明实施例利用心跳机制,在节点之间相互发送测试信息进行测试,每个节点侦测其他节点传送的心跳信号,通过自身节点的测试向量以及其他各节点发送的测试向量组成测试矩阵,实现基于心跳机制的自动故障检测。
并利用系统级故障诊断模块对测试矩阵进行故障节点判别,定位到故障节点,从而形成分布式诊断,适用于集群服务器的故障诊断,且由于采用心跳机制检测,不需要额外的设备就可以实现故障诊断,节约了人力以及时间成本。
如图2所示,本发明实施例还公开了一种基于心跳机制的集群服务器故障诊断系统,包括:
单机故障诊断模块,用于对当前节点进行故障诊断;
所述单机故障诊断模块包括:
硬件故障诊断单元,用于诊断硬件模块状态;
软件故障诊断单元,用于诊断系统运行状态。
心跳模块,用于获取本节点的测试向量以及来自其他节点的测试向量,形成测试矩阵;所述测试矩阵为:
σij,i={0,1,2,…,n-1},j={0,1,2,…,n-1},为节点i到节点j的测试结果,当测试结果为0时,表示通信正常;测试结果为1时,则通信异常。
系统级故障诊断模块,用于将测试矩阵进行转置后与转置前的测试矩阵进行逻辑或,获得诊断矩阵,并对诊断矩阵利用判别法则进行判别,对故障节点进行定位。
系统级故障诊断模块将上述测试矩阵进行转置,再与转置前的测试矩阵进行逻辑或,得到诊断矩阵:
Z新=ZT||Z
Z新为诊断矩阵,ZT为测试矩阵的转置,Z为转置前的测试矩阵。诊断矩阵{σij},i={0,1,2,…,n-1},j={0,1,2,…,n-1};σij为1时,则表示节点i到节点j之间通信异常,则节点i或节点j为故障节点,或者两者均为故障节点。
所述判别法则为:
1)如果σii=1,将节点i加入集合FS;
2)如果σij=0,将节点j加入集合FS;
3)如果σij=1,将节点i加入集合FS;
其中S为所有节点集合,NS为正常节点集合,FS为故障节点集合,S-NS-FS为需要进行判别的节点,S-FS为除故障节点以外的节点集合。
所述系统还包括修复模块,用于对筛选出的故障节点进行隔离并离线修复。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于心跳机制的集群服务器故障诊断方法,其特征在于,包括以下步骤:
对本节点进行故障诊断获取本节点的测试向量;
向其他节点发送本节点的测试向量;
接收来自其他节点的测试向量;
形成测试矩阵,根据所述测试矩阵判定节点间通信是否异常。
2.根据权利要求1所述的一种基于心跳机制的集群服务器故障诊断方法,其特征在于,所述测试矩阵为:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<msub>
<mi>&sigma;</mi>
<mn>00</mn>
</msub>
</mtd>
<mtd>
<msub>
<mi>&sigma;</mi>
<mn>01</mn>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>&sigma;</mi>
<mrow>
<mn>0</mn>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>&sigma;</mi>
<mn>10</mn>
</msub>
</mtd>
<mtd>
<msub>
<mi>&sigma;</mi>
<mn>11</mn>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>&sigma;</mi>
<mn>00</mn>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mrow></mrow>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>10</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>11</mn>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
</mtr>
</mtable>
</mfenced>
σij,i={0,1,2,...,n-1},j={0,1,2,...,n-1},为节点i到节点j的测试结果,当测试结果为0时,表示通信正常;测试结果为1时,则通信异常。
3.根据权利要求1所述的一种基于心跳机制的集群服务器故障诊断方法,其特征在于,所述方法还包括对故障节点进行定位,具体为:
将测试矩阵进行转置后与转置前的测试矩阵进行逻辑或,获得诊断矩阵;
对诊断矩阵利用判别法则进行判别,对故障节点进行定位。
4.根据权利要求3所述的一种基于心跳机制的集群服务器故障诊断方法,其特征在于,所述判别法则为:
1)如果σii=1,将节点i加入集合FS;
2)如果σij=0,将节点j加入集合FS;
3)如果σij=1,将节点i加入集合FS;
其中S为所有节点集合,NS为正常节点集合,FS为故障节点集合,S-NS-FS为需要进行判别的节点,S-FS为除故障节点以外的节点集合。
5.根据权利要求3或4所述的一种基于心跳机制的集群服务器故障诊断方法,其特征在于,所述方法还包括:对筛选出的故障节点进行隔离并离线修复。
6.一种基于心跳机制的集群服务器故障诊断系统,其特征在于,包括:
单机故障诊断模块,用于对当前节点进行故障诊断;
心跳模块,用于获取本节点的测试向量以及来自其他节点的测试向量,形成测试矩阵;
系统级故障诊断模块,用于将测试矩阵进行转置后与转置前的测试矩阵进行逻辑或,获得诊断矩阵,并对诊断矩阵利用判别法则进行判别,对故障节点进行定位。
7.根据权利要求6所述的一种基于心跳机制的集群服务器故障诊断系统,其特征在于,所述测试矩阵为:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<msub>
<mi>&sigma;</mi>
<mn>00</mn>
</msub>
</mtd>
<mtd>
<msub>
<mi>&sigma;</mi>
<mn>01</mn>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>&sigma;</mi>
<mrow>
<mn>0</mn>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>&sigma;</mi>
<mn>10</mn>
</msub>
</mtd>
<mtd>
<msub>
<mi>&sigma;</mi>
<mn>11</mn>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>&sigma;</mi>
<mn>00</mn>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mrow></mrow>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>10</mn>
</mrow>
</msub>
</mtd>
<mtd>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>11</mn>
</mrow>
</msub>
</mtd>
<mtd>
<mn>...</mn>
</mtd>
<mtd>
<msub>
<mi>&sigma;</mi>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mtd>
</mtr>
</mtable>
</mfenced>
σij,i={0,1,2,...,n-1},j={0,1,2,...,n-1},为节点i到节点j的测试结果,当测试结果为0时,表示通信正常;测试结果为1时,则通信异常。
8.根据权利要求6所述的一种基于心跳机制的集群服务器故障诊断系统,其特征在于,所述判别法则为:
1)如果σii=1,将节点i加入集合FS;
2)如果σij=0,将节点j加入集合FS;
3)如果σij=1,将节点i加入集合FS;
其中S为所有节点集合,NS为正常节点集合,FS为故障节点集合,S-NS-FS为需要进行判别的节点,S-FS为除故障节点以外的节点集合。
9.根据权利要求6所述的一种基于心跳机制的集群服务器故障诊断系统,其特征在于,所述单机故障诊断模块包括:
硬件故障诊断单元,用于诊断硬件模块状态;
软件故障诊断单元,用于诊断系统运行状态。
10.根据权利要求6-9任意一项所述的一种基于心跳机制的集群服务器故障诊断系统,其特征在于,所述系统还包括:
修复模块,用于对筛选出的故障节点进行隔离并离线修复。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711318289.1A CN108092850A (zh) | 2017-12-12 | 2017-12-12 | 一种基于心跳机制的集群服务器故障诊断方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711318289.1A CN108092850A (zh) | 2017-12-12 | 2017-12-12 | 一种基于心跳机制的集群服务器故障诊断方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108092850A true CN108092850A (zh) | 2018-05-29 |
Family
ID=62175222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711318289.1A Pending CN108092850A (zh) | 2017-12-12 | 2017-12-12 | 一种基于心跳机制的集群服务器故障诊断方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108092850A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959024A (zh) * | 2018-06-26 | 2018-12-07 | 郑州云海信息技术有限公司 | 一种集群监控方法和装置 |
CN109800160A (zh) * | 2018-12-27 | 2019-05-24 | 深圳云天励飞技术有限公司 | 机器学习系统中的集群服务器故障测试方法和相关装置 |
CN111682976A (zh) * | 2020-04-26 | 2020-09-18 | 合肥中科类脑智能技术有限公司 | 一种保证分布式多机通信监控的方法 |
CN113377627A (zh) * | 2021-06-10 | 2021-09-10 | 广州朗国电子科技有限公司 | 一种业务服务器异常检测方法、系统、设备、存储介质 |
CN115102962A (zh) * | 2022-06-22 | 2022-09-23 | 青岛中科曙光科技服务有限公司 | 集群管理方法、装置、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1286405A (zh) * | 1999-11-20 | 2001-03-07 | 深圳市中兴通讯股份有限公司 | 对配电网故障进行定位的方法 |
CN102565682A (zh) * | 2010-12-14 | 2012-07-11 | 苏州工业园区谱芯科技有限公司 | 一种基于二分法的故障测试向量的定位方法 |
CN102818948A (zh) * | 2012-07-16 | 2012-12-12 | 北京航空航天大学 | 基于模糊故障诊断和相关性模型诊断的dr合成诊断方法 |
CN106291328A (zh) * | 2016-08-26 | 2017-01-04 | 北京空间飞行器总体设计部 | 一种航天器开关矩阵故障检测及定位装置 |
CN106594000A (zh) * | 2016-12-15 | 2017-04-26 | 中国航空工业集团公司北京长城航空测控技术研究所 | 一种电液伺服阀故障诊断方法 |
-
2017
- 2017-12-12 CN CN201711318289.1A patent/CN108092850A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1286405A (zh) * | 1999-11-20 | 2001-03-07 | 深圳市中兴通讯股份有限公司 | 对配电网故障进行定位的方法 |
CN102565682A (zh) * | 2010-12-14 | 2012-07-11 | 苏州工业园区谱芯科技有限公司 | 一种基于二分法的故障测试向量的定位方法 |
CN102818948A (zh) * | 2012-07-16 | 2012-12-12 | 北京航空航天大学 | 基于模糊故障诊断和相关性模型诊断的dr合成诊断方法 |
CN106291328A (zh) * | 2016-08-26 | 2017-01-04 | 北京空间飞行器总体设计部 | 一种航天器开关矩阵故障检测及定位装置 |
CN106594000A (zh) * | 2016-12-15 | 2017-04-26 | 中国航空工业集团公司北京长城航空测控技术研究所 | 一种电液伺服阀故障诊断方法 |
Non-Patent Citations (1)
Title |
---|
左德承,杨孝宗,高巍: "基于非完备性测试的一种分布式计算机系统诊断算法的设计", 《计算机工程与应用》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959024A (zh) * | 2018-06-26 | 2018-12-07 | 郑州云海信息技术有限公司 | 一种集群监控方法和装置 |
CN109800160A (zh) * | 2018-12-27 | 2019-05-24 | 深圳云天励飞技术有限公司 | 机器学习系统中的集群服务器故障测试方法和相关装置 |
CN111682976A (zh) * | 2020-04-26 | 2020-09-18 | 合肥中科类脑智能技术有限公司 | 一种保证分布式多机通信监控的方法 |
CN111682976B (zh) * | 2020-04-26 | 2022-03-01 | 合肥中科类脑智能技术有限公司 | 一种保证分布式多机通信监控的方法 |
CN113377627A (zh) * | 2021-06-10 | 2021-09-10 | 广州朗国电子科技有限公司 | 一种业务服务器异常检测方法、系统、设备、存储介质 |
CN113377627B (zh) * | 2021-06-10 | 2023-12-05 | 广州朗国电子科技股份有限公司 | 一种业务服务器异常检测方法、系统、设备、存储介质 |
CN115102962A (zh) * | 2022-06-22 | 2022-09-23 | 青岛中科曙光科技服务有限公司 | 集群管理方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108092850A (zh) | 一种基于心跳机制的集群服务器故障诊断方法与系统 | |
CN103746884B (zh) | 一种利用交换机进行流量测试的方法及系统 | |
CN107315892A (zh) | 一种基于极限学习机的轴承故障诊断方法 | |
Huang et al. | Active fault tolerant control systems by the semi‐Markov model approach | |
US20110185229A1 (en) | Fault diagnosis employing probabilistic models and statistical learning | |
CN107168842A (zh) | 基于pmc模型的自适应顺序故障诊断方法 | |
CN109120522A (zh) | 一种多路径状态监测方法及装置 | |
Zeng et al. | A reliability modeling method for the system subject to common cause failures and competing failures | |
CN111027721B (zh) | 一种系统故障定位方法 | |
US10861259B2 (en) | Method for testing the integrity of the avionics of an aircraft, associated device and computer program product | |
Wang et al. | Detecting causal structure on cloud application microservices using Granger causality models | |
CN111342989A (zh) | 一种基于串行总线的通用飞参系统及其实现方法 | |
CN107544830A (zh) | 一种自动安装数据库的方法及装置 | |
CN111181796B (zh) | 一种基于能动器的区块链共识协议测试方法及系统 | |
CN109889258B (zh) | 一种光网络故障校验方法和设备 | |
Liang et al. | Intermittent fault diagnosability of interconnection networks | |
Zhang et al. | On g-extra conditional diagnosability of twisted hypercubes under MM∗ model | |
US20080168161A1 (en) | Systems and methods for managing faults within a high speed network employing wide ports | |
CN110018377A (zh) | 一种arinc664p7终端设备的故障检测分析系统 | |
CN104468196B (zh) | 基于证据筛选的虚拟网络故障诊断方法及装置 | |
US12093244B1 (en) | Disturbed systems impact evaluation and operation test generation | |
Deb et al. | Towards systems level prognostics in the cloud | |
Kenning et al. | Locating Datacenter Link Faults with a Directed Graph Convolutional Neural Network. | |
CN112162889B (zh) | 一种分布式控制系统信息错误快速定位方法、装置及可读存储介质 | |
Hao et al. | Design and realization of IMA/DIMA system management based on avionics switched network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180529 |
|
RJ01 | Rejection of invention patent application after publication |