CN106330475B

CN106330475B - 一种通信系统中管理主备节点的方法和装置及高可用集群

Info

Publication number: CN106330475B
Application number: CN201510331124.2A
Authority: CN
Inventors: 白涛; 陈河堆
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2015-06-15
Filing date: 2015-06-15
Publication date: 2020-12-04
Anticipated expiration: 2035-06-15
Also published as: CN106330475A; WO2016202051A1

Abstract

本发明提供一种通信系统中管理主备节点的方法和装置及高可用集群；所述方法，包括：备用节点检测主用节点是否正常工作；在检测到所述主用节点未正常工作后，所述备用节点触发主备切换操作的执行。

Description

一种通信系统中管理主备节点的方法和装置及高可用集群

技术领域

本发明涉及通信领域，尤其涉及一种通信系统中管理主备节点的方法和装置及高可用集群。

背景技术

在大型商用软件系统中，为保证运行的稳定性，通常要求不能由于一台服务器的失效，导致整个服务中断，即应避免单点故障。典型地，通常由主备两台服务器组成一个集群，正常情况下由主用服务器对外提供服务，当主用服务器故障时，由从服务器接管并继续对外提供服务。主备用服务器之间的故障检测与接管过程是一个技术难点。目前典型的方法需要借助第三方仲裁来实现，即主备用服务器都定期向仲裁者报告自身状态，由仲裁者来判断是否达到了条件来触发故障接管过程。但是在实际应用中，如果仲裁者本身发生故障出现失效的情况，即不能正常完成故障接管。因此目前亟需一种新的主备管理机制对主备服务器进行管理。

发明内容

本发明提供一种通信系统中管理主备节点的方法和装置及高可用集群，要解决的问题是提供一种新的主备切换的管理方式。

为解决上述技术问题，本发明提供了如下技术方案：

一种通信系统中管理主备节点的方法，包括：

备用节点检测主用节点是否正常工作；

在检测到所述主用节点未正常工作后，所述备用节点触发主备切换操作的执行。

其中，所述备用节点检测主用节点是否正常工作，包括：

通过主用节点和备用节点之间的链路，所述备用节点检测是否能收到来自所述主用节点的心跳消息；

如果通过所述链路未收到来自所述主用节点的心跳消息，则确定所述主用节点发生故障。

其中，所述备用节点控制本地是否执行主备切换操作，包括：

在检测到所述主用节点未正常工作后，在执行主备切换操作之前，所述备用节点在预先设置的等待时间内，继续检测主用节点是否正常工作；

如果在所述等待时间内所述主用节点未恢复正常工作，则所述备用节点执行主备切换操作。

其中，所述方法还包括：

如果在所述等待时间内所述主用节点恢复正常工作，则所述备用节点将已接收的业务请求转发给所述主用节点。

其中，所述方法还包括：

所述备用节点在所述等待时间内，如果接收到客户端发送的业务请求，则所述备用节点向所述客户端发送与所述业务请求对应的业务响应，其中所述业务响应包括用于处理所述业务请求的服务当前不可用的信息。

一种通信系统中管理主备节点的装置，包括：

检测模块，用于检测主用节点是否正常工作；

控制模块，用于在检测到所述主用节点未正常工作后，触发主备切换操作的执行。

其中，所述检测模块包括：

第一检测单元，用于通过主用节点和备用节点之间的链路，检测是否能收到来自所述主用节点的心跳消息；

确定单元，用于如果通过所述链路未收到来自所述主用节点的心跳消息，则确定所述主用节点发生故障。

其中，所述控制模块包括：

第二检测单元，用于在检测到所述主用节点未正常工作后，在执行主备切换操作之前，在预先设置的等待时间内，继续检测通过主用节点是否正常工作；

切换模块，用于如果在所述等待时间内所述主用节点未恢复正常工作，则执行主备切换操作。

其中，所述控制模块还包括：

第一发送单元，用于如果在所述等待时间内所述主用节点恢复正常工作，则将已接收的业务请求转发给所述主用节点。

其中，所述装置还包括：

第二发送单元，用于在所述等待时间内，如果接收到客户端发送的业务请求，则向所述客户端发送与所述业务请求对应的业务响应，其中所述业务响应包括用于处理所述业务请求的服务当前不可用的信息。

一种高可用集群，包括第一节点和上文任一所述装置的第二节点。

其中，所述第一节点还用于在第二节点发生主备切换成为主用节点后，如果所述第一节点恢复工作，则通知所述第二节点发起状态切换请求，并在接收到所述第二节点的同意消息后，执行所述第一节点成为主用节点的操作。

本发明提供的实施例，在不依赖于第三方仲裁的情况下由备用节点完成主备节点之间的故障检测与接管，提供了新的主备切换的管理方式，实现对外提供高可用服务的目的。

附图说明

图1为本发明提供的通信系统中管理主备节点的方法的流程图；

图2为本发明提供的客户端在实现主备节点的管理方法中的方法的流程图；

图3为本发明提供的主用服务器在实现主备节点的管理方法中的方法的流程图；

图4为本发明提供的备用服务器在实现主备节点的管理方法中的方法的流程图；

图5为本发明提供的通信系统中管理主备节点的装置的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步的详细描述。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

图1为本发明提供的通信系统中管理主备节点的方法的流程图。图1所示方法包括：

步骤101、备用节点检测主用节点是否正常工作；

步骤102、在检测所述主用节点未正常工作后，所述备用节点触发主备切换操作的执行。

本发明提供的方法实施例，在不依赖于第三方仲裁的情况下由备用节点完成主备节点之间的故障检测与接管，提供了新的主备切换的管理方式，实现对外提供高可用服务的目的。

下面对本发明提供的方法实施例作进一步说明：

在启动主用节点和备用节点后，他们的初始服务状态均为非活跃状态，都不能对外提供服务。主用节点可以先主动向备用节点发起连接请求，在链路建立成功后，主用节点发送状态切换请求消息，消息中指出主用节点请求切换为活跃状态，此时备用节点因为也处于非活跃状态，认为主用节点此时可以立即切换为活跃状态，回复响应同意切换，主用节点收到响应后将自身服务状态置为活跃状态，开始对外提供服务。

其中，所述备用节点检测主用节点是否正常工作，包括：

其中，来自所述主用节点的消息可以是主用节点主动发送的，也可以是对备用节点发送的消息的响应消息。

由上可以看出，借助主备节点之间的链接来检测主用节点是否正常工作，实现简单方便。

在检测到所述主用节点未正常工作后，在执行主备切换操作之前，所述备用节点在预先设置的等待时间内，继续检测通过主用节点是否正常工作；

在实际应用中，由于节点在工作过程中极有可能发生短时的故障，如果该故障能够很快的解决，就不需要发起主备切换，避免引起业务处理的迁移，延迟业务的处理进度，因此通过设置一个等待时间，为主用节点解决自身故障提供了一段时间，从而降低业务处理的迁移的可能性，保证数据处理的进度，提高系统的稳定性。

当然，如果在所述等待时间内所述主用节点恢复正常工作，则所述备用节点将已接收的业务请求转发给所述主用节点。

另外，所述备用节点在所述等待时间内，如果接收到客户端发送的业务请求，则所述备用节点向所述客户端发送与所述业务请求对应的业务响应，其中所述业务响应包括用于处理所述业务请求的服务当前不可用的信息。

通过告知发起业务请求的客户端当前业务不可用，方便客户端获知节点的处理能力，为客户端后续的操作提供依据。

下面以节点为服务器为例进行说明：

在对本发明提供的方法进行说明前，首先对本发明的方法的应用场景作以简单说明：

一种网络通信系统，包括：一台主用服务器，一台备用服务器，一个或多个客户端，其中客户端与主备用服务器之间分别存在一条通信链路，主用服务器与备用服务器之间存在一条通信链路。主用服务器通过一个物理网络接口对外通信，其中主用服务器对外通信具体包括与备用服务器和其它一个或多个客户端的通信，其中主用服务器具有唯一的IP地址；备用服务器通过一个物理网络接口对外通信，其中备用服务器对外通信具体包括与主用服务器和其它一个或多个客户端的通信，备用服务器也具有唯一的IP地址，且不同于主用服务器的IP地址。因此如果是主用服务器故障离线时，其与备用服务器和所有客户端的通信链接将会断开。如果是备用服务器故障离线时，其与主用服务器和所有客户端的通信链接将会断开。

图2至图4为依次客户端、主用服务器和备用服务器在实现主备节点的管理方法中的方法的流程图。其中图2至图4的说明，具体如下：

主备用服务器之间的故障检测与接管依赖于对于当前对外链接数量的计算及与对端服务器链路是否存在的判断。

链路映射表：用于保存当前主机的所有外部通信链接信息，其中key值可使用能唯一标识通信对端的识别标志，如对端的IP地址+端口，value值为最近一次收到心跳或心跳响应消息的时间。

链路数量的计算：

通信中由通信客户端定时发送心跳消息给通信服务端，而后通信服务端回复心跳响应消息给通信客户端。通信服务端收到心跳消息后即认为一条链路已经建立，在链路映射表中增加一条记录，通信服务端链路数量增加1。与此同时，通信客户端收到心跳响应消息后也认为一条链路已经建立成功，在链路映射表中增加一条记录，通信客户端链路数量增加1。

如果链路已经中断，则通信服务端收不到来自同一通信客户端的心跳消息，在超过一定时间(时间可配置)后，通信服务端认为该链路已经断开，将该记录从其链路映射表中移除，服务端链路数量减少1。同样地，通信客户端收不到来自通信服务端的心跳响应消息，在超过一定时间(时间可配置)后，通信客户端认为该链路已经断开，将该记录从其链路映射表中移除，通信客户端链路数量减少1。

为方便说明：为方案涉及到的三种角色，客户端，主用服务器，备用服务器分别设置下列参数：

1.客户端：

与主用服务器通信链路是否正常(查找链路映射表是否有对应主用服务器的记录)

与备用服务器通信链路是否正常(查找链路映射表是否有对应备用服务器的记录)

2.主用服务器:

链接数量(链路映射表当前记录的数量)

服务状态(活跃或非活跃)

3.备用服务器:

链接数量(链路映射表当前记录的数量)

服务状态(活跃或非活跃)

客户端会向主(备)服务器发送业务请求消息，主(备)服务器会返回响应消息。

主用服务器会向备用服务器发送状态切换请求消息，备用服务器会返回响应消息。

上述两种响应消息格式中应包括错误码，如响应消息格式为:错误码+响应消息内容，错误码主要用于判断请求操作是否被成功处理，该请求是否需要被重新发送。

主用服务器和备用服务器之间的通信约定由一方作为通信客户端主动向对方发起连接请求，我们假定由主用服务器主动向备用服务器发起连接请求，主用服务器和备用服务器之间只有一条通信链路。

步骤一:分别启动主用服务器和备用服务器，他们的初始服务状态均为非活跃状态，都不能对外提供服务。主用服务器先主动向备用服务器发起连接请求，在链路建立成功后，主用服务器发送状态切换请求消息，消息中指出主用服务器请求切换为活跃状态，此时备用服务器因为也处于非活跃状态，认为主用服务器此时可以立即切换为活跃状态，回复响应同意切换，主用服务器收到响应后将自身服务状态置为活跃状态，开始对外提供服务。

步骤二:客户端向主或备用服务器发送具体业务消息，并接收响应消息，响应消息中会包括一个错误码，该错误码用于标识该请求消息是否真正得到了处理。

客户端访问时基于以下原则，如果与主用服务器的链路正常，则将请求消息向主用服务器发送，反之则向备用服务器发送。当主或备用服务器收到客户端请求时，如果服务状态为非活跃状态，则向客户端回复服务不可用错误码。除非客户端与主备用服务器的链路都断开，否则客户端需要不断重试发送请求消息，直至收到其它错误码时，则表示请求消息已经被成功处理，可从响应消息中解析具体业务请求的处理结果。可将重试相关逻辑封装到一个API中供上层应用调用，上层应用无须关心重试等通信细节。

步骤三:如果主用服务器故障离线，它与客户端和备用服务器的链路将会断开。备用服务器检测到主用服务器的链路断开后，立即设定一个等待时间(可配置)，等待与主用服务器的链路恢复，如果在这个时间内，链路恢复，则会重新收到主用服务器的状态切换请求消息，直接回复同意，整个系统恢复到原样。但如果超过了这个时间，与主用服务器的链路仍未恢复，则备用服务器将自身状态置为活跃状态，完成故障接管。在这个过程中，客户端初始检测到主用服务器的链路不可用，只能将请求发送给备用服务器，备用服务器在状态切换为活跃之前，会一直回复给客户端服务不可用错误码，切换为活跃状态之后，处理完业务请求后回复响应，响应中包含其它错误码(非服务不可用)。如果主用服务器在这期间恢复，则客户端转而向其发送请求，直到收到包括非服务不可用错误码的响应消息。

步骤四:如果主用服务器故障离线，备用服务器已经实现接管切换为活跃状态。此时如果主用服务器修复后重新上线，主用服务器会向备用服务器发送状态切换请求消息，此时备用服务器置为非活跃状态，但此时可能正在处理客户端的业务请求，需要等待现有请求处理完成，所以不能立即同意其切换请求，回复不同意，这时如果有新的业务请求发送到备用服务器，备用服务器回复服务不可用。直到所有当前的业务请求处理完毕后，回复主用服务器同意其状态切换请求。主用服务器初始在收到备用服务器不同意其状态切换的响应时，会不断重发状态切换请求消息，直至收到备用服务器的同意响应为止。客户端在这个过程中新增业务请求需要向主用服务器发送，如果收到错误码为服务不可用时需要重试，直到收到包含其它错误码的响应。

图5为本发明提供的种通信系统中管理主备节点的装置的结构图。图5所示装置包括：

检测模块501，用于检测主用节点是否正常工作；

控制模块502，用于在检测所述主用节点未正常工作后，触发主备切换操作的执行。

其中，所述检测模块501包括：

第一检测单元，用于通过主用节点和备用节点之间的链路，检测是否能收到来自所述主用节点的消息；

确定单元，用于如果通过所述链路未收到来自所述主用节点的消息，则确定所述主用节点发生故障。

其中，所述控制模块502包括：

其中，所述控制模块502还包括：

本发明提供的装置实施例，在不依赖于第三方仲裁的情况下由备用节点完成主备节点之间的故障检测与接管，提供了新的主备切换的管理方式，实现对外提供高可用服务的目的。

另外，本发明提供一种高可用集群，包括第一节点和包括图5所示装置的第二节点。

本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现，所述计算机程序可以存储于一计算机可读存储介质中，所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行，在执行时，包括方法实施例的步骤之一或其组合。

可选地，上述实施例的全部或部分步骤也可以使用集成电路来实现，这些步骤可以被分别制作成一个个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现，它们可以集中在单个的计算装置上，也可以分布在多个计算装置所组成的网络上。

上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求所述的保护范围为准。

Claims

1.一种通信系统中管理主备节点的方法，其特征在于，包括：

备用节点启动后与主用节点建立链路，并接收所述主用节点发送的状态切换请求消息；

所述备用节点确定自身当前处于非活跃状态后向所述主用节点发送表征同意切换的响应消息以指示所述主用节点切换至活跃状态，所述非活跃状态为不能对外提供服务的状态，所述活跃状态为能对外提供服务的状态；

备用节点检测主用节点是否正常工作；

2.根据权利要求1所述的方法，其特征在于，所述备用节点检测主用节点是否正常工作，包括：

3.根据权利要求1所述的方法，其特征在于，所述备用节点控制本地是否执行主备切换操作，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

6.一种通信系统中管理主备节点的装置，其特征在于，所述装置启动后与主用节点建立链路，并接收所述主用节点发送的状态切换请求消息；在确定自身当前处于非活跃状态后向所述主用节点发送表征同意切换的响应消息以指示所述主用节点切换至活跃状态，所述非活跃状态为不能对外提供服务的状态，所述活跃状态为能对外提供服务的状态；所述装置包括：

检测模块，用于检测主用节点是否正常工作；

7.根据权利要求6所述的装置，其特征在于，所述检测模块包括：

8.根据权利要求6所述的装置，其特征在于，所述控制模块包括：

9.根据权利要求8所述的装置，其特征在于，所述控制模块还包括：

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

11.一种高可用集群，其特征在于，包括第一节点和包括如权利要求6至10任一所述装置的第二节点；所述第一节点与所述第二节点启动后建立链路，所述第一节点在建链后自身处于非活跃状态时向所述第二节点发送状态切换请求消息，并在接收到所述第二节点发送的表征同意切换的响应消息后切换至活跃状态，所述非活跃状态为不能对外提供服务的状态，所述活跃状态为能对外提供服务的状态。

12.根据权利要求11所述的高可用集群，其特征在于，所述第一节点还用于在第二节点发生主备切换成为主用节点后，如果所述第一节点恢复工作，则通知所述第二节点发起状态切换请求，并在接收到所述第二节点的同意消息后，执行所述第一节点成为主用节点的操作。