CN108509296B

CN108509296B - 一种处理设备故障的方法和系统

Info

Publication number: CN108509296B
Application number: CN201810226159.3A
Authority: CN
Inventors: 范家星; 过晓春
Original assignee: Wangsu Science and Technology Co Ltd
Current assignee: Wangsu Science and Technology Co Ltd
Priority date: 2018-03-19
Filing date: 2018-03-19
Publication date: 2021-02-02
Anticipated expiration: 2038-03-19
Also published as: US20210326224A1; CN108509296A; EP3570169A8; EP3570169A1; WO2019178891A1; EP3570169A4; EP3570169B1

Abstract

本发明公开了一种处理设备故障的方法和系统，属于数据存储技术领域。所述方法包括：目标共享存储设备关联的目标备用设备检测管理所述目标共享存储设备的目标控制设备的运行状态；如果所述目标控制设备发生故障，所述目标备用设备向所述目标共享存储设备发送管理请求，并向所述集群管理节点发送对于所述目标控制设备的替换请求；所述目标共享存储设备将所述目标备用设备设置为本地管理设备；所述集群管理节点确定所述目标备用设备为所述目标控制设备的替换设备。采用本发明，可以保证分布式存储系统的存储服务质量。

Description

一种处理设备故障的方法和系统

技术领域

本发明涉及数据存储技术领域，尤其涉及一种处理设备故障的方法和系统。

背景技术

当前网络业务的种类越来越多，功能也越来越丰富，也随之产生了海量的数据。业务提供方一般采用分布式存储系统来存储数据，其中的数据可以分散存储在存储集群的多个存储服务器(可称为存储节点)中。

分布式存储系统在提供存储服务时，可以对每份数据创建多份数据副本，并将这些数据副本存储在多个存储节点中。如果某个存储节点发生故障，不能继续提供数据存储服务，分布式存储系统的集群管理节点可以先确定故障节点存储的数据，再查找存储有相应数据副本的多个存储节点，同时可以选择多个目标存储节点，然后可以指示上述存储有数据副本的存储节点，利用数据副本将数据恢复到上述多个目标存储节点中。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

上述用于数据恢复的多个存储节点，需要调配大量的设备处理资源来进行上述数据恢复处理，导致没有足够的设备处理资源来提供数据存储服务，故而分布式存储系统的存储服务质量较差。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种处理设备故障的方法和系统。所述技术方案如下：

一方面，提供了一种处理设备故障的方法，所述方法应用于分布式存储系统，所述分布式存储系统包括集群管理节点和多个存储节点，每个存储节点包括一个共享存储设备，每个共享存储设备与一个控制设备、一个备用设备关联，所述方法包括：

目标共享存储设备关联的目标备用设备检测管理所述目标共享存储设备的目标控制设备的运行状态；

如果所述目标控制设备发生故障，所述目标备用设备向所述目标共享存储设备发送管理请求，并向所述集群管理节点发送对于所述目标控制设备的替换请求；

所述目标共享存储设备将所述目标备用设备设置为本地管理设备；

所述集群管理节点确定所述目标备用设备为所述目标控制设备的替换设备。

进一步的，所述管理请求中携带有所述目标备用设备的元数据信息；

所述目标共享存储设备将所述目标备用设备设置为本地管理设备，包括：

所述目标共享存储设备通过将所述目标共享存储设备的归属者信息修改为所述目标备用设备的元数据信息，确定所述目标备用设备为所述共享存储设备的本地管理设备。

进一步的，所述替换请求中携带有所述目标控制设备所属存储节点的节点标识和所述目标备用设备的元数据信息；

所述集群管理节点确定所述目标备用设备为所述目标控制设备的替换设备，包括：

所述集群管理节点通过将所述目标控制设备所属存储节点的节点标识对应的元数据信息修改为所述目标备用设备的元数据信息，确定所述目标备用设备为所述目标控制设备的替换设备。

进一步的，每个共享存储设备还与至少一个空闲设备关联；

所述方法还包括：

当确定所述目标备用设备为所述目标控制设备的替换设备时，所述集群管理节点在与所述目标共享存储设备关联的至少一个空闲设备中，随机确定目标空闲设备，以使所述目标空闲设备检测所述目标备用设备的运行状态。

进一步的，所述集群管理节点确定所述目标备用设备作为所述目标控制设备的替换设备之后，还包括：

所述集群管理节点将节点信息列表中所述目标控制设备所属存储节点的节点标识对应的元数据信息，更新为所述目标备用设备的元数据信息，并将更新后的节点信息列表推送至集群内部的所有存储节点。

另一方面，提供了一种处理设备故障的系统，所述系统为分布式存储系统，所述分布式存储系统包括集群管理节点和多个存储节点，每个存储节点包括一个共享存储设备，每个共享存储设备与一个控制设备、一个备用设备关联，其中：

目标备用设备，用于检测管理目标共享存储设备的目标控制设备的运行状态，其中，所述目标备用设备与所述目标共享存储设备关联；

所述目标备用设备，还用于如果所述目标控制设备发生故障，向所述目标共享存储设备发送管理请求，并向所述集群管理节点发送对于所述目标控制设备的替换请求；

所述目标共享存储设备，用于将所述目标备用设备设置为本地管理设备；

所述集群管理节点，用于确定所述目标备用设备为所述目标控制设备的替换设备。

所述目标共享存储设备，还用于通过将所述目标共享存储设备的归属者信息修改为所述目标备用设备的元数据信息，确定所述目标备用设备为所述共享存储设备的本地管理设备。

所述集群管理节点，还用于通过将所述目标控制设备所属存储节点的节点标识对应的元数据信息修改为所述目标备用设备的元数据信息，确定所述目标备用设备为所述目标控制设备的替换设备。

进一步的，每个共享存储设备还与至少一个空闲设备关联；

所述集群管理节点，还用于：

当确定所述目标备用设备为所述目标控制设备的替换设备时，在与所述目标共享存储设备关联的至少一个空闲设备中，随机确定目标空闲设备，以使所述目标空闲设备检测所述目标备用设备的运行状态。

进一步的，所述集群管理节点，还用于：

将节点信息列表中所述目标控制设备所属存储节点的节点标识对应的元数据信息，更新为所述目标备用设备的元数据信息，并将更新后的节点信息列表推送至所有的存储节点。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，目标共享存储设备关联的目标备用设备检测管理目标共享存储设备的目标控制设备的运行状态；如果目标控制设备发生故障，目标备用设备向目标共享存储设备发送管理请求，并向集群管理节点发送对于目标控制设备的替换请求；目标共享存储设备将目标备用设备设置为本地管理设备；集群管理节点确定目标备用设备为目标控制设备的替换设备。这样，存储节点可以将数据存储在共享存储设备中，当存储节点的控制设备发生故障时，与共享存储设备关联的备用设备可以作为控制设备的替换设备，代替控制设备继续提供服务，其它存储节点无需耗费设备处理资源来进行数据恢复处理，故而可以一定程度上保证分布式存储系统的存储服务质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种处理设备故障的系统结构示意图；

图2是本发明实施例提供的一种处理设备故障的系统结构示意图；

图3是本发明实施例提供的一种处理设备故障的方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种处理设备故障的方法，该方法的执行主体为分布式存储系统，其可以部署于业务提供方的机房。如图1所示，该分布式存储系统包括由集群管理节点和多个存储节点组成的存储集群，每个存储节点包括一个共享存储设备，每个共享存储设备可以通过有线或无线的通信方式与一个控制设备、一个备用设备关联，其中，集群管理节点可以管理存储集群中的存储节点，如增加、删除存储集群中的存储节点，检测存储节点的服务状态等；存储节点的控制设备可以提供数据的存储与读取服务，其可以将数据存储在与其关联的共享存储设备中；在控制设备故障后，备用设备可以作为控制设备的替换设备，代替控制设备继续提供数据的存储与读取服务。

在另一种情况下，如图2所示，单个控制设备可以利用自身的设备处理资源，构造出多个虚拟控制设备，每个虚拟控制设备均可以提供数据的存储与读取服务，这样，每个虚拟控制设备可以作为一个存储节点的控制设备，并与不同的共享存储设备进行关联。

下面将结合具体实施方式，对图3所示的一种处理设备故障的处理流程进行详细的说明，内容可以如下：

步骤301：目标共享存储设备关联的目标备用设备检测管理目标共享存储设备的目标控制设备的运行状态。

其中，目标控制设备的运行状态可以分为正常状态和故障状态。

在实施中，当目标控制设备处于正常状态时，其可以接收外部设备的数据存储或读取请求，在其管理的目标共享存储设备中存储或读取相应数据。与目标共享存储设备关联的目标备用设备，可以通过向目标控制设备周期性发送心跳查询请求，来检测目标控制设备的运行状态，如果在预设时间内，目标备用设备接收到目标控制设备的心跳应答，则可以记录目标控制设备为正常状态，否则记录目标控制设备为故障状态。

步骤302：如果目标控制设备发生故障，目标备用设备向目标共享存储设备发送管理请求，并向集群管理节点发送对于目标控制设备的替换请求。

在实施中，当目标控制设备发生了宕机、硬件损坏等故障时，目标备用设备可以检测到目标控制设备处于故障状态。之后，目标备用设备可以向目标共享存储设备发送管理请求，以接管目标控制设备对目标共享存储设备的管理功能，同时，目标备用设备还可以向集群管理节点发送对于目标控制设备的替换请求，以作为目标控制设备的替换设备，代替目标控制设备继续提供数据的存储与读取服务。

步骤303：目标共享存储设备将目标备用设备设置为本地管理设备。

在实施中，目标共享存储设备在接收到目标备用设备发送的管理请求后，可以取消目标控制设备的管理权限，并基于该管理请求将目标备用设备设置为目标共享存储设备的本地管理设备。

可选的，步骤303的具体处理过程可以如下：目标共享存储设备通过将共享存储设备的归属者信息修改为目标备用设备的元数据信息，确定目标备用设备为共享存储设备的本地管理设备。

其中，目标备用设备向目标共享存储设备发送的管理请求中携带有目标备用设备的元数据信息。

在实施中，目标共享存储设备的本地管理设备可以由目标共享存储设备记录的归属者信息所决定，因此，可以通过修改目标共享存储设备记录的归属者信息，来更换目标共享存储设备的本地管理设备。上述归属者信息可以是设备的元数据信息，如设备标识、通信地址等，其中，设备标识可以是设备自身的唯一识别码，例如A2001，通信地址可以是IP(Internet Protocol，网络互连协议)地址，例如1.1.1.106。当检测到目标控制设备处于故障状态时，目标备用设备可以向目标共享存储设备发送携带有目标备用设备的元数据信息的管理请求。之后，目标共享存储设备可以接收到管理请求，并从管理请求中获取目标备用设备的元数据信息。之后，目标共享存储设备可以将本地记录的归属者信息修改为目标备用设备的元数据信息，从而可以将目标备用设备确定为共享存储设备的本地管理设备。

步骤304：集群管理节点确定目标备用设备为目标控制设备的替换设备。

在实施中，在接收到目标备用设备发送的对于目标控制设备的替换请求后，集群管理节点可以确定目标备用设备为目标控制设备的替换设备。进一步的，集群管理节点还可以向目标控制设备发送心跳查询请求，来检测目标控制设备的运行状态。如果检测到目标控制设备处于故障状态，则集群管理节点可以执行上述替换请求，确定目标备用设备作为目标控制设备的替换设备，否则拒绝上述替换请求。这样，集群管理节点可以识别错误的替换请求，保证目标控制设备的正常运行。

可选的，步骤304的具体处理过程可以如下：集群管理节点通过将目标控制设备所属存储节点的节点标识对应的元数据信息修改为目标备用设备的元数据信息，确定目标备用设备为目标控制设备的替换设备。

其中，目标备用设备向集群管理节点发送的对于目标控制设备的替换请求中，携带有目标控制设备所属存储节点的节点标识和目标备用设备的元数据信息。

在实施中，目标备用设备在接管目标共享存储设备后，可以从目标共享存储设备中获取到目标控制设备所属存储节点的节点标识，之后，目标备用设备可以生成携带有目标控制设备所属存储节点的节点标识和目标备用设备的元数据信息的替换请求，并将该替换请求发送至集群管理节点。集群管理节点在接收到目标备用设备发送的替换请求后，可以将目标控制设备所属存储节点的节点标识对应的元数据信息，修改为目标备用设备的元数据信息，则集群管理节点可以确定目标备用设备为目标控制设备的替换设备。

可选的，集群管理节点还可以在备用设备管理共享存储设备时，确定一个空闲设备，作为该备用设备的备用设备，则相应的处理可以如下：当确定目标备用设备为目标控制设备的替换设备时，集群管理节点在与目标共享存储设备关联的至少一个空闲设备中，随机确定目标空闲设备，以使目标空闲设备检测目标备用设备的运行状态。

在实施中，除了控制设备和备用设备，每个共享存储设备还可以与至少一个空闲设备关联。这样，当集群管理节点确定目标备用设备为目标控制设备的替换设备之后，为了应对目标备用设备发生故障的情况，集群管理节点可以在与目标共享存储设备关联的至少一个空闲设备中，随机确定一个目标空闲设备为目标备用设备的备用设备，该目标空闲设备可以检测目标备用设备的运行状态，如果目标备用设备发生故障，该目标空闲设备的后续处理可以参考上述目标备用设备的处理过程，在此不再赘述。

可选的，集群管理节点可以只对在预设时间内接收到的替换请求进行响应，相应的处理可以如下：集群管理节点检测所有控制设备的运行状态；如果在检测到目标控制设备为故障状态之后的预设时间内，集群管理节点接收到替换请求，则确定目标备用设备作为目标控制设备的替换设备，否则在与目标共享存储设备关联的至少一个空闲设备中，重新选取一个空闲设备作为目标备用设备。

在实施中，集群管理节点可以周期性向存储节点的控制设备发送心跳查询请求，以检测存储节点的服务状态。当集群管理节点检测到目标控制设备处于故障状态时，集群管理节点可以开始计时，如果在预设时间内，例如2秒，集群管理节点接收到对于目标控制设备的替换请求，则执行该替换请求，确定目标备用设备作为目标控制设备的替换设备；如果在预设时间内，集群管理节点未接收到对于目标控制设备的替换请求，则集群管理节点可以在与目标共享存储设备关联的至少一个空闲设备中，重新选取一个空闲设备作为目标备用设备。之后，新选取的目标备用设备可以按照上述流程，向目标共享存储设备发送管理请求，并向集群管理节点发送对于目标控制设备的替换请求。后续处理可参照前述处理，在此不再赘述。

可选的，在目标备用设备被确定为目标控制设备的替换设备后，集群管理节点还可以对节点信息列表进行更新，并进行推送，相应的处理可以如下：集群管理节点将节点信息列表中目标控制设备所属存储节点的节点标识对应的元数据信息，更新为目标备用设备的元数据信息，并将更新后的节点信息列表推送至所有的存储节点。

在实施中，集群管理节点中可以维护有节点信息列表，节点信息列表中记录有存储集群内所有存储节点的节点标识、元数据信息和服务状态，其中，节点标识为可以唯一确定存储节点的标识信息；元数据信息可以为控制设备提供数据存储和读取的访问地址，如IP地址；服务状态可以为控制设备的运行状态。集群管理节点可以将本地维护的节点信息列表推送给所有的存储节点，以使存储节点通过节点信息列表，获取各存储节点当前的元数据信息，进而存储节点可以通过各存储节点当前的元数据信息，与各存储节点进行数据的存储和读取。进一步的，在确定目标备用设备为目标控制设备的替换设备后，集群管理节点可以将节点信息列表中目标控制设备所属存储节点的节点标识对应的元数据信息，更新为目标备用设备的元数据信息，同时，集群管理节点可以将更新后的节点信息列表推送给所有的存储节点，以使所有的存储节点可以及时获取到上述更新后的元数据信息。

基于相同的技术构思，本发明实施例还提供了一种处理设备故障的系统，如图1或图2所示，所述系统为分布式存储系统，所述分布式存储系统包括集群管理节点和多个存储节点，每个存储节点包括一个共享存储设备，每个共享存储设备与一个控制设备、一个备用设备关联，其中：

可选的，所述管理请求中携带有所述目标备用设备的元数据信息；

可选的，所述替换请求中携带有所述目标控制设备所属存储节点的节点标识和所述目标备用设备的元数据信息；

可选的，每个共享存储设备还与至少一个空闲设备关联；

所述集群管理节点，还用于：当确定所述目标备用设备为所述目标控制设备的替换设备时，在与所述目标共享存储设备关联的至少一个空闲设备中，随机确定目标空闲设备，以使所述目标空闲设备检测所述目标备用设备的运行状态。

可选的，所述集群管理节点，还用于：将节点信息列表中所目标控制设备所属存储节点的节点标识对应的元数据信息，更新为所述目标备用设备的元数据信息，并将更新后的节点信息列表推送至集群内部的所有存储节点。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务端，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种处理设备故障的方法，其特征在于，所述方法应用于分布式存储系统，所述分布式存储系统包括集群管理节点和多个存储节点，每个存储节点包括一个共享存储设备，每个共享存储设备与一个控制设备、一个备用设备关联，每个共享存储设备还与至少一个空闲设备关联，所述方法包括：

所述集群管理节点周期性检测所有控制设备的运行状态，如果在检测到所述目标控制设备为故障状态之后的预设时间内接收到所述替换请求，则确定所述目标备用设备为所述目标控制设备的替换设备，否则选取一个所述空闲设备作为所述目标备用设备。

2.根据权利要求1所述的方法，其特征在于，所述管理请求中携带有所述目标备用设备的元数据信息；

3.根据权利要求1所述的方法，其特征在于，所述替换请求中携带有目标控制设备所属存储节点的节点标识和所述目标备用设备的元数据信息；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述集群管理节点确定所述目标备用设备作为所述目标控制设备的替换设备之后，还包括：

6.一种处理设备故障的系统，其特征在于，所述系统为分布式存储系统，所述分布式存储系统包括集群管理节点和多个存储节点，每个存储节点包括一个共享存储设备，每个共享存储设备与一个控制设备、一个备用设备关联，每个共享存储设备还与至少一个空闲设备关联，其中：

所述集群管理节点，用于周期性检测所有控制设备的运行状态，如果在检测到所述目标控制设备为故障状态之后的预设时间内接收到所述替换请求，则确定所述目标备用设备为所述目标控制设备的替换设备，否则选取一个所述空闲设备作为所述目标备用设备。

7.根据权利要求6所述的系统，其特征在于，所述管理请求中携带有所述目标备用设备的元数据信息；

8.根据权利要求6所述的系统，其特征在于，所述替换请求中携带有所述目标控制设备所属存储节点的节点标识和所述目标备用设备的元数据信息；

9.根据权利要求6所述的系统，其特征在于，所述集群管理节点，还用于：

10.根据权利要求8所述的系统，其特征在于，所述集群管理节点，还用于：

将节点信息列表中所述目标控制设备所属存储节点的节点标识对应的元数据信息，更新为所述目标备用设备的元数据信息，并将更新后的节点信息列表推送至集群内部的所有存储节点。