Nothing Special   »   [go: up one dir, main page]

JP4204769B2 - フェールオーバを処理するシステムおよび方法 - Google Patents

フェールオーバを処理するシステムおよび方法 Download PDF

Info

Publication number
JP4204769B2
JP4204769B2 JP2001206005A JP2001206005A JP4204769B2 JP 4204769 B2 JP4204769 B2 JP 4204769B2 JP 2001206005 A JP2001206005 A JP 2001206005A JP 2001206005 A JP2001206005 A JP 2001206005A JP 4204769 B2 JP4204769 B2 JP 4204769B2
Authority
JP
Japan
Prior art keywords
node
failover
service
cluster
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001206005A
Other languages
English (en)
Other versions
JP2002091938A (ja
Inventor
クリスチャン・ボリク
ペーター・ゲムスイェーガー
クラウス・シュロイフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2002091938A publication Critical patent/JP2002091938A/ja
Application granted granted Critical
Publication of JP4204769B2 publication Critical patent/JP4204769B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、クラスタ化情報技術環境内で分散されているデータ記憶リソース間で共用される情報の管理という分野に関し、より具体的には、このような疎結合ノード・クラスタで使用する共用ディスク・ファイル・システムのデータ管理のフェールオーバ回復を処理するための方法およびシステムに関する。
【0002】
【従来の技術】
大規模またはネットワーク化したコンピューティング環境を備えた企業では、分散ファイル・システムを使用している場合が多い。近年では、高解像度画像、科学データなどを記憶する必要性により、データ入出力(I/O)と記憶システムのパフォーマンスおよび機能性との間に重大なアンバランスが発生している。したがって、現行の大容量記憶システムのパフォーマンスと容量は大幅に改善しなければならない。
【0003】
このような記憶集約的なコンピューティング環境で費用効果の高いデータ・アクセスを可能にするためには、大容量記憶システムを下にある分散ファイル・システムと統合しなければならない。このため、大容量記憶システムとこのようなファイル・システムを結合すると、ファイル・システムのシームレス・ビューが得られる。
【0004】
データ記憶容量に対する要求が増加し続けるということは、分散記憶システムの管理に関連するコストが記憶域自体のコストより大幅に高くなっていることを暗示している。したがって、データ管理(DM)アプリケーションによる高機能かつ効率的な記憶管理が引き続き必要である。
【0005】
DMアプリケーションは、記憶容量が限られた高速オンライン記憶域と3次記憶アーカイブとの間でデータを移送する。さらに、このアプリケーションは3次アーカイブに記憶されたすべてのデータ用のオンライン・セマンティクスを提供し、すなわち、ユーザはそのデータにアクセスするために管理操作を実行する必要はない。そのうえ、DMアプリケーションは、アーカイブされたデータへのアクセスを認識し、自動的にそのデータをユーザに転送する。そのため、ユーザがデータ・ファイルからデータ・ブロックを読み取ろうと試みたときにDMアプリケーションへの通知が必要になるように、何らかの監視機能を設けなければならない。
【0006】
前述の概念、すなわち、遠隔記憶装置にデータを移送することによりローカル記憶空間を解放することは、一般に階層記憶管理(HSM)として知られている。この記憶管理はユーザにとって透過的なものであり、すなわち、ユーザは依然としてそのデータがローカルである場合のようなビューを有する。
【0007】
ファイルベースのHSMでは、DMアプリケーションは、ファイル属性を保持するだけのプレースホルダとして、いわゆる「スタブ・ファイル」を生成する。このスタブ・ファイルまたはこれに対応する穿孔済みディスク領域(複数も可)にアクセスすると、もう一度そのファイル(またはディスク領域)のデータが遠隔記憶装置から再呼出しされる。通常、HSMは、大量の滅多にアクセスされないデータ(たとえば、アーカイブされた天気図、ビデオ・プレゼンテーション)を記憶するファイル・サーバ上にインストールされる。
【0008】
さらに、前述の分散大容量記憶システムの一部が障害記憶システムのサービスを引き継ぐことができる場合、その記憶システムの可用性、すなわち、下にあるデータ記憶装置とDMアプリケーション(複数も可)との組合せの可用性を改善できることが知られており、通常、「フェールオーバ」と呼ばれる。
【0009】
そのため、本出願人によって開発され販売されているAIX SP(UNIX(R)ベースのスケーラブル・パワー・パラレル・コンピュータ)上で実行される汎用パラレル・ファイル・システム(GPFS)など、複数のホスト・マシン間でのディスクの共用を管理するファイル・システムが知られている。通常のソフトウェア・アプリケーションのようにDMアプリケーションを開発できるようにするために、そのファイル・システムによって実現され、以下の機能を実行するためにデータ管理(DM)アプリケーションが使用するデータ管理アプリケーション・インタフェース(DMApi)(データ管理インタフェース・グループ(DMIG)コンソーシアムによって指定されている)が提案されている。
− 階層記憶管理(HSM)
− データ・バックアップおよび復元
【0010】
DMApiは、堅固でコマーシャルグレードのDMアプリケーションを実現するのに適した環境を提供することを目標としている。共用ディスク環境では、DMApiは、特に、ファイル・システム・オブジェクトのDMアプリケーション・クラッシュ回復およびステートフル制御のための諸機能を含むことができる。
【0011】
特に本発明で対処する疎結合コンピュータ・ノードのクラスタでは、各ノードは、同期または非同期のいずれかになる可能性のある、いわゆる「DMApiイベント」を必要とする記憶管理サポートを提供するDMアプリケーションを含む。DMApiイベントは、そのクラスタの所与のノード上に実現された、下にあるオペレーティング・システムで所与の動作が行われたときに必ずDMアプリケーションに通知できるようにするメカニズムである。このようなメカニズムにより、1カ所の障害を発生している他のノードがDMApiセッションを引き継ぐことができる。DMApiセッションは、DMアプリケーションと、下にあるオペレーティング・システムで実現されたDMApiのカーネル・コンポーネントとの1次通信チャネルである。
【0012】
古典的な1ノード/コンピュータ環境では、システム障害が発生した場合にファイル・システム・サービスが終了する恐れがある。クラスタ環境では、単一ノード障害がシステム内の他の(独立)ノードに影響しない可能性が高い。DMアプリケーションが障害ノードに常駐する場合、アクティブ・クラスタ・ノード上で実行中のプロセスに潜在的に割り込むスタブ済みファイルへのアクセスは使用不能になる。したがって、初期ノード障害による影響を受けていない他のクラスタ・ノードを残すために、DMアプリケーションをアクティブ・クラスタ・ノードに移送し、HSM機能を回復することが望ましい。
【0013】
【発明が解決しようとする課題】
したがって、本発明の一目的は、分散コンピューティング環境内の共用ディスク・ファイル・システムに関するデータ管理アプリケーションのフェールオーバを処理するための方法およびシステムを提供することにある。
【0014】
他の目的は、データ・アクセス・サービスを提供する疎結合ノードのクラスタを有する分散コンピューティング環境でフェールオーバを処理するためのこのような方法およびシステムを提供することにある。
【0015】
さらに他の目的は、このようなクラスタ環境でDMApiベースのHSMアプリケーションのフェールオーバ処理を可能にするこのような方法およびシステムを提供することにある。
【0016】
上記の目的は独立クレームの特徴によって解決される。本発明の有利な実施形態は従属クレームの主題である。
【0017】
【課題を解決するための手段】
本発明による方法は、そのクラスタの所与のノードをフェールオーバ候補ノードとして定義するステップと、すべてのフェールオーバ候補ノードに関する構成情報を記憶するステップと、フェールオーバ候補ノードのうちの少なくとも1つのフェールオーバ候補ノードの障害情報を含みかつこれに限定されないメッセージ情報を配布するステップと、フェールオーバ候補ノードによって障害ノードのサービスを引き継ぐべきかどうかを判定するために配布したメッセージ情報と記憶した構成情報を分析するステップと、少なくとも1つのフェールオーバ候補ノードが障害ノードのサービスを引き継ぐ場合に構成情報を更新するステップによって、上記の目的を達成する。
【0018】
一般に、クラスタ環境には2通りの障害タイプがある。第1のタイプは、あるノードがデータ・アクセス・サービスをもはや提供できないことをそのノードが認識しており、したがって、異なるノード上でデータ・アクセス・サービスを回復するためにフェールオーバ要求をトリガしなければならないことである。あるノードの完全な障害が発生した場合、クラスタ・サービスはフェールオーバ候補ノードに障害イベントを配布する。本発明は、両方のタイプの障害に対処し、唯一のメカニズムを提供する。
【0019】
本発明の下にある特定の概念は、障害時にDMApiセッションを移動できるようにし、その結果、DMアプリケーションのカスケード・フェールオーバを可能にする、ファイル・システムに関するメカニズムを提供することである。このメカニズムは、固有のやり方で分散大容量記憶システムのユーザ(複数も可)により高レベルの可用性を提供する。
【0020】
疎結合システムは、共用メイン・メモリ(RAM)の欠落によって発生するクラスタ・ノードの明白な独立性を特徴とする。このクラスタ機能は、ハードウェア側の何らかの類の高速相互接続と、ノード間通信および共用データ記憶などの諸機能を提供するクラスタ・ソフトウェアに基づくものである。
【0021】
モノリシック(マルチプロセッサ)システムと比較すると、疎結合クラスタ・ノード間の同期に関する問題は2つある。
− システム・ミューテックスと同様の同期ロック・メカニズムの欠落
− 障害ノードに関するローカル構成情報の喪失
【0022】
本発明は、2次記憶域と代替オブジェクト・ロック・メカニズムを使用してこの機能をシミュレートすることにより、上記の問題を克服する。
【0023】
さらに、本発明は有利なことに、スタブ済みファイルにアクセス保証を提供する。
【0024】
本発明の好ましい実施形態では、第1のフェールオーバ候補が障害ノードからファイルシステムのサブセットを引き継ぐ場合にのみ、少なくとも第2のフェールオーバ候補にフェールオーバ要求を持ち込む。このカスケード・メカニズムは、疎結合コンピュータ環境での障害回復の堅固さを大幅に強化するものである。
【0025】
【発明の実施の形態】
図1は、従来技術により経時的に(「時間線」)非常駐ファイルを読み取るためのDMApiモデル・データ・フローを示している。分散クラスタ化コンピュータ環境の図示のノード100は、ローカルに(ここでは図示しない)、たとえば、図示のノードに接続された磁気ディスクにすることができるローカル・ディスクまたは2次記憶域に記憶されたファイル・データへのユーザ・アクセスを制御するための複数の方法を提供するDMアプリケーション110を実行するホスト・コンピュータを含む。ノード100上では、DMApiインプリメンテーション130を備えたオペレーティング・システム・カーネル120が実行されている。
【0026】
遠隔ノード140上には、記憶容量は大きいがデータ・アクセスまたは記憶パフォーマンスが低く、アクセス頻度の低いデータに使用する記憶装置を含む、3次記憶域150が設けられている。3次記憶域150は、ロボット・テープ・ライブラリまたは光ディスク・オートチェンジャである場合が多く、ネットワーク上の他の何らかのホストに接続される場合が多い。2次記憶域と3次記憶域150との間でデータを移動するプロセス160は、データ移送と呼ばれる場合が多い。
【0027】
ファイル・システム・データ(常駐データ)は、ローカル・ディスク上に存在し、おそらく3次記憶域150に複製される。常駐データに対するローカル変更は、3次コピーがあればそれを無効にするものでなければならない。非常駐データは、3次記憶域150にのみ存在し、ユーザがそれにアクセスする前にローカル・ディスクにコピーしておかなければならない。先にそのデータがローカル・ディスクにコピーされていない場合、DMApiデータ・フロー・モデルはそのデータへのアクセスを許可しないことに留意されたい。
【0028】
3次記憶域150からローカル記憶域上のファイルにデータを転送するために、DMアプリケーション110は、管理下領域が設定されている間にファイルに書き込むことができる。DMApiは、イベント生成コードを迂回し、「保護されている」データにアクセスするための特殊インタフェース(ここでは図示しない)を提供する。このようなインタフェースは、不可視入出力と呼ばれる場合が多い。それぞれのセマンティクスは、正規のread(2)およびwrite(2)システム・コールと同様であるが、データ・イベントを生成せず、ファイル・タイムスタンプを修正しない。
【0029】
3次記憶域150にファイル・データを送るために、DMアプリケーション110は、ターゲット・ファイルへのアクセス権を取得する必要がある。専用のDMApiコールを使用すると、ファイル属性とファイル・データの両方を読み出して、遠隔データ・サーバに送ることができる。その後、ローカル記憶域を獲得するために(データ・ホールを穿孔して)データ・セグメントを解放することができる。この「データ・ホール」はいわゆる管理下領域である。DMアクセス権は、この手順後にリリースされる。
【0030】
ファイルシステムからメッセージを受け取るために、DMアプリケーション110は、それが所与のファイルシステムに関して受け取ることを希望する1組のDMイベントを定義する必要がある。とりわけ、このようなイベントは、取付けまたは記憶空間に関するファイルまたはファイルシステム状態イベント(たとえば、空間外通知)への読取り/書込み/打切りアクセスである可能性がある。
【0031】
ユーザ・アプリケーション170が穿孔済みファイル(→その管理下領域)を読み取った場合、DMApiはそのアプリケーションを中断し、メッセージ待ち行列にイベントを送出する。適切なDMイベント処置を備えたDMアプリケーションは、そのイベントを読み出して、遠隔記憶域からのファイル・データを復元することができる。その後、その読取りイベントを引き起こしたオリジナル・アプリケーションを再活動化(非ブロック化)するイベントに対する応答が行われる。
【0032】
チボリ・スペース・マネージャなどのHSMインプリメンテーションは、通常、ローカル記憶空間を自動的に管理する。したがって、ファイルシステムが定義済み使用率たとえば70%を超えるかまたは空間外イベントを生成する場合、DMデーモンは、定義済みの低しきい値に達するまで、生成した候補リストに基づく適格ファイルを遠隔サーバに移送することを開始する。
【0033】
図2は、本発明による4ノード・クラスタ200の初期状態を示している。ノード2は、「/gpfs1」という指定の汎用パラレル・ファイル・システム(GPFS)用のDMサービスを提供している。ノード1および3は、ノード2のサービスを引き継ぐべき潜在的な候補(フェールオーバ候補ノード)である。ノード4上には共用ファイルシステムが実現されておらず、したがって、適格ではない。この構成データはIBMのAIX SP全体の「システム・データ・リポジトリ」(SDR)210に記憶される。ノード間の通信は、ノード障害を追跡するSPグループ・サービス(GS)220により実施され、定義済みのノード・グループ(ここではクラスタに関与するノード)内でメッセージを配布するための通信プロトコルを提供する。
【0034】
クラスタ200内の均一構成は、すべてのフェールオーバ・ノード230〜250に関する構成データをクラスタ200内に配置されたSDR210に記憶することによって保証される。
【0035】
共用環境は、以下のものを把握している必要がある。
・ファイルシステム固有設定を含む、クラスタ200内で管理されるファイルシステムのリスト
・1つまたは複数のファイルシステムを現在管理しているノード
・たとえば遠隔記憶サーバへのアクセス情報のような追加の構成情報
【0036】
さらに、フェールオーバ環境の関与ノードにメッセージ(たとえば、ノードの障害レポート)を配布するために通信インタフェースが設けられている(妥当な障害回復通信プロトコルについては図3を参照)。
【0037】
通信インスタンス(AIX SPグループ・サービスなど)は、関与クラスタ・ノードが管理グループを形成できるようにするAPIを提供する。この通信アーキテクチャの各ノードは、グループ・サービス・インスタンス(サーバ)のクライアント(SP GS界におけるいわゆるサービス「プロバイダ」)である。インタフェースに送られるクライアント・メッセージは、自動的に関与グループ・メンバに配布される。AIX SP GSメッセージ通知はイベント主導のものである(→コールバック機能)。
【0038】
あるノード上のDMアプリケーションがもはやそのサービスを提供できなくなっている場合、フェールオーバ・グループの他のメンバに対してその障害に関する通知を行わなければならない。これは、障害ノードからアクティブに行われる場合もあれば、完全なノード障害(クラッシュ)の場合にはクラスタ通信サービス(たとえば、SP GS)によって報告される場合もある。
【0039】
この障害通知に基づき、障害環境にある潜在的な引継ぎノードは、以前は障害ノードによって管理されていたファイルシステムに関するDMサービスを回復するためのそれぞれの努力を同期させなければならない。各ノードは、障害ノードのサービスを引き継ぐためにそれが適格であるかどうかを判断するために、中央データ・リポジトリ210に記憶された共用構成データを分析する必要がある。この手順の結果は、以下のようになる可能性がある。
1.候補なし: 何も行うことはない − サービスを回復することはできない
2.1つの候補: 追加の同期努力なしにサービスを回復することができる
3.複数の候補: サービスを回復することができるが同期が必要である
【0040】
結果オプション3に関しては、ノードのクラスタ200が共用メモリを介して通信しない場合(たとえば、IBM SPなどの独立マシンのクラスタ)、それは各種ノードを同期させるための余分な努力を要する。障害ノードのファイルシステムを引き継ぐための複数の候補間の同期は以下のいずれかで行うことができる。
a)同時性または
b)非同時性
【0041】
図3は、図2に示すような4ノード・クラスタにおける本発明による方法の第1の実施形態を示している。これは、1つの障害ノード300のサービスを引き継ぐために複数のフェールオーバ候補ノード間で同時性すなわち通信ベースの同期を可能にするものである。
【0042】
あるクラスタの異なるノード間のフェールオーバ機能を提供するために、DMアプリケーションは、障害回復プロセスに関与しなければならないすべてのノード上にインストールする必要がある。初期構成では、これらのノードのうちの少なくとも1つが特定のファイルシステムに関するデータ管理(DM)サービスを提供する。潜在的なフェールオーバ候補310、320は、バックグラウンドでスリープ中のままになるか、または異なるファイルシステムに関するサービスを提供する。
【0043】
適格ノード310、320は、そのグループの他のメンバ310、320、350に配布するために、前述のグループ・サービスなどの専用クラスタ通信サービス330によって処理されるクラスタ通信メカニズムにより1つのメッセージを送出する。このメッセージは優先順位キー340(たとえば、そのノードの作業負荷360に基づくもの)を含む。
【0044】
この方法は好ましくは、AIX SPで使用するシステム・データ・リポジトリ(SDR)が提供するコマンド・インタフェースに基づくブロック化メカニズムを提供する。このSDRにより、所与のデータ・レコード・タイプに関する持続データ・オブジェクトの作成および修正が可能になる。アトミック動作でデータ・オブジェクトをチェックして修正し、その結果、以下のIF-THEN条件付きステップとして本実施形態で実現された共用HSM資源にロック(システム・ミューテックスと同様のもの)を設定することは可能である。
If (lock == 0) then { lock = 1 }
【0045】
このチェックが失敗した場合、呼出し元はしばらくの間待機してからもう一度試みる。ロックに加え、後続のノードはロック固有タイムスタンプ(クラスタ全体で同期したクロックに基づくもの)も更新する必要がある。ロックを保持するノードがクラッシュした場合、待機ノードは永遠にロックにアクセスしようと試みることになるが、これは明らかに望ましくないことである。
【0046】
サービス引継ぎは約60秒もかかる場合がある。あるロックのタイムスタンプがこの60秒より古い場合、候補ノードは、ロックを保持するノードが回復せず、自由にロックの引継ぎを強要できる(タイムスタンプをもう一度更新する)と想定することができる。共用HSM資源のアクセスが完了した後、ロックはゼロにリセットされる。
【0047】
前述の優先順位キーはUNIX(R)の「アップタイム」コマンドに基づくものである。そのうえ、他のデータ「アップタイム」は、最後の15分間のシステム作業負荷をレポートする。レポートした作業負荷が高ければ高いほど、優先順位キーの値が小さくなる。
【0048】
メッセージを受け取るノードは、着信キーとそれ自体のキーを突き合わせることができる。最良キー380はそのサービスを引き継ぐ権利を勝ち取る。キーを送出する潜在的なバックアップ・ノードの数はシステム内では不明なので、投票段階は所与のタイムアウト370後に終了する必要がある。
【0049】
勝利ノードは、その現在アクティブなHSM構成に1つまたは複数のファイルシステムを追加するかまたはHSMサービス380を始動する。DMApiベースのアプリケーションにとって典型的なことに、それは、ターゲット・ファイル・システム(複数も可)のために生成されたすべての着信イベントを引き継ぐようにイベント・マスクを設定する必要がある。サービスを引き継ぐノードは、整合性を保証するために中央データ・リポジトリ内の構成ファイルを更新する必要がある。この更新メカニズムは、競合条件を回避するためにロック・メカニズム(上記を参照)によるものでなければならない。残りは、スリープ中のバックアップのままになるかまたはそれ自体のHSMファイルシステムに関するサービスを続行する。あるノードが投票段階で遅延された場合、そのノードは所有者ファイルで定義されたアクティブ・ノードと障害発生ノードを突き合わせることができる。不一致が存在する場合、引継ぎがすでに行われているので制御しようという試みをやめてしまう。
【0050】
前述したように同時性マルチフェーズ・ハンドシェーク・メカニズムによってこの状況を処理するには何らかの時間の間、状況情報を保持する必要があり、そのうえ、わずかな通信オーバヘッドを伴う。また、初期引継ぎノードは障害ノードのすべてのファイルシステムを管理できない可能性があるので(たとえば、ファイルシステムが搭載されていない)、ファイルシステムごとに投票することも必要である。
【0051】
図4は、フェールオーバ候補ノード間の同期が非同時性(データ・ロックベース)プロトコルにより実施される、他の実施形態を示している。この実施形態は3つのノードを備えた状況で示されている。各ノードは、構成ファイルをロックし、更新し、アンロックするだけでファイルシステムを引き継ごうと競合する可能性がある。クラスタ・データ・リポジトリ内の構成ファイルをロックし修正できたノードは、障害ノードからファイルシステムを引き継ぐ権利を勝ち取る。フェールオーバ要求は、前の引継ぎノードによって対応できない残りのファイルシステムを依然として引き継ぐことができる遅延ノードにさらにカスケードすることになる。図3に示す同時性手法とは対照的に、前述の非同時性フェールオーバ・メカニズムは、フェールオーバ・グループのノード間の明示メッセージを必要としない。
【0052】
障害時には、障害発生ノードは、ファイルシステムからのデータ管理(DM)イベントを処理することができる。このようなイベントを生成するプロセスは、あるファイルのデータが遠隔記憶サーバから再呼出しされた後でDMアプリケーションがそのイベントをリリースするまでDMApi環境によってブロックされる。サービスを引き継ぐノードは、既存のDMApiセッションを使用するか、または何も存在しない場合は新しいDMApiセッションを作成する。さらに、そのノードは障害発生ノードからのセッションを引き受ける。障害発生ノードからの保留イベントは、一時DMApiセッションに移動され、イベントの種類に応じて様々な方法で管理される。これは、ブロックしたプロセスがもう一度リリースされることを保証する。
【0053】
図5に示す例示は、遠隔データ再呼出し要求の引継ぎを示している。GPFSHSMでは、GPFSデーモンが(異常に、ノード・クラッシュにより、ユーザ要求により)休止した場合、DMApiがこの種のイベント引継ぎをサポートする。
【0054】
通信イベント処理の種類に応じて、DMアプリケーションは、並行スレッドの問題を回避するためにある種の待ち行列化が必要になる場合もある。原則として、すべてのプロセス/スレッドは、中央データ・リポジトリ内のロックされたデータ・オブジェクトによってブロックされるが、これは望ましくない使用中待機を引き起こすものである。単一スレッド化環境では、単純なFIFOリストに要求を記憶できるだろう。また、マルチスレッド化環境では、システム・ミューテックスまたは条件変数によって同期を達成できるだろう。
【0055】
最後に、図6は、IBM SP上のAIX用のGPFS HSMにおける本発明のグループ・サービス・インプリメンテーションを示している。
【0056】
図示のSP環境は、以下のものを特徴とする。
・クラスタ全体の通信プロトコルに加え、ノード・クラッシュ用の追跡メカニズムを提供するグループ・サービス(GS)600
・クラスタ全体の構成ファイルを記憶するためのシステム・データ・リポジトリ(SDR)610
【0057】
SPグループ・サービスは、任意のSPノード上に配布され実行中のプロセスからなる通信グループを形成するためのメカニズムを提供する。関与プロセスは、そのグループのすべてのメンバにメッセージを配布することができる。そのうえ、メンバ・プロセスの寿命状況を監視するようグループ・サービスに指示することができるが、これはフェールオーバ・メカニズムをトリガするグループ・メンバにプロセス(→完全ノード)障害をレポートするために使用できる特徴である。
【0058】
AIX SP上のGPFS HSMのタスクは3つのデーモンに分割されている。
・すべてのフェールオーバ/回復活動のフォーカル・ポイントであるdsmwatchd620、630、640
・移送したデータを遠隔記憶サーバから再呼出しすることを担当するdsmrecalld680、690、700
・ファイルシステムの空間外条件と遠隔記憶サーバへの自動データ移送を処理するdsmmonitord650、660、670
【0059】
dsmwatchdは基本的に2つのタスクを履行する。
− メイン・プロセス(DMスレッド)720によって実行される、クラッシュしたdsmmonitordおよびdsmrecalldの回復
− GSコールバック・スレッド730によってトリガされるフェールオーバ環境の管理であって、以下のものを含む
・破壊されたローカル環境(GPFSデーモン・クラッシュ/シャットダウン、ノード・クラッシュ、HSMデーモンの破壊)の場合のアクティブ・フェールオーバ
・遠隔障害ノードのファイルシステムのアクティブ引継ぎ
【0060】
第1のタスク1によれば、DMサービスが立ち上がっていることをチェックし、dsmrecalldが実際に実行中であることを保証するために、dsmwatchdはDMコールによりdsmrecalldを「ピングする」。dsmwatchdがもはやdsmrecalldをピングできなくなった場合、それはdsmrecalldを1回再始動しようと試みることになり、これが成功しなかった場合、DM環境が破壊されたという想定に基づいて異なるノードへのフェールオーバを開始することになる。そのうえ、PIDがもはや存在しない場合にターゲット・デーモンを再始動するために、それはプロセスIDを追跡する。
【0061】
第2のタスク2によれば、SPグループ・サービス(GS)動作は前述のように実現される。この引継ぎメカニズムは好ましくは非同期で機能する。というのは、所与のGS制限により同時動作を行うことができないことが多いからである。複数のフェールオーバ要求はpthreadミューテックスにより待ち行列化される。
【0062】
まとめとして、本発明の構成に関して以下の事項を開示する。
【0063】
(1)サービスを提供する疎結合ノードのクラスタを有する分散コンピューティング環境で共用ディスク・ファイル・システムに関するデータ管理アプリケーションのフェールオーバを処理するための方法において、
前記クラスタの所与のノードをフェールオーバ候補ノードとして定義するステップと、
すべての前記フェールオーバ候補ノードに関する構成情報を記憶するステップと、
前記フェールオーバ候補ノードのうちの少なくとも1つのフェールオーバ候補ノードの障害情報を含みかつこれに限定されないメッセージ情報を配布するステップと、
フェールオーバ候補ノードによって障害ノードのサービスを引き継ぐべきかどうかを判定するために前記配布したメッセージ情報と前記記憶した構成情報を分析するステップと、
少なくとも1つのフェールオーバ候補ノードが障害ノードのサービスを引き継ぐ場合に前記構成情報を更新するステップとを含む方法。
(2)第1のフェールオーバ候補が前記障害ノードから前記ファイルシステムのサブセットを引き継ぐ場合にのみ、少なくとも第2のフェールオーバ候補にフェールオーバ要求を持ち込む、上記(1)に記載の方法。
(3)前記構成情報が前記クラスタ内に配置された中央データ記憶域に記憶される、上記(1)または(2)に記載の方法。
(4)前記配布されたメッセージ情報が少なくとも1つのノードの障害レポートを含む、上記(1)ないし(3)のいずれか一項に記載の方法。
(5)前記フェールオーバ候補ノードが、前記配布されたメッセージ情報の一部として配布された、前記フェールオーバ候補ノードのそれぞれの作業負荷に関連する優先順位キーを計算する、上記(1)ないし(4)のいずれか一項に記載の方法。
(6)前記優先順位キーを受け取る前記フェールオーバ候補ノードが、前記受け取った優先順位キーをそれぞれの優先順位キーと比較し、それにより、最良優先順位キーが前記サービスを引き継ぐ権利を勝ち取る、上記(5)に記載の方法。
(7)前記構成情報の更新がロック・メカニズムにより処理される、上記(1)ないし(6)のいずれか一項に記載の方法。
(8)サービスを提供する疎結合ノードのクラスタを有する分散コンピューティング環境で共用ディスク・ファイル・システムに関するデータ管理アプリケーションのフェールオーバを処理させるためにそこに実施されたコンピュータ可読プログラム・コード手段を有するコンピュータ使用可能媒体を含む製品において、前記製品内の前記コンピュータ可読プログラム・コード手段が、
前記クラスタの所与のノードをフェールオーバ候補ノードとして定義することと、
すべての前記フェールオーバ候補ノードに関する構成情報を記憶することと、
前記フェールオーバ候補ノードのうちの少なくとも1つのフェールオーバ候補ノードの障害情報を含みかつこれに限定されないメッセージ情報を配布することと、
フェールオーバ候補ノードによって障害ノードのサービスを引き継ぐべきかどうかを判定するために前記配布したメッセージ情報と前記記憶した構成情報を分析することと、
少なくとも1つのフェールオーバ候補ノードが障害ノードのサービスを引き継ぐ場合に前記構成情報を更新することをコンピュータに実施させるためのコンピュータ可読プログラム・コード手段を含む製品。
(9)サービスを提供する疎結合ノードのクラスタを有する分散コンピューティング環境で共用ディスク・ファイル・システムに関するデータ管理アプリケーションのフェールオーバを処理するためのシステムにおいて、
フェールオーバ候補ノードに関する構成情報を記憶するためのデータ記憶手段と、
前記フェールオーバ候補ノード間にメッセージ情報を配布するための通信インタフェース手段と、
フェールオーバ候補ノードによって障害ノードのサービスを引き継ぐべきかどうかを判定するために前記メッセージ情報と前記構成情報を分析するための手段と、
少なくとも1つのフェールオーバ候補ノードが障害ノードのサービスを引き継ぐ場合に前記構成情報を更新するための手段とを含むシステム。
(10)第1のフェールオーバ候補が前記障害ノードから前記ファイルシステムのサブセットを引き継ぐ場合にのみ、少なくとも第2のフェールオーバ候補にフェールオーバ要求を持ち込むフェールオーバ処理をカスケードするための手段をさらに含む、上記(9)に記載のシステム。
(11)前記データ記憶手段が前記クラスタ内に配置された中央データ記憶域である、上記(9)または(10)に記載のシステム。
(12)前記構成情報を更新するための手段が、障害ノードのサービスを引き継ぐフェールオーバ候補ノードに位置する、上記(9)ないし(11)のいずれか一項に記載のシステム。
【図面の簡単な説明】
【図1】従来技術により非常駐ファイルを読み取るためのDMApiモデル・データ・フローを示す概略データ・フロー図である。
【図2】本発明によるノード・クラスタの初期状態を示す概略ブロック図である。
【図3】障害ノードのサービスを引き継ぐための複数のフェールオーバ候補ノード間の同時性同期を提供する本発明の第1の実施形態を示すタイム・チャートである。
【図4】非同時性同期を提供する実施形態を示す、図3と同様のタイム・チャートである。
【図5】本発明による遠隔データ再呼出し要求の引継ぎを示すブロック図である。
【図6】本発明の実施例を示す他のブロック図である。
【符号の説明】
300 DMアプリケーション・ノード1
310 DMアプリケーション・ノード2
320 DMアプリケーション・ノード3
330 クラスタ通信サービス
350 DMアプリケーション・ノード4
360 作業に専念するかまたはネットワークが使用中
370 非常に最良のキーであるが、タイムアウト後にグローバルに受け取る
380 タイムアウト前に最良キーがHSMサービスを始動する
390 HSMサービスを始動しようと試みることができるが、ファイルシステム所有者を分析するとすぐに、アクティブ・ノードがすでにそのファイルシステムを管理していることをノードが認識する

Claims (11)

  1. 分散ファイルシステムを制御するデータ管理アプリケーションのフェールオーバを処理する方法であって、
    前記データ管理アプリケーションのサービスを提供できる複数のノードが互いに疎結合してクラスタを構成しており、
    前記分散ファイルシステムは、前記クラスタと、各ノード障害に影響されず、前記クラスタのノード間における通信を実施し、前記ノードの障害回復のために用いるメッセージ情報を配布する専用クラスタ通信インタフェース手段を有し、
    前記分散ファイルシステムを管理するユーザの操作に応答して、前記サービスを提供するノードが所定の条件に基づいて適格である前記クラスタの所与のノードをフェールオーバ候補ノードとして定義するステップと、
    前記サービスを提供するノードが自己に関する構成情報と前記クラスタ内のすべてのフェールオーバ候補ノードに関する構成情報とを共有構成データとして各ノードと独立した中央データ記憶域に記憶するステップと、
    前記サービスを提供するノードに障害が発生した際、前記専用クラスタ通信インタフェース手段が前記フェールオーバ候補ノードに、障害を通知する前記メッセージ情報を配布するステップと、
    前記フェールオーバ候補ノードの各々が前記サービスを引き継ぐべきかどうかを判定するための優先順位キーを作業負荷に基づき決定するステップと、
    前記フェールオーバ候補ノードの各々が前記専用クラスタ通信インタフェース手段を介して前記優先順位キーを含む前記メッセージ情報を他のフェールオーバ候補ノードに送信するステップと、
    前記フェールオーバ候補ノードの各々が前記優先順位キーを含むメッセージ情報の受信に応答して、前記共有構成データと前記優先順位キーを含むメッセージ情報とを分析し、その結果に応じて障害ノードの前記サービスを引き継ぐべきかを判定するステップと、
    前記障害ノードの前記サービスを引き継ぐとされた前記フェールオーバ候補ノードが前記共有構成データを更新するステップと、を含む方法。
  2. 第1のフェールオーバ候補が前記障害ノードから前記分散ファイルシステムのサブセットを引き継ぐ場合にのみ、少なくとも第2のフェールオーバ候補にフェールオーバ要求を持ち込む、請求項1に記載の方法。
  3. 前記中央データ記憶域が前記クラスタ内に配置されたシステム・データ・リポジトリである、請求項1または2に記載の方法。
  4. 前記配布された障害を通知するメッセージ情報が少なくとも1つのノードの障害レポートを含む、請求項1ないし3のいずれか一項に記載の方法。
  5. 前記フェールオーバ候補ノードが、前記配布された優先順位キーを含むメッセージ情報を受け取るステップと、
    前記フェールオーバ候補ノードが、他のフェールオーバ候補ノードから受け取ったそれぞれの優先順位キーに基づき最良優先順位キーを決定するステップと、
    前記フェールオーバ候補ノードの優先順位キーと前記最良優先順位キーが同じである場合、前記サービスを引き継ぐ権利を勝ち取るステップと、を含む、請求項1ないし4のいずれか一項に記載の方法。
  6. 前記共有構成データの更新がロック・メカニズムにより処理される、請求項1ないし5のいずれか一項に記載の方法。
  7. 分散ファイルシステムを制御するデータ管理アプリケーションのフェールオーバを処理する方法をコンピュータシステムに実行させるためのプログラムを記憶した記憶媒体であって、
    前記データ管理アプリケーションのサービスを提供できる複数のノードが互いに疎結合してクラスタを構成しており、
    前記分散ファイルシステムは、前記クラスタと、各ノード障害に影響されず、前記クラスタのノード間における通信を実施し、前記ノードの障害回復のために用いるメッセージ情報を配布する専用クラスタ通信インタフェース手段を有し、
    前記分散ファイルシステムを管理するユーザの操作に応答して、前記サービスを提供するノードが所定の条件に基づいて適格である前記クラスタの所与のノードをフェールオーバ候補ノードとして定義するステップと、
    前記サービスを提供するノードが自己に関する構成情報と前記クラスタ内のすべてのフェールオーバ候補ノードに関する構成情報とを共有構成データとして各ノードと独立した中央データ記憶域に記憶するステップと、
    前記サービスを提供するノードに障害が発生した際、前記専用クラスタ通信インタフェース手段が前記フェールオーバ候補ノードに、障害を通知する前記メッセージ情報を配布するステップと、
    前記フェールオーバ候補ノードの各々が前記サービスを引き継ぐべきかどうかを判定するための優先順位キーを作業負荷に基づき決定するステップと、
    前記フェールオーバ候補ノードの各々が前記専用クラスタ通信インタフェース手段を介して前記優先順位キーを含む前記メッセージ情報を他のフェールオーバ候補ノードに送信するステップと、
    前記フェールオーバ候補ノードの各々が前記優先順位キーを含むメッセージ情報の受信に応答して、前記共有構成データと前記優先順位キーを含むメッセージ情報とを分析し、その結果に応じて障害ノードの前記サービスを引き継ぐべきかを判定するステップと、
    前記障害ノードの前記サービスを引き継ぐとされた前記フェールオーバ候補ノードが前記共有構成データを更新するステップと、を含む方法を実行させるためのプログラムを記憶した記憶媒体。
  8. 分散ファイルシステムを制御するデータ管理アプリケーションのフェールオーバを処理するシステムであって、
    前記データ管理アプリケーションのサービスを提供できる複数のノードが互いに疎結合してクラスタを構成しており、
    前記分散ファイルシステムは、前記クラスタと、各ノード障害に影響されず、前記クラスタのノード間における通信を実施し、前記ノードの障害回復のために用いるメッセージ情報を配布する専用クラスタ通信インタフェース手段を備え、
    前記サービスを提供するノードは、前記分散ファイルシステムを管理するユーザの操作に応答して、前記サービスを提供するノードが所定の条件に基づいて適格である前記クラスタの所与のノードをフェールオーバ候補ノードとして定義し、前記サービスを提供するノードが自己に関する構成情報と前記クラスタ内のすべてのフェールオーバ候補ノードに関する構成情報とを共有構成データとして各ノードと独立した中央データ記憶域に記憶し、前記サービスを提供するノードに障害が発生した際、前記専用クラスタ通信インタフェース手段が前記フェールオーバ候補ノードに、障害を通知する前記メッセージ情報を配布し、前記フェールオーバ候補ノードの各々は、前記サービスを引き継ぐべきかどうかを判定するための優先順位キーを作業負荷に基づき決定して、前記専用クラスタ通信インタフェース手段を介して前記優先順位キーを含む前記メッセージ情報を他のフェールオーバ候補ノードに送信し、
    さらに、前記フェールオーバ候補ノードの各々は、前記優先順位キーを含むメッセージ情報の受信に応答して、前記共有構成データと前記優先順位キーを含むメッセージ情報とを分析し、その結果に応じて障害ノードの前記サービスを引き継ぐべきかを判定し、
    前記障害ノードの前記サービスを引き継ぐとされた前記フェールオーバ候補ノードは前記共有構成データを更新するシステム。
  9. 第1のフェールオーバ候補が前記障害ノードから前記分散ファイルシステムのサブセットを引き継ぐ場合にのみ、少なくとも第2のフェールオーバ候補にフェールオーバ要求を持ち込むフェールオーバ処理をカスケードするための手段をさらに含む、請求項8に記載のシステム。
  10. 前記中央データ記憶域が前記クラスタ内に配置されたシステム・データ・リポジトリである、請求項8または9に記載のシステム。
  11. 前記共有構成データを更新するための手段が、障害ノードのサービスを引き継ぐフェールオーバ候補ノードに位置する、請求項8ないし10のいずれか一項に記載のシステム。
JP2001206005A 2000-07-28 2001-07-06 フェールオーバを処理するシステムおよび方法 Expired - Fee Related JP4204769B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00116453.2 2000-07-28
EP00116453 2000-07-28

Publications (2)

Publication Number Publication Date
JP2002091938A JP2002091938A (ja) 2002-03-29
JP4204769B2 true JP4204769B2 (ja) 2009-01-07

Family

ID=8169395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001206005A Expired - Fee Related JP4204769B2 (ja) 2000-07-28 2001-07-06 フェールオーバを処理するシステムおよび方法

Country Status (6)

Country Link
US (2) US6990606B2 (ja)
JP (1) JP4204769B2 (ja)
KR (1) KR100423687B1 (ja)
CN (1) CN1190733C (ja)
DE (1) DE10134492B4 (ja)
SG (1) SG99917A1 (ja)

Families Citing this family (112)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6990606B2 (en) * 2000-07-28 2006-01-24 International Business Machines Corporation Cascading failover of a data management application for shared disk file systems in loosely coupled node clusters
US6890968B2 (en) * 2001-05-16 2005-05-10 Kerr Corporation Prepolymerized filler in dental restorative composite
US7571215B2 (en) * 2001-07-16 2009-08-04 Bea Systems, Inc. Data replication protocol
US7702791B2 (en) 2001-07-16 2010-04-20 Bea Systems, Inc. Hardware load-balancing apparatus for session replication
US7409420B2 (en) * 2001-07-16 2008-08-05 Bea Systems, Inc. Method and apparatus for session replication and failover
US6944785B2 (en) * 2001-07-23 2005-09-13 Network Appliance, Inc. High-availability cluster virtual server system
US7113980B2 (en) * 2001-09-06 2006-09-26 Bea Systems, Inc. Exactly once JMS communication
US6826601B2 (en) * 2001-09-06 2004-11-30 Bea Systems, Inc. Exactly one cache framework
US7392302B2 (en) * 2002-02-21 2008-06-24 Bea Systems, Inc. Systems and methods for automated service migration
US7178050B2 (en) * 2002-02-22 2007-02-13 Bea Systems, Inc. System for highly available transaction recovery for transaction processing systems
US20030177224A1 (en) * 2002-03-15 2003-09-18 Nguyen Minh Q. Clustered/fail-over remote hardware management system
DE60327329D1 (de) * 2002-09-10 2009-06-04 Exagrid Systems Inc Primär- und ferndatensicherung mit knoten-failover
US7814050B2 (en) 2002-10-22 2010-10-12 Brocade Communications Systems, Inc. Disaster recovery
CN1302411C (zh) * 2002-12-31 2007-02-28 联想(北京)有限公司 大型机群系统的集中控制方法
CN1317658C (zh) * 2002-12-31 2007-05-23 联想(北京)有限公司 利用机群节点相互备份的容错方法
US7137040B2 (en) * 2003-02-12 2006-11-14 International Business Machines Corporation Scalable method of continuous monitoring the remotely accessible resources against the node failures for very large clusters
CN1326045C (zh) * 2003-06-09 2007-07-11 浪潮电子信息产业股份有限公司 构建高可用分布式存储系统的方法
US7747717B2 (en) * 2003-08-14 2010-06-29 Oracle International Corporation Fast application notification in a clustered computing system
US20060064400A1 (en) * 2004-09-21 2006-03-23 Oracle International Corporation, A California Corporation Methods, systems and software for identifying and managing database work
US7664847B2 (en) * 2003-08-14 2010-02-16 Oracle International Corporation Managing workload by service
US7225356B2 (en) * 2003-11-06 2007-05-29 Siemens Medical Solutions Health Services Corporation System for managing operational failure occurrences in processing devices
JP4023441B2 (ja) 2003-12-09 2007-12-19 日本電気株式会社 コンピュータシステム及びプログラム
DE102004005128B3 (de) * 2004-02-02 2005-01-05 Fujitsu Siemens Computers Gmbh Anordnung mehrerer Rechner und Verfahren zum Betreiben einer Anordnung mehrerer Rechner bei einem Rechnerausfall
US7584382B2 (en) * 2004-02-19 2009-09-01 Microsoft Corporation Method and system for troubleshooting a misconfiguration of a computer system based on configurations of other computer systems
US7900206B1 (en) * 2004-03-31 2011-03-01 Symantec Operating Corporation Information technology process workflow for data centers
JP4382602B2 (ja) * 2004-04-23 2009-12-16 株式会社日立製作所 リモートコピーシステム
US7451347B2 (en) * 2004-10-08 2008-11-11 Microsoft Corporation Failover scopes for nodes of a computer cluster
US8195976B2 (en) * 2005-06-29 2012-06-05 International Business Machines Corporation Fault-tolerance and fault-containment models for zoning clustered application silos into continuous availability and high availability zones in clustered systems during recovery and maintenance
US8326990B1 (en) 2005-07-15 2012-12-04 Symantec Operating Corporation Automated optimal workload balancing during failover in share-nothing database systems
US7814065B2 (en) * 2005-08-16 2010-10-12 Oracle International Corporation Affinity-based recovery/failover in a cluster environment
WO2007035747A2 (en) * 2005-09-19 2007-03-29 Millennium It (Usa) Inc. Scalable fault tolerant system
JP4730263B2 (ja) * 2005-09-21 2011-07-20 富士ゼロックス株式会社 画像処理装置の保守システム
US7493512B2 (en) * 2005-10-04 2009-02-17 First Data Corporation System and method for providing data services via a network
US7761431B2 (en) * 2006-02-16 2010-07-20 International Business Machines Corporation Consolidating session information for a cluster of sessions in a coupled session environment
JP4699516B2 (ja) * 2006-03-28 2011-06-15 富士通株式会社 名前空間複製プログラム、名前空間複製装置、名前空間複製方法
US7770063B2 (en) 2006-08-26 2010-08-03 International Business Machines Corporation Simulation of failure recovery within clustered systems
US20080077635A1 (en) * 2006-09-22 2008-03-27 Digital Bazaar, Inc. Highly Available Clustered Storage Network
US7992036B2 (en) * 2007-01-22 2011-08-02 International Business Machines Corporation Apparatus, system, and method for volume-level restoration of cluster server data
JP5341317B2 (ja) * 2007-01-30 2013-11-13 セイコーエプソン株式会社 アプリケーション実行システム、コンピュータ、アプリケーション実行システムのアプリケーション実行方法およびプログラム
US8713186B2 (en) * 2007-03-13 2014-04-29 Oracle International Corporation Server-side connection resource pooling
US7734947B1 (en) * 2007-04-17 2010-06-08 Netapp, Inc. System and method for virtual interface failover within a cluster
JP2008269462A (ja) * 2007-04-24 2008-11-06 Hitachi Ltd ノードの管理装置及び方法
US7958385B1 (en) 2007-04-30 2011-06-07 Netapp, Inc. System and method for verification and enforcement of virtual interface failover within a cluster
US8984108B2 (en) * 2007-05-03 2015-03-17 Telefonaktiebolaget L M Ericsson (Publ) Dynamic CLI mapping for clustered software entities
CA2630014C (en) * 2007-05-18 2014-05-27 Nec Infrontia Corporation Main device redundancy configuration and main device replacing method
US7631214B2 (en) * 2007-05-31 2009-12-08 International Business Machines Corporation Failover processing in multi-tier distributed data-handling systems
US7861111B2 (en) * 2007-06-15 2010-12-28 Savvis, Inc. Shared data center disaster recovery systems and methods
US7921324B2 (en) * 2007-07-12 2011-04-05 International Business Machines Corporation Providing file system availability during local path failure of a non-server node
US8527622B2 (en) * 2007-10-12 2013-09-03 Sap Ag Fault tolerance framework for networks of nodes
US8630415B2 (en) * 2008-01-25 2014-01-14 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for authentication service application processes during service reallocation in high availability clusters
CN101552690B (zh) * 2008-03-31 2011-04-06 华为技术有限公司 一种节点维护功能的配置方法、系统及节点设备
US8135981B1 (en) * 2008-06-30 2012-03-13 Symantec Corporation Method, apparatus and system to automate detection of anomalies for storage and replication within a high availability disaster recovery environment
US8399206B2 (en) * 2008-07-10 2013-03-19 Nodality, Inc. Methods for diagnosis, prognosis and methods of treatment
US7827321B2 (en) * 2008-10-02 2010-11-02 International Business Machines Corporation Central processing unit measurement facility
JP4648447B2 (ja) 2008-11-26 2011-03-09 株式会社日立製作所 障害復旧方法、プログラムおよび管理サーバ
US8037364B2 (en) * 2009-01-09 2011-10-11 International Business Machines Corporation Forced management module failover by BMC impeachment consensus
CN101847148B (zh) * 2009-03-23 2013-03-20 国际商业机器公司 实现应用高可用性的方法和装置
CN101854373B (zh) * 2009-04-01 2013-10-09 华为技术有限公司 任务切换方法、服务器节点及集群系统
US8873377B2 (en) * 2009-11-18 2014-10-28 Juniper Networks, Inc. Method and apparatus for hitless failover in networking systems using single database
US8819208B2 (en) 2010-03-05 2014-08-26 Solidfire, Inc. Data deletion in a distributed data storage system
US9154367B1 (en) * 2011-12-27 2015-10-06 Google Inc. Load balancing and content preservation
US9054992B2 (en) 2011-12-27 2015-06-09 Solidfire, Inc. Quality of service policy sets
US9838269B2 (en) 2011-12-27 2017-12-05 Netapp, Inc. Proportional quality of service based on client usage and system metrics
US9098439B2 (en) 2012-01-05 2015-08-04 International Business Machines Corporation Providing a fault tolerant system in a loosely-coupled cluster environment using application checkpoints and logs
CN102609531B (zh) * 2012-02-14 2015-05-06 北京鼎普科技股份有限公司 一种根据关键字反查文件的方法
US8738701B2 (en) * 2012-02-28 2014-05-27 Microsoft Corporation Arbitration of disk ownership in a storage pool
TWI610166B (zh) * 2012-06-04 2018-01-01 飛康國際網路科技股份有限公司 自動災難復原和資料遷移系統及方法
US9753954B2 (en) * 2012-09-14 2017-09-05 Cloudera, Inc. Data node fencing in a distributed file system
US9116860B2 (en) * 2012-12-14 2015-08-25 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Cascading failover of blade servers in a data center
US9122652B2 (en) * 2012-12-17 2015-09-01 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Cascading failover of blade servers in a data center
US9755889B2 (en) * 2013-02-13 2017-09-05 International Business Machines Corporation Service failover and failback using enterprise service bus
US9609086B2 (en) 2013-03-15 2017-03-28 International Business Machines Corporation Virtual machine mobility using OpenFlow
US9596192B2 (en) 2013-03-15 2017-03-14 International Business Machines Corporation Reliable link layer for control links between network controllers and switches
US9444748B2 (en) 2013-03-15 2016-09-13 International Business Machines Corporation Scalable flow and congestion control with OpenFlow
US9118984B2 (en) 2013-03-15 2015-08-25 International Business Machines Corporation Control plane for integrated switch wavelength division multiplexing
US9769074B2 (en) 2013-03-15 2017-09-19 International Business Machines Corporation Network per-flow rate limiting
US9104643B2 (en) * 2013-03-15 2015-08-11 International Business Machines Corporation OpenFlow controller master-slave initialization protocol
US9407560B2 (en) 2013-03-15 2016-08-02 International Business Machines Corporation Software defined network-based load balancing for physical and virtual networks
US10404520B2 (en) 2013-05-29 2019-09-03 Microsoft Technology Licensing, Llc Efficient programmatic memory access over network file access protocols
US9641614B2 (en) 2013-05-29 2017-05-02 Microsoft Technology Licensing, Llc Distributed storage defense in a cluster
CN103366106A (zh) * 2013-06-21 2013-10-23 国家电网公司 远程数据恢复系统客户端安全监控方法
US9170746B2 (en) 2014-01-07 2015-10-27 Netapp, Inc. Clustered raid assimilation management
US20150244795A1 (en) 2014-02-21 2015-08-27 Solidfire, Inc. Data syncing in a distributed system
US9798728B2 (en) 2014-07-24 2017-10-24 Netapp, Inc. System performing data deduplication using a dense tree data structure
US9665432B2 (en) * 2014-08-07 2017-05-30 Microsoft Technology Licensing, Llc Safe data access following storage failure
US9847918B2 (en) 2014-08-12 2017-12-19 Microsoft Technology Licensing, Llc Distributed workload reassignment following communication failure
GB2529436B (en) * 2014-08-20 2016-05-18 Ibm Grouping file system events to perform continuous file system monitoring and backup
US9671960B2 (en) 2014-09-12 2017-06-06 Netapp, Inc. Rate matching technique for balancing segment cleaning and I/O workload
US10133511B2 (en) 2014-09-12 2018-11-20 Netapp, Inc Optimized segment cleaning technique
US9811428B2 (en) 2014-09-22 2017-11-07 Netapp Inc. System and method for handling multi-node failures in a disaster recovery cluster
US20160092287A1 (en) * 2014-09-26 2016-03-31 Intel Corporation Evidence-based replacement of storage nodes
CN105794182B (zh) * 2014-11-12 2017-12-15 华为技术有限公司 分布式系统中锁服务器故障的处理方法及其系统
US9836229B2 (en) 2014-11-18 2017-12-05 Netapp, Inc. N-way merge technique for updating volume metadata in a storage I/O stack
CN104410698B (zh) * 2014-12-03 2019-03-08 天津南大通用数据技术股份有限公司 一种share nothing集群下的发起节点异常处理方法及装置
WO2016098142A1 (ja) * 2014-12-18 2016-06-23 三菱電機株式会社 産業コントローラおよび産業コントローラシステム
US9720601B2 (en) 2015-02-11 2017-08-01 Netapp, Inc. Load balancing technique for a storage array
US9762460B2 (en) 2015-03-24 2017-09-12 Netapp, Inc. Providing continuous context for operational information of a storage system
US9710317B2 (en) 2015-03-30 2017-07-18 Netapp, Inc. Methods to identify, handle and recover from suspect SSDS in a clustered flash array
US9813492B2 (en) * 2015-05-18 2017-11-07 Oracle International Corporation System and method for automatic migration of poller proxy services in a service bus environment
US9740566B2 (en) 2015-07-31 2017-08-22 Netapp, Inc. Snapshot creation workflow
US10235059B2 (en) 2015-12-01 2019-03-19 Netapp, Inc. Technique for maintaining consistent I/O processing throughput in a storage system
US10929022B2 (en) 2016-04-25 2021-02-23 Netapp. Inc. Space savings reporting for storage system supporting snapshot and clones
US10642763B2 (en) 2016-09-20 2020-05-05 Netapp, Inc. Quality of service policy sets
US10474653B2 (en) 2016-09-30 2019-11-12 Oracle International Corporation Flexible in-memory column store placement
US10331523B2 (en) 2017-04-04 2019-06-25 International Business Machines Corporation Recovering a failed clustered system using configuration data fragments
CN107122271B (zh) * 2017-04-13 2020-07-07 华为技术有限公司 一种恢复节点事件的方法、装置及系统
CN111095233B (zh) * 2017-09-28 2023-09-26 深圳清华大学研究院 混合文件系统架构、文件存储、动态迁移及其应用
CA3078476C (en) * 2017-10-31 2022-10-18 Ab Initio Technology Llc Managing a computing cluster using durability level indicators
CN110113395B (zh) * 2019-04-19 2021-11-09 新华三云计算技术有限公司 共享文件系统维护方法及装置
CN110286732B (zh) * 2019-06-27 2021-01-12 华云数据控股集团有限公司 高可用集群掉电自动恢复方法、装置、设备及存储介质
US11347601B1 (en) * 2021-01-28 2022-05-31 Wells Fargo Bank, N.A. Managing data center failure events
US11438224B1 (en) 2022-01-14 2022-09-06 Bank Of America Corporation Systems and methods for synchronizing configurations across multiple computing clusters

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5136498A (en) 1990-09-26 1992-08-04 Honeywell Inc. Method for enacting failover of a 1:1 redundant pair of slave processors
JP2814880B2 (ja) * 1993-06-04 1998-10-27 日本電気株式会社 異なる命令特性を持つ複数のcpuによって構成される計算機システムの制御装置
JP3296378B2 (ja) 1993-08-27 2002-06-24 株式会社東芝 コンピュータバックアップシステム
US5561759A (en) * 1993-12-27 1996-10-01 Sybase, Inc. Fault tolerant computer parallel data processing ring architecture and work rebalancing method under node failure conditions
JP3300776B2 (ja) 1994-03-15 2002-07-08 株式会社日立製作所 並列プロセッサの切替え制御方式
JPH07334468A (ja) 1994-06-07 1995-12-22 Toshiba Corp 負荷分散方式
US5805786A (en) * 1996-07-23 1998-09-08 International Business Machines Corporation Recovery of a name server managing membership of a domain of processors in a distributed computing environment
US5938732A (en) * 1996-12-09 1999-08-17 Sun Microsystems, Inc. Load balancing and failover of network services
US6012150A (en) * 1997-03-27 2000-01-04 International Business Machines Corporation Apparatus for synchronizing operator initiated commands with a failover process in a distributed processing system
US5875290A (en) * 1997-03-27 1999-02-23 International Business Machines Corporation Method and program product for synchronizing operator initiated commands with a failover process in a distributed processing system
JPH11184825A (ja) 1997-12-19 1999-07-09 Mitsubishi Electric Corp クラスタシステム
US6360331B2 (en) * 1998-04-17 2002-03-19 Microsoft Corporation Method and system for transparently failing over application configuration information in a server cluster
US6195760B1 (en) 1998-07-20 2001-02-27 Lucent Technologies Inc Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network
US6859834B1 (en) * 1999-08-13 2005-02-22 Sun Microsystems, Inc. System and method for enabling application server request failover
US6865591B1 (en) * 2000-06-30 2005-03-08 Intel Corporation Apparatus and method for building distributed fault-tolerant/high-availability computed applications
US6990606B2 (en) * 2000-07-28 2006-01-24 International Business Machines Corporation Cascading failover of a data management application for shared disk file systems in loosely coupled node clusters

Also Published As

Publication number Publication date
KR20020010490A (ko) 2002-02-04
DE10134492B4 (de) 2006-02-09
CN1190733C (zh) 2005-02-23
SG99917A1 (en) 2003-11-27
CN1336589A (zh) 2002-02-20
JP2002091938A (ja) 2002-03-29
US7523345B2 (en) 2009-04-21
US6990606B2 (en) 2006-01-24
US20020073354A1 (en) 2002-06-13
KR100423687B1 (ko) 2004-03-18
DE10134492A1 (de) 2002-02-21
US20060010338A1 (en) 2006-01-12

Similar Documents

Publication Publication Date Title
JP4204769B2 (ja) フェールオーバを処理するシステムおよび方法
US9785691B2 (en) Method and apparatus for sequencing transactions globally in a distributed database cluster
US8856091B2 (en) Method and apparatus for sequencing transactions globally in distributed database cluster
JP4307673B2 (ja) マルチクラスタ化コンピュータ・システムを構成及び管理する方法及び装置
CA2284376C (en) Method and apparatus for managing clustered computer systems
Hunt et al. {ZooKeeper}: Wait-free coordination for internet-scale systems
Leon et al. Fail-safe PVM: A portable package for distributed programming with transparent recovery
US6360331B2 (en) Method and system for transparently failing over application configuration information in a server cluster
US20030187927A1 (en) Clustering infrastructure system and method
US20030028514A1 (en) Extended attribute caching in clustered filesystem
US11550820B2 (en) System and method for partition-scoped snapshot creation in a distributed data computing environment
US20030220967A1 (en) High availability application view deployment
Narasimhan et al. Strongly consistent replication and recovery of fault-tolerant CORBA applications
Woo et al. MPICH-GF: Transparent checkpointing and rollback-recovery for grid-enabled MPI processes
CN115997190A (zh) 完全一致的高效非本地存储集群文件系统
US20030191918A1 (en) Data processing arrangement and method
CA2619778C (en) Method and apparatus for sequencing transactions globally in a distributed database cluster with collision monitoring
WO2023029837A1 (zh) 请求处理方法、装置、计算设备及存储介质
Kuhn et al. Oracle Processes
Rahut et al. MyRaft: High Availability in MySQL using Raft.
Swanson et al. MVS/ESA coupled-systems considerations
Dyke et al. RAC Concepts
Zhang et al. ZooKeeper+: The Optimization of Election Algorithm in Complex Network Circumstance
Kyte Oracle Processes
Note When Oracle Processes

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040831

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041125

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20041125

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20041125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050802

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050915

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20051007

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20060707

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080731

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080912

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20081008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081015

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111024

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121024

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121024

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131024

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees