JP4204769B2 - フェールオーバを処理するシステムおよび方法 - Google Patents
フェールオーバを処理するシステムおよび方法 Download PDFInfo
- Publication number
- JP4204769B2 JP4204769B2 JP2001206005A JP2001206005A JP4204769B2 JP 4204769 B2 JP4204769 B2 JP 4204769B2 JP 2001206005 A JP2001206005 A JP 2001206005A JP 2001206005 A JP2001206005 A JP 2001206005A JP 4204769 B2 JP4204769 B2 JP 4204769B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- failover
- service
- cluster
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2035—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Hardware Redundancy (AREA)
Description
【発明の属する技術分野】
本発明は、クラスタ化情報技術環境内で分散されているデータ記憶リソース間で共用される情報の管理という分野に関し、より具体的には、このような疎結合ノード・クラスタで使用する共用ディスク・ファイル・システムのデータ管理のフェールオーバ回復を処理するための方法およびシステムに関する。
【0002】
【従来の技術】
大規模またはネットワーク化したコンピューティング環境を備えた企業では、分散ファイル・システムを使用している場合が多い。近年では、高解像度画像、科学データなどを記憶する必要性により、データ入出力(I/O)と記憶システムのパフォーマンスおよび機能性との間に重大なアンバランスが発生している。したがって、現行の大容量記憶システムのパフォーマンスと容量は大幅に改善しなければならない。
【0003】
このような記憶集約的なコンピューティング環境で費用効果の高いデータ・アクセスを可能にするためには、大容量記憶システムを下にある分散ファイル・システムと統合しなければならない。このため、大容量記憶システムとこのようなファイル・システムを結合すると、ファイル・システムのシームレス・ビューが得られる。
【0004】
データ記憶容量に対する要求が増加し続けるということは、分散記憶システムの管理に関連するコストが記憶域自体のコストより大幅に高くなっていることを暗示している。したがって、データ管理(DM)アプリケーションによる高機能かつ効率的な記憶管理が引き続き必要である。
【0005】
DMアプリケーションは、記憶容量が限られた高速オンライン記憶域と3次記憶アーカイブとの間でデータを移送する。さらに、このアプリケーションは3次アーカイブに記憶されたすべてのデータ用のオンライン・セマンティクスを提供し、すなわち、ユーザはそのデータにアクセスするために管理操作を実行する必要はない。そのうえ、DMアプリケーションは、アーカイブされたデータへのアクセスを認識し、自動的にそのデータをユーザに転送する。そのため、ユーザがデータ・ファイルからデータ・ブロックを読み取ろうと試みたときにDMアプリケーションへの通知が必要になるように、何らかの監視機能を設けなければならない。
【0006】
前述の概念、すなわち、遠隔記憶装置にデータを移送することによりローカル記憶空間を解放することは、一般に階層記憶管理(HSM)として知られている。この記憶管理はユーザにとって透過的なものであり、すなわち、ユーザは依然としてそのデータがローカルである場合のようなビューを有する。
【0007】
ファイルベースのHSMでは、DMアプリケーションは、ファイル属性を保持するだけのプレースホルダとして、いわゆる「スタブ・ファイル」を生成する。このスタブ・ファイルまたはこれに対応する穿孔済みディスク領域(複数も可)にアクセスすると、もう一度そのファイル(またはディスク領域)のデータが遠隔記憶装置から再呼出しされる。通常、HSMは、大量の滅多にアクセスされないデータ(たとえば、アーカイブされた天気図、ビデオ・プレゼンテーション)を記憶するファイル・サーバ上にインストールされる。
【0008】
さらに、前述の分散大容量記憶システムの一部が障害記憶システムのサービスを引き継ぐことができる場合、その記憶システムの可用性、すなわち、下にあるデータ記憶装置とDMアプリケーション(複数も可)との組合せの可用性を改善できることが知られており、通常、「フェールオーバ」と呼ばれる。
【0009】
そのため、本出願人によって開発され販売されているAIX SP(UNIX(R)ベースのスケーラブル・パワー・パラレル・コンピュータ)上で実行される汎用パラレル・ファイル・システム(GPFS)など、複数のホスト・マシン間でのディスクの共用を管理するファイル・システムが知られている。通常のソフトウェア・アプリケーションのようにDMアプリケーションを開発できるようにするために、そのファイル・システムによって実現され、以下の機能を実行するためにデータ管理(DM)アプリケーションが使用するデータ管理アプリケーション・インタフェース(DMApi)(データ管理インタフェース・グループ(DMIG)コンソーシアムによって指定されている)が提案されている。
− 階層記憶管理(HSM)
− データ・バックアップおよび復元
【0010】
DMApiは、堅固でコマーシャルグレードのDMアプリケーションを実現するのに適した環境を提供することを目標としている。共用ディスク環境では、DMApiは、特に、ファイル・システム・オブジェクトのDMアプリケーション・クラッシュ回復およびステートフル制御のための諸機能を含むことができる。
【0011】
特に本発明で対処する疎結合コンピュータ・ノードのクラスタでは、各ノードは、同期または非同期のいずれかになる可能性のある、いわゆる「DMApiイベント」を必要とする記憶管理サポートを提供するDMアプリケーションを含む。DMApiイベントは、そのクラスタの所与のノード上に実現された、下にあるオペレーティング・システムで所与の動作が行われたときに必ずDMアプリケーションに通知できるようにするメカニズムである。このようなメカニズムにより、1カ所の障害を発生している他のノードがDMApiセッションを引き継ぐことができる。DMApiセッションは、DMアプリケーションと、下にあるオペレーティング・システムで実現されたDMApiのカーネル・コンポーネントとの1次通信チャネルである。
【0012】
古典的な1ノード/コンピュータ環境では、システム障害が発生した場合にファイル・システム・サービスが終了する恐れがある。クラスタ環境では、単一ノード障害がシステム内の他の(独立)ノードに影響しない可能性が高い。DMアプリケーションが障害ノードに常駐する場合、アクティブ・クラスタ・ノード上で実行中のプロセスに潜在的に割り込むスタブ済みファイルへのアクセスは使用不能になる。したがって、初期ノード障害による影響を受けていない他のクラスタ・ノードを残すために、DMアプリケーションをアクティブ・クラスタ・ノードに移送し、HSM機能を回復することが望ましい。
【0013】
【発明が解決しようとする課題】
したがって、本発明の一目的は、分散コンピューティング環境内の共用ディスク・ファイル・システムに関するデータ管理アプリケーションのフェールオーバを処理するための方法およびシステムを提供することにある。
【0014】
他の目的は、データ・アクセス・サービスを提供する疎結合ノードのクラスタを有する分散コンピューティング環境でフェールオーバを処理するためのこのような方法およびシステムを提供することにある。
【0015】
さらに他の目的は、このようなクラスタ環境でDMApiベースのHSMアプリケーションのフェールオーバ処理を可能にするこのような方法およびシステムを提供することにある。
【0016】
上記の目的は独立クレームの特徴によって解決される。本発明の有利な実施形態は従属クレームの主題である。
【0017】
【課題を解決するための手段】
本発明による方法は、そのクラスタの所与のノードをフェールオーバ候補ノードとして定義するステップと、すべてのフェールオーバ候補ノードに関する構成情報を記憶するステップと、フェールオーバ候補ノードのうちの少なくとも1つのフェールオーバ候補ノードの障害情報を含みかつこれに限定されないメッセージ情報を配布するステップと、フェールオーバ候補ノードによって障害ノードのサービスを引き継ぐべきかどうかを判定するために配布したメッセージ情報と記憶した構成情報を分析するステップと、少なくとも1つのフェールオーバ候補ノードが障害ノードのサービスを引き継ぐ場合に構成情報を更新するステップによって、上記の目的を達成する。
【0018】
一般に、クラスタ環境には2通りの障害タイプがある。第1のタイプは、あるノードがデータ・アクセス・サービスをもはや提供できないことをそのノードが認識しており、したがって、異なるノード上でデータ・アクセス・サービスを回復するためにフェールオーバ要求をトリガしなければならないことである。あるノードの完全な障害が発生した場合、クラスタ・サービスはフェールオーバ候補ノードに障害イベントを配布する。本発明は、両方のタイプの障害に対処し、唯一のメカニズムを提供する。
【0019】
本発明の下にある特定の概念は、障害時にDMApiセッションを移動できるようにし、その結果、DMアプリケーションのカスケード・フェールオーバを可能にする、ファイル・システムに関するメカニズムを提供することである。このメカニズムは、固有のやり方で分散大容量記憶システムのユーザ(複数も可)により高レベルの可用性を提供する。
【0020】
疎結合システムは、共用メイン・メモリ(RAM)の欠落によって発生するクラスタ・ノードの明白な独立性を特徴とする。このクラスタ機能は、ハードウェア側の何らかの類の高速相互接続と、ノード間通信および共用データ記憶などの諸機能を提供するクラスタ・ソフトウェアに基づくものである。
【0021】
モノリシック(マルチプロセッサ)システムと比較すると、疎結合クラスタ・ノード間の同期に関する問題は2つある。
− システム・ミューテックスと同様の同期ロック・メカニズムの欠落
− 障害ノードに関するローカル構成情報の喪失
【0022】
本発明は、2次記憶域と代替オブジェクト・ロック・メカニズムを使用してこの機能をシミュレートすることにより、上記の問題を克服する。
【0023】
さらに、本発明は有利なことに、スタブ済みファイルにアクセス保証を提供する。
【0024】
本発明の好ましい実施形態では、第1のフェールオーバ候補が障害ノードからファイルシステムのサブセットを引き継ぐ場合にのみ、少なくとも第2のフェールオーバ候補にフェールオーバ要求を持ち込む。このカスケード・メカニズムは、疎結合コンピュータ環境での障害回復の堅固さを大幅に強化するものである。
【0025】
【発明の実施の形態】
図1は、従来技術により経時的に(「時間線」)非常駐ファイルを読み取るためのDMApiモデル・データ・フローを示している。分散クラスタ化コンピュータ環境の図示のノード100は、ローカルに(ここでは図示しない)、たとえば、図示のノードに接続された磁気ディスクにすることができるローカル・ディスクまたは2次記憶域に記憶されたファイル・データへのユーザ・アクセスを制御するための複数の方法を提供するDMアプリケーション110を実行するホスト・コンピュータを含む。ノード100上では、DMApiインプリメンテーション130を備えたオペレーティング・システム・カーネル120が実行されている。
【0026】
遠隔ノード140上には、記憶容量は大きいがデータ・アクセスまたは記憶パフォーマンスが低く、アクセス頻度の低いデータに使用する記憶装置を含む、3次記憶域150が設けられている。3次記憶域150は、ロボット・テープ・ライブラリまたは光ディスク・オートチェンジャである場合が多く、ネットワーク上の他の何らかのホストに接続される場合が多い。2次記憶域と3次記憶域150との間でデータを移動するプロセス160は、データ移送と呼ばれる場合が多い。
【0027】
ファイル・システム・データ(常駐データ)は、ローカル・ディスク上に存在し、おそらく3次記憶域150に複製される。常駐データに対するローカル変更は、3次コピーがあればそれを無効にするものでなければならない。非常駐データは、3次記憶域150にのみ存在し、ユーザがそれにアクセスする前にローカル・ディスクにコピーしておかなければならない。先にそのデータがローカル・ディスクにコピーされていない場合、DMApiデータ・フロー・モデルはそのデータへのアクセスを許可しないことに留意されたい。
【0028】
3次記憶域150からローカル記憶域上のファイルにデータを転送するために、DMアプリケーション110は、管理下領域が設定されている間にファイルに書き込むことができる。DMApiは、イベント生成コードを迂回し、「保護されている」データにアクセスするための特殊インタフェース(ここでは図示しない)を提供する。このようなインタフェースは、不可視入出力と呼ばれる場合が多い。それぞれのセマンティクスは、正規のread(2)およびwrite(2)システム・コールと同様であるが、データ・イベントを生成せず、ファイル・タイムスタンプを修正しない。
【0029】
3次記憶域150にファイル・データを送るために、DMアプリケーション110は、ターゲット・ファイルへのアクセス権を取得する必要がある。専用のDMApiコールを使用すると、ファイル属性とファイル・データの両方を読み出して、遠隔データ・サーバに送ることができる。その後、ローカル記憶域を獲得するために(データ・ホールを穿孔して)データ・セグメントを解放することができる。この「データ・ホール」はいわゆる管理下領域である。DMアクセス権は、この手順後にリリースされる。
【0030】
ファイルシステムからメッセージを受け取るために、DMアプリケーション110は、それが所与のファイルシステムに関して受け取ることを希望する1組のDMイベントを定義する必要がある。とりわけ、このようなイベントは、取付けまたは記憶空間に関するファイルまたはファイルシステム状態イベント(たとえば、空間外通知)への読取り/書込み/打切りアクセスである可能性がある。
【0031】
ユーザ・アプリケーション170が穿孔済みファイル(→その管理下領域)を読み取った場合、DMApiはそのアプリケーションを中断し、メッセージ待ち行列にイベントを送出する。適切なDMイベント処置を備えたDMアプリケーションは、そのイベントを読み出して、遠隔記憶域からのファイル・データを復元することができる。その後、その読取りイベントを引き起こしたオリジナル・アプリケーションを再活動化(非ブロック化)するイベントに対する応答が行われる。
【0032】
チボリ・スペース・マネージャなどのHSMインプリメンテーションは、通常、ローカル記憶空間を自動的に管理する。したがって、ファイルシステムが定義済み使用率たとえば70%を超えるかまたは空間外イベントを生成する場合、DMデーモンは、定義済みの低しきい値に達するまで、生成した候補リストに基づく適格ファイルを遠隔サーバに移送することを開始する。
【0033】
図2は、本発明による4ノード・クラスタ200の初期状態を示している。ノード2は、「/gpfs1」という指定の汎用パラレル・ファイル・システム(GPFS)用のDMサービスを提供している。ノード1および3は、ノード2のサービスを引き継ぐべき潜在的な候補(フェールオーバ候補ノード)である。ノード4上には共用ファイルシステムが実現されておらず、したがって、適格ではない。この構成データはIBMのAIX SP全体の「システム・データ・リポジトリ」(SDR)210に記憶される。ノード間の通信は、ノード障害を追跡するSPグループ・サービス(GS)220により実施され、定義済みのノード・グループ(ここではクラスタに関与するノード)内でメッセージを配布するための通信プロトコルを提供する。
【0034】
クラスタ200内の均一構成は、すべてのフェールオーバ・ノード230〜250に関する構成データをクラスタ200内に配置されたSDR210に記憶することによって保証される。
【0035】
共用環境は、以下のものを把握している必要がある。
・ファイルシステム固有設定を含む、クラスタ200内で管理されるファイルシステムのリスト
・1つまたは複数のファイルシステムを現在管理しているノード
・たとえば遠隔記憶サーバへのアクセス情報のような追加の構成情報
【0036】
さらに、フェールオーバ環境の関与ノードにメッセージ(たとえば、ノードの障害レポート)を配布するために通信インタフェースが設けられている(妥当な障害回復通信プロトコルについては図3を参照)。
【0037】
通信インスタンス(AIX SPグループ・サービスなど)は、関与クラスタ・ノードが管理グループを形成できるようにするAPIを提供する。この通信アーキテクチャの各ノードは、グループ・サービス・インスタンス(サーバ)のクライアント(SP GS界におけるいわゆるサービス「プロバイダ」)である。インタフェースに送られるクライアント・メッセージは、自動的に関与グループ・メンバに配布される。AIX SP GSメッセージ通知はイベント主導のものである(→コールバック機能)。
【0038】
あるノード上のDMアプリケーションがもはやそのサービスを提供できなくなっている場合、フェールオーバ・グループの他のメンバに対してその障害に関する通知を行わなければならない。これは、障害ノードからアクティブに行われる場合もあれば、完全なノード障害(クラッシュ)の場合にはクラスタ通信サービス(たとえば、SP GS)によって報告される場合もある。
【0039】
この障害通知に基づき、障害環境にある潜在的な引継ぎノードは、以前は障害ノードによって管理されていたファイルシステムに関するDMサービスを回復するためのそれぞれの努力を同期させなければならない。各ノードは、障害ノードのサービスを引き継ぐためにそれが適格であるかどうかを判断するために、中央データ・リポジトリ210に記憶された共用構成データを分析する必要がある。この手順の結果は、以下のようになる可能性がある。
1.候補なし: 何も行うことはない − サービスを回復することはできない
2.1つの候補: 追加の同期努力なしにサービスを回復することができる
3.複数の候補: サービスを回復することができるが同期が必要である
【0040】
結果オプション3に関しては、ノードのクラスタ200が共用メモリを介して通信しない場合(たとえば、IBM SPなどの独立マシンのクラスタ)、それは各種ノードを同期させるための余分な努力を要する。障害ノードのファイルシステムを引き継ぐための複数の候補間の同期は以下のいずれかで行うことができる。
a)同時性または
b)非同時性
【0041】
図3は、図2に示すような4ノード・クラスタにおける本発明による方法の第1の実施形態を示している。これは、1つの障害ノード300のサービスを引き継ぐために複数のフェールオーバ候補ノード間で同時性すなわち通信ベースの同期を可能にするものである。
【0042】
あるクラスタの異なるノード間のフェールオーバ機能を提供するために、DMアプリケーションは、障害回復プロセスに関与しなければならないすべてのノード上にインストールする必要がある。初期構成では、これらのノードのうちの少なくとも1つが特定のファイルシステムに関するデータ管理(DM)サービスを提供する。潜在的なフェールオーバ候補310、320は、バックグラウンドでスリープ中のままになるか、または異なるファイルシステムに関するサービスを提供する。
【0043】
適格ノード310、320は、そのグループの他のメンバ310、320、350に配布するために、前述のグループ・サービスなどの専用クラスタ通信サービス330によって処理されるクラスタ通信メカニズムにより1つのメッセージを送出する。このメッセージは優先順位キー340(たとえば、そのノードの作業負荷360に基づくもの)を含む。
【0044】
この方法は好ましくは、AIX SPで使用するシステム・データ・リポジトリ(SDR)が提供するコマンド・インタフェースに基づくブロック化メカニズムを提供する。このSDRにより、所与のデータ・レコード・タイプに関する持続データ・オブジェクトの作成および修正が可能になる。アトミック動作でデータ・オブジェクトをチェックして修正し、その結果、以下のIF-THEN条件付きステップとして本実施形態で実現された共用HSM資源にロック(システム・ミューテックスと同様のもの)を設定することは可能である。
If (lock == 0) then { lock = 1 }
【0045】
このチェックが失敗した場合、呼出し元はしばらくの間待機してからもう一度試みる。ロックに加え、後続のノードはロック固有タイムスタンプ(クラスタ全体で同期したクロックに基づくもの)も更新する必要がある。ロックを保持するノードがクラッシュした場合、待機ノードは永遠にロックにアクセスしようと試みることになるが、これは明らかに望ましくないことである。
【0046】
サービス引継ぎは約60秒もかかる場合がある。あるロックのタイムスタンプがこの60秒より古い場合、候補ノードは、ロックを保持するノードが回復せず、自由にロックの引継ぎを強要できる(タイムスタンプをもう一度更新する)と想定することができる。共用HSM資源のアクセスが完了した後、ロックはゼロにリセットされる。
【0047】
前述の優先順位キーはUNIX(R)の「アップタイム」コマンドに基づくものである。そのうえ、他のデータ「アップタイム」は、最後の15分間のシステム作業負荷をレポートする。レポートした作業負荷が高ければ高いほど、優先順位キーの値が小さくなる。
【0048】
メッセージを受け取るノードは、着信キーとそれ自体のキーを突き合わせることができる。最良キー380はそのサービスを引き継ぐ権利を勝ち取る。キーを送出する潜在的なバックアップ・ノードの数はシステム内では不明なので、投票段階は所与のタイムアウト370後に終了する必要がある。
【0049】
勝利ノードは、その現在アクティブなHSM構成に1つまたは複数のファイルシステムを追加するかまたはHSMサービス380を始動する。DMApiベースのアプリケーションにとって典型的なことに、それは、ターゲット・ファイル・システム(複数も可)のために生成されたすべての着信イベントを引き継ぐようにイベント・マスクを設定する必要がある。サービスを引き継ぐノードは、整合性を保証するために中央データ・リポジトリ内の構成ファイルを更新する必要がある。この更新メカニズムは、競合条件を回避するためにロック・メカニズム(上記を参照)によるものでなければならない。残りは、スリープ中のバックアップのままになるかまたはそれ自体のHSMファイルシステムに関するサービスを続行する。あるノードが投票段階で遅延された場合、そのノードは所有者ファイルで定義されたアクティブ・ノードと障害発生ノードを突き合わせることができる。不一致が存在する場合、引継ぎがすでに行われているので制御しようという試みをやめてしまう。
【0050】
前述したように同時性マルチフェーズ・ハンドシェーク・メカニズムによってこの状況を処理するには何らかの時間の間、状況情報を保持する必要があり、そのうえ、わずかな通信オーバヘッドを伴う。また、初期引継ぎノードは障害ノードのすべてのファイルシステムを管理できない可能性があるので(たとえば、ファイルシステムが搭載されていない)、ファイルシステムごとに投票することも必要である。
【0051】
図4は、フェールオーバ候補ノード間の同期が非同時性(データ・ロックベース)プロトコルにより実施される、他の実施形態を示している。この実施形態は3つのノードを備えた状況で示されている。各ノードは、構成ファイルをロックし、更新し、アンロックするだけでファイルシステムを引き継ごうと競合する可能性がある。クラスタ・データ・リポジトリ内の構成ファイルをロックし修正できたノードは、障害ノードからファイルシステムを引き継ぐ権利を勝ち取る。フェールオーバ要求は、前の引継ぎノードによって対応できない残りのファイルシステムを依然として引き継ぐことができる遅延ノードにさらにカスケードすることになる。図3に示す同時性手法とは対照的に、前述の非同時性フェールオーバ・メカニズムは、フェールオーバ・グループのノード間の明示メッセージを必要としない。
【0052】
障害時には、障害発生ノードは、ファイルシステムからのデータ管理(DM)イベントを処理することができる。このようなイベントを生成するプロセスは、あるファイルのデータが遠隔記憶サーバから再呼出しされた後でDMアプリケーションがそのイベントをリリースするまでDMApi環境によってブロックされる。サービスを引き継ぐノードは、既存のDMApiセッションを使用するか、または何も存在しない場合は新しいDMApiセッションを作成する。さらに、そのノードは障害発生ノードからのセッションを引き受ける。障害発生ノードからの保留イベントは、一時DMApiセッションに移動され、イベントの種類に応じて様々な方法で管理される。これは、ブロックしたプロセスがもう一度リリースされることを保証する。
【0053】
図5に示す例示は、遠隔データ再呼出し要求の引継ぎを示している。GPFSHSMでは、GPFSデーモンが(異常に、ノード・クラッシュにより、ユーザ要求により)休止した場合、DMApiがこの種のイベント引継ぎをサポートする。
【0054】
通信イベント処理の種類に応じて、DMアプリケーションは、並行スレッドの問題を回避するためにある種の待ち行列化が必要になる場合もある。原則として、すべてのプロセス/スレッドは、中央データ・リポジトリ内のロックされたデータ・オブジェクトによってブロックされるが、これは望ましくない使用中待機を引き起こすものである。単一スレッド化環境では、単純なFIFOリストに要求を記憶できるだろう。また、マルチスレッド化環境では、システム・ミューテックスまたは条件変数によって同期を達成できるだろう。
【0055】
最後に、図6は、IBM SP上のAIX用のGPFS HSMにおける本発明のグループ・サービス・インプリメンテーションを示している。
【0056】
図示のSP環境は、以下のものを特徴とする。
・クラスタ全体の通信プロトコルに加え、ノード・クラッシュ用の追跡メカニズムを提供するグループ・サービス(GS)600
・クラスタ全体の構成ファイルを記憶するためのシステム・データ・リポジトリ(SDR)610
【0057】
SPグループ・サービスは、任意のSPノード上に配布され実行中のプロセスからなる通信グループを形成するためのメカニズムを提供する。関与プロセスは、そのグループのすべてのメンバにメッセージを配布することができる。そのうえ、メンバ・プロセスの寿命状況を監視するようグループ・サービスに指示することができるが、これはフェールオーバ・メカニズムをトリガするグループ・メンバにプロセス(→完全ノード)障害をレポートするために使用できる特徴である。
【0058】
AIX SP上のGPFS HSMのタスクは3つのデーモンに分割されている。
・すべてのフェールオーバ/回復活動のフォーカル・ポイントであるdsmwatchd620、630、640
・移送したデータを遠隔記憶サーバから再呼出しすることを担当するdsmrecalld680、690、700
・ファイルシステムの空間外条件と遠隔記憶サーバへの自動データ移送を処理するdsmmonitord650、660、670
【0059】
dsmwatchdは基本的に2つのタスクを履行する。
− メイン・プロセス(DMスレッド)720によって実行される、クラッシュしたdsmmonitordおよびdsmrecalldの回復
− GSコールバック・スレッド730によってトリガされるフェールオーバ環境の管理であって、以下のものを含む
・破壊されたローカル環境(GPFSデーモン・クラッシュ/シャットダウン、ノード・クラッシュ、HSMデーモンの破壊)の場合のアクティブ・フェールオーバ
・遠隔障害ノードのファイルシステムのアクティブ引継ぎ
【0060】
第1のタスク1によれば、DMサービスが立ち上がっていることをチェックし、dsmrecalldが実際に実行中であることを保証するために、dsmwatchdはDMコールによりdsmrecalldを「ピングする」。dsmwatchdがもはやdsmrecalldをピングできなくなった場合、それはdsmrecalldを1回再始動しようと試みることになり、これが成功しなかった場合、DM環境が破壊されたという想定に基づいて異なるノードへのフェールオーバを開始することになる。そのうえ、PIDがもはや存在しない場合にターゲット・デーモンを再始動するために、それはプロセスIDを追跡する。
【0061】
第2のタスク2によれば、SPグループ・サービス(GS)動作は前述のように実現される。この引継ぎメカニズムは好ましくは非同期で機能する。というのは、所与のGS制限により同時動作を行うことができないことが多いからである。複数のフェールオーバ要求はpthreadミューテックスにより待ち行列化される。
【0062】
まとめとして、本発明の構成に関して以下の事項を開示する。
【0063】
(1)サービスを提供する疎結合ノードのクラスタを有する分散コンピューティング環境で共用ディスク・ファイル・システムに関するデータ管理アプリケーションのフェールオーバを処理するための方法において、
前記クラスタの所与のノードをフェールオーバ候補ノードとして定義するステップと、
すべての前記フェールオーバ候補ノードに関する構成情報を記憶するステップと、
前記フェールオーバ候補ノードのうちの少なくとも1つのフェールオーバ候補ノードの障害情報を含みかつこれに限定されないメッセージ情報を配布するステップと、
フェールオーバ候補ノードによって障害ノードのサービスを引き継ぐべきかどうかを判定するために前記配布したメッセージ情報と前記記憶した構成情報を分析するステップと、
少なくとも1つのフェールオーバ候補ノードが障害ノードのサービスを引き継ぐ場合に前記構成情報を更新するステップとを含む方法。
(2)第1のフェールオーバ候補が前記障害ノードから前記ファイルシステムのサブセットを引き継ぐ場合にのみ、少なくとも第2のフェールオーバ候補にフェールオーバ要求を持ち込む、上記(1)に記載の方法。
(3)前記構成情報が前記クラスタ内に配置された中央データ記憶域に記憶される、上記(1)または(2)に記載の方法。
(4)前記配布されたメッセージ情報が少なくとも1つのノードの障害レポートを含む、上記(1)ないし(3)のいずれか一項に記載の方法。
(5)前記フェールオーバ候補ノードが、前記配布されたメッセージ情報の一部として配布された、前記フェールオーバ候補ノードのそれぞれの作業負荷に関連する優先順位キーを計算する、上記(1)ないし(4)のいずれか一項に記載の方法。
(6)前記優先順位キーを受け取る前記フェールオーバ候補ノードが、前記受け取った優先順位キーをそれぞれの優先順位キーと比較し、それにより、最良優先順位キーが前記サービスを引き継ぐ権利を勝ち取る、上記(5)に記載の方法。
(7)前記構成情報の更新がロック・メカニズムにより処理される、上記(1)ないし(6)のいずれか一項に記載の方法。
(8)サービスを提供する疎結合ノードのクラスタを有する分散コンピューティング環境で共用ディスク・ファイル・システムに関するデータ管理アプリケーションのフェールオーバを処理させるためにそこに実施されたコンピュータ可読プログラム・コード手段を有するコンピュータ使用可能媒体を含む製品において、前記製品内の前記コンピュータ可読プログラム・コード手段が、
前記クラスタの所与のノードをフェールオーバ候補ノードとして定義することと、
すべての前記フェールオーバ候補ノードに関する構成情報を記憶することと、
前記フェールオーバ候補ノードのうちの少なくとも1つのフェールオーバ候補ノードの障害情報を含みかつこれに限定されないメッセージ情報を配布することと、
フェールオーバ候補ノードによって障害ノードのサービスを引き継ぐべきかどうかを判定するために前記配布したメッセージ情報と前記記憶した構成情報を分析することと、
少なくとも1つのフェールオーバ候補ノードが障害ノードのサービスを引き継ぐ場合に前記構成情報を更新することをコンピュータに実施させるためのコンピュータ可読プログラム・コード手段を含む製品。
(9)サービスを提供する疎結合ノードのクラスタを有する分散コンピューティング環境で共用ディスク・ファイル・システムに関するデータ管理アプリケーションのフェールオーバを処理するためのシステムにおいて、
フェールオーバ候補ノードに関する構成情報を記憶するためのデータ記憶手段と、
前記フェールオーバ候補ノード間にメッセージ情報を配布するための通信インタフェース手段と、
フェールオーバ候補ノードによって障害ノードのサービスを引き継ぐべきかどうかを判定するために前記メッセージ情報と前記構成情報を分析するための手段と、
少なくとも1つのフェールオーバ候補ノードが障害ノードのサービスを引き継ぐ場合に前記構成情報を更新するための手段とを含むシステム。
(10)第1のフェールオーバ候補が前記障害ノードから前記ファイルシステムのサブセットを引き継ぐ場合にのみ、少なくとも第2のフェールオーバ候補にフェールオーバ要求を持ち込むフェールオーバ処理をカスケードするための手段をさらに含む、上記(9)に記載のシステム。
(11)前記データ記憶手段が前記クラスタ内に配置された中央データ記憶域である、上記(9)または(10)に記載のシステム。
(12)前記構成情報を更新するための手段が、障害ノードのサービスを引き継ぐフェールオーバ候補ノードに位置する、上記(9)ないし(11)のいずれか一項に記載のシステム。
【図面の簡単な説明】
【図1】従来技術により非常駐ファイルを読み取るためのDMApiモデル・データ・フローを示す概略データ・フロー図である。
【図2】本発明によるノード・クラスタの初期状態を示す概略ブロック図である。
【図3】障害ノードのサービスを引き継ぐための複数のフェールオーバ候補ノード間の同時性同期を提供する本発明の第1の実施形態を示すタイム・チャートである。
【図4】非同時性同期を提供する実施形態を示す、図3と同様のタイム・チャートである。
【図5】本発明による遠隔データ再呼出し要求の引継ぎを示すブロック図である。
【図6】本発明の実施例を示す他のブロック図である。
【符号の説明】
300 DMアプリケーション・ノード1
310 DMアプリケーション・ノード2
320 DMアプリケーション・ノード3
330 クラスタ通信サービス
350 DMアプリケーション・ノード4
360 作業に専念するかまたはネットワークが使用中
370 非常に最良のキーであるが、タイムアウト後にグローバルに受け取る
380 タイムアウト前に最良キーがHSMサービスを始動する
390 HSMサービスを始動しようと試みることができるが、ファイルシステム所有者を分析するとすぐに、アクティブ・ノードがすでにそのファイルシステムを管理していることをノードが認識する
Claims (11)
- 分散ファイルシステムを制御するデータ管理アプリケーションのフェールオーバを処理する方法であって、
前記データ管理アプリケーションのサービスを提供できる複数のノードが互いに疎結合してクラスタを構成しており、
前記分散ファイルシステムは、前記クラスタと、各ノード障害に影響されず、前記クラスタのノード間における通信を実施し、前記ノードの障害回復のために用いるメッセージ情報を配布する専用クラスタ通信インタフェース手段を有し、
前記分散ファイルシステムを管理するユーザの操作に応答して、前記サービスを提供するノードが所定の条件に基づいて適格である前記クラスタの所与のノードをフェールオーバ候補ノードとして定義するステップと、
前記サービスを提供するノードが自己に関する構成情報と前記クラスタ内のすべてのフェールオーバ候補ノードに関する構成情報とを共有構成データとして各ノードと独立した中央データ記憶域に記憶するステップと、
前記サービスを提供するノードに障害が発生した際、前記専用クラスタ通信インタフェース手段が前記フェールオーバ候補ノードに、障害を通知する前記メッセージ情報を配布するステップと、
前記フェールオーバ候補ノードの各々が前記サービスを引き継ぐべきかどうかを判定するための優先順位キーを作業負荷に基づき決定するステップと、
前記フェールオーバ候補ノードの各々が前記専用クラスタ通信インタフェース手段を介して前記優先順位キーを含む前記メッセージ情報を他のフェールオーバ候補ノードに送信するステップと、
前記フェールオーバ候補ノードの各々が前記優先順位キーを含むメッセージ情報の受信に応答して、前記共有構成データと前記優先順位キーを含むメッセージ情報とを分析し、その結果に応じて障害ノードの前記サービスを引き継ぐべきかを判定するステップと、
前記障害ノードの前記サービスを引き継ぐとされた前記フェールオーバ候補ノードが前記共有構成データを更新するステップと、を含む方法。 - 第1のフェールオーバ候補が前記障害ノードから前記分散ファイルシステムのサブセットを引き継ぐ場合にのみ、少なくとも第2のフェールオーバ候補にフェールオーバ要求を持ち込む、請求項1に記載の方法。
- 前記中央データ記憶域が前記クラスタ内に配置されたシステム・データ・リポジトリである、請求項1または2に記載の方法。
- 前記配布された障害を通知するメッセージ情報が少なくとも1つのノードの障害レポートを含む、請求項1ないし3のいずれか一項に記載の方法。
- 前記フェールオーバ候補ノードが、前記配布された優先順位キーを含むメッセージ情報を受け取るステップと、
前記フェールオーバ候補ノードが、他のフェールオーバ候補ノードから受け取ったそれぞれの優先順位キーに基づき最良優先順位キーを決定するステップと、
前記フェールオーバ候補ノードの優先順位キーと前記最良優先順位キーが同じである場合、前記サービスを引き継ぐ権利を勝ち取るステップと、を含む、請求項1ないし4のいずれか一項に記載の方法。 - 前記共有構成データの更新がロック・メカニズムにより処理される、請求項1ないし5のいずれか一項に記載の方法。
- 分散ファイルシステムを制御するデータ管理アプリケーションのフェールオーバを処理する方法をコンピュータシステムに実行させるためのプログラムを記憶した記憶媒体であって、
前記データ管理アプリケーションのサービスを提供できる複数のノードが互いに疎結合してクラスタを構成しており、
前記分散ファイルシステムは、前記クラスタと、各ノード障害に影響されず、前記クラスタのノード間における通信を実施し、前記ノードの障害回復のために用いるメッセージ情報を配布する専用クラスタ通信インタフェース手段を有し、
前記分散ファイルシステムを管理するユーザの操作に応答して、前記サービスを提供するノードが所定の条件に基づいて適格である前記クラスタの所与のノードをフェールオーバ候補ノードとして定義するステップと、
前記サービスを提供するノードが自己に関する構成情報と前記クラスタ内のすべてのフェールオーバ候補ノードに関する構成情報とを共有構成データとして各ノードと独立した中央データ記憶域に記憶するステップと、
前記サービスを提供するノードに障害が発生した際、前記専用クラスタ通信インタフェース手段が前記フェールオーバ候補ノードに、障害を通知する前記メッセージ情報を配布するステップと、
前記フェールオーバ候補ノードの各々が前記サービスを引き継ぐべきかどうかを判定するための優先順位キーを作業負荷に基づき決定するステップと、
前記フェールオーバ候補ノードの各々が前記専用クラスタ通信インタフェース手段を介して前記優先順位キーを含む前記メッセージ情報を他のフェールオーバ候補ノードに送信するステップと、
前記フェールオーバ候補ノードの各々が前記優先順位キーを含むメッセージ情報の受信に応答して、前記共有構成データと前記優先順位キーを含むメッセージ情報とを分析し、その結果に応じて障害ノードの前記サービスを引き継ぐべきかを判定するステップと、
前記障害ノードの前記サービスを引き継ぐとされた前記フェールオーバ候補ノードが前記共有構成データを更新するステップと、を含む方法を実行させるためのプログラムを記憶した記憶媒体。 - 分散ファイルシステムを制御するデータ管理アプリケーションのフェールオーバを処理するシステムであって、
前記データ管理アプリケーションのサービスを提供できる複数のノードが互いに疎結合してクラスタを構成しており、
前記分散ファイルシステムは、前記クラスタと、各ノード障害に影響されず、前記クラスタのノード間における通信を実施し、前記ノードの障害回復のために用いるメッセージ情報を配布する専用クラスタ通信インタフェース手段を備え、
前記サービスを提供するノードは、前記分散ファイルシステムを管理するユーザの操作に応答して、前記サービスを提供するノードが所定の条件に基づいて適格である前記クラスタの所与のノードをフェールオーバ候補ノードとして定義し、前記サービスを提供するノードが自己に関する構成情報と前記クラスタ内のすべてのフェールオーバ候補ノードに関する構成情報とを共有構成データとして各ノードと独立した中央データ記憶域に記憶し、前記サービスを提供するノードに障害が発生した際、前記専用クラスタ通信インタフェース手段が前記フェールオーバ候補ノードに、障害を通知する前記メッセージ情報を配布し、前記フェールオーバ候補ノードの各々は、前記サービスを引き継ぐべきかどうかを判定するための優先順位キーを作業負荷に基づき決定して、前記専用クラスタ通信インタフェース手段を介して前記優先順位キーを含む前記メッセージ情報を他のフェールオーバ候補ノードに送信し、
さらに、前記フェールオーバ候補ノードの各々は、前記優先順位キーを含むメッセージ情報の受信に応答して、前記共有構成データと前記優先順位キーを含むメッセージ情報とを分析し、その結果に応じて障害ノードの前記サービスを引き継ぐべきかを判定し、
前記障害ノードの前記サービスを引き継ぐとされた前記フェールオーバ候補ノードは前記共有構成データを更新するシステム。 - 第1のフェールオーバ候補が前記障害ノードから前記分散ファイルシステムのサブセットを引き継ぐ場合にのみ、少なくとも第2のフェールオーバ候補にフェールオーバ要求を持ち込むフェールオーバ処理をカスケードするための手段をさらに含む、請求項8に記載のシステム。
- 前記中央データ記憶域が前記クラスタ内に配置されたシステム・データ・リポジトリである、請求項8または9に記載のシステム。
- 前記共有構成データを更新するための手段が、障害ノードのサービスを引き継ぐフェールオーバ候補ノードに位置する、請求項8ないし10のいずれか一項に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP00116453.2 | 2000-07-28 | ||
EP00116453 | 2000-07-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002091938A JP2002091938A (ja) | 2002-03-29 |
JP4204769B2 true JP4204769B2 (ja) | 2009-01-07 |
Family
ID=8169395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001206005A Expired - Fee Related JP4204769B2 (ja) | 2000-07-28 | 2001-07-06 | フェールオーバを処理するシステムおよび方法 |
Country Status (6)
Country | Link |
---|---|
US (2) | US6990606B2 (ja) |
JP (1) | JP4204769B2 (ja) |
KR (1) | KR100423687B1 (ja) |
CN (1) | CN1190733C (ja) |
DE (1) | DE10134492B4 (ja) |
SG (1) | SG99917A1 (ja) |
Families Citing this family (112)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6990606B2 (en) * | 2000-07-28 | 2006-01-24 | International Business Machines Corporation | Cascading failover of a data management application for shared disk file systems in loosely coupled node clusters |
US6890968B2 (en) * | 2001-05-16 | 2005-05-10 | Kerr Corporation | Prepolymerized filler in dental restorative composite |
US7571215B2 (en) * | 2001-07-16 | 2009-08-04 | Bea Systems, Inc. | Data replication protocol |
US7702791B2 (en) | 2001-07-16 | 2010-04-20 | Bea Systems, Inc. | Hardware load-balancing apparatus for session replication |
US7409420B2 (en) * | 2001-07-16 | 2008-08-05 | Bea Systems, Inc. | Method and apparatus for session replication and failover |
US6944785B2 (en) * | 2001-07-23 | 2005-09-13 | Network Appliance, Inc. | High-availability cluster virtual server system |
US7113980B2 (en) * | 2001-09-06 | 2006-09-26 | Bea Systems, Inc. | Exactly once JMS communication |
US6826601B2 (en) * | 2001-09-06 | 2004-11-30 | Bea Systems, Inc. | Exactly one cache framework |
US7392302B2 (en) * | 2002-02-21 | 2008-06-24 | Bea Systems, Inc. | Systems and methods for automated service migration |
US7178050B2 (en) * | 2002-02-22 | 2007-02-13 | Bea Systems, Inc. | System for highly available transaction recovery for transaction processing systems |
US20030177224A1 (en) * | 2002-03-15 | 2003-09-18 | Nguyen Minh Q. | Clustered/fail-over remote hardware management system |
DE60327329D1 (de) * | 2002-09-10 | 2009-06-04 | Exagrid Systems Inc | Primär- und ferndatensicherung mit knoten-failover |
US7814050B2 (en) | 2002-10-22 | 2010-10-12 | Brocade Communications Systems, Inc. | Disaster recovery |
CN1302411C (zh) * | 2002-12-31 | 2007-02-28 | 联想(北京)有限公司 | 大型机群系统的集中控制方法 |
CN1317658C (zh) * | 2002-12-31 | 2007-05-23 | 联想(北京)有限公司 | 利用机群节点相互备份的容错方法 |
US7137040B2 (en) * | 2003-02-12 | 2006-11-14 | International Business Machines Corporation | Scalable method of continuous monitoring the remotely accessible resources against the node failures for very large clusters |
CN1326045C (zh) * | 2003-06-09 | 2007-07-11 | 浪潮电子信息产业股份有限公司 | 构建高可用分布式存储系统的方法 |
US7747717B2 (en) * | 2003-08-14 | 2010-06-29 | Oracle International Corporation | Fast application notification in a clustered computing system |
US20060064400A1 (en) * | 2004-09-21 | 2006-03-23 | Oracle International Corporation, A California Corporation | Methods, systems and software for identifying and managing database work |
US7664847B2 (en) * | 2003-08-14 | 2010-02-16 | Oracle International Corporation | Managing workload by service |
US7225356B2 (en) * | 2003-11-06 | 2007-05-29 | Siemens Medical Solutions Health Services Corporation | System for managing operational failure occurrences in processing devices |
JP4023441B2 (ja) | 2003-12-09 | 2007-12-19 | 日本電気株式会社 | コンピュータシステム及びプログラム |
DE102004005128B3 (de) * | 2004-02-02 | 2005-01-05 | Fujitsu Siemens Computers Gmbh | Anordnung mehrerer Rechner und Verfahren zum Betreiben einer Anordnung mehrerer Rechner bei einem Rechnerausfall |
US7584382B2 (en) * | 2004-02-19 | 2009-09-01 | Microsoft Corporation | Method and system for troubleshooting a misconfiguration of a computer system based on configurations of other computer systems |
US7900206B1 (en) * | 2004-03-31 | 2011-03-01 | Symantec Operating Corporation | Information technology process workflow for data centers |
JP4382602B2 (ja) * | 2004-04-23 | 2009-12-16 | 株式会社日立製作所 | リモートコピーシステム |
US7451347B2 (en) * | 2004-10-08 | 2008-11-11 | Microsoft Corporation | Failover scopes for nodes of a computer cluster |
US8195976B2 (en) * | 2005-06-29 | 2012-06-05 | International Business Machines Corporation | Fault-tolerance and fault-containment models for zoning clustered application silos into continuous availability and high availability zones in clustered systems during recovery and maintenance |
US8326990B1 (en) | 2005-07-15 | 2012-12-04 | Symantec Operating Corporation | Automated optimal workload balancing during failover in share-nothing database systems |
US7814065B2 (en) * | 2005-08-16 | 2010-10-12 | Oracle International Corporation | Affinity-based recovery/failover in a cluster environment |
WO2007035747A2 (en) * | 2005-09-19 | 2007-03-29 | Millennium It (Usa) Inc. | Scalable fault tolerant system |
JP4730263B2 (ja) * | 2005-09-21 | 2011-07-20 | 富士ゼロックス株式会社 | 画像処理装置の保守システム |
US7493512B2 (en) * | 2005-10-04 | 2009-02-17 | First Data Corporation | System and method for providing data services via a network |
US7761431B2 (en) * | 2006-02-16 | 2010-07-20 | International Business Machines Corporation | Consolidating session information for a cluster of sessions in a coupled session environment |
JP4699516B2 (ja) * | 2006-03-28 | 2011-06-15 | 富士通株式会社 | 名前空間複製プログラム、名前空間複製装置、名前空間複製方法 |
US7770063B2 (en) | 2006-08-26 | 2010-08-03 | International Business Machines Corporation | Simulation of failure recovery within clustered systems |
US20080077635A1 (en) * | 2006-09-22 | 2008-03-27 | Digital Bazaar, Inc. | Highly Available Clustered Storage Network |
US7992036B2 (en) * | 2007-01-22 | 2011-08-02 | International Business Machines Corporation | Apparatus, system, and method for volume-level restoration of cluster server data |
JP5341317B2 (ja) * | 2007-01-30 | 2013-11-13 | セイコーエプソン株式会社 | アプリケーション実行システム、コンピュータ、アプリケーション実行システムのアプリケーション実行方法およびプログラム |
US8713186B2 (en) * | 2007-03-13 | 2014-04-29 | Oracle International Corporation | Server-side connection resource pooling |
US7734947B1 (en) * | 2007-04-17 | 2010-06-08 | Netapp, Inc. | System and method for virtual interface failover within a cluster |
JP2008269462A (ja) * | 2007-04-24 | 2008-11-06 | Hitachi Ltd | ノードの管理装置及び方法 |
US7958385B1 (en) | 2007-04-30 | 2011-06-07 | Netapp, Inc. | System and method for verification and enforcement of virtual interface failover within a cluster |
US8984108B2 (en) * | 2007-05-03 | 2015-03-17 | Telefonaktiebolaget L M Ericsson (Publ) | Dynamic CLI mapping for clustered software entities |
CA2630014C (en) * | 2007-05-18 | 2014-05-27 | Nec Infrontia Corporation | Main device redundancy configuration and main device replacing method |
US7631214B2 (en) * | 2007-05-31 | 2009-12-08 | International Business Machines Corporation | Failover processing in multi-tier distributed data-handling systems |
US7861111B2 (en) * | 2007-06-15 | 2010-12-28 | Savvis, Inc. | Shared data center disaster recovery systems and methods |
US7921324B2 (en) * | 2007-07-12 | 2011-04-05 | International Business Machines Corporation | Providing file system availability during local path failure of a non-server node |
US8527622B2 (en) * | 2007-10-12 | 2013-09-03 | Sap Ag | Fault tolerance framework for networks of nodes |
US8630415B2 (en) * | 2008-01-25 | 2014-01-14 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for authentication service application processes during service reallocation in high availability clusters |
CN101552690B (zh) * | 2008-03-31 | 2011-04-06 | 华为技术有限公司 | 一种节点维护功能的配置方法、系统及节点设备 |
US8135981B1 (en) * | 2008-06-30 | 2012-03-13 | Symantec Corporation | Method, apparatus and system to automate detection of anomalies for storage and replication within a high availability disaster recovery environment |
US8399206B2 (en) * | 2008-07-10 | 2013-03-19 | Nodality, Inc. | Methods for diagnosis, prognosis and methods of treatment |
US7827321B2 (en) * | 2008-10-02 | 2010-11-02 | International Business Machines Corporation | Central processing unit measurement facility |
JP4648447B2 (ja) | 2008-11-26 | 2011-03-09 | 株式会社日立製作所 | 障害復旧方法、プログラムおよび管理サーバ |
US8037364B2 (en) * | 2009-01-09 | 2011-10-11 | International Business Machines Corporation | Forced management module failover by BMC impeachment consensus |
CN101847148B (zh) * | 2009-03-23 | 2013-03-20 | 国际商业机器公司 | 实现应用高可用性的方法和装置 |
CN101854373B (zh) * | 2009-04-01 | 2013-10-09 | 华为技术有限公司 | 任务切换方法、服务器节点及集群系统 |
US8873377B2 (en) * | 2009-11-18 | 2014-10-28 | Juniper Networks, Inc. | Method and apparatus for hitless failover in networking systems using single database |
US8819208B2 (en) | 2010-03-05 | 2014-08-26 | Solidfire, Inc. | Data deletion in a distributed data storage system |
US9154367B1 (en) * | 2011-12-27 | 2015-10-06 | Google Inc. | Load balancing and content preservation |
US9054992B2 (en) | 2011-12-27 | 2015-06-09 | Solidfire, Inc. | Quality of service policy sets |
US9838269B2 (en) | 2011-12-27 | 2017-12-05 | Netapp, Inc. | Proportional quality of service based on client usage and system metrics |
US9098439B2 (en) | 2012-01-05 | 2015-08-04 | International Business Machines Corporation | Providing a fault tolerant system in a loosely-coupled cluster environment using application checkpoints and logs |
CN102609531B (zh) * | 2012-02-14 | 2015-05-06 | 北京鼎普科技股份有限公司 | 一种根据关键字反查文件的方法 |
US8738701B2 (en) * | 2012-02-28 | 2014-05-27 | Microsoft Corporation | Arbitration of disk ownership in a storage pool |
TWI610166B (zh) * | 2012-06-04 | 2018-01-01 | 飛康國際網路科技股份有限公司 | 自動災難復原和資料遷移系統及方法 |
US9753954B2 (en) * | 2012-09-14 | 2017-09-05 | Cloudera, Inc. | Data node fencing in a distributed file system |
US9116860B2 (en) * | 2012-12-14 | 2015-08-25 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Cascading failover of blade servers in a data center |
US9122652B2 (en) * | 2012-12-17 | 2015-09-01 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Cascading failover of blade servers in a data center |
US9755889B2 (en) * | 2013-02-13 | 2017-09-05 | International Business Machines Corporation | Service failover and failback using enterprise service bus |
US9609086B2 (en) | 2013-03-15 | 2017-03-28 | International Business Machines Corporation | Virtual machine mobility using OpenFlow |
US9596192B2 (en) | 2013-03-15 | 2017-03-14 | International Business Machines Corporation | Reliable link layer for control links between network controllers and switches |
US9444748B2 (en) | 2013-03-15 | 2016-09-13 | International Business Machines Corporation | Scalable flow and congestion control with OpenFlow |
US9118984B2 (en) | 2013-03-15 | 2015-08-25 | International Business Machines Corporation | Control plane for integrated switch wavelength division multiplexing |
US9769074B2 (en) | 2013-03-15 | 2017-09-19 | International Business Machines Corporation | Network per-flow rate limiting |
US9104643B2 (en) * | 2013-03-15 | 2015-08-11 | International Business Machines Corporation | OpenFlow controller master-slave initialization protocol |
US9407560B2 (en) | 2013-03-15 | 2016-08-02 | International Business Machines Corporation | Software defined network-based load balancing for physical and virtual networks |
US10404520B2 (en) | 2013-05-29 | 2019-09-03 | Microsoft Technology Licensing, Llc | Efficient programmatic memory access over network file access protocols |
US9641614B2 (en) | 2013-05-29 | 2017-05-02 | Microsoft Technology Licensing, Llc | Distributed storage defense in a cluster |
CN103366106A (zh) * | 2013-06-21 | 2013-10-23 | 国家电网公司 | 远程数据恢复系统客户端安全监控方法 |
US9170746B2 (en) | 2014-01-07 | 2015-10-27 | Netapp, Inc. | Clustered raid assimilation management |
US20150244795A1 (en) | 2014-02-21 | 2015-08-27 | Solidfire, Inc. | Data syncing in a distributed system |
US9798728B2 (en) | 2014-07-24 | 2017-10-24 | Netapp, Inc. | System performing data deduplication using a dense tree data structure |
US9665432B2 (en) * | 2014-08-07 | 2017-05-30 | Microsoft Technology Licensing, Llc | Safe data access following storage failure |
US9847918B2 (en) | 2014-08-12 | 2017-12-19 | Microsoft Technology Licensing, Llc | Distributed workload reassignment following communication failure |
GB2529436B (en) * | 2014-08-20 | 2016-05-18 | Ibm | Grouping file system events to perform continuous file system monitoring and backup |
US9671960B2 (en) | 2014-09-12 | 2017-06-06 | Netapp, Inc. | Rate matching technique for balancing segment cleaning and I/O workload |
US10133511B2 (en) | 2014-09-12 | 2018-11-20 | Netapp, Inc | Optimized segment cleaning technique |
US9811428B2 (en) | 2014-09-22 | 2017-11-07 | Netapp Inc. | System and method for handling multi-node failures in a disaster recovery cluster |
US20160092287A1 (en) * | 2014-09-26 | 2016-03-31 | Intel Corporation | Evidence-based replacement of storage nodes |
CN105794182B (zh) * | 2014-11-12 | 2017-12-15 | 华为技术有限公司 | 分布式系统中锁服务器故障的处理方法及其系统 |
US9836229B2 (en) | 2014-11-18 | 2017-12-05 | Netapp, Inc. | N-way merge technique for updating volume metadata in a storage I/O stack |
CN104410698B (zh) * | 2014-12-03 | 2019-03-08 | 天津南大通用数据技术股份有限公司 | 一种share nothing集群下的发起节点异常处理方法及装置 |
WO2016098142A1 (ja) * | 2014-12-18 | 2016-06-23 | 三菱電機株式会社 | 産業コントローラおよび産業コントローラシステム |
US9720601B2 (en) | 2015-02-11 | 2017-08-01 | Netapp, Inc. | Load balancing technique for a storage array |
US9762460B2 (en) | 2015-03-24 | 2017-09-12 | Netapp, Inc. | Providing continuous context for operational information of a storage system |
US9710317B2 (en) | 2015-03-30 | 2017-07-18 | Netapp, Inc. | Methods to identify, handle and recover from suspect SSDS in a clustered flash array |
US9813492B2 (en) * | 2015-05-18 | 2017-11-07 | Oracle International Corporation | System and method for automatic migration of poller proxy services in a service bus environment |
US9740566B2 (en) | 2015-07-31 | 2017-08-22 | Netapp, Inc. | Snapshot creation workflow |
US10235059B2 (en) | 2015-12-01 | 2019-03-19 | Netapp, Inc. | Technique for maintaining consistent I/O processing throughput in a storage system |
US10929022B2 (en) | 2016-04-25 | 2021-02-23 | Netapp. Inc. | Space savings reporting for storage system supporting snapshot and clones |
US10642763B2 (en) | 2016-09-20 | 2020-05-05 | Netapp, Inc. | Quality of service policy sets |
US10474653B2 (en) | 2016-09-30 | 2019-11-12 | Oracle International Corporation | Flexible in-memory column store placement |
US10331523B2 (en) | 2017-04-04 | 2019-06-25 | International Business Machines Corporation | Recovering a failed clustered system using configuration data fragments |
CN107122271B (zh) * | 2017-04-13 | 2020-07-07 | 华为技术有限公司 | 一种恢复节点事件的方法、装置及系统 |
CN111095233B (zh) * | 2017-09-28 | 2023-09-26 | 深圳清华大学研究院 | 混合文件系统架构、文件存储、动态迁移及其应用 |
CA3078476C (en) * | 2017-10-31 | 2022-10-18 | Ab Initio Technology Llc | Managing a computing cluster using durability level indicators |
CN110113395B (zh) * | 2019-04-19 | 2021-11-09 | 新华三云计算技术有限公司 | 共享文件系统维护方法及装置 |
CN110286732B (zh) * | 2019-06-27 | 2021-01-12 | 华云数据控股集团有限公司 | 高可用集群掉电自动恢复方法、装置、设备及存储介质 |
US11347601B1 (en) * | 2021-01-28 | 2022-05-31 | Wells Fargo Bank, N.A. | Managing data center failure events |
US11438224B1 (en) | 2022-01-14 | 2022-09-06 | Bank Of America Corporation | Systems and methods for synchronizing configurations across multiple computing clusters |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5136498A (en) | 1990-09-26 | 1992-08-04 | Honeywell Inc. | Method for enacting failover of a 1:1 redundant pair of slave processors |
JP2814880B2 (ja) * | 1993-06-04 | 1998-10-27 | 日本電気株式会社 | 異なる命令特性を持つ複数のcpuによって構成される計算機システムの制御装置 |
JP3296378B2 (ja) | 1993-08-27 | 2002-06-24 | 株式会社東芝 | コンピュータバックアップシステム |
US5561759A (en) * | 1993-12-27 | 1996-10-01 | Sybase, Inc. | Fault tolerant computer parallel data processing ring architecture and work rebalancing method under node failure conditions |
JP3300776B2 (ja) | 1994-03-15 | 2002-07-08 | 株式会社日立製作所 | 並列プロセッサの切替え制御方式 |
JPH07334468A (ja) | 1994-06-07 | 1995-12-22 | Toshiba Corp | 負荷分散方式 |
US5805786A (en) * | 1996-07-23 | 1998-09-08 | International Business Machines Corporation | Recovery of a name server managing membership of a domain of processors in a distributed computing environment |
US5938732A (en) * | 1996-12-09 | 1999-08-17 | Sun Microsystems, Inc. | Load balancing and failover of network services |
US6012150A (en) * | 1997-03-27 | 2000-01-04 | International Business Machines Corporation | Apparatus for synchronizing operator initiated commands with a failover process in a distributed processing system |
US5875290A (en) * | 1997-03-27 | 1999-02-23 | International Business Machines Corporation | Method and program product for synchronizing operator initiated commands with a failover process in a distributed processing system |
JPH11184825A (ja) | 1997-12-19 | 1999-07-09 | Mitsubishi Electric Corp | クラスタシステム |
US6360331B2 (en) * | 1998-04-17 | 2002-03-19 | Microsoft Corporation | Method and system for transparently failing over application configuration information in a server cluster |
US6195760B1 (en) | 1998-07-20 | 2001-02-27 | Lucent Technologies Inc | Method and apparatus for providing failure detection and recovery with predetermined degree of replication for distributed applications in a network |
US6859834B1 (en) * | 1999-08-13 | 2005-02-22 | Sun Microsystems, Inc. | System and method for enabling application server request failover |
US6865591B1 (en) * | 2000-06-30 | 2005-03-08 | Intel Corporation | Apparatus and method for building distributed fault-tolerant/high-availability computed applications |
US6990606B2 (en) * | 2000-07-28 | 2006-01-24 | International Business Machines Corporation | Cascading failover of a data management application for shared disk file systems in loosely coupled node clusters |
-
2001
- 2001-06-15 US US09/883,113 patent/US6990606B2/en not_active Expired - Fee Related
- 2001-07-06 JP JP2001206005A patent/JP4204769B2/ja not_active Expired - Fee Related
- 2001-07-10 DE DE10134492A patent/DE10134492B4/de not_active Expired - Fee Related
- 2001-07-12 SG SG200104276A patent/SG99917A1/en unknown
- 2001-07-21 KR KR10-2001-0044036A patent/KR100423687B1/ko not_active IP Right Cessation
- 2001-07-27 CN CNB011246634A patent/CN1190733C/zh not_active Expired - Lifetime
-
2005
- 2005-09-01 US US11/219,106 patent/US7523345B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR20020010490A (ko) | 2002-02-04 |
DE10134492B4 (de) | 2006-02-09 |
CN1190733C (zh) | 2005-02-23 |
SG99917A1 (en) | 2003-11-27 |
CN1336589A (zh) | 2002-02-20 |
JP2002091938A (ja) | 2002-03-29 |
US7523345B2 (en) | 2009-04-21 |
US6990606B2 (en) | 2006-01-24 |
US20020073354A1 (en) | 2002-06-13 |
KR100423687B1 (ko) | 2004-03-18 |
DE10134492A1 (de) | 2002-02-21 |
US20060010338A1 (en) | 2006-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4204769B2 (ja) | フェールオーバを処理するシステムおよび方法 | |
US9785691B2 (en) | Method and apparatus for sequencing transactions globally in a distributed database cluster | |
US8856091B2 (en) | Method and apparatus for sequencing transactions globally in distributed database cluster | |
JP4307673B2 (ja) | マルチクラスタ化コンピュータ・システムを構成及び管理する方法及び装置 | |
CA2284376C (en) | Method and apparatus for managing clustered computer systems | |
Hunt et al. | {ZooKeeper}: Wait-free coordination for internet-scale systems | |
Leon et al. | Fail-safe PVM: A portable package for distributed programming with transparent recovery | |
US6360331B2 (en) | Method and system for transparently failing over application configuration information in a server cluster | |
US20030187927A1 (en) | Clustering infrastructure system and method | |
US20030028514A1 (en) | Extended attribute caching in clustered filesystem | |
US11550820B2 (en) | System and method for partition-scoped snapshot creation in a distributed data computing environment | |
US20030220967A1 (en) | High availability application view deployment | |
Narasimhan et al. | Strongly consistent replication and recovery of fault-tolerant CORBA applications | |
Woo et al. | MPICH-GF: Transparent checkpointing and rollback-recovery for grid-enabled MPI processes | |
CN115997190A (zh) | 完全一致的高效非本地存储集群文件系统 | |
US20030191918A1 (en) | Data processing arrangement and method | |
CA2619778C (en) | Method and apparatus for sequencing transactions globally in a distributed database cluster with collision monitoring | |
WO2023029837A1 (zh) | 请求处理方法、装置、计算设备及存储介质 | |
Kuhn et al. | Oracle Processes | |
Rahut et al. | MyRaft: High Availability in MySQL using Raft. | |
Swanson et al. | MVS/ESA coupled-systems considerations | |
Dyke et al. | RAC Concepts | |
Zhang et al. | ZooKeeper+: The Optimization of Election Algorithm in Complex Network Circumstance | |
Kyte | Oracle Processes | |
Note When | Oracle Processes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040831 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041125 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20041125 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20041125 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050802 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050915 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20051007 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20060707 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080731 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080912 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20081008 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081015 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111024 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121024 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121024 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131024 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |