Nothing Special   »   [go: up one dir, main page]

JP3156654B2 - 二重化コンピュータシステムおよびその運用方法 - Google Patents

二重化コンピュータシステムおよびその運用方法

Info

Publication number
JP3156654B2
JP3156654B2 JP29892897A JP29892897A JP3156654B2 JP 3156654 B2 JP3156654 B2 JP 3156654B2 JP 29892897 A JP29892897 A JP 29892897A JP 29892897 A JP29892897 A JP 29892897A JP 3156654 B2 JP3156654 B2 JP 3156654B2
Authority
JP
Japan
Prior art keywords
output
storage device
failure
fault
main storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP29892897A
Other languages
English (en)
Other versions
JPH11134211A (ja
Inventor
克美 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP29892897A priority Critical patent/JP3156654B2/ja
Publication of JPH11134211A publication Critical patent/JPH11134211A/ja
Application granted granted Critical
Publication of JP3156654B2 publication Critical patent/JP3156654B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は二重化コンピュータ
システムおよびその運用方法に関し、特に主記憶装置の
障害時の処理に適応する二重化コンピュータシステムお
よびその運用方法に関する。
【0002】
【従来の技術】従来、二重化コンピュータシステムは処
理内容の高度化とともにその信頼性の向上を図るために
活用されている。そして、その運用においては、通常、
緻密な障害対策や復旧方法が策定されている。
【0003】たとえば、特開平8−22398号公報に
よれば、A系およびB系を有する二重化コンピュータシ
ステムにおいて、いずれかの系が正常であればその系に
よって片系運転を継続し、その間に異常な系の復旧を図
り二重化系に戻すようにしている。さらに片系運転中に
障害が発生した場合には、無条件にシステムダウンにし
ている。なお、障害が主記憶装置に発生した場合にも、
上記と同様な手順で運用している。
【0004】
【発明が解決しようとする課題】上記のような従来の二
重化コンピュータシステムは次の問題点を有する。
【0005】すなわち、二重化された機能装置が同期し
て動作するコンピュータシステムにおいては、主記憶も
二重化されているので、片系で主記憶の訂正可能障害が
発生しても両系の同期を取るために障害の訂正を行わ
ず、また当該障害が固定的障害であっても主記憶を縮退
せず、単純に障害となった系を切り離し正常な他系によ
り動作を継続する方式がとられている。したがって主記
憶の障害によって片系で動作を継続中に更なる主記憶障
害が発生した場合には即座にシステムダウンとなってし
まう。
【0006】その理由は両系で同期して動作中に片系で
主記憶障害が発生した場合に、訂正可能障害時に障害系
のエラー訂正を行うと、正常な系と同期ずれを起こす。
また、障害系と正常系が同期ずれを起こさないようにす
るためには、障害系からビジー信号を正常系に対し発行
し正常系を待たせる制御が必要となり、制御が複雑とな
るとともに障害系の訂正のための余分な訂正サイクルが
発生し、性能劣化の要因となる。さらに、当該障害が固
定的に発生した場合でも、メモリディアロケートによる
主記憶の縮退運転を行うと、両系の同期をとる為に、正
常な系の主記憶までも縮退してしまう。したがって主記
憶資源の有効活用ができず、性能の劣化になる。
【0007】本発明の目的は、上記の欠点を改善し、主
記憶障害が発生した場合にその障害を特定しエラーの訂
正やメモリの縮退を実行してシステムの運用を継続し、
その間に二重化システムへの復旧を図るようにした二重
化コンピュータシステムおよびその運用方法を提供する
ことにある。
【0008】
【課題を解決するための手段】本発明の二重化コンピュ
ータシステムは、中央処理装置,主記憶装置,および入
出力制御装置をそれぞれ含む第一および第二の機能装置
を複数のバスによって相互に接続し同期して動作する二
重化コンピュータシステムにおいて、前記第一および第
二の機能装置はそれぞれ、自主記憶装置の障害を検出す
る障害検出手段と、前記障害を検出したとき自主記憶装
の出力を抑止する出力抑止手段と、他主記憶装置が障
害によってシステムから切り離されたか否かを自制御手
に示すステータス保持手段と、自主記憶装置の障害が
訂正可能の場合には前記障害を訂正するエラー訂正手段
と、前記障害検出手段が障害を検出した場合に前記ステ
ータス保持手段を参照し,他主記憶装置がシステムから
切り離されていないときには前記出力抑止手段の出力を
選択する第一の指示を送出し,前記他主記憶装置がシス
テムから切り離されているとき前記障害が訂正可能であ
れば前記エラー訂正手段の出力を選択する第二の指示を
送出する制御手段と、前記第一の指示に基いて前記出力
抑止手段の出力により自主記憶装置の出力を抑止し,前
記第二の指示に基づいて前記エラー訂正手段の出力を送
出するセレクタとを有して構成される。
【0009】さらに、本発明の二重化コンピュータシス
テムにおいて、前記制御手段は他主記憶装置がシステム
から切り離されている場合に自主記憶装置の障害が訂正
不能の固定的な障害のときには前記障害を含むメモリブ
ロックを切り離して処理を継続するメモリディアロケー
ション機能を具備する。
【0010】
【0011】また、本発明の二重化コンピュータシステ
ムの運用方法は、中央処理装置,主記憶装置,および入
出力制御装置をそれぞれ含む第一および第二の機能装置
を複数のバスによって相互に接続し同期して動作する二
重化コンピュータシステムにおいて、前記第一および第
二の機能装置はそれぞれ、自主記憶装置の障害を検出す
る障害検出手段と、前記障害を検出したとき自主記憶装
の出力を抑止する出力抑止手段と、他主記憶装置が障
害によってシステムから切り離されたか否かを自制御手
に示すステータス保持手段と、自主記憶装置の障害が
訂正可能の場合には前記障害を訂正するエラー訂正手段
とを備え、前記障害検出手段が障害を検出した場合に前
記ステータス保持手段を参照し、他主記憶装置がシステ
ムから切り離されていないときには前記出力抑止手段に
よって出力を抑止するとともに自主記憶装置をシステム
から切り離し他主記憶装置によって処理を継続し、前記
他主記憶装置がシステムから切り離されているとき前記
障害が訂正可能であれば前記エラー訂正手段によって前
記障害を訂正し処理を継続するようにして実現される。
【0012】さらに、本発明の二重化コンピュータシス
テムの運用方法において、他主記憶装置がシステムから
切り離されている場合に自主記憶装置の障害が訂正不能
の固定的な障害のときには前記障害を含むメモリブロッ
クを切り離して処理を継続するメモリディアロケーショ
ンを実行するようにして実現される。
【0013】
【発明の実施の形態】以下、本発明について図面を参照
しながら説明する。
【0014】図1は本発明の実施の一形態を示すブロッ
ク図である。同図において、本発明による二重化コンピ
ュータシステムは、中央処理装置(以下、CPUとい
う。)a5と主記憶装置a7と入出力制御装置(以下、
IOPという。)a25とから構成される機能装置a1
と、前記機能装置a1と同期して動作する。CPUb6
と主記憶装置b8とIOPb26とから構成される機能
装置b2と、前記機能装置a1およびb2の構成要素で
あるCPUa5およびb6,主記憶装置a7およびb
8,IOPa25およびb26の各々に接続され各構成
要素間のデータ転送を行うバスa3およびb4とから構
成されている。
【0015】そして、主記憶装置a7は、主記憶部A9
と、主記憶部A9の障害を検出する障害検出手段a11
と、他系の主記憶部に障害があったことが検出され他系
の主記憶装置がシステムから切り離されたことを保持す
るステータス保持手段a13と、主記憶部a9が訂正可
能障害となった場合にエラー訂正を行い訂正後のデータ
を送出するエラー訂正回路a17と、主記憶部a9が障
害となった場合に出力抑止を行う出力抑止回路a19
と、主記憶部a9の出力,エラー訂正回路a17の出
力,あるいは出力抑止回路a19の出力を選択するセレ
クタa21と、障害検出手段a11により主記憶部a9
の障害が検出された場合にステータス保持手段a13の
ステータスをチェックしセレクタa21へ選択指示を出
す制御手段a15とを備える。
【0016】同様に主記憶装置b8は、主記憶部b10
と、障害検出手段b12と、ステータス保持手段b14
と、エラー訂正回路b18と、出力抑止回路b20と、
セレクタb22と、制御手段b16とを備える。
【0017】図2は上記の二重化コンピュータシステム
の動作を示す流れ図である。
【0018】まず、二重化コンピュータシステムの各構
成要素が完全に同期して動作しているものとする。この
ときに、主記憶部a9で障害が発生した場合、障害検出
手段a11にて障害を検出する(S31)。次に、主記
憶部a9の障害が検出されると、制御手段a15にて、
ステータス保持手段a13の内容から二重化両系動作中
か、片系動作中かをテストする(S32)。
【0019】ここでは、二重化動作中であった事からテ
スト結果はNOとなり、制御手段a15は出力抑止回路
a19の出力を選択するようセレクタa21を制御する
(S33)。従って、バスa3およびb4へは主記憶装
置a7からの出力は送出されずシステムから切り離され
た状態となり、主記憶装置b8側のみ出力され、システ
ムとしては主記憶部a9の障害に影響されず動作を継続
する。
【0020】次に、主記憶装置a7はセルフテストが実
行され(S34)、間欠障害の場合はセルフテストOK
となりシステムは再組み込みが行われ(S35)、固定
障害の場合はセルフテストNGとなり障害検出手段a1
1から主記憶装置b8のステータス保持手段b14へ主
記憶装置a7が障害により切り離されたことを示すステ
ータスビットをセットする(S37)。
【0021】通常の場合、障害となった主記憶装置a7
の保守交換が行われる事により、主記憶装置a7の再組
み込みが行われ(S35)、ステータス保守手段b14
のステータスビットはリセットされ(S38,39)、
二重化動作に戻ることになる(S36)。しかしながら
保守交換が実行されるまでに、正常な片系の主記憶部b
8が障害とならないとは限らない。
【0022】次に主記憶装置a7の保守交換以前に主記
憶装置b8が障害となった場合について説明する。
【0023】障害となった主記憶装置a7をシステムか
ら切り離し、主記憶装置b8の片系動作中に主記憶装置
b8内の主記憶部b10で障害が発生すると、障害検出
手段b12が障害の発生を検出する(S31)。次に、
主記憶部b10の障害が検出されると、制御手段b16
にて、ステータス保持手段b14の内容から二重化両系
動作中か,片系動作中かをテストする(S32)。
【0024】ここでは、既に主記憶装置a7は切り離さ
れており、主記憶装置b8のみの片系動作中であること
がステータス保持手段b14によって示されているの
で、制御手段b16はエラー訂正回路b18によってエ
ラー訂正されたデータを選択するようにセレクタb22
を制御する。
【0025】エラー訂正回路b18では、主記憶部b1
0の障害が訂正可能障害であった場合はエラー訂正を行
うが(S40,41)、訂正不可障害の場合は正常なデ
ータを送出できないためシステムダウンとなる(S4
4)。訂正可能な障害の場合、エラー訂正回路b18で
訂正されたデータはセレクタb22に送出され、通常エ
ラー訂正のためのデータ生成のサイクルが必要になり性
能は劣化するが、制御手段b16の指示により訂正され
た正常なデータをバスa3およびb4に供給でき、処理
を継続することが可能となる。
【0026】またエラー訂正回路b18では、訂正した
主記憶アドレスを登録しておき、同一ブロックのアドレ
スが頻繁に障害となっている場合は、当該ブロックの固
定障害であることを検知し(S41,42)、当該ブロ
ックを無効化するメモリーディアロケーションを実行す
る(S43)。この場合、主記憶内容を縮退することに
なるが、訂正不可エラーの発生確率を低下させ、信頼性
を向上させながら処理を継続することができる。
【0027】
【発明の効果】以上、詳細に説明したように、本発明に
よれば、二重化された両系で同期動作を実行中に主記憶
障害が発生した場合には、障害となった系を切り離し正
常な系で処理を継続することにより、性能劣化を防ぐと
ともに論理的な主記憶容量を縮退する事なく動作を継続
できる。さらに、片系動作時に主記憶障害が発生した場
合には、訂正可能な障害の場合はエラー訂正を行い、か
つ当該障害が固定障害の場合には主記憶をディアロケー
トする事で縮退運転を行い、処理を継続可能とし信頼性
を向上させる事ができる。
【0028】その理由は、二重化された両系で動作中
か,他系の障害により自系のみでの片系動作中かを示す
ステータス表示手段を持ち、主記憶障害が発生した場合
に制御手段により前記ステータス表示手段をテストし、
両系動作時に主記憶障害が発生した場合と、片系動作時
に主記憶障害が発生した場合とで処理継続の方法を変更
するように制御を分離しているからである。
【図面の簡単な説明】
【図1】本発明の実施の一形態を示すブロック図。
【図2】本発明の主記憶障害時の動作を示す流れ図。
【符号の説明】
1 機能装置a 3 バスa 5 CPUa 7 主記憶装置a 9 主記憶部a 11 障害検出手段a 13 ステータス保持手段a 15 制御手段a 17 エラー訂正回路a 19 出力抑止回路a 21 セレクタa 25 IOPa

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 中央処理装置,主記憶装置,および入出
    力制御装置をそれぞれ含む第一および第二の機能装置を
    複数のバスによって相互に接続し同期して動作する二重
    化コンピュータシステムにおいて、前記第一および第二
    の機能装置はそれぞれ、自主記憶装置の障害を検出する
    障害検出手段と、前記障害を検出したとき自主記憶装置
    の出力を抑止する出力抑止手段と、他主記憶装置が障害
    によってシステムから切り離されたか否かを自制御手段
    に示すステータス保持手段と、自主記憶装置の障害が訂
    正可能の場合には前記障害を訂正するエラー訂正手段
    と、前記障害検出手段が障害を検出した場合に前記ステ
    ータス保持手段を参照し,他主記憶装置がシステムから
    切り離されていないときには前記出力抑止手段の出力を
    選択する第一の指示を送出し,前記他主記憶装置がシス
    テムから切り離されているとき前記障害が訂正可能であ
    れば前記エラー訂正手段の出力を選択する第二の指示を
    送出する制御手段と、前記第一の指示に基いて前記出力
    抑止手段の出力により自主記憶装置の出力を抑止し,前
    記第二の指示に基づいて前記エラー訂正手段の出力を送
    出するセレクタとを有することを特徴とする二重化コン
    ピュータシステム。
  2. 【請求項2】 請求項1記載の二重化コンピュータシス
    テムにおいて、前記制御手段は他主記憶装置がシステム
    から切り離されている場合に自主記憶装置の障害が訂正
    不能の固定的な障害のときには前記障害を含むメモリブ
    ロックを切り離して処理を継続するメモリディアロケー
    ション機能を具備することを特徴とする二重化コンピュ
    ータシステム。
  3. 【請求項3】 中央処理装置,主記憶装置,および入出
    力制御装置をそれぞれ含む第一および第二の機能装置を
    複数のバスによって相互に接続し同期して動作する二重
    化コンピュータシステムにおいて、前記第一および第二
    の機能装置はそれぞれ、自主記憶装置の障害を検出する
    障害検出手段と、前記障害を検出したとき自主記憶装置
    の出力を抑止する出力抑止手段と、他主記憶装置が障害
    によってシステムから切り離されたか否かを自制御手段
    に示すステータス保持手段と、自主記憶装置の障害が訂
    正可能の場合には前記障害を訂正するエラー訂正手段と
    を備え、前記障害検出手段が障害を検出した場合に前記
    ステータス保持手段を参照し、他主記憶装置がシステム
    から切り離されていないときには前記出力抑止手段によ
    って出力を抑止するとともに自主記憶装置をシステムか
    ら切り離し他主記憶装置によって処理を継続し、前記他
    主記憶装置がシステムから切り離されているとき前記障
    害が訂正可能であれば前記エラー訂正手段によって前記
    障害を訂正し処理を継続することを特徴とする二重化コ
    ンピュータシステムの運用方法。
  4. 【請求項4】 請求項記載の二重化コンピュータシス
    テムの運用方法において、他主記憶装置がシステムから
    切り離されている場合に自主記憶装置の障害が訂正不能
    の固定的な障害のときには前記障害を含むメモリブロッ
    クを切り離して処理を継続するメモリディアロケーショ
    ンを実行することを特徴とする二重化コンピュータシス
    テムの運用方法。
JP29892897A 1997-10-30 1997-10-30 二重化コンピュータシステムおよびその運用方法 Expired - Fee Related JP3156654B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29892897A JP3156654B2 (ja) 1997-10-30 1997-10-30 二重化コンピュータシステムおよびその運用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29892897A JP3156654B2 (ja) 1997-10-30 1997-10-30 二重化コンピュータシステムおよびその運用方法

Publications (2)

Publication Number Publication Date
JPH11134211A JPH11134211A (ja) 1999-05-21
JP3156654B2 true JP3156654B2 (ja) 2001-04-16

Family

ID=17866003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29892897A Expired - Fee Related JP3156654B2 (ja) 1997-10-30 1997-10-30 二重化コンピュータシステムおよびその運用方法

Country Status (1)

Country Link
JP (1) JP3156654B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4887837B2 (ja) * 2006-03-02 2012-02-29 日本電気株式会社 マルチノードコンピュータシステム、統合サービスプロセッサ及びそれらに用いる多重化制御方法
JP5751626B2 (ja) * 2011-07-19 2015-07-22 Necプラットフォームズ株式会社 メモリ試験装置、メモリ試験方法およびメモリ試験プログラム
JP6098778B2 (ja) * 2012-03-29 2017-03-22 日本電気株式会社 冗長化システム、冗長化方法、冗長化システムの可用性向上方法、及びプログラム
JP5910444B2 (ja) * 2012-09-28 2016-04-27 富士通株式会社 情報処理装置、起動プログラム、および起動方法

Also Published As

Publication number Publication date
JPH11134211A (ja) 1999-05-21

Similar Documents

Publication Publication Date Title
US6574748B1 (en) Fast relief swapping of processors in a data processing system
US5742753A (en) Mesh interconnected array in a fault-tolerant computer system
US7802138B2 (en) Control method for information processing apparatus, information processing apparatus, control program for information processing system and redundant comprisal control apparatus
JP2009187483A (ja) ストレージサブシステム及びこれの制御方法
US10360115B2 (en) Monitoring device, fault-tolerant system, and control method
JP3156654B2 (ja) 二重化コンピュータシステムおよびその運用方法
JP3211878B2 (ja) 通信処理制御手段及びそれを備えた情報処理装置
JP3068009B2 (ja) 冗長化メモリのエラー訂正機構
JPH0375834A (ja) パリティの置換装置及び方法
US7533297B2 (en) Fault isolation in a microcontroller based computer
JP3180737B2 (ja) システムの冗長化方法
JPH07121395A (ja) 予備装置優先選択方法
JPH0934852A (ja) クラスタシステム
JP2004013723A (ja) 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法
KR0152240B1 (ko) 메모리 데이타 불일치 검출 및 복구 방법
Johnson et al. Intel iAPX 432: VLSI building blocks for a fault-tolerant computer
JP2000222294A (ja) 計算機システム及びバス障害回復方法
JPH03111962A (ja) マルチプロセッサ・システム
JP2002259154A (ja) フォールト・トレラント・コンピュータシステム
JP2002244879A (ja) プロセッサ二重化方式の情報処理装置
CN117493081A (zh) 高可用架构的处理方法和装置
JPH06348421A (ja) 拡張記憶機構における障害時の二重化装置動的切り換え 制御システム
KR19990053243A (ko) 개방형 내장 시스템에서의 순환 이중화 방법
JPH01233530A (ja) 故障診断方式
JPH04177538A (ja) エラー検出方式

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010109

LAPS Cancellation because of no payment of annual fees