JP3991590B2 - Computer system and fault processing method in computer system - Google Patents
Computer system and fault processing method in computer system Download PDFInfo
- Publication number
- JP3991590B2 JP3991590B2 JP2000601532A JP2000601532A JP3991590B2 JP 3991590 B2 JP3991590 B2 JP 3991590B2 JP 2000601532 A JP2000601532 A JP 2000601532A JP 2000601532 A JP2000601532 A JP 2000601532A JP 3991590 B2 JP3991590 B2 JP 3991590B2
- Authority
- JP
- Japan
- Prior art keywords
- bus
- computer
- failure
- cpu
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000000034 method Methods 0.000 claims description 31
- 230000004044 response Effects 0.000 claims description 25
- 230000001960 triggered effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 36
- 238000010586 diagram Methods 0.000 description 18
- 239000003795 chemical substances by application Substances 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 238000012546 transfer Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000002347 injection Methods 0.000 description 3
- 239000007924 injection Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0772—Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0745—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0748—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/38—Information transfer, e.g. on bus
- G06F13/42—Bus transfer protocol, e.g. handshake; Synchronisation
- G06F13/4204—Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
- G06F13/4221—Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being an input/output bus, e.g. ISA bus, EISA bus, PCI bus, SCSI bus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
Description
技術分野
本発明は、計算機システムに関し、特に、障害処理を効率よく行なう計算機システムに関する。
背景技術
遠隔管理用の入出力装置であるリモート管理装置をPCIバス等のI/Oバスを介して計算機に接続して、リモート管理装置により計算機を管理する方法がある。リモート管理装置は、ネットワークアダプタやモデムといった通信用の入出力装置を有し、LANや電話回線等により他の計算機と接続して、遠隔地にある他の計算機から計算機を管理している。
リモート管理装置は、I/Oバス、あるいは、管理対象の計算機の管理情報を転送する専用のバスを経由して、計算機の稼動情報を取得する。リモート管理装置は、管理対象の計算機のCPUがI/Oバス経由でアクセス可能なレジスタやメモリを保持している。
また、特開平9−50386や特開平5−257914、および、特開平5−250284のように、リモート管理装置は、CPU、メモリ、および、ネットワークアダプタやモデムといった通信装置を含むI/O装置を持つ計算機(管理装置計算機)として構成される場合もある。この場合、管理装置計算機上のCPUは、管理対象の計算機とは独立して管理用のプログラムを実行でき、管理対象の計算機の実行状態に関わらず管理プログラムを実行することができる。つまり、計算機のオペレーティングシステム(OS)の起動前、障害停止時、外部からの操作を受け付けない状態(ハングアップ)時でも、管理装置計算機は実行可能になっている。
I/Oバスに接続される従来の管理装置は、管理対象の計算機がハングアップする障害が発生した場合、CPUのリセット、あるいは、管理対象の計算機の電源の遮断等の方法により計算機を再起動している。この再起動は、管理装置と管理対象の計算機を専用の信号線で接続して、その信号線を経由して管理対象の計算機のCPUにリセット信号を送ったり、あるいは、管理対象の計算機上のファームウェアに制御を移す割り込みを送ることにより実現している。専用線が必要なのは、I/OバスにはOSの実行を強制的に停止させるような割り込みを送る信号線がないためである。
この再起動方法を実施するには、管理装置と管理対象の計算機との間にI/Oバス以外の信号線を設置しなければならない。このため、管理装置を接続可能な管理対象の計算機が限定されてしまう問題がある。つまり、管理装置と管理対象の計算機を専用線で接続できる組み合わせでなければ、障害発生時に管理装置から管理対象の計算機を再起動できない。
また、従来の管理装置の再起動方法は、CPUのリセットによるためOSが介在する機会がなく、加えて、OSの再起動により管理対象の計算機の主記憶の内容が失われてしまう。このため、障害原因の解析を困難している。さらに再現性のない障害の場合、障害解析をすることができず問題である。
一方、PCIバスのような汎用のI/Oバスについてみると、前に述べたように、OSの実行を強制的に障害処理へ移行させる割り込みを管理装置から管理対象の計算機に送ることができない。しかし、I/Oバスが、I/Oバス経由で転送されるアドレス、コマンド、および、データ等の正確性を保証するための付加情報(例えばパリティビット)を転送する信号線を持っている場合もある(PCI Hardware and Software Architecture Design,pp172〜174,Annabooks,1994)。このような付加情報を転送できるI/Oバスであれば、管理対象の計算機や入出力装置は、I/Oバス経由のデータ転送においてI/Oバス上のデータの正確性を検証することは可能である。
更に、前記の機能を持つI/Oバスを使用している場合、I/Oバスの付加情報により不正な信号を検出した時に、障害をCPUに通知するための信号線を持つI/Oバス制御装置もある(Microprocessor Report,pp11〜12,Vol.12,Number 9,July,1998)。
管理対象の計算機のCPUについてみると、バスに障害が発生すると、メモリアクセスができなくなって、CPUが動作できない状況が発生し得る。このようにバスがロックしている場合、CPUに割り込み信号を送っただけでは、CPUの実行を再開することはできない。これは、バス障害のためにメモリアクセスができないため、割り込みハンドラを起動できないためである。
このような障害に対して、バスに関する障害信号を検出した場合に、CPUをリセットするのではなくバスだけを再初期化して、その後に内部的に割り込みを生成して割り込みハンドラに制御を渡すCPUがある(Microprocessor Report,pp1,6〜10,Vol.12,Number 9,July,1998)。このCPUに依れば、バスがロックしてしまってもCPUの実行を再開させることができ、OSの障害処理を開始させることも可能となる。
従来のI/Oバスに接続する計算機の管理装置では、OSの障害処理が実行できなくなる障害が計算機に発生した時、I/Oバス以外の信号線により計算機のCPUをリセットする、あるいは、計算機上のファームウェアによりCPUをリセットして、計算機全体を再起動している。これら方法では、CPUがリセットされてしまうため、OSは障害処理を実行することができず、障害情報が取得できなくなるという問題があった。
また、従来の管理装置では、I/Oバスとは別の信号線、あるいは、計算機上にCPUのリセット処理を実行する回路やファームウェアが必要であった。この方式には、管理装置の接続可能な計算機が限定されるという問題があった。
本発明の目的は、OSの障害処理が実行できなくなる障害が計算機に発生した場合でも、障害情報を取得可能な計算機システムを提供することにある。
また、本発明の別の目的は、I/Oバスを介して管理対象の計算機のバスを初期化可能な計算機システムを提供することにある。
発明の開示
上記目的を達成するために、本発明では、計算機と管理装置がI/Oバスにより接続された計算機システムにおいて、OSの障害処理が実行できなくなる障害が計算機に発生した場合、障害管理装置から計算機内のI/Oバス管理装置にI/Oバス障害の発生を通知するI/Oバス信号を送る。そして、I/Oバス管理装置は、I/Oバスを初期化した後、I/Oバス障害を計算機のCPUにOSが処理する割り込みとして通知する。
このようにして、従来、OSの障害処理が実行できなくなる障害が計算機に発生した場合でも、OSへの割り込みを契機として障害情報を取得可能な計算機システムを提供することができる。また、I/Oバスを介して管理対象の計算機のバスを初期化可能な計算機システムを提供できる。
発明を実施するための最良の形態
以下、図面を用いて本発明の実施例を説明する。
(1)第1の実施形態
第1図は、本発明の実施形態のシステム構成を示す図である。計算機100は、管理装置120の管理対象となる計算機である。
計算機100の構成について説明する。CPU101と主記憶102は、バス103により接続している。バス103には、I/Oバス107を制御するI/Oバス制御装置104が接続している。バス103には、CPU101やI/Oバス制御装置104に、バス103に関する内部状態のリセットを指示する信号線が含まれる。I/Oバス制御装置104からはI/Oバス107が伸びている。I/Oバス107には、管理装置120、外部記憶装置105、キーボード、ディスプレイ等の対話型デバイスから構成されるコンソール106等が接続される。
I/Oバス制御装置104は、CPU101が実行する入出力操作のI/Oバス107への転送や、I/Oバス107に接続する入出力機器からのデータの、主記憶102やCPU101内のレジスタへの転送、割り込みのCPU101への転送等を実施する。
I/Oバス制御装置104とCPU101は、バスエラー通知線108により接続している。バスエラー通知線108は、I/Oバス制御装置104が、I/Oバス107上でエラーを検出した時に、CPU101にバスエラーを通知するためのバス信号線である。
次に、管理装置120について説明する。管理装置120は、計算機100のI/Oバス107に接続する外部入出力装置の一種で、遠隔から計算機100の実行状況の監視や起動・停止等の運用操作を実現する。管理装置120は、それ自体で計算機を構成しており、そこで実行するプログラムは、計算機100のOSが停止している時でも独立して実行可能である。管理装置120で実行するプログラムは、モデム127やネットワークアダプタ128を制御して、計算機151、および、170のような遠隔にある計算機と連携して、遠隔にある計算機からの計算機100の運用のための操作を実現する。
管理装置120上のCPU121と主記憶122は、バス123で接続している。バス123には、I/Oバス制御装置124が接続し、I/Oバス制御装置124からはI/Oバス125が伸びている。I/Oバス125には、モデム127やネットワークアダプタ128があり、遠隔の計算機と通信可能となっている。
管理装置120は、デバイス制御装置126を介して、計算機100のI/Oバス107と接続する。デバイス制御装置126は、CPU101が実行する管理装置120に対する入出力操作要求を受信して、要求に応じた制御を実施する。例えば、主記憶122の内容を変更する、CPU121に割り込みを送信する等の操作である。
デバイス制御装置126は、CPU121からも入出力装置として見えるように構成する。デバイス制御装置126は、CPU121の実行する入出力操作を受けてI/Oバス107にデータを書き出す等の操作を実施する。
デバイス制御装置126の中に、障害生成装置130がある。障害生成装置130は、CPU121の指示を受けてI/Oバス107に不正な信号を送出する装置である。計算機100のI/Oバス制御装置104は、I/Oバス107上で不正な信号を検出した場合、バスエラー通知線108によりCPU101に障害を通知する。
第2図は、本発明の実施形態のソフトウェア構成図である。ここでは、計算機100のI/Oバス107に管理装置120が接続されており、管理装置120のネットワークアダプタ128がネットワークを介して管理計算機151に接続されている。
計算機100と151、および、管理装置120のそれぞれには、OS201、OS221、および、OS213がローデイングされ、動作している。計算機100では、通常のアプリケーションプログラム群202が実行している。加えて、計算機100では、管理装置120と連携して実行する管理エージェントプログラム203が動作している。管理エージェント203は、計算機100で実行するプログラム202、およびOS201の実行状況の収集、管理装置120への実行状況送信、管理装置120への動作指示、管理装置120が収集した計算機100の実行状況情報の取得、運用管理処理を実施する。運用管理処理とは、計算機100の自動起動・停止時刻の設定、計算機100のシャットダウン、リブート、電源断、管理情報の表示やネットワークへの管理情報送信等である。
管理装置120では、遠隔の計算機151との通信を行う通信制御プログラム212と、計算機100の運用管理処理をする管理プログラム211が実行している。管理プログラム211は、計算機100の動作状況の取得、時刻指定による計算機100の電源制御、OS201の自動起動・停止処理、管理エージェント203収集情報の遠隔管理計算機151への転送、遠隔計算機151からの運用操作要求の処理等を実行する。
管理装置120上のプログラム211ないし213は、計算機100のOS201が停止していても実行可能である。計算機100がOS201の障害のため停止している時、管理プログラム211は、I/Oバス107経由で主記憶102の内容を取得、遠隔計算機151へ障害情報の送信等の障害処理を実施する。加えて、本実施形態では、障害生成装置130を駆動してI/Oバス107に障害信号を送出し、OS201の障害処理を起動させる処理を実施する。
遠隔の計算機151や170は、LANのようなネットワーク150、あるいは、電話回線といった通信回線140で管理装置120と接続している。遠隔計算機151では、遠隔計算機管理プログラム220が実行している。このプログラム220は、管理装置120上の管理プログラム211と通信により管理情報を交換して、計算機100の運用管理操作を実行する。例えば、計算機100の運用管理情報の表示、遠隔からの停止・リブート、OS201の障害処理開始指示などを実行する。
バス103やI/Oバス107で障害が発生すると、CPU101はバスエラー割り込みを生成して障害処理を実行する。OS201内には、バスエラー割り込みを処理する割り込みハンドラ204がある。割り込みハンドラ204は、CPU101の割り込みベクタに登録されて、バスエラー割り込み発生時に実行されるように設定される。
第3図は、本実施形態におけるデバイス制御装置126の構成を示した図である。デバイス制御装置126は、I/Oバスインターフェイス回路301を介して管理装置120のI/Oバス125、および、計算機100のI/Oバス107と接続している。回路301は、各I/Oバスからのデバイス制御装置126宛てデータの取出し、あるいは、CPUからのI/Oバスへのデータの送出を実施する回路である。回路301は、I/Oバス107より取得したデータ内容に従って、デバイス制御装置126内の他の回路を駆動する。
制御装置126には、I/Oバス107用のパリティ生成回路302と、障害生成装置130が組み込まれている。本実施形態では、パリティ生成回路302は、I/Oバス107に送出するアドレス信号107bに関するパリティ信号107aを、排他的論理和回路の組み合わせにより生成している。通常実行時は、パリティ生成回路302で生成したパリティ信号をそのままI/Oバス107に送出する。
障害生成装置130は、パリティ生成回路302が生成したパリティ信号を反転して、I/Oバス107で障害と定義される信号を生成する。障害信号の生成は、障害生成レジスタ303で制御する。通常動作時は、レジスタ303は0に設定する。レジスタ303を1に設定すると、障害生成装置130はパリティ生成回路302で生成された信号を反転して、I/Oバス107に障害となる信号を送出する。
レジスタ303は、管理装置120のCPU121の入出力命令によりアクセス可能なように構成する。管理プログラム211は、レジスタ303を1にセットしてI/Oバス107にアクセスする操作を実行することで計算機100のOS201を強制停止できる。
障害生成装置130は、パリティ信号107aに不正な信号を送出した時点で障害生成状態レジスタ304を1にセットする。また、I/Oバス107への障害注入が連続して発生しないように、レジスタ303を0にリセットする。
本実施形態では、アドレス信号のパリティを不正な値にすることでI/Oバスに障害を送出したが、不正なバス信号の生成の仕方はこの限りではない。
I/Oバス制御装置104について説明する。第4図は、本実施形態におけるI/Oバス制御装置104の構成の一部を示す図である。
I/Oバス制御装置104は、I/Oバス107へのデータの送出、および、I/Oバス107からのデータの取り込みを実施する。データ取り込みの際、I/Oバス107上のデータが不正になっていないかを検査するため、アドレス信号107bに関するパリティ信号107aを参照する。I/Oバス制御装置104内のパリティ計算回路401は、アドレス信号107bよりパリティ値を求める。このパリティ値とI/Oバス107のパリティ信号107aを比較する。一致しない場合、バスエラー通知線108により、CPU101にバス障害を通知する。
障害生成装置130によりI/Oバス107に障害となる信号が送出された場合、パリティ値が不正になるため、CPU101にバス障害が通知される。
第5図にCPU101側のバス障害処理に関する構成を示す。CPU101は、バスエラー信号線108よりバス障害を通知されると、バス初期化回路501によりバス103の初期化を実施する。ここでバス103の初期化とは、CPU101内部にあるバスに関する状態を初期状態に設定することを示し、CPU101のリセットではない。このバス初期化処理は、バス103に接続している他の装置でも必要であり、バス初期化信号103bとして他の装置にもバス初期化を指示する。
また、CPU101は、遅延回路502でエラー通知信号108を遅延させて、バス103の初期化が終了した時点で、割込み制御回路504を駆動して内部的にバスエラー割り込みを生成する。
通常の外部割り込みは、外部割り込み信号103aでプロセッサに通知される。外部割り込みは、割り込み禁止レジスタ503の値によりマスクされる。バスエラー通知による割り込みが、割り込み禁止レジスタ503によるマスク制御を迂回して割り込み制御回路504を駆動するように構成すれば、CPU101が外部割り込み禁止の状態でも、バス障害による割り込みを生成できる。
CPU101のバス初期化処理について説明する。第6図は、CPU101のバス初期化回路501の構成例を示した図である。
CPU101のバスに関係する回路は、クロック信号604に同期して駆動する。
CPU101内には、バス103を制御する回路がある。その中には、過去にバス103を流れたデータに関連する状態を保持している部分がある。この例では、フリップフロップにより構成されたレジスタ603がバス状態を保存しているとする。レジスタ603は、クロック信号604と同期して、バス状態を取り込む。
通常動作時のレジスタ603の値は、バス制御回路601により決定される。バス初期化信号103bがアクティブでない、つまり0の場合は、バス制御回路601の出力値がレジスタ603に到達するようにスイッチ回路605を構成する。
バス初期化信号103bがアクティブの場合は、初期状態レジスタ602に設定されている値がレジスタ603に到達するようにスイッチ回路605を構成する。初期状態レジスタ602の値は、CPU101に予め設定されている、あるいは、計算機101の電源投入時の初期化により設定される。これにより、CPU101は、バス初期化信号103bを受けてレジスタ603を初期状態に設定できる。
本実施形態では、CPU101がバス初期化信号103bをバス103に送出したが、バスエラー通知信号108をバス103に接続する各々の装置が検出して、各装置で初期化を実施しても良い。
本実施形態では、以上のハードウェア構成により、計算機100のI/Oバス107に接続する管理装置120が、計算機100の実行状態とは独立した任意の時点に、I/Oバス107で障害と定義される信号をI/Oバス107へ送出することで、バス103に接続する各装置が保持するバス103に関連する内部状態を初期化して、CPU101でバスエラー割り込みを生成することが可能となる。
次に、本実施形態のソフトウェアの処理について説明する。第7図は、計算機100で実行するOS201内の、バスエラー用の割り込みハンドラ204の処理を示すフローチャートである。
CPU101は、バスエラー割り込みを捕獲すると、ステップ701から始まる割り込みハンドラ204に制御を渡す。バスエラー割り込みは、管理装置120が意図的に発生する場合と、そうでない場合がある。割り込みハンドラ204では、まず、管理装置120の障害生成状態レジスタ304の値を取得する(ステップ701)。レジスタ304は、CPU101からI/Oバス107経由でアクセス可能なように構成されている。
続いて取得したレジスタ304の値を検査し(ステップ702)、レジスタ304の値が0である場合、つまり、管理装置120がバス障害を送出したのではに場合は、通常のバスエラー処理(ステップ705)を実行する。例えば、障害情報のコンソール106への表示、主記憶102の外部記憶装置105へのダンプ、計算機100の再起動等である。
レジスタ304が1の場合、すなわち、管理装置120がI/Oバス107に障害を注入したことによるバスエラーの場合は、障害状態生成レジスタをリセットし(ステップ703)、その旨をコンソール106に表示する(ステップ704)。720は、コンソール画面表示の例である。
管理装置120内の管理プログラム211の処理について説明する。第8図は、管理プログラム211の処理例を示すフローチャートである。
まず、ステップ801で、計算機100への停止要求があるかどうか検査する。停止要求は、遠隔の計算機151や170から通信回線経由でモデム127やネットワークアダプタ128に送られたり、および、緊急停止ボタン129の押下等により生じる。
停止要求がない場合は、計算機100の動作状況を収集して管理データ210に格納する(ステップ802)。取得したデータ210より、計算機100が正常に実行しているか判定する(ステップ803)。実行している場合は、動作状況を遠隔の計算機に送信する(ステップ804)。停止している場合は、ステップ807へ進み、障害情報を取得して遠隔の計算機に送信する。
停止要求がある場合は、ステップ805を実行する。ここでは、障害生成レジスタ303を1に設定し、I/Oバス107へアクセスする命令を実行する(ステップ806)。これにより、CPU101でバスエラー割り込みが生成されて、バスエラー割り込みハンドラ204に制御が渡る。
その後、ステップ807へ進み、障害情報を遠隔の計算機に送信する。
以上のハードウェア構成、および、ソフトウェア手順により、I/Oバス107に接続した管理装置120より、計算機100で実行するOS201の実行を強制停止して、OSの障害処理であるバスエラー割り込みハンドラ204を実行することが可能となる。
本実施形態は、管理装置120の障害生成装置130が、計算機100の実行状態とは無関係の任意の時点に、I/Oバス107に障害となる信号を送出することにより、計算機100で実行するOS201の強制停止を実現している。この実施形態では、計算機100と管理装置120をI/Oバス107だけで接続する。従来の専用信号線で管理装置と計算機を接続する方式と比べて、管理装置120が接続できる計算機100の制限が緩和される。
また、従来の管理装置が、障害によるOS実行停止時にCPUリセットにより計算機の再起動を実行していたため、障害原因の解析を困難にしていた。それに対し、本実施形態では、I/Oバス制御装置104がバスエラーをCPU101に通知し、CPU101はそれを受けて割り込みを生成して割り込みハンドラ204を実行する。この割り込みハンドラ204の延長で、主記憶102の内容の外部記憶装置105への格納、障害要因解析、障害要因除去などの障害処理や、OS201の停止処理を実行できるため、後の障害解析と回復が容易になる。
また、CPU101、および、バス103に接続する各々の装置がバス103に関する内部状態を初期化してからCPU101が割り込みを生成するため、割り込みハンドラ204が実行できる可能性が高まる。
本実施形態では、バスエラー割り込みハンドラ204で主記憶102の内容を外部記憶装置105に格納するとしたが、主記憶102の内容の全て、あるいは、一部や、割り込みハンドラ204による障害解析情報を、管理装置120の主記憶装置122に格納しても良い。
この実施形態では、管理装置120がI/Oバス107に障害信号を送出するとしたが、ネットワークアダプタやモデムといった装置に、特定のパケットあるいはデータを受信した時に、I/Oバス107に障害信号を送出するように障害信号生成装置130を組み込んでも良い。
(2)第2の実施形態
次に、本発明の第2の実施形態について説明する。
第1の実施形態では、I/Oバス107に接続している管理装置102からI/Oバス107に、障害と認識される信号を送出する必要があった。このためには、管理装置120がI/Oバス107へアクセスする権利を取得しなければならない。つまり、バス107の調停でバスの使用権を獲得しなければならない。
ところが、管理装置120が、I/Oバス107の使用権が取得できない場合がある。CPU101が、I/Oバス107に接続しているデバイスに対してある連続した非分割の処理を実行する場合、I/Oバス107を排他的に使用するとしてバス使用権を獲得する。これを、バスをロックすると呼ぶ。この時に、対象デバイスが故障している等の理由でデバイスが応答できなければ、バス107の使用権が解放されないままになる。
このような場合、第1の実施形態ではI/Oバス107に障害信号を注入できないため、管理装置120から計算機100のOS201の障害処理を起動できない。
本発明の第2の実施形態では、バスがロックしている状態を解除してから、障害信号を送出する手段と手順について説明する。本実施形態では、管理装置120がI/Oバス107のロック状態を検査できるようにする。更に、管理装置120が、バスをロックしたまま完了しないI/Oバス要求に対して、任意のデータを送出することで要求操作が完了したと見せかけ、要求発行元にバスロックを解除させる。
I/Oバス上のデータの流れについて説明する。第9図は、本実施形態におけるI/Oバス107上でのデータの流れを示すタイミング図である。
第9図は、I/Oバス107のアクセス権調停が済んで、実際にデータの受け渡しをする時のバス信号の状態を示している。I/Oバス107にアクセスするデバイスは、アクセス権を獲得した後、アクセス対象デバイスを指定するアドレス信号107bを出力する。
このアクセスを排他的に実行したい場合は、I/Oバスロック信号107cを同時にアクティブにする。I/Oバス107に接続するデバイスは、バスロック信号107cがアクティブになっている間、I/Oバス107に次の要求を出すことができないよう構成される。要求元デバイスは、操作が終了するまでバスロック信号107cをアクティブにしておく。
アドレス信号107bにより指定されたデバイスは、操作を完了すると応答信号107dをアクティブにして、データが有ればデータ信号線107eにデータを出力する。
要求元デバイスは、応答信号107dがアクティブになったのを検出して、データ信号線107eよりデータを取り込み、バスロック信号107cのアクティブを解除する。
第10図は、第2の実施形態での制御装置120の構成を示した図である。CPU101がデバイス1020に対して非分割の連続I/O要求を発行したが、デバイス1020が応答できないとして説明する。
CPU101が非分割のI/O要求を発行すると、I/Oバス制御装置104は、I/Oバス107のバスロック信号107cをアクティブにする。
制御装置120には、各時点のバスロック信号107cを保持するバスロック状態レジスタ1006を設ける。バスロック状態レジスタ1006は、管理装置120上のCPU201から参照可能なように構成され、管理プログラム211はその値を知ることができる。
管理装置120は、通常動作時は、I/Oバス107のアドレス信号107bが制御装置120を指定した時だけ応答信号107dを出力するように構成されている。これに加えて、管理プログラム211の指示により、任意の時点にI/Oバス107へ応答信号107dを送出する手段を持っている。
応答信号107dは、代理応答制御レジスタ1001で制御する。代理応答制御レジスタ1001が0の場合は、デバイス制御回路1002が出力する応答信号1003が、I/Oバスの応答信号107dとして出力される。
I/Oバスデータ信号107eも、代理応答制御レジスタ1001により制御する。スイッチ回路1005が、レジスタ1001の値に応じて、デバイス制御回路1002の出力値か、代理応答値レジスタ1004の出力値を、データ信号107eに出力する。
つまり、代理応答制御レジスタ1001を1にセットすると、応答信号107dがアクティブになり、代理応答値レジスタ1004に格納されている値がバスデータ信号107eに送出される。
次に、本実施形態の制御プログラム211の処理について説明する。第11図は、制御プログラム211の、OS201の強制停止処理を示すフローチャートである。
まず、制御プログラム211は、バスロック状態レジスタ1006参照して、I/Oバス107がロックされているかどうか検査する(ステップ1101)。ロックされていない場合は、ステップ1103へ進み、第1の実施形態と同じ手順で、障害生成レジスタ303を1にセットして、I/Oバス107に障害信号を注入する。
ロックされている場合は、ステップ1102へ進む。ステップ1102では、代理応答制御レジスタを1にセットする。これにより、I/Oバス107のロック解除を試み、ステップ1101へ戻って、再度バスロック状態を検査する。これで、バスロックが解除されれば、ステップ1103へ進み、障害信号を注入する。
以上の手段と手順により、管理装置120は、I/Oバス107が他のデバイスにロックされていても、障害信号をI/Oバス107に注入することが可能になる。これにより、I/Oバス107だけで計算機100に接続している管理装置120からOS201を強制停止できる障害範囲が拡大する。
(3)第3の実施形態
次に、本発明の第3の実施形態について説明する。第2の実施形態では、I/Oバス107のロックの解除と、I/Oバス107への障害注入の制御を個別に実行した。本実施形態では、これらを1つの回路としてまとめて制御装置120に実現する手段について説明する。
第12図は、本実施形態の障害生成装置1201の構成を示す図である。障害生成装置1201には、障害生成回路1202とバスロック解除回路1203が含まれている。障害生成回路1202は、第1の実施形態の第3図に示した障害生成装置130と同様の構成である。バスロック解除回路1203も、第2の実施形態の第10図に示した構成と同様の構成である。
障害生成装置1201は、クロック604と同期してI/Oバス107のバスロック信号107cを採取して、バスロック状態レジスタ1204に格納している。
障害生成装置1201は、障害信号注入の制御を、障害生成レジスタ1205により実施する。障害生成レジスタ1205が0の時、障害生成回路1202とバスロック解除回路1203は、作動しない。制御プログラム211は、OS201の実行を停止する時、障害生成レジスタ1205を1に設定する。
障害生成レジスタ1205を1に設定した時にバスロック信号107cがアクティブでなければ、障害生成回路1203が作動する。回路1203は、I/Oバス107に障害となる信号を送出する。
レジスタ1205を1に設定した時にバスロック信号107cがアクティブである場合は、バスロック解除回路1204が作動する。回路1204は、I/Oバス107にバス応答信号107dとバスデータ信号107eを送出して、バスロックの解除を試みる。
バスロックが解除されると、つまり、バスロック信号107cがアクティブでなくなると、障害生成回路1203が作動し、障害信号をI/Oバス107に送出する。
本実施形態に依れば、第2の実施形態でのようにソフトウェアによりロック信号を監視して障害信号を注入するよりも、確実に計算機100の実行を停止できる。また、第2の実施形態でのソフトウェアによる制御部を除去できる。
第2と第3の実施形態では、管理装置120が疑似の応答信号をI/Oバス107に送出してバスロックを解除した。I/Oバス107の構成によっては、応答に応答先を指定しなければならないバスもある。この場合は、管理装置120がバスロックを要するバストランザクションを送出した装置のバス上の識別子を記録しておけば良い。
(4)第4の実施形態
次に、本発明の第4の実施形態について説明する。これまで説明した実施形態では、I/Oバス107だけの接続により計算機100の実行を停止する方式について説明したが、管理装置120が従来の専用信号線も備えていても良い。例えば、計算機100の実行を停止する場合、まず、本発明の手段によりOS201の停止を試み、本発明の手段により停止できなければ、従来の手段により計算機100をリセットする。これを実現する計算機100と管理装置120の構成について説明する。
第13図は、第4の実施形態の計算機100と管理装置120の構成を示す図である。計算機100には、CPU101をリセットするリセット回路1302がある。リセット回路1302は、リセット制御線1303により管理装置120と接続している。リセット制御線1303がアクティブになった時に、リセット回路1302が作動し、CPU101をリセットする。これにより計算機全体がリセットされる。
管理装置120には、リセット制御レジスタ1301がある。リセット制御レジスタ1301は、CPU121から設定可能なように構成する。リセット制御レジスタ1301が1に設定されたときに、リセット制御線がアクティブになるよう構成する。
次に、管理プログラム211の計算機100停止の処理フローについて説明する。第14図は、そのフローチャートを示している。まず、障害生成装置130を駆動して、I/Oバス107に障害信号を送出してみる(ステップ1401)。あらかじめ定めた時間を待ってから(ステップ1402)、OS201が障害処理を実行したかを検査する(ステップ1403)。処理が実行されていなければ、ステップ1404でリセット制御レジスタ1302を1にして、計算機100をリセットする。
(5)第5の実施形態
これまで説明した実施形態では、遠隔の計算機や操作者がI/Oバス107への障害送出の契機を与えるとしているが、管理装置120や管理プログラム211が障害送出の実施するかを決定しても良い。本発明の第5の実施形態では、管理エージェントプログラム203と管理プログラム211が連携により、障害送出を実施する方式について述べる。管理装置120には、管理エージェント203が実行していることを示す、エージェント起動レジスタがある。エージェント起動レジスタは、計算機100のCPU101と管理装置120のCPU201の両方からアクセス可能なように構成される(図省略)。
管理エージェント203は、一定時間間隔で実行して、実行時にエージェント起動レジスタをセットするように構成する(フローチャート省略)。管理装置120の側では、エージェント起動レジスタを参照することにより、計算機100が正常実行しているか判定する。
第15図は、管理装置120で実行する管理プログラム211の処理を示すフローチャートである。第15図に示した処理は、一定時間間隔で実行されるように構成する。
管理プログラム211は、エージェント起動レジスタを検査した時に、レジスタがセットされていない回数を記録する変数(未起動回数)を保持している。
管理プログラム211の処理について説明する。まず、管理装置120のエージェント起動レジスタを検査する(ステップ1501)。本レジスタがセットされている場合は、本レジスタをクリアし(ステップ1504)、未起動回数を0に設定して(ステップ1505)、終了する。
レジスタがセットされていない場合、未起動回数を検査する(ステップ1502)。未起動回数が予め定めた正整数Xである場合、I/Oバス107に障害信号を送出する(ステップ1503)。Xでない場合は、未起動回数に1を加算して(ステップ1506)、終了する。
以上により、管理プログラム211が計算機100の実行状態を検査して、自発的にI/Oバス107に障害を送出することが可能となる。障害を送出する時に、遠隔の計算機151や170に、計算機100を強制停止したことを示すメッセージを送信しても良い。
また、第5の実施形態では、ソフトウェアによりI/Oバス107への障害送出を実施するようにしたが、管理装置120に一定時間再設定されなければ障害生成装置130を駆動するように構成したウォッチドッグタイマを設けてもよい。
この場合、管理エージェント203は、一定時間間隔で実行して、実行時にウォッチドッグタイマを再設定するよう構成する。管理プログラム211の側では、特別な処理は不要になる。
また、管理プログラム120が、計算機100の主記憶102の内容を参照して、OS201の実行状況を検査して、それに応じてI/Oバス107に障害信号を送出しても良い。
産業上の利用可能性
以上のように、本発明にかかる計算機の障害処理方法及び装置は、管理装置からI/Oバス経由で管理対象の計算機に障害発生の信号を送り、管理対象の計算機ではこの信号の受信を契機としてバスの初期化を行なうとともに、割り込みを生成する計算機システムを構築するのに適している。
【図面の簡単な説明】
第1図は、本発明の実施形態のシステム構成図である。
第2図は、本発明の実施形態のプログラムの構成図である。
第3図は、デバイス制御装置の構成図である。
第4図は、I/Oバス制御装置の構成図である。
第5図は、CPU内の障害処理部分の構成図である。
第6図は、CPU内のバス初期化部分の構成図である。
第7図は、OSのバスエラー割り込みハンドラの処理のフローチャートである。
第8図は、管理装置で実行する管理プログラムの処理のフローチャートである。
第9図は、I/Oバス上の信号のタイミングを示す図である。
第10図は、本発明の第2の実施形態における、管理装置内のバスロック解除装置の構成図である。
第11図は、本発明の第2の実施形態における、管理装置で実行する管理プログラムの処理のフローチャートである。
第12図は、本発明の第3の実施形態における、管理装置内の障害生成装置の構成図である。
第13図は、本発明の第4の実施形態における、計算機と管理装置の構成図である。
第14図は、本発明の第4の実施形態における、管理装置で実行する計算機停止処理のフローチャートである。
第15図は、本発明の第5の実施形態における、管理装置で実行する計算機停止処理のフローチャートである。Technical field
The present invention relates to a computer system, and more particularly to a computer system that efficiently performs fault processing.
Background art
There is a method of connecting a remote management device, which is an input / output device for remote management, to a computer via an I / O bus such as a PCI bus and managing the computer by the remote management device. The remote management device has a communication input / output device such as a network adapter and a modem, and is connected to another computer via a LAN, a telephone line, or the like, and manages the computer from another remote computer.
The remote management apparatus obtains computer operation information via an I / O bus or a dedicated bus for transferring management information of a computer to be managed. The remote management apparatus holds a register and a memory that can be accessed via the I / O bus by the CPU of the computer to be managed.
Further, as disclosed in JP-A-9-50386, JP-A-5-257914, and JP-A-5-250284, the remote management device includes an I / O device including a CPU, a memory, and a communication device such as a network adapter and a modem. In some cases, it may be configured as a computer (management device computer). In this case, the CPU on the management apparatus computer can execute the management program independently of the management target computer, and can execute the management program regardless of the execution state of the management target computer. That is, the management apparatus computer can be executed even before the operating system (OS) of the computer is started, when a failure is stopped, or when an external operation is not accepted (hangup).
The conventional management device connected to the I / O bus restarts the computer by a method such as resetting the CPU or turning off the power of the managed computer when a failure occurs that causes the managed computer to hang up is doing. This restart can be done by connecting the management device and the managed computer with a dedicated signal line and sending a reset signal to the CPU of the managed computer via the signal line, or on the managed computer. This is achieved by sending an interrupt to transfer control to the firmware. The dedicated line is necessary because the I / O bus does not have a signal line for sending an interrupt that forcibly stops the execution of the OS.
In order to implement this restart method, a signal line other than the I / O bus must be installed between the management apparatus and the computer to be managed. For this reason, there is a problem that the management target computers to which the management apparatus can be connected are limited. In other words, the management target computer cannot be restarted from the management device when a failure occurs unless the combination is such that the management device and the management target computer can be connected by a dedicated line.
In addition, since the conventional restart method of the management apparatus is based on resetting the CPU, there is no opportunity for the OS to intervene. In addition, the contents of the main memory of the managed computer are lost due to the restart of the OS. For this reason, it is difficult to analyze the cause of the failure. Furthermore, in the case of a failure with no reproducibility, it is a problem that failure analysis cannot be performed.
On the other hand, regarding a general-purpose I / O bus such as a PCI bus, as described above, an interrupt that forcibly shifts execution of the OS to failure processing cannot be sent from the management apparatus to the managed computer. . However, when the I / O bus has a signal line for transferring additional information (for example, parity bits) for guaranteeing the accuracy of the address, command, and data transferred via the I / O bus. (PCI Hardware and Software Architecture Design, pp 172-174, Annabooks, 1994). If the I / O bus can transfer such additional information, the managed computer or input / output device cannot verify the accuracy of data on the I / O bus in the data transfer via the I / O bus. Is possible.
Further, when an I / O bus having the above function is used, an I / O bus having a signal line for notifying the CPU of a fault when an illegal signal is detected by additional information of the I / O bus. There is also a control device (Microprocessor Report, pp 11-12, Vol. 12,
With regard to the CPU of the computer to be managed, if a failure occurs on the bus, memory access becomes impossible and the CPU cannot operate. When the bus is locked as described above, the CPU execution cannot be resumed only by sending an interrupt signal to the CPU. This is because the interrupt handler cannot be activated because the memory cannot be accessed due to a bus failure.
For such a fault, when a fault signal related to the bus is detected, the CPU only resets the bus instead of resetting the CPU, then generates an interrupt internally and passes control to the interrupt handler. (Microprocessor Report, pp1, 6-10, Vol. 12,
In a computer management apparatus connected to a conventional I / O bus, when a failure occurs in the computer that makes it impossible to execute OS failure processing, the CPU of the computer is reset by a signal line other than the I / O bus. The CPU is reset by the above firmware, and the entire computer is restarted. In these methods, since the CPU is reset, there is a problem that the OS cannot execute the failure process, and failure information cannot be acquired.
In addition, the conventional management apparatus requires a signal line different from the I / O bus, or a circuit or firmware for executing a CPU reset process on the computer. This method has a problem that the computers to which the management apparatus can be connected are limited.
An object of the present invention is to provide a computer system that can acquire failure information even when a failure occurs in a computer that makes it impossible to execute OS failure processing.
Another object of the present invention is to provide a computer system capable of initializing the bus of a computer to be managed via an I / O bus.
Disclosure of the invention
In order to achieve the above object, according to the present invention, in a computer system in which a computer and a management device are connected by an I / O bus, when a failure occurs in the computer that makes it impossible to perform OS failure processing, the failure management device executes the computer. An I / O bus signal for notifying the occurrence of an I / O bus failure is sent to the internal I / O bus management device. Then, after initializing the I / O bus, the I / O bus management device notifies the CPU of the computer of an I / O bus failure as an interrupt processed by the OS.
In this way, it is possible to provide a computer system that can acquire failure information in response to an interrupt to the OS even when a failure has occurred in the computer that makes it impossible to execute OS failure processing. In addition, it is possible to provide a computer system that can initialize a bus of a computer to be managed via an I / O bus.
BEST MODE FOR CARRYING OUT THE INVENTION
Embodiments of the present invention will be described below with reference to the drawings.
(1) First embodiment
FIG. 1 is a diagram showing a system configuration of an embodiment of the present invention. The
The configuration of the
The I / O
The I / O
Next, the management apparatus 120 will be described. The management device 120 is a type of external input / output device connected to the I /
The CPU 121 on the management device 120 and the main memory 122 are connected by a bus 123. An I / O
The management device 120 is connected to the I /
The device control device 126 is configured to be visible to the CPU 121 as an input / output device. The device control device 126 receives an input / output operation executed by the CPU 121 and executes an operation such as writing data to the I /
The device controller 126 includes a
FIG. 2 is a software configuration diagram of the embodiment of the present invention. Here, the management device 120 is connected to the I /
In each of the
In the management device 120, a communication control program 212 that performs communication with a
The
When a failure occurs in the
FIG. 3 is a diagram showing the configuration of the device control device 126 in the present embodiment. The device control device 126 is connected to the I / O bus 125 of the management device 120 and the I /
In the control device 126, a
The
The
The
In this embodiment, the failure is sent to the I / O bus by setting the parity of the address signal to an illegal value, but the method of generating an illegal bus signal is not limited to this.
The I / O
The I / O
When a failure signal is sent to the I /
FIG. 5 shows a configuration relating to bus failure processing on the
Further, the
A normal external interrupt is notified to the processor by an external interrupt
The bus initialization process of the
Circuits related to the bus of the
Within the
The value of the
When the
In this embodiment, the
In the present embodiment, with the above hardware configuration, the management device 120 connected to the I /
Next, software processing according to this embodiment will be described. FIG. 7 is a flowchart showing the processing of the bus error interrupt
When the
Subsequently, the obtained value of the
If the
Processing of the
First, in
If there is no stop request, the operation status of the
If there is a stop request, step 805 is executed. Here, the
Thereafter, the process proceeds to step 807, and the failure information is transmitted to the remote computer.
With the hardware configuration and software procedure described above, the management apparatus 120 connected to the I /
In the present embodiment, the
Further, since the conventional management apparatus executes the restart of the computer by the CPU reset when the OS execution is stopped due to the failure, it is difficult to analyze the cause of the failure. On the other hand, in this embodiment, the I / O
Further, since the
In this embodiment, the contents of the
In this embodiment, the management device 120 sends a failure signal to the I /
(2) Second embodiment
Next, a second embodiment of the present invention will be described.
In the first embodiment, the
However, the management device 120 may not be able to acquire the right to use the I /
In such a case, in the first embodiment, since the failure signal cannot be injected into the I /
In the second embodiment of the present invention, a means and procedure for sending a failure signal after releasing the locked state of the bus will be described. In the present embodiment, the management device 120 can check the lock state of the I /
A data flow on the I / O bus will be described. FIG. 9 is a timing chart showing the flow of data on the I /
FIG. 9 shows the state of the bus signal when the access right arbitration of the I /
If this access is to be executed exclusively, the I / O
The device designated by the
The request source device detects that the response signal 107d becomes active, fetches data from the data signal line 107e, and cancels the
FIG. 10 is a diagram showing the configuration of the control device 120 in the second embodiment. The
When the
The control device 120 is provided with a bus lock state register 1006 that holds the
In the normal operation, the management device 120 is configured to output the response signal 107d only when the
The response signal 107d is controlled by the proxy response control register 1001. When the proxy response control register 1001 is 0, the response signal 1003 output from the device control circuit 1002 is output as the response signal 107d of the I / O bus.
The I / O bus data signal 107e is also controlled by the proxy response control register 1001. The
That is, when the proxy response control register 1001 is set to 1, the response signal 107d becomes active, and the value stored in the proxy
Next, processing of the
First, the
If it is locked, go to Step 1102. In step 1102, the proxy response control register is set to 1. As a result, the I /
With the above means and procedure, the management apparatus 120 can inject a failure signal into the I /
(3) Third embodiment
Next, a third embodiment of the present invention will be described. In the second embodiment, the unlocking of the I /
FIG. 12 is a diagram showing the configuration of the fault generation device 1201 of this embodiment. The fault generation device 1201 includes a
The fault generation device 1201 collects the
The fault generation device 1201 controls the fault signal injection using the fault generation register 1205. When the fault generation register 1205 is 0, the
If the
If the
When the bus lock is released, that is, when the
According to the present embodiment, the execution of the
In the second and third embodiments, the management device 120 sends a pseudo response signal to the I /
(4) Fourth embodiment
Next, a fourth embodiment of the present invention will be described. In the embodiments described so far, the method of stopping the execution of the
FIG. 13 is a diagram illustrating configurations of the
The management device 120 has a reset control register 1301. The reset control register 1301 is configured to be set by the CPU 121. The reset control line is configured to be active when the reset control register 1301 is set to 1.
Next, a processing flow of the
(5) Fifth embodiment
In the embodiments described so far, a remote computer or operator gives an opportunity to send a fault to the I /
The management agent 203 is configured to execute at regular time intervals and set an agent activation register at the time of execution (the flowchart is omitted). On the management device 120 side, by referring to the agent activation register, it is determined whether the
FIG. 15 is a flowchart showing the processing of the
The
Processing of the
If the register is not set, the number of unstarts is checked (step 1502). If the number of unstarts is a predetermined positive integer X, a failure signal is sent to the I / O bus 107 (step 1503). If it is not X, 1 is added to the number of unstarted times (step 1506), and the process ends.
As described above, the
In the fifth embodiment, the fault is sent to the I /
In this case, the management agent 203 is configured to execute at regular time intervals and reset the watchdog timer at the time of execution. On the
The management program 120 may check the execution status of the
Industrial applicability
As described above, the failure processing method and apparatus for a computer according to the present invention sends a failure signal from the management device to the management target computer via the I / O bus, and the management target computer receives the signal. It is suitable for building a computer system that initializes the bus and generates interrupts.
[Brief description of the drawings]
FIG. 1 is a system configuration diagram of an embodiment of the present invention.
FIG. 2 is a block diagram of a program according to the embodiment of the present invention.
FIG. 3 is a block diagram of the device control apparatus.
FIG. 4 is a block diagram of the I / O bus control device.
FIG. 5 is a block diagram of the failure processing part in the CPU.
FIG. 6 is a block diagram of the bus initialization part in the CPU.
FIG. 7 is a flowchart of the processing of the OS bus error interrupt handler.
FIG. 8 is a flowchart of the processing of the management program executed by the management device.
FIG. 9 is a diagram showing the timing of signals on the I / O bus.
FIG. 10 is a block diagram of the bus lock releasing device in the management device in the second embodiment of the present invention.
FIG. 11 is a flowchart of the processing of the management program executed by the management device in the second embodiment of the present invention.
FIG. 12 is a configuration diagram of the failure generation device in the management device according to the third embodiment of the present invention.
FIG. 13 is a block diagram of a computer and a management device in the fourth embodiment of the present invention.
FIG. 14 is a flowchart of a computer stop process executed by the management apparatus in the fourth embodiment of the present invention.
FIG. 15 is a flowchart of computer stop processing executed by the management apparatus in the fifth embodiment of the present invention.
Claims (6)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP1999/000836 WO2000051000A1 (en) | 1999-02-24 | 1999-02-24 | Computer system and method of handling trouble of computer system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP3991590B2 true JP3991590B2 (en) | 2007-10-17 |
Family
ID=14235006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000601532A Expired - Fee Related JP3991590B2 (en) | 1999-02-24 | 1999-02-24 | Computer system and fault processing method in computer system |
Country Status (5)
Country | Link |
---|---|
US (2) | US6948100B1 (en) |
EP (1) | EP1172732A4 (en) |
JP (1) | JP3991590B2 (en) |
TW (1) | TW449687B (en) |
WO (1) | WO2000051000A1 (en) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7177344B2 (en) * | 2001-03-14 | 2007-02-13 | Mercury Computer Systems, Inc. | Wireless communication systems and methods for long-code communications for regenerative multiple user detection involving implicit waveform subtraction |
WO2005020001A2 (en) | 2003-08-11 | 2005-03-03 | Chorus Systems, Inc. | Systems and methods for automated computer support |
WO2005017690A2 (en) | 2003-08-11 | 2005-02-24 | Chorus Systems, Inc. | Systems and methods for creation and use of an adaptive reference model |
US20050193246A1 (en) * | 2004-02-19 | 2005-09-01 | Marconi Communications, Inc. | Method, apparatus and software for preventing switch failures in the presence of faults |
US7734797B2 (en) * | 2004-03-29 | 2010-06-08 | Marvell International Ltd. | Inter-processor communication link with manageability port |
JP2008009721A (en) * | 2006-06-29 | 2008-01-17 | Nec Electronics Corp | Evaluation system and evaluation method thereof |
JP5215655B2 (en) * | 2007-12-27 | 2013-06-19 | ルネサスエレクトロニクス株式会社 | Data processing apparatus and bus access control method in data processing apparatus |
JP4612699B2 (en) * | 2008-03-11 | 2011-01-12 | 株式会社東芝 | Monitoring / diagnosis device and remote monitoring / diagnosis system |
JP4911372B2 (en) * | 2009-10-06 | 2012-04-04 | 日本電気株式会社 | Time-out prevention method at the time of CPU re-initialization accompanied by CPU re-reset, apparatus and program thereof |
WO2013077890A1 (en) | 2011-11-22 | 2013-05-30 | Intel Corporation | Collaborative processor and system performance and power management |
WO2014196059A1 (en) * | 2013-06-06 | 2014-12-11 | 株式会社日立製作所 | Microcontroller fault injection method and system |
WO2016068897A1 (en) * | 2014-10-29 | 2016-05-06 | Hewlett Packard Enterprise Development Lp | Cpu with external fault response handling |
US10402218B2 (en) | 2016-08-30 | 2019-09-03 | Intel Corporation | Detecting bus locking conditions and avoiding bus locks |
JP7001001B2 (en) * | 2018-06-18 | 2022-01-19 | 株式会社リコー | Control device, image forming device, control method and control program |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4149038A (en) * | 1978-05-15 | 1979-04-10 | Wescom Switching, Inc. | Method and apparatus for fault detection in PCM muliplexed system |
JPH01292553A (en) * | 1988-05-20 | 1989-11-24 | Mitsubishi Electric Corp | Information processor |
US5001712A (en) * | 1988-10-17 | 1991-03-19 | Unisys Corporation | Diagnostic error injection for a synchronous bus system |
US5008885A (en) * | 1988-12-29 | 1991-04-16 | International Business Machines Corporation | Event-controlled error injection system |
US5058112A (en) * | 1989-07-31 | 1991-10-15 | Ag Communication Systems Corporation | Programmable fault insertion circuit |
JPH047646A (en) | 1990-04-25 | 1992-01-13 | Hitachi Ltd | Data processor |
US5204864A (en) * | 1990-08-16 | 1993-04-20 | Westinghouse Electric Corp. | Multiprocessor bus debugger |
CA2071804A1 (en) | 1991-06-24 | 1992-12-25 | Ronald G. Ward | Computer system manager |
ATE186787T1 (en) | 1991-09-09 | 1999-12-15 | Compaq Computer Corp | REMOTE LOADING SYSTEM AND METHOD FOR LOADING A COMPUTER SYSTEM |
JP2833387B2 (en) * | 1992-11-30 | 1998-12-09 | 日本電気株式会社 | Switch bus monitor circuit |
US5428624A (en) * | 1993-10-12 | 1995-06-27 | Storage Technology Corporation | Fault injection using boundary scan |
JPH08212110A (en) * | 1995-02-07 | 1996-08-20 | Hitachi Ltd | Remote maintenance method for system |
JP3653335B2 (en) | 1995-05-31 | 2005-05-25 | 株式会社日立製作所 | Computer management system |
US5819027A (en) * | 1996-02-28 | 1998-10-06 | Intel Corporation | Bus patcher |
US6032271A (en) * | 1996-06-05 | 2000-02-29 | Compaq Computer Corporation | Method and apparatus for identifying faulty devices in a computer system |
US6185248B1 (en) * | 1998-03-12 | 2001-02-06 | Northrop Grumman Corporation | Wideband digital microwave receiver |
US6182248B1 (en) * | 1998-04-07 | 2001-01-30 | International Business Machines Corporation | Method and tool for computer bus fault isolation and recovery design verification |
US6519718B1 (en) * | 2000-02-18 | 2003-02-11 | International Business Machines Corporation | Method and apparatus implementing error injection for PCI bridges |
-
1999
- 1999-02-24 JP JP2000601532A patent/JP3991590B2/en not_active Expired - Fee Related
- 1999-02-24 WO PCT/JP1999/000836 patent/WO2000051000A1/en active Application Filing
- 1999-02-24 EP EP99906465A patent/EP1172732A4/en not_active Withdrawn
- 1999-02-24 US US09/622,372 patent/US6948100B1/en not_active Expired - Fee Related
- 1999-11-16 TW TW088119943A patent/TW449687B/en not_active IP Right Cessation
-
2005
- 2005-03-14 US US11/078,385 patent/US7426662B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1172732A1 (en) | 2002-01-16 |
US6948100B1 (en) | 2005-09-20 |
US20050172169A1 (en) | 2005-08-04 |
EP1172732A4 (en) | 2009-08-19 |
US7426662B2 (en) | 2008-09-16 |
WO2000051000A1 (en) | 2000-08-31 |
TW449687B (en) | 2001-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7426662B2 (en) | Computer system and fault processing method in computer system | |
CN108121630B (en) | Electronic device, restart method, and recording medium | |
KR100620216B1 (en) | Network Enhanced BIOS Enabling Remote Management of a Computer Without a Functioning Operating System | |
US7516361B2 (en) | Method for automatic checkpoint of system and application software | |
US6665758B1 (en) | Software sanity monitor | |
US7716520B2 (en) | Multi-CPU computer and method of restarting system | |
EP1588260B1 (en) | Hot plug interfaces and failure handling | |
US6425093B1 (en) | Methods and apparatuses for controlling the execution of software on a digital processing system | |
EP1351145A1 (en) | Computer failure recovery and notification system | |
US20130031420A1 (en) | Collecting Debug Data in a Secure Chip Implementation | |
WO2018095107A1 (en) | Bios program abnormal processing method and apparatus | |
KR0175987B1 (en) | Data processing system & data processing method | |
US6874103B2 (en) | Adapter-based recovery server option | |
JP2003186697A (en) | System and method for testing peripheral device | |
JP2004302731A (en) | Information processor and method for trouble diagnosis | |
JPH1153225A (en) | Fault processor | |
JP2003256240A (en) | Information processor and its failure recovering method | |
US20080313489A1 (en) | Flash memory-hosted local and remote out-of-service platform manageability | |
JP2018092571A (en) | Electronic equipment, reactivation method, and program | |
JPH05216855A (en) | Multi-cpu control system | |
JP2004070458A (en) | Program with self-diagnostic function, program supervising device and method, and program with program supervising function | |
JP2002189615A (en) | Watchdog timer, information processor, expansion board for watchdog timer, system initializing method, and storage medium | |
JP3977694B2 (en) | Reset device | |
JPH09212470A (en) | Multiprocessor system | |
JPH103403A (en) | Computer system and debugging method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040825 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040825 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070611 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070716 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100803 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110803 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120803 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130803 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |