JPS594054B2 - マルチプロセツサ障害検出方式 - Google Patents
マルチプロセツサ障害検出方式Info
- Publication number
- JPS594054B2 JPS594054B2 JP54046004A JP4600479A JPS594054B2 JP S594054 B2 JPS594054 B2 JP S594054B2 JP 54046004 A JP54046004 A JP 54046004A JP 4600479 A JP4600479 A JP 4600479A JP S594054 B2 JPS594054 B2 JP S594054B2
- Authority
- JP
- Japan
- Prior art keywords
- monitoring
- processor
- memory
- fault
- counter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0763—Error or fault detection not based on redundancy by bit configuration check, e.g. of formats or tags
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0721—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
- G06F11/0724—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q3/00—Selecting arrangements
- H04Q3/42—Circuit arrangements for indirect selecting controlled by common circuits, e.g. register controller, marker
- H04Q3/54—Circuit arrangements for indirect selecting controlled by common circuits, e.g. register controller, marker in which the logic circuitry controlling the exchange is centralised
- H04Q3/545—Circuit arrangements for indirect selecting controlled by common circuits, e.g. register controller, marker in which the logic circuitry controlling the exchange is centralised using a stored programme
- H04Q3/54541—Circuit arrangements for indirect selecting controlled by common circuits, e.g. register controller, marker in which the logic circuitry controlling the exchange is centralised using a stored programme using multi-processor systems
- H04Q3/5455—Multi-processor, parallelism, distributed systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q3/00—Selecting arrangements
- H04Q3/42—Circuit arrangements for indirect selecting controlled by common circuits, e.g. register controller, marker
- H04Q3/54—Circuit arrangements for indirect selecting controlled by common circuits, e.g. register controller, marker in which the logic circuitry controlling the exchange is centralised
- H04Q3/545—Circuit arrangements for indirect selecting controlled by common circuits, e.g. register controller, marker in which the logic circuitry controlling the exchange is centralised using a stored programme
- H04Q3/54575—Software application
- H04Q3/54591—Supervision, e.g. fault localisation, traffic measurements, avoiding errors, failure recovery, monitoring, statistical analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Debugging And Monitoring (AREA)
- Multi Processors (AREA)
- Monitoring And Testing Of Exchanges (AREA)
- Hardware Redundancy (AREA)
Description
【発明の詳細な説明】
本発明は、情報処理システム、特にオンライン情報処理
システムにおいて、マルチプロセツサ障害検出方式に関
するものである。
システムにおいて、マルチプロセツサ障害検出方式に関
するものである。
従来、一般に、端報処理システムにおけるプロセツサの
障害またはソフトウエアの残留バグその他により発生す
る異常状態の中には、優先度の高い処理に対するクロツ
ク割込みが一定時間以上発生しなかつたことを検出する
障害タイマまたはソフトウエア上のバグにより、プログ
ラム処理が永久ループ状になり、他のプログラム処理に
移行しなくなつたことを検出するループチエツクその他
、従来のプロセツサがもつているハード的な検出手段お
よびソフトウエア上で実現する検出手段によつても検出
されず、オンライン処理が不町能となつてしまうもので
ある。
障害またはソフトウエアの残留バグその他により発生す
る異常状態の中には、優先度の高い処理に対するクロツ
ク割込みが一定時間以上発生しなかつたことを検出する
障害タイマまたはソフトウエア上のバグにより、プログ
ラム処理が永久ループ状になり、他のプログラム処理に
移行しなくなつたことを検出するループチエツクその他
、従来のプロセツサがもつているハード的な検出手段お
よびソフトウエア上で実現する検出手段によつても検出
されず、オンライン処理が不町能となつてしまうもので
ある。
たとえば、ソフトウエアバグにより、プロセツサの障害
タイマを初期設定する処理を含むプログラム処理のみが
走行し、他のプログラムにエントリが渡らない場合、シ
ングルプロセツサ方式では、保守者にその旨通報されず
、システムダウンにおちいつてしまう。
タイマを初期設定する処理を含むプログラム処理のみが
走行し、他のプログラムにエントリが渡らない場合、シ
ングルプロセツサ方式では、保守者にその旨通報されず
、システムダウンにおちいつてしまう。
このようなことは、一般に、発生確率が非常に小さいの
が通常であるが、一旦発生すると、公衆通信用電話交換
機のように、無人保守もあり、また、その性質上、シス
テムダウンが許されない高信頼性が要求されるシステム
では、大きな社会的不安を与えることになり、望ましく
ない。
が通常であるが、一旦発生すると、公衆通信用電話交換
機のように、無人保守もあり、また、その性質上、シス
テムダウンが許されない高信頼性が要求されるシステム
では、大きな社会的不安を与えることになり、望ましく
ない。
このような異常を検出するために、一般に、蓄積プログ
ラム方式の電話交換機では、そのハードウエアにより、
定期的に呼を発生する装置を設け、発呼に対する応答が
正常に行われているかどうか、たとえば、起動信号に対
して、ソフトウエア制御による起動確認信号が返つてく
るかどうかをチエツクして障害を検出している。
ラム方式の電話交換機では、そのハードウエアにより、
定期的に呼を発生する装置を設け、発呼に対する応答が
正常に行われているかどうか、たとえば、起動信号に対
して、ソフトウエア制御による起動確認信号が返つてく
るかどうかをチエツクして障害を検出している。
しかし、近来、実用され始めつつあるマルチプロセツサ
システムでは、プロセツサ.が複数である″ため、l台
のプロセツサがそのような異常状態となつても、ただち
に、それが全システムに及ネとは限らず、上記のような
方法では、マルチプロセツサ全体の障害、すなわち、シ
ステムダウンの検出に対しては不充分である。
システムでは、プロセツサ.が複数である″ため、l台
のプロセツサがそのような異常状態となつても、ただち
に、それが全システムに及ネとは限らず、上記のような
方法では、マルチプロセツサ全体の障害、すなわち、シ
ステムダウンの検出に対しては不充分である。
このように、マルチプロセツサシステムにおいては、現
在のところ、システムダウンにいたる前に異常状態を検
出する方法は、まだ確立されていない。
在のところ、システムダウンにいたる前に異常状態を検
出する方法は、まだ確立されていない。
本発明の目的は、上述したような状況にかんがみ、マル
チプロセツサ情報処理システム、特に、オンラインマル
チプロセツサ情報処理システムにおいて、異常状態をシ
ステムダウンに到るまで放置することなく検出し、固定
点再開、保守者への通報などを町能とするマルチプロセ
ツサ障害検出方式を新たに提供することにある。
チプロセツサ情報処理システム、特に、オンラインマル
チプロセツサ情報処理システムにおいて、異常状態をシ
ステムダウンに到るまで放置することなく検出し、固定
点再開、保守者への通報などを町能とするマルチプロセ
ツサ障害検出方式を新たに提供することにある。
本発明の特徴は、複数のプロセツサ間で、相互の動作状
態をチエツクすることにより、異常状態を検出するマル
チプロセツサシステム障害検出方式にある。
態をチエツクすることにより、異常状態を検出するマル
チプロセツサシステム障害検出方式にある。
なお、これをさらに詳説すれば、本発明は、マルチプロ
セツサシステムでは、1台のプロセツサが異常になつて
も、他のプロセツサは、ある期間、正常であることが多
いということを、利用している。
セツサシステムでは、1台のプロセツサが異常になつて
も、他のプロセツサは、ある期間、正常であることが多
いということを、利用している。
すなわち、各プロセツサ対応に、読み取りおよび書込み
が町能な監視カウンタを有する障害監視装置を設け、こ
れを各グロセツサ別に、周期的に起動されるプログラム
によりカウントアツプし、その結果を、それぞれ、他の
プロセツサにより、上記カウントrツプ周期より長い周
期C読み取り、前回の読み取り値と比較し、両者が一致
していれば、これに対応するプロセツサが障害であると
判定するものである。
が町能な監視カウンタを有する障害監視装置を設け、こ
れを各グロセツサ別に、周期的に起動されるプログラム
によりカウントアツプし、その結果を、それぞれ、他の
プロセツサにより、上記カウントrツプ周期より長い周
期C読み取り、前回の読み取り値と比較し、両者が一致
していれば、これに対応するプロセツサが障害であると
判定するものである。
また、プロセツサによらず、外部モニタ回路による該監
視カウンタのモニタ結果を、前回モニタ結果と比較し、
不一致であれば正常、一致していれば、その間、ソフト
ウエアからの書込みがなかつたことになるので、一致し
ている監視カウンタに対応するプロセツサが異常である
と判定することもできる。
視カウンタのモニタ結果を、前回モニタ結果と比較し、
不一致であれば正常、一致していれば、その間、ソフト
ウエアからの書込みがなかつたことになるので、一致し
ている監視カウンタに対応するプロセツサが異常である
と判定することもできる。
ここで、カウントアツプ周期より読み取りまたはモニタ
周期を長くしているのは、間欠的な異常または周期のず
れによる誤判定を防ぐためである。
周期を長くしているのは、間欠的な異常または周期のず
れによる誤判定を防ぐためである。
以下、本発明の電子交換機における実施例を図面に従つ
て詳細に説明する。第1図は、本発明に係るマルチプロ
セツサ障害検出方式の一実施例のプロツク図である。
て詳細に説明する。第1図は、本発明に係るマルチプロ
セツサ障害検出方式の一実施例のプロツク図である。
ここで、1はプロセツサCPO,CPl,・・・,CP
n.2は、共通メモ1八3は、通話路系装置、4は、メ
モリバス、5は、通話路系バス、6は、障害監視装置で
ある。
n.2は、共通メモ1八3は、通話路系装置、4は、メ
モリバス、5は、通話路系バス、6は、障害監視装置で
ある。
まず、第1図に基づいて、本発明に係るマルチプロセツ
サ障害検出方式の一実施例について、その総合的な構成
および動作を説明する。
サ障害検出方式の一実施例について、その総合的な構成
および動作を説明する。
障害監視装置6は、その中に、各プロセツサCPO−C
Pnl対応に監視カウンタを有している。
Pnl対応に監視カウンタを有している。
各プロセツサCPO−CPnlは、それぞれ通話路系バ
ス5を経由して自分自身に対応する監視カウンタの内容
を読み取り、これに1を加算し、再び、同一監視カウン
タに戻す。すなわち、カウンタ値を歩進せしめる。この
制御は、1分周期で起動されるタイミング監視プログラ
ムなどの電話呼処理プログラム中で行われる。したがつ
て、オンラインの電話呼処理が異常状態により処理され
なくなると、これらの監視カウンタの歩進が行われなく
なる。たとえば、特定のプロセツサCPO,CPlのみ
によつて、それぞれ、3分毎に実行されるプロセツサ異
常検出プログラムに従つて、障害監視装置6内の全監視
カウンタを読み取り、また、メモリバス4を介して、共
通メモリ2内のラストルツクLLO−LLnに蓄積され
た前回読み取り値を読み取り、これらを比較し、一致し
ているカウンタに対応するプロセツサ1を異常と判定し
、固定点再開、障害通報などを行うために、障害処理プ
ログラムを起動する。
ス5を経由して自分自身に対応する監視カウンタの内容
を読み取り、これに1を加算し、再び、同一監視カウン
タに戻す。すなわち、カウンタ値を歩進せしめる。この
制御は、1分周期で起動されるタイミング監視プログラ
ムなどの電話呼処理プログラム中で行われる。したがつ
て、オンラインの電話呼処理が異常状態により処理され
なくなると、これらの監視カウンタの歩進が行われなく
なる。たとえば、特定のプロセツサCPO,CPlのみ
によつて、それぞれ、3分毎に実行されるプロセツサ異
常検出プログラムに従つて、障害監視装置6内の全監視
カウンタを読み取り、また、メモリバス4を介して、共
通メモリ2内のラストルツクLLO−LLnに蓄積され
た前回読み取り値を読み取り、これらを比較し、一致し
ているカウンタに対応するプロセツサ1を異常と判定し
、固定点再開、障害通報などを行うために、障害処理プ
ログラムを起動する。
次に、第1図における障害監視装置6の実施例について
説明する。
説明する。
第2図は、第1図における障害監視装置6の一実施例の
プロツク図である。
プロツク図である。
ここで、7は、信号受信分配回路、8は、アドレスゲー
ト、9は、前記障害監視装置6内の監視カウンタと同様
の機能を果す監視メモリ、10は、データレジスタであ
り、5は、第1図における通話路系バスである。
ト、9は、前記障害監視装置6内の監視カウンタと同様
の機能を果す監視メモリ、10は、データレジスタであ
り、5は、第1図における通話路系バスである。
第2図において、監視メモリ9内にアドレスADO〜A
Dnは、それぞれ、第1図における各プロセツサCPO
〜CPnに対応する監視メモリアドレスで、たとえば、
8ビツトで構成される。
Dnは、それぞれ、第1図における各プロセツサCPO
〜CPnに対応する監視メモリアドレスで、たとえば、
8ビツトで構成される。
各プロセツサCPO−CPnは、たとえば、1分周期で
起動されるプログラム制御により、監視メモリ9内の対
応するアドレスADO〜ADnを通話路系バス5、信号
受信分配回路7、アドレスゲート8を介してアドレス信
号ADRESSにより指定し、データレジスタ10、信
号受信分配回路7、通話路系バス5を介して、自プロセ
ツサに対応するカウンタ置アンサデータASDを読み出
し、これに1を加算して、再び、通話路系バス5、信号
受信分配回路7を介して、メモリ9内の当該アドレスに
カウンタ値データDATAとして書込む。1分周期で起
動される上記プログラムは、タイミング監視プログラム
や加入者発呼検出プログラムなどの電話呼処理プログラ
ムの一部として作成するので、オンライン電話呼処理が
異常状態により行われなくなると、障害監視カウンタと
しての監視メモリ9の更新が行われなくなる。
起動されるプログラム制御により、監視メモリ9内の対
応するアドレスADO〜ADnを通話路系バス5、信号
受信分配回路7、アドレスゲート8を介してアドレス信
号ADRESSにより指定し、データレジスタ10、信
号受信分配回路7、通話路系バス5を介して、自プロセ
ツサに対応するカウンタ置アンサデータASDを読み出
し、これに1を加算して、再び、通話路系バス5、信号
受信分配回路7を介して、メモリ9内の当該アドレスに
カウンタ値データDATAとして書込む。1分周期で起
動される上記プログラムは、タイミング監視プログラム
や加入者発呼検出プログラムなどの電話呼処理プログラ
ムの一部として作成するので、オンライン電話呼処理が
異常状態により行われなくなると、障害監視カウンタと
しての監視メモリ9の更新が行われなくなる。
そこで、たとえば、特定のプロセツサCPOで監視メモ
リ9のアドレスADl(プロセツサCPlに対応するも
の)の内容、また、プロセツサCPlでアドレスADO
(プロセツサCPOに対応するもの)の内容を、相互に
、カウンタ値更新周期の2倍以上、たとえば、3分周期
で実行されるプロセツサ異常検出プログラムにより、前
記と同様に、読み取り、第1図における共通メモリ2内
のラストルツクLLOまたはLLlに格納する。
リ9のアドレスADl(プロセツサCPlに対応するも
の)の内容、また、プロセツサCPlでアドレスADO
(プロセツサCPOに対応するもの)の内容を、相互に
、カウンタ値更新周期の2倍以上、たとえば、3分周期
で実行されるプロセツサ異常検出プログラムにより、前
記と同様に、読み取り、第1図における共通メモリ2内
のラストルツクLLOまたはLLlに格納する。
これに先立ち、上記ラストルツクLLO,LLlには、
前回読み取つた障害監視カウンタ値が格納されているの
で、今回の読み取り値と比較し、致し(いる監視メモリ
9内のアドレスに対応するプロセツサを障害と判定する
ことができる。
前回読み取つた障害監視カウンタ値が格納されているの
で、今回の読み取り値と比較し、致し(いる監視メモリ
9内のアドレスに対応するプロセツサを障害と判定する
ことができる。
さらに、第3図は、第1図における障害監視装置6の他
の実施例のプロツク図である。ここで、11は、第2図
におけるものと同様な信号受信分配回路、12は、監視
カウンタ、13は、カウンタラストルツクメ七り、14
は、照合回路、15は、タイミング回路、16は、メモ
リ転送回路、17,18は、アンドゲート、5は、第1
図と同様に、通話路系バスである。
の実施例のプロツク図である。ここで、11は、第2図
におけるものと同様な信号受信分配回路、12は、監視
カウンタ、13は、カウンタラストルツクメ七り、14
は、照合回路、15は、タイミング回路、16は、メモ
リ転送回路、17,18は、アンドゲート、5は、第1
図と同様に、通話路系バスである。
第3図においても、第2図の場合と同様に、ソフトウエ
ア制御により、通話路系バス5、信号受信分配回路11
を通して、各プロセツサ対応に、1分周期で監視カウン
タ12の内容CNTO〜CNTnが読み取られ、その値
に1が加算されて、再び、監視カウンタ12に格納され
る。
ア制御により、通話路系バス5、信号受信分配回路11
を通して、各プロセツサ対応に、1分周期で監視カウン
タ12の内容CNTO〜CNTnが読み取られ、その値
に1が加算されて、再び、監視カウンタ12に格納され
る。
カウンタラストルツクメモリ13は、監視カウンタ12
の3分ごとのカウンタ値をメモリ転送回路16を経て蓄
積しておく。
の3分ごとのカウンタ値をメモリ転送回路16を経て蓄
積しておく。
照合回路14は、タイミング回路15により、前記カウ
ンタ更新周期の2倍以上の周期、たとえば、3分ごとに
起動され、アンドゲート17,18を通して、それぞれ
、監視カウンタ12およびカウンタラストルツクメモリ
13の内容を受信して照合する。
ンタ更新周期の2倍以上の周期、たとえば、3分ごとに
起動され、アンドゲート17,18を通して、それぞれ
、監視カウンタ12およびカウンタラストルツクメモリ
13の内容を受信して照合する。
照合の結果、これらが不一致であれば、メモリ転送回路
16に照合終了信号0Kを送出し、監視カウンタ12の
内容をカウンタラストルツクメモリ13へ転送させ、次
の照合動作に備える。
16に照合終了信号0Kを送出し、監視カウンタ12の
内容をカウンタラストルツクメモリ13へ転送させ、次
の照合動作に備える。
照合結果が一致している監視カウンタがあれば、図示さ
れていない外部障害表示回路に、プロセツサ番号別に障
害通知信号NGを送出する。これにより保守者または障
害処理プロセツサは、異常状態のプロセツサを知ること
ができる。以上、詳細に述べたように、本発明によれば
、マルチプロセツサ方式の情報処理システムにおいて、
従来の検出手段では、各プロセツサの処理が停止し、こ
れが全プロセツサに及んでシステムダウンを引き起すま
で検出することができなかつたような異常を事前に検出
することができるので、システムダウンに到る前に、あ
らかじめ、予防保全をすることができ、特に、極めて信
頼度の高いオンライン用マルチプロセツサ方式の情報処
理システムの実現に対して、その効果は、すこぶる顕著
である。
れていない外部障害表示回路に、プロセツサ番号別に障
害通知信号NGを送出する。これにより保守者または障
害処理プロセツサは、異常状態のプロセツサを知ること
ができる。以上、詳細に述べたように、本発明によれば
、マルチプロセツサ方式の情報処理システムにおいて、
従来の検出手段では、各プロセツサの処理が停止し、こ
れが全プロセツサに及んでシステムダウンを引き起すま
で検出することができなかつたような異常を事前に検出
することができるので、システムダウンに到る前に、あ
らかじめ、予防保全をすることができ、特に、極めて信
頼度の高いオンライン用マルチプロセツサ方式の情報処
理システムの実現に対して、その効果は、すこぶる顕著
である。
第1図は、本発明に係るマルチプロセツサ障害検出方式
の一実施例のプロツク図、第2図は、第1図にδける障
害監視装置の一実施例のプロツク図、第3図は、第1図
における障害監視装置の他の実施例のプロツク図である
。 1・・・・・・プロセツサ、2・・・・・・共通メモリ
、3・・・・・・通話路系装置、4・・・・・・メモリ
バス、5・・・・・・通話路系バス、6・・・・・・障
害監視装置、7,11・・・・・・信号受信分配回路、
8・・・・・・アドレスゲート、9・・・・・・監視メ
モリ、10・・・・・・データレジスタ、12・・・・
・・監視カウンタ、13・・・・・・カウンタラストル
ツクメモlハ 14・・・・・・照合回路、15・・・
・・・タイミング回路、16・・・・・・メモリ転送回
路、17,18・・・・・・アンドゲ゛一ト。
の一実施例のプロツク図、第2図は、第1図にδける障
害監視装置の一実施例のプロツク図、第3図は、第1図
における障害監視装置の他の実施例のプロツク図である
。 1・・・・・・プロセツサ、2・・・・・・共通メモリ
、3・・・・・・通話路系装置、4・・・・・・メモリ
バス、5・・・・・・通話路系バス、6・・・・・・障
害監視装置、7,11・・・・・・信号受信分配回路、
8・・・・・・アドレスゲート、9・・・・・・監視メ
モリ、10・・・・・・データレジスタ、12・・・・
・・監視カウンタ、13・・・・・・カウンタラストル
ツクメモlハ 14・・・・・・照合回路、15・・・
・・・タイミング回路、16・・・・・・メモリ転送回
路、17,18・・・・・・アンドゲ゛一ト。
Claims (1)
- 【特許請求の範囲】 1 マルチプロセッサ方式の情報処理システムにおいて
、共通バスを介して各プロセッサからアクセス可能な障
害監視装置を設け、該各プロセッサは、該障害監視装置
に含まれる該各プロセッサ対応の監視カウンタまたは監
視メモリアドレスの内容を、それぞれ、一定周期でエン
トリがわたされるプログラム処理により、歩進せしめる
とともに、歩進前の該監視カウンタまたはメモリアドレ
スの内容を共通メモリのラストルック領域に格納し、該
プログラム処理の周期より長い周期で実行されるプロセ
ッサ異常検出プログラムに従つて、自プロセッサを除き
、他の全プロセッサに対応する該監視カウンタまたはメ
モリアドレスおよび該共通メモリ内のラストルックの内
容を読み取り、両者の値が一致しているプロセッサを異
常と判定し、外部に対し障害表示または障害処理プログ
ラムの起動をすることを特徴とするマルチプロセッサ障
害検出方式。 2 特許請求の範囲第1項において、障害監視装置は、
監視カウンタまたは監視メモリならびにこれらに対する
アドレス指定、歩進データの書込みおよびカウンタ値も
しくはメモリ内容の読み取りを行い、これらに関する信
号の送受を共通バスに対して行う信号受信分配回路から
なるマルチプロセッサ障害監視方式。 3 マルチプロセッサ方式の情報処理システムにおいて
、共通バスを介して各プロセッサからアクセス可能な障
害監視装置を設け、該各プロセッサは、該障害監視装置
に含まれる該各プロセッサ対応の監視カウンタまたは監
視メモリアドレスの内容を、それぞれ、一定周期でエン
トリがわたされるプログラム処理により、歩進せしめる
とともに、該障害監視装置は、歩進前の該監視カウンタ
または監視メモリアドレスの内容を記憶し、該プログラ
ム処理の周期より長い周期で、該各プロセッサごとに、
該監視カウンタまたは監視メモリアドレスの歩進前後の
値を照合し、両者が一致しているプロセッサを異常と判
定し、外部に対してプロセッサ対応で障害表示を行うこ
とを特徴とするマルチプロセッサ障害検出方式。 4 特許請求の範囲第3項において、障害監視装置は、
監視カウンタまたは監視メモリ、これらに対するアドレ
ス指定、歩進データの書込みおよびカウンタ値もしくは
メモリ内容の読み取りを行い、これらに関する信号の送
受を共通バスに対して行う信号受信分配回路、該監視カ
ウンタまたは監視メモリの歩進前の内容を記憶するラス
トルックメモリ、一定周期でエントリがわたされるプロ
グラムの周期より長い周期でタイミングパルスを発生す
るタイミング回路、該タイミングパルスごとに該監視カ
ウンタもしくは監視メモリの内容およびラストルックメ
モリの内容を取りこみ、両者を照合し、一致していれば
、外部に対してプロセッサ対応に障害表示を行い、不一
致であれば、照合終了信号を送出する照合回路ならびに
該照合終了信号を受信して該監視カウンタまたは監視メ
モリの内容を該ラストルックメモリに転送せしめるメモ
リ転送回路からなるマルチプロセッサ障害監視方式。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP54046004A JPS594054B2 (ja) | 1979-04-17 | 1979-04-17 | マルチプロセツサ障害検出方式 |
CA000349468A CA1153120A (en) | 1979-04-17 | 1980-04-09 | Multiprocessor information processing system having fault detection function based on periodic supervision of updated fault supervising codes |
GB8012403A GB2047446B (en) | 1979-04-17 | 1980-04-15 | Multiprocessor information processing system having fault detection function |
US06/140,619 US4453210A (en) | 1979-04-17 | 1980-04-15 | Multiprocessor information processing system having fault detection function based on periodic supervision of updated fault supervising codes |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP54046004A JPS594054B2 (ja) | 1979-04-17 | 1979-04-17 | マルチプロセツサ障害検出方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS55138149A JPS55138149A (en) | 1980-10-28 |
JPS594054B2 true JPS594054B2 (ja) | 1984-01-27 |
Family
ID=12734917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP54046004A Expired JPS594054B2 (ja) | 1979-04-17 | 1979-04-17 | マルチプロセツサ障害検出方式 |
Country Status (4)
Country | Link |
---|---|
US (1) | US4453210A (ja) |
JP (1) | JPS594054B2 (ja) |
CA (1) | CA1153120A (ja) |
GB (1) | GB2047446B (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02114313A (ja) * | 1988-10-24 | 1990-04-26 | Advantest Corp | 高速外部記憶装置 |
JPH0246967B2 (ja) * | 1983-03-10 | 1990-10-18 | Fujitsu Ltd | |
JPH0581085A (ja) * | 1991-04-19 | 1993-04-02 | Internatl Business Mach Corp <Ibm> | トレースデータ捕捉・蓄積方法及び装置 |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57197667A (en) * | 1981-05-29 | 1982-12-03 | Toshiba Corp | On-line monitor in dataway system |
JPS57203163A (en) * | 1981-06-10 | 1982-12-13 | Fujitsu Ltd | Device used in common by plural utilization sources |
US4563762A (en) * | 1981-06-15 | 1986-01-07 | General Signal Corp. | Vital communication system for transmitting multiple messages |
JPS58182777A (ja) * | 1982-04-20 | 1983-10-25 | Fujitsu Ltd | システム制御方式 |
JPS58221552A (ja) * | 1982-06-18 | 1983-12-23 | Oki Electric Ind Co Ltd | 電子交換機における異常状態検出方式 |
US4514846A (en) * | 1982-09-21 | 1985-04-30 | Xerox Corporation | Control fault detection for machine recovery and diagnostics prior to malfunction |
JPS5962261A (ja) * | 1982-09-30 | 1984-04-09 | Matsushita Electric Ind Co Ltd | 電子交換機の障害検出方法 |
JPS5962260A (ja) * | 1982-09-30 | 1984-04-09 | Matsushita Electric Ind Co Ltd | 電子交換機の冗長系切替方法 |
US4578773A (en) * | 1983-09-27 | 1986-03-25 | Four-Phase Systems, Inc. | Circuit board status detection system |
US4654790A (en) * | 1983-11-28 | 1987-03-31 | Amdahl Corporation | Translation of virtual and real addresses to system addresses |
US4633467A (en) * | 1984-07-26 | 1986-12-30 | At&T Bell Laboratories | Computer system fault recovery based on historical analysis |
GB2171543B (en) * | 1985-02-27 | 1988-04-20 | Hughes Microelectronics Ltd | Counting circuit which provides for extended counter life |
US4803682A (en) * | 1985-03-04 | 1989-02-07 | Sanyo Electric Co., Ltd. | Resetting system |
US4679195A (en) * | 1985-04-10 | 1987-07-07 | Amdahl Corporation | Error tracking apparatus in a data processing system |
US4803683A (en) * | 1985-08-30 | 1989-02-07 | Hitachi, Ltd. | Method and apparatus for testing a distributed computer system |
US4837683A (en) * | 1985-10-21 | 1989-06-06 | The United States Of America As Represented By The Secretary Of The Air Force | Hidden fault bit apparatus for a self-organizing digital processor system |
EP0236803B1 (de) * | 1986-03-12 | 1992-01-15 | Siemens Aktiengesellschaft | Verfahren zum Betrieb einer fehlergesicherten hochverfügbaren Multiprozessor-Zentralsteuereinheit eines Vermittlungssystemes |
US4785417A (en) * | 1986-04-28 | 1988-11-15 | Pitney Bowes Inc. | Electronic postage meter having an out of sequence checking arrangement |
FR2602891B1 (fr) * | 1986-08-18 | 1990-12-07 | Nec Corp | Systeme de correction d'erreur d'un systeme a multiprocesseurs pour corriger une erreur dans un processeur en mettant le processeur en condition de controle apres achevement du redemarrage du microprogramme a partir d'un point de reprise |
DE3639055C2 (de) * | 1986-11-14 | 1998-02-05 | Bosch Gmbh Robert | Verfahren zur Betriebsüberwachung und Fehlerkorrektur von Rechnern eines Mehrrechnersystems und Mehrrechnersystem |
SE457391B (sv) * | 1987-04-16 | 1988-12-19 | Ericsson Telefon Ab L M | Programminnesstyrt realtidssystem omfattande tre i huvudsak identiska processorer |
US5084816A (en) * | 1987-11-25 | 1992-01-28 | Bell Communications Research, Inc. | Real time fault tolerant transaction processing system |
US5090014A (en) * | 1988-03-30 | 1992-02-18 | Digital Equipment Corporation | Identifying likely failure points in a digital data processing system |
CA1318030C (en) * | 1988-03-30 | 1993-05-18 | Herman Polich | Expert system for identifying failure points in a digital data processing system |
US5077768A (en) * | 1989-02-20 | 1991-12-31 | Fuji Photo Film Co., Ltd. | Fault detection and recovery device used in a radiation imaging information processing system |
JPH02231649A (ja) * | 1989-03-06 | 1990-09-13 | Toshiba Corp | コントローラのヘルシチェック方法およびヘルシチェック機能付きコントローラ |
US5355469A (en) * | 1990-07-30 | 1994-10-11 | Delphi Data, A Division Of Sparks Industries, Inc. | Method for detecting program errors |
US5418937A (en) * | 1990-11-30 | 1995-05-23 | Kabushiki Kaisha Toshiba | Master-slave type multi-processing system with multicast and fault detection operations having improved reliability |
DE69227272T2 (de) * | 1991-04-16 | 1999-03-11 | Nec Corp., Tokio/Tokyo | Multiprozessorssystem |
US5287362A (en) * | 1992-05-18 | 1994-02-15 | Sun Microsystems, Inc. | Mechanism for implementing multiple time-outs |
US5579368A (en) * | 1992-05-18 | 1996-11-26 | Rockwell International Corporation | Device for monitoring a switch |
US5640513A (en) * | 1993-01-22 | 1997-06-17 | International Business Machines Corporation | Notification of disconnected service machines that have stopped running |
DE4319734C2 (de) * | 1993-06-15 | 1996-04-11 | Siemens Ag | Anordnung zur In-Betrieb-Überwachung von Übertragungsstrecken der elektrischen Nachrichten-Übertragungstechnik |
EP0762337A3 (de) * | 1995-09-08 | 2000-01-19 | Francotyp-Postalia Aktiengesellschaft & Co. | Verfahren und Anordnung zur Erhöhung der Manipulationssicherheit von kritischen Daten |
JPH10198583A (ja) * | 1997-01-10 | 1998-07-31 | Nec Corp | 空走プロセスの検出と処置方式及び方法 |
US5982894A (en) * | 1997-02-06 | 1999-11-09 | Authentec, Inc. | System including separable protected components and associated methods |
KR20040019335A (ko) * | 2001-07-18 | 2004-03-05 | 코닌클리즈케 필립스 일렉트로닉스 엔.브이. | 다중프로세서 디바이스 및 동기화 최적화 방법 및 액세스제어 방법 |
US20040216003A1 (en) * | 2003-04-28 | 2004-10-28 | International Business Machines Corporation | Mechanism for FRU fault isolation in distributed nodal environment |
DE10328059A1 (de) * | 2003-06-23 | 2005-01-13 | Robert Bosch Gmbh | Verfahren und Vorrichtung zur Überwachung eines verteilten Systems |
US7350113B2 (en) * | 2004-05-11 | 2008-03-25 | International Business Machines Corporation | Control method, system, and program product employing an embedded mechanism for testing a system's fault-handling capability |
JP4831599B2 (ja) | 2005-06-28 | 2011-12-07 | ルネサスエレクトロニクス株式会社 | 処理装置 |
JP5335552B2 (ja) | 2009-05-14 | 2013-11-06 | キヤノン株式会社 | 情報処理装置、その制御方法、及びコンピュータプログラム |
JP5653332B2 (ja) * | 2011-10-28 | 2015-01-14 | 株式会社東芝 | 周期エラー検出方法および周期エラー検出回路 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3471686A (en) * | 1966-01-03 | 1969-10-07 | Bell Telephone Labor Inc | Error detection system for synchronized duplicate data processing units |
US3908099A (en) * | 1974-09-27 | 1975-09-23 | Gte Automatic Electric Lab Inc | Fault detection system for a telephone exchange |
JPS5827538B2 (ja) * | 1976-02-06 | 1983-06-10 | 日本電気株式会社 | 相互監視方式 |
US4356546A (en) * | 1980-02-05 | 1982-10-26 | The Bendix Corporation | Fault-tolerant multi-computer system |
-
1979
- 1979-04-17 JP JP54046004A patent/JPS594054B2/ja not_active Expired
-
1980
- 1980-04-09 CA CA000349468A patent/CA1153120A/en not_active Expired
- 1980-04-15 US US06/140,619 patent/US4453210A/en not_active Expired - Lifetime
- 1980-04-15 GB GB8012403A patent/GB2047446B/en not_active Expired
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0246967B2 (ja) * | 1983-03-10 | 1990-10-18 | Fujitsu Ltd | |
JPH02114313A (ja) * | 1988-10-24 | 1990-04-26 | Advantest Corp | 高速外部記憶装置 |
JPH0581085A (ja) * | 1991-04-19 | 1993-04-02 | Internatl Business Mach Corp <Ibm> | トレースデータ捕捉・蓄積方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
US4453210A (en) | 1984-06-05 |
CA1153120A (en) | 1983-08-30 |
GB2047446B (en) | 1983-09-01 |
JPS55138149A (en) | 1980-10-28 |
GB2047446A (en) | 1980-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS594054B2 (ja) | マルチプロセツサ障害検出方式 | |
US5768496A (en) | Method and apparatus for obtaining a durable fault log for a microprocessor | |
JPH0341853B2 (ja) | ||
EP0125797B1 (en) | Interrupt signal handling apparatus | |
JPS6324440A (ja) | 多重プロセッサ・システム用システム管理装置 | |
JP2001350735A (ja) | 複数データ処理装置間相互監視方法 | |
JPH0424838A (ja) | マルチプロセッサの障害管理方式 | |
JPH1115661A (ja) | Cpuの自己診断方法 | |
JPS5827538B2 (ja) | 相互監視方式 | |
JPH03253945A (ja) | データ処理システムの異常回復処理機能確認方式 | |
JPH10228395A (ja) | 制御用コントローラの異常診断装置 | |
JPS6074052A (ja) | ヒストリ・メモリ制御方式 | |
CN117743008A (zh) | 多核处理器故障诊断与异常处理方法、主控板卡及设备 | |
AU683958B2 (en) | Microprocessor fault log | |
JP3110124B2 (ja) | マルチコンピュータシステムにおける障害検出方式 | |
JPS61177548A (ja) | 再試行制御方式 | |
JP2635777B2 (ja) | プログラマブル・コントローラ | |
JP3042034B2 (ja) | 障害処理方式 | |
JPH06334653A (ja) | 出力メッセージ制御回路 | |
JPH07230432A (ja) | 計算装置 | |
JPH0434184B2 (ja) | ||
JPH04213123A (ja) | 電子計算機の故障予防保全方式 | |
JPH04307639A (ja) | リプライ待ち監視回路 | |
JPH0581059A (ja) | マルチプロセツサシステム | |
JPH0916434A (ja) | Cpu暴走時の障害情報検出方法 |