JP2012038257A - Os operating state confirmation system, confirmation object device, os operating state confirmation device, and os operating state confirmation method and program - Google Patents
Os operating state confirmation system, confirmation object device, os operating state confirmation device, and os operating state confirmation method and program Download PDFInfo
- Publication number
- JP2012038257A JP2012038257A JP2010180432A JP2010180432A JP2012038257A JP 2012038257 A JP2012038257 A JP 2012038257A JP 2010180432 A JP2010180432 A JP 2010180432A JP 2010180432 A JP2010180432 A JP 2010180432A JP 2012038257 A JP2012038257 A JP 2012038257A
- Authority
- JP
- Japan
- Prior art keywords
- confirmation
- target device
- event
- operation state
- control means
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明はOS動作状態確認システム、OS動作状態確認装置および確認対象装置、確認方法およびプログラムに関し、特に確認対象装置に起こった不具合の原因を遠隔地から特定するOS動作状態確認システム等に関する。 The present invention relates to an OS operation state confirmation system, an OS operation state confirmation device, a confirmation target device, a confirmation method, and a program, and more particularly to an OS operation state confirmation system that identifies a cause of a problem that has occurred in a confirmation target device from a remote location.
コンピュータネットワークによる情報サービスシステムが社会的に重要なインフラとして定着している現代では、ネットワークはますます大規模化および複雑化している。これによって、該システムを構成する各コンピュータが正常に動作しているか否かを監視する重要性はますます増大している。そこで、情報サービスシステムを構成する各コンピュータの動作を監視するための運用管理システム、とりわけOS動作状態確認システムの利用が拡大している。 In the present age when information service systems based on computer networks are established as socially important infrastructures, networks are becoming larger and more complex. As a result, the importance of monitoring whether or not each computer constituting the system is operating normally is increasing. Therefore, the use of an operation management system for monitoring the operation of each computer constituting the information service system, in particular, an OS operation state confirmation system is expanding.
ここでいうOS動作状態確認システムとは、複数のコンピュータ装置である確認対象装置と、それらの確認対象装置を監視するコンピュータ装置であるOS動作状態確認装置とがネットワークによって相互に接続されて構成され、確認対象装置の主演算制御手段(CPU: Central Processing Unit)で動作するオペレーティングシステム(以後OSという)が正常に動作しているか否かを遠隔地に設置されたOS動作状態確認装置の側で監視するものである。 The OS operation state confirmation system referred to here is configured such that a plurality of confirmation target devices, which are a plurality of computer devices, and an OS operation state confirmation device, which is a computer device that monitors these confirmation target devices, are connected to each other via a network. Whether the operating system (hereinafter referred to as OS) operating in the main processing control means (CPU: Central Processing Unit) of the device to be checked is operating normally is determined by the OS operating state checking device installed in the remote place. It is something to monitor.
確認対象装置は、当該装置の主演算制御手段とは別個に動作するマイクロプロセッサを含むBMC(Baseboard Management Controller)を備えており、これによってOSの動作状態とは関係なく当該装置の動作状態を収集してOS動作状態確認装置に送信することができる。 The device to be confirmed has a BMC (Baseboard Management Controller) including a microprocessor that operates separately from the main arithmetic control means of the device, thereby collecting the operation status of the device regardless of the OS operation status. Then, it can be transmitted to the OS operation state confirmation device.
これに関連する技術文献として、以下の各々がある。その中でも特許文献1には、OS内に作成されたログを電子メールによって保守管理者に送信するという計算機システムが記載されている。特許文献2には、監視管理コンピュータと被監視コンピュータとが相互に監視し合うことにより、監視管理プログラム自体で発生した問題を検出できるというコンピュータ相互監視方式などが記載されている。
As technical literature related to this, there are the following. Among them,
特許文献3には、接続されたネットワーク機器に異常が発生した場合にその旨をユーザ受信端末に送信するという端末装置が記載されている。特許文献4には、複数の装置(サーバ)が監視用データを相互に書き換え、書き換えられた監視用データを監視装置に送信することにより、複数の装置のアプリケーション間の連携について監視することができるという監視方法などが記載されている。
特許文献5には、複数の通信ルートを介して監視対象装置と通信を行うという死活監視方法が記載されている。非特許文献1には、前述のBMCを利用してネットワークを介して確認対象装置の監視を行う技術の一例が記載されている。非特許文献2には、監視対象装置のハードウェアの状態を監視するための標準インターフェイス仕様であるIPMI(Intelligent Platform Management Interface)について記載されている。
Patent Document 5 describes a life and death monitoring method in which communication with a monitoring target device is performed via a plurality of communication routes. Non-Patent
確認対象装置とOS動作状態確認装置とが相互に通信して確認対象装置のOSが正常に動作しているか否かの監視(以後、これを死活監視という)を行う場合、通常は確認対象装置とOS動作状態確認装置との間でピング(Ping)などのような通信を定期的に行い、この定期的な通信が断絶した場合に確認対象装置に問題が発生したと判断している。 When the confirmation target device and the OS operation state confirmation device communicate with each other to monitor whether or not the OS of the confirmation target device is operating normally (hereinafter referred to as alive monitoring), usually the confirmation target device Communication such as ping is periodically performed between the OS and the OS operation state confirmation device, and it is determined that a problem has occurred in the device to be confirmed when the periodic communication is interrupted.
しかしながら、その場合に確認対象装置において発生した問題が、確認対象装置で動作するOSで発生したものであるか、それとも確認対象装置との間のネットワーク機器で発生したものであるか、またそれは誤検出もしくは時間が経過すれば回復する一時的な現象であるか、それとも技術者による回復の操作が必要な重大な問題であるかを、OS動作状態確認装置側で知る方法はなかった。このような問題の発生原因やその重大さを特定するには、専ら技術者が実際にその問題の発生した確認対象装置を操作する以外にない。これには時間と労力を要する。 However, in this case, whether the problem that occurred in the confirmation target device occurred in the OS that runs on the confirmation target device, or occurred in the network device between the confirmation target device, and that is an error. There was no way for the OS operation status confirmation device to know whether this is a temporary phenomenon that recovers after detection or time has passed, or whether it is a serious problem that requires a recovery operation by an engineer. In order to identify the cause and severity of such a problem, an engineer can only operate the confirmation target apparatus in which the problem actually occurred. This takes time and effort.
前述の特許文献1〜5および非特許文献1〜2には、この問題を解決しうる技術は記載されていない。非特許文献1に記載されたBMCは、確認対象装置のOSが正常に動作していないとしても、それとは無関係に動作して確認対象装置のハードウェアの動作状態を検出してOS動作状態確認装置側に送信することはできる。しかしながら、これも確認対象装置で発生した問題の原因やその重大さを特定するものではない。
The
本発明の目的は、確認対象装置で発生したOS動作状態確認装置との間の通信の断絶の原因がOSで発生したものであるかネットワーク機器で発生したものであるか、およびその問題の重大さを遠隔地に設置されたOS動作状態確認装置側で知ることを可能とするOS動作状態確認システム、確認対象装置、OS動作状態確認装置、OS動作状態確認方法およびプログラムを提供することにある。 It is an object of the present invention to determine whether the cause of the disconnection of communication with the OS operation state confirmation device generated in the confirmation target device is caused by the OS or the network device, and the seriousness of the problem. The present invention provides an OS operation state confirmation system, a confirmation target device, an OS operation state confirmation device, an OS operation state confirmation method, and a program that allow the OS operation state confirmation device installed in a remote location to know the above. .
上記目的を達成するため、本発明に係るOS動作状態確認システムは、OS動作状態確認装置と確認対象装置とが相互に接続されることによって構成され、確認対象装置におけるオペレーティングシステムの動作が正常であるか否かをOS動作状態確認装置の側から確認するOS動作状態確認システムであって、確認対象装置が、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して確認対象装置の動作情報を収集してOS動作状態確認装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時にOS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を送信する死活検出部とを備えると共に、副演算制御手段が、OS動作状態確認装置からの命令に基づいてイベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報をOS動作状態確認装置に対して送信するIPMIコマンド通信機能を備え、OS動作状態確認装置が、確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部と、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令を送信するOEMイベント送信部とを備えると共に、確認対象装置から第2の死活検出情報を受信した場合にピング送信部に対して第1のピングの送信を指令する死活検出情報判定部と、第1のピングに対する返信が確認対象装置から返って来た場合に確認対象装置の主演算制御手段が過負荷状態であると判断し、そうでない場合に確認対象装置の主演算制御手段がハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部とを有することを特徴とする。 In order to achieve the above object, an OS operation state confirmation system according to the present invention is configured by mutually connecting an OS operation state confirmation device and a confirmation target device, and the operation of the operating system in the confirmation target device is normal. An OS operation state confirmation system for confirming whether or not there is an OS operation state confirmation device, wherein the confirmation target device operates separately from the main operation control means for operating the operating system and the main operation control means The sub-operation control means for collecting the operation information of the confirmation target device and transmitting it to the OS operation state confirmation device, and the event log in which both the main operation control means and the sub-operation control means add each operation content as an event. While the stored storage means and the main arithmetic control means are operating normally, the event newly added to the event log is defined. And a life / death detection unit that transmits first life / death detection information that is confirmation information of the operation state to the OS operation state confirmation device at the same time that the processed information of the event is additionally recorded, and the sub-operation control means includes , Adding a new event to the event log based on a command from the OS operation state confirmation device and determining whether processed information is added to the new event after a predetermined delay time has elapsed, An OSMI state confirmation device having an IPMI command communication function for transmitting second life / death detection information indicating a state in which this additional processing is not performed to the OS operation state confirmation device when the processed information is not additionally recorded; However, if the periodic communication is interrupted and the periodic communication is interrupted, it is determined that a problem has occurred in the verification target device. An output unit, a ping transmitting unit that transmits a ping for network communication confirmation to the confirmation target device, and a sub-operation control unit of the confirmation target device when it is determined that a problem has occurred in the confirmation target device An OEM event transmission unit that transmits a command to add a new event to the event log, and transmits the first ping to the ping transmission unit when the second alive detection information is received from the confirmation target device. When the reply to the first ping is returned from the confirmation target device, it is determined that the main arithmetic control means of the confirmation target device is in an overload state, and if not, the confirmation target It is characterized by having a failure cause judging section for judging that the main arithmetic control means of the apparatus is hung up and outputting the judgment result to the outside.
上記目的を達成するため、本発明に係る確認対象装置は、OS動作状態確認装置と相互に接続されることによって、オペレーティングシステムの動作が正常であるか否かをOS動作状態確認装置の側から確認するOS動作状態確認システムを構成する確認対象装置であって、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らの動作情報を収集してOS動作状態確認装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時にOS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を送信する死活検出部とを備えると共に、副演算制御手段が、OS動作状態確認装置からの命令に基づいてイベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報をOS動作状態確認装置に対して送信するIPMIコマンド通信機能を備えることを特徴とする。 In order to achieve the above object, the device to be confirmed according to the present invention is connected to the OS operation state confirmation device to determine whether or not the operation of the operating system is normal from the OS operation state confirmation device side. A device to be confirmed constituting an OS operation status confirmation system to be confirmed, which is a main arithmetic control means for operating the operating system, and this main arithmetic control means operates separately to collect its own operation information to collect the OS operation Sub-operation control means for transmitting to the status confirmation device, storage means for storing event logs in which both main operation control means and sub-operation control means add each operation content as an event, and main operation control means operate normally During this period, the OS operation is performed at the same time that the processed information of the event is periodically added to the event newly added to the event log. And a life / death detecting unit that transmits first life / death detection information that is confirmation information of the operation state to the state confirmation device, and the sub-operation control unit is configured to receive an event log based on a command from the OS operation state confirmation device A new event is added to the new event, and it is determined whether or not processed information is added to the new event after a predetermined delay time has elapsed, and this additional processing is performed when the processed information is not added. It is characterized by having an IPMI command communication function for transmitting second life / death detection information indicating a state in which the operation is not performed to the OS operation state confirmation device.
上記目的を達成するため、本発明に係るOS動作状態確認装置は、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らのハードウェアの動作についての情報を収集して外部装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方の動作内容を記録するイベントログを記憶した記憶手段とを備える確認対象装置と相互に接続されることによって、確認対象装置でのオペレーティングシステムの動作が正常であるか否かを確認するOS動作状態確認システムを構成するOS動作状態確認装置であって、確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部と、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令を送信するOEMイベント送信部とを備えると共に、確認対象装置からイベントログに書き込んだ新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が書き込まれていないことを意味する死活検出情報を受信した場合にピング送信部に対してピングの送信を指令する死活検出情報判定部と、ピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し、そうでない場合に確認対象装置のオペレーティングシステムがハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部を有することを特徴とする。 In order to achieve the above object, an OS operation state confirmation device according to the present invention includes a main operation control means for operating an operating system, and information about the operation of its own hardware that operates separately from the main operation control means. And a sub-operation control means that collects and transmits to the external device and a storage device that stores an event log that records the operation contents of both the main operation control means and the sub-operation control means. Thus, an OS operation state confirmation device constituting an OS operation state confirmation system for confirming whether or not the operation of the operating system in the confirmation target device is normal, and periodically communicates with the confirmation target device. For the confirmation target device alive detection unit that determines that a problem has occurred in the confirmation target device when the periodic communication is interrupted, and for the confirmation target device A command for adding a new event to the event log to the sub-operation control means of the confirmation target device when it is determined that a problem has occurred in the confirmation target device, and a ping transmission unit that transmits a ping (Ping) for network communication confirmation Means that the processed information is not written even after a predetermined delay time has elapsed for a new event written from the confirmation target device to the event log. The life / death detection information determination unit that instructs the ping transmission unit to transmit ping when the detection information is received, and the operating system of the confirmation target device is overloaded when a reply to the ping is returned from the confirmation target device If not, the operating system of the device to be checked is hung. It is determined that, and having a fault cause determination unit that outputs the determination result to the outside.
上記目的を達成するため、本発明に係るOS動作状態確認方法は、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して確認対象装置の動作情報を収集してOS動作状態確認装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、確認対象装置でのオペレーティングシステムの動作が正常であるか否かをOS動作状態確認装置の側から確認するOS動作状態確認システムにあって、確認対象装置で主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を確認対象装置の死活検出部が追記すると同時にOS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を死活検出部が送信し、OS動作状態確認装置と確認対象装置との間の定期的な通信が途切れた場合に確認対象装置に不具合が生じたとOS動作状態確認装置の確認対象装置死活検出部が判断し、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令をOS動作状態確認装置のOEMイベント送信部が送信し、OS動作状態確認装置からの命令に反応した確認対象装置の副演算制御手段がイベントログに新規イベントを付加し、予め定められた遅延時間が経過した後で確認対象装置のイベントログに付加した新規イベントに対して処理済み情報が追記されているか否かを副演算制御手段が判断し、確認対象装置のイベントログに処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報をOS動作状態確認装置に対して確認対象装置の副演算制御手段が送信し、OS動作状態確認装置が確認対象装置から第2の死活検出情報を受信した場合に死活検出情報判定部がピング送信部を介して確認対象装置にネットワーク疎通確認用のピング(Ping)を送信し、ピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し、そうでない場合に確認対象装置のオペレーティングシステムがハングアップしているとOS動作状態確認装置の死活検出情報判定部が判断し、この判断結果をOS動作状態確認装置の死活検出情報判定部が外部に出力することを特徴とする。 In order to achieve the above object, an OS operation state confirmation method according to the present invention collects operation information of a device to be confirmed by operating separately from a main operation control unit that operates an operating system and this main operation control unit. A confirmation target device comprising: a sub-operation control unit that transmits to the OS operation state confirmation device; and a storage unit that stores an event log in which each of the main operation control unit and the sub-operation control unit adds each operation content as an event. The OS operation state confirmation system is configured by being interconnected with the OS operation state confirmation device, and confirms from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal. As long as the main arithmetic control means is operating normally on the device to be checked, the newly added event is periodically The life and death detection unit of the confirmation target apparatus adds the processed information of the event, and at the same time, the life and death detection unit transmits the first life and death detection information that is the confirmation information of the operation state to the OS operation state confirmation device. When periodic communication between the status check device and the check target device is interrupted, the check target device alive detection unit of the OS operation status check device determines that a failure has occurred in the check target device, and the check target device has a fault. When it is determined that the event has occurred, the OEM event transmission unit of the OS operation state confirmation device transmits a command to add a new event to the event log to the sub-operation control unit of the confirmation target device. The sub-operation control means of the confirmation target device that responds to the event adds a new event to the event log, and after the predetermined delay time has elapsed, The sub-operation control means determines whether or not the processed information is added to the added new event, and this additional processing is not performed when the processed information is not added to the event log of the confirmation target device. When the sub-operation control means of the device to be confirmed transmits second life / death detection information indicating the state to the OS operation state confirmation device, and the OS operation state confirmation device receives the second life / death detection information from the device to be confirmed. The life / death detection information determination unit transmits a ping for network communication confirmation (Ping) to the confirmation target device via the ping transmission unit, and when the reply to the ping is returned from the confirmation target device, the operating system of the confirmation target device Is determined to be in an overload state, and if this is not the case, if the operating system of the confirmation target device is hung up, the OS operation state confirmation device The life / death detection information determination unit of the OS determines the result, and the life / death detection information determination unit of the OS operation state confirmation device outputs the determination result to the outside.
上記目的を達成するため、本発明に係るOS動作状態確認プログラムは、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して確認対象装置の動作情報を収集してOS動作状態確認装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、確認対象装置でのオペレーティングシステムの動作が正常であるか否かをOS動作状態確認装置の側から確認するOS動作状態確認システムにあって、OS動作状態確認装置が備えるコンピュータに、OS動作状態確認装置と確認対象装置との間の定期的な通信が途切れた場合に確認対象装置に不具合が生じたと判断する手順、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令を送信する手順、確認対象装置からイベントログに付加した新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が追記されていないことを意味する死活検出情報を受信した場合に確認対象装置にネットワーク疎通確認用のピング(Ping)を送信する手順、ピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し、そうでない場合に確認対象装置のオペレーティングシステムがハングアップしていると判断する手順、およびこの判断結果を外部に出力する手順を、実行させることを特徴とする。 In order to achieve the above object, an OS operation state confirmation program according to the present invention collects operation information of a device to be confirmed by operating separately from a main operation control unit that operates an operating system and the main operation control unit. A confirmation target device comprising: a sub-operation control unit that transmits to the OS operation state confirmation device; and a storage unit that stores an event log in which each of the main operation control unit and the sub-operation control unit adds each operation content as an event. The OS operation state confirmation system is configured by being interconnected with the OS operation state confirmation device, and confirms from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal. Thus, periodic communication between the OS operation state confirmation device and the confirmation target device is performed on the computer included in the OS operation state confirmation device. A procedure for determining that a failure has occurred in the device to be confirmed when it has expired, and a command for adding a new event to the event log to the sub-operation control means of the device to be confirmed when it is determined that a failure has occurred in the device to be confirmed Confirmation procedure when sending and receiving life and death detection information that means that processed information has not been added even after a predetermined delay time has elapsed for a new event added to the event log from the confirmation target device Procedure for transmitting ping (Ping) for network communication confirmation to the target device, when a reply to the ping is returned from the verification target device, it is determined that the operating system of the verification target device is overloaded, and otherwise The procedure for determining that the operating system of the device to be checked is hung up and the The procedure to be output to the section, characterized in that to execute.
本発明は、上述したように確認対象装置が主演算制御手段およびこれとは別個に動作する副演算制御手段、即ちBMCを備える構成とし、BMCがイベントログに書き込んだイベントがOSの上で動作する死活検出部によって処理済みとされているか否かによってOSの動作を判断するように構成したので、OS動作状態確認装置からネットワークを介して確認対象装置でのOSの動作状態を把握できる。 In the present invention, as described above, the confirmation target apparatus includes the main operation control unit and the sub operation control unit that operates separately from the main operation control unit, that is, the BMC, and the event written by the BMC in the event log operates on the OS. Since the OS operation is determined based on whether or not it has been processed by the alive detection unit, the OS operation state in the confirmation target device can be grasped from the OS operation state confirmation device via the network.
これによって、確認対象装置で発生したOS動作状態確認装置との間の通信の断絶の原因がOSで発生したものであるかネットワーク機器で発生したものであるか、およびその問題の重大さを遠隔地に設置されたOS動作状態確認装置側で知ることを可能とするOS動作状態確認システム、確認対象装置、OS動作状態確認装置、OS動作状態確認方法およびプログラムを提供することができる。 As a result, whether the cause of the disconnection of the communication with the OS operation state confirmation device occurring in the confirmation target device is caused by the OS or the network device, and the seriousness of the problem can be remotely detected. It is possible to provide an OS operation state confirmation system, a confirmation target device, an OS operation state confirmation device, an OS operation state confirmation method, and a program that can be known by the OS operation state confirmation device installed on the ground.
(第1の実施形態)
以下、本発明の第1の実施形態の構成について添付図1〜3に基づいて説明する。
最初に、本実施形態の基本的な内容について説明し、その後でより具体的な内容について説明する。
本実施形態に係るOS動作状態確認システム1は、OS動作状態確認装置10と確認対象装置20とが相互に接続されることによって構成され、確認対象装置におけるオペレーティングシステムの動作が正常であるか否かをOS動作状態確認装置の側から確認するOS動作状態確認システムである。確認対象装置20は、オペレーティングシステムを動作させる主演算制御手段21と、この主演算制御手段とは別個に動作して確認対象装置の動作情報を収集してOS動作状態確認装置に送信する副演算制御手段(BMC24)と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログ(SEL210)を記憶した記憶手段22と、主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時にOS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を送信する死活検出部201とを備えると共に、副演算制御手段(BMC24)が、OS動作状態確認装置からの命令に基づいてイベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報をOS動作状態確認装置に対して送信するIPMIコマンド通信機能241を備える。OS動作状態確認装置10は、確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に確認対象装置に不具合が生じたと判断する確認対象装置死活検出部101と、確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部103と、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令を送信するOEMイベント送信部102とを備えると共に、確認対象装置から第2の死活検出情報を受信した場合にピング送信部に対して第1のピングの送信を指令する死活検出情報判定部104と、第1のピングに対する返信が確認対象装置から返って来た場合に確認対象装置の主演算制御手段が過負荷状態であると判断し、そうでない場合に確認対象装置の主演算制御手段がハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部105とを有する。
(First embodiment)
Hereinafter, the structure of the 1st Embodiment of this invention is demonstrated based on attached FIGS. 1-3.
First, the basic content of the present embodiment will be described, and then more specific content will be described.
The OS operation
そして不具合原因判断部105が、確認対象装置から第2の死活検出情報を受信せずかつ第1の死活検出情報を受信した場合に確認対象装置のオペレーティングシステムの動作に特に問題はないと判断する。
When the failure
さらに死活検出情報判定部104が、確認対象装置から第1および第2の死活検出情報をいずれも受信しない場合にピング送信部102に対して第2のピングの送信を指令し、不具合原因判断部105が、第2のピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し、そうでない場合に確認対象装置との間のネットワークに恒久的な障害が発生したと判断する。
Further, the life / death detection
以上の構成を備えることにより、本実施形態のOS動作状態確認システム1は、遠隔地に設置されたOS動作状態確認装置10から、確認対象装置20でのOSの動作状態を正確に検出することが可能となる。
以下、これをより詳細に説明する。
With the above configuration, the OS operation
Hereinafter, this will be described in more detail.
図2は、本発明の第1の実施形態に係るOS動作状態確認システム1の構成について示す説明図である。OS動作状態確認システム1は、互いに離れた場所に設置されたOS動作状態確認装置10と複数台の確認対象装置20a、20b、20c…が、ネットワーク30と管理用ネットワーク31とを介して相互に接続されることによって構成される。1台のOS動作状態確認装置10で、複数台の確認対象装置20によって管理する構成とすることができる。以後、確認対象装置20a、20b、20c…を総称して確認対象装置20という。
FIG. 2 is an explanatory diagram showing the configuration of the OS operation
ネットワーク30は、OS動作状態確認装置10と確認対象装置20との間の通常の通信で使用されるLAN(Local Area Network)およびWAN(Wide Area Network)である。管理用ネットワーク31は、OS動作状態確認装置10と確認対象装置20との間で、動作についての情報の収集や管理コマンドの送信などのようなネットワーク管理用途で専用に利用されるネットワークである。
The network 30 is a LAN (Local Area Network) and a WAN (Wide Area Network) that are used in normal communication between the OS operation
図1は、図2に示したOS動作状態確認装置10および確認対象装置20のより詳しい構成について示す説明図である。
FIG. 1 is an explanatory diagram showing a more detailed configuration of the OS operation
OS動作状態確認装置10は、一般的なコンピュータ装置としての構成を有する。即ち、コンピュータプログラムを実行する主体となる主演算制御手段(CPU: Micro Processing Unit)11と、データを記憶する記憶手段12と、ネットワーク30に接続して他のコンピュータとのデータ通信を行う通信手段13aと、管理用ネットワーク31に接続して他のコンピュータとのデータ通信を行う通信手段13bと、主演算制御手段11による処理結果をユーザに表示する表示手段14とを備える。
The OS operation
そして、主演算制御手段11では、確認対象装置死活検出部101と、OEMイベント送信部102と、ピング(Ping)送信部103と、死活検出情報判定部104と、不具合原因判断部105とが、コンピュータプログラムとして各々の機能を実行されるように構成されている。
In the main calculation control means 11, the confirmation target device
確認対象装置死活検出部101は、確認対象装置20に対して所定の間隔で通信を行い、その通信に対する返信が予め決められた時間内になかった場合に、この確認対象装置20との通信が途切れたと判断する。OEMイベント送信部102は、確認対象装置20に対して、後述するOEMイベントを記録させるIPMIコマンドを送信する(詳細は後述)。ピング送信部103は、確認対象装置20に対してネットワーク30を介してネットワーク疎通確認のためのコマンドであるピング(Ping)を送信する。
The confirmation target device
死活検出情報判定部104は、これも後述する確認対象装置20からの応答情報を受信して、その内容に応じてピング送信部103にピングを送信させる。そして不具合原因判断部105は、以上の応答情報やピングに対する返信の有無などから、後述のロジックで確認対象装置20に生じた不具合の内容を特定して、その判断結果を表示手段14に表示する。
The life / death detection
もう一方の確認対象装置20もまた、一般的なコンピュータ装置としての構成を有する。即ち、コンピュータプログラムを実行する主体となる主演算制御手段(CPU: Micro Processing Unit)21と、データを記憶する記憶手段22と、ネットワーク30に接続して他のコンピュータとのデータ通信を行う2系統の通信手段23aと、管理用ネットワーク31に接続して他のコンピュータとのデータ通信を行う通信手段23bとを備える。これらに加えて、確認対象装置20はBMC(Baseboard Management Controller)24をさらに備える。
The
BMC24は通信手段23bに接続されていて、主演算制御手段21とは別個に動作する。OS動作状態確認装置10は、管理用ネットワーク31を介して、BMC24との間でRMCP(Remote Management Control ProtocolまたはRemote Media Control Protocol)のプロトコルによるIPMI(Intelligent Platform Management Interface)コマンドを交換することが可能である。
The
さらに、確認対象装置20の記憶手段22には、主演算制御手段21とBMC24のいずれの側からもアクセス可能なシステムイベントログ(SEL)210が記憶されている。
Further, the
主演算制御手段21ではオペレーティングシステム(以後OSという)200が動作し、そのOS200上で死活検出部201とIPMIドライバ202とが、コンピュータプログラムとして実行されるように構成されている。OS200は、通信手段23aを通信インターフェースとして認識していて、この通信手段23aを介してネットワーク30経由でOS動作状態確認装置10と通信を行うことができる。
The main arithmetic control means 21 is configured such that an operating system (hereinafter referred to as OS) 200 operates, and the life /
死活検出部201は、OS動作状態確認装置10で動作する確認対象装置死活検出部101からの通信に対して返信を行うことにより、確認対象装置死活検出部101に対して自らが問題なく動作していることを知らせる。死活検出部201は、IPMIドライバ202に対して命令を発するIPMI命令機能201a、OS動作状態確認装置10に対しての通信を行う管理通信機能201bとを備える。
The life /
IPMI命令機能201aは、主演算制御手段21のカーネルモードで動作し、SEL210に記録されたイベントを定期的に監視し、新たなイベントが記録されたらそのイベントの状態を「処理済み」に変更する機能を持つ。管理通信機能201bは、主演算制御手段21のユーザーモードで動作し、OS動作状態確認装置10に対してOS200の動作に問題がないこと示す通信を行う機能を持つ。
The
IPMIドライバ202は、主演算制御手段21のカーネルモードで動作し、IPMI命令機能201aがSEL210にアクセスするために利用する。
The
一方、BMC24は、OS動作状態確認装置10からのIPMIコマンドを受けて、SEL210に対するイベントの書き込みおよびログの記録内容の編集の動作を行うことができ、その結果に応じてPET(Platform Event Trap)をOS動作状態確認装置10に返信することができる。
On the other hand, the
図3は、図1に示したBMC24のさらに詳しい構成を示す説明図である。BMC24は、主演算制御手段21とは別個に動作するマイクロプロセッサ24aと、確認対象装置20の記憶手段22とは別個の記憶手段24bとを備え、主演算制御手段21で動作するOS200からは独立して、小規模なコンピュータプログラムを実行する主体として機能することができる。
FIG. 3 is an explanatory diagram showing a more detailed configuration of the
そして、マイクロプロセッサ24aでは、通信手段23bを制御して(管理用ネットワーク31経由で)OS動作状態確認装置10とIPMIコマンドを交換するIPMIコマンド通信機能241と、このIPMIコマンドに応じてSEL210にアクセスするSELアクセス機能242とが、コンピュータプログラムとして実行されるように構成されている。
Then, the microprocessor 24a controls the communication means 23b (via the management network 31) to exchange the IPMI command with the OS operation
IPMIコマンド通信機能241は、通信手段23bに対して、OS200が通信手段23aに対して設定しているIPアドレスとは異なるIPアドレスを設定している。これによって、ネットワーク30とは別系統の管理用ネットワーク31を介してOS動作状態確認装置10との間で、IPMIコマンドとそれに対する返答(PET)とを交換することができる。
The IPMI
図4は、図1に示したSEL210のデータ記録形式について示す説明図である。SEL210はIPMIの仕様に従い、OS200およびBMC24の動作に応じて、その内容がイベントとして付加されるものである。処理済み情報210aは、最後に発生したイベントについてのSEL210の1〜2バイト目の「Record ID」をBMC24内部の記憶手段24bに記憶するものである。さらに新しいイベントが発生するたびに、この処理済み情報210aは上書きされる。
FIG. 4 is an explanatory diagram showing the data recording format of the
本実施形態でいうOEM(Original Equipment Manufacturer)イベントとは、非特許文献2のIPMIの仕様で定義された「OEM SEL record」を利用して、各ベンダーが独自にその内容を定義してSELに記録できるイベントをいう。これによって、本実施形態は他の装置との衝突を起こすことなく実施可能なものとなる。
The original equipment manufacturer (OEM) event referred to in the present embodiment means that each vendor independently defines its contents using the “OEM SEL record” defined in the IPMI specification of
より具体的には「Record Type」を示す3バイト目を16進数の「0xC0」〜「0xDF」の間の値に設定すれば、本実施形態で利用可能なものとできる。8〜10バイト目が各ベンダーに与えられる「Manufacturer ID」、そして11〜16バイト目が各ベンダーが独自に定義できる「OEM Defined」というデータフィールドであるので、この両者の組み合わせによりイベントの内容を一意に決定することができる。 More specifically, if the third byte indicating “Record Type” is set to a value between “0xC0” and “0xDF” in hexadecimal, it can be used in this embodiment. Since the 8th to 10th bytes are a “Manufacturer ID” given to each vendor, and the 11th to 16th bytes are a data field called “OEM Defined” that can be uniquely defined by each vendor. Can be determined uniquely.
本実施形態では、8〜10バイト目を「日本電気株式会社」に割り当てられた「0x07」「0x07」「0x00」とし、11〜16バイト目を「0x01」「0x00」「0x00」「0x00」「0x00」「0x00」として、これに「OSの死活監視」という内容を独自に割り当てることによって実施する。 In this embodiment, the 8th to 10th bytes are “0x07”, “0x07”, “0x00” assigned to “NEC Corporation”, and the 11th to 16th bytes are “0x01”, “0x00”, “0x00”, “0x00”. As “0x00” and “0x00”, the contents of “OS life and death monitoring” are uniquely assigned to this.
図5〜6(紙面の都合で2枚に分ける)は、図1に示したOS動作状態確認装置10が行う、OS200の動作状態の監視の動作について示すフローチャートである。OS動作状態確認装置10の主演算制御手段11では、確認対象装置死活検出部101が予め定められた所定の間隔で、ネットワーク30を介して死活検出部201との間で定期的に通信を行っている。この通信に対する返信が所定の時間内に戻ってこない場合に、通信が途切れたと判断して、OEMイベント送信部102に制御を渡して(ステップS301)以後の動作を開始させる。
5 to 6 (divided into two for convenience of paper) are flowcharts illustrating the operation of monitoring the operation state of the
OEMイベント送信部102は、管理用ネットワーク31を介してBMC24に対してIPMIコマンド「Arm PEF Postpone Timer」を発行し、即ちSEL210にイベントを書き込まれてもすぐにこれをPET(Platform Event Trap)として返信せず、所定の遅延時間だけその返信の動作を待ち合わせるようBMC24に設定させる(ステップS302)。
The OEM
その後すぐにOEMイベント送信部102は、管理用ネットワーク31を介してBMC24に対してIPMIコマンド「Platform Event Message」を発行し、BMC24にSEL210へ新規のOEMイベントを書き込ませる(ステップS303)。
Immediately thereafter, the OEM
図7は、図1に示した確認対象装置20側でOS200上で動作する死活検出部201が、図5〜6に示したOS動作状態確認装置10の動作に対応して行う動作について示すフローチャートである。この動作は、予め設定された間隔で定期的に実行される。
FIG. 7 is a flowchart illustrating an operation performed by the life /
確認対象装置20のOS200上で動作する死活検出部201では、IPMI命令機能201aがあらかじめ設定された動作間隔が経過したら(ステップS351)IPMIドライバ202を利用して定期的にSEL210を読み出し、新しく発生したイベントが記録されているか否かを常に確認する(ステップS352)。
In the life and
ステップS352の処理は、より具体的には、IPMIコマンド「Get Last Processed Event ID」を発行してIPMIドライバ202で最後に処理されたイベントIDを取得し、このイベントIDより新しいイベントをSEL210からIPMIコマンド「Get SEL Entry」を発行することによって取得することで、SEL210上の新しく発生したイベントの有無を確認することができる。
More specifically, in step S352, an IPMI command “Get Last Processed Event ID” is issued to obtain the event ID last processed by the
SEL210に新しく発生したイベントが記録されている場合には(ステップS352:YES)、IPMI命令機能201aがそのイベントの処理済み情報210aを「処理済み」に変更する(ステップS353)。より具体的にはIPMIコマンド「Set Last Processed Event ID」によって、そのイベントの処理済み情報210aを変更することができる。これと同時に、管理通信機能201bがOS動作状態確認装置10に対して自身が動作していることを伝えるための通信(第1の死活検出情報)を行う(ステップS354)。
If a newly generated event is recorded in the SEL 210 (step S352: YES), the
図8は、図1に示した確認対象装置20側でOS200とは関係なく動作するBMC24が、図5〜6に示したOS動作状態確認装置10の動作に対応して行う動作について示すフローチャートである。BMC24のIPMIコマンド通信機能241は、図5のステップS302でOEMイベント送信部102から受信したIPMIコマンド「Arm PEF Postpone Timer」に反応して、このコマンドで設定された遅延時間だけ動作を待ち合わせる(ステップS401)。
FIG. 8 is a flowchart showing an operation performed by the
そしてBMC24のSELアクセス機能242は、図5のステップS303でOEMイベント送信部102から受信したIPMIコマンド「Platform Event Message」に反応してOEMイベントを書き込み(ステップS402)、ステップS401で設定した遅延時間が経過したらSEL210にアクセスしてその内容を読み、これをIPMIコマンド通信機能241に伝達する(ステップS403)。
The
IPMIコマンド通信機能241は、ステップS402でSEL210に書き込んだOEMイベントが「処理済み」であるか否か、即ち処理済み情報210aとして記録されたレコードID(Record ID)の値よりもSEL210に記録されている最新のレコードのレコードIDが大きいか否かを判断し(ステップS404)、「未処理」であればこれをPET(第2の死活検出情報)としてOS動作状態確認装置10に返信する(ステップS405)。「処理済み」であればそのまま処理を終了する。
The IPMI
以上で述べた図7および図8の動作は、同一の確認対象装置20内ではあるが、動作主体が異なる(図7は主演算制御手段21、図8はBMC24のマイクロプロセッサ24a)ので、互いに干渉することなく並行して実行される。
Although the operations in FIGS. 7 and 8 described above are performed in the
即ち、主演算制御手段21上のOS200が、ハングアップの発生もしくは高い処理負荷がかかったことが原因で、図5のステップS302および図8のステップS401で設定された遅延時間内に図7のステップS353の動作ができなかった場合には、ステップS402でSEL210に記録されたOEMイベントがBMC24からPET(図8のステップS405、請求項でいう「第2の死活検出情報」)としてOS動作状態確認装置10に返されることになる。
That is, because the
逆に、OS200が正常に動作していれば、図5のステップS302および図8のステップS401で設定された遅延時間内に図7のステップS353の動作が行われ、死活検出部201の管理通信機能201bによる通信(図7のステップS354、請求項でいう「第1の死活検出情報」)がOS動作状態確認装置10に返されることになる。
Conversely, if the
図5〜6に戻って、OS動作状態確認装置10では死活検出情報判定部104が、ステップS303でBMC24を介してSEL210に書き込ませたOEMイベントが確認対象装置20から(図8のステップS405の)PETとして返却されているか否かを確認する(ステップS304)。返却されている場合(ステップS304:YES)、OS200は停止しているか、もしくは過負荷状態であることになる。そこで死活検出情報判定部104は、確認対象装置20のOS200に対して(ネットワーク30を介して)ピング(Ping)を発行するようピング送信部103に指示する(ステップS305)。
Returning to FIGS. 5 to 6, in the OS operation
ステップS305のピングに対してOS200からの応答があれば(ステップS305:YES)、OS200は動作中で、そこで動作しているプロセスが過負荷状態のため反応できないものであると不具合原因判断部105は判断することができる(ステップS311)。ステップS305のピングに対してOS200からの応答がなければ(ステップS305:NO)、OS200がハングアップしているか、もしくは非常に重大な過負荷状態であると不具合原因判断部105は判断することができる(ステップS312)。
If there is a response from the
ステップS304で、ステップS303で書き込んだOEMイベントが確認対象装置20からPETとして返却されていない場合(ステップS304:NO)、死活検出部201がステップS352〜352の処理を正常に行えたので、OS200は動作していると判断することができる。そこで死活検出情報判定部104は、死活検出部201がSELを処理したときに発する、図7のステップS354の通信があったか否かを確認する(ステップS306)。
If the OEM event written in step S303 is not returned as PET from the
ステップS306で、死活検出部201からの通信があったことを確認できれば(ステップS306:YES)、OS200は特に問題なく動作していて、通信が途切れた理由は間欠的なネットワーク障害などのような軽微な障害であると不具合原因判断部105は判断することができる(ステップS313)。
If it can be confirmed in step S306 that there is communication from the alive detection unit 201 (step S306: YES), the
ステップS306で、死活検出部201からの通信を確認できなければ(ステップS306:NO)、恒久的なネットワーク障害、もしくはOS200の過負荷であった可能性がある。そこで死活検出情報判定部104はOS200に対して(ネットワーク30を介して)ピングを発行するようピング送信部103に指示し、これに対する応答の有無を確認する(ステップS307)。
If communication from the
ステップS307のピングに対してOS200からの応答があれば(ステップS307:YES)、OS200は動作していて、かつステップS306の死活検出部201からの通信がなかったことからOS200の過負荷であると不具合原因判断部105は判断できる(ステップS314)。また、同じくステップS307のピングに対してOS200からの応答がなければ(ステップS307:NO)、ネットワーク30の恒久的な障害が発生していると不具合原因判断部105は判断できる(ステップS315)。
If there is a response from the
不具合原因判断部105は最後に、ステップS311〜315の判断結果を表示手段14に表示して、処理を終了する(ステップS316)。この判断結果の出力は、OS動作状態確認装置10および確認対象装置20のいずれとも異なる(管理担当者の操作する)他のコンピュータにネットワークを介して行うものでもよいし、コンピュータ以外の装置、たとえば管理担当者の操作するページャーや携帯電話などに対して出力するものとすることもできる。
Finally, the failure
(第1の実施形態の全体的な動作)
次に、上記の実施形態の全体的な動作について説明する。本実施形態に係るOS動作状態確認方法は、オペレーティングシステムを動作させる主演算制御手段21と、この主演算制御手段とは別個に動作して確認対象装置の動作情報を収集してOS動作状態確認装置に送信する副演算制御手段(BMC24)と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログ(SEL210)を記憶した記憶手段22とを備える確認対象装置20がOS動作状態確認装置10と相互に接続されることによって構成され、確認対象装置でのオペレーティングシステムの動作が正常であるか否かをOS動作状態確認装置の側から確認するOS動作状態確認システム1にあって、確認対象装置で主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を確認対象装置の死活検出部が追記すると同時にOS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を死活検出部が送信し(図7・ステップS352〜354)、OS動作状態確認装置と確認対象装置との間の定期的な通信が途切れた場合に確認対象装置に不具合が生じたとOS動作状態確認装置の確認対象装置死活検出部が判断し(図5・ステップS301)、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令をOS動作状態確認装置のOEMイベント送信部が送信し(図5・ステップS302〜303)、OS動作状態確認装置からの命令に反応した確認対象装置の副演算制御手段がイベントログに新規イベントを付加し(図8・ステップS401〜402)、予め定められた遅延時間が経過した後で確認対象装置のイベントログに付加した新規イベントに対して処理済み情報が追記されているか否かを副演算制御手段が判断し(図8・ステップS403〜404)、確認対象装置のイベントログに処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報をOS動作状態確認装置に対して確認対象装置の副演算制御手段が送信し(図8・ステップS405)、OS動作状態確認装置が確認対象装置から第2の死活検出情報を受信した場合に死活検出情報判定部がピング送信部を介して確認対象装置にネットワーク疎通確認用のピング(Ping)を送信し(図5・ステップS304〜図6・ステップ305)、ピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し(図6・ステップ311)、そうでない場合に確認対象装置のオペレーティングシステムがハングアップしているとOS動作状態確認装置の死活検出情報判定部が判断し(図6・ステップ312)、この判断結果をOS動作状態確認装置の死活検出情報判定部が外部に出力する(図6・ステップ316)。
(Overall operation of the first embodiment)
Next, the overall operation of the above embodiment will be described. The OS operation state confirmation method according to the present embodiment includes a main
ここで、上記各動作ステップについては、これをコンピュータで実行可能にプログラム化し、これらを前記各ステップを直接実行するコンピュータであるOS動作状態確認装置10および確認対象装置20に実行させるようにしてもよい。
この動作により、本実施形態は以下のような効果を奏する。
Here, each of the above operation steps is programmed to be executable by a computer, and these are executed by the OS operation
By this operation, this embodiment has the following effects.
本実施形態によれば、単に確認対象装置20の異常発生を検出するだけでなく、その異常がOS200に起因するものか、またネットワークの障害に起因するものかを判定できる。さらに、OS200に発生した異常が、単なる誤検出もしくは過負荷などのような一時的な現象であるか、あるいはハングアップなどのような重大な現象であるかを、ネットワークを介したOS動作状態確認装置の側で判定できる。
According to the present embodiment, it is possible not only to detect the occurrence of an abnormality in the
本実施形態は、主演算制御手段21(OS200)とは独立して動作するBMC24を利用しただけでなく、この両者から共通してアクセス可能なSEL210を、OS200とBMC24との間で動作状態を伝達するために利用している。これは前述の非特許文献1〜2にも記載されたBMCおよびIPMIなどの標準的な機能を利用するだけで実現可能であるので、本実施形態を導入することに伴うコスト増は少なく済む。
In the present embodiment, not only the
(第2の実施形態)
本発明の第2の実施形態は、第1の実施形態の構成に加えて、不具合原因判断部605が、OEMイベント送信部102が副演算制御手段(BMC24)に対してイベントログ(SEL210)にイベントを書き込む命令を送信した後に該命令に対する副演算制御手段の応答が無い場合にBMCに障害が発生したと判断する。
(Second Embodiment)
In the second embodiment of the present invention, in addition to the configuration of the first embodiment, the failure
そして不具合原因判断部605が、第1のピングに対する返信が確認対象装置から返って来た場合にOEMイベント送信部102に副演算制御手段(BMC24)に対してイベントログに新規イベントを書き込む命令を送信する処理を繰り返させて同一の判断結果が出るか否かを判断し、同一の判断結果が出ればオペレーティングシステムのユーザーモードがハングアップしていると判断する。
Then, when the failure
この構成によっても、第1の実施形態と同一の効果を得ることができることに加えて、さらに「BMCの異常」や「オペレーティングシステムのユーザーモードのみハングアップ」といった第1の実施形態では検出できなかった異常も検出できるようになり、これによってより詳細に確認対象装置20の動作状態を把握することが可能となる。
以下、これをより詳細に説明する。
Even with this configuration, in addition to obtaining the same effect as in the first embodiment, the first embodiment such as “abnormal BMC” or “hangs only in the user mode of the operating system” cannot be detected. Thus, it becomes possible to detect abnormalities, and this makes it possible to grasp the operating state of the
Hereinafter, this will be described in more detail.
図9は、本発明の第2の実施形態に係るOS動作状態確認システム501の構成について示す説明図である。OS動作状態確認システム501は、前述の第1の実施形態と比べて、OS動作状態確認装置10がOS動作状態確認装置510に置き換わっている。この点以外は第1の実施形態と同一である。即ち、確認対象装置20の構成および動作は第1の実施形態と同一である。
FIG. 9 is an explanatory diagram showing the configuration of the OS operation state confirmation system 501 according to the second embodiment of the present invention. In the OS operation state confirmation system 501, the OS operation
図10は、図9に示したOS動作状態確認装置510のより詳しい構成について示す説明図である。OS動作状態確認装置510は、前述の第1の実施形態のOS動作状態確認装置10と、ハードウェア的には同一である。また、ソフトウェア的にも、不具合原因判断部105が、動作の一部が異なる不具合原因判断部605に置き換わっている以外は同一である。
FIG. 10 is an explanatory diagram showing a more detailed configuration of the OS operation
図11〜12は、図10に示したOS動作状態確認装置510が行う、OS200の監視の動作について示すフローチャートである。図11〜12に示す動作は、原則的には図5〜6に示した第1の実施形態の動作と同一であるので、第1の実施形態と同一の動作には図5〜6と同一の参照番号を付けて呼び、本明細書ではそれとの相違点のみを説明することとする。
11 to 12 are flowcharts illustrating the monitoring operation of the
ステップS303でBMC24に対してIPMIコマンド「Platform Event Message」を発行した後、不具合原因判断部605がこれに対するBMC24からの反応の有無を判断する(ステップS701)。反応があればステップS304以後の処理に進み、反応がなければBMC24がハードウェア異常を起こしていると判断して(ステップS702)ステップS316に進む。
After issuing the IPMI command “Platform Event Message” to the
また、ステップS311で「OS200が過負荷状態である」と判断された場合、単なる過負荷状態であればこれは一時的な現象であるので時間が経てば復旧する可能性がある。しかしながら、OS200がユーザーモードのみハングアップしているという可能性もあり、この場合は時間が経っても復旧しない。
If it is determined in step S311 that “
そこで、その場合には不具合原因判断部605がOEMイベント送信部102にステップS302からの処理をくり返させて、その結果が同じ「OS200が過負荷状態である」という結果になるか否かを判断する(ステップS703〜704)。同じ結果にならなければ(ステップS704:NO)、1回目の判断結果は単なる一時的な現象だったと判断し、2回目に出た判断結果を採用して(ステップS705)ステップS316に進む。同じ結果になれば(ステップS704:YES)、OS200のユーザーモードがハングアップしていると判断して(ステップS706)ステップS316に進む。
Therefore, in this case, the failure
以上に説明した動作以外は、OS動作状態確認装置510の動作は図5〜6に示した第1の実施形態の動作と同一である。
Except for the operation described above, the operation of the OS operation
ここで説明した第2の実施形態によれば、第1の実施形態よりもさらに詳しく、OS200の動作状態をOS動作状態確認装置510の側で検出できる。とりわけ、第1の実施形態では検出できなかった「BMC24のハードウェア異常」や「OS200のユーザーモードのみハングアップ」といった異常の発生を検出できる。
According to the second embodiment described here, the operating state of the
これまで本発明について図面に示した特定の実施形態をもって説明してきたが、本発明は図面に示した実施形態に限定されるものではなく、本発明の効果を奏する限り、これまで知られたいかなる構成であっても採用することができる。 The present invention has been described with reference to the specific embodiments shown in the drawings. However, the present invention is not limited to the embodiments shown in the drawings, and any known hitherto provided that the effects of the present invention are achieved. Even if it is a structure, it is employable.
上述した各々の実施形態について、その新規な技術内容の要点をまとめると、以下のようになる。なお、上記実施形態の一部または全部は、新規な技術として以下のようにまとめられるが、本発明は必ずしもこれに限定されるものではない。 About each embodiment mentioned above, it is as follows when the summary of the novel technical content is put together. In addition, although part or all of the said embodiment is summarized as follows as a novel technique, this invention is not necessarily limited to this.
(付記1) OS動作状態確認装置と確認対象装置とが相互に接続されることによって構成され、前記確認対象装置におけるオペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムであって、
前記確認対象装置が、
前記オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、前記主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時に前記OS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を送信する死活検出部とを備えると共に、
前記副演算制御手段が、前記OS動作状態確認装置からの命令に基づいて前記イベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに前記処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報を前記OS動作状態確認装置に対して送信するIPMIコマンド通信機能を備え、
前記OS動作状態確認装置が、
前記確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、前記確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部と、前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信するOEMイベント送信部とを備えると共に、
前記確認対象装置から前記第2の死活検出情報を受信した場合に前記ピング送信部に対して第1のピングの送信を指令する死活検出情報判定部と、
前記第1のピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記主演算制御手段が過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記主演算制御手段がハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部とを有することを特徴とするOS動作状態確認システム。
(Supplementary Note 1) The OS operation state confirmation device is configured by connecting the OS operation state confirmation device and the confirmation target device to each other, and determines whether the operation of the operating system in the confirmation target device is normal or not. An OS operation status confirmation system for confirming from
The confirmation target device is
A main arithmetic control means for operating the operating system, a sub arithmetic control means that operates separately from the main arithmetic control means, collects operation information of the confirmation target device, and transmits the operation information to the OS operation state confirmation device; Both the main arithmetic control means and the sub arithmetic control means store an event log for adding each operation content as an event, and during the normal operation of the main arithmetic control means in the event log A life / death detection unit that periodically adds processed information of the event to a newly added event and simultaneously transmits first life / death detection information that is confirmation information of the operation state to the OS operation state confirmation device. And with
The sub-operation control means adds a new event to the event log based on a command from the OS operating state confirmation device, and adds the processed information to the new event after a predetermined delay time has elapsed. IPMI command for determining whether or not the processed information has been added and transmitting second life / death detection information indicating a state in which the additional processing has not been performed to the OS operation state confirmation device It has a communication function,
The OS operation state confirmation device is
A communication target is periodically communicated with the confirmation target device, and when the periodic communication is interrupted, a confirmation target device alive detection unit that determines that a failure has occurred in the confirmation target device, and network communication with the confirmation target device A ping transmission unit that transmits a ping for confirmation (Ping), and when it is determined that a problem has occurred in the device to be confirmed, the new event is added to the event log to the sub-operation control unit of the device to be confirmed An OEM event transmission unit that transmits an instruction to be added,
A life / death detection information determination unit that instructs the ping transmission unit to transmit the first ping when the second life / death detection information is received from the confirmation target device;
When a reply to the first ping is returned from the confirmation target device, the main calculation control unit of the confirmation target device determines that the main calculation control unit is in an overload state. An OS operation state confirmation system comprising: a failure cause determination unit that determines that the arithmetic control means is hung up and outputs the determination result to the outside.
(付記2) 前記不具合原因判断部が、前記確認対象装置から前記第2の死活検出情報を受信せずかつ前記第1の死活検出情報を受信した場合に前記確認対象装置の前記主演算制御手段の動作に特に問題はないと判断することを特徴とする、付記1に記載のOS動作状態確認システム。
(Supplementary Note 2) When the failure cause determination unit does not receive the second life / death detection information from the confirmation target device and receives the first life / death detection information, the main calculation control unit of the confirmation target device The OS operation state confirmation system according to
(付記3) 前記死活検出情報判定部が、前記確認対象装置から前記第1および第2の死活検出情報をいずれも受信しない場合に前記ピング送信部に対して第2のピングの送信を指令し、
前記不具合原因判断部が、前記第2のピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記主演算制御手段が過負荷状態であると判断し、そうでない場合に前記確認対象装置との間のネットワークに恒久的な障害が発生したと判断することを特徴とする、付記2に記載のOS動作状態確認システム。
(Additional remark 3) When the said life / death detection information determination part receives neither the said 1st and 2nd life / death detection information from the said confirmation object apparatus, it commands the said ping transmission part to transmit the 2nd ping. ,
The failure cause determination unit determines that the main calculation control unit of the confirmation target device is in an overload state when a reply to the second ping is returned from the confirmation target device; otherwise, The OS operation state confirmation system according to
(付記4) 前記不具合原因判断部が、前記OEMイベント送信部が前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信した後に該命令に対する前記副演算制御手段からの応答が無い場合にこの副演算制御手段に障害が発生したと判断することを特徴とする、付記1に記載のOS動作状態確認システム。
(Additional remark 4) After the said failure cause judgment part transmits the command which adds the said new event to the said event log from the said OEM event transmission part with respect to the said sub operation control means, from the said sub operation control means with respect to this command The OS operation state confirmation system according to
(付記5) 前記不具合原因判断部が、前記第1のピングに対する返信が前記確認対象装置から返って来た場合に前記OEMイベント送信部に前記副演算制御手段に対して前記イベントログに前記新規イベントを書き込む命令を送信する処理を繰り返させて同一の判断結果が出るか否かを判断し、同一の判断結果が出れば前記主演算制御手段のユーザーモードがハングアップしていると判断することを特徴とする、付記1に記載のOS動作状態確認システム。
(Supplementary Note 5) When the failure cause determination unit returns a reply to the first ping from the confirmation target device, the OEM event transmission unit sends the new event log to the sub-operation control unit. It is determined whether or not the same determination result is obtained by repeating the process of transmitting the command to write the event, and if the same determination result is obtained, it is determined that the user mode of the main arithmetic control means is hung up. The OS operation state confirmation system according to
(付記6) 前記OS動作状態確認装置と前記確認対象装置の前記主演算制御手段との間が第1のネットワークによって接続され、
前記OS動作状態確認装置と前記確認対象装置の前記副演算制御手段との間が前記第1のネットワークとは異なる系統である第2のネットワークによって接続されていることを特徴とする、付記1に記載のOS動作状態確認システム。
(Additional remark 6) Between the said OS operation state confirmation apparatus and the said main calculation control means of the said confirmation object apparatus is connected by the 1st network,
(付記7) OS動作状態確認装置と相互に接続されることによって、オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムを構成する確認対象装置であって、
前記オペレーティングシステムを動作させる主演算制御手段と、
この主演算制御手段とは別個に動作して自らの動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、
前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、
前記主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時に前記OS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を送信する死活検出部とを備えると共に、
前記副演算制御手段が、前記OS動作状態確認装置からの命令に基づいて前記イベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに前記処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報を前記OS動作状態確認装置に対して送信するIPMIコマンド通信機能を備えることを特徴とする確認対象装置。
(Supplementary Note 7) Confirmation that constitutes an OS operation state confirmation system for confirming whether or not the operation of the operating system is normal from the side of the OS operation state confirmation device by being mutually connected to the OS operation state confirmation device A target device,
Main arithmetic control means for operating the operating system;
Sub-operation control means that operates separately from the main operation control means, collects its own operation information, and transmits it to the OS operation state confirmation device;
Storage means for storing an event log in which both the main operation control means and the sub operation control means add each operation content as an event,
While the main arithmetic control means is operating normally, the event processing information is periodically added to the newly added event in the event log, and at the same time, the operation is performed on the OS operation status check device. A life and death detection unit that transmits first life and death detection information that is state confirmation information;
The sub-operation control means adds a new event to the event log based on a command from the OS operating state confirmation device, and adds the processed information to the new event after a predetermined delay time has elapsed. IPMI command for determining whether or not the processed information has been added and transmitting second life / death detection information indicating a state in which the additional processing has not been performed to the OS operation state confirmation device A confirmation target device having a communication function.
(付記8) オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らのハードウェアの動作についての情報を収集して外部装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方の動作内容を記録するイベントログを記憶した記憶手段とを備える確認対象装置と相互に接続されることによって、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを確認するOS動作状態確認システムを構成するOS動作状態確認装置であって、
前記確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、
前記確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部と、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信するOEMイベント送信部とを備えると共に、
前記確認対象装置から前記イベントログに書き込んだ前記新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が書き込まれていないことを意味する死活検出情報を受信した場合に前記ピング送信部に対してピングの送信を指令する死活検出情報判定部と、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部を有することを特徴とするOS動作状態確認装置。
(Supplementary Note 8) Main calculation control means for operating the operating system, and sub calculation control means that operates separately from the main calculation control means, collects information about the operation of its own hardware, and transmits it to an external device And a storage unit storing an event log that records the operation contents of both the main operation control unit and the sub-operation control unit, and is connected to the confirmation target device, thereby the operating in the confirmation target device An OS operation state confirmation device constituting an OS operation state confirmation system for confirming whether or not system operation is normal,
A confirmation target device alive detection unit that periodically communicates with the confirmation target device and determines that a failure has occurred in the confirmation target device when the periodic communication is interrupted,
A ping transmission unit that transmits ping for network communication confirmation to the confirmation target device;
An OEM event transmission unit that transmits an instruction to add the new event to the event log to the sub-operation control unit of the confirmation target device when it is determined that a failure has occurred in the confirmation target device;
The ping is received when life / death detection information indicating that processed information has not been written even after a predetermined delay time has elapsed for the new event written to the event log from the confirmation target device. A life / death detection information determination unit that instructs the transmission unit to transmit pings;
When the reply to the ping is returned from the device to be confirmed, it is determined that the operating system of the device to be confirmed is overloaded, and otherwise, the operating system of the device to be confirmed hangs up. And an OS operation state confirmation device characterized by having a failure cause determination unit that outputs the determination result to the outside.
(付記9) オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムにあって、
前記確認対象装置で主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を前記確認対象装置の死活検出部が追記すると同時に前記OS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を前記死活検出部が送信し、
前記OS動作状態確認装置と前記確認対象装置との間の定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと前記OS動作状態確認装置の前記確認対象装置死活検出部が判断し、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに新規イベントを付加する命令を前記OS動作状態確認装置のOEMイベント送信部が送信し、
前記OS動作状態確認装置からの前記命令に反応した前記確認対象装置の前記副演算制御手段が前記イベントログに前記新規イベントを付加し、
予め定められた遅延時間が経過した後で前記確認対象装置の前記イベントログに付加した前記新規イベントに対して前記処理済み情報が追記されているか否かを前記副演算制御手段が判断し、
前記確認対象装置の前記イベントログに前記処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報を前記OS動作状態確認装置に対して前記確認対象装置の前記副演算制御手段が送信し、
前記OS動作状態確認装置が前記確認対象装置から前記第2の死活検出情報を受信した場合に死活検出情報判定部がピング送信部を介して前記確認対象装置にネットワーク疎通確認用のピング(Ping)を送信し、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると前記OS動作状態確認装置の死活検出情報判定部が判断し、
この判断結果を前記OS動作状態確認装置の前記死活検出情報判定部が外部に出力することを特徴とするOS動作状態確認方法。
(Supplementary Note 9) Main arithmetic control means for operating the operating system, and sub arithmetic control that operates separately from the main arithmetic control means, collects the operation information of the confirmation target device, and transmits it to the OS operation state confirmation device A device to be confirmed, and a storage unit storing an event log in which both the main operation control unit and the sub operation control unit add each operation content as an event are interconnected with the OS operation state confirmation device An OS operation state confirmation system for confirming from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal,
While the main arithmetic control means is operating normally in the confirmation target device, the life / death detection unit of the confirmation target device periodically adds processed information of the event to the event newly added to the event log. At the same time, the life and death detection unit transmits first life and death detection information which is confirmation information of the operation state to the OS operation state confirmation device,
When the periodic communication between the OS operation state confirmation device and the confirmation target device is interrupted, the confirmation target device alive detection unit of the OS operation state confirmation device determines that a failure has occurred in the confirmation target device. ,
When it is determined that a failure has occurred in the confirmation target device, the OEM event transmission unit of the OS operation state confirmation device gives a command to add a new event to the event log to the sub-operation control unit of the confirmation target device. Send
The sub-operation control means of the device to be confirmed that has responded to the command from the OS operation state confirmation device adds the new event to the event log,
The sub-operation control means determines whether or not the processed information is added to the new event added to the event log of the confirmation target device after a predetermined delay time has elapsed,
When the processed information is not added to the event log of the confirmation target device, second life / death detection information indicating a state where the additional processing is not performed is sent to the OS operation state confirmation device. The sub-operation control means of
When the OS operating state confirmation device receives the second life / death detection information from the confirmation target device, the life / death detection information determination unit pings the network communication confirmation to the confirmation target device via a ping transmission unit. Send
When the reply to the ping is returned from the device to be confirmed, it is determined that the operating system of the device to be confirmed is overloaded, and otherwise, the operating system of the device to be confirmed hangs up. The life and death detection information determination unit of the OS operation state confirmation device determines that,
The OS operation state confirmation method, wherein the life / death detection information determination unit of the OS operation state confirmation device outputs the determination result to the outside.
(付記10) オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムにあって、
前記OS動作状態確認装置が備えるコンピュータに、
前記OS動作状態確認装置と前記確認対象装置との間の定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する手順、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに新規イベントを付加する命令を送信する手順、
前記確認対象装置から前記イベントログに付加した前記新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が追記されていないことを意味する死活検出情報を受信した場合に前記確認対象装置にネットワーク疎通確認用のピング(Ping)を送信する手順、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると判断する手順、
およびこの判断結果を外部に出力する手順を、
実行させることを特徴とするOS動作状態確認プログラム。
(Supplementary Note 10) Main arithmetic control means for operating the operating system, and sub arithmetic control that operates separately from the main arithmetic control means, collects operation information of the confirmation target device, and transmits it to the OS operation state confirmation device A device to be confirmed, and a storage unit storing an event log in which both the main operation control unit and the sub operation control unit add each operation content as an event are interconnected with the OS operation state confirmation device An OS operation state confirmation system for confirming from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal,
In the computer provided in the OS operation state confirmation device,
A procedure for determining that a failure has occurred in the confirmation target device when periodic communication between the OS operation state confirmation device and the confirmation target device is interrupted;
A procedure for transmitting a command to add a new event to the event log to the sub-operation control means of the confirmation target device when it is determined that a problem has occurred in the confirmation target device;
The confirmation is made when the life / death detection information indicating that the processed information is not added even after a predetermined delay time has elapsed for the new event added to the event log from the confirmation target device. A procedure for sending a ping for network communication confirmation to the target device,
When the reply to the ping is returned from the device to be confirmed, it is determined that the operating system of the device to be confirmed is overloaded, and otherwise, the operating system of the device to be confirmed hangs up. Procedures to determine that
And the procedure for outputting this judgment result to the outside.
An OS operating state confirmation program that is executed.
(付記11) オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムにあって、
前記確認対象装置の主演算制御手段に、
前記確認対象装置で前記オペレーティングシステムが動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記する手順、
およびこれと同時に前記OS動作状態確認装置に対して当該動作状態の確認情報である死活検出情報を送信する手順、
を実行させることを特徴とするOS動作状態確認プログラム。
(Supplementary Note 11) Main arithmetic control means for operating the operating system, and sub arithmetic control that operates separately from the main arithmetic control means, collects operation information of the confirmation target device, and transmits it to the OS operation state confirmation device A device to be confirmed, and a storage unit storing an event log in which both the main operation control unit and the sub operation control unit add each operation content as an event are interconnected with the OS operation state confirmation device An OS operation state confirmation system for confirming from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal,
In the main calculation control means of the confirmation target device,
A procedure for periodically adding processed information of an event to the event log newly added to the event log while the operating system is operating on the confirmation target device;
And a procedure for transmitting life / death detection information which is confirmation information of the operation state to the OS operation state confirmation device at the same time,
An OS operating state confirmation program characterized in that
(付記12) オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムにあって、
前記副演算制御手段に、
前記OS動作状態確認装置からの命令に反応して予め定められた遅延時間を設定する手順、
前記イベントログに新規イベントを書き込む手順、
前記遅延時間が経過した後で前記確認対象装置の前記イベントログに書き込んだ前記新規イベントに対して前記処理済み情報が追記されているか否かを判断する手順、
および前記イベントログに前記処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す死活検出情報を前記OS動作状態確認装置に対して送信する手順、
を実行させることを特徴とするOS動作状態確認プログラム。
(Supplementary Note 12) Main arithmetic control means for operating the operating system, and sub arithmetic control that operates separately from the main arithmetic control means, collects operation information of the confirmation target device, and transmits it to the OS operation state confirmation device A device to be confirmed, and a storage unit storing an event log in which both the main operation control unit and the sub operation control unit add each operation content as an event are interconnected with the OS operation state confirmation device An OS operation state confirmation system for confirming from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal,
In the sub-operation control means,
A procedure for setting a predetermined delay time in response to a command from the OS operation state confirmation device;
A procedure for writing a new event to the event log;
A procedure for determining whether or not the processed information is added to the new event written to the event log of the confirmation target device after the delay time has elapsed;
And a procedure for transmitting life / death detection information indicating a state in which this additional processing is not performed when the processed information is not additionally recorded in the event log to the OS operation state confirmation device,
An OS operating state confirmation program characterized in that
遠隔地からネットワークを介してコンピュータの動作状態を把握する必要のある用途に対して幅広く適用できる。 It can be widely applied to applications that need to grasp the operating state of a computer from a remote location via a network.
1、501 OS動作状態確認システム
10、510 OS動作状態確認装置
11、21 主演算制御手段
12、22、24b 記憶手段
13a、13b、23a、23b 通信手段
14 表示手段
20、20a、20b、20c 確認対象装置
24 BMC(Baseboard Management Controller)
24a マイクロプロセッサ
30 ネットワーク
31 管理用ネットワーク
101 確認対象装置死活検出部
102 OEMイベント送信部
103 ピング送信部
104 死活検出情報判定部
105、605 不具合原因判断部
200 OS
201 死活検出部
201a IPMI命令機能
201b 管理通信機能
202 IPMIドライバ
210 SEL(System Event Log)
210a 処理済み情報
241 IPMIコマンド通信機能
242 SELアクセス機能
DESCRIPTION OF SYMBOLS 1,501 OS operation state confirmation system 10,510 OS operation
24a Microprocessor 30 Network 31
201 Life and
210a
Claims (9)
前記確認対象装置が、
前記オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、前記主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時に前記OS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を送信する死活検出部とを備えると共に、
前記副演算制御手段が、前記OS動作状態確認装置からの命令に基づいて前記イベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに前記処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報を前記OS動作状態確認装置に対して送信するIPMIコマンド通信機能を備え、
前記OS動作状態確認装置が、
前記確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、前記確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部と、前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信するOEMイベント送信部とを備えると共に、
前記確認対象装置から前記第2の死活検出情報を受信した場合に前記ピング送信部に対して第1のピングの送信を指令する死活検出情報判定部と、
前記第1のピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記主演算制御手段が過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記主演算制御手段がハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部とを有することを特徴とするOS動作状態確認システム。 An OS configured by connecting an OS operation state confirmation device and a confirmation target device to each other, and confirming from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal An operating state confirmation system,
The confirmation target device is
A main arithmetic control means for operating the operating system, a sub arithmetic control means that operates separately from the main arithmetic control means, collects operation information of the confirmation target device, and transmits the operation information to the OS operation state confirmation device; Both the main arithmetic control means and the sub arithmetic control means store an event log for adding each operation content as an event, and during the normal operation of the main arithmetic control means in the event log A life / death detection unit that periodically adds processed information of the event to a newly added event and simultaneously transmits first life / death detection information that is confirmation information of the operation state to the OS operation state confirmation device. And with
The sub-operation control means adds a new event to the event log based on a command from the OS operating state confirmation device, and adds the processed information to the new event after a predetermined delay time has elapsed. IPMI command for determining whether or not the processed information has been added and transmitting second life / death detection information indicating a state in which the additional processing has not been performed to the OS operation state confirmation device It has a communication function,
The OS operation state confirmation device is
A communication target is periodically communicated with the confirmation target device, and when the periodic communication is interrupted, a confirmation target device alive detection unit that determines that a failure has occurred in the confirmation target device, and network communication with the confirmation target device A ping transmission unit that transmits a ping for confirmation (Ping), and when it is determined that a problem has occurred in the device to be confirmed, the new event is added to the event log to the sub-operation control unit of the device to be confirmed An OEM event transmission unit that transmits an instruction to be added,
A life / death detection information determination unit that instructs the ping transmission unit to transmit the first ping when the second life / death detection information is received from the confirmation target device;
When a reply to the first ping is returned from the confirmation target device, the main calculation control unit of the confirmation target device determines that the main calculation control unit is in an overload state. An OS operation state confirmation system comprising: a failure cause determination unit that determines that the arithmetic control means is hung up and outputs the determination result to the outside.
前記不具合原因判断部が、前記第2のピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記主演算制御手段が過負荷状態であると判断し、そうでない場合に前記確認対象装置との間のネットワークに恒久的な障害が発生したと判断することを特徴とする、請求項2に記載のOS動作状態確認システム。 The life / death detection information determination unit instructs the ping transmission unit to transmit a second ping when the first and second life / death detection information is not received from the confirmation target device,
The failure cause determination unit determines that the main calculation control unit of the confirmation target device is in an overload state when a reply to the second ping is returned from the confirmation target device; otherwise, The OS operating state confirmation system according to claim 2, wherein it is determined that a permanent failure has occurred in a network with the device to be confirmed.
前記オペレーティングシステムを動作させる主演算制御手段と、
この主演算制御手段とは別個に動作して自らの動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、
前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、
前記主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時に前記OS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を送信する死活検出部とを備えると共に、
前記副演算制御手段が、前記OS動作状態確認装置からの命令に基づいて前記イベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに前記処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報を前記OS動作状態確認装置に対して送信するIPMIコマンド通信機能を備えることを特徴とする確認対象装置。 It is a device to be confirmed that constitutes an OS operation state confirmation system for confirming whether the operation of the operating system is normal or not from the side of the OS operation state confirmation device by being interconnected with the OS operation state confirmation device. And
Main arithmetic control means for operating the operating system;
Sub-operation control means that operates separately from the main operation control means, collects its own operation information, and transmits it to the OS operation state confirmation device;
Storage means for storing an event log in which both the main operation control means and the sub operation control means add each operation content as an event,
While the main arithmetic control means is operating normally, the event processing information is periodically added to the newly added event in the event log, and at the same time, the operation is performed on the OS operation status check device. A life and death detection unit that transmits first life and death detection information that is state confirmation information;
The sub-operation control means adds a new event to the event log based on a command from the OS operating state confirmation device, and adds the processed information to the new event after a predetermined delay time has elapsed. IPMI command for determining whether or not the processed information has been added and transmitting second life / death detection information indicating a state in which the additional processing has not been performed to the OS operation state confirmation device A confirmation target device having a communication function.
前記確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、
前記確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部と、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信するOEMイベント送信部とを備えると共に、
前記確認対象装置から前記イベントログに書き込んだ前記新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が書き込まれていないことを意味する死活検出情報を受信した場合に前記ピング送信部に対してピングの送信を指令する死活検出情報判定部と、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部を有することを特徴とするOS動作状態確認装置。 Main arithmetic control means for operating the operating system, sub arithmetic control means that operates separately from the main arithmetic control means, collects information about the operation of its own hardware, and transmits it to an external device; and the main arithmetic control means The operation of the operating system in the confirmation target device is connected to a confirmation target device including a storage unit that stores an event log that records the operation contents of both the control unit and the sub-operation control unit. An OS operation state confirmation device constituting an OS operation state confirmation system for confirming whether or not it is normal,
A confirmation target device alive detection unit that periodically communicates with the confirmation target device and determines that a failure has occurred in the confirmation target device when the periodic communication is interrupted,
A ping transmission unit that transmits ping for network communication confirmation to the confirmation target device;
An OEM event transmission unit that transmits an instruction to add the new event to the event log to the sub-operation control unit of the confirmation target device when it is determined that a failure has occurred in the confirmation target device;
The ping is received when life / death detection information indicating that processed information has not been written even after a predetermined delay time has elapsed for the new event written to the event log from the confirmation target device. A life / death detection information determination unit that instructs the transmission unit to transmit pings;
When the reply to the ping is returned from the device to be confirmed, it is determined that the operating system of the device to be confirmed is overloaded, and otherwise, the operating system of the device to be confirmed hangs up. And an OS operation state confirmation device characterized by having a failure cause determination unit that outputs the determination result to the outside.
前記確認対象装置で主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を前記確認対象装置の死活検出部が追記すると同時に前記OS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を前記死活検出部が送信し、
前記OS動作状態確認装置と前記確認対象装置との間の定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと前記OS動作状態確認装置の前記確認対象装置死活検出部が判断し、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに新規イベントを付加する命令を前記OS動作状態確認装置のOEMイベント送信部が送信し、
前記OS動作状態確認装置からの前記命令に反応した前記確認対象装置の前記副演算制御手段が前記イベントログに前記新規イベントを付加し、
予め定められた遅延時間が経過した後で前記確認対象装置の前記イベントログに付加した前記新規イベントに対して前記処理済み情報が追記されているか否かを前記副演算制御手段が判断し、
前記確認対象装置の前記イベントログに前記処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報を前記OS動作状態確認装置に対して前記確認対象装置の前記副演算制御手段が送信し、
前記OS動作状態確認装置が前記確認対象装置から前記第2の死活検出情報を受信した場合に死活検出情報判定部がピング送信部を介して前記確認対象装置にネットワーク疎通確認用のピング(Ping)を送信し、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると前記OS動作状態確認装置の死活検出情報判定部が判断し、
この判断結果を前記OS動作状態確認装置の前記死活検出情報判定部が外部に出力することを特徴とするOS動作状態確認方法。 A main arithmetic control means for operating the operating system, a sub arithmetic control means that operates separately from the main arithmetic control means, collects operation information of the device to be confirmed, and transmits the operation information to the OS operation state confirmation device; A configuration in which a check target device including both a main operation control unit and a sub-operation control unit and a storage unit storing an event log that adds each operation content as an event is connected to the OS operation state check device. In the OS operation state confirmation system for confirming from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal,
While the main arithmetic control means is operating normally in the confirmation target device, the life / death detection unit of the confirmation target device periodically adds processed information of the event to the event newly added to the event log. At the same time, the life and death detection unit transmits first life and death detection information which is confirmation information of the operation state to the OS operation state confirmation device,
When the periodic communication between the OS operation state confirmation device and the confirmation target device is interrupted, the confirmation target device alive detection unit of the OS operation state confirmation device determines that a failure has occurred in the confirmation target device. ,
When it is determined that a failure has occurred in the confirmation target device, the OEM event transmission unit of the OS operation state confirmation device gives a command to add a new event to the event log to the sub-operation control unit of the confirmation target device. Send
The sub-operation control means of the device to be confirmed that has responded to the command from the OS operation state confirmation device adds the new event to the event log,
The sub-operation control means determines whether or not the processed information is added to the new event added to the event log of the confirmation target device after a predetermined delay time has elapsed,
When the processed information is not added to the event log of the confirmation target device, second life / death detection information indicating a state where the additional processing is not performed is sent to the OS operation state confirmation device. The sub-operation control means of
When the OS operating state confirmation device receives the second life / death detection information from the confirmation target device, the life / death detection information determination unit pings the network communication confirmation to the confirmation target device via a ping transmission unit. Send
When the reply to the ping is returned from the device to be confirmed, it is determined that the operating system of the device to be confirmed is overloaded, and otherwise, the operating system of the device to be confirmed hangs up. The life and death detection information determination unit of the OS operation state confirmation device determines that,
The OS operation state confirmation method, wherein the life / death detection information determination unit of the OS operation state confirmation device outputs the determination result to the outside.
前記OS動作状態確認装置が備えるコンピュータに、
前記OS動作状態確認装置と前記確認対象装置との間の定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する手順、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに新規イベントを付加する命令を送信する手順、
前記確認対象装置から前記イベントログに付加した前記新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が追記されていないことを意味する死活検出情報を受信した場合に前記確認対象装置にネットワーク疎通確認用のピング(Ping)を送信する手順、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると判断する手順、
およびこの判断結果を外部に出力する手順を、
実行させることを特徴とするOS動作状態確認プログラム。 A main arithmetic control means for operating the operating system, a sub arithmetic control means that operates separately from the main arithmetic control means, collects operation information of the device to be confirmed, and transmits the operation information to the OS operation state confirmation device; A configuration in which a check target device including both a main operation control unit and a sub-operation control unit and a storage unit storing an event log that adds each operation content as an event is connected to the OS operation state check device. In the OS operation state confirmation system for confirming from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal,
In the computer provided in the OS operation state confirmation device,
A procedure for determining that a failure has occurred in the confirmation target device when periodic communication between the OS operation state confirmation device and the confirmation target device is interrupted;
A procedure for transmitting a command to add a new event to the event log to the sub-operation control means of the confirmation target device when it is determined that a problem has occurred in the confirmation target device;
The confirmation is made when the life / death detection information indicating that the processed information is not added even after a predetermined delay time has elapsed for the new event added to the event log from the confirmation target device. A procedure for sending a ping for network communication confirmation to the target device,
When the reply to the ping is returned from the device to be confirmed, it is determined that the operating system of the device to be confirmed is overloaded, and otherwise, the operating system of the device to be confirmed hangs up. Procedures to determine that
And the procedure for outputting this judgment result to the outside.
An OS operating state confirmation program that is executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010180432A JP5625605B2 (en) | 2010-08-11 | 2010-08-11 | OS operation state confirmation system, device to be confirmed, OS operation state confirmation device, OS operation state confirmation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010180432A JP5625605B2 (en) | 2010-08-11 | 2010-08-11 | OS operation state confirmation system, device to be confirmed, OS operation state confirmation device, OS operation state confirmation method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012038257A true JP2012038257A (en) | 2012-02-23 |
JP5625605B2 JP5625605B2 (en) | 2014-11-19 |
Family
ID=45850153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010180432A Expired - Fee Related JP5625605B2 (en) | 2010-08-11 | 2010-08-11 | OS operation state confirmation system, device to be confirmed, OS operation state confirmation device, OS operation state confirmation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5625605B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102736970A (en) * | 2012-06-29 | 2012-10-17 | 浪潮电子信息产业股份有限公司 | Method for monitoring activity state of operating system |
JP2016158231A (en) * | 2015-02-25 | 2016-09-01 | 廣達電腦股▲ふん▼有限公司 | Method and equipment for out-of-band network port state detection, and computer readable recording medium |
JP2019212046A (en) * | 2018-06-05 | 2019-12-12 | 富士通株式会社 | Control program, control method, and information processing device |
JP2020119077A (en) * | 2019-01-21 | 2020-08-06 | Necプラットフォームズ株式会社 | Apparatus, system method and program for failure notification |
JP2020119173A (en) * | 2019-01-23 | 2020-08-06 | Necプラットフォームズ株式会社 | Information processing device, control method for information processing device, and control program for information processing device |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000112790A (en) * | 1998-10-02 | 2000-04-21 | Toshiba Corp | Computer with fault information collection function |
JP2009205364A (en) * | 2008-02-27 | 2009-09-10 | Nec Corp | Life-and-death monitoring method, monitored device, monitor and life-and-death monitoring program |
JP2009265805A (en) * | 2008-04-23 | 2009-11-12 | Hitachi Ltd | Failover method, program, failover device and failover system |
-
2010
- 2010-08-11 JP JP2010180432A patent/JP5625605B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000112790A (en) * | 1998-10-02 | 2000-04-21 | Toshiba Corp | Computer with fault information collection function |
JP2009205364A (en) * | 2008-02-27 | 2009-09-10 | Nec Corp | Life-and-death monitoring method, monitored device, monitor and life-and-death monitoring program |
JP2009265805A (en) * | 2008-04-23 | 2009-11-12 | Hitachi Ltd | Failover method, program, failover device and failover system |
Non-Patent Citations (2)
Title |
---|
CSNH200400091003; 落合 浩之 Hiroyuki Ochiai: 'Itaniumファミリー版HP-UXの開発 Development of HP-UX for Itanium Processor Family' NEC技報 第56巻 第1号 NEC TECHNICAL JOURNAL 第56巻, 20030225, p.39〜41, 日本電気株式会社 * |
JPN6014014542; 落合 浩之 Hiroyuki Ochiai: 'Itaniumファミリー版HP-UXの開発 Development of HP-UX for Itanium Processor Family' NEC技報 第56巻 第1号 NEC TECHNICAL JOURNAL 第56巻, 20030225, p.39〜41, 日本電気株式会社 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102736970A (en) * | 2012-06-29 | 2012-10-17 | 浪潮电子信息产业股份有限公司 | Method for monitoring activity state of operating system |
JP2016158231A (en) * | 2015-02-25 | 2016-09-01 | 廣達電腦股▲ふん▼有限公司 | Method and equipment for out-of-band network port state detection, and computer readable recording medium |
US9525608B2 (en) | 2015-02-25 | 2016-12-20 | Quanta Computer, Inc. | Out-of band network port status detection |
JP2019212046A (en) * | 2018-06-05 | 2019-12-12 | 富士通株式会社 | Control program, control method, and information processing device |
JP2020119077A (en) * | 2019-01-21 | 2020-08-06 | Necプラットフォームズ株式会社 | Apparatus, system method and program for failure notification |
JP2020119173A (en) * | 2019-01-23 | 2020-08-06 | Necプラットフォームズ株式会社 | Information processing device, control method for information processing device, and control program for information processing device |
Also Published As
Publication number | Publication date |
---|---|
JP5625605B2 (en) | 2014-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107547589B (en) | Data acquisition processing method and device | |
CN110750480B (en) | Dual-computer hot standby system | |
US11706080B2 (en) | Providing dynamic serviceability for software-defined data centers | |
US20040228063A1 (en) | IPMI dual-domain controller | |
JP5625605B2 (en) | OS operation state confirmation system, device to be confirmed, OS operation state confirmation device, OS operation state confirmation method, and program | |
JP2004021549A (en) | Network monitoring system and program | |
EP3724761B1 (en) | Failure handling in a cloud environment | |
WO2016197737A1 (en) | Self-check processing method, apparatus and system | |
JP6183931B2 (en) | Cluster system, server apparatus, cluster system management method, and program | |
JP5425720B2 (en) | Virtualization environment monitoring apparatus and monitoring method and program thereof | |
US10721135B1 (en) | Edge computing system for monitoring and maintaining data center operations | |
JP2008172592A (en) | Cluster system, computer and its abnormality detection method | |
KR101574900B1 (en) | Control system for steel plant | |
US8677323B2 (en) | Recording medium storing monitoring program, monitoring method, and monitoring system | |
JP2012168907A (en) | Mutual monitoring system | |
JP4495248B2 (en) | Information processing apparatus and failure processing method | |
JP2006285453A (en) | Information processor, information processing method, and information processing program | |
JP2014164628A (en) | Information processing device, information processing method, information processing program, integrated monitoring server and monitoring system | |
JP3190880B2 (en) | Standby system, standby method, and recording medium | |
JP2012177987A (en) | Monitoring system and monitoring method | |
JP4034436B2 (en) | Client / server system and client operation monitoring method | |
CN102932196B (en) | A kind of detection method of hosting system status and device | |
JP2007272328A (en) | Computer system | |
JP4863984B2 (en) | Monitoring processing program, method and apparatus | |
JP4619925B2 (en) | Communication apparatus and communication method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130711 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140408 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140523 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140902 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140915 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5625605 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |