Nothing Special   »   [go: up one dir, main page]

JP2012038257A - Os operating state confirmation system, confirmation object device, os operating state confirmation device, and os operating state confirmation method and program - Google Patents

Os operating state confirmation system, confirmation object device, os operating state confirmation device, and os operating state confirmation method and program Download PDF

Info

Publication number
JP2012038257A
JP2012038257A JP2010180432A JP2010180432A JP2012038257A JP 2012038257 A JP2012038257 A JP 2012038257A JP 2010180432 A JP2010180432 A JP 2010180432A JP 2010180432 A JP2010180432 A JP 2010180432A JP 2012038257 A JP2012038257 A JP 2012038257A
Authority
JP
Japan
Prior art keywords
confirmation
target device
event
operation state
control means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010180432A
Other languages
Japanese (ja)
Other versions
JP5625605B2 (en
Inventor
Yoshifumi Saruta
佳史 猿田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010180432A priority Critical patent/JP5625605B2/en
Publication of JP2012038257A publication Critical patent/JP2012038257A/en
Application granted granted Critical
Publication of JP5625605B2 publication Critical patent/JP5625605B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an OS operating state confirmation system or the like capable of recognizing the cause of communication disconnection from a confirmation object device and the seriousness of the problem at a remote place.SOLUTION: The confirmation object device 20 includes main arithmetic control means 21, a BMC 24 that operates separately from the main arithmetic control means 21, storing means for storing a SEL 210 accessible from both the main arithmetic control means 21 and the BMC 24, and a life-and-death detecting part for adding processed information to an event that is newly added to the SEL while an OS operates, and the BMC transmits life-and-death detection information to the event added to the SEL after the elapse of a delay time in the case that the processed information is not added. An OS operating state confirmation device 10 has a life-and-death detection information determining part 104 for making a ping transmitting part transmit a ping in the case of receiving the life-and-death detection information, and a malfunction cause determining part 105 for determining that an operating system of the confirmation object device is in an overloaded state in the case of receiving a reply to the ping.

Description

本発明はOS動作状態確認システム、OS動作状態確認装置および確認対象装置、確認方法およびプログラムに関し、特に確認対象装置に起こった不具合の原因を遠隔地から特定するOS動作状態確認システム等に関する。   The present invention relates to an OS operation state confirmation system, an OS operation state confirmation device, a confirmation target device, a confirmation method, and a program, and more particularly to an OS operation state confirmation system that identifies a cause of a problem that has occurred in a confirmation target device from a remote location.

コンピュータネットワークによる情報サービスシステムが社会的に重要なインフラとして定着している現代では、ネットワークはますます大規模化および複雑化している。これによって、該システムを構成する各コンピュータが正常に動作しているか否かを監視する重要性はますます増大している。そこで、情報サービスシステムを構成する各コンピュータの動作を監視するための運用管理システム、とりわけOS動作状態確認システムの利用が拡大している。   In the present age when information service systems based on computer networks are established as socially important infrastructures, networks are becoming larger and more complex. As a result, the importance of monitoring whether or not each computer constituting the system is operating normally is increasing. Therefore, the use of an operation management system for monitoring the operation of each computer constituting the information service system, in particular, an OS operation state confirmation system is expanding.

ここでいうOS動作状態確認システムとは、複数のコンピュータ装置である確認対象装置と、それらの確認対象装置を監視するコンピュータ装置であるOS動作状態確認装置とがネットワークによって相互に接続されて構成され、確認対象装置の主演算制御手段(CPU: Central Processing Unit)で動作するオペレーティングシステム(以後OSという)が正常に動作しているか否かを遠隔地に設置されたOS動作状態確認装置の側で監視するものである。   The OS operation state confirmation system referred to here is configured such that a plurality of confirmation target devices, which are a plurality of computer devices, and an OS operation state confirmation device, which is a computer device that monitors these confirmation target devices, are connected to each other via a network. Whether the operating system (hereinafter referred to as OS) operating in the main processing control means (CPU: Central Processing Unit) of the device to be checked is operating normally is determined by the OS operating state checking device installed in the remote place. It is something to monitor.

確認対象装置は、当該装置の主演算制御手段とは別個に動作するマイクロプロセッサを含むBMC(Baseboard Management Controller)を備えており、これによってOSの動作状態とは関係なく当該装置の動作状態を収集してOS動作状態確認装置に送信することができる。   The device to be confirmed has a BMC (Baseboard Management Controller) including a microprocessor that operates separately from the main arithmetic control means of the device, thereby collecting the operation status of the device regardless of the OS operation status. Then, it can be transmitted to the OS operation state confirmation device.

これに関連する技術文献として、以下の各々がある。その中でも特許文献1には、OS内に作成されたログを電子メールによって保守管理者に送信するという計算機システムが記載されている。特許文献2には、監視管理コンピュータと被監視コンピュータとが相互に監視し合うことにより、監視管理プログラム自体で発生した問題を検出できるというコンピュータ相互監視方式などが記載されている。   As technical literature related to this, there are the following. Among them, Patent Document 1 describes a computer system in which a log created in an OS is transmitted to a maintenance manager by e-mail. Patent Document 2 describes a computer mutual monitoring method in which a problem that occurs in the monitoring management program itself can be detected by the monitoring management computer and the monitored computer mutually monitoring each other.

特許文献3には、接続されたネットワーク機器に異常が発生した場合にその旨をユーザ受信端末に送信するという端末装置が記載されている。特許文献4には、複数の装置(サーバ)が監視用データを相互に書き換え、書き換えられた監視用データを監視装置に送信することにより、複数の装置のアプリケーション間の連携について監視することができるという監視方法などが記載されている。   Patent Document 3 describes a terminal device that, when an abnormality occurs in a connected network device, transmits that fact to a user receiving terminal. In Patent Literature 4, a plurality of devices (servers) can rewrite monitoring data to each other, and transmit the rewritten monitoring data to the monitoring device, thereby monitoring the cooperation between the applications of the plurality of devices. The monitoring method is described.

特許文献5には、複数の通信ルートを介して監視対象装置と通信を行うという死活監視方法が記載されている。非特許文献1には、前述のBMCを利用してネットワークを介して確認対象装置の監視を行う技術の一例が記載されている。非特許文献2には、監視対象装置のハードウェアの状態を監視するための標準インターフェイス仕様であるIPMI(Intelligent Platform Management Interface)について記載されている。   Patent Document 5 describes a life and death monitoring method in which communication with a monitoring target device is performed via a plurality of communication routes. Non-Patent Document 1 describes an example of a technique for monitoring a device to be confirmed via a network using the above-described BMC. Non-Patent Document 2 describes IPMI (Intelligent Platform Management Interface), which is a standard interface specification for monitoring the hardware state of a monitoring target device.

特開2001−005692号公報JP 2001-005692 A 特開2004−341779号公報Japanese Patent Laid-Open No. 2004-341779 特開2005−130337号公報JP-A-2005-130337 特開2009−169836号公報JP 2009-169836 A 特開2009−205364号公報JP 2009-205364 A

日本アイ・ビー・エム株式会社、「Mini BMC(Mini Baseboard Management Controller)」、2006年2月26日、[平成22年7月28日検索]、インターネット<URL:http://www-01.ibm.com/support/docview.wss?uid=pcd1syj0-02c0e52&aid=1>IBM Japan, "Mini BMC (Mini Baseboard Management Controller)", February 26, 2006 [Search July 28, 2010], Internet <URL: http: // www-01. ibm.com/support/docview.wss?uid=pcd1syj0-02c0e52&aid=1> インテル・コーポレーション、「Intelligent Platform Management Interface Specification」、[平成22年7月29日検索]、インターネット<URL:http://download.intel.com/design/servers/ipmi/IPMI2_0E4_Markup_061209.pdf>Intel Corporation, “Intelligent Platform Management Interface Specification”, [Search July 29, 2010], Internet <URL: http://download.intel.com/design/servers/ipmi/IPMI2_0E4_Markup_061209.pdf>

確認対象装置とOS動作状態確認装置とが相互に通信して確認対象装置のOSが正常に動作しているか否かの監視(以後、これを死活監視という)を行う場合、通常は確認対象装置とOS動作状態確認装置との間でピング(Ping)などのような通信を定期的に行い、この定期的な通信が断絶した場合に確認対象装置に問題が発生したと判断している。   When the confirmation target device and the OS operation state confirmation device communicate with each other to monitor whether or not the OS of the confirmation target device is operating normally (hereinafter referred to as alive monitoring), usually the confirmation target device Communication such as ping is periodically performed between the OS and the OS operation state confirmation device, and it is determined that a problem has occurred in the device to be confirmed when the periodic communication is interrupted.

しかしながら、その場合に確認対象装置において発生した問題が、確認対象装置で動作するOSで発生したものであるか、それとも確認対象装置との間のネットワーク機器で発生したものであるか、またそれは誤検出もしくは時間が経過すれば回復する一時的な現象であるか、それとも技術者による回復の操作が必要な重大な問題であるかを、OS動作状態確認装置側で知る方法はなかった。このような問題の発生原因やその重大さを特定するには、専ら技術者が実際にその問題の発生した確認対象装置を操作する以外にない。これには時間と労力を要する。   However, in this case, whether the problem that occurred in the confirmation target device occurred in the OS that runs on the confirmation target device, or occurred in the network device between the confirmation target device, and that is an error. There was no way for the OS operation status confirmation device to know whether this is a temporary phenomenon that recovers after detection or time has passed, or whether it is a serious problem that requires a recovery operation by an engineer. In order to identify the cause and severity of such a problem, an engineer can only operate the confirmation target apparatus in which the problem actually occurred. This takes time and effort.

前述の特許文献1〜5および非特許文献1〜2には、この問題を解決しうる技術は記載されていない。非特許文献1に記載されたBMCは、確認対象装置のOSが正常に動作していないとしても、それとは無関係に動作して確認対象装置のハードウェアの動作状態を検出してOS動作状態確認装置側に送信することはできる。しかしながら、これも確認対象装置で発生した問題の原因やその重大さを特定するものではない。   The aforementioned patent documents 1 to 5 and non-patent documents 1 and 2 do not describe a technique that can solve this problem. The BMC described in Non-Patent Document 1 operates independently of the OS of the confirmation target device even if the OS of the confirmation target device is not operating normally, and detects the operating state of the hardware of the confirmation target device to check the OS operation state. It can be sent to the device side. However, this also does not specify the cause or severity of the problem that has occurred in the confirmation target device.

本発明の目的は、確認対象装置で発生したOS動作状態確認装置との間の通信の断絶の原因がOSで発生したものであるかネットワーク機器で発生したものであるか、およびその問題の重大さを遠隔地に設置されたOS動作状態確認装置側で知ることを可能とするOS動作状態確認システム、確認対象装置、OS動作状態確認装置、OS動作状態確認方法およびプログラムを提供することにある。   It is an object of the present invention to determine whether the cause of the disconnection of communication with the OS operation state confirmation device generated in the confirmation target device is caused by the OS or the network device, and the seriousness of the problem. The present invention provides an OS operation state confirmation system, a confirmation target device, an OS operation state confirmation device, an OS operation state confirmation method, and a program that allow the OS operation state confirmation device installed in a remote location to know the above. .

上記目的を達成するため、本発明に係るOS動作状態確認システムは、OS動作状態確認装置と確認対象装置とが相互に接続されることによって構成され、確認対象装置におけるオペレーティングシステムの動作が正常であるか否かをOS動作状態確認装置の側から確認するOS動作状態確認システムであって、確認対象装置が、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して確認対象装置の動作情報を収集してOS動作状態確認装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時にOS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を送信する死活検出部とを備えると共に、副演算制御手段が、OS動作状態確認装置からの命令に基づいてイベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報をOS動作状態確認装置に対して送信するIPMIコマンド通信機能を備え、OS動作状態確認装置が、確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部と、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令を送信するOEMイベント送信部とを備えると共に、確認対象装置から第2の死活検出情報を受信した場合にピング送信部に対して第1のピングの送信を指令する死活検出情報判定部と、第1のピングに対する返信が確認対象装置から返って来た場合に確認対象装置の主演算制御手段が過負荷状態であると判断し、そうでない場合に確認対象装置の主演算制御手段がハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部とを有することを特徴とする。   In order to achieve the above object, an OS operation state confirmation system according to the present invention is configured by mutually connecting an OS operation state confirmation device and a confirmation target device, and the operation of the operating system in the confirmation target device is normal. An OS operation state confirmation system for confirming whether or not there is an OS operation state confirmation device, wherein the confirmation target device operates separately from the main operation control means for operating the operating system and the main operation control means The sub-operation control means for collecting the operation information of the confirmation target device and transmitting it to the OS operation state confirmation device, and the event log in which both the main operation control means and the sub-operation control means add each operation content as an event. While the stored storage means and the main arithmetic control means are operating normally, the event newly added to the event log is defined. And a life / death detection unit that transmits first life / death detection information that is confirmation information of the operation state to the OS operation state confirmation device at the same time that the processed information of the event is additionally recorded, and the sub-operation control means includes , Adding a new event to the event log based on a command from the OS operation state confirmation device and determining whether processed information is added to the new event after a predetermined delay time has elapsed, An OSMI state confirmation device having an IPMI command communication function for transmitting second life / death detection information indicating a state in which this additional processing is not performed to the OS operation state confirmation device when the processed information is not additionally recorded; However, if the periodic communication is interrupted and the periodic communication is interrupted, it is determined that a problem has occurred in the verification target device. An output unit, a ping transmitting unit that transmits a ping for network communication confirmation to the confirmation target device, and a sub-operation control unit of the confirmation target device when it is determined that a problem has occurred in the confirmation target device An OEM event transmission unit that transmits a command to add a new event to the event log, and transmits the first ping to the ping transmission unit when the second alive detection information is received from the confirmation target device. When the reply to the first ping is returned from the confirmation target device, it is determined that the main arithmetic control means of the confirmation target device is in an overload state, and if not, the confirmation target It is characterized by having a failure cause judging section for judging that the main arithmetic control means of the apparatus is hung up and outputting the judgment result to the outside.

上記目的を達成するため、本発明に係る確認対象装置は、OS動作状態確認装置と相互に接続されることによって、オペレーティングシステムの動作が正常であるか否かをOS動作状態確認装置の側から確認するOS動作状態確認システムを構成する確認対象装置であって、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らの動作情報を収集してOS動作状態確認装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時にOS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を送信する死活検出部とを備えると共に、副演算制御手段が、OS動作状態確認装置からの命令に基づいてイベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報をOS動作状態確認装置に対して送信するIPMIコマンド通信機能を備えることを特徴とする。   In order to achieve the above object, the device to be confirmed according to the present invention is connected to the OS operation state confirmation device to determine whether or not the operation of the operating system is normal from the OS operation state confirmation device side. A device to be confirmed constituting an OS operation status confirmation system to be confirmed, which is a main arithmetic control means for operating the operating system, and this main arithmetic control means operates separately to collect its own operation information to collect the OS operation Sub-operation control means for transmitting to the status confirmation device, storage means for storing event logs in which both main operation control means and sub-operation control means add each operation content as an event, and main operation control means operate normally During this period, the OS operation is performed at the same time that the processed information of the event is periodically added to the event newly added to the event log. And a life / death detecting unit that transmits first life / death detection information that is confirmation information of the operation state to the state confirmation device, and the sub-operation control unit is configured to receive an event log based on a command from the OS operation state confirmation device A new event is added to the new event, and it is determined whether or not processed information is added to the new event after a predetermined delay time has elapsed, and this additional processing is performed when the processed information is not added. It is characterized by having an IPMI command communication function for transmitting second life / death detection information indicating a state in which the operation is not performed to the OS operation state confirmation device.

上記目的を達成するため、本発明に係るOS動作状態確認装置は、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らのハードウェアの動作についての情報を収集して外部装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方の動作内容を記録するイベントログを記憶した記憶手段とを備える確認対象装置と相互に接続されることによって、確認対象装置でのオペレーティングシステムの動作が正常であるか否かを確認するOS動作状態確認システムを構成するOS動作状態確認装置であって、確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部と、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令を送信するOEMイベント送信部とを備えると共に、確認対象装置からイベントログに書き込んだ新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が書き込まれていないことを意味する死活検出情報を受信した場合にピング送信部に対してピングの送信を指令する死活検出情報判定部と、ピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し、そうでない場合に確認対象装置のオペレーティングシステムがハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部を有することを特徴とする。   In order to achieve the above object, an OS operation state confirmation device according to the present invention includes a main operation control means for operating an operating system, and information about the operation of its own hardware that operates separately from the main operation control means. And a sub-operation control means that collects and transmits to the external device and a storage device that stores an event log that records the operation contents of both the main operation control means and the sub-operation control means. Thus, an OS operation state confirmation device constituting an OS operation state confirmation system for confirming whether or not the operation of the operating system in the confirmation target device is normal, and periodically communicates with the confirmation target device. For the confirmation target device alive detection unit that determines that a problem has occurred in the confirmation target device when the periodic communication is interrupted, and for the confirmation target device A command for adding a new event to the event log to the sub-operation control means of the confirmation target device when it is determined that a problem has occurred in the confirmation target device, and a ping transmission unit that transmits a ping (Ping) for network communication confirmation Means that the processed information is not written even after a predetermined delay time has elapsed for a new event written from the confirmation target device to the event log. The life / death detection information determination unit that instructs the ping transmission unit to transmit ping when the detection information is received, and the operating system of the confirmation target device is overloaded when a reply to the ping is returned from the confirmation target device If not, the operating system of the device to be checked is hung. It is determined that, and having a fault cause determination unit that outputs the determination result to the outside.

上記目的を達成するため、本発明に係るOS動作状態確認方法は、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して確認対象装置の動作情報を収集してOS動作状態確認装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、確認対象装置でのオペレーティングシステムの動作が正常であるか否かをOS動作状態確認装置の側から確認するOS動作状態確認システムにあって、確認対象装置で主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を確認対象装置の死活検出部が追記すると同時にOS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を死活検出部が送信し、OS動作状態確認装置と確認対象装置との間の定期的な通信が途切れた場合に確認対象装置に不具合が生じたとOS動作状態確認装置の確認対象装置死活検出部が判断し、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令をOS動作状態確認装置のOEMイベント送信部が送信し、OS動作状態確認装置からの命令に反応した確認対象装置の副演算制御手段がイベントログに新規イベントを付加し、予め定められた遅延時間が経過した後で確認対象装置のイベントログに付加した新規イベントに対して処理済み情報が追記されているか否かを副演算制御手段が判断し、確認対象装置のイベントログに処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報をOS動作状態確認装置に対して確認対象装置の副演算制御手段が送信し、OS動作状態確認装置が確認対象装置から第2の死活検出情報を受信した場合に死活検出情報判定部がピング送信部を介して確認対象装置にネットワーク疎通確認用のピング(Ping)を送信し、ピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し、そうでない場合に確認対象装置のオペレーティングシステムがハングアップしているとOS動作状態確認装置の死活検出情報判定部が判断し、この判断結果をOS動作状態確認装置の死活検出情報判定部が外部に出力することを特徴とする。   In order to achieve the above object, an OS operation state confirmation method according to the present invention collects operation information of a device to be confirmed by operating separately from a main operation control unit that operates an operating system and this main operation control unit. A confirmation target device comprising: a sub-operation control unit that transmits to the OS operation state confirmation device; and a storage unit that stores an event log in which each of the main operation control unit and the sub-operation control unit adds each operation content as an event. The OS operation state confirmation system is configured by being interconnected with the OS operation state confirmation device, and confirms from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal. As long as the main arithmetic control means is operating normally on the device to be checked, the newly added event is periodically The life and death detection unit of the confirmation target apparatus adds the processed information of the event, and at the same time, the life and death detection unit transmits the first life and death detection information that is the confirmation information of the operation state to the OS operation state confirmation device. When periodic communication between the status check device and the check target device is interrupted, the check target device alive detection unit of the OS operation status check device determines that a failure has occurred in the check target device, and the check target device has a fault. When it is determined that the event has occurred, the OEM event transmission unit of the OS operation state confirmation device transmits a command to add a new event to the event log to the sub-operation control unit of the confirmation target device. The sub-operation control means of the confirmation target device that responds to the event adds a new event to the event log, and after the predetermined delay time has elapsed, The sub-operation control means determines whether or not the processed information is added to the added new event, and this additional processing is not performed when the processed information is not added to the event log of the confirmation target device. When the sub-operation control means of the device to be confirmed transmits second life / death detection information indicating the state to the OS operation state confirmation device, and the OS operation state confirmation device receives the second life / death detection information from the device to be confirmed. The life / death detection information determination unit transmits a ping for network communication confirmation (Ping) to the confirmation target device via the ping transmission unit, and when the reply to the ping is returned from the confirmation target device, the operating system of the confirmation target device Is determined to be in an overload state, and if this is not the case, if the operating system of the confirmation target device is hung up, the OS operation state confirmation device The life / death detection information determination unit of the OS determines the result, and the life / death detection information determination unit of the OS operation state confirmation device outputs the determination result to the outside.

上記目的を達成するため、本発明に係るOS動作状態確認プログラムは、オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して確認対象装置の動作情報を収集してOS動作状態確認装置に送信する副演算制御手段と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、確認対象装置でのオペレーティングシステムの動作が正常であるか否かをOS動作状態確認装置の側から確認するOS動作状態確認システムにあって、OS動作状態確認装置が備えるコンピュータに、OS動作状態確認装置と確認対象装置との間の定期的な通信が途切れた場合に確認対象装置に不具合が生じたと判断する手順、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令を送信する手順、確認対象装置からイベントログに付加した新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が追記されていないことを意味する死活検出情報を受信した場合に確認対象装置にネットワーク疎通確認用のピング(Ping)を送信する手順、ピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し、そうでない場合に確認対象装置のオペレーティングシステムがハングアップしていると判断する手順、およびこの判断結果を外部に出力する手順を、実行させることを特徴とする。   In order to achieve the above object, an OS operation state confirmation program according to the present invention collects operation information of a device to be confirmed by operating separately from a main operation control unit that operates an operating system and the main operation control unit. A confirmation target device comprising: a sub-operation control unit that transmits to the OS operation state confirmation device; and a storage unit that stores an event log in which each of the main operation control unit and the sub-operation control unit adds each operation content as an event. The OS operation state confirmation system is configured by being interconnected with the OS operation state confirmation device, and confirms from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal. Thus, periodic communication between the OS operation state confirmation device and the confirmation target device is performed on the computer included in the OS operation state confirmation device. A procedure for determining that a failure has occurred in the device to be confirmed when it has expired, and a command for adding a new event to the event log to the sub-operation control means of the device to be confirmed when it is determined that a failure has occurred in the device to be confirmed Confirmation procedure when sending and receiving life and death detection information that means that processed information has not been added even after a predetermined delay time has elapsed for a new event added to the event log from the confirmation target device Procedure for transmitting ping (Ping) for network communication confirmation to the target device, when a reply to the ping is returned from the verification target device, it is determined that the operating system of the verification target device is overloaded, and otherwise The procedure for determining that the operating system of the device to be checked is hung up and the The procedure to be output to the section, characterized in that to execute.

本発明は、上述したように確認対象装置が主演算制御手段およびこれとは別個に動作する副演算制御手段、即ちBMCを備える構成とし、BMCがイベントログに書き込んだイベントがOSの上で動作する死活検出部によって処理済みとされているか否かによってOSの動作を判断するように構成したので、OS動作状態確認装置からネットワークを介して確認対象装置でのOSの動作状態を把握できる。   In the present invention, as described above, the confirmation target apparatus includes the main operation control unit and the sub operation control unit that operates separately from the main operation control unit, that is, the BMC, and the event written by the BMC in the event log operates on the OS. Since the OS operation is determined based on whether or not it has been processed by the alive detection unit, the OS operation state in the confirmation target device can be grasped from the OS operation state confirmation device via the network.

これによって、確認対象装置で発生したOS動作状態確認装置との間の通信の断絶の原因がOSで発生したものであるかネットワーク機器で発生したものであるか、およびその問題の重大さを遠隔地に設置されたOS動作状態確認装置側で知ることを可能とするOS動作状態確認システム、確認対象装置、OS動作状態確認装置、OS動作状態確認方法およびプログラムを提供することができる。   As a result, whether the cause of the disconnection of the communication with the OS operation state confirmation device occurring in the confirmation target device is caused by the OS or the network device, and the seriousness of the problem can be remotely detected. It is possible to provide an OS operation state confirmation system, a confirmation target device, an OS operation state confirmation device, an OS operation state confirmation method, and a program that can be known by the OS operation state confirmation device installed on the ground.

図2に示したOS動作状態確認装置および確認対象装置のより詳しい構成について示す説明図である。It is explanatory drawing shown about the more detailed structure of the OS operation state confirmation apparatus and confirmation object apparatus which were shown in FIG. 本発明の第1の実施形態に係るOS動作状態確認システムの構成について示す説明図である。It is explanatory drawing shown about the structure of the OS operation state confirmation system which concerns on the 1st Embodiment of this invention. 図1に示したBMCのさらに詳しい構成を示す説明図である。It is explanatory drawing which shows the further detailed structure of BMC shown in FIG. 図1に示したSELのデータ記録形式について示す説明図である。It is explanatory drawing shown about the data recording format of SEL shown in FIG. 図1に示したOS動作状態確認装置が行う、OSの動作状態の監視の動作について示すフローチャートである。2 is a flowchart illustrating an operation of monitoring an operating state of an OS performed by the OS operating state confirmation apparatus illustrated in FIG. 1. 図5の続きである。It is a continuation of FIG. 図1に示した確認対象装置側でOS上で動作する死活検出部が、図5〜6に示したOS動作状態確認装置の動作に対応して行う動作について示すフローチャートである。7 is a flowchart illustrating an operation performed by the life / death detection unit operating on the OS on the confirmation target device side illustrated in FIG. 1 in accordance with the operation of the OS operation state confirmation device illustrated in FIGS. 図1に示した確認対象装置側でOSとは関係なく動作するBMCが、図5〜6に示したOS動作状態確認装置の動作に対応して行う動作について示すフローチャートである。7 is a flowchart illustrating an operation performed by the BMC operating on the confirmation target device side illustrated in FIG. 1 in correspondence with the operation of the OS operation state confirmation device illustrated in FIGS. 本発明の第2の実施形態に係るOS動作状態確認システムの構成について示す説明図である。It is explanatory drawing shown about the structure of the OS operation state confirmation system which concerns on the 2nd Embodiment of this invention. 図9に示したOS動作状態確認装置のより詳しい構成について示す説明図である。It is explanatory drawing shown about the more detailed structure of the OS operation state confirmation apparatus shown in FIG. 図10に示したOS動作状態確認装置が行う、OSの監視の動作について示すフローチャートである。11 is a flowchart illustrating an OS monitoring operation performed by the OS operation state confirmation apparatus illustrated in FIG. 10. 図11の続きである。It is a continuation of FIG.

(第1の実施形態)
以下、本発明の第1の実施形態の構成について添付図1〜3に基づいて説明する。
最初に、本実施形態の基本的な内容について説明し、その後でより具体的な内容について説明する。
本実施形態に係るOS動作状態確認システム1は、OS動作状態確認装置10と確認対象装置20とが相互に接続されることによって構成され、確認対象装置におけるオペレーティングシステムの動作が正常であるか否かをOS動作状態確認装置の側から確認するOS動作状態確認システムである。確認対象装置20は、オペレーティングシステムを動作させる主演算制御手段21と、この主演算制御手段とは別個に動作して確認対象装置の動作情報を収集してOS動作状態確認装置に送信する副演算制御手段(BMC24)と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログ(SEL210)を記憶した記憶手段22と、主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時にOS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を送信する死活検出部201とを備えると共に、副演算制御手段(BMC24)が、OS動作状態確認装置からの命令に基づいてイベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報をOS動作状態確認装置に対して送信するIPMIコマンド通信機能241を備える。OS動作状態確認装置10は、確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に確認対象装置に不具合が生じたと判断する確認対象装置死活検出部101と、確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部103と、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令を送信するOEMイベント送信部102とを備えると共に、確認対象装置から第2の死活検出情報を受信した場合にピング送信部に対して第1のピングの送信を指令する死活検出情報判定部104と、第1のピングに対する返信が確認対象装置から返って来た場合に確認対象装置の主演算制御手段が過負荷状態であると判断し、そうでない場合に確認対象装置の主演算制御手段がハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部105とを有する。
(First embodiment)
Hereinafter, the structure of the 1st Embodiment of this invention is demonstrated based on attached FIGS. 1-3.
First, the basic content of the present embodiment will be described, and then more specific content will be described.
The OS operation state confirmation system 1 according to the present embodiment is configured by connecting the OS operation state confirmation device 10 and the confirmation target device 20 to each other, and whether or not the operation of the operating system in the confirmation target device is normal. This is an OS operation state confirmation system for confirming the above from the OS operation state confirmation device side. The verification target device 20 operates separately from the main calculation control unit 21 that operates the operating system, and the main calculation control unit, collects operation information of the verification target device, and transmits the operation information to the OS operation state verification device. The storage means 22 storing the control means (BMC 24), the event log (SEL210) in which both the main operation control means and the sub operation control means add each operation content as an event, and the main operation control means operate normally. While the event log is newly added to the event log periodically, the processed information of the event is periodically added, and at the same time, the first life / death detection information which is the confirmation information of the operation state with respect to the OS operation state confirmation device. And a sub-operation control means (BMC 24) based on a command from the OS operation state confirmation device. When a new event is added to the event log and a predetermined delay time has elapsed, it is determined whether or not processed information has been added to the new event. An IPMI command communication function 241 is provided for transmitting second life / death detection information indicating a state in which the additional recording processing is not performed to the OS operation state confirmation device. The OS operation state confirmation device 10 periodically communicates with the confirmation target device, and when the periodic communication is interrupted, the confirmation target device alive detection unit 101 that determines that a failure has occurred in the confirmation target device, and a confirmation target A ping transmission unit 103 that transmits a ping for network communication confirmation to the device, and a new event log for the sub-operation control means of the confirmation target device when it is determined that a problem has occurred in the confirmation target device An OEM event transmission unit 102 that transmits an instruction to add an event, and a life / death detection that instructs the ping transmission unit to transmit the first ping when the second life / death detection information is received from the confirmation target device When the information determination unit 104 and the reply to the first ping are returned from the confirmation target device, the main calculation control means of the confirmation target device is overloaded. Cross, and it is determined that the main arithmetic control unit check target device otherwise is hung, and a failure cause determining section 105 and outputs the determination result to the outside.

そして不具合原因判断部105が、確認対象装置から第2の死活検出情報を受信せずかつ第1の死活検出情報を受信した場合に確認対象装置のオペレーティングシステムの動作に特に問題はないと判断する。   When the failure cause determination unit 105 does not receive the second life / death detection information from the confirmation target device and receives the first life / death detection information, the failure cause determination unit 105 determines that there is no particular problem in the operation of the operating system of the confirmation target device. .

さらに死活検出情報判定部104が、確認対象装置から第1および第2の死活検出情報をいずれも受信しない場合にピング送信部102に対して第2のピングの送信を指令し、不具合原因判断部105が、第2のピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し、そうでない場合に確認対象装置との間のネットワークに恒久的な障害が発生したと判断する。   Further, the life / death detection information determination unit 104 instructs the ping transmission unit 102 to transmit the second ping when neither of the first and second life / death detection information is received from the confirmation target device, and the failure cause determination unit 105 determines that the operating system of the device to be confirmed is overloaded when a reply to the second ping is returned from the device to be confirmed; otherwise, the network is permanently connected to the device to be confirmed. It is determined that a general failure has occurred.

以上の構成を備えることにより、本実施形態のOS動作状態確認システム1は、遠隔地に設置されたOS動作状態確認装置10から、確認対象装置20でのOSの動作状態を正確に検出することが可能となる。
以下、これをより詳細に説明する。
With the above configuration, the OS operation state confirmation system 1 according to the present embodiment accurately detects the operation state of the OS in the confirmation target device 20 from the OS operation state confirmation device 10 installed in a remote place. Is possible.
Hereinafter, this will be described in more detail.

図2は、本発明の第1の実施形態に係るOS動作状態確認システム1の構成について示す説明図である。OS動作状態確認システム1は、互いに離れた場所に設置されたOS動作状態確認装置10と複数台の確認対象装置20a、20b、20c…が、ネットワーク30と管理用ネットワーク31とを介して相互に接続されることによって構成される。1台のOS動作状態確認装置10で、複数台の確認対象装置20によって管理する構成とすることができる。以後、確認対象装置20a、20b、20c…を総称して確認対象装置20という。   FIG. 2 is an explanatory diagram showing the configuration of the OS operation state confirmation system 1 according to the first embodiment of the present invention. The OS operation state confirmation system 1 includes an OS operation state confirmation device 10 and a plurality of confirmation target devices 20 a, 20 b, 20 c... That are installed at locations separated from each other via a network 30 and a management network 31. Configured by being connected. One OS operation state confirmation device 10 can be configured to be managed by a plurality of confirmation target devices 20. Hereinafter, the confirmation target devices 20a, 20b, 20c,... Are collectively referred to as the confirmation target device 20.

ネットワーク30は、OS動作状態確認装置10と確認対象装置20との間の通常の通信で使用されるLAN(Local Area Network)およびWAN(Wide Area Network)である。管理用ネットワーク31は、OS動作状態確認装置10と確認対象装置20との間で、動作についての情報の収集や管理コマンドの送信などのようなネットワーク管理用途で専用に利用されるネットワークである。   The network 30 is a LAN (Local Area Network) and a WAN (Wide Area Network) that are used in normal communication between the OS operation state check device 10 and the check target device 20. The management network 31 is a network that is used exclusively for network management purposes such as collection of information on operations and transmission of management commands between the OS operation state check device 10 and the check target device 20.

図1は、図2に示したOS動作状態確認装置10および確認対象装置20のより詳しい構成について示す説明図である。   FIG. 1 is an explanatory diagram showing a more detailed configuration of the OS operation state check device 10 and the check target device 20 shown in FIG.

OS動作状態確認装置10は、一般的なコンピュータ装置としての構成を有する。即ち、コンピュータプログラムを実行する主体となる主演算制御手段(CPU: Micro Processing Unit)11と、データを記憶する記憶手段12と、ネットワーク30に接続して他のコンピュータとのデータ通信を行う通信手段13aと、管理用ネットワーク31に接続して他のコンピュータとのデータ通信を行う通信手段13bと、主演算制御手段11による処理結果をユーザに表示する表示手段14とを備える。   The OS operation state confirmation device 10 has a configuration as a general computer device. That is, a main processing control means (CPU: Micro Processing Unit) 11 that is a main body for executing a computer program, a storage means 12 that stores data, and a communication means that is connected to a network 30 and performs data communication with other computers. 13 a, a communication unit 13 b that is connected to the management network 31 and performs data communication with other computers, and a display unit 14 that displays a processing result of the main arithmetic control unit 11 to the user.

そして、主演算制御手段11では、確認対象装置死活検出部101と、OEMイベント送信部102と、ピング(Ping)送信部103と、死活検出情報判定部104と、不具合原因判断部105とが、コンピュータプログラムとして各々の機能を実行されるように構成されている。   In the main calculation control means 11, the confirmation target device alive detection unit 101, the OEM event transmission unit 102, the ping transmission unit 103, the alive detection information determination unit 104, and the failure cause determination unit 105 are Each function is configured to be executed as a computer program.

確認対象装置死活検出部101は、確認対象装置20に対して所定の間隔で通信を行い、その通信に対する返信が予め決められた時間内になかった場合に、この確認対象装置20との通信が途切れたと判断する。OEMイベント送信部102は、確認対象装置20に対して、後述するOEMイベントを記録させるIPMIコマンドを送信する(詳細は後述)。ピング送信部103は、確認対象装置20に対してネットワーク30を介してネットワーク疎通確認のためのコマンドであるピング(Ping)を送信する。   The confirmation target device alive detection unit 101 communicates with the confirmation target device 20 at a predetermined interval, and when there is no reply to the communication within a predetermined time, communication with the confirmation target device 20 is performed. Judge that it was interrupted. The OEM event transmission unit 102 transmits an IPMI command for recording an OEM event, which will be described later, to the confirmation target device 20 (details will be described later). The ping transmission unit 103 transmits ping, which is a command for confirming network communication, to the confirmation target device 20 via the network 30.

死活検出情報判定部104は、これも後述する確認対象装置20からの応答情報を受信して、その内容に応じてピング送信部103にピングを送信させる。そして不具合原因判断部105は、以上の応答情報やピングに対する返信の有無などから、後述のロジックで確認対象装置20に生じた不具合の内容を特定して、その判断結果を表示手段14に表示する。   The life / death detection information determination unit 104 receives response information from the confirmation target device 20 which will also be described later, and causes the ping transmission unit 103 to transmit pings according to the contents. Then, the failure cause determination unit 105 identifies the content of the failure that has occurred in the verification target device 20 using the logic described later from the above response information and the presence or absence of a reply to the ping, and displays the determination result on the display unit 14. .

もう一方の確認対象装置20もまた、一般的なコンピュータ装置としての構成を有する。即ち、コンピュータプログラムを実行する主体となる主演算制御手段(CPU: Micro Processing Unit)21と、データを記憶する記憶手段22と、ネットワーク30に接続して他のコンピュータとのデータ通信を行う2系統の通信手段23aと、管理用ネットワーク31に接続して他のコンピュータとのデータ通信を行う通信手段23bとを備える。これらに加えて、確認対象装置20はBMC(Baseboard Management Controller)24をさらに備える。   The other device 20 to be confirmed also has a configuration as a general computer device. That is, two systems that perform data communication with other computers connected to a network 30 and a main processing control means (CPU: Micro Processing Unit) 21 which is a main body for executing a computer program, a storage means 22 for storing data, and a network 30 Communication means 23a and communication means 23b connected to the management network 31 for data communication with other computers. In addition to these, the confirmation target device 20 further includes a BMC (Baseboard Management Controller) 24.

BMC24は通信手段23bに接続されていて、主演算制御手段21とは別個に動作する。OS動作状態確認装置10は、管理用ネットワーク31を介して、BMC24との間でRMCP(Remote Management Control ProtocolまたはRemote Media Control Protocol)のプロトコルによるIPMI(Intelligent Platform Management Interface)コマンドを交換することが可能である。   The BMC 24 is connected to the communication unit 23b and operates separately from the main calculation control unit 21. The OS operation state confirmation device 10 can exchange an IPMI (Intelligent Platform Management Interface) command based on the RMCP (Remote Management Control Protocol or Remote Media Control Protocol) protocol with the BMC 24 via the management network 31. It is.

さらに、確認対象装置20の記憶手段22には、主演算制御手段21とBMC24のいずれの側からもアクセス可能なシステムイベントログ(SEL)210が記憶されている。   Further, the storage unit 22 of the confirmation target apparatus 20 stores a system event log (SEL) 210 that can be accessed from either the main arithmetic control unit 21 or the BMC 24.

主演算制御手段21ではオペレーティングシステム(以後OSという)200が動作し、そのOS200上で死活検出部201とIPMIドライバ202とが、コンピュータプログラムとして実行されるように構成されている。OS200は、通信手段23aを通信インターフェースとして認識していて、この通信手段23aを介してネットワーク30経由でOS動作状態確認装置10と通信を行うことができる。   The main arithmetic control means 21 is configured such that an operating system (hereinafter referred to as OS) 200 operates, and the life / death detection unit 201 and the IPMI driver 202 are executed as computer programs on the OS 200. The OS 200 recognizes the communication unit 23a as a communication interface, and can communicate with the OS operation state confirmation device 10 via the network 30 via the communication unit 23a.

死活検出部201は、OS動作状態確認装置10で動作する確認対象装置死活検出部101からの通信に対して返信を行うことにより、確認対象装置死活検出部101に対して自らが問題なく動作していることを知らせる。死活検出部201は、IPMIドライバ202に対して命令を発するIPMI命令機能201a、OS動作状態確認装置10に対しての通信を行う管理通信機能201bとを備える。   The life / death detection unit 201 returns to the communication from the confirmation target device life / death detection unit 101 operating on the OS operation state confirmation device 10, thereby operating on the confirmation target device life / death detection unit 101 without any problem. Let them know. The life and death detection unit 201 includes an IPMI command function 201 a that issues a command to the IPMI driver 202 and a management communication function 201 b that performs communication with the OS operation state check device 10.

IPMI命令機能201aは、主演算制御手段21のカーネルモードで動作し、SEL210に記録されたイベントを定期的に監視し、新たなイベントが記録されたらそのイベントの状態を「処理済み」に変更する機能を持つ。管理通信機能201bは、主演算制御手段21のユーザーモードで動作し、OS動作状態確認装置10に対してOS200の動作に問題がないこと示す通信を行う機能を持つ。   The IPMI instruction function 201a operates in the kernel mode of the main arithmetic control means 21, periodically monitors the event recorded in the SEL 210, and changes the state of the event to “processed” when a new event is recorded. Has function. The management communication function 201b operates in the user mode of the main arithmetic control unit 21, and has a function of performing communication indicating that there is no problem in the operation of the OS 200 to the OS operation state confirmation device 10.

IPMIドライバ202は、主演算制御手段21のカーネルモードで動作し、IPMI命令機能201aがSEL210にアクセスするために利用する。   The IPMI driver 202 operates in the kernel mode of the main arithmetic control unit 21 and is used by the IPMI instruction function 201a to access the SEL 210.

一方、BMC24は、OS動作状態確認装置10からのIPMIコマンドを受けて、SEL210に対するイベントの書き込みおよびログの記録内容の編集の動作を行うことができ、その結果に応じてPET(Platform Event Trap)をOS動作状態確認装置10に返信することができる。   On the other hand, the BMC 24 can receive an IPMI command from the OS operation state confirmation device 10 and perform an operation of writing an event to the SEL 210 and an operation of editing the recorded content of the log. Can be returned to the OS operation state confirmation device 10.

図3は、図1に示したBMC24のさらに詳しい構成を示す説明図である。BMC24は、主演算制御手段21とは別個に動作するマイクロプロセッサ24aと、確認対象装置20の記憶手段22とは別個の記憶手段24bとを備え、主演算制御手段21で動作するOS200からは独立して、小規模なコンピュータプログラムを実行する主体として機能することができる。   FIG. 3 is an explanatory diagram showing a more detailed configuration of the BMC 24 shown in FIG. The BMC 24 includes a microprocessor 24 a that operates separately from the main calculation control unit 21, and a storage unit 24 b that is separate from the storage unit 22 of the confirmation target device 20, and is independent of the OS 200 that operates on the main calculation control unit 21. Thus, it can function as a subject that executes a small computer program.

そして、マイクロプロセッサ24aでは、通信手段23bを制御して(管理用ネットワーク31経由で)OS動作状態確認装置10とIPMIコマンドを交換するIPMIコマンド通信機能241と、このIPMIコマンドに応じてSEL210にアクセスするSELアクセス機能242とが、コンピュータプログラムとして実行されるように構成されている。   Then, the microprocessor 24a controls the communication means 23b (via the management network 31) to exchange the IPMI command with the OS operation state check device 10 and accesses the SEL 210 in accordance with the IPMI command. The SEL access function 242 is configured to be executed as a computer program.

IPMIコマンド通信機能241は、通信手段23bに対して、OS200が通信手段23aに対して設定しているIPアドレスとは異なるIPアドレスを設定している。これによって、ネットワーク30とは別系統の管理用ネットワーク31を介してOS動作状態確認装置10との間で、IPMIコマンドとそれに対する返答(PET)とを交換することができる。   The IPMI command communication function 241 sets an IP address different from the IP address set by the OS 200 for the communication unit 23a for the communication unit 23b. As a result, an IPMI command and a response (PET) to the IPMI command can be exchanged with the OS operation state confirmation device 10 via the management network 31 that is a separate system from the network 30.

図4は、図1に示したSEL210のデータ記録形式について示す説明図である。SEL210はIPMIの仕様に従い、OS200およびBMC24の動作に応じて、その内容がイベントとして付加されるものである。処理済み情報210aは、最後に発生したイベントについてのSEL210の1〜2バイト目の「Record ID」をBMC24内部の記憶手段24bに記憶するものである。さらに新しいイベントが発生するたびに、この処理済み情報210aは上書きされる。   FIG. 4 is an explanatory diagram showing the data recording format of the SEL 210 shown in FIG. The content of the SEL 210 is added as an event according to the operation of the OS 200 and the BMC 24 in accordance with the IPMI specification. The processed information 210 a stores “Record ID” of the first and second bytes of the SEL 210 for the event that has occurred last in the storage unit 24 b inside the BMC 24. Each time a new event occurs, the processed information 210a is overwritten.

本実施形態でいうOEM(Original Equipment Manufacturer)イベントとは、非特許文献2のIPMIの仕様で定義された「OEM SEL record」を利用して、各ベンダーが独自にその内容を定義してSELに記録できるイベントをいう。これによって、本実施形態は他の装置との衝突を起こすことなく実施可能なものとなる。   The original equipment manufacturer (OEM) event referred to in the present embodiment means that each vendor independently defines its contents using the “OEM SEL record” defined in the IPMI specification of Non-Patent Document 2, and uses it as a SEL. An event that can be recorded. Thus, the present embodiment can be implemented without causing a collision with other devices.

より具体的には「Record Type」を示す3バイト目を16進数の「0xC0」〜「0xDF」の間の値に設定すれば、本実施形態で利用可能なものとできる。8〜10バイト目が各ベンダーに与えられる「Manufacturer ID」、そして11〜16バイト目が各ベンダーが独自に定義できる「OEM Defined」というデータフィールドであるので、この両者の組み合わせによりイベントの内容を一意に決定することができる。   More specifically, if the third byte indicating “Record Type” is set to a value between “0xC0” and “0xDF” in hexadecimal, it can be used in this embodiment. Since the 8th to 10th bytes are a “Manufacturer ID” given to each vendor, and the 11th to 16th bytes are a data field called “OEM Defined” that can be uniquely defined by each vendor. Can be determined uniquely.

本実施形態では、8〜10バイト目を「日本電気株式会社」に割り当てられた「0x07」「0x07」「0x00」とし、11〜16バイト目を「0x01」「0x00」「0x00」「0x00」「0x00」「0x00」として、これに「OSの死活監視」という内容を独自に割り当てることによって実施する。   In this embodiment, the 8th to 10th bytes are “0x07”, “0x07”, “0x00” assigned to “NEC Corporation”, and the 11th to 16th bytes are “0x01”, “0x00”, “0x00”, “0x00”. As “0x00” and “0x00”, the contents of “OS life and death monitoring” are uniquely assigned to this.

図5〜6(紙面の都合で2枚に分ける)は、図1に示したOS動作状態確認装置10が行う、OS200の動作状態の監視の動作について示すフローチャートである。OS動作状態確認装置10の主演算制御手段11では、確認対象装置死活検出部101が予め定められた所定の間隔で、ネットワーク30を介して死活検出部201との間で定期的に通信を行っている。この通信に対する返信が所定の時間内に戻ってこない場合に、通信が途切れたと判断して、OEMイベント送信部102に制御を渡して(ステップS301)以後の動作を開始させる。   5 to 6 (divided into two for convenience of paper) are flowcharts illustrating the operation of monitoring the operation state of the OS 200 performed by the OS operation state confirmation device 10 illustrated in FIG. In the main calculation control unit 11 of the OS operation state confirmation device 10, the confirmation target device alive detection unit 101 periodically communicates with the alive detection unit 201 via the network 30 at a predetermined interval. ing. If the reply to this communication does not return within a predetermined time, it is determined that the communication has been interrupted, and control is passed to the OEM event transmitting unit 102 (step S301) to start the subsequent operations.

OEMイベント送信部102は、管理用ネットワーク31を介してBMC24に対してIPMIコマンド「Arm PEF Postpone Timer」を発行し、即ちSEL210にイベントを書き込まれてもすぐにこれをPET(Platform Event Trap)として返信せず、所定の遅延時間だけその返信の動作を待ち合わせるようBMC24に設定させる(ステップS302)。   The OEM event transmission unit 102 issues an IPMI command “Arm PEF Postpone Timer” to the BMC 24 via the management network 31, that is, immediately after an event is written to the SEL 210, this is converted into PET (Platform Event Trap). The BMC 24 is set to wait for a reply operation for a predetermined delay time without replying (step S302).

その後すぐにOEMイベント送信部102は、管理用ネットワーク31を介してBMC24に対してIPMIコマンド「Platform Event Message」を発行し、BMC24にSEL210へ新規のOEMイベントを書き込ませる(ステップS303)。   Immediately thereafter, the OEM event transmission unit 102 issues an IPMI command “Platform Event Message” to the BMC 24 via the management network 31, and causes the BMC 24 to write a new OEM event to the SEL 210 (step S303).

図7は、図1に示した確認対象装置20側でOS200上で動作する死活検出部201が、図5〜6に示したOS動作状態確認装置10の動作に対応して行う動作について示すフローチャートである。この動作は、予め設定された間隔で定期的に実行される。   FIG. 7 is a flowchart illustrating an operation performed by the life / death detection unit 201 operating on the OS 200 on the side of the verification target device 20 illustrated in FIG. 1 corresponding to the operation of the OS operation state confirmation device 10 illustrated in FIGS. It is. This operation is periodically executed at preset intervals.

確認対象装置20のOS200上で動作する死活検出部201では、IPMI命令機能201aがあらかじめ設定された動作間隔が経過したら(ステップS351)IPMIドライバ202を利用して定期的にSEL210を読み出し、新しく発生したイベントが記録されているか否かを常に確認する(ステップS352)。   In the life and death detection unit 201 operating on the OS 200 of the confirmation target device 20, when the IPMI command function 201a has passed a preset operation interval (step S351), the SEL 210 is periodically read using the IPMI driver 202, and a new occurrence occurs. It is always checked whether or not the event has been recorded (step S352).

ステップS352の処理は、より具体的には、IPMIコマンド「Get Last Processed Event ID」を発行してIPMIドライバ202で最後に処理されたイベントIDを取得し、このイベントIDより新しいイベントをSEL210からIPMIコマンド「Get SEL Entry」を発行することによって取得することで、SEL210上の新しく発生したイベントの有無を確認することができる。   More specifically, in step S352, an IPMI command “Get Last Processed Event ID” is issued to obtain the event ID last processed by the IPMI driver 202, and an event newer than this event ID is sent from the SEL 210 to the IPMI. By acquiring it by issuing the command “Get SEL Entry”, it is possible to confirm the presence or absence of a newly generated event on the SEL 210.

SEL210に新しく発生したイベントが記録されている場合には(ステップS352:YES)、IPMI命令機能201aがそのイベントの処理済み情報210aを「処理済み」に変更する(ステップS353)。より具体的にはIPMIコマンド「Set Last Processed Event ID」によって、そのイベントの処理済み情報210aを変更することができる。これと同時に、管理通信機能201bがOS動作状態確認装置10に対して自身が動作していることを伝えるための通信(第1の死活検出情報)を行う(ステップS354)。   If a newly generated event is recorded in the SEL 210 (step S352: YES), the IPMI command function 201a changes the processed information 210a of the event to “processed” (step S353). More specifically, the processed information 210a of the event can be changed by the IPMI command “Set Last Processed Event ID”. At the same time, the management communication function 201b performs communication (first life / death detection information) for notifying the OS operation state confirmation device 10 that it is operating (step S354).

図8は、図1に示した確認対象装置20側でOS200とは関係なく動作するBMC24が、図5〜6に示したOS動作状態確認装置10の動作に対応して行う動作について示すフローチャートである。BMC24のIPMIコマンド通信機能241は、図5のステップS302でOEMイベント送信部102から受信したIPMIコマンド「Arm PEF Postpone Timer」に反応して、このコマンドで設定された遅延時間だけ動作を待ち合わせる(ステップS401)。   FIG. 8 is a flowchart showing an operation performed by the BMC 24 operating on the confirmation target device 20 side shown in FIG. 1 in correspondence with the operation of the OS operation state confirmation device 10 shown in FIGS. is there. The IPMI command communication function 241 of the BMC 24 waits for an operation for the delay time set by this command in response to the IPMI command “Arm PEF Postpone Timer” received from the OEM event transmission unit 102 in step S302 of FIG. 5 (step S302). S401).

そしてBMC24のSELアクセス機能242は、図5のステップS303でOEMイベント送信部102から受信したIPMIコマンド「Platform Event Message」に反応してOEMイベントを書き込み(ステップS402)、ステップS401で設定した遅延時間が経過したらSEL210にアクセスしてその内容を読み、これをIPMIコマンド通信機能241に伝達する(ステップS403)。   The SEL access function 242 of the BMC 24 writes an OEM event in response to the IPMI command “Platform Event Message” received from the OEM event transmission unit 102 in step S303 in FIG. 5 (step S402), and the delay time set in step S401. When lapsed, the SEL 210 is accessed to read the content, and this is transmitted to the IPMI command communication function 241 (step S403).

IPMIコマンド通信機能241は、ステップS402でSEL210に書き込んだOEMイベントが「処理済み」であるか否か、即ち処理済み情報210aとして記録されたレコードID(Record ID)の値よりもSEL210に記録されている最新のレコードのレコードIDが大きいか否かを判断し(ステップS404)、「未処理」であればこれをPET(第2の死活検出情報)としてOS動作状態確認装置10に返信する(ステップS405)。「処理済み」であればそのまま処理を終了する。   The IPMI command communication function 241 records in the SEL 210 whether or not the OEM event written in the SEL 210 in step S402 is “processed”, that is, the value of the record ID (Record ID) recorded as the processed information 210a. It is determined whether or not the record ID of the latest record is large (step S404), and if it is “unprocessed”, this is returned to the OS operation state confirmation apparatus 10 as PET (second life / death detection information) ( Step S405). If it has been “processed”, the process ends.

以上で述べた図7および図8の動作は、同一の確認対象装置20内ではあるが、動作主体が異なる(図7は主演算制御手段21、図8はBMC24のマイクロプロセッサ24a)ので、互いに干渉することなく並行して実行される。   Although the operations in FIGS. 7 and 8 described above are performed in the same device 20 to be confirmed, the operation subjects are different (FIG. 7 is the main arithmetic control unit 21 and FIG. 8 is the microprocessor 24a of the BMC 24). Run in parallel without interference.

即ち、主演算制御手段21上のOS200が、ハングアップの発生もしくは高い処理負荷がかかったことが原因で、図5のステップS302および図8のステップS401で設定された遅延時間内に図7のステップS353の動作ができなかった場合には、ステップS402でSEL210に記録されたOEMイベントがBMC24からPET(図8のステップS405、請求項でいう「第2の死活検出情報」)としてOS動作状態確認装置10に返されることになる。   That is, because the OS 200 on the main arithmetic control means 21 is hung up or a high processing load is applied, the delay time set in step S302 of FIG. 5 and step S401 of FIG. If the operation in step S353 could not be performed, the OEM event recorded in the SEL 210 in step S402 from the BMC 24 as PET (step S405 in FIG. 8, “second life and death detection information” in the claims) OS operating state It will be returned to the confirmation device 10.

逆に、OS200が正常に動作していれば、図5のステップS302および図8のステップS401で設定された遅延時間内に図7のステップS353の動作が行われ、死活検出部201の管理通信機能201bによる通信(図7のステップS354、請求項でいう「第1の死活検出情報」)がOS動作状態確認装置10に返されることになる。   Conversely, if the OS 200 is operating normally, the operation in step S353 in FIG. 7 is performed within the delay time set in step S302 in FIG. 5 and step S401 in FIG. The communication by the function 201b (step S354 in FIG. 7, “first life / death detection information” in the claims) is returned to the OS operation state confirmation device 10.

図5〜6に戻って、OS動作状態確認装置10では死活検出情報判定部104が、ステップS303でBMC24を介してSEL210に書き込ませたOEMイベントが確認対象装置20から(図8のステップS405の)PETとして返却されているか否かを確認する(ステップS304)。返却されている場合(ステップS304:YES)、OS200は停止しているか、もしくは過負荷状態であることになる。そこで死活検出情報判定部104は、確認対象装置20のOS200に対して(ネットワーク30を介して)ピング(Ping)を発行するようピング送信部103に指示する(ステップS305)。   Returning to FIGS. 5 to 6, in the OS operation state confirmation device 10, the life and death detection information determination unit 104 receives the OEM event written in the SEL 210 via the BMC 24 in step S <b> 303 from the confirmation target device 20 (in step S <b> 405 in FIG. 8). It is confirmed whether it is returned as PET (step S304). If it is returned (step S304: YES), the OS 200 is stopped or overloaded. Therefore, the life / death detection information determination unit 104 instructs the ping transmission unit 103 to issue a ping (via the network 30) to the OS 200 of the confirmation target device 20 (step S305).

ステップS305のピングに対してOS200からの応答があれば(ステップS305:YES)、OS200は動作中で、そこで動作しているプロセスが過負荷状態のため反応できないものであると不具合原因判断部105は判断することができる(ステップS311)。ステップS305のピングに対してOS200からの応答がなければ(ステップS305:NO)、OS200がハングアップしているか、もしくは非常に重大な過負荷状態であると不具合原因判断部105は判断することができる(ステップS312)。   If there is a response from the OS 200 in response to the ping of step S305 (step S305: YES), the OS 200 is operating, and the malfunction cause determination unit 105 indicates that the process operating there cannot respond due to an overload condition. Can be determined (step S311). If there is no response from the OS 200 to the ping of step S305 (step S305: NO), the failure cause determination unit 105 may determine that the OS 200 is hung up or is in a very serious overload state. Yes (step S312).

ステップS304で、ステップS303で書き込んだOEMイベントが確認対象装置20からPETとして返却されていない場合(ステップS304:NO)、死活検出部201がステップS352〜352の処理を正常に行えたので、OS200は動作していると判断することができる。そこで死活検出情報判定部104は、死活検出部201がSELを処理したときに発する、図7のステップS354の通信があったか否かを確認する(ステップS306)。   If the OEM event written in step S303 is not returned as PET from the verification target device 20 in step S304 (step S304: NO), the life / death detection unit 201 has successfully performed the processing in steps S352 to 352, so the OS 200 Can be determined to be operating. Therefore, the life / death detection information determination unit 104 checks whether or not there is communication in step S354 of FIG. 7 issued when the life / death detection unit 201 processes SEL (step S306).

ステップS306で、死活検出部201からの通信があったことを確認できれば(ステップS306:YES)、OS200は特に問題なく動作していて、通信が途切れた理由は間欠的なネットワーク障害などのような軽微な障害であると不具合原因判断部105は判断することができる(ステップS313)。   If it can be confirmed in step S306 that there is communication from the alive detection unit 201 (step S306: YES), the OS 200 is operating without any problem, and the reason for the interruption of communication is an intermittent network failure or the like. The failure cause determination unit 105 can determine that the failure is minor (step S313).

ステップS306で、死活検出部201からの通信を確認できなければ(ステップS306:NO)、恒久的なネットワーク障害、もしくはOS200の過負荷であった可能性がある。そこで死活検出情報判定部104はOS200に対して(ネットワーク30を介して)ピングを発行するようピング送信部103に指示し、これに対する応答の有無を確認する(ステップS307)。   If communication from the alive detection unit 201 cannot be confirmed in step S306 (step S306: NO), there may be a permanent network failure or an overload of the OS 200. Therefore, the life / death detection information determination unit 104 instructs the ping transmission unit 103 to issue a ping to the OS 200 (via the network 30), and checks whether there is a response to the ping transmission unit 103 (step S307).

ステップS307のピングに対してOS200からの応答があれば(ステップS307:YES)、OS200は動作していて、かつステップS306の死活検出部201からの通信がなかったことからOS200の過負荷であると不具合原因判断部105は判断できる(ステップS314)。また、同じくステップS307のピングに対してOS200からの応答がなければ(ステップS307:NO)、ネットワーク30の恒久的な障害が発生していると不具合原因判断部105は判断できる(ステップS315)。   If there is a response from the OS 200 in response to the ping in step S307 (step S307: YES), the OS 200 is operating and there is no communication from the life / death detection unit 201 in step S306, which is an overload of the OS 200. The failure cause determination unit 105 can determine (step S314). Similarly, if there is no response from the OS 200 to the ping in step S307 (step S307: NO), the failure cause determination unit 105 can determine that a permanent failure of the network 30 has occurred (step S315).

不具合原因判断部105は最後に、ステップS311〜315の判断結果を表示手段14に表示して、処理を終了する(ステップS316)。この判断結果の出力は、OS動作状態確認装置10および確認対象装置20のいずれとも異なる(管理担当者の操作する)他のコンピュータにネットワークを介して行うものでもよいし、コンピュータ以外の装置、たとえば管理担当者の操作するページャーや携帯電話などに対して出力するものとすることもできる。   Finally, the failure cause determination unit 105 displays the determination results of steps S311 to S315 on the display unit 14 and ends the process (step S316). The determination result may be output to another computer (operated by a manager) different from both the OS operation state confirmation device 10 and the confirmation target device 20 via a network, or a device other than the computer, for example, It can also be output to a pager or mobile phone operated by the manager.

(第1の実施形態の全体的な動作)
次に、上記の実施形態の全体的な動作について説明する。本実施形態に係るOS動作状態確認方法は、オペレーティングシステムを動作させる主演算制御手段21と、この主演算制御手段とは別個に動作して確認対象装置の動作情報を収集してOS動作状態確認装置に送信する副演算制御手段(BMC24)と、主演算制御手段および副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログ(SEL210)を記憶した記憶手段22とを備える確認対象装置20がOS動作状態確認装置10と相互に接続されることによって構成され、確認対象装置でのオペレーティングシステムの動作が正常であるか否かをOS動作状態確認装置の側から確認するOS動作状態確認システム1にあって、確認対象装置で主演算制御手段が正常に動作している間はイベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を確認対象装置の死活検出部が追記すると同時にOS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を死活検出部が送信し(図7・ステップS352〜354)、OS動作状態確認装置と確認対象装置との間の定期的な通信が途切れた場合に確認対象装置に不具合が生じたとOS動作状態確認装置の確認対象装置死活検出部が判断し(図5・ステップS301)、確認対象装置に不具合が生じたと判断された場合に確認対象装置の副演算制御手段に対してイベントログに新規イベントを付加する命令をOS動作状態確認装置のOEMイベント送信部が送信し(図5・ステップS302〜303)、OS動作状態確認装置からの命令に反応した確認対象装置の副演算制御手段がイベントログに新規イベントを付加し(図8・ステップS401〜402)、予め定められた遅延時間が経過した後で確認対象装置のイベントログに付加した新規イベントに対して処理済み情報が追記されているか否かを副演算制御手段が判断し(図8・ステップS403〜404)、確認対象装置のイベントログに処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報をOS動作状態確認装置に対して確認対象装置の副演算制御手段が送信し(図8・ステップS405)、OS動作状態確認装置が確認対象装置から第2の死活検出情報を受信した場合に死活検出情報判定部がピング送信部を介して確認対象装置にネットワーク疎通確認用のピング(Ping)を送信し(図5・ステップS304〜図6・ステップ305)、ピングに対する返信が確認対象装置から返って来た場合に確認対象装置のオペレーティングシステムが過負荷状態であると判断し(図6・ステップ311)、そうでない場合に確認対象装置のオペレーティングシステムがハングアップしているとOS動作状態確認装置の死活検出情報判定部が判断し(図6・ステップ312)、この判断結果をOS動作状態確認装置の死活検出情報判定部が外部に出力する(図6・ステップ316)。
(Overall operation of the first embodiment)
Next, the overall operation of the above embodiment will be described. The OS operation state confirmation method according to the present embodiment includes a main operation control unit 21 that operates the operating system, and operates separately from the main operation control unit, collects operation information of the confirmation target device, and confirms the OS operation state. Confirmation target comprising sub-operation control means (BMC 24) to be transmitted to the apparatus, and storage means 22 storing an event log (SEL 210) in which both the main operation control means and the sub-operation control means add each operation content as an event. The OS operation state is configured by connecting the device 20 to the OS operation state confirmation device 10 and confirming from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal. In the confirmation system 1, while the main arithmetic control means is operating normally in the confirmation target device, it is newly added to the event log. The life and death detection unit of the confirmation target device periodically adds the processed information of the event with respect to the event, and at the same time, the first life and death detection information that is the confirmation information of the operation state with respect to the OS operation state confirmation device. When the detection unit transmits a problem (steps S352 to 354 in FIG. 7) and the periodic communication between the OS operation state confirmation device and the confirmation target device is interrupted, a failure occurs in the confirmation target device. When the confirmation target device alive detection unit determines (step S301 in FIG. 5) and it is determined that a failure has occurred in the confirmation target device, a new event is added to the event log to the sub-operation control means of the confirmation target device. The OEM event transmission unit of the OS operation state confirmation device transmits the command (FIG. 5, steps S302 to 303), and the confirmation target that reacts to the command from the OS operation state confirmation device The sub-operation control unit of the device adds a new event to the event log (FIG. 8, steps S401 to 402), and the new event added to the event log of the confirmation target device after a predetermined delay time has elapsed. The sub-operation control means determines whether or not the processed information is added (steps S403 to 404 in FIG. 8), and this additional processing is performed when the processed information is not added to the event log of the confirmation target device. The sub-operation control means of the device to be confirmed transmits second life / death detection information indicating a state of not being sent to the OS operation state confirmation device (step S405 in FIG. 8). When the life / death detection information of 2 is received, the life / death detection information determination unit transmits a ping (Ping) for network communication confirmation to the confirmation target device via the ping transmission unit ( FIG. 5, step S304 to FIG. 6, step 305), when a reply to the ping is returned from the confirmation target device, it is determined that the operating system of the confirmation target device is overloaded (FIG. 6, step 311). Otherwise, if the operating system of the confirmation target device is hung up, the life / death detection information determination unit of the OS operation state confirmation device determines (step 312 in FIG. 6), and the result of the determination is the life / death of the OS operation state confirmation device. The detection information determination unit outputs to the outside (step 316 in FIG. 6).

ここで、上記各動作ステップについては、これをコンピュータで実行可能にプログラム化し、これらを前記各ステップを直接実行するコンピュータであるOS動作状態確認装置10および確認対象装置20に実行させるようにしてもよい。
この動作により、本実施形態は以下のような効果を奏する。
Here, each of the above operation steps is programmed to be executable by a computer, and these are executed by the OS operation state check device 10 and the check target device 20 which are computers that directly execute the steps. Good.
By this operation, this embodiment has the following effects.

本実施形態によれば、単に確認対象装置20の異常発生を検出するだけでなく、その異常がOS200に起因するものか、またネットワークの障害に起因するものかを判定できる。さらに、OS200に発生した異常が、単なる誤検出もしくは過負荷などのような一時的な現象であるか、あるいはハングアップなどのような重大な現象であるかを、ネットワークを介したOS動作状態確認装置の側で判定できる。   According to the present embodiment, it is possible not only to detect the occurrence of an abnormality in the confirmation target device 20, but also to determine whether the abnormality is caused by the OS 200 or a network failure. In addition, the OS operating state confirmation via the network can be performed to determine whether the abnormality occurring in the OS 200 is a temporary phenomenon such as a mere false detection or overload or a serious phenomenon such as a hang-up. Can be determined on the device side.

本実施形態は、主演算制御手段21(OS200)とは独立して動作するBMC24を利用しただけでなく、この両者から共通してアクセス可能なSEL210を、OS200とBMC24との間で動作状態を伝達するために利用している。これは前述の非特許文献1〜2にも記載されたBMCおよびIPMIなどの標準的な機能を利用するだけで実現可能であるので、本実施形態を導入することに伴うコスト増は少なく済む。   In the present embodiment, not only the BMC 24 that operates independently of the main arithmetic control means 21 (OS 200) is used, but also the SEL 210 that can be accessed in common by both of the operating states is changed between the OS 200 and the BMC 24. It is used to communicate. Since this can be realized only by using standard functions such as BMC and IPMI described in Non-Patent Documents 1 and 2 described above, an increase in cost associated with the introduction of this embodiment can be reduced.

(第2の実施形態)
本発明の第2の実施形態は、第1の実施形態の構成に加えて、不具合原因判断部605が、OEMイベント送信部102が副演算制御手段(BMC24)に対してイベントログ(SEL210)にイベントを書き込む命令を送信した後に該命令に対する副演算制御手段の応答が無い場合にBMCに障害が発生したと判断する。
(Second Embodiment)
In the second embodiment of the present invention, in addition to the configuration of the first embodiment, the failure cause determination unit 605 includes the OEM event transmission unit 102 in the event log (SEL 210) with respect to the sub-operation control means (BMC 24). If the sub-operation control means does not respond to the command after sending the command to write the event, it is determined that a failure has occurred in the BMC.

そして不具合原因判断部605が、第1のピングに対する返信が確認対象装置から返って来た場合にOEMイベント送信部102に副演算制御手段(BMC24)に対してイベントログに新規イベントを書き込む命令を送信する処理を繰り返させて同一の判断結果が出るか否かを判断し、同一の判断結果が出ればオペレーティングシステムのユーザーモードがハングアップしていると判断する。   Then, when the failure cause determination unit 605 returns a response to the first ping from the confirmation target device, the OEM event transmission unit 102 is instructed to write a new event in the event log to the sub-operation control unit (BMC 24). It is determined whether the same determination result is obtained by repeating the transmission process. If the same determination result is obtained, it is determined that the user mode of the operating system is hung up.

この構成によっても、第1の実施形態と同一の効果を得ることができることに加えて、さらに「BMCの異常」や「オペレーティングシステムのユーザーモードのみハングアップ」といった第1の実施形態では検出できなかった異常も検出できるようになり、これによってより詳細に確認対象装置20の動作状態を把握することが可能となる。
以下、これをより詳細に説明する。
Even with this configuration, in addition to obtaining the same effect as in the first embodiment, the first embodiment such as “abnormal BMC” or “hangs only in the user mode of the operating system” cannot be detected. Thus, it becomes possible to detect abnormalities, and this makes it possible to grasp the operating state of the confirmation target device 20 in more detail.
Hereinafter, this will be described in more detail.

図9は、本発明の第2の実施形態に係るOS動作状態確認システム501の構成について示す説明図である。OS動作状態確認システム501は、前述の第1の実施形態と比べて、OS動作状態確認装置10がOS動作状態確認装置510に置き換わっている。この点以外は第1の実施形態と同一である。即ち、確認対象装置20の構成および動作は第1の実施形態と同一である。   FIG. 9 is an explanatory diagram showing the configuration of the OS operation state confirmation system 501 according to the second embodiment of the present invention. In the OS operation state confirmation system 501, the OS operation state confirmation device 10 is replaced with an OS operation state confirmation device 510 as compared with the first embodiment described above. Except this point, the second embodiment is the same as the first embodiment. That is, the configuration and operation of the confirmation target device 20 are the same as those in the first embodiment.

図10は、図9に示したOS動作状態確認装置510のより詳しい構成について示す説明図である。OS動作状態確認装置510は、前述の第1の実施形態のOS動作状態確認装置10と、ハードウェア的には同一である。また、ソフトウェア的にも、不具合原因判断部105が、動作の一部が異なる不具合原因判断部605に置き換わっている以外は同一である。   FIG. 10 is an explanatory diagram showing a more detailed configuration of the OS operation state confirmation device 510 shown in FIG. The OS operation state confirmation device 510 is the same in hardware as the OS operation state confirmation device 10 of the first embodiment described above. The software is the same except that the failure cause determination unit 105 is replaced with a failure cause determination unit 605 having a part of the operation.

図11〜12は、図10に示したOS動作状態確認装置510が行う、OS200の監視の動作について示すフローチャートである。図11〜12に示す動作は、原則的には図5〜6に示した第1の実施形態の動作と同一であるので、第1の実施形態と同一の動作には図5〜6と同一の参照番号を付けて呼び、本明細書ではそれとの相違点のみを説明することとする。   11 to 12 are flowcharts illustrating the monitoring operation of the OS 200 performed by the OS operation state confirmation apparatus 510 illustrated in FIG. The operation shown in FIGS. 11 to 12 is basically the same as that of the first embodiment shown in FIGS. 5 to 6, and therefore the same operation as that of the first embodiment is the same as that of FIGS. In the present specification, only the differences will be described.

ステップS303でBMC24に対してIPMIコマンド「Platform Event Message」を発行した後、不具合原因判断部605がこれに対するBMC24からの反応の有無を判断する(ステップS701)。反応があればステップS304以後の処理に進み、反応がなければBMC24がハードウェア異常を起こしていると判断して(ステップS702)ステップS316に進む。   After issuing the IPMI command “Platform Event Message” to the BMC 24 in step S303, the failure cause determination unit 605 determines whether there is a response from the BMC 24 (step S701). If there is a response, the process proceeds to step S304 and subsequent steps. If there is no response, it is determined that the BMC 24 has caused a hardware abnormality (step S702), and the process proceeds to step S316.

また、ステップS311で「OS200が過負荷状態である」と判断された場合、単なる過負荷状態であればこれは一時的な現象であるので時間が経てば復旧する可能性がある。しかしながら、OS200がユーザーモードのみハングアップしているという可能性もあり、この場合は時間が経っても復旧しない。   If it is determined in step S311 that “OS 200 is in an overload state”, if it is just an overload state, this is a temporary phenomenon and may be recovered over time. However, there is a possibility that the OS 200 is hung only in the user mode. In this case, the OS 200 does not recover even after a long time.

そこで、その場合には不具合原因判断部605がOEMイベント送信部102にステップS302からの処理をくり返させて、その結果が同じ「OS200が過負荷状態である」という結果になるか否かを判断する(ステップS703〜704)。同じ結果にならなければ(ステップS704:NO)、1回目の判断結果は単なる一時的な現象だったと判断し、2回目に出た判断結果を採用して(ステップS705)ステップS316に進む。同じ結果になれば(ステップS704:YES)、OS200のユーザーモードがハングアップしていると判断して(ステップS706)ステップS316に進む。   Therefore, in this case, the failure cause determination unit 605 causes the OEM event transmission unit 102 to repeat the processing from step S302, and whether or not the result is the same “OS 200 is overloaded”. Judgment is made (steps S703 to 704). If the same result is not obtained (step S704: NO), it is determined that the first determination result is merely a temporary phenomenon, the second determination result is adopted (step S705), and the process proceeds to step S316. If the same result is obtained (step S704: YES), it is determined that the user mode of the OS 200 is hung up (step S706), and the process proceeds to step S316.

以上に説明した動作以外は、OS動作状態確認装置510の動作は図5〜6に示した第1の実施形態の動作と同一である。   Except for the operation described above, the operation of the OS operation state confirmation apparatus 510 is the same as that of the first embodiment shown in FIGS.

ここで説明した第2の実施形態によれば、第1の実施形態よりもさらに詳しく、OS200の動作状態をOS動作状態確認装置510の側で検出できる。とりわけ、第1の実施形態では検出できなかった「BMC24のハードウェア異常」や「OS200のユーザーモードのみハングアップ」といった異常の発生を検出できる。   According to the second embodiment described here, the operating state of the OS 200 can be detected on the OS operating state confirmation device 510 side in more detail than in the first embodiment. In particular, it is possible to detect the occurrence of an abnormality such as “hardware abnormality of BMC 24” or “hanging up only in the user mode of OS 200” that could not be detected in the first embodiment.

これまで本発明について図面に示した特定の実施形態をもって説明してきたが、本発明は図面に示した実施形態に限定されるものではなく、本発明の効果を奏する限り、これまで知られたいかなる構成であっても採用することができる。   The present invention has been described with reference to the specific embodiments shown in the drawings. However, the present invention is not limited to the embodiments shown in the drawings, and any known hitherto provided that the effects of the present invention are achieved. Even if it is a structure, it is employable.

上述した各々の実施形態について、その新規な技術内容の要点をまとめると、以下のようになる。なお、上記実施形態の一部または全部は、新規な技術として以下のようにまとめられるが、本発明は必ずしもこれに限定されるものではない。   About each embodiment mentioned above, it is as follows when the summary of the novel technical content is put together. In addition, although part or all of the said embodiment is summarized as follows as a novel technique, this invention is not necessarily limited to this.

(付記1) OS動作状態確認装置と確認対象装置とが相互に接続されることによって構成され、前記確認対象装置におけるオペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムであって、
前記確認対象装置が、
前記オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、前記主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時に前記OS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を送信する死活検出部とを備えると共に、
前記副演算制御手段が、前記OS動作状態確認装置からの命令に基づいて前記イベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに前記処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報を前記OS動作状態確認装置に対して送信するIPMIコマンド通信機能を備え、
前記OS動作状態確認装置が、
前記確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、前記確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部と、前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信するOEMイベント送信部とを備えると共に、
前記確認対象装置から前記第2の死活検出情報を受信した場合に前記ピング送信部に対して第1のピングの送信を指令する死活検出情報判定部と、
前記第1のピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記主演算制御手段が過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記主演算制御手段がハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部とを有することを特徴とするOS動作状態確認システム。
(Supplementary Note 1) The OS operation state confirmation device is configured by connecting the OS operation state confirmation device and the confirmation target device to each other, and determines whether the operation of the operating system in the confirmation target device is normal or not. An OS operation status confirmation system for confirming from
The confirmation target device is
A main arithmetic control means for operating the operating system, a sub arithmetic control means that operates separately from the main arithmetic control means, collects operation information of the confirmation target device, and transmits the operation information to the OS operation state confirmation device; Both the main arithmetic control means and the sub arithmetic control means store an event log for adding each operation content as an event, and during the normal operation of the main arithmetic control means in the event log A life / death detection unit that periodically adds processed information of the event to a newly added event and simultaneously transmits first life / death detection information that is confirmation information of the operation state to the OS operation state confirmation device. And with
The sub-operation control means adds a new event to the event log based on a command from the OS operating state confirmation device, and adds the processed information to the new event after a predetermined delay time has elapsed. IPMI command for determining whether or not the processed information has been added and transmitting second life / death detection information indicating a state in which the additional processing has not been performed to the OS operation state confirmation device It has a communication function,
The OS operation state confirmation device is
A communication target is periodically communicated with the confirmation target device, and when the periodic communication is interrupted, a confirmation target device alive detection unit that determines that a failure has occurred in the confirmation target device, and network communication with the confirmation target device A ping transmission unit that transmits a ping for confirmation (Ping), and when it is determined that a problem has occurred in the device to be confirmed, the new event is added to the event log to the sub-operation control unit of the device to be confirmed An OEM event transmission unit that transmits an instruction to be added,
A life / death detection information determination unit that instructs the ping transmission unit to transmit the first ping when the second life / death detection information is received from the confirmation target device;
When a reply to the first ping is returned from the confirmation target device, the main calculation control unit of the confirmation target device determines that the main calculation control unit is in an overload state. An OS operation state confirmation system comprising: a failure cause determination unit that determines that the arithmetic control means is hung up and outputs the determination result to the outside.

(付記2) 前記不具合原因判断部が、前記確認対象装置から前記第2の死活検出情報を受信せずかつ前記第1の死活検出情報を受信した場合に前記確認対象装置の前記主演算制御手段の動作に特に問題はないと判断することを特徴とする、付記1に記載のOS動作状態確認システム。 (Supplementary Note 2) When the failure cause determination unit does not receive the second life / death detection information from the confirmation target device and receives the first life / death detection information, the main calculation control unit of the confirmation target device The OS operation state confirmation system according to appendix 1, wherein it is determined that there is no particular problem in the operation of the OS.

(付記3) 前記死活検出情報判定部が、前記確認対象装置から前記第1および第2の死活検出情報をいずれも受信しない場合に前記ピング送信部に対して第2のピングの送信を指令し、
前記不具合原因判断部が、前記第2のピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記主演算制御手段が過負荷状態であると判断し、そうでない場合に前記確認対象装置との間のネットワークに恒久的な障害が発生したと判断することを特徴とする、付記2に記載のOS動作状態確認システム。
(Additional remark 3) When the said life / death detection information determination part receives neither the said 1st and 2nd life / death detection information from the said confirmation object apparatus, it commands the said ping transmission part to transmit the 2nd ping. ,
The failure cause determination unit determines that the main calculation control unit of the confirmation target device is in an overload state when a reply to the second ping is returned from the confirmation target device; otherwise, The OS operation state confirmation system according to appendix 2, wherein it is determined that a permanent failure has occurred in the network with the device to be confirmed.

(付記4) 前記不具合原因判断部が、前記OEMイベント送信部が前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信した後に該命令に対する前記副演算制御手段からの応答が無い場合にこの副演算制御手段に障害が発生したと判断することを特徴とする、付記1に記載のOS動作状態確認システム。 (Additional remark 4) After the said failure cause judgment part transmits the command which adds the said new event to the said event log from the said OEM event transmission part with respect to the said sub operation control means, from the said sub operation control means with respect to this command The OS operation state confirmation system according to appendix 1, wherein it is determined that a failure has occurred in the sub-operation control means when there is no response.

(付記5) 前記不具合原因判断部が、前記第1のピングに対する返信が前記確認対象装置から返って来た場合に前記OEMイベント送信部に前記副演算制御手段に対して前記イベントログに前記新規イベントを書き込む命令を送信する処理を繰り返させて同一の判断結果が出るか否かを判断し、同一の判断結果が出れば前記主演算制御手段のユーザーモードがハングアップしていると判断することを特徴とする、付記1に記載のOS動作状態確認システム。 (Supplementary Note 5) When the failure cause determination unit returns a reply to the first ping from the confirmation target device, the OEM event transmission unit sends the new event log to the sub-operation control unit. It is determined whether or not the same determination result is obtained by repeating the process of transmitting the command to write the event, and if the same determination result is obtained, it is determined that the user mode of the main arithmetic control means is hung up. The OS operation state confirmation system according to appendix 1, characterized by:

(付記6) 前記OS動作状態確認装置と前記確認対象装置の前記主演算制御手段との間が第1のネットワークによって接続され、
前記OS動作状態確認装置と前記確認対象装置の前記副演算制御手段との間が前記第1のネットワークとは異なる系統である第2のネットワークによって接続されていることを特徴とする、付記1に記載のOS動作状態確認システム。
(Additional remark 6) Between the said OS operation state confirmation apparatus and the said main calculation control means of the said confirmation object apparatus is connected by the 1st network,
Appendix 1 is characterized in that the OS operation state confirmation device and the sub-operation control means of the device to be confirmed are connected by a second network which is a system different from the first network. The OS operating state confirmation system described.

(付記7) OS動作状態確認装置と相互に接続されることによって、オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムを構成する確認対象装置であって、
前記オペレーティングシステムを動作させる主演算制御手段と、
この主演算制御手段とは別個に動作して自らの動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、
前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、
前記主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時に前記OS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を送信する死活検出部とを備えると共に、
前記副演算制御手段が、前記OS動作状態確認装置からの命令に基づいて前記イベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに前記処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報を前記OS動作状態確認装置に対して送信するIPMIコマンド通信機能を備えることを特徴とする確認対象装置。
(Supplementary Note 7) Confirmation that constitutes an OS operation state confirmation system for confirming whether or not the operation of the operating system is normal from the side of the OS operation state confirmation device by being mutually connected to the OS operation state confirmation device A target device,
Main arithmetic control means for operating the operating system;
Sub-operation control means that operates separately from the main operation control means, collects its own operation information, and transmits it to the OS operation state confirmation device;
Storage means for storing an event log in which both the main operation control means and the sub operation control means add each operation content as an event,
While the main arithmetic control means is operating normally, the event processing information is periodically added to the newly added event in the event log, and at the same time, the operation is performed on the OS operation status check device. A life and death detection unit that transmits first life and death detection information that is state confirmation information;
The sub-operation control means adds a new event to the event log based on a command from the OS operating state confirmation device, and adds the processed information to the new event after a predetermined delay time has elapsed. IPMI command for determining whether or not the processed information has been added and transmitting second life / death detection information indicating a state in which the additional processing has not been performed to the OS operation state confirmation device A confirmation target device having a communication function.

(付記8) オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らのハードウェアの動作についての情報を収集して外部装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方の動作内容を記録するイベントログを記憶した記憶手段とを備える確認対象装置と相互に接続されることによって、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを確認するOS動作状態確認システムを構成するOS動作状態確認装置であって、
前記確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、
前記確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部と、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信するOEMイベント送信部とを備えると共に、
前記確認対象装置から前記イベントログに書き込んだ前記新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が書き込まれていないことを意味する死活検出情報を受信した場合に前記ピング送信部に対してピングの送信を指令する死活検出情報判定部と、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部を有することを特徴とするOS動作状態確認装置。
(Supplementary Note 8) Main calculation control means for operating the operating system, and sub calculation control means that operates separately from the main calculation control means, collects information about the operation of its own hardware, and transmits it to an external device And a storage unit storing an event log that records the operation contents of both the main operation control unit and the sub-operation control unit, and is connected to the confirmation target device, thereby the operating in the confirmation target device An OS operation state confirmation device constituting an OS operation state confirmation system for confirming whether or not system operation is normal,
A confirmation target device alive detection unit that periodically communicates with the confirmation target device and determines that a failure has occurred in the confirmation target device when the periodic communication is interrupted,
A ping transmission unit that transmits ping for network communication confirmation to the confirmation target device;
An OEM event transmission unit that transmits an instruction to add the new event to the event log to the sub-operation control unit of the confirmation target device when it is determined that a failure has occurred in the confirmation target device;
The ping is received when life / death detection information indicating that processed information has not been written even after a predetermined delay time has elapsed for the new event written to the event log from the confirmation target device. A life / death detection information determination unit that instructs the transmission unit to transmit pings;
When the reply to the ping is returned from the device to be confirmed, it is determined that the operating system of the device to be confirmed is overloaded, and otherwise, the operating system of the device to be confirmed hangs up. And an OS operation state confirmation device characterized by having a failure cause determination unit that outputs the determination result to the outside.

(付記9) オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムにあって、
前記確認対象装置で主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を前記確認対象装置の死活検出部が追記すると同時に前記OS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を前記死活検出部が送信し、
前記OS動作状態確認装置と前記確認対象装置との間の定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと前記OS動作状態確認装置の前記確認対象装置死活検出部が判断し、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに新規イベントを付加する命令を前記OS動作状態確認装置のOEMイベント送信部が送信し、
前記OS動作状態確認装置からの前記命令に反応した前記確認対象装置の前記副演算制御手段が前記イベントログに前記新規イベントを付加し、
予め定められた遅延時間が経過した後で前記確認対象装置の前記イベントログに付加した前記新規イベントに対して前記処理済み情報が追記されているか否かを前記副演算制御手段が判断し、
前記確認対象装置の前記イベントログに前記処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報を前記OS動作状態確認装置に対して前記確認対象装置の前記副演算制御手段が送信し、
前記OS動作状態確認装置が前記確認対象装置から前記第2の死活検出情報を受信した場合に死活検出情報判定部がピング送信部を介して前記確認対象装置にネットワーク疎通確認用のピング(Ping)を送信し、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると前記OS動作状態確認装置の死活検出情報判定部が判断し、
この判断結果を前記OS動作状態確認装置の前記死活検出情報判定部が外部に出力することを特徴とするOS動作状態確認方法。
(Supplementary Note 9) Main arithmetic control means for operating the operating system, and sub arithmetic control that operates separately from the main arithmetic control means, collects the operation information of the confirmation target device, and transmits it to the OS operation state confirmation device A device to be confirmed, and a storage unit storing an event log in which both the main operation control unit and the sub operation control unit add each operation content as an event are interconnected with the OS operation state confirmation device An OS operation state confirmation system for confirming from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal,
While the main arithmetic control means is operating normally in the confirmation target device, the life / death detection unit of the confirmation target device periodically adds processed information of the event to the event newly added to the event log. At the same time, the life and death detection unit transmits first life and death detection information which is confirmation information of the operation state to the OS operation state confirmation device,
When the periodic communication between the OS operation state confirmation device and the confirmation target device is interrupted, the confirmation target device alive detection unit of the OS operation state confirmation device determines that a failure has occurred in the confirmation target device. ,
When it is determined that a failure has occurred in the confirmation target device, the OEM event transmission unit of the OS operation state confirmation device gives a command to add a new event to the event log to the sub-operation control unit of the confirmation target device. Send
The sub-operation control means of the device to be confirmed that has responded to the command from the OS operation state confirmation device adds the new event to the event log,
The sub-operation control means determines whether or not the processed information is added to the new event added to the event log of the confirmation target device after a predetermined delay time has elapsed,
When the processed information is not added to the event log of the confirmation target device, second life / death detection information indicating a state where the additional processing is not performed is sent to the OS operation state confirmation device. The sub-operation control means of
When the OS operating state confirmation device receives the second life / death detection information from the confirmation target device, the life / death detection information determination unit pings the network communication confirmation to the confirmation target device via a ping transmission unit. Send
When the reply to the ping is returned from the device to be confirmed, it is determined that the operating system of the device to be confirmed is overloaded, and otherwise, the operating system of the device to be confirmed hangs up. The life and death detection information determination unit of the OS operation state confirmation device determines that,
The OS operation state confirmation method, wherein the life / death detection information determination unit of the OS operation state confirmation device outputs the determination result to the outside.

(付記10) オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムにあって、
前記OS動作状態確認装置が備えるコンピュータに、
前記OS動作状態確認装置と前記確認対象装置との間の定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する手順、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに新規イベントを付加する命令を送信する手順、
前記確認対象装置から前記イベントログに付加した前記新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が追記されていないことを意味する死活検出情報を受信した場合に前記確認対象装置にネットワーク疎通確認用のピング(Ping)を送信する手順、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると判断する手順、
およびこの判断結果を外部に出力する手順を、
実行させることを特徴とするOS動作状態確認プログラム。
(Supplementary Note 10) Main arithmetic control means for operating the operating system, and sub arithmetic control that operates separately from the main arithmetic control means, collects operation information of the confirmation target device, and transmits it to the OS operation state confirmation device A device to be confirmed, and a storage unit storing an event log in which both the main operation control unit and the sub operation control unit add each operation content as an event are interconnected with the OS operation state confirmation device An OS operation state confirmation system for confirming from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal,
In the computer provided in the OS operation state confirmation device,
A procedure for determining that a failure has occurred in the confirmation target device when periodic communication between the OS operation state confirmation device and the confirmation target device is interrupted;
A procedure for transmitting a command to add a new event to the event log to the sub-operation control means of the confirmation target device when it is determined that a problem has occurred in the confirmation target device;
The confirmation is made when the life / death detection information indicating that the processed information is not added even after a predetermined delay time has elapsed for the new event added to the event log from the confirmation target device. A procedure for sending a ping for network communication confirmation to the target device,
When the reply to the ping is returned from the device to be confirmed, it is determined that the operating system of the device to be confirmed is overloaded, and otherwise, the operating system of the device to be confirmed hangs up. Procedures to determine that
And the procedure for outputting this judgment result to the outside.
An OS operating state confirmation program that is executed.

(付記11) オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムにあって、
前記確認対象装置の主演算制御手段に、
前記確認対象装置で前記オペレーティングシステムが動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記する手順、
およびこれと同時に前記OS動作状態確認装置に対して当該動作状態の確認情報である死活検出情報を送信する手順、
を実行させることを特徴とするOS動作状態確認プログラム。
(Supplementary Note 11) Main arithmetic control means for operating the operating system, and sub arithmetic control that operates separately from the main arithmetic control means, collects operation information of the confirmation target device, and transmits it to the OS operation state confirmation device A device to be confirmed, and a storage unit storing an event log in which both the main operation control unit and the sub operation control unit add each operation content as an event are interconnected with the OS operation state confirmation device An OS operation state confirmation system for confirming from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal,
In the main calculation control means of the confirmation target device,
A procedure for periodically adding processed information of an event to the event log newly added to the event log while the operating system is operating on the confirmation target device;
And a procedure for transmitting life / death detection information which is confirmation information of the operation state to the OS operation state confirmation device at the same time,
An OS operating state confirmation program characterized in that

(付記12) オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムにあって、
前記副演算制御手段に、
前記OS動作状態確認装置からの命令に反応して予め定められた遅延時間を設定する手順、
前記イベントログに新規イベントを書き込む手順、
前記遅延時間が経過した後で前記確認対象装置の前記イベントログに書き込んだ前記新規イベントに対して前記処理済み情報が追記されているか否かを判断する手順、
および前記イベントログに前記処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す死活検出情報を前記OS動作状態確認装置に対して送信する手順、
を実行させることを特徴とするOS動作状態確認プログラム。
(Supplementary Note 12) Main arithmetic control means for operating the operating system, and sub arithmetic control that operates separately from the main arithmetic control means, collects operation information of the confirmation target device, and transmits it to the OS operation state confirmation device A device to be confirmed, and a storage unit storing an event log in which both the main operation control unit and the sub operation control unit add each operation content as an event are interconnected with the OS operation state confirmation device An OS operation state confirmation system for confirming from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal,
In the sub-operation control means,
A procedure for setting a predetermined delay time in response to a command from the OS operation state confirmation device;
A procedure for writing a new event to the event log;
A procedure for determining whether or not the processed information is added to the new event written to the event log of the confirmation target device after the delay time has elapsed;
And a procedure for transmitting life / death detection information indicating a state in which this additional processing is not performed when the processed information is not additionally recorded in the event log to the OS operation state confirmation device,
An OS operating state confirmation program characterized in that

遠隔地からネットワークを介してコンピュータの動作状態を把握する必要のある用途に対して幅広く適用できる。   It can be widely applied to applications that need to grasp the operating state of a computer from a remote location via a network.

1、501 OS動作状態確認システム
10、510 OS動作状態確認装置
11、21 主演算制御手段
12、22、24b 記憶手段
13a、13b、23a、23b 通信手段
14 表示手段
20、20a、20b、20c 確認対象装置
24 BMC(Baseboard Management Controller)
24a マイクロプロセッサ
30 ネットワーク
31 管理用ネットワーク
101 確認対象装置死活検出部
102 OEMイベント送信部
103 ピング送信部
104 死活検出情報判定部
105、605 不具合原因判断部
200 OS
201 死活検出部
201a IPMI命令機能
201b 管理通信機能
202 IPMIドライバ
210 SEL(System Event Log)
210a 処理済み情報
241 IPMIコマンド通信機能
242 SELアクセス機能
DESCRIPTION OF SYMBOLS 1,501 OS operation state confirmation system 10,510 OS operation state confirmation apparatus 11,21 Main arithmetic control means 12,22,24b Storage means 13a, 13b, 23a, 23b Communication means 14 Display means 20, 20a, 20b, 20c Confirmation Target device 24 BMC (Baseboard Management Controller)
24a Microprocessor 30 Network 31 Management network 101 Confirmation target device alive detection unit 102 OEM event transmission unit 103 Ping transmission unit 104 Life / death detection information determination unit 105, 605 Failure cause determination unit 200 OS
201 Life and death detection unit 201a IPMI command function 201b Management communication function 202 IPMI driver 210 SEL (System Event Log)
210a Processed information 241 IPMI command communication function 242 SEL access function

Claims (9)

OS動作状態確認装置と確認対象装置とが相互に接続されることによって構成され、前記確認対象装置におけるオペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムであって、
前記確認対象装置が、
前記オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、前記主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時に前記OS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を送信する死活検出部とを備えると共に、
前記副演算制御手段が、前記OS動作状態確認装置からの命令に基づいて前記イベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに前記処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報を前記OS動作状態確認装置に対して送信するIPMIコマンド通信機能を備え、
前記OS動作状態確認装置が、
前記確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、前記確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部と、前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信するOEMイベント送信部とを備えると共に、
前記確認対象装置から前記第2の死活検出情報を受信した場合に前記ピング送信部に対して第1のピングの送信を指令する死活検出情報判定部と、
前記第1のピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記主演算制御手段が過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記主演算制御手段がハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部とを有することを特徴とするOS動作状態確認システム。
An OS configured by connecting an OS operation state confirmation device and a confirmation target device to each other, and confirming from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal An operating state confirmation system,
The confirmation target device is
A main arithmetic control means for operating the operating system, a sub arithmetic control means that operates separately from the main arithmetic control means, collects operation information of the confirmation target device, and transmits the operation information to the OS operation state confirmation device; Both the main arithmetic control means and the sub arithmetic control means store an event log for adding each operation content as an event, and during the normal operation of the main arithmetic control means in the event log A life / death detection unit that periodically adds processed information of the event to a newly added event and simultaneously transmits first life / death detection information that is confirmation information of the operation state to the OS operation state confirmation device. And with
The sub-operation control means adds a new event to the event log based on a command from the OS operating state confirmation device, and adds the processed information to the new event after a predetermined delay time has elapsed. IPMI command for determining whether or not the processed information has been added and transmitting second life / death detection information indicating a state in which the additional processing has not been performed to the OS operation state confirmation device It has a communication function,
The OS operation state confirmation device is
A communication target is periodically communicated with the confirmation target device, and when the periodic communication is interrupted, a confirmation target device alive detection unit that determines that a failure has occurred in the confirmation target device, and network communication with the confirmation target device A ping transmission unit that transmits a ping for confirmation (Ping), and when it is determined that a problem has occurred in the device to be confirmed, the new event is added to the event log to the sub-operation control unit of the device to be confirmed An OEM event transmission unit that transmits an instruction to be added,
A life / death detection information determination unit that instructs the ping transmission unit to transmit the first ping when the second life / death detection information is received from the confirmation target device;
When a reply to the first ping is returned from the confirmation target device, the main calculation control unit of the confirmation target device determines that the main calculation control unit is in an overload state. An OS operation state confirmation system comprising: a failure cause determination unit that determines that the arithmetic control means is hung up and outputs the determination result to the outside.
前記不具合原因判断部が、前記確認対象装置から前記第2の死活検出情報を受信せずかつ前記第1の死活検出情報を受信した場合に前記確認対象装置の前記主演算制御手段の動作に特に問題はないと判断することを特徴とする、請求項1に記載のOS動作状態確認システム。   When the failure cause determination unit does not receive the second life / death detection information from the confirmation target device and receives the first life / death detection information, the operation of the main arithmetic control unit of the confirmation target device 2. The OS operation state confirmation system according to claim 1, wherein it is determined that there is no problem. 前記死活検出情報判定部が、前記確認対象装置から前記第1および第2の死活検出情報をいずれも受信しない場合に前記ピング送信部に対して第2のピングの送信を指令し、
前記不具合原因判断部が、前記第2のピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記主演算制御手段が過負荷状態であると判断し、そうでない場合に前記確認対象装置との間のネットワークに恒久的な障害が発生したと判断することを特徴とする、請求項2に記載のOS動作状態確認システム。
The life / death detection information determination unit instructs the ping transmission unit to transmit a second ping when the first and second life / death detection information is not received from the confirmation target device,
The failure cause determination unit determines that the main calculation control unit of the confirmation target device is in an overload state when a reply to the second ping is returned from the confirmation target device; otherwise, The OS operating state confirmation system according to claim 2, wherein it is determined that a permanent failure has occurred in a network with the device to be confirmed.
前記不具合原因判断部が、前記OEMイベント送信部が前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信した後に該命令に対する前記副演算制御手段からの応答が無い場合にこの副演算制御手段に障害が発生したと判断することを特徴とする、請求項1に記載のOS動作状態確認システム。   When there is no response from the sub-operation control means to the instruction after the cause-of-failure determination section transmits an instruction for adding the new event to the event log to the sub-operation control means by the OEM event transmission section 2. The OS operation state confirmation system according to claim 1, wherein it is determined that a failure has occurred in the sub-operation control means. 前記不具合原因判断部が、前記第1のピングに対する返信が前記確認対象装置から返って来た場合に前記OEMイベント送信部に前記副演算制御手段に対して前記イベントログに前記新規イベントを書き込む命令を送信する処理を繰り返させて同一の判断結果が出るか否かを判断し、同一の判断結果が出れば前記主演算制御手段のユーザーモードがハングアップしていると判断することを特徴とする、請求項1に記載のOS動作状態確認システム。   A command for the failure cause determination unit to write the new event in the event log to the sub-operation control unit in the OEM event transmission unit when a reply to the first ping is returned from the confirmation target device It is determined whether or not the same determination result is obtained by repeating the process of transmitting, and if the same determination result is obtained, it is determined that the user mode of the main arithmetic control means is hung up. The OS operation state confirmation system according to claim 1. OS動作状態確認装置と相互に接続されることによって、オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムを構成する確認対象装置であって、
前記オペレーティングシステムを動作させる主演算制御手段と、
この主演算制御手段とは別個に動作して自らの動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、
前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段と、
前記主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を追記すると同時に前記OS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を送信する死活検出部とを備えると共に、
前記副演算制御手段が、前記OS動作状態確認装置からの命令に基づいて前記イベントログに新規イベントを付加すると共に予め定められた遅延時間が経過した後でこの新規イベントに前記処理済み情報が追記されているか否かを判断し、該処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報を前記OS動作状態確認装置に対して送信するIPMIコマンド通信機能を備えることを特徴とする確認対象装置。
It is a device to be confirmed that constitutes an OS operation state confirmation system for confirming whether the operation of the operating system is normal or not from the side of the OS operation state confirmation device by being interconnected with the OS operation state confirmation device. And
Main arithmetic control means for operating the operating system;
Sub-operation control means that operates separately from the main operation control means, collects its own operation information, and transmits it to the OS operation state confirmation device;
Storage means for storing an event log in which both the main operation control means and the sub operation control means add each operation content as an event,
While the main arithmetic control means is operating normally, the event processing information is periodically added to the newly added event in the event log, and at the same time, the operation is performed on the OS operation status check device. A life and death detection unit that transmits first life and death detection information that is state confirmation information;
The sub-operation control means adds a new event to the event log based on a command from the OS operating state confirmation device, and adds the processed information to the new event after a predetermined delay time has elapsed. IPMI command for determining whether or not the processed information has been added and transmitting second life / death detection information indicating a state in which the additional processing has not been performed to the OS operation state confirmation device A confirmation target device having a communication function.
オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して自らのハードウェアの動作についての情報を収集して外部装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方の動作内容を記録するイベントログを記憶した記憶手段とを備える確認対象装置と相互に接続されることによって、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを確認するOS動作状態確認システムを構成するOS動作状態確認装置であって、
前記確認対象装置と定期的に通信を行ってこの定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する確認対象装置死活検出部と、
前記確認対象装置に対してネットワーク疎通確認用のピング(Ping)を送信するピング送信部と、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに前記新規イベントを付加する命令を送信するOEMイベント送信部とを備えると共に、
前記確認対象装置から前記イベントログに書き込んだ前記新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が書き込まれていないことを意味する死活検出情報を受信した場合に前記ピング送信部に対してピングの送信を指令する死活検出情報判定部と、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると判断して、この判断結果を外部に出力する不具合原因判断部を有することを特徴とするOS動作状態確認装置。
Main arithmetic control means for operating the operating system, sub arithmetic control means that operates separately from the main arithmetic control means, collects information about the operation of its own hardware, and transmits it to an external device; and the main arithmetic control means The operation of the operating system in the confirmation target device is connected to a confirmation target device including a storage unit that stores an event log that records the operation contents of both the control unit and the sub-operation control unit. An OS operation state confirmation device constituting an OS operation state confirmation system for confirming whether or not it is normal,
A confirmation target device alive detection unit that periodically communicates with the confirmation target device and determines that a failure has occurred in the confirmation target device when the periodic communication is interrupted,
A ping transmission unit that transmits ping for network communication confirmation to the confirmation target device;
An OEM event transmission unit that transmits an instruction to add the new event to the event log to the sub-operation control unit of the confirmation target device when it is determined that a failure has occurred in the confirmation target device;
The ping is received when life / death detection information indicating that processed information has not been written even after a predetermined delay time has elapsed for the new event written to the event log from the confirmation target device. A life / death detection information determination unit that instructs the transmission unit to transmit pings;
When the reply to the ping is returned from the device to be confirmed, it is determined that the operating system of the device to be confirmed is overloaded, and otherwise, the operating system of the device to be confirmed hangs up. And an OS operation state confirmation device characterized by having a failure cause determination unit that outputs the determination result to the outside.
オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムにあって、
前記確認対象装置で主演算制御手段が正常に動作している間は前記イベントログに新しく付加されたイベントに対して定期的に当該イベントの処理済み情報を前記確認対象装置の死活検出部が追記すると同時に前記OS動作状態確認装置に対して当該動作状態の確認情報である第1の死活検出情報を前記死活検出部が送信し、
前記OS動作状態確認装置と前記確認対象装置との間の定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと前記OS動作状態確認装置の前記確認対象装置死活検出部が判断し、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに新規イベントを付加する命令を前記OS動作状態確認装置のOEMイベント送信部が送信し、
前記OS動作状態確認装置からの前記命令に反応した前記確認対象装置の前記副演算制御手段が前記イベントログに前記新規イベントを付加し、
予め定められた遅延時間が経過した後で前記確認対象装置の前記イベントログに付加した前記新規イベントに対して前記処理済み情報が追記されているか否かを前記副演算制御手段が判断し、
前記確認対象装置の前記イベントログに前記処理済み情報が追記されていない場合にこの追記処理がされていない状態を示す第2の死活検出情報を前記OS動作状態確認装置に対して前記確認対象装置の前記副演算制御手段が送信し、
前記OS動作状態確認装置が前記確認対象装置から前記第2の死活検出情報を受信した場合に死活検出情報判定部がピング送信部を介して前記確認対象装置にネットワーク疎通確認用のピング(Ping)を送信し、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると前記OS動作状態確認装置の死活検出情報判定部が判断し、
この判断結果を前記OS動作状態確認装置の前記死活検出情報判定部が外部に出力することを特徴とするOS動作状態確認方法。
A main arithmetic control means for operating the operating system, a sub arithmetic control means that operates separately from the main arithmetic control means, collects operation information of the device to be confirmed, and transmits the operation information to the OS operation state confirmation device; A configuration in which a check target device including both a main operation control unit and a sub-operation control unit and a storage unit storing an event log that adds each operation content as an event is connected to the OS operation state check device. In the OS operation state confirmation system for confirming from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal,
While the main arithmetic control means is operating normally in the confirmation target device, the life / death detection unit of the confirmation target device periodically adds processed information of the event to the event newly added to the event log. At the same time, the life and death detection unit transmits first life and death detection information which is confirmation information of the operation state to the OS operation state confirmation device,
When the periodic communication between the OS operation state confirmation device and the confirmation target device is interrupted, the confirmation target device alive detection unit of the OS operation state confirmation device determines that a failure has occurred in the confirmation target device. ,
When it is determined that a failure has occurred in the confirmation target device, the OEM event transmission unit of the OS operation state confirmation device gives a command to add a new event to the event log to the sub-operation control unit of the confirmation target device. Send
The sub-operation control means of the device to be confirmed that has responded to the command from the OS operation state confirmation device adds the new event to the event log,
The sub-operation control means determines whether or not the processed information is added to the new event added to the event log of the confirmation target device after a predetermined delay time has elapsed,
When the processed information is not added to the event log of the confirmation target device, second life / death detection information indicating a state where the additional processing is not performed is sent to the OS operation state confirmation device. The sub-operation control means of
When the OS operating state confirmation device receives the second life / death detection information from the confirmation target device, the life / death detection information determination unit pings the network communication confirmation to the confirmation target device via a ping transmission unit. Send
When the reply to the ping is returned from the device to be confirmed, it is determined that the operating system of the device to be confirmed is overloaded, and otherwise, the operating system of the device to be confirmed hangs up. The life and death detection information determination unit of the OS operation state confirmation device determines that,
The OS operation state confirmation method, wherein the life / death detection information determination unit of the OS operation state confirmation device outputs the determination result to the outside.
オペレーティングシステムを動作させる主演算制御手段と、この主演算制御手段とは別個に動作して前記確認対象装置の動作情報を収集して前記OS動作状態確認装置に送信する副演算制御手段と、前記主演算制御手段および前記副演算制御手段の双方が各々の動作内容をイベントとして付加するイベントログを記憶した記憶手段とを備える確認対象装置がOS動作状態確認装置と相互に接続されることによって構成され、前記確認対象装置での前記オペレーティングシステムの動作が正常であるか否かを前記OS動作状態確認装置の側から確認するOS動作状態確認システムにあって、
前記OS動作状態確認装置が備えるコンピュータに、
前記OS動作状態確認装置と前記確認対象装置との間の定期的な通信が途切れた場合に前記確認対象装置に不具合が生じたと判断する手順、
前記確認対象装置に不具合が生じたと判断された場合に前記確認対象装置の前記副演算制御手段に対して前記イベントログに新規イベントを付加する命令を送信する手順、
前記確認対象装置から前記イベントログに付加した前記新規イベントに対して予め定められた遅延時間が経過した後でも処理済み情報が追記されていないことを意味する死活検出情報を受信した場合に前記確認対象装置にネットワーク疎通確認用のピング(Ping)を送信する手順、
前記ピングに対する返信が前記確認対象装置から返って来た場合に前記確認対象装置の前記オペレーティングシステムが過負荷状態であると判断し、そうでない場合に前記確認対象装置の前記オペレーティングシステムがハングアップしていると判断する手順、
およびこの判断結果を外部に出力する手順を、
実行させることを特徴とするOS動作状態確認プログラム。
A main arithmetic control means for operating the operating system, a sub arithmetic control means that operates separately from the main arithmetic control means, collects operation information of the device to be confirmed, and transmits the operation information to the OS operation state confirmation device; A configuration in which a check target device including both a main operation control unit and a sub-operation control unit and a storage unit storing an event log that adds each operation content as an event is connected to the OS operation state check device. In the OS operation state confirmation system for confirming from the OS operation state confirmation device side whether or not the operation of the operating system in the confirmation target device is normal,
In the computer provided in the OS operation state confirmation device,
A procedure for determining that a failure has occurred in the confirmation target device when periodic communication between the OS operation state confirmation device and the confirmation target device is interrupted;
A procedure for transmitting a command to add a new event to the event log to the sub-operation control means of the confirmation target device when it is determined that a problem has occurred in the confirmation target device;
The confirmation is made when the life / death detection information indicating that the processed information is not added even after a predetermined delay time has elapsed for the new event added to the event log from the confirmation target device. A procedure for sending a ping for network communication confirmation to the target device,
When the reply to the ping is returned from the device to be confirmed, it is determined that the operating system of the device to be confirmed is overloaded, and otherwise, the operating system of the device to be confirmed hangs up. Procedures to determine that
And the procedure for outputting this judgment result to the outside.
An OS operating state confirmation program that is executed.
JP2010180432A 2010-08-11 2010-08-11 OS operation state confirmation system, device to be confirmed, OS operation state confirmation device, OS operation state confirmation method, and program Expired - Fee Related JP5625605B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010180432A JP5625605B2 (en) 2010-08-11 2010-08-11 OS operation state confirmation system, device to be confirmed, OS operation state confirmation device, OS operation state confirmation method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010180432A JP5625605B2 (en) 2010-08-11 2010-08-11 OS operation state confirmation system, device to be confirmed, OS operation state confirmation device, OS operation state confirmation method, and program

Publications (2)

Publication Number Publication Date
JP2012038257A true JP2012038257A (en) 2012-02-23
JP5625605B2 JP5625605B2 (en) 2014-11-19

Family

ID=45850153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010180432A Expired - Fee Related JP5625605B2 (en) 2010-08-11 2010-08-11 OS operation state confirmation system, device to be confirmed, OS operation state confirmation device, OS operation state confirmation method, and program

Country Status (1)

Country Link
JP (1) JP5625605B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102736970A (en) * 2012-06-29 2012-10-17 浪潮电子信息产业股份有限公司 Method for monitoring activity state of operating system
JP2016158231A (en) * 2015-02-25 2016-09-01 廣達電腦股▲ふん▼有限公司 Method and equipment for out-of-band network port state detection, and computer readable recording medium
JP2019212046A (en) * 2018-06-05 2019-12-12 富士通株式会社 Control program, control method, and information processing device
JP2020119077A (en) * 2019-01-21 2020-08-06 Necプラットフォームズ株式会社 Apparatus, system method and program for failure notification
JP2020119173A (en) * 2019-01-23 2020-08-06 Necプラットフォームズ株式会社 Information processing device, control method for information processing device, and control program for information processing device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112790A (en) * 1998-10-02 2000-04-21 Toshiba Corp Computer with fault information collection function
JP2009205364A (en) * 2008-02-27 2009-09-10 Nec Corp Life-and-death monitoring method, monitored device, monitor and life-and-death monitoring program
JP2009265805A (en) * 2008-04-23 2009-11-12 Hitachi Ltd Failover method, program, failover device and failover system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112790A (en) * 1998-10-02 2000-04-21 Toshiba Corp Computer with fault information collection function
JP2009205364A (en) * 2008-02-27 2009-09-10 Nec Corp Life-and-death monitoring method, monitored device, monitor and life-and-death monitoring program
JP2009265805A (en) * 2008-04-23 2009-11-12 Hitachi Ltd Failover method, program, failover device and failover system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNH200400091003; 落合 浩之 Hiroyuki Ochiai: 'Itaniumファミリー版HP-UXの開発 Development of HP-UX for Itanium Processor Family' NEC技報 第56巻 第1号 NEC TECHNICAL JOURNAL 第56巻, 20030225, p.39〜41, 日本電気株式会社 *
JPN6014014542; 落合 浩之 Hiroyuki Ochiai: 'Itaniumファミリー版HP-UXの開発 Development of HP-UX for Itanium Processor Family' NEC技報 第56巻 第1号 NEC TECHNICAL JOURNAL 第56巻, 20030225, p.39〜41, 日本電気株式会社 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102736970A (en) * 2012-06-29 2012-10-17 浪潮电子信息产业股份有限公司 Method for monitoring activity state of operating system
JP2016158231A (en) * 2015-02-25 2016-09-01 廣達電腦股▲ふん▼有限公司 Method and equipment for out-of-band network port state detection, and computer readable recording medium
US9525608B2 (en) 2015-02-25 2016-12-20 Quanta Computer, Inc. Out-of band network port status detection
JP2019212046A (en) * 2018-06-05 2019-12-12 富士通株式会社 Control program, control method, and information processing device
JP2020119077A (en) * 2019-01-21 2020-08-06 Necプラットフォームズ株式会社 Apparatus, system method and program for failure notification
JP2020119173A (en) * 2019-01-23 2020-08-06 Necプラットフォームズ株式会社 Information processing device, control method for information processing device, and control program for information processing device

Also Published As

Publication number Publication date
JP5625605B2 (en) 2014-11-19

Similar Documents

Publication Publication Date Title
CN107547589B (en) Data acquisition processing method and device
CN110750480B (en) Dual-computer hot standby system
US11706080B2 (en) Providing dynamic serviceability for software-defined data centers
US20040228063A1 (en) IPMI dual-domain controller
JP5625605B2 (en) OS operation state confirmation system, device to be confirmed, OS operation state confirmation device, OS operation state confirmation method, and program
JP2004021549A (en) Network monitoring system and program
EP3724761B1 (en) Failure handling in a cloud environment
WO2016197737A1 (en) Self-check processing method, apparatus and system
JP6183931B2 (en) Cluster system, server apparatus, cluster system management method, and program
JP5425720B2 (en) Virtualization environment monitoring apparatus and monitoring method and program thereof
US10721135B1 (en) Edge computing system for monitoring and maintaining data center operations
JP2008172592A (en) Cluster system, computer and its abnormality detection method
KR101574900B1 (en) Control system for steel plant
US8677323B2 (en) Recording medium storing monitoring program, monitoring method, and monitoring system
JP2012168907A (en) Mutual monitoring system
JP4495248B2 (en) Information processing apparatus and failure processing method
JP2006285453A (en) Information processor, information processing method, and information processing program
JP2014164628A (en) Information processing device, information processing method, information processing program, integrated monitoring server and monitoring system
JP3190880B2 (en) Standby system, standby method, and recording medium
JP2012177987A (en) Monitoring system and monitoring method
JP4034436B2 (en) Client / server system and client operation monitoring method
CN102932196B (en) A kind of detection method of hosting system status and device
JP2007272328A (en) Computer system
JP4863984B2 (en) Monitoring processing program, method and apparatus
JP4619925B2 (en) Communication apparatus and communication method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130711

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140408

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140902

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140915

R150 Certificate of patent or registration of utility model

Ref document number: 5625605

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees