Nothing Special   »   [go: up one dir, main page]

JP2011022741A - Computer system, service processor, and diagnostic method thereof - Google Patents

Computer system, service processor, and diagnostic method thereof Download PDF

Info

Publication number
JP2011022741A
JP2011022741A JP2009166357A JP2009166357A JP2011022741A JP 2011022741 A JP2011022741 A JP 2011022741A JP 2009166357 A JP2009166357 A JP 2009166357A JP 2009166357 A JP2009166357 A JP 2009166357A JP 2011022741 A JP2011022741 A JP 2011022741A
Authority
JP
Japan
Prior art keywords
communication
service processor
control unit
communication control
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009166357A
Other languages
Japanese (ja)
Inventor
Mutsuo Shindo
睦雄 進藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd filed Critical NEC Computertechno Ltd
Priority to JP2009166357A priority Critical patent/JP2011022741A/en
Publication of JP2011022741A publication Critical patent/JP2011022741A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a computer system which includes high reliability by enlarging the range of self-diagnosis of the communication control part of a service processor. <P>SOLUTION: A computer system 1 includes: service processors SP0 and SP1; and inter-service processor communication paths 60 and 70. A service processor SP0 includes communication control parts 101 and 103 and a return communication path 105. The service processor SP1 includes communication control parts 201 and 203 and a return communication path 205. When normal operation setting is set, the communication control parts 201 and 203 are communicatively connected through the inter-service processor communication paths 60 and 70 to the communication control parts 101 and 103 of the service processor SP0. When self-diagnostic time setting is set, the communication control part 201 and the communication control part 203 are communicatively connected through the return communication path 205. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、コンピュータシステム、サービスプロセッサ及び、その診断方法に関し、特に複数のサービスプロセッサを備えるコンピュータシステム、サービスプロセッサおよび診断の方法に関する。   The present invention relates to a computer system, a service processor, and a diagnosis method thereof, and more particularly, to a computer system including a plurality of service processors, a service processor, and a diagnosis method.

複数の計算ノードを備えるような大規模なコンピュータシステムにおいては、その管理のために、サービスプロセッサと呼ばれるプロセッサが設けられることがある。このとき、コンピュータシステムの信頼性を高めるために、複数のサービスプロセッサが設けられることがある。あるシステム構成においては、2つのサービスプロセッサがコンピュータシステムに設けられ、一方のサービスプロセッサが主系サービスプロセッサとして計算ノードの制御・管理に用いられると共に、もう一方のサービスプロセッサが従系サービスプロセッサとして主系サービスプロセッサを監視する。この場合、当該2つのサービスプロセッサの間には、それらの間で相互通信を行うためのプロセッサ間通信路が設けられる。   In a large-scale computer system including a plurality of calculation nodes, a processor called a service processor may be provided for managing the computer system. At this time, a plurality of service processors may be provided in order to increase the reliability of the computer system. In one system configuration, two service processors are provided in a computer system, and one service processor is used as a main service processor for controlling and managing a computing node, and the other service processor is used as a subordinate service processor. Monitor the system service processor. In this case, an inter-processor communication path for performing mutual communication between the two service processors is provided.

このようなコンピュータシステムは、例えば、特許文献1(特開昭62−174839号公報)、特許文献2(特開平10−154085号公報)に開示されている。特許文献1は、現用側と予備側に二重化されたデータ交換システムであって、システムを制御する二重化された制御プロセッサを備えるシステムを開示している。このシステムでは、現用側系制御プロセッサが、予備側系制御プロセッサの状態監視を行うために、制御プロセッサ間インターフェースを通じて予備側系制御プロセッサを診断起動し結果を受け取り、予備側系制御プロセッサの正常性を確認している。   Such a computer system is disclosed in, for example, Patent Document 1 (Japanese Patent Laid-Open No. 62-174839) and Patent Document 2 (Japanese Patent Laid-Open No. 10-154085). Patent Document 1 discloses a data exchange system that is duplicated on the active side and the backup side, and includes a duplicated control processor that controls the system. In this system, in order for the active side control processor to monitor the status of the standby side control processor, the standby side control processor is diagnosed and received through the interface between the control processors, and the result is received. Have confirmed.

また、特許文献2は、ノーストップ・システムを実現するために、二重化された監視/制御プロセッサを備えるシステムを開示している。このシステムでは、二重化された監視/制御プロセッサは、監視/制御プロセッサ間通信バスを通じて相互に状態を把握しながらシステムを監視・制御し、更に他系監視/制御プロセッサから該通信バスを通じて自己診断フェーズ通知を受信することで、他系監視/制御プロセッサのリセット(活性交換)を認識する。   Further, Patent Document 2 discloses a system including a duplicated monitoring / controlling processor in order to realize a north top system. In this system, the redundant monitoring / controlling processor monitors and controls the system while grasping the state of each other through the communication bus between the monitoring / controlling processors, and further performs a self-diagnosis phase from the other monitoring / controlling processor through the communication bus. By receiving the notification, the reset (active replacement) of the other system monitoring / control processor is recognized.

図1は、2つのサービスプロセッサを備えるコンピュータシステムの構成例を示している。図1のコンピュータシステム1は、計算ノード30、40、50と、サービスプロセッサSP0、SP1とを備えている。   FIG. 1 shows a configuration example of a computer system including two service processors. The computer system 1 in FIG. 1 includes computation nodes 30, 40, and 50 and service processors SP0 and SP1.

図1において、サービスプロセッサSP0とサービスプロセッサSP1のうちの一方が、主系サービスプロセッサとしてコンピュータシステム1の構成制御、運転制御、障害発生時のログ採取や故障箇所の指摘などの各制御を実行する。他方のサービスプロセッサは、従系サービスプロセッサとして、主系サービスプロセッサに障害が発生した場合に、直ちに処理を引き継ぐべくホットスタンバイしている。   In FIG. 1, one of the service processor SP0 and the service processor SP1 executes control such as configuration control, operation control, log collection at the time of failure occurrence, and indication of a failure location as a main service processor. . The other service processor, as a subordinate service processor, is in hot standby to immediately take over the processing when a failure occurs in the main service processor.

サービスプロセッサSP0とサービスプロセッサSP1は、2つのサービスプロセッサ間通信路60、70により相互通信可能である。サービスプロセッサSP0とサービスプロセッサSP1の間の通信路が二重化されているのは、高信頼化のためである。   The service processor SP0 and the service processor SP1 can communicate with each other via two communication paths 60 and 70 between service processors. The reason why the communication path between the service processor SP0 and the service processor SP1 is duplicated is for high reliability.

サービスプロセッサSP0は、通信制御部101、103と、CPU104とを備えている。通信制御部101は、サービスプロセッサ間通信路60の通信を制御しており、通信制御部103は、サービスプロセッサ間通信路60上の通信を制御している。図1のサービスプロセッサSP0では、2つのサービスプロセッサ間通信路60、70があることに対応して2つの通信制御部101、103が設けられていることに留意されたい。   The service processor SP0 includes communication control units 101 and 103 and a CPU 104. The communication control unit 101 controls communication on the service processor communication path 60, and the communication control unit 103 controls communication on the service processor communication path 60. It should be noted that in the service processor SP0 of FIG. 1, two communication control units 101 and 103 are provided corresponding to the existence of two communication paths 60 and 70 between service processors.

同様に、サービスプロセッサSP1は、通信制御部201、203と、CPU304とを備えている。通信制御部201は、サービスプロセッサ間通信路60上の通信を制御しており、通信制御部203は、サービスプロセッサ間通信路70の通信を制御している。   Similarly, the service processor SP1 includes communication control units 201 and 203 and a CPU 304. The communication control unit 201 controls communication on the service processor communication path 60, and the communication control unit 203 controls communication on the service processor communication path 70.

特開昭62−174839号公報Japanese Patent Laid-Open No. 62-174839 特開平10−154085号公報JP-A-10-154085

コンピュータシステムの信頼性を向上させるためには、保守交換のように新たなサービスプロセッサを組み込む際、新たに組み込まれるサービスプロセッサの動作の正常性を診断することが望ましい。このとき、新たに組み込まれるサービスプロセッサ自身の自己診断によってなるべく多くの診断項目について診断を行うことができれば、少ない交換作業の労力で高い信頼性を有するコンピュータシステムを構成できる。   In order to improve the reliability of the computer system, it is desirable to diagnose the normality of the operation of the newly installed service processor when a new service processor is installed as in maintenance replacement. At this time, if diagnosis can be performed for as many diagnostic items as possible by self-diagnosis of the newly incorporated service processor itself, a highly reliable computer system can be configured with a small amount of replacement work.

しかしながら、図1のコンピュータシステム1では、例えば、サービスプロセッサSP1の自己診断においては、通信制御部201、203の自己診断はCPU204とのインターフェース部に限定される。高い信頼性の要求に対応するためには、より広範囲な自己診断がなされるようにサービスプロセッサの自己診断能力を高めることが望ましい。   However, in the computer system 1 of FIG. 1, for example, in the self-diagnosis of the service processor SP <b> 1, the self-diagnosis of the communication control units 201 and 203 is limited to the interface unit with the CPU 204. In order to meet the demand for high reliability, it is desirable to increase the self-diagnosis capability of the service processor so that a wider range of self-diagnosis can be performed.

したがって、本発明の目的は、サービスプロセッサの通信制御部の自己診断の範囲を拡大し、これにより、高い信頼性を備えるコンピュータシステムを提供することを可能にすることにある。   Accordingly, it is an object of the present invention to expand the range of self-diagnosis of the communication control unit of the service processor, and thereby to provide a computer system having high reliability.

本発明の一の観点においては、コンピュータシステムが、当該コンピュータシステムの制御を行うための第1及び第2サービスプロセッサと、第1及び第2サービスプロセッサの間に接続された第1及び第2サービスプロセッサ間通信路とを具備する。第1サービスプロセッサは、第1サービスプロセッサ間通信路を通じた通信を制御するための第1通信制御部と、第2サービスプロセッサ間通信路を通じた通信を制御するための第2通信制御部と、第1通信制御部と第2通信制御部との間で通信を行うための第1折り返し通信路とを含む。第2サービスプロセッサは、第1サービスプロセッサ間通信路を通じた通信を制御するための第3通信制御部と、第2サービスプロセッサ間通信路を通じた通信を制御するための第4通信制御部とを含む。第1サービスプロセッサが第1設定に設定されると、第1及び第2通信制御部は、それぞれ、第1及び第2サービスプロセッサ間通信路を介して第3及び第4通信部と通信可能になる。第1サービスプロセッサが第2設定に設定されると、第1通信制御部と第2通信制御部とは、第1折り返し通信路を介して相互に通信可能になる。   In one aspect of the present invention, a computer system includes first and second service processors for controlling the computer system, and first and second services connected between the first and second service processors. And an inter-processor communication path. The first service processor includes a first communication control unit for controlling communication through the first inter-service processor communication path, a second communication control unit for controlling communication through the second inter-service processor communication path, A first return communication path for performing communication between the first communication control unit and the second communication control unit is included. The second service processor includes a third communication control unit for controlling communication through the first inter-service processor communication path and a fourth communication control unit for controlling communication through the second inter-service processor communication path. Including. When the first service processor is set to the first setting, the first and second communication control units can communicate with the third and fourth communication units via the first and second service processor communication paths, respectively. Become. When the first service processor is set to the second setting, the first communication control unit and the second communication control unit can communicate with each other via the first return communication path.

本発明の他の観点においては、コンピュータシステムの制御を行うためのサービスプロセッサが、第1サービスプロセッサ間通信路を介した通信を制御するための第1通信制御部と、第2サービスプロセッサ間通信路を介した通信を制御するための第2通信制御部と、第1通信制御部と第2通信制御部との間で通信を行うための折り返し通信路とを具備する。サービスプロセッサが第1設定に設定されると、第1及び第2通信制御部は、それぞれ、第1及び第2サービスプロセッサ間通信路を介した通信を実行可能になる。当該サービスプロセッサが第2設定に設定されると、第1通信制御部と第2通信制御部は、折り返し通信路を通じて相互に通信可能になる。   In another aspect of the present invention, a service processor for controlling a computer system includes a first communication control unit for controlling communication via a first inter-service processor communication path, and a second inter-service processor communication. A second communication control unit for controlling communication via the channel, and a return communication channel for performing communication between the first communication control unit and the second communication control unit. When the service processor is set to the first setting, the first and second communication control units can execute communication via the first and second service processor communication paths, respectively. When the service processor is set to the second setting, the first communication control unit and the second communication control unit can communicate with each other through the return communication path.

本発明の更に他の観点においては、上記のサービスプロセッサの自己診断のための診断方法が、第1通信制御部と第2通信制御部の間で折り返し通信路を通じて通信を実行するステップと、通信の通信結果に基づいて、第1及び第2通信制御部の異常を検出するステップとを備えている。   In still another aspect of the present invention, the above-described diagnostic method for self-diagnosis of the service processor performs communication between the first communication control unit and the second communication control unit through a loopback communication path, and communication. And detecting an abnormality of the first and second communication control units based on the communication result.

本発明の更に他の観点においては、第1サービスプロセッサ間通信路を介した通信を制御するための第1通信制御部と、第2サービスプロセッサ間通信路を介した通信を制御するための第2通信制御部と、第1通信制御部と第2通信制御部との間で通信を行うための折り返し通信路とを具備するサービスプロセッサを動作させるプログラムが、第1通信制御部と第2通信制御部の間で折り返し通信路を通じて通信を実行するステップと、通信の通信結果に基づいて、第1及び第2通信制御部の異常を検出するステップとをサービスプロセッサに実行させる。   In still another aspect of the present invention, a first communication control unit for controlling communication via a first inter-service processor communication path and a first communication controller for controlling communication via a second inter-service processor communication path. A program for operating a service processor including a communication control unit and a return communication path for performing communication between the first communication control unit and the second communication control unit is provided between the first communication control unit and the second communication control unit. The service processor is caused to execute a step of performing communication between the control units through the loopback communication path and a step of detecting an abnormality in the first and second communication control units based on a communication result of the communication.

本発明によれば、サービスプロセッサの通信制御部の自己診断の範囲を拡大し、これにより、高い信頼性を備えるコンピュータシステムを提供することができる。   ADVANTAGE OF THE INVENTION According to this invention, the range of the self-diagnosis of the communication control part of a service processor can be expanded, and, thereby, a computer system provided with high reliability can be provided.

2つのサービスプロセッサを備えるコンピュータシステムの一構成例を説明するブロック図である。It is a block diagram explaining the example of 1 composition of a computer system provided with two service processors. 本発明の一実施形態におけるコンピュータシステムの構成を説明するブロック図である。It is a block diagram explaining the structure of the computer system in one Embodiment of this invention. 本発明の一実施形態のコンピュータシステムの動作を説明するフローチャートである。It is a flowchart explaining operation | movement of the computer system of one Embodiment of this invention. 本発明の一実施形態のコンピュータシステムの動作を説明するフローチャートである。It is a flowchart explaining operation | movement of the computer system of one Embodiment of this invention.

図2は、本発明の一実施形態のコンピュータシステム1の構成を示すブロック図である。コンピュータシステム1は、計算ノード30、40、50と、サービスプロセッサSP0、SP1とを備えている。計算ノード30〜50はそれぞれ独立して動作可能なコンピュータシステム、または、コンピュータシステムとして必要なプロセッサ、メモリ、入出力部を持った論理的な単位である。   FIG. 2 is a block diagram showing the configuration of the computer system 1 according to the embodiment of the present invention. The computer system 1 includes computation nodes 30, 40, and 50 and service processors SP0 and SP1. Each of the computation nodes 30 to 50 is a computer system that can operate independently, or a logical unit having a processor, a memory, and an input / output unit necessary for the computer system.

サービスプロセッサSP0、SP1は、同一の構成を有しており、その一方が主系サービスプロセッサとして動作し、他方が従系サービスプロセッサとして動作する。主系サービスプロセッサは、構成制御、運転制御、障害発生時のログ採取や故障箇所の指摘などの各制御を実行する。従系サービスプロセッサは、主系サービスプロセッサの状態を監視する。従系サービスプロセッサは、主系サービスプロセッサに障害が発生した場合に、コンピュータシステム1を停止させずに直ちに主系サービスプロセッサの処理を引き継ぐべくホットスタンバイする。以下では、サービスプロセッサSP0が主系サービスプロセッサであり、サービスプロセッサSP1が従系サービスプロセッサであるとして説明を行う。   The service processors SP0 and SP1 have the same configuration, one of which operates as a main service processor, and the other operates as a subordinate service processor. The main service processor executes various controls such as configuration control, operation control, log collection when a failure occurs, and indication of a failure location. The subordinate service processor monitors the status of the main service processor. When a failure occurs in the primary service processor, the secondary service processor performs hot standby immediately to take over the processing of the primary service processor without stopping the computer system 1. In the following description, it is assumed that the service processor SP0 is the primary service processor and the service processor SP1 is the secondary service processor.

サービスプロセッサSP0、SP1は、通信路を介して通信可能である。ここで、サービスプロセッサSP0、SP1の間の通信は二重化されている。即ち、サービスプロセッサSP0、SP1は、サービスプロセッサ間通信路60、70を介して相互に通信可能である。サービスプロセッサSP0、SP1の間の通信の二重化は、コンピュータシステム1の信頼性の向上のために有効である。   The service processors SP0 and SP1 can communicate via a communication path. Here, communication between the service processors SP0 and SP1 is duplicated. That is, the service processors SP0 and SP1 can communicate with each other via the inter-service processor communication paths 60 and 70. Duplication of communication between the service processors SP0 and SP1 is effective for improving the reliability of the computer system 1.

サービスプロセッサSP0は、通信制御部101、103と、切り替え部102と、CPU104と、折り返し診断通信路105とを備えている。同様に、サービスプロセッサSP1は、通信制御部201、203と、切り替え部202と、CPU204と、折り返し診断通信路205とを備えている。   The service processor SP0 includes communication control units 101 and 103, a switching unit 102, a CPU 104, and a return diagnostic communication path 105. Similarly, the service processor SP1 includes communication control units 201 and 203, a switching unit 202, a CPU 204, and a return diagnosis communication path 205.

まず、サービスプロセッサSP0の各構成要素について説明する。CPU104は、サービスプロセッサとして機能させるための専用制御プログラムであるサービスプロセッサ制御ファームウエア(以下、「SPFW」と記載)を実行する。このSPFWのサービスプロセッサSP0へのインストールは、SPFWを記録した記録媒体を用いておこなってもよい。なお、SPFWは、図2には図示されていない。   First, each component of the service processor SP0 will be described. The CPU 104 executes service processor control firmware (hereinafter referred to as “SPFW”), which is a dedicated control program for functioning as a service processor. The installation of the SPFW into the service processor SP0 may be performed using a recording medium on which the SPFW is recorded. The SPFW is not shown in FIG.

通信制御部101は、CPU104による制御の下、サービスプロセッサ間通信路60を介してのサービスプロセッサSP1との通信を制御する。同様に、通信制御部103は、CPU104による制御の下、サービスプロセッサ間通信路70を介してのサービスプロセッサSP1との通信を制御する。   The communication control unit 101 controls communication with the service processor SP1 through the inter-service processor communication path 60 under the control of the CPU 104. Similarly, the communication control unit 103 controls communication with the service processor SP1 via the inter-service processor communication path 70 under the control of the CPU 104.

折り返し通信路105は、通信制御部101と通信制御部103の間の通信を可能にするための通信路である。後述のように、折り返し通信路105は、サービスプロセッサSP0の通信制御部101、103を自己診断する際に使用される。   The loopback communication path 105 is a communication path for enabling communication between the communication control unit 101 and the communication control unit 103. As will be described later, the return communication path 105 is used when self-diagnosis is performed on the communication control units 101 and 103 of the service processor SP0.

切り替え部102は、CPU104による制御の下、通信制御部101、103の通信相手を切り替える。より具体的には、サービスプロセッサSP0が第1の設定(以下、「通常通信設定」という)に設定されると、切り替え部102は、通信制御部101、103の通信相手をサービスプロセッサSP1の通信制御部201、203に設定する。即ち、通常通信設定では、サービスプロセッサSP0の通信制御部101、103は、それぞれサービスプロセッサ間通信路60、70を介してサービスプロセッサSP1の通信制御部201、203と通信する。一方、サービスプロセッサSP0が第2の設定(以下、「自己診断時設定」という。)に設定されると、切り替え部102は、通信制御部101、103の通信相手を、それぞれ、通信制御部103、101に設定する。即ち、自己診断時設定では、サービスプロセッサSP0の通信制御部101、103は、折り返し通信路105を介して自サービスプロセッサの通信制御部103、101と通信する。   The switching unit 102 switches communication partners of the communication control units 101 and 103 under the control of the CPU 104. More specifically, when the service processor SP0 is set to the first setting (hereinafter referred to as “normal communication setting”), the switching unit 102 sets the communication control unit 101, 103 as the communication partner of the service processor SP1. Set in the control units 201 and 203. That is, in the normal communication setting, the communication control units 101 and 103 of the service processor SP0 communicate with the communication control units 201 and 203 of the service processor SP1 via the inter-service processor communication paths 60 and 70, respectively. On the other hand, when the service processor SP0 is set to the second setting (hereinafter referred to as “self-diagnosis setting”), the switching unit 102 sets the communication partners of the communication control units 101 and 103 to the communication control unit 103, respectively. , 101. That is, in the self-diagnosis setting, the communication control units 101 and 103 of the service processor SP0 communicate with the communication control units 103 and 101 of the own service processor via the return communication path 105.

サービスプロセッサSP1の通信制御部201、203、切り替え部202、CPU204、折り返し診断通信路205の機能は、それぞれ、サービスプロセッサSP0の通信制御部101、103、切り替え部102、CPU104、及び折り返し診断通信路105の機能と同一である。サービスプロセッサSP0の切り替え部202と同様に、サービスプロセッサSP1の切り替え部202は、通常通信設定に設定されると、通信制御部201、203の通信相手をサービスプロセッサSP0の通信制御部101、103に設定する。一方、自己診断時設定では、切り替え部202は、通信制御部201、203の通信相手を、それぞれ、通信制御部203、201に設定する。即ち、自己診断時設定では、サービスプロセッサSP1の通信制御部201、203は、折り返し通信路205を介して自サービスプロセッサの通信制御部203、201と通信する。   The functions of the communication control units 201 and 203, the switching unit 202, the CPU 204, and the return diagnostic communication path 205 of the service processor SP1 are respectively the communication control units 101 and 103, the switching unit 102, the CPU 104, and the return diagnostic communication path 205 of the service processor SP0. The function is the same as 105. Similar to the switching unit 202 of the service processor SP0, the switching unit 202 of the service processor SP1 sets the communication partners of the communication control units 201 and 203 to the communication control units 101 and 103 of the service processor SP0 when the normal communication setting is set. Set. On the other hand, in the self-diagnosis setting, the switching unit 202 sets the communication partners of the communication control units 201 and 203 in the communication control units 203 and 201, respectively. That is, in the self-diagnosis setting, the communication control units 201 and 203 of the service processor SP1 communicate with the communication control units 203 and 201 of the self-service processor via the return communication path 205.

このような構成のコンピュータシステム1においては、折り返し通信路105、205を利用することにより、通信制御部101、103、201、203の自己診断の範囲を拡大することができる。例えば、サービスプロセッサSP1については、サービスプロセッサSP1の自己診断の際に切り替え部202を自己診断時設定に設定することにより、折り返し診断通信路205を用いて通信制御部201と通信制御部203の間で、相互に通信を行うことができる。即ち、サービスプロセッサSP0の通信制御部101、103と実際に通信動作を行わずとも、実際の通信動作と同様の動作をサービスプロセッサSP1の通信制御部201、203に行わせることができる。これにより、通信制御部201、203の自己診断の範囲を拡大し、サービスプロセッサSP1の自己診断能力を向上させることができる。サービスプロセッサSP0についても同様である。以下では、本実施形態におけるコンピュータシステム1の動作、特にサービスプロセッサの自己診断動作について詳細に説明する。   In the computer system 1 having such a configuration, the range of self-diagnosis of the communication control units 101, 103, 201, and 203 can be expanded by using the return communication paths 105 and 205. For example, for the service processor SP1, the switching unit 202 is set to the self-diagnosis setting at the time of self-diagnosis of the service processor SP1, thereby using the loopback diagnosis communication path 205 to communicate between the communication control unit 201 and the communication control unit 203. Thus, they can communicate with each other. That is, the communication control units 201 and 203 of the service processor SP1 can perform the same operation as the actual communication operation without actually performing the communication operation with the communication control units 101 and 103 of the service processor SP0. Thereby, the range of the self-diagnosis of the communication control units 201 and 203 can be expanded, and the self-diagnosis capability of the service processor SP1 can be improved. The same applies to the service processor SP0. Hereinafter, the operation of the computer system 1 in this embodiment, particularly the self-diagnosis operation of the service processor will be described in detail.

図3A、図3Bは、サービスプロセッサSP1の交換の際に、新たなサービスプロセッサSP1をコンピュータシステム1に装着する場合の作業手順を示すフローチャートである。   FIG. 3A and FIG. 3B are flowcharts showing work procedures when a new service processor SP1 is mounted on the computer system 1 when the service processor SP1 is replaced.

図3Aを参照して、サービスプロセッサSP1が保守交換のためにコンピュータシステム1に搭載され(ステップS301)、サービスプロセッサSP1の電源がオンされると(ステップS302)、CPU204はサービスプロセッサSP1の自己診断を開始する。ここで、サービスプロセッサSP1の自己診断は、SPFWをCPU204が実行することにより行われることに留意されたい。   Referring to FIG. 3A, when service processor SP1 is mounted on computer system 1 for maintenance and replacement (step S301), and service processor SP1 is powered on (step S302), CPU 204 performs self-diagnosis of service processor SP1. To start. Here, it should be noted that the self-diagnosis of the service processor SP1 is performed by the CPU 204 executing SPFW.

まず、CPU204は通信制御部201の診断を実行する(ステップS303)。ステップS303での診断においては、CPU204から通信制御部201へのアクセスが正常であるか異常であるかが診断される。ステップS303において通信制御部201の異常が検出されると(ステップS304)、サービスプロセッサSP1の保守交換は中止される(ステップS316)。   First, the CPU 204 executes diagnosis of the communication control unit 201 (step S303). In the diagnosis in step S303, it is diagnosed whether the access from the CPU 204 to the communication control unit 201 is normal or abnormal. When an abnormality of the communication control unit 201 is detected in step S303 (step S304), the maintenance replacement of the service processor SP1 is stopped (step S316).

ステップS303における診断により、通信制御部201の異常が検出されなかった場合には、CPU204は通信制御部203の診断を実行する(ステップS305)。ステップS305の診断においては、CPU204から通信制御部203へのアクセスが正常であるか異常であるかが診断される。ステップS305において通信制御部203の異常が検出されると(ステップS306)、サービスプロセッサSP1の保守交換は中止される(ステップS316)。   When the abnormality in the communication control unit 201 is not detected by the diagnosis in step S303, the CPU 204 executes the diagnosis of the communication control unit 203 (step S305). In the diagnosis in step S305, it is diagnosed whether the access from the CPU 204 to the communication control unit 203 is normal or abnormal. When an abnormality of the communication control unit 203 is detected in step S305 (step S306), the maintenance replacement of the service processor SP1 is stopped (step S316).

ステップS305において異常が検出されなかった場合には、CPU204は、切り替え部202を自己診断時設定に設定する。これにより、通信制御部201と通信制御部203とは、折り返し診断通信路205を利用して相互に通信可能な状態になる(ステップS307)。このとき、切り替え手段202は、サービスプロセッサ間通信路60、70を通信に使用不能な状態に設定する。   If no abnormality is detected in step S305, the CPU 204 sets the switching unit 202 to the self-diagnosis setting. As a result, the communication control unit 201 and the communication control unit 203 can communicate with each other using the loopback diagnostic communication path 205 (step S307). At this time, the switching means 202 sets the service processor inter-communication paths 60 and 70 to a state incapable of communication.

続いて、図3Bに図示されているように、折り返し診断通信路205を用いた通信制御部201、203の自己診断が行われる。詳細には、CPU204の制御の下、通信制御部201と通信制御部203の間で、折り返し診断通信路205を用いて相互に通信が実行される(ステップS308)。この通信では、通信制御部201、203を実際にサービスプロセッサSP0と通信する動作と同様に動作させることができる。更に、CPU204は、ステップS308における通信結果が正常であるか判断する(ステップS309)。ステップS308、S309の動作により、サービスプロセッサSP1の通信制御部201、203の信頼性をより高いレベルで自己診断することができる。ステップS308における通信結果が異常であった場合は、サービスプロセッサSP1の保守交換は中止される(ステップS317)。   Subsequently, as illustrated in FIG. 3B, self-diagnosis of the communication control units 201 and 203 using the return diagnosis communication path 205 is performed. Specifically, under the control of the CPU 204, communication is performed between the communication control unit 201 and the communication control unit 203 using the return diagnostic communication path 205 (step S308). In this communication, the communication control units 201 and 203 can be operated in the same manner as the operation of actually communicating with the service processor SP0. Furthermore, the CPU 204 determines whether or not the communication result in step S308 is normal (step S309). Through the operations in steps S308 and S309, the reliability of the communication control units 201 and 203 of the service processor SP1 can be self-diagnosed at a higher level. If the communication result in step S308 is abnormal, the maintenance replacement of the service processor SP1 is stopped (step S317).

続いて、サービスプロセッサSP0、SP1の間で通信が行われ、サービスプロセッサ間通信路60、70が正常か確認される。より具体的には、CPU204は切り替え部202を通常動作設定にする。これにより、折り返し診断通信路205が使用されない状態になると共に、サービスプロセッサ間通信路60、70が通信に使用可能な状態になる(ステップS310)。   Subsequently, communication is performed between the service processors SP0 and SP1, and it is confirmed whether the communication paths 60 and 70 between the service processors are normal. More specifically, the CPU 204 sets the switching unit 202 to the normal operation setting. As a result, the return diagnosis communication path 205 is not used, and the service processor communication paths 60 and 70 are usable for communication (step S310).

続いて、通信制御部201は、CPU204による制御の下、サービスプロセッサ間通信路60を通じて、サービスプロセッサSP0の通信制御部101との通信を実行する(ステップS311)。CPU204は、ステップS311における通信結果が正常であるか判断する(ステップS312)。通信結果が異常であった場合は、サービスプロセッサSP1の保守交換は中止される(ステップS317)。通信結果が正常であった場合は、サービスプロセッサ間通信路60及びサービスプロセッサSP0の通信制御部101も正常に動作していると判断可能である。   Subsequently, the communication control unit 201 executes communication with the communication control unit 101 of the service processor SP0 through the inter-service processor communication path 60 under the control of the CPU 204 (step S311). The CPU 204 determines whether or not the communication result in step S311 is normal (step S312). If the communication result is abnormal, the maintenance replacement of the service processor SP1 is stopped (step S317). If the communication result is normal, it can be determined that the inter-service processor communication path 60 and the communication control unit 101 of the service processor SP0 are also operating normally.

一方、ステップS312において異常が発見された場合、既に正常と判断されている通信制御部201の障害の可能性は低く、サービスプロセッサ間通信路60又はサービスプロセッサSP0の通信制御部101に異常がある可能性が示唆されることになる。ここで、図1の構成においては、通信制御部201の自己診断がなされないままサービスプロセッサ間通信路60が通信に使用されるので、異常が生じた場合、通信制御部201の障害の可能性は低いとの判断は困難であることに留意されたい。   On the other hand, if an abnormality is found in step S312, the possibility of failure of the communication control unit 201 that has already been determined to be normal is low, and there is an abnormality in the inter-service processor communication path 60 or the communication control unit 101 of the service processor SP0. The possibility will be suggested. Here, in the configuration of FIG. 1, since the communication path 60 between service processors is used for communication without performing the self-diagnosis of the communication control unit 201, there is a possibility of failure of the communication control unit 201 when an abnormality occurs. Note that it is difficult to determine that the price is low.

ステップS312で異常が発見されなかった場合、通信制御部203は、CPU204による制御の下、サービスプロセッサ間通信路70を通じて、サービスプロセッサSP0の通信制御部103との通信を実行する(ステップS313)。CPU204は、ステップS313における通信結果が正常であるか判断する(ステップS314)。通信結果が異常であった場合は、サービスプロセッサSP1の保守交換は中止される(ステップS317)。通信結果が正常であった場合は、サービスプロセッサ間通信路70及びサービスプロセッサSP0の通信制御部103も正常に動作していると判断可能である。   If no abnormality is found in step S312, the communication control unit 203 executes communication with the communication control unit 103 of the service processor SP0 through the communication path 70 between service processors under the control of the CPU 204 (step S313). The CPU 204 determines whether or not the communication result in step S313 is normal (step S314). If the communication result is abnormal, the maintenance replacement of the service processor SP1 is stopped (step S317). If the communication result is normal, it can be determined that the inter-service processor communication path 70 and the communication control unit 103 of the service processor SP0 are also operating normally.

ここまでの診断結果で異常が発見されなかった場合、サービスプロセッサSP1が従系サービスプロセッサとしてコンピュータシステム1に組み込まれる(ステップS315)。組み込まれたサービスプロセッサSP1は、従系サービスプロセッサとして、主系サービスプロセッサであるサービスプロセッサSP0の動作をサービスプロセッサ間通信路60、70を通じて継続的に監視し始める。   If no abnormality is found as a result of the diagnosis so far, the service processor SP1 is incorporated into the computer system 1 as a subordinate service processor (step S315). The incorporated service processor SP1 starts to continuously monitor the operation of the service processor SP0, which is the main service processor, through the inter-service processor communication paths 60 and 70 as a subordinate service processor.

以上に説明されているように、本実施形態のコンピュータシステムは、サービスプロセッサの通信制御部に実際と同様の動作をさせて通信制御部を自己診断するので、通信制御部の自己診断の範囲を拡大することができる。これは、サービスプロセッサの信頼性を高いレベルで確認するために有用である。実際と同様の動作をさせて通信制御部を自己診断することは、サービスプロセッサ間の通信において障害を発見した場合に障害の発生箇所を特定するためにも有用である。例えば、本実施形態のコンピュータシステムでは、自己診断でサービスプロセッサSP1の通信制御部201に異常が発見されなかった場合に、サービスプロセッサ間通信路60を介した通信で異常が発見された場合には、サービスプロセッサ間通信路60又はサービスプロセッサSP0の通信制御部101に異常があることが示唆される。これは、障害の発生箇所の特定を容易化する。   As described above, the computer system according to the present embodiment causes the communication control unit of the service processor to perform the same operation as the actual operation to self-diagnose the communication control unit. Can be enlarged. This is useful for checking the reliability of the service processor at a high level. The self-diagnosis of the communication control unit by performing the same operation as in practice is useful for specifying the location of the failure when a failure is found in the communication between the service processors. For example, in the computer system according to the present embodiment, when no abnormality is found in the communication control unit 201 of the service processor SP1 by self-diagnosis, and an abnormality is found in communication via the inter-service processor communication path 60, It is suggested that there is an abnormality in the communication path between service processors 60 or the communication control unit 101 of the service processor SP0. This facilitates identification of the location of the failure.

また、本実施形態のコンピュータシステムでは、通信制御部を実際と同様の動作をさせて自己診断するために、外部の付属部品や人的作業を要しないことにも留意されたい。これは、サービスプロセッサ交換時の作業手順を簡略化でき、更に作業ミスの入る余地を低減できることである。   It should also be noted that the computer system of the present embodiment does not require external accessory parts or human work in order to perform a self-diagnosis by causing the communication control unit to perform the same operation as in actuality. This is because the work procedure at the time of service processor replacement can be simplified, and the room for work mistakes can be reduced.

以上、実施形態を参照して本願発明を説明したが、本願発明は、上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。例えば、上記の実施形態は、サービスプロセッサSP1の交換時におけるサービスプロセッサSP1の診断について例示しているが、本発明の実施は、交換における診断に限られるものではない。   While the present invention has been described with reference to the embodiments, the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention. For example, the above embodiment illustrates the diagnosis of the service processor SP1 at the time of replacement of the service processor SP1, but the implementation of the present invention is not limited to the diagnosis at the replacement.

1・・・コンピュータシステム
SP0・・・サービスプロセッサ
SP1・・・サービスプロセッサ
30・・・計算ノード
40・・・計算ノード
50・・・計算ノード
60・・・サービスプロセッサ間通信路
70・・・サービスプロセッサ間通信路
101・・・通信制御部
102・・・切り替え手段
103・・・通信制御部
104・・・CPU
105・・・折り返し診断通信路
201・・・通信制御部
202・・・切り替え手段
203・・・通信制御部
204・・・CPU
205・・・折り返し診断通信路
DESCRIPTION OF SYMBOLS 1 ... Computer system SP0 ... Service processor SP1 ... Service processor 30 ... Calculation node 40 ... Calculation node 50 ... Calculation node 60 ... Communication path between service processors 70 ... Service Inter-processor communication path 101 ... communication control unit 102 ... switching means 103 ... communication control unit 104 ... CPU
105: Return diagnostic communication channel 201 ... Communication control unit 202 ... Switching means 203 ... Communication control unit 204 ... CPU
205 ... Return diagnostic channel

Claims (6)

コンピュータシステムの制御を行うための第1及び第2サービスプロセッサと、
前記第1及び第2サービスプロセッサの間に接続された第1及び第2サービスプロセッサ間通信路
とを具備し、
前記第1サービスプロセッサは、
前記第1サービスプロセッサ間通信路を通じた通信を制御するための第1通信制御部と、
前記第2サービスプロセッサ間通信路を通じた通信を制御するための第2通信制御部と、
前記第1通信制御部と前記第2通信制御部との間で通信を行うための第1折り返し通信路
とを含み、
前記第2サービスプロセッサは、
前記第1サービスプロセッサ間通信路を通じた通信を制御するための第3通信制御部と、
前記第2サービスプロセッサ間通信路を通じた通信を制御するための第4通信制御部
とを含み、
前記第1サービスプロセッサが第1設定に設定されると、前記第1及び第2通信制御部は、それぞれ、前記第1及び第2サービスプロセッサ間通信路を介して前記第3及び第4通信部と通信可能になり、
前記第1サービスプロセッサが第2設定に設定されると、前記第1通信制御部と前記第2通信制御部とは、前記第1折り返し通信路を介して相互に通信可能になる
コンピュータシステム。
First and second service processors for controlling the computer system;
A communication path between the first and second service processors connected between the first and second service processors;
The first service processor is
A first communication control unit for controlling communication through the communication path between the first service processors;
A second communication control unit for controlling communication through the communication path between the second service processors;
A first return communication path for performing communication between the first communication control unit and the second communication control unit;
The second service processor is
A third communication control unit for controlling communication through the communication path between the first service processors;
A fourth communication control unit for controlling communication through the communication path between the second service processors,
When the first service processor is set to the first setting, the first and second communication control units are respectively connected to the third and fourth communication units via the first and second service processor communication paths. Can communicate with
When the first service processor is set to the second setting, the first communication control unit and the second communication control unit can communicate with each other via the first return communication path.
請求項1に記載のコンピュータシステムであって、
前記第1サービスプロセッサが、前記第1通信制御部と前記第2通信制御部との間の前記第1折り返し通信路を介した通信の通信結果に基づいて、前記第1通信制御部と前記第2通信制御部の異常の検出を行う診断手段を備える
コンピュータシステム。
The computer system according to claim 1,
The first service processor, based on a communication result of communication between the first communication control unit and the second communication control unit via the first return communication path, the first communication control unit and the first communication processor 2. A computer system comprising diagnostic means for detecting an abnormality in the communication control unit.
請求項1又は2に記載のコンピュータシステムであって、
前記第2サービスプロセッサが、更に、前記第3通信制御部と前記第4通信制御部との間で通信を行うための第2折り返し通信路を備え、
前記第2サービスプロセッサが第1設定に設定されると、前記第3及び第4通信制御部は、それぞれ、前記第1及び第2サービスプロセッサ間通信路を介して前記第1及び第2通信部と通信可能になり、
前記第2サービスプロセッサが第2設定に設定されると、前記第3通信制御部と前記第4通信制御部とは、前記第2折り返し通信路を介して相互に通信可能になる
コンピュータシステム。
The computer system according to claim 1 or 2,
The second service processor further includes a second return communication path for performing communication between the third communication control unit and the fourth communication control unit,
When the second service processor is set to the first setting, the third and fourth communication control units are respectively connected to the first and second communication units via the first and second service processor communication paths. Can communicate with
When the second service processor is set to the second setting, the third communication control unit and the fourth communication control unit can communicate with each other via the second return communication path.
コンピュータシステムの制御を行うためのサービスプロセッサであって、
第1サービスプロセッサ間通信路を介した通信を制御するための第1通信制御部と、
第2サービスプロセッサ間通信路を介した通信を制御するための第2通信制御部と、
前記第1通信制御部と前記第2通信制御部との間で通信を行うための折り返し通信路
とを具備し、
前記サービスプロセッサが第1設定に設定されると、前記第1及び第2通信制御部は、それぞれ、前記第1及び第2サービスプロセッサ間通信路を介した通信を実行可能になり、
当該サービスプロセッサが第2設定に設定されると、前記第1通信制御部と前記第2通信制御部は、前記折り返し通信路を通じて相互に通信可能になる
サービスプロセッサ。
A service processor for controlling a computer system,
A first communication control unit for controlling communication via the first inter-service processor communication path;
A second communication control unit for controlling communication via the communication path between the second service processors;
A return communication path for performing communication between the first communication control unit and the second communication control unit;
When the service processor is set to the first setting, the first and second communication control units can execute communication via the communication path between the first and second service processors, respectively.
When the service processor is set to the second setting, the first communication control unit and the second communication control unit can communicate with each other through the return communication path.
請求項3のサービスプロセッサの自己診断のための診断方法であって、
前記第1通信制御部と前記第2通信制御部の間で前記折り返し通信路を通じて通信を実行するステップと、
前記通信の通信結果に基づいて、前記第1及び第2通信制御部の異常を検出するステップ
とを備える
診断方法。
A diagnostic method for self-diagnosis of the service processor of claim 3, comprising:
Executing communication between the first communication control unit and the second communication control unit through the return communication path;
And a step of detecting an abnormality in the first and second communication control units based on a communication result of the communication.
第1サービスプロセッサ間通信路を介した通信を制御するための第1通信制御部と、第2サービスプロセッサ間通信路を介した通信を制御するための第2通信制御部と、前記第1通信制御部と前記第2通信制御部との間で通信を行うための折り返し通信路とを具備するサービスプロセッサを動作させるプログラムであって、
前記第1通信制御部と前記第2通信制御部の間で前記折り返し通信路を通じて通信を実行するステップと、
前記通信の通信結果に基づいて、前記第1及び第2通信制御部の異常を検出するステップ
とを前記サービスプロセッサに実行させる
プログラム。
A first communication control unit for controlling communication via a first inter-service processor communication path; a second communication control unit for controlling communication via a second inter-service processor communication path; and the first communication A program for operating a service processor including a loopback communication path for performing communication between a control unit and the second communication control unit,
Executing communication between the first communication control unit and the second communication control unit through the return communication path;
A program for causing the service processor to execute a step of detecting an abnormality in the first and second communication control units based on a communication result of the communication.
JP2009166357A 2009-07-15 2009-07-15 Computer system, service processor, and diagnostic method thereof Pending JP2011022741A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009166357A JP2011022741A (en) 2009-07-15 2009-07-15 Computer system, service processor, and diagnostic method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009166357A JP2011022741A (en) 2009-07-15 2009-07-15 Computer system, service processor, and diagnostic method thereof

Publications (1)

Publication Number Publication Date
JP2011022741A true JP2011022741A (en) 2011-02-03

Family

ID=43632769

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009166357A Pending JP2011022741A (en) 2009-07-15 2009-07-15 Computer system, service processor, and diagnostic method thereof

Country Status (1)

Country Link
JP (1) JP2011022741A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2015015544A1 (en) * 2013-07-29 2017-03-02 富士通株式会社 Information processing system, apparatus, method, and program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59157752A (en) * 1983-02-25 1984-09-07 Hitachi Ltd Computer test system
JPS62174839A (en) * 1986-01-28 1987-07-31 Nec Corp Recognition system for normalcy of subsystem in duplex system
JPH0683657A (en) * 1992-08-27 1994-03-25 Hitachi Ltd Service processor switching system
JPH10154085A (en) * 1996-11-21 1998-06-09 Fujitsu Ltd System supervisory and controlling method by dual supervisory/controlling processor and dual supervisory/ controlling processor system
JP2007207090A (en) * 2006-02-03 2007-08-16 Canon Inc Operation verification method for recording device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59157752A (en) * 1983-02-25 1984-09-07 Hitachi Ltd Computer test system
JPS62174839A (en) * 1986-01-28 1987-07-31 Nec Corp Recognition system for normalcy of subsystem in duplex system
JPH0683657A (en) * 1992-08-27 1994-03-25 Hitachi Ltd Service processor switching system
JPH10154085A (en) * 1996-11-21 1998-06-09 Fujitsu Ltd System supervisory and controlling method by dual supervisory/controlling processor and dual supervisory/ controlling processor system
JP2007207090A (en) * 2006-02-03 2007-08-16 Canon Inc Operation verification method for recording device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2015015544A1 (en) * 2013-07-29 2017-03-02 富士通株式会社 Information processing system, apparatus, method, and program

Similar Documents

Publication Publication Date Title
JP4882845B2 (en) Virtual computer system
EP1703401A2 (en) Information processing apparatus and control method therefor
JP2000181501A (en) Duplex controller
JPH07334382A (en) Multicontroller system
JP2007299213A (en) Raid controller and fault monitoring method
JP2016192158A (en) Abnormality determination device, abnormality determination method, and abnormality determination program
KR100279204B1 (en) Dual Controlling Method of Local Controller for An Automatic Control System and an Equipment thereof
JP2012128573A (en) Duplex system and building management system using the same
JP2011022741A (en) Computer system, service processor, and diagnostic method thereof
JP4655718B2 (en) Computer system and control method thereof
JP2014215622A (en) Plant monitoring system and plant monitoring method
JP6089766B2 (en) Information processing system and failure processing method for information processing apparatus
JP2007249389A (en) Cluster system and its failure detection method
JP5596322B2 (en) Multiplexed service processor, fault processing method for multiplexed service processor, and program
JPH02216542A (en) Diagnosis execution control system
JP4348485B2 (en) Process control device
JP2007233667A (en) Method of detecting fault
JP2015106226A (en) Dual system
JP4613019B2 (en) Computer system
JP2006323551A (en) Plant control system
KR100604552B1 (en) Method for dealing with system troubles through joint-owning of state information and control commands
JP4623001B2 (en) Fault isolation system, fault isolation method, and program
JPH04223534A (en) Information processing system
JP2007018026A (en) Controller
JP2704137B2 (en) Current / spare switching method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140129

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140527