Nothing Special   »   [go: up one dir, main page]

CN111679956A - 一种带外管理系统及管理方法 - Google Patents

一种带外管理系统及管理方法 Download PDF

Info

Publication number
CN111679956A
CN111679956A CN202010376284.XA CN202010376284A CN111679956A CN 111679956 A CN111679956 A CN 111679956A CN 202010376284 A CN202010376284 A CN 202010376284A CN 111679956 A CN111679956 A CN 111679956A
Authority
CN
China
Prior art keywords
data
module
hardware
alarm
remote
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010376284.XA
Other languages
English (en)
Inventor
程斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhengwang Information Technology Co ltd
Original Assignee
Shanghai Zhengwang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhengwang Information Technology Co ltd filed Critical Shanghai Zhengwang Information Technology Co ltd
Priority to CN202010376284.XA priority Critical patent/CN111679956A/zh
Publication of CN111679956A publication Critical patent/CN111679956A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明的一种带外管理系统及管理方法,属于互联网技术领域。包括数据处理模块、远程诊断模块、远程管理模块、数据交互模块和远程监控模块,远程监控模块包括硬件监控单元和存储监控单元,通过硬件监控单元和存储监控单元对机房内的硬件和存储进行实时监控并将信息通过数据交互模块输送给远程管理模块,数据交互模块通过网络连接服务器的管理口实现,当硬件设备出现故障时能及时发现、实时告警。带外方式通过服务器的管理口实现,不需要在每台服务器上安装代理软件,可以减少对操作系统的影响,并实现与操作系统的无关性,而且可以实现远程的电源管理、虚拟KVM、虚拟媒体功能。不需要人工巡查机房,节约了人工成本。

Description

一种带外管理系统及管理方法
技术领域
本发明属于互联网技术领域,具体来说是一种带外管理系统及管理方法。
背景技术
随着发展,数据中心硬件设备类型和数量都在增加,在硬件层的监控方面,缺少一套统一的平台来实现跨厂商、跨硬件平台的集中监控和管理。目前的监控方式只能采用人工到机房定时巡检,这种方法效率低下,而且当设备出现问题时发现问题不及时的办法。当需要开展设备重启、软件安装、操控配置等工作时,运维人员前往现场处理需要一定的时间成本,而人员进出机房,也给机房管理带来安全隐患。根据业界的发展趋势,机房的无人值守和自动运维管理技术已经成熟,在金融行业、互联网行业已广泛商用。
因此,有必要开展机房自动化运维工具的建设,帮助提高运维效率,降低运维成本;同时可以缩短故障恢复时长,降低故障发生率。本次拟建设硬件带外管理系统,对数据中心硬件x86服务器、小型机、存储等设备实现实时高效主动的监控这些硬件设备的工作状态,当硬件设备出现故障时能及时发现、实时告警。带外方式通过服务器的管理口实现,不需要在每台服务器上安装代理软件,可以减少对操作系统的影响,并实现与操作系统的无关性,而且可以实现远程的电源管理、虚拟KVM、虚拟媒体功能。
远程管理与本地管理一个最大的区别就是一旦服务器出现故障,无论什么问题本地管理人员可以及时到达服务器现场,进行故障处理。因此建设一套统一硬件监控平台支持对服务器的远程管理是很有必要的,它可以协助管理人员实现对异地服务器管理,包括:远程诊断、ROM升级、配置和系统维护,无需赶到现场。
发明内容
1.发明要解决的技术问题
本发明的目的在于解决现有的机房通过实际人员进行现场管理成本高且管理不够及时的问题。
2.技术方案
为达到上述目的,本发明提供的技术方案为:
本发明的一种带外管理系统,包括数据处理模块、远程诊断模块、远程管理模块、数据交互模块和远程监控模块,所述远程监控模块包括硬件监控单元和存储监控单元,所述硬件监控单元连接有电源控制单元,所述存储监控单元连接有数据备份单元,所述硬件监控单元用于对机房内的硬件进行监控并将数据输送给数据交互模块,数据交互模块将数据输送给远程管理模块,所述数据交互模块用于传输数据,所述远程管理模块将接收到的数据输送给数据处理模块,该数据处理模块对数据进行监测和记录并将数据可视化通过数据显示单元进行显示,所述数据处理模块还连接有远程诊断模块,该远程诊断模块用于对数据处理模块处理后的数据进行诊断,当出现数据异常时通过远程诊断模块的自动告警单元进行告警。
优选的,所述远程监控模块设为若干个监控子模块,若干个监控子模块分别监控一定数量的硬件设备。
优选的,所述硬件监控单元收集前置面板的状态、CPU、内存、磁盘阵列卡、物理磁盘、逻辑磁盘、网卡、远程管理卡、电源、风扇、温度、电压和序列号等硬件状态、配置等信息数据。
一种带外管理系统的管理方法,采用上述所述的带外管理系统,所述方法为通过硬件监控单元对机房内的硬件状态进行记录并将数据通过数据交互模块输送给云端的远程管理模块,远程管理模块将接收的数据通过数据处理模块进行整合处理。
优选的,所述存储监控单元对存储进行监控并定时通过数据备份单元进行备份。
优选的,所述自动告警单元建立告警平台并将数据进行集中,设置有告警阀值,根据告警阀值产生告警通知,同时将告警信息记录日志。
优选的,所述硬件监控单元和存储监控单元还可以对硬件和存储进行远程开关机或重启操作。
优选的,所述远程诊断模块控制硬件监控单元和存储监控单元定时对硬件和存储进行巡检并生成巡检报告进行存储。
优选的,所述自动告警单元的告警平台还以不同颜色表示不同类型的事件及严重程度,在同一窗口显示事件的来源、时间、原因等详细信息。
优选的,所述自动告警单元通过微信告警、邮件告警、短信告警、弹出页面告警、声音告警等方式进行告警。
3.有益效果
采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
本发明的一种带外管理系统及管理方法,包括数据处理模块、远程诊断模块、远程管理模块、数据交互模块和远程监控模块,远程监控模块包括硬件监控单元和存储监控单元,硬件监控单元连接有电源控制单元,存储监控单元连接有数据备份单元,硬件监控单元用于对机房内的硬件进行监控并将数据输送给数据交互模块,数据交互模块将数据输送给远程管理模块,数据交互模块用于传输数据,远程管理模块将接收到的数据输送给数据处理模块,该数据处理模块对数据进行监测和记录并将数据可视化通过数据显示单元进行显示,数据处理模块还连接有远程诊断模块,该远程诊断模块用于对数据处理模块处理后的数据进行诊断,当出现数据异常时通过远程诊断模块的自动告警单元进行告警。通过硬件监控单元和存储监控单元对机房内的硬件和存储进行实时监控并将信息通过数据交互模块输送给远程管理模块,数据交互模块通过网络连接服务器的管理口实现,当硬件设备出现故障时能及时发现、实时告警。带外方式通过服务器的管理口实现,不需要在每台服务器上安装代理软件,可以减少对操作系统的影响,并实现与操作系统的无关性,而且可以实现远程的电源管理、虚拟KVM、虚拟媒体功能。不需要人工巡查机房,节约了人工成本。
附图说明
图1为本发明的一种带外管理系统的结构示意图。
示意图中的标号说明:
100、数据处理模块;110、数据显示单元;200、远程诊断模块;210、自动告警单元;300、远程管理模块;400、数据交互模块;500、远程监控模块;510、硬件监控单元;520、电源控制单元;530、存储监控单元;540、数据备份单元。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述,附图中给出了本发明的若干实施例,但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同;本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明;本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例1
参照附图1,本实施例的一种带外管理系统,包括数据处理模块100、远程诊断模块200、远程管理模块300、数据交互模块400和远程监控模块500,远程监控模块500包括硬件监控单元510和存储监控单元530,硬件监控单元510连接有电源控制单元520,存储监控单元530连接有数据备份单元540,硬件监控单元510用于对机房内的硬件进行监控并将数据输送给数据交互模块400,数据交互模块400将数据输送给远程管理模块300,数据交互模块400用于传输数据,远程管理模块300将接收到的数据输送给数据处理模块100,该数据处理模块100对数据进行监测和记录并将数据可视化通过数据显示单元110进行显示,数据处理模块100还连接有远程诊断模块200,该远程诊断模块200用于对数据处理模块100处理后的数据进行诊断,当出现数据异常时通过远程诊断模块200的自动告警单元210进行告警。通过硬件监控单元510和存储监控单元530对机房内的硬件和存储进行实时监控并将信息通过数据交互模块400输送给远程管理模块300,数据交互模块400通过网络连接服务器的管理口实现,当硬件设备出现故障时能及时发现、实时告警。带外方式通过服务器的管理口实现,不需要在每台服务器上安装代理软件,可以减少对操作系统的影响,并实现与操作系统的无关性,而且可以实现远程的电源管理、虚拟KVM、虚拟媒体功能。不需要人工巡查机房,节约了人工成本。
本实施例的远程监控模块500设为若干个监控子模块,若干个监控子模块分别监控一定数量的硬件设备。当其中一个监控子模块发生故障时,该故障监控子模块的管理设备自动分配后其余未故障的监控子模块。硬件监控单元510收集前置面板的状态、CPU、内存、磁盘阵列卡、物理磁盘、逻辑磁盘、网卡、远程管理卡、电源、风扇、温度、电压和序列号等硬件状态、配置等信息数据。
实施例2
一种带外管理系统的管理方法,采用上述的带外管理系统,方法为通过硬件监控单元510对机房内的硬件状态进行记录并将数据通过数据交互模块400输送给云端的远程管理模块300,远程管理模块300将接收的数据通过数据处理模块100进行整合处理。存储监控单元530对存储进行监控并定时通过数据备份单元540进行备份。硬件监控单元510和存储监控单元530还可以对硬件和存储进行远程开关机或重启操作。远程诊断模块200控制硬件监控单元510和存储监控单元530定时对硬件和存储进行巡检并生成巡检报告进行存储。
自动告警单元210建立告警平台并将数据进行集中,设置有告警阀值,根据告警阀值产生告警通知,同时将告警信息记录日志。自动告警单元210的告警平台还以不同颜色表示不同类型的事件及严重程度,在同一窗口显示事件的来源、时间、原因等详细信息。自动告警单元210通过微信告警、邮件告警、短信告警、弹出页面告警、声音告警等方式进行告警。
以上所述实施例仅表达了本发明的某种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制;应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围;因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种带外管理系统,其特征在于:包括数据处理模块(100)、远程诊断模块(200)、远程管理模块(300)、数据交互模块(400)和远程监控模块(500),所述远程监控模块(500)包括硬件监控单元(510)和存储监控单元(530),所述硬件监控单元(510)连接有电源控制单元(520),所述存储监控单元(530)连接有数据备份单元(540),所述硬件监控单元(510)用于对机房内的硬件进行监控并将数据输送给数据交互模块(400),数据交互模块(400)将数据输送给远程管理模块(300),所述数据交互模块(400)用于传输数据,所述远程管理模块(300)将接收到的数据输送给数据处理模块(100),该数据处理模块(100)对数据进行监测和记录并将数据可视化通过数据显示单元(110)进行显示,所述数据处理模块(100)还连接有远程诊断模块(200),该远程诊断模块(200)用于对数据处理模块(100)处理后的数据进行诊断,当出现数据异常时通过远程诊断模块(200)的自动告警单元(210)进行告警。
2.根据权利要求1所述的一种带外管理系统,其特征在于:所述远程监控模块(500)设为若干个监控子模块,若干个监控子模块分别监控一定数量的硬件设备。
3.根据权利要求1所述的一种带外管理系统,其特征在于:所述硬件监控单元(510)收集前置面板的状态、CPU、内存、磁盘阵列卡、物理磁盘、逻辑磁盘、网卡、远程管理卡、电源、风扇、温度、电压和序列号等硬件状态、配置等信息数据。
4.一种带外管理系统的管理方法,其特征在于:采用上述权利要求1~3任一项所述的带外管理系统,所述方法为通过硬件监控单元(510)对机房内的硬件状态进行记录并将数据通过数据交互模块(400)输送给云端的远程管理模块(300),远程管理模块(300)将接收的数据通过数据处理模块(100)进行整合处理。
5.根据权利要求4所述的一种带外管理系统的管理方法,其特征在于:所述存储监控单元(530)对存储进行监控并定时通过数据备份单元(540)进行备份。
6.根据权利要求4所述的一种带外管理系统的管理方法,其特征在于:所述自动告警单元(210)建立告警平台并将数据进行集中,设置有告警阀值,根据告警阀值产生告警通知,同时将告警信息记录日志。
7.根据权利要求4所述的一种带外管理系统的管理方法,其特征在于:所述硬件监控单元(510)和存储监控单元(530)还可以对硬件和存储进行远程开关机或重启操作。
8.根据权利要求4所述的一种带外管理系统的管理方法,其特征在于:所述远程诊断模块(200)控制硬件监控单元(510)和存储监控单元(530)定时对硬件和存储进行巡检并生成巡检报告进行存储。
9.根据权利要求6所述的一种带外管理系统的管理方法,其特征在于:所述自动告警单元(210)的告警平台还以不同颜色表示不同类型的事件及严重程度,在同一窗口显示事件的来源、时间、原因等详细信息。
10.根据权利要求6所述的一种带外管理系统的管理方法,其特征在于:所述自动告警单元(210)通过微信告警、邮件告警、短信告警、弹出页面告警、声音告警等方式进行告警。
CN202010376284.XA 2020-05-07 2020-05-07 一种带外管理系统及管理方法 Pending CN111679956A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010376284.XA CN111679956A (zh) 2020-05-07 2020-05-07 一种带外管理系统及管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010376284.XA CN111679956A (zh) 2020-05-07 2020-05-07 一种带外管理系统及管理方法

Publications (1)

Publication Number Publication Date
CN111679956A true CN111679956A (zh) 2020-09-18

Family

ID=72451750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010376284.XA Pending CN111679956A (zh) 2020-05-07 2020-05-07 一种带外管理系统及管理方法

Country Status (1)

Country Link
CN (1) CN111679956A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112363442A (zh) * 2020-10-19 2021-02-12 云南电网有限责任公司 一种机房设备故障告警预测侦测与处置的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329564A (zh) * 2008-07-25 2008-12-24 北京劲源信科技有限公司 一种机房管理系统
CN103200050A (zh) * 2013-04-12 2013-07-10 北京百度网讯科技有限公司 服务器的硬件状态监控方法和系统
US20150127814A1 (en) * 2013-11-07 2015-05-07 Inventec Corporation Monitoring Server Method
CN105450472A (zh) * 2015-12-03 2016-03-30 广州云新信息技术有限公司 一种自动获取服务器物理部件状态的方法及装置
CN105450765A (zh) * 2015-12-03 2016-03-30 广州云新信息技术有限公司 一种服务器kvm远程控制方法及装置
CN106227636A (zh) * 2016-07-20 2016-12-14 国网安徽省电力公司信息通信分公司 一种基于ipmi的数据中心带外管理系统
CN110851322A (zh) * 2019-10-11 2020-02-28 平安科技(深圳)有限公司 硬件设备异常监控方法、服务器及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329564A (zh) * 2008-07-25 2008-12-24 北京劲源信科技有限公司 一种机房管理系统
CN103200050A (zh) * 2013-04-12 2013-07-10 北京百度网讯科技有限公司 服务器的硬件状态监控方法和系统
US20150127814A1 (en) * 2013-11-07 2015-05-07 Inventec Corporation Monitoring Server Method
CN105450472A (zh) * 2015-12-03 2016-03-30 广州云新信息技术有限公司 一种自动获取服务器物理部件状态的方法及装置
CN105450765A (zh) * 2015-12-03 2016-03-30 广州云新信息技术有限公司 一种服务器kvm远程控制方法及装置
CN106227636A (zh) * 2016-07-20 2016-12-14 国网安徽省电力公司信息通信分公司 一种基于ipmi的数据中心带外管理系统
CN110851322A (zh) * 2019-10-11 2020-02-28 平安科技(深圳)有限公司 硬件设备异常监控方法、服务器及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张轶;: "IPMI技术标准在服务器集中管理中的应用" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112363442A (zh) * 2020-10-19 2021-02-12 云南电网有限责任公司 一种机房设备故障告警预测侦测与处置的方法

Similar Documents

Publication Publication Date Title
US6199180B1 (en) Computer management system
CN104639380A (zh) 服务器监控方法
JP2001325124A (ja) 計算機、システム管理支援装置及び管理方法
CN103500133A (zh) 故障定位方法及装置
CN102087511A (zh) 利用电源供应器执行电子系统远程监控的方法
JP2013130901A (ja) 監視サーバおよびそれを用いたネットワーク機器復旧システム
JP3653335B2 (ja) コンピュータ管理システム
CN100498733C (zh) 一种实现计算机故障报警控制的方法
CN111679956A (zh) 一种带外管理系统及管理方法
KR101023533B1 (ko) 고속철도 에이티시의 실시간 원격복구 시스템 및 그 제어방법
CN101388258A (zh) 一种核电机组及其报警信息控制方法和系统
CN106407081B (zh) 一种机箱管理系统及服务器
WO2023125702A1 (zh) 换电站的云管理方法、系统、服务器及存储介质
CN113868001B (zh) 一种内存修复结果的检查方法、系统及计算机存储介质
CN115981906A (zh) 设备的故障处理方法、设备的故障处理系统
CN116149954A (zh) 一种服务器智能运维系统及其方法
CN101741654B (zh) 操作系统的监控装置与方法
JP3794358B2 (ja) 電源制御方法
CN114003426A (zh) 故障处理方法、系统和电子设备
CN113342623B (zh) 基于动态阈值方法的可视化预警系统及方法
CN116820618A (zh) 一种控制方法及装置
JPH05265812A (ja) マイクロ診断装置付情報処理装置
CN115223343A (zh) 一种控制方法、装置、系统、设备及存储介质
CN100442710C (zh) 可监视服务器的计算机网络系统及相关监视服务器的方法
KR20240088072A (ko) 배터리 충전스테이션의 자가 복구 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200918