Nothing Special   »   [go: up one dir, main page]

KR102294461B1 - 클라우드 환경에서 네트워크 장애 관리를 수행하는 방법 및 네트워크 장애 관리 시스템 - Google Patents

클라우드 환경에서 네트워크 장애 관리를 수행하는 방법 및 네트워크 장애 관리 시스템 Download PDF

Info

Publication number
KR102294461B1
KR102294461B1 KR1020190140272A KR20190140272A KR102294461B1 KR 102294461 B1 KR102294461 B1 KR 102294461B1 KR 1020190140272 A KR1020190140272 A KR 1020190140272A KR 20190140272 A KR20190140272 A KR 20190140272A KR 102294461 B1 KR102294461 B1 KR 102294461B1
Authority
KR
South Korea
Prior art keywords
unit
policy
failure management
threshold value
performance measurement
Prior art date
Application number
KR1020190140272A
Other languages
English (en)
Other versions
KR20210054302A (ko
Inventor
김영한
원호준
Original Assignee
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단 filed Critical 숭실대학교산학협력단
Priority to KR1020190140272A priority Critical patent/KR102294461B1/ko
Priority to PCT/KR2020/005611 priority patent/WO2021091035A1/ko
Priority to US17/774,248 priority patent/US12015537B2/en
Publication of KR20210054302A publication Critical patent/KR20210054302A/ko
Application granted granted Critical
Publication of KR102294461B1 publication Critical patent/KR102294461B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0695Management of faults, events, alarms or notifications the faulty arrangement being the maintenance, administration or management system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0894Policy-based network configuration management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0895Configuration of virtualised networks or elements, e.g. virtualised network function or OpenFlow elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0896Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/40Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/20Arrangements for monitoring or testing data switching networks the monitoring system or the monitored elements being virtualised, abstracted or software-defined entities, e.g. SDN or NFV

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

클라우드 환경에서 네트워크 장애 관리를 수행하는 방법 및 네트워크 장애 관리 시스템을 개시한다. 본 발명의 다른 일 실시예에 따른 클라우드 환경에서 네트워크 장애 관리를 수행하는 방법은 성능측정부에서 대상 서버의 성능을 측정하고 측정 결과를 장애관리부로 전달하는 단계, 장애관리부에서 전달된 측정 결과에 기초하여, 대상 호스트를 위한 임계값 및 정책을 결정하는 단계, 장애관리부에서 결정된 임계값과 정책을 포함하는 템플릿화된 정보를 생성하는 단계, 장애관리부가 템플릿화된 정보를 모니터링부로 전달하는 단계 및 전달된 정보에 기초하여, 모니터링부에서 대상 호스트의 모니터링 정책을 설정하는 단계를 포함한다.

Description

클라우드 환경에서 네트워크 장애 관리를 수행하는 방법 및 네트워크 장애 관리 시스템{METHOD FOR PERFORMING NETWORK FAULT MANAGEMENT AND NETWORK FAULT MANAGEMENT SYSTEM IN CLOUD ENVIRONMENT}
본 발명은 클라우드 환경에서 네트워크 장애 관리를 수행하는 방법 및 네트워크 장애 관리 시스템에 관한 것이다.
점차 네트워크 환경이 클라우드화 되어감에 따라, 네트워크 장애 관리 시스템에 대한 수요가 증가하고 있다. 네트워크 장애 관리 시스템은 클라우드 환경에서 다양한 종류의 네트워크 서비스, 서버 등의 네트워크 하드웨어를 모니터링하여, 장애 발생시 관리자에게 장애 발생을 신속하게 알리고, 이에 관한 대응이 가능하게 하는 시스템을 통칭한다. 클라우드 시스템은 네트워크 장애 관리 시스템을 통해서 가용성이 증가될 수 있다.
한편 네트워크 장애 관리 시스템은 알람 이벤트를 발생시키는 데 판단기준이 되는 임계값을 설정하는데, 대상 서버의 성능과 무관한 임계값이 설정되면 클라우드 시스템의 가용성을 높이는 데 한계가 있다. 따라서, 클라우스 시스템의 가용성을 더욱 높힐 수 있는 네트워크 장애 관리 시스템에 대한 연구가 진행 중에 있다.
대한민국 등록특허공보 제10-1702583호(2017.2.3)
상술한 문제점을 해결하기 위해 본 발명은 성능측정부를 활용하여 클라우드 시스템의 정확한 임계값을 설정하고 모니터링부에 정보를 전달하여 시스템의 가용성을 높이는 네트워크 장애 관리 시스템 및 네트워크 장애 관리를 수행하는 방법을 제공하고자 한다.
상술한 목적을 달성하기 위한 본 발명의 일 실시예에 따른 클라우드 환경을 위한 네트워크 장애 관리 시스템은 대상 서버의 성능을 측정하고 측정 결과를 출력하는 성능측정부, 성능측정부에 의해 출력된 측정 결과를 수신하여 분석하고, 분석 결과에 기초하여 대상 호스트를 위한 임계값 및 정책을 결정하고, 결정 결과를 출력하는, 장애관리부 및 장애관리부에 의해 출력된 결정 결과에 기초하여, 대상 호스트의 모니터링 정책을 설정하는, 모니터링부를 포함한다.
바람직하게는, 일 실시예에 따른 네트워크 장애 관리 시스템의 장애관리부는 성능측정부에 대상 서버의 성능 측정을 요청하고, 성능 측정 결과를 수신하는, 성능 측정 게이트웨이, 대상 호스트를 위한 임계값과 정책을 결정하는, 평가부, 임계값과 정책을 포함한 템플릿화된 정보를 송신하면 모니터링부에 전달하는, 모니터링부 게이트웨이 및 성능 측정 게이트웨이로부터 수신된 대상 서버의 성능 측정 결과를 평가부로 송신하고, 평가부로부터 대상 호스트를 위한 임계값과 정책을 수신하면 임계값과 정책을 포함하는 템플릿화된 정보를 생성하여 모니터링부 게이트웨이로 전달하는, 플러그인 관리부를 포함할 수 있다.
바람직하게는, 모니터링부 게이트웨이는 모니터링부로부터 실시간으로 데이터를 전달받아 소정의 주기에 따라 대상 호스트를 검증할 수 있다.
바람직하게는, 평가부는 규칙 기반 계산 방법 또는 머신 러닝 기반 계산 방법 중 적어도 하나에 기초하여, 임계값을 계산할 수 있다.
바람직하게는, 모니터링부가 자빅스(Zabbix)에 기초하여 구현된 경우, 템플릿화된 정보는 아이템, 임계값(trigger) 및 수행 동작(action) 중 적어도 하나를 포함하고, 모니터링부는 자빅스 API 및 스크립트에 기초하여 모니터링할 대상 호스트를 설정하고 업데이트할 수 있다.
본 발명의 다른 일 실시예에 따른 클라우드 환경에서 네트워크 장애 관리를 수행하는 방법은 성능측정부에서 대상 서버의 성능을 측정하고 측정 결과를 장애관리부로 전달하는 단계, 장애관리부에서 전달된 측정 결과에 기초하여, 대상 호스트를 위한 임계값 및 정책을 결정하는 단계, 장애관리부에서 결정된 임계값과 정책을 포함하는 템플릿화된 정보를 생성하는 단계, 장애관리부가 템플릿화된 정보를 모니터링부로 전달하는 단계 및 전달된 정보에 기초하여, 모니터링부에서 대상 호스트의 모니터링 정책을 설정하는 단계를 포함한다.
본 발명에 따른 네트워크 장애 관리 시스템 및 네트워크 장애 관리를 수행하는 방법은 대상 서버의 성능에 따라 대상 호스트를 위한 정확한 임계값을 설정하기 때문에, 시스템의 가용성을 향상시키는 효과가 있다.
또한, 본 발명에 따른 네트워크 장애 관리 시스템 및 네트워크 장애 관리를 수행하는 방법은 성능측정부가 대상 서버의 성능을 측정하고, 검증 결과에 따라 결정된 정책을 모니터링부에 전달하므로, 현재 대상 서버의 상태를 반영한 모니터링부의 정책을 설정할 수 있다.
도 1은 종래의 자빅스(Zabbix) 오픈스택 연동 구조를 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 네트워크 장애 관리 시스템을 나타내는 블록도이다.
도 3은 본 발명의 일 실시예에 따른 네트워크 장애 관리 시스템의 장애관리부를 나타내는 블록도이다.
도 4는 본 발명의 일 실시예에 따른 네트워크 장애 관리 시스템의 내/외부 연동 구조를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따라 클라우드 환경에서 네트워크 장애 관리를 수행하는 방법을 설명하기 위한 흐름도이다.
도 6은 본 발명의 다른 실시예에 따른, 클라우드 환경에서 네트워크 장애 관리를 수행하는 방법을 설명하기 위한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면을 참조하여 상세하게 설명하도록 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재 항목들의 조합 또는 복수의 관련된 기재 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급될 때에는 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 포함한다고 할때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있다는 것을 의미한다.
이하, 첨부된 도면을 참조하여 본 발명에 대해 상세하게 설명한다.
도 1은 종래의 자빅스(Zabbix) 오픈스택 연동 구조를 설명하기 위한 도면이다.
클라우드 시스템의 가용성을 향상시키기 위해 다양한 모니터링부가 개발된 바 있다. 대표적인 오픈소스 클라우드인 오픈스택에서는 자빅스와 VNFM간의 연동을 통해 클라우드 시스템의 모니터링 구조가 제안되었다. 자빅스는 클라우드 환경을 위한 네트워크 장애 관리 시스템 중 하나이다.
그림 1을 참고하면, 자빅스는 자빅스 서버(Zabbix server)와 자빅스 에이전트(Zabbix agent)를 포함한다. 이 중에서 자빅스 에이전트(Zabbix agent)는 대상 서버에 설치되어 하드웨어의 상태, 가동되는 가상 머신 및 어플리케이션들에 대한 정보를 자빅스 서버(Zabbix server)로 전달한다. 자빅스 서버(Zabbix server)는 전달된 정보를 분석해 관리자가 자빅스 플러그인(Zabbix Plugin)을 통하여 구성한 템플릿의 임계값에 따라 알람 이벤트를 발생시키고 정책에 따른 조치를 스크립트 형태로 자빅스 에이전트(Zabbix agent)에게 전달하여 클라우드 시스템의 가용성을 높인다.
그러나, 도 1의 네트워크 장애 관리 시스템은 클라우드 시스템의 상태와 무관한 임계값이 설정되기 때문에, 클라우드 시스템의 가용성을 향상시키는 데에는 제한이 있다. 따라서, 클라우드 시스템의 가용성을 더 높힐 수 있는 구조가 요구된다.
도 2는 본 발명의 일 실시예에 따른 네트워크 장애 관리 시스템을 나타내는 블록도이다.
일 실시예에 따른 네트워크 장애 관리 시스템은 성능측정부를 이용하여 클라우드 시스템의 정확한 임계값을 설정하고 모니터링부로부터 정보를 전달받아 시스템의 가용성을 높이는 시스템을 개시한다.
한편 관리자가 시스템 자원의 상태에 따른 정확한 임계값을 설정하기 위해서는 시스템의 캐패시티(Capacity)를 확인할 수 있는 성능 측정이 필요하다. 그런데, OPNFV(An Open Platform to accelerate Network. Functions Virtualisation)의 Yardstick은 관리자가 테스트할 시나리오를 설정하고 클라우드 환경에 배포하여 시나리오의 실행 결과값을 관리자에게 전달하는 기능을 제공할 수 있다. 따라서 Yardstick을 사용하여 실제 관리자가 구성하려는 시스템을 테스트하고 임계값을 확인할 수 있다.
다른 실시예에 따른 네트워크 장애 관리 시스템(200)은 성능측정부(210), 장애관리부(220) 및 모니터링부(230)를 포함할 수 있다.
성능측정부(210)는 대상 서버의 성능을 측정하고 측정 결과를 출력할 수 있다.
장애관리부(220)는 성능측정부(210)에 의해 출력된 측정 결과를 수신하여 분석하고, 분석 결과에 기초하여 대상 호스트를 위한 임계값 및 정책을 결정하고, 결정 결과를 출력할 수 있다.
모니터링부(230)는 장애관리부(220)에 의해 출력된 결정 결과에 기초하여, 대상 호스트의 모니터링 정책을 설정할 수 있다.
도 3은 본 발명의 일 실시예에 따른 네트워크 장애 관리 시스템의 장애관리부를 나타내는 블록도이다.
일 실시예에 따른 장애관리부(300)는 성능 측정 게이트웨이(310), 평가부(320) 및 모니터링부 게이트웨이(330) 및 플러그인 관리부(340)를 포함할 수 있다.
성능 측정 게이트웨이(310)는 성능측정부에 대상 서버의 성능 측정을 요청하고, 성능 측정 결과를 수신할 수 있다.
평가부(320)는 대상 호스트를 위한 임계값과 정책을 결정할 수 있다. 이때, 평가부(320)는 임계값을 계산하기 위해서, 규칙 기반(Rule-Based) 방법 및 머신 러닝(Machine Learning)에 기반한 방법 중 적어도 하나를 활용할 수 있다. 이중에서 규칙 기반의 방법은 분석에 필요한 데이터 수집이 필요 없지만 대상 서버의 모든 상황에 대한 대응이 어렵다는 단점이 있다. 반면, 머신 러닝에 기반한 방법의 경우 초기 학습 비용은 비교적 고가이지만, 시간이 경과될수록 성능이 높아지며 학습된 모델로 입력시키지 않은 상황에 대해서도 예측이 가능해 다양한 상황에 대한 대응이 가능하다. 따라서, 일 실시예에 따른 네트워크 장애 관리 시스템의 평가부(320)는 시스템의 구체적인 요구사항에 따라 규칙 기반 방법 및 머신 러닝에 기반한 방법 중 적어도 하나를 이용하여 임계값을 계산할 수 있다.
모니터링부 게이트웨이(330)는 임계값과 정책을 포함한 템플릿화된 정보를 송신하면, 템플릿화된 정보를 모니터링부에 전달할 수 있다. 또한, 모니터링부 게이트웨이(330)는 모니터링부로부터 실시간으로 데이터를 전달받아 소정의 주기에 따라 대상 호스트를 검증할 수 있다.
플러그인 관리부(340)는 성능 측정 게이트웨이(310)로부터 수신된 대상 서버의 성능 측정 결과를 평가부(320)로 송신하고, 평가부(320)로부터 대상 호스트를 위한 임계값과 정책을 수신하면 임계값과 정책을 포함하는 템플릿화된 정보를 생성하여 모니터링부 게이트웨이(330)로 전달할 수 있다.
또한, 플러그인 관리부(340)는 성능 측정 게이트웨이(310)가 사용자 환경에서 사용할 성능측정부에 API 요청을 하여 시스템의 성능 측정을 수행하도록 하고, 해당 측정 결과 값을 전달 받을 수 있다. 이러한 경우, 플러그인 관리부(340)는 평가부(320)에 요청하여 대상 호스트를 위한 임계값과 정책을 수신하고, 임계값과 정책을 포함한 템플릿화된 정보를 생성하여 모니터링부 게이트웨이(330)로 전달할 수 있다.
도 4는 본 발명의 일 실시예에 따른 네트워크 장애 관리 시스템의 내/외부 연동 구조를 설명하기 위한 도면이다.
본 발명의 일 실시예에 따른 네트워크 장애 관리 시스템(400)은 다양한 모니터링부(monitoring tools), 성능측정부(testing tool 1 내지 testing tool 5) 및 장애관리부(410)를 포함할 수 있다.
성능측정부(testing tool 1 내지 testing tool 5)가 대상 서버(Target server)의 성능을 측정하여 클라우드 환경을 고려한 실제 퍼포먼스를 검증하고 검증 결과를 장애관리부(410)로 전달하면, 장애관리부(410)는 검증 결과를 분석할 수 있다.
또한 장애관리부(410)는 분석 결과를 통해 현재 시스템의 퍼포먼스 레벨에 맞는 정책을 사용할 모니터링부(monitoring tools)의 APIs 형식에 맞게 변환하여 모니터링부(monitoring tools)에 APIs 요청을 한다.
본 발명의 네트워크 장애 관리 시스템(400)은 성능측정부(testing tool 1 내지 testing tool 5)를 통해, 현재 시스템 상태를 반영한 모니터링부(monitoring tools)의 정책을 설정할 수 있기 때문에, 시스템 상태의 실시간 반영과 정책 설정의 자동화가 가능하다.
도 5는 본 발명의 일 실시예에 따라 클라우드 환경에서 네트워크 장애 관리를 수행하는 방법을 설명하기 위한 흐름도이다.
단계 510에서, 성능측정부에서 대상 서버의 성능을 측정하고 측정 결과를 장애관리부로 전달할 수 있다.
단계 520에서, 장애관리부에서 전달된 측정 결과에 기초하여, 대상 호스트를 위한 임계값 및 정책을 결정할 수 있다. 이때, 장애관리부의 평가부는 규칙 기반 계산 방법 또는 머신 러닝 기반 계산 방법 중 적어도 하나에 기초하여, 임계값을 계산할 수 있다.
단계 530에서, 장애관리부에서 결정된 임계값 및 정책을 포함하는 템플릿화된 정보를 생성할 수 있다.
단계 540에서, 장애관리부가 템플릿화된 정보를 모니터링부로 전달할 수 있다.
단계 550에서, 전달된 정보에 기초하여, 모니터링부가 대상 호스트의 모니터링 정책을 설정할 수 있다. 이때 장애관리부의 모니터링부 게이트웨이는 모니터링부로부터 실시간으로 데이터를 전달받아 소정의 주기에 따라 대상 호스트를 검증할 수 있다.
만약 모니터링부가 자빅스(Zabbix)에 기초하여 구현된 경우, 템플릿화된 정보는 아이템, 임계값(trigger) 및 수행 동작(action) 중 적어도 하나를 포함하고, 모니터링부는 자빅스 API 및 스크립트에 기초하여 모니터링할 대상 호스트를 설정하고 업데이트할 수 있다.
도 6은 본 발명의 다른 실시예에 따른, 클라우드 환경에서 네트워크 장애 관리를 수행하는 방법을 설명하기 위한 도면이다.
도 6을 참고하면, 우선 플러그인 관리부(Plugin Manager)가 성능 측정 게이트웨이(Testing Tools Gateway)에 요청을 전달하면 성능 측정 게이트웨이(Testing Tools Gateway)는 요청에 해당하는 오픈소스 성능측정부(Test Tools)에 API를 통해 성능 검증을 요청할 수 있다. 또한, 성능 측정 게이트웨이(Testing Tools Gateway)는 성능 측정 결과 값을 플러그인 관리부(Plugin Manager)에 전달한다.
플러그인 관리부(Plugin Manager)는 평가부(Evaluator)를 통해 계산된 임계값과 정책을 포함한 템플릿화된 정보를 생성하고 모니터링부 게이트웨이(Monitoring Tools Gateway)를 통해 모니터링부(Monitoring Tools)로 전달한다. 모니터링부(Monitoring Tools)는 수신된 템플릿화된 정보에 기초하여 대상 호스트에 모니터링 정책을 설정한다.
만약 모니터링 기능으로 자빅스를 사용하는 일 실시예에 따르면, 네트워크 장애 관리를 수행하는 방법은 아래와 같이 구체화될 수 있다.
먼저, 자빅스는 자빅스 API와 스크립트를 사용해 모니터링 할 대상 호스트를 설정 및 업데이트를 할 수 있으며 아이템과 임계값, 수행 동작 등을 포함한 템플릿화된 정보를 대상 호스트에 링크(Link)시킬 수 있다. 따라서 자빅스를 사용하는 환경의 경우 해당 모니터링부 게이트웨이가 평가부로부터 임계값이 포함된 템플릿화된 정보를 받아 자빅스에 API요청을 하면 자빅스는 성능 측정 결과를 기반으로 산출된 임계값과 수행 동작값이 설정된 템플릿화된 정보를 해당 대상 호스트에 링크 시켜 모니터링할 수 있다. 또한 모니터링부 게이트웨이는 모니터링부로부터 실시간으로 데이터를 수집해 지속적인 검증과 템플릿 업데이트를 통해 가용성을 높일 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 사람이라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (6)

  1. 클라우드 환경을 위한 네트워크 장애 관리 시스템에 있어서,
    대상 서버의 성능을 측정하고 측정 결과를 출력하는 성능측정부;
    상기 성능측정부에 의해 출력된 측정 결과를 수신하여 분석하고, 상기 분석 결과에 기초하여 대상 호스트를 위한 임계값 및 정책을 결정하고, 상기 결정 결과를 출력하는, 장애관리부; 및
    상기 장애관리부에 의해 출력된 결정 결과에 기초하여, 상기 대상 호스트의 모니터링 정책을 설정하는, 모니터링부
    를 포함하고,
    상기 장애관리부는
    상기 성능측정부에 상기 대상 서버의 성능 측정을 요청하고, 상기 성능 측정 결과를 수신하는, 성능 측정 게이트웨이;
    대상 호스트를 위한 임계값과 정책을 결정하는, 평가부;
    상기 임계값과 정책을 포함한 템플릿화된 정보를 송신하면 상기 모니터링부에 전달하는, 모니터링부 게이트웨이; 및
    상기 성능 측정 게이트웨이로부터 수신된 상기 대상 서버의 성능 측정 결과를 상기 평가부로 송신하고, 상기 평가부로부터 상기 대상 호스트를 위한 임계값과 정책을 수신하면 상기 임계값과 정책을 포함하는 템플릿화된 정보를 생성하여 상기 모니터링부 게이트웨이로 전달하는, 플러그인 관리부;
    를 포함하는 것을 특징으로 하는 네트워크 장애 관리 시스템.
  2. 삭제
  3. 제1항에 있어서,
    상기 모니터링부 게이트웨이는 상기 모니터링부로부터 실시간으로 데이터를 전달받아 소정의 주기에 따라 대상 호스트를 검증하는 것을 특징으로 하는 네트워크 장애 관리 시스템.
  4. 제1항에 있어서,
    상기 평가부는 규칙 기반 계산 방법 또는 머신 러닝 기반 계산 방법 중 적어도 하나에 기초하여, 상기 임계값을 계산하는 것인을 특징으로 하는 네트워크 장애 관리 시스템.
  5. 제1항에 있어서
    상기 모니터링부가 자빅스(Zabbix)에 기초하여 구현된 경우,
    상기 템플릿화된 정보는 아이템, 임계값(trigger) 및 수행 동작(action) 중 적어도 하나를 포함하고,
    상기 모니터링부는 자빅스 API 및 스크립트에 기초하여 모니터링할 대상 호스트를 설정하고 업데이트하는 것을 특징으로 하는, 네트워크 장애 관리 시스템.
  6. 클라우드 환경에서 네트워크 장애 관리를 수행하는 방법에 있어서,
    성능 측정 게이트웨이에서 성능측정부에 대상 서버의 성능 측정을 요청하는 단계;
    상기 성능측정부에서 대상 서버의 성능을 측정하고 측정 결과를 장애관리부로 전달하는 단계;
    상기 장애관리부에서 전달된 대상 서버의 성능 측정 결과에 기초하여, 대상 호스트를 위한 임계값 및 정책을 결정하는 단계;
    상기 장애관리부에서 상기 결정된 임계값과 정책을 포함하는 템플릿화된 정보를 생성하는 단계;
    상기 장애관리부가 상기 템플릿화된 정보를 모니터링부로 전달하는 단계; 및
    상기 전달된 정보에 기초하여, 상기 모니터링부에서 상기 대상 호스트의 모니터링 정책을 설정하는 단계
    를 포함하고,
    상기 임계값 및 정책을 결정하는 단계는,
    플러그인 관리부가 상기 대상 서버의 성능 성능 측정 게이트웨이로부터 수신된 상기 대상 서버의 성능 측정 결과를 평가부로 송신하는 단계;
    평가부가 상기 성능 측정 결과에 기초하여 대상 호스트를 위한 임계값과 정책을 결정하는 단계;
    상기 플러그인 관리부가 상기 평가부로부터 상기 대상 호스트를 위한 임계값과 정책을 수신하면 상기 임계값과 정책을 포함하는 템플릿화된 정보를 생성하여 모니터링부 게이트웨이로 전달하는 단계; 및
    상기 모니터링부 게이트웨이가 상기 임계값과 정책을 포함한 템플릿화된 정보를 송신하여 상기 모니터링부로 전달하는 단계
    를 더 포함하는 것을 특징으로 하는, 네트워크 장애 관리를 수행하는 방법.
KR1020190140272A 2019-11-05 2019-11-05 클라우드 환경에서 네트워크 장애 관리를 수행하는 방법 및 네트워크 장애 관리 시스템 KR102294461B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020190140272A KR102294461B1 (ko) 2019-11-05 2019-11-05 클라우드 환경에서 네트워크 장애 관리를 수행하는 방법 및 네트워크 장애 관리 시스템
PCT/KR2020/005611 WO2021091035A1 (ko) 2019-11-05 2020-04-28 클라우드 환경에서 네트워크 장애 관리를 수행하는 방법 및 네트워크 장애 관리 시스템.
US17/774,248 US12015537B2 (en) 2019-11-05 2020-04-28 Method for managing network failure in cloud environment and network failure management system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190140272A KR102294461B1 (ko) 2019-11-05 2019-11-05 클라우드 환경에서 네트워크 장애 관리를 수행하는 방법 및 네트워크 장애 관리 시스템

Publications (2)

Publication Number Publication Date
KR20210054302A KR20210054302A (ko) 2021-05-13
KR102294461B1 true KR102294461B1 (ko) 2021-08-27

Family

ID=75849235

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190140272A KR102294461B1 (ko) 2019-11-05 2019-11-05 클라우드 환경에서 네트워크 장애 관리를 수행하는 방법 및 네트워크 장애 관리 시스템

Country Status (3)

Country Link
US (1) US12015537B2 (ko)
KR (1) KR102294461B1 (ko)
WO (1) WO2021091035A1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101910926B1 (ko) * 2017-09-13 2018-10-23 주식회사 티맥스 소프트 It 시스템의 장애 이벤트를 처리하기 위한 기법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6609083B2 (en) * 2001-06-01 2003-08-19 Hewlett-Packard Development Company, L.P. Adaptive performance data measurement and collections
US9274842B2 (en) * 2010-06-29 2016-03-01 Microsoft Technology Licensing, Llc Flexible and safe monitoring of computers
US9251033B2 (en) 2011-07-07 2016-02-02 Vce Company, Llc Automatic monitoring and just-in-time resource provisioning system
KR102239177B1 (ko) * 2014-09-03 2021-04-09 주식회사 케이티 클라우드 서버 관리 방법, 이를 수행하는 클라우드 서버 관리 장치 및 클라우드 서비스 관리 시스템
KR101702583B1 (ko) 2015-10-02 2017-02-03 배재대학교 산학협력단 XMPP(Extensible Messaging and Presence Protocol)를 이용한 네트워크 성능 모니터링 시스템 및 그 모니터링 방법
US10078571B2 (en) * 2015-12-09 2018-09-18 International Business Machines Corporation Rule-based adaptive monitoring of application performance
KR102418594B1 (ko) * 2017-10-30 2022-07-08 주식회사 케이티 Ict 장비 관리 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101910926B1 (ko) * 2017-09-13 2018-10-23 주식회사 티맥스 소프트 It 시스템의 장애 이벤트를 처리하기 위한 기법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
공개특허공보 제10-2019-0047809호(2019.05.09.) 1부.*
이중문 외 5인. 오픈스택기반 클라우드 환경에서의 장애원인분석기능의 구현. 2018년도 한국통신학회 추계종합학술발표회, 2018년 11월, 335-337면*

Also Published As

Publication number Publication date
US12015537B2 (en) 2024-06-18
WO2021091035A1 (ko) 2021-05-14
KR20210054302A (ko) 2021-05-13
US20220393962A1 (en) 2022-12-08

Similar Documents

Publication Publication Date Title
EP3340535B1 (en) Failure recovery method and device
US9009683B2 (en) Systems and/or methods for testing client reactions to simulated disruptions
US10462027B2 (en) Cloud network stability
Maâlej et al. A Model Based Approach to Combine Load and Functional Tests for Service Oriented Architectures.
US7890808B2 (en) Testing software applications based on multiple data sources
US20190394113A1 (en) Systems and methods to automatically evaluate blockchain-based solution performance
US20180314576A1 (en) Automatic application repair by network device agent
US9658917B2 (en) Server performance correction using remote server actions
US11669374B2 (en) Using machine-learning methods to facilitate experimental evaluation of modifications to a computational environment within a distributed system
US11438245B2 (en) System monitoring with metrics correlation for data center
Cotroneo et al. Dependability evaluation and benchmarking of network function virtualization infrastructures
US9349012B2 (en) Distributed processing system, distributed processing method and computer-readable recording medium
Zainelabden et al. On service level agreement assurance in cloud computing data centers
KR102294461B1 (ko) 클라우드 환경에서 네트워크 장애 관리를 수행하는 방법 및 네트워크 장애 관리 시스템
US20160050101A1 (en) Real-Time Network Monitoring and Alerting
JP7099533B2 (ja) 影響範囲推定装置、影響範囲推定方法、及びプログラム
US10067778B2 (en) Management system, recording medium and method for managing virtual machines
JP2020035297A (ja) 機器状態監視装置及びプログラム
US11178034B1 (en) Resilient network framework for mitigating predicted response time delays
US20160232075A1 (en) Apparatus and method for measuring system availability for system development
US10749777B2 (en) Computer system, server machine, program, and failure detection method
US20230113776A1 (en) Traffic application amount calculation apparatus, method and program
Hayashi et al. Performance management of virtual machines via passive measurement and machine learning
CN116112397B (zh) 延时异常的确定方法、确定装置与云平台
US20170201535A1 (en) Estimation device and estimation method

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right