WO2021245853A1 - モデル構築装置、推定装置、モデル構築方法、推定方法及びプログラム - Google Patents
モデル構築装置、推定装置、モデル構築方法、推定方法及びプログラム Download PDFInfo
- Publication number
- WO2021245853A1 WO2021245853A1 PCT/JP2020/022008 JP2020022008W WO2021245853A1 WO 2021245853 A1 WO2021245853 A1 WO 2021245853A1 JP 2020022008 W JP2020022008 W JP 2020022008W WO 2021245853 A1 WO2021245853 A1 WO 2021245853A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- observation data
- causal model
- model
- data
- abnormality
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
Definitions
- the present invention relates to a model building device, an estimation device, a model building method, an estimation method, and a program.
- Non-Patent Documents 1 to 3 A method of modeling by a network and estimating an abnormality location / factor from observation data at the time of abnormality has been proposed (Non-Patent Documents 1 to 3). These methods can be classified as either rule-based methods or data-driven methods.
- the rule-based method is a method of modeling according to a predefined rule.
- the rule-based method mainly uses the knowledge of experts such as operators of communication network systems to model the relationship between abnormal locations / factors and changes in observed data.
- a rule that normality / abnormality of a router affects only the observation data of adjacent links is created from the knowledge of an expert, and this rule and the adjacency relationship in the topology of a communication network system are used.
- Non-Patent Document 2 a proposal is made to facilitate the construction of a causal model by creating an abstract rule called a template.
- the data driven method is a method of modeling from data.
- the relationship between the abnormal location / factor and the change in the observed data at that time is modeled using the observation data when the abnormality occurred in the past.
- Non-Patent Document 3 models the relationship between a certain disorder using a plurality of past case data.
- the abnormal location / factor is estimated using the syslog and traffic information of the communication network system, but in recent years, in addition to the syslog and traffic information, for example, the flow.
- Various types of observation data such as data, telemetry data, and sensor data related to communication equipment can be easily acquired. By using these various types of observation data, abnormalities and factors can be identified with finer grain size. It is believed that it will be possible to estimate.
- Problem 2 The data-driven method requires observation data when an abnormality has occurred in the past, but in a communication network system, the abnormality rarely occurs frequently, and it becomes abnormal due to the variety of observation data types. On the other hand, the number of patterns that observation data can take increases. Therefore, it is generally difficult to collect abnormal cases that can compensate for the increase.
- One embodiment of the present invention has been made in view of the above points, and an object thereof is to construct a causal model for estimating an abnormal location / factor using various types of observation data.
- the model building apparatus is based on a collecting unit that collects observation data from a communication network system for which an abnormality location or an abnormality factor is estimated, and a type of information represented by the observation data.
- a division unit that divides the observation data collected by the collection unit into a plurality of clusters, and a determination unit that determines representative observation data as a representative value for each abnormality location or anomaly factor in each of the plurality of clusters. It is characterized by having a first model building unit for constructing a first causal model for estimating the anomalous location or anomalous factor from the observation data by a rule-based method using the representative observation data. ..
- a causal model is constructed from various types of observation data in a communication network system, and an estimation device 10 for estimating an abnormality location / factor of the communication network system by this causal model will be described.
- the estimation device 10 according to the present embodiment has a "model construction phase" in which a causal model is constructed from past observation data, and an abnormality location / factor is estimated from observation data at the time of abnormality occurrence using this causal model. There is an “estimation phase” to do.
- the estimation device 10 in the model construction phase may be referred to as, for example, a "model construction device” or the like.
- a communication network system is a system that realizes a communication network environment in which various devices (for example, routers, servers, etc.) are used as nodes and communication paths as links, and is called an ICT (Information and Communication Technology) system. May be good.
- causal models for various types of observation data, causal models (hereinafter, "rule-based causal model” and “data”, respectively, are used by a rule-based method and a data-driven method while considering the above-mentioned problems 1 and 2 respectively. Also known as a “driven causal model”). Then, by constructing a causal model that combines a rule-based causal model and a data-driven causal model, the above-mentioned problem 3 is solved. This makes it possible to estimate abnormal locations and factors from various observation data using a causal model.
- These causal models are represented by a Bayesian network, which is one of the graphical models.
- the case of estimating the abnormal part is assumed, and the case of estimating the device in which the abnormality has occurred as the part in which the abnormality has occurred in the communication network system will be described.
- the device i which will be described later, as the factor i, the same can be applied to the case of estimating the abnormal factor.
- the state of the device i of the communication network system be x i , i ⁇ ⁇ 1, ..., N ⁇
- the state of the observation data j be y j , j ⁇ ⁇ 1, ..., M ⁇ .
- N is the number of devices constituting the communication network system
- M is the number of observation data.
- Each x i and y j shall take a value of either 0 (normal state) or 1 (abnormal state). However, it is also possible to take a multi-value of 3 or more instead of a 2-value of 0 or 1.
- x i ) are defined, and the posterior probability P (x i
- the observation data j includes, for example, the reference “Yasuhiro Ikeda,” in addition to various types of data (for example, syslog, traffic information, flow data, telemetry data, sensor data, etc.) that can be collected from the communication network system.
- the value of the state y j of the observation data j may be the value of the state y j of the other observation data j as 0, to calculate the variance of the normal state of the observation data j, L (where, L is the value of the state y j of predetermined arbitrary natural number) sigma or deviating observation data j 1, the value of the state y j of the other observation data j may be 0.
- ⁇ Building a rule-based causal model A method of constructing a rule-based causal model that solves the above problem 1 will be described.
- the state of the observation data is divided into a plurality of clusters, and the representative value of the cluster is used as the state of the new observation data.
- the number of states of the observation data is reduced (that is, the number of observation data used for constructing the rule-based causal model is reduced), and it becomes possible to solve the problem 1.
- the observation data includes data acquired from the entire communication network system and data acquired from each device, and the information represented by each data is different.
- telemetry data such as CPU (Central Processing Unit) / memory usage rate and temperature represent the internal state of the device
- observation data such as input / output traffic amount and interface trap represent input / output between devices
- Netflow Information and observation data
- RTT Red-Trip Time
- the information represented may differ depending on which device's internal state or input / output.
- the state y j is divided into the following three types 1 to 3 according to the type of information represented by the observation data j.
- Type1 Equipment i of state x states of the observation data representative of i y i, j 1 (however, i ⁇ ⁇ 1, ⁇ , N ⁇ , j ⁇ ⁇ 1, ⁇ , M i 1 ⁇ )
- Type2 Condition y i of the observation data representative of an input or output to the device i, j 2 (However, i ⁇ ⁇ 1, ⁇ , N ⁇ , j ⁇ ⁇ 1, ⁇ , M i 2 ⁇ )
- Type 3 State of observation data representing the state of the entire communication network system y j 3 (However, j ⁇ ⁇ 1, ..., M 3 ⁇ )
- M ⁇ i (M i 1 + M i 2 ) + M 3 .
- Each i 1, ⁇ ⁇ ⁇ , relative to N, y i, the representative value z i 1 of j 1, y i, the representative value z i 2 of j 2, the representative value z 3 of y j 3 And create.
- Each representative value z i 1 , z i 2 and z 3 shall take either a value of 0 (normal state) or 1 (abnormal state).
- a method of setting z i 1 to 1 can be considered.
- k may be common to each cluster or may be different in each cluster.
- a rule-based causal model is constructed by any known rule-based method for the representative values z i 1 , z i 2 and z 3 and the state x i of the device i. That is, prior probabilities P (x 1 , ..., X N ) and conditional probabilities P (z 1 1 , z 1 2 , ..., Z N 1 , z N 2) by any known rule-based method. , Z 3
- conditional probability P (z 1 1, z 1 2, ⁇ , z N 1, z N 2, z 3
- An example of a Bayesian network is shown in FIG.
- the states y i, j 1 , y i, j 2 are represented as Observation nodes
- the representative values z i 1 , z i 2 and z 3 are represented as Representative nodes
- the state x i of the device i is represented as Equipment nodes.
- the causal relationship between Representative nodes and Equipment nodes is defined by any known rule-based approach.
- the state y j of the observation data j is divided into three clusters of Type 1 to Type 3, but this is an example and can be divided into any number of clusters.
- a causal model is constructed by adding not only abnormal cases but also normal cases. As a result, a causal model can be constructed even when it is difficult to collect abnormal cases, and problem 2 can be solved.
- the state y j of the observed data j in when the state x i of a past device i is obtained (j 1, ⁇ , M ) using a conditional
- a causal model is constructed by defining the probabilities P (y 1 , ..., y M
- the cause of Problem 2 is that there are few cases in which the state x i of the device i is in an abnormal state in the past, but in general, there are many cases in which the state x i is in a normal state in a communication network system.
- Correlation coefficient, Granger causality, weight of self-encoder (Auto Encoder) trained from normal observation data, etc. can be used.
- conditional probabilities P (y 1 , ..., y M
- x 1 , ..., x N ) W x P normal (y 1 , ..., y M
- x 1 , ..., X N ) is a conditional probability defined by any known data-driven method using anomalous cases.
- W ⁇ 1 is a preset weight parameter.
- conditional probability P normal that represents the relationship between the normal states is weighted with W to represent the relationship between the abnormal states.
- the conditional probability Abnormal is weighted by 1-W.
- the conditional probability P (or Pabnormal ) defined above is the conditional probability P d described later.
- the posterior probabilities P (x 1 ) are derived from the prior probabilities P (x 1 , ..., x N ) and the conditional probabilities P (y 1 , ..., y M
- y 1 , ..., y M can be constructed as a data-driven causal model.
- conditional probability P normal was defined using a normal case, the conditional probability P (z 1 1, z 1 2, ⁇ , z N 1, z N 2, By modifying z 3
- conditional probabilities P (z 1 1 , z 1 2 , ..., Z N 1 , z N 2 , z 3
- conditional probability specified when the rule-based causal model is constructed is Pr (y 1 , ..., y M
- x 1, ⁇ , x N) is specified.
- the posterior probabilities P (x 1 , ... ⁇ ⁇ , X N
- a causal model that combines a rule-based causal model and a data-driven causal model can be obtained, and the above-mentioned problem 3 can be solved.
- a method of modifying the conditional probability P r by conditional probability P d is different, for example, the conditional probability P (y 1 by modifying the conditional probability P r as follows, ⁇ ⁇ ⁇ , y M
- P d is the above-mentioned W ⁇ P normal (y 1 , ⁇ , y M
- FIG. 2 is a diagram showing an example of the functional configuration of the estimation device 10 according to the present embodiment.
- the estimation device 10 includes a collection unit 101, a rule-based causal model construction unit 102, a division unit 103, a data-driven causal model construction unit 104, and a causal model correction unit 105. It has an estimation unit 106, a user interface unit 107, a network data DB 201, and a causal model DB 202.
- the collection unit 101 collects network configuration data and observation data from the communication network system.
- the network configuration data and observation data collected by the collection unit 101 are stored in the network data DB 201.
- the network configuration data is information representing the topology of the communication network (that is, information representing the connection relationship between the devices constituting the communication network system).
- the devices i, i ⁇ ⁇ 1, ..., N ⁇ and their connection relationships are specified by the network configuration data.
- the rule-based causal model constructed by the rule-based causal model construction unit 102 and the conditional probabilities calculated at the time of this construction are stored in the causal model DB 202.
- the division unit 103 sets the state y j of the observation data j into a plurality of clusters according to the type (for example, the above-mentioned three clusters of Type 1 to Type 3). Divide into.
- the data-driven causal model construction unit 104 calculates the relationship between the observed data of the normal case, and uses this relationship to calculate the conditional probability at the normal time. Then, the data-driven causal model construction unit 104 uses the prior probabilities of the states of each device, the conditional probabilities at normal times, and the conditional probabilities at abnormal times calculated by any known data-driven method. Is constructed as a data-driven causal model. The data-driven causal model constructed by the data-driven causal model construction unit 104 and the conditional probabilities calculated at the time of this construction are stored in the causal model DB 202.
- the causal model correction unit 105 modifies the conditional probability when constructing the rule-based causal model with the conditional probability when constructing the data-driven causal model, and combines the rule-based causal model and the data-driven causal model. Build a causal model.
- a causal model that combines a rule-based causal model and a data-driven causal model is stored in the causal model DB 202.
- the estimation unit 106 estimates an abnormality location / factor by any of a rule-based causal model, a data-driven causal model, or a causal model that combines a rule-based causal model and a data-driven causal model. It should be noted that the device or factor corresponding to x i that takes the maximum posteriori probability (that is, Argmax i P (x 1 , ..., x N
- the user interface unit 107 presents the abnormality location / factor estimated by the estimation unit 106 and its probability to the user (for example, an operator of a communication network system).
- FIG. 3 is a flowchart showing an example of the causal model construction process according to the present embodiment. From now on, it is assumed that the network configuration data and the observation data collected by the collecting unit 101 are stored in the network data DB 201. Further, it is assumed that the value of the state y j of the observation data j collected by the collection unit 101 is calculated, and the observation data j and the state y j are associated and stored in the network data DB 201.
- Step S101 The rule-based causal model construction unit 102 inputs past observation data j used for model construction, its state y j, and network configuration data from the network data DB 201.
- rule-based causal models and conditional probability P r is stored in the causal model DB 202.
- Step S105 The data-driven causal model construction unit 104 inputs past observation data j used for model construction, its state y j, and network configuration data from the network data DB 201.
- Step S106 Data-Driven causal model construction unit 104 calculates the relationship v i between normal time observation data j.
- Step S107 Data-Driven causal model construction unit 104, the relationship v conditional probability is defined by i P normal and conditional probability using a known probability with given conditions was calculated by the data-driven approach P abnormal P d Is calculated, and the posterior probability is constructed as a data-driven causal model from the prior probability of the state x i of each device i and this conditional probability P d.
- the data-driven causal model and the conditional probability P d are stored in the causal model DB 202.
- the estimation device 10 constructs a rule-based causal model and a data-driven causal model, respectively, and then combines the rule-based causal model and the data-driven causal model. And can be constructed. As a result, a causal model that solves the above-mentioned problems 1, 2, and 3 can be obtained.
- FIG. 4 is a flowchart showing an example of the abnormality location / factor estimation process according to the present embodiment. From now on, it is assumed that the network configuration data and the observation data collected by the collecting unit 101 are stored in the network data DB 201. Further, it is assumed that the value of the state y j of the observation data j collected by the collection unit 101 is calculated, and the observation data j and the state y j are associated and stored in the network data DB 201.
- Step S201 First, the user interface unit 107 accepts the designation of the causal model used for estimating the abnormal location / factor. That is, the user interface unit 107 accepts the designation of either a rule-based causal model, a data-driven causal model, or a causal model that combines a rule-based causal model and a data-driven causal model.
- Step S202 Next, the estimation unit 106 inputs the observation data j used for estimating the abnormality location / factor, its state y j, and the network configuration data from the network data DB 201.
- the observation data j for example, it is conceivable to input the observation data j when some abnormality occurs in the communication network system.
- Step S203 Next, the estimation unit 106 estimates the abnormality location / factor by the causal model for which the designation is accepted in the above step S201, using the state j of the observation data j input in the above step S202. That is, the estimation unit 106 estimates a device (or factors) corresponding to x i the posterior probability is maximized and abnormal location (or abnormal factor).
- Step S204 The user interface unit 107 outputs the estimation result of the above step S203 (that is, the abnormality location / factor and its probability) to a display or the like and presents it to the user.
- the estimation device 10 can estimate the abnormal location / factor by the rule-based causal model, the data-driven causal model, or the causal model combining these. Moreover, the estimation device 10 according to the present embodiment frequently uses a causal model that combines a rule-based causal model and a data-driven causal model, so that the network topology of a communication network system capable of acquiring various types of observation data is frequent. Even if the observation data changes frequently or the observation data acquired from the communication network system changes frequently, it is possible to estimate the abnormal location / factor.
- FIG. 5 is a diagram showing an example of the hardware configuration of the estimation device 10 according to the present embodiment.
- the estimation device 10 is realized by a general computer or computer system, and includes an input device 301, a display device 302, an external I / F 303, a communication I / F 304, and a processor. It has a 305 and a memory device 306. Each of these hardware is connected so as to be communicable via the bus 307.
- the input device 301 is, for example, a keyboard, a mouse, a touch panel, or the like.
- the display device 302 is, for example, a display or the like.
- the estimation device 10 does not have to have at least one of the input device 301 and the display device 302.
- the external I / F 303 is an interface with an external device such as a recording medium 303a.
- the estimation device 10 can read or write the recording medium 303a via the external I / F 303.
- the recording medium 303a has, for example, each functional unit (collection unit 101, rule-based causal model construction unit 102, division unit 103, data-driven causal model construction unit 104, causal model correction unit 105, estimation unit 106) of the estimation device 10. And one or more programs that realize the user interface unit 107) may be stored.
- the recording medium 303a includes, for example, a CD (Compact Disc), a DVD (Digital Versatile Disk), an SD memory card (Secure Digital memory card), a USB (Universal Serial Bus) memory card, and the like.
- the communication I / F 304 is an interface for connecting the estimation device 10 to the communication network.
- One or more programs that realize each functional unit of the estimation device 10 may be acquired (downloaded) from a predetermined server device or the like via the communication I / F 304.
- the processor 305 is, for example, various arithmetic units such as a CPU. Each functional unit included in the estimation device 10 is realized, for example, by a process of causing the processor 305 to execute one or more programs stored in the memory device 306.
- the memory device 306 is, for example, various storage devices such as HDD (Hard Disk Drive), SSD (Solid State Drive), RAM (Random Access Memory), ROM (Read Only Memory), and flash memory.
- Each DB (network data DB 201 and causal model DB 202) included in the estimation device 10 can be realized by the memory device 306. However, at least one of these DBs may be realized by a storage device (for example, a database server or the like) connected to the estimation device 10 via a communication network.
- the estimation device 10 can realize the above-mentioned causal model construction process and abnormality location / factor estimation process.
- the hardware configuration shown in FIG. 5 is an example, and the estimation device 10 may have another hardware configuration.
- the estimation device 10 may have a plurality of processors 305 or a plurality of memory devices 306.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- Quality & Reliability (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
一実施形態に係るモデル構築装置は、異常箇所又は異常要因の推定対象となる通信ネットワークシステムから観測データを収集する収集部と、前記観測データが表す情報の種類によって、前記収集部により収集された観測データを複数のクラスタに分割する分割部と、前記複数のクラスタの各々において、前記異常箇所又は異常要因毎に代表値となる代表観測データを決定する決定部と、前記代表観測データを用いて、ルールベース手法により前記観測データから前記異常箇所又は異常要因を推定するための第1の因果モデルを構築する第1のモデル構築部と、を有することを特徴とする。
Description
本発明は、モデル構築装置、推定装置、モデル構築方法、推定方法及びプログラムに関する。
通信事業者にとって、通信ネットワークシステム内で発生する異常の状態を把握し、その対応を迅速に行うことは重要な業務である。こうした中で、通信ネットワークシステム内で発生した異常を早期に検知するための手法や異常箇所・要因を推定するための手法等の研究が従来から行われている。
異常箇所・要因を推定するための手法として、異常箇所・要因とこの異常によって引き起こされる通信ネットワークシステム内のデータ(以下、「観測データ」ともいう。)の変化との関係性を因果モデルとしてベイジアンネットワークによりモデル化し、異常時の観測データから異常箇所・要因を推定する手法が提案されている(非特許文献1~3)。これらの手法は、ルールベース手法又はデータドリブン手法のいずれかに分類することができる。
ルールベース手法は、事前に定義したルールに従ってモデル化する手法である。ルールベース手法では、主に通信ネットワークシステムのオペレータ等のエキスパートの知識を用いて、異常箇所・要因と観測データの変化との関係性をモデル化する。例えば、非特許文献1では、ルータの正常・異常は隣接しているリンクの観測データのみに影響するというルールをエキスパートの知識から作成し、このルールと通信ネットワークシステムのトポロジーにおける隣接関係とを用いて因果モデルを構築している。また、非特許文献2では、テンプレートという抽象的なルールを作成することで、因果モデルの構築を容易するための提案がなされている。
データドリブン手法は、データからモデル化する手法である。データドリブン手法では、過去に異常が発生したときの観測データを用いて、異常箇所・要因とそのときの観測データの変化との関係性をモデル化する。例えば、非特許文献3では、或る障害に関して過去の複数の事例データを用いてその関係性をモデル化している。
ところで、異常箇所・要因を推定するための手法では通信ネットワークシステムのsyslogやトラヒック情報等を用いて異常箇所・要因を推定しているが、近年では、syslogやトラヒック情報以外にも、例えば、フローデータやテレメトリーデータ、通信機器に関するセンサデータ等の多様な種類の観測データが容易に取得できるようになっており、これら多様な種類の観測データを用いることで、より細かい粒度で異常箇所・要因を推定することができるようになると考えられている。
Srikanth Kandula, Dina Katabi, and Jean-philippe Vasseur. Shrink: A tool for failure diagnosis in IP networks. Proceedings of the 2005 ACM SIGCOMM workshop on Mining network data, pages 173-178, 2005.
He Yan, Lee Breslau, Zihui Ge, Dan Massey, Dan Pei, and Jennifer Yates. G-RCA: A Generic Root Cause Analysis Platform for Service Quality Management in Large IP Networks. IEEE/ACM Transactions on Networking, 20(6):1734-1747, 2012.
Kandula, Srikanth and Mahajan, Ratul and Verkaik, Patrick and Agarwal, Sharad and Padhye, Jitendra and Bahl, Paramvir. Detailed diagnosis in enterprise networks. ACM SIGCOMM Computer Communication Review, vol.39, num.4, pp.243-254, 2009.
しかしながら、多様な種類の観測データを用いて因果モデルを構築する場合、以下の課題がある。
課題1:ルールベース手法ではモデル化のために事前にエキスパートの知識が必要となるが、通信ネットワークシステムで発生する異常と多様な種類の観測データとの関係性を一つ一つルール化することは困難である。
課題2:データドリブン手法では過去に異常が発生したときの観測データが必要であるが、通信ネットワークシステムでは異常が頻発することは一般に少なく、また、観測データの種類が多様になることにより異常に対して観測データが取り得るパターン数が増加する。このため、その増加分を補うだけの異常事例を収集することは一般に困難である。
課題3:更に、近年では、通信ネットワークの仮想化技術により、トポロジーが高頻度で変化することが増えている。また、それに伴い、通信ネットワークシステムから取得される観測データも高頻度で変化する。このため、ルールベース手法では異常と観測データとの関係性を一つ一つルール化することが困難であり、データドリブン手法では十分な異常事例を収集することが困難である。
本発明の一実施形態は、上記の点に鑑みてなされたもので、多様な種類の観測データを用いて、異常箇所・要因を推定するための因果モデルを構築することを目的とする。
上記目的を達成するため、一実施形態に係るモデル構築装置は、異常箇所又は異常要因の推定対象となる通信ネットワークシステムから観測データを収集する収集部と、前記観測データが表す情報の種類によって、前記収集部により収集された観測データを複数のクラスタに分割する分割部と、前記複数のクラスタの各々において、前記異常箇所又は異常要因毎に代表値となる代表観測データを決定する決定部と、前記代表観測データを用いて、ルールベース手法により前記観測データから前記異常箇所又は異常要因を推定するための第1の因果モデルを構築する第1のモデル構築部と、を有することを特徴とする。
多様な種類の観測データを用いて、異常箇所・要因を推定するための因果モデルを構築することができる。
以下、本発明の一実施形態について説明する。本実施形態では、通信ネットワークシステムにおける多様な種類の観測データから因果モデルを構築し、この因果モデルにより通信ネットワークシステムの異常箇所・要因を推定する推定装置10について説明する。ここで、本実施形態に係る推定装置10には、過去の観測データから因果モデルを構築する「モデル構築フェーズ」と、この因果モデルを用いて異常発生時の観測データから異常箇所・要因を推定する「推定フェーズ」とが存在する。なお、モデル構築フェーズにおける推定装置10は、例えば、「モデル構築装置」等と称されてもよい。また、通信ネットワークシステムは種々の機器(例えば、ルータやサーバ等)をノード、通信経路等をリンクとする通信ネットワーク環境を実現するシステムであり、ICT(Information and Communication Technology)システム等と称されてもよい。
<理論的構成>
まず、モデル構築フェーズにおける因果モデル構築と、推定フェーズにおける異常箇所・要因推定との理論的構成について説明する。
まず、モデル構築フェーズにおける因果モデル構築と、推定フェーズにおける異常箇所・要因推定との理論的構成について説明する。
本実施形態では、多様な種類の観測データに対して、上記の課題1と課題2を考慮しながらルールベース手法とデータドリブン手法によりそれぞれ因果モデル(以下、それぞれ「ルールベース因果モデル」、「データドリブン因果モデル」ともいう。)を構築する。そして、ルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルを構築することで、上記の課題3を解決する。これにより、因果モデルにより多様な観測データから異常箇所・要因の推定を可能にする。なお、これらの因果モデルはグラフィカルモデルの1つであるベイジアンネットワークで表される。
以降では、一例として、異常箇所を推定する場合を想定し、通信ネットワークシステムで異常が発生した箇所として異常が発生した機器を推定する場合について説明する。ただし、後述する機器iを要因iとすることで、異常要因を推定する場合についても同様に適用可能である。
通信ネットワークシステムの機器iの状態をxi,i∈{1,・・・,N}とし、観測データjの状態をyj,j∈{1,・・・,M}とする。Nは通信ネットワークシステムを構成する機器の数、Mは観測データの数である。各xi及びyjは0(正常状態)又は1(異常状態)のいずれかの値を取るものとする。ただし、0又は1の2値ではなく、3値以上の多値を取るとすることも可能である。
そして、各xi及びyjに対して、事前確率P(xi)と条件付き確率P(yj|xi)とを規定し、事後確率P(xi|yj)を因果モデルとして構築する。
なお、観測データjとしては、通信ネットワークシステムから収集可能な多様な種類のデータ(例えば、syslogやトラヒック情報、フローデータ、テレメトリーデータ、センサデータ等)以外にも、例えば、参考文献「Yasuhiro Ikeda, Keisuke Ishibashi, Yuusuke Nakano, Keishiro Watanabe, Ryoichi Kawahara, "Anomaly Detection and Interpretation using Multimodal Autoencoder and Sparse Optimization", arXiv:1812.07136 [stat.ML]」中に記載されている要因度が用いられてもよい。
観測データjの状態yjは、例えば、観測データj(要因度も含む)が連続値の場合には、正常時の観測データjの値から閾値を決定し、この閾値以上(又は以下)となる観測データjの状態yjの値を1、それ以外の観測データjの状態yjの値を0としてもよいし、正常時の観測データjの分散を計算し、L(ただし、Lは予め決定された任意の自然数)シグマ以上外れた観測データjの状態yjの値を1、それ以外の観測データjの状態yjの値を0としてもよい。
≪ルールベース因果モデルの構築≫
上記の課題1を解決するルールベース因果モデルを構築する方法について説明する。本実施形態では、観測データの状態を複数のクラスタに分割し、そのクラスタの代表値を新たな観測データの状態として使用する。これにより、観測データの状態数が削減(つまり、ルールベース因果モデルの構築に用いる観測データ数が削減)され、課題1を解決することが可能になる。
上記の課題1を解決するルールベース因果モデルを構築する方法について説明する。本実施形態では、観測データの状態を複数のクラスタに分割し、そのクラスタの代表値を新たな観測データの状態として使用する。これにより、観測データの状態数が削減(つまり、ルールベース因果モデルの構築に用いる観測データ数が削減)され、課題1を解決することが可能になる。
ここで、観測データは通信ネットワークシステム全体から取得されるデータと各機器から取得されるデータとがあり、それぞれのデータが表す情報が異なる。例えば、CPU(Central Processing Unit)/メモリ使用率や温度等のテレメトリーデータ等は機器の内部状態を表し、インプット/アウトプットトラヒック量やインタフェーストラップ等の観測データは機器間の入出力を表し、Netflow情報やRTT(Round-Trip Time)等の観測データは通信ネットワークシステム全体の状態を表している。また、機器の内部状態や機器間の入出力を表す観測データの場合、どの機器の内部状態又は入出力かによっても表す情報が異なることがある。
そこで、本実施形態では、観測データjが表す情報の種類によってその状態yjを以下のType1~Type3の3つに分割する。
Type1:機器iの状態xiを表す観測データの状態yi,j
1(ただし、i∈{1,・・・,N},j∈{1,・・・,Mi
1})
Type2:機器iへの入力又は出力を表す観測データの状態yi,j 2(ただし、i∈{1,・・・,N},j∈{1,・・・,Mi 2})
Type3:通信ネットワークシステム全体の状態を表す観測データの状態yj 3(ただし、j∈{1,・・・,M3})
なお、M=Σi(Mi 1+Mi 2)+M3である。
Type2:機器iへの入力又は出力を表す観測データの状態yi,j 2(ただし、i∈{1,・・・,N},j∈{1,・・・,Mi 2})
Type3:通信ネットワークシステム全体の状態を表す観測データの状態yj 3(ただし、j∈{1,・・・,M3})
なお、M=Σi(Mi 1+Mi 2)+M3である。
このように、観測データj(j=1,・・・,M)の状態yjをType1~Type3の3つのクラスタに分割する。これにより、観測データj(j=1,・・・,M)もType1~Type3の3つのクラスタに分割される。
そして、各i=1,・・・,Nに対して、yi,j
1の代表値zi
1と、yi,j
2の代表値zi
2と、yj
3の代表値z3とを作成する。各代表値zi
1、zi
2及びz3は0(正常状態)又は1(異常状態)のいずれかの値を取るものとする。各代表値zi
1、zi
2及びz3の値の決め方は様々あるが、例えば、yi,j
1(j=1,・・・,Mi
1)のうち、予め決められたk個以上の値が1であれば、zi
1を1とする方法が考えられる。zi
2及びz3についても同様に、yi,j
2(j=1,・・・,Mi
2)のうちk個以上の値が1であればzi
2を1とし、yj
3(j=1,・・・,M3)のうちk個以上の値が1であればz3を1とする方法が考えられる。なお、kは各クラスタで共通であってもよいし、各クラスタで異なっていてもよい。
そして、代表値zi
1、zi
2及びz3と機器iの状態xiとに対して、既知の任意のルールベース手法によりルールベース因果モデルを構築する。すなわち、既知の任意のルールベース手法により、事前確率P(x1,・・・,xN)と条件付き確率P(z1
1,z1
2,・・・,zN
1,zN
2,z3|x1,・・・,xN)とを規定し、事後確率P(x1,・・・,xN|z1
1,z1
2,・・・,zN
1,zN
2,z3)をルールベース因果モデルとして構築する。このように、観測データjの状態yjの代わりに代表値zi
1、zi
2及びz3を用いることで、モデル構築に用いる観測データの状態数が削減され、上記の課題1を解決することが可能となる。なお、この条件付き確率P(z1
1,z1
2,・・・,zN
1,zN
2,z3|x1,・・・,xN)が、後述する条件付き確率Prとなる。
ここで、状態yi,j
1,yi,j
2及びyj
3と代表値zi
1,zi
2及びz3と状態xiとをそれぞれノードとして、その因果モデルを表すグラフィカルモデル(ベイジアンネットワーク)の一例を図1に示す。図1に示す例では、状態yi,j
1,yi,j
2をObservation nodes、代表値zi
1,zi
2及びz3をRepresentative nodes、機器iの状態xiをEquipment nodesと表している。Representative nodesとEquipment nodesとの間の因果関係が、既知の任意のルールベース手法により規定される。
なお、本実施形態では、観測データjの状態yjをType1~Type3の3つのクラスタに分割したが、これは一例であって、任意の個数のクラスタに分割することも可能である。
≪データドリブン因果モデルの構築≫
上記の課題2を解決するデータドリブン因果モデルを構築する方法について説明する。本実施形態では、異常事例だけなく、正常事例も加えて因果モデルを構築する。これにより、異常事例の収集が困難である場合であっても因果モデルを構築することができ、課題2を解決することが可能になる。
上記の課題2を解決するデータドリブン因果モデルを構築する方法について説明する。本実施形態では、異常事例だけなく、正常事例も加えて因果モデルを構築する。これにより、異常事例の収集が困難である場合であっても因果モデルを構築することができ、課題2を解決することが可能になる。
既知のデータドリブン手法による因果モデルの構築では、過去の機器iの状態xiが得られたときにおける観測データjの状態yj(j=1,・・・,M)を用いて、条件付き確率P(y1,・・・,yM|xi)を規定し、因果モデルを構築している。ここで、過去に機器iの状態xiが異常状態である事例が少ないというのが課題2の原因であるが、一般に、通信ネットワークシステムにおいては状態xiが正常状態である事例は多数存在し、機器iの状態xiと観測データjの状態yjとの関係性は正常状態においても存在する。そこで、本実施形態では、正常状態の事例も用いて因果モデルを構築する。
機器iの状態xiが正常状態であるときにy1,・・・,yMが取っていた値を用いて、正常時の条件付き確率Pnormal(y1,・・・,yM|xi)を規定する。ただし、正常事例では全ての機器iの状態xiも全ての観測データjの状態yjも正常状態という事例しか得られない。そこで、観測データ間の関係性を計算し、その観測データを取得する機器との条件付き確率を関係性の値とする。例えば、機器i'から得られる観測データj'と機器i"から得られる観測データj"とを考え、観測データj'に対する観測データj"の関係性を計算する。この関係性としては、例えば、相関係数、グレンジャー因果、正常時の観測データで学習させた自己符号化器(Auto Encoder)の重み等を用いることが考えられる。
そして、観測データj'に対する観測データj"の関係性をvi'として、条件付き確率をPnormal(yj"|xi')=Pnormal(yj'|xi")=vi'と定義する。これらをまとめ、Pnormalを以下で定義する。
Pnormal(y1,・・・,yM|x1,・・・,xN)=ΠiPnormal(y1,・・・,yM|xi)=τ×Πivi
ここで、τは正規化定数である。
ここで、τは正規化定数である。
最終的に、条件付き確率P(y1,・・・,yM|x1,・・・,xN)を以下で定義する。
P(y1,・・・,yM|x1,・・・,xN)=W×Pnormal(y1,・・・,yM|x1,・・・,xN)×(1-W)×Pabnormal(y1,・・・,yM|x1,・・・,xN)
ここで、Pabnormal(y1,・・・,yM|x1,・・・,xN)は異常事例を用いて既知の任意のデータドリブン手法により規定した条件付き確率である。また、W<1は予め設定された重みパラメータである。このように、正常状態の関係性と異常状態の関係性は異なることが想定されるため、正常状態の関係性を表す条件付き確率PnormalにはWで重み付けし、異常状態の関係性を表す条件付き確率Pabnormalには1-Wで重み付けを行う。なお、上記で定義した条件付き確率P(又はPabnormal)が、後述する条件付き確率Pdとなる。
ここで、Pabnormal(y1,・・・,yM|x1,・・・,xN)は異常事例を用いて既知の任意のデータドリブン手法により規定した条件付き確率である。また、W<1は予め設定された重みパラメータである。このように、正常状態の関係性と異常状態の関係性は異なることが想定されるため、正常状態の関係性を表す条件付き確率PnormalにはWで重み付けし、異常状態の関係性を表す条件付き確率Pabnormalには1-Wで重み付けを行う。なお、上記で定義した条件付き確率P(又はPabnormal)が、後述する条件付き確率Pdとなる。
これにより、事前確率P(x1,・・・,xN)と条件付き確率P(y1,・・・,yM|x1,・・・,xN)から事後確率P(x1,・・・,xN|y1,・・・,yM)をデータドリブン因果モデルとして構築することができる。このように、異常事例に加えて、正常事例も用いることで、上記の課題2を解決することが可能になる。
≪ルールベース因果モデルとデータドリブン因果モデルの組み合わせ≫
最後に、ルールベース因果モデルとデータドリブン因果モデルとを組み合わせることで、上記の課題3を解決する因果モデルを構築する方法について説明する。
最後に、ルールベース因果モデルとデータドリブン因果モデルとを組み合わせることで、上記の課題3を解決する因果モデルを構築する方法について説明する。
通信ネットワークシステムのネットワーク構成(例えば、通信ネットワークのトポロジー等)や当該通信ネットワークシステムから取得される観測データ等が頻繁に変化する場合、ルールベース手法やデータドリブン手法により事前に全ての関係性を網羅した因果モデルを構築することは難しいが、正常事例を用いて規定した条件付き確率Pnormalにより、条件付き確率P(z1
1,z1
2,・・・,zN
1,zN
2,z3|x1,・・・,xN)を修正することで、実際の通信ネットワークシステムの関係性を考慮した因果モデルを構築することが可能となる。なお、条件付き確率P(z1
1,z1
2,・・・,zN
1,zN
2,z3|x1,・・・,xN)は、各zi
1、zi
2及びz3の定義によりP(y1,・・・,yM|x1,・・・,xN)と表記することもできる。
すなわち、ルールベース因果モデルを構築した際に規定した条件付き確率をPr(y1,・・・,yM|x1,・・・,xN)、データドリブン因果モデルを構築した際に規定した条件付き確率をPd(y1,・・・,yM|x1,・・・,xN)として、条件付き確率Pdにより条件付き確率Prを修正した条件付き確率P(y1,・・・,yM|x1,・・・,xN)を規定する。そして、事前確率(x1,・・・,xN)と条件付き確率P(y1,・・・,yM|x1,・・・,xN)から事後確率P(x1,・・・,xN|y1,・・・,yM)を因果モデルとして構築する。これにより、ルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルが得られ、上記の課題3を解決することが可能となる。
条件付き確率Pdにより条件付き確率Prを修正する方法は様々あるが、例えば、以下のように条件付き確率Prを修正して条件付き確率P(y1,・・・,yM|x1,・・・,xN)を得ることが考えられる。
P(y1,・・・,yM|x1,・・・,xN)=α×Pr(y1,・・・,yM|x1,・・・,xN)×(1-α)×Pd(y1,・・・,yM|x1,・・・,xN)
ここで、αは予め設定された重みパラメータである。
ここで、αは予め設定された重みパラメータである。
なお、Pdは、上述したW×Pnormal(y1,・・・,yM|x1,・・・,xN)×(1-W)×Pabnormal(y1,・・・,yM|x1,・・・,xN)であるが、これに限られず、例えば、Pabnormal(y1,・・・,yM|x1,・・・,xN)であってもよい(つまり、異常事例を用いて規定した条件付き確率であってもよい。)。
<機能構成>
次に、本実施形態に係る推定装置10の機能構成について、図2を参照しながら説明する。図2は、本実施形態に係る推定装置10の機能構成の一例を示す図である。
次に、本実施形態に係る推定装置10の機能構成について、図2を参照しながら説明する。図2は、本実施形態に係る推定装置10の機能構成の一例を示す図である。
図2に示すように、本実施形態に係る推定装置10は、収集部101と、ルールベース因果モデル構築部102と、分割部103と、データドリブン因果モデル構築部104と、因果モデル修正部105と、推定部106と、ユーザインタフェース部107と、ネットワークデータDB201と、因果モデルDB202とを有する。
収集部101は、ネットワーク構成データと観測データとを通信ネットワークシステムから収集する。収集部101によって収集されたネットワーク構成データ及び観測データはネットワークデータDB201に格納される。ここで、ネットワーク構成データとは、通信ネットワークのトポロジーを表す情報(つまり、通信ネットワークシステムを構成する機器と機器間の接続関係等を表す情報)である。ネットワーク構成データにより機器i,i∈{1,・・・,N}及びその接続関係等が特定される。
ルールベース因果モデル構築部102は、後述する分割部103により分割された複数のクラスタのそれぞれにおいて代表値(例えば、上述したzi
1(i=1,・・・,N),zi
2(i=1,・・・,N)及びz3)を計算し、各機器の状態の事前確率と、各代表値と各機器の状態との関係性を表す条件付き確率とを用いて事後確率をルールベース因果モデルとして構築する。ルールベース因果モデル構築部102によって構築されたルールベース因果モデルとこの構築の際に計算された条件付き確率は因果モデルDB202に格納される。
分割部103は、ルールベース因果モデル構築部102によりルールベース因果モデルを構築する際に、観測データjの状態yjをその種類によって複数のクラスタ(例えば、上述したType1~Type3の3つのクラスタ)に分割する。
データドリブン因果モデル構築部104は、正常事例の観測データ間の関係性を計算し、この関係性を用いて、正常時の条件付き確率を計算する。そして、データドリブン因果モデル構築部104は、各機器の状態の事前確率と、正常時の条件付き確率及び既知の任意のデータドリブン手法により計算される異常時の条件付き確率とを用いて事後確率をデータドリブン因果モデルとして構築する。データドリブン因果モデル構築部104によって構築されたデータドリブン因果モデルとこの構築の際に計算された条件付き確率は因果モデルDB202に格納される。
因果モデル修正部105は、ルールベース因果モデルを構築した際の条件付き確率を、データドリブン因果モデルを構築した際の条件付き確率で修正し、ルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルを構築する。ルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルは因果モデルDB202に格納される。
推定部106は、ルールベース因果モデル、データドリブン因果モデル、又はルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルのいずれかにより異常箇所・要因を推定する。なお、最大事後確率を取るxiに対応する機器又は要因(つまり、ArgmaxiP(x1,・・・,xN|y1,・・・,yM))が異常箇所又は異常要因となる。
ユーザインタフェース部107は、推定部106により推定された異常箇所・要因とその確率とをユーザ(例えば、通信ネットワークシステムのオペレータ等)に提示する。
<因果モデル構築処理>
次に、モデル構築フェーズにおいて、本実施形態に係る推定装置10が因果モデルを構築する場合の処理について、図3を参照しながら説明する。図3は、本実施形態に係る因果モデル構築処理の一例を示すフローチャートである。なお、以降では、収集部101によって収集されたネットワーク構成データ及び観測データがネットワークデータDB201に格納されているものとする。また、収集部101によって収集された観測データjはその状態yjの値が計算され、観測データjとその状態yjとが対応付けられてネットワークデータDB201に格納されているものとする。
次に、モデル構築フェーズにおいて、本実施形態に係る推定装置10が因果モデルを構築する場合の処理について、図3を参照しながら説明する。図3は、本実施形態に係る因果モデル構築処理の一例を示すフローチャートである。なお、以降では、収集部101によって収集されたネットワーク構成データ及び観測データがネットワークデータDB201に格納されているものとする。また、収集部101によって収集された観測データjはその状態yjの値が計算され、観測データjとその状態yjとが対応付けられてネットワークデータDB201に格納されているものとする。
ステップS101:ルールベース因果モデル構築部102は、モデル構築に用いる過去の観測データj及びその状態yjとネットワーク構成データとをネットワークデータDB201から入力する。なお、ネットワーク構成データは通信ネットワークのトポロジーを表す情報であり、通信ネットワークシステムを構成する機器の識別情報(つまり、i=1,・・・,N)と機器間の接続関係等が含まれる。
ステップS102:次に、分割部103は、上記のステップS101で入力した状態yj(j=1,・・・,M)を、観測データjが表す情報の種類によって複数のクラスタに分割する。以降では、上述したType1~Type3の3つのクラスタに状態yj(j=1,・・・,M)が分割されたものとする。
ステップS103:次に、ルールベース因果モデル構築部102は、上記のステップS102で分割された各クラスタにおける代表値を計算する。すなわち、ルールベース因果モデル構築部102は、Type1クラスタの代表値zi
1(i=1,・・・,N)と、Type2クラスタの代表値zi
2(i=1,・・・,N)と、Type3クラスタの代表値z3とを計算する。
ステップS104:そして、ルールベース因果モデル構築部102は、各機器iの状態xiの事前確率と、上記のステップS103で計算した各代表値zi
1(i=1,・・・,N)、zi
2(i=1,・・・,N)及び代表値z3と各機器iの状態xiと関係性を表す条件付き確率Prとを既知の任意のルールベース手法により計算し、これらの事前確率と条件付き確率Prとから事後確率をルールベース因果モデルとして構築する。なお、ルールベース因果モデル及び条件付き確率Prは因果モデルDB202に格納される。
ステップS105:データドリブン因果モデル構築部104は、モデル構築に用いる過去の観測データj及びその状態yjとネットワーク構成データとをネットワークデータDB201から入力する。
ステップS106:データドリブン因果モデル構築部104は、正常時の観測データj間の関係性viを計算する。
ステップS107:データドリブン因果モデル構築部104は、関係性viで定義される条件付き確率Pnormalと既知の任意のデータドリブン手法により計算した条件付き確率Pabnormalとを用いて条件付き確率Pdを計算し、各機器iの状態xiの事前確率とこの条件付き確率Pdとから事後確率をデータドリブン因果モデルとして構築する。なお、データドリブン因果モデル及び条件付き確率Pdは因果モデルDB202に格納される。
ステップS108:因果モデル修正部105は、条件付き確率Prを条件付き確率Pdで修正した条件付き確率を計算する。すなわち、因果モデル修正部105は、上述したように、例えば、P=α×Pr×(1-α)×Pdにより条件付き確率Pを計算する。そして、因果モデル修正部105は、各機器iの状態xiの事前確率とこの条件付き確率Pとから事後確率を因果モデルとして構築する。これにより、ルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルが構築される。なお、ルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルは因果モデルDB202に格納される。
以上により、モデル構築フェーズにおいて、本実施形態に係る推定装置10は、ルールベース因果モデルとデータドリブン因果モデルとをそれぞれ構築した上で、ルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルとを構築することができる。これにより、上記の課題1、課題2及び課題3を解決した因果モデルを得ることができる。
<異常箇所・要因推定処理>
次に、推定フェーズにおいて、本実施形態に係る推定装置10が異常箇所・要因を推定する場合の処理について、図4を参照しながら説明する。図4は、本実施形態に係る異常箇所・要因推定処理の一例を示すフローチャートである。なお、以降では、収集部101によって収集されたネットワーク構成データ及び観測データがネットワークデータDB201に格納されているものとする。また、収集部101によって収集された観測データjはその状態yjの値が計算され、観測データjとその状態yjとが対応付けられてネットワークデータDB201に格納されているものとする。
次に、推定フェーズにおいて、本実施形態に係る推定装置10が異常箇所・要因を推定する場合の処理について、図4を参照しながら説明する。図4は、本実施形態に係る異常箇所・要因推定処理の一例を示すフローチャートである。なお、以降では、収集部101によって収集されたネットワーク構成データ及び観測データがネットワークデータDB201に格納されているものとする。また、収集部101によって収集された観測データjはその状態yjの値が計算され、観測データjとその状態yjとが対応付けられてネットワークデータDB201に格納されているものとする。
ステップS201:まず、ユーザインタフェース部107は、異常箇所・要因の推定に用いられる因果モデルの指定を受け付ける。すなわち、ユーザインタフェース部107は、ルールベース因果モデル、データドリブン因果モデル、又はルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルのいずれかの指定を受け付ける。
ステップS202:次に、推定部106は、異常箇所・要因の推定に用いる観測データj及びその状態yjとネットワーク構成データとをネットワークデータDB201から入力する。なお、観測データjとしては、例えば、通信ネットワークシステムで何等かの異常が発生したときの観測データjを入力することが考えられる。
ステップS203:次に、推定部106は、上記のステップS202で入力した観測データjの状態jを用いて、上記のステップS201で指定を受け付けた因果モデルにより異常箇所・要因を推定する。すなわち、推定部106は、事後確率が最大となるxiに対応する機器(又は要因)を異常箇所(又は異常要因)と推定する。
ステップS204:ユーザインタフェース部107は、上記のステップS203の推定結果(つまり、異常箇所・要因とその確率)をディスプレイ等に出力し、ユーザに提示する。
以上により、推定フェーズにおいて、本実施形態に係る推定装置10は、ルールベース因果モデル、データドリブン因果モデル、又はこれらを組み合わせた因果モデルにより異常箇所・要因を推定することができる。しかも、本実施形態に係る推定装置10は、ルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルを用いることで、多様な種類の観測データが取得可能な通信ネットワークシステムのネットワークトポロジーが頻繁に変化したり、当該通信ネットワークシステムから取得される観測データが頻繁に変化したりする場合であっても、その異常箇所・要因を推定することが可能になる。
<ハードウェア構成>
最後に、本実施形態に係る推定装置10のハードウェア構成について、図5を参照しながら説明する。図5は、本実施形態に係る推定装置10のハードウェア構成の一例を示す図である。
最後に、本実施形態に係る推定装置10のハードウェア構成について、図5を参照しながら説明する。図5は、本実施形態に係る推定装置10のハードウェア構成の一例を示す図である。
図5に示すように、本実施形態に係る推定装置10は一般的なコンピュータ又はコンピュータシステムで実現され、入力装置301と、表示装置302と、外部I/F303と、通信I/F304と、プロセッサ305と、メモリ装置306とを有する。これら各ハードウェアは、それぞれがバス307を介して通信可能に接続されている。
入力装置301は、例えば、キーボードやマウス、タッチパネル等である。表示装置302は、例えば、ディスプレイ等である。なお、推定装置10は、入力装置301及び表示装置302のうちの少なくとも一方を有していなくてもよい。
外部I/F303は、記録媒体303a等の外部装置とのインタフェースである。推定装置10は、外部I/F303を介して、記録媒体303aの読み取りや書き込み等を行うことができる。記録媒体303aには、例えば、推定装置10が有する各機能部(収集部101、ルールベース因果モデル構築部102、分割部103、データドリブン因果モデル構築部104、因果モデル修正部105、推定部106及びユーザインタフェース部107)を実現する1以上のプログラムが格納されていてもよい。なお、記録媒体303aとしては、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等がある。
通信I/F304は、推定装置10を通信ネットワークに接続するためのインタフェースである。なお、推定装置10が有する各機能部を実現する1以上のプログラムは、通信I/F304を介して、所定のサーバ装置等から取得(ダウンロード)されてもよい。
プロセッサ305は、例えば、CPU等の各種演算装置である。推定装置10が有する各機能部は、例えば、メモリ装置306に格納されている1以上のプログラムがプロセッサ305に実行させる処理により実現される。
メモリ装置306は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ等の各種記憶装置である。推定装置10が有する各DB(ネットワークデータDB201及び因果モデルDB202)は、メモリ装置306により実現可能である。ただし、これら各DBのうちの少なくとも1つのDBが、推定装置10と通信ネットワークを介して接続される記憶装置(例えば、データベースサーバ等)により実現されていてもよい。
本実施形態に係る推定装置10は、図5に示すハードウェア構成を有することにより、上述した因果モデル構築処理及び異常箇所・要因推定処理を実現することができる。なお、図5に示すハードウェア構成は一例であって、推定装置10は、他のハードウェア構成を有していてもよい。例えば、推定装置10は、複数のプロセッサ305を有していてもよいし、複数のメモリ装置306を有していてもよい。
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。
10 推定装置
101 収集部
102 ルールベース因果モデル構築部
103 分割部
104 データドリブン因果モデル構築部
105 因果モデル修正部
106 推定部
107 ユーザインタフェース部
201 ネットワークデータDB
202 因果モデルDB
301 入力装置
302 表示装置
303 外部I/F
303a 記録媒体
304 通信I/F
305 プロセッサ
306 メモリ装置
307 バス
101 収集部
102 ルールベース因果モデル構築部
103 分割部
104 データドリブン因果モデル構築部
105 因果モデル修正部
106 推定部
107 ユーザインタフェース部
201 ネットワークデータDB
202 因果モデルDB
301 入力装置
302 表示装置
303 外部I/F
303a 記録媒体
304 通信I/F
305 プロセッサ
306 メモリ装置
307 バス
Claims (7)
- 異常箇所又は異常要因の推定対象となる通信ネットワークシステムから観測データを収集する収集部と、
前記観測データが表す情報の種類によって、前記収集部により収集された観測データを複数のクラスタに分割する分割部と、
前記複数のクラスタの各々において、前記異常箇所又は異常要因毎に代表値となる代表観測データを決定する決定部と、
前記代表観測データを用いて、ルールベース手法により前記観測データから前記異常箇所又は異常要因を推定するための第1の因果モデルを構築する第1のモデル構築部と、
を有することを特徴とするモデル構築装置。 - 前記収集部により収集された観測データのうち、前記通信ネットワークシステムの正常時における観測データ間の関係性を表す値を計算する関係性計算部と、
前記関係性を表す値を用いて、前記通信ネットワークシステムで異常箇所又は異常要因となる箇所又は要因と正常時における前記観測データとの関係を表す第1の条件付き確率を計算する第1の計算部と、
前記通信ネットワークシステムの異常時における観測データを用いて、データドリブン手法により前記異常箇所又は異常要因と異常時における前記観測データとの関係を表す第2の条件付き確率を計算する第2の計算部と、
前記第1の条件付き確率と前記第2の条件付き確率とを用いて、前記観測データから前記異常箇所又は異常要因を推定するための第2の因果モデルを構築する第2のモデル構築部と、
を有することを特徴とする請求項1に記載のモデル構築装置。 - 前記第1の因果モデルを前記第2の因果モデルで修正した第3の因果モデルを構築する第3のモデル構築部、を有することを特徴とする請求項2に記載のモデル構築装置。
- 異常箇所又は異常要因の推定対象となる通信ネットワークシステムから観測データを収集する収集部と、
前記異常箇所又は異常要因を推定するための因果モデルであって、ルールベース手法により構築された第1の因果モデルと、データドリブン手法により構築された第2の因果モデルと、前記第1の因果モデルと前記第2の因果モデルとを組み合わせた第3の因果モデルとを記憶する記憶部と、
前記観測データを用いて、前記記憶部に記憶されている前記第1の因果モデル、前記第2の因果モデル又は前記第3の因果モデルのいずれかにより前記通信ネットワークシステムの異常箇所又は異常要因を推定する推定部と、
を有することを特徴とする推定装置。 - 異常箇所又は異常要因の推定対象となる通信ネットワークシステムから観測データを収集する収集手順と、
前記観測データが表す情報の種類によって、前記収集手順で収集された観測データを複数のクラスタに分割する分割手順と、
前記複数のクラスタの各々において、前記異常箇所又は異常要因毎に代表値となる代表観測データを決定する決定手順と、
前記代表観測データを用いて、ルールベース手法により前記観測データから前記異常箇所又は異常要因を推定するための第1の因果モデルを構築する第1のモデル構築手順と、
をコンピュータが実行することを特徴とするモデル構築方法。 - 異常箇所又は異常要因の推定対象となる通信ネットワークシステムから観測データを収集する収集手順と、
前記異常箇所又は異常要因を推定するための因果モデルであって、ルールベース手法により構築された第1の因果モデルと、データドリブン手法により構築された第2の因果モデルと、前記第1の因果モデルと前記第2の因果モデルとを組み合わせた第3の因果モデルとを記憶部に記憶する記憶手順と、
前記観測データを用いて、前記記憶部に記憶されている前記第1の因果モデル、前記第2の因果モデル又は前記第3の因果モデルのいずれかにより前記通信ネットワークシステムの異常箇所又は異常要因を推定する推定手順と、
をコンピュータが実行することを特徴とする推定方法。 - コンピュータに、請求項5に記載のモデル構築方法又は請求項6に記載の推定方法を実行させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/925,885 US20230195962A1 (en) | 2020-06-03 | 2020-06-03 | Model construction apparatus, estimation apparatus, model construction method, estimation method and program |
PCT/JP2020/022008 WO2021245853A1 (ja) | 2020-06-03 | 2020-06-03 | モデル構築装置、推定装置、モデル構築方法、推定方法及びプログラム |
JP2022529229A JP7414135B2 (ja) | 2020-06-03 | 2020-06-03 | モデル構築装置、推定装置、モデル構築方法、推定方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/022008 WO2021245853A1 (ja) | 2020-06-03 | 2020-06-03 | モデル構築装置、推定装置、モデル構築方法、推定方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021245853A1 true WO2021245853A1 (ja) | 2021-12-09 |
Family
ID=78830181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/022008 WO2021245853A1 (ja) | 2020-06-03 | 2020-06-03 | モデル構築装置、推定装置、モデル構築方法、推定方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230195962A1 (ja) |
JP (1) | JP7414135B2 (ja) |
WO (1) | WO2021245853A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7496481B1 (ja) | 2024-02-15 | 2024-06-06 | 株式会社インターネットイニシアティブ | プロセス管理装置およびプロセス管理方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019140666A (ja) * | 2018-02-13 | 2019-08-22 | 日本電信電話株式会社 | 状態推定装置及び通信システム |
-
2020
- 2020-06-03 JP JP2022529229A patent/JP7414135B2/ja active Active
- 2020-06-03 WO PCT/JP2020/022008 patent/WO2021245853A1/ja active Application Filing
- 2020-06-03 US US17/925,885 patent/US20230195962A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019140666A (ja) * | 2018-02-13 | 2019-08-22 | 日本電信電話株式会社 | 状態推定装置及び通信システム |
Non-Patent Citations (2)
Title |
---|
OGINO MASAHIRO: "Hitachi's efforts regarding medical A1 technology, ''Current development of A1 technology in image information systems", A MONTHLY JOURNAL OF MEDICAL IMAGING AND INFORMATION, vol. 51, no. 8, 1 July 2019 (2019-07-01), pages 18 - 23, XP009532937 * |
YOICHI MATSUO, YUSUKE NAKANO, AKIRA WATANABE, KEISHIRO WATANABE, KEISUKE ISHIBASHI, RYOICHI KAWAHARA: "B-7-35: Examination of technology for estimating the cause of atypical failures", 7 March 2017 (2017-03-07), JP, pages 128, XP009533031 * |
Also Published As
Publication number | Publication date |
---|---|
US20230195962A1 (en) | 2023-06-22 |
JP7414135B2 (ja) | 2024-01-16 |
JPWO2021245853A1 (ja) | 2021-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7100155B2 (ja) | アラームログ圧縮方法、装置、およびシステム、並びに記憶媒体 | |
US7451210B2 (en) | Hybrid method for event prediction and system control | |
US9917741B2 (en) | Method and system for processing network activity data | |
US7583587B2 (en) | Fault detection and diagnosis | |
US9342370B2 (en) | Server migration | |
US7613105B2 (en) | Methods and systems for removing data inconsistencies for a network simulation | |
US11204824B1 (en) | Intelligent network operation platform for network fault mitigation | |
US11714700B2 (en) | Intelligent network operation platform for network fault mitigation | |
CN111597247A (zh) | 一种数据异常分析方法、装置及存储介质 | |
Wang et al. | Efficient alarm behavior analytics for telecom networks | |
US9400731B1 (en) | Forecasting server behavior | |
JP2020514917A (ja) | プロパティグラフデータモデルを解析することによるロバスト性の定量化 | |
WO2021245853A1 (ja) | モデル構築装置、推定装置、モデル構築方法、推定方法及びプログラム | |
JP2018124829A (ja) | 状態判定装置、状態判定方法及びプログラム | |
JP7414136B2 (ja) | モデル構築装置、推定装置、モデル構築方法、推定方法及びプログラム | |
WO2021002298A1 (ja) | 故障影響推定装置、故障影響推定方法、及びプログラム | |
JP6835702B2 (ja) | 異常推定装置、異常推定方法及びプログラム | |
JP6787873B2 (ja) | 異常種別判定装置、異常種別判定方法及びプログラム | |
WO2024034024A1 (ja) | 因果モデル構築装置、異常箇所推定装置、因果モデル構築方法、異常箇所推定方法、及びプログラム | |
Billal et al. | Improving stochastic and dynamic communication networks by optimizing throughput | |
JP2007334589A (ja) | 決定木構築方法および装置および状態判定装置 | |
CN112260873B (zh) | 一种5g网络切片下动态网络故障诊断方法 | |
Taguchi et al. | System resource management to control the risk of data-loss in a cloud-based disaster recovery | |
CN113849333A (zh) | 一种基于WN-Spline基线域算法的数据中心自驱排障方法及系统 | |
CN113285837A (zh) | 一种基于拓扑感知的载波网络服务故障诊断方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20939353 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2022529229 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20939353 Country of ref document: EP Kind code of ref document: A1 |