WO2021245853A1

WO2021245853A1 - モデル構築装置、推定装置、モデル構築方法、推定方法及びプログラム

Info

Publication number: WO2021245853A1
Application number: PCT/JP2020/022008
Authority: WO
Inventors: 洋一松尾; 敬志郎渡辺
Original assignee: 日本電信電話株式会社
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2021-12-09
Also published as: US20230195962A1; JP7414135B2; JPWO2021245853A1

Abstract

一実施形態に係るモデル構築装置は、異常箇所又は異常要因の推定対象となる通信ネットワークシステムから観測データを収集する収集部と、前記観測データが表す情報の種類によって、前記収集部により収集された観測データを複数のクラスタに分割する分割部と、前記複数のクラスタの各々において、前記異常箇所又は異常要因毎に代表値となる代表観測データを決定する決定部と、前記代表観測データを用いて、ルールベース手法により前記観測データから前記異常箇所又は異常要因を推定するための第１の因果モデルを構築する第１のモデル構築部と、を有することを特徴とする。

Description

モデル構築装置、推定装置、モデル構築方法、推定方法及びプログラム

　本発明は、モデル構築装置、推定装置、モデル構築方法、推定方法及びプログラムに関する。

　通信事業者にとって、通信ネットワークシステム内で発生する異常の状態を把握し、その対応を迅速に行うことは重要な業務である。こうした中で、通信ネットワークシステム内で発生した異常を早期に検知するための手法や異常箇所・要因を推定するための手法等の研究が従来から行われている。

　異常箇所・要因を推定するための手法として、異常箇所・要因とこの異常によって引き起こされる通信ネットワークシステム内のデータ（以下、「観測データ」ともいう。）の変化との関係性を因果モデルとしてベイジアンネットワークによりモデル化し、異常時の観測データから異常箇所・要因を推定する手法が提案されている（非特許文献１～３）。これらの手法は、ルールベース手法又はデータドリブン手法のいずれかに分類することができる。

　ルールベース手法は、事前に定義したルールに従ってモデル化する手法である。ルールベース手法では、主に通信ネットワークシステムのオペレータ等のエキスパートの知識を用いて、異常箇所・要因と観測データの変化との関係性をモデル化する。例えば、非特許文献１では、ルータの正常・異常は隣接しているリンクの観測データのみに影響するというルールをエキスパートの知識から作成し、このルールと通信ネットワークシステムのトポロジーにおける隣接関係とを用いて因果モデルを構築している。また、非特許文献２では、テンプレートという抽象的なルールを作成することで、因果モデルの構築を容易するための提案がなされている。

　データドリブン手法は、データからモデル化する手法である。データドリブン手法では、過去に異常が発生したときの観測データを用いて、異常箇所・要因とそのときの観測データの変化との関係性をモデル化する。例えば、非特許文献３では、或る障害に関して過去の複数の事例データを用いてその関係性をモデル化している。

　ところで、異常箇所・要因を推定するための手法では通信ネットワークシステムのsyslogやトラヒック情報等を用いて異常箇所・要因を推定しているが、近年では、syslogやトラヒック情報以外にも、例えば、フローデータやテレメトリーデータ、通信機器に関するセンサデータ等の多様な種類の観測データが容易に取得できるようになっており、これら多様な種類の観測データを用いることで、より細かい粒度で異常箇所・要因を推定することができるようになると考えられている。

Srikanth Kandula, Dina Katabi, and Jean-philippe Vasseur. Shrink: A tool for failure diagnosis in IP networks. Proceedings of the 2005 ACM SIGCOMM workshop on Mining network data, pages 173-178, 2005. He Yan, Lee Breslau, Zihui Ge, Dan Massey, Dan Pei, and Jennifer Yates. G-RCA: A Generic Root Cause Analysis Platform for Service Quality Management in Large IP Networks. IEEE/ACM Transactions on Networking, 20(6):1734-1747, 2012. Kandula, Srikanth and Mahajan, Ratul and Verkaik, Patrick and Agarwal, Sharad and Padhye, Jitendra and Bahl, Paramvir. Detailed diagnosis in enterprise networks. ACM SIGCOMM Computer Communication Review, vol.39, num.4, pp.243-254, 2009.

　しかしながら、多様な種類の観測データを用いて因果モデルを構築する場合、以下の課題がある。

　課題１：ルールベース手法ではモデル化のために事前にエキスパートの知識が必要となるが、通信ネットワークシステムで発生する異常と多様な種類の観測データとの関係性を一つ一つルール化することは困難である。

　課題２：データドリブン手法では過去に異常が発生したときの観測データが必要であるが、通信ネットワークシステムでは異常が頻発することは一般に少なく、また、観測データの種類が多様になることにより異常に対して観測データが取り得るパターン数が増加する。このため、その増加分を補うだけの異常事例を収集することは一般に困難である。

　課題３：更に、近年では、通信ネットワークの仮想化技術により、トポロジーが高頻度で変化することが増えている。また、それに伴い、通信ネットワークシステムから取得される観測データも高頻度で変化する。このため、ルールベース手法では異常と観測データとの関係性を一つ一つルール化することが困難であり、データドリブン手法では十分な異常事例を収集することが困難である。

　本発明の一実施形態は、上記の点に鑑みてなされたもので、多様な種類の観測データを用いて、異常箇所・要因を推定するための因果モデルを構築することを目的とする。

　上記目的を達成するため、一実施形態に係るモデル構築装置は、異常箇所又は異常要因の推定対象となる通信ネットワークシステムから観測データを収集する収集部と、前記観測データが表す情報の種類によって、前記収集部により収集された観測データを複数のクラスタに分割する分割部と、前記複数のクラスタの各々において、前記異常箇所又は異常要因毎に代表値となる代表観測データを決定する決定部と、前記代表観測データを用いて、ルールベース手法により前記観測データから前記異常箇所又は異常要因を推定するための第１の因果モデルを構築する第１のモデル構築部と、を有することを特徴とする。

　多様な種類の観測データを用いて、異常箇所・要因を推定するための因果モデルを構築することができる。

グラフィカルモデルの一例を示す図である。本実施形態に係る推定装置の機能構成の一例を示す図である。本実施形態に係る因果モデル構築処理の一例を示すフローチャートである。本実施形態に係る異常箇所・要因推定処理の一例を示すフローチャートである。本実施形態に係る推定装置のハードウェア構成の一例を示す図である。

　以下、本発明の一実施形態について説明する。本実施形態では、通信ネットワークシステムにおける多様な種類の観測データから因果モデルを構築し、この因果モデルにより通信ネットワークシステムの異常箇所・要因を推定する推定装置１０について説明する。ここで、本実施形態に係る推定装置１０には、過去の観測データから因果モデルを構築する「モデル構築フェーズ」と、この因果モデルを用いて異常発生時の観測データから異常箇所・要因を推定する「推定フェーズ」とが存在する。なお、モデル構築フェーズにおける推定装置１０は、例えば、「モデル構築装置」等と称されてもよい。また、通信ネットワークシステムは種々の機器（例えば、ルータやサーバ等）をノード、通信経路等をリンクとする通信ネットワーク環境を実現するシステムであり、ＩＣＴ（Information and Communication Technology）システム等と称されてもよい。

　＜理論的構成＞
　まず、モデル構築フェーズにおける因果モデル構築と、推定フェーズにおける異常箇所・要因推定との理論的構成について説明する。

　本実施形態では、多様な種類の観測データに対して、上記の課題１と課題２を考慮しながらルールベース手法とデータドリブン手法によりそれぞれ因果モデル（以下、それぞれ「ルールベース因果モデル」、「データドリブン因果モデル」ともいう。）を構築する。そして、ルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルを構築することで、上記の課題３を解決する。これにより、因果モデルにより多様な観測データから異常箇所・要因の推定を可能にする。なお、これらの因果モデルはグラフィカルモデルの１つであるベイジアンネットワークで表される。

　以降では、一例として、異常箇所を推定する場合を想定し、通信ネットワークシステムで異常が発生した箇所として異常が発生した機器を推定する場合について説明する。ただし、後述する機器ｉを要因ｉとすることで、異常要因を推定する場合についても同様に適用可能である。

　通信ネットワークシステムの機器ｉの状態をｘ_ｉ，ｉ∈｛１，・・・，Ｎ｝とし、観測データｊの状態をｙ_ｊ，ｊ∈｛１，・・・，Ｍ｝とする。Ｎは通信ネットワークシステムを構成する機器の数、Ｍは観測データの数である。各ｘ_ｉ及びｙ_ｊは０（正常状態）又は１（異常状態）のいずれかの値を取るものとする。ただし、０又は１の２値ではなく、３値以上の多値を取るとすることも可能である。

　そして、各ｘ_ｉ及びｙ_ｊに対して、事前確率Ｐ（ｘ_ｉ）と条件付き確率Ｐ（ｙ_ｊ｜ｘ_ｉ）とを規定し、事後確率Ｐ（ｘ_ｉ｜ｙ_ｊ）を因果モデルとして構築する。

　なお、観測データｊとしては、通信ネットワークシステムから収集可能な多様な種類のデータ（例えば、syslogやトラヒック情報、フローデータ、テレメトリーデータ、センサデータ等）以外にも、例えば、参考文献「Yasuhiro Ikeda, Keisuke Ishibashi, Yuusuke Nakano, Keishiro Watanabe, Ryoichi Kawahara, "Anomaly Detection and Interpretation using Multimodal Autoencoder and Sparse Optimization", arXiv:1812.07136 [stat.ML]」中に記載されている要因度が用いられてもよい。

　観測データｊの状態ｙ_ｊは、例えば、観測データｊ（要因度も含む）が連続値の場合には、正常時の観測データｊの値から閾値を決定し、この閾値以上（又は以下）となる観測データｊの状態ｙ_ｊの値を１、それ以外の観測データｊの状態ｙ_ｊの値を０としてもよいし、正常時の観測データｊの分散を計算し、Ｌ（ただし、Ｌは予め決定された任意の自然数）シグマ以上外れた観測データｊの状態ｙ_ｊの値を１、それ以外の観測データｊの状態ｙ_ｊの値を０としてもよい。

　　≪ルールベース因果モデルの構築≫
　上記の課題１を解決するルールベース因果モデルを構築する方法について説明する。本実施形態では、観測データの状態を複数のクラスタに分割し、そのクラスタの代表値を新たな観測データの状態として使用する。これにより、観測データの状態数が削減（つまり、ルールベース因果モデルの構築に用いる観測データ数が削減）され、課題１を解決することが可能になる。

　ここで、観測データは通信ネットワークシステム全体から取得されるデータと各機器から取得されるデータとがあり、それぞれのデータが表す情報が異なる。例えば、ＣＰＵ（Central Processing Unit）／メモリ使用率や温度等のテレメトリーデータ等は機器の内部状態を表し、インプット／アウトプットトラヒック量やインタフェーストラップ等の観測データは機器間の入出力を表し、Netflow情報やＲＴＴ（Round-Trip Time）等の観測データは通信ネットワークシステム全体の状態を表している。また、機器の内部状態や機器間の入出力を表す観測データの場合、どの機器の内部状態又は入出力かによっても表す情報が異なることがある。

　そこで、本実施形態では、観測データｊが表す情報の種類によってその状態ｙ_ｊを以下のＴｙｐｅ１～Ｔｙｐｅ３の３つに分割する。

　Ｔｙｐｅ１：機器ｉの状態ｘ_ｉを表す観測データの状態ｙ_ｉ，ｊ ^１（ただし、ｉ∈｛１，・・・，Ｎ｝，ｊ∈｛１，・・・，Ｍ_ｉ ^１｝）
　Ｔｙｐｅ２：機器ｉへの入力又は出力を表す観測データの状態ｙ_ｉ，ｊ ^２（ただし、ｉ∈｛１，・・・，Ｎ｝，ｊ∈｛１，・・・，Ｍ_ｉ ^２｝）
　Ｔｙｐｅ３：通信ネットワークシステム全体の状態を表す観測データの状態ｙ_ｊ ^３（ただし、ｊ∈｛１，・・・，Ｍ^３｝）
　なお、Ｍ＝Σ_ｉ（Ｍ_ｉ ^１＋Ｍ_ｉ ^２）＋Ｍ^３である。

　このように、観測データｊ（ｊ＝１，・・・，Ｍ）の状態ｙ_ｊをＴｙｐｅ１～Ｔｙｐｅ３の３つのクラスタに分割する。これにより、観測データｊ（ｊ＝１，・・・，Ｍ）もＴｙｐｅ１～Ｔｙｐｅ３の３つのクラスタに分割される。

　そして、各ｉ＝１，・・・，Ｎに対して、ｙ_ｉ，ｊ ^１の代表値ｚ_ｉ ^１と、ｙ_ｉ，ｊ ^２の代表値ｚ_ｉ ^２と、ｙ_ｊ ^３の代表値ｚ^３とを作成する。各代表値ｚ_ｉ ^１、ｚ_ｉ ^２及びｚ^３は０（正常状態）又は１（異常状態）のいずれかの値を取るものとする。各代表値ｚ_ｉ ^１、ｚ_ｉ ^２及びｚ^３の値の決め方は様々あるが、例えば、ｙ_ｉ，ｊ ^１（ｊ＝１，・・・，Ｍ_ｉ ^１）のうち、予め決められたｋ個以上の値が１であれば、ｚ_ｉ ^１を１とする方法が考えられる。ｚ_ｉ ^２及びｚ^３についても同様に、ｙ_ｉ，ｊ ^２（ｊ＝１，・・・，Ｍ_ｉ ^２）のうちｋ個以上の値が１であればｚ_ｉ ^２を１とし、ｙ_ｊ ^３（ｊ＝１，・・・，Ｍ^３）のうちｋ個以上の値が１であればｚ^３を１とする方法が考えられる。なお、ｋは各クラスタで共通であってもよいし、各クラスタで異なっていてもよい。

　そして、代表値ｚ_ｉ ^１、ｚ_ｉ ^２及びｚ^３と機器ｉの状態ｘ_ｉとに対して、既知の任意のルールベース手法によりルールベース因果モデルを構築する。すなわち、既知の任意のルールベース手法により、事前確率Ｐ（ｘ_１，・・・，ｘ_Ｎ）と条件付き確率Ｐ（ｚ_１ ^１，ｚ_１ ^２，・・・，ｚ_Ｎ ^１，ｚ_Ｎ ^２，ｚ^３｜ｘ_{１，・・・，}ｘ_Ｎ）とを規定し、事後確率Ｐ（ｘ_１，・・・，ｘ_Ｎ｜ｚ_１ ^１，ｚ_１ ^２，・・・，ｚ_Ｎ ^１，ｚ_Ｎ ^２，ｚ^３）をルールベース因果モデルとして構築する。このように、観測データｊの状態ｙ_ｊの代わりに代表値ｚ_ｉ ^１、ｚ_ｉ ^２及びｚ^３を用いることで、モデル構築に用いる観測データの状態数が削減され、上記の課題１を解決することが可能となる。なお、この条件付き確率Ｐ（ｚ_１ ^１，ｚ_１ ^２，・・・，ｚ_Ｎ ^１，ｚ_Ｎ ^２，ｚ^３｜ｘ_{１，・・・，}ｘ_Ｎ）が、後述する条件付き確率Ｐ_ｒとなる。

　ここで、状態ｙ_ｉ，ｊ ^１，ｙ_ｉ，ｊ ^２及びｙ_ｊ ^３と代表値ｚ_ｉ ^１，ｚ_ｉ ^２及びｚ^３と状態ｘ_ｉとをそれぞれノードとして、その因果モデルを表すグラフィカルモデル（ベイジアンネットワーク）の一例を図１に示す。図１に示す例では、状態ｙ_ｉ，ｊ ^１，ｙ_ｉ，ｊ ^２をObservation nodes、代表値ｚ_ｉ ^１，ｚ_ｉ ^２及びｚ^３をRepresentative nodes、機器ｉの状態ｘ_ｉをEquipment nodesと表している。Representative nodesとEquipment nodesとの間の因果関係が、既知の任意のルールベース手法により規定される。

　なお、本実施形態では、観測データｊの状態ｙ_ｊをＴｙｐｅ１～Ｔｙｐｅ３の３つのクラスタに分割したが、これは一例であって、任意の個数のクラスタに分割することも可能である。

　　≪データドリブン因果モデルの構築≫
　上記の課題２を解決するデータドリブン因果モデルを構築する方法について説明する。本実施形態では、異常事例だけなく、正常事例も加えて因果モデルを構築する。これにより、異常事例の収集が困難である場合であっても因果モデルを構築することができ、課題２を解決することが可能になる。

　既知のデータドリブン手法による因果モデルの構築では、過去の機器ｉの状態ｘ_ｉが得られたときにおける観測データｊの状態ｙ_ｊ（ｊ＝１，・・・，Ｍ）を用いて、条件付き確率Ｐ（ｙ_１，・・・，ｙ_Ｍ｜ｘ_ｉ）を規定し、因果モデルを構築している。ここで、過去に機器ｉの状態ｘ_ｉが異常状態である事例が少ないというのが課題２の原因であるが、一般に、通信ネットワークシステムにおいては状態ｘ_ｉが正常状態である事例は多数存在し、機器ｉの状態ｘ_ｉと観測データｊの状態ｙ_ｊとの関係性は正常状態においても存在する。そこで、本実施形態では、正常状態の事例も用いて因果モデルを構築する。

　機器ｉの状態ｘ_ｉが正常状態であるときにｙ_１，・・・，ｙ_Ｍが取っていた値を用いて、正常時の条件付き確率Ｐ_{ｎｏｒｍａｌ}（ｙ_１，・・・，ｙ_Ｍ｜ｘ_ｉ）を規定する。ただし、正常事例では全ての機器ｉの状態ｘ_ｉも全ての観測データｊの状態ｙ_ｊも正常状態という事例しか得られない。そこで、観測データ間の関係性を計算し、その観測データを取得する機器との条件付き確率を関係性の値とする。例えば、機器ｉ'から得られる観測データｊ'と機器ｉ"から得られる観測データｊ"とを考え、観測データｊ'に対する観測データｊ"の関係性を計算する。この関係性としては、例えば、相関係数、グレンジャー因果、正常時の観測データで学習させた自己符号化器（Auto Encoder）の重み等を用いることが考えられる。

　そして、観測データｊ'に対する観測データｊ"の関係性をｖ_ｉ'として、条件付き確率をＰ_{ｎｏｒｍａｌ}（ｙ_ｊ"｜ｘ_ｉ'）＝Ｐ_{ｎｏｒｍａｌ}（ｙ_ｊ'｜ｘ_ｉ"）＝ｖ_ｉ'と定義する。これらをまとめ、Ｐ_{ｎｏｒｍａｌ}を以下で定義する。

　Ｐ_{ｎｏｒｍａｌ}（ｙ_１，・・・，ｙ_Ｍ｜ｘ_１，・・・，ｘ_Ｎ）＝Π_ｉＰ_{ｎｏｒｍａｌ}（ｙ_１，・・・，ｙ_Ｍ｜ｘ_ｉ）＝τ×Π_ｉｖ_ｉ
　ここで、τは正規化定数である。

　最終的に、条件付き確率Ｐ（ｙ_１，・・・，ｙ_Ｍ｜ｘ_１，・・・，ｘ_Ｎ）を以下で定義する。

　Ｐ（ｙ_１，・・・，ｙ_Ｍ｜ｘ_１，・・・，ｘ_Ｎ）＝Ｗ×Ｐ_{ｎｏｒｍａｌ}（ｙ_１，・・・，ｙ_Ｍ｜ｘ_１，・・・，ｘ_Ｎ）×（１－Ｗ）×Ｐ_{ａｂｎｏｒｍａｌ}（ｙ_１，・・・，ｙ_Ｍ｜ｘ_１，・・・，ｘ_Ｎ）
　ここで、Ｐ_{ａｂｎｏｒｍａｌ}（ｙ_１，・・・，ｙ_Ｍ｜ｘ_１，・・・，ｘ_Ｎ）は異常事例を用いて既知の任意のデータドリブン手法により規定した条件付き確率である。また、Ｗ＜１は予め設定された重みパラメータである。このように、正常状態の関係性と異常状態の関係性は異なることが想定されるため、正常状態の関係性を表す条件付き確率Ｐ_{ｎｏｒｍａｌ}にはＷで重み付けし、異常状態の関係性を表す条件付き確率Ｐ_{ａｂｎｏｒｍａｌ}には１－Ｗで重み付けを行う。なお、上記で定義した条件付き確率Ｐ（又はＰ_{ａｂｎｏｒｍａｌ}）が、後述する条件付き確率Ｐ_ｄとなる。

　これにより、事前確率Ｐ（ｘ_１，・・・，ｘ_Ｎ）と条件付き確率Ｐ（ｙ_１，・・・，ｙ_Ｍ｜ｘ_１，・・・，ｘ_Ｎ）から事後確率Ｐ（ｘ_１，・・・，ｘ_Ｎ｜ｙ_１，・・・，ｙ_Ｍ）をデータドリブン因果モデルとして構築することができる。このように、異常事例に加えて、正常事例も用いることで、上記の課題２を解決することが可能になる。

　　≪ルールベース因果モデルとデータドリブン因果モデルの組み合わせ≫
　最後に、ルールベース因果モデルとデータドリブン因果モデルとを組み合わせることで、上記の課題３を解決する因果モデルを構築する方法について説明する。

　通信ネットワークシステムのネットワーク構成（例えば、通信ネットワークのトポロジー等）や当該通信ネットワークシステムから取得される観測データ等が頻繁に変化する場合、ルールベース手法やデータドリブン手法により事前に全ての関係性を網羅した因果モデルを構築することは難しいが、正常事例を用いて規定した条件付き確率Ｐ_{ｎｏｒｍａｌ}により、条件付き確率Ｐ（ｚ_１ ^１，ｚ_１ ^２，・・・，ｚ_Ｎ ^１，ｚ_Ｎ ^２，ｚ^３｜ｘ_{１，・・・，}ｘ_Ｎ）を修正することで、実際の通信ネットワークシステムの関係性を考慮した因果モデルを構築することが可能となる。なお、条件付き確率Ｐ（ｚ_１ ^１，ｚ_１ ^２，・・・，ｚ_Ｎ ^１，ｚ_Ｎ ^２，ｚ^３｜ｘ_{１，・・・，}ｘ_Ｎ）は、各ｚ_ｉ ^１、ｚ_ｉ ^２及びｚ^３の定義によりＰ（ｙ_１，・・・，ｙ_Ｍ｜ｘ_{１，・・・，}ｘ_Ｎ）と表記することもできる。

　すなわち、ルールベース因果モデルを構築した際に規定した条件付き確率をＰ_ｒ（ｙ_１，・・・，ｙ_Ｍ｜ｘ_{１，・・・，}ｘ_Ｎ）、データドリブン因果モデルを構築した際に規定した条件付き確率をＰ_ｄ（ｙ_１，・・・，ｙ_Ｍ｜ｘ_{１，・・・，}ｘ_Ｎ）として、条件付き確率Ｐ_ｄにより条件付き確率Ｐ_ｒを修正した条件付き確率Ｐ（ｙ_１，・・・，ｙ_Ｍ｜ｘ_{１，・・・，}ｘ_Ｎ）を規定する。そして、事前確率（ｘ_１，・・・，ｘ_Ｎ）と条件付き確率Ｐ（ｙ_１，・・・，ｙ_Ｍ｜ｘ_{１，・・・，}ｘ_Ｎ）から事後確率Ｐ（ｘ_１，・・・，ｘ_Ｎ｜ｙ_１，・・・，ｙ_Ｍ）を因果モデルとして構築する。これにより、ルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルが得られ、上記の課題３を解決することが可能となる。

　条件付き確率Ｐ_ｄにより条件付き確率Ｐ_ｒを修正する方法は様々あるが、例えば、以下のように条件付き確率Ｐ_ｒを修正して条件付き確率Ｐ（ｙ_１，・・・，ｙ_Ｍ｜ｘ_{１，・・・，}ｘ_Ｎ）を得ることが考えられる。

　Ｐ（ｙ_１，・・・，ｙ_Ｍ｜ｘ_{１，・・・，}ｘ_Ｎ）＝α×Ｐ_ｒ（ｙ_１，・・・，ｙ_Ｍ｜ｘ_{１，・・・，}ｘ_Ｎ）×（１－α）×Ｐ_ｄ（ｙ_１，・・・，ｙ_Ｍ｜ｘ_{１，・・・，}ｘ_Ｎ）
　ここで、αは予め設定された重みパラメータである。

　なお、Ｐ_ｄは、上述したＷ×Ｐ_{ｎｏｒｍａｌ}（ｙ_１，・・・，ｙ_Ｍ｜ｘ_１，・・・，ｘ_Ｎ）×（１－Ｗ）×Ｐ_{ａｂｎｏｒｍａｌ}（ｙ_１，・・・，ｙ_Ｍ｜ｘ_１，・・・，ｘ_Ｎ）であるが、これに限られず、例えば、Ｐ_{ａｂｎｏｒｍａｌ}（ｙ_１，・・・，ｙ_Ｍ｜ｘ_１，・・・，ｘ_Ｎ）であってもよい（つまり、異常事例を用いて規定した条件付き確率であってもよい。）。

　＜機能構成＞
　次に、本実施形態に係る推定装置１０の機能構成について、図２を参照しながら説明する。図２は、本実施形態に係る推定装置１０の機能構成の一例を示す図である。

　図２に示すように、本実施形態に係る推定装置１０は、収集部１０１と、ルールベース因果モデル構築部１０２と、分割部１０３と、データドリブン因果モデル構築部１０４と、因果モデル修正部１０５と、推定部１０６と、ユーザインタフェース部１０７と、ネットワークデータＤＢ２０１と、因果モデルＤＢ２０２とを有する。

　収集部１０１は、ネットワーク構成データと観測データとを通信ネットワークシステムから収集する。収集部１０１によって収集されたネットワーク構成データ及び観測データはネットワークデータＤＢ２０１に格納される。ここで、ネットワーク構成データとは、通信ネットワークのトポロジーを表す情報（つまり、通信ネットワークシステムを構成する機器と機器間の接続関係等を表す情報）である。ネットワーク構成データにより機器ｉ，ｉ∈｛１，・・・，Ｎ｝及びその接続関係等が特定される。

　ルールベース因果モデル構築部１０２は、後述する分割部１０３により分割された複数のクラスタのそれぞれにおいて代表値（例えば、上述したｚ_ｉ ^１（ｉ＝１，・・・，Ｎ），ｚ_ｉ ^２（ｉ＝１，・・・，Ｎ）及びｚ^３）を計算し、各機器の状態の事前確率と、各代表値と各機器の状態との関係性を表す条件付き確率とを用いて事後確率をルールベース因果モデルとして構築する。ルールベース因果モデル構築部１０２によって構築されたルールベース因果モデルとこの構築の際に計算された条件付き確率は因果モデルＤＢ２０２に格納される。

　分割部１０３は、ルールベース因果モデル構築部１０２によりルールベース因果モデルを構築する際に、観測データｊの状態ｙ_ｊをその種類によって複数のクラスタ（例えば、上述したＴｙｐｅ１～Ｔｙｐｅ３の３つのクラスタ）に分割する。

　データドリブン因果モデル構築部１０４は、正常事例の観測データ間の関係性を計算し、この関係性を用いて、正常時の条件付き確率を計算する。そして、データドリブン因果モデル構築部１０４は、各機器の状態の事前確率と、正常時の条件付き確率及び既知の任意のデータドリブン手法により計算される異常時の条件付き確率とを用いて事後確率をデータドリブン因果モデルとして構築する。データドリブン因果モデル構築部１０４によって構築されたデータドリブン因果モデルとこの構築の際に計算された条件付き確率は因果モデルＤＢ２０２に格納される。

　因果モデル修正部１０５は、ルールベース因果モデルを構築した際の条件付き確率を、データドリブン因果モデルを構築した際の条件付き確率で修正し、ルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルを構築する。ルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルは因果モデルＤＢ２０２に格納される。

　推定部１０６は、ルールベース因果モデル、データドリブン因果モデル、又はルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルのいずれかにより異常箇所・要因を推定する。なお、最大事後確率を取るｘ_ｉに対応する機器又は要因（つまり、Ａｒｇｍａｘ_ｉＰ（ｘ_１，・・・，ｘ_Ｎ｜ｙ_１，・・・，ｙ_Ｍ））が異常箇所又は異常要因となる。

　ユーザインタフェース部１０７は、推定部１０６により推定された異常箇所・要因とその確率とをユーザ（例えば、通信ネットワークシステムのオペレータ等）に提示する。

　＜因果モデル構築処理＞
　次に、モデル構築フェーズにおいて、本実施形態に係る推定装置１０が因果モデルを構築する場合の処理について、図３を参照しながら説明する。図３は、本実施形態に係る因果モデル構築処理の一例を示すフローチャートである。なお、以降では、収集部１０１によって収集されたネットワーク構成データ及び観測データがネットワークデータＤＢ２０１に格納されているものとする。また、収集部１０１によって収集された観測データｊはその状態ｙ_ｊの値が計算され、観測データｊとその状態ｙ_ｊとが対応付けられてネットワークデータＤＢ２０１に格納されているものとする。

　ステップＳ１０１：ルールベース因果モデル構築部１０２は、モデル構築に用いる過去の観測データｊ及びその状態ｙ_ｊとネットワーク構成データとをネットワークデータＤＢ２０１から入力する。なお、ネットワーク構成データは通信ネットワークのトポロジーを表す情報であり、通信ネットワークシステムを構成する機器の識別情報（つまり、ｉ＝１，・・・，Ｎ）と機器間の接続関係等が含まれる。

　ステップＳ１０２：次に、分割部１０３は、上記のステップＳ１０１で入力した状態ｙ_ｊ（ｊ＝１，・・・，Ｍ）を、観測データｊが表す情報の種類によって複数のクラスタに分割する。以降では、上述したＴｙｐｅ１～Ｔｙｐｅ３の３つのクラスタに状態ｙ_ｊ（ｊ＝１，・・・，Ｍ）が分割されたものとする。

　ステップＳ１０３：次に、ルールベース因果モデル構築部１０２は、上記のステップＳ１０２で分割された各クラスタにおける代表値を計算する。すなわち、ルールベース因果モデル構築部１０２は、Ｔｙｐｅ１クラスタの代表値ｚ_ｉ ^１（ｉ＝１，・・・，Ｎ）と、Ｔｙｐｅ２クラスタの代表値ｚ_ｉ ^２（ｉ＝１，・・・，Ｎ）と、Ｔｙｐｅ３クラスタの代表値ｚ^３とを計算する。

　ステップＳ１０４：そして、ルールベース因果モデル構築部１０２は、各機器ｉの状態ｘ_ｉの事前確率と、上記のステップＳ１０３で計算した各代表値ｚ_ｉ ^１（ｉ＝１，・・・，Ｎ）、ｚ_ｉ ^２（ｉ＝１，・・・，Ｎ）及び代表値ｚ^３と各機器ｉの状態ｘ_ｉと関係性を表す条件付き確率Ｐ_ｒとを既知の任意のルールベース手法により計算し、これらの事前確率と条件付き確率Ｐ_ｒとから事後確率をルールベース因果モデルとして構築する。なお、ルールベース因果モデル及び条件付き確率Ｐ_ｒは因果モデルＤＢ２０２に格納される。

　ステップＳ１０５：データドリブン因果モデル構築部１０４は、モデル構築に用いる過去の観測データｊ及びその状態ｙ_ｊとネットワーク構成データとをネットワークデータＤＢ２０１から入力する。

　ステップＳ１０６：データドリブン因果モデル構築部１０４は、正常時の観測データｊ間の関係性ｖ_ｉを計算する。

　ステップＳ１０７：データドリブン因果モデル構築部１０４は、関係性ｖ_ｉで定義される条件付き確率Ｐ_{ｎｏｒｍａｌ}と既知の任意のデータドリブン手法により計算した条件付き確率Ｐ_{ａｂｎｏｒｍａｌ}とを用いて条件付き確率Ｐ_ｄを計算し、各機器ｉの状態ｘ_ｉの事前確率とこの条件付き確率Ｐ_ｄとから事後確率をデータドリブン因果モデルとして構築する。なお、データドリブン因果モデル及び条件付き確率Ｐ_ｄは因果モデルＤＢ２０２に格納される。

　ステップＳ１０８：因果モデル修正部１０５は、条件付き確率Ｐ_ｒを条件付き確率Ｐ_ｄで修正した条件付き確率を計算する。すなわち、因果モデル修正部１０５は、上述したように、例えば、Ｐ＝α×Ｐ_ｒ×（１－α）×Ｐ_ｄにより条件付き確率Ｐを計算する。そして、因果モデル修正部１０５は、各機器ｉの状態ｘ_ｉの事前確率とこの条件付き確率Ｐとから事後確率を因果モデルとして構築する。これにより、ルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルが構築される。なお、ルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルは因果モデルＤＢ２０２に格納される。

　以上により、モデル構築フェーズにおいて、本実施形態に係る推定装置１０は、ルールベース因果モデルとデータドリブン因果モデルとをそれぞれ構築した上で、ルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルとを構築することができる。これにより、上記の課題１、課題２及び課題３を解決した因果モデルを得ることができる。

　＜異常箇所・要因推定処理＞
　次に、推定フェーズにおいて、本実施形態に係る推定装置１０が異常箇所・要因を推定する場合の処理について、図４を参照しながら説明する。図４は、本実施形態に係る異常箇所・要因推定処理の一例を示すフローチャートである。なお、以降では、収集部１０１によって収集されたネットワーク構成データ及び観測データがネットワークデータＤＢ２０１に格納されているものとする。また、収集部１０１によって収集された観測データｊはその状態ｙ_ｊの値が計算され、観測データｊとその状態ｙ_ｊとが対応付けられてネットワークデータＤＢ２０１に格納されているものとする。

　ステップＳ２０１：まず、ユーザインタフェース部１０７は、異常箇所・要因の推定に用いられる因果モデルの指定を受け付ける。すなわち、ユーザインタフェース部１０７は、ルールベース因果モデル、データドリブン因果モデル、又はルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルのいずれかの指定を受け付ける。

　ステップＳ２０２：次に、推定部１０６は、異常箇所・要因の推定に用いる観測データｊ及びその状態ｙ_ｊとネットワーク構成データとをネットワークデータＤＢ２０１から入力する。なお、観測データｊとしては、例えば、通信ネットワークシステムで何等かの異常が発生したときの観測データｊを入力することが考えられる。

　ステップＳ２０３：次に、推定部１０６は、上記のステップＳ２０２で入力した観測データｊの状態_ｊを用いて、上記のステップＳ２０１で指定を受け付けた因果モデルにより異常箇所・要因を推定する。すなわち、推定部１０６は、事後確率が最大となるｘ_ｉに対応する機器（又は要因）を異常箇所（又は異常要因）と推定する。

　ステップＳ２０４：ユーザインタフェース部１０７は、上記のステップＳ２０３の推定結果（つまり、異常箇所・要因とその確率）をディスプレイ等に出力し、ユーザに提示する。

　以上により、推定フェーズにおいて、本実施形態に係る推定装置１０は、ルールベース因果モデル、データドリブン因果モデル、又はこれらを組み合わせた因果モデルにより異常箇所・要因を推定することができる。しかも、本実施形態に係る推定装置１０は、ルールベース因果モデルとデータドリブン因果モデルとを組み合わせた因果モデルを用いることで、多様な種類の観測データが取得可能な通信ネットワークシステムのネットワークトポロジーが頻繁に変化したり、当該通信ネットワークシステムから取得される観測データが頻繁に変化したりする場合であっても、その異常箇所・要因を推定することが可能になる。

　＜ハードウェア構成＞
　最後に、本実施形態に係る推定装置１０のハードウェア構成について、図５を参照しながら説明する。図５は、本実施形態に係る推定装置１０のハードウェア構成の一例を示す図である。

　図５に示すように、本実施形態に係る推定装置１０は一般的なコンピュータ又はコンピュータシステムで実現され、入力装置３０１と、表示装置３０２と、外部Ｉ／Ｆ３０３と、通信Ｉ／Ｆ３０４と、プロセッサ３０５と、メモリ装置３０６とを有する。これら各ハードウェアは、それぞれがバス３０７を介して通信可能に接続されている。

　入力装置３０１は、例えば、キーボードやマウス、タッチパネル等である。表示装置３０２は、例えば、ディスプレイ等である。なお、推定装置１０は、入力装置３０１及び表示装置３０２のうちの少なくとも一方を有していなくてもよい。

　外部Ｉ／Ｆ３０３は、記録媒体３０３ａ等の外部装置とのインタフェースである。推定装置１０は、外部Ｉ／Ｆ３０３を介して、記録媒体３０３ａの読み取りや書き込み等を行うことができる。記録媒体３０３ａには、例えば、推定装置１０が有する各機能部（収集部１０１、ルールベース因果モデル構築部１０２、分割部１０３、データドリブン因果モデル構築部１０４、因果モデル修正部１０５、推定部１０６及びユーザインタフェース部１０７）を実現する１以上のプログラムが格納されていてもよい。なお、記録媒体３０３ａとしては、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

　通信Ｉ／Ｆ３０４は、推定装置１０を通信ネットワークに接続するためのインタフェースである。なお、推定装置１０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ３０４を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。

　プロセッサ３０５は、例えば、ＣＰＵ等の各種演算装置である。推定装置１０が有する各機能部は、例えば、メモリ装置３０６に格納されている１以上のプログラムがプロセッサ３０５に実行させる処理により実現される。

　メモリ装置３０６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等の各種記憶装置である。推定装置１０が有する各ＤＢ（ネットワークデータＤＢ２０１及び因果モデルＤＢ２０２）は、メモリ装置３０６により実現可能である。ただし、これら各ＤＢのうちの少なくとも１つのＤＢが、推定装置１０と通信ネットワークを介して接続される記憶装置（例えば、データベースサーバ等）により実現されていてもよい。

　本実施形態に係る推定装置１０は、図５に示すハードウェア構成を有することにより、上述した因果モデル構築処理及び異常箇所・要因推定処理を実現することができる。なお、図５に示すハードウェア構成は一例であって、推定装置１０は、他のハードウェア構成を有していてもよい。例えば、推定装置１０は、複数のプロセッサ３０５を有していてもよいし、複数のメモリ装置３０６を有していてもよい。

　本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

　１０　　　　推定装置
　１０１　　　収集部
　１０２　　　ルールベース因果モデル構築部
　１０３　　　分割部
　１０４　　　データドリブン因果モデル構築部
　１０５　　　因果モデル修正部
　１０６　　　推定部
　１０７　　　ユーザインタフェース部
　２０１　　　ネットワークデータＤＢ
　２０２　　　因果モデルＤＢ
　３０１　　　入力装置
　３０２　　　表示装置
　３０３　　　外部Ｉ／Ｆ
　３０３ａ　　記録媒体
　３０４　　　通信Ｉ／Ｆ
　３０５　　　プロセッサ
　３０６　　　メモリ装置
　３０７　　　バス

Claims

　異常箇所又は異常要因の推定対象となる通信ネットワークシステムから観測データを収集する収集部と、
　前記観測データが表す情報の種類によって、前記収集部により収集された観測データを複数のクラスタに分割する分割部と、
　前記複数のクラスタの各々において、前記異常箇所又は異常要因毎に代表値となる代表観測データを決定する決定部と、
　前記代表観測データを用いて、ルールベース手法により前記観測データから前記異常箇所又は異常要因を推定するための第１の因果モデルを構築する第１のモデル構築部と、
　を有することを特徴とするモデル構築装置。
　前記収集部により収集された観測データのうち、前記通信ネットワークシステムの正常時における観測データ間の関係性を表す値を計算する関係性計算部と、
　前記関係性を表す値を用いて、前記通信ネットワークシステムで異常箇所又は異常要因となる箇所又は要因と正常時における前記観測データとの関係を表す第１の条件付き確率を計算する第１の計算部と、
　前記通信ネットワークシステムの異常時における観測データを用いて、データドリブン手法により前記異常箇所又は異常要因と異常時における前記観測データとの関係を表す第２の条件付き確率を計算する第２の計算部と、
　前記第１の条件付き確率と前記第２の条件付き確率とを用いて、前記観測データから前記異常箇所又は異常要因を推定するための第２の因果モデルを構築する第２のモデル構築部と、
　を有することを特徴とする請求項１に記載のモデル構築装置。
　前記第１の因果モデルを前記第２の因果モデルで修正した第３の因果モデルを構築する第３のモデル構築部、を有することを特徴とする請求項２に記載のモデル構築装置。
　異常箇所又は異常要因の推定対象となる通信ネットワークシステムから観測データを収集する収集部と、
　前記異常箇所又は異常要因を推定するための因果モデルであって、ルールベース手法により構築された第１の因果モデルと、データドリブン手法により構築された第２の因果モデルと、前記第１の因果モデルと前記第２の因果モデルとを組み合わせた第３の因果モデルとを記憶する記憶部と、
　前記観測データを用いて、前記記憶部に記憶されている前記第１の因果モデル、前記第２の因果モデル又は前記第３の因果モデルのいずれかにより前記通信ネットワークシステムの異常箇所又は異常要因を推定する推定部と、
　を有することを特徴とする推定装置。
　異常箇所又は異常要因の推定対象となる通信ネットワークシステムから観測データを収集する収集手順と、
　前記観測データが表す情報の種類によって、前記収集手順で収集された観測データを複数のクラスタに分割する分割手順と、
　前記複数のクラスタの各々において、前記異常箇所又は異常要因毎に代表値となる代表観測データを決定する決定手順と、
　前記代表観測データを用いて、ルールベース手法により前記観測データから前記異常箇所又は異常要因を推定するための第１の因果モデルを構築する第１のモデル構築手順と、
　をコンピュータが実行することを特徴とするモデル構築方法。
　異常箇所又は異常要因の推定対象となる通信ネットワークシステムから観測データを収集する収集手順と、
　前記異常箇所又は異常要因を推定するための因果モデルであって、ルールベース手法により構築された第１の因果モデルと、データドリブン手法により構築された第２の因果モデルと、前記第１の因果モデルと前記第２の因果モデルとを組み合わせた第３の因果モデルとを記憶部に記憶する記憶手順と、
　前記観測データを用いて、前記記憶部に記憶されている前記第１の因果モデル、前記第２の因果モデル又は前記第３の因果モデルのいずれかにより前記通信ネットワークシステムの異常箇所又は異常要因を推定する推定手順と、
　をコンピュータが実行することを特徴とする推定方法。
　コンピュータに、請求項５に記載のモデル構築方法又は請求項６に記載の推定方法を実行させるプログラム。