Nothing Special   »   [go: up one dir, main page]

JP6679943B2 - 検知プログラム、検知方法および検知装置 - Google Patents

検知プログラム、検知方法および検知装置 Download PDF

Info

Publication number
JP6679943B2
JP6679943B2 JP2016006453A JP2016006453A JP6679943B2 JP 6679943 B2 JP6679943 B2 JP 6679943B2 JP 2016006453 A JP2016006453 A JP 2016006453A JP 2016006453 A JP2016006453 A JP 2016006453A JP 6679943 B2 JP6679943 B2 JP 6679943B2
Authority
JP
Japan
Prior art keywords
values
group
conversion
identification value
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016006453A
Other languages
English (en)
Other versions
JP2017126282A (ja
Inventor
喜則 坂本
喜則 坂本
松原 正純
正純 松原
小林 賢司
賢司 小林
佑介 小▲柳▼
佑介 小▲柳▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016006453A priority Critical patent/JP6679943B2/ja
Priority to US15/378,184 priority patent/US20170206458A1/en
Publication of JP2017126282A publication Critical patent/JP2017126282A/ja
Application granted granted Critical
Publication of JP6679943B2 publication Critical patent/JP6679943B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明の実施形態は、検知プログラム、検知方法および検知装置に関する。
従来、システムのログや測定データ等のビッグデータ(以下、過去ログと呼ぶ)を解析することによる、システムの動作などの異常検知(アノマリ検知)が提唱されている。このアノマリ検知では、過去ログの異常事象を頂上事象とし、異常事象を原因として波及する他の異常事象を次事象とするとともに、各異常事象のリスク値を示すリスクツリーを格納しておく。そして、システムにおいてリアルタイムに連続する事象が、リスクツリーの順序で実施された場合に、システムにおける現状の異常(アノマリ)を検知する。
特開平7−217963号公報 特開平9−231321号公報 特開2014−126882号公報
事象の発生順序(パターン)と、各事象の発生確率を学習し、各事象の発生確率を付与したツリーに反映させる手法として、PST(Probabilistic Suffix Tree)がある。このPSTにおいては、学習結果によるPSTと、現状の事象の発生順序(パターン)とを比較する。そして、現状のパターンが新規(PST上にパスがない)または稀なパターン(発生確率が非常に低いパターン)である場合に、「いつもと違う」異常(アノマリ)と検知できる。
アノマリ検知では、リアルタイムにアノマリを検知できるリアルタイム性が要求されるため、PSTをアノマリ検知に用いることを検討した場合、PSTをRAM(Random Access Memory)などのメモリに格納することが要求される。しかしながら、PSTの領域長(メモリ使用量)は、PSTにおけるパターン段数と、各段における要素数の積に比例して急速に増大する。このようにメモリ使用量が増大する場合、PSTをメモリに格納することは困難なものとなる。
1つの側面では、アノマリ検知におけるメモリ使用量を削減できる検知プログラム、検知方法および検知装置を提供することを目的とする。
第1の案では、検知プログラムは、過去ログに含まれる各事象を示す値を、値に対応する識別値に変換するとともに、値のグループと、グループに属する値に対応する識別値とを示す変換情報に基づいて、変換情報に示されたグループに属する値についてはグループに対応する同一の識別値に変換する処理をコンピュータに実行させる。また、検知プログラムは、事象の発生順に変換された識別値をルートから順次接続し、識別値ごとに、識別値に対応する事象の発生確率を付与した発生確率付き情報を構築する処理をコンピュータに実行させる。また、検知プログラムは、発生した事象に応じて入力されるイベントデータに含まれる各事象を示す値を、値に対応する識別値に変換するとともに、変換情報に基づいて、変換情報に示されたグループに属する値についてはグループに対応する同一の識別値に変換する処理をコンピュータに実行させる。また、検知プログラムは、構築された発生確率付き情報と、イベントデータより変換された識別値との照合結果をもとに異常の検知を行う処理をコンピュータに実行させる。また、変換情報には、グループとして値の並び順が示されており、検知プログラムは、過去ログに含まれる各事象を示す値の並び順にかかる出現頻度を算出し、当該出現頻度が所定値以上の並び順と、当該並び順に対応する識別値とを定めた変換情報を作成する処理をコンピュータに実行させる。また、第1および第2の変換処理は、変換情報に示された並び順の値については当該並び順に対応する同一の識別値に変換する。
本発明の1実施態様によれば、アノマリ検知におけるメモリ使用量を削減できる。
図1は、実施形態にかかる検知装置の構成例を示すブロック図である。 図2は、アノマリ検知の概要を説明する説明図である。 図3は、PSTの構築にかかる処理の一例を示すフローチャートである。 図4は、定義・ルール情報を説明する説明図である。 図5は、統計処理による学習を説明する説明図である。 図6は、変換表に基づくPSTの構築を説明する説明図である。 図7は、PSTにおいてルート以下の要素が置き換わる場合を説明する説明図である。 図8は、アノマリ検知にかかる処理の一例を示すフローチャートである。 図9は、PSTの構築にかかる処理の一例を示すフローチャートである。 図10は、定義・ルール情報を説明する説明図である。 図11は、PSTにおける部分列の置換えを説明する説明図である。 図12は、PSTの再構築にかかる処理の一例を示すフローチャートである。 図13は、PSTの再構築を説明する説明図である。 図14は、PSTの再構築にかかる処理の一例を示すフローチャートである。 図15は、PSTの分割/カットにかかる処理の一例を示すフローチャートである。 図16は、PSTの分割/カットを説明する説明図である。 図17は、実施形態にかかる検知装置のハードウエア構成の一例を示すブロック図である。
以下、図面を参照して、実施形態にかかる検知プログラム、検知方法および検知装置を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する検知プログラム、検知方法および検知装置は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組合わせてもよい。
図1は、実施形態にかかる検知装置1の構成例を示すブロック図である。図1に示す検知装置1は、例えばPC(パーソナルコンピュータ)等の情報処理装置である。
検知装置1は、大規模コンピュータシステムやネットワークシステム等のログや測定データ等のビッグデータなどであり、過去に発生した事象が時系列順に記述された過去ログ20を読み込んでPST14を構築する。検知装置1は、監視対象のシステムにおいてリアルタイムに発生した事象に応じて入力されるイベントデータ30を受け付け、構築されたPST14と、イベントデータ30との照合結果をもとに監視対象のシステムにおける異常(アノマリ)を検知し、検知結果をユーザへ報知する。例えば、検知装置1は、アノマリ検知の検知結果を他の端末装置2や所定のアプリへ出力し、端末装置2における検知結果の表示やアプリ通知などを介してユーザへの検知結果の報知を行う。
過去ログ20およびイベントデータ30における事象については、様々なものがあってよく、特に限定しない。例えば、監視対象のシステムへのサイバー攻撃などをアノマリとして検知する場合には、メール受信、メール操作、PC操作、Webアクセス、データ通信などの事象がある。また、監視対象のシステムにおける不正入場などをアノマリとして検知する場合には、監視カメラの映像やカードキーの操作などにより検出されたユーザの行動などの事象がある。また、監視対象のシステムにおける環境異常をアノマリとして検知する場合には、センサにより検出された温度、湿度などの事象がある。また、株式市場などの監視を行うシステムでは、銘柄ごとの株価、天気情報、SNS(Social Networking Service)などにおけるコメントなどの事象がある。
図2は、アノマリ検知の概要を説明する説明図である。図2に例示した過去ログ20は、プロキシサーバなどのデータ通信において「GET text/html」から始まる一連の事象の一例である。
図2に示すように、検知装置1は、過去ログ20において時系列順に記述された事象を識別値に変換する。図示例では、「GET text/html」を「1」、「GET image/jpg」を「9」、「POST text/html」を「11」の識別値に変換している。次いで、検知装置1は事象の発生順序に識別値を並べたパターン20aを生成する。
次いで、検知装置1は、根(ルート)から枝に向かって事象の発生順に識別値(1、9、9、9、11)を接続する。例えば、ルートからの幹(パス)がある識別値(重複する識別値)については、同じパスを通るように接続する。そして、ルートからのパスがない(重複しない)識別値については、新たに枝分かれした木構造とする。次いで、検知装置1は、木構造の各識別値に、識別値に対応した事象の発生確率(遷移確率)を付与してPST14を構築する。具体的には、事象の総数を分母とし、各事象の発生回数(識別値のパスを通る回数)を分子として遷移確率を算出し、算出した遷移確率を各識別値に付与する。なお、PST14におけるパス段数には、メモリ使用量の増大を抑止するために、制限を設けてもよい。
検知装置1は、過去ログ20と同様、イベントデータ30において時系列順に記述された事象を識別値に変換し、発生順序に識別値を並べることで、システムの現状を示すパターン(現状のパターン)を生成する。次いで、検知装置1は、構築されたPST14と、イベントデータ30より変換した現状のパターンとを照合する。そして、現状のパターンが新規(PST14上にパスがない)または稀なパターン(発生確率が所定値以下で非常に低いパターン)である場合に、異常(アノマリ)と検知する。
図1に示すように、検知装置1は、前処理部10a、10b、定義・ルール情報11、変換表12、PST構築部13、PST14、PST探索部15、分散・階層化処理部16およびアノマリ検知部17を有する。
前処理部10a、10bは、入力されたデータについて、データの整形・加工などの前処理を行う。前処理部10aは、監視対象のシステムより入力された過去ログ20に前処理を行い、処理後のデータをPST構築部13に出力する。前処理部10bは、監視対象のシステムより入力されたイベントデータ30に前処理を行い、処理後のデータをPST探索部15に出力する。なお、前処理部10a、10bについては、過去ログ20およびイベントデータ30で分ける構成とすることなく、1つの前処理部を共有する構成であってもよい。
前処理部10a、10bが行う前処理には、予め定義された規則をもとに、過去ログ20およびイベントデータ30に含まれる各事象の値(内容)を対応する識別値へ変換する変換処理がある。この識別値は、内容に対応する数値、文字、シンボルまたは数値、文字およびシンボルの組合わせなどであってよく、特に限定しない。なお、本実施形態では、一例として、事象の値が前処理部10a、10bの前処理により数値化されるものとする。
また、前処理部10a、10bが行う前処理には、各事象の値のグループと、グループに属する値に対応する識別値とを示す変換表12に基づいて、変換表12に示されたグループに属する値についてはグループに対応する同一の識別値に変換する変換処理がある。この変換処理により、過去ログ20およびイベントデータ30に含まれる各事象の値が変換表12に示されたグループに属する場合には、一律に同じ識別値に変換し、PST14の要素数を削減することができる。
また、前処理部10aが行う処理には、過去ログ20に含まれる各事象を示す値の統計分布を定義・ルール情報11に示された定義・ルールに従って算出し、算出した統計分布に合わせた値の範囲をグループとする。そして、このグループに対応する識別値を定めた変換表12を作成する処理がある。このように変換表12を作成することで、前処理部10a、10bが行う前処理においては、各事象を示す値の統計分布に合わせたグループ分けを行うことができる。
また、前処理部10aが行う処理には、過去ログ20に含まれる各事象を示す値について、時系列における並び順の出現頻度を定義・ルール情報11に示された定義・ルールに従って算出する。そして、算出した出現頻度が所定値以上の並び順をグループとし、このグループに対応する識別値を定めた変換表12を作成する処理がある。このように変換表12を作成することで、前処理部10a、10bが行う前処理においては、出現頻度が所定値以上の並び順、すなわち頻出パターンを一律に同じ識別値に変換し、PST14のパス段数を削減することができる。
定義・ルール情報11は、定義・ルールを示す情報であり、例えば、上述した統計分布や出現頻度などの算出にかかる定義・ルールが示されている。この定義・ルール情報11については、ユーザにより予め設定されたものがメモリやHDD(Hard Disk Drive)などの記憶装置に格納されている。
PST構築部13は、前処理後の過去ログ20をもとに、PST14を構築する。構築されたPST14は、メモリやHDDなどの記憶装置に格納される。PST探索部15は、過去ログ20より構築されたPST14と、前処理後のイベントデータ30とを照合し、イベントデータ30より変換した現状のパターンに該当するツリーを探索する。PST探索部15による探索結果は、アノマリ検知部17に出力される。
分散・階層化処理部16は、複数のスレッドを用いるなどして検知装置1における各処理を分散・階層化する。例えば、分散・階層化処理部16は、PST探索部15におけるPST探索やアノマリ検知部17におけるアノマリ検知にかかる処理を分散・階層化する。このようにPST探索部15やアノマリ検知部17における処理を分散・階層化することで、アノマリ検知のリアルタイム性を向上することができる。なお、PST探索部15による処理の分散・階層化は、前処理部10a、10b、PST構築部13における各処理に適用してもよい。
アノマリ検知部17は、PST探索部15による探索結果をもとに異常(アノマリ)の検知を行う。具体的には、PST探索部15による探索結果において該当するツリーが無い場合は現状のパターンが新規(PST上にパスがない)なことから、異常と検知する。また、PST探索部15による探索結果において該当するツリーがある場合は、ツリーに付与された遷移確率が所定値以下で非常に低いパターンである場合に、異常(アノマリ)と検知する。アノマリ検知部17は、検知結果を端末装置2や所定のアプリなどに出力する。
ここで、PST14の構築にかかる処理の詳細を説明する。図3は、PST14の構築にかかる処理の一例を示すフローチャートである。
図3に示すように、処理が開始されると、前処理部10aは、メモリなどに格納された定義・ルール情報11の読込みを行う(S1)。
図4は、定義・ルール情報11を説明する説明図である。図4に示すように、定義・ルール情報11には、過去ログ20に含まれる事象(要素A〜Y)ごとのグループ分けルールや備考などの定義・ルールが示されている。グループ分けルールには、グループ分けの有無(1又は0)、グループ分け有りの場合に行う統計処理などを示す学習アルゴリズムおよび分割数/閾値設定の値が示されている。
S1に次いで、前処理部10aは、過去ログ20の読込みを行う(S2)。次いで、前処理部10aは、過去ログ20に含まれる事象(要素A〜Y)ごとに、S3〜S7の処理を行う。
具体的には、S3において、前処理部10aは、定義・ルール情報11に示された事象(要素A〜Y)ごとのグループ分けルールを参照し、処理対象の要素についてグループ分けの有無を判定する(S3)。グループ分け無しの場合(S3:NO)、前処理部10aは、S4〜S6の処理をスキップしてS7に処理を進める。
グループ分けありの場合(S3:YES)、前処理部10aは、定義・ルール情報11に示された事象(要素A〜Y)ごとのグループ分けルールを参照し、学習/ルールのいずれでグループ分けを行うかを判定する(S4)。
例えば、グループ分けルールにおいて「クラスタリング」や「分布/頻度計算」などの統計処理が示されている場合には、学習でグループ分けを行うものと判定する。また、グループ分けルールにおいて「上限/下限設定」などのルールが示されている場合には、ルールでグループ分けを行うものと判定する。
S4において学習でグループ分けを行う場合、前処理部10aは、グループ分けルールにおいて示された統計処理で過去ログ20に含まれる事象の統計分布を求め、対象要素の学習を行う(S5)。
図5は、統計処理による学習を説明する説明図である。図5に示すように、ケースC1は、株価や品質など、標準偏差(σ)を基準とする一定値(例えば品質における6σ、2σや、株価における+30%、−30%など)以内が意味をもつケースである。このケースC1の要素については、グループ分けルールにおいて「分布/頻度計算」などの統計処理が示されており、統計処理によりグループ分けにかかる標準偏差(σ)などを求める。
ケースC2は、温度や湿度など、一定範囲(連続値)が意味をもつケースである。このケースC2の要素については、グループ分けルールにおいて「上限/下限設定」などのルールが示されており、一定範囲に対応する閾値が設定される。
ケースC3は、嗜好など、統計/分析した結果、特定グループ(クラスタ)の分布が現れるケースである。このケースC3の要素については、グループ分けルールにおいて「クラスタリング」などの統計処理が示されており、統計処理によりグループ分けにかかるクラスタ変換式を求める。
S4においてルールでグループ分けを行う場合、前処理部10aは、グループ分けルールにおいて示された「17度C〜19度C」などの範囲に対応する閾値設定を行う(S6)。
次いで、前処理部10aは、対象要素の学習(S5)または閾値設定(S6)の結果をもとに、要素のグループ分けの閾値(グループ分けの範囲)を決定する(S7)。例えば、対象要素の学習において「分布/頻度計算」などの統計処理で標準偏差(σ)を求めた場合には、標準偏差(σ)を用いて3分割する閾値(2σ、6σ)を決定する。なお、グループ分け無しの場合(S3:NO)には、閾値は無しと決定する。
次いで、前処理部10aは、過去ログ20に含まれる事象の全要素についてS3〜S7の処理が完了したか否かを判定する(S8)。全要素について処理が完了していない場合(S8:NO)、前処理部10aは、次の要素についてS3〜S7の処理を行うため、S3へ処理を戻す。
全要素について処理が完了した場合(S8:YES)、前処理部10aは、各要素においてグループ分け・閾値決定(S7)の処理で決定したグループ分けの範囲にユニークな識別値を割り当てた変換表12を作成する(S9)。なお、ユーザなどにより変換表12が事前に設定されている場合には、上記のS1〜S9の処理を省略してもよい。
次いで、前処理部10aは、過去ログ20を読込み(S10)、予め定義された規則をもとに、過去ログ20に含まれる各事象の値(内容)を対応する識別値へ変換する。また、前処理部10aは、変換表12に基づき、変換表12に示されたグループに属する値についてはグループに対応する同一の識別値に変換する。そして、PST構築部13は、変換後の過去ログ20をもとに、PST14を構築する(S11)。
図6は、変換表12に基づくPSTの構築を説明する説明図である。図6に示すように、変換表12は、各要素における数値/文字の範囲であるグループと、グループに属する値を変換する識別値とを有する。例えば、変換表12において、ルートからの最初の要素(A)については、「2〜4」の数値を「10」の識別値に変換することが示されている。したがって、個別の識別値で構築されたPST14Aと比べ、変換表12に基づいて要素Aにおける「2〜4」の数値を「10」に置き換えたPST14Bでは、要素数を削減し、木構造における横幅をスリムにすることができる。
図7は、PSTにおいてルート以下の要素が置き換わる場合を説明する説明図である。なお、図7では、PST14A、14Bにおけるルートから各要素への木構造を、下位要素ポインタによってルートから順次参照されるテーブル形式のデータとして表現している。
図7に示すように、個別の識別値で構築されたPST14Aでは、ルートから1段目(要素:A)において数値1〜300に対応する300要素を有し、2段目(要素:B)において1つの数値1000に対応する1要素を有する。これに対し、1段目(要素:A)について上限=300、下限=1を数値500に置き換える変換表12に基づきルート以下の要素を置き換えたPST14Bでは、1段目(要素:A)が数値500の1つの要素となっている。したがって、PST14A、14Bにおけるテーブル数を比較しても明らかなように、変換表12に基づくPST14Bの構築によって、PSTにかかるメモリ使用量を大幅に削減することができる。
次に、アノマリ検知にかかる処理の詳細を説明する。図8は、アノマリ検知にかかる処理の一例を示すフローチャートである。
図8に示すように、処理が開始されると、前処理部10bは、イベントデータ30を読込み、イベントデータ30より現状のパターンを生成する(S20)。次いで、前処理部10bは、生成した現状のパターンを、PST14において探索対象とするツリー部分(対象ツリー)として選択する(S21)。次いで、前処理部10bは、対象ツリーを変換表12で数値変換することで(S22)、対象ツリーにおける値が変換表12に示されたグループに属する場合には、一律に同じ識別値に変換する。
次いで、PST探索部15は、PST14と、数値変換後の対象ツリーとを照合し、対象ツリーに該当する該当ツリーを探索する(S23)。アノマリ検知部17は、PST探索部15の探索結果をもとに、該当ツリーが無い新規/該当ツリーの遷移確率の判定を行う(S24)。S24の判定結果をもとに、アノマリ検知部17は、該当ツリーが無い新規の場合および該当ツリーの遷移確率が所定値以下で非常に低い場合には、アノマリと検知する(S25)。
次いで、今回の処理における対象ツリーをPST14に接続する場合にはPST14における事象の総数が増えることから、PST構築部13は、PST14における遷移確率を更新する(S26)。なお、今回の処理における対象ツリーをPST14に接続しない場合には、PST14における事象の総数に変化がないことから、S26の処理をスキップして遷移確率の更新を行わずに処理を終了する。
ここで、PST14の段数(縦幅)の削減について説明する。段数の削減では、PST14において連続する複数の段数(並び順)に対してグループ化を行うことで、PST14の圧縮を行う。
段数の削減には、配列等の組合わせパターン(ソーティング可)を削減する場合と、順序(時系列)パータン(ソーティング不可)を削減する場合とがある。
組合わせパターンの場合には、上述した要素(横幅)の削減と同様の方法でのグループ分けを行う。具体的には、PST14において関連する「複数の段数」を隣接させ、統計処理(例えば、クラスタリング)等により、グループ分けを行い、各グループを同一の識別値(1要素)に置き換える。なお、クラスタリング等では、段数(縦幅)と要素(横幅)の両方を削減する場合がある。
順序(時系列)パターンの場合には、出現頻度が高い「パターン」(基本:閉塞)を抽出し、「部分列」についての変換表12に登録する。例えば、「1→2→3」を「N」に置き換え、「N」直下に、以降の「ネスト(先)」を全て接続する。なお、パターンの切れ目は頻度(遷移確率)で抽出し、置き換え箇所ごとに「部分列」の遷移確率を保持する。PST14の検索時には、「N」の置き換え表示と、変換表12(「N」=「1→2→3」)を認識し、探索を継続する。また、現在パターンをウインドーとし、変換表12とともにメモリやHDDなどの記憶装置上に保持して比較に用いる。また、記憶装置上に現在パターンのウインドーと、変換表12とを保持することで、「部分列」の再帰的置き換えや途中分岐にも対応可能とする。
図9は、PST14の構築にかかる処理の一例を示すフローチャートである。具体的には、図9は、段数(縦幅)の削減にかかるPST14の構築を例示するフローチャートである。図9における前段の処理(S30〜S33)は、配列等の組合わせパターンの削減にかかる処理を例示している。また、図9における後段の処理(S34〜S37)は、順序(時系列)パターンの削減にかかる処理を例示している。
図9に示すように、処理が開始されると、前処理部10aは、定義・ルール情報11および過去ログ20の読込みを行う(S30)。図10は、定義・ルール情報11を説明する説明図である。図10に示すように、定義・ルール情報11には、組合わせパターンにかかる段の組合わせと、グループ分けのルールとが示されている。
S30に次いで、前処理部10aは、過去ログ20のツリーより定義・ルール情報11に示された段組合わせを求める(S31)。次いで、前処理部10aは、求めた組合わせについて、定義・ルール情報11に示された統計処理による学習・グループ分けを実施する(S32)。
次いで、前処理部10aは、定義・ルール情報11に示された全組み合わせについてS31、S32の処理が完了したか否かを判定する(S33)。全組み合わせについてS31、S32の処理が完了していない場合(S33:NO)、前処理部10aは、次の段組み合わせについてS31、S32の処理を行うため、S31へ処理を戻す。
S34において、前処理部10aは、PST14の中で遷移確率が所定値以上の高頻度の部分列(並び順)を抽出する。次いで、前処理部10aは、抽出した部分列を、部分列に対応する識別値(置換数)とともに変換表12に登録する(S35)。次いで、前処理部10aは、PST14で変換表12の部分列に該当する部分列を置換数で置換える(S36)。
次いで、前処理部10aは、全ての部分列についてS34〜S36の処理が完了したか否かを判定する(S37)。全ての部分列についてS34〜S36の処理が完了していない場合(S37:NO)、前処理部10aは、次の部分列についてS34〜S36の処理を行うため、S34へ処理を戻す。
図11は、PSTにおける部分列の置換えを説明する説明図である。図11に示すように、変換表12には、「1→2→3」の部分列が高頻度であることから、置換数「N」として登録されているものとする。前処理部10aは、現在パターンをウインドー12Aとして保持する。そして、前処理部10aは、ウインドー12Aの内容(並び順)が変換表12の部分列とマッチする場合に、その並び順を置換数に置き換える。例えば、PST14Aにおける「1→2→3」の部分列は「N」に置換えられる。これにより、PST14Aは、段数が削減されたPST14Bとなる。このように、段数を削減することによって、PSTにかかるメモリ使用量を削減することができる。
PSTにかかるメモリ使用量が削減されるケースとしては、例えば、株価のケースと、クラスタのケースとがある。株価のケースとしては、一例として、1000円の株がストップ高の1300(+30%)まで、1円刻みで変動する場合がある。この場合、1円刻みで変動する箇所をグループ化することで、ルートとなる1000円の事象からの300の要素(枝)を、1個の要素として扱うことができる。また、クラスタのケースでは、原則、各クラスタ要素が1つの要素に置換えられる。よって、複数の段数(縦幅)と、複数の要素(横幅)とを、クラスタ数分の要素に削減できる場合がある。
PST構築部13は、PST14における遷移確率の順番で、PST14におけるツリーをソーティングして再構築してもよい。このソーティングには、おもに「順序」と「配列」がある。「順序」は、ルートから順次配下の段(枝方向)に向けて、同一段の要素(横幅)を並べ直す。「配列」は、遷移確率の降順に、段(縦)と同一段の要素(横)をセットで並べ直す。
図12は、PST14の再構築にかかる処理の一例を示すフローチャートである。図12に示すように、処理が開始されると、PST構築部13は、「順序」または「配列」のいずれのソーティングを行うかを判定する(S40)。S40において「配列」である場合、PST構築部13は、PST14を参照し、遷移確率の降順に全段(縦)を並べ直す(S41)。次いで、PST構築部13は、ツリートップから順次、配下の段に向け、各段の要素を例えば降順に並べ直す(S42)。S40において「順序」である場合、PST構築部13は、ツリートップから順次、重複を避けて、各段の要素を遷移確率が高い順に並べ替える(S43)。
図13は、PSTの再構築を説明する説明図である。図13に示すように、再構築前のPST14Aは、遷移確率とは無関係に枝が伸びる木構造となっている。これに対し、再構築後のPST14Bは、遷移確率が高い枝が近接する木構造となる。遷移確率が高いデータは、アクセス頻度が高くなることから、メモリのキャッシュに保持される確率が高くなる。よって、ソーティングでのPST14の再構築により、PST14を参照する際のキャッシュヒット率の向上が見込める。
図14は、PST14の再構築にかかる処理の一例を示すフローチャートである。具体的には、図14は、図12に例示した処理の別例である。この別例では、再構築したPST14を、遷移確率の降順に、(若い)「数字」から割り当て直す。ここで、「順序」については、(若い)「数字」への置換えは、全体で一意とする。また、「配列」については、各段(縦)で数字割当てが独立しており、他の段と「数字」が重複してもよい。
図14に示すように、処理が開始されると、PST構築部13は、「順序」または「配列」のいずれのソーティングを行うかを判定する(S50)。S50において「配列」である場合、PST構築部13は、PST14を参照し、ツリートップから順次、段毎に一意の(若い)数字に置換える(S51)。S50において「順序」である場合、PST構築部13は、PST14を参照し、ツリートップから順次、重複を避け、遷移確率の高い順(降順)に若い数字に置換える(S52)。S51、S52に次いで、PST構築部13は、一定の遷移確率/領域長でPST14を分割/カットする(S53)。
図15は、PST14の分割/カットにかかる処理の一例を示すフローチャートである。図16は、PST14の分割/カットを説明する説明図である。図15に示すように、処理が開始されると、PST構築部13は、PST14を参照し、ツリートップから遷移確率を評価し(S60)、所定値と比較して「高」/「中」/「低」の判定を行う(S61)。
遷移確率が高い場合(「高」)、PST構築部13は、遷移確率が高いと評価されたツリーをメモリ常駐とする(S62)。また、遷移確率が中程度である場合(「中」)、PST構築部13は、遷移確率が中程度と評価された該当部をメモリに分散/階層化して配置する(S63)。分散は、例えば別サーバ上のメモリへの配置であってもよい。階層化は、例えばディスク装置(外部記憶)上への配置であってもよい。ただし、分割部分については、ポインタをメモリ上に保持する。
また、遷移確率が低い場合(「低」)、PST構築部13は、遷移確率が低いと評価された部分(下部ツリー)をメモリ上からカットする(S64)。図16に示すように、上述したPST14の分割/カットを行うことで、PST14にかかるメモリ使用を効率的なものとすることができる。
以上のように、検知装置1の前処理部10aは、過去ログ20に含まれる各事象を示す値を、値に対応する識別値に変換する。また、前処理部10aは、値のグループと、このグループに属する値に対応する識別値とを示す変換表12に基づいて、変換表12に示されたグループに属する値についてはグループに対応する同一の識別値に変換する処理を行う。また、検知装置1のPST構築部13は、事象の発生順に前処理部10aにより変換された識別値をルートから順次接続し、識別値ごとに、識別値に対応する事象の発生確率を付与したPST14を構築する。また、検知装置1の前処理部10bは、イベントデータ30に含まれる各事象を示す値を、値に対応する識別値に変換する。また、前処理部10bは、変換表12に基づいて、変換表12に示されたグループに属する値についてはグループに対応する同一の識別値に変換する処理を行う。検知装置1のアノマリ検知部17は、構築されたPST14と、前処理部10bにより変換された識別値との照合結果をもとに異常の検知を行う。
したがって、検知装置1では、過去ログ20に含まれる各事象を示す値を、変換表12に示されたグループに属する値についてはグループに対応する同一の識別値に変換してからPST14を構築するため、PST14のメモリ使用量を削減できる。また、グループに対応する同一の識別値に変換することで、PST14における遷移確率がグループに対応する識別値のところで集約するため、遷移確率における「密・疎」の分布が際立ち、明確化される。このため、PST14の探索によるアノマリの検知性能(精度)が向上する。
なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
例えば、本実施形態では検知装置1単体の装置構成を例示したが、複数のストレージ装置やサーバ装置などをネットワークで接続したクラウドコンピューティングとしてもよい。
また、検知装置1で行われる各種処理機能は、CPU(またはMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。
ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータ(ハードウエア)の一例を説明する。図17は、実施形態にかかる検知装置1のハードウエア構成の一例を示すブロック図である。
図17に示すように、検知装置1は、各種演算処理を実行するCPU101と、データ入力を受け付ける入力装置102と、モニタ103と、スピーカ104とを有する。また、検知装置1は、記憶媒体からプログラム等を読み取る媒体読取装置105と、各種装置と接続するためのインタフェース装置106と、有線または無線により外部機器と通信接続するための通信装置107とを有する。また、検知装置1は、各種情報を一時記憶するRAM108と、ハードディスク装置109とを有する。また、検知装置1内の各部(101〜109)は、バス110に接続される。
ハードディスク装置109には、上記の実施形態で説明した前処理部10a、10b、変換表12、PST構築部13、PST探索部15、分散・階層化処理部16およびアノマリ検知部17における各種の処理を実行するためのプログラム111が記憶される。また、ハードディスク装置109には、プログラム111が参照する各種データ112(定義・ルール情報11、変換表12、PST14、過去ログ20およびイベントデータ30など)が記憶される。入力装置102は、例えば、検知装置1の操作者から操作情報の入力を受け付ける。モニタ103は、例えば、操作者が操作する各種画面を表示する。インタフェース装置106は、例えば印刷装置等が接続される。通信装置107は、LAN(Local Area Network)等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。
CPU101は、ハードディスク装置109に記憶されたプログラム111を読み出して、RAM108に展開して実行することで、各種の処理を行う。なお、プログラム111は、ハードディスク装置109に記憶されていなくてもよい。例えば、検知装置1が読み取り可能な記憶媒体に記憶されたプログラム111を読み出して実行するようにしてもよい。検知装置1が読み取り可能な記憶媒体は、例えば、CD−ROMやDVDディスク、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にこのプログラム111を記憶させておき、検知装置1がこれらからプログラム111を読み出して実行するようにしてもよい。
1…検知装置
2…端末装置
10a、10b…前処理部
11…定義・ルール情報
12…変換表
12A…ウインドー
13…PST構築部
14、14A、14B…PST
15…PST探索部
16…分散・階層化処理部
17…アノマリ検知部
20…過去ログ
20a…パターン
30…イベントデータ
101…CPU
102…入力装置
103…モニタ
104…スピーカ
105…媒体読取装置
106…インタフェース装置
107…通信装置
108…RAM
109…ハードディスク装置
110…バス
111…プログラム
112…各種データ
C1、C2…ケース

Claims (5)

  1. 過去ログに含まれる各事象を示す値を、当該値に対応する識別値に変換するとともに、前記値のグループと、当該グループに属する値に対応する識別値とを示す変換情報に基づいて、前記変換情報に示されたグループに属する値については当該グループに対応する同一の識別値に変換する第1の変換処理を行い、
    前記事象の発生順に前記第1の変換処理により変換された識別値をルートから順次接続し、前記識別値ごとに、当該識別値に対応する事象の発生確率を付与した発生確率付き情報を構築し、
    発生した事象に応じて入力されるイベントデータに含まれる各事象を示す値を、当該値に対応する識別値に変換するとともに、前記変換情報に基づいて、前記変換情報に示されたグループに属する値については当該グループに対応する同一の識別値に変換する第2の変換処理を行い、
    前記構築された発生確率付き情報と、前記第2の変換処理により変換された識別値との照合結果をもとに異常の検知を行い、
    前記変換情報には、前記グループとして値の並び順が示されており、
    前記過去ログに含まれる各事象を示す値の並び順にかかる出現頻度を算出し、当該出現頻度が所定値以上の前記並び順と、当該並び順に対応する識別値とを定めた変換情報を作成する処理をコンピュータに実行させ、
    前記第1および第2の変換処理は、前記変換情報に示された並び順の値については当該並び順に対応する同一の識別値に変換する
    ことを特徴とする検知プログラム。
  2. 前記変換情報には、前記グループとして値の範囲が示されており、
    前記第1および第2の変換処理は、前記変換情報に示された範囲内の値については当該範囲に対応する同一の識別値に変換する
    ことを特徴とする請求項1に記載の検知プログラム。
  3. 前記過去ログに含まれる各事象を示す値の統計分布を算出し、当該統計分布に合わせた前記値の範囲と、当該範囲に対応する識別値とを定めた変換情報を作成する処理を更に有し、
    前記第1および第2の変換処理は、前記作成された変換情報に基づいた変換処理を行う
    ことを特徴とする請求項2に記載の検知プログラム。
  4. 過去ログに含まれる各事象を示す値を、当該値に対応する識別値に変換するとともに、前記値のグループと、当該グループに属する値に対応する識別値とを示す変換情報に基づいて、前記変換情報に示されたグループに属する値については当該グループに対応する同一の識別値に変換する第1の変換処理を行い、
    前記事象の発生順に前記第1の変換処理により変換された識別値をルートから順次接続し、前記識別値ごとに、当該識別値に対応する事象の発生確率を付与した発生確率付き情報を構築し、
    発生した事象に応じて入力されるイベントデータに含まれる各事象を示す値を、当該値に対応する識別値に変換するとともに、前記変換情報に基づいて、前記変換情報に示されたグループに属する値については当該グループに対応する同一の識別値に変換する第2の変換処理を行い、
    前記構築された発生確率付き情報と、前記第2の変換処理により変換された識別値との照合結果をもとに異常の検知を行い、
    前記変換情報には、前記グループとして値の並び順が示されており、
    前記過去ログに含まれる各事象を示す値の並び順にかかる出現頻度を算出し、当該出現頻度が所定値以上の前記並び順と、当該並び順に対応する識別値とを定めた変換情報を作成する処理をコンピュータが実行し、
    前記第1および第2の変換処理は、前記変換情報に示された並び順の値については当該並び順に対応する同一の識別値に変換する
    ことを特徴とする検知方法。
  5. プロセッサが、
    過去ログに含まれる各事象を示す値を、当該値に対応する識別値に変換するとともに、前記値のグループと、当該グループに属する値に対応する識別値とを示す変換情報に基づいて、前記変換情報に示されたグループに属する値については当該グループに対応する同一の識別値に変換する第1の変換処理を行い、
    前記事象の発生順に前記第1の変換処理により変換された識別値をルートから順次接続し、前記識別値ごとに、当該識別値に対応する事象の発生確率を付与した発生確率付き情報を構築し、
    発生した事象に応じて入力されるイベントデータに含まれる各事象を示す値を、当該値に対応する識別値に変換するとともに、前記変換情報に基づいて、前記変換情報に示されたグループに属する値については当該グループに対応する同一の識別値に変換する第2の変換処理を行い、
    前記構築された発生確率付き情報と、前記第2の変換処理により変換された識別値との照合結果をもとに異常の検知を行い、
    前記変換情報には、前記グループとして値の並び順が示されており、
    前記過去ログに含まれる各事象を示す値の並び順にかかる出現頻度を算出し、当該出現頻度が所定値以上の前記並び順と、当該並び順に対応する識別値とを定めた変換情報を作成する処理を実行し、
    前記第1および第2の変換処理は、前記変換情報に示された並び順の値については当該並び順に対応する同一の識別値に変換する
    ことを特徴とする検知装置。
JP2016006453A 2016-01-15 2016-01-15 検知プログラム、検知方法および検知装置 Expired - Fee Related JP6679943B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016006453A JP6679943B2 (ja) 2016-01-15 2016-01-15 検知プログラム、検知方法および検知装置
US15/378,184 US20170206458A1 (en) 2016-01-15 2016-12-14 Computer-readable recording medium, detection method, and detection apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016006453A JP6679943B2 (ja) 2016-01-15 2016-01-15 検知プログラム、検知方法および検知装置

Publications (2)

Publication Number Publication Date
JP2017126282A JP2017126282A (ja) 2017-07-20
JP6679943B2 true JP6679943B2 (ja) 2020-04-15

Family

ID=59313874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016006453A Expired - Fee Related JP6679943B2 (ja) 2016-01-15 2016-01-15 検知プログラム、検知方法および検知装置

Country Status (2)

Country Link
US (1) US20170206458A1 (ja)
JP (1) JP6679943B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7027912B2 (ja) * 2018-01-29 2022-03-02 富士通株式会社 順序制御プログラム、順序制御方法、及び情報処理装置
JP7094512B2 (ja) * 2018-05-25 2022-07-04 エンカレッジ・テクノロジ株式会社 異常操作検知装置、異常操作検知方法、およびプログラム
JP7274162B2 (ja) * 2018-05-25 2023-05-16 エンカレッジ・テクノロジ株式会社 異常操作検知装置、異常操作検知方法、およびプログラム
US11323459B2 (en) * 2018-12-10 2022-05-03 Bitdefender IPR Management Ltd. Systems and methods for behavioral threat detection
US11153332B2 (en) * 2018-12-10 2021-10-19 Bitdefender IPR Management Ltd. Systems and methods for behavioral threat detection
JP7276743B2 (ja) * 2019-01-08 2023-05-18 エンカレッジ・テクノロジ株式会社 異常操作検知装置、異常操作検知方法、およびプログラム
CN114930326A (zh) 2020-01-23 2022-08-19 三菱电机株式会社 模型生成装置、模型生成方法和模型生成程序
JP2021192187A (ja) * 2020-06-05 2021-12-16 富士通株式会社 出現頻度算出プログラム、グラフィックス プロセッシング ユニット、情報処理装置、及び出現頻度算出方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08179974A (ja) * 1994-12-21 1996-07-12 Canon Inc データ処理方法及びその装置
WO2003100619A1 (fr) * 2002-05-28 2003-12-04 Fujitsu Limited Dispositif, programme et procede de detection d'acces non autorise
JP4160002B2 (ja) * 2004-02-23 2008-10-01 Kddi株式会社 ログ分析装置、ログ分析プログラムおよび記録媒体
US8135994B2 (en) * 2006-10-30 2012-03-13 The Trustees Of Columbia University In The City Of New York Methods, media, and systems for detecting an anomalous sequence of function calls
JP2011198171A (ja) * 2010-03-23 2011-10-06 Fuji Xerox Co Ltd 監視システム、監視装置及び監視プログラム
US9189308B2 (en) * 2010-12-27 2015-11-17 Microsoft Technology Licensing, Llc Predicting, diagnosing, and recovering from application failures based on resource access patterns
JP5696727B2 (ja) * 2011-01-27 2015-04-08 富士通株式会社 基地局装置、移動局装置、無線通信方法、及び無線通信システム
EP2754049A4 (en) * 2011-09-09 2015-08-26 Hewlett Packard Development Co SYSTEMS AND METHOD FOR EVALUATING EVENTS BASED ON A REFERENCE BASE LINE AFTER THE TIME POSITION IN A SUCCESS OF EVENTS
JP5692414B2 (ja) * 2011-12-15 2015-04-01 富士通株式会社 検知装置、検知プログラムおよび検知方法
AU2013234865B2 (en) * 2012-03-23 2018-07-26 Bae Systems Australia Limited System and method for identifying and visualising topics and themes in collections of documents
US20160085848A1 (en) * 2013-05-01 2016-03-24 Hewlett-Packard Development Company, L.P. Content classification
JP6085550B2 (ja) * 2013-11-12 2017-02-22 日本電信電話株式会社 ログ分析装置及び方法
JP6368160B2 (ja) * 2014-06-17 2018-08-01 住友電気工業株式会社 電波センサ、検知方法および検知プログラム
US9699205B2 (en) * 2015-08-31 2017-07-04 Splunk Inc. Network security system

Also Published As

Publication number Publication date
US20170206458A1 (en) 2017-07-20
JP2017126282A (ja) 2017-07-20

Similar Documents

Publication Publication Date Title
JP6679943B2 (ja) 検知プログラム、検知方法および検知装置
WO2021068547A1 (zh) 日志模板提取方法及装置
JP6555061B2 (ja) クラスタリングプログラム、クラスタリング方法、および情報処理装置
US20170208080A1 (en) Computer-readable recording medium, detection method, and detection apparatus
JP6714152B2 (ja) 分析装置、分析方法及び分析プログラム
CN106844576B (zh) 一种异常检测方法、装置和监控设备
JP2022118108A (ja) ログ監査方法、装置、電子機器、媒体およびコンピュータプログラム
CN108664538B (zh) 一种输变电设备疑似家族性缺陷的自动辨识方法及系统
CN113254255B (zh) 一种云平台日志的分析方法、系统、设备及介质
CN112052138A (zh) 业务数据质量检测方法、装置、计算机设备及存储介质
CN112398677A (zh) 流量异常检测的方法、模型训练方法和装置
Miranskyy et al. Using entropy measures for comparison of software traces
CN111104242A (zh) 基于深度学习的操作系统的异常日志的处理方法及装置
US10459730B2 (en) Analysis system and analysis method for executing analysis process with at least portions of time series data and analysis data as input data
CN112433874A (zh) 一种故障定位方法、系统、电子设备及存储介质
CN113987190B (zh) 一种数据质量校验规则提取方法及系统
CN115577701A (zh) 针对大数据安全的风险行为识别方法、装置、设备及介质
Duan et al. A Generative Adversarial Networks for Log Anomaly Detection.
WO2016093839A1 (en) Structuring of semi-structured log messages
CN110688846A (zh) 周期词挖掘方法、系统、电子设备及可读存储介质
CN111475375A (zh) 一种数据状态的更新方法及设备
Kurbalija et al. A framework for time-series analysis
CN115794744A (zh) 一种日志展示方法、装置、设备和存储介质
US12056038B2 (en) Log analyzer for fault detection
CN115495587A (zh) 一种基于知识图谱的告警分析方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180912

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200302

R150 Certificate of patent or registration of utility model

Ref document number: 6679943

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees