JP2016170518A

JP2016170518A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2016170518A
Application number: JP2015048517A
Authority: JP
Inventors: 康生片野; Yasuo Katano; 大岳八谷; Hirotaka Hachiya
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-03-11
Filing date: 2015-03-11
Publication date: 2016-09-23

Abstract

【課題】精度よく異常判定を行うための情報を生成することを目的とする。
【解決手段】未知のデータが、特定のクラスに属するか否かを判定するための情報を生成する情報処理装置であって、特定のクラスに属する学習データ群を受け付ける受付手段と、学習データ群から、複数の特徴量それぞれに対応する特徴グループ間の共起性に基づいて、共起する複数の特徴グループを含む組を生成する第１の生成手段とを有する。
【選択図】図１

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

従来、監視カメラや製造現場での部品の品質チェック等において正常と異なる対象を検出する異常検知技術が知られており、異常検知技術について、これまで多くの研究がなされている（特許文献１、特許文献２参照）。異常検知技術には大きく分けて２つの方式が考えられ、異常データを豊富に用意できる場合には、サポートベクトルマシンやブースティングを用いた識別モデルによる異常−正常分離問題と捉えることができる。

しかし、現実の異常検知の現場においては豊富な異常サンプルが取得できることは稀で、大量の正常データに対してごく少量の異常データサンプルしか存在しない場合が多い。さらに、異常データサンプルが存在しない未知の異常も存在し得る場合もある。このような問題を解決すべく、異常検知では正常データのみから正常モデルを生成し、この正常モデルから逸脱する入力データを異常と判定することによって、未知の異常データを検出する技術が知られている。このような正常モデルベースの手法として、ｓｐａｒｓｅｃｏｄｉｎｇを用いた手法（非特許文献１参照）や１クラスＳＶＭを用いた手法（非特許文献２参照）が挙げられる。

特開２０１０−２８７０１１号公報特開２００８−２３４５５１号公報

"Online Detection of Unusual Events in Videos via Dynamic Sparse Coding", B. Zhao，Li Fei-Fei CVPR2011 "SVM and Boosting：One Class", G. Ratsch, B. Scholkopf, S. Mika, K. Muller, 2000

しかしながら、例えば監視カメラの映像を異常判定の対象とする場合等においては、状況に応じて正常モデルのバリエーションが大きく、複数の傾向の異なる正常分布の混合によって表現されるクラスが存在する。そのため、ある状況において異常判定を行う場合に、判定対象となるテストデータの状況と無関係な状況が異常判別に影響を与え、正しい異常判別を行えない場合があるという問題があった。

本発明はこのような問題点に鑑みなされたもので、精度よく異常判定を行うための情報を生成することを目的とする。

そこで、本発明は、未知のデータが、特定のクラスに属するか否かを判定するための情報を生成する情報処理装置であって、前記特定のクラスに属する学習データ群を受け付ける受付手段と、前記学習データ群から、複数の特徴量それぞれに対応する特徴グループ間の共起性に基づいて、共起する複数の特徴グループを含む組を生成する第１の生成手段とを有することを特徴とする。

本発明によれば、精度よく異常判定を行うための情報を生成することができる。

情報処理装置のソフトウェア構成を示す図である。学習処理のフローチャートである。確率変数設定処理の説明図である。分布生成処理の説明図である。異常判定処理を示すフローチャートである。情報処理装置のハードウェア構成を示す図である。第２の実施形態に係る情報処理装置のソフトウェア構成を示す図である。第２の実施形態に係る学習処理を示すフローチャートである。第２の実施形態に係る異常判定処理を示すフローチャートである。

以下、本発明の実施形態について図面に基づいて説明する。

（第１の実施形態）

第１の実施形態に係る情報処理装置は、未知のデータに対し異常判定を行う装置であり、また、未知のデータが特定のクラスに属するか否かを判定する際に利用する情報の生成も行う。本実施形態においては、監視カメラにより撮影された動画を未知のデータ群とし、未知のデータ群が特定のクラスとしての、正常クラスに属するか否かの異常判定を行う場合を例に説明する。本実施形態に係る情報処理装置は、正常クラスに属するデータ群を学習データ群として用いて、異常判定に利用する情報を生成する。

以下、未知のデータ群をテストデータセットと称することとする。また、正常クラスに属する学習データ群を正常データセットと称することとする。ここで、正常データセットは、複数のフレームを含む動画であり、正常データは、動画を構成する各フレームである。同様に、テストデータセットは、複数のフレームを含む動画であり、テストデータは、動画を構成する各フレームである。正常データには、すべての時間帯、あらゆる性別、年齢の人物、場所等の画像が含まれているものとする。

正常データセットが「朝」、「昼」、「夜」の３つの時間帯及び「男性」、「女性」の２つの性別のデータを含むのに対し、テストデータセットが、時間帯「朝」、「昼」、性別「女性」しか含まない場合がある。このような状況で、正常データから異常判定のためのデータを生成し、テストデータセットの異常判定を行った場合、テストデータセットに存在しない「夜」、「男性」の正常データに起因した誤検出の可能性が高くなる。

これに対し、本実施形態に係る情報処理装置１００は、「朝」、「昼」、「夜」、「男性」、「女性」といった属性毎に定まる特徴量のグループ（特徴グループ）を設定する。そして、情報処理装置１００は、共起性の高い複数の特徴グループを特定し、これらを含む組を生成する。そして、情報処理装置１００は、テストデータセットの対応する特徴量と、組に含まれる特徴グループとに基づいて、テストデータセットの異常判定を行う。ここで、共起とは、ある事象Ａが発生するときに、事象Ｂが同時に発生することであり、例えば「昼」という属性と、「女性」という属性は両立し得る。したがって、属性「昼」と「女性」の共起性は高くなる。

本実施形態に係る情報処理装置１００は、特徴量として確率変数を用いることとし、確率分布の相互情報量が大きい場合に共起性が高いと判断することとする。相互情報量は、（式１）で表現される。

ここで、Ｉ（Ｘ；Ｙ）は相互情報量であり、Ｉ（Ｘ；Ｙ）＝０の時、確率変数ＸとＹは独立となりＩ（Ｘ；Ｙ）が十分大きい場合、２つの確率分布は相互依存性が高く同時発生する。したがって、情報処理装置１００は、Ｉ（Ｘ；Ｙ）が十分大きい場合、すなわち閾値以上である場合に、共起性が高いと判断することとする。

図１は、情報処理装置１００のソフトウェア構成を示す図である。本実施形態においては、正常データに、撮影時刻が示されたタグが付与されている場合について説明することとする。情報処理装置１００は、確率変数設定部１０１と、第１の分布生成部１０２と、評価部１０３と、組生成部１０４と、第２の分布生成部１０５と、異常判定部１０６とを有している。

確率変数設定部１０１は、正常データセットが入力されると、正常データセットの特徴量として、確率変数を設定する。第１の分布生成部１０２は、確率変数設定部１０１により設定された確率変数毎の分布、すなわち確率分布を生成する。ここで、確率分布は、特徴量に対応する特徴グループの一例である。評価部１０３は、確率分布間の共起性を評価する。組生成部１０４は、評価部１０３の評価結果に基づいて、共起性の高い確率分布の組を生成する。第２の分布生成部１０５は、テストデータセットが入力されると、組生成部１０４により生成された確率分布の組に対応する確率分布（テスト分布）を生成する。異常判定部１０６は、正常データセットから生成された確率分布と、テスト分布とに基づいて、テストデータセットが正常データであるか異常データであるかの異常判定を行う。

図２は、情報処理装置１００による、学習処理のフローチャートである。Ｓ２００において、確率変数設定部１０１は、正常データセットの入力を受け付ける。ここで、Ｓ２００の処理は、特定クラスに属する学習データ群を受け付ける受付処理の一例である。次に、Ｓ２０１において、確率変数設定部１０１は、正常データセットの確率変数を設定する。具体的には、確率変数設定部１０１は、正常データセットのタグから撮影時刻を抽出し、撮影時刻に基づいて、時間帯を示す３つの属性「朝」、「昼」、「夜」を基準属性として特定する（特定処理）。そして、確率変数設定部１０１は、正常データを基準属性に対して適切に分離することのできる確率変数を設定する。

図３は、確率変数設定処理（Ｓ２０１）の説明図である。例えば、特徴Ａに対する正常データセットの分布が図３に示すように、３つの範囲に分かれ、各範囲の分布３０１、３０２、３０３がそれぞれ、属性「朝」、「昼」、「夜」の正常データの分布に相当するものとする。この場合、確率変数設定部１０１は、特徴Ａに対する確率変数を、属性「朝」、「昼」、「夜」を適切に分離できる確率変数として設定する。

Ｓ２０１において、確率変数設定部１０１はさらに、基準属性と異なる他の属性に対応する確率変数を設定する。なお、確率変数設定部１０１は、他の属性に対応する確率変数については、ランダムに選出してもよく、また他の例としては、タグに示される情報から恣意的に特定してもよい。例えば、タグに性別が示されている場合には、確率変数設定部１０１は、「男性」、「女性」の属性に対する確率変数を設定してもよい。ここで、確率変数は、属性の特徴量に対応する特徴グループの一例であり、Ｓ２００の処理は、特徴グループを設定するグループ設定処理の一例である。

次に、Ｓ２０２において、第１の分布生成部１０２は、Ｓ２０１において設定した各確率変数の分布を生成する。図４は、分布生成処理（Ｓ２０２）の説明図である。ステップＳ２０１において、属性「朝」、「昼」、「夜」、「男性」、「女性」に対応する確率変数が設定されていた場合、これら５つの確率変数に対する確率分布４０１〜４０５を生成する。なお、確率分布４０４，４０５は、それぞれ特徴量Ｂに対応する確率変数に対応する確率分布であるものとする。また、特徴量Ｂに対応する確率変数は、属性「男性」、「女性」を適切に分離できる確率変数であるものとする。

次に、Ｓ２０３において、評価部１０３は、確率分布間の共起性を評価する。ここで、Ｓ２０３の処理は、特徴グループ間の共起性を評価する評価処理の一例である。評価部１０３は、具体的には、確率密度比を用いた相互情報量算出法を用いることにより、（式２）、（式３）により相互情報量を算出する。

ここで、ｘ，ｙは、確率変数、

は、相互情報量である。なお、確率密度比を用いた相互情報量算出法については、以下の文献を参照することができる。

"Mutual Information Approximation via Maximum Likelihood Estimation of Density Ratio", T. Suzuki, M. Sugiyama & T. Tanaka, 2009

次に、Ｓ２０４において、組生成部１０４は、確率分布間の相互情報量に基づいて、共起性の高い複数の確率分布を含む第１の組と、共起性の低い複数の確率分布を含む第２の組と、を生成する。まず、第１の組を生成する処理について説明する。組生成部１０４は、基準属性に対応する確率分布との共起性が高い順に２つの確率分布を特定する。そして、組生成部１０４は、特定した２つの確率分布と、基準属性の確率分布とを、共起性の高い複数の確率分布として含む第１の組を生成する。なお、第１の組に含める確率分布の数は実施形態に限定されるものではなく、組生成部１０４は共起性が高い順に所定の数の確率分布を含む第１の組を生成すればよい。以上で学習処理が完了する。なお、共起性の高い複数の確率分布は、共起する複数の特徴グループの一例であり、Ｓ２０４の処理は、共起性に基づいて、共起する複数の特徴グループを含む組を生成する生成処理の一例である。また、他の例としては、組生成部１０４は、基準属性の確率分布との共起性が閾値以上の確率分布と、基準属性の確率分布とを、共起性の高い複数の確率分布として含む第１の組を生成してもよい。次に、第２の組を生成する処理について説明する。組生成部１０４は、共起性が閾値未満の複数の確率分布を特定する。そして、組生成部１０４は、特定した複数の確率分布を共起性の低い複数の確率分布として含む第２の組を生成する。

本処理により、例えば、図４に示す同じ特徴Ａに対する確率分布４０１，４０２，４０３が共起性の低い複数の確率分布として特定され、これらを含む第２の組が生成される。また、同じ特徴Ｂに対する確率分布４０４，４０５が共起性の低い複数の確率分布として特定され、これらを含む第２の組が生成される。一方で、図４に示す異なる特徴に対する確率分布４０１，４０５を含む第１の組が生成される。また、確率分布４０３，４０４を含む第１の組が生成される。このように、第１の組には、属性、すなわち特徴の異なる複数の確率分布が含まれるのに対し、第２の組には、属性、すなわち特徴が等しい複数の確率分布が含まれる。

こうして生成された第１の組及び第２の組の情報がテストデータセットの異常判定において利用される。上記学習処理において生成された第１の組は、共起性の高い複数の確率分布を含んでいる。したがって、この組の情報を利用してテストデータセットの異常判定を行うことにより、テストデータセットが正常データセットの複数の確率分布のうち一部の確率分布しか含まない場合においても、精度よく異常判定処理を行うことができる。

図５は、異常判定処理を示すフローチャートである。Ｓ５００において、第２の分布生成部１０５は、テストデータセットを受け付ける。次に、Ｓ５０１において、第２の分布生成部１０５は、テストデータセットに対し、学習処理（図２）において生成された第２の組に含まれる確率分布に対応する属性の確率分布を生成する。次に、Ｓ５０２において、異常判定部１０６は、第２の組及び第１の組に含まれる確率分布と、分布生成処理（Ｓ５０１）で生成されたテストデータセットのテスト分布と、に基づいて、テストデータセットの異常判定を行う（判定処理）。以上で、異常判定処理が完了する。

ここで、以下の前提で異常判定処理をより具体的に説明する。すなわち、学習処理において、属性「朝」の確率分布４０１と、属性「女性」の確率分布４０５とを含む第１の組が生成されているものとする。また、学習処理において、属性「夜」の確率分布４０３と、属性「男性」の確率分布４０４とを含む第１の組が生成されているものとする。さらに、学習処理において、「朝」、「昼」、「夜」の確率分布４０１〜４０３を含む第２の組と、「男性」、「女性」の確率分布４０４〜４０５を含む第２の組が生成されているものとする。

以上の前提の場合において、Ｓ５０１において、分布生成部１０５は、テストデータに対し、確率分布４０１〜４０３に対応する特徴Ａに対する特徴量の分布、すなわちテスト分布を生成する。分布生成部１０５はまた、確率分布４０４，４０５に対応する特徴Ｂに対する特徴量の分布、すなわちテスト分布を生成する。

次に、Ｓ５０２において、異常判定部１０６は、密度比推定を用いた方法により、対応する特徴に対するテスト分布と確率分布と間の異常判定を行う。密度比推定については、以下の文献を参照することができる。

"Inlier-based Outlier Detection via Direct Density Ratio Estimation", S. Hido, Y. Tsuboi, H. Kashima, M. Sugiyama and T. Kanamori, 2008

具体的には、異常判定部１０６は、第２の組に含まれる時間帯の確率分布４０１〜４０３それぞれと、これらの確率分布に対応する特徴Ａに対するテスト分布との間の異常判定を行う。本処理において、異常判定部１０６は、テスト分布が確率分布４０１〜４０３のいずれかの確率分布に対応する場合に、テストデータセットが正常データであると判定する。また、異常判定部１０６は、いずれの確率分布にも対応しない場合に、テストデータセットが異常データであると判定する。異常判定部１０６はさらに、第２の組に含まれる性別の確率分布４０４，４０５それぞれと、これらの確率分布に対応する特徴Ｂに対するテスト分布と間の異常判定を行う。異常判定部１０６は、テスト分布が確率分布４０４，４０５のいずれかの確率分布に対応する場合に、テストデータセットが正常データであると判定する。また、異常判定部１０６は、いずれの確率分布にも対応しない場合に、テストデータセットが異常データであると判定する。

なお、時間帯の確率分布とテスト分布との間の異常判定処理と、性別の確率分布とテスト分布との間の異常判定処理と、は、互いに独立した処理なので、異常判定部１０６は、これらの処理を並列に実行してもよい。これにより、処理の高速化を図ることができる。

最後に、異常判定部１０６は、２つ判定結果を統合して、異常判定を行う。上記２つの判定において、テストデータが正常データであるという２つの判定結果が得られたとする。この場合、異常判定部１０６は、さらに、特徴Ａに対応するテスト分布と特徴Ｂに対応するテスト分布がいずれかの第１の組に含まれる確率分布に対応するか否かを確認する。そして、異常判定部１０６は、いずれかの第１の組に含まれる確率分布に対応すると判定された場合に、テストデータセットは正常データであると判定する。なお、異常判定部１０６は、テスト分布がいずれの第１の組に含まれる確率分布にも対応しない場合には、テストデータセットは異常データであると判定する。

例えばテストデータセットに対し、属性「朝」の確率分布４０１に対応すると判定され、且つ属性「男性」の確率分布４０４に対応すると判定されたとする。この場合、各判定において正常データであると判定されている。しかしながら、第１の組において、属性「朝」の確率分布４０１は、属性「女性」の確率分布４０５と共起性が高いものとして設定されており、テストデータに対する判定結果の組み合わせが、第１の組の確率分布の組み合わせに対応していない。このため、異常判定部１０６は、この場合には、テストデータセットは異常データであると判定する。なお、異常判定部１０６は確率分布とテスト分布とに基づいて異常判定を行えばよい、異常判定における具体的な処理は、実施形態に限定されるものではない。

図６は、情報処理装置１００のハードウェア構成を示す図である。情報処理装置１００は、ＣＰＵ６０１と、ＲＯＭ６０２と、ＲＡＭ６０３と、ＨＤＤ６０４と、表示部６０５と、入力部６０６と、ネットワークＩ／Ｆ部６０７とを有している。ＣＰＵ６０１は、ＲＯＭ６０２に記憶された制御プログラムを読み出して各種処理を実行する。ＲＡＭ６０３は、ＣＰＵ６０１の主メモリ、ワークエリア等の一時記憶領域として用いられる。ＨＤＤ６０４は、画像データや各種プログラム等各種情報を記憶する。表示部６０５は、各種情報を表示する。入力部６０６は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。ネットワークＩ／Ｆ部６０７は、ネットワークを介して画像形成装置等の外部装置との通信処理を行う。なお、ネットワークとしては、イーサネット（登録商標）が挙げられる。また、他の例としては、ネットワークＩ／Ｆ部６０７は、無線により外部装置との通信を行ってもよい。

なお、情報処理装置１００の機能や処理は、ＣＰＵ６０１がＲＯＭ６０２又はＨＤＤ６０４に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。

以上のように、本実施形態に係る情報処理装置１００は、共起性の高い確率変数に着目して、テストデータセットの異常判定を行うことにより、精度よく異常判定を行うための情報を生成することができる。さらに、情報処理装置１００は、共起性の低い確率変数に着目して、これらの排他的関係を利用して異常判定を行うことにより、処理の高速化を図ることができる。

第１の実施形態に係る情報処理装置１００の第１の変更例として、図２を参照しつつ説明した確率変数設定処理（Ｓ２０１）における具体的な処理は実施形態に限定されるものではない。例えば、正常データセットに属性となり得る情報が示されたタグが付与されていない場合には、確率変数設定部１０１は、確率密度比を用いた独立成分分析（ＩＣＡ）により、相互情報量の小さい確率変数を算出する。なお、確率密度比を用いたＩＣＡについては、以下の文献を参照することができる。

"Web上からの人間関係ネットワークの抽出"、松尾豊、友部博教、橋田浩一、中島秀之、石塚満、 2005

確率変数設定部１０１は、例えば、性別に関する確率分布に対してＩＣＡを適用する場合、まず主成分分析（ＰＣＡ）をかけて次元削減を行い、有効な次元数を算出する。そして、確率変数設定部１０１は、算出した次元に基づいてＩＣＡを適用することで、タグ等の情報がなくとも適切な分離を行うことができる。例えば、正常データに被写体として映る人物の性別をすべて人手で特定することが困難な場合や、動きの種類や時間帯等正常データを明確に分離可能な基準がない場合もある。確率変数設定部１０１は、このような場合であっても、ＩＣＡにより独立性を指標として分離することができる。この場合、確率変数設定部１０１は、例えば、時間帯に対し「朝」、「昼」、「夜」という排他的な関係にある３つの確率変数を設定することができる。監視カメラにより撮影された映像等では、時間等の自動で付与できるタグ以外にタグを付けることは事実上不可能である。本変更例に係る確率変数設定部１０１は、このような場合においても、共起性の高い関係の分布を求めて、確率変数を設定することができる。

第２の変更例としては、図２を参照しつつ説明した共起性評価処理（Ｓ２０３）における具体的な処理は実施形態に限定されるものではない。例えば、評価部１０３は、Ｆａｓｔ-ＩＣＡやｉｎｆｏｍａｘ、ＪＡＤＥのような手法により、共起性を評価してもよい。また、他の例としては、評価部１０３は、相関・正準相関分析を用いた方法、結合エントロピーを用いた手法等により、共起性を評価してもよい。また、他の例としては、評価部１０３は、言語の共起性の評価方法と同様に頻度を用いて共起性を評価してもよい。評価部１０３は、例えば、共起頻度二つの状況Ｘ、Ｙが共起する頻度を共起頻度とし、共起頻度を|Ｘ∩Ｙ|で表される指標で算出してもよい。

他にも、評価部１０３は、|Ｘ∩Ｙ|／|Ｘ∪Ｙ|で表されるＪａｃｃａｒｄ係数、|Ｘ∩Ｙ|／ｍｉｎ(|Ｘ∪Ｙ|)で表されるｓｉｍｐｓｏｎ係数、|Ｘ∩Ｙ|／√(|Ｘ||Ｙ|)で表されるコサイン距離等により共起性を評価してもよい。なお、タグが存在する場合には、タグ情報を元に上記の係数を算出することが可能であり、上記のような指数を用いて共起性を評価することができることは言うまでもない。

第３の変更例としては、情報処理装置１００は、テストデータ単体に対し、異常判定を行ってもよい。この場合には、異常判定部１０６は、テストデータが学習処理において生成された第１の組に含まれるすべての確率分布に含まれる場合に、正常データであると判定し、これ以外の場合には、異常データであると判定すればよい。

（第２の実施形態）
次に、第２の実施形態に係る情報処理装置について説明する。第２の実施形態に係る情報処理装置は、正常データセットの特徴空間及び特徴ベクトルに基づいて、正準相関分析（ＣＣＡ）を拡張することにより、テストデータの異常判定を行う。本実施形態においては、正常データセットに属性となり得る情報が示されたタグが付与されていない場合を例に説明する。

図７は、第２の実施形態に係る情報処理装置７００のソフトウェア構成を示す図である。情報処理装置７００は、特徴空間生成部７０１と、射影部７０２と、異常判定部７０３とを有している。特徴空間生成部７０１は、ＣＣＡを利用して、正常データセットから、共起性の高い複数の特徴空間の組を生成する。射影部７０２は、テストデータを特徴空間生成部７０１により生成された組に含まれる特徴空間に射影する。異常判定部７０３は、射影されたテストデータが特徴空間に含まれるか否かに基づいて、異常判定を行う。

図８は、第２の実施形態に係る情報処理装置７００による、学習処理を示すフローチャートである。Ｓ８００において、特徴空間生成部７０１は、正常データセットの入力を受け付ける（受付処理）。次に、Ｓ８０１において、特徴空間生成部７０１は、共起性の高い複数の特徴空間の組を生成する。具体的には、特徴空間生成部７０１は、（式４）により、ＣＣＡに基づく特徴量の分離を行う。

ここで、Ｃｘｘは、（式５）の通りである。

なお、本処理については、以下の２つの文献を参照することができる。

"Canonical Correlation a Tutorial", M. Borga, 2001

"A variable selection method in principal canonical correlation analysis", T. Ogura, 2010

本実施形態に係る情報処理装置７００は、異常判定に利用すべく、共起性の高い特徴空間の組を生成するが、共起性最大化は正準相関係数最大化問題として置き換えることができる。すなわち、（式４）のρを最大可するＷｘ，Ｗｙを求める問題と考えることができる。（式４）の右辺第１項では、通常のＣＣＡと同様で特徴ベクトル間の正準相関係数の大きいものを評価することになる。しかしこの場合には近傍で少数の特徴ベクトルが入れ替わっただけのものが選択される可能性もある。そこで右辺第２項にＬ１ノルムによるスパース項を加えることによって、相互相関（相関量）が大きくスパースな関係にある部分空間を抽出することが可能となる。

上式ρを最大化する特徴ベクトルＷｘ，Ｗｙを求める式は以下のようになる。

さらに、（式６）をＫｕｈｎ−Ｔｕｃｋｅｒ条件に当てはめて解くことを考えると、（式７）、（式８）が得られる。

ここで、ＬａｇｒａｎｇｅＤｕａｌｉｔｙから（式９）が得られ、（式１０）を満たすＷｘ，Ｗｙを求めればよいこととなる。

この方法により、タグ等の事前情報を要することなく、相互関係が大きくスパースな特徴空間を抽出することができる。

本実施形態に係る特徴空間生成部７０１は、（式１０）により正常データセットから特徴ベクトルＷｘ，Ｗｙを算出する。そして、特徴空間生成部７０１は、特徴ベクトルＷｘ，Ｗｙそれぞれにより形成される部分空間（特徴空間）を設定する。ここで、特徴ベクトルは、特徴量の一例であり、特徴空間は特徴グループの一例である。さらに、本処理は、共起性に基づいて、共起する複数の特徴グループを含む組を生成する生成処理の一例である。なお、ここでは、２つの特徴ベクトルを算出する場合を例に説明したが、特徴空間生成部７０１は、ＣＣＡの拡張により、３以上の特徴ベクトルを算出し、これらに対応する３以上の特徴空間を設定してもよい。以上で学習処理が完了する。

図９は、異常判定処理を示すフローチャートである。Ｓ９００において、射影部７０２は、テストデータを受け付ける。次に、Ｓ９０１において、射影部７０２は、テストデータを学習処理（図８）において生成された組に含まれる各特徴空間に射影する。次に、Ｓ９０２において、異常判定部７０３は、射影されたテストデータが各特徴空間に含まれるか否かに基づいて、異常判定を行う。異常判定部７０３は、具体的には、テストデータが組に含まれるすべての特徴空間に属する場合に、テストデータは正常データであると判定し、これ以外の場合には、テストデータは異常データであると判定することとする。これにより、誤検出の少ない異常判定が可能となる。

なお、異常判定方法は、実施形態に限定されるものではない。異常判定部７０３は、例えば、部分空間法を用いた異常検知や、Ｏｎｅ-ＣｌａｓｓＳＶＭを用いた異常検知、ｓｐａｒｓｅｃｏｄｉｎｇを用いた異常検知を用いてもよい。部分空間を用いた異常検知については、以下の文献を参照することができる。

"複数人動画像からの異常動作検出"、南里卓也、大津展之、 2005

また、Ｏｎｅ-ＣｌａｓｓＳＶＭを用いた異常検知及びｓｐａｒｓｅｃｏｄｉｎｇを用いた異常検知については、それぞれ非特許文献２及び非特許文献１を参照することができる。なお、第２の実施形態に係る情報処理装置のこれ以外の構成及び処理は、第１の実施形態に係る情報処理装置の構成及び処理と同様である。

以上、上述した各実施形態によれば、精度よく異常判定を行うための情報を生成することができる。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００情報処理装置
１０１確率変数設定部
１０２第１の分布生成部
１０３評価部
１０４組生成部

Claims

未知のデータが、特定のクラスに属するか否かを判定するための情報を生成する情報処理装置であって、
前記特定のクラスに属する学習データ群を受け付ける受付手段と、
前記学習データ群から、複数の特徴量それぞれに対応する特徴グループ間の共起性に基づいて、共起する複数の特徴グループを含む組を生成する第１の生成手段と
を有することを特徴とする情報処理装置。
前記学習データ群に基づいて、複数の属性それぞれの特徴量に対応する前記特徴グループを設定するグループ設定手段と、
前記特徴グループ間の共起性を評価する評価手段と
をさらに有し、
前記第１の生成手段は、前記評価手段による評価結果に基づいて、共起する複数の特徴グループの組を生成することを特徴とする請求項１に記載の情報処理装置。
前記第１の生成手段は、確率変数を前記特徴量とし、確率変数毎の確率分布を前記特徴グループとして、前記組を生成することを特徴とする請求項１又は２に記載の情報処理装置。
前記第１の生成手段は、特徴ベクトルを前記特徴量とし、特徴ベクトルの特徴空間を前記特徴グループとして、前記組を生成することを特徴とする請求項１又は２に記載の情報処理装置。
前記学習データ群に対して設定されている情報に基づいて、基準属性を特定する特定手段をさらに有し、
前記グループ設定手段は、前記特定手段により特定された前記基準属性を含む複数の属性それぞれの前記特徴グループを設定し、
前記評価手段は、前記特定手段により特定された前記基準属性と異なる他の属性の前記特徴グループと、前記基準属性の前記特徴グループの間の共起性を評価し、
前記第１の生成手段は、前記基準属性の特徴グループを含む、共起する複数の特徴グループの組を生成することを特徴とする請求項２に記載の情報処理装置。
前記評価手段は、相互情報量を用いて共起性を評価することを特徴とする請求項２に記載の情報処理装置。
前記評価手段は、相関量を用いて共起性を評価することを特徴とする請求項２に記載の情報処理装置。
前記第１の生成手段は、前記基準属性に対応する特徴グループとの共起性が高い順に所定の数の特徴グループと、前記基準属性の特徴グループとを、共起する複数の特徴グループとして含む組を生成することを特徴とする請求項５に記載の情報処理装置。
前記第１の生成手段は、前記基準属性の特徴グループとの共起性が閾値以上の特徴グループと、前記基準属性の特徴グループとを、共起する複数の特徴グループとして含む組を生成することを特徴とする請求項５に記載の情報処理装置。
前記組に含まれる各特徴グループと、前記特徴グループに対応する、前記未知のデータの特徴量と、に基づいて、前記未知のデータが前記特定のクラスに属するか否かを判定する判定手段をさらに有することを特徴とする請求項１乃至９何れか１項に記載の情報処理装置。
未知のデータが、特定のクラスに属するか否かを判定するための情報を生成する情報処理装置が実行する情報処理方法であって、
前記特定のクラスに属する学習データ群を受け付ける受付ステップと、
前記学習データ群から、複数の特徴量それぞれに対応する特徴グループ間の共起性に基づいて、共起する複数の特徴グループを含む組を生成する第１の生成ステップと
を含むことを特徴とする情報処理方法。
コンピュータを、
特定のクラスに属する学習データ群を受け付ける受付手段と、
前記学習データ群から、複数の特徴量それぞれに対応する特徴グループ間の共起性に基づいて、共起する複数の特徴グループを含む組を、未知のデータが前記特定のクラスに属するか否かを判定するための情報として生成する生成手段と
して機能させるためのプログラム。