JP3779519B2 - データ領域の解析方法及び表現方法 - Google Patents
データ領域の解析方法及び表現方法 Download PDFInfo
- Publication number
- JP3779519B2 JP3779519B2 JP2000061709A JP2000061709A JP3779519B2 JP 3779519 B2 JP3779519 B2 JP 3779519B2 JP 2000061709 A JP2000061709 A JP 2000061709A JP 2000061709 A JP2000061709 A JP 2000061709A JP 3779519 B2 JP3779519 B2 JP 3779519B2
- Authority
- JP
- Japan
- Prior art keywords
- area
- data
- learning
- region
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Analysis (AREA)
Description
【発明の属する技術分野】
本発明は、音声や画像などのパターンの認識又は状況の類別を行うコンピュータシステムで使用される、パターン認識又は状況類別のための類別モデルの生成等の技術に適用して好適な、データ領域の解析方法及び表現方法に関するものである。
【0002】
【従来の技術】
プロセス制御等の分野で使用されるシステムにおいては、異常な状況か否か、あるいは所定の動作を行うべき状況であるか否か等を判別するために、状況の類別が要求される。このような異常判定や動作決定のための状況類別は、状況の類別に用いられる特徴量(以下、変量と呼ぶ)によって定義される特徴空間において、異常/正常、あるいは動作A/動作Bといったクラス分けをすることで状況を類別する問題ととらえることができる。
【0003】
従来、状況の類別を実現する方法として、判別分析法が知られている。判別分析法は、数種類の変量によって特徴付けられるクラスが存在するとき、各クラスに属するデータにより、類別すべき状況がどのクラスに属するかを判別する方法であり、通常、統計的手法に基づいた方法である。
【0004】
例えば、ある目標を達成したクラスをA、目標を達成しなかったクラスをBとし、変量x1,x2,・・・,xn(例えば、顧客訪問回数、電話使用料金、熱意を数量化した数値等)によって特徴付けられる複数のデータがクラスごとに得られているとする。判別分析法では、クラスA,Bの相違が明らかになるように各変量に重みを与えた判別関数Yを考える。
Y=a1x1+a2x2+・・・・+anxn ・・・(1)
【0005】
a1,a2,・・・・,anは各変量の重みである。なお、式(1)では、判別関数の1例として、判別関数Yが線形の場合(各クラスの分散共分散行列が等しい場合)を記述している。
図19は、このような判別分析法を用いた状況類別方法を説明するための図である。図19の例では、変量x1,x2によって定義される2次元の特徴空間内に、データDaの集まりであるクラスAの空間、データDbの集まりであるクラスBの空間が存在し、判別関数Yを定めた様子を示している。これにより、Y≧0となる状況が発生すれば、この状況はクラスAに属すると判定でき、Y<0となる状況が発生すれば、この状況はクラスBに属すると判定できる。
【0006】
また、状況の類別を実現する他の方法として、対象を特徴付ける型、様式や模様などに基づいて対象を認識するパターン認識法が知られている。このパターン認識法としては、ニューラルネットワークを用いた方法が提案されている(Gail A.Carpenter and Stephen Grossberg,”PATTERN RECOGNITION BY SELF-ORGANIZING NEURAL NETWORKS”,A Bradford Book,1991)。
また、他のパターン認識法として、RCE(Restricted Coulomb Energy )ネットワークを利用した方法が提案されている(D.L.Reilly,L.N.Cooper and C.Elbaum,”Self Organizing Pattern Class Separator and Identifier”,U.S.Patent No.4,326,259.Awarded Apr.20,1982 )。
【0007】
ニューラルネットワークは、生物の脳で行われているようなニューロンによる並列情報処理メカニズムを工学的に実現しようとするものである。ニューラルネットワークを状況の類別に使用する場合には、いくつかの代表的な状況が有する変量と、これらの変量に応じてニューラルネットワークが出力すべき判別結果とをニューラルネットワークに与え、所望の判別結果が得られるようにニューラルネットワークを学習させる必要がある。ニューラルネットワークを学習させる方法としては、通常、バックプロパゲーション(Back Propargation )法が用いられる。
【0008】
図20は、RCEネットワークを用いた状況類別方法を説明するための図である。RCEネットワークは、線形分離不可能な多次元の空間を占めるクラスを複数の基本図形(例えば、多次元の超球)で近似することにより、特徴空間をクラス分けするものである。図20に示した例では、線形分離不可能なクラスA,Bの空間を基本図形Ca,Cbでそれぞれ近似して、変量x1,X2で定義される2次元の特徴空間をクラス分けしている。
【0009】
ところで、以上のような状況類別方法では、類別精度を向上させるため、データ群のばらつきを最適にするように変量を選択することが重要である。つまり、データ群のばらつきの程度を把握しながら最適な変量選択を行い、それらの変量により作られる最適な特徴空間において、データを類別するための類別モデルを生成する必要がある。
【0010】
特徴空間内のデータ群のばらつき程度を把握する手段としては、以下のΛ(ラムダ)統計量を利用する方法がある。
Λ統計量は、特徴空間内における異なるクラス(例えば、クラスA;正常、クラスB;異常など)に属するデータ群同士のばらつきを把握するための指標である。この指標は、前述の線形判別関数を利用してデータを類別する場合の変量選択の指標として利用される。
【0011】
図21は、Λ統計量を利用したデータ領域の解析方法を説明するための図である。なお、図21では、白丸印がクラスAに属するデータを示し、黒丸印がクラスBに属するデータを示している。異なるクラスに属するデータ群同士がなるべく離れていて、かつ同一クラス内におけるデータのばらつきがなるべく小さい場合に、Λの値はより小さい値となる。すなわち、Λ統計量は、特徴空間内において、異なるクラスに属するデータを線形近似式で分離しやすいかどうかを評価する指標となる。
図21(a)の場合、図21(b)の場合に比べて線形分離容易であるため、Λの値は小さい。一方、図21(b)の場合、線形分離困難であるため、Λの値は大きい。
【0012】
また、グラフにより特徴空間内のデータのばらつき程度を可視化し、把握する方法がある。
データ領域を直接グラフ表示する方法としては、2変量(2次元)以内の特徴空間のデータ領域をコンピュータ画面上に直接表示する方法がある。
また、2変量(2次元)以上の特徴空間内のデータ領域をグラフ表示可能な低次元グラフに射影して表示する方法もある(図22)。
【0013】
また、多変量の特徴空間内のデータ領域をグラフ表示する方法として、p変量のデータをp個の頂点を持った等辺多角形の中心と各頂点を結ぶ線分上にプロットするレーダーチャート(radar chart )、多次元のデータの変量の1つ1つを人間の顔の輪郭、鼻、口、目、瞳、眉などに対応させ、1つの多変量データを人間の顔の表情として表現する顔形グラフ(face grafh)、デンドログラムなどがある。
【0014】
【発明が解決しようとする課題】
しかしながら、Λ統計量は、基本的には線形判別関数を利用する場合に適用されるものであるため、非線形な類別手法を利用する場合には、必ずしも有効であるとは限らないという問題点がある。また、Λ統計量を利用すると、異なるクラス間のばらつき程度を把握することができるが、同一クラスに属するデータ群のばらつき程度を把握することが難しいという問題点があった。
【0015】
さらに、Λ統計量を利用すると、ノイズによって不適切な類別モデルが生成されるという問題点が生じる。図23は、Λ統計量を利用した状況類別方法の問題点を説明するための図である。図23では、白丸印がクラスAに属するデータを示し、黒丸印がクラスBに属するデータを示している。計測されるデータには、通常、ノイズが含まれており、そのノイズの影響により、特徴空間内におけるデータ領域は、図23に示すように線形分離困難となることがある。
【0016】
この場合、本質的な領域A,Bに属さないノイズデータを除去すれば、線形分離容易となる。しかし、Λ統計量を利用するだけでは、線形分離困難であるという結果しか得られず、ノイズ除去を行えばよりよいモデルができるのか、変量の選択からやり直さなければならないのかが分からないという問題がある。つまり、本質的には線形分離容易でも、Λ統計量では、線形分離困難と検知されてしまう場合があり、精度のよい識別を行うための最適な特徴空間が見いだせない可能性がある。
【0017】
また、Λ統計量は線形分離の容易さを把握するための指標であるが、対象によっては線形分離困難な場合もある。このような場合、非線形な対象の類別を目的とした、ニューラルネットワーク、RCEネットワーク、国際公開公報WO99/26164で開示された類別モデルなどが利用される。しかしながら、このような非線形な状況類別方法を利用する場合、Λ統計量だけでは最適な特徴空間を選択することが難しいという問題点があった。
【0018】
図24は従来の非線形類別方法の問題点を説明するための図である。例えば、ニューラルネットワークでは、入力を座標値、出力をクラスA,B,C,・・・・として、多層型のネットワークにバックプロパゲーションなどの収束計算により学習させる。この場合、同一クラスのデータ領域が複数点在するような特徴空間(図24(a))よりも、同一クラスのデータ領域が限られた領域(例えば、1つの領域)にデータが密集し、その形状が単純となる特徴空間(図24(b))の方がネットワーク構築が容易となり、学習時間が少なくなる。また、構造が単純なことから、収束計算によるパラメータ同定が容易となり、誤った類別モデルを生成する可能性が少なくなり、より精度のよい類別モデルの生成が期待できる。
【0019】
しかし、Λ統計量は異なるクラスに属するデータ群同士のばらつきの程度を把握するためのものであるため、Λ統計量を用いて、同一クラスに属するデータ群が点在しているか密集しているかを把握したり、データ群の領域の形状を把握したりすることが難しいという問題点があった。
【0020】
また、従来のグラフによる可視化では、多変量(多次元)、多量のデータを表示することが難しいという問題点があった。
すなわち、データ領域を直接グラフ表示する方法では、データを単純に描画できるのは2次元の特徴空間までに限られるという問題がある。しかし、複雑に要因がからむシステムの異常判定問題などでは、システムの挙動を表現するモデルの特徴空間は必ずしも2次元以下であるとは限らないため、単純なグラフ描画の利用は困難である。
【0021】
また、多次元のデータを低次元グラフへ射影する方法もあるが、この場合、本来は離れているデータ領域であるにもかかわらず、射影する方向により領域が重なって1つの領域に見えてしまうといった問題点がある(図25)。このような領域が重なってしまう問題に対し、射影方向、射影面を徐々に変化させ、その都度、射影された領域を確認していく方法もあるが、多変量(多次元)、多量のデータの場合、繰り返し射影を行って、ユーザが領域を具体的にイメージしていくことは、実質的には困難である。
【0022】
また、システムの異常判定問題などでは数千点などという多量データを取り扱う必要があるが、レーダーチャートや顔形グラフ、デンドログラムなどの多次元の変量を対象としたグラフは、数点(多くても数十点)を取り扱うためのものであるため、このようなグラフで数千点などという多量のデータを取り扱うことは難しいという問題点があった。
【0023】
本発明は、上記課題を解決するためになされたもので、同一クラスに属するデータ群のばらつき程度の把握、最適な特徴空間(変量)の選択、最適な類別モデルの生成が容易なデータ領域の解析方法を提供することを目的とする。
また、多変量(多次元)、多量のデータを表示することが容易なデータ領域の表現方法を提供することを目的とする。
【0024】
【課題を解決するための手段】
本発明のデータ領域の解析方法は、CPUとメモリとを備えたコンピュータにおいて、n(nは1以上の整数)種類の変量で定義されるn次元の特徴空間内において1つのクラスに属し、その位置が変量で特定されるn次元データが入力されたとき、各変量のm(mは1以上の整数)分割により特徴空間をmn 個の分割領域に分割して、n次元データを内包する分割領域をクラスに属する学習領域とし、入力された個々のデータと分割領域との対応付けを行う学習領域生成処理(ステップ101)と、連結した学習領域群を1つのデータ領域とみなし、同一のデータ領域内の学習領域に同一のラベルを付与するラベリング処理(ステップ102)とを、前記メモリに記憶されたプログラムに従って前記CPUに実行させるデータ領域の解析方法であって、前記特徴空間を分割する処理は、内包するデータの数が1個となる分割領域が生成される度合いが分割数mに対し確率分布に従うとみなして、統計的有意水準に基づき分割数mを決定する処理(ステップ204)からなることを特徴とするものである。このように、学習領域生成処理とラベリング処理を行うことにより、特徴空間内の同一クラスに属するデータ群のばらつきの把握が可能となる。
また、本発明のデータ領域の解析方法の1構成例として、前記ラベリング処理は、学習領域生成処理で生成された学習領域ごとにラベルを付与するとともに、学習領域がとるべき真のラベルを記憶するためのラベル表を作成する処理からなり、この処理は、1.ラベルの付与対象となる学習領域に対して、隣接する学習領域に付与されたラベルに基づく所定の条件によってラベルを付与し、ラベル表を更新するステップ(ステップ301〜304)と、2.ラベル表に記憶されている真のラベルが通し番号となるようラベル表を修正するステップ(ステップ305,306)と、3.ステップ1で付与されたラベルをラベル表に基づいて真のラベルに更新するステップ(ステップ307,308)とからなるものである。
【0025】
また、本発明のデータ領域の表現方法は、CPUとメモリとを備えたコンピュータにおいて、n種類の変量で定義されるn次元の特徴空間内において1つのクラスに属し、その位置が変量で特定されるn次元データが入力されたとき、各変量のm分割により特徴空間をmn 個の分割領域に分割して、n次元データを内包する分割領域を前記クラスに属する学習領域とし、入力された個々のデータと分割領域との対応付けを行う学習領域生成処理と、同一クラスに属する連結した学習領域群を1つのデータ領域とみなし、同一のデータ領域内の学習領域に同一のラベルを付与するラベリング処理と、同一のラベルが付与されたデータ領域ごとに近似領域を設定して、この近似領域を表示する近似処理とを、前記メモリに記憶されたプログラムに従って前記CPUに実行させるデータ領域の表現方法であって、近似処理は、データ領域を包含する近似領域を定義するステップ(ステップ401)と、近似領域内の分割領域の個数をN、該近似領域の近似対象となったデータ領域に含まれる学習領域の個数をNaとしたとき、Na/Nが所定値以上となるまで近似領域を分割して、分割終了後の近似領域を表示するステップ(ステップ402,403)とからなるものである。
【0026】
また、本発明のデータ領域の表現方法の1構成例は、同一クラスの同一データ領域を近似した、分割終了後の近似領域のうち、1変量の方向については互いに隣接する学習領域を持たず、残りの全ての変量については互いに隣接する学習領域を有する近似領域同士を合成して表示するようにしたものである。
また、本発明のデータ領域の表現方法の1構成例は、近似領域が存在する範囲を変量ごとに棒グラフで表すようにしたものである。
【0027】
【発明の実施の形態】
以下、本発明の概要を記述する。多変量の観測データを用いてシステムの異常判定、動作状況類別などを行うために、判別分析、ニューラルネットワークなどの数値データによる類別技術が利用されている。このような類別技術においては、類別精度を向上させるため、データ群のばらつきを最適にするように変量を選択することが重要である。つまり、データ群のばらつきの程度を把握しながら最適な変量選択を行い、それらの変量により作られる最適な特徴空間において、データを類別するための類別モデルを生成する必要がある。
【0028】
本発明は、多次元の変量で作られる特徴空間において、データ群のばらつきの程度、特に同一クラスに属するデータ群のばらつき(データ領域数)や、データ領域の大きさ、形状などを把握するための技術である。
本発明では、まずデータの密度に基づいて特徴空間内に学習領域を生成する。つぎに生成した学習領域(同一クラスのデータが属する学習領域)に対して、画像処理技術で利用されているラベリング技術を多次元に拡張したものを適用する。ここでは、連結した学習領域群を1つのデータ領域であるとし,データ領域ごとにラベル付けを行う。これにより、同一クラス内のデータに関する領域数(データ領域が点在しているか否か)を確認できる。
【0029】
次に、本発明では、文字によるデータ領域の表示に変換することにより、データ領域を具体的な数値で把握できるようにしている。ここでは、データ領域を全て詳細に数値で表現しているわけではなく、まず、ラベル付けされた領域ごとを、大まかな領域となるよう近似処理を行う。次に、各クラスごとに、近似されたデータ領域の範囲を数値で提示する。これにより、データのばらつき程度、データ領域の大きさ、形状などをより具体的にイメージしやすくなる。また、上記近似は、人間が視覚により物体の領域を把握している感覚に近い近似であるため、データ領域を全て詳細に数値で表現するよりも、ユーザが具体的な領域をイメージしやすい。
【0030】
以上の本発明により、特徴空間内での異なるクラスに属するデータのばらつき程度だけでなく、同一クラスにおけるデータのばらつき、データ群の領域の大きさ、形状なども確認しながら、より適切な特徴空間を決定することができ、類別精度の向上が期待できる。また、本発明では、多次元、多量のデータにも適用可能であるため、多数の要因が複雑に絡み合うシステムの異常判定問題などにデータ類別技術を適用する場合に有効な技術となる。
【0031】
以下、本発明の実施の形態について図面を参照して詳細に説明する。図1は本発明の実施の形態となるデータ領域の解析方法及び表現方法を説明するためのフローチャート図である。
本発明のデータ領域の解析方法及び表現方法を利用するコンピュータシステムは、コンピュータ、ディスプレイ装置、キーボード、外部記憶装置などを備えた周知の構成のものでよい。
【0032】
また、コンピュータ本体も、中央処理装置(CPU)、リードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)、ディスプレイ装置やキーボードあるいは外部記憶装置とのインタフェースをとるための回路などを備えた周知の構成のものでよく、これらの構成を1チップ化したマイクロコンピュータでもよい。
【0033】
CPUは、ROM若しくはRAMに記憶されたプログラム、又はキーボードから入力されたコマンドに従って処理を実行する。また、CPUは、外部記憶装置にデータを書き込んだり、外部記憶装置からデータを読み出したりすることができる。
【0034】
このようなコンピュータシステムにおいて、本発明のデータ領域の解析方法及び表現方法を実現させるためのプログラムは、フレキシブルディスク、CD−ROM、DVD−ROM、メモリカード等の記録媒体に記録された状態で提供される。この記録媒体を外部記憶装置に挿入すると、記録媒体に書き込まれたプログラムが読み取られ、コンピュータに転送される。そして、CPUは、読み込んだプログラムをRAM等に書き込む。こうして、CPUは、以下で説明するような処理を実行する。
【0035】
次に、本発明で用いる学習領域生成方法の基本概念について説明する。この学習領域生成方法は、特徴空間をあるクラスに属する学習領域と、クラスに属さない学習されていない領域とにクラス分けする方法である。
例えば、状況類別等の目的のために選定された変量がn(nは1以上の整数)種類あるとすれば、特徴空間は、このn種類の変量によって定義されるn次元の空間である。そして、本発明では、状況の類別に好適又はクラス間の分離性が良好であると考えられるn種類の変量を選定して、各変量の最小値と最大値との間のレンジを変量ごとに正規化し、各変量をある数m(mは1以上の整数)で区切ることにより、特徴空間を有限個の領域に分割する。
【0036】
今、データの総数がMとなる1クラスが存在するとき、このクラスを特徴付けるのに好適な変量を選定して、クラス領域を包含する特徴空間を定義する。これにより、上記クラスに属するデータは、特徴空間内に分布し、変量によって位置が特定される点となる。各変量をそれぞれm分割すれば、特徴空間は、mn 個の領域に分割され、生成された各領域は、データを内包するか否かでクラス分けされる。これが、学習領域生成の基本概念であり、特徴空間を学習領域と学習されていない領域とにクラス分けしたものは類別モデルとして利用することが可能である。
【0037】
次に、特徴空間の適切なクラス分けが可能な分割数mの決定方法について説明する。まず、m分割によって生成される分割領域のうち、内包するデータの数が1個となる分割領域の数をpとしたときの比率F(m)=p/Mを考える。この比率F(m)は、内包するデータの数が1個となる分割領域の確からしさととらえることができ、分割数mに対して図2のような特性を示す。つまり、比率F(m)は非減少関数であり、次式のような性質を有する。
【0038】
【数1】
【0039】
図2及び式(2)において、m*は、分割数mを増加していったときにF(m)=1となった最初の分割数mである。分割数mは整数値であり、離散的な値しか取り得ない。しかし、例えば2分割したときの長さ(変量のフルレンジ/2)と3分割したときの長さ(変量のフルレンジ/3)の中間値を2.5分割というような有理分割に拡張して考えれば、F(m)は連続である。
よって、比率F(m)は、右連続関数であり、確率分布関数の1つと考えられる。本発明では、連続関数F(m)を整数mでサンプリングしていると考えればよい。
【0040】
続いて、データ密度lについて考える。ここで扱うデータ密度lは、あるデータに着目したとき、この着目データと最も近いデータとの距離である。また、ここでの距離は、ユークリッド距離である。
特徴空間の次元をn、第1のデータを表すn種類の変量の値をx1,x2,・・・・,xn、第2のデータを表すn種類の変量の値をx1’,x2’,・・・・,xn’とすると、第1のデータと第2のデータのユークリッド距離は、((x1−x1’)2+(x2−x2’)2+・・・・+(xn−xn’)2)1/2となる。
【0041】
このようなデータ密度lの度数分布は正規分布とみなせる。また、分割数mを増やしていったとき、内包するデータの数が1個となる分割領域が生成される度合いが最も高くなるのは、データ密度lの度数が最も高いときと考えられる。そして、上記度合いは、データ密度lが極めて小さいときやデータ密度lが極めて大きいときには低くなると考えられる。
したがって、内包するデータの数が1個となる分割領域が生成される度合いは、分割数mに対して正規分布に従うと考えられる。
【0042】
なお、データ密度を考えるときの距離をユークリッド距離ではなく、m分割によって得られる分割領域の縦・横の長さに相当するような距離で考えれば、正規分布に従うことは明白である。ここでの距離は、例えばmax(|x1−x1’|,|x2−x2’|,・・・・,|xn−xn’|)となる。maxは()内の値のうちの最大値を取り出すことを意味する。
【0043】
以上の説明により、正規分布に基づく有意な分割数mを決めることが可能と考えられる。ただし、内包するデータの数が1個となる分割領域が少なくとも1個生成される分割数mについて、その平均μ及び分散σを求めるには、クラスに属するデータの総数Mが200個以上であることが必要となる。その理由は、M≧200のとき、平均μ及び分散σが真の値とみなせるからである。
【0044】
内包するデータの数が1個となる分割領域が少なくとも1個生成される分割数mについて、その平均μ及び分散σを計算するには、以下に示す式を用いればよい。
【0045】
【数2】
【0046】
【数3】
【0047】
上述の有意な分割数mの「有意」とは、統計の分野で用いられる言葉である。つまり、ある統計的有意水準を定めて分割数mを決定することにより、この分割数mは、内包するデータの数が1個となる分割領域が生成される度合いが高く、かつ分割領域間の距離ができるだけ短いという条件を満たし、適切な類別モデルを実現する値となる。なお、分割数がmのときの比率F(m)から分割数がm−1のときの比率F(m−1)を引いた、F(m)−F(m−1)が、m分割の際にデータの数が1個となる分割領域が生成される度合いに相当する。
【0048】
そして、本実施の形態では、μ+3σを統計的有意水準とし、これに最も近い整数値を有意な分割数mとする。なお、統計的有意水準は、μ+3σに限るものではないことは言うまでもない。
【0049】
こうして、分割数mを決定することができる。分割数mを決定して、各変量をそれぞれm分割すれば、特徴空間は、mn 個の領域に分割され、生成された各領域は、データを内包する学習領域とデータを内包しない領域とにクラス分けされる。
【0050】
なお、以上の説明はクラスが1つの場合であって、クラスがi個(i=1,・・・,k;k≧2)存在する場合は、上述の方法によってクラスごとに分割数miを求め、これらに基づいて全クラスに共通な最終的な分割数mを次式のように求める。
【0051】
【数4】
【0052】
式(5)において、μiは式(3)により求めたクラスiにおける平均、σiは式(4)により求めたクラスiにおける分散、mi(μi+3σi)はμi+3σiにより求めたクラスiにおける分割数である。また、maxは、mi(μi+3σi)のうちの最大値を取り出すことを意味する。ただし、全クラスに共通な分割数mを求めずに、クラス別の分割数miで後述する処理をクラスごとに行ってもよい。
【0053】
次に、以上の方法に基づく実際の処理について説明する。図3はステップ101の学習領域生成処理をより詳細に説明するためのフローチャート図である。
まず、コンピュータシステムの利用者は、複数種の変量によって特徴付けられる多次元データを収集し(図3ステップ201)、複数種の変量から状況の類別に好適又はクラス間の分離性が良好であると考えられるn種類の変量を選定する(ステップ202)。
【0054】
そして、利用者は、収集したデータをn種類の変量によって特徴付けられる多次元データ(つまり、n種類の変量によって特徴空間上の位置が特定されるデータ)としてコンピュータに入力する(ステップ203)。
【0055】
例えば、2つの変量x1,x2によって特徴付けられる1つのクラスAが存在し、このクラスAに属する複数のデータDが変量x1,x2によって定義される2次元の特徴空間S内に図4のように分布していると仮定する。図4は2次元の特徴空間内に分布するデータの1例を示す図である。なお、図4では、データDを黒丸印で示している。
【0056】
このような変量x1,x2によって特徴付けられる多数のデータDが入力されると、コンピュータは、データDをメモリに格納した後、上述の方法により分割数mを決定する(ステップ204)。ここでは、分割数m=32が得られたので、変量x1,x2のフルレンジをそれぞれ32分割した結果を図5に示す。これで、特徴空間Sは1024個の領域Eに分割される。
【0057】
続いて、コンピュータは、m分割によって生成された分割領域EとデータDとを対応づけ、特徴空間Sをクラス分けする(ステップ205)。つまり、コンピュータは、分割領域E内にデータDが存在すれば、この領域EをクラスAに属すると認識して、このクラスAに属すると判定した分割領域Eを学習領域Eaとし、学習領域Eaの位置をメモリに格納する。
【0058】
図6は分割領域EのうちクラスAに属すると判定された学習領域Eaを示す図である。図6では、白地の四角形が学習されていない分割領域Eを示し、斜線を施した四角形が学習領域Eaを示している。
こうして、ステップ101(ステップ201〜205)の学習領域生成処理が終了する。
【0059】
なお、学習領域Eaの中には、2つ以上のデータを内包する分割領域も含まれている。このデータを正確に表わそうとすれば、より細かい分割が必要となるがデータ全体の密度を統計的に考慮した場合には図5の分割が相応しい。
【0060】
以上のように、本実施の形態では、n種類の変量で定義されるn次元の特徴空間S内において1つのクラスに属し、その位置が前記変量で特定されるn次元データDが入力されたとき、各変量のm分割により特徴空間Sをmn 個の分割領域Eに分割し、この分割に際して、内包するデータの数が1個となる分割領域が生成される度合いが分割数mに対し確率分布に従うとみなして、統計的有意水準に基づき分割数mを決定する処理と、n次元データDを内包する分割領域Eを前記クラスに属する学習領域Eaとし、入力された個々のデータDと分割領域Eとの対応付けを行う処理とを行う。また、本実施の形態では、分割数mを、内包するデータの数が1個となる分割領域が少なくとも1個生成される分割数mについての平均と分散から、統計的有意水準に基づいて決定する。
【0061】
こうして、本実施の形態では、各クラスの空間を線形分離することが不可能な場合でも、各クラスの空間を非線形的に分離可能な学習領域(類別モデル)を生成することができる。その結果、各クラスの空間を正確に近似でき、誤類別率の低い類別処理を行うことができる。
【0062】
また、統計的有意水準に基づいて分割数mを決定することにより、統計的に有意な大きさの分割領域を生成するので、データの偏りの影響を受け難くすることができる。また、必要以上の分割領域を生成しないので、コンピュータのメモリの使用量を少なくすることができ、学習領域を生成する学習速度を速くすることができる。
【0063】
次に、以上の処理で生成された学習領域Eaは、隣接する領域同士であっても関連付けられておらず、別の領域として扱われているので、このままでは同一クラスに属するデータ群のばらつきの程度を把握することは困難である。
【0064】
そこで、本発明では、連結した学習領域群を1つのデータ領域とみなし、同一のデータ領域内の学習領域には同一のラベル(番号又は名前)を与え、異なるデータ領域には異なるラベルを与えるラベリング処理を行う(ステップ102)。
これにより,同一クラス内のデータ領域数(データ領域が点在しているか否か)を確認することができる。
【0065】
以下、2変量の場合を例としてラベリング処理を説明する。図7はラベリング処理を説明するためのフローチャート図である。
最初に、コンピュータは、ラベルカウンタLを0に初期化すると共に、配列(ラベル表)T[i]を0に初期化する(図7ステップ301)。
【0066】
ラベルカウンタLは付与済みのラベル番号の中で最大の値を示す。ここでは、ラベル番号をまだ付与していないので、ラベルカウンタLを0に初期化する。
配列T[i]は真のラベル番号を記憶するための変数である。配列T[i]の要素番号iは、学習領域Eaに付与されたラベル番号を示し、各配列要素T[1],T[2],T[3]・・・・は、要素番号i=1,2,3・・・・のラベルが付与された学習領域Eaがとるべき真のラベル番号を示す。ここでは、ラベル番号をまだ付与していないので、各配列要素T[1],T[2],T[3]・・・・を全て0に初期化する。
【0067】
次に、コンピュータは、全ての学習領域Eaにラベル番号を与える初期ラベリング処理を行う。
初期ラベリング処理において、コンピュータは、ラベルがまだ付いていない学習領域Eaを検索して、これを注目領域(これからラベル付けをする学習領域)とする。図8は注目領域に対するラベル付けの方法を説明するための説明図である。図8(a)では、白地が学習されていない分割領域Eを示し、斜線部が学習領域Eaを示しており、9個の領域のうち中央の学習領域Eaを注目領域としている。図8(b)、図8(c)についても同様である。また、学習領域Ea内に記されている番号は、その領域Eaに付与されたラベル番号である。
【0068】
次いで、コンピュータは、注目領域の周囲の隣接領域のラベル付けの状況を見て、以下のような条件に従って注目領域にラベルを付与する。
条件1:隣接する領域の中にラベル番号が付与された学習領域Eaが1つも存在しない場合、ラベルカウンタLをL+1、すなわち1加算して、更新後のラベルカウンタLの値を注目領域のラベル番号とする(図8(a))。さらに、配列要素T[L]=Lとして、配列T[i]を更新する。
【0069】
条件2:隣接する領域の中にラベル番号が付与された学習領域Eaが存在し、かつ隣接学習領域Eaに付与されたラベル番号が1種類だけの場合、この番号を注目領域のラベル番号とする(図8(b))。
【0070】
条件3:隣接する領域の中にラベル番号が付与された学習領域Eaが存在し、かつ隣接学習領域Eaに付与されたラベル番号が2種類以上の場合、これらラベル番号のなかで最小の番号を注目領域のラベル番号とする(図8(c))。さらに、前記隣接学習領域Eaに付与されたラベル番号のうち注目領域の番号以外のラベル番号を要素番号iとする配列要素を更新して、これら配列要素に真のラベル番号を格納しておく。
【0071】
図8(a)の例では、隣接する領域の中にラベル番号が付与された学習領域Eaが1つも存在しないので、条件1に従って、更新後のラベルカウンタLの値を注目領域のラベル番号としている。
また、図8(b)の例では、隣接する領域の中にラベル番号が付与された学習領域Eaが存在し、かつ隣接学習領域Eaに付与されたラベル番号がL1の1種類だけなので、条件2に従って、ラベル番号L1を注目領域のラベル番号としている。
【0072】
そして、図8(c)の例では、隣接する領域の中にラベル番号が付与された学習領域Eaが存在し、かつ隣接学習領域Eaに付与されたラベル番号がL2,L3,L5(ただし、L2<L3<L5)の3種類なので、条件3に従って、ラベル番号がL2,L3,L5のなかで最小の番号L2を注目領域のラベル番号としている。
【0073】
さらに、隣接学習領域Eaに付与されたラベル番号L2,L3,L5のうち注目領域の番号L2以外のラベル番号L3,L5を要素番号iとする配列要素T[L3],T[L5]の値を更新する。ここでは、最小の番号L2が真のラベル番号となるので、T[L3]=L2、T[L5]=L2とする。
【0074】
以上のように、コンピュータは、注目領域にラベル番号を付与する初期ラベリング処理を行い、付与したラベル番号をメモリに格納して(ステップ302)、配列T[i]の更新が必用な場合には配列T[i]の更新を行った後(ステップ303)、特徴空間S内の全学習領域Eaについて初期ラベリング処理が終了したかどうかを判定する(ステップ304)。終了していない場合、コンピュータは、ステップ302,303の処理を繰り返す。
【0075】
図9は図6に示す各学習領域Eaに対して初期ラベリング処理を行った結果を示す図である。各学習領域Ea内に記されている番号は、その領域Eaに付与されたラベル番号である。
図9は、変量X1の方向、すなわち列方向に沿って注目領域を検索して、注目領域を発見するたびに初期ラベリング処理を行い、1列分の検索が終了した後に、次の列について注目領域の検索と初期ラベリング処理とを行うことを特徴空間Sの各列ごとに繰り返すことにより、特徴空間S内の全領域を走査している。ただし、注目領域の検索方法はこれに限るものではなく、例えば学習領域Eaをランダムに検索して処理してもよい。
【0076】
初期ラベリング処理の終了後、コンピュータは、特徴空間S内の全学習領域Eaについて初期ラベリング処理が終了した場合、配列T[i]の各配列要素を要素番号iが小さい方から順次調べて、配列T[i]としてメモリに格納されている真のラベル番号を通し番号にする(ステップ305)。
図9の例の場合、初期ラベリング処理が終了した状態では、T[1]=1、T[2]=2、T[3]=1、T[4]=1、T[5]=5、T[6]=6、T[7]=7、T[8]=8、T[9]=9、T[10]=9となっている。
【0077】
初期ラベリング終了時の配列要素T[1]〜T[4]が示す真のラベル番号は1又は2である。これに対して、配列要素T[5]が示す真のラベル番号は5であって、配列要素T[1]〜T[4]に対して通し番号となっていない。したがって、コンピュータは、配列要素T[5]=3と修正する。
【0078】
続いて、初期ラベリング終了時の配列要素T[6]が示す真のラベル番号は6であって、配列要素T[1]〜T[5]に対して通し番号となっていない。このため、コンピュータは、配列要素T[6]=4と修正する。
【0079】
次に、配列要素T[7]が示す真のラベル番号は7であって、配列要素T[1]〜T[6]に対して通し番号となっていない。このため、コンピュータは、配列要素T[7]=5と修正する。
【0080】
以下、同様にして、配列要素T[8]=6、T[9]=7、T[10]=7とする。なお、配列要素T[10]では、配列要素T[9]のときに真のラベル番号を9から7に修正したので、同様に7に修正する。
このように、コンピュータは、配列T[i]の各配列要素ごとに真のラベル番号を修正する(ステップ306)。
【0081】
配列T[i]の修正後、コンピュータは、全ての学習領域Eaのラベル番号を更新する再ラベリング処理を行う(ステップ307)。
再ラベリング処理において、コンピュータは、初期ラベリング処理によってラベル番号が付与された学習領域Eaを検索して、これをラベル番号更新の対象となる注目領域とする。そして、コンピュータは、注目領域に付与されているラベル番号を修正後の配列T[i]に従って更新する。
【0082】
例えば、ラベル番号1が付与されている注目領域の場合、これに対応する配列要素がT[1]=1で、要素番号iと配列要素が示す真のラベル番号とが一致しているので、番号更新の必要がなく、初期ラベリング処理によって付与されたラベル番号1のままとする。ラベル番号2が付与されている注目領域の場合も同様である。
【0083】
一方、ラベル番号3が付与されている注目領域の場合、これに対応する配列要素がT[3]=1で、要素番号iと配列要素が示す真のラベル番号とが異なるので、初期ラベリング処理によって付与されたラベル番号3を真のラベル番号1に更新する。
同様に、ラベル番号4が付与されている注目領域の場合、これに対応する配列要素がT[4]=1なので、初期ラベリング処理によって付与されたラベル番号4を真のラベル番号1に更新する。
【0084】
以下、同様にして、ラベル番号5,6,7,8,9,10が付与されている注目領域については、それぞれ真のラベル番号3,4,5,6,7,7に更新する処理を行う。
このように、コンピュータは、特徴空間S内の学習領域Eaごとに再ラベリング処理を繰り返す(ステップ308)。全学習領域Eaの再ラベリング処理が終了した時点で、ステップ102のラベリング処理が終了する。
【0085】
図10は図9に示す各学習領域Eaに対して再ラベリング処理を行った結果を示す図である。
以上のように、本発明によれば、連結した学習領域群を1つのデータ領域とみなし、同一のデータ領域内の学習領域に同一のラベルを付与するので、以下に示す表現方法のための処理を各データ領域ごとに行うことが可能となる。
【0086】
また、ラベル番号の最大値が同一クラスに属するデータ領域の数となるので、同一クラスにおけるデータ領域の数を把握することができる。これにより、同一クラスに属するデータ群が点在しているか密集しているかを把握することができる。
【0087】
なお、ユークリッド距離などの類似度又は非類似度を利用して、各データをいくつかの群(クラスタ)に融合する方式(参考文献:安居院他、「画像の処理と認識」、p.92−95、昭晃堂)により、同一クラス内におけるデータ領域数を把握することも考えることができるが、以下のような問題があるため、これを利用することは現実的には困難である。
【0088】
この方式は、各データ間の類似度又は非類似度が、あるしきい値以上又はしきい値以下となった場合、同一クラスタとして融合し、最終的に融合されたクラスタ数をデータ領域と考え、同一クラスに属するデータ群が点在しているか密集しているかを把握するものである。
【0089】
しかしながら、このように各データをクラスタに融合する方式では、同じクラスタにデータを融合していくための基準、しきい値に関して、最適な値を決めるための指針が明確でなく、試行錯誤的に決める必要があるという問題が生じる。また、この方式では、しきい値などの違いにより、最終的に把握されるデータ領域数が変化してしまい、意味のあるデータ領域数のカウントが困難であるという問題が生じる。
【0090】
これに対し、本発明では、データ密度に応じてデータを自動的に学習領域化することができる。また、学習領域に対してラベリング処理を施すことにより、適切なデータ領域数の把握が可能となる。
【0091】
なお、本実施の形態では、単一クラス内のデータに対する処理について記述しているが、クラスがi個(i=1,・・・,k;k≧2)存在する場合は、前述のようにクラスごとに統計的有意水準に基づいて分割数miを求め、これらに基づいて全クラスに共通な分割数mを式(5)により求めた後に、学習領域生成処理とラベリング処理とをクラスごとに行ってもよいし、全クラスに共通な分割数mを求めずに、クラス別の分割数miを用いて学習領域生成処理とラベリング処理とをクラスごとに行ってもよい。
【0092】
また、本実施の形態では、変量が2種類の場合について説明しているが、変量が2種類以上の場合も同様にして扱えることは明らかである。n変量、すなわち特徴空間がn次元の場合、注目領域に対して3n −1又はn×2近傍の領域を注目領域に隣接する領域と呼ぶ。本実施の形態では、ラベリング処理に際して3n −1近傍(2変量の場合は8近傍)を隣接する領域としているが、n×2近傍(2変量の場合は4近傍)を隣接する領域としてもよく、対象に応じていずれかを用いる。
【0093】
次に、本発明では、文字によるデータ領域の表示により、データ領域を具体的な数値で把握できるようにしている。ここでは、データ領域を全て詳細に数値で表現しているわけではなく、まずラベル付けされたデータ領域が大まかな領域となるよう近似処理を行う。
【0094】
続いて、クラス及び変量ごとに、近似されたデータ領域の範囲を数値とグラフで提示する。これにより、データのばらつき程度、データ領域の形状や大きさなどをより具体的にイメージしやすくなる。また、上記近似は、人間が視覚により物体の領域を把握している感覚に近い近似であるため、データ領域を全て詳細に数値で表現するよりも、ユーザが具体的な領域をイメージしやすくなる。
【0095】
なお、以下の処理は、ラベル付けされた同一クラス内のデータ領域ごとに実施される。また、データのクラスが複数ある場合には、さらにクラスごとに以下の処理を繰り返すことになる。
まず、コンピュータは、ステップ102でラベル付けされたデータ領域に対して近似処理を行う(ステップ103)。
【0096】
図11はデータ領域の近似処理を説明するためのフローチャート図、図12〜図15はデータ領域の近似処理を説明するための説明図である。ここでは、図10におけるデータ領域6を例として近似処理を説明する。
データ領域の近似処理において、最初にコンピュータは、同一のラベル番号が付与されたデータ領域に対して初期近似領域を設定する(ステップ401)。
【0097】
初期近似領域を設定するには、近似対象となるデータ領域の大きさを変量ごとに算出して、算出した大きさのうち最大値Rmaxを次式のように求める。
Rmax=max{Rx1,Rx2,Rx3,・・・・Rxn} ・・・(6)
式(6)において、Rx1,Rx2,Rx3,Rxnは、近似対象となるデータ領域の変量x1,x2,x3,xn方向の大きさである。
【0098】
そして、コンピュータは、2p-1<Rmax≦2pを満たす変数pを求め、初期近似領域の1辺の大きさR=2p を決定して、初期近似領域を設定する。このとき、初期近似領域の各変量方向の大きさは全てRである。また、特徴空間S内における初期近似領域の位置は、近似の対象となるデータ領域を内包するような位置に設定すればよい。そして、コンピュータは、初期近似領域の大きさと位置をメモリに格納する。
【0099】
図12の例では、データ領域の変量x1方向の大きさが12であるため、すべての変量x1,x2方向の大きさを24 (=16)として、破線で示すような初期近似領域を設定している。
【0100】
続いて、コンピュータは、初期近似領域内の分割領域Eの個数をN、該初期近似領域に含まれるデータ領域内の学習領域Eaの個数をNaとしたとき、Na/N、すなわち初期近似領域内の領域数に対するデータ領域内の学習領域数の割合が所定値(本実施の形態では0.5)以下かどうかを判定する(ステップ402)。
【0101】
なお、ここでの計数の対象となる学習領域Eaは、初期近似領域の近似対象となったデータ領域に属するものであって、空間的な位置の上では初期近似領域の内部に含まれる学習領域Eaであっても、他のデータ領域に属するものは数えない。例えば、データ領域6を近似対象とする場合、このときの初期近似領域には図12に示すようにデータ領域7に属する学習領域が含まれるが、この学習領域は計数の対象としない。
【0102】
そして、コンピュータは、前記割合が所定値以下の場合、初期近似領域を分割して、中間近似領域を生成する(ステップ403)。この分割では、初期近似領域の各変量方向の大きさを全て1/2にする。
図12の例では、初期近似領域内の領域数に対するデータ領域6内の学習領域数の割合が0.5以下であるため、初期近似領域を分割して、図13に示すような中間近似領域を生成している。
【0103】
次いで、コンピュータは、中間近似領域内の分割領域Eの個数をN、該中間近似領域に含まれるデータ領域内の学習領域Eaの個数をNaとしたとき、Na/N、すなわち中間近似領域内の領域数に対するデータ領域内の学習領域数の割合が所定値(本実施の形態では0.5)以下かどうかを判定する(ステップ402)。初期近似領域の場合と同様に、ここでの計数の対象となる学習領域Eaは、中間近似領域に含まれ、かつ該中間近似領域の生成元である初期近似領域が近似対象としたデータ領域に属するものである。
【0104】
そして、コンピュータは、前記割合が所定値以下の場合、中間近似領域を各変量方向の大きさが全て1/2となるように分割する(ステップ403)。
コンピュータは、以上のようなステップ402,403の処理を中間近似領域ごとに繰り返して、中間近似領域内の領域数に対するデータ領域内の学習領域数の割合が所定値より大きくなった場合、その中間近似領域については分割を終了する。なお、前記割合が0、すなわち中間近似領域内に対応する学習領域Eaが1つもない中間近似領域については分割処理を実施しない。
【0105】
このような中間近似領域の分割を繰り返すことにより、図14のような最終近似領域が得られる。この最終近似領域の確定にあたっては、データ領域内の学習領域数Naが対応する中間近似領域内の領域数Nに対して著しく小さい場合(例えば、個数Naが1の場合)、この中間近似領域を無視して、最終近似領域を確定する。
【0106】
これにより、図14の例では、近似領域内に学習領域Eaが1個の領域を削除して、最終近似領域を確定している。データ領域6は、3つの最終近似領域で近似されている。
【0107】
全ての中間近似領域について分割が終了して最終近似領域が確定した後、コンピュータは、最終近似領域をよりユーザに提示しやすくするために、最終近似領域の合成を行う(ステップ404)。すなわち、コンピュータは、1変量の方向については互いに隣接する学習領域Eaを持たず、残りの全ての変量については互いに隣接する学習領域Eaを有する最終近似領域同士を合成する。
【0108】
図15に、データ領域6を近似した3つの最終近似領域を1つに合成した結果を示す。3つの最終近似領域は、変量x2の方向について隣接する学習領域Eaを有し、変量x1の方向については隣接する学習領域Eaを持たないので、近似領域の合成が行われる。
【0109】
コンピュータは、以上のようなステップ401〜404の処理を各データ領域ごとに行う(ステップ405)。図16は図10に示す各データ領域に対して近似処理を行った結果を示す図である。図16において、例えば近似領域2−1は、近似対象がデータ領域2(ラベル番号が2)で、その1番目の最終近似領域であることを示している。
【0110】
なお、以上のような近似処理において、初期近似領域の近似対象となるデータ領域内の学習領域Eaが始めから1個の場合は、この学習領域Eaを最終近似領域として確定する。図10の例では、データ領域4がこの場合に相当する。
また、本実施の形態では、1つのクラスについて説明したが、クラスが複数ある場合には、クラスごとに近似処理を行うことになる。
【0111】
次に、コンピュータは、ユーザに対して近似領域を提示する(ステップ104)。この近似領域の提示処理は、文字や棒グラフを利用して、ステップ103で得た近似領域をディスプレイ装置の画面に表示したり、印刷したりすることによって行う。以下、図16の近似領域を提示する場合を例にとって説明する。
【0112】
図10におけるデータ領域6の場合、近似処理で得た近似領域6−1は、x1={18,29}、x2={21,24}の範囲に存在する。ここで、x={a,b}とは、その近似領域の変量x成分座標の最小値がa、最大値がbという意味である。
【0113】
これを基にして、例えば図17のような棒グラフを利用したユーザへの近似領域の提示が可能となる。図17では、データ領域6を近似した近似領域6−1が存在する範囲を変量x1,x2ごとに示している。図17における斜線部が近似領域6−1の存在する範囲である。他の近似領域についても、同様にして棒グラフで提示することが可能である。
また、各近似領域を表1のように文字で提示してもよい。
【0114】
【表1】
【0115】
表1は各近似領域が存在する範囲を変量x1,x2ごとに記したものである。図17、表1は、1つのクラス(例えば、正常データが属するクラス)について近似領域を提示したものであるが、クラスが複数ある場合には、クラスごとに棒グラフや表を用いて近似領域を提示することが可能である。
【0116】
例えば、特徴空間内にクラスA,B,Cという3つのクラスに属するデータが存在する場合、図18のような棒グラフを利用したユーザへの近似領域の提示が可能である。
クラスAに属するデータは、近似領域A1,A2,A3という3つの領域に分かれて存在し、クラスBに属するデータは、近似領域B1内のみに存在し、クラスCに属するデータは、近似領域C1,C2,C3,C4という4つの領域に分かれて存在している。
【0117】
図18(a)に示したクラスAの近似領域A1,A2,A3を文字で提示する場合を表2に示す。
【0118】
【表2】
【0119】
表2において、例えば近似領域番号がA1−2の近似領域は、近似対象がデータ領域1(ラベル番号が1)で、その2番目の最終近似領域であることを示している。
近似領域A1は、3つの最終近似領域A1−1,A1−2,A1−3を合成したものであり、近似領域A2は、1つの最終近似領域A2−1からなり、近似領域A3は、5つの最終近似領域A3−1,A3−2,A3−3,A3−4,A3−5を合成したものである。
【0120】
図18(b)に示したクラスBの近似領域B1を文字で提示する場合を表3に示す。
【0121】
【表3】
【0122】
近似領域B1は、2つの最終近似領域B1−1,B1−2を合成したものである。
図18(c)に示したクラスCの近似領域C1,C2,C3,C4を文字で提示する場合を表4に示す。
【0123】
【表4】
【0124】
近似領域C1は、1つの最終近似領域C1−1からなり、近似領域C2は、4つの最終近似領域C2−1,C2−2,C2−3,C2−4を合成したものであり、近似領域C3は、2つの最終近似領域C3−1,C3−2を合成したものであり、近似領域C4は、1つの最終近似領域C4−1からなるものである。
【0125】
なお、図18では、最終近似領域をステップ404の処理で合成した上で、合成した近似領域を棒グラフで図示しているが、合成する前の最終近似領域ごとに棒グラフで提示してもよく、合成する前の各最終近似領域を同一の棒グラフ上で異なる色で提示してもよい。
【0126】
また、本発明におけるデータ領域の表現方法は、表1のような情報を利用した方法であればよく、以上の方法に限定するものではない。
つまり、複雑な形状のデータ領域1などは、表1のような近似領域1の座標ベクトルからデータ領域の境界を代表する点を得ることができるので、座標ベクトルを簡単に、x1={6,19}、x2={2,13}として表示することも可能である。
【0127】
以上のようなデータ領域の表現方法を用いれば、2次元以上の多変量(多次元)、かつ多量データの場合も領域の表現が可能である。
また、図16、表1に示したように、表現するデータ領域の複雑さに応じて、近似領域も複雑となる(数が多くなる)ため、対象の複雑さを把握することが可能となる。つまり、提示された近似領域の情報を調べることで、より簡単な類別モデル形状となるような特徴空間を見つけることが可能となり、識別精度の向上が期待できる。
【0128】
さらに、特徴空間内の近似領域が存在する範囲を座標で把握できるため、近似領域の大きさ(面積や体積等)を計算することができる。これにより、大きさの小さい近似領域はノイズであると判断して、該当するデータを削除することができ、不適切な類別モデル生成を防ぐことが可能となる。
【0129】
また、図16などのような情報と棒グラフとを併用することで、より分かりやすいデータ領域の表現が可能となる。例えば、図25のような単純な低次元グラフへの射影だけでは、領域が重なってしまい、実際のデータ領域が表現できない。これに対して、本発明では、棒グラフや表1のような情報を併用することで、たとえ射影後の領域が重なっていても、実際は離れていることが把握できているため、それに応じたグラフ描画(例えば、お互いの領域間の距離,視点からの距離,領域が上にあるか下にあるか等に応じて領域の色を変えるなど)が可能となり、より分かりやすい領域表現の実現が期待できる。
【0130】
さらに、本発明を適用することで、データについて、領域ごとにラベル付けされているため、上記文字提示に加え、他の画像処理手法を多次元に拡張して適用することができ、より詳細な領域の形状解析(領域内の空洞の有無の把握、包含関係の把握など)が可能となる。
【0131】
この場合、以下のような手順により、空洞の有無、包含関係の把握が可能である。
(A)周囲に学習されていない分割領域がある場合には、この領域は境界線であるとして抽出する。
(B)境界線が同一領域に2本以上ある場合には、その領域内に空洞があると判断する。
(C)境界線が同一領域に2本以上あり、そのうち、すべての変量において、境界の値が小さいほうの境界線を内側境界線と判断する。
(D)すべての変量において、上記内側境界線よりも、他の領域の外側境界線のほうが小さい場合には、他の領域が注目している領域に包含されていると判断できる。
【0132】
なお、本発明のデータ領域の解析方法及び表現方法は、以下の状況類別方法において、特徴空間内のデータ領域を把握したり、データ領域の把握のためにデータ領域を表示したり、高精度な類別を行うために最適な特徴空間(変量)を選定したりするのに使用される。
【0133】
(A)国際公開公報WO99/26164で開示された類別モデル。
(B)判別分析法を用いた状況類別方法。
(C)ニューラルネットワークを用いた状況類別方法。
(D)RCEネットワークを用いた状況類別方法。
【0134】
なお、以上のような状況類別方法は、以下のような分野に適用される。
(A)ハンチングなどの計装不具合時の状況把握や、プラントおよび機器の異常状態の検知などの異常診断。
(B)状況に応じて採るべき行動の支援などの意思決定。
(C)その他一般の類別問題。
【0135】
【発明の効果】
従来の特徴空間内のデータのばらつき程度を定量化する手法(Λ統計量)では、線形判別を対象としており、特徴空間内の同一クラスに属するデータ群のばらつきの把握が困難であった。しかし、本発明では、n種類の変量で定義されるn次元の特徴空間内において1つのクラスに属し、その位置が変量で特定されるn次元データが入力されたとき、各変量のm分割により特徴空間をmn 個の分割領域に分割して、n次元データを内包する分割領域をクラスに属する学習領域とし、入力された個々のデータと分割領域との対応付けを行う学習領域生成処理と、同一クラスに属する連結した学習領域群を1つのデータ領域とみなし、同一のデータ領域内の学習領域に同一のラベルを付与するラベリング処理とを行うことにより、特徴空間内の同一クラスに属するデータ群のばらつき(データ領域が点在するか否か)の把握が可能となる。これにより、より適切な特徴空間の選択(つまり、より適切な変量の選択)が可能となり、類別精度の向上が期待できる。また、収集されたデータの類別モデルへの近似がより容易となり、類別モデル生成時における生成速度を高速化し、メモリ負荷を軽減することができる。これは、適用する類別手法が非線形の場合、より有効となる。また、データにノイズがある場合にそれを検知でき、特徴空間内でノイズを削除することが可能となる。また、データ領域が複雑であるかどうかを判断するための情報が提示可能である。これにより、不適切な類別モデル生成を防ぐことができ、類別モデル生成時における生成速度を高速化し、メモリ負荷を軽減することができる。また、本発明により得られる情報をもとに、詳細なデータ領域形状解析が可能となり、より分かりやすいデータ領域表現が期待できる。
【0136】
また、内包するデータの数が1個となる分割領域が生成される度合いが分割数mに対し確率分布に従うとみなして、統計的有意水準に基づき分割数mを決定して、特徴空間を分割することにより、データ密度に応じて自動的にデータを学習領域化し、データ領域の表現が可能となるため、従来のようにクラスタリングを利用した場合のようなデータのばらつき程度を把握するための試行錯誤的な手順が不要となる。
【0137】
従来のデータ領域を把握する手段(グラフ)では、多変量(多次元)、多量のデータを取り扱うことは困難であり、また実際には同一領域ではない領域を同一領域と見誤る問題があった。しかし、本発明では、学習領域生成処理と、ラベリング処理と、同一のラベルが付与されたデータ領域ごとに近似領域を設定して、この近似領域を表示する近似処理を行うことにより、多次元、多量のデータを取り扱うことができ、正確にデータ領域把握、データ領域表現が可能である。また、人間が視覚により物体の領域を把握している感覚に近い近似により、データ領域を大まかに近似して提示しているため、データ領域を全て詳細に数値で表現するよりも、ユーザが具体的な領域をイメージしやすいという利点が得られる。
【0138】
また、同一クラスの同一データ領域を近似した、分割終了後の近似領域のうち、1変量の方向については互いに隣接する学習領域を持たず、残りの全ての変量については互いに隣接する学習領域を有する近似領域同士を合成して表示することにより、同一データ領域をまとめて表示することが可能となる。
【0139】
また、近似領域が存在する範囲を変量ごとに棒グラフで表すことにより、より分かりやすいデータ領域表現が可能となる。これにより、多数の要因が複雑に絡み合うシステムの異常判定問題などにおいても、適切な特徴空間の選択(適切な変量の選択)が可能となり、類別精度の向上が期待できる。
【図面の簡単な説明】
【図1】 本発明の実施の形態となるデータ領域の解析方法及び表現方法を説明するためのフローチャート図である。
【図2】 分割数mに対する比率F(m)の特性を示す図である。
【図3】 本発明の実施の形態における学習領域生成処理を説明するためのフローチャート図である。
【図4】 本発明の実施の形態において2次元の特徴空間内に分布するデータの1例を示す図である。
【図5】 図4の特徴空間において2つの変量をそれぞれ32分割した結果を示す図である。
【図6】 分割によって生成された領域のうちクラスに属すると判定された学習領域を示す図である。
【図7】 本発明の実施の形態におけるラベリング処理を説明するためのフローチャート図である。
【図8】 注目領域に対するラベル付けの方法を説明するための説明図である。
【図9】 図6に示す各学習領域に対して初期ラベリング処理を行った結果を示す図である。
【図10】 図9に示す各学習領域に対して再ラベリング処理を行った結果を示す図である。
【図11】 本発明の実施の形態におけるデータ領域の近似処理を説明するためのフローチャート図である。
【図12】 本発明の実施の形態におけるデータ領域の近似処理を説明するための説明図である。
【図13】 本発明の実施の形態におけるデータ領域の近似処理を説明するための説明図である。
【図14】 本発明の実施の形態におけるデータ領域の近似処理を説明するための説明図である。
【図15】 本発明の実施の形態におけるデータ領域の近似処理を説明するための説明図である。
【図16】 図10に示す各データ領域に対して近似処理を行った結果を示す図である。
【図17】 本発明の実施の形態における近似領域の提示方法の1例を示す図である。
【図18】 本発明の実施の形態における近似領域の提示方法の他の例を示す図である。
【図19】 判別分析法を用いた従来の状況類別方法を説明するための図である。
【図20】 RCEネットワークを用いた従来の状況類別方法を説明するための図である。
【図21】 Λ統計量を利用した従来のデータ領域の解析方法を説明するための図である。
【図22】 2変量以上の特徴空間内のデータ領域を低次元グラフに射影したグラフを示す図である。
【図23】 Λ統計量を利用した従来の状況類別方法の問題点を説明するための図である。
【図24】 従来の非線形類別方法の問題点を説明するための図である。
【図25】 2変量以上の特徴空間内のデータ領域を低次元グラフに射影した場合の問題点を説明するための図である。
【符号の説明】
101…学習領域生成処理、102…ラベリング処理、103…データ領域の近似処理、104…近似領域の提示処理。
Claims (5)
- CPUとメモリとを備えたコンピュータにおいて、
n(nは1以上の整数)種類の変量で定義されるn次元の特徴空間内において1つのクラスに属し、その位置が前記変量で特定されるn次元データが入力されたとき、各変量のm(mは1以上の整数)分割により前記特徴空間をmn 個の分割領域に分割して、前記n次元データを内包する分割領域を前記クラスに属する学習領域とし、入力された個々のデータと分割領域との対応付けを行う学習領域生成処理と、
同一クラスに属する連結した学習領域群を1つのデータ領域とみなし、同一のデータ領域内の前記学習領域に同一のラベルを付与するラベリング処理とを、前記メモリに記憶されたプログラムに従って前記CPUに実行させるデータ領域の解析方法であって、
前記特徴空間を分割する処理は、内包するデータの数が1個となる分割領域が生成される度合いが分割数mに対し確率分布に従うとみなして、統計的有意水準に基づき分割数mを決定する処理からなることを特徴とするデータ領域の解析方法。 - 請求項1記載のデータ領域の解析方法において、
前記ラベリング処理は、前記学習領域生成処理で生成された学習領域ごとにラベルを付与すると共に、前記学習領域がとるべき真のラベルを記憶するためのラベル表を作成する処理からなり、この処理は、
1.ラベルの付与対象となる学習領域に対して、隣接する学習領域に付与されたラベルに基づく所定の条件によってラベルを付与し、前記ラベル表を更新するステップと、
2.前記ラベル表に記憶されている真のラベルが通し番号となるよう前記ラベル表を修正するステップと、
3.前記ステップ1で付与されたラベルを前記ラベル表に基づいて真のラベルに更新するステップとからなることを特徴とするデータ領域の解析方法。 - CPUとメモリとを備えたコンピュータにおいて、
n種類の変量で定義されるn次元の特徴空間内において1つのクラスに属し、その位置が前記変量で特定されるn次元データが入力されたとき、各変量のm分割により前記特徴空間をm n 個の分割領域に分割して、前記n次元データを内包する分割領域を前記クラスに属する学習領域とし、入力された個々のデータと分割領域との対応付けを行う学習領域生成処理と、
同一クラスに属する連結した学習領域群を1つのデータ領域とみなし、同一のデータ領域内の前記学習領域に同一のラベルを付与するラベリング処理と、
同一のラベルが付与されたデータ領域ごとに近似領域を設定して、この近似領域を表示する近似処理とを、前記メモリに記憶されたプログラムに従って前記CPUに実行させるデータ領域の表現方法であって、
前記近似処理は、前記データ領域を包含する近似領域を定義するステップと、
近似領域内の前記分割領域の個数をN、該近似領域の近似対象となったデータ領域に含まれる学習領域の個数をNaとしたとき、Na/Nが所定値以上となるまで前記近似領域を分割して、分割終了後の近似領域を表示するステップとからなることを特徴とするデータ領域の表現方法。 - 請求項3記載のデータ領域の表現方法において、
同一クラスの同一データ領域を近似した、前記分割終了後の近似領域のうち、1変量の方向については互いに隣接する学習領域を持たず、残りの全ての変量については互いに隣接する学習領域を有する近似領域同士を合成して表示することを特徴とするデータ領域の表現方法。 - 請求項3又は4記載のデータ領域の表現方法において、
前記近似領域が存在する範囲を変量ごとに棒グラフで表すことを特徴とするデータ領域の表現方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000061709A JP3779519B2 (ja) | 2000-03-07 | 2000-03-07 | データ領域の解析方法及び表現方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000061709A JP3779519B2 (ja) | 2000-03-07 | 2000-03-07 | データ領域の解析方法及び表現方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001250101A JP2001250101A (ja) | 2001-09-14 |
JP3779519B2 true JP3779519B2 (ja) | 2006-05-31 |
Family
ID=18581812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000061709A Expired - Fee Related JP3779519B2 (ja) | 2000-03-07 | 2000-03-07 | データ領域の解析方法及び表現方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3779519B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100486735B1 (ko) * | 2003-02-28 | 2005-05-03 | 삼성전자주식회사 | 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치 |
JP4156639B2 (ja) | 2006-08-14 | 2008-09-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声インターフェースの設計を支援するための装置、方法、プログラム |
JP6575605B2 (ja) | 2015-11-27 | 2019-09-18 | 富士通株式会社 | 症例データ生成支援プログラム、症例データ生成支援システム及び症例データ生成支援方法 |
WO2019058775A1 (ja) * | 2017-09-21 | 2019-03-28 | 株式会社アダコテック | 異常検出装置および異常検出方法 |
JP7115546B2 (ja) * | 2018-08-02 | 2022-08-09 | 日本電気株式会社 | モデル作成装置、モデル作成方法、及び、モデル作成プログラム |
JP7112924B2 (ja) * | 2018-09-25 | 2022-08-04 | エヌ・ティ・ティ・コムウェア株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US20230103374A1 (en) * | 2020-04-17 | 2023-04-06 | Roxy Corp. | Visualization method, program for the same, visualization device, and discrimination device having the same |
-
2000
- 2000-03-07 JP JP2000061709A patent/JP3779519B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001250101A (ja) | 2001-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kang et al. | Diagnosis of coronavirus disease 2019 (COVID-19) with structured latent multi-view representation learning | |
Kiang et al. | An evaluation of self-organizing map networks as a robust alternative to factor analysis in data mining applications | |
Fraley et al. | Enhanced model-based clustering, density estimation, and discriminant analysis software: MCLUST | |
US5179643A (en) | Method of multi-dimensional analysis and display for a large volume of record information items and a system therefor | |
Chen et al. | Local feature based mammographic tissue pattern modelling and breast density classification | |
JP6863926B2 (ja) | データ分析システム及びデータ分析方法 | |
CN104361318A (zh) | 一种基于弥散张量成像技术的疾病诊断辅助系统及方法 | |
CN112418065A (zh) | 设备运行状态识别方法、装置、设备及存储介质 | |
CN110544310A (zh) | 一种双曲共形映射下三维点云的特征分析方法 | |
JP3779519B2 (ja) | データ領域の解析方法及び表現方法 | |
EP1246124B1 (en) | Image space display method and apparatus | |
CN110502989A (zh) | 一种小样本高光谱人脸识别方法及系统 | |
Broadhurst | Statistical estimation of histogram variation for texture classification | |
MacLeod | The direct analysis of digital images (eigenimage) with a comment on the use of discriminant analysis in morphometrics | |
Ain et al. | Genetic programming for multiple feature construction in skin cancer image classification | |
US8189915B2 (en) | Method for segmentation in an n-dimensional feature space and method for classifying objects in an n-dimensional data space which are segmented on the basis of geometric characteristics | |
CN112561935B (zh) | 一种大脑影像智能分类方法、装置和设备 | |
CN107729918B (zh) | 基于代价敏感支持向量机的元胞自动机涌现现象的分类方法 | |
CN111709492A (zh) | 高维电子医疗记录表的降维可视化方法、装置及存储介质 | |
Kiang et al. | A comparative analysis of an extended SOM network and K-means analysis | |
Hossain et al. | A hybrid clustering pipeline for mining baseline local patterns in 3d point cloud | |
Mehidi et al. | Retinal image segmentation u sing clustering methods: Performance analysis | |
Li et al. | " Understanding Robustness Lottery": A Comparative Visual Analysis of Neural Network Pruning Approaches | |
Singh et al. | Comparative Study of Machine Learning Techniques for Breast Cancer Diagnosis | |
Rogovschi et al. | t-Distributed Stochastic Neighbor Embedding Spectral Clustering using higher order approximations. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060228 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060302 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100310 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100310 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110310 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120310 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130310 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130310 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140310 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |