JP4525936B2 - テキストマイニング装置、その方法及びプログラム - Google Patents
テキストマイニング装置、その方法及びプログラム Download PDFInfo
- Publication number
- JP4525936B2 JP4525936B2 JP2006511325A JP2006511325A JP4525936B2 JP 4525936 B2 JP4525936 B2 JP 4525936B2 JP 2006511325 A JP2006511325 A JP 2006511325A JP 2006511325 A JP2006511325 A JP 2006511325A JP 4525936 B2 JP4525936 B2 JP 4525936B2
- Authority
- JP
- Japan
- Prior art keywords
- similar
- partial
- sentence
- partial structure
- similar structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 43
- 238000005065 mining Methods 0.000 title claims description 38
- 238000002910 structure generation Methods 0.000 claims description 73
- 238000001514 detection method Methods 0.000 claims description 69
- 238000012545 processing Methods 0.000 claims description 31
- 230000009466 transformation Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 42
- 238000006467 substitution reaction Methods 0.000 description 10
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1に示した従来のテキストマイニング装置は、概略、つぎのように動作する。まず、言語特徴分析装置によって基本辞書と文書データとから分野依存辞書を作成し、言語解析装置によって基本辞書と分野依存辞書と文書データから構文木等の構造を作成する。パターン抽出装置は、この構造を用いて頻出パターンを抽出し、この頻出パターンに合致する文書データ中の文書を、頻出パターン適合文書記憶部に記憶させると同時に、この頻出パターンを出力する。
一般的に、言語解析装置によって作成される構造として、例えば、
(A1)文中の文節を、構造の節点で表し、
(A2)付属語情報を、節点の属性値で表し、
(A3)係り受け関係を、係り元の節点から係り先の節点への有向枝で表し、
(A4)表層格の情報を、有向枝の属性値で表す
という構造が良く用いられる。
ここで、付属語情報とは、進行や完了などの時制、容易や困難などのモダリティ、及び否定などの付属的な概念である。前記付属語情報は付属語によって文節に付加される情報をいう。
図2に、この形式で表された「彼は車種Aが価格を下げたのを知らない」という文の構文構造の一例を示す。文の文節、「彼」、「車種A」、「価格」、「下げる」、「知る」は節点で表わされる。付属語情報は節点の属性値で表される(節点「知る」の属性値として、付属語情報:否定)。係り受け関係は、係り元の節点から係り先への有向枝で表わされる(例えば「彼」→「知る」)。表層格の情報は有向枝の属性値で表される(例えば「彼」→「知る」の有向枝の属性値として「表層格:は」)。
また、構造中のこれらの情報は、全て属性値を持たないラベル付きの節点と、属性値を持たない有向枝のみからなる構造で表現することも可能である。図3に、この形式で表された「彼は車種Aが価格を下げたのを知らない」という文の構文構造の例を示す。
文の文節「彼」、「車種A」、「価格」、「下げる」、「知る」は、属性値を持たないラベル付きの節点で表わされ(例えば節点「彼」には「表層格:は」のラベルが付加され、「下げる」には、ラベル「付属語情報:完了」、「表層格:を」が付加されている)、係り元の節点から係り先への有向枝は属性値を持たない有向枝とされる。
上記した従来のシステムは下記記載の問題点を有している。なお、以下の問題点及びその解析は、本願発明者らによる研究・検討結果に基づくものである。図4A〜4D、図5A及び図5Bの内容は、問題の在り処を具体的に説明するために、本願発明者らが提示したものである。
第1の問題点として、頻出パターン検出の際に、意味が類似し、かつ連結構造が異なっている構造は、全く別のパターンとして判定されてしまうということが挙げられる。
連結構造とは、構造の節点と単語文字列及び有向枝の連結関係と、向きにのみ注目し、付属的な属性情報を省略した構造のことをいう。
上記第1の問題点が生じる理由は、従来のテキストマイニング装置は、連結構造が異なり、類似した意味を持つ構造を同一と判定する手段を具備していないためである。
属性値を用いた文構造を用いる際に、連結構造が異なり、類似した意味を持つ構造の差異の例として、
(B1)係り受けの向きの差異、
(B2)係り受けの順序の差異、
(B3)同義語の置換による差異、及び、
(B4)並列の構文構造と意味構造の差異
などが挙げられる。
図4A〜4Dに、これらの連結構造による構造の差異の例を示す。属性値を用いない文構造を用いる際、あらゆる意味の類似した構造の差異は、連結構造の差異で表現される。
図4Aに示す例では、意味の類似した「速いのは車種A」と「車種Aは速い」の連結構造において、係り元と係り先が相違している。
図4Bに示す例では、意味の類似した「速く安い車種A」と「安く速い車種A」の連結構造において、係り元の「速い」と「安い」の節点の順序関係が、相違している。
図4Cに示す例では、意味の類似した「車種Aは速い」と「車種Aは高速だ」のそれぞれの連結構造において、係り先の「速い」と「高速」が相違している。
図4Dに示す例では、「車種Aと車種Bは速い」の構文構造と意味構造を表わしている。図4Dにおいて、係り元「車種A」が「車種B」に係り「車種B」が「速い」に係る連結構造と、係り元「車種A」と「車種B」から係り先「速い」への有向枝を有する連結構造がある。
第2の問題点として、頻出パターン検出の際に異なる属性値を持ち、かつ類似した意味を持つ構造は、全く別のパターンとして判定されてしまうということが挙げられる。
その理由は、従来のテキストマイニング装置では、異なる属性値を持つ構造を、同一と判定することについて、何ら考慮されていないためである。
属性値を用いた文構造を用いる際に、属性値が異なり、かつ類似した意味を持つ構造の差異の例として、付属語情報の差異、表層格の差異などが挙げられる。図5A及び図5Bに、これらの属性値による構造の差異の例を示す。
図5Aに示す例では、類似した意味を持つ「車種Aは加速」と「車種Aの加速」の連結構造において、有向枝の表層格が相違している。
図5Bに示す例では、類似した意味を持つ「車種Aは速い」と「車種Aは速かった」の連結構造において、係り先の節点「速い」の付属語情報が相違している。
第3の問題点として、テキストマイニング装置の使用者(ユーザ)がどこまで類似した構造を同一な構造と判定して頻出パターンの検出を行うのかを調整できないことが挙げられる。
その理由は、従来のテキストマイニング装置では、使用者が頻出パターン検出の際にどのような構造を同一と判定するかを調整することについて、何ら考慮されていないためである。
したがって、本発明の目的は、類似した意味を持ち、かつ連結構造の異なる構造を、同一のパターンと判定して頻出パターン等の検出を行うテキストマイニング装置及び方法並びにプログラムを提供することにある。
本発明の他の目的は、類似した意味を持ち属性値の異なる構造を同一な構造と判定して頻出パターン検出を行うかを調整できるテキストマイニング装置及び方法並びにプログラムを提供することにある。
本発明のさらに他の目的は、テキストマイニングの使用者がどこまで類似した構造を同一な構造と判定して頻出パターン検出を行うかを調整できるテキストマイニング装置及び方法並びにプログラムを提供することにある。
本発明の第1の態様に係るテキストマイニング装置は、入力した文書から文構造を作成する手段と、前記文構造の部分構造に対して予め定められた所定の変換操作を行うことで、前記部分構造と意味の類似したパターンの類似構造を作成する手段と、前記意味の類似したパターンを同一パターンと判定してパターン検出を行う手段と、を備えている。
本発明において、前記類似構造を生成する手段は、前記文構造について並列変形を行う手段と、前記文構造の部分構造を生成する手段と、前記文書構造及び/又は部分構造の有向枝の無向枝化を行う手段と、同義語辞書を参照して前記文書構造及び/又は部分構造中の同義語の置換を行う手段と、前記文書構造及び/又は部分構造における順序木の無順序木化を行う手段と、を備え、前記類似構造を前記部分構造の同値類とする。同値類とは、構造の集合でその各要素を同一の構造として扱うものをいい、二つの同値類に一つでも、同一の要素が含まれる時には、その二つの同値類を同一の同値類と判定する。本発明によれば、生成された類似構造を生成元の文構造の同値類として扱い、頻出パターン検出を行う。
本発明の第2の態様に係るテキストマイニング装置は、第1の態様に係るテキストマイニング装置の構成に含まれる頻出パターン検出手段に代わり、構造中の属性値の差異を無視して、頻出パターンの検出を行う頻出類似パターン検出手段を備え、属性値の異なる類似した構造を同一な構造と判定して頻出パターンの検出を行う。本発明によれば、構造中の属性値が異なる類似した構造を同一と判定して頻出パターン検出を行う。
本発明の第3の態様に係るテキストマイニング装置は、テキストマイニングの対象となる文書の集まりを記憶する記憶部と、前記記憶部の前記文書を解析して文構造を取得する解析部と、使用者の入力から文構造の差異の種別ごとに同一構造と判定するか否かを指定する第1の指定項目を生成する類似構造生成調整部と、使用者の入力から属性値の差異の種別ごとに同一構造と判定するか否かを指定する第2の指定項目を生成し類似構造判定調整部と、前記類似構造生成調整部によって生成された第1の指定項目に従い、前記解析部で得られた文構造の部分構造に対して所定の変換操作を行い、前記部分構造と意味的に類似した類似構造を生成する類似構造生成部と、前記類似構造生成部によって生成された類似構造を生成元の部分構造の同値類として扱い、前記類似構造判定調整部の第2の指定項目に従い、属性値の差異を無視しながら、頻出パターンの検出を行う類似パターン検出部と、を備えている。本発明によれば、構造の同一性の判定を調整するための指定の入力を受け付ける。
本発明のさらに他の態様に係る方法は、
入力した文書から文構造を作成する工程と、
前記文構造の部分構造に対する所定の変換操作を行うことで、前記部分構造と意味の類似したパターンの類似構造を作成する工程と、
前記意味の類似したパターンを同一パターンと判定してパターン検出を行う工程とを含む。
本発明のさらに他の態様に係る方法は、テキストマイニングの対象となるテキストの集まりを記憶する記憶部のテキストを解析して文構造を取得する工程と、
前記文構造の部分構造に対して意味的に類似しパターンの類似構造を生成する工程と、
生成された類似構造を生成元の部分構造の同値類として扱い、属性値の差異を無視しながらパターンの検出を行う工程とを含む。
本発明のさらに他の態様に係る方法は、テキストマイニングの対象となるテキストの集まりを記憶する記憶部のテキストを解析して文構造を取得する工程と、
入力装置から入力された使用者の入力情報から、文構造(連結構造)の差異の種別ごとに同一構造と判定するか否かを指定する第1の指定項目と、属性値の差異の種別ごとに同一構造と判定するか否かを指定する第2の指定項目を生成するステップと、
文構造(連結構造)の差異の種別ごとに同一構造と判定するか否かを指定する第1の指定項目に従い、前記文構造の部分構造に対して意味的に類似した構造を生成する工程と、
生成された類似構造を生成元の部分構造の同値類として扱い、属性値の差異の種別ごとに同一構造と判定するか否かを指定する第2の指定項目に従い、属性値の差異を無視しながら頻出パターンの検出を行う工程と、を含む。
本発明のさらに他の態様に係るプログラムは、テキストマイニング装置を構成するコンピュータに、
テキストマイニングの対象となるテキストの集まりを記憶する記憶部の前記テキストを解析して文構造を取得する処理と、
前記処理で解析して得られた文構造の部分構造に対して、意味的に類似した構造を生成する処理と、
生成された類似構造を、生成元の部分構造の同値類として扱い、頻出パターンの検出を行う処理と、
を実行させるプログラムよりなる。
図2は属性値を用いる形式で表された「彼は私が本を買ったのを知らない」という文の構文構造の例を示す図である。
図3は属性値を用いない形式で表された「彼は私が本を買ったのを知らない」という文の構文構造の例を示す図である
図4Aは連結構造が異なり類似した意味を持つ構造の差異の例を示す図であり、係り受けの向きの差異を示した図である。
図4Bは連結構造が異なり類似した意味を持つ構造の差異の例を示す図であり、係り受けの順序の差異を示した図である。
図4Cは連結構造が異なり類似した意味を持つ構造の差異の例を示す図であり、同義語の置換による差異を示す図である。
図4Dは連結構造が異なり類似した意味を持つ構造の差異の例を示す図であり、並列の構文構造と意味構造の差異を示す図である。
図5Aは属性値が異なり類似した意味を持つ構造の差異の複数の例を示す図であり、付属語情報の差異を示す図である。
図5Bは属性値が異なり類似した意味を持つ構造の差異の複数の例を示す図であり、表層格の差異を示す図である。
図6は本発明の第1の実施の形態の構成を示す図である。
図7は第1の実施の形態の動作を説明するための流れ図である。
図8は本発明の実施の形態における類似構造生成手段22の動作を説明するための流れ図である。
図9は本発明の第2の実施の形態の構成を示す図である。
図10は本発明の第2の実施の形態の動作を説明するための流れ図である。
図11は本発明の第3の実施の形態の構成を示す図である。
図12は本発明の第3の実施の形態の動作を説明するための流れ図である。
図13は本発明の第3の実施の形態における類似構造生成手段22の動作を説明するための流れ図である。
図14は本発明の第4の実施の形態の構成を示す図である。
図15は本発明の第1〜第3実施例で使用するテキストDB中のテキスト集合の例を示す図である。
図16Aは言語解析手段21で得られる文1の文構造を示す図である。
図16Bは言語解析手段21で得られる文2の文構造を示す図である。
図16Cは言語解析手段21で得られる文3の文構造を示す図である。
図17は本発明の第1〜第3の実施例において使用する、同義語辞書の構造を示す図である。
図18は本発明の第1〜第3の実施例において、図8のステップA2−1における処理を示す図である。
図19は本発明の第1〜第3の実施例において、図8のステップA2−2における処理を示す図である。
図20Aは部分構造2a−0に対する無効枝化処理(ステップA2−3)を示す図である。
図20Bは部分構造2c−0に対する無効枝化処理(ステップA2−3)を示す図である。
図20Cは部分構造2a−1に対する無効枝化処理(ステップA2−3)を示す図である。
図20Dは部分構造2g−0に対する無効枝化処理(ステップA2−3)を示す図である。
図20Eは部分構造2b−0に対する無効枝化処理(ステップA2−3)を示す図である。
図21は本発明の第1〜第3の実施例において、図8のステップA2−6における処理を示す図である。
図22は本発明の第1、第2の実施例において、類似構造生成手段22が文3の文構造の全体からなる部分構造3a−0の類似構造を生成する処理を示す図である。
図23は本発明の第1〜第3の実施例において文1の文構造から生成される部分構造の同値類を示す図である。
図24は本発明の第1〜第3の実施例において文2の文構造から生成される部分構造の同値類を示す図である。
図25は本発明の第1、第2の実施例において、文3の文構造から生成される部分構造の同値類を示す図である。
図26は本発明の第1の実施例において、図23〜25に示す同値類の集合から検出される頻出パターンを示す図である。
図27は本発明の第2の実施例において、図23〜25に示す同値類の集合から検出される頻出パターンを示す図である。
図28は本発明の第3の実施例において、類似構造生成手段22が文3の文構造の全体からなる部分構造3a−0の類似構造を生成する処理を示す図である。
図29は本発明の第3の実施例において、文3の文構造から生成される部分構造の同値類を示す図である。
図30は本発明の第3の実施例において、図23、24及び図29に示す同値類の集合から検出される頻出パターンを示す図である。
図6を参照すると、本発明の第1の実施の形態に係る装置は、情報を記憶する記憶装置1と、プログラム制御により動作するデータ処理装置2と、検出されたパターンを出力する出力装置3と、を有している。記憶装置1はテキストデータベース(DB)11を含む。テキストDB11は、テキストマイニングの対象となるテキストの集合を記憶している。
データ処理装置2は、言語解析手段21と、類似構造生成手段22と、頻出パターン検出手段23を含む。これらの手段はそれぞれ、おおむね以下のように動作する。
言語解析手段21は、テキストDB11からテキスト集合を読み込み、その結果、集合中の各テキストを解析して文構造を得る。
類似構造生成手段22は、言語解析手段21から送出された文構造の集合中の各文構造を構成する全ての部分構造を抽出し、前記各部分構造の全ての類似構造を生成して、その結果、類似構造と生成元の部分構造を同値類とする。
頻出パターン検出手段23は、類似構造生成手段22から送出された部分構造の同値類の集合から頻出するパターンを検出し、出力装置3へ送出する。
図7は、本実施形態の動作を説明するための流れ図である。次に、図6及び図7を参照して、本発明の第1の実施形態に係る装置の動作について詳細に説明する。
まず、言語解析手段21が、テキストDB11から、テキスト集合を読み込む。言語解析手段21は、テキスト集合中の各テキストに対し解析を行い、解析結果として、文構造を生成し、類似構造生成手段22に送出する(図7のステップA1)。
次に、類似構造生成手段22は、与えられた文構造の集合中の部分構造の全ての類似構造を生成し、その結果、類似構造を生成元の部分構造の同値類とする。類似構造生成手段22は、その後、同値類の集合を頻出パターン検出手段23に送出する(図7のステップA2)。
さらに、頻出パターン検出手段23は、与えられた部分構造の同値類から、頻出パターンの検出を行う(図7のステップA3)。
頻出パターン検出手段23は、検出した頻出パターンを出力装置3に出力する(図7のステップA4)。
図8は、図7のステップA2における、類似構造生成手段22の動作の詳細なフローチャートを示す図である。
図8を参照すると、類似構造生成手段22は、まず並列構文の構文構造と意味構造の違いに対応するための「並列の変形」を行う(図8のステップA2−1)。
次に、文構造全体だけではなく部分構造からもパターン検出を行うための「部分構造の生成」を行う(図8のステップA2−2)。
次に、係り受けの向きの差異に対応するための「有向枝の無向枝化」を行う(図8のステップA2−3)。
次に、同義語の差異に対応するための「同義語の置換」を行う(図8のステップA2−4)。
その係り受けの順序の違いに対応するための「順序木の無順序木化」を行う(図8のステップA2−5)。
最後に、類似構造を、生成元の部分構造の同値類の要素とすることで、「同値類の生成」を行う(図8のステップA2−6)。
以下、本発明の第1の実施の形態に係る装置の作用効果について説明する。
本実施の形態に係る装置は、類似構造生成手段22が生成した類似構造を、元の構造の同値類として扱い、頻出パターン検出を行うように構成されている。このため、連結構造は異なるが、類似した意味を持つ構造を、同一の構造と判定して、頻出パターンを検出できる。
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
図9を参照すると、本発明の第2の実施の形態に係る装置は、第1の実施の形態に係る装置と、データ処理装置4が、データ処理装置2の頻出パターン検出手段23の代わりに頻出類似パターン検出手段24を備えている以外は同じである。言語解析手段21、類似構造生成手段22は、前記第1の実施の形態のものと同一である。
本実施の形態において、頻出類似パターン検出手段24は、類似構造生成手段22から送出された部分構造の同値類の集合から、属性値の相違を無視しながら、頻出パターンの検出を行い、検出した頻出パターンを出力装置3に送出する。
図10は、本発明の第2の実施形態に係る装置の動作を説明するための流れ図である。次に、図9及び図10を参照して、本実施形態に係る装置の動作について詳細に説明する。本実施形態においては、図7のステップA3の代わりに、ステップB3が実行される。図10のステップA1、A2、A4で示される処理は、前記第1の実施の形態における処理と同一であるため、説明は省略する。
前記第1の発明の実施の形態では、頻出パターン検出手段23は、連結構造が同一でも属性値の異なる構造は同一と判定せずに、頻出パターンの検出を行っていた。
本実施の形態では、頻出類似パターン検出手段24は、類似構造生成手段22から与えられた同値類の集合を、連結構造が同一で属性値の異なる構造も同一な構造と判定しながら頻出パターンの検出を行い、検出された頻出パターンを出力装置3に送出する(図10のステップB3)。
次に、本発明の第2の実施形態に係る装置の作用効果について説明する。
本発明の第2の実施の形態では、頻出類似パターン検出手段24は、連結構造は同一で属性値の異なる構造も同一な構造と判定しながら頻出パターンの検出を行うように構成されている。このため、意味は類似しているが属性値の異なる構造も同一な構造と判定して頻出パターンの検出を行うことができる。
次に、本発明の第3の実施形態について図面を参照して詳細に説明する。
図11を参照すると、本発明の第3の実施の形態は、入力装置6を備え、データ処理装置5が類似構造生成調整手段25及び類似構造判定調整手段26を備えている以外は前記第2の実施の形態と同じである。
入力装置6は、使用者から、
・文構造の差異の種別ごとに同一構造と判定するか否かを指定するための入力と、
・属性値の種別ごとに値の差異を無視するか否かを指定するための入力と、
を受け付け、それぞれを、類似構造生成調整手段25と類似構造判定調整手段26に送出する。
入力装置6で受け付ける指定の入力の例としては、
・「使用者から文構造の差異の種別ごとに同一構造と判定するか否かと属性値の種別ごとに値の差異を無視するか否かについての指定項目」、
・「頻出パターン検出の際に同一パターンを持っていると判定しない文の例」、
・「頻出パターン検出の際に同一パターンを持っていると判定する文の例」
などが挙げられる。
類似構造生成調整手段25は、入力装置6から与えられた指定から、連結構造の差異の種別ごとに同一構造と判定するか否かを決定し、その指定項目を、類似構造生成手段22に送出する。
また、類似構造判定調整手段26は、入力装置6から与えられた指定から、属性値の種別ごとに値の差異を無視するか否かを決定し、その指定項目を、頻出類似パターン検出手段24に送出する。
類似構造生成手段22は、類似構造生成調整手段25からの指定に従って、言語解析手段21より与えられた集合中の各構造の部分構造について、該部分構造の類似構造の生成を行い、その結果、生成された各類似構造を、それぞれの生成元の部分構造の同値類とする。
頻出類似パターン検出手段24は、類似構造判定調整手段26からの指定に従って、属性値の差異の無視を行いながら、類似構造生成手段22より与えられた同値類の集合から頻出パターンの検出を行う。
図12は、本発明の第3の実施の形態に係る装置の動作を説明するための流れ図である。次に、図11及び図12のフローチャートを参照して本発明の第3の実施の形態に係る装置の動作について詳細に説明する。
最初に、言語解析手段21がテキストDB11からテキスト集合を読み込む。
言語解析手段21は、テキスト集合中の各テキストに対して解析を行い、解析結果として文構造を生成し、類似構造生成手段22に送出する(図12のステップA1)。図12のステップA1における言語解析手段21の動作は、前記第1の実施の形態における言語解析手段21と同一である。
次に、入力装置6が、使用者から文構造の差異の種別ごとに同一構造と判定するか否かを指定するための入力と、属性値の種別ごとに値の差異を無視するか否かを指定するための入力とを受け付け、それぞれ類似構造生成調整手段25と類似構造判定調整手段26に送出する(図12のステップC1)。
類似構造生成調整手段25は、入力装置6からの指定を受け、文構造の差異の種別ごとに同一構造と判定するか否かの指定項目を生成し、類似構造生成手段22に送出する。また、類似構造判定調整手段26は、入力装置6からの指定を受け、属性値の種別ごとに値の差異を無視するか否かの指定項目を生成し頻出類似パターン検出手段24に送出する(図12のステップC2)。
類似構造生成手段22は、類似構造生成調整手段25からの指定に従って、言語解析手段21より与えられた集合中の各文構造を構成する部分構造の類似構造の生成を行い、その結果、生成された各類似構造をそれぞれの生成元の部分構造の同値類とし、当該同値類の集合を頻出類似パターン検出手段24に送出する(図12のステップC3)。
頻出類似パターン検出手段24は、類似構造判定調整手段26からの指定に従って属性値の無視を行いながら、類似構造生成手段22より与えられた同値類の集合から頻出パターンの検出を行う(図12のステップC4)。
最後に、頻出類似パターン検出手段24は、検出した頻出パターンを出力装置3に出力する(図12のステップA4)。
図13は、図12のステップC3における、類似構造生成手段22の動作の詳細なフローチャートである。
図13を参照すると、類似構造生成手段22は、
ステップC3−1の判定において、並列の変形が指定されている場合、並列の変形(図13のステップA2−1)を行って部分構造の生成(図13のステップA2−2)を行い、並列の変形が指定されていない場合、ステップA2−2の処理へ移行する。並列の変形、部分構造の生成は、図8のステップA2−1、A2−2と同一である。
ステップC3−2の判定において、有向枝の無向枝化が指定されている場合、有向枝の無向枝化(図13のステップA2−3)を行い、指定されていない場合、ステップC3−3の処理に移行する。有向枝の無向枝化は、図8のステップA2−3と同一である。
ステップC3−3の判定において、同義語の置換が指定されている場合、同義語の置換(図13のステップA2−4)を行い、同義語の置換が指定されていない場合、ステップC3−4の処理に進む。同義語の置換は、図8のステップA2−4と同一である。
ステップC3−3の判定において、順序木の無順序木化が指定されている場合、順序木の無順序木化(図13のステップA2−5)を行い、指定されていない場合、ステップA2−6の処理に移行する。
ステップA2−6では、同値類を生成する。順序木の無順序木化、同値類を生成は、図8のステップA2−5、A2−6と同一である。
このように、本実施の形態では、並列の変形(図13のステップA2−1)、有向枝の無向枝化(図13のステップA2−3)、同義語の置換(図13のステップA2−4)、及び、順序木の無順序木化(図13のステップA2−5)が、類似構造生成調整手段25から与えられた指定により、実行の有無が制御される点で、図8に示した前記第1の実施の形態の類似構造生成手段22と相違している。
使用者は、出力されたパターンを参照して、ステップC1に戻りどこまで類似した構造を同一と判定するかを指定するための入力を再度行ったうえで本発明に頻出パターン検出を再度行わせることができる。
次に、本発明の第3の実施の形態に係る装置の作用効果について説明する。
本実施の形態では、類似構造生成調整手段と類似構造判定調整手段が使用者からの指定に基づきどこまで類似した構造を同一な構造と判定するかの調整を行うように構成されている。このため、使用者がどこまで類似した構造を同一な構造と判定して頻出パターン検出を行うかを調整できる。
次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。
図14を参照すると、本発明の第4の実施の形態に係る装置は、前記した第1、第2、第3の実施の形態をプログラムにより構成したものである。図14はこの場合に、そのプログラムにより動作されるコンピュータの構成を示す図である。
テキストマイニング用プログラム7は、データ処理装置8に読み込まれ、データ処理装置8の動作を制御する。データ処理装置8はテキストマイニング用プログラム7の制御により以下の処理、すなわち第1、第2及び第3の実施の形態におけるデータ処理装置2、4及び5による処理と同一の処理を実行する。
次に、本発明を具体的な実施例を即して詳細に説明する。
まず、本発明の第1の実施例について図面を参照して説明する。本発明の第1の実施例は前記第1の実施の形態の一具体例である。
本実施例における装置は、図6のデータ処理装置2をパーソナル・コンピュータで、記憶装置1を磁気ディスク記憶装置で、出力装置3としてディスプレイを備えて構成されている。
パーソナル・コンピュータ2は、言語解析手段21、類似構造生成手段22、頻出パターン検出手段23として機能する中央演算装置(CPU)を有している。磁気ディスク記憶装置には、テキストDB11としてテキスト集合が記憶されている。
図15は、テキスト集合の内容を示す図である。
言語解析手段21は、テキストDB11中の図15に示されるテキスト集合の各テキストに対して言語解析を行い、その結果、各テキストの文構造を得る(図7のステップA1)。
図16A〜図16Cに、それぞれ言語解析手段21で得られる文1〜文3の文構造を示す。
次に、類似構造生成手段22は、図16A〜図16Cに示される各文構造を構成する部分構造の全ての類似構造を生成し、その結果、生成された類似構造を生成元の部分構造の同値類とする(図7のステップA2)
本実施例では、図16Bに示される文2(「速く安い車種A」)の文構造から、部分構造の同値類を生成する様子を例にとって説明する。この例は、図18〜21に示されている。
類似構造生成手段22は、まず、図18に示すように、並列構造の変形を行い(図8のステップA2−1)、次に部分構造2a−0において、並列関係にある「速い」と「安い」の接続関係を変形し、類似構造2a−1を生成する。
類似構造生成手段22は、次に、図19に示すように、部分構造の生成を行い(図8のステップA2−2)、部分構造2a−0から、2単語の関係を表す部分構造2c−0及び2g−0と、1単語の部分構造2d−0、2e−0及び2f−0を生成する。
類似構造生成手段22は、また、類似構造2a−1から、部分構造2a−0に含まれない2単語の関係を表す部分構造2b−0を生成する。
なお、部分構造2a−0と類似構造2a−1の両方から生成される構造は1つにまとめて扱う。
また、ここで部分構造を生成するのに用いた部分構造2a−0、及び類似構造2a−1も、今後の類似構造生成において、部分構造及び類似構造として扱う。
次に、類似構造生成手段22は有向枝の無向枝化を行う(図8のステップA2−3)。この例においては、ステップA2−2において生成した部分構造の全ての有向枝が無向枝化され、新たな類似構造が生成される。図20Aに示すように、例えば部分構造2a−0の有向枝を無向枝化して、類似構造2a−2が生成される。なお、1単語からなり有向枝を持たない部分構造2d−0、2e−0及び2f−0は、ステップA2−3では変形が行われないため、図20A〜図20Eでは省略されている。
次に、同義語の置換が行われる(図8のステップA2−4)。本実施例における「同義語の置換」では、ユーザによりあらかじめ与えられた同義語辞書に定義された被置換語を代表語に置き換えるものとする。
また、本実施例に用いる同義語辞書は、図17に示されるように、被置換語「高速」を代表語「速い」に置き換える1つの辞書項目のみが登録された同義語辞書が指定されたものとしている。
この時点で生成された部分構造及び類似構造には、被置換語「高速」が含まれないため、ステップA2−4では、変形が発生しない。そのため、ここではステップA2−4による変形の図を省略している。
次に、順序木の無順序木化が行われる(図8のステップA2−5)。ここでは、文構造の木構造において、兄弟関係にある単語を50音順にソートすることによって、順序木の無順序木化を行う。
なお、順序木の無順序木化を行うための他の方法として、
・兄弟関係にある単語を50音順以外の一定の法則に従いソートする方法や、
・ソートを行わずに頻出類似パターン検出時に兄弟関係にある単語の順序だけが異なる木を同一と判定する方法を用いてもよい。
生成された部分構造及び類似構造では、類似構造2a−1及び2a−3(図20C)を除いた部分構造及び類似構造では兄弟関係になっている単語が存在しない。類似構造2a−1及び2a−3では、既に兄弟関係にある単語が50音順に並んでいる。このため、実質的に変形が発生しない。そのため、ここではステップA2−5による変形の図を省略している。
最後に、類似構造を生成元の部分構造の同値類とすることで、同値類の生成が行われる(図8のステップA2−6)。
図20A〜図20Eに示された部分構造及び類似構造の集合において、各類似構造を生成元の部分構造の同値類することで生成される同値類を図21に示す。部分構造2a−0と、部分構造2a−0の有向枝を無向枝化することで生成された類似構造2a−2と、部分構造2a−0を並列変形した類似構造2a−1と、類似構造2a−1の有向枝を無向枝化することで生成された類似構造2a−3とは同値類2aを構成している。
部分構造2b−0と、部分構造2b−0の有向枝を無向枝化することで生成された類似構造2b−1は、同値類2bを構成している。部分構造2c−0と、部分構造2c−0の有向枝を無向枝化することによって生成された類似構造2c−1は、同値類2cを構成している。部分構造2g−0と、部分構造2g−0の有向枝を無向枝化することによって生成された類似構造2g−1は、同値類2gを構成している。部分構造2d−0、2e−0、2f−0は、類似構造と部分構造は同一である。
図18〜図21に示したように、本実施例において、文2の文構造(図16B参照)から、類似構造生成手段22が同値類を生成する例においては、同義語の置換(図8のステップA2−4)及び順序木の無順序木化(図8のステップA2−5)で変形は行われない。
図22に示すように、文3の文構造(図16C参照)を構成する一の部分構造に対して、類似構造生成手段22による変形処理が行われる。以下、同義語の置換(図8のステップA2−4)及び順序木の無順序木化(図8のステップA2−5)で発生する変形の例を説明する。
まず文3の文構造を表す部分構造3a−0に対して並列の変形(図8のステップA2−1)が行われる。ここでは、部分構造3a−0が並列の構造を含まず変形が行われないため、図22には、並列の変形による結果の構造は含まれない。
次に、部分構造3a−0から部分構造の生成(図8のステップA2−2)が行われる。ここでは、部分構造3a−0に行われる構造変形にのみ注目して説明するため、部分構造3a−0から、他の部分構造を生成する処理である部分構造の生成は省略する。
次に、部分構造3a−0に対して、有向枝の無向枝化(図8のステップA2−3)が行われる。部分構造3a−0の「安い」から、「車種A」への有向枝と、「高速」から「車種A」への有向枝が無向枝化される。その結果、類似構造3a−1が生成される(図22:ステップA2−3)。
次に、類似構造3a−1に対して、同義語の置換(図8のステップA2−4)が行われる。ここでは、図17に示される同義語辞書を用いているため、被置換語「高速」が代表語「速い」に置き換えられる。類似構造3a−1に含まれる被置換語「高速」も代表語「速い」に置き換えられ、類似構造に変形される(図22:ステップA2−4)。
次に、類似構造3a−1に対して、順序木の無順序木化(図8のステップA2−5)が行われる。ここでは、兄弟関係にある単語を、50音順にソートすることで順序木の無順序木化が行われる。このため、類似構造3a−1において兄弟関係にある「安い」と「速い」の順序を入れ替え、50音順にソートにされ、類似構造に変換される(図22:ステップA2−5)。
このようにして生成された類似構造に対して同値類の生成(図8のステップA2−6)が行われる。尚、本実施例では、部分構造3a−0から生成される一つの類似構造3a−1に行われる変形のみに注目して説明しているためその説明を省略する。
このようにして、類似構造生成手段22が、部分構造と類似構造及び同値類の生成を行うことで、本実施例では、図16Aの文1の文構造から、図23に示すような同値類が生成される。図16Bの文2の文構造から、図24に示すような同値類が生成される。また図16Cの文3の文構造から、図25に示すような同値類が生成される。
ただし、本来は、図22における変形の途中経過(図22:ステップA2−3からステップA2−4における類似構造3a−1)のように、形の違う類似構造も生成されている。尚、説明を分かりやすくするため、頻出パターンの検出に用いられない構造は、図23〜図25の同値類からは省略している。
次に、頻出パターン検出手段23は、図23〜図25に示される同値類の集合から頻出パターン(頻出する同値類)の検出を行う(図7のステップA3)。
この際、頻出パターン検出手段23は、要素の少なくとも一つが同一である同値類は、同一と判定して、頻出パターンの検出を行う。
例えば、本実施例においては、図23の同値類1cの要素である類似構造1c−1と、図24の同値類2bの要素である類似構造2b−1は、どちらも「車種A」と「速い」が無向枝で連結された構造で、属性値の差分もないため、同一の構造である。
従って、頻出パターン検出手段23は、図23の同値類1cと図24の同値類2bを同一と判定する。
図23〜図25を参照すると、
「類似構造1c−1、類似構造2b−1と、類似構造3c−1」、
「部分構造1d−0、部分構造2d−0と、類似構造3e−1」、
「部分構造1e−0、部分構造2f−0と、部分構造3f−0」、
「部分構造1f−0と部分構造2e−0」
がそれぞれ同一の構造となっている。
「要素の少なくとも一つが同一である同値類は同一と判定する」という同値類の性質により、図23〜図25に示される同値類のうち、
「同値類1c、2b、及び、3c」、
「同値類1d、2d、及び、3e」、
「同値類1e、2f、及び、3f」、
「同値類1f、及び、2e」
がそれぞれ同一の同値類と判定される。
本実施例では、3回以上出現する同値類を頻出パターンとする。なお、どのような出現回数の同値類を頻出パターンとして検出するかは、使用者がテキストマイニングを実行する前に決定することができる。
この場合、
「同値類1c、2b、及び、3c」、
「同値類1d、2d、及び、3e」、
「同値類1e、2f、及び、3f」
が頻出パターンとして検出される。
最後に、そのようにして抽出された頻出パターンを表す構造を出力装置3に表示する(図7のステップA4)。
図26は、本実施例において、出力装置3が出力する頻出パターンの表現の一例を示す図である。本実施例では、頻出パターンを表す同値類の要素である類似構造を、頻出パターンの表現として用いている。
類似構造を生成し、同値類を生成して頻出パターンの検出を行うことによって、「部分構造1c−0(図23)、部分構造2b−0(図24)、及び、部分構造3c−0(図25)」のように類似した意味を持つが、連結構造の異なる部分構造を同一と判定し、頻出パターンとして検出することができる。
次に、本発明の第2の実施例について図面を参照して説明する。本実施例は、前記第2の実施の形態に対応するものである。
本実施例に係る装置は、データ処理装置4をパーソナル・コンピュータで、記憶装置1を磁気ディスク記憶装置で、出力装置3としてディスプレイを備えて構成されている。
パーソナル・コンピュータ4は、言語解析手段21、類似構造生成手段22、頻出類似パターン検出手段24として機能する中央演算装置(CPU)を有し、磁気ディスク記憶装置には、テキストDB11としてテキスト集合が記憶されている。テキスト集合としては、前記第1の実施例と同様、図15に示した文1〜文3を使用する。
言語解析手段21は、テキストDB11中の図15に示されるテキスト集合の各テキストに対して、言語解析を行い、各テキストの文構造を得る(図10のステップA1)。ここで得られる文構造は、前記第1の実施例と同様、図16A〜図16Cのようになる。
次に、類似構造生成手段22は、図16A〜図16Cに示される各文構造を構成する部分構造の全ての類似構造を生成し、その結果、生成された類似構造を生成元の部分構造の同値類とする(図10のステップA2)。ここで得られる同値類は、前記第1の実施例と同様、図23〜図25のようになる。
次に、頻出類似パターン検出手段24は、図23〜図25に示される同値類の集合から、属性値の差異を無視しながら頻出パターン(頻出する同値類)の検出を行う(図10のステップB3)。
頻出類似パターン検出手段24は、要素の少なくとも一つが同一である同値類は同一と判定して、頻出パターンの検出を行う。ただし、本実施例の頻出類似パターン検出手段24は、表層格や付属語情報などの属性値の差異を無視して、類似構造の同一性の判定を行っており、この点で、前記第1の実施例の頻出パターン検出手段23と相違している。
例えば、図23の類似構造1a−1と図24の類似構造2a−3は、どちらも、「車種A」と「速い」及び「安い」が無向枝で連結された構造である。しかし、表層格が異なるため、前記第1の実施例の頻出パターン検出手段23では、同一と判定されない。一方、本実施例の頻出類似パターン検出手段24では、同一と判定される。
本実施例においては、図23〜図25を参照すると、
「類似構造1a−1、類似構造2a−3、及び、類似構造3a−1」、
「類似構造1b−1、類似構造2c−1と、類似構造3b−1」、
「類似構造1c−1、類似構造2b−1、及び、類似構造3c−1」、
「部分構造1d−0、部分構造2d−0、及び、類似構造3e−1」、
「部分構造1e−0、部分構造2f−0、及び、部分構造3f−0」、
「部分構造1f−0、部分構造2e−0、及び、部分構造3d−0」
がそれぞれ頻出類似パターン検出手段24に同一の構造と判定される。
頻出類似パターン検出手段24は、要素の少なくとも一つが同一である同値類は同一と判定するため、
「同値類1a、2a、及び、3a」、
「同値類1b、2c、及び、3b」、
「同値類1c、2b、及び、3c」、
「同値類1d、2d、及び、3e」、
「同値類1e、2f、及び、3f」、
「同値類1f、2e、及び、3d」
をそれぞれ同一の同値類と判定する。
本実施例では、前記第1の実施例と同様に、3回以上出現する同値類を頻出パターンとする。この場合、
「同値類1a、2a、及び、3a」、
「同値類1b、2c、及び、3b」、
「同値類1c、2b、及び、3c」、
「同値類1d、2d、及び、3e」、
「同値類1e、2f、及び、3f」、
「同値類1f、2e、及び、3d」
が頻出パターンとして検出される。
最後に、そのようにして抽出された頻出パターンを表す構造を、出力装置3に表示する(図10のステップA4)。
本実施例において、出力装置3が出力する頻出パターンの表現は図27のようになる。本実施例では、前記第1の実施例と同様に、頻出パターンを表す同値類の要素である類似構造を、頻出パターンの表現として用いている。
このようにして、属性値の差異を無視して頻出パターンの検出を行うことによって、
「部分構造1b−0(図23)、部分構造2c−0(図24)と部分構造3b−0(図25)」、
「部分構造1f−0(図23)、部分構造2e−0(図24)と部分構造3f−0(図25)」
のように、類似した意味を持つが属性値の異なる部分構造を同一と判定し、頻出パターンとして、検出を行うことができる。
次に、本発明の第3の実施例について図面を参照して説明する。本実施例は、本発明の第3の実施の形態に対応するものである。
本実施例に係る装置は、データ処理装置5をパーソナル・コンピュータで、記憶装置1を磁気ディスク記憶装置で、出力装置3としてディスプレイを、入力装置6としてキーボードを備えて構成されている。
パーソナル・コンピュータ5は、言語解析手段21、類似構造生成手段22、頻出類似パターン検出手段24、類似構造生成調整手段25、類似構造判定調整手段26として機能する中央演算装置(CPU)を有している。磁気ディスク記憶装置には、テキストDB11としてテキスト集合が記憶されている。テキスト集合としては、前記第1、第2の実施例と同様、図15に示した文が用いられる。
言語解析装置21は、テキストDB11中の図15に示されるテキスト集合の各テキストに対して、言語解析を行い、各テキストの文構造を得る(図12のステップA1)。ここで得られる文構造は、前記第1、第2の実施例と同じく、図16A〜図16Cのようになる。
次に、使用者は、入力装置6を用いて、
・文構造の差異の種別ごとに同一構造と判定するか否かを指定するための入力と、
・属性値の種別ごとに値の差異を無視するか否かを指定するための入力
を行う(図12のステップC1)。
本実施例において、例えば
「連結構造の差異については、係り受けの向きの差異と係り受けの順序の差異は同一と判定し、同義語の置換による差異は同一と判定しない。属性値の差異については、付属語情報の差異と表層格の差異は同一と判定する」という入力を行ったとする。
入力装置6は、使用者から受け付けた入力を、類似構造生成調整手段25と類似構造判定調整手段26に送出する。
次に、類似構造生成調整手段25は、入力装置6から使用者の指定を受け取り、類似構造生成手段22の動作を制御する(図12のステップC2)。
本実施例においては、類似構造生成調整手段25は、入力装置6から、
「連結構造の差異については、係り受けの向きの差異と係り受けの順序の差異は同一と判定し、同義語の置換による差異は同一と判定しない。属性値の差異については、付属語情報の差異と表層格の差異は同一と判定する」
という指定を受け取ると、
類似構造生成手段22が行う、文構造の部分構造から類似構造を生成する際の変形処理、すなわち並列構造の変形(図13のステップA2−1)、有向枝の無向枝化(図13のステップA2−3)及び順序木の無順序木化(図13のステップA2−5)は行われる。しかし、類似構造生成調整手段25は、同義語の置換(図13のステップA2−4)がスキップされるように類似構造生成手段22の動作を制御する。
一方、類似構造判定調整手段26は、入力装置6から使用者の入力を受け取り、頻出類似パターン検出手段24の動作を制御する(図12のステップC2)。
本実施例においては、類似構造生成調整手段26は、入力装置6から、「連結構造の差異については、係り受けの向きの差異と係り受けの順序の差異は同一と判定し、同義語の置換による差異は同一と判定しない。
属性値の差異については、類似構造生成調整手段26は、付属語情報の差異と表層格の差異については同一と判定する」という指定を受け取り、頻出類似パターン検出手段24が類似構造の同一性判定の処理を、表層格の差異及び付属語情報の差異を無視して行うように制御する。
次に、類似構造生成手段22は、図16A〜図16Cに示される各文構造の部分構造についてステップC2で生成した指定項目に従い、同義語の置換(図13のステップA2−4)を飛ばして類似構造を生成し、その結果、生成された類似構造を生成元の部分構造の同値類とする(図12のステップC3)。
以下、図16Cに示される文3の文構造の一部分構造に対して、類似構造生成手段22が行う変形を例にとって説明する。図28に、その一例を示す。
まず、文3の文構造を表す部分構造3a−0に対して、並列の変形(図13のステップA2−1)が行われる。ただし、図28に示す例では、部分構造3a−0が並列の構造を含まず変形が行われないため、図28には、並列の変形による結果の構造は含まれない。
次に、部分構造3a−0から部分構造の生成(図13のステップA2−2)が行われる。尚、部分構造3a−0に行われる構造変形にのみ注目して説明するため、部分構造3a−0から他の部分構造を生成する処理である部分構造の生成は省略する。
次に、部分構造3a−0に対して有向枝の無向枝化(図13のステップA2−3)が行われる。部分構造3a−0の「安い」から「車種A」への有向枝と、「高速」から「車種A」への有向枝が無向枝化される。その結果、類似構造3a−2が生成される(図28のステップA2−3)。
同義語の置換(図13のステップA2−4)は、類似構造生成調整手段25より与えられた指定により、ステップC3−3の判定でスキップされるため、実行されない。
次に、類似構造3a−2に対して、順序木の無順序木化(図13のステップA2−5)が行われる。ここでは、兄弟関係にある単語を50音順にソートすることで、順序木の無順序木化が行われる。類似構造3a−2(図28のステップA2−3処理後における類似構造)において、兄弟関係にある単語「安い」と「高速」の順序を入れ替えるように、前記単語が50音順にソートされる。その結果、類似構造3a−2は図28のステップA2−5処理後における類似構造に変換される。
このようにして生成された類似構造に対して、同値類の生成(図13のステップA2−6)が行われる。尚、部分構造3a−0から生成される一つの類似構造3a−2に行われる変形のみに注目して説明しているため、省略する。
本実施例における変形では、同義語の置換(図13のステップA2−4)が飛ばされるため、図28のステップA2−5処理後における類似構造3a−2には、被置換語「高速」が残っている。一方、図22に示した前記第1、第2の実施例における変形の例、すなわちステップA2−5処理後における類似構造3a−1では、被置換語「高速」が代表語「速い」に置換されている。
本実施例では、このようにして、類似構造生成手段22が部分構造と類似構造及び同値類の生成を行うことで、図16Aに示される文1の文構造から、図23に示される同値類が生成され、図16Bに示される文2の文構造から、図24に示される同値類が生成され、図16Cに示される文3の文構造から図29に示される同値類が生成される。
次に、頻出類似パターン検出手段24は、図23、図24、及び図29に示される同値類の集合から、ステップC2で、類似構造判定調整手段26が指定した属性値の差異を無視しながら頻出パターンの検出を行う(図12のステップC4)。
頻出類似パターン検出手段24は、要素の少なくとも一つが同一である同値類は同一と判定して、頻出パターンの検出を行う。
本実施例においては、頻出類似パターン検出手段24は、類似構造判定調整手段26からの指定により、どの属性値の差異を無視して類似構造の同一性を判定するかを決定する。
本実施例では、
「表層格の差異を無視する」、
「付属語情報の差異を無視する」
と動作を制御するように類似構造判定調整手段26が指定を行ったため、頻出類似パターン検出手段24は、前記第2の実施例と同様に、類似構造の同一性の判定を行う。
本実施例においては、図23、図24、及び図29を参照すると、
「類似構造1a−1、及び、類似構造2a−3」、
「部分構造2c−0、及び、部分構造3b−0」、
「類似構造1b−1、類似構造2c−1、及び、類似構造3b−1」、
「部分構造1c−0、及び、類似構造2b−0」、
「類似構造1c−1、及び、類似構造2b−1」、
「部分構造1d−0、及び、部分構造2d−0」、
「部分構造1e−0、部分構造2f−0、及び、部分構造3f−0」、
「部分構造1f−0、部分構造2e−0、及び、部分構造3d−0」
がそれぞれ頻出類似パターン検出手段24に同一の構造と判定される。
頻出類似パターン検出手段24は、要素の少なくとも一つが同一である同値類は同一と判定するため、
「同値類1a、及び、2a」、
「同値類1b、2c、及び、3b」、
「同値類1c、及び、2b」、
「同値類1d、及び、2d」、
「同値類1e、2f、及び、3f」、
「同値類1f、2e、及び、3d」
をそれぞれ同一の同値類と判定する。
本実施例では、前記第1、第2の実施例と同様に、3回以上出現する同値類を頻出パターンとする。
この場合、
「同値類1b、2c、及び、3b」、
「同値類1e、2f、及び、3f」、
「同値類1f、2e、及び、3d」
が頻出パターンとして検出される。
最後に、このようにして抽出された頻出パターンを表す構造を、出力装置3に表示する(図12のステップA4)。
本実施例において、出力装置3が出力する頻出パターンの表現は、図30のようになる。図30に示すように、本実施例では、前記第1、第2の実施例と同様に、頻出パターンを表す同値類の要素である類似構造を頻出パターンの表現として用いている。
使用者は、この頻出パターン検出に不満を感じた場合、図12のステップC1に戻り、どこまで類似した構造を同一と判定するかの指定の入力を変更することで、再度頻出パターンの検出を行うことができる。
このようにして、
「同義語の置換による差異については同一と判定しない」
という使用者の指定に基づき、図23、図24、図29において、
「部分構造1a−0、部分構造2a−0、及び、部分構造3a−0」、
「部分構造1c−0、部分構造2b−0、及び、部分構造3c−0」、
「部分構造1d−0、部分構造2d−0、及び、部分構造3e−0」
といった類似した意味を持つが使用者の入力に反する構造を同一と判定せずに、頻出パターン検出行うことで、使用者がどこまで類似した構造を同一と判定するかの調整を行うことができる。
本発明によれば、連結構造は異なるが類似した意味を持つ構造を同一の構造と判定して頻出パターンを検出することができる。本発明によれば、属性値を持たない構造の集合に対して類似構造を同一と判定して頻出パターンの検出を行うことができる。
その理由は、本発明においては、生成した類似構造を元の構造の同値類として扱い、頻出パターン検出を行う構成としたためである。本発明によれば、属性値を持つ構造の集合に対しても類似構造を同一と判定して頻出パターンの検出を行うことができる。
また、本発明によれば、類似した意味を持つが異なる属性値を持つ構造を同一の構造と判定して頻出パターンを検出することができる。
その理由は、本発明においては、頻出類似パターン検出手段が属性値の差異を無視して頻出パターン検出を行うためである。
さらに本発明によれば、テキストマイニング装置の使用者がどこまで類似した構造を同一な構造と判定して頻出パターン検出を行うかを調整することができる。
その理由は、本発明においては、類似構造生成調整手段と類似構造判定調整手段が使用者からの入力に基づき、どこまで類似した構造を同一な構造と判定するかの調整を行う構成としたためである。
Claims (9)
- コンピュータによって実現されるテキストマイニング装置であって、
入力した文書を解析して文を構成する語や句の関係をグラフ構造で表現した文構造を作成する解析部と、
前記解析部から送られた前記文構造の部分グラフである部分構造に対して、前記文構造及び/又は部分構造について各句に対応する節点に接続されている枝を該句と文中で並列関係にある別の句に対応する節点にも接続する操作である並列変形、前記文構造及び/又は部分構造の有向枝の無向枝化、および前記文構造及び/又は部分構造における順序木の無順序木化の一つ以上の変換操作を行うことで、テキストマイニング中のパターンマッチにおいて前記部分構造と同一視されるグラフ構造である前記部分構造の同値類を生成する類似構造生成部と、
前記類似構造生成部から送られた各部分構造およびその同値類について、節点に付加された属性値の情報を無視した場合に同一の構造である同値類を持つ部分構造同士を同パターンとカウントして、より多くカウントされた部分構造を頻出パターンとして検出するパターン検出部と、
を備えていることを特徴とするテキストマイニング装置。 - 使用者からの入力により、前記パターン検出部が部分構造の同一性を判定する際に、部分構造の節点に付与される属性値の種類毎にパターンマッチを行う際にその属性値を無視するか否かの指定を受け付ける類似構造判定調整部を備え、
前記パターン検出部は、前記類似構造判定調整部から送られた使用者の指定内容に基づいて節点に付加された属性値の情報を無視して頻出パターンの検出を行うことを特徴とする請求項1に記載のテキストマイニング装置。 - 使用者からの入力により、前記類似構造生成部が文構造の部分構造の同一類を生成する際に、並列変形、有向枝の無向枝化、同義語の置換および順序木の無順序木化の各変換操作毎に実行するか否かの指定を受け付ける類似構造生成調整部を備え、
前記類似構造生成部は、前記類似構造生成調整部から送られた使用者の指定内容に基づいて文構造の部分構造に変換操作を行い、部分構造の同値類の生成を行うことを特徴とする請求項1又は2に記載のテキストマイニング装置。 - コンピュータによって実行されるテキストマイニング方法であって、
入力した文書を解析して文を構成する語や句の関係をグラフ構造で表現した文構造を作成する解析工程と、
前記解析工程で得られた前記文構造の部分グラフである部分構造に対して、前記文構造及び/又は部分構造について各句に対応する節点に接続されている枝を該句と文中で並列関係にある別の句に対応する節点にも接続する操作である並列変形、前記文構造及び/又は部分構造の有向枝の無向枝化、および前記文構造及び/又は部分構造における順序木の無順序木化の一つ以上の変換操作を行なうことで、テキストマイニング中のパターンマッチにおいて前記部分構造と同一視されるグラフ構造である前記部分構造の同値類を生成する類似構造生成工程と、
前記類似構造生成工程で得られた各部分構造およびその同値類について、節点に付加された属性値の情報を無視した場合に同一の構造である同値類を持つ部分構造同士を同パターンとカウントして、より多くカウントされた部分構造を頻出パターンとして検出するパターン検出工程と、
を含むことを特徴とするテキストマイニング方法。 - 使用者からの入力により、前記パターン検出工程において部分構造の同一性を判定する際に、部分構造の節点に付与される属性値の種類毎にパターンマッチを行う際にその属性値を無視するか否かの指定を受け付ける類似構造判定調整工程を含み、
前記パターン検出工程では、前記類似構造判定調整工程において使用者から受け付けた指定内容に基づいて節点に付加された属性値の情報を無視して頻出パターンの検出を行うことを特徴とする請求項4に記載のテキストマイニング方法。 - 使用者からの入力により、前記類似構造生成工程において並列変形、有向枝の無向枝化、同義語の置換および順序木の無順序木化の各変換操作毎に実行するか否かの指定を受け付ける類似構造生成調整工程を含み、
前記類似構造生成工程では、前記類似構造生成調整工程において使用者から受け付けた指定内容に基づいて文構造の部分構造に変換操作を行い、部分構造の同値類の生成を行うことを特徴とする請求項4又は5に記載のテキストマイニング方法。 - テキストマイニング装置を構成するコンピュータに、
入力した文書を解析して文を構成する語や句の関係をグラフ構造で表現した文構造を作成する解析処理と、
前記解析処理で得られた前記文構造の部分グラフである部分構造に対して、前記文構造及び/又は部分構造について各句に対応する節点に接続されている枝を該句と文中で並列関係にある別の句に対応する節点にも接続する操作である並列変形、前記文構造及び/又は部分構造の有向枝の無向枝化、および前記文構造及び/又は部分構造における順序木の無順序木化の一つ以上の変換操作を行なうことで、テキストマイニング中のパターンマッチにおいて前記部分構造と同一視されるグラフ構造である前記部分構造の同値類を生成する類似構造生成処理と、
前記類似構造生成処理で得られた各部分構造およびその同値類について、節点に付加された属性値の情報を無視した場合に同一の構造である同値類を持つ部分構造同士を同パターンとカウントして、より多くカウントされた部分構造を頻出パターンとして検出するパターン検出処理と、
を実行させるプログラム。 - 前記コンピュータに、使用者からの入力により、前記パターン検出処理において部分構造の同一性を判定する際に、部分構造の節点に付与される属性値の種類毎にパターンマッチを行う際にその属性値を無視するか否かの指定を受け付ける類似構造判定調整処理をさらに実行させ、
前記パターン検出処理では、前記コンピュータに、前記類似構造判定調整処理において使用者から受け付けた指定内容に基づいて節点に付加された属性値の情報を無視して頻出パターンの検出を行わせることを特徴とする請求項7に記載のプログラム。 - 前記コンピュータに、使用者からの入力により、前記類似構造生成処理において並列変形、有向枝の無向枝化、同義語の置換および順序木の無順序木化の各変換操作毎に実行するか否かの指定を受け付ける類似構造生成調整処理をさらに実行させ、
前記類似構造生成処理では、前記コンピュータに、前記類似構造生成調整処理において使用者から受け付けた指定内容に基づいて文構造の部分構造に変換操作を行い、部分構造の同値類の生成を行わせることを特徴とする請求項7又は8に記載のプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004079077 | 2004-03-18 | ||
JP2004079077 | 2004-03-18 | ||
PCT/JP2005/005440 WO2005091170A1 (ja) | 2004-03-18 | 2005-03-17 | テキストマイニング装置、その方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2005091170A1 JPWO2005091170A1 (ja) | 2008-02-07 |
JP4525936B2 true JP4525936B2 (ja) | 2010-08-18 |
Family
ID=34993905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006511325A Active JP4525936B2 (ja) | 2004-03-18 | 2005-03-17 | テキストマイニング装置、その方法及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US8612207B2 (ja) |
JP (1) | JP4525936B2 (ja) |
CN (1) | CN1934570B (ja) |
WO (1) | WO2005091170A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750282A (zh) * | 2011-04-19 | 2012-10-24 | 北京百度网讯科技有限公司 | 同义词模板的挖掘方法和装置以及同义词挖掘方法和装置 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8423348B2 (en) * | 2006-03-08 | 2013-04-16 | Trigent Software Ltd. | Pattern generation |
US9043197B1 (en) * | 2006-07-14 | 2015-05-26 | Google Inc. | Extracting information from unstructured text using generalized extraction patterns |
US8543381B2 (en) * | 2010-01-25 | 2013-09-24 | Holovisions LLC | Morphing text by splicing end-compatible segments |
US9135237B2 (en) * | 2011-07-13 | 2015-09-15 | Nuance Communications, Inc. | System and a method for generating semantically similar sentences for building a robust SLM |
WO2016035273A1 (ja) * | 2014-09-05 | 2016-03-10 | 日本電気株式会社 | テキスト処理システム、テキスト処理方法、及び、コンピュータ・プログラムが記録された記憶媒体 |
US9436676B1 (en) | 2014-11-25 | 2016-09-06 | Truthful Speaking, Inc. | Written word refinement system and method |
WO2017061027A1 (ja) * | 2015-10-09 | 2017-04-13 | 三菱電機株式会社 | 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム |
CN105912521A (zh) * | 2015-12-25 | 2016-08-31 | 乐视致新电子科技(天津)有限公司 | 一种解析语音内容的方法及装置 |
JP6794162B2 (ja) * | 2016-07-25 | 2020-12-02 | 株式会社Screenホールディングス | テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置 |
CN106503255B (zh) * | 2016-11-15 | 2020-05-12 | 科大讯飞股份有限公司 | 基于描述文本自动生成文章的方法及系统 |
CN107122340B (zh) * | 2017-03-30 | 2018-11-06 | 浙江省科技信息研究院 | 一种基于同义词分析的科技项目申报书的相似度检测方法 |
JP2022182212A (ja) * | 2021-05-27 | 2022-12-08 | 有限会社アクアプラネット | 記録整理プログラム、記録整理方法、記録整理装置、および、記録媒体 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04218872A (ja) * | 1990-12-19 | 1992-08-10 | Fujitsu Ltd | ネットワーク変形装置および作成装置 |
JPH10198697A (ja) * | 1997-01-14 | 1998-07-31 | Fuji Xerox Co Ltd | 構造化文書検索装置 |
JP2000076274A (ja) * | 1998-08-31 | 2000-03-14 | Internatl Business Mach Corp <Ibm> | 構文情報を用いた検索方法およびシステム |
JP2001134575A (ja) * | 1999-10-29 | 2001-05-18 | Internatl Business Mach Corp <Ibm> | 頻出パターン検出方法およびシステム |
JP2002014990A (ja) * | 2000-06-28 | 2002-01-18 | Communication Research Laboratory | 質問応答システム,質問応答処理方法,変形規則自動獲得処理方法およびそれらのプログラム記録媒体 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5111398A (en) * | 1988-11-21 | 1992-05-05 | Xerox Corporation | Processing natural language text using autonomous punctuational structure |
US5170349A (en) * | 1989-03-14 | 1992-12-08 | Canon Kabushiki Kaisha | Text processing apparatus using modification relation analysis |
JP3266246B2 (ja) * | 1990-06-15 | 2002-03-18 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 |
US6278967B1 (en) * | 1992-08-31 | 2001-08-21 | Logovista Corporation | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis |
US6339767B1 (en) * | 1997-06-02 | 2002-01-15 | Aurigin Systems, Inc. | Using hyperbolic trees to visualize data generated by patent-centric and group-oriented data processing |
US5799268A (en) * | 1994-09-28 | 1998-08-25 | Apple Computer, Inc. | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like |
US5960384A (en) * | 1997-09-03 | 1999-09-28 | Brash; Douglas E. | Method and device for parsing natural language sentences and other sequential symbolic expressions |
US6272455B1 (en) * | 1997-10-22 | 2001-08-07 | Lucent Technologies, Inc. | Method and apparatus for understanding natural language |
JP3353829B2 (ja) | 1999-08-26 | 2002-12-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 膨大な文書データからの知識抽出方法、その装置及び媒体 |
US6741988B1 (en) * | 2000-08-11 | 2004-05-25 | Attensity Corporation | Relational text index creation and searching |
US7051022B1 (en) * | 2000-12-19 | 2006-05-23 | Oracle International Corporation | Automated extension for generation of cross references in a knowledge base |
US7146308B2 (en) * | 2001-04-05 | 2006-12-05 | Dekang Lin | Discovery of inference rules from text |
GB2377046A (en) * | 2001-06-29 | 2002-12-31 | Ibm | Metadata generation |
US20030163537A1 (en) * | 2001-11-27 | 2003-08-28 | International Business Machines Corporation | Method and apparatus for handling conversation threads and message groupings as a single entity |
US20030204496A1 (en) * | 2002-04-29 | 2003-10-30 | X-Mine, Inc. | Inter-term relevance analysis for large libraries |
GB0215123D0 (en) * | 2002-06-28 | 2002-08-07 | Ibm | Method and apparatus for preparing a document to be read by a text-to-speech-r eader |
US20040064447A1 (en) * | 2002-09-27 | 2004-04-01 | Simske Steven J. | System and method for management of synonymic searching |
JP2004362223A (ja) * | 2003-06-04 | 2004-12-24 | Hitachi Ltd | 情報マイニングシステム |
-
2005
- 2005-03-17 CN CN200580008562XA patent/CN1934570B/zh active Active
- 2005-03-17 WO PCT/JP2005/005440 patent/WO2005091170A1/ja active Application Filing
- 2005-03-17 US US10/593,375 patent/US8612207B2/en active Active
- 2005-03-17 JP JP2006511325A patent/JP4525936B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04218872A (ja) * | 1990-12-19 | 1992-08-10 | Fujitsu Ltd | ネットワーク変形装置および作成装置 |
JPH10198697A (ja) * | 1997-01-14 | 1998-07-31 | Fuji Xerox Co Ltd | 構造化文書検索装置 |
JP2000076274A (ja) * | 1998-08-31 | 2000-03-14 | Internatl Business Mach Corp <Ibm> | 構文情報を用いた検索方法およびシステム |
JP2001134575A (ja) * | 1999-10-29 | 2001-05-18 | Internatl Business Mach Corp <Ibm> | 頻出パターン検出方法およびシステム |
JP2002014990A (ja) * | 2000-06-28 | 2002-01-18 | Communication Research Laboratory | 質問応答システム,質問応答処理方法,変形規則自動獲得処理方法およびそれらのプログラム記録媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750282A (zh) * | 2011-04-19 | 2012-10-24 | 北京百度网讯科技有限公司 | 同义词模板的挖掘方法和装置以及同义词挖掘方法和装置 |
CN102750282B (zh) * | 2011-04-19 | 2014-10-22 | 北京百度网讯科技有限公司 | 同义词模板的挖掘方法和装置以及同义词挖掘方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US8612207B2 (en) | 2013-12-17 |
CN1934570A (zh) | 2007-03-21 |
JPWO2005091170A1 (ja) | 2008-02-07 |
CN1934570B (zh) | 2012-05-16 |
US20070233458A1 (en) | 2007-10-04 |
WO2005091170A1 (ja) | 2005-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khan et al. | A novel natural language processing (NLP)–based machine translation model for English to Pakistan sign language translation | |
Zhang et al. | Automated information transformation for automated regulatory compliance checking in construction | |
Hagiwara | Real-world natural language processing: practical applications with deep learning | |
US20090024385A1 (en) | Semantic parser | |
JP4525936B2 (ja) | テキストマイニング装置、その方法及びプログラム | |
Ramisch et al. | mwetoolkit: A framework for multiword expression identification. | |
Graliński et al. | PSI-toolkit: A natural language processing pipeline | |
CN113343706A (zh) | 基于多模态特征和语义规则的文本抑郁倾向检测系统 | |
Zolotarev et al. | Conceptual business process structuring by extracting knowledge from natural language texts | |
Shafiq et al. | Abstractive text summarization of low-resourced languages using deep learning | |
Malik et al. | Named Entity Recognition on Software Requirements Specification Documents. | |
Ismail et al. | Extracting knowledge from English translated Quran using NLP pattern | |
CN110020024B (zh) | 一种科技文献中链接资源的分类方法、系统、设备 | |
CN113361252B (zh) | 基于多模态特征和情感词典的文本抑郁倾向检测系统 | |
JP2005228075A (ja) | 日常言語プログラム処理システム、その方法および修辞構造解析方法 | |
Setya et al. | Semi-supervised textual entailment on indonesian wikipedia data | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
Bhardwaj et al. | A machine learning approach to sentiment analysis on web based feedback | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
Dhivyashree et al. | A Combined Model of NLP with Business Process Modelling for Sentiment Analysis | |
Yashaswini et al. | Story telling: learning to visualize sentences through generated scenes | |
Sawant et al. | AI Model to Generate SQL Queries from Natural Language Instructions through Voice | |
Singh et al. | Review of extrinsic plagiarism detection techniques and their efficiency comparison | |
Colton | Text classification using Python | |
Rahma et al. | Automated Indonesian Text Augmentation with Web-Based Application Using Flask Framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100329 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100512 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130611 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4525936 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100525 |