JP5020274B2 - Semantic drift occurrence evaluation method and apparatus - Google Patents
Semantic drift occurrence evaluation method and apparatus Download PDFInfo
- Publication number
- JP5020274B2 JP5020274B2 JP2009041832A JP2009041832A JP5020274B2 JP 5020274 B2 JP5020274 B2 JP 5020274B2 JP 2009041832 A JP2009041832 A JP 2009041832A JP 2009041832 A JP2009041832 A JP 2009041832A JP 5020274 B2 JP5020274 B2 JP 5020274B2
- Authority
- JP
- Japan
- Prior art keywords
- instance
- related keyword
- semantic drift
- drift
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims description 62
- 238000000605 extraction Methods 0.000 claims description 75
- 239000013598 vector Substances 0.000 claims description 72
- 238000000034 method Methods 0.000 claims description 24
- 230000003252 repetitive effect Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 description 20
- 230000008569 process Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000011524 similarity measure Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、意味ドリフトの発生評価方法及び装置に関する。 The present invention relates to a semantic drift generation evaluation method and apparatus.
従来、人名、地名、組織名といった固有表現や、これらの関係に関する意味知識の獲得方法として、初期値であって所定のカテゴリに属する少量のシードインスタンスに基づいて同一カテゴリに属するインスタンスを抽出し、抽出されたインスタンスにより反復的にインスタンスを増やしていく方法であるブートストラップアルゴリズムが提案されている(例えば、非特許文献1)。ブートストラップアルゴリズムでは、一般的なテキスト文章から、インスタンスを抽出することが可能である。より具体的には、検索ログをインスタンスの獲得源とした場合に、検索ログに含まれる検索クエリを構成する複数の単語のうち、所定のカテゴリに属する単語をシードインスタンスとする。そして、シードインスタンスを含む検索クエリにおいて、シードインスタンス以外の文字列をパターンとして抽出し、抽出したパターンより、インスタンスを抽出する。そして、高い適合率で所定のカテゴリに属するインスタンスを獲得できるものには高い適合度を割り当て、無関係のインスタンスを獲得できるものには、低い適合度を割り当てる。そして、適合度の高い順にパターンを用いることにより、高い適合率でインスタンスを獲得する。さらに、上述のシードインスタンスからインスタンスを獲得する方法と同じ要領で、獲得したインスタンスからの新たなインスタンスを獲得する処理を反復して実行する。このように、ブートストラップアルゴリズムは、少量のシードインスタンスから、大量のインスタンスを獲得できるという利点がある。 Conventionally, as an acquisition method of specific knowledge such as a person name, place name, organization name, and semantic knowledge regarding these relationships, an instance belonging to the same category is extracted based on a small number of seed instances that are initial values and belong to a predetermined category, A bootstrap algorithm, which is a method of repeatedly increasing instances by extracted instances, has been proposed (for example, Non-Patent Document 1). In the bootstrap algorithm, an instance can be extracted from a general text sentence. More specifically, when a search log is used as an instance acquisition source, a word belonging to a predetermined category among a plurality of words constituting a search query included in the search log is set as a seed instance. Then, in the search query including the seed instance, a character string other than the seed instance is extracted as a pattern, and the instance is extracted from the extracted pattern. Then, a high fitness is assigned to those that can acquire instances belonging to a predetermined category with a high fitness, and a low fitness is assigned to those that can acquire irrelevant instances. Then, by using the patterns in descending order of the matching degree, the instances are acquired with a high matching ratio. Further, the process of acquiring a new instance from the acquired instance is repeatedly executed in the same manner as the method of acquiring an instance from the seed instance described above. Thus, the bootstrap algorithm has an advantage that a large number of instances can be obtained from a small amount of seed instances.
しかしながら、非特許文献1に記載の方法では、抽出されたパターンが、複数のカテゴリに出現するパターンであるジェネリックパターンである可能性がある。ジェネリックパターンは、所定のカテゴリ以外のカテゴリとも共起するパターンであることから、非特許文献1に記載の方法では、所定のカテゴリに属するシードインスタンスと関係のないインスタンスを獲得しうる。そして、シードインスタンスと関係のないインスタンスを一度獲得すると、所定のカテゴリと関係のないインスタンスと関連性の高いインスタンスを獲得するパターンを抽出して、獲得するインスタンスが所定のカテゴリと関連性の低いものに変わってしまう意味ドリフト(semantic drift)が発生しうる問題がある。さらに、ジェネリックパターンの有無に関わらず、複数のカテゴリに属しうる曖昧なインスタンスを獲得してしまう場合も、意味ドリフトが発生しうる。
However, in the method described in Non-Patent
本発明は、このような従来の問題点に鑑みて提案されたものであり、その目的は、意味ドリフトが発生していることを認知しうる評価方法及び装置を提供することにある。 The present invention has been proposed in view of such conventional problems, and an object thereof is to provide an evaluation method and apparatus capable of recognizing that a semantic drift has occurred.
本発明では、以下のような解決手段を提供する。 The present invention provides the following solutions.
(1) 所定のカテゴリに含まれるインスタンスをブートストラップアルゴリズムにより獲得する方法において該所定のカテゴリと関連性の高いインスタンスを検索ログを用いて取得する際に、カテゴリの意味が遷移する意味ドリフトの発生状態を評価する意味ドリフト発生評価方法であって、前記検索ログに基づいて、新たなインスタンスを抽出する第1の抽出ステップと、前記ブートストラップアルゴリズムにより、前記第1の抽出ステップにて抽出した新たなインスタンスを用いた前記第1の抽出ステップの実行を反復する際に、予め記憶されている関連キーワード辞書よりインスタンスの関連キーワードを抽出する第2の抽出ステップと、前記関連キーワードに割り当てた数値を要素とする関連キーワードベクトルを生成するステップと、各反復における関連キーワードベクトルに基づいて、各反復における意味ドリフトの程度を評価するステップとを備える意味ドリフト発生評価方法。 (1) Generation of semantic drift in which the meaning of a category transitions when an instance highly relevant to the predetermined category is acquired using a search log in a method of acquiring instances included in the predetermined category by a bootstrap algorithm A semantic drift occurrence evaluation method for evaluating a state, wherein a first extraction step of extracting a new instance based on the search log, and a new extraction extracted in the first extraction step by the bootstrap algorithm A second extraction step of extracting a related keyword of an instance from a pre-stored related keyword dictionary when repeating the execution of the first extraction step using a simple instance, and a numerical value assigned to the related keyword Step for generating related keyword vectors as elements If, based on the associated keyword vector at each iteration, it means drift occurs evaluation method comprising a step of evaluating the degree of meaning drift in each iteration.
(1)記載の意味ドリフト発生評価方法によれば、検索ログに基づいて、新たなインスタンスを抽出する第1の抽出処理を行う。そして、ブートストラップアルゴリズムにより、抽出したインスタンスを用いた第1の抽出処理の実行を反復する。そして、ブートストラップアルゴリズムにより新たなインスタンスの抽出の実行を反復する際に、予め記憶されている関連キーワード辞書よりインスタンスの関連キーワードを抽出する。そして、抽出した関連キーワードに対して割り当てた数値を要素とする関連キーワードベクトルを生成する。そして、各反復における関連キーワードベクトルに基づいて、各反復における意味ドリフトの程度を評価する。 According to the semantic drift occurrence evaluation method described in (1), the first extraction process for extracting a new instance is performed based on the search log. Then, the execution of the first extraction process using the extracted instance is repeated by the bootstrap algorithm. When the execution of new instance extraction is repeated by the bootstrap algorithm, the related keyword of the instance is extracted from the related keyword dictionary stored in advance. And the related keyword vector which makes the numerical value allocated with respect to the extracted related keyword an element is produced | generated. Then, the degree of semantic drift in each iteration is evaluated based on the related keyword vector in each iteration.
このような方法によれば、各反復における関連キーワードベクトルと該反復の直前における関連キーワードベクトルとについて各反復における意味ドリフトの程度を評価するので、評価内容に基づいて意味ドリフトが発生したことを認知できる。 According to such a method, since the degree of semantic drift in each iteration is evaluated for the related keyword vector in each iteration and the related keyword vector immediately before the iteration, it is recognized that the semantic drift has occurred based on the evaluation contents. it can.
(2) 前記意味ドリフトの程度を評価するステップは、前記各反復における関連キーワードベクトルと該反復の直前における関連キーワードベクトルとについてコサイン類似度を算出し、該コサイン類似度により意味ドリフトの程度を評価することを特徴とする(1)記載の意味ドリフト発生評価方法。 (2) In the step of evaluating the degree of semantic drift, a cosine similarity is calculated for the related keyword vector in each iteration and the related keyword vector immediately before the iteration, and the degree of semantic drift is evaluated based on the cosine similarity. The semantic drift generation evaluation method according to (1), characterized in that:
(2)記載の意味ドリフト発生評価方法によれば、各反復における関連キーワードベクトルと該反復の直前における関連キーワードベクトルとについてコサイン類似度を算出し、該コサイン類似度により意味ドリフトの程度を評価する。このようにすることで、各反復における関連キーワードベクトルが直前の反復からどれだけ関連キーワードが遷移したのかを計測することができる。 (2) According to the semantic drift occurrence evaluation method described in (2), the cosine similarity is calculated for the related keyword vector in each iteration and the related keyword vector immediately before the iteration, and the degree of semantic drift is evaluated based on the cosine similarity. . In this way, it is possible to measure how much the related keyword has transitioned from the previous iteration in the related keyword vector in each iteration.
(3) 前記意味ドリフトの程度を評価するステップは、前記各反復における関連キーワードベクトルと前記第1の抽出ステップにより前記新たなインスタンスを抽出するときの初期値であるシードインスタンスの関連キーワードベクトルとについてコサイン類似度を算出し、該コサイン類似度により意味ドリフトの程度を評価することを特徴とする(1)記載の意味ドリフト発生評価方法。 (3) The step of evaluating the degree of semantic drift includes a related keyword vector in each iteration and a related keyword vector of a seed instance that is an initial value when the new instance is extracted in the first extraction step. The cosine similarity is calculated, and the semantic drift occurrence evaluation method according to (1), wherein the degree of semantic drift is evaluated based on the cosine similarity.
(3)記載の意味ドリフト発生評価方法によれば、各反復における関連キーワードベクトルと前記第1の抽出ステップにより前記新たなインスタンスを抽出するときの初期値であるシードインスタンスの関連キーワードベクトルとについてコサイン類似度を算出し、該コサイン類似度により意味ドリフトの程度を評価する。このようにすることで、反復により抽出されたインスタンスの関連キーワードがシードインスタンスの関連キーワードからどの程度遷移したのかを計測することができる。 According to the semantic drift occurrence evaluation method described in (3), a cosine is used for a related keyword vector in each iteration and a related keyword vector of a seed instance that is an initial value when the new instance is extracted by the first extraction step. Similarity is calculated, and the degree of semantic drift is evaluated based on the cosine similarity. By doing in this way, it is possible to measure how much the related keyword of the instance extracted by repetition has shifted from the related keyword of the seed instance.
(4) 所定のカテゴリに含まれるインスタンスをブートストラップアルゴリズムにより獲得する方法において該所定のカテゴリと関連性の高いインスタンスを検索ログを用いて取得する際に、カテゴリの意味が遷移する意味ドリフトの発生状態を評価する意味ドリフト発生評価装置であって、前記検索ログに基づいて、新たなインスタンスを抽出するインスタンス抽出手段と、前記ブートストラップアルゴリズムにより、前記インスタンス抽出手段にて抽出した新たなインスタンスを用いた前記インスタンス抽出手段の実行を反復する反復実行制御手段と、予め記憶されている関連キーワード辞書よりインスタンスの関連キーワードを抽出する関連キーワード抽出手段と、前記関連キーワードに割り当てた数値を要素とする関連キーワードベクトルを生成するベクトル生成手段と、前記反復のそれぞれにおける関連キーワードベクトルに基づいて、該反復のそれぞれにおける意味ドリフトの程度を評価する意味ドリフト評価手段とを備える意味ドリフト発生評価装置。 (4) Generation of semantic drift in which the meaning of a category changes when an instance highly relevant to the predetermined category is acquired using a search log in a method of acquiring instances included in the predetermined category by a bootstrap algorithm A semantic drift occurrence evaluation device for evaluating a state, wherein an instance extraction unit for extracting a new instance based on the search log and a new instance extracted by the instance extraction unit by the bootstrap algorithm are used. Repetitive execution control means for repeating the execution of the instance extracting means, related keyword extracting means for extracting a related keyword of an instance from a pre-stored related keyword dictionary, and a relation having a numerical value assigned to the related keyword as an element keyword A vector generation means for generating a vector, based on the associated keyword vector in each of the iterations, the meaning drift generating evaluation device and a means drift evaluating means for evaluating the degree of meaning drift in each of the iterations.
このような構成によれば、当該装置を構築することにより、(1)と同様の効果が期待できる。 According to such a configuration, the same effect as in (1) can be expected by constructing the device.
本発明によれば、意味ドリフトが発生していることを認知しうる評価方法及び装置を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the evaluation method and apparatus which can recognize that the semantic drift has generate | occur | produced can be provided.
以下、本発明の実施形態について図を参照しながら説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[全体構成]
図1は、本実施形態に係る意味ドリフト発生評価装置1の構成例を示す図である。
[overall structure]
FIG. 1 is a diagram illustrating a configuration example of a semantic drift
意味ドリフト発生評価装置1は、所定のカテゴリに含まれるインスタンス(単語)をブートストラップアルゴリズムにより獲得する方法において、所定のカテゴリと関連性の高いインスタンスを検索ログを用いて取得する際に、所定のカテゴリと関連性の低いインスタンスを取得してしまう意味ドリフトの発生状態を評価する装置である。
The semantic drift
意味ドリフト発生評価装置1は、制御部10と、記憶部20と、表示部31と、操作部32とを備える。そして、制御部10は、インスタンス抽出部11と、反復実行制御部12と、関連キーワード抽出部13と、ベクトル生成部14と、意味ドリフト評価部15とから構成される。また、記憶部20は、検索ログデータベース(以下、データベースをDBという)21と、関連キーワード辞書DB22とを記憶する。
The semantic drift
インスタンス抽出部11は、検索ログDB21(後述の図2参照)を参照して、新たなインスタンスを抽出する。より具体的には、インスタンス抽出部11は、検索ログDB21より、指定されたインスタンス集合を構成するインスタンスが含まれている検索クエリを抽出する。指定されたインスタンス集合とは、意味ドリフト発生評価装置1により処理が開始された最初の時点ではシードインスタンスの集合であり、インスタンス抽出部11によりインスタンス集合が抽出された後は、インスタンス抽出部11により抽出されたインスタンス集合である。インスタンス抽出部11は、抽出した検索クエリより、当該インスタンス集合に含まれるインスタンス以外の単語をパターンとして抽出し、抽出したパターンにより構成されるパターン集合を生成する。そして、パターン集合に基づいて、検索ログDB21より当該パターン集合を構成するパターンが含まれる検索クエリを抽出する。そして、抽出した検索クエリより、当該パターン以外の単語をインスタンスとして抽出し、抽出したインスタンスにより構成されるインスタンス集合を生成する。また、パターン集合の生成時及びインスタンス集合の生成時に、それぞれパターンの信頼度及びインスタンスの信頼度を算出する。そして、信頼度の高いインスタンスの集合を所定のカテゴリに属する新たなインスタンス集合として抽出する。
The
パターンの信頼度及びインスタンスの信頼度について、より詳細に説明する。パターン集合P内のパターンpの信頼度をrπ(p)とし(πは下付き文字、以下同じ)、インスタンス集合I内のインスタンスiの信頼度をパターンの信頼度をrι(i)とすると(ιは下付き文字、以下同じ)、rπ(p)は、信頼性の高いパターンが信頼性の高いインスタンスと共起するという直観に基づき、
pmi(i,p)は、インスタンスiとパターンpとの相互情報量(PMI:pointwise mutual infomation)であり、max pmiは、パターン集合とインスタンス集合における最大の相互情報量である。pmi(i,p)は、
|i,p|は、インスタンスiとパターンpとが同時に検索された回数、すなわち、検索ログDB21に含まれるインスタンスi及びパターンpを含む検索クエリの数である。また、アスタリスクはワイルドカードである。
| I, p | is the number of times the instance i and the pattern p are simultaneously searched, that is, the number of search queries including the instance i and the pattern p included in the
インスタンスiの信頼度もパターンpの信頼度の算出方法と同様に、信頼度の高いインスタンスが信頼度の高いパターンと共起するものと定義され、
本実施形態では、数1及び数3に示される数式から確認できるように、rπ(p)とrι(i)とは再帰的に定義される。パターンの信頼度とインスタンスの信頼度は、インスタンス抽出部11により、パターン集合が生成される処理及びインスタンス集合が生成される処理との間で交互に算出される。
In the present embodiment, rπ (p) and rι (i) are recursively defined as can be confirmed from the mathematical formulas shown in
反復実行制御部12は、ブートストラップアルゴリズムにより、インスタンス抽出部11により新たに抽出されたインスタンス集合を用いたインスタンス抽出部11の反復実行を制御する。より具体的には、反復実行制御部12は、インスタンス抽出部11の処理回数をカウントし、意味ドリフト発生評価装置1の管理者が指定した回数に達したか否かを判別する。指定した回数に達していない場合には、インスタンス抽出部11によるインスタンスの抽出を反復実行させ、指定した回数に達した場合にはインスタンス抽出部11によるインスタンスの抽出を終了する。このようにインスタンスの抽出を反復実行させることにより、多量のインスタンスの抽出が可能になる。
The repetitive
関連キーワード抽出部13は、関連キーワード辞書DB22(後述の図3参照)を参照して、インスタンスの関連キーワードを抽出する。より具体的には、関連キーワード抽出部13は、関連キーワード辞書DB22を参照して、シードインスタンス又はインスタンス抽出部11により抽出されたインスタンスそれぞれの関連キーワードを1又は複数抽出する。シードインスタンスとは、意味ドリフト発生評価装置1において、インスタンスを取得するための初期値であって人手により定められるものであり、所定のカテゴリに属する。
The related
関連キーワード抽出部13により関連キーワードが抽出されるタイミングは2通りある。すなわち、インスタンスがシードインスタンスである場合には、意味ドリフト発生評価装置1において、インスタンス抽出部11による1回目のインスタンスの抽出がされる前に関連キーワードが抽出される。また、インスタンスがインスタンス抽出部11により抽出されたインスタンスである場合には、インスタンス抽出部11により新たなインスタンスが抽出された直後に関連キーワードが抽出される。
There are two timings at which the related
ベクトル生成部14は、関連キーワード抽出部13により抽出された関連キーワードに対して数値を割り当てて、割り当てた数値を要素とする関連キーワードベクトルを生成する。より具体的には、ベクトル生成部14は、インスタンス集合におけるそれぞれのインスタンスにおいて関連キーワード抽出部13により抽出された関連キーワードの数を算出する。そして、当該算出した関連キーワードの数で1を除算して得られた数値を、関連キーワードに割り当て、割り当てた数値を要素とする関連キーワードベクトルを生成する。そして、インスタンス集合に含まれている全てのインスタンスのキーワードベクトルを集計する。
The
例えば、インスタンス集合Aに含まれるインスタンスがX及びYの2つである場合に、Xの関連キーワードとして、a、b、c、dの4つが抽出され、Yの関連キーワードとして、a及びeの2つが抽出されたとする。そうすると、Xの関連キーワードのそれぞれに対して関連キーワードベクトルとして、1を4で除算した数である0.25が付与され、a(0.25)、b(0.25)、c(0.25)、d(0.25)となる。また、Yの関連キーワードのそれぞれに対して関連キーワードベクトルとして、1を2で除算した数である0.5が付与され、a(0.5)、e(0.5)となる。そして、インスタンス集合のキーワードベクトルは、インスタンスX及びYの関連キーワードベクトルを集計した結果、すなわち、a(0.75)、b(0.25)、c(0.25)、d(0.25)、e(0.5)となる。 For example, when there are two instances X and Y included in the instance set A, four keywords a, b, c, and d are extracted as related keywords of X, and a and e keywords are extracted as related keywords of Y. Assume that two are extracted. Then, 0.25 which is a number obtained by dividing 1 by 4 is assigned to each of the related keywords of X as a related keyword vector, and a (0.25), b (0.25), c (0. 25) and d (0.25). In addition, 0.5, which is a number obtained by dividing 1 by 2, is assigned to each of the related keywords of Y as a related keyword vector, which becomes a (0.5) and e (0.5). The keyword vector of the instance set is a result of aggregating related keyword vectors of the instances X and Y, that is, a (0.75), b (0.25), c (0.25), d (0.25). ), E (0.5).
意味ドリフト評価部15は、各反復において関連キーワードに付与された関連キーワードベクトルに基づいて、各反復における意味ドリフトの程度を評価する。より具体的には、意味ドリフト評価部15は、インスタンス抽出部11の反復実行後にベクトル生成部14により生成した関連キーワードベクトルと、当該反復実行の直前においてベクトル生成部14により生成した関連キーワードベクトルとについてコサイン類似度を算出する。ここで、コサイン類似度とは、ベクトル間のコサイン距離である。各反復実行において生成した関連キーワードベクトルをAとし、当該反復実行の直前における関連キーワードベクトルをBとすると、コサイン類似度sim(A,B)は、
例えば、ある反復において抽出されたインスタンス集合Aのキーワードベクトルが、a(0.75)、b(0.25)、c(0.25)、d(0.25)、e(0.5)であり、当該反復の直前のインスタンス集合Bのキーワードベクトルがa(0.33)、b(0.33)、c(0.33)であるとすると、差分類似度としてのコサイン類似度sim(A,B)は、数4の式に基づいて0.72と算出される。 For example, the keyword vector of the instance set A extracted in a certain iteration is a (0.75), b (0.25), c (0.25), d (0.25), e (0.5). If the keyword vector of the instance set B immediately before the iteration is a (0.33), b (0.33), and c (0.33), the cosine similarity sim ( A, B) is calculated as 0.72 based on the equation (4).
さらに、意味ドリフト評価部15は、インスタンス抽出部11の各反復実行においてベクトル生成部14により生成した関連キーワードベクトルと、シードインスタンスの集合においてベクトル生成部14により生成した関連キーワードベクトルとについてもコサイン類似度を算出する。この場合のコサイン類似度の数式は、数4に示される数式と同様である。このように、シードインスタンスのキーワードベクトル及びある反復におけるキーワードベクトルに基づいて算出されたコサイン類似度は、シード類似度と呼ばれる。
Further, the semantic
差分類似度及びシード類似度は、いずれも0以上1以下の値をとることとなる。差分類似度は、各反復における関連キーワードベクトルが直前の反復からどれだけ関連キーワードが遷移したのかを計測するものであり、極端に数値が低下した位置で関連キーワードの遷移、すなわち、所定のカテゴリと関連性の低いインスタンスを取得する意味ドリフトが発生していると考えられる。すなわち、関連キーワードが類似している場合には、反復の前後でキーワードベクトルの変化が小さいことから、コサイン類似度が1に近い値となる。また、関連キーワードが類似していない場合には、反復の前後でキーワードベクトルの変化が大きくなり、コサイン類似度が0に近い値となる。すなわち、インスタンス抽出部11の反復実行におけるコサイン類似度をモニタリングすることにより、キーワードベクトルが大きく変化したこと、すなわち、意味ドリフトが発生したことを認知しうる。
The difference similarity and the seed similarity both take values of 0 or more and 1 or less. The difference similarity measures how much the related keyword vector has transitioned from the previous iteration in the related keyword vector in each iteration, and the transition of the related keyword at a position where the numerical value is extremely lowered, that is, a predetermined category and It is considered that there is a semantic drift in acquiring instances that are not relevant. That is, when the related keywords are similar, the change in the keyword vector is small before and after the iteration, so that the cosine similarity is a value close to 1. If the related keywords are not similar, the keyword vector changes greatly before and after the iteration, and the cosine similarity becomes a value close to zero. That is, by monitoring the cosine similarity in the repeated execution of the
シード類似度は、反復により抽出されたインスタンスの関連キーワードがシードインスタンスの関連キーワードからどの程度遷移したのかを計測するものであり、シード類似度を導入することにより、シードインスタンスとシードインスタンスの関連キーワードに基づいて、インスタンス抽出部11の反復実行により抽出されたインスタンス集合の意味ドリフトの度合いについて評価を行うことができる。
The seed similarity measures how much the related keyword of the instance extracted by iteration has transitioned from the related keyword of the seed instance. By introducing the seed similarity, the related keyword of the seed instance and the seed instance is measured. Based on the above, the degree of semantic drift of the instance set extracted by the repeated execution of the
なお、本実施形態では、コサイン類似度を算出することにより各反復における意味ドリフトの程度を評価することとしたが、これに限らない。例えば、ユークリッド距離、カルバックル・ライブラー距離を算出することにより、各反復における意味ドリフトの程度を評価することとしてもよい。なお、この場合には、ベクトル生成部14で生成するベクトルを正規化する必要がある。ベクトルの正規化とは、生成した各々のベクトルについて、要素数で除算することをいう。
In the present embodiment, the degree of semantic drift in each iteration is evaluated by calculating the cosine similarity, but the present invention is not limited to this. For example, the degree of semantic drift in each iteration may be evaluated by calculating the Euclidean distance and the Calbuckle-Librer distance. In this case, it is necessary to normalize the vector generated by the
図2は、本実施形態に係る検索ログDB21を示す図である。検索ログDB21は、所定の検索エンジンより抽出した検索ログに含まれる検索クエリを記憶するものである。検索ログDB21には、検索ログを構成する第1の単語(インスタンス)を記憶する「インスタンス1」フィールドと、検索ログを構成する第2の単語(インスタンス)を記憶する「インスタンス2」フィールドとが含まれている。すなわち、本実施形態では、検索ログDB21に、2つの単語から構成される検索クエリをそれぞれの単語(インスタンス)に分割して格納している。検索ログDB21は、インスタンス抽出部11により、インスタンスを抽出するときに参照される。
FIG. 2 is a diagram showing the
なお、本実施形態では、検索ログDB21に2つの単語から構成される検索クエリのみを格納して、この検索クエリに基づいて新たなインスタンスを抽出することとしたが、これに限らない。例えば、検索ログDB21に、3つ以上の単語を含む検索クエリや形態素解析により分解された単語等を記憶させて、当該単語より新たなインスタンスを抽出することとしてもよい。このようにすることで、ソースデータが増加するので、様々なパターンを抽出することができる。
In the present embodiment, only the search query composed of two words is stored in the
図3は、本実施形態に係る関連キーワード辞書DB22を示す図である。関連キーワード辞書DB22は、インスタンスと、インスタンスに付与されている関連キーワードとを関連付けて記憶したDBであり、予め所定の辞書サイトより抽出されたインスタンス及び関連キーワードを記憶する。関連キーワード辞書DB22は、インスタンスを示す「インスタンス」フィールドと、インスタンスに付与されている関連キーワードを示す「関連キーワード」フィールドとが含まれている。関連キーワード辞書DB22は、関連キーワード抽出部13によりシードインスタンス又は新たに生成したインスタンスの関連キーワードを抽出するときに参照される。
FIG. 3 is a diagram showing the related
なお、本実施形態では、予め所定の辞書サイトよりインスタンス及び関連キーワードを抽出することとしたが、これに限らない。例えば、検索結果に含まれるスニペットから得たキーワードを用いることとしてもよい。ここで、スニペットとは、検索エンジンにおける検索結果ページに含まれるWebページの紹介文であり、検索クエリに関連するキーワードが含まれている可能性が高い要素である。すなわち、スニペットを分析して、検索クエリ(インスタンス)の関連キーワードを抽出し、検索クエリ及び抽出した関連キーワードを関連キーワードDB22に記憶させることとしてもよい。
In the present embodiment, the instance and the related keyword are extracted from a predetermined dictionary site in advance. However, the present invention is not limited to this. For example, a keyword obtained from a snippet included in the search result may be used. Here, a snippet is an introductory sentence of a Web page included in a search result page in a search engine, and is an element that is highly likely to contain a keyword related to a search query. That is, a snippet is analyzed, a related keyword of a search query (instance) is extracted, and the search query and the extracted related keyword may be stored in the
表示部31は、意味ドリフト発生評価装置1の機能に関する表示を行い、意味ドリフト発生評価装置1を操作する者に対して、それぞれの機能により出力された情報を視覚的に表示する。操作部32は、意味ドリフト発生評価装置1を操作する者からの直接的な入力を受け付ける。
The
[意味ドリフト発生評価装置のハードウェア構成]
図4は、本実施形態に係る意味ドリフト発生評価装置1のハードウェア構成を示す図である。本発明が実施される意味ドリフト発生評価装置1は標準的なものでよく、以下に構成の一例を示す。
[Hardware configuration of semantic drift generation evaluation device]
FIG. 4 is a diagram illustrating a hardware configuration of the semantic drift
意味ドリフト発生評価装置1は、制御部10を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F(I/F:インターフェイス)1040、メインメモリ1050、BIOS(Basic Input Output System)1060、表示装置1022、I/Oコントローラ1070、キーボード及びマウス等の入力装置1100、ハードディスク1074、光ディスクドライブ1076、並びに半導体メモリ1078を備える。なお、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078をまとめて記憶部20と呼ぶ。
The semantic drift
制御部10は、意味ドリフト発生評価装置1に係る各種機能を統括的に制御する部分であり、ハードディスク1074に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
The
通信I/F1040は、意味ドリフト発生評価装置1が、通信ネットワークを介して他のサーバ等と情報を送受信する場合のネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
The communication I /
メインメモリ1050は、CPU1010により各種プログラムを実行する際に生成されるデータを一時的に記憶する。BIOS1060は、意味ドリフト発生評価装置1の起動時にCPU1010が実行するブートプログラムや、意味ドリフト発生評価装置1のハードウェアに依存するプログラム等を記録する。
The
表示装置1022は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含み、表示部31として機能する。
The
I/Oコントローラ1070には、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078等の記憶装置である記憶部20を接続することができる。
The I /
入力装置1100は、意味ドリフト発生評価装置1の管理者による入力の受け付けを行うものであり、操作部32として機能する。
The
ハードディスク1074は、本ハードウェアを意味ドリフト発生評価装置1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び上述のDBを記憶する。なお、意味ドリフト発生評価装置1は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
The
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、ブルーレイディスク(Blu−ray Disc:登録商標)ドライブを使用することができる。光ディスクドライブ1076を使用する場合は、光ディスクドライブ1076に対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。
As the
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、意味ドリフト発生評価装置1は、上述のように、制御部10、記憶部20等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。
The computer in the present invention refers to an information processing device including a storage device, a control unit, and the like, and the semantic drift
また、意味ドリフト発生評価装置1は、ハードウェアの数に制限はなく、必要に応じて1又は複数のハードウェアで構成してよい。また、複数のハードウェアで構成する場合には、通信ネットワークを介して各ハードウェアを接続してもよい。例えば、各機能ごとに別サーバ(装置)とし、各サーバ間での信号の送受信により、各サーバを連携させることで、本実施形態の機能を実現してもよい。
The semantic drift
[処理フロー]
図5は、本実施形態に係る意味ドリフト発生評価装置1が行う処理の流れを示すフローチャートである。
[Processing flow]
FIG. 5 is a flowchart showing a flow of processing performed by the semantic drift
ステップS1では、制御部10(関連キーワード抽出部13)は、関連キーワード辞書DB22を参照して、シードインスタンスの関連キーワードを抽出する。
In step S1, the control unit 10 (related keyword extraction unit 13) refers to the related
ステップS2では、制御部10(ベクトル生成部14)は、ステップS1にて抽出された関連キーワードに対して、数値を割り当てて関連キーワードベクトルを生成する。より具体的には、ベクトル生成部14は、関連キーワード抽出部13により抽出されたインスタンス集合におけるそれぞれのインスタンスに対して抽出された関連キーワードの数を算出する。そして、当該関連キーワードの数で1を除算した数を、関連キーワードベクトルとして関連キーワードに付与する。そして、シードインスタンスの集合に含まれている全てのインスタンスのキーワードベクトルを集計する。
In step S2, the control unit 10 (vector generation unit 14) assigns a numerical value to the related keyword extracted in step S1 and generates a related keyword vector. More specifically, the
ステップS3では、制御部10(インスタンス抽出部11)は、検索ログDB21を参照して新たなインスタンスを抽出する。インスタンスの抽出については、図6で詳細に説明する。
In step S3, the control unit 10 (instance extraction unit 11) extracts a new instance with reference to the
ステップS4では、制御部10(関連キーワード抽出部13)は、関連キーワード辞書DB22を参照して、ステップS3にて抽出された新たなインスタンスの関連キーワードを抽出する。
In step S4, the control unit 10 (related keyword extraction unit 13) refers to the related
ステップS5では、制御部10(ベクトル生成部14)は、ステップS4にて抽出された関連キーワードに対して、数値を割り当てて関連キーワードベクトルを生成する。 In step S5, the control unit 10 (vector generation unit 14) assigns a numerical value to the related keyword extracted in step S4 and generates a related keyword vector.
ステップS6では、制御部10(意味ドリフト評価部15)は、各反復において関連キーワードに付与された関連キーワードベクトルに基づいて、コサイン類似度を算出して各反復における意味ドリフトの程度を評価する。 In step S6, the control unit 10 (the semantic drift evaluation unit 15) calculates the cosine similarity based on the related keyword vector assigned to the related keyword in each iteration, and evaluates the degree of the semantic drift in each iteration.
ステップS7では、制御部10(反復実行制御部12)は、インスタンス抽出部11の処理回数をカウントする。なお、処理回数のカウントは、意味ドリフト発生評価装置1において処理を開始するときに0にリセットされる。
In step S <b> 7, the control unit 10 (repetitive execution control unit 12) counts the number of processings of the
ステップS8では、制御部10(反復実行制御部12)は、処理を継続するか否かを判別する。より具体的には、ステップS7にてカウントしたインスタンス抽出部11の処理回数が意味ドリフト発生評価装置1の管理者が指定した回数に達したか否かを判別する。この判別結果がYESのときは処理を終了し、NOのときはステップS3に移る。
In step S8, the control unit 10 (repetitive execution control unit 12) determines whether or not to continue the process. More specifically, it is determined whether or not the number of processes of the
図6は、本実施形態に係る制御部10のインスタンス抽出部11におけるインスタンス抽出の処理の流れを示すフローチャートである。
FIG. 6 is a flowchart showing a flow of instance extraction processing in the
ステップS31では、制御部10(インスタンス抽出部11)は、検索ログDB21を参照して、指定されたインスタンス集合を構成するインスタンスを含む検索クエリを抽出する。ステップS32では、制御部10(インスタンス抽出部11)は、ステップS31にて抽出した検索クエリより、指定されたインスタンス集合に含まれるインスタンス以外の単語をパターンとして抽出し、抽出したパターンにより構成されるパターン集合を生成する。
In step S <b> 31, the control unit 10 (instance extraction unit 11) refers to the
ステップS33では、制御部10(インスタンス抽出部11)は、ステップS32にて生成されたパターン集合に含まれる全てのパターンについて、数式1に従って信頼度を算出する。ステップS34では、制御部10(インスタンス抽出部11)は、検索ログDB21を参照して、ステップS32にて生成されたパターン集合に含まれるパターンを含む検索クエリを抽出する。
In step S33, the control unit 10 (instance extraction unit 11) calculates the reliability according to
ステップS35では、制御部10(インスタンス抽出部11)は、ステップS34にて抽出した検索クエリより、ステップS32にて生成されたパターン集合に含まれるパターン以外の単語をインスタンスとして抽出し、抽出したインスタンスにより構成されるインスタンス集合を生成する。ステップS36では、制御部10(インスタンス抽出部11)は、ステップS35にて生成されたインスタンス集合に含まれる全てのインスタンスについて、数3に示される式に従って信頼度を算出する。
In step S35, the control unit 10 (instance extraction unit 11) extracts words other than the patterns included in the pattern set generated in step S32 as instances from the search query extracted in step S34, and extracts the extracted instances. An instance set composed of is generated. In step S36, the control unit 10 (instance extraction unit 11) calculates the reliability according to the equation shown in
ステップS37では、制御部10(インスタンス抽出部11)は、ステップS36にて算出された信頼度に基づいて、信頼度が高いインスタンスをインスタンス集合として抽出し、インスタンス抽出の処理を終了する。 In step S37, the control unit 10 (instance extraction unit 11) extracts instances having high reliability as an instance set based on the reliability calculated in step S36, and ends the instance extraction processing.
[実験結果]
続いて、本実施形態に係る意味ドリフト発生評価装置1において、反復実行制御部12によりインスタンスの生成を反復実行したときの、各反復における意味ドリフトの程度を評価したときの実験結果を示す。実験するに当たり、検索ログDB21に記憶するデータとして、Yahoo!(登録商標)検索の2008年8月分の検索ログのうち、空白文字で区切られた2つの単語で構成されたものを用いた。そして、関連キーワード辞書DB22に記憶するデータとして、Wikipedia(登録商標)の2008年7月24日版のダンプを使用した。
[Experimental result]
Subsequently, in the semantic drift
また、インスタンス抽出部11により生成されたインスタンス集合に含まれるインスタンスであって、信頼度が上位500位以内のインスタンスを、インスタンス抽出部11により新たに抽出されるインスタンスとした。また、インスタンスの信頼度の算出では、パターン集合に含まれる全てのパターンを用いた。また、インスタンス抽出処理の反復回数を50回とした。また、シードインスタンスとして、所定のカテゴリが「野球選手」である5人の野球選手の氏名を用いることとした。
In addition, instances that are included in the instance set generated by the
図7は、シード類似度及び差分類似度の実験結果を示す図である。縦軸は差分類似度及びシード類似度を示し、横軸は反復回数を示す。 FIG. 7 is a diagram illustrating experimental results of seed similarity and difference similarity. The vertical axis indicates the difference similarity and the seed similarity, and the horizontal axis indicates the number of iterations.
図7に示されるように、インスタンス抽出部11の5回目の反復実行後に意味ドリフト評価部15により算出された差分類似度及びシード類似度が、5回目の反復実行前に意味ドリフト評価部15により算出された差分類似度及びシード類似度に比べて、大きく低下していることが確認できる。5回目の反復実行において、入れ替わった236個のインスタンスの精査を行った結果、インスタンス抽出部11により新たに抽出されたインスタンスの中に野球選手が含まれていないこと、すなわち、意味ドリフトの発生を確認できた。したがって、本実施形態に示す意味ドリフト評価部15により、差分類似度を算出し、差分類似度の変化の度合いについて評価することにより意味ドリフトが発生していることを認知できる。
As shown in FIG. 7, the difference similarity and the seed similarity calculated by the semantic
また、シード類似度は、反復により抽出されたインスタンスの関連キーワードがシードインスタンスの関連キーワードからどの程度遷移したのかを計測するものであることから、5回目の反復において抽出されたインスタンスの関連キーワードがシードインスタンスの関連キーワードから大きく遷移したことが確認できる。したがって、意味ドリフト評価部15により、シード類似度を算出し、シード類似度の変化の度合いについて評価することによっても意味ドリフトが発生していることを認知できる。
In addition, since the seed similarity measures how much the related keyword of the instance extracted by the iteration has shifted from the related keyword of the seed instance, the related keyword of the instance extracted in the fifth iteration is determined. It can be confirmed that a significant transition has been made from the related keywords of the seed instance. Therefore, the semantic
以上、本発明の実施形態について説明したが、本発明は本実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。 The embodiment of the present invention has been described above, but the present invention is not limited to the present embodiment, and modifications, improvements, and the like within the scope that can achieve the object of the present invention are included in the present invention.
1 意味ドリフト発生評価装置
10 制御部
11 インスタンス抽出部
12 反復実行制御部
13 関連キーワード抽出部
14 ベクトル生成部
15 意味ドリフト評価部
21 検索ログDB
22 関連キーワード辞書DB
31 表示部
32 操作部
DESCRIPTION OF
22 Related keyword dictionary DB
31
Claims (4)
前記検索ログに基づいて、新たなインスタンスを抽出する第1の抽出ステップと、
前記ブートストラップアルゴリズムにより、前記第1の抽出ステップにて抽出した新たなインスタンスを用いた前記第1の抽出ステップの実行を反復する際に、
予め記憶されている関連キーワード辞書よりインスタンスの関連キーワードを抽出する第2の抽出ステップと、
前記関連キーワードに割り当てた数値を要素とする関連キーワードベクトルを生成するステップと、
各反復における関連キーワードベクトルに基づいて、各反復における意味ドリフトの程度を評価するステップとを備える意味ドリフト発生評価方法。 In the method of acquiring an instance included in a predetermined category by a bootstrap algorithm, when an instance highly relevant to the predetermined category is acquired using a search log, an occurrence state of a semantic drift in which the meaning of the category changes is evaluated. Meaning drift generation evaluation method
A first extraction step of extracting a new instance based on the search log;
When repeating the execution of the first extraction step using the new instance extracted in the first extraction step by the bootstrap algorithm,
A second extraction step of extracting a related keyword of the instance from a related keyword dictionary stored in advance;
Generating a related keyword vector whose elements are numerical values assigned to the related keywords;
A semantic drift generation evaluation method comprising: evaluating a degree of semantic drift in each iteration based on a related keyword vector in each iteration.
前記検索ログに基づいて、新たなインスタンスを抽出するインスタンス抽出手段と、
前記ブートストラップアルゴリズムにより、前記インスタンス抽出手段にて抽出した新たなインスタンスを用いた前記インスタンス抽出手段の実行を反復する反復実行制御手段と、
予め記憶されている関連キーワード辞書よりインスタンスの関連キーワードを抽出する関連キーワード抽出手段と、
前記関連キーワードに割り当てた数値を要素とする関連キーワードベクトルを生成するベクトル生成手段と、
前記反復のそれぞれにおける関連キーワードベクトルに基づいて、該反復のそれぞれにおける意味ドリフトの程度を評価する意味ドリフト評価手段とを備える意味ドリフト発生評価装置。 In the method of acquiring an instance included in a predetermined category by a bootstrap algorithm, when an instance highly relevant to the predetermined category is acquired using a search log, an occurrence state of a semantic drift in which the meaning of the category changes is evaluated. Meaning drift generation evaluation device
An instance extracting means for extracting a new instance based on the search log;
Repetitive execution control means for repeating the execution of the instance extraction means using the new instance extracted by the instance extraction means by the bootstrap algorithm;
Related keyword extraction means for extracting a related keyword of an instance from a pre-stored related keyword dictionary;
Vector generation means for generating a related keyword vector whose elements are numerical values assigned to the related keywords;
A semantic drift generation evaluation device comprising semantic drift evaluation means for evaluating the degree of semantic drift in each of the iterations based on the related keyword vector in each of the iterations.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009041832A JP5020274B2 (en) | 2009-02-25 | 2009-02-25 | Semantic drift occurrence evaluation method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009041832A JP5020274B2 (en) | 2009-02-25 | 2009-02-25 | Semantic drift occurrence evaluation method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010198269A JP2010198269A (en) | 2010-09-09 |
JP5020274B2 true JP5020274B2 (en) | 2012-09-05 |
Family
ID=42822940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009041832A Active JP5020274B2 (en) | 2009-02-25 | 2009-02-25 | Semantic drift occurrence evaluation method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5020274B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5043209B2 (en) | 2011-03-04 | 2012-10-10 | 楽天株式会社 | Collective expansion processing device, collective expansion processing method, program, and recording medium |
JP7006402B2 (en) * | 2018-03-14 | 2022-01-24 | 富士通株式会社 | Clustering program, clustering method and clustering device |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092253A (en) * | 2003-09-11 | 2005-04-07 | Fuji Xerox Co Ltd | System and method for generating data for machine learning, system and method for generating pair of similar documents and computer program |
-
2009
- 2009-02-25 JP JP2009041832A patent/JP5020274B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010198269A (en) | 2010-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240411796A1 (en) | Systems and methods for semantic concept definition and semantic concept relationship synthesis utilizing existing domain definitions | |
Chen et al. | Mining likely analogical apis across third-party libraries via large-scale unsupervised api semantics embedding | |
US9558264B2 (en) | Identifying and displaying relationships between candidate answers | |
JP4878624B2 (en) | Document processing apparatus and document processing method | |
JP2013541754A (en) | Method and arrangement for handling data sets, data processing program and computer program product | |
KR20120135218A (en) | Matching metadata sources using rules characterizing matches | |
CN105528416B (en) | A kind of monitoring method and system of network upgrade content | |
CN107391682B (en) | Knowledge verification method, knowledge verification device, and storage medium | |
JP2021193617A (en) | Medical data verification method, device and electronic apparatus | |
WO2016130542A1 (en) | Code relatives detection | |
Li et al. | Extracting statistical graph features for accurate and efficient time series classification | |
Berghe et al. | Retrieving taxa names from large biodiversity data collections using a flexible matching workflow | |
Alarte et al. | What web template extractor should I use? A benchmarking and comparison for five template extractors | |
Chen et al. | LinkingPark: An automatic semantic table interpretation system | |
JP5020274B2 (en) | Semantic drift occurrence evaluation method and apparatus | |
Sailaja et al. | An overview of pre-processing text clustering methods | |
Yang et al. | Simclone: detecting tabular data clones using value similarity | |
Velloso et al. | Extracting records from the web using a signal processing approach | |
CN111639161A (en) | System information processing method, apparatus, computer system and medium | |
Yuan et al. | PVE: A log parsing method based on VAE using embedding vectors | |
US20230100418A1 (en) | Metadata-driven data ingestion | |
Yang et al. | Evaluation and assessment of machine learning based user story grouping: A framework and empirical studies | |
Sharma et al. | A probabilistic approach to apriori algorithm | |
CN114936139A (en) | Log processing method, device, equipment and storage medium in data center network | |
Haas | Protocol to discover machine-readable entities of the ecosystem management actions taxonomy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120521 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120605 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120612 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5020274 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150622 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |