JP2006202118A - Attribute evaluation apparatus, method and program - Google Patents
Attribute evaluation apparatus, method and program Download PDFInfo
- Publication number
- JP2006202118A JP2006202118A JP2005014263A JP2005014263A JP2006202118A JP 2006202118 A JP2006202118 A JP 2006202118A JP 2005014263 A JP2005014263 A JP 2005014263A JP 2005014263 A JP2005014263 A JP 2005014263A JP 2006202118 A JP2006202118 A JP 2006202118A
- Authority
- JP
- Japan
- Prior art keywords
- content
- information
- attribute
- vector
- attribute evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 122
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 262
- 238000012854 evaluation process Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 description 33
- 238000012986 modification Methods 0.000 description 27
- 230000004048 modification Effects 0.000 description 27
- 238000003058 natural language processing Methods 0.000 description 15
- 230000000877 morphologic effect Effects 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この発明は、コンテンツに係る情報を基にして当該コンテンツに係る属性を評価する属性評価装置、属性評価方法および属性評価プログラムに関し、特に、柔軟に、効率的に、正確に、また、動的にコンテンツに係る属性を評価することができる属性評価装置、属性評価方法および属性評価プログラムに関する。 The present invention relates to an attribute evaluation apparatus, an attribute evaluation method, and an attribute evaluation program that evaluate an attribute related to content based on information related to the content, and in particular, flexibly, efficiently, accurately, and dynamically. The present invention relates to an attribute evaluation apparatus, an attribute evaluation method, and an attribute evaluation program that can evaluate attributes related to content.
従来、インターネットなどのインタラクティブなメディアにおいて、ユーザによりアクセスされるコンテンツの属性を評価することがおこなわれている。コンテンツの属性とは、コンテンツの内容により分類されたコンテンツのカテゴリーなどである。 Conventionally, in interactive media such as the Internet, an attribute of content accessed by a user is evaluated. The content attribute is a content category classified by the content content.
コンテンツの属性の評価は、インターネットで公開されているコンテンツにインターネット広告を配信する場合などに特に重要となる。すなわち、コンテンツの属性が「スポーツ」である場合には、「スポーツ」に関連したインターネット広告を配信すると効果的であるため、精度よく客観的に属性を判定することが必要とされている。 Evaluation of content attributes is particularly important when an Internet advertisement is distributed to content published on the Internet. That is, when the content attribute is “sports”, it is effective to distribute Internet advertisements related to “sports”, and therefore it is necessary to accurately and objectively determine the attributes.
コンテンツの属性の評価方法には、コンテンツの内容を人がひとつひとつ閲覧し、コンテンツの内容からコンテンツの属性を判定するものがある(たとえば、非特許文献1を参照)。そして、コンテンツが複数の属性を有すると考えられる場合には、複数の属性をコンテンツに割り当てる。 As a content attribute evaluation method, there is a method in which a person browses the content contents one by one and determines the content attributes from the content contents (see, for example, Non-Patent Document 1). If the content is considered to have a plurality of attributes, the plurality of attributes are assigned to the content.
たとえば、コンテンツの内容が「スポーツニュース」に関するものである場合には、そのコンテンツは「スポーツ」という属性と「ニュース」という属性との両方を有すると判定され、当該コンテンツに両方の属性を割り当てる。 For example, when the content is related to “sports news”, it is determined that the content has both an attribute “sport” and an attribute “news”, and both attributes are assigned to the content.
ただし、この方法では、人が主観的にコンテンツの属性を評価しているため、コンテンツの属性を正確、客観的かつ効率的に評価することが難しいという問題がある。 However, this method has a problem that it is difficult to evaluate content attributes accurately, objectively, and efficiently because people subjectively evaluate content attributes.
たとえば、コンテンツの内容が「スポーツニュース」である場合には、コンテンツの属性が「スポーツ」という属性と「ニュース」という属性との両方であると評価する例を挙げたが、人によっては「ニュース」という属性だけに限定したり、あるいは、「メディア」という属性をさらに付与したりすることもありうる。 For example, when the content of the content is “sports news”, an example is given in which the content attributes are both “sports” and “news” attributes. It is possible to limit only to the attribute “”, or to further add the attribute “media”.
このように、人が主観的にコンテンツの属性を評価する場合に、評価が一定しないため、評価された属性をインターネット広告の配信などに用いることが難しかった。 As described above, when a person subjectively evaluates an attribute of a content, the evaluation is not constant. Therefore, it is difficult to use the evaluated attribute for distribution of an Internet advertisement or the like.
そのため、コンテンツに含まれるテキストからテキストマイニングにより抽出されたキーワードや、語句の出現頻度、フォントサイズ、ウェブサイトのリンク構造などの要因を考慮してコンテンツの属性を客観的に評価し、属性に関連するインターネット広告を当該コンテンツを掲載しているウェブサイトに配信する方法も開発されている(たとえば、非特許文献2を参照。)。 Therefore, the content attributes are objectively evaluated in consideration of factors such as keywords extracted from text contained in the content by text mining, the appearance frequency of phrases, font size, website link structure, etc. A method for distributing an Internet advertisement to be distributed to a website on which the content is posted has also been developed (see, for example, Non-Patent Document 2).
しかしながら、上述した特許文献2に代表される従来技術では、コンテンツの属性を柔軟に決定することが難しいという問題があった。すなわち、コンテンツの属性の分類は、言語や文化の変遷とともに変化していくものであるが、コンテンツから抽出したキーワードなどにより属性を決定する方法では、その変化に対応することが難しいという問題があった。
However, the conventional technique represented by
たとえば、インターネット広告の配信を依頼する広告主には、「スポーツ」や「ニュース」などのように直接的に表現された属性だけでなく、「ぬくもりのある」や「シャープな」、「ほのぼのとした」、「あたたかみのある」など、生活シーンに応じた感覚的に表現された属性にコンテンツを分類し、それに関連する広告を配信したいというニーズが近年生まれてきている。 For example, advertisers requesting distribution of Internet advertisements are not only directly represented attributes such as “sports” and “news”, but also “warmth”, “sharp”, In recent years, there has been a need to classify content into attributes that are expressed sensuously according to the life scene, such as “warming” and “warm”, and to distribute related advertisements.
このような場合に、コンテンツに含まれるテキストからキーワードを抽出したりするだけでは、広告主が望む上述したような属性にコンテンツを分類することが容易ではなく、コンテンツの属性評価を柔軟かつ動的におこなうことが難しいという問題があった。 In such a case, it is not easy to classify the content into the above-described attributes desired by the advertiser simply by extracting keywords from the text included in the content, and the attribute evaluation of the content is flexible and dynamic. There was a problem that it was difficult to do.
そのため、コンテンツの属性をいかに柔軟に、効率的に、正確に、また、動的に評価することができるかが、インターネット広告の広告効果を高めるために非常に重要な課題となってきている。 Therefore, how to flexibly, efficiently, accurately, and dynamically evaluate content attributes has become a very important issue in order to increase the advertising effectiveness of Internet advertising.
本発明は、上述した従来技術による問題点を解消するためになされたものであり、柔軟に、効率的に、正確に、また、動的にコンテンツに係る属性を評価することができる属性評価装置、属性評価方法および属性評価プログラムを提供することを目的とする。 The present invention has been made to solve the above-described problems caused by the prior art, and is an attribute evaluation apparatus capable of flexibly, efficiently, accurately and dynamically evaluating attributes relating to content. It is an object to provide an attribute evaluation method and an attribute evaluation program.
上述した課題を解決し、目的を達成するため、本発明は、コンテンツに係る情報を基にして当該コンテンツに係る属性を評価する属性評価装置であって、前記コンテンツに係る属性の各候補に対応付けられた互いに直交するベクトルを基底とし、かつ、前記コンテンツに係る情報のベクトル空間内での位置を表すベクトルに係る情報を生成するベクトル情報生成手段と、前記ベクトル情報生成手段により生成された情報に基づいて前記コンテンツに係る属性を評価する属性評価手段と、を備えたことを特徴とする。 In order to solve the above-described problems and achieve the object, the present invention is an attribute evaluation apparatus that evaluates an attribute related to content based on information related to the content, and corresponds to each attribute candidate related to the content Vector information generating means for generating information related to a vector representing a position in a vector space of the information related to the content based on the orthogonal vectors attached to each other, and information generated by the vector information generating means And an attribute evaluation unit that evaluates an attribute related to the content based on the content.
また、本発明は、上記発明において、コンテンツに係る情報とコンテンツに係る属性の候補の情報とを対応付けて記憶したデータベースをさらに備え、前記ベクトル情報生成手段は、前記コンテンツに係る情報を検索キーとしてコンテンツに係る属性の候補の情報を前記データベースから検索し、検索の結果得られた前記コンテンツに係る属性の候補の情報を基にして、前記ベクトルに係る情報を生成することを特徴とする。 Further, the present invention, in the above invention, further comprises a database that stores information related to the content and information of candidate attributes related to the content in association with each other, and the vector information generation means searches the information related to the content with a search key. And searching for information on attribute candidates related to content from the database, and generating information related to the vector based on information on candidate attributes related to the content obtained as a result of the search.
また、本発明は、上記発明において、前記データベースは、コンテンツに係る情報とコンテンツに係る属性の候補との間の異なる組み合わせを複数記憶し、前記ベクトル情報生成手段は、複数の組み合わせのうち指定された組み合わせにおけるコンテンツに係る属性の候補の情報を検索し、検索の結果得られた前記コンテンツに係る属性の候補の情報を基にして、前記ベクトルに係る情報を生成することを特徴とする。 Also, in the present invention according to the above invention, the database stores a plurality of different combinations between the information related to the content and the attribute candidates related to the content, and the vector information generating means is designated from the plurality of combinations. Information on attribute candidates related to the content in the combination is searched, and information related to the vector is generated based on the information on the attribute candidates related to the content obtained as a result of the search.
また、本発明は、上記発明において、前記データベースは、コンテンツに係る属性の各候補の重みに係る情報をさらに記憶し、前記ベクトル情報生成手段は、前記コンテンツに係る属性の候補の情報および前記重みに係る情報を前記データベースから読み出し、読み出した情報に基づいて前記ベクトルに係る情報を生成することを特徴とする。 Also, in the present invention according to the above-mentioned invention, the database further stores information related to the weight of each candidate for the attribute related to the content, and the vector information generating means includes information about the candidate attribute for the content and the weight The information concerning is read from the database, and the information concerning the vector is generated based on the read information.
また、本発明は、上記発明において、前記属性評価手段は、所定のコンテンツに対してコンテンツに係る複数の属性と、各属性の優先度とを評価することを特徴とする。 Further, the present invention is characterized in that, in the above-mentioned invention, the attribute evaluation means evaluates a plurality of attributes related to the content and a priority of each attribute with respect to a predetermined content.
また、本発明は、上記発明において、前記属性評価手段は、前記コンテンツに係る情報の出現頻度に基づいて、前記ベクトルに係る情報の重みを設定し、設定した重みに基づいて前記コンテンツに係る属性を評価することを特徴とする。 Also, in the present invention according to the above invention, the attribute evaluation unit sets a weight of information related to the vector based on an appearance frequency of the information related to the content, and attributes related to the content based on the set weight. It is characterized by evaluating.
また、本発明は、上記発明において、前記ベクトル情報生成手段は、コンテンツに係る属性の候補の数が増加した場合に、当該候補の数の増加に応じて次元が増加したベクトル空間における前記ベクトルに係る情報を生成することを特徴とする。 Also, in the present invention according to the above invention, when the number of attribute candidates related to the content increases, the vector information generation unit adds the vector in the vector space whose dimension increases as the number of candidates increases. Such information is generated.
また、本発明は、上記発明において、前記コンテンツに係る情報は、コンテンツの内容に係る情報を含んだメタデータまたは当該コンテンツから抽出された情報であることを特徴とする。 Also, the present invention is characterized in that, in the above invention, the information relating to the content is metadata including information relating to the content of the content or information extracted from the content.
また、本発明は、上記発明において、前記ベクトル情報生成手段は、属性を評価する第1のコンテンツに対してハイパーリンクまたはトラックバックにより関連付けられた第2のコンテンツに係る属性の各候補に対応付けられている互いに直交するベクトルを基底とし、かつ、前記第2のコンテンツに係る情報のベクトル空間内での位置を表すベクトルに係る情報を生成し、前記属性評価手段は、前記ベクトル情報生成手段により生成された情報に基づいて前記第1のコンテンツに係る属性を評価することを特徴とする。 Also, in the present invention according to the above-described invention, the vector information generation unit is associated with each attribute candidate related to the second content associated with the first content to be evaluated by the hyperlink or the trackback. Generating information related to a vector representing a position in the vector space of the information related to the second content based on mutually orthogonal vectors, and the attribute evaluation means is generated by the vector information generation means The attribute relating to the first content is evaluated based on the obtained information.
また、本発明は、上記発明において、前記コンテンツに係る情報は、前記コンテンツの検索に用いられた検索語、または、ハイパーリンクが設定された語であることを特徴とする。 Also, the present invention is characterized in that, in the above invention, the information related to the content is a search word used for searching the content or a word set with a hyperlink.
また、本発明は、コンテンツに係る情報を基にして当該コンテンツに係る属性を評価する属性評価方法であって、前記コンテンツに係る属性の各候補に対応付けられた互いに直交するベクトルを基底とし、かつ、前記コンテンツに係る情報のベクトル空間内での位置を表すベクトルに係る情報を生成するベクトル情報生成工程と、前記ベクトル情報生成工程により生成された情報に基づいて前記コンテンツに係る属性を評価する属性評価工程と、を含んだことを特徴とする。 Further, the present invention is an attribute evaluation method for evaluating an attribute related to the content based on information related to the content, based on mutually orthogonal vectors associated with each candidate for the attribute related to the content, And a vector information generating step for generating information relating to a vector representing a position of the information relating to the content in a vector space, and evaluating an attribute relating to the content based on the information generated by the vector information generating step And an attribute evaluation process.
また、本発明は、上記発明において、前記ベクトル情報生成工程は、前記コンテンツに係る情報を検索キーとしてコンテンツに係る情報とコンテンツに係る属性の候補の情報とを対応付けて記憶したデータベースからコンテンツに係る属性の候補の情報を検索し、検索の結果得られた前記コンテンツに係る属性の候補の情報を基にして、前記ベクトルに係る情報を生成することを特徴とする。 Also, in the present invention according to the above invention, the vector information generating step may be configured such that the information related to the content is stored in association with the information related to the content and the attribute candidate information related to the content using the information related to the content as a search key. Information regarding the attribute candidate is searched, and information regarding the vector is generated based on the attribute candidate information regarding the content obtained as a result of the search.
また、本発明は、上記発明において、前記ベクトル情報生成工程は、コンテンツに係る情報とコンテンツに係る属性の候補との間の異なる組み合わせを複数記憶したデータベースから、指定された組み合わせにおけるコンテンツに係る属性の候補の情報を検索し、検索の結果得られた前記コンテンツに係る属性の候補の情報を基にして、前記ベクトルに係る情報を生成することを特徴とする。 Also, in the present invention according to the above invention, the vector information generation step may include the attribute related to the content in the specified combination from a database storing a plurality of different combinations between the information related to the content and the attribute candidates related to the content. The information on the vector is searched, and the information on the vector is generated based on the information on the candidate attribute for the content obtained as a result of the search.
また、本発明は、上記発明において、前記ベクトル情報生成工程は、前記コンテンツに係る属性の候補の情報およびコンテンツに係る属性の各候補の重みに係る情報を記憶したデータベースから前記属性の候補の情報および重みに係る情報を読み出し、読み出した情報に基づいて前記ベクトルに係る情報を生成することを特徴とする。 Also, in the present invention according to the above-described invention, the vector information generation step includes the attribute candidate information from the database storing the attribute candidate information related to the content and the information related to the weight of each attribute candidate related to the content. And information related to the weight is read out, and information related to the vector is generated based on the read-out information.
また、本発明は、上記発明において、前記属性評価工程は、所定のコンテンツに対してコンテンツに係る複数の属性と、各属性の優先度とを評価することを特徴とする。 Further, the present invention is characterized in that, in the above-mentioned invention, the attribute evaluation step evaluates a plurality of attributes related to the content and a priority of each attribute for a predetermined content.
また、本発明は、上記発明において、前記属性評価工程は、前記コンテンツに係る情報の出現頻度に基づいて、前記ベクトルに係る情報の重みを設定し、設定した重みに基づいて前記コンテンツに係る属性を評価することを特徴とする。 Also, in the present invention according to the above invention, the attribute evaluation step sets a weight of information related to the vector based on an appearance frequency of the information related to the content, and attributes related to the content based on the set weight. It is characterized by evaluating.
また、本発明は、上記発明において、前記ベクトル情報生成工程は、コンテンツに係る属性の候補の数が増加した場合に、当該候補の数の増加に応じて次元が増加したベクトル空間における前記ベクトルに係る情報を生成することを特徴とする。 Further, in the present invention according to the above invention, when the number of attribute candidates related to the content increases, the vector information generation step applies the vector in the vector space whose dimension increases in accordance with the increase in the number of candidates. Such information is generated.
また、本発明は、上記発明において、前記コンテンツに係る情報は、コンテンツの内容に係る情報を含んだメタデータまたは当該コンテンツから抽出された情報であることを特徴とする。 Also, the present invention is characterized in that, in the above invention, the information relating to the content is metadata including information relating to the content of the content or information extracted from the content.
また、本発明は、上記発明において、前記ベクトル情報生成工程は、属性を評価する第1のコンテンツに対してハイパーリンクまたはトラックバックにより関連付けられた第2のコンテンツに係る属性の各候補に対応付けられている互いに直交するベクトルを基底とし、かつ、前記第2のコンテンツに係る情報のベクトル空間内での位置を表すベクトルに係る情報を生成し、前記属性評価工程は、前記ベクトル情報生成工程により生成された情報に基づいて前記第1のコンテンツに係る属性を評価することを特徴とする。 Also, in the present invention according to the above invention, the vector information generation step is associated with each attribute candidate related to the second content associated with the first content for which the attribute is evaluated by hyperlink or trackback. Generating information related to a vector representing a position in the vector space of information related to the second content based on orthogonal vectors that are orthogonal to each other, and the attribute evaluation step is generated by the vector information generation step The attribute relating to the first content is evaluated based on the obtained information.
また、本発明は、上記発明において、前記コンテンツに係る情報は、前記コンテンツの検索に用いられた検索語、または、ハイパーリンクが設定された語であることを特徴とする。 Also, the present invention is characterized in that, in the above invention, the information related to the content is a search word used for searching the content or a word set with a hyperlink.
また、本発明は、コンテンツに係る情報を基にして当該コンテンツに係る属性を評価する属性評価プログラムであって、前記コンテンツに係る属性の各候補に対応付けられた互いに直交するベクトルを基底とし、かつ、前記コンテンツに係る情報のベクトル空間内での位置を表すベクトルに係る情報を生成するベクトル情報生成手順と、前記ベクトル情報生成手順により生成された情報に基づいて前記コンテンツに係る属性を評価する属性評価手順と、をコンピュータに実行させることを特徴とする。 Further, the present invention is an attribute evaluation program for evaluating attributes related to the content based on information related to the content, based on mutually orthogonal vectors associated with the respective attribute candidates related to the content, In addition, a vector information generation procedure for generating information related to a vector representing a position of the information related to the content in a vector space, and an attribute related to the content are evaluated based on the information generated by the vector information generation procedure An attribute evaluation procedure is executed by a computer.
また、本発明は、上記発明において、前記ベクトル情報生成手順は、前記コンテンツに係る情報を検索キーとしてコンテンツに係る情報とコンテンツに係る属性の候補の情報とを対応付けて記憶したデータベースからコンテンツに係る属性の候補の情報を検索し、検索の結果得られた前記コンテンツに係る属性の候補の情報を基にして、前記ベクトルに係る情報を生成することを特徴とする。 Also, in the present invention according to the above-mentioned invention, the vector information generation procedure may be configured such that the information related to the content is stored in association with the information related to the content and the attribute candidate information related to the content using the information related to the content as a search key. Information regarding the attribute candidate is searched, and information regarding the vector is generated based on the attribute candidate information regarding the content obtained as a result of the search.
また、本発明は、上記発明において、前記ベクトル情報生成手順は、コンテンツに係る情報とコンテンツに係る属性の候補との間の異なる組み合わせを複数記憶したデータベースから、指定された組み合わせにおけるコンテンツに係る属性の候補の情報を検索し、検索の結果得られた前記コンテンツに係る属性の候補の情報を基にして、前記ベクトルに係る情報を生成することを特徴とする。 Further, in the present invention according to the above invention, the vector information generation procedure may be configured such that the attribute relating to the content in the specified combination is stored in a database storing a plurality of different combinations between the information relating to the content and the attribute candidates relating to the content The information on the vector is searched, and the information on the vector is generated based on the information on the candidate attribute for the content obtained as a result of the search.
また、本発明は、上記発明において、前記ベクトル情報生成手順は、前記コンテンツに係る属性の候補の情報およびコンテンツに係る属性の各候補の重みに係る情報を記憶したデータベースから前記属性の候補の情報および重みに係る情報を読み出し、読み出した情報に基づいて前記ベクトルに係る情報を生成することを特徴とする。 Also, in the present invention according to the above-described invention, the vector information generation procedure may include information on the attribute candidates from a database storing information on attribute candidates related to the content and information related to weights of each attribute candidate related to the content. And information related to the weight is read out, and information related to the vector is generated based on the read-out information.
また、本発明は、上記発明において、前記属性評価手順は、所定のコンテンツに対してコンテンツに係る複数の属性と、各属性の優先度とを評価することを特徴とする。 Also, the present invention is characterized in that, in the above-mentioned invention, the attribute evaluation procedure evaluates a plurality of attributes related to the content and a priority of each attribute with respect to a predetermined content.
また、本発明は、上記発明において、前記属性評価手順は、前記コンテンツに係る情報の出現頻度に基づいて、前記ベクトルに係る情報の重みを設定し、設定した重みに基づいて前記コンテンツに係る属性を評価することを特徴とする。 Also, in the present invention according to the above-mentioned invention, the attribute evaluation procedure sets a weight of information related to the vector based on an appearance frequency of the information related to the content, and an attribute related to the content based on the set weight It is characterized by evaluating.
また、本発明は、上記発明において、前記ベクトル情報生成手順は、コンテンツに係る属性の候補の数が増加した場合に、当該候補の数の増加に応じて次元が増加したベクトル空間における前記ベクトルに係る情報を生成することを特徴とする。 Further, in the present invention according to the above invention, when the number of attribute candidates related to content is increased, the vector information generation procedure is performed on the vector in the vector space whose dimension is increased in accordance with the increase in the number of candidates. Such information is generated.
また、本発明は、上記発明において、前記コンテンツに係る情報は、コンテンツの内容に係る情報を含んだメタデータまたは当該コンテンツから抽出された情報であることを特徴とする。 Also, the present invention is characterized in that, in the above invention, the information relating to the content is metadata including information relating to the content of the content or information extracted from the content.
また、本発明は、上記発明において、前記ベクトル情報生成手順は、属性を評価する第1のコンテンツに対してハイパーリンクまたはトラックバックにより関連付けられた第2のコンテンツに係る属性の各候補に対応付けられている互いに直交するベクトルを基底とし、かつ、前記第2のコンテンツに係る情報のベクトル空間内での位置を表すベクトルに係る情報を生成し、前記属性評価手順は、前記ベクトル情報生成手順により生成された情報に基づいて前記第1のコンテンツに係る属性を評価することを特徴とする。 Also, in the present invention according to the above invention, the vector information generation procedure is associated with each attribute candidate related to the second content associated with the first content for which the attribute is evaluated by a hyperlink or a trackback. Generating information related to a vector representing a position in the vector space of the information related to the second content based on the vectors orthogonal to each other, and the attribute evaluation procedure is generated by the vector information generation procedure The attribute relating to the first content is evaluated based on the obtained information.
また、本発明は、上記発明において、前記コンテンツに係る情報は、前記コンテンツの検索に用いられた検索語、または、ハイパーリンクが設定された語であることを特徴とする。 Also, the present invention is characterized in that, in the above invention, the information related to the content is a search word used for searching the content or a word set with a hyperlink.
本発明によれば、コンテンツに係る属性の各候補に対応付けられた互いに直交するベクトルを基底とし、かつ、コンテンツに係る情報のベクトル空間内での位置を表すベクトルに係る情報を生成し、生成した情報に基づいてコンテンツに係る属性を評価することとしたので、柔軟に、効率的に、正確に、また、動的にコンテンツに係る属性を評価することができるという効果を奏する。 According to the present invention, information related to a vector representing a position in a vector space of information related to content is generated based on vectors orthogonal to each other associated with each candidate for the attribute related to the content. Since the attribute related to the content is evaluated based on the information, the attribute related to the content can be evaluated flexibly, efficiently, accurately and dynamically.
また、本発明によれば、コンテンツに係る情報を検索キーとしてコンテンツに係る情報とコンテンツに係る属性の候補の情報とを対応付けて記憶したデータベースからコンテンツに係る属性の候補の情報を検索し、検索の結果得られたコンテンツに係る属性の候補の情報を基にしてベクトルに係る情報を生成することとしたので、データベースに記憶されたコンテンツに係る属性の候補の情報を読み出すことにより、効率的にベクトル情報を生成することができるという効果を奏する。 Further, according to the present invention, the information on the content is searched for from the database in which the information on the content is stored in association with the information on the content and the information on the attribute candidate on the content using the information on the content as a search key. Since the information related to the vector is generated based on the attribute candidate information related to the content obtained as a result of the search, it is efficient by reading the attribute candidate information related to the content stored in the database. This produces an effect that vector information can be generated.
また、本発明によれば、コンテンツに係る情報とコンテンツに係る属性の候補との間の異なる組み合わせを複数記憶したデータベースから、指定された組み合わせにおけるコンテンツに係る属性の候補の情報を検索し、検索の結果得られたコンテンツに係る属性の候補の情報を基にして、ベクトルに係る情報を生成することとしたので、コンテンツに係る属性を柔軟に評価することができるという効果を奏する。 Further, according to the present invention, information on attribute candidates related to content in a specified combination is searched from a database storing a plurality of different combinations between information related to content and content attribute candidates. Since the information related to the vector is generated based on the candidate attribute information related to the content obtained as a result of the above, it is possible to flexibly evaluate the attribute related to the content.
また、本発明によれば、コンテンツに係る属性の候補の情報およびコンテンツに係る属性の各候補の重みに係る情報を記憶したデータベースから属性の候補の情報および重みに係る情報を読み出し、読み出した情報に基づいてベクトルに係る情報を生成することとしたので、コンテンツに係る属性の各候補の重みを考慮してコンテンツに係る情報の評価をおこなうことにより、より正確にコンテンツに係る属性を評価することができるという効果を奏する。 Further, according to the present invention, the information on the candidate attributes and the information on the weights are read from the database storing the information on the attribute candidates related to the contents and the information on the weights of the respective attribute candidates related to the contents. Since the information related to the vector is generated based on the content, the attribute related to the content can be evaluated more accurately by evaluating the information related to the content in consideration of the weight of each candidate for the attribute related to the content. There is an effect that can be.
また、本発明によれば、所定のコンテンツに対してコンテンツに係る複数の属性と、各属性の優先度とを評価することとしたので、コンテンツに係る属性を任意の精度で評価することができるという効果を奏する。 Further, according to the present invention, since a plurality of attributes related to the content and the priority of each attribute are evaluated for a predetermined content, the attribute related to the content can be evaluated with arbitrary accuracy. There is an effect.
また、本発明によれば、コンテンツに係る情報の出現頻度に基づいて、ベクトルに係る情報の重みを設定し、設定した重みに基づいてコンテンツに係る属性を評価することとしたので、コンテンツに係る情報の出現頻度を考慮することにより、より正確にコンテンツに係る属性を評価することができるという効果を奏する。 Also, according to the present invention, the weight of information related to the vector is set based on the appearance frequency of the information related to the content, and the attribute related to the content is evaluated based on the set weight. By considering the appearance frequency of information, there is an effect that the attribute related to the content can be more accurately evaluated.
また、本発明によれば、コンテンツに係る属性の候補の数が増加した場合に、当該候補の数の増加に応じて次元が増加したベクトル空間におけるベクトルに係る情報を生成することとしたので、コンテンツに係る属性の候補の数の増加に動的に対応することができるという効果を奏する。 Further, according to the present invention, when the number of attribute candidates related to the content increases, the information related to the vector in the vector space whose dimension increases in accordance with the increase in the number of candidates, There is an effect that it is possible to dynamically cope with an increase in the number of attribute candidates related to the content.
また、本発明によれば、コンテンツに係る情報は、コンテンツの内容に係る情報を含んだメタデータまたは当該コンテンツから抽出された情報であることとしたので、メタデータまたはコンテンツから抽出された情報を基にして、柔軟に、効率的に、正確に、また、動的にコンテンツに係る属性を評価することができるという効果を奏する。 Further, according to the present invention, since the information related to the content is metadata including information related to the content of the content or information extracted from the content, the information extracted from the metadata or content is Based on this, it is possible to evaluate the attribute relating to the content flexibly, efficiently, accurately and dynamically.
また、本発明によれば、属性を評価する第1のコンテンツに対してハイパーリンクまたはトラックバックにより関連付けられている第2のコンテンツに係る属性の各候補に対応付けられた互いに直交するベクトルを基底とし、かつ、第2のコンテンツに係る情報のベクトル空間内での位置を表すベクトルに係る情報を生成し、生成した情報に基づいて第1のコンテンツに係る属性を評価することとしたので、ハイパーリンクまたはトラックバックにより関連付けられた第2のコンテンツから第1のコンテンツの属性を柔軟に、効率的に、正確に、また、動的にコンテンツに係る属性を評価することができるという効果を奏する。 In addition, according to the present invention, the vectors orthogonal to each other associated with the respective attribute candidates related to the second content associated with the first content to be evaluated by the hyperlink or the trackback are used as a basis. Since the information related to the vector representing the position of the information related to the second content in the vector space is generated and the attribute related to the first content is evaluated based on the generated information, the hyperlink Alternatively, it is possible to evaluate the attribute of the first content flexibly, efficiently, accurately, and dynamically from the second content associated by the track back.
また、本発明によれば、コンテンツに係る情報は、コンテンツの検索に用いられた検索語、または、ハイパーリンクが設定された語であることとしたので、コンテンツの検索に用いられた検索語、または、ハイパーリンクが設定された語を基にして、柔軟に、効率的に、正確に、また、動的にコンテンツに係る属性を評価することができるという効果を奏する。 Further, according to the present invention, since the information related to the content is a search word used for content search or a word set with a hyperlink, the search word used for content search, Alternatively, it is possible to evaluate the attribute relating to the content flexibly, efficiently, accurately and dynamically based on the word for which the hyperlink is set.
以下に添付図面を参照して、本発明に係る属性評価装置、属性評価方法および属性評価プログラムの好適な実施例を詳細に説明する。 Exemplary embodiments of an attribute evaluation apparatus, an attribute evaluation method, and an attribute evaluation program according to the present invention will be described below in detail with reference to the accompanying drawings.
まず、本発明にかかる属性評価処理の概念について説明する。図1は、本発明にかかる属性評価処理の概念を説明する図である。図1は、「卒業を控えた僕は、シンセサイザーで作曲することが好きで、専攻は、自然言語処理学である。」というテキストからなるコンテンツに係る属性を評価する場合の例である。 First, the concept of attribute evaluation processing according to the present invention will be described. FIG. 1 is a diagram for explaining the concept of attribute evaluation processing according to the present invention. FIG. 1 is an example in the case of evaluating an attribute relating to a content composed of texts such as “I am a graduate student who likes composition with a synthesizer, and major is natural language processing.”
ここで、コンテンツに係る属性とは、コンテンツの内容から判定されるコンテンツが属するカテゴリーや、当該コンテンツにアクセスするユーザの属性などのことである。たとえば、コンテンツが「スポーツ」という属性である場合には、当該コンテンツにアクセスするユーザは「スポーツ」に興味があるユーザであると評価され、「スポーツ」がユーザの興味に係る属性として設定される。 Here, the attribute relating to the content includes a category to which the content determined from the content content belongs, an attribute of a user accessing the content, and the like. For example, when the content has an attribute of “sports”, the user who accesses the content is evaluated as a user who is interested in “sports”, and “sports” is set as an attribute related to the user's interests. .
この属性評価処理においては、まず、上記テキストに対して形態素解析がまず実行される。図2は、形態素解析の実行結果の一例を示す図である。図2に示すように、形態素解析においては、テキストが各形態素に分解され、各形態素の品詞を解析する処理がおこなわれる。 In this attribute evaluation process, first, morphological analysis is first performed on the text. FIG. 2 is a diagram illustrating an example of the execution result of the morphological analysis. As shown in FIG. 2, in the morpheme analysis, the text is decomposed into each morpheme, and a process of analyzing the part of speech of each morpheme is performed.
続いて、品詞が一般名詞(図2では、「名詞-一般」に対応する。)である形態素が抽出される。図2の例では、「シンセサイザー」および「自然言語処理学」の2つの一般名詞が抽出される。 Subsequently, a morpheme whose part of speech is a general noun (corresponding to “noun-general” in FIG. 2) is extracted. In the example of FIG. 2, two common nouns “synthesizer” and “natural language processing” are extracted.
ここでは、一般名詞のみを抽出することとしたが、「卒業」、「作曲」、「専攻」などのサ変接続名詞(図2では、「名詞-サ変接続」に対応する。)をさらに加えることとしてもよい。 In this example, only common nouns are extracted, but addi- tional connection nouns such as “Graduation”, “Composition”, “Major” (corresponding to “Noun-Sabari Connection” in FIG. 2) are further added. It is good.
一方、一般名詞に対応する基本属性要素および基本属性要素間の比率の情報を記憶したデータベースをあらかじめ準備しておく。このデータベースを以下ではデジタルシソーラスと呼ぶこととする。図3は、基本属性要素および基本属性要素間の比率の情報を記憶したデジタルシソーラスの一例を示す図である。 On the other hand, a database storing basic attribute elements corresponding to general nouns and information on ratios between basic attribute elements is prepared in advance. Hereinafter, this database is referred to as a digital thesaurus. FIG. 3 is a diagram illustrating an example of a digital thesaurus that stores information on basic attribute elements and ratios between basic attribute elements.
図3に示すように、このデジタルシソーラスは、一般名詞、基本属性要素および要素比率の情報を記憶している。一般名詞は、品詞が一般名詞に分類される単語である。基本属性要素は、一般名詞が属するカテゴリーである。 As shown in FIG. 3, the digital thesaurus stores information on general nouns, basic attribute elements, and element ratios. A general noun is a word whose part of speech is classified as a general noun. A basic attribute element is a category to which a general noun belongs.
たとえば、図3の例では、「シンセサイザー」は「音楽」および「コンピュータ」の2つの基本属性要素に属し、「自然言語処理学」は、「コンピュータ」および「言語学」の2つの基本属性要素に属している。 For example, in the example of FIG. 3, “synthesizer” belongs to two basic attribute elements “music” and “computer”, and “natural language processing” is two basic attribute elements “computer” and “linguistics”. Belongs to.
要素比率は、基本属性要素間に割り当てられた比率である。たとえば、図3の例では、「シンセサイザー」の2つの基本属性要素である「音楽」および「コンピュータ」の要素比率は1:1に設定され、「自然言語処理学」の2つの基本属性要素である「コンピュータ」および「音楽」の要素比率は3:2に設定されている。この要素比率は、基本属性要素に対する重みとして用いられるものである。 The element ratio is a ratio assigned between basic attribute elements. For example, in the example of FIG. 3, the element ratio of two basic attribute elements of “synthesizer” “music” and “computer” is set to 1: 1, and two basic attribute elements of “natural language processing” are set. The element ratio of a certain “computer” and “music” is set to 3: 2. This element ratio is used as a weight for the basic attribute element.
この属性評価処理では、一般名詞がコンテンツから抽出された場合に、その一般名詞に対応する基本属性要素および要素比率の情報をデジタルシソーラスから検索する。そして、それらの情報に基づいて、図1に示すように、各基本属性要素に対応し、互いに直交する基底ベクトルを用いて一般名詞のベクトル空間(ヒルベルト空間)内での位置を表現する。 In this attribute evaluation process, when a general noun is extracted from the content, basic attribute elements and element ratio information corresponding to the general noun are searched from the digital thesaurus. Based on these pieces of information, as shown in FIG. 1, the positions of the general nouns in the vector space (Hilbert space) are expressed using base vectors that correspond to the basic attribute elements and are orthogonal to each other.
具体的には、一般名詞は以下のように表現される。
ni = Σaj |ej> ... (式1)
Σaj 2 = 1 ... (式2)
Specifically, general nouns are expressed as follows:
n i = Σa j | e j >. . . (Formula 1)
Σa j 2 = 1. . . (Formula 2)
ここで、niは、一般名詞iを表す大きさが1の単位ベクトルであり、|ej>は、基本属性要素jに対応する大きさが1の正規直交基底ベクトルであり、ajは、基本属性要素jに対応し、要素比率から算出される|ej>の重みであり、Σaj |ej>は、すべてのjに対するaj |ej>の和であり、Σaj 2は、すべてのjに対するaj 2の和である。
Here, n i is a unit vector of
たとえば、「シンセサイザー」という一般名詞に対応する基本属性要素は「音楽」および「コンピュータ」であり、「音楽」および「コンピュータ」の要素比率は1:1であるため、「シンセサイザー」を表す単位ベクトルn1は、
n1 = 1/√2 |e1> + 1/√2 |e2> ... (式3)
となる。
For example, since the basic attribute elements corresponding to the general noun “synthesizer” are “music” and “computer”, and the element ratio of “music” and “computer” is 1: 1, the unit vector representing “synthesizer” n 1 is
n 1 = 1 / √2 | e 1 > + 1 / √2 | e 2 >. . . (Formula 3)
It becomes.
ここで、|e1>は、「音楽」に対応する基底ベクトルであり、|e2>は、「コンピュータ」に対応する基底ベクトルである。また、「音楽」および「コンピュータ」の要素比率が1:1であるため、|e1>および|e2>の重みも1:1に設定される。具体的には、式2と要素比率とから、|e1>および|e2>の重みがそれぞれ1/√2および1/√2となる。
Here, | e 1 > is a basis vector corresponding to “music”, and | e 2 > is a basis vector corresponding to “computer”. Since the element ratio of “music” and “computer” is 1: 1, the weights of | e 1 > and | e 2 > are also set to 1: 1. Specifically, from
また、「自然言語処理学」という一般名詞に対応する基本属性要素は「コンピュータ」および「言語学」であり、「コンピュータ」および「言語学」の要素比率は3:2であるため、「自然言語処理学」を表す単位ベクトルn2は、
n2 = 3/√13 |e2> + 2/√13 |e3> ... (式4)
となる。
The basic attribute elements corresponding to the general noun “natural language processing” are “computer” and “linguistics”, and the ratio of “computer” and “linguistics” is 3: 2. The unit vector n 2 representing “language processing” is
n 2 = 3 / √13 | e 2 > + 2 / √13 | e 3 >. . . (Formula 4)
It becomes.
ここで、|e3>は、「言語学」に対応する基底ベクトルである。また、式2と要素比率3:2とから、|e2>および|e3>の重みがそれぞれ3/√13および2/√13となっている。
Here, | e 3 > is a basis vector corresponding to “linguistics”. Further, from
そして、コンテンツに係る属性は、各一般名詞に対応するベクトルの和、すなわち、
p = Σni ... (式5)
により評価される。ここで、pは、コンテンツに係る属性を表す属性ベクトルであり、Σniは、すべてのiに対するniの和である。
The attribute related to the content is the sum of vectors corresponding to the respective general nouns, that is,
p = Σn i . . . (Formula 5)
It is evaluated by. Here, p is an attribute vector representing an attribute related to the content, and Σn i is the sum of n i for all i.
たとえば、「シンセサイザー」および「自然言語処理学」という一般名詞が抽出されたコンテンツに係る属性を表す属性ベクトルpは、
p = n1 + n2
= 1/√2 |e1> + (1/√2 + 3/√13) |e2> + 2/√13 |e3>
... (式6)
となる。
For example, an attribute vector p representing attributes related to content from which general nouns “synthesizer” and “natural language processing” are extracted is:
p = n 1 + n 2
= 1 / √2 | e 1 > + (1 / √2 + 3 / √13) | e 2 > + 2 / √13 | e 3 >
. . . (Formula 6)
It becomes.
これにより、コンテンツに係る属性が「音楽」、「コンピュータ」、「言語学」である割合はそれぞれ、
1/√2 : (1/√2 + 3/√13) : 2/√13
≒ 25% : 55% : 20% ... (式7)
と評価される。
As a result, the percentage of content attributes “music”, “computer”, and “linguistics”
1 / √2: (1 / √2 + 3 / √13): 2 / √13
≒ 25%: 55%: 20%. . . (Formula 7)
It is evaluated.
ここで、上記割合はコンテンツに係る属性を選択する場合の優先度と考えることができる。すなわち、コンテンツに係る属性を1つに決定する必要がある場合には「コンピュータ」を選択し、コンテンツに係る属性を2つ決定する場合には「コンピュータ」および「音楽」を選択すればよい。 Here, the ratio can be considered as a priority in selecting an attribute related to content. That is, if it is necessary to determine one attribute related to the content, “computer” is selected, and if two attributes related to the content are determined, “computer” and “music” may be selected.
なお、ここでは式7に示したように、各基底ベクトル |ej> に対応する係数の比率を単に比較することとしたが、式5の属性ベクトルを正規化し、正規化した属性ベクトルの各基底ベクトル |ej> に対応する係数の2乗の比率を比較することとしてもよい。 Here, as shown in Expression 7, the ratios of the coefficients corresponding to the respective base vectors | e j > are simply compared. However, the attribute vectors of Expression 5 are normalized, and each of the normalized attribute vectors is The ratio of the squares of the coefficients corresponding to the basis vectors | e j > may be compared.
たとえば、式6により示される属性ベクトルpを正規化すると、
p = 0.3967 |e1> + 0.8636 |e2> + 0.3112 |e3>
となる。
For example, when the attribute vector p represented by Equation 6 is normalized,
p = 0.3967 | e 1> + 0.8636 |
It becomes.
この場合には、コンテンツに係る属性が「音楽」、「コンピュータ」、「言語学」である割合はそれぞれ、
0.39672 : 0.86362 : 0.31122
≒ 16% : 74% : 10%
と評価される。
In this case, the percentage of attributes related to the content is “music”, “computer”, “linguistics”
0.3967 2 : 0.8636 2 : 0.3112 2
≒ 16%: 74%: 10%
It is evaluated.
また、コンテンツに係る属性を評価する属性ベクトルの大きさを正規化しておくと、他のコンテンツの属性ベクトルとの間で基底ベクトルに対応する係数の比較ができるようになるという利点も生じる。 Further, if the size of the attribute vector for evaluating the attribute related to the content is normalized, there is an advantage that the coefficient corresponding to the base vector can be compared with the attribute vector of other content.
つぎに、一般名詞を表すベクトルを互いに直交する基底ベクトルを用いて表す理由を説明する。図4は、互いに直交しない基底ベクトルを用いた場合のコンテンツに係る属性評価方法を説明する図である。たとえば、「音楽を聴きながら量子化暗号について考える」というテキストからなるコンテンツに係る属性を評価する場合を考える。 Next, the reason why vectors representing general nouns are represented using mutually orthogonal basis vectors will be described. FIG. 4 is a diagram for explaining an attribute evaluation method for content when base vectors that are not orthogonal to each other are used. For example, consider a case where an attribute relating to a content consisting of a text “thinking about quantization encryption while listening to music” is evaluated.
そして、形態素解析により、「音楽」および「量子化暗号」という一般名詞が抽出され、「音楽」に対応する基本属性要素として「音楽」が、「量子化暗号」に対応する基本属性要素として「物理学」および「コンピュータ」がデジタルシソーラスから検索され、さらに、それぞれの基本属性要素に対応する要素比率が検索されたものとする。 Then, by the morphological analysis, general nouns “music” and “quantized cipher” are extracted, and “music” is selected as the basic attribute element corresponding to “music”, and “ It is assumed that “physics” and “computer” are searched from the digital thesaurus, and further, element ratios corresponding to the respective basic attribute elements are searched.
図4には、「音楽」および「量子化暗号」という一般名詞に対応し、基本属性要素および要素比率に基づいて算出されたベクトルn3,n4が示されている。ただし、このベクトルの基底 |e4> 〜 |e7> は互いに直交するものではない。 FIG. 4 shows vectors n 3 and n 4 calculated on the basis of basic attribute elements and element ratios, corresponding to the general nouns “music” and “quantized cipher”. However, the bases | e 4 > to | e 7 > of the vectors are not orthogonal to each other.
このような場合、単にベクトルn3,n4の和を式5に基づいて算出すると、その結果得られる属性ベクトルqは「音楽」という要素を持たなくなり、コンテンツが「音楽」とは無関係であるといった誤った判定となることがある。このようなことを防ぐために、ここでは、互いに直交するベクトルを一般名詞を現すベクトルの基底ベクトルとして用いることとしている。 In such a case, if the sum of the vectors n 3 and n 4 is simply calculated based on Equation 5, the resulting attribute vector q does not have the element “music”, and the content is irrelevant to “music”. May be wrong. In order to prevent this, here, vectors that are orthogonal to each other are used as basis vectors of vectors representing general nouns.
このように、本発明にかかる属性評価処理では、基本属性要素に対応付けられた互いに直交するベクトルを基底とし、かつ、コンテンツから抽出した一般名詞のベクトル空間内での位置を表すベクトルに係る情報を生成し、生成した情報に基づいてコンテンツに係る属性を評価することとした。 As described above, in the attribute evaluation processing according to the present invention, information related to a vector representing a position in a vector space of a general noun extracted from content based on mutually orthogonal vectors associated with basic attribute elements. And attributes related to the content are evaluated based on the generated information.
ここで、基底となるベクトルには任意の基本属性要素を対応付けることができるため、インターネット広告の広告主が「ぬくもりのある」や「シャープな」、「ほのぼのとした」、「あたたかみのある」など、生活シーンに応じた感覚的に表現された属性などを新たに追加したい場合にも、デジタルシソーラスを更新することにより柔軟に対応することができる。 Here, any basic attribute element can be associated with the underlying vector, so Internet advertising advertisers can “warm”, “sharp”, “warm”, “warm” Even when it is desired to newly add a sensually expressed attribute according to the life scene, etc., it can be flexibly handled by updating the digital thesaurus.
また、互いに直交するベクトルを用いてコンテンツに係る属性を評価するため、属性を正確に評価することができる。さらに、ベクトル演算によりコンテンツに係る属性を評価するため、効率的に属性を評価することができる。 Moreover, since the attribute which concerns on a content is evaluated using the vector which mutually orthogonally crosses, an attribute can be evaluated correctly. Furthermore, since the attribute related to the content is evaluated by vector calculation, the attribute can be efficiently evaluated.
また、上述したように、基本属性要素がN個ある場合には、一般名詞は、基本属性要素に対応する正規直交ベクトルを基底とするN次元のベクトルで表される。そのため、デジタルシソーラスに一般名詞に対する基本属性要素が追加された場合でも、単にベクトルの次元を増加させることにより、基本属性要素の追加に動的に対応することができる。 As described above, when there are N basic attribute elements, the general noun is represented by an N-dimensional vector based on an orthonormal vector corresponding to the basic attribute element. Therefore, even when a basic attribute element for a general noun is added to the digital thesaurus, it is possible to dynamically respond to the addition of the basic attribute element by simply increasing the dimension of the vector.
つぎに、本実施例に係る属性評価システムの機能構成について説明する。図5は、本実施例に係る属性評価システム20の機能構成を示す図である。以下では、インターネット30を介して公開されているウェブサイトのコンテンツに係る属性を評価する場合について説明する。
Next, a functional configuration of the attribute evaluation system according to the present embodiment will be described. FIG. 5 is a diagram illustrating a functional configuration of the
図5に示すように、この属性評価システム20は、外部ウェブサーバ10a〜10cとインターネット30を介して接続されている。外部ウェブサーバ10a〜10cは、属性評価システム20の外部でウェブサイトの閲覧サービスを提供しているサーバである。この外部ウェブサーバ10a〜10cは、ウェブサイトを構築するHTML(Hyper Text Markup Language)データおよびウェブサイトに対するユーザのアクセス履歴であるアクセスログを記憶している。
As shown in FIG. 5, the
属性評価システム20は、ウェブサイトにおけるコンテンツの閲覧サービスを提供するとともに、閲覧サービスを提供するコンテンツおよび当該コンテンツにアクセスするユーザの属性を評価するシステムである。
The
この属性評価システム20は、ウェブサーバ40a〜40c、情報収集サーバ50、属性評価サーバ60および広告サーバ70がLAN(Local Area Network)80を介して接続された構成となっている。また、ウェブサーバ40a〜40c、情報収集サーバ50および広告サーバ70は、外部ウェブサーバ10a〜10cとインターネット30を介して接続されている。
The
ウェブサーバ40a〜40cは、ウェブサイト内のコンテンツの閲覧サービスを提供するサーバである。このウェブサーバ40a〜40cは、ウェブサイトを構築するHTMLデータおよびウェブサイトに対するユーザのアクセス履歴であるアクセスログを記憶している。
The
情報収集サーバ50は、他のサーバにアクセスし、ウェブサイトのコンテンツ間に設定されたリンクの情報や、ウェブサイト内のコンテンツのメタデータの情報、ウェブサイト内のコンテンツの情報などを収集するサーバである。この情報収集サーバ50は、データ送受信部500、情報収集部501、記憶部502および制御部503を有する。
The
データ送受信部500は、他のサーバとの間でインターネット30またはLAN80を介してさまざまなデータの授受をおこなうネットワークインターフェースである。情報収集部501は、インターネット30に接続された外部ウェブサーバ10a〜10cやウェブサーバ40a〜40cにアクセスし、ウェブサイトのコンテンツ間に設定されたリンクの情報や、ウェブサイト内のコンテンツのメタデータの情報、ウェブサイト内のコンテンツの情報などを収集して、それらの情報を記憶部502に記憶する。
The data transmission /
記憶部502は、ハードディスク装置などの記憶デバイスである。この記憶部502は、リンク情報502a、メタデータ情報502b、コンテンツ情報502cを記憶している。
The
リンク情報502aは、コンテンツ間に設定されたリンクの情報を記憶したものである。このリンクは、ハイパーリンクまたはトラックバックにより設定されたものである。メタデータ情報502bは、ウェブサイト内のコンテンツに係る情報を記述したメタデータの情報を記憶したものである。コンテンツ情報502cは、ウェブサイト内のテキストや画像データなどのコンテンツの情報を記憶したものである。
The
制御部503は、情報収集サーバ50を全体制御する制御部であり、各機能部間のデータの授受などを司る。
The
属性評価サーバ60は、情報収集サーバ50により収集された情報を取得し、評価対象となるコンテンツの属性および当該コンテンツにアクセスするユーザの属性を評価する処理をおこなう。
The
この属性評価サーバ60は、データ送受信部600、記憶部601、ベクトル情報生成部602、属性評価部603および制御部604を有する。データ送受信部600は、他のサーバとの間でLAN80を介してさまざまなデータの授受をおこなうネットワークインターフェースである。
The
記憶部601は、ハードディスク装置などの記憶デバイスである。この記憶部601は、デジタルシソーラスデータ601aおよび属性評価情報601bを記憶している。
The
デジタルシソーラスデータ601aは、図3で説明したデジタルシソーラスに対応するものである。このデジタルシソーラスデータ601aは、一般名詞、基本属性要素および要素比率の情報を記憶している。属性評価情報601bは、評価されたコンテンツの属性および当該コンテンツにアクセスするユーザの属性に係る情報を記憶したものである。
The
なお、ここでは、デジタルシソーラスデータ601aに一般名詞、基本属性要素および要素比率の間の組み合わせを1つだけ記憶することとしたが、インターネット広告の広告主が希望する属性にコンテンツおよびコンテンツにアクセスするユーザを分類するために、一般名詞、基本属性要素および要素比率の間の異なる組み合わせをデジタルシソーラスデータ601aに複数記憶しておき、使用する組み合わせを広告主に応じて切り替えることとしてもよい。
Here, only one combination between the general noun, the basic attribute element, and the element ratio is stored in the
ここで、使用する組み合わせは、広告主ごとにあらかじめ設定しておくこととしてもよいし、インターネット30に接続された端末装置(図示せず)を用いて広告主により指定された組み合わせをベクトル情報生成部602が受け付けることにより設定することとしてもよい。
Here, the combination to be used may be set in advance for each advertiser, or vector information is generated from a combination designated by the advertiser using a terminal device (not shown) connected to the
これにより、ある広告主は、基本属性要素として「スポーツ」や「ニュース」などのように直接的に表現された要素を用い、別の広告主は、「ぬくもりのある」や「シャープな」、「ほのぼのとした」、「あたたかみのある」など、感覚的に表現された要素を用いたいという要望がある場合でも柔軟に対応することができる。 This allows one advertiser to use directly expressed elements such as “sports” or “news” as basic attribute elements, while other advertisers use “warmth” or “sharp” Even if there is a demand for using elements expressed sensuously, such as “warm and warm” or “warm”, it is possible to respond flexibly.
図5の説明に戻ると、ベクトル情報生成部602は、コンテンツに対して形態素解析を実行し、コンテンツから一般名詞を抽出する。そして、ベクトル情報生成部602は、抽出された一般名詞を互いに直交する基底ベクトルを用いて表現し、ベクトル空間内の位置を算出する処理をおこなう。具体的には、ベクトル情報生成部602は、図1において説明したように、デジタルシソーラスデータ601aを参照し、一般名詞を式1および式2を用いて表現する。
Returning to the description of FIG. 5, the vector
属性評価部603は、コンテンツの属性および当該コンテンツにアクセスするユーザの属性を、互いに直交する基底ベクトルを用いて表現された一般名詞のベクトル空間内での位置の情報に基づいて評価する処理をおこなう。
The
具体的には、属性評価部603は、図1において説明したように、式5を用いて一般名詞を表すベクトルの和から属性ベクトルを生成し、属性ベクトルにおける各基底ベクトルの係数を、式7のようにして調べることにより属性を評価する処理をおこなう。
Specifically, as described with reference to FIG. 1, the
広告サーバ70は、属性評価サーバ60により評価されたコンテンツの属性および当該コンテンツにアクセスするユーザの属性に基づいて、各コンテンツおよびユーザに適した広告を配信するサーバである。この広告サーバ70は、データ送受信部700、記憶部701、広告配信処理部702および制御部703を有する。
The
データ送受信部700は、他の装置との間でインターネット30またはLAN80を介してさまざまなデータの授受をおこなうネットワークインターフェースである。記憶部701は、ハードディスク装置などの記憶デバイスである。この記憶部701は、広告データ701aおよび配信条件データ701bを記憶している。
The data transmission /
広告データ701aは、外部ウェブサーバ10a〜10cまたはウェブサーバ40a〜40cが閲覧サービスを提供しているコンテンツに配信するインターネット広告のデータを記憶したものである。配信条件データ701bは、インターネット広告を配信するコンテンツのURI(Uniform Resource Identifier)や配信期間などのインターネット広告の配信条件を記憶したデータである。
The
広告配信処理部702は、記憶部701に記憶された配信条件データ701bに基づいて、コンテンツに広告データ701aに記憶されたインターネット広告を配信する処理をおこなう。制御部703は、広告サーバ70を全体制御する制御部であり、各機能部間のデータの授受などを司る。
The advertisement
つぎに、本実施例に係る属性評価処理の処理手順について説明する。図6は、本実施例に係る属性評価処理の処理手順を示すフローチャートである。 Next, a processing procedure of attribute evaluation processing according to the present embodiment will be described. FIG. 6 is a flowchart illustrating a processing procedure of attribute evaluation processing according to the present embodiment.
図6に示すように、まず、属性評価サーバ60のベクトル情報生成部602は、属性を評価する対象であるコンテンツの情報を情報収集サーバ50の記憶部502に記憶されたコンテンツ情報502cから取得する(ステップS101)。
As shown in FIG. 6, first, the vector
そして、ベクトル情報生成部602は、図2を用いて説明したように、コンテンツの情報に対する形態素解析を実行し(ステップS102)、一般名詞を抽出する(ステップS103)。
Then, as described with reference to FIG. 2, the vector
続いて、ベクトル情報生成部602は、記憶部601に記憶されたデジタルシソーラスデータ601aを参照することにより、抽出した一般名詞に対応する基本属性要素および要素比率を検索し(ステップS104)、式1および式2を用いて、一般名詞をベクトルに変換する(ステップS105)。
Subsequently, the vector
そして、属性評価部603は、式5を用いて、各一般名詞に対応するベクトルの和を算出し(ステップS106)、式7で説明したようにして、ベクトルの和における各基底ベクトルの係数からコンテンツに係る属性を評価し(ステップS107)、評価したコンテンツに係る属性を属性評価情報601bとして記憶部601に記憶し(ステップS108)、この属性評価処理を終了する。
Then, the
なお、上記実施例では、コンテンツから一般名詞を抽出し、一般名詞を基本属性要素に基づいてベクトルに変換して、コンテンツに係る属性を評価することとしているが、コンテンツから一般名詞を抽出する代わりに、検索エンジンを用いて当該コンテンツを検索する場合にユーザにより入力された検索語や、当該コンテンツに対するハイパーリンクが設定され、ユーザによりマウス等でクリックされた語をベクトルに変換し、コンテンツに係る属性を評価することとしてもよい。 In the above embodiment, general nouns are extracted from content, general nouns are converted into vectors based on basic attribute elements, and attributes related to content are evaluated. However, instead of extracting general nouns from content, In addition, when searching for the content using a search engine, a search term input by the user or a hyperlink to the content is set, and the word clicked by the user with a mouse or the like is converted into a vector, and the content The attribute may be evaluated.
上述してきたように、本実施例では、属性評価サーバ60のベクトル情報生成部602が、各基本属性要素に対応付けられた互いに直交するベクトルを基底とし、かつ、一般名詞のベクトル空間内での位置を表すベクトルに係る情報を生成し、属性評価部603が、ベクトル情報生成部602により生成された情報に基づいて、コンテンツに係る属性を評価することとしたので、柔軟に、効率的に、正確に、また、動的にコンテンツに係る属性を評価することができる。
As described above, in this embodiment, the vector
また、本実施例では、ベクトル情報生成部602が、一般名詞とコンテンツに係る属性の候補の情報とを対応付けて記憶したデジタルシソーラスデータ601aから、一般名詞を検索キーとして基本属性要素の情報を検索し、属性評価部603が、検索の結果得られた基本属性要素の情報を基にして、一般名詞のベクトル空間内での位置を表すベクトルに係る情報を生成することとしたので、デジタルシソーラスデータ601aに記憶された基本属性要素の情報を読み出すことにより、効率的にベクトル情報を生成することができる。
Further, in this embodiment, the vector
また、本実施例では、ベクトル情報生成部602が、一般名詞と基本属性要素との間の異なる組み合わせを複数記憶したデジタルシソーラスデータ601aから、指定された組み合わせにおける基本属性要素の情報を検索し、検索の結果得られた基本属性要素の情報を基にして、ベクトルに係る情報を生成することとしたので、コンテンツに係る属性を柔軟に評価することができる。
In this embodiment, the vector
また、本実施例では、ベクトル情報生成部602が、基本属性要素の情報および基本属性要素の要素比率に係る情報を記憶したデジタルシソーラスデータ601aから基本属性要素の情報および要素比率に係る情報を読み出し、属性評価部603が、読み出した情報に基づいて一般名詞のベクトル空間内での位置を表すベクトルに係る情報を生成することとしたので、基本属性要素の要素比率を考慮してコンテンツに係る情報の評価をおこなうことにより、より正確にコンテンツに係る属性を評価することができる。
In this embodiment, the vector
また、本実施例では、属性評価部603が、所定のコンテンツに対してコンテンツに係る複数の属性と、各属性の優先度とを評価することとしたので、コンテンツに係る属性を任意の精度で評価することができる。
In this embodiment, since the
また、本実施例では、ベクトル情報生成部602が、コンテンツに係る属性の候補の数が増加した場合に、当該候補の数の増加に応じて次元が増加したベクトル空間における一般名詞の位置を表すベクトルに係る情報を生成することとしたので、コンテンツに係る属性の候補の数の増加に動的に対応することができる。
In this embodiment, when the number of attribute candidates related to the content increases, the vector
また、本実施例では、一般名詞は、コンテンツの内容に係る情報を含んだメタデータまたは当該コンテンツから抽出されたものであることとしたので、メタデータまたはコンテンツから抽出された一般名詞を基にして、柔軟に、効率的に、正確に、また、動的にコンテンツに係る属性を評価することができる。 In this embodiment, the general noun is metadata including information related to the content or extracted from the content. Therefore, the general noun is based on the general noun extracted from the metadata or content. Thus, it is possible to evaluate the attribute relating to the content flexibly, efficiently, accurately and dynamically.
また、本実施例では、ベクトル情報生成部602が、基本属性要素に対応付けられた互いに直交するベクトルを基底とし、かつ、コンテンツの検索に用いられた検索語、または、ハイパーリンクが設定された語のベクトル空間内での位置を表すベクトルに係る情報を生成することとしたので、コンテンツの検索に用いられた検索語、または、ハイパーリンクが設定された語を基にして、柔軟に、効率的に、正確に、また、動的にコンテンツに係る属性を評価することができる。
Further, in this embodiment, the vector
(実施例の変形例1)
ところで、上記実施例では、一般名詞に対応する基本属性要素および要素比率を基にしてコンテンツに係る属性を評価することとしているが、さらに一般名詞の出現頻度を考慮して、より精度よくコンテンツに係る属性を評価することとしてもよい。そこで、実施例の変形例1では、一般名詞の出現頻度をさらに考慮する場合について説明する。
(
By the way, in the above embodiment, the attribute related to the content is evaluated on the basis of the basic attribute element corresponding to the general noun and the element ratio. Such an attribute may be evaluated. Therefore, in
ここでは、上記実施例で用いた「卒業を控えた僕は、シンセサイザーで作曲することが好きで、専攻は、自然言語処理学である。」という第1のテキストと、「自然言語処理学は楽しい。」という第2のテキストとからなるコンテンツに係る属性を評価する場合の例を示す。 Here, the first text used in the above example, “I like to synthesize music with a synthesizer, my major is natural language processing,” and “Natural language processing is The example in the case of evaluating the attribute which concerns on the content which consists of the 2nd text "It is pleasant."
図7は、変形例1における形態素解析の実行結果の一例を示す図である。図7には、第2のテキストに対して形態素解析を適用した結果が示されている。第1のテキストに対して形態素解析をおこなった結果は、図2に示したものと同様である。 FIG. 7 is a diagram illustrating an example of the execution result of the morphological analysis in the first modification. FIG. 7 shows the result of applying morphological analysis to the second text. The result of performing the morphological analysis on the first text is the same as that shown in FIG.
図7に示すように、第2のテキストからは、「自然言語処理学」という一般名詞が1つ抽出される。これにより、第1のテキストおよび第2のテキストから抽出された一般名詞は、「シンセサイザー」および「自然言語処理学」であり、出現頻度はそれぞれ1回および2回となる。 As shown in FIG. 7, one general noun “natural language processing” is extracted from the second text. Thereby, the general nouns extracted from the first text and the second text are “synthesizer” and “natural language processing science”, and the appearance frequencies are once and twice, respectively.
本変形例1における属性評価処理では、コンテンツに係る属性を評価する場合に、一般名詞の出現頻度を当該一般名詞に対応するベクトルの重みとして設定し、ベクトルの和を算出する。 In the attribute evaluation process according to the first modification, when evaluating an attribute relating to content, the appearance frequency of a general noun is set as a vector weight corresponding to the general noun, and the sum of the vectors is calculated.
すなわち、本変形例1における属性評価処理では、式5の代わりに、
p = Σwi ni ... (式8)
を用いてベクトルの和を算出する。ここで、wiは、ベクトルniに対応する一般名詞の出現頻度であり、Σwi niは、すべてのiに対するwi niの和である。
That is, in the attribute evaluation process in the first modification, instead of Equation 5,
p = Σw i n i . . . (Formula 8)
Is used to calculate the sum of the vectors. Here, w i is the appearance frequency of the general noun corresponding to the vector n i , and Σw i n i is the sum of w i n i for all i.
たとえば、「シンセサイザー」および「自然言語処理学」という一般名詞が抽出され、「シンセサイザー」の出現頻度が1回であり、「自然言語処理学」の出現頻度が2回であるコンテンツの属性ベクトルpは、
p = n1 + 2 n2
= 1/√2 |e1> + 1/√2 |e2> + 2 (3/√13 |e2> + 2/√13 |e3>)
= 1/√2 |e1> + (1/√2 + 6/√13) |e2> + 4/√13 |e3>
... (式9)
となる。
For example, the general nouns “synthesizer” and “natural language processing” are extracted, the frequency of appearance of “synthesizer” is once, and the attribute vector p of the content where “natural language processing” appears twice Is
p = n 1 +2 n 2
= 1 / √2 | e 1 > + 1 / √2 | e 2 > +2 (3 / √13 | e 2 > + 2 / √13 | e 3 >)
= 1 / √2 | e 1 > + (1 / √2 + 6 / √13) | e 2 > + 4 / √13 | e 3 >
. . . (Formula 9)
It becomes.
これにより、コンテンツに係る属性が「音楽」、「コンピュータ」、「言語学」である割合はそれぞれ、
1/√2 : (1/√2 + 6/√13) : 4/√13
≒ 17% : 57% : 26% ... (式10)
となる。
As a result, the percentage of content attributes “music”, “computer”, and “linguistics”
1 / √2: (1 / √2 + 6 / √13): 4 / √13
≒ 17%: 57%: 26%. . . (Formula 10)
It becomes.
したがって、コンテンツに係る属性を1つに決定する必要がある場合には「コンピュータ」を選択し、コンテンツに係る属性を2つ決定する場合には「コンピュータ」および「言語学」を選択すればよい。 Therefore, when it is necessary to determine one attribute related to the content, “computer” is selected, and when two attributes related to the content are determined, “computer” and “linguistics” may be selected. .
なお、本変形例1に係る属性評価システムの機能構成については、図5に示した機能構成とほぼ同様である。ただし、本変形例1では、ベクトル情報生成部602が、コンテンツに対して形態素解析を実行し、コンテンツから一般名詞を抽出するとともに、抽出された一般名詞の出現頻度を記憶部601に記憶する。
Note that the functional configuration of the attribute evaluation system according to
そして、ベクトル情報生成部602は、図1において説明したように、抽出された一般名詞を互いに直交する基底ベクトルを用いて表現し、一般名詞のベクトル空間内における位置を算出する処理をおこなう。
Then, as described with reference to FIG. 1, the vector
また、属性評価部603は、一般名詞の出現頻度と、互いに直交する基底ベクトルを用いて表現された一般名詞のベクトル空間内での位置の情報とから、式8を用いて、コンテンツの属性および当該コンテンツにアクセスするユーザの属性を評価する。
Further, the
また、本変形例1に係る属性評価処理の処理手順は、図6に示した処理手順とほぼ同様である。ただし、本変形例1では、ステップS103において、ベクトル情報生成部602が、コンテンツから一般名詞を抽出するとともに、抽出された一般名詞の出現頻度を記憶部601に記憶する。
Further, the processing procedure of the attribute evaluation processing according to the first modification is almost the same as the processing procedure shown in FIG. However, in the first modification, in step S103, the vector
そして、ステップS106では、属性評価部603が、式5の代わりに、式8を用いて各一般名詞に対応するベクトルの和を算出する。また、ステップS107では、属性評価部603が、式10で説明したようにして、ベクトルの和における各基底ベクトルの係数からコンテンツに係る属性を評価する。
In step S106, the
上述してきたように、本実施例の変形例1では、属性評価部603が、一般名詞の出現頻度に基づいて、ベクトル情報生成部602により生成されたベクトルに係る情報の重みを設定し、設定した重みに基づいてコンテンツに係る属性を評価することとしたので、一般名詞の出現頻度を考慮することにより、より正確にコンテンツに係る属性を評価することができる。
As described above, in the first modification of the present embodiment, the
(実施例の変形例2)
ところで、上記実施例および実施例の変形例1では、コンテンツがテキストであることとしたが、コンテンツが画像である場合にも、その画像に対して設定されたメタデータを解析して、コンテンツに係る属性を評価することとしてもよい。そこで、実施例の変形例2では、テキストとともに画像を含むコンテンツに係る属性を評価する場合について説明する。
(
By the way, in the first embodiment and the first modification of the embodiment, the content is text. However, even when the content is an image, the metadata set for the image is analyzed and the content is analyzed. Such an attribute may be evaluated. Therefore, in a second modification of the embodiment, a case will be described in which attributes relating to content including an image together with text are evaluated.
ここでは、上記変形例1で用いた「卒業を控えた僕は、シンセサイザーで作曲することが好きで、専攻は、自然言語処理学である。自然言語処理学は楽しい。」というテキストと、シンセサイザーおよび楽譜の画像とからなるコンテンツに係る属性を評価する場合の例を示す。
Here, the text used in
ここで、シンセサイザーの画像のメタデータには、「シンセサイザー」という一般名詞が含まれており、楽譜の画像のメタデータには、「音楽」という一般名詞が含まれているものとする。 Here, the metadata of the synthesizer image includes a general noun “synthesizer”, and the metadata of the score image includes a general noun “music”.
この場合、上記テキストおよびメタデータから形態素解析により一般名詞を抽出すると、「シンセサイザー」、「自然言語処理学」および「音楽」という一般名詞が抽出され、それらの一般名詞の出現頻度はそれぞれ2回、2回、1回となる。 In this case, when general nouns are extracted from the text and metadata by morphological analysis, the general nouns “synthesizer”, “natural language processing” and “music” are extracted, and the appearance frequency of these general nouns is twice. 2 times and 1 time.
この場合、当該コンテンツに係る属性を表す属性ベクトルpは、式8を用いることにより、
p = 2 n1 + 2 n2 + n3
= 2 (1/√2 |e1> + 1/√2 |e2>)
+ 2 (3/√13 |e2> + 2/√13 |e3>) + |e1>
= (√2 + 1) |e1> + (√2 + 6/√13) |e2> + 4/√13 |e3>
... (式11)
となる。ここで、n3は、一般名詞「音楽」に対応する単位ベクトルであり、一般名詞「音楽」に対応する基本属性要素は「音楽」であるため、n3は|e1>に等しくなる。
In this case, the attribute vector p representing the attribute related to the content is expressed by
p = 2 n 1 + 2 n 2 +
= 2 (1 / √2 | e 1 > + 1 / √2 | e 2 >)
+2 (3 / √13 | e 2 > + 2 / √13 | e 3 >) + | e 1 >
= (√2 + 1) | e 1 > + (√2 + 6 / √13) | e 2 > + 4 / √13 | e 3 >
. . . (Formula 11)
It becomes. Here, since n 3 is a unit vector corresponding to the general noun “music” and the basic attribute element corresponding to the general noun “music” is “music”, n 3 is equal to | e 1 >.
これにより、コンテンツに係る属性が「音楽」、「コンピュータ」、「言語学」である割合はそれぞれ、
√2 + 1 : (√2 + 6/√13) : 4/√13
≒ 37% : 47% : 16% ... (式12)
となる。
As a result, the percentage of content attributes “music”, “computer”, and “linguistics”
√2 + 1: (√2 + 6 / √13): 4 / √13
≒ 37%: 47%: 16%. . . (Formula 12)
It becomes.
したがって、コンテンツに係る属性を1つに決定する必要がある場合には「コンピュータ」を選択し、コンテンツに係る属性を2つ決定する場合には「音楽」および「コンピュータ」を選択すればよい。 Therefore, when it is necessary to determine one attribute related to the content, “computer” is selected. When two attributes related to the content are determined, “music” and “computer” may be selected.
なお、本変形例2に係る属性評価システムの機能構成については、図5に示した機能構成とほぼ同様である。ただし、本変形例2では、ベクトル情報生成部602が、コンテンツに含まれるテキストおよび画像のメタデータに対して形態素解析を実行することにより一般名詞を抽出するとともに、抽出された一般名詞の出現頻度を記憶部601に記憶する。
The functional configuration of the attribute evaluation system according to the second modification is almost the same as the functional configuration shown in FIG. However, in the second modification, the vector
そして、ベクトル情報生成部602は、図1において説明したように、抽出された一般名詞を互いに直交する基底ベクトルを用いて表現し、ベクトル空間内の位置を算出する処理をおこなう。
Then, as described in FIG. 1, the vector
また、属性評価部603は、一般名詞の出現頻度と、互いに直交する基底ベクトルを用いて表現された一般名詞のベクトル空間内での位置の情報とから、式8を用いて、コンテンツの属性および当該コンテンツにアクセスするユーザの属性を評価する。
Further, the
また、本変形例2に係る属性評価処理の処理手順は、図6に示した処理手順とほぼ同様である。ただし、本変形例2では、ステップS103において、ベクトル情報生成部602が、コンテンツに含まれるテキストおよび画像のメタデータから一般名詞を抽出するとともに、抽出された一般名詞の出現頻度を記憶部601に記憶する処理をおこなう。
Further, the processing procedure of the attribute evaluation processing according to the second modification is almost the same as the processing procedure shown in FIG. However, in the second modification, in step S103, the vector
そして、ステップS106では、属性評価部603が、式5の代わりに、式8を用いて各一般名詞に対応するベクトルの和を算出する。また、ステップS107では、属性評価部603が、式10で説明したようにして、ベクトルの和における各基底ベクトルの係数から、テキストおよび画像を含んだコンテンツに係る属性を評価する。
In step S106, the
上述してきたように、本変形例2では、属性評価部603が、コンテンツに含まれるテキストおよび画像のメタデータから抽出された一般名詞に基づいて、コンテンツに係る属性の評価をおこなうこととしたので、画像のメタデータをさらに用いることにより、より正確にコンテンツに係る属性を評価することができる。
As described above, in the second modification, the
(実施例の変形例3)
ところで、上記実施例および実施例の変形例では、属性を評価するコンテンツまたはコンテンツのメタデータから一般名詞を抽出し、抽出した一般名詞に基づいて属性を評価することとしたが、第1のコンテンツにハイパーリンクまたはトラックバックにより関連付けられた第2のコンテンツから一般名詞を抽出して、第1のコンテンツの属性を評価することとしてもよい。
(
By the way, in the said Example and the modification of an Example, although it was decided to extract a general noun from the content or content metadata which evaluates an attribute, and evaluated an attribute based on the extracted general noun, the 1st content It is also possible to extract general nouns from the second content associated with the hyperlink or trackback and evaluate the attributes of the first content.
具体的には、上記第2のコンテンツに対して図1で説明したような属性評価処理をおこなって、第2のコンテンツに係る属性を評価し、その評価結果に基づいて第1のコンテンツに係る属性を評価する。ここで、第2のコンテンツは、1つまたは複数のコンテンツである。 Specifically, the attribute evaluation process as described in FIG. 1 is performed on the second content, the attribute related to the second content is evaluated, and the first content is determined based on the evaluation result. Evaluate attributes. Here, the second content is one or a plurality of contents.
たとえば、第2の複数のコンテンツに係る属性が「音楽」、「コンピュータ」、「言語学」と評価され、そのうち「コンピュータ」と属性が評価されたコンテンツが最も多かった場合には、第1のコンテンツに係る属性を「コンピュータ」と評価すればよい。 For example, when the attributes related to the second plurality of contents are evaluated as “music”, “computer”, and “linguistics”, and the most content with the attribute “computer” is evaluated, the first The attribute relating to the content may be evaluated as “computer”.
なお、本変形例3に係る属性評価システムの機能構成については、図5に示した機能構成とほぼ同様である。ただし、本変形例3では、ベクトル情報生成部602が、第2のコンテンツに対して形態素解析を実行し、第2のコンテンツから一般名詞を抽出するとともに、抽出された一般名詞の出現頻度を記憶部601に記憶する。
The functional configuration of the attribute evaluation system according to
そして、ベクトル情報生成部602は、図1において説明したように、抽出された一般名詞を互いに直交する基底ベクトルを用いて表現し、ベクトル空間内の位置を算出する処理をおこなう。
Then, as described in FIG. 1, the vector
また、属性評価部603は、一般名詞の出現頻度と、互いに直交する基底ベクトルを用いて表現された一般名詞のベクトル空間内での位置の情報とから、式8を用いて第2のコンテンツに係る属性を評価し、その第2のコンテンツに係る属性に基づいて、第1のコンテンツに係る属性を評価する。
In addition, the
また、本変形例3に係る属性評価処理の処理手順は、図6に示した処理手順とほぼ同様である。ただし、本変形例3では、ステップS101からステップS108の処理を第2のコンテンツに対して実行し、その後、第2のコンテンツに対して評価された属性の情報に基づいて第1のコンテンツに係る属性を評価する。 Further, the processing procedure of the attribute evaluation processing according to the third modification is substantially the same as the processing procedure shown in FIG. However, in the third modification, the processing from step S101 to step S108 is executed for the second content, and then the first content is related based on the attribute information evaluated for the second content. Evaluate attributes.
上述してきたように、本実施例の変形例3では、ベクトル情報生成部602が、属性を評価する第1のコンテンツに対してハイパーリンクまたはトラックバックにより関連付けられている第2のコンテンツに係る属性の各候補に対応付けられた互いに直交するベクトルを基底とし、かつ、第2のコンテンツに係る一般名詞のベクトル空間内での位置を表すベクトルに係る情報を生成し、属性評価部603が、ベクトル情報生成部602により生成された情報に基づいて第1のコンテンツに係る属性を評価することとしたので、ハイパーリンクまたはトラックバックにより関連付けられた第2のコンテンツから第1のコンテンツの属性を柔軟に、効率的に、正確に、また、動的にコンテンツに係る属性を評価することができる。
As described above, in the third modification of the present embodiment, the vector
以上、属性評価処理をコンピュータ上で実現する場合について説明してきたが、属性評価処理を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行することにより属性評価処理を実現してもよい。図8は、属性評価処理を実現するコンピュータ100のハードウェア構成を示すブロック図である。
As described above, the case where the attribute evaluation process is realized on the computer has been described. However, the program for realizing the attribute evaluation process is recorded on a computer-readable recording medium, and the program recorded on the recording medium is stored in the computer. The attribute evaluation process may be realized by reading and executing. FIG. 8 is a block diagram illustrating a hardware configuration of the
図8に示すように、このコンピュータ100は、上記プログラムを実行するCPU110と、データを入力する入力装置120と、各種データを記憶するROM130と、演算パラメータ等を記憶するRAM140と、属性評価処理を実現するためのプログラムを記録した記録媒体200からプログラムを読み取る読取装置150と、ディスプレイ等の出力装置160と、ネットワーク300を介して他のコンピュータとの間でデータの授受をおこなうネットワークインターフェース170とが、バス180で接続された構成となっている。
As shown in FIG. 8, the
CPU110は、読取装置150を経由して記録媒体200に記録されているプログラムを読み込んだ後、プログラムを実行することにより、属性評価処理を実現する。なお、記録媒体200としては、光ディスク、フレキシブルディスク、CD−ROM、ハードディスク等が挙げられる。また、このプログラムは、ネットワーク300を介してコンピュータ100に導入することとしてもよい。
The
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施例にて実施されてもよいものである。 Although the embodiments of the present invention have been described so far, the present invention may be implemented in various different embodiments in addition to the above-described embodiments within the scope of the technical idea described in the claims. It ’s good.
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。 In addition, among the processes described in this embodiment, all or part of the processes described as being performed automatically can be performed manually, or the processes described as being performed manually can be performed. All or a part can be automatically performed by a known method.
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 In addition, the processing procedure, control procedure, specific name, and information including various data and parameters shown in the above-mentioned document and drawings can be arbitrarily changed unless otherwise specified.
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 Each component of each illustrated device is functionally conceptual and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured.
さらに、各装置にて行なわれる処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。 Furthermore, all or some of the processing functions performed in each device may be realized by a CPU and a program that is analyzed and executed by the CPU, or may be realized as hardware by wired logic.
以上のように、本発明に係る属性評価装置、属性評価方法および属性評価プログラムは、柔軟に、効率的に、正確に、また、動的にコンテンツに係る属性を評価することが必要な属性評価システムに有用である。 As described above, the attribute evaluation apparatus, the attribute evaluation method, and the attribute evaluation program according to the present invention are attribute evaluations that require flexible, efficient, accurate, and dynamic evaluation of content attributes. Useful for systems.
10a〜10c 外部ウェブサーバ
20 属性評価システム
30 インターネット
40a〜40c ウェブサーバ
50 情報収集サーバ
500 データ送受信部
501 情報収集部
502 記憶部
502a リンク情報
502b メタデータ情報
502c コンテンツ情報
503 制御部
60 属性評価サーバ
600 データ送受信部
601 記憶部
601a デジタルシソーラスデータ
601b 属性評価情報
602 ベクトル情報生成部
603 属性評価部
604 制御部
70 広告サーバ
700 データ送受信部
701 記憶部
701a 広告データ
701b 広告配信データ
702 広告配信処理部
703 制御部
80 LAN
10a to 10c
Claims (30)
前記コンテンツに係る属性の各候補に対応付けられた互いに直交するベクトルを基底とし、かつ、前記コンテンツに係る情報のベクトル空間内での位置を表すベクトルに係る情報を生成するベクトル情報生成手段と、
前記ベクトル情報生成手段により生成された情報に基づいて前記コンテンツに係る属性を評価する属性評価手段と、
を備えたことを特徴とする属性評価装置。 An attribute evaluation apparatus that evaluates attributes related to content based on information related to content,
Vector information generating means for generating information related to a vector representing a position in a vector space of information related to the content based on mutually orthogonal vectors associated with each candidate of the attribute related to the content;
Attribute evaluation means for evaluating an attribute relating to the content based on information generated by the vector information generation means;
An attribute evaluation apparatus characterized by comprising:
前記コンテンツに係る属性の各候補に対応付けられた互いに直交するベクトルを基底とし、かつ、前記コンテンツに係る情報のベクトル空間内での位置を表すベクトルに係る情報を生成するベクトル情報生成工程と、
前記ベクトル情報生成工程により生成された情報に基づいて前記コンテンツに係る属性を評価する属性評価工程と、
を含んだことを特徴とする属性評価方法。 An attribute evaluation method for evaluating attributes related to content based on information related to content,
A vector information generating step for generating information related to a vector representing a position in a vector space of information related to the content based on mutually orthogonal vectors associated with each candidate for the attribute related to the content;
An attribute evaluation step for evaluating an attribute relating to the content based on the information generated by the vector information generation step;
Attribute evaluation method characterized by including.
前記コンテンツに係る属性の各候補に対応付けられた互いに直交するベクトルを基底とし、かつ、前記コンテンツに係る情報のベクトル空間内での位置を表すベクトルに係る情報を生成するベクトル情報生成手順と、
前記ベクトル情報生成手順により生成された情報に基づいて前記コンテンツに係る属性を評価する属性評価手順と、
をコンピュータに実行させることを特徴とする属性評価プログラム。 An attribute evaluation program for evaluating attributes related to content based on information related to content,
A vector information generation procedure for generating information related to a vector representing a position in a vector space of information related to the content based on mutually orthogonal vectors associated with each candidate for the attribute related to the content;
An attribute evaluation procedure for evaluating an attribute related to the content based on information generated by the vector information generation procedure;
An attribute evaluation program for causing a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005014263A JP4755834B2 (en) | 2005-01-21 | 2005-01-21 | Attribute evaluation apparatus, attribute evaluation method, and attribute evaluation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005014263A JP4755834B2 (en) | 2005-01-21 | 2005-01-21 | Attribute evaluation apparatus, attribute evaluation method, and attribute evaluation program |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006202118A true JP2006202118A (en) | 2006-08-03 |
JP2006202118A5 JP2006202118A5 (en) | 2008-02-28 |
JP4755834B2 JP4755834B2 (en) | 2011-08-24 |
Family
ID=36960053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005014263A Active JP4755834B2 (en) | 2005-01-21 | 2005-01-21 | Attribute evaluation apparatus, attribute evaluation method, and attribute evaluation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4755834B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009015560A (en) * | 2007-07-04 | 2009-01-22 | Pioneer Electronic Corp | List generation device and method, and computer program |
JP2009266204A (en) * | 2008-04-01 | 2009-11-12 | Yahoo Japan Corp | Method for classifying content data to category, server, and program |
JP2010020461A (en) * | 2008-07-09 | 2010-01-28 | Jetrun Technology Corp | Advertisement distribution system |
JP2011192096A (en) * | 2010-03-16 | 2011-09-29 | Yahoo Japan Corp | Analytical processing regulating device and method |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003281161A (en) * | 2002-03-19 | 2003-10-03 | Seiko Epson Corp | Information classification method, information classification device, program and record medium |
-
2005
- 2005-01-21 JP JP2005014263A patent/JP4755834B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003281161A (en) * | 2002-03-19 | 2003-10-03 | Seiko Epson Corp | Information classification method, information classification device, program and record medium |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009015560A (en) * | 2007-07-04 | 2009-01-22 | Pioneer Electronic Corp | List generation device and method, and computer program |
JP2009266204A (en) * | 2008-04-01 | 2009-11-12 | Yahoo Japan Corp | Method for classifying content data to category, server, and program |
JP2010020461A (en) * | 2008-07-09 | 2010-01-28 | Jetrun Technology Corp | Advertisement distribution system |
JP2011192096A (en) * | 2010-03-16 | 2011-09-29 | Yahoo Japan Corp | Analytical processing regulating device and method |
Also Published As
Publication number | Publication date |
---|---|
JP4755834B2 (en) | 2011-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5662961B2 (en) | Review processing method and system | |
KR101721338B1 (en) | Search engine and implementation method thereof | |
KR101171405B1 (en) | Personalization of placed content ordering in search results | |
US7756720B2 (en) | Method and system for the objective quantification of fame | |
Domingues et al. | Combining usage and content in an online recommendation system for music in the long tail | |
US20090287676A1 (en) | Search results with word or phrase index | |
US20060287988A1 (en) | Keyword charaterization and application | |
JP2007188352A (en) | Page reranking apparatus, and page reranking program | |
JP5968744B2 (en) | SEARCH METHOD, DEVICE, AND COMPUTER-READABLE RECORDING MEDIUM USING CONCEPT KEYWORD EXTENDED DATA SET | |
JP2008234419A (en) | Database construction device | |
JP4743766B2 (en) | Impression determination system, advertisement article generation system, impression determination method, advertisement article generation method, impression determination program, and advertisement article generation program | |
JP4820147B2 (en) | Attribute evaluation program, attribute evaluation system, and attribute evaluation method | |
JP2008107904A (en) | Text and animation service apparatus, and computer program | |
De Nies et al. | Bringing Newsworthiness into the 21st Century. | |
JP2006318398A (en) | Vector generation method and device, information classifying method and device, and program, and computer readable storage medium with program stored therein | |
Lambert | Seeking electronic information from government resources: A comparative analysis of two communities' web searching of municipal government websites | |
JP4755834B2 (en) | Attribute evaluation apparatus, attribute evaluation method, and attribute evaluation program | |
WO2010035412A1 (en) | Data analysis device, data analysis method and program | |
Upadhyaya et al. | Quality of experience: What end-users say about web services? | |
JP2011028509A (en) | Relevance determination apparatus, relevance determination method and program | |
JP4883644B2 (en) | RECOMMENDATION DEVICE, RECOMMENDATION SYSTEM, RECOMMENDATION DEVICE CONTROL METHOD, AND RECOMMENDATION SYSTEM CONTROL METHOD | |
KR101583073B1 (en) | Server and method for article summary service | |
JP4213700B2 (en) | Blog community analysis device and program | |
KR100851042B1 (en) | Method for recommending extended advertising keyword and system thereof | |
JP2011180901A (en) | Device, method and program for evaluating reusability of experience information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080115 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100713 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100913 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110303 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110308 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110510 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110530 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140603 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4755834 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |