Nothing Special   »   [go: up one dir, main page]

JP2010118021A - トピックグラフを利用したドキュメント検索サーバ及び方法 - Google Patents

トピックグラフを利用したドキュメント検索サーバ及び方法 Download PDF

Info

Publication number
JP2010118021A
JP2010118021A JP2008292728A JP2008292728A JP2010118021A JP 2010118021 A JP2010118021 A JP 2010118021A JP 2008292728 A JP2008292728 A JP 2008292728A JP 2008292728 A JP2008292728 A JP 2008292728A JP 2010118021 A JP2010118021 A JP 2010118021A
Authority
JP
Japan
Prior art keywords
query
topic
document
token
tokens
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008292728A
Other languages
English (en)
Other versions
JP4969554B2 (ja
Inventor
Tatsuki Kobayashi
竜己 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008292728A priority Critical patent/JP4969554B2/ja
Publication of JP2010118021A publication Critical patent/JP2010118021A/ja
Application granted granted Critical
Publication of JP4969554B2 publication Critical patent/JP4969554B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザが検索のために入力したクエリに基づいて、ユーザの検索意図を推測し、クエリの意味に追従し、話題となっているドキュメントをレコメンドするサーバ及び方法を提供すること。
【解決手段】ドキュメント検索サーバ10は、蓄積されたクエリを構成する複数のトークンのそれぞれの間にユーザの入力順序に基づいた有向リンクを設定すると共に、同一のトークンを統合することによりトピックグラフを作成し、トピックグラフに基づいてクエリログDB20に蓄積したトークンのトピック度を算出し、算出したトピック度が所定の閾値より高いトークンであるソーストークンを抽出し、抽出したソーストークンを含むクエリをクエリログDB20から抽出し、抽出したクエリをクラスタリングしてトピッククラスタを作成し、受け付けたクエリに対応するトピッククラスタに属するクエリで高頻度に選択されているドキュメントをレコメンドする。
【選択図】図1

Description

本発明は、トピックグラフを利用したドキュメント検索サーバ及び方法に関する。特に、トピックグラフを利用し、ユーザの検索意図を推定するドキュメント検索サーバ及び方法に関する。
近年、インターネットの普及に伴い、インターネットに存在する膨大な情報を検索するウェブ検索がユーザによって頻繁に利用されている。このようなウェブ検索を行うにあたって、ユーザは様々なクエリを選定して行うが、より早く効率的に意図したドキュメントにたどり着けるようにするには、より適したクエリの選定が必要である。しかし、ユーザのクエリの選定は、各々ユーザの能力に依存する。また、適切なクエリが選定されたとしても検索エンジンの性能によってユーザの意図に応じた検索結果が出力されるとは限らない。そのため、ユーザが試行錯誤して探している可能性の高いドキュメントをレコメンドできることは、検索サービスの向上に繋がる。
このような検索サービスを行う発明として特許文献1に記載の発明が知られている。特許文献1に記載された発明は、ネットワークを介して取得できるウェブページ等の文書を取り出し、キーワードを抽出し、当該キーワードの一致数から文書の選択を行い、関連する文書間に仮想リンクを構築する。仮想リンクの付与と重み付け、関連リンクの意味情報を付加し、話題となっているホットトピックを抽出する。
特開2003−271669号公報
しかしながら、特許文献1のように、キーワードの一致数から文書間に重み付けを持つ仮想リンクを構築し、検索結果に話題性のある文書を提示することができたとしても、このキーワード(クエリ)には、意味の多重性、同義性、意味の変化の問題がある。例えば、クエリが「ハブ」の場合に、蛇の「ハブ」とネットワーク用語の「ハブ」のどちらなのかという意味の多重性(多義性)、クエリが「オリンピック」の場合と「五輪」の場合とがあるという同義性、意味の変化が生じ、一般用語として用いられるクエリが流行等の影響で固有名詞的に使われる等という問題がある。そのため、単にキーワードの一致数によりリンクを張ると、意味的に異なるページがリンクされたり、逆に類似するページがリンクされなかったりということが生じてしまい、意味を捉えた話題性のある文書を提示することは困難である。
そこで、ユーザが検索のために入力したクエリに基づいて、ユーザの検索意図を的確に捉え、話題性のある文書を提示することができる検索サーバが要望されている。
本発明は、ユーザが検索のために入力したクエリに基づいて、ユーザの検索意図を推測し、クエリの意味に追従し、話題となっているドキュメントをレコメンドすることができるドキュメント検索サーバ及び方法を提供することを目的とする。
本発明では、以下のような解決手段を提供する。
(1) ユーザから受け付けたクエリに基づいてドキュメントを検索するドキュメント検索サーバであって、複数のユーザから受け付けた前記クエリを蓄積するクエリログ蓄積手段と、前記クエリにより検索されたドキュメントのうち前記ユーザによって選択されたドキュメントを当該クエリに対応付けて蓄積するクリックログ蓄積手段と、前記クエリログ蓄積手段に蓄積された前記クエリを構成する複数のトークンのそれぞれの間に前記ユーザの入力順序に基づいた有向リンクを設定すると共に、同一のトークンを統合することによりトピックグラフを作成するトピックグラフ作成手段と、前記トピックグラフに基づいてクエリログ蓄積手段に蓄積したトークンのトピック度を算出するトピック度算出手段と、前記算出したトピック度が所定の閾値より高いトークンであるソーストークンを抽出するソーストークン抽出手段と、前記抽出したソーストークンを含むクエリを前記クエリログ蓄積手段から抽出し、抽出したクエリをクラスタリングしてトピッククラスタを作成するトピッククラスタ作成手段と、前記ドキュメントの検索時に受け付けたクエリに対応するトピッククラスタに基づいて、トピッククラスタ内に属するクエリで検索され選択されているドキュメントの内で高頻度に前記選択されているドキュメントを前記クリックログ記憶手段に基づいて選択してレコメンドするレコメンド手段と、を備えることを特徴とするドキュメント検索サーバ。
(1)の構成によれば、本発明に係るドキュメント検索サーバは、複数のユーザから受け付けたクエリを蓄積するクエリログ蓄積手段と、前記クエリにより検索されたドキュメントのうち前記ユーザによって選択されたドキュメントを当該クエリに対応付けて蓄積するクリックログ蓄積手段とを有している。そして、蓄積されたクエリを構成する複数のトークンのそれぞれの間にユーザの入力順序に基づいた有向リンクを設定すると共に、同一のトークンを統合することによりトピックグラフを作成し、トピックグラフに基づいてクエリログ蓄積手段に蓄積したトークンのトピック度を算出し、算出したトピック度が所定の閾値より高いトークンであるソーストークンを抽出し、抽出したソーストークンを含むクエリをクエリログ蓄積手段から抽出し、抽出したクエリをクラスタリングしてトピッククラスタを作成し、ドキュメントの検索時に受け付けたクエリに対応するトピッククラスタに基づいて、トピッククラスタ内に属するクエリで検索され選択されているドキュメントの内で高頻度に選択されているドキュメントをクリックログ記憶手段に基づいて選択してレコメンドする。
すなわち、本発明に係るドキュメント検索サーバは、蓄積されたクエリに基づいたトピックグラフを作成し、トピック度が高いソーストークンを抽出し、抽出したソーストークンを含むクエリをクラスタリングしてトピッククラスタを作成し、ドキュメントの検索時に受け付けたクエリに対応するトピッククラスタにおいて、当該トピッククラスタ内に属するクエリで検索され選択されているドキュメントの内で高頻度に選択されているドキュメントをクリックに基づいて選択してレコメンドする。したがって、ユーザが検索のために入力したクエリに基づいて、ユーザの検索意図を推測し、クエリの意味に追従し、話題となっているドキュメントをレコメンドすることができる。
(2) 前記ソーストークンの中から、前記トピックグラフに基づいて略同一のリンク関係を有する異なる複数のソーストークンを抽出し、それらのソーストークン間に双方向の有向リンクを設定する類似トークン検出手段を更に備えることを特徴とする(1)に記載のドキュメント検索サーバ。
(2)の構成によれば、(1)に記載のドキュメント検索サーバは、ソーストークンの中から、トピックグラフに基づいて略同一のリンク関係を有する異なる複数のソーストークンを抽出し、それらのソーストークン間に双方向の有向リンクを設定する。
すなわち、本発明に係るドキュメント検索サーバは、それぞれのソーストークンに対して設定されている有向リンクのリンク元、リンク先の同一性から、同義性のあるソーストークンを検出してそれぞれを同一と見なすことができる。よって、学習データや辞書を用いるようなテキストマイニングを行うことなく、ユーザの検索操作のログから同義語を動的に検出することができる。したがって、本発明に係るドキュメント検索サーバは、ユーザの検索意図を推測し、クエリの意味に追従し、話題となっているドキュメントをレコメンドすることができる。
(3) 前記トピッククラスタ作成手段は、前記抽出したソーストークンを含むクエリにより検索され、前記ユーザによって選択されたドキュメント間の意味的な距離に基づいて当該クエリをクラスタリングすることを特徴とする(1)又は(2)に記載のドキュメント検索サーバ。
(3)の構成によれば、(1)又は(2)に記載のドキュメント検索サーバは、抽出したソーストークンを含むクエリにより検索され、ユーザによって選択されたドキュメント間の意味的な距離に基づいて当該クエリをクラスタリングする。したがって、ユーザが検索のために入力したクエリに基づいて、ユーザの検索意図を推測し、クエリの意味に追従し、話題となっているドキュメントをレコメンドすることができる。
(4) ユーザから受け付けたクエリに基づいてドキュメントを検索する方法であって、複数のユーザから受け付けた前記クエリをクエリログ蓄積手段に蓄積するステップと、前記クエリにより検索されたドキュメントのうち前記ユーザによって選択されたドキュメントを当該クエリに対応付けてクリックログ蓄積手段に蓄積するステップと、前記クエリログ蓄積手段に蓄積された前記クエリを構成する複数のトークンのそれぞれの間に前記ユーザの入力順序に基づいた有向リンクを設定すると共に、同一のトークンを統合することによりトピックグラフを作成するステップと、前記トピックグラフに基づいてクエリログ蓄積手段に蓄積したトークンのトピック度を算出するステップと、前記算出したトピック度が所定の閾値より高いトークンであるソーストークンを抽出するステップと、前記抽出したソーストークンを含むクエリを前記クエリログ蓄積手段から抽出し、抽出したクエリをクラスタリングしてトピッククラスタを作成するステップと、前記ドキュメントの検索時に受け付けたクエリに対応するトピッククラスタに基づいて、トピッククラスタ内に属するクエリで検索され選択されているドキュメントの内で高頻度に前記選択されているドキュメントを前記クリックログ蓄積手段に基づいて選択してレコメンドするステップと、を備えることを特徴とする方法。
したがって、本発明に係る方法は、ユーザが検索のために入力したクエリに基づいて、ユーザの検索意図を推測し、クエリの意味に追従し、話題となっているドキュメントをレコメンドすることができる。
本発明によれば、ユーザが検索のために入力したクエリに基づいて、ユーザの検索意図を推測し、クエリの意味に追従し、話題となっているドキュメントをレコメンドすることができる。
以下、本発明の実施形態について図を参照しながら説明する。
図1は、本発明の特徴を示す図である。図1は、累積したクエリに基づいて、クエリを構成するトークン201,202のトピックグラフ200と、クエリ320をクラスタリングしたクエリクラスタ310と、ドキュメント421をクラスタリングしたドキュメントクラスタ410との関連を示している。そして、トピックグラフ200に基づいてトピック300を形成し、クエリ−ドキュメントマップ400を形成していることを示している。
図1において、本発明は、ユーザがドキュメントを検索するために入力したクエリを蓄積し、蓄積したクエリを構成するトークン201,トークン202等にリンクを張ることでトピックグラフ200を作成し、トピック性のあるトークン201を抽出することを示している。次に、図1において、本発明は、抽出したトピック性のあるトークン201に関連するクエリ320等をクラスタリングして、クエリクラスタ310を作成し、作成したクエリクラスタ310に対応するドキュメント421をクラスタリングしてドキュメントクラスタ410を作成することを示している。また、ユーザの検索操作を時間(セッション)で区切って追跡し、ユーザが入力したクエリにリンク350を張ることを示している。そして、本発明は、ドキュメントクラスタ410内からクリック率による人気のあるドキュメントを抽出する。すなわち、本発明は、作成したトピックグラフ200、クエリクラスタ310、ドキュメントクラスタ410を参照して、ユーザが入力したクエリに関連するトピックに連動した人気ドキュメントをレコメンドする。
ユーザが検索時に入力するクエリは、1又は複数のトークン(文字列)により構成される。図1において、蓄積したクエリのうち1つのクエリ320を構成するユーザが最初に入力した第1トークン201と、2番目に入力した第2トークン202との間に、第1トークン201から第2トークン202へ有向リンク250を張り、トピックグラフ200を作成していることを示している。トピックグラフにおいて、トピック性のあるトークンは、他のトークンにリンクする度合が高い。このようなトピック性のあるトークンをトピックグラフに基づいて抽出する。
一方、本発明は、クエリに基づいて検索エンジンが検索したドキュメントのなかで、ユーザが選択した(クリックした)ドキュメントについて、当該クエリに対する検索結果全体に対するクリック回数の回数の比率であるクリック率(Click Through Rate:CTR)を、クエリとドキュメントの組み合わせに対応付けて蓄積している。
そして、抽出したトピック性のあるトークンに関連するクエリをクラスタリングして、クエリクラスタを作成する。クエリのクラスタリングは、クエリに対して選択されたドキュメントの情報からクエリ間の意味的な距離を計り、該クエリをクラスタリングする。すなわち、クエリにより検索されたドキュメントの中で選択された(クリックされた)ドキュメントの類似性によりクラスタリングする。ドキュメントの類似は、ドキュメントを構成する形態素の類似性により判断する。検索の結果ページで表示される、検索語が含まれるドキュメントの抜き書きであるスニペットを用いて、ドキュメントの類似性を判断してもよい。
そして、本発明は、作成したクエリクラスタに対応するドキュメントをドキュメント同士の類似性によりクラスタリングしてドキュメントクラスタを作成し、ドキュメントクラスタ内からクリック率に基づいて人気のあるドキュメントを抽出する。そして、作成したトピックグラフ、クエリクラスタ、ドキュメントクラスタを参照して、ユーザが入力したクエリに関連するトピックに連動した人気ドキュメントをレコメンドする。
このように、本発明は、クエリ側でのトピック的距離と、ドキュメント側での言語的意味的距離とで、類似クエリ集合(トピック)と類似ドキュメント集合(言語的意味)とをそれぞれ生成し、ユーザのクエリを関連するトピックにマッピングし、クエリリンクを辿ってトピックを探索し、周辺の有意にポピュラーなドキュメントを特定し、レコメンドする。
図2は、本発明の一実施形態に係るドキュメント検索サーバ10の機能を示す機能ブロック図である。本発明の一実施形態に係るドキュメント検索サーバ10は、クエリログ蓄積手段としてクエリログDB20と、クリックログ蓄積手段としてクリックログDB30と、クエリ受付部11と、トピックグラフ作成手段としてトピックグラフ作成部12と、トピック度算出手段としてトピック度算出部13と、ソーストークン抽出手段としてソーストークン抽出部14と、トピッククラスタ作成手段としてトピッククラスタ作成部15と、類似トークン検出手段として類似トークン検出部16と、レコメンド手段としてレコメンド部17と、を備えている。
クエリログDB20は、クエリ受付部11が複数のユーザから受け付けたクエリを蓄積する。ドキュメントを検索するためにユーザが入力するクエリは、ドキュメントを検索するためのキーワードであるトークンから構成されている。例えば、オリンピックについてドキュメントを得ようとするユーザが、「オリンピック、北京」と入力したクエリは、2つのトークン「オリンピック」、「北京」から構成されていることになる。このような、2つのトークンから構成されるクエリを特に、2トークンクエリという。
クリックログDB30は、クエリにより検索されたドキュメントのうちユーザによって選択されたドキュメントを当該クエリに対応付けて蓄積する。例えば、クエリが「北京オリンピック」の場合に、検索エンジンの検索結果が「北京オリンピック公式サイト」、「北京オリンピックとは」等のドキュメント(URL:Uniform Resource Locator)であり、そのうちの「北京オリンピック公式サイト」がユーザによって選択されたとすると、クエリ「北京オリンピック」に、ドキュメント「北京オリンピック公式サイト」を対応付けてクリックログDB30に蓄積する。そして、クエリ及びドキュメントに対応付けて、ドキュメントを選択した比率であるクリック率を記憶している。
トピックグラフ作成部12は、クエリログDB20に蓄積されたクエリを構成する複数のトークンのそれぞれの間にユーザの入力順序に基づいた有向リンクを設定すると共に、同一のトークンを統合することによりトピックグラフ(後述する図3参照)を作成する。
トピック度算出部13は、トピックグラフに基づいてクエリログDB20に蓄積したトークンのトピック度を算出する。
ソーストークン抽出部14は、算出したトピック度が所定の閾値より高いトークンであるソーストークンを抽出する。
トピックグラフは、クエリログDB20に蓄積したクエリログに基づいて生成される。すなわち、2つのトークンから構成される2トークンクエリ(2トークンクエリ=“トークン1 トークン2”)集合全体に対して、2トークンクエリq=“t1 t2”からノードt1とt2をつくり、t1からt2に有向リンクを作り、2トークンクエリ集合から抽出したノード全てを有向リンクで繋ぐ。ここで、図3を参照して説明する。
図3は、本発明の一実施形態に係るトピックグラフの例を示す図である。図3(1)は、トークンを有向リンクで繋いだ場合の例を示している図である。図3(1)において、クエリを構成する2つのトークンのうち、ユーザが最初に入力したトークン1、例えばトークン201から、2番目に入力したトークン2、例えばトークン202へ、有向リンク250で繋いでいる。このように、クエリログDB20に蓄積したクエリに基づいて、クエリを構成するトークン1と、トークン2との関連を繋ぐことにより、有向リンクが外向きに出て行くノード、すなわち、有向リンクの出力源となるトークンを抽出することができる。複数ユーザのクエリログを逐次読み込んで、このトピックグラフを作成することで、トピック性(話題性)のあるトークンを抽出することができる。
具体的なトピックグラフ生成は、例えば、次のような方法がある。
(1)ステップ1
クエリログDB20に出現する全てのトークンnの基本尺度の計算をする。すなわち、次の計算式によりトークン強度(エントロピー)E(n)と、トピック度F(n)を算出する。
Figure 2010118021
Figure 2010118021
ここで、N(n)はトークンが単独でクエリとなった頻度(1トークン頻度)、N(n)は2トークンクエリでの第1トークンとしての出現頻度、N(n)は2トークンクエリでの第2トークンとしての出現頻度、Nは対象とする全てのクエリの出現頻度である。F(n)が正で大きいほどノードから出力されるリンクの数が多く、ソース度が強い。F(n)が負でマイナスになればなるほど、ノードに入力するリンクの数が多く、逆にソース度が弱く、吸い込み度が強い。ここで、図3(2)を参照して説明をする。
図3(2)は、上述の算出したソース度に基づいて、トークンを直線上に並べた場合を示している。トピック度の強いトークンのうち所定の閾値(例えば、0.5)以上をソーストークンといい、トピック性を有する。一方、ソース度の弱いトークン(例えば、ソース度が負)は、吸い込み度(有向リンクを吸い込む)が強く、トピック性を有しない一般トークンという。例えば、実際に累積したクエリに基づいて、E(n)、F(n)を求めてみると、平成20年8月の時点で下記表1のような実験結果が得られた。当該表に示すように、トピック度の高いトークンとして動画共有サイトとして著名な「youtube」や、平成20年に開催された「オリンピック」、「北京オリンピック」等を抽出することができ、トピック度の低いトークンとして一般的な単語の「映画」、「動画」、「レシピ」等を抽出することができる。
Figure 2010118021
(2)ステップ2
(2−1)トピック度が高い上位のトークンNt個(ソーストークン)を選ぶ。
(2−2)ソーストークンt1について、2トークンクエリの全てのリンク先トークンを含めたトークン集合Tnを集める。
(2−3)Tnのソーストークン以外の全トークンについて自己相互情報量PMI(Pointwise Mutual Information)から自己相互情報量比RPMI(Ratio of Pointwise Mutual Information)を求める。
Figure 2010118021
(2−4)RPMIが高いトークンを上位からNr個求めそれら以外のトークンをTnから除去しソーストークンを中心としたトピッククラスタTnとする。
(2−5)ソーストークンについてそれぞれ(2−1)〜(2−4)の処理を行いトピッククラスタ集合を求める。
(2−6)トークンが含まれるクラスタを調べトピックトークンを次の(1)〜(4)に分類する。
(1)ソーストークンは、(2−1)で定義したNt個のトークンである。
(2)トピックスペシフィックトークンは、1つのトピッククラスタにのみ存在する(一般トークンでもソーストークンでもない)トピックトークンである。
(3)マルチトピックトークンは、複数のトピッククラスタに存在する(一般トークンでもソーストークンでもない)トピックトークンである。
(4)一般トークンは、トピック度が低いトークンを下位(マイナス)からNg個の、一般性が強いトークンである。
(2−7)クラスタ分類
ソーストークンの包含関係からクラスタ間の包含関係を見つける。
(2−8)トピッククラスタTnに含まれる全トークンのトークン強度の単純和を求め、トピッククラスタ単位のトレンド強度を求める。
(3)ステップ3
ステップ3では、類似トークンを検出する。ステップ2とは異なり直接リンクはないがトークン同士の有向リンクの入出力の関係が類似しているソーストークンを検出する。下記の係数が大きいソーストークンペアを見つけ類似性リンクを張る。ここで、類似性係数は、t1がt2に属している場合の係数Sim(t1→t2)と、t2がt1に属している場合の係数Sim(t2→t1)とは次の式で求めることができる。
Figure 2010118021
Figure 2010118021
ここで、N(t|t∩t)は、tとtにリンクされる共通なリンク元トークン(有向リンクの出力元)についてのtに対するリンク元トークンの頻度合計である。
同様に、N(t|t∩t)は、tとtにリンクされる共通なリンク元トークンのtに対するリンク元トークンの頻度合計である。
(t|t∩t)は、tとtからリンクされる共通なリンク先トークン(有向リンクの出力先)のtのリンク先トークンの頻度合計である。
(t|t∩t)は、tとtからリンクされる共通なリンク先トークンのtに対するリンク先トークンの頻度合計である。
(t)は、tのリンク元トークンの頻度合計である。
(t)は、tのリンク元トークンの頻度合計である。
(t)は、tのリンク先トークンの頻度合計である。
(t)は、tのリンク先トークンの頻度合計である。
類似性係数は、式を見て明らかなように、一方がもう一方に含まれる度合いの内で大きい方を取る。そのため、類似性は方向性を持つ。
このように生成したトピックグラフは、次のような性質を有している。
(1)トピック関連性(トピックグループ)についての性質
あるノードとその下にリンクした単一トピッククエリTsで形成されるノード集合はあるトピックに強く関連する。
(2)あるノードと複数トピッククエリTmでグラフを分類し、ソースクエリS、複数トピッククエリTmの関連性の高いノードでリンクを作ったサブグラフについての性質
(2−1)サブクラスタ同士は類似性がある。
(2−2)同じトピック集合であればサブクラスタ集合同士の類似性が強くなる。
(2−3)双方向リンクが存在する2つのノードx1、x2が有意に重複する同じ上位のノードからのリンクと下位ノードへのリンクを持つと強い意味の類似性がある(文脈類似度)。しかし、これは使用の文脈が類似しているだけなのでカテゴリ意味の観点からは必要条件ではあるが十分条件ではない。
(3)多義性がある。
(3−1)あるノードxから下方にリンクする複数ノードの一つ一つはノードxの異なる意味を持つ。
(3−2)下位ノードでも一般クエリG,単一トピッククエリTs、複数トピッククエリTmでは異なる意味を持つ。
トピッククラスタ作成部15は、抽出したソーストークンを含むクエリをクエリログDB20から抽出し、抽出したクエリをクラスタリングしてトピッククラスタを作成する。
抽出したクエリによるトピックグラフは、次の要素から構成されている。
(1)ソースクエリ
単一クエリで高頻度に抽出される。ソースクエリを構成するトークンは、2トークンクエリの第1トークンになる傾向が強い(グラフの始点になる)。
(2)一般クエリ
単一クエリで低頻度に抽出される。一般クエリを構成するトークンは、2トークンクエリの第2トークンになる傾向が強く第1トークンにはほとんどならない(グラフの終点になる)。複数のソースクエリのツリーに共有される。
(3)単一トピッククエリ
あるソースクエリのツリーの下にのみ出現する一般クエリでないクエリである。
(4)複数トピッククエリ
複数のソースクエリのツリーに共有される一般クエリでないクエリである。
クエリをクラスタリングし、ドキュメントをクラスタリングすることにより、クエリ−ドキュメントマップを形成する。このように形成されたクエリ−ドキュメントマップは、あるトピックに関係するクエリと、関連するドキュメント(例えば、URLで示されるウェブドキュメント)とで形成されるクエリ単位のグラフである。クエリ−ドキュメントマップは、トピックの検出、語彙の意味変化検出、多義や同義の検出を可能にするクエリとドキュメントのマッピング空間を作成する。
ここで、クエリ同士には、クエリにより検索されたドキュメントの中から選択されたドキュメントのスニペットの情報によって、クエリとクエリとの間の距離が算出される。距離が近いクエリは同じ検索意図を持つクエリの集合(クエリクラスタ)を形成する(クエリ意味の類似性)。クエリは1つの検索意図を持つ場合もあれば異なる検索意図を持つ(複数の異なるクエリクラスタに関連する)場合もある(クエリ意味の多義性)。ドキュメントクラスタの中では最も支配的なドキュメントが1つ又は複数抽出できる。更にクエリが対応するドキュメントクラスタ中の支配的なドキュメントが特定可能となる。図4を参照して説明する。
図4は、本発明の一実施形態に係るクエリ−ドキュメントマップの例を示す図である。図4において、クエリ320にドキュメント421,422が対応付けられていることを破線は示している。すなわち、ドキュメント421,422は、クエリ「北京オリンピック 選手」により検索エンジンが検索した結果のドキュメントの中から、ユーザがクリックすることにより選択したドキュメントである。ドキュメント421は、クリック率が例えば90%で、他のドキュメントのクリック率より高いので、ドキュメントクラスタ410の中で、ポピュラーなドキュメントであることを示している。
クエリ−ドキュメントマップ生成は、例えば、次のようなアルゴリズムで可能である。
(1)トピックグラフの1つのトピックを選択し1トークンクエリと2トークンクエリを作る。
すなわち、トピックT(i)={q(i,j)}、
クエリ頻度Nq(j)、
クエリ表層表現q(j)=({t(k)})、とする。
ここで、i=トピックID、j=クエリID、k=トークンID、
{t(k)}=トークンIDの列、である。
(2)ドキュメントの情報を得る。
ドキュメントごとに、ドキュメントを表示した全てのクエリのスニペットから集めた単語(形態素)ベクトルを作る。
すなわち、ドキュメントの単語ベクトルu(i)=[w(j)]´
ここで、i=ドキュメントID、j=単語ID、である。
そうすると、ドキュメントごとのクリック数合計Nu(i)=Σj{u(i,j)}である。
ここで、uはクエリjに対するあるドキュメントiのクリック数、
i=ドキュメントID、j=クエリIDでのクリック数、である。
(3)クエリとドキュメントの関係性データを集める。
すなわち、クエリごとのドキュメント別CTRr(i,j)とする。
ここで、i=ドキュメントID、j=クエリID、である。
(4)単語コレクションを使い正規化コサイン距離でドキュメントを階層クラスタリングする。すなわち、各ドキュメントクラスタで頻度が最も多い中心ドキュメントを求める。各ドキュメントクラスタの単語ベクトルvを求め、これをトピックベクトルとする。
ドキュメントクラスタベクトルv(i)
(5)各クエリでのドキュメントのCTR(rの比)でクエリをベクトル化し、ドキュメントクラスタ上にマッピングする。
すなわち、クエリベクトルz(j)=[u(i)*r(i,j)]´
もし、クエリベクトルが、あるドキュメントに強く関連する場合には、ナビゲーショナルクエリとドキュメントとのペアといえる。図5を参照して説明する。
図5は、本発明の一実施形態に係るクエリ−ドキュメントマップとクエリベクトルとの関係を示す図である。図5において、クラスタベクトル501は、ドキュメントクラスタ410のトピックベクトルを示しており、ドキュメントクラスタ410に属するドキュメントから集められた単語ベクトルからなる。そして、図5は、クエリベクトル503が、ドキュメント422を指すベクトル502と、ドキュメント423を指すベクトル504とに分解される場合には、クエリベクトル503と、ドキュメント422及びドキュメント423との関係は、ナビゲーショナルクエリ(多くのユーザが検索結果の中から選択するドキュメントが定まっているクエリ)と、ドキュメントとのペアといえることを示している。
図2に戻って説明する。類似トークン検出部16は、ソーストークンの中から、トピックグラフに基づいて略同一のリンク関係を有する異なる複数のソーストークンを抽出し、それらのソーストークン間に双方向の有向リンクを設定する。
レコメンド部17は、ドキュメントの検索時に受け付けたクエリに対応するトピッククラスタに基づいて、トピッククラスタ内に属するクエリで検索され選択されているドキュメントの内で高頻度に選択されているドキュメントをクリックログDB30に基づいて選択してレコメンドする。例えば、トピッククラスタ内に属するクエリで検索され選択されているドキュメントの内で、所定の閾値より高い率(例えば、クリックログDB30のクリック率が80以上)で選択されている人気のあるドキュメントや、最も高い率で選択されている人気のあるドキュメント等をレコメンドする。
本発明は、次の(1)から(3)のようなレコメンデーションを行うことができる。
(1)芋づる検索(つい間違ってしまうドキュメント)
クエリの多義性を検知し、異なるトピックに対応する複数のドキュメントの推薦、あるいは複数のクエリサジェッションを行う。例えば、「ハブ」というクエリに対して、そのクエリが属するトピックからコンピュータのハブと蛇のハブの2つのドキュメントをサジェストする。あるいは、ユーザが行う連続した一定時間内の検索操作を1つのセッションと考え、1セッション内において、前のクエリを用いてトピックの多義性解消を行い関係が深い方のトピックについてのみドキュメント推薦を行う。
(2)BUZZレコメンデーション(うっかりするとすれ違うドキュメント)
クエリに対応するトピックがカバーする関連ドキュメント集合中で最もポピュラーなドキュメントを推薦する。例えば、「DS」というトピックに対して、今一番流行のDSのゲームソフトのページを提示する。トピックグループで最もポピュラーなドキュメントを推薦する手法と、トピック内のローカルなサブトピックス内でポピュラーなドキュメントを推薦する手法の2つがある。
(3)セレンディビティレコメンデーション(なかなか出会えない掘り出しドキュメント)
あるトピックのサブトピックに対応するクエリの場合にトピック中の別のサブトピックに対応するドキュメントで最もポピュラーなドキュメントを推薦する。又は各サブトピックでポピュラーなドキュメントを一覧にして提示する。例えば、「itune」というトピックに対して、様々なサブトピックスの一覧に対応するドキュメント(故障、動画、アップル等)を推薦する。一般クエリの場合は関係するトピック性の強い話題を提供することができる(クラスタとインスタンス的推薦)。例えば、「レシピ」というトピックでたまたま人気がある湯豆腐、マツタケご飯、レバニラ炒め等を推薦する。
レコメンデーションは、次のようなアルゴリズムで可能である。
(1)検索結果に出てくるドキュメントは推薦しない。
(2)トピックグラフから生成されるトピックに基づくクエリ間リンクを辿り以下の条件に基づくトピック選択を行う、どの条件をとるかはクエリ自体の属性から判断する。
(2−1)クエリがトピックトークン及びトピックトークン+一般トークンから構成される場合
(2−1−1)芋づる検索とBUZZレコメンデーションの場合、クエリが属するトピックが対象となる。そのトピックがサブトピックか、大きなメイントピックかで、芋づる検索によるレコメンデーションか、BUZZレコメンデーションかを選択する。
(2−1−2)セレンディビティレコメンデーションの場合、クエリが属するトピックと親トピックを共有する別のサブトピックを探す。
(2−2)一般トークンの場合
グラフ上でリンクがあるトピックを探す。様々な手法を選択できるが、リンクのあるトピッククエリが属するサブトピックス、あるいはその親トピック、又は全体トピックもありえる。
(2−3)トピックトークン+トピックトークンの場合
もし、同じクエリがトピックにあれば、(2−1)の手法が取れるが、もしトピック内に同じクエリがなければ、クエリをトークンごとに分解し、複数のトピックで処理を行う。
(3)トピックが選択されたドキュメントのポピュラー性をみて推薦ドキュメントの特定を行う。
図6は、本発明の一実施形態に係るトピックグラフの例を示す図である。図6の例は、クエリクラスタ311が、トピックA300と、トピックB301とに重複して属していることを示している。すなわち、クエリクラスタ311は、「ハブ」クエリ321と、「ハブ酒」クエリ322を含み、「ハブ」クエリ321は、「インターネット」クエリ323及び「チャンプル」クエリ324にリンクしている。このようなクエリの多義性を解消するために、「インターネット」クエリ323が構成するトピックB301のドキュメント424と、「チャンプル」クエリ324が構成するトピックA300のドキュメント425の両方を提示し、ユーザの選択に基づいて多義性を解消する。また、ユーザの操作についてセッションを設け、一定時間の間についてユーザの入力したクエリを追跡し、追跡したクエリに基づいて推定し、いづれのトピックのドキュメントを提示するかを判断するとしてもよい。
図7は、本発明の一実施形態に係るドキュメント検索サーバ10のハードウェア構成の一例を示す図である。ドキュメント検索サーバ10は、CPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、USBポート1090、I/Oコントローラ1070、並びにキーボード及びマウス1100等の入力手段や表示装置1022を備える。
I/Oコントローラ1070には、テープドライブ1072、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078、等の記憶手段を接続することができる。
BIOS1060は、ドキュメント検索サーバ10の起動時にCPU1010が実行するブートプログラムや、ドキュメント検索サーバ10のハードウェアに依存するプログラム等を格納する。
ハードディスク1074は、ドキュメント検索サーバ10が本発明の機能を実行するためのプログラムを記憶しており、更に、クエリログDB20、クリックログDB30等の各種データベースを構成可能である。
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。また、同様にテープドライブ1072に対応したテープメディア1071を主としてバックアップのために使用することもできる。
ドキュメント検索サーバ10に提供されるプログラムは、ハードディスク1074、光ディスク1077、又はメモリカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、又は通信I/F1040を介してダウンロードされることによって、ドキュメント検索サーバ10にインストールされ実行されてもよい。
前述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、記憶媒体としては、ハードディスク1074、光ディスク1077、又はメモリカードの他に、MD等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク又は光ディスクライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してプログラムをドキュメント検索サーバ10に提供してもよい。
ここで、表示装置1022は、ドキュメント検索サーバ10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
また、通信I/F1040は、ドキュメント検索サーバ10を専用ネットワーク又は公共ネットワークを介して端末(例えば、ユーザの端末60等)と接続できるようにするためのネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
図8は、本発明の一実施形態に係るクエリログDB20の例を示す図である。クエリログDB20は、クエリを記憶している。そして、クエリに対応付けて、トピック度を記憶している。クエリは、トークンから構成されている。トピック度は、蓄積されていくクエリに基づいて算出され、算出されるごとに変化する。
図9は、本発明の一実施形態に係るクリックログDB30の例を示す図である。クリックログDB30は、クエリに対応付けて、ドキュメントを示すURLと、スニペットと、クリック率とを記憶している。ドキュメントを示すURLは、受け付けたクエリによって検索したドキュメントを示すURLであり、スニペットは、検索したドキュメント内の一部分を抜粋したテキストである。クリック率は、検索したドキュメントの中でユーザが選択するためにクリックした回数に対する当該ドキュメントを選択したクリック回数の比率である。
図10は、本発明の一実施形態に係るドキュメント検索サーバ10の処理内容を示すフローチャートである。なお、本処理は、例えば、クエリ入力ごとにプログラム開始指令を受け付けて開始し、処理を行い、終了する。
ステップS101において、CPU1010は、トピックグラフ作成処理(後述する図11参照)をする。その後、CPU1010は、処理をステップS102に移す。
ステップS102において、CPU1010は、クエリドキュメントマップ作成処理(後述する図12参照)をする。その後、CPU1010は、処理をステップS103に移す。
ステップS103において、CPU1010は、ドキュメントのクラスタリングをする。より具体的には、CPU1010は、ドキュメントの類似性を求め、類似するドキュメントをクラスタリングする。ドキュメントの類似性は、ドキュメントがクエリで検索されユーザによって選択されたときのスニペットを構成する形態素の類似性により判断する。その後、CPU1010は、処理をステップS104に移す。
ステップS104において、CPU1010は、受け付けたクエリをマッピングする。すなわち、CPU1010は、ユーザから受け付けたクエリをベクトル化し、ドキュメントクラスタ上にマッピングする。その後、CPU1010は、処理をステップS105に移す。
ステップS105において、CPU1010は、レコメンデーション処理(後述する図13参照)をする。その後、CPU1010は、処理を終了する。
図11は、本発明の一実施形態に係るドキュメント検索サーバ10のトピックグラフ作成処理を示すフローチャートである。
ステップS201において、CPU1010は、トークン強度E(n)、トピック度F(n)を算出する。すなわち、E(n)及びF(n)は、上述した数式1及び数式2によって算出される。その後、CPU1010は、処理をステップS202に移す。
ステップS202において、CPU1010は、ソーストークンを抽出する。より具体的には、CPU1010は、ソース/吸い込み度が所定の閾値より高い上位のトークンを(Nt個)抽出する。その後、CPU1010は、処理をステップS203に移す。
ステップS203において、CPU1010は、トークン集合Tnを求める。その後、CPU1010は、処理をステップS204に移す。
ステップS204において、CPU1010は、RPMIを算出する。すなわち、RPMIは、上述した数式3によって算出される。その後、CPU1010は、処理をステップS205に移す。
ステップS205において、CPU1010は、トピッククラスタを求める。より具体的には、CPU1010は、RPMIが所定の閾値より高いトークンを上位からNr個求め、それら以外のトークンを除去しソーストークンを中心としたトピッククラスタTnとする。その後、CPU1010は、処理をステップS206に移す。
ステップS206において、CPU1010は、ソーストークン全てについてTnを求めたか否かを判断する。より具体的には、CPU1010は、ステップS202からステップS205までの処理をカウントしたカウンタと、ソーストークンの個数であるNtとを比較し等しくなったか否かを判断する。この判断がYESの場合は、処理をステップS207に移し、NOの場合は処理をステップS202に移す。
ステップS207において、CPU1010は、トピックトークン及びトピッククラスタの分類を行う。より具体的には、CPU1010は、トークンが含まれるクラスタを調べトピックトークンを、ソーストークンか、トピックスペシフィックトークンか、マルチトピックトークンか、一般トークンかに分類する。そして、トピッククラスタを分類して、ソーストークンの包含関係からトピッククラスタ間の包含関係を見つける。その後、CPU1010は、処理をステップS208に移す。
ステップS208において、CPU1010は、トピッククラスタのトレンド強度を算出する。すなわち、トピッククラスタTnに含まれる全トークンのトピック強度E(n)の単純和を求め、トピッククラスタ単位のトレンド強度を算出する。その後、CPU1010は、処理をステップS209に移す。
ステップS209において、CPU1010は、類似トークンを検出する。より具体的には、CPU1010は、ソーストークンt1、t2のペアについて上述の数式4及び数式5により類似性係数を求め、類似性係数が大きい方の類似性リンクを張る。例えば、Sim(t1→t2)がSim(t2→t1)より大きい場合にはt1からt2へ類似性リンクを張る。その後、CPU1010は、処理を終了し、本処理を実行するステップの次のステップへリターンする。
図12は、本発明の一実施形態に係るドキュメント検索サーバ10のクエリ−ドキュメントマップ作成処理を示すフローチャートである。
ステップS301において、CPU1010は、トピックトークンからクエリを作成する。すなわち、トピックグラフの1つのトピックトークンを選択し、1トークンクエリと2トークンクエリとを作成する。その後、CPU1010は、処理をステップS302に移す。
ステップS302において、CPU1010は、ドキュメントの情報を取得する。すなわち、ドキュメントごとに、クリックログDB30に基づいて、作成したクエリに対応付けられたスニペットから集めた単語(形態素)ベクトルを作る。その後、CPU1010は、処理をステップS303に移す。
ステップS303において、CPU1010は、クエリとドキュメントとの関係を抽出する。すなわち、クエリと、ドキュメントの単語ベクトルとを対応付ける。その後、CPU1010は、処理をステップS304に移す。
ステップS304において、CPU1010は、ドキュメントを階層クラスタリングする。すなわち、各ドキュメントクラスタの中で頻度が最も多い中心ドキュメントを、クリックログDB30に基づいて求める。その後、CPU1010は、処理を終了し、本処理を実行するステップの次のステップへリターンする。
図13は、本発明の一実施形態に係るドキュメント検索サーバ10のレコメンデーション処理を示すフローチャートである。
ステップS401において、CPU1010は、第1トークンはトピックトークンか否かを判断する。すなわち、第1トークンが属するトピッククラスタがあるか否かを判断する。この判断がYESの場合は、処理をステップS403に移し、NOの場合は処理をステップS402に移す。
ステップS402において、CPU1010は、第1トークンに関連するトピッククラスタ内のドキュメントをレコメンドする。すなわち、一般トークンからなるクエリであるので、関連するクエリが属するトピッククラスタ内で所定の閾値(例えば、クリック率が80以上)より高い率又は最も高い率でクリックされたドキュメントをレコメンドする。その後、CPU1010は、処理を終了し、本処理を実行するステップの次のステップへリターンする。
ステップS403において、CPU1010は、第2トークンはあるか否かを判断する。この判断がYESの場合は、処理をステップS404に移し、NOの場合は処理をステップS406に移す。
ステップS404において、CPU1010は、第2トークンはトピックトークンか否かを判断する。この判断がYESの場合は、処理をステップS405に移し、NOの場合は処理をステップS406に移す。
ステップS405において、CPU1010は、クエリを第1トークンと第2トークンとに分解し、それぞれに関連するトピッククラスタ内で所定の閾値(例えば、クリック率が80以上)より高い率又は最も高い率でクリックされたドキュメントをレコメンドする。その後、CPU1010は、処理を終了し、本処理を実行するステップの次のステップへリターンする。
ステップS406において、CPU1010は、第1トークンが関連するトピッククラスタが全体トピックか否かを判断する。すなわち、トピッククラスタ内のソーストークンが別のトピッククラスタのソーストークンと類似性リンクが張られていない(全体トピック)か否かを判断する。この判断がYESの場合は、処理をステップS407に移し、NOの場合は処理をステップS408に移す。
ステップS407において、CPU1010は、トピッククラスタ内のドキュメントをレコメンドする。すなわち、第1トークンを含むクエリが属するトピッククラスタ内で所定の閾値(例えば、クリック率が80以上)より高い率又は最も高い率でクリックされたドキュメントをレコメンドする。その後、CPU1010は、処理を終了し、本処理を実行するステップの次のステップへリターンする。
ステップS408において、CPU1010は、親トピック共有か否かを判断する。すなわち、当該トピッククラスタから別のトピッククラスタに類似性リンクを複数張っているか否かを判断する。この判断がYESの場合は、処理をステップS409に移し、NOの場合は処理をステップS410に移す。
ステップS409において、CPU1010は、複数のドキュメントをレコメンドする。すなわち、当該トピッククラスタから類似性リンクによって張られているそれぞれのトピッククラスタの内で所定の閾値(例えば、クリック率が80以上)より高い率又は最も高い率でクリックされたドキュメントをそれぞれレコメンドする。その後、CPU1010は、処理を終了し、本処理を実行するステップの次のステップへリターンする。
ステップS410において、CPU1010は、別のサブトピックのドキュメントをレコメンドする。すなわち、当該トピッククラスタのソーストークンと、類似性リンクによって関連しているトピッククラスタ内のソーストークンとのトピック度を比較し、トピック度の高いソーストークンを含むトピッククラスタ内で所定の閾値(例えば、クリック率が80以上)より高い率又は最も高い率でクリックされたドキュメントをレコメンドする。その後、CPU1010は、処理を終了し、本処理を実行するステップの次のステップへリターンする。
図14は、本発明の一実施形態に係るユーザの端末60の表示例を示す図である。図14が示す例は、ユーザの端末60の表示装置61に、検索結果が表示されていることを示す例である。
図14は、ユーザの端末60の表示装置61の入力欄101に、ユーザが入力したクエリ「北京オリンピック」が表示されていることを示している。そして、ドキュメント検索サーバ10は、受け付けたクエリ「北京オリンピック」に対応するトピッククラスタにおいて、当該トピッククラスタ内に属するクエリ「北京オリンピック、野球」で検索され、例えば、最も高い率で選択されているドキュメント「北京オリンピック野球速報」をクリックログDB30に基づいて選択してレコメンドした結果、図14は、ユーザの端末60の表示装置61の出力欄102に、検索結果と共に、ドキュメント検索サーバ10によってレコメンドされた「北京オリンピック野球速報」が表示されていることを示している。
実施例によれば、本発明に係るドキュメント検索サーバ10は、複数のユーザから受け付けたクエリをクエリログDB20に蓄積し、クエリにより検索されたドキュメントのうちユーザによって選択されたドキュメントを当該クエリに対応付けてクリックログDB30に蓄積する。そして、蓄積されたクエリを構成する複数のトークンのそれぞれの間にユーザの入力順序に基づいた有向リンクを設定すると共に、同一のトークンを統合することによりトピックグラフを作成し、トピックグラフに基づいてクエリログDB20に蓄積したトークンのトピック度を算出し、算出したトピック度が所定の閾値より高いトークンであるソーストークンを抽出し、抽出したソーストークンを含むクエリをクエリログDB20から抽出し、抽出したクエリをクラスタリングしてトピッククラスタを作成する。その後、ドキュメントの検索時に受け付けたクエリに対応するトピッククラスタに基づいて、トピッククラスタ内に属するクエリで検索され選択されたドキュメントの内で所定の閾値より高い率又は最も高い率で選択されているドキュメントを、クリックログDB30に基づいて選択してレコメンドする。
更に、実施例によれば、本発明に係るドキュメント検索サーバ10は、ソーストークンの中から、トピックグラフに基づいて略同一のリンク関係を有する異なる複数のソーストークンを抽出し、それらのソーストークン間に双方向の有向リンクを設定する。すなわち、ドキュメント検索サーバ10は、それぞれのソーストークンに対して設定されている有向リンクのリンク元、リンク先の同一性から、同義性のあるソーストークンを検出してそれぞれを同一と見なすことができる。よって、学習データや辞書を用いるようなテキストマイニングを行うことなく、グラフ上での分布類似度という考え方を使い、ユーザの検索操作のログから同義語を動的に検出することができる。したがって、ドキュメント検索サーバ10は、ユーザが検索のために入力したクエリに基づいて、ユーザの検索意図を推測し、クエリの意味に追従し、話題となっているドキュメントをレコメンドすることができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
本発明の特徴を示す図である。 本発明の一実施形態に係るドキュメント検索サーバ10の機能を示す機能ブロック図である。 本発明の一実施形態に係るトピックグラフの例を示す図である。 本発明の一実施形態に係るクエリ−ドキュメントマップの例を示す図である。 本発明の一実施形態に係るクエリ−ドキュメントマップとクエリベクトルとの関係を示す図である。 本発明の一実施形態に係るトピックグラフの例を示す図である。 本発明の一実施形態に係るドキュメント検索サーバ10のハードウェア構成の一例を示す図である。 本発明の一実施形態に係るクエリログDB20の例を示す図である。 本発明の一実施形態に係るクリックログDB30の例を示す図である。 本発明の一実施形態に係るドキュメント検索サーバ10の処理内容を示すフローチャートである。 本発明の一実施形態に係るドキュメント検索サーバ10のトピックグラフ作成処理を示すフローチャートである。 本発明の一実施形態に係るドキュメント検索サーバ10のクエリ−ドキュメントマップ作成処理を示すフローチャートである。 本発明の一実施形態に係るドキュメント検索サーバ10のレコメンデーション処理を示すフローチャートである。 本発明の一実施形態に係るユーザの端末60の表示例を示す図である。
符号の説明
10 ドキュメント検索サーバ
11 クエリ受付部
12 トピックグラフ作成部
13 トピック度算出部
14 ソーストークン抽出部
15 トピッククラスタ作成部
16 類似トークン検出部
17 レコメンド部
20 クエリログDB
30 クリックログDB

Claims (4)

  1. ユーザから受け付けたクエリに基づいてドキュメントを検索するドキュメント検索サーバであって、
    複数のユーザから受け付けた前記クエリを蓄積するクエリログ蓄積手段と、
    前記クエリにより検索されたドキュメントのうち前記ユーザによって選択されたドキュメントを当該クエリに対応付けて蓄積するクリックログ蓄積手段と、
    前記クエリログ蓄積手段に蓄積された前記クエリを構成する複数のトークンのそれぞれの間に前記ユーザの入力順序に基づいた有向リンクを設定すると共に、同一のトークンを統合することによりトピックグラフを作成するトピックグラフ作成手段と、
    前記トピックグラフに基づいてクエリログ蓄積手段に蓄積したトークンのトピック度を算出するトピック度算出手段と、
    前記算出したトピック度が所定の閾値より高いトークンであるソーストークンを抽出するソーストークン抽出手段と、
    前記抽出したソーストークンを含むクエリを前記クエリログ蓄積手段から抽出し、抽出したクエリをクラスタリングしてトピッククラスタを作成するトピッククラスタ作成手段と、
    前記ドキュメントの検索時に受け付けたクエリに対応するトピッククラスタに基づいて、トピッククラスタ内に属するクエリで検索され選択されているドキュメントの内で高頻度に前記選択されているドキュメントを前記クリックログ蓄積手段に基づいて選択してレコメンドするレコメンド手段と、
    を備えることを特徴とするドキュメント検索サーバ。
  2. 前記ソーストークンの中から、前記トピックグラフに基づいて略同一のリンク関係を有する異なる複数のソーストークンを抽出し、それらのソーストークン間に双方向の有向リンクを設定する類似トークン検出手段を更に備えることを特徴とする請求項1に記載のドキュメント検索サーバ。
  3. 前記トピッククラスタ作成手段は、
    前記抽出したソーストークンを含むクエリにより検索され、前記ユーザによって選択されたドキュメント間の意味的な距離に基づいて当該クエリをクラスタリングすることを特徴とする請求項1又は2に記載のドキュメント検索サーバ。
  4. ユーザから受け付けたクエリに基づいてドキュメントを検索する方法であって、
    複数のユーザから受け付けた前記クエリをクエリログ蓄積手段に蓄積するステップと、
    前記クエリにより検索されたドキュメントのうち前記ユーザによって選択されたドキュメントを当該クエリに対応付けてクリックログ蓄積手段に蓄積するステップと、
    前記クエリログ蓄積手段に蓄積された前記クエリを構成する複数のトークンのそれぞれの間に前記ユーザの入力順序に基づいた有向リンクを設定すると共に、同一のトークンを統合することによりトピックグラフを作成するステップと、
    前記トピックグラフに基づいてクエリログ蓄積手段に蓄積したトークンのトピック度を算出するステップと、
    前記算出したトピック度が所定の閾値より高いトークンであるソーストークンを抽出するステップと、
    前記抽出したソーストークンを含むクエリを前記クエリログ蓄積手段から抽出し、抽出したクエリをクラスタリングしてトピッククラスタを作成するステップと、
    前記ドキュメントの検索時に受け付けたクエリに対応するトピッククラスタに基づいて、トピッククラスタ内に属するクエリで検索され選択されているドキュメントの内で高頻度に前記選択されているドキュメントを前記クリックログ蓄積手段に基づいて選択してレコメンドするステップと、
    を備えることを特徴とする方法。
JP2008292728A 2008-11-14 2008-11-14 トピックグラフを利用したドキュメント検索サーバ及び方法 Active JP4969554B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008292728A JP4969554B2 (ja) 2008-11-14 2008-11-14 トピックグラフを利用したドキュメント検索サーバ及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008292728A JP4969554B2 (ja) 2008-11-14 2008-11-14 トピックグラフを利用したドキュメント検索サーバ及び方法

Publications (2)

Publication Number Publication Date
JP2010118021A true JP2010118021A (ja) 2010-05-27
JP4969554B2 JP4969554B2 (ja) 2012-07-04

Family

ID=42305641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008292728A Active JP4969554B2 (ja) 2008-11-14 2008-11-14 トピックグラフを利用したドキュメント検索サーバ及び方法

Country Status (1)

Country Link
JP (1) JP4969554B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012194612A (ja) * 2011-03-14 2012-10-11 Yahoo Japan Corp ミニブログ解析装置及び方法
JP2015197915A (ja) * 2014-04-01 2015-11-09 バイドゥ (チャイナ) カンパニー リミテッドBaidu (China) Co., Ltd. 検索結果を提示する方法及び装置
WO2017056164A1 (ja) * 2015-09-28 2017-04-06 株式会社日立製作所 情報提示システム、及び情報提示方法
JP2017173910A (ja) * 2016-03-18 2017-09-28 Jcc株式会社 検索サーバー、検索システム、検索情報配信システム、検索プログラム、検索情報配信プログラム
WO2018029852A1 (ja) * 2016-08-12 2018-02-15 楽天株式会社 情報処理装置、情報処理方法、プログラム、記憶媒体
CN109213830A (zh) * 2017-06-30 2019-01-15 是德科技股份有限公司 专业性技术文档的文档检索系统
JP2019074843A (ja) * 2017-10-13 2019-05-16 ヤフー株式会社 情報提供装置、情報提供方法、およびプログラム
KR20210037619A (ko) * 2020-01-15 2021-04-06 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체
JP2023026362A (ja) * 2021-08-12 2023-02-24 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 単語マイニング方法、装置、電子機器、及び読み取り可能な記憶媒体
WO2023026241A1 (en) * 2021-08-27 2023-03-02 Graphite Growth, Inc. Generation and use of topic graph for content authoring
CN116680418A (zh) * 2023-07-27 2023-09-01 广州城市信息研究所有限公司 一种基于知识图谱的大数据检索方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006164045A (ja) * 2004-12-09 2006-06-22 Nippon Telegr & Teleph Corp <Ntt> 共起グラフ作成方法及び装置及びプログラム及びプログラムを格納した記憶媒体
WO2007043322A1 (ja) * 2005-09-30 2007-04-19 Nec Corporation トレンド評価装置と、その方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006164045A (ja) * 2004-12-09 2006-06-22 Nippon Telegr & Teleph Corp <Ntt> 共起グラフ作成方法及び装置及びプログラム及びプログラムを格納した記憶媒体
WO2007043322A1 (ja) * 2005-09-30 2007-04-19 Nec Corporation トレンド評価装置と、その方法及びプログラム

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012194612A (ja) * 2011-03-14 2012-10-11 Yahoo Japan Corp ミニブログ解析装置及び方法
JP2015197915A (ja) * 2014-04-01 2015-11-09 バイドゥ (チャイナ) カンパニー リミテッドBaidu (China) Co., Ltd. 検索結果を提示する方法及び装置
WO2017056164A1 (ja) * 2015-09-28 2017-04-06 株式会社日立製作所 情報提示システム、及び情報提示方法
JPWO2017056164A1 (ja) * 2015-09-28 2018-03-15 株式会社日立製作所 情報提示システム、及び情報提示方法
JP2017173910A (ja) * 2016-03-18 2017-09-28 Jcc株式会社 検索サーバー、検索システム、検索情報配信システム、検索プログラム、検索情報配信プログラム
WO2018029852A1 (ja) * 2016-08-12 2018-02-15 楽天株式会社 情報処理装置、情報処理方法、プログラム、記憶媒体
CN109213830B (zh) * 2017-06-30 2023-11-03 是德科技股份有限公司 专业性技术文档的文档检索系统
CN109213830A (zh) * 2017-06-30 2019-01-15 是德科技股份有限公司 专业性技术文档的文档检索系统
JP2019074843A (ja) * 2017-10-13 2019-05-16 ヤフー株式会社 情報提供装置、情報提供方法、およびプログラム
KR20210037619A (ko) * 2020-01-15 2021-04-06 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체
KR102532152B1 (ko) 2020-01-15 2023-05-12 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체
JP2023026362A (ja) * 2021-08-12 2023-02-24 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 単語マイニング方法、装置、電子機器、及び読み取り可能な記憶媒体
US12086171B2 (en) 2021-08-12 2024-09-10 Beijing Baidu Netcom Science Technology Co., Ltd. Word mining method and apparatus, electronic device and readable storage medium
WO2023026241A1 (en) * 2021-08-27 2023-03-02 Graphite Growth, Inc. Generation and use of topic graph for content authoring
US12050612B2 (en) 2021-08-27 2024-07-30 Graphite Growth, Inc. Generation and use of topic graph for content authoring
CN116680418A (zh) * 2023-07-27 2023-09-01 广州城市信息研究所有限公司 一种基于知识图谱的大数据检索方法和系统
CN116680418B (zh) * 2023-07-27 2024-01-16 广州城市信息研究所有限公司 一种基于知识图谱的大数据检索方法和系统

Also Published As

Publication number Publication date
JP4969554B2 (ja) 2012-07-04

Similar Documents

Publication Publication Date Title
JP4969554B2 (ja) トピックグラフを利用したドキュメント検索サーバ及び方法
Zhang et al. Ad hoc table retrieval using semantic similarity
Szpektor et al. Improving recommendation for long-tail queries via templates
US8051080B2 (en) Contextual ranking of keywords using click data
Nie et al. Harvesting visual concepts for image search with complex queries
US9576029B2 (en) Trust propagation through both explicit and implicit social networks
CN110704743B (zh) 一种基于知识图谱的语义搜索方法及装置
US8321424B2 (en) Bipartite graph reinforcement modeling to annotate web images
US20090070322A1 (en) Browsing knowledge on the basis of semantic relations
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
CN107402954A (zh) 建立排序模型的方法、基于该模型的应用方法和装置
CN112988969A (zh) 用于文本检索的方法、装置、设备以及存储介质
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
Roy et al. Discovering and understanding word level user intent in web search queries
Moscato et al. iwin: A summarizer system based on a semantic analysis of web documents
Blooma et al. Quadripartite graph-based clustering of questions
KR20120038418A (ko) 탐색 방법 및 디바이스
Fauzi et al. Image understanding and the web: a state-of-the-art review
Kian et al. An efficient approach for keyword selection; improving accessibility of web contents by general search engines
WO2009035871A1 (en) Browsing knowledge on the basis of semantic relations
KR102428046B1 (ko) 유사 발명 기술 문서를 통합한 가상 복합 기술문서를 이용한 발명 기술 검색 시스템 및 방법
JP5094096B2 (ja) 有名人の別表現の自動抽出装置、方法
Deng et al. An introduction to query understanding
Senthil Kumar et al. Web query expansion and refinement using query-level clustering
Alli SERP-level disambiguation from search results

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120223

TRDD Decision of grant or rejection written
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120403

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4969554

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250