Nothing Special   »   [go: up one dir, main page]

JP4875911B2 - コンテンツ特定方法及び装置 - Google Patents

コンテンツ特定方法及び装置 Download PDF

Info

Publication number
JP4875911B2
JP4875911B2 JP2006076501A JP2006076501A JP4875911B2 JP 4875911 B2 JP4875911 B2 JP 4875911B2 JP 2006076501 A JP2006076501 A JP 2006076501A JP 2006076501 A JP2006076501 A JP 2006076501A JP 4875911 B2 JP4875911 B2 JP 4875911B2
Authority
JP
Japan
Prior art keywords
keyword
content
data
user
registered user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006076501A
Other languages
English (en)
Other versions
JP2007256992A (ja
Inventor
敏勝 鎌仲
亜紀 松尾
英雄 樋沼
智也 成田
宏弥 稲越
寛治 内野
青史 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006076501A priority Critical patent/JP4875911B2/ja
Publication of JP2007256992A publication Critical patent/JP2007256992A/ja
Application granted granted Critical
Publication of JP4875911B2 publication Critical patent/JP4875911B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ユーザに適切なコンテンツを特定又は抽出するための技術に関する。
従来、インターネット上のコンテンツから目的のものを探し出すためには、検索エンジンが利用されてきた。検索エンジンを利用する際には具体的な検索語を与える必要があり、具体的な事物を調査するのに適している。
また、近年RSSリーダによる情報収集も注目を浴びている。このRSSリーダは、ウェブ(Web)サイトの新着、更新情報を受信するのに適しており、予め定めたカテゴリにWebページを分類した後、カテゴリの注目度やカテゴリ中の注目ページを提示する機能を備えたものも存在する。
また、既に検索語のバースト(急激な頻出)を検出する技術が存在しているが、これを用いれば特定の検索エンジンの利用者たちの注目トピックが分かる。しかしながら、特定の個人の関心と、この注目トピックは通常異なる。また、利用者は検索語を明示的に入力する必要がある。
さらに、既に実施されているパーソナライズ検索では、利用者が入力した過去の検索語や参照したページを後日照会する事ができる。しかし、最近の検索クエリは、検索語の選別を試行錯誤した結果、よく似た検索クエリばかりが蓄積されるという問題がある。従って、定期的に検索される語などが、似たような検索クエリによって記憶領域から押し出されてしまうということが生じる。
なお、特開2002−14996号公報には、インターネット上のリソースを対象として、新規ドキュメントをユーザの興味領域に沿った形で提示するための技術が開示されている。そして、各ユーザのブックマーク情報は、ブックマークサーバで一元管理される。ユーザはクライアント装置からブックマーク操作部を介してブックマークの操作をユーザブックマークDBに対して行うことができる。ブックマークサーバは定期的にユーザ嗜好抽出部を用いてユーザブックマークDB中の個々のユーザのブックマーク情報に基づいて、分類フォルダ毎の嗜好情報を抽出する。新規ドキュメント提案部は、各ユーザの分類フォルダ毎の嗜好情報に応じて、インターネット上のディレクトリサーバに対する検索の結果や、他の外部から与えられたドキュメント集合から適当な新規ドキュメントをユーザブックマークの一部としてユーザブックマークDBに登録するものである。但し、新規ドキュメントはユーザの嗜好に合わせられるだけで、他の観点はない。
特開2002−14996号公報
しかし、ユーザ自身が検索語を明確に把握していない場合には検索エンジンから適切なコンテンツを抽出するのは不可能である。また、RSSリーダでは特定のサイトを定点観測するのには適しているが、サイトが取り扱う内容とユーザの興味とは常に一致しているわけではない。また、広く世の中で注目されているサイトとユーザ自身の興味とを重ね合わせて考慮するような仕組みは存在していない。
本発明は以上の問題を鑑みてなされたものであり、ユーザ自身が検索語を明示することなく、時と共に移りゆくユーザの関心に合わせて注目すべきコンテンツを特定又は抽出するための技術を提供することである。
本発明に係るコンテンツ特定方法は、アクセス時刻を含む、登録ユーザのアクセスログを格納するアクセスログ格納部と収集したコンテンツ中のキーワードに関するデータを格納するコンテンツプロファイル・データベースとに格納されているデータから、アクセス時刻及び上記キーワードに関する情報と登録ユーザとの関係を表すトランザクション・データを生成し、トランザクション・データベースに登録するステップと、トランザクション・データベースに格納された未処理のトランザクション・データに係る特定の登録ユーザに関連し且つ当該未処理のトランザクション・データに含まれるキーワードの、アクセス時刻における評価値と、登録ユーザとキーワードとのこれまでの関連度を表すデータを格納するユーザプロファイル・データベースに格納されているデータから特定の登録ユーザに関連するキーワードにつきアクセス時刻における減衰された関連度とを算出して、特定の登録ユーザに関連するキーワードについて評価値及び減衰された関連度からアクセス時刻における関連度を算出し、ユーザプロファイル・データベースを更新する更新ステップと、アクセスログ格納部に格納されているデータを用いて、所定の基準を超えてアクセスが増加したコンテンツを特定し、当該特定されたコンテンツについてのデータをコンテンツプロファイル・データベースから抽出し、トピック・データベースに登録する登録ステップと、ユーザプロファイル・データベースに格納されている、特定の登録ユーザについての関連度が上位(例えば上位所定数又は所定の閾値以上)のキーワードと所定の類似性を有し且つトピック・データベースに登録されているキーワードが出現するコンテンツを特定し、当該特定されたコンテンツの識別情報を特定の登録ユーザに対応して推薦トピック・データベースに登録するコンテンツ特定ステップとを含む。
このように登録ユーザのアクセス履歴から当該登録ユーザの関心を時系列的な要素を加味しつつ具体的な関連度付きのキーワードとして特定し、さらに所定の基準を超えてアクセスが増加したコンテンツを注目コンテンツとして特定して、関連度の高いキーワードとの類似性が高いキーワードを含む注目コンテンツを、登録ユーザに対して推薦すべきコンテンツとして特定するものである。これによって、登録ユーザは、具体的な検索語を想起できない場合においても、自らの興味に合致しつつ話題性のあるコンテンツを効率的に知得することができるようになる。
また、上で述べたコンテンツ特定ステップが、関連語辞書から、ユーザプロファイル・データベースに格納されている、特定の登録ユーザについての関連度が上位のキーワードに対応して登録されている関連キーワードを抽出するステップと、特定の登録ユーザについての特定のキーワードと当該特定のキーワードに対応し且つ抽出された関連キーワードとを含む第1のセットと、トピック・データベースに登録されているキーワードをコンテンツ毎にまとめた第2のセットとの類似度をコンテンツ毎に算出するステップとを含むようにしてもよい。このようにすれば、完全同一だけではなく類似性のあるキーワードをも考慮した形で、適切なコンテンツを特定することができるようになる。
さらに、トランザクション・データベースに格納された上記キーワードに関するデータが、当該キーワードの提示回数kを含むようにしてもよい。その場合、上で述べた更新ステップが、未処理のトランザクション・データに含まれるキーワードの提示回数k(例えば実施の形態における出現回数又はアクセス回数)と所定の減衰係数ρによって、上記キーワードの評価値を(1−ρk)/(1−ρ)として算出するステップを含むようにしてもよい。毎日定期的にアクセスするコンテンツと急に多数回アクセスするようになったコンテンツとは、ユーザにとってその重要度はほぼ同じであり、このような状況を同様に評価することができるようになる。
さらに、ユーザプロファイル・データベースには、キーワード毎に処理基準日時のデータが登録されるようにしてもよい。そうすれば、上で述べた更新ステップは、処理基準日時からアクセス時刻までの単位時間数tと所定減衰係数ρと上で述べたこれまでの関連度gとによって、アクセス時刻における減衰された関連度をρtgとして算出するステップを含むようにしてもよい。このようにすれば、適切に過去の影響を減衰させることができる。
また、上で述べた登録ステップは、各コンテンツにつき、特定時刻のアクセスユーザ数の、1単位時間前までのアクセスユーザ数の平均からの上方乖離度(例えば実施の形態におけるAt(p))を算出するステップと、上方乖離度が上位所定数内のコンテンツを特定するステップとを含むようにしてもよい。注目が集まっていることをこの上方乖離度によって特定できる。
本発明に係る方法は、コンピュータ・ハードウエアとプログラムとの組み合わせにより実施される場合があり、このプログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、ネットワークなどを介してデジタル信号として配信される場合もある。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。
本発明によれば、ユーザ自身が検索語を明示することなく、時と共に移りゆくユーザの関心に合わせて注目すべきコンテンツを特定又は抽出することができるようになる。
本発明の一実施の形態に係るシステム概要図を図1に示す。例えばインターネットであるネットワーク101には、複数のユーザ端末103と、複数のウェブ(Web)サーバ107と、本実施の形態において主要な処理を実施するコンテンツ推薦サーバ105とが接続されている。ユーザ端末103には、例えばWebブラウザのプラグインとして専用のアプリケーションがインストールされ、当該アプリケーションによってアクセス先のデータを含むアクセスログのデータがコンテンツ推薦サーバ105に送信されるようになっている。そのような構成でない場合には、コンテンツ推薦サーバ105がインターネット・サービス・プロバイダ(ISP:Internet Service Provider)内に設置されており、ユーザ端末103は、コンテンツ推薦サーバ105を経由してWebサーバ107にアクセスするため、コンテンツ推薦サーバ105がアクセス先のデータを含むアクセスログを取得できるようになっている場合もある。どのような構成であっても、コンテンツ推薦サーバ105は、登録ユーザのアクセスログを取得できるようになっている。そして、コンテンツ推薦サーバ105は、当該アクセスログなどから、登録ユーザに対して、当該登録ユーザが関心を有し且つ最近注目されているWebページ(すなわちコンテンツ)の推薦を行うための処理を実施する。
このようなコンテンツ推薦サーバ105の機能ブロック図を図2乃至図4を用いて説明する。図2は、コンテンツ推薦サーバ105の前処理及びユーザプロファイル生成処理を実施する部分の機能ブロック図を示す。コンテンツ推薦サーバ105は、ユーザ端末103のアクセス先のデータを含むアクセスログを取得するための処理を実施するアクセスログ取得部1と、アクセスログ取得部1が取得したアクセスログを格納するアクセスログ格納部3と、ネットワーク101に接続されているWebサーバ107からWebページ・データを収集するWebページ収集部7と、Webページ収集部7が収集したWebページ・データを格納するWebページDB9と、WebページDB9から周知の手法を用いてキーワードを抽出するキーワード抽出部11と、キーワード抽出部11によって抽出されたキーワードのデータをURL(Uniform Resource Locator)と共に格納するコンテンツプロファイルDB13と、アクセスログ格納部3に格納されているデータとコンテンツプロファイルDB13に格納されているデータとを連結したデータを生成するログ連結部5と、ログ連結部5によって生成されたデータを格納するトランザクションDB15と、ユーザが興味のあるキーワード等のデータを格納するユーザプロファイルDB19と、トランザクションDB15に新たに格納されたデータとユーザプロファイルDB19に格納されている過去のユーザプロファイルとを用いてユーザプロファイルを更新するための処理を実施するユーザプロファイル生成部17とを有する。
図3は、コンテンツ推薦サーバ105のコンテンツ選別処理及びマッチング処理を実施する部分の機能ブロック図を示す。コンテンツ推薦サーバ105は、アクセスログ格納部3に格納されているデータを用いて処理を行い、該当するデータをコンテンツプロファイルDB13から抽出する処理を行うコンテンツ選別部21と、コンテンツ選別部21によって抽出されたデータを格納するトピックDB23と、特定の語に関連する語が登録されている関連語辞書27と、関連語辞書27に格納されているデータを用いてユーザプロファイルDB19に含まれるキーワードを処理して該当するデータをトピックDB23から抽出するマッチング部25と、マッチング部25の処理結果である各ユーザへの推薦URLなどのデータを格納する推薦トピックDB29と、ユーザ端末103に推薦URLなどを出力する推薦出力部31とを有する。
図4は、関連語辞書27の生成処理を実施する部分の機能ブロック図を示す。コンテンツ推薦サーバ105は、登録ユーザによる操作ログを格納する操作履歴DB35と、操作推薦出力部31が出力した推薦URLを受信して表示したユーザ端末103から登録ユーザによる推薦URLのクリックに関するデータを取得し、推薦トピックDB29から対応するキーワードを抽出して操作履歴DB35に格納する操作ログ取得部33と、操作履歴DB35から関連語辞書のデータを生成する関連語辞書生成部37とを含む。
次に、図5乃至図26を用いて図1乃至図4に示したシステムの処理を説明する。まず、コンテンツ推薦サーバ105は、前処理を実施する(図5:ステップS1)。この前処理については図6乃至図12を用いて説明する。まず、Webページ収集部7は、ネットワーク101を介してWebサーバ107に対してWebページの収集処理を実施し、収集したWebページのデータをURLに対応してWebページDB9に格納する(図6:ステップS11)。例えば、WebページDB9には図7に示すようなデータフォーマットでデータを格納する。すなわち、Webページ・データの取得日時、Webページ・データのURL、Webページのタイトル、Webページの内容を格納する。
また、キーワード抽出部11は、WebページDB9に格納された各Webページについて周知のキーワード抽出処理を実施し、抽出されたキーワード等をURL等に対応してコンテンツプロファイルDB13に格納する(ステップS13)。例えば、コンテンツプロファイルDB13には図8に示すようなデータフォーマットでデータを格納する。すなわち、元となるWebページ・データの取得時刻、URL、抽出されたキーワード、本URLのWebページにおいて本キーワードが出現する回数、抽出処理の際に算出されたスコアなどが格納されるようになっている。キーワード毎にレコードが生成される。なお、スコアについては格納しなくとも良い。
一方、アクセスログ取得部1は、ユーザ端末103からWebページへのアクセスに関するデータを受信し、アクセス先URL及びユーザIDを含むアクセスログを生成してアクセスログ格納部3に格納する(ステップS15)。例えば、アクセスログ格納部3には、図9に示すようなデータフォーマットでデータを格納する。すなわち、アクセス日時、ユーザID、アクセス先のURLである参照URLとが格納されるようになっている。
さらに、ログ連結部5は、コンテンツプロファイルとアクセスログとをURLで連結する処理を実施し、処理結果をトランザクションDB15に格納する(ステップS17)。具体的には、アクセス時刻、ユーザID及びURLについては、アクセスログ格納部3から抽出され、当該URLに対応してコンテンツプロファイルDB13に格納されているキーワード及び回数が抽出され、トランザクションDB15に格納される。例えば、トランザクションDB15には図10に示すようなデータフォーマットでデータを格納する。すなわち、アクセス時刻、ユーザID、キーワード及び回数が格納されるようになっている。なお、アクセス時刻が所定の単位時間(例えば1日)毎であれば、アクセス時刻、ユーザID及びキーワードで、レコードをマージして回数は合計される。このような場合、この「回数」については、アクセス回数とも呼ぶものとする。
図5の説明に戻って、次にユーザプロファイル生成部17は、ユーザプロファイルDB19とトランザクションDB15とを用いて、ユーザプロファイル生成処理を実施する(ステップS3)。ユーザプロファイル生成処理については図11乃至図17を用いて説明する。本実施の形態では、ユーザとキーワードとの関係をユーザプロファイルDB19に格納するが、その際キーワードにつきユーザとの関連性を表すスコアを、図11(a)及び(b)に示すように時間に応じて減衰させる。すなわち。図11(a)に示すように、t0で特定のキーワードのスコアがXであった場合、図11(b)に示すように、1単位時間後のt1になるとρ(0<ρ<1)倍になり、さらに1単位時間後のt2になるとさらにρ倍になり、そしてさらに1単位時間後のt3になるものとする。すなわち、t3のスコアはt0のスコアのρt0-t3倍になる。一般的に、時刻tiにおけるアクセス回数(キーワードの出現回数)がniの場合の現在のスコアg(t0)は、以下のように表される。
Figure 0004875911
なお、f(n)は、n回アクセスしたときのスコアである。
また、本実施の形態では、アクセス回数(キーワードの出現回数)とスコアの関係については、以下の事項を前提とする。すなわち、図12に示すように、最近n日間、毎日1回アクセスした場合のスコアの合計値(=1+ρ+・・・+ρn-1)と、今日1日にn回アクセスした場合のスコア(=f(n))とが同じであるとする。そうすると、f(n)は以下のように表される。
Figure 0004875911
ここで0<ρ<1である。
なお、ある時点τでのスコアg(τ)が分かっている場合には、現時刻tにおいてn回のアクセスがあった場合のスコアg(t)は、g(τ)を用いて以下の式で算出される。
g(t)=f(n)+ρt-ρg(τ)
このような前提の下、図13に示すような処理をユーザプロファイル生成部17が実施する。まず、ユーザプロファイル生成部17は、トランザクションDB15から未処理所定単位(例えば日毎に処理を行う場合には本日分)のトランザクション・データを抽出してユーザIDでグループ化し、各グループのデータを例えばメインメモリなどの記憶装置に格納する(ステップS21)。例えば図14に示すようなデータがトランザクションDB15に格納されている場合には、グループA、グループB、グループCにまとめられる。次に、未処理のユーザIDを1つ特定する(ステップS23)。そして、特定されたユーザIDの過去のユーザプロファイルを、ユーザプロファイルDB19から読み出す(ステップS25)。例えば図15に示すようなデータがユーザプロファイルDB19から読み出されるものとする。図15に示すように、ユーザプロファイルDB19には、最終訪問日時(日単位で処理をする場合には最終訪問日。但し、アクセス日時が存在しないがユーザIDが処理対象として抽出されると、処理日時又は処理日となる。)、ユーザID、キーワード及び当該キーワードのスコアが登録されるようになっている。図15の例では、ユーザIDが「1000」のユーザと、ユーザIDが「3388」であるユーザと、ユーザIDが「2621」であるユーザとが登録されている。
さらに、現時刻(アクセス日時又はアクセス日)tと過去ユーザプロファイルの最終訪問日時を取得し、スコアの減衰処理を実施する(ステップS27)。具体的には、現時刻tと最終訪問日時の差(例えば日単位)をtとすると、ρt倍して、例えばメインメモリ等の記憶装置に格納する。例えば、現時刻tは図14から2006年2月14日であり、最終訪問日時が2006年2月10日であるので4日経っており、ρ4を乗ずる。ρ=0.9であるとすると、図16に示したようなスコアが算出される。なお、所定の閾値(例えば0.1)より小さいスコアのレコードについては削除するようにする。これによって処理量を削減できる。
そして、特定されたユーザIDの読み出されたトランザクション・データに含まれるアクセス回数(キーワードの出現回数)に応じたスコアを算出し、例えばメインメモリ等の記憶装置に格納する(ステップS29)。回数をkとすると(1−ρk)/(1−ρ)を算出する。例えば、ユーザID「1000」のキーワード「トリノ」については、(1−0.93)/(1−0.9)=2.71となる。同様に、ユーザID「1000」のキーワード「下村●子」については、(1−0.91)/(1−0.9)=1となる。さらに、ユーザID「1000」のキーワード「モーグル」については、(1−0.92)/(1−0.9)=1.9となる。
最後に、ステップS27の減衰処理の結果とステップS29で算出されたスコアを加算し、ユーザプロファイルDB19を更新する(ステップS31)。ユーザID「1000」のキーワード「トリノ」については、0.51+2.71=3.22で更新される。さらに、ユーザID「1000」のキーワード「下村●子」については、0+1.0=1.0で更新される。「下村●子」についてはレコードが存在していなかったので追加される。また、ユーザID「1000」のキーワード「モーグル」についても、0+1.9=1.9で更新される。「モーグル」についてもレコードが存在していなかったので追加される。このような処理を実施すれば、図17に示すようなデータがユーザプロファイルDB19に登録される。
その後、全てのユーザIDについて処理が完了したか判断し(ステップS33)、未処理のユーザIDが存在していればステップS23に戻り、全てのユーザIDについて処理が完了していれば元の処理に戻る。
このようにして、時間軸方向で適切に減衰され且つ定量化されたスコアが、ユーザの興味に関連するキーワード毎にユーザプロファイルDB19に登録されるようになる。なお、この段階で、スコアでソートして、キーワードを絞り込んでも良い。例えば、上位所定数のキーワードを特定したり、閾値以上のスコアを有するキーワードを特定するようにしても良い。
図5の説明に戻って、次に、コンテンツ選別部21は、コンテンツプロファイルDB13とアクセスログ格納部3とを用いて、コンテンツ選別処理を実施する(ステップS5)。このコンテンツ選別処理については図18乃至図21を用いて説明する。
コンテンツ選別部21は、アクセスログ格納部3に格納されたアクセスログのデータから所定単位時間(例えば日単位)のアクセスユーザ数をURL毎にカウントし、カウント結果を例えばメインメモリ等の記憶装置に格納する(図18:ステップS41)。例えば、図19に示すようなデータがアクセスログ格納部3に格納されているとすると、例えば図20に示すようなデータが生成される。すなわち、2006年2月14日にURL1にアクセスしたユーザの数は「3」であり、2006年2月13日にURL1にアクセスしたユーザの数は「1」であり、2006年2月12日にURL1にアクセスしたユーザの数は「2」である。なお、時刻τにWebページpにアクセスしたユーザ数を、Uτ(p)と表すものとする。
そして、未処理のURLを1つ特定し(ステップS43)、Uτ(p)の平均を以下のとおりに算出し、例えばメインメモリ等の記憶装置に格納する(ステップS45)。
Figure 0004875911
このように、現時点tを含まない直前のt−1の段階までのWebページpの平均ユーザ数が算出される。
このUτ(p)の平均を用いて以下の式に従ってスコアAt(p)を算出し、例えばメインメモリ等の記憶装置に格納する(ステップS47)。
Figure 0004875911
この式は、仮にCt=1だとすると、Ut(p)の平均ユーザ数からのずれに対して、時刻tにおけるユーザ数を乗じた値となる。すなわち、平均ユーザ数からのずれ(上方乖離度)が大きいほどAt(p)が大きな値となって出てくる。より具体的には、より多くのユーザから注目をあびるようになると、At(p)が大きな値になるので、バーストを検出することができる。
但し、Ctは時間帯tによる補正係数であり、例えば1時間毎に設定する場合もある。この場合、0時台にはCt=0.9、1時台=0.8、・・・23時台=1.0のようにする。これは、夜間のアクセスが多く、早朝のアクセスが少ないなど、アクセスが集中する時間帯にアクセスされたページのスコアが不当に高く評価される問題を解消するためである。1日を単位時間とする場合には、日毎に設定するようにする。曜日毎に設定するようにしても良い。また、Ctについては固定しても良い。
そして、未処理のURLが存在するか判断し、未処理のURLが存在する場合にはステップS43に戻る。一方、未処理のURLが存在しない場合には、At(p)の値でURLをソートし、上位所定数のURLのデータをコンテンツプロファイルDB13から抽出して、トピックDB23に登録する(ステップS51)。そして元の処理に戻る。トピックDB23に格納されるデータのフォーマット例を図21に示す。図21の例では、本URLを検出した時刻であるバースト時刻と、URLと、当該URLに関連するキーワードと、スコアとが登録されるようになっている。
図5の説明に戻って、次に、マッチング部25は、ユーザプロファイルDB19、関連語辞書27及びトピックDB23を用いてマッチング処理を実施し、ユーザに推薦すべきURLのリストをユーザ毎に推薦トピックDB29に格納する(ステップS7)。マッチング処理については図22乃至図24を用いて説明する。まず、マッチング部25は、各ユーザのユーザプロファイルに含まれるキーワード(例えばスコア上位3位までのキーワード)をユーザプロファイルDB19から抽出し、当該キーワードを関連語辞書27によってグループ化し、当該グループのデータを例えばメインメモリ等の記憶装置に格納する(ステップS61)。グループ化については、図23及び図24を用いて説明する。例えば、関連語辞書27には図23に示すようなフォーマットでデータが格納される。すなわち、キーワード1と、キーワード1に関連するキーワード2と、それらの関連度とが格納されるようになっている。
図17の例では、ユーザID「1000」のユーザプロファイル中には、「トリノ」、「下村●子」、「モーグル」、「フィギュア」、「代表選考」が登録されているが、スコアの値で上位3つに限定すると、「トリノ」「モーグル」「フィギュア」が特定される。一方、関連語辞書27には、「トリノ」と「スケルトン」の組、「トリノ」と「ハーフパイプ」の組、「トリノ」と「フィギュア」の組、「トリノ」と「モーグル」の組、「トリノ」と「大谷多●」の組、「トリノ」と「下村●子」の組、「トリノ」と「村上●枝」の組、「トリノ」と「安川静●」の組、「モーグル」と「大谷多●」の組、「モーグル」と「下村●子」の組、「代表選考」と「深田真●」の組、「代表選考」と「伊藤美●」の組、「代表選考」と「安川静●」の組と、「代表選考」と「村上●枝」の組とが登録されているとする。
そうすると、図24に示すようなグラフが描ける。但し、キーワードに対応する四角は、大きいものほどユーザプロファイル中でスコアが大きい、又は関連語辞書27において関連度が大きいことを表している。これによって「トリノ」に関連するキーワードのグループであるグループ1={トリノ,フィギュア,モーグル,スケルトン,ハーフパイプ}が構成される。「安川静●」「村上●枝」「下村●子」「大谷多●」については相対的に関連度が低いのでグループに登録されていない。また、「モーグル」に関連するキーワードのグループであるグループ2={モーグル,トリノ,下村●子,大谷多●}が構成される。さらに、「フィギュア」に関連するキーワードのグループであるグループ3={フィギュア,トリノ}が構成される。
次に、未処理のユーザを1人特定し(ステップS63)、未処理のキーワードグループを1つ特定する(ステップS65)。そして、特定されたキーワードグループと、トピックDB23に格納されているキーワードとの類似度をトピックDB23のURL毎に算出し、例えばメインメモリ等の記憶装置に格納する(ステップS67)。類似度は、例えば以下の式で算出される。
J(W,V)=(W∩V)/(W∪V)
なお、J(W,V)は周知のJaccard Coefficientである。Wは、ステップS61で生成され且つステップS65で特定されたキーワードグループであり、Vは、トピックDB23内の特定のURLのキーワードグループである。従って、分母はW∪Vのキーワード数、分子はW∩Vのキーワード数である。
そして、全てのキーワードグループについて処理したか判断する(ステップS69)。未処理のキーワードグループが存在していれば、ステップS65に戻る。一方、未処理のキーワードグループが存在しない場合には、類似度Jでソートし、類似度Jが大きい順に所定数のURLを特定して、トピックDB23内の当該URLの対応データを推薦トピックDB29に格納する(ステップS71)。
さらに、全てのユーザについて処理したか判断し(ステップS73)、未処理のユーザが存在している場合にはステップS63に戻る。一方、全てのユーザを処理した場合には、元の処理に戻る。
図5の処理に戻って、最後に推薦出力部31は、例えばユーザ端末103からの要求に応じて当該ユーザ端末103の登録ユーザについての推薦URLを推薦トピックDB29から読み出し、当該推薦URLのリストをユーザ端末103に出力する(ステップS9)。ユーザ端末103は、コンテンツ推薦サーバ105から、登録ユーザが興味を有しており且つ最近注目されている推薦URLを受信し、表示装置に表示する。例えば、Webブラウザのプラグインとして提供されているアプリケーションによってリンクの形で登録ユーザに提示される。
このようにすれば、ユーザが明確に把握していないようなキーワードであっても上で述べたような処理によって抽出され、さらに当該キーワードに関連し且つ最近注目されているサイトのURLが、自動的に提示されるようになるため、効率的にWebページを閲覧することができるようになる。
なお、関連語辞書27については、例えば図25及び図26に示すような処理にて構成される場合がある。例えば、推薦出力部31は、上で述べたようにユーザ端末103に推薦URLのリストを送信し、ユーザ端末103は、コンテンツ推薦サーバ105から推薦URLのリストを受信し、表示装置に表示することによって、登録ユーザに推薦URLのリストを提示する(ステップS81)。これに対して、登録ユーザが、推薦URLのうちいずれかを選択してクリックすると、ユーザ端末103は、当該推薦URLの選択を受け付け、当該推薦URLの選択データをコンテンツ推薦サーバ105に送信する。コンテンツ推薦サーバ105の操作取得部33は、ユーザ端末103から推薦URLの選択データを受信すると、推薦トピックDB29から当該選択に係る推薦URLに対応して登録されたキーワードを読み出し、操作履歴DB35に登録する(ステップS83)。例えば操作履歴DB35には、図26に示すようなデータフォーマットでデータが蓄積される。すなわち、アクセス時刻と、ユーザIDと、キーワードと、参照URLとが格納されるようになっている。
次に、関連語辞書生成部37は、周知の関連度算出処理を実施する(ステップS85)。これによって、例えば同じURLを参照URLとするキーワードにつき関連度が算出される。そして、関連語辞書生成部37は、算出された関連度に従って、例えば所定の閾値以上の関連度を有するキーワードの組及びその関連度を含む関連語辞書データを生成し、関連語辞書27に登録する(ステップS87)。
このような処理を実施することによって、登録ユーザによる実際の操作履歴に基づき、適切な関連語が関連語辞書に蓄積されるようになる。従って、推薦URLを選択する際にも適切なキーワードグループが構成されるようになり、適切な類似度が算出され、最終的に適切な推薦URLが特定されるようになる。
以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、図2乃至図4に示した機能ブロックは必ずしも実際のプログラム構成に対応しない場合もある。また、処理フローについても、処理結果が変らない限りにおいて順番の入れ替えや並列処理が可能である。
なお、ユーザ端末103、コンテンツ推薦サーバ105、Webサーバ107は、図27のようなコンピュータ装置であって、メモリ2501(記憶装置)とCPU2503(処理装置)とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施の形態における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。必要に応じてCPU2503は、表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ2501に格納され、必要があればHDD2505に格納される。本発明の実施の形態では、上で述べた処理を実施するためのアプリケーション・プログラムはリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
本発明の実施の形態に係るシステム概要を説明するための図である。 コンテンツ推薦サーバの第1の機能ブロック図である。 コンテンツ推薦サーバの第2の機能ブロック図である。 コンテンツ推薦サーバの第3の機能ブロック図である。 本発明の実施の形態に係るメイン処理フローを示す図である。 前処理の処理フローを示す図である。 WebページDBのデータフォーマット例を示す図である。 コンテンツプロファイルDBのデータフォーマット例を示す図である。 アクセス履歴DBのデータフォーマット例を示す図である。 トランザクションDBのデータフォーマット例を示す図である。 (a)及び(b)は、ユーザプロファイルにおけるスコアの時間減衰を説明するための図である。 アクセス頻度と減衰の調整モデルを説明するための図である。 ユーザプロファイル生成処理の処理フローを示す図である。 ユーザプロファイル生成処理を説明するためのデータ例を示す図である。 ユーザプロファイル生成処理を説明するためのデータ例を示す図である。 ユーザプロファイル生成処理を説明するためのデータ例を示す図である。 ユーザプロファイル生成処理を説明するためのデータ例を示す図である。 コンテンツ選別処理の処理フローを示す図である。 コンテンツ選別処理を説明するためのデータ例を示す図である。 コンテンツ選別処理を説明するためのデータ例を示す図である。 トピックDBのデータフォーマット例を示す図である。 マッチング処理の処理フローを示す図である。 関連語辞書のデータフォーマット例を示す図である。 キーワードのグループ化を説明するための図である。 関連語辞書作成処理の処理フローを示す図である。 操作履歴DBのデータフォーマット例を示す図である。 コンピュータの機能ブロック図である。
符号の説明
1 アクセスログ取得部 3 アクセスログ格納部
5 ログ連結部 7 Webページ収集部
9 WebページDB 11 キーワード抽出部
13 コンテンツプロファイルDB
15 トランザクションDB 17 ユーザプロファイル生成部
19 ユーザプロファイルDB
21 コンテンツ選別部 23 トピックDB
25 マッチング部 27 関連語辞書
29 推薦トピックDB 31 推薦出力部
33 操作取得部 35 操作履歴DB
37 関連語辞書生成部
101 ネットワーク 103 ユーザ端末
105 コンテンツ推薦サーバ 107 Webサーバ

Claims (6)

  1. 登録ユーザがコンテンツにアクセスした時刻であるアクセス時刻を含む、当該登録ユーザのアクセスログを格納するアクセスログ格納部と収集したコンテンツ中のキーワードに関するデータを格納するコンテンツプロファイル・データベースとに格納されているデータから、アクセス時刻及び前記キーワードに関する情報と登録ユーザとの関係を表すトランザクション・データを生成し、トランザクション・データベースに登録するステップと、
    前記トランザクション・データベースに格納された未処理のトランザクション・データに係る特定の登録ユーザに関連し且つ当該未処理のトランザクション・データに含まれるキーワードの、アクセス時刻における評価値と、登録ユーザとキーワードとのこれまでの関連度を表すデータを格納するユーザプロファイル・データベースに格納されているデータから前記特定の登録ユーザに関連するキーワードにつき前記アクセス時刻における減衰された関連度とを算出して、前記特定の登録ユーザに関連するキーワードについて前記評価値及び前記減衰された関連度から前記アクセス時刻における関連度を算出し、前記ユーザプロファイル・データベースを更新する更新ステップと、
    前記アクセスログ格納部に格納されているデータを用いて、所定の基準を超えてアクセスが増加したコンテンツを特定し、当該特定されたコンテンツについてのデータを前記コンテンツプロファイル・データベースから抽出し、トピック・データベースに登録する登録ステップと、
    前記ユーザプロファイル・データベースに格納されている、前記特定の登録ユーザについての前記関連度が上位のキーワードと所定の類似性を有し且つ前記トピック・データベースに登録されているキーワードが出現するコンテンツを特定し、当該特定されたコンテンツの識別情報を前記特定の登録ユーザに対応して推薦トピック・データベースに登録するコンテンツ特定ステップと、
    を含み、
    前記トランザクション・データベースに格納された前記キーワードに関するデータが、当該キーワードの提示回数kを含み、
    前記更新ステップが、
    前記未処理のトランザクション・データに含まれるキーワードの提示回数kと所定の減衰係数ρによって、前記キーワードの前記評価値を(1−ρ k )/(1−ρ)として算出するステップ、
    を含み、コンピュータにより実行されるコンテンツ特定方法。
  2. 前記コンテンツ特定ステップが、
    関連語辞書から、前記ユーザプロファイル・データベースに格納されている、前記特定の登録ユーザについての前記関連度が上位のキーワードに対応して登録されている関連キーワードを抽出するステップと、
    前記特定の登録ユーザについての特定のキーワードと当該特定のキーワードに対応し且つ抽出された前記関連キーワードとを含む第1のセットと、前記トピック・データベースに登録されている前記キーワードをコンテンツ毎にまとめた第2のセットとの類似度を前記コンテンツ毎に算出するステップと、
    を含む請求項1記載のコンテンツ特定方法。
  3. 前記ユーザプロファイル・データベースには、キーワード毎に処理基準日時のデータが登録されており
    前記更新ステップが、
    前記処理基準日時から前記アクセス時刻までの単位時間数tと所定減衰係数ρと前記これまでの関連度gとによって、前記アクセス時刻における減衰された関連度をρtgとして算出するステップ、
    を含む請求項1又は2記載のコンテンツ特定方法。
  4. 前記登録ステップが、
    各前記コンテンツにつき、処理基準時刻のアクセスユーザ数の、1単位時間前までのアクセスユーザ数の平均からの上方乖離度を算出するステップと、
    前記上方乖離度が上位所定数内のコンテンツを特定するステップと、
    を含む請求項1乃至3のいずれか1つ記載のコンテンツ特定方法。
  5. 請求項1乃至のいずれか1つ記載のコンテンツ特定方法をコンピュータに実行させるためのプログラム。
  6. 登録ユーザがコンテンツにアクセスした時刻であるアクセス時刻を含む、当該登録ユーザのアクセスログを格納するアクセスログ格納部と収集したコンテンツ中のキーワードに関するデータを格納するコンテンツプロファイル・データベースとに格納されているデータから、アクセス時刻及び前記キーワードに関する情報と登録ユーザとの関係を表すトランザクション・データを生成し、トランザクション・データベースに登録する手段と、
    前記トランザクション・データベースに格納された未処理のトランザクション・データに係る特定の登録ユーザに関連し且つ当該未処理のトランザクション・データに含まれるキーワードの、アクセス時刻における評価値と、登録ユーザとキーワードとのこれまでの関連度を表すデータを格納するユーザプロファイル・データベースに格納されているデータから前記特定の登録ユーザに関連するキーワードにつき前記アクセス時刻における減衰された関連度とを算出して、前記特定の登録ユーザに関連するキーワードについて前記評価値及び前記減衰された関連度から前記アクセス時刻における関連度を算出し、前記ユーザプロファイル・データベースを更新する更新手段と、
    前記アクセスログ格納部に格納されているデータを用いて、所定の基準を超えてアクセスが増加したコンテンツを特定し、当該特定されたコンテンツについてのデータを前記コンテンツプロファイル・データベースから抽出し、トピック・データベースに登録する手段と、
    前記ユーザプロファイル・データベースに格納されている、前記特定の登録ユーザについての前記関連度が上位のキーワードと所定の類似性を有し且つ前記トピック・データベースに登録されているキーワードが出現するコンテンツを特定し、当該特定されたコンテンツの識別情報を前記特定の登録ユーザに対応して推薦トピック・データベースに登録する手段と、
    を有し、
    前記トランザクション・データベースに格納された前記キーワードに関するデータが、当該キーワードの提示回数kを含み、
    前記更新手段が、
    前記未処理のトランザクション・データに含まれるキーワードの提示回数kと所定の減衰係数ρによって、前記キーワードの前記評価値を(1−ρ k )/(1−ρ)として算出する
    コンテンツ特定装置。
JP2006076501A 2006-03-20 2006-03-20 コンテンツ特定方法及び装置 Expired - Fee Related JP4875911B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006076501A JP4875911B2 (ja) 2006-03-20 2006-03-20 コンテンツ特定方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006076501A JP4875911B2 (ja) 2006-03-20 2006-03-20 コンテンツ特定方法及び装置

Publications (2)

Publication Number Publication Date
JP2007256992A JP2007256992A (ja) 2007-10-04
JP4875911B2 true JP4875911B2 (ja) 2012-02-15

Family

ID=38631231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006076501A Expired - Fee Related JP4875911B2 (ja) 2006-03-20 2006-03-20 コンテンツ特定方法及び装置

Country Status (1)

Country Link
JP (1) JP4875911B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2927183B1 (fr) * 2008-01-31 2010-02-26 Alcatel Lucent Procede de generation de donnees permettant la recherche de complements de contenus, systeme, terminal et serveur pour la mise en oeuvre du procede
JP2010250827A (ja) * 2009-04-16 2010-11-04 Accenture Global Services Gmbh タッチポイントをカスタマイズするシステム
JP5435731B2 (ja) * 2010-04-21 2014-03-05 日本電信電話株式会社 コンシェルジュ装置、コンシェルジュサービスの提供方法及びコンシェルジュプログラム
JP5741242B2 (ja) * 2011-06-21 2015-07-01 コニカミノルタ株式会社 プロファイル更新装置およびその制御方法、ならびに、プロファイル更新用プログラム
US9779385B2 (en) 2011-06-24 2017-10-03 Facebook, Inc. Inferring topics from social networking system communications
JP5673520B2 (ja) * 2011-12-20 2015-02-18 株式会社Jvcケンウッド 情報処理装置、情報処理方法、及び情報処理プログラム
TWI654575B (zh) * 2012-07-19 2019-03-21 菲絲博克公司 以計算機實現的方法及計算機程式產品
US20140052540A1 (en) * 2012-08-20 2014-02-20 Giridhar Rajaram Providing content using inferred topics extracted from communications in a social networking system
CN111399756B (zh) * 2019-09-29 2024-01-02 杭州海康威视系统技术有限公司 一种数据存储方法、数据下载方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10326289A (ja) * 1997-03-28 1998-12-08 Nippon Telegr & Teleph Corp <Ntt> 情報提供方法、システムおよびそのプログラムを格納した記憶媒体
US7440943B2 (en) * 2000-12-22 2008-10-21 Xerox Corporation Recommender system and method
JP2003173352A (ja) * 2001-12-05 2003-06-20 Nippon Telegr & Teleph Corp <Ntt> 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体
JP2003173351A (ja) * 2001-12-05 2003-06-20 Nippon Telegr & Teleph Corp <Ntt> 情報解析、収集、検索方法、装置、プログラム、および記録媒体
JP4535765B2 (ja) * 2004-04-23 2010-09-01 富士通株式会社 コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置

Also Published As

Publication number Publication date
JP2007256992A (ja) 2007-10-04

Similar Documents

Publication Publication Date Title
KR101171405B1 (ko) 검색 결과에서 배치 내용 정렬의 맞춤화
JP4875911B2 (ja) コンテンツ特定方法及び装置
JP5632124B2 (ja) 格付け方法、検索結果並び替え方法、格付けシステム及び検索結果並び替えシステム
JP4350744B2 (ja) 地域情報検索結果の提供方法およびシステム
KR100932999B1 (ko) 사용자 정보 및 콘텐츠에 기초하여 자동으로 생성된 링크에의한 문서 브라우징
US7707208B2 (en) Identifying sight for a location
CN1858733B (zh) 信息检索系统和检索方法
US8812505B2 (en) Method for recommending best information in real time by appropriately obtaining gist of web page and user&#39;s preference
KR100645608B1 (ko) 사용자 방문 유알엘 로그를 이용한 정보 검색 서비스 제공 서버 및 그 방법
KR20070039072A (ko) 검색 엔진에서의 결과물 기반의 광고 개인화
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
KR20080096887A (ko) 사용자 관심도를 반영한 정보검색 랭킹 시스템 및 그 방법
JP2007334502A (ja) 検索装置、方法およびプログラム
JP2011154467A (ja) 検索結果順位付け方法および検索結果順位付けシステム
TWI417751B (zh) Information providing device, information providing method, information application program, and information recording medium
JP5313295B2 (ja) 文書探索サービス提供方法及びシステム
TWI399657B (zh) A provider, a method of providing information, a program, and an information recording medium
KR100900467B1 (ko) 개인 미디어 검색 서비스 시스템 및 방법
US20020062341A1 (en) Interested article serving system and interested article serving method
KR101132431B1 (ko) 관심 정보 제공 시스템 및 방법
JP2003173351A (ja) 情報解析、収集、検索方法、装置、プログラム、および記録媒体
KR101020895B1 (ko) 지역 정보 검색 결과 제공 방법 및 시스템
JP6228425B2 (ja) 広告生成装置および広告生成方法
KR20010082966A (ko) 관련 웹 사이트 제공 방법 및 시스템
JP2006508466A (ja) ウェブサイト情報を検索エンジンに登録するための方法及びこれを用いたウェブサイト検索サービス方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111108

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111128

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141202

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees