Nothing Special   »   [go: up one dir, main page]

JP4962979B2 - 流行語検知装置、方法及びシステム - Google Patents

流行語検知装置、方法及びシステム Download PDF

Info

Publication number
JP4962979B2
JP4962979B2 JP2008312707A JP2008312707A JP4962979B2 JP 4962979 B2 JP4962979 B2 JP 4962979B2 JP 2008312707 A JP2008312707 A JP 2008312707A JP 2008312707 A JP2008312707 A JP 2008312707A JP 4962979 B2 JP4962979 B2 JP 4962979B2
Authority
JP
Japan
Prior art keywords
program
buzzword
viewing log
user
viewing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008312707A
Other languages
English (en)
Other versions
JP2010134882A (ja
Inventor
陽一 山根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008312707A priority Critical patent/JP4962979B2/ja
Publication of JP2010134882A publication Critical patent/JP2010134882A/ja
Application granted granted Critical
Publication of JP4962979B2 publication Critical patent/JP4962979B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、流行語を検知する流行語検知装置、方法及びシステムに関する。
流行語は、社会の時流や風潮を端的に表し、ある時点で急激に普及する。このような流行語の普及する時点を把握できれば、社会の動向の一端を把握することも可能であるので、流行語をいち早く検知することの重要性が増している。例えば、流行語を検知するシステムとして、サーバの下で情報端末が流行語を検知する特許文献1が知られている。
特許文献1に記載されたシステムにおいて、情報端末はキーワードを管理するサーバから取得したキーワードの出現回数を管理するキーワード管理テーブルを有し、情報端末は受信したデータからキーワード管理テーブルに登録されているキーワードの出現を検知し、出現回数をカウントする。そして、出現回数によってキーワードを流行語として検知する。このようにして、サーバから常に新しいキーワードを取得し、常に新鮮なキーワードに基づいて流行語を検出できるようにしている。
特開2003−323433号公報
しかしながら、特許文献1では、キーワードを管理するサーバから取得したキーワードに基づいて流行語を検出するので、例えば、流行語の候補となるキーワードが判明している場合には、有効であるが、流行するか否かが全く未知の語句の中から流行語を検知することはできない。また、流行に敏感なユーザが情報端末を使用する場合には、流行語に関わる場合が多いので、出現回数によって流行語を検知できる可能性は高いが、保守的で嗜好の変化が起きにくい、いわゆるテイルユーザの場合には、流行語に関わることが少ないので、出現回数によって流行語を検知できる可能性は低い。
そして、このようなテイルユーザが使用し始めるキーワードが、いわゆるキャズムを超えた流行語として急激に普及する前兆である可能性が高いので、テイルユーザから流行語を検知することができる装置が望まれている。
本発明は、保守的で嗜好の変化が起きにくい、いわゆるテイルユーザから流行語を検知することができる流行語検知装置、方法及びシステムを提供することを目的とする。
本発明では、以下のような解決手段を提供する。
(1) ユーザが視聴している番組の視聴ログに基づいて流行語を検知する流行語検知装置であって、前記ユーザが視聴している番組を示す視聴ログを記憶する視聴ログ記憶手段と、前記視聴ログを解析して、前記ユーザが普段見ている番組である通常番組を抽出する通常番組抽出手段と、前記視聴ログを解析して、前記ユーザが普段見ていない番組であって実際に有意な時間視聴した特異番組を抽出する特異番組抽出手段と、前記特異番組抽出手段が抽出した前記特異番組のスクリプトデータを記憶したスクリプトデータベースに基づいて前記特異番組の特徴語を抽出し、抽出した前記特徴語を前記流行語として流行語記憶手段に記憶する流行語抽出手段と、を備えることを特徴とする流行語検知装置。
(1)の構成によれば、本発明に係る流行語検知装置は、ユーザが視聴している番組を示す視聴ログを記憶し、視聴ログを解析して、ユーザが普段見ている番組である通常番組を抽出し、視聴ログを解析して、ユーザが普段見ていない番組であって実際に有意な時間視聴した特異番組を抽出する。そして、抽出した特異番組のスクリプトデータを記憶したスクリプトデータベースに基づいて特異番組の特徴語を抽出し、抽出した特徴語を流行語として流行語記憶手段に記憶する。
すなわち、本発明に係る流行語検知装置は、視聴ログを解析して通常番組を抽出し、ユーザが普段見ていない番組であって実際に有意な時間視聴した特異番組を抽出し、その特異番組の特徴語を抽出する。例えば、保守的で嗜好の変化が起きにくい、いわゆるテイルユーザの視聴ログから特異番組を抽出すると、その特異番組には通常番組にはない、興味をそそられる、キャズムを超えつつある流行語を含んでいる可能性が高い。したがって、本発明に係る流行語検知装置は、特異番組の特徴語を抽出することによって、流行語を検知することができる。
(2) 前記視聴ログを解析して、前記特異番組以前に前記ユーザが視聴していた番組であって有意な時間視聴した番組である切替元番組を抽出する切替元番組抽出手段を更に備え、前記流行語抽出手段は、前記抽出した切替元番組のスクリプトデータを記憶したスクリプトデータベースに基づいて、前記抽出した特異番組の特徴語であって更に前記切替元番組のスクリプトデータにも含まれるものを前記流行語として前記流行語記憶手段に記憶することを特徴とする(1)に記載の流行語検知装置。
(2)の構成によれば、(1)に記載の流行語検知装置は、視聴ログを解析して、特異番組以前にユーザが視聴していた番組であって有意な時間視聴した番組である切替元番組を、更に抽出し、抽出した切替元番組のスクリプトデータを記憶したスクリプトデータベースに基づいて、抽出した特異番組の特徴語であって更に切替元番組のスクリプトデータにも含まれるものを流行語として流行語記憶手段に記憶する。
すなわち、(2)に記載の流行語検知装置は、抽出した特異番組に切り替える前の切替元番組を更に抽出し、抽出した特異番組の特徴語であって更に切替元番組にも含まれるものを流行語として記憶する。例えば、いわゆるテイルユーザの視聴ログから抽出した特異番組により抽出した特徴語は流行語である可能性が高く、その特異番組から抽出した特徴語が、切替元番組にも含まれる特徴語である場合には、流行語である可能性は更に高い。したがって、本発明に係る流行語検知装置は、特異番組の特徴語であって、切替元番組に含まれるものを抽出することによって、流行語を検知する精度を向上することができる。
(3) ユーザが視聴している番組の視聴ログに基づいて流行語を検知する方法であって、前記ユーザが視聴している番組を示す視聴ログを視聴ログ記憶手段に記憶するステップと、前記視聴ログを解析して、前記ユーザが普段見ている番組である通常番組を抽出するステップと、前記視聴ログを解析して、前記ユーザが普段見ていない番組であって実際に有意な時間視聴した特異番組を抽出するステップと、抽出した前記特異番組のスクリプトデータを記憶したスクリプトデータベースに基づいて前記特異番組の特徴語を抽出し、抽出した前記特徴語を前記流行語として流行語記憶手段に記憶するステップと、を備えることを特徴とする方法。
すなわち、本発明に係る方法は、視聴ログを解析して通常番組を抽出し、ユーザが普段見ていない番組であって実際に有意な時間視聴した特異番組を抽出し、その特異番組の特徴語を抽出する。例えば、保守的で嗜好の変化が起きにくい、いわゆるテイルユーザの視聴ログから特異番組を抽出すると、その特異番組には通常番組にはない、興味をそそられるキャズムを超えた流行語を含んでいる可能性が高い。したがって、本発明に係る方法は、特異番組の特徴語を抽出することによって、流行語を検知することができる。
(4) ユーザが視聴するTV端末と、前記ユーザが視聴している番組の視聴ログに基づいて流行語を検知する流行語検知装置とを備える流行語検知システムであって、前記流行語検知装置は、前記ユーザが視聴している番組を示す視聴ログを記憶する視聴ログ記憶手段と、前記視聴ログを解析して、前記ユーザが普段見ている番組である通常番組を抽出する通常番組抽出手段と、前記視聴ログを解析して、前記ユーザが普段見ていない番組であって実際に有意な時間視聴した特異番組を抽出する特異番組抽出手段と、前記特異番組抽出手段が抽出した前記特異番組のスクリプトデータを記憶したスクリプトデータベースに基づいて前記特異番組の特徴語を抽出し、抽出した前記特徴語を前記流行語として流行語記憶手段に記憶する流行語抽出手段と、を備え、前記TV端末は、前記ユーザが視聴している番組の視聴ログを送信する送信手段を備える、ことを特徴とする流行語検知システム。
すなわち、本発明に係る流行語検知システムにおいて、ユーザが視聴するTV端末は、ユーザが視聴している番組の視聴ログを送信する。そして、流行語検知装置は、受信した視聴ログを解析して通常番組を抽出し、ユーザが普段見ていない番組であって実際に有意な時間視聴した特異番組を抽出し、その特異番組の特徴語を抽出する。例えば、保守的で嗜好の変化が起きにくい、いわゆるテイルユーザの視聴ログから特異番組を抽出すると、その特異番組には通常番組にはない、興味をそそられるキャズムを超えた流行語を含んでいる可能性が高い。したがって、本発明に係る流行語検知システムは、特異番組の特徴語を抽出することによって、流行語を検知することができる。
本発明によれば、保守的で嗜好の変化が起きにくい、いわゆるテイルユーザから流行語を検知することができる流行語検知装置、方法及びシステムを提供することができる。
以下、本発明の実施形態について図を参照しながら説明する。
図1は、本発明の特徴を示す図である。本発明の一実施形態に係る流行語検知装置10は、視聴ログ記憶手段として視聴ログDB31(データベース)と、通常番組抽出手段として通常番組抽出部11と、特異番組抽出手段として特異番組抽出部12と、流行語抽出手段として流行語抽出部13と、流行語記憶手段として流行語DB41(データベース)と、を備えている。
視聴ログDB31は、ユーザが視聴している番組を示す視聴ログを記憶する。例えば、視聴ログは、番組ごとに受信した情報であって、番組名、視聴時間帯、視聴時間等から構成される。
通常番組抽出部11は、視聴ログを解析して、ユーザが普段見ている番組である通常番組を抽出する。視聴ログの解析は、例えば、受信した視聴ログの番組の視聴時間帯及び番組名と同じ視聴時間帯及び番組名の番組があるか否か、同じ視聴時間帯及び番組名の視聴回数が所定の回数より多いか否かを解析し、ユーザが普段見ている通常番組であるか否かを判断する。また、視聴ログの解析は、予め定めた分類に基づいて、受信した視聴ログの番組がどの分類に属する番組であるかを解析し、受信した視聴ログの番組が属する分類ごとの視聴回数を算出し、ユーザが普段見ている通常番組であるか否かを判断してもよい。
通常番組抽出部11は、このようにして抽出した通常番組のスクリプトデータを取得し、取得したスクリプトデータを解析し、例えば、受信した視聴ログの番組が属する分類において頻繁に使われる用語を除いて、抽出した頻出語の列を作成し、通常番組に関する情報として視聴ログDB31に記憶する。ここで、スクリプトデータは、ユーザが視聴する番組に対応付けてスクリプトDB51に記憶されている。
特異番組抽出部12は、視聴ログを解析して、ユーザが普段見ていない番組であって実際に有意な時間視聴した特異番組を抽出する。ここで、有意な時間とは、例えば、番組を視聴した時間が所定の時間より長い場合をいう。すなわち、特異番組抽出部12は、通常番組抽出部11が通常番組と判断しなかった番組の中で実際に視聴した番組の視聴ログを解析して取得した、受信した視聴ログの番組に関する情報と、通常番組抽出部11が抽出した通常番組に関する情報と、を比較して、通常番組とは異なる、ユーザが普段見ていない番組である特異番組を抽出する。
上述の、受信した視聴ログの番組に関する情報は、受信した視聴ログの番組のスクリプトデータを取得し、取得したスクリプトデータを解析し、例えば、受信した視聴ログの番組が属する分類において頻繁に使われる用語を除いて、抽出した頻出語である。そして、特異番組抽出部12は、受信した視聴ログの番組の頻出語の列と、通常番組抽出部11が通常番組と判断した番組の頻出語の列とを、頻出回数に基づく重み付けの下で比較し、算出した類似度に基づいてユーザが普段見ていない特異番組であるか否かを判断することができる。
流行語抽出部13は、特異番組抽出部12が抽出した特異番組のスクリプトデータを記憶したスクリプトDB51に基づいて特異番組の特徴語を抽出し、抽出した特徴語を流行語として流行語DB41に記憶する。例えば、特異番組に対応付けられたスクリプトデータからの特徴語の抽出は、スクリプトデータに含まれるテキストデータごとを文書として捉え、形態素分割して求めたキーワードの中からTFIDF法により特徴語を抽出する。
ここで、形態素(morpheme)とは、意味を持つ最小の言語単位のことで、自然言語で書かれた文章を分割する際に利用される言語単位である。例えば、「今日はいい天気です」は、「今日/は/いい/天気/です」に分割される。TFIDF法は、語の出現頻度に基づいてキーワードを重みづける方法であり、TFIDF法により計算されるTFIDF値はTFとIDFに分かれる。TFはTerm Frequency (語彙頻度)であり、単語の出現頻度を表す。IDFはInverse Document Frequency(文書頻度の逆数)であり、多くの文書に出現する一般的な語の重要度を下げ、特定の文書にしか出現しない単語の重要度を上げる。すなわち、TFIDF値は、TFとIDFとの積により、テキストデータ全体において出現する語ではなく、特定の文書に偏って出現する語を示す指標をあらわす。以下の実施例では、TFIDF法を主体に説明しているが、特徴キーワードの抽出はTFIDF法以外にもテキスト・マイニングでは多数知られており、(例えば、文書クラスタリング等)、それらの公知技術を用いることを排除するものではない。
すなわち、流行語抽出部13は、スクリプトデータに含まれるテキストデータ全体を文書集合と捉え、文書集合を構成する文書ごとを形態素分割してキーワードを抽出する。そして、抽出したキーワードの中から、例えば、TFIDF値が所定の閾値より高い特徴語を抽出し、流行語として流行語DB41に記憶する。
更に、流行語抽出部13は、テキスト文を自然言語処理することにより、共起が発生している語を検出し、流行している語句を抽出することもできる。共起を検出する条件として、例えば、同一文内で前後の単語とする。これらの条件は、処理時に指定可能である。第1の語と共起する第2の語との関係の強さを測る尺度としては、相互情報量を求める方法や、シンプソン係数を用いた計算方法を用いることができる。流行語抽出部13は、このようにして求めた特徴語によって構成される句を流行語として抽出する。
図2は、本発明の一実施形態に係る流行語検知装置10の機能を示す機能ブロック図である。本発明の一実施形態に係る流行語検知装置10は、本発明の特徴として図1で説明した構成に加えて、更に、切替元番組抽出手段として切替元番組抽出部14と、視聴ログ受付部15とを備える。
視聴ログ受付部15は、視聴ログを、TV端末70や、TV端末70のリモコンとしての携帯電話60等からネットワーク(例えば、インターネット等)を介して受信し、視聴ログDB31に記憶する。
切替元番組抽出部14は、視聴ログを解析して、特異番組以前にユーザが視聴していた番組であって有意な時間視聴した番組である切替元番組を抽出する。例えば、有意な時間視聴した番組という条件の他に、有意な時間視聴した番組の中で直前の番組であることや、有意な時間視聴した番組の中で同じ日の番組であること等の条件の下に切替元番組を抽出する。このような条件により、特異番組へ切り替える契機となった番組を抽出することができる。
流行語抽出部13は、抽出した切替元番組のスクリプトデータを記憶したスクリプトDB51に基づいて、抽出した特異番組の特徴語であって更に切替元番組のスクリプトデータにも含まれるものを流行語として流行語DB41に記憶する。特異番組の特徴語であって、切替元番組にも含まれる場合には、その特徴語が特異番組へ切り替える契機となった可能性が高く、そのような特徴語は、流行語である可能性が高い。
図3は、本発明の一実施形態に係る流行語検知装置10のハードウェア構成の一例を示す図である。流行語検知装置10は、CPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、USBポート1090、I/Oコントローラ1070、並びにキーボード及びマウス1100等の入力手段や表示装置1022を備える。
I/Oコントローラ1070には、テープドライブ1072、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078、等の記憶手段を接続することができる。
BIOS1060は、流行語検知装置10の起動時にCPU1010が実行するブートプログラムや、流行語検知装置10のハードウェアに依存するプログラム等を格納する。
ハードディスク1074は、流行語検知装置10が本発明の機能を実行するためのプログラムを記憶しており、更に、視聴ログDB31、流行語DB41等の各種データベースを構成可能である。
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。また、同様にテープドライブ1072に対応したテープメディア1071を主としてバックアップのために使用することもできる。
流行語検知装置10に提供されるプログラムは、ハードディスク1074、光ディスク1077、又はメモリカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、又は通信I/F1040を介してダウンロードされることによって、流行語検知装置10にインストールされ実行されてもよい。
前述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、記憶媒体としては、ハードディスク1074、光ディスク1077、又はメモリカードの他に、MD等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク又は光ディスクライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してプログラムを流行語検知装置10に提供してもよい。
ここで、表示装置1022は、流行語検知装置10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
また、通信I/F1040は、流行語検知装置10を専用ネットワーク又は公共ネットワークを介して端末(例えば、ユーザのTV端末70、携帯電話60等)と接続できるようにするためのネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
図4は、本発明の一実施形態に係る視聴ログDB31を示す図である。
視聴ログDB31は、ユーザごとに、視聴ログを記憶している。視聴ログは、視聴ログごとに設けた視聴ログIDと、番組の番組名及び抽出情報(通常番組、特異番組又はその他の情報)等である視聴番組と、番組ごとの視聴番組IDと、切り替えた番組の番組名等である切替先番組と、視聴を開始した時刻及び終了した時刻である視聴時間帯と、視聴した時間である視聴時間と、番組に関する情報とを記憶している。番組に関する情報は、番組が属する分類の種別と、同じ番組を見た延べ回数と、番組のスクリプトデータを解析して得た頻出語とから構成される。
図5は、本発明の一実施形態に係る流行語検知装置10の処理内容を示すフローチャートである。なお、本処理は、例えば、ユーザが番組を見終わる(番組を切り替える)ごとに視聴ログを受信して開始し、処理し、終了する。
ステップS101において、CPU1010は、視聴ログを受信する。より具体的には、CPU1010は、TV端末70又はTV端末70のリモコンとしての携帯電話60等からインターネットを介して、ユーザが視聴した番組の視聴ログを受信する。受信した視聴ログは、番組名、視聴時間帯、視聴時間等から構成される。その後、CPU1010は、処理をステップS102に移す。
ステップS102において、CPU1010は、受信した視聴ログを視聴ログDB31に記憶する。その後、CPU1010は、処理をステップS103に移す。
ステップS103において、CPU1010は、通常番組抽出処理を行う(後述する図6参照)。その後、CPU1010は、処理をステップS104に移す。
ステップS104において、CPU1010は、通常番組抽出処理が通常番組を抽出したか否かを判断する。この判断がYESの場合は処理を終了し、NOの場合は処理をステップS105に移す。
ステップS105において、CPU1010は、特異番組抽出処理(後述する図7参照)を行う。その後、CPU1010は、処理をステップS106に移す。
ステップS106において、CPU1010は、特異番組抽出処理が特異番組を抽出したか否かを判断する。この判断がYESの場合は処理をステップS107に移し、NOの場合は処理を終了する。
ステップS107において、CPU1010は、特徴語を抽出する。より具体的には、CPU1010は、抽出した特異番組のスクリプトデータをスクリプトDB51から取得する。取得したスクリプトデータに含まれるテキストデータごとを文書として捉え、形態素分割して求めたキーワードの中からTFIDF法により特徴語を抽出する。その後、CPU1010は、処理をステップS108に移す。
ステップS108において、CPU1010は、抽出した特徴語を流行語DB41に記憶する。その後、CPU1010は、処理をステップS109に移す。
ステップS109において、CPU1010は、切替元番組処理(後述する図8参照)をする。その後、CPU1010は、処理を終了する。
図6は、本発明の一実施形態に係る流行語検知装置10の通常番組抽出処理を示すフローチャートである。
ステップS201において、CPU1010は、受信した視聴ログを取得する。その後、CPU1010は、処理をステップS202に移す。
ステップS202において、CPU1010は、受信した視聴ログが示す番組の視聴時間帯と、同じ視聴時間帯の番組があるか否かを判断する。この判断がYESの場合は処理をステップS203に移し、NOの場合は処理を終了し、本処理に移るステップの次のステップに戻す。
ステップS203において、CPU1010は、受信した視聴ログが示す番組を分類した種別は、同じ種別か否かを判断する。より具体的には、CPU1010は、同じ視聴時間帯の番組を分類した種別と、受信した視聴ログが示す番組を分類した種別と、を比較し、同じか否かを判断する。この判断がYESの場合は処理をステップS204に移し、NOの場合は処理を終了し、本処理に移るステップの次のステップに戻す。
ステップS204において、CPU1010は、視聴回数は所定回数以上か否かを判断する。より具体的には、CPU1010は、受信した視聴ログが示す番組が属する分類の視聴回数をアップし、アップした回数が所定回数(例えば、10回)以上か否かを判断する。この判断がYESの場合は処理をステップS205に移し、NOの場合は処理を終了し、本処理に移るステップの次のステップに戻す。
ステップS205において、CPU1010は、通常番組に関する情報を抽出する。より具体的には、CPU1010は、受信した視聴ログが示す番組のスクリプトデータを取得し、取得したスクリプトデータを解析し、当該番組が属する分類において頻繁に使われる用語を除いて、抽出した頻出語の列を作成し、通常番組に関する情報として視聴ログDB31に記憶する。その後、CPU1010は、処理を終了し、本処理に移るステップの次のステップに戻す。
図7は、本発明の一実施形態に係る流行語検知装置10の特異番組抽出処理を示すフローチャートである。
ステップS301において、CPU1010は、受信した視聴ログの番組に関する情報を作成する。より具体的には、CPU1010は、受信した視聴ログの番組のスクリプトデータを取得し、取得したスクリプトデータを解析し、受信した視聴ログの番組が属する分類において頻繁に使われる用語を除いて、抽出した頻出語の列を作成する。その後、CPU1010は、処理をステップS302に移す。
ステップS302において、CPU1010は、通常番組との類似度は所定値以下か否かを判断する。より具体的には、CPU1010は、受信した視聴ログの番組の頻出語の列と、通常番組抽出部11が通常番組と判断した番組の頻出語の列とを、頻出回数に基づく重み付けの下で比較し、類似度を算出する。そして、算出した類似度が所定値以下か否かを判断する。この判断がYESの場合は、処理をステップS303に移し、NOの場合は処理を終了し、本処理に移るステップの次のステップに戻す。
ステップS303において、CPU1010は、視聴時間は所定の時間以上か否かを判断する。より具体的には、CPU1010は、受信した視聴ログの番組の視聴ログの視聴時間が所定の時間(例えば、3分)以上か否かを判断する。この判断がYESの場合は、処理をステップS304に移し、NOの場合は処理を終了し、本処理に移るステップの次のステップに戻す。
ステップS304において、CPU1010は、受信した視聴ログの番組を特異番組として抽出し、視聴ログDB31に記憶する。その後、CPU1010は、処理を終了し、本処理に移るステップの次のステップに戻す。
図8は、本発明の一実施形態に係る流行語検知装置10の切替元番組処理を示すフローチャートである。
ステップS401において、CPU1010は、特異番組として抽出した番組より以前の番組を取得する。より具体的には、CPU1010は、視聴ログDB31に基づいて、特異番組として抽出した番組の視聴時間帯より以前の視聴時間帯の視聴ログを取得する。その後、CPU1010は、処理をステップS402に移す。
ステップS402において、CPU1010は、取得した視聴ログの視聴時間は所定の時間(例えば、3分)より長いか否かを判断する。この判断がYESの場合は、処理をステップS403に移し、NOの場合は処理をステップS401に移し、視聴ログDB31に基づいて更に以前に遡って視聴ログを取得する。
ステップS403において、CPU1010は、流行語で検索する。より具体的には、CPU1010は、取得した以前の番組のスクリプトデータを、特異番組として抽出した番組から抽出した特徴語(すなわち、流行語)に基づいて検索する。その後、CPU1010は、処理をステップS404に移す。
ステップS404において、CPU1010は、流行語を検出か否かを判断する。より具体的には、CPU1010は、取得した以前の番組のスクリプトデータに出現する語句と、特異番組として抽出した番組から抽出した特徴語(すなわち、流行語)とを比較する。比較する際に、語尾の変化の相違や、文字種の相違(ひらがな、カタカナ等)等は所定の範囲内であれば同一として比較する。そして、CPU1010は、流行語で検索した結果、同一の範囲内で流行語と同じ語を検出したか否かを判断する。この判断がYESの場合は、処理をステップS405に移し、NOの場合は処理を終了し、本処理に移るステップの次のステップに戻す。
ステップS405において、CPU1010は、検出した流行語を流行語DB41に記憶する。すなわち、CPU1010は、特異番組として抽出した番組から抽出した流行語のうち、切替元番組にも含まれる流行語を流行語DB41に記憶する。その後、CPU1010は、処理を終了し、本処理に移るステップの次のステップに戻す。
図9は、本発明の一実施形態に係る流行語DB41を示す図である。
流行語DB41は、ユーザごとに、受信した視聴ログの番組から抽出した流行語と、切替元番組から検出した流行語とを記憶している。例えば、図9の例は、受信した視聴ログの番組から、「×○喜劇」、「○○太郎」及び「関係ない」を特徴語として抽出し、切替元番組のスクリプトデータを「×○喜劇」、「○○太郎」及び「関係ない」に基づいて検索し、「○○太郎」及び「関係ない」を更に検出したことを示している。
実施例によれば、流行語検知装置10は、ユーザが視聴している番組を示す視聴ログを視聴ログDB31に記憶し、視聴ログを解析して、ユーザが普段見ている番組である通常番組を抽出し、視聴ログを解析して、ユーザが普段見ていない番組であって実際に有意な時間視聴した特異番組を抽出する。そして、抽出した特異番組のスクリプトデータを記憶したスクリプトDB51に基づいて特異番組の特徴語を抽出し、抽出した特徴語を流行語として流行語DB41に記憶する。例えば、保守的で嗜好の変化が起きにくい、いわゆるテイルユーザの視聴ログから特異番組を抽出すると、その特異番組には通常番組にはない、興味をそそられる、キャズムを超えつつある流行語を含んでいる可能性が高い。したがって、本実施例によれば、流行語検知装置10は、特異番組の特徴語を抽出することによって、流行語を検知することができる。
更に、流行語検知装置10は、視聴ログを解析して、特異番組以前にユーザが視聴していた番組であって有意な時間視聴した番組である切替元番組を、更に抽出し、抽出した切替元番組のスクリプトデータを記憶したスクリプトDB51に基づいて、抽出した特異番組の特徴語であって更に切替元番組のスクリプトデータにも含まれるものを流行語として流行語DB41に記憶する。すなわち、流行語検知装置10は、抽出した特異番組に切り替える前の切替元番組を更に抽出し、抽出した特異番組の特徴語であって更に切替元番組にも含まれるものを流行語として記憶する。例えば、いわゆるテイルユーザの視聴ログから抽出した特異番組から抽出した特徴語は流行語である可能性が高く、その特異番組から抽出した特徴語が、切替元番組にも含まれる特徴語である場合には、流行語である可能性は更に高い。したがって、本実施例によれば、流行語検知装置10は、特異番組の特徴語であって、切替元番組に含まれるものを抽出することによって、流行語を検知する精度を向上することができる。
なお、実施例では、ユーザが番組を視聴し終わるごとに、流行語検知装置10は、視聴ログを受信し、受信した視聴ログの番組が通常番組か否かを判断し、通常番組でない場合に特異番組であるか否かの判断をするとしたが、例えば、1週間ごとに、視聴ログDB31に基づいて、通常番組及び特異番組の判断をするとしてもよい。保守的で嗜好の変化が起きにくいユーザにおける変化を通常番組及び特異番組の判断に、より反映させることができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
本発明の特徴を示す図である。 本発明の一実施形態に係る流行語検知装置10の機能を示す機能ブロック図である。 本発明の一実施形態に係る流行語検知装置10のハードウェア構成の一例を示す図である。 本発明の一実施形態に係る視聴ログDB31を示す図である。 本発明の一実施形態に係る流行語検知装置10の処理内容を示すフローチャートである。 本発明の一実施形態に係る流行語検知装置10の通常番組抽出処理を示すフローチャートである。 本発明の一実施形態に係る流行語検知装置10の特異番組抽出処理を示すフローチャートである。 本発明の一実施形態に係る流行語検知装置10の切替元番組処理を示すフローチャートである。 本発明の一実施形態に係る流行語DB41を示す図である。
符号の説明
10 流行語検知装置
11 通常番組抽出部
12 特異番組抽出部
13 流行語抽出部
14 切替元番組抽出部
15 視聴ログ受付部
31 視聴ログDB
41 流行語DB

Claims (4)

  1. ユーザが視聴している番組の視聴ログに基づいて流行語を検知する流行語検知装置であって、
    前記ユーザが視聴している番組を示す視聴ログを記憶する視聴ログ記憶手段と、
    前記視聴ログを解析して、前記ユーザが普段見ている番組である通常番組を抽出する通常番組抽出手段と、
    前記視聴ログを解析して、前記ユーザが普段見ていない番組であって実際に有意な時間視聴した特異番組を抽出する特異番組抽出手段と、
    前記特異番組抽出手段が抽出した前記特異番組のスクリプトデータを記憶したスクリプトデータベースに基づいて前記特異番組の特徴語を抽出し、抽出した前記特徴語を前記流行語として流行語記憶手段に記憶する流行語抽出手段と、
    を備えることを特徴とする流行語検知装置。
  2. 前記視聴ログを解析して、前記特異番組以前に前記ユーザが視聴していた番組であって有意な時間視聴した番組である切替元番組を抽出する切替元番組抽出手段を更に備え、
    前記流行語抽出手段は、前記抽出した切替元番組のスクリプトデータを記憶したスクリプトデータベースに基づいて、前記抽出した特異番組の特徴語であって更に前記切替元番組のスクリプトデータにも含まれるものを前記流行語として前記流行語記憶手段に記憶することを特徴とする請求項1に記載の流行語検知装置。
  3. ユーザが視聴している番組の視聴ログに基づいて流行語を検知する方法であって、
    前記ユーザが視聴している番組を示す視聴ログを視聴ログ記憶手段に記憶するステップと、
    前記視聴ログを解析して、前記ユーザが普段見ている番組である通常番組を抽出するステップと、
    前記視聴ログを解析して、前記ユーザが普段見ていない番組であって実際に有意な時間視聴した特異番組を抽出するステップと、
    抽出した前記特異番組のスクリプトデータを記憶したスクリプトデータベースに基づいて前記特異番組の特徴語を抽出し、抽出した前記特徴語を前記流行語として流行語記憶手段に記憶するステップと、
    を備えることを特徴とする方法。
  4. ユーザが視聴するTV端末と、前記ユーザが視聴している番組の視聴ログに基づいて流行語を検知する流行語検知装置とを備える流行語検知システムであって、
    前記流行語検知装置は、
    前記ユーザが視聴している番組を示す視聴ログを記憶する視聴ログ記憶手段と、
    前記視聴ログを解析して、前記ユーザが普段見ている番組である通常番組を抽出する通常番組抽出手段と、
    前記視聴ログを解析して、前記ユーザが普段見ていない番組であって実際に有意な時間視聴した特異番組を抽出する特異番組抽出手段と、
    前記特異番組抽出手段が抽出した前記特異番組のスクリプトデータを記憶したスクリプトデータベースに基づいて前記特異番組の特徴語を抽出し、抽出した前記特徴語を前記流行語として流行語記憶手段に記憶する流行語抽出手段と、を備え、
    前記TV端末は、
    前記ユーザが視聴している番組の視聴ログを送信する送信手段を備える、
    ことを特徴とする流行語検知システム。
JP2008312707A 2008-12-08 2008-12-08 流行語検知装置、方法及びシステム Expired - Fee Related JP4962979B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008312707A JP4962979B2 (ja) 2008-12-08 2008-12-08 流行語検知装置、方法及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008312707A JP4962979B2 (ja) 2008-12-08 2008-12-08 流行語検知装置、方法及びシステム

Publications (2)

Publication Number Publication Date
JP2010134882A JP2010134882A (ja) 2010-06-17
JP4962979B2 true JP4962979B2 (ja) 2012-06-27

Family

ID=42346087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008312707A Expired - Fee Related JP4962979B2 (ja) 2008-12-08 2008-12-08 流行語検知装置、方法及びシステム

Country Status (1)

Country Link
JP (1) JP4962979B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004072486A (ja) * 2002-08-07 2004-03-04 Mitsubishi Electric Corp 放送受信機
JP2007140603A (ja) * 2005-11-14 2007-06-07 Nippon Telegr & Teleph Corp <Ntt> アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム
JP4909033B2 (ja) * 2006-11-30 2012-04-04 富士通株式会社 番組検索装置

Also Published As

Publication number Publication date
JP2010134882A (ja) 2010-06-17

Similar Documents

Publication Publication Date Title
Kestemont et al. Cross-genre authorship verification using unmasking
US20060149557A1 (en) Sentence displaying method, information processing system, and program product
US20130061139A1 (en) Server-based spell checking on a user device
WO2016008452A1 (zh) 高效输入的预测方法和装置
CN109558513B (zh) 一种内容推荐方法、装置、终端及存储介质
CN106708905B (zh) 视频内容搜索方法和装置
CN101118560A (zh) 关键词输出设备和关键词输出方法
BRPI0610113A2 (pt) sistema e método para utilizar conteúdo de uma conversação em linha direta para selecionar conteúdo de anúncio e/ou outra informação relevante para exibição
US20140324416A1 (en) Method of automated analysis of text documents
US20130060560A1 (en) Server-based spell checking
CN109275047B (zh) 视频信息处理方法及装置、电子设备、存储介质
CN113076735B (zh) 目标信息的获取方法、装置和服务器
CN112562684B (zh) 一种语音识别方法、装置和电子设备
US10073828B2 (en) Updating language databases using crowd-sourced input
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
EP4174683A1 (en) Data evaluation method and apparatus, training method and apparatus, and electronic device and storage medium
KR101541306B1 (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
CN112631437A (zh) 信息推荐方法、装置及电子设备
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN110430448B (zh) 一种弹幕处理方法、装置及电子设备
JP4962979B2 (ja) 流行語検知装置、方法及びシステム
US20230112385A1 (en) Method of obtaining event information, electronic device, and storage medium
CN111261157A (zh) 一种短视频的控制方法、装置、设备及存储介质
CN108304367B (zh) 分词方法及装置
CN115828893A (zh) 非结构化文档问答的方法、装置、存储介质和设备

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120319

R150 Certificate of patent or registration of utility model

Ref document number: 4962979

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371